返回首页

数据驱动的遥感视觉语言大模型|SPP第158期

阅读量:0 2026-05-21 收藏本文

遥感视觉语言大模型是人工智能技术在对地观测领域的重要突破,其核心在于融合遥感影像与自然语言,实现对地球表面特征的深度语义理解与跨模态交互推理。与传统针对单一任务的专用模型不同,该类模型采用统一的自然语言交互范式,用户通过自然语言指令(如“检测无人机图像中的红色跑车”或“分析该区域近五年的植被变化”)即可驱动模型完成分析,无需针对不同任务重新设计算法。该模型的核心优势是能够在单一架构下统一处理图像级、区域级和像素级等不同粒度的任务。为训练此类模型,研究者构建了大规模遥感指令微调数据集,有效提升了模型在对地观测领域的泛化与推理能力。目前,该技术已在环境动态监测、智慧城市管理、灾害应急响应等领域展现出巨大的应用潜力。欢迎关注本期SPP1217日(本周三)19:3021:00

本期直播你将收获哪些

1了解遥感视觉语言大模型的发展脉络

2了解遥感视觉语言大模型的前沿研究进展

3学习遥感视觉语言数据集的构建思路

演讲嘉宾


周越

华东师范大学空间人工智能学院副教授

周越,博士,华东师范大学空间人工智能学院副教授。2024年博士毕业于上海交通大学电子系雷达信号处理实验室,之后在南洋理工大学S-Lab从事博士后研究工作,期间获得上海交通大学思源博士后海外项目支持。目前主要从事遥感视觉语言大模型和低空智能体方面研究,在遥感和人工智能领域期刊会议发表论文40余篇,谷歌学术引用4000余次,包括在遥感领域顶级期刊ISPRS Journal of Photogrammetry and Remote Sensing (1)、以及IEEE Transactions on Geoscience and Remote Sensing2篇)以第一作者发表研究型论文。他从零构建并开源了上海人工智能实验室 OpenMMLab 旗下知名有向目标检测框架 MMRotate(发表于 CCF-A 级会议 ACM MM,单篇引用 425 次,Github Star 2.1k),同时也是 MMDetectionAlphaRotate JDet 等开源框架的核心贡献者。曾获启元国家实验室“启智杯”多模态大模型对抗挑战赛、“天智杯”人工智能挑战赛亚军。