您的位置：首页>会员>学生会员研修营>活动新闻

数据驱动的遥感视觉语言大模型｜SPP第158期

阅读量:15 2026-05-21 收藏本文

遥感视觉语言大模型是人工智能技术在对地观测领域的重要突破，其核心在于融合遥感影像与自然语言，实现对地球表面特征的深度语义理解与跨模态交互推理。与传统针对单一任务的专用模型不同，该类模型采用统一的自然语言交互范式，用户通过自然语言指令（如“检测无人机图像中的红色跑车”或“分析该区域近五年的植被变化”）即可驱动模型完成分析，无需针对不同任务重新设计算法。该模型的核心优势是能够在单一架构下统一处理图像级、区域级和像素级等不同粒度的任务。为训练此类模型，研究者构建了大规模遥感指令微调数据集，有效提升了模型在对地观测领域的泛化与推理能力。目前，该技术已在环境动态监测、智慧城市管理、灾害应急响应等领域展现出巨大的应用潜力。欢迎关注本期SPP：12月17日（本周三）19:30–21:00。

本期直播你将收获哪些

1、了解遥感视觉语言大模型的发展脉络；

2、了解遥感视觉语言大模型的前沿研究进展；

3、学习遥感视觉语言数据集的构建思路。

演讲嘉宾

周越

华东师范大学空间人工智能学院副教授

周越，博士，华东师范大学空间人工智能学院副教授。2024年博士毕业于上海交通大学电子系雷达信号处理实验室，之后在南洋理工大学S-Lab从事博士后研究工作，期间获得上海交通大学思源博士后海外项目支持。目前主要从事遥感视觉语言大模型和低空智能体方面研究，在遥感和人工智能领域期刊会议发表论文40余篇，谷歌学术引用4000余次，包括在遥感领域顶级期刊ISPRS Journal of Photogrammetry and Remote Sensing (1篇)、以及IEEE Transactions on Geoscience and Remote Sensing（2篇）以第一作者发表研究型论文。他从零构建并开源了上海人工智能实验室 OpenMMLab 旗下知名有向目标检测框架 MMRotate（发表于 CCF-A 级会议 ACM MM，单篇引用 425 次，Github Star 2.1k），同时也是 MMDetection，AlphaRotate 和 JDet 等开源框架的核心贡献者。曾获启元国家实验室“启智杯”多模态大模型对抗挑战赛、“天智杯”人工智能挑战赛亚军。

CCF学生会员研修营

数据驱动的遥感视觉语言大模型｜SPP第158期