您的位置：首页>会员>学生会员研修营>活动新闻

多模态基础模型驱动的感知新范式｜SPP第152期

阅读量:14 2026-05-21 收藏本文

在人工智能（AI）和计算机视觉（CV）快速发展的领域，视觉语言模型（VLMs）以及视觉基础模型（SAM2）正在为解决高难度感知任务开辟新路径。本期SPP报告将探讨一系列创新方法，利用这些强大工具突破少样本学习、伪装视频目标检测以及长时间视频跟踪等方面的局限。首先，将介绍基于视觉语言模型的广义少样本3D点云分割，该方法通过整合VLMs，在极少样本条件下实现高效、泛化的3D点云分割。其次，介绍一种可在伪装视频中精准分割任意目标的方法，其将SAM2扩展至动态视频中的伪装场景。最后，提出通过层次化运动估计与内存优化提升SAM2的长时序跟踪能力，增强SAM2在长序列中的性能。通过优化内存占用并进行多尺度运动估计，实现长时间可靠跟踪，有效缓解目标漂移。这些工作展示了VLMs与基础模型如何适应真实世界感知难题，为构建更通用更鲁邦的AI系统铺平道路。报告将讨论核心思想、实验结果以及该领域的未来方向。欢迎关注本期SPP：11月5日（本周三）19:30–21:00。

本期直播你将收获哪些

1、了解当前流行的视觉语言模型和基础模型；

2、理解当前的复杂感知挑战；

3、掌握多模态基础模型对复杂感知的提升方法；

4、相关领域的前沿趋势。

演讲嘉宾

孙国磊

南开大学教授

南开大学计算机学院教授、博导，国家级青年人才。博士毕业于瑞士苏黎世理工学院（ETH Zurich），师从国际计算机视觉顶尖科学家Luc Van Gool教授（计算机视觉最高奖Marr奖获得者，谷歌学术总引用27万余次）。并随后担任博士后研究员。曾在阿联酋人工智能研究院任研究工程师，在美国大公司Meta、Adobe任研究科学家（实习）。研究方向为计算机视觉、视频理解、多模态大模型的应用与压缩。在CCF-A类等国际顶级期刊和会议上发表论文40余篇（含多篇Oral/Spotlight），授权国际/国内专利2 项，谷歌学术论文总引用8800余次。曾获CVPR、ICCV研讨会最佳论文奖，CVPR研讨会弱监督分割挑战赛冠军。作为核心成员参与瑞士 “私人化医疗与相关技术”项目。研究成果曾获英国国际媒体《New Scientist》报告。担任NeurIPS、ICLR、CVPR等学术会议领域主席或程序委员会委员。

CCF学生会员研修营

多模态基础模型驱动的感知新范式｜SPP第152期