多模态基础模型驱动的感知新范式|SPP第152期
在人工智能(AI)和计算机视觉(CV)快速发展的领域,视觉语言模型(VLMs)以及视觉基础模型(SAM2)正在为解决高难度感知任务开辟新路径。本期SPP报告将探讨一系列创新方法,利用这些强大工具突破少样本学习、伪装视频目标检测以及长时间视频跟踪等方面的局限。首先,将介绍基于视觉语言模型的广义少样本3D点云分割,该方法通过整合VLMs,在极少样本条件下实现高效、泛化的3D点云分割。其次,介绍一种可在伪装视频中精准分割任意目标的方法,其将SAM2扩展至动态视频中的伪装场景。最后,提出通过层次化运动估计与内存优化提升SAM2的长时序跟踪能力,增强SAM2在长序列中的性能。通过优化内存占用并进行多尺度运动估计,实现长时间可靠跟踪,有效缓解目标漂移。这些工作展示了VLMs与基础模型如何适应真实世界感知难题,为构建更通用更鲁邦的AI系统铺平道路。报告将讨论核心思想、实验结果以及该领域的未来方向。欢迎关注本期SPP:11月5日(本周三)19:30–21:00。
本期直播你将收获哪些
1、了解当前流行的视觉语言模型和基础模型;
2、理解当前的复杂感知挑战;
3、掌握多模态基础模型对复杂感知的提升方法;
4、相关领域的前沿趋势。
演讲嘉宾
孙国磊
南开大学教授
南开大学计算机学院教授、博导,国家级青年人才。博士毕业于瑞士苏黎世理工学院(ETH Zurich),师从国际计算机视觉顶尖科学家Luc Van Gool教授(计算机视觉最高奖Marr奖获得者,谷歌学术总引用27万余次)。并随后担任博士后研究员。曾在阿联酋人工智能研究院任研究工程师,在美国大公司Meta、Adobe任研究科学家(实习)。研究方向为计算机视觉、视频理解、多模态大模型的应用与压缩。在CCF-A类等国际顶级期刊和会议上发表论文40余篇(含多篇Oral/Spotlight),授权国际/国内专利2 项,谷歌学术论文总引用8800余次。曾获CVPR、ICCV研讨会最佳论文奖,CVPR研讨会弱监督分割挑战赛冠军。作为核心成员参与瑞士 “私人化医疗与相关技术”项目。研究成果曾获英国国际媒体《New Scientist》报告。担任NeurIPS、ICLR、CVPR等学术会议领域主席或程序委员会委员。
返回首页




