返回首页

多模态大语言模型进展报告|SPP第139期

阅读量:0 2026-05-21 收藏本文

多模态大语言模型是一类能够同时处理文本、图像、音频等多种模态信息,并进行统一理解与生成的人工智能模型。本期SPP报告将简要回顾过去一年该领域的技术进展与代表性成果,涵盖模型架构演进、跨模态能力提升、开源生态动向等,并结合当前发展趋势,探讨未来面临的挑战与潜在机遇。欢迎关注本期SPP79日(本周三)19:3021:00

本期直播你将收获哪些

1、了解多模态大语言模型的概况

2、了解多模态大语言模型当下的挑战和机遇

3、了解大模型方向的科研方式

演讲嘉宾


傅朝友

CCF专业会员,南京大学智能科学与技术学院研究员

傅朝友,南京大学智能科学与技术学院研究员、助理教授、博导,选中国科协青年人才托举工程。研究方向为多模态大模型、大语言模型、生物特征识别,谷歌学术累计引用4千余次,一作单篇引用破千次,作为OwnerGitHub开源项目累计获得2万余次Stars,代表性工作包括VITA多模态大模型系列(一作VITA-1.0/-1.5通讯Long-VITAVITA-Audio),MME多模态评测基准系列(一作MMEVideo-MME通讯MME-RealWorld)和Awesome-MLLM社区等。曾获中科院院长特别奖、IEEE Biometrics Council最佳博士学位论文、北京市优秀博士学位论文、中科院优秀博士学位论文、2022阿里星计划、2022年腾讯技术大咖计划、小米青年学者-科技创新奖、南京大学紫金学者、CVPR杰出审稿人等。