多模态大语言模型进展报告|SPP第139期
多模态大语言模型是一类能够同时处理文本、图像、音频等多种模态信息,并进行统一理解与生成的人工智能模型。本期SPP报告将简要回顾过去一年该领域的技术进展与代表性成果,涵盖模型架构演进、跨模态能力提升、开源生态动向等,并结合当前发展趋势,探讨未来面临的挑战与潜在机遇。欢迎关注本期SPP:7月9日(本周三)19:30—21:00。
本期直播你将收获哪些
1、了解多模态大语言模型的概况;
2、了解多模态大语言模型当下的挑战和机遇;
3、了解大模型方向的科研方式。
演讲嘉宾
傅朝友
CCF专业会员,南京大学智能科学与技术学院研究员
傅朝友,南京大学智能科学与技术学院研究员、助理教授、博导,入选中国科协“青年人才托举工程”。研究方向为多模态大模型、大语言模型、生物特征识别,谷歌学术累计引用4千余次,一作单篇引用破千次,作为Owner的GitHub开源项目累计获得2万余次Stars,代表性工作包括VITA多模态大模型系列(一作VITA-1.0/-1.5,通讯Long-VITA、VITA-Audio),MME多模态评测基准系列(一作MME、Video-MME,通讯MME-RealWorld)和Awesome-MLLM社区等。曾获中科院院长特别奖、IEEE Biometrics Council最佳博士学位论文、北京市优秀博士学位论文、中科院优秀博士学位论文、2022年“阿里星”计划、2022年腾讯“技术大咖”计划、小米青年学者-科技创新奖、南京大学紫金学者、CVPR杰出审稿人等。
返回首页




