特邀讲者
郭龙腾
中国科学院自动化研究所 副研究员
主题:《多模态预训练模型的技术回顾与展望》
主题简介:近年来,从预训练模型到预训练大模型,从文本、音频、视觉等单模态大模型,到现在的图文、图文音等多模态预训练大模型,无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行通用模型学习,并应用于跨模态分析、检索、转换等下游任务上,其在内容理解、搜索、推荐、问答、人机交互、AIGC、具身智能等场景领域中具有巨大的应用价值。本报告主要包含三方面内容:分析多模态预训练模型的研究背景与必要性;回顾当前多模态预训练模型的研究进展,并介绍多模态大模型的架构设计、学习优化、下游应用,以及最新前沿研究方向如多模态大语言模型、多模态具身智能等;最后分析多模态预训练模型所面临的技术挑战与未来展望。
个人简介:郭龙腾,中科院自动化所副研究员,紫东太初大模型研究中心团队成员。主要研究兴趣包括图像分析与理解、多模态预训练模型、跨模态生成等。在相关领域发表高水平学术论文二十余篇,包括CVPR、IJCAI、ACM MM、SIGIR等。相关成果在ICCV COCO-Place场景解析、CVPR VATEX视频描述、ACM MM预训练视频理解等国际竞赛中取得多项冠军。
曾妍
字节跳动AI-LAB算法工程师
主题:《多模态技术与应用》
主题简介:多模态理解和生成的应用范围广泛。本次分享首先将介绍我们提出的多模态预训练技术(涵盖图像/视频和文本)以及该技术在多模态场景下的应用,同时探讨多语言场景下的多模态应用,分享研究工作应用到实际业务中的挑战和解决方案。本次还将介绍我们在多模态大语言模型方面的尝试,我们发现如何同时做到视觉信号的准确理解和开放式文本生成是一个难点。因此,我们研究了如何训练大语言模型使得其更好地具备这两方面能力,从而提高其在基于视觉信息的开放式文本生成任务中的表现。
个人简介:曾妍,字节跳动AI-LAB算法工程师,工作期间参与多模态预训练、多模态大语言模型,视频理解和生成等相关研究,以第一作者身份在国际顶级会议 ICML, ACL, NAACL 发表五篇相关论文,并担任了TPAMI, ICML, NIPS, ACL, EMNLP的审稿人。其研发的多个模型在业界处于领先地位,为字节跳动的短视频审核、电商客服、今日头条、教育解题等多个业务提供了有力服务。
肖欣延
百度杰出架构师
主题:《多模态内容生成技术与应用》
主题简介:随着大模型的革命性突破,基于人工智能的内容创作,也就是AIGC,逐渐兴起并受到广泛关注。多模态内容生成是AIGC中最重要的方向之一,能够极大提升图像、视频等内容的生产效率,在数字经济中具备广泛的应用价值。本报告介绍百度在多模态内容生成的技术与应用,重点介绍从自然语言到视觉内容的生成,同时探讨当前面临的主要挑战和未来的发展趋势。
个人简介:肖欣延博士,正高级工程师,百度杰出架构师,内容生成与AIGC技术负责人。长期从事自然语言处理相关研究和应用,已发表CCF A/B类论文30余篇,获授权发明专利90余项并获中国专利优秀奖1项,相关成果已在百度的搜索、推荐、百家号、百度云、小度、输入法等业务中得到广泛应用。






