多模态大模型技术进展及应用 | TF116 回顾

阅读量:151 2023-08-18 收藏本文

8月10日，CCF TF第116期“多模态大模型技术进展及应用”邀请了来自中国科学院自动化研究所、字节跳动、百度的专家，深入探讨了多模态大模型的技术进展及产业应用。

CCF TF活动相关专家报告均收录在CCF数字图书馆【TF专辑】，欢迎长按识别，回看精彩分享。本期活动报告也将于近期收录，欢迎持续关注！

CCF TF第116期“多模态大模型技术进展及应用”由CCF TF算法与AI SIG策划呈现，邀请到中科院自动化所副研究员郭龙腾、字节跳动AI-LAB算法工程师曾妍、百度杰出架构师肖欣延三位资深专家，回顾多模态大模型的历史，介绍其发展现状和丰富的产业应用，探讨所面临的挑战并展望未来发展前景。

本次活动由CCF TF算法与AI SIG主席何中军主持。

《多模态预训模型的技术回顾与展望》

郭龙腾的报告分析了多模态预训练模型的研究背景与必要性，回顾当前多模态预训练模型的研究进展，并介绍多模态大模型的架构设计、学习优化、下游应用，以及最新前沿研究方向如多模态大语言模型、多模态具身智能等。此外，他还介绍了自动化所研发的全模态的认知大模型“紫东太初”，融合了音视频、图片、文本，实现多种模态的融合理解和生成，最后分析多模态预训练模型所面临的在数据、模型、训练等方面的技术挑战。

《多模态技术与应用》

曾妍详细介绍了多模态预训练技术（涵盖图像/视频和文本）方面的近期工作，包括多粒度视觉语言预训练方法X-VLM、多语言多模态预训练CCLM，以及其在字节跳动产品上的应用，如图片描述、视频审核、电商客服等。最后，她介绍了最新研发的多模态大语言模型Lynx，通过多阶段训练使用不同的训练数据来提升模型的综合能力。

《多模态内容生成技术与应用》

肖欣延介绍了百度在多模态内容生成方面的技术和应用，重点介绍从自然语言到视觉内容的生成。他首先回顾了近年来的技术进展，结合场景需求介绍了自研的文生图大模型ERNIE-ViLG,以及基于此技术的文生图产品“文心一格”；然后介绍了基于多模态大模型的视频创作系统TTV（Text-To-Video），通过文案理解与生成、素材分析与处理、素材扩充与编排等可以快速地根据用户需求生成视频；最后介绍了广泛应用，AIGC正在大幅提升内容创作的效率和质量，助力想象力涌现，基于大模型创造出独特的AI作品。

本次活动三位嘉宾的报告内容干货满满、精彩纷呈。提问互动环节，线上参会观众积极参与，提出了“通过文本提示来生成图文并茂的文案，可以怎么来训练模型？”“多模态模型训练的数据量和计算资源开销与耗时情况？”等问题，三位讲者从自己分享的内容角度切入，耐心解答、互动。

大模型技术日新月异，希望本次分享与交流能够给大家带来启发和思考，促进技术的发展。

关于CCF TF

CCF TF技术前线（Tech Frontier）创立于2017年6月，旨在为工程师提供顶级交流平台，更好地服务企业界计算机专业人士，帮助企业界专业技术人士职业发展，通过搭建平台实现常态化合作和发展，促进企业间、学术界与企业间技术交流。目前已组建知识图谱、数据科学、智能制造、架构、安全、智能设备与交互、数字化转型与企业架构、算法与AI、智能前端、工程师文化、研发效能、软件质量工程等十二个SIG（Special Interest Group），提供丰富的技术前线内容分享。2023年全年，CCF TF将在线开展20场活动，会员免费参加。

加入CCF

加入CCF会员享受更多超值活动，为自己的技术成长做一次好投资。

点击链接了解更多会员权益：

CCF个人会员权益 CCF公司会员权益

识别或扫码入会

欢迎关注CCFTF及CCF业务总部公众号，精彩陆续开启！

关注CCFTF获取TF活动资讯

关注CCF业务总部优惠预定会议场地

合作单位

<<< 上一篇 CCF CED 2023——1024中国工程师文化日启动！

数字人的生成与驱动技术 | TF114回顾下一篇 >>>

<<< 下一篇数字人的生成与驱动技术 | TF114回顾