本期SPP报告将围绕ChatGPT的发展历程以及相关研究背景展开,介绍GPT系列模型的发展历程(包括GPT-1/2/3、CodeX、ChatGPT以及GPT-4等),同时介绍大模型的主要能力特点和相关技术(指令微调、人类对齐、情境学习、思维链等),以及大模型对于人工智能发展所带来的的潜在影响。本次报告面向具有一定计算机学科基础的同学,旨在介绍大模型相关的入门基础知识,主要讲述内容来自于课题组发表的预印版大语言模型综述文章《A Survey of Large Language Models》。
大规模预训练模型(基础模型)已经成为了人工智能领域的基础架构,在诸多任务上都取得了十分优异的表现。然而,随着模型规模的增大,将模型在特定的领域或者任务进行适配变得越来越困难。最近,参数高效微调(Parameter-Efficient Learning,或者 Delta Tuning)通过固定大模型参数不动,只微调非常少的参数(Delta),就可以达到与全参数微调相当的效果,取得了很多突破性进展。这类方法不仅可以显著提升模型适配的计算效率、节省存储成本,还可以揭示模型适配的内在规律。本报告将全面介绍基础模型的参数高效微调技术、理论和应用的前沿动态,并且对相关技术的发展进行未来展望。
多模态输入作为人类智能的感知基础,近年来受到了来自各个领域的关注,研究人员在如何进行多模态融合、对齐、互助等问题做了很多探索。得益于自监督预训练和模型架构的进步,使大规模多模态基础模型的诞生成为了可能。一方面,预训练使得模型能够从大规模的文本、图像、音频等数据中进行学习,极大地减小了平行对齐数据的依赖,并使得我们能学习出更通用、泛化能力更好的世界知识。另一方面,基于Transformers的模型架构在各个领域都取得了很好的建模结果,这使通用的网络结构成为可能。在上面的基础之上,多模态学习呈现出明显的“大一统”趋势,使各个领域发生了融合,从而推动了通用人工智能的进步。
视频生成日益受到学术界和工业界的关注。然而高质量视频生成的基础模型在开源社区中尚未得到广泛的发展,主要还是集中在初创公司中。我们期望创建领先的视频生成模型,为社区的发展做出贡献。该报告将介绍我们在开源视频基础模型VideoCrafter系列工作的初步探索,主要包括高质量的文本到视频的生成、图像到视频的生成 DynamiCrafter,以及在视频生成的标准化评测EvalCrafter等方面的工作。
发明和利用工具是人类文明的一个重要特征,将工具与人工智能系统集成已成为实现通用人工智能的关键。本工作探讨了工具学习(tool learning)的范式,这种范式结合了工具和基础大模型的优势,从而能够实现更加智能地使用工具解决特定任务。我们首先探讨了人类历史上工具使用的认知起源和基础模型带来的范式转变,并回顾了现有工具学习研究。其次,我们提出了一个通用的工具学习框架,讨论了其中重要的研究课题,例如工具的封装和理解、如何让模型理解用户意图操纵工具等。为了促进这一领域的研究,我们建立了一个交互式工具学习平台,并评估了ChatGPT和GPT-3.5的工具使用能力。最后,我们将讨论工具学习的广泛影响,包括安全、个性化和具身学习等。我们的工作旨在激发进一步研究,将工具与基础模型集成起来,为人类和机器协同工作的未来铺平道路。
最近以DeepSeek-R1为代表的大模型慢思考技术受到了较大关注,慢思考模型通过生成更长的思考过程来解决更具挑战性的问题,在多个科学场景和应用领域都取得了重要突破。本次报告将聚焦大模型慢思考的基础技术与实现方法,对于其中可能涉及到的技术路径进行探索和系统性讲解,主要介绍以强化学习为主线的关键技术,并结合自身实践经验讨论其中的技术挑战,然后探讨推理模型的科学价值,并且总结现阶段推理模型的局限以及未来的技术发展趋势。
大模型是人工智能发展过程中的一个重大突破,将促使人工智能以前所未有的深度、广度和速度进入我们的生产和生活。《大模型十讲》包括基础理论与技术,发展历程与现状,以及未来的发展方向等内容。从深度上看,从理论、技术(算法)直到前沿应用都有深入的分析。从广度上看,包括不同的模型,不同的学习方法以及多模态等。内容全面且深刻,可以作为高等院校相关专业本科生、研究生的课程教材或选修课教材,也可以作为人工智能领域相关从业技术人员的参考书。
李崇轩,中国人民大学高瓴人工智能学院副教授,博士生导师,主要研究领域为生成模型,研制 LLaDA系列扩散大语言模型,视觉扩散模型成果部署于DALL·E 2、Stable Diffusion、Vidu等行业领先模型。获ICLR 2022 杰出论文奖、吴文俊优秀青年奖、北京市科技新星、吴文俊人工智能自然科学一等奖等,主持国家自然基金重大研究计划培育项目等,长期担任IEEE TPAMI 编委和ICLR、NeurIPS等会议的领域主席。