ChatGPT与大模型技术 | ADL138开始报名

阅读量:4026 2023-04-17 收藏本文

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCF ADL第138期

主题 ChatGPT与大模型技术

2023年5月26日~28日北京

CCF学科前沿讲习班ADL138《ChatGPT与大模型技术》，将对大规模基础模型的最新进展和特性进行深入浅出的讲解，从技术原理、基础理论、网络架构、高效计算、参数高效微调、可控生成、安全伦理、跨模态、认知学习、工具学习和创新应用等方面，为听众系统介绍大规模基础模型的关键技术和前沿课题。相信学员经过本次讲习班，能够深入了解大规模基础模型的基础知识、主要挑战和应用场景，开阔科研视野，增强实践能力。

本期ADL讲习班邀请了12位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天，刘知远、林衍凯、邱锡鹏、张伟男等将分别讲解大模型整体情况、基本知识、基础理论和模型创新框架。第二天，韩旭、丁宁、何俊贤、桂韬等将介绍大模型高效计算框架、高效微调技术、可控生成技术和安全伦理问题。第三天，董力、东昱晓、秦禹嘉、王业全等将介绍大模型的多模态建模、认知学习、工具学习和创新应用等课题。通过三天教学，旨在带领学员实现对大模型技术从基础技术到前沿动态再到创新应用场景的深入学习与思考。

学术主任：刘知远副教授清华大学 /邱锡鹏教授复旦大学

主办单位：中国计算机学会

本期ADL主题《ChatGPT与大模型技术》，由CCF高级会员、清华大学刘知远副教授和复旦大学邱锡鹏教授担任学术主任，邀请到张伟男（哈尔滨工业大学）、东昱晓（清华大学）、董力（微软亚洲研究院）、王业全（北京智源人工智能研究院）、何俊贤（上海交通大学）、林衍凯（中国人民大学）、桂韬（复旦大学）、韩旭（清华大学）、丁宁（清华大学）、秦禹嘉（清华大学）等12位专家做专题讲座。

活动日程：

技术原理、基础理论、网络架构、高效计算、参数高效微调、可控生成、安全伦理、跨模态、认知学习、工具学习、以及创新应用。

2023年5月26日（周五）
09:00-09:10	开班仪式
09:10-09:20	全体合影
09:20-10:00	专题讲座1: 人工智能的大模型技术范式刘知远，副教授，清华大学
10:00-12:00	专题讲座2：基础模型的基本知识与原理林衍凯，助理教授，中国人民大学
12:00-13:30	午餐
13:30-15:00	专题讲座3: 基础模型的创新网络架构邱锡鹏，教授，复旦大学颜航，博士生，复旦大学
15:00-15:30	交流+休息
15:30-17:00	专题讲座4: 基础模型的可控生成张伟男，教授，哈尔滨工业大学
2023年5月27日（周六）
09:00-10:30	专题讲座5: 基础模型的高效计算框架韩旭，助理研究员，清华大学
10:30-12:00	专题讲座6: 基础模型的参数高效微调丁宁，助理研究员，清华大学
12:00-13:30	午餐
13:30-15:00	专题讲座7: 基础模型的基础理论何俊贤，助理教授，上海交通大学
15:00-15:30	交流+休息
15:30-17:00	专题讲座8: 基础模型的安全伦理桂韬，副研究员，复旦大学
2023年5月28日（周日）
09:00-10:30	专题讲座9: 跨模态基础模型董力，微软亚洲研究院
10:30-12:00	专题讲座10: 从千亿模型 GLM-130B 到 ChatGLM 的一点尝试东昱晓，助理教授，清华大学
12:00-13:30	午餐
13:30-15:00	专题讲座11: 基础模型工具学习秦禹嘉，博士生，清华大学
15:00-15:30	交流+休息
15:30-17:00	专题讲座12: 基础模型创新应用王业全，研究员，北京智源人工智能研究院

特邀讲者

刘知远副教授

清华大学

讲者简介：刘知远，清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理、知识图谱和社会计算。2011年获得清华大学博士学位，已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇，Google Scholar统计引用超过3万次。曾获教育部自然科学一等奖（第2完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖（第2完成人）、中国中文信息学会汉王青年创新奖，入选国家青年人才、北京智源研究院青年科学家、2020-2022年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。担任中文信息学会青年工作委员会主任，中文信息学会社会媒体处理专委会秘书长，期刊AI Open副主编，ACL、EMNLP、WWW、CIKM、COLING领域主席。

报告题目：人工智能的大模型技术范式

报告摘要：最近由OpenAI发布的ChatGPT展现了强大而通用的自然语言交互能力，引发全球对人工智能技术的关注。本报告将梳理ChatGPT背后的基础大模型的源流、技术特性、发展趋势和主要课题。

林衍凯助理教授

中国人民大学

讲者简介：林衍凯，中国人民大学高瓴人工智能学院准聘助理教授。2014年和2019年分别获得清华大学学士和博士学位。主要研究方向为预训练模型、自然语言处理。曾在ACL、EMNLP、NAACL、AAAI、IJCAI、NeurIPS等自然语言处理和人工智能顶级国际会议上发表论文40余篇，Google Scholar统计被引用次数（至2023年2月）达到8000余次。其知识指导的自然语言处理研究成果获评教育部自然科学一等奖（项目名《结构化知识表示学习方法》，第三完成人）和世界互联网领先成果（项目名《大规模知识图表示学习的体系化基础算法及开源工具》，第三完成人）。

报告题目：基础模型的基础知识与原理

报告摘要：2022年底，OpenAI公司发布了大规模对话模型ChatGPT，能够与用户进行对话交互并根据用户的输入指令完成各种类型的自然语言处理任务，展现出了以大规模基础模型为基底构建通用人工智能的潜在可行性。本报告主要介绍基础模型的基础知识和原理，从技术的角度剖析大规模基础模型是如何一步步演化出其强大的意图理解能力、推理能力，以及丰富的世界知识，并从模型架构、预训练方法和适配方法等方面对其进行详细介绍。

邱锡鹏教授

复旦大学

讲者简介：邱锡鹏，复旦大学计算机学院教授，担任中国中文信息学会理事、上海市计算机学会自然语言处理专委会主任等，主要研究方向为自然语言处理基础技术和基础模型，发表CCF A/B类论文80余篇，被引用1万余次，入选 “爱思唯尔2022中国高被引学者”。获得ACL 2017杰出论文奖（CCF A类）、CCL 2019最佳论文奖、《中国科学：技术科学》2021年度高影响力论文奖，有5篇论文入选ACL/EMNLP等会议的最有影响力论文，主持开发了开源框架FudanNLP和FastNLP，已被国内外数百家单位使用，发布了MOSS、CPT、BART-Chinese等中文预训练模型，在中文模型中下载量排名前列。曾获中国科协青年人才托举工程项目、国家优青项目、科技创新2030“新一代人工智能”重大项目课题等，2020年获第四届上海高校青年教师教学竞赛优等奖，2021年获首届上海市计算机学会教学成果奖一等奖（第一完成人），2022年获钱伟长中文信息处理科学技术奖一等奖（第一完成人）。

颜航博士生

复旦大学

讲者简介：颜航，复旦大学计算机学院博士生，导师为邱锡鹏教授。研究兴趣包括信息抽取、开源NLP工具建设、大规模预训练模型等。开源平台OpenLMLab主要贡献者，设计并开发了fastNLP、fitlog等开源工具。在ACL、TACL、EMNLP、NAACL等会议或杂志上发表了多篇论文，2022年获钱伟长中文信息处理科学技术奖一等奖。

报告题目：基础模型的创新网络架构

报告摘要：目前Transformer在自然语言处理、计算机视觉领域取得了广泛的成功。本报告主要介绍Transformer模型以及变体，主要涵盖两部分内容：1）Transformer模型介绍：介绍自注意力模型以及Transformer的基本架构并分析模型优缺点；2）Transformer模型的改进，通过针对性的改进来进一步提高Transformer模型的效率、泛化性以及训练稳定性等；3）分享我们团队在预训练大型语言模型中关于模型并行、训练策略和低资源微调的经验。

张伟男教授

哈尔滨工业大学

讲者简介：张伟男，教授/博士生导师，哈尔滨工业大学计算机学院院长助理，黑龙江省中文信息处理重点实验室副主任，国家重点研发计划项目负责人。研究兴趣包括自然语言处理及人机对话。在ACL、AAAI、WWW、IJCAI、IEEE TKDE、ACM TOIS等CCF A类国际会议及国际顶级期刊发表论文多篇，多次担任ACL、EMNLP领域主席。目前为中国中文信息学会青年工作委员会副主任，中国计算机学会（CCF）术语审定工作委员会执委、CCF哈尔滨分部秘书长，中国人工智能学会教育工作委员会副秘书长，北京智源青源会会员。曾获黑龙江省科技进步一等奖、吴文俊人工智能科技进步二等奖及黑龙江省青年科技奖等。

报告题目：基础模型的可控生成

报告摘要：基础模型在生成结果上展现出了强大的理解和执行能力，能够生成较高连贯性和流畅性的句子和段落，能够生成大量的文本数据，用于数据增强、样本生成等任务；也能够通过对输入条件进行控制，生成符合不同要求的文本数据，如特定主题、情感、风格等；还能够进一步通过与其他模型结合使用，如强化学习等，进一步提升生成效果。本次报告主要关注于基础模型的可控生成技术，从可控方式和可控方法两个维度介绍相关的工作进展和后续的发展趋势。

韩旭助理研究员

清华大学

讲者简介：韩旭，博士，清华大学博士后，研究方向为自然语言处理、预训练语言模型。在国际人工智能与自然语言处理领域学术期刊和会议发表论文40余篇，获国家发明专利授权7项，相关工作Google Scholar累计引用4500余次。大模型开源平台 OpenBMB 主要发起人之一，曾开源大模型训练、推理、压缩工具包BMTrain、BMInf、BMCook，CPM系列中文大模型。作为完成人之一曾获教育部自然科学一等奖1项、世界互联网大会“世界互联网领先科技成果”1项，入选中国计算机学会优博激励计划、博士后创新人才支持计划、清华大学水木学者计划。

报告题目：基础模型的高效计算框架

报告摘要：最近几年里，拥有百亿、千亿参数的大规模基础模型在各类人工智能任务上取得了显著的性能提升，但其规模庞大的参数在计算与存储上始终困扰着研究人员。本报告着重介绍面向大规模基础模型的高效计算框架及计算加速技术，助力研究人员能够以较低的计算资源进行基础大模型的训练与推理。

丁宁助理研究员

清华大学

讲者简介：丁宁，清华大学计算机系博士。主要研究方向为语言模型的高效驱动的理论、技术和应用，相关工作被Nature Machine Intelligence、ACL、ICLR、NeurIPS、EMNLP、AAAI、TKDE等会议和期刊发表。他同时还设计开发了OpenPrompt、OpenDelta等开源的大规模预训练模型高效驱动框架，在阿里巴巴、亚马逊、华为、牛津大学等多家单位进行部署，所主导的开源项目在Github上累积获得逾7500星标。曾获ACL最佳系统展示论文奖(Best System Demonstration Paper)，百度奖学金，清华大学“清峰”奖学金以及多次博士生国家奖学金等荣誉。

报告题目：基础模型的参数高效微调

报告摘要：大规模预训练模型（基础模型）已经成为了人工智能领域的基础架构，在诸多任务上都取得了十分优异的表现。然而，随着模型规模的增大，将模型在特定的领域或者任务进行适配变得越来越困难。最近，参数高效微调(Parameter-Efficient Learning，或者 Delta Tuning)通过固定大模型参数不动，只微调非常少的参数(Delta)，就可以达到与全参数微调相当的效果，取得了很多突破性进展。这类方法不仅可以显著提升模型适配的计算效率、节省存储成本，还可以揭示模型适配的内在规律。本报告将全面介绍基础模型的参数高效微调技术、理论和应用的前沿动态，并且对相关技术的发展进行未来展望。

何俊贤助理教授

上海交通大学

讲者简介：何俊贤，上海交通大学John Hopcroft Center助理教授。2022年于卡内基梅隆大学计算机科学学院获得博士学位。他的研究关注语言模型、文本生成、深度生成模型等。担任ACL和EMNLP的领域主席。论文入选ACL 2019最佳系统论文提名、ICLR 2022最有影响力论文之一。他曾获百度博士奖学金、AI华人新星百强等荣誉。

报告题目：基础模型的基础理论

报告摘要：本报告将从模型缩放(scaling)和模型演化(evolution)两个方面介绍基础模型的基础理论和开发路线。从模型缩放的角度，我们将介绍基础模型的缩放法则和其中的涌现能力，以及如何合理利用缩放法则帮助模型由小到大的开发。从模型演化的角度，我们将介绍大规模预训练、指令微调、基于人类反馈的强化学习这一阶段性演化路线以及其中涉及的关键要素和最新进展，包括如何配比预训练数据、模型大小和算力达到最优训练效率，如何进行高效且有效的指令微调，如何与人类对齐等。

桂韬副研究员

复旦大学

讲者简介：桂韬，复旦大学自然语言处理实验室副研究员、硕士生导师。研究领域为预训练模型、信息抽取和鲁棒模型。在高水平国际学术期刊和会议上发表了40余篇论文，主持国家自然科学基金、计算机学会、人工智能学会多个基金项目。曾获钱伟长中文信息处理科学技术奖一等奖（2/5）、中国中文信息学会优秀博士论文奖、COLING2018最佳论文提名奖、NLPCC2019亮点论文奖，入选第七届“中国科协青年人才托举工程”、上海市启明星计划。

报告题目：基础模型的安全伦理

报告摘要：随着基础模型的兴起，NLP正在经历模型范式“同质化”的转变，如今，NLP领域几乎所有的SOTA模型都是少数几个基于Transformer 的大模型进化而来。而且，这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了一种大一统的趋势。这种同质化也带来了一些隐患，因为基础模型的鲁棒性、可解释性、公平性、隐私性缺陷也会被所有下游模型所继承。本报告将介绍基础模型的安全伦理风险以及带来的社会影响，探讨缓解安全伦理问题的可行方案。

董力研究员

微软亚洲研究院

讲者简介：董力，微软亚洲研究院自然语言处理组研究员，博士毕业于爱丁堡大学。现主要从事大规模基础模型的相关研究工作。曾获得AAAI-2021 Best Paper Runner Up、2019 AAAI/ACM SIGAI Doctoral Dissertation Award Runner Up、ACL-2018 Best Paper Honourable Mention，并多次担任ACL、EMNLP、NAACL、NeurIPS等会议领域主席。

报告题目：跨模态基础模型

报告摘要：多模态输入作为人类智能的感知基础，近年来受到了来自各个领域的关注，研究人员在如何进行多模态融合、对齐、互助等问题做了很多探索。得益于自监督预训练和模型架构的进步，使大规模多模态基础模型的诞生成为了可能。一方面，预训练使得模型能够从大规模的文本、图像、音频等数据中进行学习，极大地减小了平行对齐数据的依赖，并使得我们能学习出更通用、泛化能力更好的世界知识。另一方面，基于Transformers的模型架构在各个领域都取得了很好的建模结果，这使通用的网络结构成为可能。在上面的基础之上，多模态学习呈现出明显的“大一统”趋势，使各个领域发生了融合，从而推动了通用人工智能的进步。

东昱晓助理教授

清华大学

讲者简介：东昱晓，清华大学计算机系助理教授，知识工程实验室（KEG）成员，曾工作于脸书人工智能和微软总部研究院。研究方向为数据挖掘、图机器学习和预训练基础模型，相关成果应用于十亿级社交网络和知识图谱，获WSDM 15, WWW 19和WWW 22最佳论文提名。担任WWW 23 Track Co-Chair、ECML-PKDD 21/20 ADS PC Co-Chair、KDD 20/19/18 Deep Learning Day Co-Chair。入选IJCAI 22 Early Career Spotlight，获2017年ACM SIGKDD博士论文提名奖和2022年ACM SIGKDD新星奖。学术主页：

https://keg.cs.tsinghua.edu.cn/yuxiao。

报告题目：从千亿模型GLM-130B到ChatGLM的一点尝试

报告摘要：GLM-130B是一个中英双语预训练基座模型，拥有1300亿参数，模型架构采用通用语言模型GLM，其22年8月开源版本已完成4000亿token预训练。斯坦福基础模型中心22年11月对全球30个大模型进行的评测报告显示 GLM-130B在准确性和恶意性指标上与GPT-3 175B (davinci) 接近或持平，鲁棒性和校准误差在所有千亿规模的基座大模型（无指令微调）中表现优异。自8月起，我们进一步向模型注入了文本和代码预训练，通过有监督微调等技术实现人类意图对齐，于23年2月开始内测 ChatGLM千亿对话模型，于3月开源ChatGLM-6B模型。此外，GLM-130B(和ChatGLM)的INT4量化版本支持在一台八卡 2080Ti 或四卡3090服务器上对1300亿全参数模型进行基本无精度损失的推理。报告将分享 GLM团队与合作伙伴在千亿训练和ChatGLM研发过程的一点思考和尝试。

秦禹嘉博士生

清华大学

讲者简介：秦禹嘉，男，清华大学计算机系2020级直博生。本科毕业于清华大学电子工程系。主要研究方向为大规模语言模型的高效预训练与下游智能化应用，曾在ACL、NAACL、EMNLP、ICLR、NeurIPS、Nature Machine Intelligence、TASLP等会议/期刊发表多篇一作/共同一作论文，曾获腾讯犀牛鸟精英计划一等奖。

报告题目：基础模型工具学习

报告摘要：发明和利用工具是人类文明的一个重要特征，将工具与人工智能系统集成已成为实现通用人工智能的关键。本工作探讨了工具学习(tool learning)的范式，这种范式结合了工具和基础大模型的优势，从而能够实现更加智能地使用工具解决特定任务。我们首先探讨了人类历史上工具使用的认知起源和基础模型带来的范式转变，并回顾了现有工具学习研究。其次，我们提出了一个通用的工具学习框架，讨论了其中重要的研究课题，例如工具的封装和理解、如何让模型理解用户意图操纵工具等。为了促进这一领域的研究，我们建立了一个交互式工具学习平台，并评估了ChatGPT和GPT-3.5的工具使用能力。最后，我们将讨论工具学习的广泛影响，包括安全、个性化和具身学习等。我们的工作旨在激发进一步研究，将工具与基础模型集成起来，为人类和机器协同工作的未来铺平道路。

王业全研究员

北京智源人工智能研究院

讲者简介：王业全，北京智源人工智能研究院认知模型与数据团队负责人，清华大学博士，中国中文信息学会情感计算专委会委员，2022年被评为AI 2000全球最具影响力人工智能学者（自然语言处理领域）。近年来，主要从事语言大模型、自然语言处理方面的研究工作。在国际顶级会议发表多项研究成果，在情感分析领域具有广泛的学术影响力，谷歌学术引用超过2,300次。有两大研究成果(EMNLP 2016: Attention-based LSTM For Aspect-level Sentiment Classification; WWW 2018: Sentiment Analysis By Capsules)被PAPER DIGEST评为最具影响力论文，同时多次入选谷歌学术刊物指标榜单。

报告题目：基础模型创新应用

报告摘要：基础模型已经在语言、视觉和多模态等领域获得了极大的成功，尤其以GPT4和 ChatGPT 为典范。北京智源人工智能研究院研发了以悟道2.0为代表的系列大模型，并产生了显著的影响力。本报告主要包含基础模型的创新应用和研发方面的探讨。

学术主任

刘知远副教授

清华大学

刘知远，清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理、知识图谱和社会计算。2011年获得清华大学博士学位，已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇，Google Scholar统计引用超过3万次。曾获教育部自然科学一等奖（第2完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖（第2完成人）、中国中文信息学会汉王青年创新奖，入选国家青年人才、北京智源研究院青年科学家、2020-2022年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。担任中文信息学会青年工作委员会主任，中文信息学会社会媒体处理专委会秘书长，期刊AI Open副主编，ACL、EMNLP、WWW、CIKM、COLING领域主席。

邱锡鹏教授

复旦大学

邱锡鹏，复旦大学计算机学院教授，担任中国中文信息学会理事、上海市计算机学会自然语言处理专委会主任等，主要研究方向为自然语言处理基础技术和基础模型，发表CCF A/B类论文80余篇，被引用1万余次，入选 “爱思唯尔2022中国高被引学者”。获得ACL 2017杰出论文奖（CCF A类）、CCL 2019最佳论文奖、《中国科学：技术科学》2021年度高影响力论文奖，有5篇论文入选ACL/EMNLP等会议的最有影响力论文，主持开发了开源框架FudanNLP和FastNLP，已被国内外数百家单位使用，发布了MOSS、CPT、BART-Chinese等中文预训练模型，在中文模型中下载量排名前列。曾获中国科协青年人才托举工程项目、国家优青项目、科技创新2030“新一代人工智能”重大项目课题等，2020年获第四届上海高校青年教师教学竞赛优等奖，2021年获首届上海市计算机学会教学成果奖一等奖（第一完成人），2022年获钱伟长中文信息处理科学技术奖一等奖（第一完成人）。

时间：2023年5月26日-28日

地址：北京•中科院计算所一层报告厅（北京市海淀区中关村科学院南路6号）