ADL129《大规模预训练模型及其应用》开始报名-线上线下同步开启

阅读量:358 2022-08-11 收藏本文

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCFADL第129期

主题大规模预训练模型及其应用

2022年8月17-19日苏州（线上线下同步举办）

大规模预训练模型已经成为自然语言处理以及跨模态人工智能的基础模型，将很多任务的准确率提升到了前所未有的高度。大规模预训练模型也成为当前人工智能领域最热的研究课题，也是初学者进入人工智能领域所必须掌握的知识。CCF学科前沿讲习班第129期《大规模预训练模型及其应用》将对大规模预训练模型的最新进展进行深入浅出的讲解，从模型训练、下游任务应用、模型压缩等视角为听众介绍预训练模型的关键技术和前沿研究。学员经过本次讲习班，能够深入了解大规模预训练模型的基础技术、主要挑战和应用场景，开阔科研视野，增强实践能力。本期ADL讲习班邀请了8位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。

学术主任：黄萱菁教授复旦大学 / 邱锡鹏教授复旦大学

主办单位：中国计算机学会

本期ADL主题《大规模预训练模型及其应用》邀请到崔一鸣（资深科学奖，科大讯飞）、刘知远（教授, 清华大学）、丁宁（博士生，清华大学）、刘鹏飞（博士后, 卡耐基梅隆大学）、杨红霞（技术总监，阿里巴巴达摩院）、李磊（助理教授，加州大学圣巴巴拉分校）、侯璐（高级研究员，华为诺亚方舟实验室）、尹伊淳(高级研究员，华为诺亚方舟实验室）共8位专家做专题讲座。

活动日程：

特邀报告1：面向自然语言理解的预训练模型

报告摘要：以GPT、BERT为代表的预训练模型的出现，打开了自然语言处理的新篇章。“预训练+精调”也已经成为自然语言处理的新范式。在本次报告中，首先简要回顾自然语言表示的发展历史，从传统的基于静态或动态词向量的方法，到以GPT、BERT为代表的经典预训练语言模型及其相关延伸模型。然后将介绍面向自然语言理解的预训练语言模型近期研究进展，其中包括预训练任务的设计、多语言预训练技术、预训练模型中的可解释性、预训练模型的高效训练和推理等方面。报告的最后将简要展望预训练语言模型未来可能的发展趋势。

特邀讲者：崔一鸣，资深科学家，科大讯飞

讲者简介：崔一鸣，高级工程师职称，CCF高级会员，现任科大讯飞资深科学家、北京研究院副院长。毕业于哈尔滨工业大学计算机科学与技术专业，获工学学士和硕士学位，并继续攻读博士学位。主要从事机器阅读理解、预训练模型等自然语言处理相关领域的研究工作，并致力于推动中文机器阅读理解和中文预训练模型的研究与发展，举办相关评测活动。曾多次获得机器翻译、机器阅读理解、自然语言理解评测冠军，其中包括机器阅读理解权威评测SQuAD、自然语言理解权威评测GLUE等。所研制的中文阅读理解及预训练模型开源项目被业界广泛应用，在开源平台GitHub上累计获得1万次以上star。在国际顶级会议和期刊上发表学术论文40余篇，ESI高被引论文、前沿趋势论文1篇，获国际语义评测SemEval-2022最佳论文提名奖，申请发明专利20余项、获授权专利6项。担任EMNLP 2021和NLPCC 2021领域主席，担任NLP和AI领域顶级国际会议和国际期刊审稿人职务。

特邀报告2：Delta Tuning：大模型的小参数高效微调

报告摘要：近年来深度学习成为自然语言处理关键技术，特别是2018年以来的预训练语言模型，显著提升了自然语言处理整体性能。如何更好地激发大规模预训练模型在下游任务上的效果，是广泛关注的研究课题。但是，随着模型规模增大，如何微调大模型参数适配下游任务，变得越来越困难。最近，参数高效微调（Parameter-Efficient Learning，或者 Delta Tuning）通过固定大模型参数不动，只微调非常少的参数（Delta），就可以达到与全参数微调相当的效果，取得了很多突破性进展。本报告将介绍大模型的小参数高效微调方法、前沿动态以及未来展望。

特邀讲者：刘知远，长聘副教授，清华大学；丁宁，博士生，清华大学

讲者简介：刘知远，清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理、知识图谱和社会计算。2011年获得清华大学博士学位，已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇，Google Scholar统计引用超过20,000次。曾获教育部自然科学一等奖（第2完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖（第2完成人）、中国中文信息学会汉王青年创新奖，入选国家青年人才、北京智源研究院青年科学家、2020年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。担任中文信息学会青年工作委员会主任，中文信息学会社会媒体处理专委会秘书长，期刊AI Open副主编，ACL、EMNLP、WWW、CIKM、COLING领域主席。

讲者简介：丁宁，清华大学计算机系博士生，研究兴趣为语言模型的高效驱动，相关工作发表在ACL、ICLR、EMNLP、AAAI、TKDE等会议和期刊中，并开发了OpenPrompt、OpenDelta等开源工具。曾获ACL Best Demo Paper，百度奖学金，博士生国家奖学金，清华大学“清峰”奖学金等荣誉。

特邀报告3：提示学习(Prompt Learning)的基础概念、相关应用及研究趋势

报告摘要：最近，以"提示"(Prompt)为核心的相关学习方法不仅在自然语言处理领域受到了广泛关注，在计算机视觉和多模态领域也陆续出现许多优秀的相关工作。本次报告将围绕如下内容展开：（1）提示学习的相关概念基础；（2）提示学习应用和核心挑战；（3）提示学习最新研究趋势。

特邀讲者：刘鹏飞，博后，卡耐基梅隆大学

讲者简介：刘鹏飞博士，卡耐基梅隆大学语言技术研究所博士后，Inspired Cognition科技公司联合创始人。在自然语言处理及人工智能领域的顶级会议发表学术论文 50 余篇，谷歌学术引用4000余次。曾连续获得 ACL2021 Best Demo Paper，ACL2022 Outstanding Demo Paper奖项，以及上海市计算机学会优秀博士论文，人工智能学会优秀博士论文，百度奖学金，微软学者，AI华人青年学者等荣誉。担任顶级会议ACL，EMNLP，NeurIPS 等领域主席以及卡耐基梅隆大学自然语言处理课程的联合讲师。领导开发了首个基于深度学习的高考英语AI系统，自动审稿机器人，AI 系统可解释排行榜等开源产品，受到来自于 DeepMind 等公司的合作邀请，以及多名投资人的意向投资。

特邀报告4：超大规模多模态预训练模型建设与其产业化落地

报告摘要：近年来，随着预训练技术在深度学习领域的飞速发展，超大规模模型逐渐走进人们的视野，成为人工智能领域的焦点。继OpenAI推出1750亿参数的GPT-3模型之后，我们于自2021年初提出百亿参数的超大规模中文多模态预训练模型M6 （Multi-Modality to Multi-Modality Multitask Mega-transformer），在多项多模态和自然语言下游任务表现出突出的能力。作为业界最大的中文多模态预训练模型M6，我们持续推出多个版本，参数逐步从百亿规模扩展到十万亿规模，在大模型、绿色/低碳AI、AI商业化、服务化等诸多方面取得突破性进展，比如对比相同参数规模1750亿的GPT-3模型，我们只需要其1%的算力，绿色/低碳是大模型普及的必要条件。M6服务内部近50个部门并在阿里云对外200+产品中投入使用，被MIT Tech Review评为2021年度中国AI突破技术并重点推荐。

今年，在探索算力极限的同时，我们也积极展开了针对通用模型这一预训练技术“皇冠”的探索，提出业界首个通用的统一大模型（模态、任务和架构）M6-OFA，极大的降低模型在预训练、适配下游任务、推理过程中的难度，更加便捷的从在线模型构建、在线模型部署、应用发布的全流程预训练服务，能够支持成百上千个应用的开发与部署。同时随着移动芯片计算能力的指数级增长，智能移动设备在内容展示终端这一传统角色之外，逐渐承担起更多任务。如何充分利用好移动算力，我们也探索了一条大模型由云计算走向端计算，端云协同建模M6-Edge。

特邀讲者：杨红霞，技术总监，阿里巴巴达摩院

讲者简介：杨红霞，美国杜克大学博士，阿里巴巴达摩院人工智能科学家，浙江大学上海高等研究院兼职研究员。主导阿里下一代人工智能突破性技术-认知智能的技术发展与场景应用落地，带领团队研发了AliGraph、M6、洛犀等人工智能开源平台和系统，发表顶级会议、期刊文章近100篇，美国和中国专利近20项。曾获2019年世界人工智能大会最高奖卓越人工智能引领者（Super AI Leader，简称SAIL奖），2020年国家科学技术进步奖二等奖和杭州市领军型创新团队，2021年电子学会科学技术进步奖一等奖，2022年福布斯中国科技女性50。加盟阿里前，曾任IBM全球研发中心Watson研究员， Yahoo！计算广告主管数据科学家。

特邀报告5：机器翻译预训练方法

报告摘要：预训练已经成为自然语言处理中的重要方法。如何在神经网络机器翻译中利用预训练方法来提升翻译能力？直接将预训练好的BERT/GPT等语言模型应用于机器翻译很难获得预期效果。本次讲座将围绕单语预训练、多语言预训练、多模态预训练三个方面来介绍机器翻译中预训练方法研究最新进展。预训练在机器翻译中需要达到三个目标：设计有效优化目标适应翻译任务；充分利用大量单语上已有预训练模型；拉近跨语言跨任务跨模态表示。通过预训练和细调方法，在双语翻译，多语言联合翻译（包括zero-shot场景），语音翻译，图像辅助翻译等不同翻译场景都取得了显著成效。

特邀讲者：李磊，助理教授，加州大学圣巴巴拉分校

讲者简介：李磊博士，加州大学圣巴巴拉分校助理教授。本科毕业于上海交通大学计算机系（ACM班），博士毕业于卡耐基梅隆大学计算机系。曾获2012年美国计算机学会SIGKDD最佳博士论文第二名、2017年吴文俊人工智能技术发明二等奖、2017年CCF杰出演讲者、2019年CCF青竹奖、2021年ACL最佳论文奖。在机器学习、数据挖掘和自然语言处理领域于国际顶级学术会议发表论文100余篇，主导研发火山翻译和Xiaomingbot写稿机器人等产品。担任IEEE TPAMI杂志编委和2017 KDD Cup、2018 KDD Hands-on Tutorial、2019-2020KDD Sponsorship联合主席, IJCAI2017、AAAI 2019/2020，EMNLP2019-2022、AACL2020、NeurIPS 2021/2022、KDD 2022等大会领域主席。

特邀报告6：预训练语言模型的压缩和加速

报告摘要：基于Transformer 的预训练语言模型在多种NLP下游任务上取得了SOTA的效果。本报告首先回顾语言模型的基本概念和最近几年业界典型的预训练语言模型以及它们的应用场景。巨大的参数量使得这些模型的训练和推理成本极高，阻碍了这些模型在边缘设备或云上的部署。本报告然后梳理近期预训练语言模型训练加速和推理压缩加速方法和优缺点，并重点介绍报告人在该研究领域的一些最新进展，包括使用知识蒸馏、动态网络、网络量化（包括量化训练、并行后量化以及生成模型的量化）和参数共享复用等对预训练语言模型进行极致压缩和加速的算法与落地情况。最后，本报告会展望未来的研究方向和一些思考。

特邀讲者：侯璐/尹伊淳，高级研究员，华为诺亚方舟实验室

讲者简介：侯璐，2019年于香港科技大学获得博士学位，目前在华为诺亚方舟实验室语音语义组担任高级研究员，从事NLP和多模态大模型预训练和压缩加速的研究和落地工作。已在ICML, NeurIPS, ICLR, EMNLP, ACL等机器学习和自然语言处理领域发表论文十余篇, 并获得ACL 2022杰出论文奖。

讲者简介：尹伊淳， 2018年于北京大学获得博士学位。目前在华为诺亚方舟语音语义实验室担任高级研究员，主要从事高效预训练语言模型和神经符号的研究与落地。在ACL、EMNLP等自然语言处理会议上发表多篇论文，其中一篇是EMNLP2020引用次数最高的论文。

学术主任：

黄萱菁，教授，复旦大学

复旦大学教授，中文信息学会理事，中国计算机学会自然语言处理专委会副主任，计算语言学学会亚太分会执委，亚太信息检索学会指导委员会委员。主要从事人工智能、自然语言处理和信息检索等方向研究。近年来承担了国家重点研发计划课题、国家自然科学基金等多项研究。迄今在ACL、SIGIR、IJCAI、AAAI、ICML、EMNLP、NAACL、IEEE TKDE、IEEE/ACM TASL等国际重要学术刊物和会议发表论文200余篇，被引11,000多次。曾获AI 2000人工智能全球最具影响力提名学者、人工智能全球女性、福布斯中国科技女性、上海市育才奖、复旦大学“研究生心目中的好导师”等多项奖励。

邱锡鹏，教授，复旦大学

邱锡鹏，复旦大学计算机学院教授，国家优青获得者，主要从事自然语言处理、深度学习等方向的研究，发表CCF A/B类论文70余篇，获得ACL 2017杰出论文奖（CCF A类）、CCL 2019最佳论文奖、《中国科学：技术科学》2021年度高影响力论文奖，有5篇论文入选PaperDigest发布的ACL/EMNLP/NAACL/IJCAI会议的最有影响力论文（该会议每年所有发表论文中被引用数前10名的论文），主持开发了开源框架FudanNLP和FastNLP，已被国内外数百家单位使用。2015年入选首届中国科协青年人才托举工程，2018年获钱伟长中文信息处理科学技术奖青年创新奖，2020获第四届上海高校青年教师教学竞赛优等奖，2021年获首届上海市计算机学会教学成果奖一等奖（第一完成人）。培养学生多次获得一级学会优博、微软学者、百度奖学金等。

时间：2022年8月17日-8月19日

线下地址（疫情允许的情况下）：苏州市相城区高铁新城相融路600号CCF业务总部&会员活动中心

线上地址：报名交费成功后通过邮件发送。