CNCC｜预训练大模型的未来

阅读量:1186 2022-11-17 收藏本文

CNCC2022将于12月8日至10日举办，今年CNCC技术论坛数量达到122个，内容涵盖了“计算+行业、人工智能、云计算、教育、安全”等30个方向。本文特别介绍将于12月10日举行的【预训练大模型】技术论坛。

报名及了解更多技术论坛信息请识别下图二维码进入CNCC2022官网。目前早鸟票限时优惠报名正在进行，抓住机会立享大幅优惠！

近年来，大规模预训练模型以强大的研究基础性、技术通用性、应用泛化性，得到产学研各方的高度关注。阿里巴巴达摩院研发了超大规模中文多模态预训练模型体系“通义”，并陆续推出了百亿、千亿、万亿和十万亿参数规模的预训练模型，实现了高效低碳的预训练，推动预训练基础模型的产业化应用。论坛将在预训练大模型多模态，开源产业结合等方向展开研讨。

论坛安排

顺序	报告题目	讲者	单位
1	知识图谱遇到大模型	李涓子	清华大学
2	阿里巴巴层次化预训练模型体系研究和应用	黄松芳	阿里巴巴达摩院
3	GLM-130B: 开源的中英双语千亿预训练模型及其低资源应用	东昱晓	清华大学
4	阿里巴巴达摩院视觉多模态大模型研究介绍	赵德丽	阿里巴巴达摩院
5	Delta Tuning：大模型的小参数高效微调	周斌	华为
6	认知大模型的研究与应用	张鹏	北京智谱华章科技有限公司

论坛主席

黄非

阿里巴巴达摩院机器智能语言技术实验室研究员

阿里巴巴达摩院自然语言基础技术，对话技术和多模态翻译团队负责人。他领导AliNLP 基础技术研发和业务落地，云小蜜对话技术和多模态翻译技术，并支持集团内外的国际化业务需求。黄非博士毕业于卡耐基梅隆大学计算机学院。之后在IBM和Facebook从事自然语言处理的研发和技术管理等职位。他在自然语言处理和人工智能的顶级会议和期刊发表文章40多篇，获得美国专利10多项，曾担任ACL,IJCAI,COLING等多个NLP国际会议的领域主席/资深程序委员和多个期刊会议论文的审稿人。

论坛共同主席

李涓子

清华大学教授

清华大学计算机科学与技术系教授，软件研究所副所长，数据科学研究院科技大数据研究中心主任。研究方向：融合语义Web、文本与社会网络挖掘技术，研究基于语义的内容管理关键技术，并应用于包括新闻、研究者社会网络和Web服务在内的多个领域，包括基于语义的内容管理关键技术、新闻与社会网络挖掘、新闻领域XML数据处理应用研究。其研究成果发表在SIGMOD、Journal of Web Semantics和TKDE等国际重要学术期刊和会议上。此外，还担任国家标准 “中文新闻信息标识语言（CNML）”（GB/T20092-2006）的第四起草人，并作为项目负责人，承担了CNML标准管理系统的研制任务。

报告及讲者介绍

李涓子

清华大学教授

报告题目：知识图谱遇到大模型

大模型与知识计算摘要：人工智能正在从感知智能向认知智能迈进，融合数据和知识的知识表示和推理是实现认知智能的一个重要途径和人工智能面临的挑战。当前大规模预训练模型在一些知识相关的任务上展现了惊人的效果，大模型是否可以替代人类认知的知识？大模型与知识计算之间的关系是什么？本报告将从技术层面对上述问题进行讨论分析。

黄松芳

阿里巴巴达摩院资深算法专家

英国爱丁堡大学博士，阿里巴巴AliceMind大模型团队负责人，负责超大规模跨模态预训练模型的技术研发和行业应用，带领团队研发了通用大模型PLUG、多模态mPLUG、多语言VECO、生成式PALM、结构化 StructuralLM等，在近10 个国际比赛和榜单中获得第一，在机器视觉问答 VQA任务上首次超越人类结果。AliceMind开放平台日均调用量超百亿次服务阿里巴巴业务场景。团队工作多次被人民日报、新华网、科技日报、中国电子报等媒体报道。加入阿里巴巴之前，曾在IBM研究院工作。

报告题目：阿里巴巴层次化预训练模型体系研究和应用

目前基于海量数据和巨大算力支撑的大模型的研究如火如荼，在文本理解和生成的多个任务方面都取得了广泛的效果。在此基础上，还有很多问题有待进一步探讨和解决，比如多模态图文信息的融合，基于预训练模型得到的知识表示（“embedding”）如何和显性的知识（比如知识图谱，规则等）相结合，如何从通用模型向领域模型和行业模型拓展，低成本高效率平台化的使用预训练大模型以使其发挥出更大的应用价值等。本次报告将围绕阿里巴巴预训练模型体系展开报告。

东昱晓

清华大学计算机系助理教授

研究方向为数据挖掘、图机器学习和预训练模型。图表示学习及预训练方向上的相关成果应用于十亿级脸书社交网络和微软图谱，获WSDM’15, WWW’19和WWW’22最佳论文提名。博士毕业于美国圣母大学，曾工作于脸书人工智能和微软总部研究院。获国家青年人才项目支持、ACM SIGKDD博士论文提名奖和2022年SIGKDD新星奖，入选IJCAI’22 Early Career Spotlight。

报告题目：GLM-130B: 开源的中英双语千亿预训练模型及其低资源应用

GLM-130B 是一个开源开放的中英双语双向稠密预训练模型，拥有 1300 亿参数，模型架构采用通用语言模型GLM。该模型在多个公开榜单上取得了比其他千亿规模的GPT-3、OPT、BLOOM等模型取得了显著的性能优势。此外，GLM-130B的INT4量化版本支持在一台八卡RTX 2080 Ti 或四卡3090服务器上对1300亿全参数模型进行基本无精度损失的推理。与此同时，该模型在多种下游应用上取得了不错的结果。

赵德丽

达摩院基础视觉实验室负责人

赵德丽毕业于上海交通大学。在微软亚洲研究院的视觉计算组和香港中文大学的多媒体实验室工作六年时间，从事机器视觉和机器学习的算法研究工作。在加入阿里巴巴之前，在HTC和小米从事六年的算法研究和团队管理工作，目前是达摩院基础视觉实验室的负责人。德丽长期从事机器视觉和机器学习的基础算法研究，目前主要研究方向聚焦在生成模型，多模态学习，和预训练基础模型。

报告题目：阿里巴巴达摩院视觉多模态大模型研究介绍

多模态学习作为AI前沿研究的新范式取得了快速发展，包括多模态表征学习和多模态生成模型。本次报告介绍阿里巴巴达摩院视觉方向多模态大模型的研究成果和实践经验，包括多模态表征学习的研究以及在电商、自动驾驶、视频云等业务场景的应用。除此之外，还包括多模态生成大模型的创新，以及生成器的研究成果，特别是文本生成图像和文本生成视频方向的研究进展和实践。

周斌

华为昇腾计算业务CTO

本硕博毕业于清华大学电子工程系，并拥有George Mason University计算机工程硕士学位，兼任山东大学信息科学与工程学院教授。他的研究兴趣包括异构计算系统和体系架构、深度学习和机器学习、并行计算和信号处理、基于深度学习的目标检测、分类、识别和跟踪等研究等。曾担任商汤科技深度学习科学家，Novumind全球副总裁，2013年被评为全球第12位NVIDIA CUDA Fellow，长期从事异构加速计算方面的研究。曾在中国科学技术大学、乔治梅森大学等学术机构担任客座或者讲席学者。拥有超过10项的国内外专利，论文20多篇，主持多项重大科研项目，包括GPU版本的天气预报模式Grapes、人脸检测识别系统和视频处理系统、人工智能处理器芯片等。

报告题目：Delta Tuning：大模型的小参数高效微调

近年来深度学习成为自然语言处理关键技术，特别是2018年以来的预训练语言模型，显著提升了自然语言处理整体性能。如何更好地激发大规模预训练模型在下游任务上的效果，是广泛关注的研究课题。但是，随着模型规模增大，如何微调大模型参数适配下游任务，变得越来越困难。最近，参数高效微调（Parameter-Efficient Learning，或者 Delta Tuning）通过固定大模型参数不动，只微调非常少的参数（Delta），就可以达到与全参数微调相当的效果，取得了很多突破性进展。本报告将介绍大模型的小参数高效微调方法、前沿动态以及未来展望。

张鹏

北京智谱华章科技有限公司 CTO

清华大学2018创新领军工程博士，毕业于清华大学计算机科学与技术系，研究领域包括文本数据挖掘和语义分析、知识图谱构建和应用等。作为主要研究人员参与欧盟第七合作框架跨语言知识抽取、国家863计划“海量知识库建设与构建关键技术及系统”、科技情报分析挖掘平台AMiner（https://aminer.cn）等项目的研发工作，并参与设计和研发了国内首个中英文平衡的跨语言知识图谱系统XLORE（http://xlore.org）,在ICML、ISWC等顶级会议上发表10余篇文章。曾任中国新闻信息标准化分会委员，电子学会标准化工作委员会机器人技术委员会委员。致力于将认知智能技术应用于实际需求，在语义大数据分析、智能问答、辅助决策等应用领域拥有丰富的实践经验。

报告题目：认知大模型的研究与应用

基于GLM-130B中英文双语大模型、CodeGeeX代码生成模型等系列大模型，智谱提出全新Model as a Service（MaaS）的市场理念，打造了认知大模型平台，提供了大模型SDK、API、模型共训等产品和服务，并不断探索在科技情报、数字人、媒体等行业的解决方案。

CNCC是级别高、规模大的高端学术会议，探讨计算及信息科学技术领域最新进展和宏观发展趋势，展示计算领域学术界、企业界最重要的学术、技术成果，搭建交流平台，促进科技成果转换，是学术界、产业界、教育界的年度盛会。今年邀请嘉宾包括ACM图灵奖获得者、田纳西大学教授Jack Dongarra，以及高文、管晓宏、江小涓、钱德沛、徐宗本、张平等多位院士及专家，还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家，CNCC在计算领域的水准及影响力逐年递增。本届CNCC的主题是：算力、数据、生态。

CNCC2022将汇聚国内外顶级专业力量、专家资源，为逾万名参会者呈上一场精彩宏大的专业盛宴。大会期间还将举办“会员之夜”大型主题狂欢活动，让参会者畅快交流，燃爆全场。如此盛会，岂能缺席！等你来，马上行动，欢迎参会报名！

<<< 上一篇 CNCC｜虚实融合环境下人机物之间将如何交互？

CNCC大会论坛｜四院士聚议从网格到算力网络的下一篇 >>>

<<< 下一篇 CNCC大会论坛｜四院士聚议从网格到算力网络的