CNCC｜百度、腾讯、小冰、京东、NVIDIA如何部署超大模型？

阅读量:1649 2022-10-27 收藏本文

CNCC｜百度、腾讯、小冰、京东、NVIDIA如何部署超大模型？

CNCC2022将于12月8日至10日在贵州省贵阳市国际生态会议中心举办，今年CNCC技术论坛数量达到122个，内容涵盖了“计算+行业、人工智能、云计算、教育、安全”等30个方向。本文特别介绍将于12月9日举行的【超大模型的推理和部署实践】研讨会。

报名及了解更多技术论坛信息请识别下图二维码进入CNCC2022官网。目前早鸟票限时优惠报名正在进行，抓住机会立享大幅优惠！

自2020年 OpenAI推出GPT模型之後，越来越多研究和实践证明超大模型在各类任务上的卓越能力与重要性，在CNCC2022大会上，百度、腾讯、小冰和京东携手NVIDIA带来《超大模型的推理和部署实践》论坛。通过本次分论坛，您将了解飞桨超大模型的压缩和推理优化；基于精调、蒸馏和压缩的大模型落地应用；通往高参数效用比的自然语言处理 - 预训练、下游任务与前沿展望；小冰如何利用FasterTransformer实现大规模语言模型的产品级部署，以及Transformer模型在TensorRT上的推理性能优化等内容。

论坛安排

顺序	主题	主讲嘉宾	单位
1	飞桨超大模型的压缩和推理优化	党青青	百度
2	通往高参数效用比的自然语言处理——预训练、下游任务、与前沿展望	丁亮	京东
3	基于精调、蒸馏和压缩的大模型落地应用	刘凯	腾讯
4	小冰如何利用FasterTransformer实现大规模语言模型的产品级部署	赵天雨	小冰
5	小冰如何利用FasterTransformer实现大规模语言模型的产品级部署	郑鹏	NVIDIA
6	基于FasterTransformer 和 Triton 大模型的预估	薛博阳	NVIDIA
7	Transformer模型在TensorRT上的推理性能优化	王猛	NVIDIA
8	Panel环节	部分主讲嘉宾

论坛主席

侯宇涛

NVIDIA GPU应用市场总监

2005年加入NVIDIA，在游戏、计算机视觉、HPC和人工智能计算领域任职销售十年，推广GPU产品并积累了丰富的行业应用经验。近六年来专注于推广GPU应用生态及开发者社区建设，着重于高校GPU和CUDA教育网络搭建和深度学习应用的推广。曾支持多所高校参加各种HPC大赛，在中国推广NVIDIA GPU教育中心计划以及NVIDIA GPU研究中心计划多年，与CCF紧密合作。

论坛共同主席

王猛

NVIDIA GPU技术专家

2019年加入NVIDIA，目前主要从事GPU上模型部署与优化，在TensorRT，ONNX和CUDA并行计算等领域有较多的研究和应用经验，目前主要负责TensorRT workflow。

报告及讲者介绍

党青青

百度资深研发工程师

目前主要从事深度学习模型推理、压缩、视觉算法的研究。负责飞桨推理性能优化，以及模型压缩工具、视觉套件建设。有丰富的深度学习框架系统研发、高性能优化、算法调优经验。

报告题目：飞桨超大模型的压缩和推理优化

超大模型在各类任务上取得卓越的效果，然而由于超大模型体积大、速度慢，推理部署面临巨大的挑战，大模型的高效推理是实现大模型产业应用落地的关键所在。飞桨推出了针对大模型的压缩、推理、服务化全流程部署方案。该方案通过面向大模型的精度无损模型压缩技术、自适应分布式推理技术，可自动感知硬件特性，完成模型压缩、自动切分和混合并行推理计算，实现领先性能。

丁亮

京东探索研究院算法科学家，自然语言处理方向负责人

博士毕业于悉尼大学，师从IEEE/ACM Fellow陶大程教授。他致力于基于深度学习的自然语言处理，包括大规模语言模型预训练、语言理解、生成和翻译。他带领团队在2021年12月在两个GLUE基准评测任务上实现首次超越人类的表现，随后在2022年1月以均分91.3获得总榜单第一。

报告题目：通往高参数效用比的自然语言处理——预训练、下游任务、与前沿展望

如今自然语言处理领域正在进行 “训练->推理” 到 “预训练->下游任务微调”的范式转换，其中模型神经元数量和预训练所用数据规模已经远超人类大脑的神经元数量和人类人均阅读总量，同时在GLUE等通用大模型评估榜单中获得的收益是非常微弱的。对此，我们开展了一系列高参数效用比的自然语言处理预训练、和下游任务的探索，来帮助大模型更加智能、高效的从海量数据中挖掘知识，并鲁棒、准确的迁移到下游任务中。

刘凯

腾讯软件工程师

从事NLP训练推理一体化服务开发

报告题目：基于精调、蒸馏和压缩的大模型落地应用

大模型历经过去几年探索已经相对成熟。目前如何能够在真实场景快速落地成为急需解决的问题。为解决大模型落地方面的各种问题，我们开发提供精调、蒸馏、压缩、推理、服务化全流程部署方案，助力大模型快速有效落地。

赵天雨

小冰高级研究员

2015年本科毕业于北京大学计算机系，2020年博士毕业于京都大学智能信息学系，同年就职于小冰日本团队。研究方向为自然语言处理，主要关注对话系统、大模型的训练与部署。

报告题目：小冰如何利用FasterTransformer实现大规模语言模型的产品级部署

小冰在部署 GPT 1B/6B 模型中遇到的困难；Faster Transformer (FT) 如何解决上述困难；在上述模型配置下，FT+Triton 与 baseline (Huggingface Transformers 和 Deepspeed) 在 a. latency, b. throughput, c. 可部署的最低配置GPU环境上的差异；小冰如何利用 FT 对 soft prompt/prefix 的支持，在只使用同一个 backbone model 的情况下实现对不同用户的高度自定义化。

郑鹏

NVIDIA GPU 计算专家

毕业于佐治亚理工计算科学与工程专业，2021年加入NVIDIA主要参与FasterTransformer Multi-GPU Multi-Node 相关的优化工作。

报告题目：小冰如何利用FasterTransformer实现大规模语言模型的产品级部署

薛博阳

NVIDIA GPU 技术专家

2019年加入NVIDIA，目前主要负责FasterTransformer的开发与优化。FasterTransformer 提供 Transformer 模型推理上灵活与高效的调用，对比一般的框架能提供数倍到十倍以上的加速效果。除此之外，是第一个支持GPT-3的推理库。FasterTransformer针对GPT-3这种超大规模 (1750亿模型参数) 的模型提供了模型并行、优化通信开销、显存使用，让使用者能以最少的GPU、透过多GPU、多节点在GPT-3的服务上得到最好的速度。

报告题目：基于FasterTransformer 和 Triton 大模型的预估

自2020年 OpenAI 推出GPT模型之後，越来越多研究证明超大模型在自然语言处理上的能力与重要性。NVIDIA在 2021 年时基于FasterTransformer 开发多机多卡并行推理的功能，提出第一个多机多卡大模型推理的解决方案。FasterTransformer本身不具有收集、整理请求的能力，这在实际应用上是非常重要的功能。为了填补不足，我们将FasterTransformer 与推理框架 Triton 进行结合，让FasterTransformer 能够更好的支持实际的推理场景。在这次的演讲中，我们会详细的讲解我们如何实现以上的功能，让用户能透过FasterTransformer将大模型推理实际落地。

王猛

NVIDIA GPU技术专家

报告题目：Transformer模型在TensorRT上的推理性能优化

Transformer在NLP和CV领域大放异彩，在众多深度学习模型中显现了突出的效果。同时，它相比于卷积网络需要更高的计算量，其推理优化值得关注。TensorRT是NVIDIA专门针对推理场景推出的性能优化工具；NVIDIA DevTech团队将若干常用的Transformer模型移植到TensorRT，获得了良好的加速效果。

CNCC是级别高、规模大的高端学术会议，探讨计算及信息科学技术领域最新进展和宏观发展趋势，展示计算领域学术界、企业界最重要的学术、技术成果，搭建交流平台，促进科技成果转换，是学术界、产业界、教育界的年度盛会。今年邀请嘉宾包括ACM图灵奖获得者、田纳西大学教授Jack Dongarra，以及高文、管晓宏、江小涓、钱德沛、徐宗本、张平等多位院士及专家，还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家，CNCC在计算领域的水准及影响力逐年递增。本届CNCC的主题是：算力、数据、生态。

CNCC2022将汇聚国内外顶级专业力量、专家资源，为逾万名参会者呈上一场精彩宏大的专业盛宴。大会期间还将举办“会员之夜”大型主题狂欢活动，让参会者畅快交流，燃爆全场。如此盛会，岂能缺席！等你来，马上行动，欢迎参会报名！

<<< 上一篇 CNCC｜计算与经济的交融发展

CNCC｜如何基于少量标注构建高精度自然语言处下一篇 >>>

<<< 下一篇 CNCC｜如何基于少量标注构建高精度自然语言处