返回首页
您的位置:首页 > 新闻 > CCF新闻 > CNCC

超大规模模型训练超算化的趋势及应用 | CNCC2021

阅读量:1996 2021-09-23 收藏本文

CNCC2021将汇聚国内外顶级专业力量、专家资源,为逾万名参会者呈上一场精彩宏大的专业盛宴。别缺席,等你来,欢迎参会报名!


640


【超大规模模型训练超算化的趋势及应用】技术论坛


【论坛背景介绍】

目前如AlphaFold、GPT-3等超大规模模型规模迅速增长,对算力的需求也急剧增加。10月28日下午4点,NVIDIA携手百度、阿里云和京东的专家在CC203会议室举办《超大规模模型训练超算化的趋势及应用》技术论坛,将为您带来超大规模分布式模型训练的实践,以及深入分析GPT-3训练过程中的存储、计算及通信开销及相应优化策略等精彩演讲。对GPU加速计算、超大规模语言模型训练、分布式训练框架和E级高性能AI计算集群的硬件架构感兴趣的您不容错过。


论坛主席


侯宇涛

英伟达GPU应用市场总监

图片

简介:2005年加入英伟达,在游戏、计算机视觉、HPC和人工智能计算领域任职销售十年,推广GPU产品并积累了丰富的行业应用经验。近六年来专注于推广GPU应用生态及开发者社区建设,着重于高校GPU和CUDA 教育网络搭建和深度学习应用的推广。自2012年起负责英伟达公司GPU和CUDA应用推广工作至今,每年均支持多所高校参加各种HPC大赛,联合众多高校助力GPU平台成为HPC大赛的必用及常胜使用平台。同年年开始在中国推广英伟达GPU教育中心计划,目前几乎所有HPC和AI相关的高校院系均将GPU编程列入教学计划。同年年起在中国推广英伟达GPU研究中心计划,曾支持多家研究机构获取全球领先科研成果。与计算机协会紧密合作,积极赞助参与CCCV,HPC及CNCC大会。曾连续4次带队组织业界HPC和AI领先公司参与CNCC论坛活动。


侯宇涛先生毕业于北京航空航天大学,先后就职于美国DEC公司,Compaq公司,Phoenix 公司,具有30多年IT产业的销售,市场及技术职位的从业经验。


论坛日程安排


时间

主题

主讲

嘉宾

单位及任职

16:00-16:30

飞桨分布式框架:深度解析超大模型训练技术

吴志华

百度深度学习技术平台部主任研发架构师,飞桨分布式技术负责人

16:30-17:00

阿里云在超大规模分布式模型训练的实践

董建波

阿里云资深技术专家

17:00-17:30

算法,算力,算料,算理,四位一体超级深度学习新范式

詹忆冰

京东科技,京东探索研究院算法科学家

17:30-18:00

超大规模模型训练的趋势及方案介绍 (DGX SuperPOD)

路川

英伟达工程解决方案技术经理

18:00-18:30

深入分析GPT-3模型训练的存储、计算和网络资源需求

刘宏斌

英伟达GPU技术专家

刘斌

英伟达GPU技术专家

18:30-19:00

超大模型部署实践

薛博阳

英伟达GPU技术专家


讲者介绍


吴志华

百度深度学习技术平台部主任研发架构师,飞桨分布式技术负责人

图片

讲者简介:2015年加入百度,长期从事人工智能、搜索推荐等领域的技术研发工作,在深度学习分布式框架、超大规模模型训练、搜索推荐模型算法等技术方向有丰富的研究与应用经验。目前主导研发飞桨大规模稀疏参数服务器训练框架、大规模自动混合并行和包含各种召回、粗排、精排模型的搜索推荐算法套件PaddleRec,及其在Feed、搜索、广告、CV、NLP等领域上的应用。


报告题目:飞桨分布式框架:深度解析超大模型训练技术


摘要:飞桨是源于产业实践的开源深度学习平台。本专题主要介绍飞桨分布式训练框架及其在自然语言处理,视觉,推荐等领域的应用。首先带大家深入了解飞桨超大规模深度学习模型训练技术,含三代参数服务器架构、多维混合并行训练技术等,来解决不同维度大模型的训练;其次通过经典案例来给大家介绍大模型训练难点及在实际业务中的应用。


董建波

阿里巴巴资深技术专家

图片

讲者介绍:董建波,阿里巴巴资深技术专家。2012年毕业于中科院计算所,获博士学位。目前负责阿里巴巴高性能AI计算集群EFLOPS的技术创新和研发。主要研究方向包括:高性能AI计算技术,数据中心架构设计,低延时网络,处理器设计,可靠性设计等等。


报告题目:阿里云在超大规模分布式模型训练的实践


报告摘要:AI算法模型的规模迅速增长,对算力的需求也急剧增加,分布式集群成为AI计算的必然选择。而随着集群规模的扩展,系统的计算效率不断下降。为了应对这一挑战,阿里巴巴设计了EFLOPS高性能AI计算集群,通过软硬件的协同优化,获得极致的计算效率。本专题介绍EFLOPS高性能AI计算集群的硬件架构,软硬件协同设计,以及在典型业务场景上的应用。


詹忆冰

京东探索研究院算法科学家

图片

讲者介绍:詹忆冰分别于2012和2018年在中国科学技术大学信息科学技术学院获取学士学位和博士学位。博士毕业之后,2018至2020年,詹忆冰于杭州电子科技大学计算机学院,任副研究员。现在,詹忆冰就职于京东科技的京东探索研究院,担任算法科学家。其主要探索图模型以及多模态学习,具体研究方向包括:跨模态检索、场景图生成和图神经网络。其已在CVPR、ACM MM、AAAI、IJCV以及IEEE TMM等顶级会议和期刊上发表多篇科学论文。


报告题目:算法,算力,算料,算理,四位一体超级深度学习新范式


报告摘要:超级深度学习(超大规模模型训练)范式需要算法、算力、算料、算理四方面支撑。我们将围绕这四方面,比如算法的设计、算力的构建、算料的收集、以及算理的证明,介绍京东探索研究的研究方向、进展和成果。


路川

英伟达工程解决方案技术经理

图片

讲者介绍:2015年加入NVIDIA,目前主要负责支持中国互联网企业客户构建基于GPU计算的高性能解决方案,熟悉深度学习超大规模模型训练平台方案设计,构建和优化等技术。在加入NVIDIA之前,作为主要技术人员参与国家超算深圳、上海中心等大型超算项目的方案规划,建设及优化,在HPC分布式超算集群建设有着丰富的经验。


报告题目:超大规模模型训练的趋势及方案介绍 (DGX SuperPOD)


报告摘要:针对超大规模模型训练发展,我们将介绍NVIDIA DGX SuperPOD如何设计计算、网络和存储等,提供给客户最优化、可扩展和性能可保障的一站式分布式GPU集群解决方案。

刘宏斌

英伟达GPU技术专家

图片

讲者介绍:2020年加入英伟达,目前主要从事大规模分布式计算领域的研究。在国产异构众核处理器加速、CUDA并行计算以及高性能数值计算领域有较多的研究和应用经验。目前主要负责超大规模语言模型训练的研究,深入分析及优化GPT-3的存储、通信及负载均衡问题。


报告题目:深入分析GPT-3模型训练的存储、计算和网络资源需求


摘要:超大规模语言模型已经在各类NLP任务中取得了SOTA级别的训练结果,然而大规模语言模型带来的存储及计算开销使其对软件及硬件都提出了较高的要求。NVIDIA推出的Megatron-LM框架通过3D-Parallelism将模型合理地分配到相应的计算资源,并且对通信及Kernel进行了优化以提升计算效率,在DGX-A100集群上整体GPU利用率可达50%以上,训练GPT-3只需34天(1024GPUs)。


在这次演讲中,我们将以Megatron-LM为例,深入分析GPT-3训练过程中的存储、计算及通信开销及Megatron-LM的相应优化策略。

刘斌

英伟达GPU技术专家

图片

讲者介绍:2020年加入英伟达,目前主要从事高性能函数库开发。目前主要负责超大规模语言模型训练的研究,深入分析及优化GPT-3的计算问题。


报告题目:深入分析GPT-3模型训练的存储、计算和网络资源需求


摘要:超大规模语言模型已经在各类NLP任务中取得了SOTA级别的训练结果,然而大规模语言模型带来的存储及计算开销使其对软件及硬件都提出了较高的要求。NVIDIA推出的Megatron-LM框架通过3D-Parallelism将模型合理地分配到相应的计算资源,并且对通信及Kernel进行了优化以提升计算效率,在DGX-A100集群上整体GPU利用率可达50%以上,训练GPT-3只需34天(1024GPUs)。


在这次演讲中,我们将以Megatron-LM为例,深入分析GPT-3训练过程中的存储、计算及通信开销及Megatron-LM的相应优化策略。


薛博阳

英伟达GPU技术专家

图片

讲者介绍:2019年加入英伟达。目前主要负责FasterTransformer的开发与优化。FasterTransformer 提供 Transformer 模型推理上灵活与高效的调用,对比一般的筐架能提供数倍到十倍以上的加速效果。除此之外,是第一个支持GPT-3的推理库。FasterTransformer针对GPT-3这种超大规模 (1750亿模型参数) 的模型提供了模型并行、优化通信开销、显存使用,让使用者能以最少的GPU、透过多GPU、多节点在GPT-3的服务上得到最好的速度。


报告题目:超大模型部署实践


报告摘要:最近几年,NLP模型的参数量以每年10倍的成长速度不断增加,并且至今为止还没有减缓的迹象。为了能将这些上千亿参数的模型部署上线,透过多GPU来载入模型并且提升速度是必要的。虽然目前许多的主流框架,如 TensorFlow, PyTorch,都有提供多GPU的训练库。但在推理上,这些筐架无论是在显存使用上还是速度上都明显不足。而在推理方面,虽然也已经有许多很好的工作,例如TensorRT、Light-seq,但他们都只能支持单GPU的推理。而FasterTransformer正是第一个针对多GPU场景进行优化的推理库。


640



640


CNCC2021将于10月28-30日在深圳举行,今年大会主题是“计算赋能加速数字化转型”。CNCC是计算领域学术界、产业界、教育界的年度盛会,宏观探讨技术发展趋势,今年预计参会人数将达到万人。每年特邀报告的座上嘉宾汇聚了院士、图灵奖得主、国内外名校学者、名企领军人物、各领域极具影响力的业内专家,豪华的嘉宾阵容凸显着CNCC的顶级行业水准及业内影响力。


今年的特邀嘉宾包括ACM图灵奖获得者John Hopcroft教授和Barbara Liskov教授,南加州大学计算机科学系和空间研究所Yolanda Gil教授,陈维江、冯登国、郭光灿、孙凝晖、王怀民等多位院士,及众多深具业内影响力的专家。今年的技术论坛多达111个,无论从数量、质量还是覆盖,都开创了历史之最,将为参会者带来学术、技术、产业、教育、科普等方面的全方位体验。大会期间还将首次举办“会员之夜”大型主题狂欢活动,让参会者畅快交流。


CNCC2021将汇聚国内外顶级专业力量、专家资源,为逾万名参会者呈上一场精彩宏大的专业盛宴。别缺席,等你来,欢迎参会报名!


图片

CNCC2021参会报名