返回首页
您的位置:首页 > 新闻 > CCF聚焦

翟恩南:云智算时代的产业风口与算力瓶颈 | CNCC专家谈

阅读量:63 2023-10-25 收藏本文



在即将于今年10月26-28日在沈阳举办的CNCC2023期间,在130个涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30个热门专业领域的技术论坛上,包括国际知名学者、两院院士、产学研各界代表在内的700余位报告嘉宾将着力探讨计算技术与未来宏观发展趋势,为参会者提供深度的学术和产业交流机会,当中不乏在各领域深具影响力的重磅学者专家亲自担纲论坛主席。


本专题力邀CNCC2023技术论坛主席亲自撰稿,分享真知灼见,带你提前走进CNCC,领略独特专业魅力!


图片


图片



本期特别嘉宾:

翟恩南 阿里云网络研究负责人 


中国计算机学会,赞1


作者:CNCC2023【云智算时代的产业风口与算力瓶颈】技术论坛主席:翟恩南


什么是云智算?与传统云计算的区别是什么?


云计算已经成为全球数字经济发展的核心基础设施。近年来,随着以大模型为代表的人工智能、深度学习等技术的飞速发展,传统的云计算发生了巨大变革,从传统的以通用计算为核心向现在的以智能决策为核心进行演进。具体表现在以下两个方面:(1)云上产业与业务的变化与(2)支持智能模型训练与推理的算力体系方面的变化。


云上产业与业务的变化指从传统的办公执行、功能开发、信息搜索等向办公资料智能生成、代码自动生成与修复、信息内容智能推荐等业务形态进行演进。图1展示了微软利用嵌入GPT-4模型的Microsoft Copilot通过输入报表需求智能的生成定制化报表的过程。

 

图片

图1 利用Microsoft Copilot通过输入报表需求智能生成定制化报表


支持智能模型训练与推理的算力体系变化指从通用计算的传统网络基础设施向支持海量参数的模型训练、推理等高带宽、低延迟网络基础设施进行演进。例如,图2所示的某大模型训练过程中带宽占用的波动呈周期性剧烈变化,最高点可达到200 Gb/s以上,但趋势为周期性,并非连续;相对的,面向通用计算的云数据中心网络带宽占用则通常随时间均匀线性变化,且波动“方差”不会像大模型训练过程中这么大,而是主要集中在 40Gb/s 左右。这里,我们能够看出支持智能计算(如,训练和推理)的网络情况和支持传统通用计算的网络是完全不同的。

 

图片

图2 某大模型训练过程中带宽占用的波动情况


上述2点的显著变化一起推动了传统云计算进入到云智算的时代。接下来,我们分别就上面提到的两个基础性变革以及可能存在的挑战进行探讨。


云智算时代的产业风口在哪里?


云智算时代的新型应用将出现在各行各业,为这些服务带来更准确、更强大、更实时和更加个性化的变革。就像图1的例子中,传统办公软件服务是用户根据自己的意愿、需求以及目的,人工手写报告,而在云智算时代,通过模型训练和推理,用户仅需要以“聊天”的方式将自己的需求与想法告知办公软件,实际的执行报告写作等则由人工智能自动化生成。这样的变更允许我们处理更复杂的问题,提供更准确的预测和分析结果,实现自动化决策和优化,为我们的数字经济建设提供更好的体验。下面举3个具体的产业突破点:


  • 更准确的预测和分析能力:分析处理大量数据,并通过深层次的学习和训练提取出更准确的模式和规律。这使得预测和分析的精度显著提高。例如,在金融行业,智能计算可通过分析大量历史数据预测股票价格、市场走势等,为投资者提供更准确的决策支持。

  • 强大的语言和图像处理能力:通过深度学习和自然语言处理技术理解更复杂的文本和图像。使得智能语音助手、智能客服、图像识别处理等服务得以发展到新高度。例如,语音助手能够更准确地理解用户的指令并提供相应的服务,图像识别技术可以帮助无人驾驶汽车识别和分析道路上的交通情况。

  • 实时性和个性化服务:智能计算的超强学习能力使得实时性和个性化服务成为可能。通过对大量数据的实时分析和处理,可以根据用户的个性化需求提供相应的服务和推荐。例如,电商平台可以根据用户的购买历史和兴趣推荐相关的产品,让用户获得更好的购物体验。


如何研发新的计算机技术——特别是如何应对智算产业当前模型层面缺乏的通用性造成的训练推理碎片化——对上述产业和应用进行优化支持,保障这些业务的落地服务与规模化,将成为未来研究探索的重点之一。


云智算时代的算力瓶颈在哪里?


云智算的另一个关键变革就是如何通过高稳定的大算力支持AI模型的训练和推理。本文重点关注智能计算核心模型之一,即基于AI大规模的训练,也是当前计算机科学最火热的话题之一。如图3所示,大模型训练中同时交叠多种并行方式。包括(1)张量并行:将一个多层神经网络(比如MLP)按照横向切分的方式拆成多个层数相同的子模型,每个子模型被分配1个独占的GPU进行训练。张量并行通常需要在神经网络的每一层进行全局参数同步;(2)流水线并行:将一个多层神经网络按照纵向切分的方式拆成多个包含部分层的子模型,不同子模型之间采用流水线的方式同时处理多个输入的训练任务,在子模型之间传递的数据通常使用跨主机的网络通信;(3)数据并行:将训练数据集拆分成大小相同的若干份,多个流水线用不同的数据集训练,在各组完成训练之后需要进行全局的参数同步。这部分参数同步通常通过机间网络完成。


图片

 图3 大模型训练中的各种并行 [1]


可以看到在整个训练过程中需要进行大量的数据同步。任何一种并行流程中的数据同步延迟都可能导致整体训练流程停滞并导致最终GPU计算资源浪费。这种大规模、高并发的通信流量需要基础设施网络提供充足的网络带宽(高带宽需求),并保证同一阶段的所有消息都尽快完成,不出现长尾(低延迟需求)。例如,在100Gbps网络下,在16 GPU之间执行128MB AllReduce需要至少消耗5ms。如果数据量进一步增加,理论传输时间会等比例上升。此外,如果任意一个消息出现长尾,则整体耗时会与最长长尾耗时持平。造成的结果是集群线性扩展比低,得到相同算力的成本大幅提升 [2]。综上所述,大模型训练的算力瓶颈主要依赖于网络通信,具体聚焦如下两个大模型训练中的网络关键挑战:


  • 可扩展的万卡网络互联:高效训练单个175B的GPT-3模型就需要至少数百张A100 GPU协同训练。为提高训练速度,通常还会通过数据并行来进行横向扩展,使用数千张GPU卡完成完整训练。随着未来模型规模的不断增长,以及对训练速度需求的提升,如何将万卡GPU互联并有效支持大模型高性能训练的智算集群成为了关键的技术挑战和未来研究方向。

  • 高稳定智算网络:大模型训练的另一个挑战是要求上千张GPU组成的集群持续训练成百上千小时,才能最终输出可用模型,而中间出现任何故障一旦导致训练中断,都要花费相当长的时间才能完成资源重分配和任务重启。在实际训练中,由于存储checkpoint需要暂停训练,因此checkpoint存储周期通常设置的较长,一次训练中断会导致大量的训练进度回退。另一方面,大模型的加载和启动通常也会耗费数十分钟时间,进一步增加了计算资源的浪费。在实际训练过程中,由于网络规模很大,如何应对频繁的链路抖动/板卡故障/线卡故障等问题成为了解决算力瓶颈的关键挑战。


总结


云智算的时代已到来。智能化对人类社会与生活将带来颠覆性变化。真正硬核的创新科技探索以及脚踏实地的技术落地将直接决定我国能否在这次科技革命中取得优势地位,因此,这需要我们每个计算机从业人员的共同努力。


参考文献:
[1] Jaeyong Song, Jinkyu Yim, Jaewon Jung, Hongsun Jang, Hyung-Jin Kim, Youngsok Kim, Jinho Lee, 2023, Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware Communication Compression, https://arxiv.org/pdf/2301.09830.pdf

[2] Vijay Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, Bryan Catanzaro, 2022, Reducing Activation Recomputation in Large Transformer Models, NVIDIA, https://arxiv.org/pdf/2205.05198.pdf


本年度CNCC大会组织“云智算时代的产业风口与算力瓶颈”技术论坛,从事云计算相关领域的一线来自学术界与企业级的科学家们将齐聚一堂,给大家带来精彩的报告和观点碰撞、领域交叉的深度研讨,敬请关注。


图片

CNCC参会报名

 


论坛名称:【云智算时代的产业风口与算力瓶颈】

举办时间:10月28日下午

论坛主席:翟恩南 阿里云网络研究负责人 

共同主席:李振华 清华大学长聘副教授、博导

举办地点:沈阳皇朝万鑫酒店8层-9



顺序

主题

主讲嘉宾

单位

1

面向智能服务的云原生计算系统

李克秋

天津大学

2

Tensor, Collective-Op & Flow——AI大集群横向扩展的通信挑战

付斌章

阿里云计算有限公司

3

结合互连架构的分子动力学模拟强可扩展优化研究

谭光明

中国科学院计算技术研究所

4

下一代AI系统网络的创新与实践

熊勇强

微软亚洲研究院

5

中国算力网支撑AI开源生态

余跃

国防科技大学


想了解更多关于CNCC2023技术论坛信息,欢迎观看CCF公众号【CNCC专家谈】专题及CCF视频号【CNCC会客厅】直播,我们将陆续邀请本届CNCC技术论坛的论坛主席或重磅嘉宾,围绕今年CNCC涉及到的热门话题进行研讨交流,亲自带观众走进CNCC,敬请随时关注!