CNCC | 超万卡大模型集群网络系统,现状、机遇与挑战?
CNCC2024
论坛简介:
超万卡大模型集群网络系统,现状、机遇与挑战?
举办时间:10月24日13:30-17:30
地点:夏苑-泰国馆一楼
注:如有变动,请以官网(https://ccf.org.cn/cncc2024)最终信息为准
面向AGI的模型探索伴随着复杂的超大规模AI集群规划、建设、运维、优化过程,对相关企业的基础设施能力提出了前所未有的挑战。如何构建一个稳定、高效、安全、可扩展的AI网络环境,需要深入理解架构设计,了解部署和运行限制,维持硬件设备高效运转,分析面临的关键技术挑战,确保业务获得最优效果。
本论坛邀请华为、百度、阿里、腾讯、字节、Google等支持超万卡集群的业界专家和学术界老师全方面介绍目前实际的业务特征,训练和推理服务的需求,超大规模集群的架构设计思路、硬件软件供应部署状况、并行策略应用原理、网络通信性能优化方法、网络协议(IB、RDMA、以太网)设计与扩展建议、端到端监控调优策略等问题、解释说明行业难题和现阶段方案,通过比较、展示、样例分析为广大师生和一线工程技术人员提供第一手的问题定义和行业现状。
本论坛将进一步讨论未来国内外大规模GPU集群互联的Scale-up, Scale-out 方案的发展思路,超万卡集群网络的设计趋势,开放网络设计,针对GPU 互联等卡脖子问题的破局方案,以及其中涉及到的行业发展理念与观点。
论坛日程
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 网络技术新篇章:为AI大模型训练与推理构建高效平台 | 张亮 | 华为技术有限公司 |
2 | 大规模GPU集群互联的挑战与应对 | 李兆耕 | 百度在线网络技术(北京)有限公司 |
3 | ETH-X以太超节点:AI网络新特征、算力突破新探索 | 夏寅贲 | 腾讯科技(深圳)有限公司 |
4 | 高通量以太网:智算网络的挑战和体系建设 | 付斌章 | 阿里云计算有限公司 |
5 | 迈向高可观测、高可扩展的大规模AI网络 | 江卓 | 北京字节跳动科技有限公司 |
Panel环节 | 赵世振 | 上海交通大学 | |
张亮 | 华为技术有限公司 | ||
李兆耕 | 百度在线网络技术(北京)有限公司 | ||
夏寅贲 | 腾讯科技(深圳)有限公司 | ||
付斌章 | 阿里云计算有限公司 | ||
江卓 | 北京字节跳动科技有限公司 |
论坛主席及嘉宾介绍
论坛主席
王晓亮
长期从事“网络系统软件”研究,集中在体系结构和云网络系统方面。具有丰富的实际系统部署与操作经验,曾作为微软亚洲研究院“铸星计划”学者,腾讯网络平台部研究负责人,阿里云与基础设施部门荣誉顾问,参与支持云网络、存储与计算网络的研发与部署工作。发表论文包括SIGCOMM,OSDI,NSDI,ATC,EuroSYS, FAST, CoNEXT等会议,并获得2016,2019年江苏省科技进步一等奖。
论坛共同主席
郑晓龙
华为数通DCN实验室主任、华为DCN领域科学家
2016年获清华大学自动化系博士学位,2011年获清华大学自动化系学士学位。研究兴趣主要有数据中心网络架构,RDMA网络,大模型训推网络,发表SCI/顶会(如SIGCOMM)论文十余篇,专利数十项,曾获清华大学优秀博士论文,清华大学优秀毕业生。
论坛讲者
张亮
华为数据通信产品线研究部部长
2010年东南大学博士毕业入职华为,现任数据通信产品线研究部部长一职。负责WLAN&以太领域、网络AI算法领域、IP协议与转发领域竞争力提升。在SIGCOMM、KDD等会议/期刊发表多篇论文,完成专著《事件挖掘的理论算法及应用》,发明专利50+。
报告题目:网络技术新篇章:为AI大模型训练与推理构建高效平台
摘要:AI智算,尤其是大语言模型业务的井喷式发展,对网络的性能和规模等方面的要求越来越高。随着大模型进入万亿模型时代,模型训练对算力的需求也急剧增加,集群规模达到万卡甚至十万卡级别;而多模态模型的出现,也推动智算推理业务从单机推理走向多机推理。这些变化对网络提出了一系列的要求和挑战。本次论坛将聚焦于超万卡集群网络所面临的业界挑战难题,与大家共同探讨如何优化网络系统以支持AI大模型的高效训练。
李兆耕
百度智能云AI网络技术负责人
熟悉RDMA、智能网卡、数据中心网络等多个技术领域,在云计算和AI系统网络核心技术方面的设计研发经验丰富。现任百度智能云AI网络技术负责人。
报告题目:大规模GPU集群互联的挑战与应对
摘要:大模型的发展推动了万卡甚至十万卡大规模GPU集群的需求,网络互联已成为GPU集群中的核心技术问题。在构建大规模GPU集群的实践中,需要面对GPU并行计算下特有的性能、成本与稳定性挑战,这也导致了GPU互联网络和传统数据中心网络之间越来越大的差异。在本报告中,我们将详细阐述这些挑战以及当下的应对方法,并讨论未来可能的演进方向。
夏寅贲
腾讯首席网络架构师
主导腾讯星脉网络系统设计研发,构建起从自研算力网卡、交换机、自研协议、通信库到端到端AI集群仿真、分析、运维的高性能网络系统,支撑腾讯多个数万卡AI集群的快速建设与高效运行。
报告题目:ETH-X以太超节点:AI网络新特征、算力突破新探索
摘要:AI大模型在Scaling Law、Long Sequecne等需求的驱动下,对算力有着不断提高的要求。但当前技术在单芯片算力提升以及Scale Out扩展集群算力方面都遇到了相应的技术约束。腾讯牵头推动产业合作以超大带宽以太网scale up方式互联GPU构成HBD(High Bandwidth Domain)探索突破算力瓶颈。本报告介绍ODCC ETH-X项目,以太网技术构建大带宽、弹性可扩展 GPU-GPU HBD,同时构建大带宽、大容量GPU-CPU/Memory Pool扩展内存方案。
付斌章
阿里云研究员
高性能计算专委会执行委员,阿里云高性能网络业务负责人,主导了阿里云自研高性能网卡和通信库软件的研发,以及超大规模RDMA(虚拟)网络的建设、交付和运营,在ISCA、SIGCOMM等行业旗舰会议发表论文20余篇。
报告题目:高通量以太网:智算网络的挑战和体系建设
摘要:随着人工智能业务的高速发展,以RDMA为代表的Scale-out网络以及以NVLINK为代表的Scale-up网络均面临着新的挑战。针对这个问题,本次演讲将从通义大模型为代表的业务需求出发,结合网络领域的最新研究成果,讨论基于开放以太网建设下一代智算网络的挑战和机遇。
江卓
字节跳动网络研发专家
2018年获得清华大学计算机科学与技术博士学位,美国普渡大学博士后。长期致力于包括MPTCP、RDMA在内的高性能、高可靠传输协议研究和大规模产业应用。在互联网端到端传输协议的测量与优化、RDMA大规模部署以及和应用融合优化等方面,积累了丰富的经验。
报告题目:迈向高可观测、高可扩展的大规模AI网络
摘要:AI网络是训练大语言模型离不开的基础设施,近些年随着业务需求的迅猛增长,AI网络技术演进变得更加迅速。业务需求变化体现在更大规模和更高的可观测性方面。网络的可观测性需要紧跟业务的需求和发展,既需要提高其覆盖范围,又需要在精度和粒度方面做得更加精细,还需要及时地反映出业务特点。本次报告重点介绍近期覆盖机内、单一网卡和机间网络的故障定位工具的进展和应用。
Panel嘉宾
赵世振
上海交通大学长聘教轨副教授、博导
2010年毕业于上海交通大学电子信息与电气工程学院,获学士学位。2015年毕业于美国普渡大学电子与计算机工程专业,获博士学位。2015年-2019年初就职于美国谷歌网络组。2019年起加入上海交通大学John Hopcroft计算机科学中心担任长聘教轨副教授。2020年入选上海海外高层次人才计划。他目前主要从事光电混合数据中心网络架构的研究,其提出的“慢切换”光电混合数据中心网络控制方案得到了谷歌/华为等企业的关注与应用,并获得华为火花奖和华为优秀合作项目成果奖。他的研究成果发表在SIGCOMM,NSDI,SIGMETRICS,ICNP,INFOCOM,IEEE/ACM TON等国际知名会议与期刊。
报告题目:谷歌光电混合数据中心网络的发展与启示
摘要:随着AI大模型的兴起,数据中心对带宽的需求急剧增长,传统的基于电交换的Clos网络架构由于受到功耗的限制,而越来越难以满足带宽的需求。由于光交换技术在成本、功耗、带宽方面相比电交换技术有着显著的优势,如何将光交换技术引入数据中心在近年来得到了广泛关注。该报告通过公开文献,详细剖析谷歌近年来光电混合数据中心的发展和技术演进,为我国构建自主可控的大型光电混合互连网络提供依据。
关于CNCC2024
CNCC2024将于10月24-26日在浙江省东阳市横店镇举办,大会主题为“发展新质生产力,计算引领未来”。大会为期三天,包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势,分享创新成果。预计参会者超过万人。