编者寄语

随着ChatGPT等应用的爆发,人工智能正式进入大模型时代。其核心特征在于模型参数规模、训练数据量以及计算需求的指数级增长,催生了由成千上万颗GPU/NPU组成的分布式计算集群。传统的数据中心网络设计面对这种前所未有的计算范式,面临着根本性的挑战。大模型的分布式训练过程要求计算节点间持续、高效地同步海量梯度数据,这使得网络通信的性能成为制约整个系统效率和模型迭代速度的关键瓶颈。此外,大模型推理服务在全球范围的部署,也要求网络具备高并发、低延迟和弹性伸缩的能力。在此背景下,现有网络技术已难以满足大模型发展的需求,一场深刻的网络技术变革势在必行。一方面,大模型的训练和推理过程,其核心是海量数据的流动和计算节点的协同。这直接驱动了网络技术的演进和变革。反过来,网络技术本身也在利用大模型进行自我革新,迈向智能化。大模型时代的网络技术研究,不仅是解决当前AI算力瓶颈的迫切需求,更是引领未来计算基础设施演进、夯实数字经济发展底座的核心驱动力。

本期专题聚焦大模型时代的网络技术,梳理了传统网络架构适配大模型训练与推理的瓶颈挑战,展示了新型组网、通算融合等前沿技术方向与实践成果,展望了网络与大模型双向驱动的演进路径,为相关研究与产业落地提供参考。


编委主任:苏金树 CCF会士 军事科学院教授

本期主编赵宝康 CCF互联网专委副主任 国防科技大学

智能化领域定制网络iDSN技术

AI4S技术已经成为未来技术发展的重要手段和趋势,也在很多领域发挥了重要作用。本报告主要讨论三个方面内容:一是AI4S的通用方法与主要进展;二是经典智能技术在网络技术中的应用;三是大模型在网络技术中主要应用,四是智能技术在iDSN中的实践。

格式:
视频
智算网络架构与关键技术:从网算协同到通算融合

大模型的训练对算力基础设施提出了极高的要求。本报告介绍华为在构建面向大模型的智算网络中遇到的组网规模、成本、性能和可用性等方面的核心挑战,以及围绕这些挑战所做的创新。通过网络与计算的协同设计,构建适合大模型流量特征的组网架构、路由系统、负载均衡和集合通信技术,将通信本身极致优化;进一步地,通过通信与计算的深度融合,跨越网和算的边界,系统性地优化计算和数据搬移代价,提升系统算效。

格式:
视频
网络技术与大模型双向奔赴

随着人工智能技术的迅猛发展,Transformer等大模型已成为处理复杂数据分析任务的重要工具。然而,大模型的高效分布式训练和推理运行依赖于先进的网络技术支持,而大模型也为网络的规建维优提供了新的技术思路。本报告围绕网络技术与大模型的双向赋能,探讨了云计算环境下的新型智算网络优化,也探索了大模型在网络流量管理、网络安全的初步尝试。本报告旨在为研究人员和工程师提供一个关于网络技术与大模型双向促进的全面视角,为未来的研究和应用开辟新的道路。

格式:
视频
面向大模型时代的网络基础设施研究:挑战、阶段成果与展望

拥有千亿级别参数的大语言模型(large language model,LLM)已为今天的人工智能和云服务带来了巨大的技术和商业变革. 然而,大模型训练与传统的通用云计算(例如,亚马逊EC2弹性计算服务)之间存在较多根本性的网络行为差异,从而带来了很多新的挑战,主要包括流量模式差异造成负载难均衡(挑战1)、多训练任务通信竞争影响GPU利用率(挑战2),以及对网络故障的高敏感性(挑战3)等. 因此,为通用云计算设计的数据中心网络技术(例如,网络架构、选路方法、流量调度,以及可靠性保障方法等)已不适合今天的大模型训练,这要求专门为大模型训练设计新型的数据中心网络以及配套的技术方案。本报告介绍了阿里云专门为大模型训练设计的数据中心网络HPN以及多任务通信调度方法Crux解决上述3个挑战。

格式:
文章
网存算融合的大模型系统软件

随着大模型技术的快速进步,大模型在各个领域都展现出巨大潜力,成为学术界和工业界都关注的热点方向。大模型参数规模大,其训练和推理需要消耗大量计算、网络和存储资源,高效支持大模型的训练和推理是智算系统的重要问题。本次报告将介绍在大模型训练和推理系统方面的近期工作,并对大模型系统的未来发展进行展望。

格式:
视频
面向网络任务的大模型技术研究

大模型为解决网络任务提供了新的解决思路,相较于传统的数学建模和机器学习方案,通过大规模数据的学习,大模型展现出了逻辑推理能力,基于大规模预训练,大模型对于领域数据的需求较低,通过对于工具的集成,大模型能够增强全链路的智能化水平。综上,大模型有望解决网络领域存在的环境复杂、设备多样和更新迭代速度快等挑战。本次报告将分享将大模型应用于网络任务的研究工作,包括针对网络领域设计的预训练机制、Mamba等新框架的选型和大模型智能体的应用等成果,同时,基于对已有工作的回顾,也将分享面向网络任务的大模型工作流。

格式:
视频

本期编委成员