AI4S技术已经成为未来技术发展的重要手段和趋势,也在很多领域发挥了重要作用。本报告主要讨论三个方面内容:一是AI4S的通用方法与主要进展;二是经典智能技术在网络技术中的应用;三是大模型在网络技术中主要应用,四是智能技术在iDSN中的实践。
大模型的训练对算力基础设施提出了极高的要求。本报告介绍华为在构建面向大模型的智算网络中遇到的组网规模、成本、性能和可用性等方面的核心挑战,以及围绕这些挑战所做的创新。通过网络与计算的协同设计,构建适合大模型流量特征的组网架构、路由系统、负载均衡和集合通信技术,将通信本身极致优化;进一步地,通过通信与计算的深度融合,跨越网和算的边界,系统性地优化计算和数据搬移代价,提升系统算效。
随着人工智能技术的迅猛发展,Transformer等大模型已成为处理复杂数据分析任务的重要工具。然而,大模型的高效分布式训练和推理运行依赖于先进的网络技术支持,而大模型也为网络的规建维优提供了新的技术思路。本报告围绕网络技术与大模型的双向赋能,探讨了云计算环境下的新型智算网络优化,也探索了大模型在网络流量管理、网络安全的初步尝试。本报告旨在为研究人员和工程师提供一个关于网络技术与大模型双向促进的全面视角,为未来的研究和应用开辟新的道路。
拥有千亿级别参数的大语言模型(large language model,LLM)已为今天的人工智能和云服务带来了巨大的技术和商业变革. 然而,大模型训练与传统的通用云计算(例如,亚马逊EC2弹性计算服务)之间存在较多根本性的网络行为差异,从而带来了很多新的挑战,主要包括流量模式差异造成负载难均衡(挑战1)、多训练任务通信竞争影响GPU利用率(挑战2),以及对网络故障的高敏感性(挑战3)等. 因此,为通用云计算设计的数据中心网络技术(例如,网络架构、选路方法、流量调度,以及可靠性保障方法等)已不适合今天的大模型训练,这要求专门为大模型训练设计新型的数据中心网络以及配套的技术方案。本报告介绍了阿里云专门为大模型训练设计的数据中心网络HPN以及多任务通信调度方法Crux解决上述3个挑战。
随着大模型技术的快速进步,大模型在各个领域都展现出巨大潜力,成为学术界和工业界都关注的热点方向。大模型参数规模大,其训练和推理需要消耗大量计算、网络和存储资源,高效支持大模型的训练和推理是智算系统的重要问题。本次报告将介绍在大模型训练和推理系统方面的近期工作,并对大模型系统的未来发展进行展望。
大模型为解决网络任务提供了新的解决思路,相较于传统的数学建模和机器学习方案,通过大规模数据的学习,大模型展现出了逻辑推理能力,基于大规模预训练,大模型对于领域数据的需求较低,通过对于工具的集成,大模型能够增强全链路的智能化水平。综上,大模型有望解决网络领域存在的环境复杂、设备多样和更新迭代速度快等挑战。本次报告将分享将大模型应用于网络任务的研究工作,包括针对网络领域设计的预训练机制、Mamba等新框架的选型和大模型智能体的应用等成果,同时,基于对已有工作的回顾,也将分享面向网络任务的大模型工作流。