随着大模型的广泛流行,其训练与推理过程均依赖大规模计算集群,系统故障风险随之增加,对系统的可靠性提出了巨大挑战。本报告将立足存储系统视角,结合本团队相关研究成果与学术界的代表性工作,从以下三个维度探讨如何支撑大规模大模型训推的容错需求。本报告首先将深入剖析大模型训推生命周期中常见的故障类型(如 HBM 错误)及其先进检测方法;其次,针对大模型训练过程,将重点阐述以检查点技术为核心的容错策略,以及在故障发生后如何利用检查点实现训练任务的快速、弹性恢复;最后,针对大模型推理服务,将阐述 KV Cache 的容错与恢复技术,并探讨在推理集群故障后如何实现快速冷启动。
传统大模型推理架构以GPU为中心,但GPU利用率接近瓶颈,需探索新优化路径。结合GPU/CPU/DRAM的带宽或容量优势,利用模型依赖性与稀疏性设计计算架构是未来方向。
GooseFS 是一个高性能缓存文件系统,结合对象存储COS 实现了存算分离的Al存储架构,加速了对象存储的读写访问。GooseFS 引入了计算端缓存,服务端缓存和元数据加速三个关键技术和架构设计,实现了对于大模型场景大带宽低时延的读写需求。结合腾讯云对象存储COS, 腾讯云数据湖存储逐渐成为业界Al存储和大模型存储的标配。
缓存分配是智能计算基础设施的关键技术之一,其前提是精确计算不同缓存空间大小的缓存命中率,从而为智能缓存分配算法提供决策依据。本报告聚焦如何计算缓存命中率这一经典问题,介绍缓存命中率计算问题的来源、难点和研究进展,并探讨不同场景下的不同求解方法。
DRAM近存计算架构具备高访存带宽、大存储容量的优势,对于大规模神经网络、图计算、推荐系统等应用有较好的加速效果,因此受到了学术界和工业界的广泛关注。本报告首先回顾近期工业界提出的DRAM近存计算芯片,并分析其特点和面临的挑战;然后,进一步介绍如何利用DRAM近存架构来加速端侧大模型推理,并分享我们近期在该方向的一些研究进展,包括架构设计和协同优化等。
大模型的训练和部署对计算和存储系统提出了前所未有的挑战。本报告将系统介绍支撑大规模语言模型的底层系统架构,包括分布式训练中的并行策略(数据并行、模型并行、流水线并行)、高效的存储与内存管理机制、以及推理部署中的系统优化技术。重点探讨GPU集群的通信优化、模型检查点管理、显存优化策略(offloading、重计算、量化)等关键技术,并分享工业界在千亿参数模型训练与推理系统设计中的最佳实践和面临的挑战。