编者寄语

当前,大模型参数规模已从十亿级跃升至万亿级,训练数据量达到TB甚至PB级别。训练数据跃升对底层存储系统提出了全新挑战:训练阶段需要频繁读写海量检查点数据,推理阶段的KV Cache管理面临容量与延迟的双重约束,而大规模GPU集群固有的故障率使得容错机制成为刚需。

传统以GPU为中心的同构架构在访存带宽、存储容量和能效比方面逐渐显现瓶颈。学术界和工业界正积极探索存算分离、近存计算、异构缓存等新型架构,试图突破"内存墙"限制。与此同时,智能缓存分配、弹性容错恢复、高性能分布式文件系统等技术创新层出不穷,但如何将这些技术有机整合并应用于实际生产环境仍充满挑战。

本专题从系统容错技、架构创新、缓存优化、存算分离等多个维度,深入剖析大模型存储系统的前沿进展。这些研究不仅具有重要的学术价值,更对大模型产业化落地具有直接的实践意义,能够为相关领域的研究者和工程师提供系统性的技术洞察和解决方案参考。通过本专题的深入探讨,我们期望推动大模型存储技术向更高效、更可靠、更经济的方向演进。


编委主任:苏金树 CCF会士 军事科学院教授

本期主编:吴晨涛 CCF体系结构专委副秘书长 上海交通大学计算机学院教授

                 谷云飞 CCF体系结构专委执行委员 上海交通大学博士后

大模型训推高效存储的容错技术探索

随着大模型的广泛流行,其训练与推理过程均依赖大规模计算集群,系统故障风险随之增加,对系统的可靠性提出了巨大挑战。本报告将立足存储系统视角,结合本团队相关研究成果与学术界的代表性工作,从以下三个维度探讨如何支撑大规模大模型训推的容错需求。本报告首先将深入剖析大模型训推生命周期中常见的故障类型(如 HBM 错误)及其先进检测方法;其次,针对大模型训练过程,将重点阐述以检查点技术为核心的容错策略,以及在故障发生后如何利用检查点实现训练任务的快速、弹性恢复;最后,针对大模型推理服务,将阐述 KV Cache 的容错与恢复技术,并探讨在推理集群故障后如何实现快速冷启动。

格式:
PPT
从同构走向分离的大模型推理系统

传统大模型推理架构以GPU为中心,但GPU利用率接近瓶颈,需探索新优化路径。结合GPU/CPU/DRAM的带宽或容量优势,利用模型依赖性与稀疏性设计计算架构是未来方向。

格式:
视频
腾讯云存储GooseFS- 基于对象存储COS 搭建的高性能AI存储

GooseFS 是一个高性能缓存文件系统,结合对象存储COS 实现了存算分离的Al存储架构,加速了对象存储的读写访问。GooseFS 引入了计算端缓存,服务端缓存和元数据加速三个关键技术和架构设计,实现了对于大模型场景大带宽低时延的读写需求。结合腾讯云对象存储COS, 腾讯云数据湖存储逐渐成为业界Al存储和大模型存储的标配。

格式:
视频
面向智能缓存分配的命中率计算方法

缓存分配是智能计算基础设施的关键技术之一,其前提是精确计算不同缓存空间大小的缓存命中率,从而为智能缓存分配算法提供决策依据。本报告聚焦如何计算缓存命中率这一经典问题,介绍缓存命中率计算问题的来源、难点和研究进展,并探讨不同场景下的不同求解方法。

格式:
视频
基于DRAM 近存计算架构的大模型推理优化

DRAM近存计算架构具备高访存带宽、大存储容量的优势,对于大规模神经网络、图计算、推荐系统等应用有较好的加速效果,因此受到了学术界和工业界的广泛关注。本报告首先回顾近期工业界提出的DRAM近存计算芯片,并分析其特点和面临的挑战;然后,进一步介绍如何利用DRAM近存架构来加速端侧大模型推理,并分享我们近期在该方向的一些研究进展,包括架构设计和协同优化等。

格式:
视频
大模型计算和存储系统

大模型的训练和部署对计算和存储系统提出了前所未有的挑战。本报告将系统介绍支撑大规模语言模型的底层系统架构,包括分布式训练中的并行策略(数据并行、模型并行、流水线并行)、高效的存储与内存管理机制、以及推理部署中的系统优化技术。重点探讨GPU集群的通信优化、模型检查点管理、显存优化策略(offloading、重计算、量化)等关键技术,并分享工业界在千亿参数模型训练与推理系统设计中的最佳实践和面临的挑战。

格式:
视频

本期编委成员