返回首页
您的位置:首页 > 新闻 > CCF新闻 > CNCC

数智融合——面向大模型应用的存储技术 | CNCC

阅读量:0 2025-10-07 收藏本文
图片
图片

数智融合趋势下,适配大模型应用的存储技术是支撑大模型高效运行、价值落地的核心底座。早期,存储技术更多聚焦于容量扩展与基础性能优化,而大模型训练时的海量数据吞吐需求、推理时的低延迟访问需求,以及多模态数据(文本、图像、音频)的异构存储需求尚未被系统覆盖,导致传统存储架构与大模型应用场景出现适配断层,制约了大模型从技术研发到产业规模化应用的进程。


为满足大模型训练阶段的数据高并发读写、推理阶段的实时响应,以及全生命周期的数据安全存储与高效管理需求,构建具备高带宽、低时延、弹性扩展特性的专属存储架构极为关键;进一步,存储领域仍然缺乏针对大模型数据冷热分层、智能缓存调度、跨域数据协同的一体化技术体系,相关技术突破至为紧迫。面向大模型应用的存储技术将为大模型在金融风控、智能制造、医疗诊断等领域的深度应用,提供稳定、高效、安全的数据存储与访问支撑,成为数智融合落地的重要保障。


本论坛将探讨数智融合背景下面向大模型应用的存储技术,从大模型专属存储架构设计、多模态数据智能存储与管理、存储系统与大模型训练/推理流程的协同优化,及其在各行业数智化转型中的实践应用等方面,探讨存在的问题与挑战。



论坛安排



论坛名称:

数智融合——面向大模型应用的存储技术



顺序

主题

主讲嘉宾

单位

1

面向超算与智算的多核处理器矩阵计算优化

董德尊

国防科技大学

2

GUPFS:统一命名空间下的广域并行文件系统

曾令仿

之江实验室

3

KVCache存储为中心的大模型推理架构

闪英迪

清华大学

4

面向人工智能场景的近数据计算研究

张杰

北京大学

5

面向人工智能场景的数据去重压缩研究

夏文

哈尔滨工业大学(深圳)

6

面向Huawei CloudMatrix384超节点的大模型推理优化

左鹏飞

华为



论坛主席



图片

吴晨涛

CCF杰出会员、体系结构专委副秘书长,上海交通大学教授

上海交通大学计算机学院教授,智能软件与系统研究所副所长。国家级青年人才,国家重点研发计划首席科学家,华中科技大学、美国弗吉尼亚联邦(州立)大学双博士。中国计算机学会(CCF)体系结构专委会常委、副秘书长,上海市计算机学会存储专委会主任。研究方向主要为云存储、大数据存储系统。主持国家重点研发计划、国家自然科学基金、上海市自然科学基金等项目20余项,在IEEE TC、IEEE TPDS、IEEE TDSC、IEEE TMC、OSDI、ATC、HPCA、DAC等期刊会议上发表论文130余篇。研究成果荣获2019年国家技术发明二等奖、2018年和2022年上海市技术发明一等奖、2021年上海市计算机学会技术发明一等奖和教学成果一等奖、2019年阿里巴巴优秀学术合作项目、2022年华为火花奖、IEEE TC 2019 Spotlight Paper、ICCD 2020 Best Paper等奖励。


论坛共同主席



图片

曾令仿

CCF杰出会员、理事,之江实验室研究员

先后入选浙江省科技创新领军人才,国家级优秀人才。研究领域为智能计算的系统与架构,研究方向为人工智能芯片、存算一体芯片、数据隐私保护、智算集群系统。中国计算机学会(CCF)第十三届理事(学术类),CCF杰出会员和CCF杰出演讲者。浙江省人工智能学会常务理事。曾在德国美因茨大学、新加坡国立大学工作六年。相关成果在CCF推荐的旗舰国际会议和期刊,例如,FAST、ACL、SC、SIGMOD、TACO、TC、TPDS、ToS、TIFS、TDSC、TKDE等发表;完成行业标准5项,授权中国发明专利50余项;获IEEE/ACM超级计算机大会(SC)举办的SC06高性能存储挑战赛Finalist Award,2011年获湖北省技术发明一等奖,2018年获IEEE UIC最佳论文奖,2021年获浙江省科技进步二等奖,2022年获世界互联网领先科技成果发布,2024年获浙江省科技进步一等奖。现主持(或作为项目/课题执行负责人)科技部、工信部、国家基金委等国家级项目多项。


论坛讲者



图片

董德尊

CCF杰出会员,国防科技大学研究员

国家级人才,国防科技大学计算机学院研究员、博导,教育部长江学者,国防科技卓青。主要研究计算机体系结构、高性能与智能计算、并行与分布式系统等。担任天河互连副主任设计师,长期参与银河/天河系列高性能计算机系统研制工作。获湖南省教学成果特等奖,军队科技进步一等奖,湖南省自然科学一等奖,中国电子学会自然科学二等奖等。在中国计算机学会CCF推荐的A/B类国际刊物发表论文70余篇。获教育部全国优秀博士学位论文奖,CCF优秀博士学位论文奖等。担任Fundamental Research、国防科技大学学报、计算机工程与科学等期刊编委。CCF体系结构/高性能计算/分布式计算与系统等专委会委员或常委,杰出会员。


报告题目:面向超算与智算的多核处理器矩阵计算优化


报告摘要:矩阵计算是在超算与智算应用中的基础算子之一。在多核处理器上优化稠密和稀疏矩阵计算是高性能计算领域经典的挑战性问题。计算应用负载与硬件特性的适配多样性,为各类矩阵计算带来新的优化机会。本报告将讨论近年来课题组关注的一些面向自主或通用多核处理器的矩阵计算优化问题,分享稠密矩阵乘,稀疏序列矩阵向量乘,稀疏三角方程求解等问题的部分进展。

图片

曾令仿

CCF杰出会员、理事,之江实验室研究员

先后入选浙江省科技创新领军人才,国家级优秀人才。研究领域为智能计算的系统与架构,研究方向为人工智能芯片、存算一体芯片、数据隐私保护、智算集群系统。中国计算机学会(CCF)第十三届理事(学术类),CCF杰出会员和CCF杰出演讲者。浙江省人工智能学会常务理事。曾在德国美因茨大学、新加坡国立大学工作六年。相关成果在CCF推荐的旗舰国际会议和期刊,例如,FAST、ACL、SC、SIGMOD、TACO、TC、TPDS、ToS、TIFS、TDSC、TKDE等发表;完成行业标准5项,授权中国发明专利50余项;获IEEE/ACM超级计算机大会(SC)举办的SC06高性能存储挑战赛Finalist Award,2011年获湖北省技术发明一等奖,2018年获IEEE UIC最佳论文奖,2021年获浙江省科技进步二等奖,2022年获世界互联网领先科技成果发布,2024年获浙江省科技进步一等奖。现主持(或作为项目/课题执行负责人)科技部、工信部、国家基金委等国家级项目多项。


报告题目:GUPFS:统一命名空间下的广域并行文件系统


报告摘要:大模型应用,例如,训练大规模多模态大模型的数据主要通过海量多源异构数据采集(如互联网公开文本、专业语料库、合成数据)与跨模态对齐的增强式生成(如基于语义关联的图文合成)获得,数据全生命周期中,存储系统需克服PB级甚至EB级高并发吞吐、跨模态数据一致性保障及长周期容错恢复等核心挑战。报告将介绍统一命名空间下的广域并行文件系统(Global Unified Parallel File System,GUPFS),GUPFS采用标准的并行文件系统架构,结合存储介质特性实现数据全生命周期高效管理,按需流动,能支撑跨智算中心的超大模型应用。

图片

闪英迪

开源项目 Mooncake 和 KTransforemers 团队成员,清华大学助理研究员

主要研究方向为分布式系统和存储系统。在该领域的研究成果发表于OSDI、SOSP、USENIX ATC、SIGMOD等国际顶级学术会议。主持或参与多项国家重点研发计划与企业合作项目。曾获得华为全球奥林帕斯奖等奖项,参与研制的MadFS分布式文件系统曾连续五届获全球IO500总榜冠军。


报告题目:以KVCache存储为中心的大模型推理架构


报告摘要:Mooncake是一套以KVCache为中心的大语言模型(LLM)聊天服务的底层推理架构,它不仅实现了预填充(prefill)与解码(decoding)集群的分离,还充分利用了GPU集群中CPU、DRAM、SSD和网卡这些以往利用不足的资源,构建起解耦的KVCache体系。Mooncake的核心是以KVCache为中心的全局缓存机制和一个专为满足严格时延服务等级目标(SLO)而设计的调度器,以实现吞吐量的最大化。本次分享讲介绍 Mooncake 架构的核心原理及其开源社区建设情况。

图片

张杰

北京大学助理教授

博士,北京大学计算机学院助理教授、博士生导师,入选国家高层次人才计划海外青年项目,入选国际顶级体系结构会议HPCA名人堂,获得英特尔中国学术英才计划荣誉学者、ACM SIGCSE新星奖。长期从事存储系统和体系结构的研究和设计,致力于从计算机体系结构层面出发,解决大数据和人工智能时代对于高性能存储系统的需求,突破冯诺依曼体系结构下数据迁移的瓶颈以及内存墙的限制。主持或参与多项重点研发计划和国家自然科学基金项目。在国际会议及期刊上发表了60余篇论文,包括计算机体系结构与系统顶级会议OSDI、 SOSP、ISCA、HPCA、 MICRO、ASPLOS、FAST、ATC、Eurosys 近30篇。


报告题目:面向人工智能场景的近数据计算研究


报告摘要:人工智能包括大语言模型、图神经网络和联邦学习等新型应用对服务器集群的算力和存储能力提出了更高的要求。然而,传统的冯诺依曼体系结构及配套的系统软件存在数据迁移开销大的天然劣势,无法满足新型应用的实际需求。当今的内存和存储系统正经历了重大的技术转变。基于这种技术的提升,研究人员需要重新思考和设计现有的系统组织和硬件架构。本次报告主要分享我们在近数据计算领域的研究进展,我们提出的解决方案能够有效减少大量软件栈的开销并且优化计算机体系结构消除传统硬件的物理限制。

图片

夏文

哈尔滨工业大学(深圳)教授

国家级青年人才,哈尔滨工业大学(深圳)教授,博士生导师,教育部青年长江学者,研究方向:存储系统、操作系统,在OSDI、FAST、ASPLOS、ACM TOS等会议期刊发表论文80余篇,授权发明专利30余项;获教育部自然科学一等奖、湖北省科技进步一等奖、广东省科技进步二等奖、华为火花奖等荣誉;担任FAST、EuroSys等国际会议程序委员会委员;指导学生获得ACM ChinaSys/SIGCSE优秀博士论文奖。


报告题目:面向人工智能场景的数据去重压缩研究


报告摘要:在如今大模型时代,各类存储系统都在面临日益严峻的数据存储容量压力。而海量数据去重压缩技术可以大幅提升数据存储密度,是缓解数据存储容量压力的有效手段。本次汇报系统性地介绍当前海量数据去重压缩技术现状与前沿成果,包括可压缩性检测、压缩编码、数据解压恢复等面向关键性能指标的普适性通用技术;以及面向大模型存储场景下的专用去重压缩技术;并探讨目前AI算法对传统数据去重压缩算法的启发与新方向。

图片

左鹏飞

华为云AI存储首席架构师

2019年博士毕业于华中科技大学,University of California Santa Barbara联合培养博士生,主要研究方向为 AI和云基础设施。在 SOSP、OSDI、FAST、ASPLOS、MICRO、USENIX ATC 等计算机系统领域顶级会议和期刊上发表论文 40 余篇。 获得 2020 年ACM中国优秀博士论文奖(每年全国仅两名),FAST'2023最佳论文奖(中国首次),华为创新与技术突破奖,华为云年度最佳发明奖等。


报告题目:面向Huawei CloudMatrix384超节点的大模型推理优化


报告摘要:随着LLM参数量激增、MoE架构普及和上下文窗口扩展,推理服务性能面临严峻挑战。为了提供高性能的推理服务,我们使用华为CloudMatrix384 超节点部署和优化大 MoE 模型。我们提出了一种基于Prefill-Decode-Caching (PDC)分离的全对等推理架构,将推理负载分解为可独立扩展、全对等访问的Prefill、Decode和Caching三大集群。Prefill集群采用混合并行策略处理输入,显著提升NPU利用率并优化TTFT。Decode集群则针对MoE模型实现了一卡一专家的大规模专家并行,并通过MoE融合通信算子大幅提升Decode性能。Caching集群依托CM384的UB平面和CPU资源构建了全对等访问的分布式内存池,实现了高效的上下文缓存和模型缓存。系统全面支持INT8量化,在DeepSeek-R1模型上的评估显示,其准确性与官方结果相当。此工作充分发挥了CM384的硬件优势,通过软硬件协同优化,为大规模、高复杂度LLM的高效服务提供了领先的解决方案。




CNCC2025



CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。


图片