返回首页
您的位置:首页 > 新闻 > CCF新闻 > CNCC

面向国产智能算力软件生态 | CNCC

阅读量:0 2025-10-07 收藏本文
图片
图片

人工智能技术正以前所未有的速度蓬勃发展,各种大模型不断涌现,它们在诸多领域展现出了巨大的潜力。随着模型规模的扩大,对计算资源的需求也呈现出爆炸式的增长。然而,鉴于当前的国际形势,中国在获取最先进的算力方面面临巨大的挑战。因此,如何充分发挥国产智能算力,满足大模型对算力的需求,具有重要意义。本论坛将聚焦此问题,探讨国产算力和软件如何有效支撑大模型系统。论坛将研讨最新的技术、方法与实践,包括但不限于国产智能算力、大模型训练和推理优化、大模型软件生态等关键主题。本论坛邀请学术界和企业界知名专家和学者共同探讨并分享他们的见解与经验,以推动国产智能算力的发展,为我国在人工智能领域进步做出贡献。



论坛安排



论坛名称:

面向国产智能算力软件生态


顺序

主题

主讲嘉宾

单位

1

资源受限下的大模型训练技术

陈文光

清华大学

2

异构算力的AI私有化部署挑战与实践

崔慧敏

中科院计算技术研究所

3

针对国产算力大模型的训推优化与太极性能交付实践

何万青

清程极智

4

超大规模跨域异构混训实践

张行程

上海人工智能实验室

5

迈向算力多元统一生态:基于FlagOS实现大模型在多元AI芯片上的高效自动训练与推理

敖玉龙

北京智源人工智能研究院


论坛主席



图片

翟季冬

CCF杰出会员、清华大学长聘教授

清华大学计算机系长聘教授、博士生导师、高性能计算所所长。青海大学计算机技术与应用学院院长。国家杰出青年科学基金获得者。新一代人工智能国家科技重大专项指南组副组长、CCF高性能计算专委副主任、CCF杰出会员。主要研究领域包括并行计算、编程模型与编译器。主持国家重点研发计划、国家自然科学基金重点项目等科研项目。发表学术论文100余篇,出版专著1部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任《计算》专栏主编、IEEE Transactions on Computers等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十五次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖、青海省昆仑英才高端创新创业人才、高校计算机专业优秀教师奖励计划,大川基金。


论坛讲者



图片

陈文光

CCF会士、学术工委主任,清华大学讲席教授

主要研究领域为大规模分布式计算系统,包括图计算系统、大数据处理系统以及大模型训练系统等。现为YOCSEF荣誉委员;北京计算机学会副理事长;ACM中国理事会常务理事。获国家科技进步二等奖 1 次,省部级特等奖 1 次,部级科技一等奖 2 次,部级科技进步二等奖 2 次。


报告题目:资源受限下的大模型训练技术


报告摘要:国产算力受制于工艺和技术限制,在卡间互连带宽、内存容量等方面与先进算力仍有较大差距,如何在算法和软件层面的优化弥补硬件能力上的差距是一个亟待解决的问题,也为未来硬件的发展方向提供了参考。本报告将介绍在流水线并行性上的一些优化技术,如细粒度自适应重计算、重计算感知的流水线负载平衡以及序列并行等方法。初步研究表明,通过上述技术,可以显著缓解卡间互连带宽和内容容量不足对大模型训练带来的困难。

图片

崔慧敏

中科院计算技术研究所研究员

博士生导师,中科院计算所编程与编译方向学术带头人。发表包括ASLPOS、MICRO、PLDI、PPoPP、OSDI、SC、TOCS、TPDS、TACO等编译和系统领域的顶级国际会议和期刊上论文60余篇。


报告题目:异构算力的AI私有化部署挑战与实践


报告摘要:AI的私有化部署是AI走向产业的一个重要场景,但是当前AI的私有化部署仍然面临诸多挑战。这些挑战一方面来源于多样的国产异构算力、一方面来源于多样的用户场景和需求。本报告将针对这些挑战分享产学研结合中发现的一系列技术创新,包括面向国产芯片的极致性能分析与优化、国产芯片上PD分离优化、多模态大模型的针对性优化等。

图片

何万青

清程极智副总裁、合伙人

原英特尔首席工程师,阿里云高性能计算负责人。业内著名高性能计算和AI领域资深专家,在并行计算、云计算与AI领域有20年的从业经验,曾研发我国天河2号超级计算机、从0到1领导研发了阿里云高性能计算EHPC产品,领导疫情期间阿里云对全球的COVID-19科技抗疫支持。何博士是十余年CCF资深志愿者、荣誉委员,在CCF YOCSEF总部副主席,高专委执委和青工委等诸多位置上服务CCF,获得4年CCF杰出讲者,近年来在CNCC,YEF等担任组委和主席职责。2025年开始主持CCF Talk-show,何博士热心科普,疫情以来与家人出版6部科普著作,有公众号《四维碎片》。


报告题目:针对国产算力大模型的训推优化与太极性能交付实践


报告内容:本次清程极智分享面向国产算力的高性能推理引擎 Chitu 与面向训推场景的性能交付平台太极,涉及 Chitu 引擎的版本演进和功能路线图,并展示在几大国产智能算力上的性能优化体现,以及背后的原理,对国产推理模型的适配和性能表现。并介绍清程极智大模型训练与推理的太极性能交付平台,太极(Turnkey)旨在在多种分布式系统上,面向训练、推理、微调、混合量化、编译优化等组合场景,提供开箱即用的软件模块自动部署、硬件适配的性能交付平台,针对不同的大模型应用场景,组合八卦炉训练优化技术与系统优化,实现大模型应用的端到端性能,同时阐述太极平台对第三方开放软件开放对接能力,包括阿里云参与开源的 RBG K8S 调度实现大规模PD分离的实践。

图片

张行程

上海人工智能实验室

现带领团队支持上海人工智能实验室千亿参数模型高效稳定训练。打造DeepLink 人工智能开放计算体系,推动训练芯片的标准化建设,包括评测标准、适配标准等工作。拉通多家主流国产芯片厂商进行标准化适配。持续推进国产硬件大规模混合训练技术突破。


报告题目:超大规模跨域异构混训实践


报告摘要:本次报告将分享基于DeepLink(人工智能开放计算体系)的超大规模跨域混训的实践,并展开在共同底层支撑技术细节:(1)基于Deeplink适配不同厂商的集合通信库DLSlime,打通不同芯片之间的RDMA和GPU Direct,使得数据可以直接在异构芯片的内存之间传输;(2)通过并行维度和流水线顺序的动态分配策略,根据硬件算力和通信能力动态调节不同硬件任务量,有效提升算力整理利用率和整体训练效率。(3)提出结合3D并行与参数服务器(3DPS)的异步训练方案,解决现有异构万卡集群系统在模型训练过程中存在的稳定性不足和训练效率低下问题。

图片

敖玉龙

北京智源人工智能研究院AI框架研发负责人

北京大学博士后,中国科学院博士。目前主要负责开源统一AI软件栈FlagOS中的大模型训推一体框架FlagScale和统一通信库FlagCX研发,并在业界率先提出可产业落地的大模型跨芯异构混训和异构推理技术方案。长期从事人工智能、高性能计算以及科学计算领域的分布式系统与性能优化相关研究,曾就职华为和百度,参与研制了大模型系统相关核心技术。于2016年共同参与获得中国首个美国计算机学会“戈登•贝尔”奖,发表过十余篇国际顶级会议与期刊论文,拥有多项国内外专利授权,并参与制定国家和国际算子接口与通信库相关标准。


报告题目:迈向算力多元统一生态:基于FlagOS实现大模型在多元AI芯片上的高效自动训练与推理


报告摘要:AIGC的爆发催生了多元异构AI芯片繁荣,但算力碎片化导致大模型部署难、调优难、成本高。为构建统一的算力多元生态,开源AI软件栈FlagOS应运而生。本报告将介绍基于FlagOS实现大模型在多种AI芯片上高效自动化训练与推理的创新实践,重点分享其核心组件——大模型训推一体框架FlagScale与统一通信库FlagCX的关键技术:包括多后端自动调优、异构混训与异构PD分离及统一多硬件适配机制等。同时将展示FlagOS在多模态、具身智能等领域的最新应用成果,体现其如何推动AI基础设施迈向开放、统一、高效的算力新生态。




CNCC2025



CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。


图片