DPU技术论坛:DPU是计算架构的创新 是提升网络性能的关键器件之一
以“发展数字基础设施、支撑数字中国建设”为主题的第二十届中国计算机大会(CNCC2023)10月26日在沈阳启幕,约1.3万名计算机行业专业人士齐聚沈阳,据组委会介绍参加本届大会的两院院士共计22位。10月26日下午中科驭数在大会中组织的DPU技术论坛以“大算力需求背景下,DPU芯片应用实践和解决方案探索”为主题,邀请来自电子四院、联通研究院、移动研究院、中科驭数等单位的嘉宾对DPU的标准化、应用方案和实践等话题展开了深入的探讨。
论坛共同主席、中国计算机学会监事长、中科院计算所研究员李晓维在开场致辞中表示,在云计算、人工智能等应用场景,DPU都可以发挥较大的作用,在计算系统中,算力、存力、运力同时扮演着非常重要的角色,从处理器角度来看,DPU作为新型架构也具备较大的研究价值。
论坛主席、中科院计算所研究员、博士生导师、中科驭数创始人、CEO鄢贵海表示,中科驭数已经连续举办了四届DPU论坛,论坛主题的设置紧扣了DPU发展中的关键问题,主题从DPU技术发展、软件生态、标准化、延续到应用方案相关的讨论,这些DPU专题论坛是一个集众力、汇众智很好的形式,为DPU的研发、应用、规模化推广等都产生积极的作用和影响。
中国电子技术标准化研究院技术总监钟伟军博士在主题分享中表示,标准是技术、产品和产业连接的纽带,通过制定DPU标准,解决关键问题,构建产业生态,统一行业共识,凝聚上下游厂商核心力量,形成合力。DPU作为快速发展的“新芯”,与CPU、GPU三颗芯片将在未来的计算系统中,发挥至关重要的作用。钟博士介绍了中国电子技术标准化研究院组织制定了DPU标准体系完成顶层设计,以及参考框架、测试方法等系列标准情况,产学研用等40余家单位共同参与编制,中科驭数也是其中重要的参与单位之一。钟博士同时分享了下一步工作计划,欢迎业内伙伴共同参与,推动DPU标准、技术、产品、产业和生态高质量发展。
中科驭数产品运营部副总经理曹辉在演讲中表示,云计算以资源为中心在向应用为中心演进,业务的部署、开发、运维成为云计算更加重要的诉求,采用灵活的云原生架构,并将更多基础设施功能卸载到硬件的方向已经成为必然趋势。中科驭数提出的“IaaS running on DPU”,是基于DPU的下一代云底座技术,可以支持容器、虚拟机、裸金属共池管理、支持多形态租户、异构算力统一运维等特性。曹辉还介绍了中科驭数“驭云”——基于DPU的下一代云数据中心的落地方案。自建的驭云展示了基于下一代云底座的诸多典型场景,以及多种合作伙伴方案的孵化应用,同时,驭云提供了丰富的对外接口和完备的生态适配能力,希望产学研各界加入其中,提供更多应用场景的验证和孵化,共同推动DPU的进一步落地。
联通研究院曹畅博士在分享中表示,DPU是由需求驱动发展起来的新技术形态,在计算网络化和网络软件化演进的背景下,算力和网络融合发展需要更加绿色高效的数据处理硬件加速技术。DPU得以发展得益于应用驱动和数据驱动,一方面深度学习、高性能计算、元宇宙等应用场景的多样化,算力需求剧增,DPU不断改进和升级,以满足不断变化的算力服务提供场景;另一方面:随着东数西算的落地,海量数据正在数据中心内和数据中心间流转,需要DPU赋能网络,具备更高的数据传输和处理能力,以应对东数西训、东视西渲、东数西挖等场景。随着5G网络普及和相关应用衍生,网络建设面临着海量用户、高带宽、低时延的挑战。6G愿景提出了智慧内生,通感算一体,空天地一体等多维网络需求。后摩尔定律时代,需要新型计算架构助力网络建设和网络设备的研制提升网络性能,亟待DPU提升网络性能。DPU是衔接计算和网络两大领域的重要枢纽,云、网、算协同,通过资源的深度感知与一体化编排,可以实现算力发现和跨域互通,打通数据与计算节点的通路。DPU作为网络和计算的衔接点,可解决数据传输的“最后一米”问题。通过DPU可以实现虚拟化层的全卸载和定制化的业务加速能力,具有更强的可编程能力。
移动研究院王瑞雪在演讲中指出,AIGC(AI-Generated Content,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长,全球范围内经济价值预计将达到数万亿美元,智能算力将成为未来主流算力。AI大模型以GPU集群分布式训练为基础,集群节点间频繁地参数同步带来大量通信开销,单GPU算力受限的前提下,网络能力成为提升GPU集群算力水平的关键。传统无损以太技术存在性能瓶颈,提升网络可靠性和有效带宽,降低时延抖动是提升模型训练效率的关键因素。链路负载不均、被动拥塞控制、自动化能力不足是当前智算中心网络面临的主要问题。DPU在传统数据中心的场景包括OVS、弹性裸金属、存储协议卸载加速、L4-L7业务卸载,DPU是未来构建端网协同的新型智算中心网络技术体系,提升网络性能的关键器件之一。
在圆桌论坛环节,主持人鄢贵海、联通研究院王立文、移动研究院王瑞雪、中科驭数曹辉四位嘉宾就DPU的创新性、DPU的落地应用之路、DPU的价值卖点等问题进行了讨论。DPU是计算架构上的创新,DPU的可编程性、AI场景下的端网协同能力是它重要的价值点,“硬件开放、软件开源”将是DPU推向大规模基础设施领域的可行路径。
正如嘉宾在论坛中提及,DPU的发展是应用驱动和数据驱动的结果,未来算力系统中,DPU将发挥浓墨重彩的作用,带来架构创新变革,赋能算力基础设施建设!