返回首页
您的位置:首页 > 新闻 > CCF聚焦

CNCC | 云智算时代的产业风口与算力瓶颈

阅读量:217 2023-10-28 收藏本文

图片


图片

CNCC2023正在沈阳举行,会议期间将举办130场技术论坛,涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30余个方向。本文特别介绍将于10月28日举办的【云智算时代的产业风口与算力瓶颈】技术论坛。


智能前沿应用快速兴起推动云计算进入云智算时代,同时导致领域发展陷入“局部化”和“次优化”困境,探讨如何应对智算产业当前模型缺乏通用性而造成的训练碎片化,如何为智算产业设计高算力、高稳定的数据中心网络架构,以及如何建立标准、生态与社区。


作为数字经济的重要基础设施,云计算通过数据中心网络和虚拟化将算力集成化和规模化,有效支撑丰富应用。近年来以大语言模型、在线深度学习、高通量实时交互为代表的智慧产业前沿应用快速流行,推动云计算进入云智算时代,同时带来多个技术难题,导致领域发展陷入“局部化”和“次优化”困境。典型难题包括:1)如何应对智算产业当前模型缺乏通用性而造成的训练碎片化;2)如何为智算产业设计低成本、高效率的数据中心网络架构;3)由于新型智算业务对稳定性抖动容忍度极低,能否从容器到网卡再到网络全链路打通、快速修复端到端故障。本论坛邀请学术/工业界领军人物深度研讨解决思路,以及如何为飞速发展的云智算时代建立标准、生态与社区。



中国计算机学会,赞11


图片

论坛安排

图片


顺序

主题

主讲嘉宾

单位

1

面向智能服务的云原生计算系统

李克秋

天津大学

2

Tensor, Collective-Op & Flow——AI大集群横向扩展的通信挑战

付斌章

阿里云计算有限公司

3

结合互连架构的分子动力学模拟强可扩展优化研究

谭光明

中国科学院计算技术研究所

4

下一代AI系统网络的创新与实践

熊勇强

微软亚洲研究院

5

中国算力网支撑AI开源生态

余跃

国防科技大学


图片

论坛主席

图片


图片

翟恩南

阿里云计算有限公司资深技术专家


CCF专业会员,CCF互联网专委常委,阿里云网络研究负责人,阿里云资深技术专家。2015 年于耶鲁大学计算机系获博士学位,随后担任耶鲁大学研究型助理教授兼讲师,2018 年加入阿里巴巴。研究领域包括计算机网络、分布式系统、程序验证等,先后在这些方向的国际顶级会议如 SIGCOMM、OSDI、NSDI 等累计发表 40 余篇论文。担任 SIGCOMM、NSDI等国际顶级会议程序委员会委员。获中国通信学会技术发明一等奖。


共同主席


图片

李振华

清华大学长聘副教授


CCF杰出会员,CCF互联网专委常委,清华大学软件学院长聘副教授,国家优秀青年科学基金获得者,主要研究计算机网络、操作系统和云计算。发表CCF A类论文50余篇,国内外重要期刊封面论文5篇。多项研究成果被小米、华为、腾讯、百度、字节跳动等单位实际采用,受益用户逾十亿。获教育部自然科学一等奖、CCF青年科学家奖、中国人工智能学会优秀博士论文奖、IEEE Transactions on Cloud Computing最佳论文奖、MobiCom’19最佳系统展示奖、SIGCOMM’21最佳学生论文奖及MobiCom’22最佳社群论文奖。


图片

论坛讲者

图片


图片

李克秋

CCF常务理事,CCF网络与通信专委主任

天津大学教授


ACM China常务理事,IEEE Fellow,国家高层次科技创新领军人才,国家杰出青年科学基金获得者,天津大学智能与计算学部主任,天津市先进网络技术与应用重点实验室主任,天津市区块链技术创新中心执行主任。主要从事网络、云计算和区块链等方面的研究工作。获天津市科技进步特等奖,辽宁省技术发明一等奖。


面向智能服务的云原生计算系统


云原生计算基础设施正在变革人工智能服务的算力供给方式。以Severless为例,函数成为服务提供的一种新型抽象。其具有无需资源管理、自动扩展和成本效益等诸多优势,其在多个领域已经获得了广泛应用。现有的Serverless计算系统在运行人工智能推理服务时存在速度慢、资源利用低的问题。本次报告将讨论解决以上问题的新型算力供给技术和方法。

图片

付斌章

阿里云计算有限公司资深技术专家


CCF专业会员,CCF高性能专委委员,阿里云基础设施网络研发事业部高性能网络业务负责人,在高性能互连网络领域发表高水平论文40余篇。


Tensor, Collective-Op & Flow——AI大集群横向扩展的通信挑战


规模分布式机器学习应用的快速发展要求更多的高性能异构计算集群的体系结构创新。在该领域,阿里云具有丰富的研发、建设和运营经验。为了给客户提供更加专业的服务,阿里云发布了全新的灵骏智算产品,可以在提供更强大算力的同时提供更多弹性以及更可预期的集群稳定性。在整个集群架构中,高性能网络是核心技术之一。本次汇报将聚焦灵骏智算高性能网络解决方案PredFabric,并重点介绍如何通过网络拓扑、负载均衡算法、拥塞控制算法以及通信库的联合创新解决大语言预训练模型(例如通义千问)的并行扩展难题,以及相关的未来工作。

图片

谭光明

中国科学院计算技术研究所研究员


CCF高级会员,研究员、博导、中科院计算技术研究所高性能计算机研究中心主任。国家杰出青年基金获得者,参与了曙光系列高性能计算机系统研制。发表学术论文100余篇,曾任IEEE TPDS编委和多个国际会议的程序委员。曾获得国家科技进步奖二等奖、北京市科技进步奖一等奖、卢嘉锡青年人才奖和全国向上向善好青年称号。


结合互连架构的分子动力学模拟强可扩展优化研究


蛋白质折叠等复杂物理现象的分子动力学模拟时长需要达到微秒级,这对模拟软件的强可扩展性提出了极高的要求,而在大规模系统中,应用的强可扩展性又多受通信性能制约,因此,我们提出了结合系统互连网络架构优化分子动力学模拟的通信过程,进而提升其可扩展性的方法。我们结合Fugaku的TofuD网络的拓扑结构、接口芯片架构、通信原语特点等,在LAMMPS这款广泛使用的分子动力学模拟软件中实现了一系列通信优化,降低了77%的通信时间,在36846个节点上,实现了2.9x的强可扩展性能提升。

图片

熊勇强

微软亚洲研究院首席研究员


CCF专业会员,微软亚洲研究院首席研究员,网络研究组负责人。主要研究数据中心网络领域,包括硬件网络和云网关,并将硬件和软件的优点结合起来,以提高分布式机器学习等重要网络工作的性能和效率。


下一代AI系统网络的创新与实践


随着AI模型的不断扩大,通信成本在实时和总GPU执行时间占比上都在增加。例如,训练Resnet50这样的模型,其具有约100MB的可训练参数,其中大约有3%的时间用于通信。而对于训练DeepLight这样拥有约2GB参数的模型来说,在同一多GPU系统上,通信时间占用了其总时间的79%。这种通信成本增加的原因在于更大的模型无法适应单个GPU(或加速器),因此参数必须分布在多个加速器之间,从而增加了加速器之间数据交换的次数和数据量。因此,不仅仅局限于目前广泛使用的数据并行模型训练,包括训练和推理在内,高效的通信对于所有AI工作负载现在都至关重要。主要的AI加速器和AI网络提供商在硬件和软件层面都提供了不同的技术栈,它们各有优势,不同的企业用户可以利用这些技术来加速自己的AI训练和推理。然而,主要的云服务提供商直接采用单一厂商的生态系统往往不能满足所有用户的需求。这使得云厂商必须构建技术中立的生态系统,以满足不同用户的需求,并根据云业务的要求对厂商的技术进行优化。在本次报告中,我们介绍MSCCL和Mina两个研究工作。它们重新设计了AI通信接口和AI网络通信中在网计算的资源分配,加速了AI训练和推理中的通信过程,实现更高效的AI训练和推理,从而为用户的AI创新提供了原动力。

图片

余跃

国防科技大学副研究员


CCF高级会员,CCF开源发展委员会常委,鹏城实验室开源研究所技术总师,OpenI启智开源社区运营中心主任、技术委员,主要从事开源生态、群体智能、智能化软件开发等相关领域的研究工作,在CSCW、CHI、TSE、ICSE、FSE、ASE等软件工程国际重要会议和期刊发表论文50余篇,曾获湖南省优秀博士论文、ACM学会优秀博士论文、OW2国际开源比赛一等奖与特等奖等奖励,作为技术负责人牵头开展我国新一代人工智能规划重点开源社区OpenI启智社区基础平台与生态建设。


中国算力网支撑AI开源生态


中国算力网(China Computing NET,简称C²NET)目标是构建自主创新的技术与标准体系,建设覆盖智算中心、超算中心、数据中心等大型异构算力资源互联互通、协同调度与高效计算的国家级算力基础设施,推动实现数字经济时代算力供给模式的变革。本报告将报告OpenI启智开源社区如何依托中国算力网为底座,为开发者建立一个高效协作的开源服务环境。


图片


今年恰逢CNCC创办20周年。二十年来,CNCC已逐渐发展到涵盖数十个方向130场技术论坛,700余位国内外讲者积极参与,超过13000人注册的计算领域年度盛会。二十载不断超越,作为国内计算领域参会人员众多,规模大,水平高的年度盛会,CCF将精心筹划,为参会者带来一场前沿碰撞、展望未来的技术盛宴,让每位参会者都能在CNCC这个超大体量专业平台上提升自身的专业价值,获得前行的动能!等你来,马上行动,欢迎参会报名!


图片


图片