ADL141《算网融合》开始报名

阅读量:884 2023-06-28 收藏本文

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCFADL第141期

主题算网融合

2023年7月22日-24日北京

本期CCF学科前沿讲习班ADL141《算网融合》，将对算网融合的最新进展进行深入浅出的讲解，从计算机网络、分布式系统、存储系统等不同的学科视角和云计算、分布式AI训练、共享存储等不同应用领域视角为听众介绍算网融合的关键技术和前沿研究。相信学员通过本期讲习班的学习，能够深入了解算网融合的基础技术、主要挑战和应用场景，开阔科研视野，增强实践能力。

本期ADL讲习班邀请了10位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天，翟恩南研究员将讲解面向 AI 的新型数据中心智算网络体系，陆游游副教授将介绍存储与网络融合设计的探索，刘鹏经理将介绍面向算网融合的未来网络技术思考与实践。第二天，卓丹阳助理教授将讨论高性能易管理的云网络，彭晓晖副研究员将讲解万物互联的算力基础设施挑战与进展，魏星达助理教授将介绍如何使用现代网络硬件实现数据中心微秒级计算，徐梦炜副研究员将讨论在轨计算技术中的挑战、机遇和尝试。第三天，吴文斐研究员将讲解基于在网计算的分布式系统加速方法，刘硕工程师将讨论如何利用在网计算加速分布式AI训练，缪葱葱高级研究员将介绍AI时代下的高性能网络技术。通过三天教学，旨在带领学员实现对算网融合从基础技术，到前沿科研动态，再到典型应用场景的深入学习与思考。

学术主任：金鑫研究员北京大学 / 黄群研究员北京大学

主办单位：中国计算机学会

本期ADL主题《算网融合》，由北京大学金鑫研究员和黄群研究员担任学术主任，邀请到翟恩南（阿里巴巴）、陆游游（清华大学）、刘鹏（中国移动研究院）、卓丹阳（杜克大学）、彭晓晖（中国科学院计算技术研究所）、魏星达（上海交通大学）、徐梦炜（北京邮电大学）、吴文斐（北京大学）、刘硕（华为）和缪葱葱（腾讯）等10位专家做专题讲座。

活动日程：

2023年7月22日（周六）
9:00-9:10	开班仪式
9:10-9:20	全体合影
9:20-12:00	专题讲座1: 面向 AI 的新型数据中心智算网络体系翟恩南，网络研究负责人，阿里云
12:00-13:30	午餐
13:30-15:00	专题讲座2: 存储与网络融合设计的探索陆游游，副教授，清华大学
15:00-15:30	交流+休息
15:30-17:00	专题讲座3: 面向算网融合的未来网络技术思考与实践刘鹏，项目经理，中国移动研究院基础网络技术研究所
2023年7月23日（周日）
9:00-10:30	专题讲座4: 高性能易管理的云网络卓丹阳，助理教授，杜克大学（在线）
10:30-12:00	专题讲座5: 万物互联的算力基础设施挑战与进展彭晓晖，副研究员，中国科学院计算技术研究所
12:00-13:30	午餐
13:30-15:00	专题讲座6: 使用现代网络硬件实现数据中心微秒级计算魏星达，长聘教轨助理教授，上海交通大学
15:00-15:30	交流+休息
15:30-17:00	专题讲座7:在轨计算：挑战，机遇和尝试徐梦炜，副研究员，北京邮电大学
2023年7月24日（周一）
9:00-12:00	专题讲座8: 基于在网计算的分布式系统加速方法吴文斐，研究员，北京大学
12:00-13:30	午餐
13:30-15:00	专题讲座9: 在网计算加速分布式AI训练刘硕，主任研究工程师，华为2012中央研究院网络技术实验室
15:00-15:30	交流+休息
15:30-17:00	专题讲座10: AI时代下的高性能网络缪葱葱，高级研究员，腾讯

特邀讲者

翟恩南

网络研究负责人，阿里云

讲者简介：翟恩南，阿里云网络研究负责人，阿里云资深技术专家。2015年于耶鲁大学计算机系获博士学位，随后担任耶鲁大学研究型助理教授兼讲师，2018年加入阿里巴巴。研究领域包括计算机网络、分布式系统、程序验证等，先后在这些方向的国际顶级会议如 SIGCOMM、OSDI、NSDI等累计发表30+篇论文。担任 SIGCOMM、NSDI等国际顶级会议程序委员会委员。曾获中国通信学会技术发明一等奖一次。

报告题目：面向 AI 的新型数据中心智算网络体系

报告摘要：云计算通过数据中心网络将算力规模化，从而满足服务对算力的需求。然而，随着AI、深度学习等算力密集型技术的飞速发展，云计算的算力遇到了前所未有的挑战。作为算力瓶颈的网络性能，急需设计研发新型的技术进行网络加速。本次报告主要介绍阿里云自主研发的面向 AI 的新型数据中心网络体系——服务器端/应用和网络融合感知的新型体系——以及该体系下解决的关键技术挑战与解决这些挑战阿里云所研发的关键技术（主要包括拥塞控制、路径选择以及硬件编程等），这一系列技术发表在 SIGCOMM 和 NSDI 等国际顶级会议上。

陆游游

副教授，清华大学

讲者简介：陆游游，清华大学计算机系副教授、博士生导师。主要研究方向是计算机存储系统，在FAST、OSDI、SOSP等国际顶级会议上发表论文30余篇，曾获得最佳论文奖和最佳论文提名奖各一项。担任FAST、USENIX ATC、EuroSys等国际会议程序委员会委员。曾入选CCF优博、首届中国科协青托工程等计划，获国家自然科学基金优青和国家重点研发计划青年科学家项目资助，获省部级奖两项。

报告题目：存储与网络融合设计的探索

报告摘要：数据驱动是当前信息技术发展的主要推动力，应用处理数据规模越来越大，对共享存储（存储与内存池化等）的需求日益明显。存储的互联效率制约了共享存储系统的发展。存储系统的设计及互联硬件与架构的设计越来越耦合。本报告将从清华大学存储研究组近些年来的研究工作出发介绍存储与网络融合的设计，包括RDMA与CXL互联的系统设计、基于可编程交换机的存储协议设计、以及基于网卡特性的存储系统协同设计技术等方面的工作与计划。

刘鹏

项目经理，中国移动研究院基础网络技术研究所

讲者简介：刘鹏，中国移动研究院基础网络技术研究所项目经理，从事未来IP网络、算力网络/算网一体等架构设计和算力路由、确定性网络、工业互联网等前沿技术研究。在国际互联网工程任务组(IETF)推进算力感知的流量调度工作组(CATS)的成立并担任工作组主席，牵头大规模确定性网络需求立项以及多个技术方案的推进。担任中国通信标准化协会(CCSA)TC13 WG2副组长，主导完成10余项工业互联网边缘计算、工业SDN、确定性网络等技术标准。同时也推进新型网络技术在产业的应用，在工业互联网产业联盟(AII)网络组共同主席，牵头多项测试床以及技术案例。

报告题目：面向算网融合的未来网络技术思考与实践

报告摘要：随着算力网络的发展，网络和计算两大学科的交叉融合成为新的技术发展方向。算网一体是算力网络发展的目标阶段，网络的计算将会深度融合，从“网络算力化”和“算力网络化”两条路径融合至一体共生。报告基于算力网络的发展背景、趋势和路径，探讨面向算网一体的未来网络架构，以及算网度量、算网感知、算力路由、在网计算等关键技术、标准化和产业发展。

卓丹阳

助理教授，杜克大学

讲者简介：卓丹阳是杜克大学计算机系助理教授。他的科研主要围绕云计算和机器学习系统。他在加州大学伯克利分校完成博士后研究。他在华盛顿大学计算机科学和工程专业取得博士学位。他的研究荣获美国国家科学基金会CAREER奖，USENIX FAST最佳论文奖，亚马逊研究奖，IBM学术奖。

报告题目：高性能易管理的云网络

报告摘要：因为云具备资源弹性、性能、安全且易于管理，将数据密集型的应用转移到云环境中去运行已经成为一种主流计算模式。这些数据密集型的应用往往是一些分布式系统，需要在数十台至数百台机器之间进行大量通信。为了支持这些数据密集型的分布式系统，我们需要重新思考整个云网络栈，包括RDMA和RPC。我将谈论两个研究项目，(1) mRPC，一种新的RPC架构，它将RPC抽象作为一种系统服务，以提高速度和可管理性；(2) HostBench，一种针对RDMA软件/硬件栈的测试框架。mRPC在保持更高的网络策略灵活性和可用性的同时，将标准微服务基准的速度提高了2.5倍。HostBench利用一种新的基于搜索的测试方法，揭示了许多商用RDMA NICs的新漏洞。

彭晓晖

副研究员，中国科学院计算技术研究所

讲者简介：彭晓晖，中国科学院计算技术研究所副研究员、博士生导师，入选中国科学院海外高层次人才引进计划。分别于西北工业大学、北京大学、东京大学获得本科、硕士和博士学位。近期主要工作围绕“算礼技术栈”，开展高通量低熵算力网的关键技术研究和原型系统研发。主持了国家基金委面上项目、重点项目子课题等多个国家纵向科研项目。在《计算机研究与发展》、《计算机学报》、PIEEE，IEEE IoT-J等国内外著名刊物上发表相关论文20余篇。兼任IEEE Internet Computing编委会委员，边缘计算国际旗舰会议ACM/IEEE SEC 2021-2023年度TPC成员，CCF普适计算、分布式计算与系统专委会委员,中国通信学会第一届算力网络委员会委员

报告题目：万物互联的算力基础设施挑战与进展

报告摘要：万物互联开启了信息技术的第三次变革，面对万物互联带来的高并发、强实时、地理分布的重“载荷”处理挑战，以及现有云计算数据中心系统软件机制导致的资源“占而不用”等无序使用问题，计算所提出了高通量低熵的算力网的研究和建设来缓解以上问题。本报告首先介绍算力基础设施化的历史。然后，分享万物互联时代算力基础设施化面临的挑战和问题。最后，介绍我们在高通量低熵算力网关键技术研究和原型系统研发方面的进展。

魏星达

长聘教轨助理教授，上海交通大学

讲者简介：魏星达，上海交通大学助理教授。主要研究方向为分布式系统和操作系统。在包括OSDI/SOSP、NSDI等会议上发表多篇论文。曾获2022年华为火花奖，2021年ACM SIGOPS Dennis M. Ritchie Award优胜奖，2020年华为奥林帕斯先锋奖等多个奖项。博士论文获2021年ACM 中国优秀博士学位论文提名奖，ACMChinasys优秀博士论文奖。担任包括NSDI在内的多个期刊审稿人及国际会议程序委员会成员。

报告题目：使用现代网络硬件实现数据中心微秒级计算

报告摘要：在现代数据中心应用中，减少系统延迟和提升吞吐量至关重要。具有计算卸载功能的微秒级网络硬件，例如RDMA和SmartNIC，为实现微秒级请求提供了可能性。然而，要极致利用这些新型网络硬件，我们必须深入理解并分析各种硬件的特性。在我们近期的研究中，我们对这些硬件特性进行了全面且深入的研究。基于研究的结果，我们对一些关键的数据中心系统，如分布式键值存储和容器启动机制进行了优化。这些优化通常能使系统延迟降低一个数量级。

刘硕

主任研究工程师，华为

讲者简介：刘硕，2017年博士毕业于新加坡国立大学，随后加入华为2012中央研究院网络技术实验室，现任主任研究工程师。主要负责应用与网络融合方向的研究，在网算协同、网存协同等方面有丰富的研究与商业落地经验。相关领域发表学术论文10余篇，包括计算机系统领域顶会ASPLOS、ICDCS、ICC、IFIP Networking、IEEE汇刊Circuits and Systems、Control Systems Technology等，累计申请专利20+。

报告题目：在网计算加速分布式AI训练

报告摘要：自以ChatGPT为首的生成类模型的爆发以来，大模型的训练效率引发了业界的广泛关注。随着模型尺寸和训练数据的不断增大，参数规模已达万亿，面向未来可达十万亿，甚至百万亿，网络通信也逐渐成为分布式训练的瓶颈。而业界常用的All-Reduce算法面临着节点交互复杂，传输数据量高等问题。近年来，利用可编程网络设备卸载All-Reduce集合通信原语，从而加速训练任务，成为工业界、学术界竞相关注的研究热点。本次分享将围绕基于在网计算加速分布式AI训练这一主题，展开分析与讨论。

吴文斐

研究员，北京大学

讲者简介：吴文斐，2015年博士毕业于威斯康星大学麦迪逊分校，现任北京大学计算机学院研究员和博士生导师。吴文斐博士长期从事分布式系统和计算机网络方向的研究，共发表高水平论文51篇，包括NSDI、ASPLOS、KDD、INFOCOM等CCF A类文章18篇。吴博士主持研发的基于在网计算的机器学习系统获得NSDI21最佳论文奖（中国首次），主持研发的基于在网计算的分布式大数据分析系统获得ASPLOS23的杰出论文奖，其他成果曾获得IPCCC19最佳论文提名、SoCC13最佳学生论文奖、SIGCOMM10最佳论文提名。

报告题目：基于在网计算的分布式系统加速方法

报告摘要：摩尔定律正在逐步失效，但是各种信息处理场景中的算力需求正在指数增长，设计新的计算集群体系结构实现算力的高效扩展成为产业界关注热点，而在网计算是一种支持新体系结构的有效途径。在网计算利用交换机的处理流经的数据报文，可以提供线速、低时延的数据处理，且可以压缩数量，从而提升计算和传输任务的整体效率。本讲座中，我们将分享在网计算技术的现状和发展，包括支持机器学习和大数据系统的在网计算协议的设计、在网计算协议与现网RDMA技术的集成方法、集群中在网计算多任务的运行时管理方法。相关工作发表在NSDI21、NSDI23、ASPLOS23、INFOCOM23。

徐梦炜

副研究员，北京邮电大学

讲者简介：徐梦炜，北京邮电大学副研究员（人才引进），博士生导师，获北京大学学士/博士学位。入选中国科协青年人才托举工程，北京市科技新星，微软亚洲研究院“铸星计划”访问学者，获得ACM SIGMobile China 2021优博，IEEE TCCLD Early Career Award，IEEE开源软件服务奖、IEEE卫星计算大会2022最佳论文等荣誉。担任IEEE 国际空天地计算大会(IEEE SAGC) 2022程序委员会主席(PC Chair)，以及ACM MobiSys/ICWS/SCC/ICDCS等国际会议的程序委员会成员，发表CCF A/B类高水平论文三十余篇，主持国家自然科学基金、科技部重点研发项目课题、百度松果基金等多个项目。担任天地一体化计算服务平台“天算星座”(www.tiansuan.org.cn)的系统软件负责人。

报告题目：在轨计算：挑战，机遇和尝试

报告摘要：在轨计算将与卫星互联网融合，是计算机科学在空间维度上的重要拓展。相较于地面云/边缘计算，在轨计算由于空间条件的限制面临诸多特有的挑战。本次报告将基于对“天算星座”在轨卫星的大规模度量分析，定量探讨在轨计算的主要瓶颈以及其中的重要发现，并从软硬件协同的角度阐述未来可能的优化方向。

缪葱葱

高级研究员，腾讯

讲者简介：缪葱葱，腾讯高级研究员，于清华大学计算机系获得博士学位，长期从事计算机网络、计算机系统等方面研究和工程落地，获CCF科技进步二等奖，发表ACM SIGCOMM、USENIX NSDI、ACM MOBICOM、IEEE TPDS等计算机领域顶级会议和期刊论文近10篇。

报告题目：AI时代下的高性能网络

报告摘要：AI大模型进入AGI &万亿参数时代，单个GPU/服务器提供的算力有限，需要打造大规模、分布式的高性能计算集群。腾讯高性能网络提供低价的跨域数据互通服务；利用自研交换机构建了超大规模网络架构，具备业界领先的1.6Tbps/3.2Tbps RDMA通信接入带宽，可扩展支持十万卡规模的GPU集群；自研高性能集合通信库TCCL和自研协议栈TiTa，通过软、硬件融合的优化方案实现AI通信的全局流量规划和拓扑亲和感知，为大模型训练提升40%网络负载性能；构建了端网协同的监控运营体系，能够实现秒级故障自愈能力，有效减少网络原因导致的业务训练中断问题，保证GPU集群的高可靠性和高可用性。

学术主任

金鑫

研究员，北京大学

金鑫，北京大学计算机学院研究员。2011年本科毕业于北京大学计算机科学技术系，2016年博士毕业于美国普林斯顿大学计算机科学系。主要研究领域为系统软件、计算机网络、云计算。论文发表于SIGCOMM、NSDI、SOSP、OSDI等系统领域国际顶级会议，获2018 USENIX NSDI最佳论文奖、2019 USENIX FAST最佳论文奖、2021阿里巴巴达摩院青橙奖等奖项。

黄群

研究员，北京大学

黄群，北京大学计算机学院研究员。2011年本科毕业于北京大学计算机科学技术系，2015年博士毕业于香港中文大学计算机科学与工程系。主要研究方向是计算机网络，特别是网络测量、可编程网络等。论文发表于SIGCOMM、NSDI、INFOCOM、ATC、VLDB、ICDE等国际顶级会议，获INFOCOM 2021最佳论文提名、IWQoS最佳论文奖。

时间：2023年7月22日-24日

地址：北京•中科院计算所一层报告厅（北京市海淀区中关村科学院南路6号）