CNCC | 面向AI时代的云基础设施架构与服务
CNCC2023将于10月26日至28日在沈阳举行,会议期间将举办130场技术论坛,涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30余个方向。本文特别介绍将于10月27日举办的【面向AI时代的云基础设施架构与服务】技术论坛。
人工智能当前已经迈入了快速发展的阶段,尤其是大语言模型的突飞猛进正给各行各业带来了日新月异的变化。随着行业规模的扩大,各大公司,高校,研究团队的参与,资本的持续投入与扩展,对云计算AI基础产品与设施也提出了非常鲜明的发展要求。
本论坛将邀请学术界与产业界专家一起探讨面向AI与高性能计算场景下,云基础设施服务如何提供稳定,安全,弹性,高效的底层IaaS资源进行讨论。让AI与高性能计算软硬件、框架、应用如何在计算/存储/网络等云计算三大要素之上构建快速解决方案与生态。
万人盛会即将开幕,报名仍在持续进行中,800余位技术论坛专家邀你相约沈阳,共享学术盛宴!立即扫码报名参会。
论坛安排
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 大数据与AI融合的编程系统 | 陈文光 | 清华大学、蚂蚁集团 |
2 | 如何面对大语言模型算力挑战? | 郑晓 | 阿里云 |
3 | 大模型与国产算力 | 翟季冬 | 清华大学 |
4 | HPC与AI智算融合对计算集群的挑战和应对 | 游亮 | 阿里云 |
5 | 打造弹性、安全、高可用的云上高性能计算网络 | 杨航 | 阿里云 |
论坛主席
张献涛
阿里云基础产品事业部副总裁、阿里云弹性计算产品线总经理
国际顶级虚拟化技术专家,Xen/KVM/HAXM等著名开源虚拟化项目的早期参与者及主要贡献者,英特尔最高成就奖获得者。在阿里云,领衔研发的“神龙:新一代软硬一体化虚拟化技术架构”获得世界互联网大会组委会颁发的领先科技成果奖;推动云计算核心科技虚拟化技术变革,创造性提出软硬件协同设计思路重构虚拟化技术,打造神龙计算架构,奠定了阿里云在云计算核心科技领域的领先地位,共提交高价值国内外创新型专利申请30余项,已获得授权13项。他的主要研究方向涉及信息安全,系统软件、芯片以及软硬协同设计。
共同主席
陈文光
CCF会士、副秘书长
清华大学计算机系教授
CCF青年科技论坛荣誉委员。清华大学计算机系教授,蚂蚁集团技术研究院院长。主要研究领域为操作系统、程序设计语言与并行计算。获国家科技进步二等奖一次,部级科技一等奖两次。ACM中国理事会常务理事,北京计算机学会副理事长。
论坛讲者
陈文光
CCF会士、副秘书长
清华大学计算机系教授
大数据与AI融合的编程系统
AI正在成为云计算中心主流的计算形态,但完整的AI链路既包括AI本身的推理和训练,也包括复杂的数据前后处理流程。目前,这两类系统分别使用不同的基础编程语言和体系,中间通过队列进行连接,在开发者技能、系统开发复杂度、处理性能、管理运维难度方面均面临挑战。我们提出一种大数据处理与AI融合的编程系统,通过统一的高层基础语言(Python)和多层IR,统一对数据处理和AI进行编译优化和调度,有望为未来AI计算提供更加有力的支撑。
郑晓
阿里云资深技术专家
现为阿里云弹性计算平台异构计算研发负责人,有着多年系统虚拟化工作经验,专注GPU虚拟化细分行业。设计研发了业内首个GPU实例热升级功能,发布阿里云智能第一款分片虚拟化产品。发表有多篇国际顶会论文,拥有多项国际专利。
如何面对大语言模型算力挑战?
大模型开启了人工智能的新时代,但其动辄千亿规模的参数量,极大的算力需求也对云基础设施架构与服务提出了更高的要求和挑战。阿里云弹性计算团队,通过从底层到中间件的全系优化,能够为大模型提供软硬一体的、弹性灵活的AI算力支持。
翟季冬
清华大学计算机系长聘教授/博导
现为清华大学计算机系高性能所副所长,ACM中国高性能计算专家委员会秘书长。主要研究方向包括高性能计算、编译优化和性能评测等。研究成果发表在相关领域顶级学术会议和期刊——SC、ICS、PPOPP、ASPLOS、MICRO、OSDI、ATC、IEEE TC、IEEE TPDS等。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任NPC 2018程序委员会主席、IEEE Cluster 2021领域主席、SC 2022领域副主席,SC、ICS、PPOPP、PACT等国际学术会议程序委员会委员。担任IEEE TPDS、IEEE TC、IEEE TCC等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十三次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖、国家杰出青年科学基金。
大模型与国产算力
随着预训练模型参数量的不断扩大,模型训练对算力的需求也持续增大。为了解决大模型训练在算力方面面临的挑战,我们在新一代国产超级计算机上,从底层算子库、并行加速库、负载均衡和混合精度等多方面对大模型进行了深入分析和性能优化,最终实现了百万亿级参数量的预训练模型训练加速,达到了EFLOPS级别的训练性能。
游亮
阿里云高性能计算&计算加速负责人
现任阿里云高性能计算&计算加速负责人、资深技术专家,曾带领AI加速团队研发了业界首个统一TensorFlow,PyTorch,MXNet,Caffe的神龙AI加速引擎AIACC,曾获AI性能权威榜单DawnBench训练、推理的性能、成本四项世界第一,曾带领大数据加速团队获得大数据权威榜单TPC-BB@SF3000世界排名第一。曾任职英特尔高性能计算优化专家,曾获英特尔中国最高奖。发表了多篇国际论文,拥有多项国际专利。
HPC与AI智算融合对计算集群的挑战和应对
随着大模型浪潮的兴起,HPC行业应用和AI智算结合越来越紧密,HPC行业应用+AI智算融合对于大规模计算集群提出了更高的挑战,需要更高的分布式计算性能、更高的弹性和更高的稳定性,详细解读如何基于飞天操作系统+CIPU和E-HPC云原生架构,打造高性能、高弹性、高稳定的云原生高性能计算集群。
杨航
阿里云弹性计算资深技术专家
负责云基础设施专用处理器CIPU的系统架构设计和软件设计,主持完成四代神龙架构演进,CIPU已经成为阿里云弹性计算和阿里巴巴计算基础设施的全量技术底座。
打造弹性、安全、高可用的云上高性能计算网络
对于HPC和AI类计算来说,计算节点间网络对计算性能有着非常明显的影响。通常来说,大部分HPC应用依赖于高性能RDMA网络进行通信。随着云计算的发展以及越来越多的HPC计算向云上迁移,如何设计既能适应云计算弹性、高可用、安全特征,又能满足HPC业务对性能与带宽的需求,成为对云计算基础设施设计和演进的重要方向。本报告介绍了阿里云基础设施在高性能网络方面的探索和实践,通过设计一套独有的RDMA网络方案,使得云计算基础设施能够符合高性能计算的性能要求,兼容HPC和AI计算应用生态,并最大程度保证资源的可获得性。
今年恰逢CNCC创办20周年。二十年来,CNCC已逐渐发展到涵盖数十个方向130场技术论坛,700余位国内外讲者积极参与,超过13000人注册的计算领域年度盛会。二十载不断超越,作为国内计算领域参会人员众多,规模大,水平高的年度盛会,CCF将精心筹划,为参会者带来一场前沿碰撞、展望未来的技术盛宴,让每位参会者都能在CNCC这个超大体量专业平台上提升自身的专业价值,获得前行的动能!等你来,马上行动,欢迎参会报名!