面向人工智能芯片的编程语言和编译器 | CNCC2021

阅读量:2622 2021-10-09 收藏本文

CNCC2021将汇聚国内外顶级专业力量、专家资源，为逾万名参会者呈上一场精彩宏大的专业盛宴。别缺席，等你来，欢迎参会报名！

【论坛背景介绍】

随着摩尔定律发展的逐渐放缓，领域特定架构芯片成为当前处理器发展的主流方向。为了满足深度学习应用对计算力的巨大需求，硬件公司推出了各种领域特定架构的人工智能芯片，例如寒武纪 Cambricon、华为昇腾系列、阿里巴巴含光系列等。开展面向人工智能芯片的自动编译技术对推动我国人工智能芯片的发展具有重要意义。

本论坛将讨论如下问题:

1) 如何设计面向人工智能芯片的领域特定编程语言?

2) 如何设计面向人工智能芯片的高效编译器?

3) 目前在人工智能芯片上编程语言和编译器主要痛点包括哪些?

4) 如何加强国产编程语言和编译器等核心基础系统软件的设计?

论坛主席

翟季冬

清华大学计算机系长聘副教授，博士生导师

现为清华大学计算机系高性能所副所长，ACM中国高性能计算专家委员会秘书长、北京智源青年科学家。主要研究方向包括高性能计算、性能评测和编译优化等。研究成果发表在相关领域顶级学术会议和期刊——SC、ICS、PPOPP、ASPLOS、MICRO、OSDI、ATC、IEEE TC、IEEE TPDS等。研究成果获ACM ICS 2021最佳学生论文奖、SC 2014 Best Paper Finalist、ICDCS 2020 Best Paper Honorable Mention奖。担任NPC 2018程序委员会主席、IEEE Cluster 2021领域主席、SC 2022领域副主席，SC、ICS、PPOPP等国际学术会议程序委员会委员。目前担任《IEEE Transactions on Computers》、《IEEE Transactions on Parallel and Distributed Systems》、《IEEE Transactions on Cloud Computing》等多个国际学术期刊编委。担任清华大学学生超算团队教练，指导的团队十一次获得世界冠军。获教育部科技进步一等奖、中国电子学会科学技术一等奖、中国计算机学会优秀博士学位论文奖、IEEE TPDS杰出编委奖、国家自然科学基金优秀青年科学基金（2017）、CCF-IEEE CS青年科学家奖（2020）。

陈文光

CCF副秘书长，清华大学教授

CCF杰出会员和杰出讲者，CCF副秘书长，CCF YOCSEF荣誉委员。主要研究领域为操作系统、程序设计语言与并行计算。多次担任高性能计算和并行计算重要国际会议如OSDI、PPoPP、CGO、SC、ICS、PLDI、ASPLOS和APSYS的程序委员会委员。同时担任ACM中国理事会主席，ACM中国操作系统分会ChinaSys主席。获国家科技进步二等奖、国家教委科技进步二等奖和北京市科技进步二等奖各一次。国家杰出青年基金获得者。

论坛日程安排

时间	主题	主讲嘉宾	单位及任职
16:00- 16:25	面向泛在计算的程序设计语言及其支撑环境	胡振江	北京大学
16:25- 16:50	Efficient Scheduling of Irregular Network Structures on Neural Network Accelerators	尹首一	清华大学
16:50- 17:15	AKG: Automatic Kernel Generation for Neural Processing Units using Polyhedral Transformations	赵捷	State Key Laboratory of Mathematical Engineering and Advanced Computing
17:15- 17:40	探索深度学习编译的通用抽象与全局优化	薛继龙	微软亚洲研究院
17:40- 18:05	使大规模分布式深度学习变得更方便：来自OneFlow的方案	袁进辉	北京一流科技有限公司
18:05- 18:30	图深度学习中的编译优化	王敏捷	亚马逊云科技上海人工智能研究院
18:30- 18:55	TensorIR: An Abstraction for Tensorized Program Optimization	陈天奇&冯思远	CMU&上海交通大学

讲者介绍

胡振江

北京大学讲席教授

北京大学讲席教授，北京大学计算机科学技术系主任。曾担任东京大学情报理工学研究科教授，日本国立信息学研究所教授/系主任。胡振江教授长期从事程序设计语言和软件科学与工程的研究，在程序语言设计、结构化函数式程序设计、程序的自动综合和优化、并行程序设计、双向变换语言的设计和实现、以及软件的演化和维护等方面做出了一系列开创性工作，曾获全日本最佳博士论文奖和日本软件科学会基础研究成就奖、日本工程院外籍院士、欧洲科学院外籍院士、IEEE Fellow。

报告题目: 面向泛在计算的程序设计语言及其支撑环境

摘要: 人机物融合计算平台正逐步成为人类社会不可或缺的基础设施，对泛在计算平台的互联互通、可靠、安全、隐私等可信性提出了更高的要求，但是传统的通用程序语言已难以承载泛在计算环境下特定领域软件开发的重任。在这个报告中，我们将围绕泛在计算的程序设计语言及其支撑环境的设计与实现，汇报我们的一些近期工作，并讨论三个重要问题，即“如何定义泛在系统的语言和编译”、“如何提供泛在系统的语言支撑”以及“如何提供泛在应用的开发辅助”

尹首一

清华大学长聘教授

尹首一，清华大学教授，集成电路学院副院长，国家杰出青年科学基金获得者，国家“新一代人工智能”重大项目专家组成员。研究方向为人工智能芯片设计、可重构计算、新型处理器体系结构。已发表学术论文200余篇，包括IEEE JSSC、TPDS、TCSVT、TVLSI、TCAS-I/II和ISSCC、ISCA、VLSI、DAC、HPCA等集成电路和体系结构领域权威期刊和学术会议。出版《可重构计算》、《人工智能芯片设计》专著2部。曾获国家技术发明二等奖、中国电子学会技术发明一等奖、中国发明专利金奖、教育部技术发明一等奖、江西省科技进步二等奖、中国电子学会优秀科技工作者奖、中国电子信息领域优秀科技论文奖。现任集成电路领域国际会议MICRO、DAC和A-SSCC的技术委员会委员，国际期刊《IEEE Transactions on Circuits and System I: Regular Papers》、《ACM Transactions on Reconfigurable Technology and Systems》及《Integration, the VLSI Journal》的Associate Editor。

报告题目：Efficient Scheduling of Irregular Network Structures on Neural Network Accelerators

摘要：The state-of-the-art convolutional neural network (CNN) structures present growing irregularity in the sense of layer connections, which derives from the innovative manual designs and the recently proposed neural architecture searching approaches. Such irregular structures improve recognition accuracy, but also bring challenges for hardware deployment, especially on CNN accelerators with regular architectures. In this talk, we will introduce a comprehensive framework to analyze and solve the mapping of an arbitrarily connected CNN network to specific hardware accelerators.

赵捷

State Key Laboratory of Mathematical Engineering and Advanced Computing Assistant Processor

Jie Zhao obtained his PhD degree from École Normale Supérieure and INRIA Paris in 2019. Before that, he got his Master's degree from the National Digital Switching System Engineering & Technological Research Center in 2012 and the Bachelor's degree from the Department of Computer Science and Technology of Tsinghua University in 2009. He is now an assistant professor at State Key Laboratory of Mathematical Engineering and Advanced Computing, Zhengzhou, China. His current research interests mainly focus on automatic code optimization, accelerator code generation under polyhedral compilation. He is also serving as an external expert for the Huawei AKG compiler. His work is published at premier compiler conferences and journals including PLDI, MICRO, ICS, CC, TACO, etc. In 2020, and his MICRO-53 paper was nominated as 1/4 best paper candidates.

报告题目：AKG: Automatic Kernel Generation for Neural Processing Units using Polyhedral Transformations

摘要：Existing tensor compilers have proven their effectiveness in deploying deep neural networks on general-purpose hardware like CPU and GPU, but optimizing for neural processing units (NPUs) is still challenging due to the heterogeneous compute units and complicated memory hierarchy. In this paper, we present AKG, a tensor compiler for NPUs. AKG first lowers the tensor expression language to a polyhedral representation, which is used to automate the memory management of NPUs. Unlike existing approaches that resort to manually written schedules, AKG leverages polyhedral schedulers to perform a much wider class of transformations, and extends the semantics of the polyhedral representation to combine complex tiling techniques and hierarchical fusion strategies. We also implement the domain-specific optimization of convolution in AKG. Moreover, to achieve the optimal performance, we introduce complementary optimizations in code generation, which is followed by an auto-tuner. We conduct extensive experiments on benchmarks ranging from single operators to end-to-end networks. The experimental results show that AKG can obtain superior performance to both manual scheduling approaches and vendor provided libraries. We believe AKG will cast a light on the follow-up compiler works on NPUs.

薛继龙

微软亚洲研究院高级研究员

薛继龙博士，微软亚洲研究院系统组高级研究员，主要研究方向为构建和优化基于新型异构硬件的高性能计算系统，目前主要负责人工智能计算和编译框架方向的研究，相关成果已发表在OSDI，NSDI, EuroSys等国际会议上。在加入微软亚洲研究院之前，主要从事大规模图计算系统和流式系统的研究，并在2016年于北京大学获得计算机博士学位。

报告题目：探索深度学习编译的通用抽象与全局优化

摘要：随着深度学习的快速发展，面向深度学习负载的硬件加速器也在快速迭代，深度学习编译器成为连接计算表达和硬件执行的关键技术，然而，如何在不同硬件上高效地支持深度学习任务仍然存在较多的挑战，致使大量相关工作从不同角度涌现。当前大多编译框架都以计算流图（data-flow graph）作为中间表示层来描述深度学习计算任务，以算子（Operator）为软硬件接口来进行调度。因此，硬件往往需要实现一层更加复杂且细粒度的调度逻辑来完成最终的计算。这样的抽象往往会导致优化空间不足、以及硬件利用率低的问题。因此，本报告将介绍我们在深度学习计算表达层和硬件层的通用抽象上的一些探索，并基于该抽象定义出一个全新的全局编译优化空间，将深度学习编译优化转化为细粒度的时空调度问题，从而能够较充分的发挥硬件性能。我们的实验表明，简单的启发式调度策略即可比现有深度学习编译器实现高达数量级性能提升。更重要的是，我们希望新的编译抽象能够成为连接深度学习软硬件技术更加通用和高效的桥梁。

袁进辉

北京一流科技有限公司创始人

袁进辉，2008年于清华大学计算机系获得工学博士学位（优秀博士学位论文奖），原微软亚洲研究院主管研究员（院长特别奖获得者），于2017年创立北京一流科技有限公司，致力于打造新一代深度学习框架OneFlow。兼任之江实验室天枢开源开放平台架构师，北京智源人工智能研究院大模型技术委员会委员。

报告题目：使大规模分布式深度学习变得更方便：来自OneFlow的方案

摘要：近些年，诸如GPT-3等大规模预训练模型备受关注，训练此类模型，一方面需要借助大规模GPU集群，另一方面对分布式深度学习框架的效率和分布式易用性也提出了严峻挑战。特别是，训练这样的超大规模模型需要模型并行、流水并行等现有通用深度学习框架TensorFlow和PyTorch官方版本尚不支持的功能。人们不得不转而寻求各种定制化方案，诸如基于MXNet和PyTorch上开发的InsightFace, NVIDIA为广告推荐场景专门开发的HugeCTR，NVIDIA基于PyTorch为大规模预训练模型开发的Megatron-LM等。这些定制方案通常都是为某个特定需求开发的，为一个模型开发的技术无法方便地应用到另一个类似的需求上去。一个很自然的问题是，是否有可能令通用深度学习框架灵活而高效的支持这些大规模预训练模型所需要的这些技术？OneFlow作为完全从头全新开发的深度学习框架 (https://github.com/Oneflow-Inc/oneflow ) 提供了一个答案。借助“一致性视角”的概念，OneFlow可以帮助开发者像单机编程一样方便地开发分布式深度学习训练程序。在这次交流中，我将介绍“一致性视角”背后的核心思想以及新的编程接口，并通过几个与InsightFace, HugeCTR和Megatron-LM的对比案例来展现OneFlow方案的优点。

王敏捷

亚马逊云科技上海人工智能研究院资深应用科学家

王敏捷博士毕业于纽约大学计算机系系统研究实验室，研究方向包括深度学习系统，大规模分布式机器学习等深度学习与系统的交叉领域。发起并参与多项著名开源深度学习系统。其中包括被英伟达评为“Modern AI Engine”的Minerva系统，成为亚马逊首选深度学习框架的MXNet系统，图神经网络框架DGL，可微编程框架MinPy等。他同时也是开源社区DMLC的发起人之一，并在2016年获得英伟达博士奖学金。目前担任亚马逊云科技上海人工智能研究院资深应用科学家，主攻下一代深度学习框架，图神经网络以及开源项目及开源社区建设。

报告题目：图深度学习中的编译优化

摘要：图深度学习是当前人工智能领域的热点课题之一。其中诞生的图神经网络(GNN)将深度神经网络和图算法进行结合，在许多场景中取得了不错的效果。图深度学习的不断发展对系统工具也提出了更高的需求。图神经网络的核心消息传递算法不同于传统神经网络计算，同时具有稀疏和稠密算子的特性，因而对系统性能提出了新的挑战。本报告将会介绍使用编译技巧优化图深度学习系统的相关工作。我们会着重介绍我们针对GNN设计的算子编译器FeatGraph，以及针对GNN计算图进行编译优化的Graphiler。

陈天奇

CMU助理教授

Tianqi Chen is currently an Assistant Professor at the Machine Learning Department and Computer Science Department of Carnegie Mellon University. He received his PhD. from the Paul G. Allen School of Computer Science & Engineering at the University of Washington, working with Carlos Guestrin on the intersection of machine learning and systems. He has created three major learning systems that are widely adopted: XGBoost, TVM, and MXNet(co-creator). He is a recipient of the Google Ph.D. Fellowship in Machine Learning.

冯思远

上海交通大学

Siyuan Feng is a second-year Ph.D. student at Zhiyuan Honors Program at Shanghai Jiao Tong University, advised by Prof. Weinan Zhang and Prof. Yong Yu. He received his B.S degree in computer science from ACM Honors Class. He is working on Apache TVM with Tianqi Chen.

报告题目: TensorIR: An Abstraction for Tensorized Program Optimization

摘要：Deploying deep learning models on various devices has become an important topic. The wave of hardware specialization brings a diverse set of acceleration primitives for multi-dimensional tensor computations. These new acceleration primitives, along with the emerging machine learning models, bring tremendous engineering challenges. In this talk, I will introduce TensorIR, a compiler abstraction for optimizing programs with these tensor computation primitives. TensorIR generalizes the loop nest representation used in existing machine learning compilers to bring tensor computation as the first-class citizen.

CNCC2021将于10月28-30日在深圳举行，今年大会主题是“计算赋能加速数字化转型”。CNCC是计算领域学术界、产业界、教育界的年度盛会，宏观探讨技术发展趋势，今年预计参会人数将达到万人。每年特邀报告的座上嘉宾汇聚了院士、图灵奖得主、国内外名校学者、名企领军人物、各领域极具影响力的业内专家，豪华的嘉宾阵容凸显着CNCC的顶级行业水准及业内影响力。

今年的特邀嘉宾包括ACM图灵奖获得者John Hopcroft教授和Barbara Liskov教授，南加州大学计算机科学系和空间研究所Yolanda Gil教授，陈维江、冯登国、郭光灿、孙凝晖、王怀民等多位院士，及众多深具业内影响力的专家。今年的技术论坛多达111个，无论从数量、质量还是覆盖，都开创了历史之最，将为参会者带来学术、技术、产业、教育、科普等方面的全方位体验。大会期间还将首次举办“会员之夜”大型主题狂欢活动，让参会者畅快交流。

CNCC2021将汇聚国内外顶级专业力量、专家资源，为逾万名参会者呈上一场精彩宏大的专业盛宴。别缺席，等你来，欢迎参会报名！

CNCC2021参会报名

<<< 上一篇隐私计算距离大规模商业化落地还有多远？| CN

先睹为快，国产CPU、能效性能基准工具 | CNCC 下一篇 >>>

<<< 下一篇先睹为快，国产CPU、能效性能基准工具 | CNCC