ADL143《高性能处理器体系结构与编程方法》开始报名-ADL动态-中国计算机学会

您的位置:首页>活动>培训>ADL>ADL动态

ADL143《高性能处理器体系结构与编程方法》开始报名

阅读量：840

hmli

收藏本文

CCF学科前沿讲习班

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCFADL第143期

主题高性能处理器体系结构与编程方法

2023年12月22日-24日北京

ADL143期CCF学科前沿讲习班《高性能处理器体系结构与编程方法》，对高性能处理器软硬件的前沿研究进展进行系统性介绍，帮助学员理解高性能处理器结构设计与编程环境领域的基本概念、主要挑战和解决方法，并通过高性能处理器软硬件研发的实际案例讲解，开阔学员的科研视野，增强实践能力。

本期ADL讲习班邀请到了本领域9位来自于著名高校与企业科研机构的重量级专家学者做主题报告。他们将对高性能处理器体系结构与编程方法的最新进展进行深入浅出的讲解，为听众展示先进的处理器软硬件研发实践案例, 并介绍高性能处理器研制所面临的技术挑战和实践落地的宝贵经验。

学术主任：陈云霁崔慧敏中国科学院计算技术研究所

主办单位：中国计算机学会

活动日程：

2023年12月22日（周五）
9:00-9:15	开班仪式
9:15-9:30	全体合影
9:30-12:00	专题讲座1：类脑计算系统体系结构、基础软件与编程示例
	张悠慧清华大学计算机系研究员、博导，教育部长江学者，北京市智源学者
12:00-13:30	午餐
13:30-16:00	专题讲座2：面向高性能计算的软件性能分析与调优技术探索
	杨海龙北京航空航天大学计算机学院长聘副教授，博士生导师，院长助理
16:00-16:30	特邀分享：基于自主计算构架智能计算系统技术
	姜晶菲国防科大计算机学院并行与分布处理重点实验室并行计算技术教研室主任、博士、研究员
2023年12月23日（周六）
9:00-11:30	专题讲座3：面向AI芯片的分析与编译优化
	梁云北京大学长聘副教授，博雅青年学者
11:30-13:00	午餐
13:00-15:00	专题讲座4：AI编译器探索实践
	曾平，寒武纪软件架构师；陈峋宇，寒武纪软件架构师
15:00-16:30	专题讲座5：面向国产超算的统一编程语言和优化方法探索
	刘颖中国科学院计算技术研究所高级工程师
2023年12月24日（周日）
9:00-11:30	专题讲座6：人工智能框架的组件化扩展设计方法研究
	冷静文上海交通大学电子信息与电气工程学院教授，博士生导师，院长助理
11:30-13:00	午餐
13:00-15:00	专题讲座7：检测Go软件系统中的并发错误
	宋林海美国宾夕法尼亚州立大学副教授
15:00-16:30	专题讲座8：现代高性能处理器上的稀疏矩阵计算
	刘伟峰中国石油大学（北京）教授、博士生导师、欧盟玛丽居里学者

本期ADL主题《高性能处理器体系结构与编程方法》,由中国科学院计算技术研究所副所长、处理器芯片全国重点实验室主任，全国青联常委以及中国青年科协副会长陈云霁研究员以及中国科学院计算技术研究所崔慧敏研究员共同担任学术主任，邀请到张悠慧（清华大学计算机系研究员、博导，教育部长江学者，北京市智源学者）、冷静文（上海交通大学电子信息与电气工程学院教授，博士生导师，目前任职院长助理）、杨海龙（北京航空航天大学计算机学院长聘副教授，博士生导师，院长助理。CCF高级会员、CCF体系结构专委委员）、刘伟峰（中国石油大学（北京）教授、博士生导师、欧盟玛丽居里学者）、刘颖（中国科学院计算技术研究所、高级工程师）、曾平（寒武纪软件架构师）、陈峋宇（寒武纪软件架构师）、梁云（北京大学长聘副教授，博雅青年学者）、宋林海（美国宾夕法尼亚州立大学副教授）9位专家做专题讲座。

特邀讲者

张悠慧

清华大学

讲者简介：张悠慧，清华大学计算机系研究员、博导，教育部长江学者，北京市智源学者。近年来专注于新型计算机体系结构、类脑芯片与基础软件研究，发表NATURE、ASPLOS、MICRO、DAC、IEEE TC/TPDS等重要国际期刊/会议论文多篇。相关工作被评为2019年国内十大科学进展，获2019年世界互联网大会领先科技成果以及2020年世界互联网大会主任特别推荐成果称号，获2022年CCF技术发明一等奖；首批国家级精品资源共享课与首批一流本科课程主讲教师；曾获高等教育国家级教学成果二等奖、国家科技进步二等奖、教育部科技进步一等奖与电子学会科学技术一等奖各一次。

报告题目：类脑计算系统体系结构、基础软件与编程示例

报告摘要：类脑计算被认为是迈向新一代人工智能的极具潜力的技术路径之一，类脑计算架构也是后摩尔时代体系结构重大发展方向。类脑计算系统在快速发展的同时，面临着计算理论、硬件算力、基础软件、应用模型/算法/编程灵活性等各方面的挑战。报告从类脑计算系统的层次结构与类脑芯片架构入手，结合近年工作从以上各方面分析、阐述类脑计算系统关键技术。进一步的，基于相关领域发展趋势，提出并阐述构建“通用”类脑计算系统及其基础软件框架，认为这是能够兼顾高性能与易编程的技术路线，是整合这一领域应用/系统/芯片多个层面协作研发与演进的关键，能够促进包括计算机科学、神经科学等多学科在内的交叉研究。该“通用”系统由类脑芯片、编译框架与开发前端构成，分别介绍其设计思想与功能。最后，结合代表性工作，介绍类脑计算系统在神经网络仿真、AI应用方面的编程示例。

杨海龙

北京航空航天大学

讲者简介：杨海龙，北京航空航天大学计算机学院长聘副教授，博士生导师，院长助理。CCF高级会员、CCF体系结构专委委员。主要研究方向为高性能计算、性能分析与优化、分布式与并行计算、编译优化技术。近年来，主持和参与了多项国家自然科学基金项目和国家重点研发计划项目。目前已在SC、ISCA、ASPLOS、ICSE、PLDI、ICS、ICPP、CLUSTER、IPDPS、TC、TPDS、TOCS、TCAD等国际会议和期刊上发表多篇学术论文，TC论文获评IEEE CS亮点论文。担任CLUSTER21体系结构领域共同主席， ICPP、CLUSTER、HPCC、NPC等国际学术会议程序委员会委，CCF-THPC期刊编委，TPDS、TC、JPDC、FCS等期刊审稿人。担任北京航空航天大学本科生超算队教练，指导学生团队多次获得国际和国内赛事奖项。

报告题目：面向高性能计算的软件性能分析与调优技术探索

报告摘要：高性能计算体系结构的复杂性和应用软件计算行为的多样性，导致程序执行过程中产生无法预期的低效行为从而无法获得理想性能。同时，由于科学应用软件往往包含复杂的控制流和数据流逻辑，且代码规模庞大，仅依靠程序员经验进行代码性能分析与调优，时间成本高且能识别的低效行为有限，难以对代码开展高效性能优化，需要依靠性能分析与调优工具协助程序员定位性能瓶颈并指导性能优化，提升应用软件的性能优化效率。本报告首先介绍主流性能分析与调优工具的技术特点与不足，在此基础上，探讨冗余零分析工具、无效计算分析工具、能耗自动调优工具，以及面向细粒度值分析器的跨平台开发框架等一系列工作。通过上述代码性能分析与调优工具，可以帮助程序员快速、准确定位程序低效代码位置，并给出程序低效行为的根因分析，可以有效指导程序性能优化，提升程序执行性能和能效。最后，本报告将对高性能计算软件性能分析与调优技术的未来发展方向及需要解决的关键问题进行展望。

冷静文

上海交通大学

讲者简介：冷静文，上海交通大学电子信息与电气工程学院教授，博士生导师，目前任职院长助理。主要研究方向为面向人工智能的新型计算系统的设计以及性能、能效、可靠性优化，主持和参与了多项自然科学基金以及龙头企业横向项目。在国际一流的会议和期刊上发表了四十多篇论文和相关国内国际专利，获得过DAC, PACT等多个国际会议的最佳论文提名奖，2022年度IEEE体系结构年度最佳论文优胜奖（IEEE Micro Top Picks Hornorable Mention），以及2020阿里巴巴达摩院青橙奖。

报告题目：人工智能框架的组件化扩展设计方法研究

报告摘要：现代的人工智能（AI）领域发展迅速，使得其支撑软件框架需要不断地向更灵活、更高效的方向发展。本次分享将介绍课题组在AI框架的组件化扩展设计方法的研究。首先，为降低AI算子中的计算和存储需求，我们对其进行了横向扩展，引入了三个核心组件，包括低位宽算子组件、稀疏算子组件和近似检索算子组件。为了方便开发者使用这些算子，我们进一步在模型级别做了横向扩展，引入了面向神经网络分析优化的插桩接口组件、低位宽模型加速组件、以及稀疏模型加速组件。除了横向扩展现有框架的能力之外，AI与图计算的融合以及高并发AI计算等场景的出现也使得我们必须对AI框架的能力进行纵向扩展。为此，我们也在算子级和模型级分别扩展了现有AI框架的能力。总之，随着AI的发展，我们需要更加灵活和高效的框架。通过对框架进行组件化扩展，我们不仅可以满足当前的需求，还可以为未来的发展做好准备。这些组件提供了一个平台，使研究者和开发者能够针对特定问题定制和优化其解决方案。

曾平

寒武纪

讲者简介：曾平，寒武纪软件架构师。硕士毕业于中国科学院计算技术研究所，随后在旷视科技负责开源框架megengine的开发和优化工作，2021年加入寒武纪。主要研究领域为高性能计算，负责推理引擎和AI 编译器的设计与开发工作。

陈峋宇

寒武纪

讲者简介：陈峋宇，寒武纪软件架构师。2018年毕业于计算所，随后加入寒武纪，主要负责工具链的设计和开发，在编译优化和AI软件系统设计等方面有着丰富的研究与商业落地经验。负责或参与了多款寒武纪编译器、框架和调试器，发明专利40余篇。

报告题目：AI编译器探索实践

报告摘要：OpenAI Triton，身为专用领域的编程语言与编译器，巧妙地在硬件算子性能和开发效率之间达到了均衡。相较于现有的众多AI编译器，Triton展现出更为简洁与高效的特点。这种独特的特性使它在行业中受到了广泛的欢迎，并已在多个大型开源项目，如Pytorch/XLA中被广泛应用。更为引人注目的是，Triton作为一种与后端硬件无关的编程语言，Triton已成功整合了来自Nvidia、AMD、Intel、Qualcomm、Meta等众多厂商的硬件。

鉴于此，本报告主要深入研究OpenAI Triton在寒武纪硬件上的实战。寒武纪编译器Genesis基于mlir的方言linalg进行开发，我们将深入探讨寒武纪团队如何利用指针分析算法，将基于指针的mlir Triton方言转化为基于Tensor/Memref的mlir Linalg方言，以及其在寒武纪硬件上的特定优化工作。（曾平报告部分）

AI算法的飞速发展对AI的系统也提出了更加高的要求，如何既满足前端表示的通用性又能生成高效的指令成了编译器的难点。这次报告将结合寒武纪编译器Genesis在该方向的探索实践，分享我们如何在编译器上抽象算法，完成从硬件无关的mlir Linalg方言到寒武纪硬件方言的下降，并且在这过程中利用自动调优和指令并行的手段充分的发掘硬件的并行性和指令效率，填补硬件指令和算法之间的鸿沟。（陈峋宇报告部分）

刘颖

中国科学院计算技术研究所

讲者简介：刘颖，博士，中国科学院计算技术研究所高级工程师。从事编译技术研究十余年，在编译系统研制方面具有丰富的技术积累和工程经验。主持研制或作为骨干参与研制了多款国产芯片的编译系统，包括龙芯系列通用处理器、申威系列众核加速器、机载DSP/GPU等。主持研制的国产超算系统OpenCL编译器，其性能超过Nvidia商用编译器37%，已作为系统软件部署在新一代神威超算中。成果发表在ASLPOS、SC、TPDS、PACT等高水平国际期刊和会议上，授权专利10余项。

报告题目：面向国产超算的统一编程语言和优化方法探索

报告摘要：近年来，我国研制了多台高性能计算机，例如神威系列、天河系列、曙光系列，它们搭载异构处理器，提供了强大的算力。这些异构处理器架构各异，为用户提供不同的编程接口，使得上层应用在不同超算之间迁移时，需要耗费大量的精力进行代码重构和性能调优。报告将聚焦主流的通用异构编程语言(例如Sycl、OpenCL等)，探讨它们在高性能应用迁移中的科学问题，并介绍OpenCL编写的第一性原理软件包FHI-aims，在国产新一代神威超算系统和曙光超算系统中的部署和优化经验。

梁云

北京大学

讲者简介：梁云，北京大学长聘副教授，博雅青年学者。获国家自然科学基金委杰出青年基金和北京市杰出青年基金，入选国家高层次青年人才计划，北京市智源学者、IEEE-CCF 青年科学家。主要研究方向为集成电路设计自动化EDA、软硬件协同设计、计算机体系结构，在相关领域的国际顶级会议和期刊DAC、ISCA、MICRO、ICCAD、FPGA等发表论文100余篇, 担任ACM核心期刊 TECS 和TRETS 的副主编，同时也是MICRO, DAC, FPGA 等会议的技术委员会委员。

报告题目：面向AI芯片的分析与编译优化

报告摘要：智能芯片的架构决定芯片的峰值性能，而实际的性能发挥取决于系统软件栈包括编译器、算子库等等。本课题组设计了面向空间架构的智能芯片编译与优化框架Domino, 提出了一系列的编译与优化技术，分别在图、算子、指令层提出高效的分析模型、硬件接口抽象、软件自动调优等技术，适配模型与硬件，提升智能芯片的实测性能。

宋林海

美国宾夕法尼亚州立大学

讲者简介：宋林海，美国宾夕法尼亚州立大学副教授。2015年于美国威斯康星大学麦迪逊分校( University of Wisconsin-Madison)获得博士学位。研究兴趣涉及系统、编程语言、软件工程、安全等多个领域。在研究工作中获得过多个奖项，2022年获得NSF Career Award，2014年获得MICRO Best Paper第二名，2011年获得 ACM SIGPLAN Research Highlights Award。

报告题目：Detecting Concurrency Bugs in Go Software Systems

报告摘要：Go是一种静态类型编程语言，旨在提供一种简单、高效、安全地实现并发程序的方式。为了实现其设计目标，Go建议使用通道（channel）来作为一种不易出错的线程间通信方式，并提供了一些新的并发机制和库来简化多线程编程。自从2009年Go问世以来，Go受到了越来越多的欢迎，并且被应用于构建多种重要的软件基础设施。但不幸的是，Go带来的并发错误，特别是通道误用带来的并发错误，仍然广泛地存在，严重损害了Go软件系统的可靠性。

在本次报告中，我将介绍我们近期在解决Go并发错误方面的研究工作。我们首先用比较消息传递和共享内存并发的方式经验性地研究了 Docker、Kubernetes和gRPC等六个著名开源Go软件中的171个并发错误。在这一研究的启发下，我们构建了一个静态并发错误检测系统GCatch，可以有效识别通道误用导致的阻塞错误。为了避开静态分析的限制，我们进一步设计了一个动态检测系统GFuzz来捕获更多的并发错误。GCatch和GFuzz都从著名的Go软件中找出了数百个此前未发现的并发错误。其中许多被检测到的错误已经根据我们的报告得到修复。

刘伟峰

中国石油大学（北京）

讲者简介：刘伟峰，中国石油大学（北京）教授、博士生导师、欧盟玛丽居里学者，2002年和2006年于中国石油大学（北京）计算机系获学士与硕士学位；2006年至2012年在中国石化石油勘探开发研究院从事高性能地球物理算法研究；2016年于丹麦哥本哈根大学获计算科学博士学位。他的主要研究方向为高性能数值线性代数，其中尤其关注稀疏矩阵的领域专用架构、数据结构、并行与分布式算法和解法器数学软件。他的研究工作发表于SC、PPoPP、ASPLOS、DAC、ICS、IPDPS、ICPP和TPDS等重要国际会议和期刊，获得了SC 2023最佳论文奖、SC 2017最佳论文提名奖和HiPEAC论文奖等奖项。他担任了SC、ICS、IPDPS和ICPP等会议的程序委员会委员和TPDS等期刊的审稿人。他是CCF高性能计算专业委员会委员、IEEE高级会员、CCF高级会员，以及ACM和SIAM会员。

报告题目：现代高性能处理器上的稀疏矩阵计算

报告摘要：稀疏矩阵计算是数值线性代数中的基本操作，也是现代科学与工程计算和深度学习计算中最重要的共性模式之一。在具备GPU张量核、长向量、异构多核等现代架构的高性能处理器上，稀疏矩阵计算往往需要面对存储结构多样、负载不均衡、随机访存效率低、数据局部性差、任务依赖复杂、加速单元利用困难等挑战。随着待处理问题规模的日渐扩大，有效回应这些挑战就显得更为迫切。本次报告将从分析稀疏基础线性代数子程序的计算模式和编程接口入手，讨论如何降低存储稀疏数据的空间成本和实现负载均衡的计算，进而介绍如何利用稀疏分块数据结构减少随机访存和提高数据局部性，继而引入无同步算法避免任务依赖导致的同步开销，并进一步介绍如何利用稠密张量单元加速稀疏计算，最后对面向稀疏矩阵计算的领域专用架构设计进行展望。

姜晶菲

国防科技大学

讲者简介：姜晶菲，博士，研究员，国防科大计算机学院并行与分布处理重点实验室并行计算技术教研室主任。主要从事面向智能计算、科学计算领域的算法定制加速和并行优化技术研究，担任相关大规模智能系统设计项目主任设计师，在基于自主众核CPU、FPmatchGA、智能处理器等平台的机器学习算法应用、并行加速优化和大规模并行智能系统设计中积累了多方面成果，主持或作为技术骨干参与核高基、国家自然科学基金、国防创新特区、十三五预研等项目30余项，共发表论文70余篇，申请专利20余项，获军队科技进步一、二、三等奖各1项，湖南省教学成果特等奖1项，军队院校育才银奖获得者。曾担任计算机精品课主讲教师，英国曼彻斯特大学和加拿大多伦多大学访问学者，湖南省优秀硕士论文指导教师。

报告题目：基于自主计算构架智能计算系统技术

报告摘要：基于自主计算构架的智能计算系统面向以智能应用为核心的综合性任务处理需求，需根据体系结构特点进行系统架构设计、智能算子及算法适配、智能应用支撑环境构建等，解决从单结点适配加速、到大规模结点并行优化、再到智能任务支撑优化的多层次问题，本次分享主要聚焦探讨智能计算系统中软硬协同的定制智能加速器设计、面向体系结构的智能算子优化、大规模并行训练优化及智能算法优化技术等，关注面向深度神经网络算法的软硬协同轻量化及定制加速器体系结构、面向GPDSP体系结构特征的智能算子并行优化、面向大规模并行智能系统的智能应用支撑技术等。