CCF数图焦点第16期：智能异构系统 |CCF DL Focus On Intelligent Heterogeneous System|

本报告首先介绍计算机体系结构设计方法方面的平衡设计思想，然后结合计算机体系结构发展历程分析数据流计算机体系结构的发展脉络，从数据流计算机起源到CPU、GPU中数据流计算思想的体现，分析定制智能算法加速器的优势，最后展望人工智能算法发展对计算机体系结构的影响。

格式：

视频

超算系统之均衡设计技术

卢宇彤,

信息技术的快速发展和超算技术的飞跃推动着人类社会技术和应用的蓬勃发展，本报告分析超算相关前沿技术及主流应用的特点，探讨下一代系统技术发展趋势，以及不断增长的超算应用新需求给超算体系结构、软件设计所带来的影响，探讨融合应用与系统协同的均衡设计技术和平台软件技术，为我国超算全面支持包括人工智能、大数据在内的多领域应用可持续发展提供有力支撑。并从均衡设计的角度出发探讨女性如何突破发展瓶颈。

格式：

PPT

面向云端智能异构硬件的虚拟化技术

曾书霖，戴国浩，汪玉,

云端智能应用场景的多用户，高并发和动态负载特征引入了两大亟需解决的难题：一方面，当前的数据中心存在空间不均衡和时间不均衡的问题；另一方面，异构硬件平台较差的开发易用性不利于降低开发成本。为了解决上述难题，云端数据中心引入了虚拟化这一项基本技术。本文将对云端智能应用场景下的异构硬件虚拟化技术进行介绍，特别是面向FPGA的多用户虚拟化共享技术和面向ASIC的多用户AI加速器硬件架构设计。

格式：

文章

作为大数据表示的基本方法，张量在图像处理、社交网络、推荐系统等人工智能相关领域领域具有极广泛的应用。张量运算是探寻张量固有内在数据关系的关键。随着人工智能应用的不断深入，用以描述的张量维数或阶数迅速增大，张量运算已成为计算和数据密集型应用，对高性能计算提出了极大的需求和挑战。将针对高维高阶稀疏张量中非零元素的分布特征，设计相应的密度函数，据此探求张量的多维度压缩存储方法，研究新型张量运算异构并行算法，并结合国产异构超算系统的体系结构、面向未来 E级计算，探讨其高效可扩展并行处理技术，并通过推荐系统和高光谱遥感图像处理等人工智能相关应用对其性能进行验证，以最终实现大规模张量的快速运算。

格式：

文章

异构内存计算系统的构造：进展与问题

廖小飞 ,

基于异构内存构造新型混合内存系统，或可提供价廉、低耗、相对高性能的处理环境，是解决大数据处理时效性问题的一个重要方向。报告人简要介绍了国内外研究进展，以及研究团队在结构安排、数据管理以及模拟器等方面的具体工作。

格式：

视频

专题：异构计算系统

异构计算系统

李涛,

异构计算是体系结构发展中提升系统性能的主要方式之一，如何提升系统能效比和编程易用性是非常重要的话题。本期专题对APPT 2019上的特邀报告进行翻译整理，并邀请中科院计算所研究员包云岗就开源芯片敏捷开发进行综述，介绍计算机体系结构的前沿技术及发展趋势。

格式：

文章

异构指令集系统：提升通用计算系统安全性、性能和效率的杠杆

迪安·图尔森(Dean Tullsen),

格式：

文章

后摩尔时代高性能软件开发的挑战

P. (Saday) Sadayappan,

文章详细讲述了大规模集成电路的后摩尔时代编译器和编译技术提高系统性能的方法，尤其针对数据局部性优化这一挑战，描述了数据移动的代价以及利用多面体循环优化和特定域优化来提升编译器性能的方法，并给出了几个编译优化的开放问题。

格式：

文章

存内计算：在数据所在的位置进行计算

奥努尔·穆特卢(Onur Mutlu),

文章详细讲述了一种以数据为中心的节能计算范式——存内计算，从自底向上和自顶向下两个维度给出了对智能内存控制器的需求，并通过代码映射与调度、数据映射与一致性、虚拟内存支持以及数据结构设计等方面探讨了启用存内计算的方法。

格式：

文章

利用非易失性内存构建低延迟可伸缩计算机系统

陈海波,董明凯,

文章详细讲述了利用非易失性内存提升软件系统性能的方法，包括非易失性内存文件系统构建及其与Java 虚拟机的有效结合，并以分布式事务系统构建为例分析了非易失性内存的应用为计算系统带来的性能提升。

格式：

文章

处理器芯片开源设计与敏捷开发方法思考与实践

包云岗,张科,孙凝晖,

文章详细讲述了降低芯片设计门槛的三大需求，给出了构建开源芯片生态的四个要素以及他们目前的研究进展，对于打造芯片敏捷开发平台、破解中国半导体产业面临的“卡脖子”问题具有重要的参考价值。

格式：

文章

Versal: The Xilinx Adaptive Compute Acceleration Platforms (ACAP)

Kees Vissers,

In this presentation I will present the Xilinx Versal Platform. I will show the overall system architecture of the family of devices including the Arm cores (scalar engines), the programmable logic (Adaptable Engines) and the new vector processor cores (AI engines). I will focus on the new AI engines in more detail and I will show some application domains, including Machine Learning and 5G wireless applications. The first device in this family contains 400 of these vector processor cores. These complete devices are supported by an integrated programming environment. The commercial application in 5G processing is showing promising results.

格式：

视频

计算框架在异构环境下的效能探索

崔慧敏,

针对多种类的异构芯片给应用开发所带来的编程效率、执行效率的挑战，我们分享一些在异构环境下效能探索的研究。主要包括三个部分：1）针对计算芯片的异构性，以手机端 AI 框架为例，研究任务在计算芯片上的自动优化部署；2）针对数据对象的异构性，以 TensorFlow 中的张量对象为例，研究其在不同芯片上执行时数据布局的自动确定；3）针对存储的异构性，以 Spark 为例，研究软件栈中垂直协同的资源管理方法。

格式：

视频 PPT

阿里巴巴EFLOPS集群系统：大规模AI实践孵化的算力基础设施

曹政,董建波,金铃铃,

AI应用负载特征决定了智能计算系统的设计，本文在分析阿里巴巴稠密型和稀疏型大规模AI应用的基础上，给出了阿里巴巴自研EFLOPS智能计算集群的设计和评测。

格式：

文章

针对神经网络高效部署的软硬件协同优化

宁雪妃，曾书霖，汪玉,

近年来，学术界和工业界使用软硬件协同优化的方式加速神经网络应用并降低其能耗，使得它们可以被部署到手机、平板、摄像头上。从硬件架构设计层面，人们基于各种硬件平台设计专门的数据流和存储架构来实现专用于神经网络应用的加速器。从算法设计层面，人们针对硬件平台设计高效的神经网络运算单元，并提出多种神经网络压缩、定点、结构搜索等算法来减少神经网络算法的计算量。

格式：

文章

计算存储一体化智能芯片

李双辰，谢源,

当今深度神经网络的飞速发展很大程度上归功于计算机系统计算能力的提升。同时，深度学习算法的发展趋势以及应用的驱动，使得其对系统计算能力的要求在不断提高。这种需求不仅仅体现在对计算速度性能的要求上，同时对存储系统性能也有着很高的要求。然而，经过对计算机系统发展现状的量化分析，我们发现，在计算能力迅猛发展的同时，存储系统无论是在带宽、速度，还是容量等性能指标上，都相对落后。更重要的是，非理想存储系统消耗的能量（即数据搬移代价）远高于实际的计算耗能。因此，无论是从性能还是从能耗上来讲，存储系统都成为了为深度学习设计的计算系统的瓶颈。

格式：

文章

基于RISC-V的前沿研究与开源芯片设计思考

包云岗,

开放指令集RISC-V 受到越来越多的关注。本报告将介绍团队过去几年基于RISC-V 开放开源平台开展的标签化冯诺依曼体系结构LvNA（Labeled von Neumann Architecture）研究，并研制了基于Labeled RISC-V 的8 节点FPGA 原型系统“ 火苗I”。目前已有国内外多家研究机构基于LvNA 开展研究工作；并与航天部门、手机芯片厂商开展合作，推动LvNA 在产业界的应用；该工作也被受邀为2018年ARM 全球研究峰会的三个大会主旨报告之一。最后报告人将与大家分享团队在开源芯片设计与敏捷芯片开发方面的一些体会与思考。

格式：

视频