本期摘要

智能芯片是智能时代的核心物质载体。智能芯片针对人工智能算法,特别是深度学习算法,进行结构、器件、电路上的定制设计和优化,从而提供更高的性能和效率。从2014起,中科院计算所陈云霁研究团队陆续在计算机体系结构领域顶级会议ASPLOS、MICRO、ISCA上发表智能芯片相关论文,并获得了最佳论文奖,极大地推动了国际学术界和产业界对智能芯片的研究热情。从此,智能芯片蓬勃发展,各种结构百花齐放。

CCF体系结构专委会整合CCF数字图书馆的内容,推出本次《人工智能芯片》专题。本次专题面向人工智能发展趋势和挑战,组织了10篇文章/视频/PPT,从人工智能芯片的横向发展和纵向发展两个视角对人工智能芯片进行梳理介绍。在横向上,本次专题涵盖了深度学习处理器芯片、类脑计算芯片、机器人智能芯片,既包括学术研究,也包括产业界实际芯片产品;在纵向上,本专题涵盖了深度学习处理器架构过去与最新的研究进展,包括图神经网络、神经网络压缩技术、软硬件协同技术等。本专题希望通过在横向视角和纵向视角上对智能芯片的梳理介绍,继续推动智能芯片的深入研究。

目录

资料格式

ADL Online 02-深度学习处理器

深度学习是最重要的人工智能方法之一。然而传统的CPU和GPU芯片在进行深度学习处理时遇到了严重的性能和能耗瓶颈。为此,我们设计了国际上首个深度学习指令集,和Inria合作设计了国际上首个深度学习专用处理器架构。今天,深度学习处理器已经成为国际学术界和产业界关注的热点。数以亿计的深度学习处理器已经应用在各种智能手机、智能摄像头、智能服务器中。我们在报告中将介绍深度学习处理器的研究背景、研究历史、主要技术挑战和应对策略。

格式:
专辑
智能芯片的软硬件协同设计

芯片的体系架构决定了计算能力的峰值,而实际的性能发挥取决于基础软件包括算子库和编译。不论是芯片的硬件设计还是软件开发都面临开发周期长,门槛高的问题。本课题组提出软硬一体的智能芯片设计与优化方法,通过高层次的抽象,自动化工具,高效的算法,自动生成芯片的硬件架构和软件算子库, 降低芯片的软硬件开发门槛。

格式:
视频
大度:机器人智能芯片

未来的机器人将具有高度感知能力、认知能力、灵敏的运动能力,而这些都需要新的计算引擎以提供计算能力支持。目前基于通用嵌入式处理器或可编程逻辑控制器的计算系统,不能满足性能需求。我们希望能研发新的适合机器人领域的核心芯片,为未来智能机器人提供智能和运动能力。本报告将首先分析机器人中应用负载的特征,然后介绍我们在机器人智能处理器初步成果Dadu,它是一个双核异构计算架构,包含了一个智能核,集成嵌入式神经网络加速器,以提供听觉、视觉等感知能力;一个运动核,集成运动控制加速器,以提供敏捷的运动能力,希望能为未来机器人提供计算“大脑”。

格式:
视频
昆仑AI芯片的架构,实现和应用

昆仑芯 AI 芯片是通用型人工智能处理器,目前已经量产了 14nm 的昆仑 1和7nm 的昆仑 2。昆仑 1 在互联网,工业,政企等行业部署超过两万片。昆仑芯片有面向通用 AI 计算的架构,灵活易编程的软件栈,丰富的场景应用案例。该报告将介绍其技术,产品和应用场景。

格式:
视频
图神经网络加速芯片:人工智能“认知智能”阶段起飞的推进剂

机器人处理器是一个全新的芯片种类,他需要支持机器人应用所涉及到的主要功能的加速。 机器人处理信息的流程,可以抽象为感知 - 判定 - 决策 - 行动四个步骤,我们提出了 Dadu、Dadu-P、 77 Dadu-CD 等多种异构并行架构,加速机器人上运行的核心处理步骤,并在国际上率先研制了 Dadu 系 列机器人处理器芯片,实现了核心算法的加速。并探索使用芯粒集成的方法,快速扩展芯片功能,降 低芯片设计周期和制造成本。

格式:
文章
深度神经网络专用架构与压缩技术演进

随着人工智能在各个应用领域上的快速普及以及大规模计算系统的大发展,公众需要一个简单有效的指标来帮助判断系统的人工智能算力。传统的高性能计算机评测方法和体系与当前人工智能需求的性能并不完全一致,而目前的人工智能基准程序又不足以支持上千加速卡级别大规模计算系统的评测。针对以上问题,本团队提出AIPerf,一种基于自动学习的可变规模人工智能基准评测程序。第一届AIPerf榜单已经于第二届中国超级算力大会ChinaSC2020上公布,目前已经支持至少四千加速卡级别的大规模计算系统的人工智能算力有效评测。

格式:
文章
移动智能芯片

本文纵览了移动智能芯片的发展历程。与2018年相比,当今移动智能芯片的产业现状已经发生了深刻改变:市场上移动智能芯片开始普及,理论性能满足需求,应用程序开发生态也日臻成熟。但是,目前移动智能芯片的发展也存在一些问题有待解决,包括软硬件接口生态的碎片化、通用性不足、调用开销大等问题,本文对未来的发展提出了展望。

格式:
文章
基于神经形态硬件的超速视觉

我们研制的仿视网膜超速全时视觉芯片脉冲发放频率达到万赫兹,“超速“人眼百倍,能够“看清“高速旋转叶片的文字。“全时 ” 是指从芯片 采集的神经脉冲序列中重构出任意时刻的画面,改写了视频的概念。提出了基于脉冲神经网络的高速目标栓测跟踪识别模型,通过专用神经形态电路能够实现实时处理,是实现真正机器视觉的基础,为无人驾驶、机 器人、视频监控等领域带来重大变革。

格式:
视频 PPT
神经形态计算芯片与系统

神经形态计算的算法模型种类众多。从数据的表现形式上,这些模型可以大致分为人工神经网络(Artificial Neural Network, ANN)、脉冲神经网络(Spiking Neural Network, SNN),以及其他延伸出的具有特殊数据处理功能的模型。突触与神经元是神经形态算法的两类基本单元,分别负责信息处理和特征提取。相对突触来说,神经元模型的种类更多,而且都具有一定的非线性特征,例如McCulloch-Pitts, Sigmod, ReLU以及integrate-and-fire等。这既是特征提取的需要,也是神经网络训练的需要。 神经形态计算的硬件实现形式也非常多样。基于计算形式可以大致分为模拟、数字和混合信号三种。其中模拟计算方式广泛应用于生物启发计算模型,并常常和近似计算(approximate computing)与低功耗设计联系在一起。神经形态计算的数字电路主要包括现场可编程式门阵列(FPGA)和专用集成电路(ASIC)两种。混合信号神经形态计算系统则希望同时利用模拟电路的低功耗与数字电路的高精度特性,比如在计算中采用模拟形式而在通讯中采用数字或者脉冲编码形式。除了传统互补金属氧化物半导体(CMOS)技术外,一些新型纳米器件,诸如忆阻器(memristor)也被引入神经形态计算系统设计以提高计算效率。

格式:
文章
神经形态计算芯片

我们研制的仿视网膜超速全时视觉芯片脉冲发放频率达到万赫兹,“超速“人眼百倍,能够“看清“高速旋转叶片的文字。“全时 ” 是指从芯片 采集的神经脉冲序列中重构出任意时刻的画面,改写了视频的概念。提出了基于脉冲神经网络的高速目标栓测跟踪识别模型,通过专用神经形态电路能够实现实时处理,是实现真正机器视觉的基础,为无人驾驶、机 器人、视频监控等领域带来重大变革。

格式:
视频 PPT

往期回顾

本期编委成员

武成岗

CCF体系结构专委主任
中科院计算技术研究所

沈立

国防科技大学

王毅

深圳大学

杜子东

中科院计算技术研究所

按姓氏拼音排序

冷静文

上海交通大学

马胜

国防科技大学

王超

中国科技大学