自从第一台电子计算机问世以来,大约65年过去了。前三代计算机已经成为过去,而以多核通用微处理器为主的第四代计算机正处于衰败期。摩尔定律的放缓和丹尼德缩放的终结,使通用微处理器40年的统治走向终结。为什么底层技术的这些变化无法克服?我们如何设计计算机来提高性能,特别是对于像机器学习这样计算要求很高的任务?
从硬件和芯片发展历程,讲解了为什么要做深度学习加速器的研究与产业化。从而引出提高芯片能量效率的三种方式:尺寸微缩、硬件加速、新器件新计算模式,并简述了人工智能芯片的发展趋势。在通用CPU芯片方面,我们与国际先进技术差距较大,不过他统计现在几乎所有的系统厂商都在做自己的人工智能芯片,在这一领域我们与世界先进技术差距较小。
机器人处理器是一个全新的芯片种类,他需要支持机器人应用所涉及到的主要功能的加速。 机器人处理信息的流程,可以抽象为感知 - 判定 - 决策 - 行动四个步骤,我们提出了 Dadu、Dadu-P、 77 Dadu-CD 等多种异构并行架构,加速机器人上运行的核心处理步骤,并在国际上率先研制了 Dadu 系 列机器人处理器芯片,实现了核心算法的加速。并探索使用芯粒集成的方法,快速扩展芯片功能,降 低芯片设计周期和制造成本。
微处理器体系结构是CPU生态的关键技术,针对特定体系结构进行软件优化体现了体系结构平衡设计的核心思想,是体系结构研究的一个重要方面。本报告将重点围绕智能算法,介绍单核处理器优化,多核处理器并行优化技术,存储优化等技术,通过具体案例展现软件优化提升性能的潜力。最后,讨论软件并行优化面临的问题和挑战。
随着人工智能在各个应用领域上的快速普及以及大规模计算系统的大发展,公众需要一个简单有效的指标来帮助判断系统的人工智能算力。传统的高性能计算机评测方法和体系与当前人工智能需求的性能并不完全一致,而目前的人工智能基准程序又不足以支持上千加速卡级别大规模计算系统的评测。针对以上问题,本团队提出AIPerf,一种基于自动学习的可变规模人工智能基准评测程序。第一届AIPerf榜单已经于第二届中国超级算力大会ChinaSC2020上公布,目前已经支持至少四千加速卡级别的大规模计算系统的人工智能算力有效评测。
此资料来自YEF2021大会论坛“青科看未来——计算机体系结构的新黄金时代”视频(45分21秒起)。本论坛邀请了中国计算机学会历届青年科学家奖从事相关领域的获得者进行研讨。讨论如何设计新一代的处理器体系结构、如何高效发挥底层系统算力、改进智能计算系统的框架,以及提升人工智能应用的持续性能等话题,并畅想未来人工智能应用对计算机体系结构会带来哪些新的挑战和需求。
CCF体系结构专委主任中科院计算技术研究所
国防科技大学
深圳大学
按姓氏拼音排序
中科院计算技术研究所
上海交通大学
国防科技大学
中国科技大学