光刻系统将逐步达到原子尺度,需要新的备选技术来提供更快、更可预见和更廉价的计算性能。如果摩尔定律真的要终止,就应该有一个研究计划,去评估创新的半导体技术的可行性,并应对后续的挑战。
Chiplet 做为变革性技术将极大影响集成电路行业生态,本报告将针对产品需求与行业技术 限制所引发的 Chiplet 路线与异质集成路线的异同进行讨论,同时结合先进封装的关键成套技术手段, 包括有机载板封装、2.5D/3D TSV 封装、Fanout 封装、新型异质功能性封装等对 Chiplet 形成核心支撑 的集成封装制造技术的现状进行讨论,并对集成封装技术与 Chiplet 产品的进一步发展做出展望。
介绍了 Chiplet 的典型的应用场景,如 Scale SoC, Split SoC 和异构计算等,以及与之适配的 Synopsys DesignWare PHY IP solution,重点说明了 PHY IP 的技术指标对这些系统应用的意义。同时, 简要介绍了 PHY IP 的结构,完整的 Chiplet 设计流程和测试方案。
Chiplet被认为是后摩尔时代继续提升芯片规模和密度的重要技术。其化整为零的理念对于架构、互联、封装都带来了新的机遇和挑战。Intel、AMD、镁光等芯片厂商及DARPA等组织均针对该方向布局和提供了重要技术支撑。 本论坛拟要求从事相关领域研究和产品开发的专家,从芯片设计的架构设计、物理设计、封装等个流程,围绕“片上超算”这一设想,探讨Chiplet能为芯片设计带来哪些变革性技术。
如今市场上的AI芯片层出不穷,无论是初创公司还是科技巨头,都在不断地推出AI芯片,这只能证明AI芯片的制造门槛之低。而老一代芯片巨头公司(如英伟达(NVIDIA)、英特尔(Intel)、赛灵思(Xilinx)、谷歌(Google)、高通(Qualcomm)、华为等)对这些层出不穷的AI芯片基本不予置评,因为他们知道,AI芯片取胜的关键不是芯片本身,而是芯片以外的封装,这正是老一代巨头们擅长的。所谓的AI芯片,技术核心就是乘和累加MAC矩阵,研发难度并不高,像特斯拉和阿里这样的厂家都能在短时间内“拼凑”出所谓的AI芯片。
针对测试环节在三维(3D)芯片制造过程中成本过高的问题,提出一种基于时分复用(TDM)的协同优化各层之间、层与核之间测试资源的调度方法。首先,在3D芯片各层配置移位寄存器,通过移位寄存器组对输入数据的控制,实现对各层之间以及同一层的各个芯核之间的测试频率的合理划分,使位于不同位置的芯核能够被并行测试;其次,使用贪心算法优化寄存器的分配,减少芯核并行测试的空闲周期;最后,采用离散二进制粒子群优化(DBPSO)算法求出最优3D堆叠的布图,以便充分利用硅通孔(TSV)的传输潜力,提高并行测试效率,减少测试时间。实验结果表明,在功耗约束下,优化后整个测试访问机制(TAM)利用率平均上升16.28%,而3D堆叠的测试时间平均下降13.98%。所提方法减少了测试时间,降低了测试成本。
针对在非全互连三维片上网络(3D NoC)架构中的硅通孔(TSV)表只存储TSV地址信息,导致网络拥塞的问题,提出了记录表结构。该表不仅可以存储距离路由器最近的4个TSV地址,也可存储相应路由器输入缓存的占用和故障信息。在此基础上,又提出最短传输路径的自适应单播路由算法。首先,计算当前节点与目的节点的坐标确定数据包的传输方式;其次,检测传输路径是否故障,同时获取端口缓存占用信息;最后,确定最佳的传输端口,传输数据包到邻近路由器。两种网络规模下的实验结果表明,与Elevator-First算法相比,所提算法在平均延时和吞吐率性能指标上有明显的优势,且在网络故障率为50%时,Random和Shuffle流量模型下的丢包率分别为25.5%和29.5%。
脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构。在深亚微米工艺下,通过增大阵列规模来提升芯片计算性能,会导致频率下降、功耗剧增等问题。因此,结合3D集成电路技术,提出了一种将平面脉动阵列结构映射到3D集成电路上的双精度浮点矩阵乘加速结构3D-MMA。首先,设计了针对该结构的分块映射调度算法,提升矩阵乘计算效率;其次,提出了基于3D-MMA的加速系统,构建了3D-MMA的性能模型,并对其设计空间进行探索;最后,评估了该结构实现代价,并同已有先进加速器进行对比分析。实验结果表明,访存带宽为160 GB/s时,采用4层16×16脉动阵列的堆叠结构时,3D-MMA计算峰值性能达3 TFLOPS,效率达99%,且实现代价小于二维实现。在相同工艺下,同线性阵列加速器及K40 GPU相比,3D-MMA的性能是后者的1.36及1.92倍,而面积远小于后者。探索了3D集成电路在高性能矩阵乘加速器设计中的优势,对未来进一步提升高性能计算平台性能具有一定的参考价值。
三维片上网络(3D NoC)被认为是提高多核处理系统性能的一种方式。对于3D NoC的设计,如何将给定应用特征图(APCG)上的IP核适当地分配到3D NoC架构中是IP核映射的关键问题。一种优秀的映射算法及一次合理的映射可以大幅改善片上网络的通信功耗、发热、延时等指标。大爆炸算法(BB-BC)是一种新型的元启发式群体智能优化算法;混合混沌大爆炸(HCBB-BC)算法是在大爆炸算法基础上进行改进的一种算法,它具有参数简单、收敛速度快等优点。文中提出将混合混沌大爆炸算法用于解决三维片上网络映射问题,这是首次用大爆炸算法的相关算法来解决3D NoC映射问题。仿真实验结果证明,与现有的3D NoC映射算法相比,所提方法可以用更少的迭代次数和时间来找到更好的解决方案,同时有效地降低3D NoC的映射功耗。在经典任务图映射条件下,混合混沌大爆炸算法与遗传算法(GA)相比,收敛速度提高了36.73%,与粒子群算法(PSO)相比,收敛速度提高了22.45%;同时,混合混沌大爆炸算法的平均功耗比遗传算法的平均功耗的最大值低5.75%,并且比粒子群算法的平均功耗的最大值低3.90%。在随机任务图映射条件下,混合混沌大爆炸算法仍然能够保持稳定的功耗优化效率和更快的收敛速度。
中航工业第六三一研究所研究员
飞腾信息技术有限公司研究员
中科院计算所研究员
中船重工七〇九所研究员
国防科学技术大学研究员