CCF广东工业大学学生分会举办 “Enabling Efficient Fine-Grained Synchronization with Relaxed Memory Consistency on GPGPUs through In-Cache Atomic Operations”学术讲座
CCF广东工业大学学生分会于2025年12月8日(周一)晚上成功举办了主题为“Enabling Efficient Fine-Grained Synchronization with Relaxed Memory Consistency on GPGPUs through In-Cache Atomic Operations”的学术讲座。本次学术讲座的报告人是张奕聪老师。张老师是广东工业大学“青年百人计划”引进人才,毕业于中山大学微电子科学与技术学院,获得工学博士学位。张老师长期致力于GPGPU存储系统优化、新型GPGPU架构以及面向访存密集型与计算密集型混合智能计算范式等前沿领域的研究,在IEEE/ACM MICRO、IEEE TVLSI、ICCD等国际知名期刊与会议发表学术论文十余篇。并且,还作为骨干成员参与了国家自然科学基金重点项目、国家JG重点专项、集成芯片前沿技术科学基础重大研究计划培育项目等多项国家级与省级重点项目。
本次讲座中,张奕聪老师首先以“GPU的发展演变历程”为切入点,系统回顾了图形处理器从早期的图形渲染设备向通用计算平台(GPGPU)转型的过程。他指出,随着AI计算时代的到来,GPGPU凭借其海量的算力和灵活的编程模型,已成为满足人工智能迫切计算需求的核心芯片形式。
随后,张老师深入分析了当前GPGPU架构面临的挑战。他指出,随着深度神经网络和图分析等通用计算任务的普及,应用对同步的需求已从过去的粗粒度同步转变为细粒度同步。然而,这种细粒度同步需求导致了巨大的性能开销,尤其是在RISC-V GPGPU平台的量化测试中,同步周期成为了极昂贵的瓶颈。
张老师进一步从底层物理层面剖析了这一瓶颈的根源——冯·诺依曼架构固有的能效限制。他通过直观的数据对比展示了数据移动的高昂代价:传输两个浮点数的能耗比执行一次单精度浮点运算高出两个数量级。计算单元频繁访问内存,使得访存主导了处理器的整体延迟和能耗,严重限制了能效。
针对上述难题,张奕聪老师重点介绍了一种名为“Atomic Cache”的软硬件协同设计方案。该方案旨在通过SRAM缓存内计算(In-Cache Computing)来减少细粒度同步的开销。在软件层面,他提出了一种基于原子缓存的宽松存储一致性模型(AC-RMC),放宽了严格的顺序一致性要求以避免内存屏障的性能惩罚。在硬件层面,他展示了原位存储原子缓存电路(In-Situ Store Atomic Cache circuit)的设计,实现了在缓存阵列内直接进行原子操作。
在硬件实现的细节上,张老师展示了核心的8T SRAM阵列结构与进位计算逻辑(CCL)。这种设计巧妙地在存储单元旁集成了计算能力,能够产生进位和比较信号,从而支持在SRAM阵列内部高效执行算术与逻辑原子操作,有效缓解了因数据频繁移动带来的冯·诺依曼瓶颈。
讲座最后,张奕聪老师与在场的同学们进行了深入的互动交流,耐心解答了关于存内计算技术细节及未来GPGPU架构发展趋势的提问。本次讲座不仅让同学们对处理器芯片架构领域的核心关键技术有了更深刻的理解,也为大家展示了软硬件协同设计在解决计算瓶颈方面的巨大潜力。
返回首页









