视觉语言大模型加速关键技术探索

编者寄语

视觉语言大模型发展中伴生着训练周期长、推理成本大、部署门槛高等挑战。大模型 “多模态融合” 和 “大规模参数” 的技术特性‌，决定着规模化高度依赖加速技术的支撑。为此，我们聚焦视觉语言大模型加速的最新技术趋势，整合了三大核心方向探索的数字图书馆资源：一是通过软硬件协同加速技术，精准匹配计算需求与硬件资源特性，实现算力的高效调度与利用；二是依托分布式 MOE（混合专家系统）等高效训练计算框架，优化模型训练过程中的参数更新与任务分配逻辑，有效提升训练效率并支持更大规模模型的构建；三是结合面向深度学习的模型压缩和加速技术，在保留核心能力的基础上精简模型结构、降低计算复杂度，为模型的轻量化部署提供关键保障。这三大技术方向相互支撑、协同发力，共同构成推动视觉语言大模型突破性能瓶颈、提升运行效率的核心技术体系。

本期围绕视觉语言大模型的软硬件协同加速、高效训练计算框架、深度学习模型压缩和加速等关键技术，将 CCF 数字图书馆相关报告视频和期刊文章资源进行聚合，方便会员集中观看学习，也为读者深入探索视觉语言大模型加速关键技术的原理、演进与优化方向抛砖引玉。

编委主任：苏金树 CCF会士军事科学院教授

本期主编：闵巍庆 CCF多媒体技术专委秘书长中国科学院计算技术研究所副研究员

本期编委：王茜中国科学院微电子研究所副研究员

视频生成模型是继大语言模型（LLM）后的又一个重要的里程碑。目前主流的视频生成模型基于 Diffusion Transformer（DiT）结构，体现出明显的计算受限特性。然而，由于视频生成模型面临庞大的计算量开销和 DiT结构带来的独特范式，现有的 Transformer 硬件架构仍然无法有效的解决视频生成模型面临的诸多挑战。受到传统视频处理领域的启发，我们提出了针对视频生成的软硬件协同的加速方法 FlightVGM。FlightVGM 通过在线稀疏、混合精度DSP 拓展架构等一系列优化方法，相比峰值算力差距超过 21 倍的 NVIDIA 3090 GPU，实现性能 1.3 倍和能效 4.5 倍的提升。在未来，随着视频生成模型结构和推理计算范式的不断演进，三维堆叠等新型硬件架构具备高带宽和低能耗优势，有望进一步降低推理开销和提升能效。

格式：

视频

深度学习模型压缩与加速综述

高晗、田育龙、许封元、仲盛,

随着训练可用数据量的增长与计算平台处理能力的增强，基于深度学习的智能模型能够完成越来越复杂的任务，其在计算机视觉、自然语言处理等人工智能领域已经取得重大的突破.然而，这些深度模型具有庞大的参数规模，与此相伴的可畏的计算开销与内存需求使其在计算能力受限平台（例如移动嵌入式设备）的部署中遇到了巨大的困难与挑战.因此，如何在不影响深度学习模型性能的情况下进行模型压缩与加速成为研究热点.首先对国内外学者提出的经典深度学习模型压缩与加速方法进行分析，从参数剪枝、参数量化、紧凑网络、知识蒸馏、低秩分解、参数共享和混合方式这7个方面分类总结；其次，总结对比几种主流技术的代表性方法在多个公开模型上的压缩与加速效果；最后，对于模型压缩与加速领域的未来研究方向加以展望。

格式：

文章

基础模型的高效计算框架

韩旭,

最近几年里，拥有百亿、千亿参数的大规模基础模型在各类人工智能任务上取得了显著的性能提升，但其规模庞大的参数在计算与存储上始终困扰着研究人员。本报告着重介绍面向大规模基础模型的高效计算框架及计算加速技术，助力研究人员能够以较低的计算资源进行基础大模型的训练与推理。

格式：

视频

FastMoE:开源大规模分布式MoE训练框架

裘捷中,

MoE已经成为通往超大规模预训练模型的重要工具。报告将回顾 MoE 的发展历史和它在Google的千亿参数模型GShard 和万亿参数模型Switch-Transformer中的应用。并介绍一个我们开发的大规模分布式MoE训练框架FastMoE，着重介绍最新的 FastMoE v0.2的一些新特性。包括（1）全新的负载均衡模块，支持 NoisyGate、GShard、Switch Transformer 等负载均衡策略；（2）同时支持英伟达GPU平台和神威国产超算平台；（3）在神威国产超算上1.75万亿模型训练实战。

格式：

PPT

SparkAttention: high-performance multi-head attention for large models on Volta GPU architecture

Transformers are widely used in various fields such as natural language processing and computer vision. However, the training time for large Transformer models can be challenging due to the Multi-Head Attention (MHA) mechanism. Especially as models become larger, training becomes more costly. So it is crucial to utilize various resources for efficient model training. Currently, NVIDIA Volta GPU is still widely used. However, because the computational shapes supported by Tensor Core Units (TCU) of Volta GPU differ from other GPU architectures, most efforts have not focused on using them to accelerate Transformer training. To address this issue, we propose SparkAttention, an acceleration library designed to speed up MHA training on the Volta GPU. SparkAttention leverages TCU and kernel fusion to reduce the number of high bandwidth memory (HBM) accesses and overhead. Our End-to-End experimental results on an NVIDIA V100 GPU show that SparkAttention achieves on average 1.80 (up to 2.46) speedup compared to using PyTorch.

格式：

文章

深度学习模型压缩与加速

王培松,

深度学习在计算机视觉、自然语音处理等领域取得了令人瞩目的成果。然而，随着深度学习模型性能的提升，其计算复杂度也在不断增加，这就对深度学习模型训练和推理效率提出了挑战，在这种条件下，深度学习模型压缩与加速成为人工智能在更大范围内应用落地的重要一环。本次报告将简要介绍当前模型压缩和加速领域面临的难题，并介绍团队最近几年在模型轻量化压缩与训练加速方向的最新研究进展。

格式：

视频