视频生成模型是继大语言模型(LLM)后的又一个重要的里程碑。目前主流的视频生成模型基于 Diffusion Transformer(DiT)结构,体现出明显的计算受限特性。然而,由于视频生成模型面临庞大的计算量开销和 DiT结构带来的独特范式,现有的 Transformer 硬件架构仍然无法有效的解决视频生成模型面临的诸多挑战。受到传统视频处理领域的启发,我们提出了针对视频生成的软硬件协同的加速方法 FlightVGM。FlightVGM 通过在线稀疏、混合精度DSP 拓展架构等一系列优化方法,相比峰值算力差距超过 21 倍的 NVIDIA 3090 GPU,实现性能 1.3 倍和能效 4.5 倍的提升。在未来,随着视频生成模型结构和推理计算范式的不断演进,三维堆叠等新型硬件架构具备高带宽和低能耗优势,有望进一步降低推理开销和提升能效。
随着训练可用数据量的增长与计算平台处理能力的增强,基于深度学习的智能模型能够完成越来越复杂的任务,其在计算机视觉、自然语言处理等人工智能领域已经取得重大的突破.然而,这些深度模型具有庞大的参数规模,与此相伴的可畏的计算开销与内存需求使其在计算能力受限平台(例如移动嵌入式设备)的部署中遇到了巨大的困难与挑战.因此,如何在不影响深度学习模型性能的情况下进行模型压缩与加速成为研究热点.首先对国内外学者提出的经典深度学习模型压缩与加速方法进行分析,从参数剪枝、参数量化、紧凑网络、知识蒸馏、低秩分解、参数共享和混合方式这7个方面分类总结;其次,总结对比几种主流技术的代表性方法在多个公开模型上的压缩与加速效果;最后,对于模型压缩与加速领域的未来研究方向加以展望。
最近几年里,拥有百亿、千亿参数的大规模基础模型在各类人工智能任务上取得了显著的性能提升,但其规模庞大的参数在计算与存储上始终困扰着研究人员。本报告着重介绍面向大规模基础模型的高效计算框架及计算加速技术,助力研究人员能够以较低的计算资源进行基础大模型的训练与推理。
MoE已经成为通往超大规模预训练模型的重要工具。报告将回顾 MoE 的发展历史和它在Google的千亿参数模型GShard 和万亿参数模型Switch-Transformer中的应用。并介绍一个我们开发的大规模分布式MoE训练框架FastMoE,着重介绍最新的 FastMoE v0.2的一些新特性。包括(1)全新的负载均衡模块,支持 NoisyGate、GShard、Switch Transformer 等负载均衡策略;(2)同时支持英伟达GPU平台和神威国产超算平台;(3)在神威国产超算上1.75万亿模型训练实战。
Transformers are widely used in various fields such as natural language processing and computer vision. However, the training time for large Transformer models can be challenging due to the Multi-Head Attention (MHA) mechanism. Especially as models become larger, training becomes more costly. So it is crucial to utilize various resources for efficient model training. Currently, NVIDIA Volta GPU is still widely used. However, because the computational shapes supported by Tensor Core Units (TCU) of Volta GPU differ from other GPU architectures, most efforts have not focused on using them to accelerate Transformer training. To address this issue, we propose SparkAttention, an acceleration library designed to speed up MHA training on the Volta GPU. SparkAttention leverages TCU and kernel fusion to reduce the number of high bandwidth memory (HBM) accesses and overhead. Our End-to-End experimental results on an NVIDIA V100 GPU show that SparkAttention achieves on average 1.80 (up to 2.46) speedup compared to using PyTorch.
深度学习在计算机视觉、自然语音处理等领域取得了令人瞩目的成果。然而,随着深度学习模型性能的提升,其计算复杂度也在不断增加,这就对深度学习模型训练和推理效率提出了挑战,在这种条件下,深度学习模型压缩与加速成为人工智能在更大范围内应用落地的重要一环。本次报告将简要介绍当前模型压缩和加速领域面临的难题,并介绍团队最近几年在模型轻量化压缩与训练加速方向的最新研究进展。