多媒体智能中的视觉感知、理解与生成

编者寄语

视觉感知、视觉理解与视觉生成技术是人工智能技术的重要分支，已成为产业升级的重要驱动力。工业检测、智慧医疗、自动驾驶等领域对动态环境下，视觉深度感知、视频深度理解、AI生成内容的需求持续攀升，推动多媒体智能技术向规模化应用加速演进。然而，开放世界的动态复杂性、生成内容的可控性缺失、多模态协同的技术瓶颈等问题，制约了智能系统的鲁棒性、可靠性与跨模态一致性。

在CNCC2025大会前夕，数图CNCC特辑从多媒体智能出发，以“感知-理解-生成”为主线，聚焦在计算机视觉和多媒体领域的创新实践。内容涵盖多媒体与人工智能的融合探索、开放场景视觉感知中的多模态建模、生成式人工智能的多领域创新应用，希望为研究者提供跨领域的技术启发和未来研究方向的参考。

编委主任：苏金树 CCF会士军事科学院教授

本期主编：闵巍庆 CCF多媒体技术专委会秘书长中国科学院计算技术研究所副研究员

王瑞平 CCF计算机视觉专委会秘书长中国科学院计算技术研究所研究员

余璐 CCF多媒体技术专委会执行委员天津理工大学副教授

报告主要探讨了多媒体技术与人工智能的相互影响。报告指出，多媒体数据的爆炸式增长推动了人工智能在可解释性、多模态推理和智能生成等方面的发展，而人工智能技术又为多媒体内容的分析、检索和生成提供了新方法。该报告强调了两者协同发展的良性循环，并展望了多媒体智能在跨学科应用中的广阔前景。

格式：

视频

生成式人工智能及其多学科交叉融合应用

颜波,

随着大模型技术的持续突破，生成式人工智能展现了强大的生成能力。报告主要介绍团队在生成式人工智能方向上的持续探索成果，并在智能终端和智慧安防等多场景下所取得的若干研究成果；同时和物质科学深度融合，辅助合成新材料，为生成式AI提供新数据，从而实现人机协同研究，加速科研裂变；最后将相关成果应用于智慧医疗场景，为各科室的智能诊疗提供强力支撑。

格式：

视频

视频内容理解的多维探索

常晓军,

视频内容理解是多媒体领域的核心研究方向，涵盖从低层次的对象识别到高层次的事件推理等多维度任务。报告探索了视频内容理解的关键技术和应用场景，重点关注动作识别、事件检测、目标检测、目标分割以及长视频理解等领域的最新进展。通过对这些任务的系统性分析，探讨多模态数据融合、时空特征建模、基于大模型的预训练策略等创新方法如何提升视频内容的理解能力。

格式：

视频

基于多模态模型的开放场景视觉感知

张史梁,

多模态大模型打开通用人工智能大门，也影响了计算机视觉研究范式。报告介绍了团队在构建多模态大模型、提升多模态大模型空间位置指代理解能力、视觉编码器紧致性和预训练效率等方面的近期工作。同时探讨了多模态模型在开放场景行人姿态感知、换衣行人重识别、开集目标识别等视觉任务中的应用。

格式：

视频

从无声到有声：AI如何为影视增色

宋睿华,

正如电影曾经历无声到有声，AI领域探索视觉生成技术的同时，也对声音生成不断提出更多的需求：如何能生成有丰富情感色彩的对白，甚至掌握脱口秀的节奏？如何让译制片的翻译不仅考虑意义，还能对上口型？如何为无声视频配上音效，不仅相关还可以卡点？报告介绍了声音合成、译制片配音和为视频生成音效方面的最新成果，并探讨了视频与音频联合生成的可能。

格式：

视频

基于几何深度学习的黎曼流形生成

邹君妮,

近些年，扩散模型在生成式建模任务中取得了巨大成功。在基于二维图像的扩散模型启发下，许多研究开始关注高维流形结构的扩散模型。流形信号位于非欧式空间，为了实现精准生成与重建，需要同时考虑原始数据的概率分布以及流形信号的几何特征与拓扑结构。报告从几何学和深度学习的角度，介绍了流形信号生成的最新进展，并进一步探讨了在扩散模型中引入Ricci曲率流，学习流形信号内蕴几何特征的可能性。

格式：

视频