报告主要探讨了多媒体技术与人工智能的相互影响。报告指出,多媒体数据的爆炸式增长推动了人工智能在可解释性、多模态推理和智能生成等方面的发展,而人工智能技术又为多媒体内容的分析、检索和生成提供了新方法。该报告强调了两者协同发展的良性循环,并展望了多媒体智能在跨学科应用中的广阔前景。
随着大模型技术的持续突破,生成式人工智能展现了强大的生成能力。报告主要介绍团队在生成式人工智能方向上的持续探索成果,并在智能终端和智慧安防等多场景下所取得的若干研究成果;同时和物质科学深度融合,辅助合成新材料,为生成式AI提供新数据,从而实现人机协同研究,加速科研裂变;最后将相关成果应用于智慧医疗场景,为各科室的智能诊疗提供强力支撑。
视频内容理解是多媒体领域的核心研究方向,涵盖从低层次的对象识别到高层次的事件推理等多维度任务。报告探索了视频内容理解的关键技术和应用场景,重点关注动作识别、事件检测、目标检测、目标分割以及长视频理解等领域的最新进展。通过对这些任务的系统性分析,探讨多模态数据融合、时空特征建模、基于大模型的预训练策略等创新方法如何提升视频内容的理解能力。
多模态大模型打开通用人工智能大门,也影响了计算机视觉研究范式。报告介绍了团队在构建多模态大模型、提升多模态大模型空间位置指代理解能力、视觉编码器紧致性和预训练效率等方面的近期工作。同时探讨了多模态模型在开放场景行人姿态感知、换衣行人重识别、开集目标识别等视觉任务中的应用。
正如电影曾经历无声到有声,AI领域探索视觉生成技术的同时,也对声音生成不断提出更多的需求:如何能生成有丰富情感色彩的对白,甚至掌握脱口秀的节奏?如何让译制片的翻译不仅考虑意义,还能对上口型?如何为无声视频配上音效,不仅相关还可以卡点?报告介绍了声音合成、译制片配音和为视频生成音效方面的最新成果,并探讨了视频与音频联合生成的可能。
近些年,扩散模型在生成式建模任务中取得了巨大成功。在基于二维图像的扩散模型启发下,许多研究开始关注高维流形结构的扩散模型。流形信号位于非欧式空间,为了实现精准生成与重建,需要同时考虑原始数据的概率分布以及流形信号的几何特征与拓扑结构。报告从几何学和深度学习的角度,介绍了流形信号生成的最新进展,并进一步探讨了在扩散模型中引入Ricci曲率流,学习流形信号内蕴几何特征的可能性。