编者寄语

跨模态生成技术通过学习与融合图像、文本、音视频等多种模态数据,实现复杂的跨模态内容生成。该技术不仅在艺术创作、广告设计、影视制作等领域,展现出广阔的应用前景,也在教育、医疗、娱乐等行业中得到创新应用。近期,DeepSeek推出全模态大模型Janus-Pro,支持多对象动态合成及跨模态时序对齐等进阶能力,引发业界关注。然而,跨模态生成技术仍在细粒度跨模态对齐、动态场景的物理仿真及参数效率与推理速度的平衡等方面面临挑战。

本期围绕跨模态生成技术的大模型预训练、模态对齐、模型优化等关键技术,以及在虚拟内容生成、智能创作辅助等领域的应用,聚合了CCF数字图书馆的相关报告视频和期刊文章资源,方便会员集中观看学习,同时也为读者探索跨模态生成技术的前沿技术提供启发。


编委主任:苏金树 CCF会士 军事科学院教授

本期主编:闵巍庆 CCF多媒体技术专委会秘书长 中国科学院计算技术研究所副研究员

本期编委:亓   帆 CCF多媒体技术专委会执行委员 天津理工大学副教授

跨模态生成式人工智能

本报告将从四个方面介绍生成式大模型的发展趋势,包括:大语言模型(LLM)、多模态大语言模型(MLLM)、多模态生成式AI、AI智能体,同时讨论了生成式大模型未来可能的研究方向。

格式:
视频
数字说话人视频生成综述

近年来,深度学习生成技术有力推动虚拟数字人发展。本文聚焦数字说话人视频生成这一热点,梳理其在电影配音等场景的应用前景,从数据集、关键技术、评估策略三方面,总结现状,介绍相关人工智能技术演进,指出待解问题并展望未来,助力领域研究与发展。

格式:
文章
视频生成的初探及其可控性研究

视频生成受学界与业界关注,可开源社区里高质量视频生成基础模型发展滞后。此报告将介绍开源视频基础模型VideoCrafter系列的初步探索,涵盖文生视频、图生视频及视频生成评测等工作。

格式:
视频
AIGC大模型测评综述:使能技术、安全隐患和应对

AIGC模型因强大生成能力备受关注,但其快速发展也带来可解释性、公平性等隐患。为此,学术界开启AIGC大模型测评研究。本文回顾相关研究,概述测评过程,整理现有基准,剖析应用问题,研究测评方法,提出应对策略,探讨未来挑战并展望发展方向。

格式:
文章
生成式AI的创新实践

介绍了多模态扩散概率模型在图像、3D和视频生成的最新进展,重点介绍了Vidu视频大模型的三大更新:(1)首发一键生成32s长视频;(2)发布视频/文本到音频生成技术,Vidu生成的视频有声音了;(3)Vidu4D——从Vidu生成的视频通过高效重建,生成4D的视频。

格式:
PPT
DeepSeek:技术原理与未来方向
  • ,

视频介绍了DeepSeek R1的思考和启发、大规模强化学习技术原理与大模型技术发展研判、DeepSeek系统软件优化、从DeepSeek看大模型软硬件优化、畅想中国大模型高质量发展路径。

格式:
视频

本期编委成员