跨模态生成技术：前沿探索与创新应用

编者寄语

跨模态生成技术通过学习与融合图像、文本、音视频等多种模态数据，实现复杂的跨模态内容生成。该技术不仅在艺术创作、广告设计、影视制作等领域，展现出广阔的应用前景，也在教育、医疗、娱乐等行业中得到创新应用。近期，DeepSeek推出全模态大模型Janus-Pro，支持多对象动态合成及跨模态时序对齐等进阶能力，引发业界关注。然而，跨模态生成技术仍在细粒度跨模态对齐、动态场景的物理仿真及参数效率与推理速度的平衡等方面面临挑战。

本期围绕跨模态生成技术的大模型预训练、模态对齐、模型优化等关键技术，以及在虚拟内容生成、智能创作辅助等领域的应用，聚合了CCF数字图书馆的相关报告视频和期刊文章资源，方便会员集中观看学习，同时也为读者探索跨模态生成技术的前沿技术提供启发。

编委主任：苏金树 CCF会士军事科学院教授

本期主编：闵巍庆 CCF多媒体技术专委会秘书长中国科学院计算技术研究所副研究员

本期编委：亓帆 CCF多媒体技术专委会执行委员天津理工大学副教授

目录

跨模态生成式人工智能

段楠,

本报告将从四个方面介绍生成式大模型的发展趋势，包括：大语言模型（LLM)、多模态大语言模型（MLLM）、多模态生成式AI、AI智能体，同时讨论了生成式大模型未来可能的研究方向。

格式：

视频

数字说话人视频生成综述

宋一飞张炜陈智能姜育刚,

近年来，深度学习生成技术有力推动虚拟数字人发展。本文聚焦数字说话人视频生成这一热点，梳理其在电影配音等场景的应用前景，从数据集、关键技术、评估策略三方面，总结现状，介绍相关人工智能技术演进，指出待解问题并展望未来，助力领域研究与发展。

格式：

文章

视频生成的初探及其可控性研究

王鑫涛,

视频生成受学界与业界关注，可开源社区里高质量视频生成基础模型发展滞后。此报告将介绍开源视频基础模型VideoCrafter系列的初步探索，涵盖文生视频、图生视频及视频生成评测等工作。

格式：

视频

AIGC大模型测评综述：使能技术、安全隐患和应对

许志伟李海龙李博李涛王嘉泰谢学说董泽辉,

AIGC模型因强大生成能力备受关注，但其快速发展也带来可解释性、公平性等隐患。为此，学术界开启AIGC大模型测评研究。本文回顾相关研究，概述测评过程，整理现有基准，剖析应用问题，研究测评方法，提出应对策略，探讨未来挑战并展望发展方向。

格式：

文章

生成式AI的创新实践

朱军,

介绍了多模态扩散概率模型在图像、3D和视频生成的最新进展，重点介绍了Vidu视频大模型的三大更新：（1）首发一键生成32s长视频；（2）发布视频/文本到音频生成技术，Vidu生成的视频有声音了；（3）Vidu4D——从Vidu生成的视频通过高效重建，生成4D的视频。

格式：

PPT

DeepSeek：技术原理与未来方向

,

视频介绍了DeepSeek R1的思考和启发、大规模强化学习技术原理与大模型技术发展研判、DeepSeek系统软件优化、从DeepSeek看大模型软硬件优化、畅想中国大模型高质量发展路径。

格式：

视频

往期回顾

查看全部

多模态大模型关键技术及...

CCF数图焦点第49期

大算力需求时代下的算力...

CCF数图焦点第47期

智能语音与语言交互技术

CCF数图焦点第46期

元宇宙背景下的虚拟现实...

CCF数图焦点第44期

数据治理技术研究

CCF数图焦点第43期

大模型芯片设计关键技术...

CCF数图焦点第36期

图、网络、解空间的连通...

CCF数图焦点第42期

数字服务的精准、智能化...

CCF数图焦点第41期

生成式大模型技术

CCF数图焦点第40期

形式化方法赋能计算机其...

CCF数图焦点第39期

提高高性能计算易用性

CCF数图焦点第38期

智能物联与群智计算

CCF数图焦点第37期

优秀博士学位论文激励计...

CCF数图焦点-第33期

中国互联网学术年会

CCF数图焦点-第32期

时空数据管理

CCF数图焦点-第31期

计算机网络教学与网络工...

CCF数图焦点-第30期

以学科竞赛为驱动的课程...

CCF数图焦点-第29期

社会认知计算

CCF数图焦点-第28期

智能化时代的计算与存储...

CCF数图焦点-第27期

第十届中国互联网专委会...

CCF数图焦点-第26期