本报告将从四个方面介绍生成式大模型的发展趋势,包括:大语言模型(LLM)、多模态大语言模型(MLLM)、多模态生成式AI、AI智能体,同时讨论了生成式大模型未来可能的研究方向。
近年来,深度学习生成技术有力推动虚拟数字人发展。本文聚焦数字说话人视频生成这一热点,梳理其在电影配音等场景的应用前景,从数据集、关键技术、评估策略三方面,总结现状,介绍相关人工智能技术演进,指出待解问题并展望未来,助力领域研究与发展。
视频生成受学界与业界关注,可开源社区里高质量视频生成基础模型发展滞后。此报告将介绍开源视频基础模型VideoCrafter系列的初步探索,涵盖文生视频、图生视频及视频生成评测等工作。
AIGC模型因强大生成能力备受关注,但其快速发展也带来可解释性、公平性等隐患。为此,学术界开启AIGC大模型测评研究。本文回顾相关研究,概述测评过程,整理现有基准,剖析应用问题,研究测评方法,提出应对策略,探讨未来挑战并展望发展方向。
介绍了多模态扩散概率模型在图像、3D和视频生成的最新进展,重点介绍了Vidu视频大模型的三大更新:(1)首发一键生成32s长视频;(2)发布视频/文本到音频生成技术,Vidu生成的视频有声音了;(3)Vidu4D——从Vidu生成的视频通过高效重建,生成4D的视频。
视频介绍了DeepSeek R1的思考和启发、大规模强化学习技术原理与大模型技术发展研判、DeepSeek系统软件优化、从DeepSeek看大模型软硬件优化、畅想中国大模型高质量发展路径。