返回首页
您的位置:首页 > 新闻 > CCF新闻 > ADL

AI领域新赛道“世界模型”-ADL166期回顾:《世界模型基础与应用》

阅读量:0 2025-12-18 收藏本文

世界模型是当前人工智能领域最受关注的前沿方向之一,其“火爆”程度体现在技术突破、产业应用、资本投入和学术讨论等多个层面。OpenAI、谷歌、Meta、英伟达等所有顶尖AI公司都在投入重金研发世界模型。世界模型被认为是继大语言模型之后的“下一个主战场”,简单来说,它被视为实现通用人工智能(AGI) 的关键路径之一,甚至被一些学者称为“AI的下一件大事”。CCF学科前沿讲习班(ADL)紧跟行业热点,举办了ADL166《世界模型基础与应用》,让青年学者短期内深刻了解世界模型领域及其前沿发展动态。

中国计算机学会(CCF)第166期学科前沿讲习班(ADL),主题为“世界模型基础与应用”,于2025年12月5日至7日在中国科学院计算技术研究所四层报告厅举办。本期讲习班由中国科学院计算技术研究所山世光研究员和高林研究员担任学术主任,吸引了90位来自企业、科研院所和高校的青年学者报名参加。在开班仪式上,山世光研究员致辞欢迎大家并介绍了CCF和ADL,以及他本人与CCF的渊源。他还在致辞中介绍了世界模型的进展和应用并详细介绍了本次活动的课程安排和讲者阵容。随后讲者与学员共同合影留念,为本次为期三天的学术培训和交流活动拉开序幕。

中国科学院计算技术研究所研究员山世光致辞

12月5日上午,国防科技大学教授徐凯以“世界模型驱动的具身智能”为主题做专题讲座。徐凯教授首先介绍了世界模型在具身智能中的定义与内涵。他指出,世界模型本质上是关于环境的预测性模型,是智能体进行规划与控制的重要前提 。针对长时预测累积误差这一关键难题,徐凯教授分析了从递归状态空间模型到状态空间模型的架构演进,指出 SSM 通过并行扫描操作大幅提升了训练效率;面对复杂物理环境建模挑战,他介绍了扩散模型、可微物理仿真模型等前沿方案。此外,徐凯教授团队提出了PIN-WM通过融合可微物理方程与神经渲染技术,实现少量真实数据下的高精度系统辨识与Sim2Real迁移;LaDi-WM借助预训练视觉基础模型构建潜在空间,通过扩散过程生成未来状态以引导机器人操控。最后,徐凯教授探讨了专用世界模型向通用世界模型跨越的趋势,强调通用模型符合规模化定律且具备强大零样本泛化能力。报告结束后,学员围绕相关议题与徐凯教授深入研讨。

国防科技大学教授徐凯做精彩分享

12月5日下午,南京大学教授俞扬以“世界模型的基础问题”为主题做专题讲座。俞扬教授首先阐述了强化学习在决策大模型中的核心地位,同时指出传统强化学习依赖大量环境交互、样本效率低且真实场景风险高的难点,进而引出“世界模型”的核心价值是通过构建环境模拟器加速训练。俞扬教授深入剖析了世界模型构建中的两大关键难题:一是复合误差,即预测步长增加导致微小误差累积,引发长时序预测失效;二是外推误差,当智能体进入训练数据分布外区域时,模型易产生幻觉或误判。针对这些问题,他提出基于因果视角的优化策略,强调模型学习环境背后的因果机制而非单纯相关性,以捕捉不变物理规律,实现分布外数据的稳健泛化。最后,俞扬教授总结了AGI道路上世界模型的挑战,强调需从单纯视频生成向具备物理一致性的决策模型跨越。报告后,学员与俞扬教授展开了热烈的讨论。

南京大学教授俞扬做精彩分享

12月6日上午,清华大学长聘副教授龙明盛以“世界模型的可扩展实现路径”为主题授课。龙明盛教授首先介绍了世界模型从System-1(反射式)向System-2(规划式)演进的必要性,针对传统RNN架构扩展性不足的问题,介绍了基于Transformer的交互式世界模型(如 iVideoGPT)和扩散模型预测架构(如DIAMOND),指出压缩 Token 化与自回归预测能显著提升模型扩展性与交互能力。面对生成模型的物理规律一致性挑战,他提出利用互联网大规模无动作视频预训练,并结合RLVR后训练方法,有效缓解长时预测的累积误差与幻觉问题。在表征学习方面,龙明盛教授对比了JEPA代表的潜在空间表征与VLWM代表的视觉语言表征,强调语义抽象对复杂逻辑推理的重要性。他还讲解了世界模型在决策制定中的应用,展示其在策略评估与零样本规划中的潜力,并辨析“数据引擎”与“世界模型”的本质区别,指出单纯合成数据生成更接近策略先验而非环境动力学建模。报告后,龙明盛教授就学员提出的问题进行解答,为学员们提供清晰的思路指引。

清华大学长聘副教授龙明盛做精彩分享

12月6日上午,上海人工智能实验室的青年科学家王靖博以“从虚拟走向现实:探索通用人形角色运动与交互控制策略”为主题做专题讲座 。他聚焦人形机器人复杂地形感知控制问题,提出Gallant感知流程,通过将激光雷达点云转化为体素网格进行强化学习,实现感知到动作的高频端到端控制。针对狭窄空间穿行等场景,他强调在仿真中引入 “自扫描” 策略,实验证明该方法能显著降低碰撞率,缩小仿真与现实差距。在行为基础模型构建方面,他介绍了利用残差学习结合基础模型的策略,以提升训练效率与关键点精度。重点讲解人 - 场景交互(HSI)的通用合成与迁移工作时,王靖博介绍了TokenHSI模型通过共享本体感知Token与任务 Token化,实现物理人-场景交互统一合成与长程任务规划;PhyHSI则通过域随机化等手段解决感知噪声问题。最后,他展示了SkillMimic-V2模型在动态物体交互中的鲁棒性。报告后,学员与讲者展开讨论。

上海人工智能实验室青年科学家王靖博做精彩分享

12月6日下午,蚂蚁灵波科技的资深研究科学家徐英豪以“通过学习3D感知与生成构建世界模型”为主题进行报告。徐英豪首先分析3D重建任务的核心挑战,针对传统稀疏视图SfM不可靠、NeRF渲染耗时且缺乏先验的问题,介绍了团队提出的GRM模型,该模型将2D图像提升为像素对齐的高斯分布,利用Transformer实现0.1秒高效重建;针对无标定稀疏视图重建难题,FLARE模型通过先预测相机中心几何再全局对齐的策略,实现端到端几何与相机参数估计。在视频与3D生成的可控性方面,他介绍了CameraCtrl方法,通过引入相机编码器微调预训练视频扩散模型,实现视频生成视角的精确控制。针对高质量人类视频数据稀缺、2D姿态控制缺乏3D空间感知的局限,团队构建了大规模人类视频数据集,并提出ISA4D模型,利用InterSpatial Attention机制桥接3D SMPL与2D视频Token,实现高质量单人及多人视频生成。最后,徐英豪研究员分析了从确定性3D重建到概率性3D生成的技术光谱,提出将重建偏差引入生成任务、利用生成能力辅助重建的融合发展方向。报告后,学员与讲者展开讨论,交流氛围浓厚。

蚂蚁灵波科技资深研究科学家徐英豪做精彩分享

12月7日上午,上海科技大学助理教授马月昕以“面向具身交互的世界模型”为题做专题报告。马月昕老师从“何为具身交互”与“何为世界模型”两个基本问题入手,系统阐述世界模型在表示、理解物理世界及赋能本体行为中的核心作用,通过将物理世界表征编码为结构化特征,基于动作假设进行状态推演,让智能体在执行前 “预演” 多种未来场景,为决策提供引导。在自动驾驶应用方面,她重点讲解了基于BEV与Occupancy的三维空间重建技术,探讨了Nerf 与3D Gaussian Splatting在动态场景重建中的优劣。随后介绍 HybridWorldSim 高保真仿真系统,通过耦合多轨迹神经重建与生成模型,实现静态背景几何一致性与动态对象可控编辑。时空推演部分,涵盖Sora、Genie 3等流式视频生成模型,重点介绍了Occupancy序列生成技术,DynamicCity与RenderWorld,能够生成大尺度、长时间的4D场景。行为赋能方面,她对比传统模块化架构与端到端系统,引入基于VLA模型的ReAL-AD框架,实现类人推理与闭环决策,并展示了LiveHPS动捕系统、EasyHOI手物交互重建等类人交互研究进展。报告后,马月昕老师结合自身经验为学员们解惑,与学员们进行深入交流。

上海科技大学助理教授马月昕做精彩分享

12月7日下午,重庆大学教授秦红星以“构建世界模型的3D高斯表达解读”为题授课。秦红星老师从世界模型的起源出发,引出当前世界模型在视频生成、具身智能等多方向的发展格局。秦教授指出,尽管Sora等模型掀起热潮,但仍面临三维空间不一致、物理规律失真等核心挑战,亟需高效3D场景表达作为 “显式记忆库”,而3D高斯泼溅(3DGS)因融合显式与隐式、面与体表达的优势,成为理想载体。他系统梳理3DGS的编码与解码机制:编码端通过位置、协方差等参数实现几何与材质联合建模,介绍了图元变革、软约束等多种编码策略,以及空间变化材质、PBR参数等材质表达方法,还有多类前馈网络的端到端生成路径;解码端剖析了经典可微渲染流程与光线追踪优化方式,讲解了PBR解码器通过法向估计、间接光照等推动真实感渲染,以及GS-ID等端到端框架的光照分解与合成能力。最后,秦教授总结3D高斯泼溅正从静态重建走向动态、物理一致的世界模型构建,未来将在可微几何、物理仿真等领域发挥关键作用。

重庆大学教授秦红星做精彩分享

12月7日下午,清华大学智能产业研究院助理教授赵昊受邀作了题为“可量产的自动驾驶世界模型”的专题报告。赵昊老师从自动驾驶迈向L4级量产的技术切入,阐述世界模型从学术研究走向工程化落地的核心价值,强调其作为端到端自动驾驶系统的关键支撑地位。赵昊老师重点介绍了面向量产的世界模型技术体系:重建方面,涵盖MARS模块化仿真系统、GS-Occ3D高斯泼溅重建方法、InvRGB+L逆渲染框架及DGGT 4D动态重建模型;生成方面,介绍了UniScene统一Occupancy生成框架、DiST-4D扩散模型等,并重点分享核心成果OmniNWM全知导航世界模型,即无需三维标注与体素条件输入,融合全景RGB、语义与深度预测,生成3D语义Occupancy并提供密集奖励信号,支持闭环长时程规划,具备出色零样本迁移与相机控制能力。赵老师强调,OmniNWM代表轻量、高效的世界模型新范式,将加速自动驾驶世界模型量产落地。报告后,学员就相关问题与赵昊老师展开深入交流。

清华大学智能产业研究院助理教授赵昊做精彩分享

本期ADL讲习班汇聚了领域内著名高校与企业科研机构的重量级专家学者,覆盖世界模型基础理论、核心技术、前沿成果与行业应用,各场报告后均设置深度互动环节,学员与讲者围绕技术难点、落地挑战与发展趋势充分探讨,营造了浓厚的学术氛围,为世界模型领域的学术交流与技术创新注入新动力。

中国科学院计算技术研究所研究员山世光为讲者颁发感谢牌

中国科学院计算技术研究所研究员高林主持提问环节

ADL166期“世界模型基础与应用”学员们在认真听讲

ADL166《世界模型基础与应用》已经顺利落下帷幕。感谢CCF计算机辅助设计与图形学专委、各位专家和讲者的支持,感谢来自各地企业、高校和科研院所老师和学员们的积极参与!

注:

中国计算机学会学科前沿讲习班(CCF Advanced Disciplines Lecture)(简称CCF ADL)是由CCF主办的一项高端学术及技术系列性品牌活动,每年举办10期左右,每期3天,每期围绕一个计算机相关领域的专题进行培训,由在业界有影响力的学者担任学术主任,邀请该学科方向资深专家针对前沿话题授课并组织讨论。参加者主要是在高校科研教学第一线的青年学者及企业技术人员,其他有兴趣的人士也可以参加。为增进学员和讲者之间的交流,ADL设置互动环节,组织晚餐会等活动,搭建平台,在开拓眼界的同时,创造更多的机会。