YEF2026 | AI的黑暗森林：欺骗、失控与可信防线

阅读量:1 2026-05-19 收藏本文

随着生成式AI与智能体技术的爆发式演进，人工智能正从辅助工具跃升为具备自主决策能力的智能实体，深度渗透至物理感知、多模态交互与移动应用等关键场景。然而，技术能力的跃迁也催生了严峻的安全挑战：物理世界的对抗攻击可轻易欺骗自动驾驶与安防系统，多模态大模型的对齐偏差导致"幻觉"与有害内容生成，而具备目标导向的智能体更可能产生策略性欺骗、工具滥用等失控风险。这些"黑暗森林"式的安全隐患，已成为制约AI可信落地的核心瓶颈。

当前，AI安全研究呈现碎片化态势，物理安全、多模态可靠性与智能体对齐等问题往往被割裂对待，缺乏覆盖"感知-认知-决策-应用"全栈的系统性防御框架。工业界在移动场景下的实时防护需求与学术界的理论探索之间存在显著鸿沟，如何构建兼顾性能与可信度的AI防线仍缺乏共识路径。

本论坛将聚焦四大核心议题，通过四场深度技术报告与一场产学研Panel，论坛将尝试构建全栈安全视图，探讨从算法设计到系统部署的可信AI构建路径，为"智创未来"提供坚实的安全基座。

日程安排

顺序	主题	主讲嘉宾	单位
1	智能体失控风险研究	董胤蓬	清华大学
2	生成式物理攻击：从2D 到3D感知鲁棒性测试	郭青	南开大学
3	多模态智能的安全与可信：从对齐到开放世界	吉炜	南京大学
4	移动智能体的安全体系构建	王凯	VIVO
5	Pannel 讨论	何向南	中国科学技术大学
		苏申	广州大学
		吉炜	南京大学
		王凯	VIVO

论坛主席

刘弘

CCF YOCSEF厦门学术候任 AC，厦门大学副教授

厦门大学信息学院副教授，博士生导师，福建省高层次创业创新人才，CCF YOCSEF厦门学术候任 AC，主要从事可信人工智能、计算机视觉等方向的研究。曾任日本国立情报学研究所博士后研究员，日本学术振兴会外国人特别研究员，日本大阪大学助理教授。已发表学术论文50余篇。现任计算机视觉领域顶级期刊IJCV客座编委，担任中国科技期刊Visual Intelligence编委。在CVPR 2025和ACM MM 2025会议上组织分论坛。曾获多项重要荣誉与奖励，包括日本学术振兴会国际博士后奖学金（全球录用率仅9.4%）、福建省专利奖、中国图象图形学学会优秀博士学位论文奖、福建省优秀博士学位论文奖。

共同主席

胡文波

CCF YOCSEF合肥学术AC，合肥工业大学副教授

合肥工业大学副教授，黄山青年学者，CCF YOCSEF合肥学术AC。于清华大学计算机系获得博士学位。研究方向为可信机器学习与人工智能安全，近期重点研究包括不确定性量化与校准、对抗与越狱攻防、可信推理以及大模型评测。以第一作者或者通讯作者在ICLR、ACL、NeurIPS、ACMMM、TKDE等国际人工智能顶级会议或者期刊发表论文40余篇。学术服务方面，担任美国计算机学会概率机器学习（ACM TOPML）创刊编委，连续担任 ICLR 2024–2026 领域主席（Area Chair），并担任多项国际国内顶级期刊与会议的审稿人/程序委员。

论坛讲者

董胤蓬

清华大学助理教授

清华大学人工智能学院助理教授。在 TPAMI、IJCV、CVPR、NeurIPS 等期刊和会议上发表论文60余篇，谷歌学术引用12000余次，担任 ICLR、ICML、NeurIPS 领域主席。曾获得CCF优秀博士学位论文、清华大学优秀博士后、微软学者奖学金、百度奖学金等，连续4年入选全球前2%顶尖科学家榜单。

演讲题目：智能体失控风险研究

摘要：随着前沿人工智能系统能力的持续跃升，其在复杂任务执行与自主决策中的失控风险逐渐显现，尤其是以欺骗行为为代表的策略性偏差问题愈发突出。如何在保障模型性能的同时，有效识别并抑制潜在的欺骗与误导行为，已成为当前人工智能安全研究的重要议题。本报告将围绕“前沿AI失控风险研究”展开，重点探讨面向欺骗等关键风险的系统化评测方法与分析框架。将介绍在构建风险评测基准、刻画模型欺骗行为特征、以及设计防御机制方面的最新进展，并结合实验结果分析其在实际场景中的表现与局限。通过这些研究，我们期望推动从静态安全评估，迈向以行为理解与动态防护为核心的AI安全治理新范式。

郭青

南开大学教授

南开大学计算机学院教授、博导，国家级青年人才，斯坦福全球Top 2%科学家。曾任南洋理工大学瓦伦堡校长博士后（全球500选5）、A*STAR高级研究员、新加坡国立大学兼职助理教授。研究方向为可信AI与可靠视觉感知，在ICML、CVPR等顶会顶刊发表论文70余篇，获ICME、ECCV AROW最佳论文奖等荣誉，现担任多个顶级会议/期刊编委。

演讲题目：生成式物理攻击：从2D 到3D感知鲁棒性测试

摘要：物理对抗攻击通过在真实世界部署对抗补丁误导视觉模型，是评估感知系统可靠性的关键手段，但面临打印误差、视角变化、动态场景及隐蔽性等多重挑战。团队近期工作围绕生成式攻击展开：（1）针对2D检测器，提出"视角鲁棒性"个性化生成方法，将鲁棒性概念以插件形式嵌入生成模型；（2）引入LLM Agent驱动攻击，自适应理解环境并生成对抗样本；（3）针对深度感知，优化二维补丁周期性纹理结构，首次实现双目深度估计模型及商用设备的物理攻击；（4）针对3D检测器，提出基于文生3D物体的攻击方法，使生成点云难以被检测。系列工作为自动驾驶与具身智能感知安全提供了系统性测试基准。

吉炜

南京大学副教授

南京大学副教授、博导，国家级青年人才。研究方向为多模态理解与生成、检索与推荐、预训练模型及智能体。发表TPAMI、CVPR等顶会顶刊论文80余篇。担任IEEE TIP、IEEE TCSVT等期刊编委。获CVPR 2022最佳论文提名奖、2024世界人工智能大会青年优秀论文奖。

演讲题目：多模态智能的安全与可信：从对齐到开放世界

摘要：随着多模态大模型的发展，视觉与语言等多种模态的深度融合显著提升了模型的理解与推理能力。然而，这种跨模态对齐也引入了新的安全隐患，例如伪相关对齐、不确定性传播以及开放世界下的错误泛化等问题。本报告围绕“多模态安全可信学习”这一核心主题，从三个方面介绍我们的研究进展。首先，从因果视角分析多模态对齐中的偏差问题，并通过干预机制提升模型的鲁棒性；其次，针对多模态交互中的不确定性，提出层次化建模方法以增强模型的可靠性；最后，面向开放世界环境，探讨多模态模型在未知场景中的行为，并介绍基于语义边界建模与模型选择的可靠决策机制。报告旨在为构建在复杂真实环境中可部署的多模态智能系统提供系统性思路。

王凯

VIVO研究员

王凯，vivo AI安全专家。中国科学院大学博士，浙江大学硕士生企业导师。先后任职于华为、腾讯，担任AI4Sec技术负责人、安全研究员。目前专注移动AI安全与隐私保护，聚焦新型风险识别与防御方案落地。

演讲题目：移动智能体的安全体系构建

摘要：AI智能体在移动场景的深度应用，为系统安全、数据隐私与业务可信带来全新挑战。本报告将介绍如何构建面向移动Agent的全链路安全技术体系：1. 透明可信：通过行为轨迹可观测、端云协同隐私推理可审计，实现数据流转、模型调用与AI推理全过程可感知、可追溯、可信任；2. 安全可控：通过动态细粒度访问控制、智能行为异常检测、风险实时阻断与紧急终止机制，严格约束智能体行为边界，确保操作可管、可控、可终止。

<<< 上一篇 YEF2026 | 当大学生的成长航船驶入大模型浪潮

YEF2026 | 当大学生的成长航船驶入大模型浪潮下一篇 >>>

<<< 下一篇 YEF2026 | 当大学生的成长航船驶入大模型浪潮