第一届大模型生成内容安全评估与智能体安全论坛 | CNCC

阅读量:0 2025-10-17 收藏本文

近年来，以大模型为代表的生成式人工智能技术快速发展，为生成合成文字、图片、音频、视频等信息提供了便利工具，海量信息快速生成并在网络平台传播，在促进经济社会发展的同时，也产生了技术滥用、深度伪造、不良信息、虚假信息传播加剧等问题，引发社会各界的关切。AI 智能体不仅继承了模型与数据层面的越狱攻击、对抗样本攻击、提示注入、数据投毒等风险，还因其具备多模态感知、自主规划与执行等特性，衍生出一系列独特的系统性风险，并可能被链式放大，带来更严重的安全隐患。

本论坛围“大模型生成内容安全评估与智能体安全”主题，邀请了来自政府、高校、科研院所、企业的院士、国家级人才等专家，开展深度交流对话，共谋人工智能技术新发展，共商人工智能安全新合作，共建人工智能治理新格局，共享人工智能发展新机遇。

论坛安排

论坛名称：第一届大模型生成内容安全评估与智能体安全论坛

日程安排：10月25日13:30-17:30

举办地点：华旗饭店-4层405

注：如有变动，请以官网(https://ccf.org.cn/cncc2025)最终信息为准

顺序	主题	主讲嘉宾	单位
1	论坛致辞：《人工智能行为体的风险何在？》	方滨兴	广州大学
2	成果发布：《大模型生成内容安全可信评测白皮书》《智能体发展与安全白皮书》、大模型公开漏洞库、AI安全开源社区	姜伟王烁	哈尔滨工业大学上海交通大学
3	生成式人工智能管理政策解读与思考	王志伟	中央网信办数据与技术保障中心
4	AI大模型安全评测与治理	杨珉	复旦大学
5	大模型的安全与隐私风险	沈超	西安交通大学
6	大模型安全伦理评测与生成保障	刘哲理	南开大学
7	未知攻击危害消解关键技术与应用探讨	李书豪	中关村实验室
8	大模型提示词资产安全：窃取风险与防护	纪守领	浙江大学
9	大模型保险箍：大模型护栏的一种模式	齐佳音	广州大学
10	针对大模型的自演化攻击与协同防御	张熙	北京邮电大学

论坛主席

姜伟

哈尔滨工业大学二级教授

哈尔滨工业大学网络空间安全学院院长兼计算学部副主任，二级教授，博士生导师，国家级高层次人才。曾任中央网信办中国网络空间研究院网络安全研究所创始所长，国家社会科学基金重大项目首席专家，全国网络安全标准化技术委员会副秘书长，共青团中央中长期青年发展规划专家委员会委员。长期从事网络安全、数据安全、人工智能安全、网络治理、网络传播等研究，组织参与国家网络安全重大系统建设、重大活动保障、重要政策文件制定等工作。主持国家自然基金重点项目、国家重点研发计划、国家社科基金重大项目、中宣部、中央网信办、中联部、教育部等30余项省部级以上课题。围绕国家战略需求和网信科技前沿，参与国家网络安全重大管理系统设计与建设，研究突破大规模网络混合访问控制技术，研究解决网络攻击预测和防御策略决策技术，提出构建中国互联网发展指标体系和国家网络安全能力评估模型，开展社交网络结构、群体行为与传播演化建模研究，研究跨平台舆情传播指标体系构建与演化模型构建，开展智能体安全、大模型生成内容安全评估技术研究，相关成果应用到实际系统中。出色完成了一系列重大活动安全保障任务，多次荣获相关部门表彰。组织撰写报送内参报告100余篇，40余篇获得省部级以上领导批示和有关部委采用。牵头组织参与国家“十四五”“十五五”相关规划编制，主持上海、广东、安徽等10余省市"十四五"“十五五”相关规划编制。发表学术论文50余篇，参与国家标准编制10余项。组织世界互联网大会乌镇峰会数字经济等论坛，组织与美日英法德意巴西等国内外知名智库交流合作，积极推动构建网络空间命运共同体。

论坛共同主席

王烁

上海交通大学副教授

上海交通大学计算机学院副教授，博导，上海交通大学无锡人工智能与数据安全高等研究中心副主任。国家青年高层次人才，上海领军人才（青年）。研究方向聚焦人工智能安全与隐私，发表学术论文60余篇，包括安全领域四大顶会与期刊。曾获澳大利亚国家级创新奖iAward, 2023年软件领域顶级会议ESEC/FSE杰出论文奖， 2024年安全领域顶级会议NDSS最佳论文提名奖。研究成果应用在公安网安和网信办实战中。研发了一系列公共安全领域开源平台和工具，包括“大模型安全靶场”、AI安全社区和“AI安全漏洞库”。带领团队获2024年全球AI攻防挑战赛杰出方案奖，相关成果在2024乌镇世界互联网大会上展出。研发可信医学大模型矩阵赋能消化道重大疾病和罕见病诊疗，相关成果获得包括央视网、人民网、新华网、光明网等100多家官方媒体广泛报道，并入选“一带一路”十大人工智能应用场景，全国颠覆性技术，以及“人工智能赋能可持续发展十大卓越案例”。现任计算机安全顶级期刊IEEE TIFS副主编、IEEE TDSC副主编，中国通信学会可信通信技术专委会委员兼学术秘书，CCF计算机安全专委会执行委员，以及知名国际学术会议与期刊PC成员和编委。

论坛讲者

方滨兴

CCF会士、中国工程院院士

中国中文信息学会理事长，广州大学网络空间安全学院名誉院长，中国电子信息产业集团资深首席科学家，哈尔滨工业大学兼职教授。近年来，在教学方面，创办“方滨兴研究生实验班”，创新“方班研讨厅”授课模式；在科研方面，创新提出“盾立方护卫+背书链自卫模式”的防御体系，已在冬奥会、广交会、大运会、亚运会等重大活动安保中展示出其特殊的防御能力。

报告题目：论坛致辞：《人工智能行为体的风险何在？》

报告摘要：人工智能行为体感知外部环境并采集其作为输入，通过内部算法进行自适应智能决策，利用自身驱动装置与物理世界产生交互行为的自治硬件实体。本报告列举部分人工智能行为体失控的案例，阐述防止人工智能行为体的失控措施-AI保险箍，从基本功能、增强功能、安全机制、防失控中心等方面详细介绍AI保险箍功能。

王志伟

中央网信办数据与技术保障中心技术保障处处长

具有多年从事国家部委系统建设、技术研究和科技管理工作经验，参与多项国家部委重大工程立项、建设、验收，组织编写全国网信技术系统标准规范，组织生成式人工智能、算法治理等新技术新应用安全评估方面的跟踪研究、技术监测和规制管理。作为主要起草人，参与强制性国家标准GB 45438-2025《网络安全技术人工智能生成合成内容标识方法》起草和完善。

报告题目：生成式人工智能管理政策解读与思考

杨珉

复旦大学教授

复旦大学计算与智能创新学院执行院长、教授、博导，国家级高层次人才，国务院学位委员会网络安全学科评议组成员，教育部长江学者特聘教授，国家973项目首席科学家。主要研究操作系统安全、恶意代码检测、漏洞分析挖掘和AI系统安全等，在网络安全四大顶会S&P、CCS、Security、NDSS 发表论文50余篇，研究发现曾多次获中央领导重要批示，成果入选973 重大成果和突出进展、十三五国家科技创新成就。

报告题目：AI大模型安全评测与治理

报告摘要：以ChatGPT为代表的通用大模型正加速构建新一代人工智能应用底座，通用大模型安全已成为上层人工智能应用健康可持续发展的关键前提。然而，当前国内外安全评测技术发展仍处于早期阶段，普遍存在自动化程度低、覆盖面不足、成本高昂等缺陷，相当于用“开卷考”、“简单题”的方式评估大模型合规能力，无法有效把控当前AI大模型安全风险水位。本报告将以国内外通用AI大模型安全风险和评测技术研究为主线，分享团队近年来在AI大模型安全评测与治理方面的前沿研究进展和思考，探讨未来AI大模型安全发展趋势。

沈超

西安交通大学二级教授

西安交通大学人才办副处长、二级教授，教育部长江学者特聘教授，教育部创新团队负责人，国家重点研发计划首席科学家，国防基础加强计划首席科学家，重点研发计划“先进计算与新兴软件”重点专项指南专家组成员。主要从事智能系统可信、安全、控制与测试的研究工作，发表学术刊物180余篇，获最佳论文奖9次。牵头获陕西省科学技术一等奖、中国自动化学会科学技术一等奖、达摩院青橙奖、霍英东教师一等奖、MIT TR35 China、国家优秀青年科学基金、IEEE SMC Early Career Award、陕西省五四青年奖章等。主持国家重大、重点、国际(地区)合作等项目30余项，制定国内外标准5项，多份建言被中央办公厅等采纳。担任IEEE TDSC、TCYB汇刊等10余个国际期刊编委、IEEE Xi'an SMC&CS主席、ACM SIGSAC China副主席、中国人工智能学会组织工委副主任等。

报告题目：AI大模型的安全与隐私风险

报告摘要：近些年，以GPT为首的大模型技术开启了AI研究的新纪元，然而在美好的大模型蓝图下，攻击者也可能利用大模型的脆弱性对个人安全、社会安全、乃至国家安全带来严重的威胁。本报告将从大模型的保密性、完整性、隐私性三个角度出发，分析AI模型安全与隐私在大模型时代的各种挑战，探讨大模型的隐私泄漏、模型窃取、对抗攻击、后门威胁、输出安全以及公平性与偏见等热门研究问题。本报告旨在发现并分析大模型安全和隐私风险，推动大模型安全应用与可持续发展。

刘哲理

南开大学教授

南开大学计算机学院院长，密码与网络空间安全学院院长，教授、博士生导师，国家级高层次人才。自2011年至今，发表SCI/EI论文40多篇，其中IEEE TDSC、IEEE TKDE、IEEE TOC、IEEE TSC、IEEE TITS、IEEE TVT、IEEE TII、IEEE INFOCOM等CCF-A类/SCI一区论文数十篇，CCF-B/SCI二区论文超过20篇，论文引用次数超过1500次，有五篇论文进入ESI高被引前1%。目前主持国家自然科学基金、天津市自然科学基金、教育部青年基金等纵向课题7项，与多家知名信息安全企业建立了合作关系，建立了“数据安全联合实验室”，主持智能卡操作系统、信息安全相关的横向课题10多项。申请专利7项，授权4项；获批软件著作权2项。担任多个国际会议的会议主席，包括ICA3PP2018(CCF-C类)、CSE2017、SPNCE2016、BWCCA2015、EIDWT2013等。担任《网络与信息安全学报》编委、CCF技术动态编委，大数据安全与隐私保护专业委员会委员，Springer期刊《Cybersecurity》副主编。

报告题目：大模型安全伦理评测与生成保障

报告摘要：介绍大模型社会主义核心价值观评测的相关内容，包括评测标准建立、测评模型构建，以及内容安全生成保障中的幻觉缓解、越狱攻击防御、无隐私泄露的推理机制三个方面。

李书豪

中关村实验室科研02部副部长，研究员

中关村实验室APT团队负责人，某国家级创新人才，科技部某领域咨询专家，北京市直机关青联委员，海淀青联科技界别副主任委员。研究方向为网络威胁发现与溯源。近年来，主持十多项国家级项目课题，完成专著1部，获省部级科技进步一等奖2项。

报告题目：未知攻击危害消解关键技术与应用探讨

报告摘要：以APT（高级持续威胁）、勒索为代表的未知攻击“防不胜防”，造成重要信息系统敏感信息被窃被破坏的风险威胁。本报告围绕高水平APT窃密攻击危害消解展开，具体包括现状分析、模型设计、关键技术、效果评估等内容，旨在探讨建立新的“数字替身”危害消解防御理论和模型方法，在APT攻击“防不胜防”条件下，实现对关键数据资源“零丢失”的防御目标。

纪守领

浙江大学长聘教授

浙江大学计算机科学与技术学院求是特聘教授/长聘教授、博士生导师，可信人工智能研究中心主任，国家级高层次人才，获佐治亚理工学院电子与计算机工程博士学位、佐治亚州立大学计算机科学博士学位，入选国家高层次人才。主要研究方向为人工智能安全、软件与系统安全，主持国家重点研发计划项目、国家自然科学基金联合重点项目等多项，发表CCF A类论文100余篇，研制的多个系统在大型平台上获得部署应用。获安全顶会IEEE S&P 2025杰出论文奖、ACM CCS 2021最佳论文奖等10项最佳/优秀论文奖、全球黑客大会Pwnie Awards最具创新研究奖提名等。

报告题目：大模型提示词资产安全：窃取风险与防护

报告摘要：随着大模型的广泛应用，提示词已从基础交互指令演变为承载专业知识与经验的核心数据资产，其安全性成为大模型应用可信发展的关键前提。然而，在开放交互与商业化交易过程中，提示词面临窃取与泄露风险，可能导致知识产权侵权、隐私合规问题及商业机密外泄等挑战。当前，提示安全研究仍处于早期阶段，缺乏系统化的风险识别与防御机制。本报告以提示资产化为核心视角，分享团队在提示词窃取与泄露风险方面的研究进展，探讨可行的防御策略，以促进大模型生态的可信与可持续发展。

齐佳音

广州大学教授

广州大学网络空间安全学院教授，博士生导师，二级教授，国务院特殊津贴专家，国家级人才，中国信息经济学会副理事长，中国人工智能学会理事。七次入选爱思唯尔中国高被引学者，主持国家社会科学基金重大项目、教育部哲学社会科学研究重大课题攻关项目、国家自然科学基金重大项目课题/重点项目/重大研究计划项目/应急专项等十余项。研究成果发表于A A A I 、 A C M

MM、《Information Systems Research》、《管理科学学报》、《计算机研究与发展》等计算机科学与管理学的顶级学术会议或重要学术期刊上。荣获第九届高校科学研究优秀成果奖（人文社会科学）二等奖（牵头）及上海市教学成果一等奖（牵头）、上海市教学创新大赛一等奖。

报告题目：大模型保险箍：大模型护栏的一种模式

报告摘要：杰弗里·辛顿在2025世界人工智能大会上关于AI失控风险的“警告”引发广泛关注，但是如何设计AI安全“紧箍咒”，让人类通过发出“咒语”，及时关停危险AI系统，是让人类掌握针对AI的控制权的核心关键。为此，方滨兴院士团队以AI行为体系统为治理对象，提出了一种应对AI系统失控的保险箍机制，该机制可以进一步拓展为更广泛的AI系统失控提供治理方案。

张熙

北京邮电大学网络空间安全学院副院长、国家级青年人才

北京邮电大学教授，博士生导师，网络空间安全学院副院长，可信分布式计算与服务教育部重点实验室副主任，国家级青年人才。2006年和2012年分别于哈尔滨工业大学计算机学院和清华大学计算机系获得学士和博士学位，2015年至2016年在美国伊利诺伊大学芝加哥分校访问。主要研究可信人工智能及其在网络空间治理领域的应用。担任中国网络空间安全协会常务理事单位代表，中国指挥与控制学会信息融合专委会常务委员，《网络与信息安全学报》编委，曾获中国电子学会一等奖和中央网信办表彰。

报告题目：针对大模型的自演化攻击与协同防御

报告摘要：随着大模型的广泛应用，其面临的攻击形态正从静态单一向自演化、协同化加速升级，给系统安全带来更严峻挑战。实际应用中，攻击手段可通过动态变异绕过防御规则、多节点协同实施隐私窃取或虚假信息传播，叠加模型滥用、数据泄露、社会伦理等风险，进一步加剧大模型可信性危机。本报告介绍大模型自演化攻击感知与协同防御技术研究：（1）自演化攻击动态评估：研发多维度大模型自演化攻击自动评测工具，构建覆盖攻击演化路径的动态评测数据集，适配不同应用场景下攻击的动态变化；（2）协同防御框架构建：研发基于组件联动与策略协同的大模型安全防御框架，突破传统 “单点防御” 局限，通过输入检测、中间层防护、输出校准组件的实时协同，提升大模型应对演化攻击的鲁棒性与安全性。

叶麟

哈尔滨工业大学副教授

哈尔滨工业大学网络空间安全学院院长助理，副教授，长期致力于研究网络智能攻防、人工智能安全领域，加强AI技术对网络安全的理论探索和技术赋能。先后承担国家自然科学面上基金项目、国家重点研发计划子课题等国家/省部级项目以及中国移动、浦发银行、安天科技等多个校企合作项目。在USENIX Security、ACL、IEEE TDSC、TC、IEEE TSE、IEEE TSC、JSAC、软件学报、INFOCOM等国内外高水平期刊与会议上发表论文30余篇。

于海宁

哈尔滨工业大学研究员

哈尔滨工业大学计算学部网络空间安全学院副院长，研究员，博导，省优青。主要研究方向为数据安全、隐私计算、AI安全等。近5年，在IEEE TDSC、IEEE TIFS、ICML等期刊/会议发表论文30余篇，制定网络安全国家标准4项，主编教材1部，主持国自然面上、青年、发改委重大专项等课题20余项。兼任黑龙江省网络空间安全重点实验室副主任，中文信息学会大数据与隐私计算专委会、网络空间大搜索专委会委员，中国网络空间安全人才教育联盟网安人才标准认证工作组副组长，工业互联网产业联盟顾问专家，哈尔滨工业大学-浦发银行金融网络安全联合创新中心专委会委员。

CNCC2025

CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上，首次通过“基础-前沿-未来”的一体化设计，满足不同背景参会者的需求，构建从知识获取到创新激发的完整路径，打造系统化、进阶式的参会体验。重点设置9大主题板块，每个主题板块的专题论坛由三大核心模块组成：面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。

<<< 上一篇具身智能 | CNCC大会论坛

边缘智能：铺就智能泛在的最后一公里 | CNCC 下一篇 >>>

<<< 下一篇边缘智能：铺就智能泛在的最后一公里 | CNCC