CCF YOCSEF 上海观点论坛|合成数据是医疗AI的破局之钥还是伦理陷阱？ - 新闻动态

观点论坛

CCF YOCSEF上海-观点论坛

2025年11月15日，由中国计算机学会（CCF）主办、CCF YOCSEF上海学术委员会组织的，华东理工大学、上海临床创新转化研究院、联通(上海)产业互联网有限公司支持的CCF YOCSEF上海观点论坛—“合成数据是医疗AI的破局之钥还是伦理陷阱？”在上海临床创新转化研究院403举行，论坛由CCF YOCSEF上海通AC委员丁炜超和蒋龙泉担任执行主席。引导发言嘉宾：复旦大学祁昊，华东理工大学李舒蕊，上海人工智能实验室徐捷；特邀嘉宾：复旦大学附属中山医院居旻杰、万达信息股份有限公司陈诚、上海交通大学医学院附属瑞金医院常庆、复旦大学蒋思航；医疗机构、高校、医疗健康行业企业、专家学者和学生代表共40余人参加了论坛。会议论坛编号为CCF-Yo-25-042。

在论坛伊始，蒋龙泉介绍了本次观点论坛议题的酝酿过程和本次论坛的议程。在论坛开场环节，上海临床创新转化研究院总裁段琦对到场嘉宾表示欢迎，并介绍了临转院的工作内容，同时希望通过此次论坛的讨论能够对合成数据在医疗AI领域的应用形成可探索的共识及路径。CCF YOCSEF上海副主席徐冰茹则对CCF YOCSEF的文化及活动规则进行了阐述，强调通过论坛为医疗和AI从业人员建立交流的桥梁，每年围绕医疗AI、医疗数据形成常态化论坛，输出医工交叉领域的“YOCSEF上海观点”。

核心观点

CCF YOCSEF上海-观点论坛

1. 合成数据是突破医疗AI数据瓶颈的“金钥匙”，但需分场景应用。合成数据在缓解数据孤岛、隐私壁垒、罕见病数据稀缺及高标注成本方面具有不可替代的价值，其核心价值不在于“复制真实”，而在于“补充缺失”—如生成极端病例用于医生培训、补充长尾疾病样本以提升模型鲁棒性，或在不触碰原始数据的前提下构建训练集，实现安全合规的AI协同。

2.数据质量评估应以“下游任务有效性”为终极标准，而非盲目追求“真实相似度”。医疗场景下，合成数据的有效性不应以与原始数据的视觉或统计相似度为唯一尺度，而应聚焦其能否提升模型性能、辅助临床决策或优化教学培训。例如，为AI模型生成“重病”CT样本以弥补真实数据不足，其价值远高于一个“完美复刻”的轻症样本。医学评价体系（如循证医学）应与AI评估方法深度融合。

3. 产业界应主导技术迭代，但需与学界、医疗机构共建“审慎共治”生态。合成数据的落地必须由产业界推动快速试错与规模化应用，但其可信度与安全性必须由医学专家、伦理机构与监管方共同验证。理想的模式是“产业提需求、医院供场景、学界建标准”，通过可信数据空间、联合验证项目等机制，实现技术创新与伦理安全的动态平衡。

4.构建“可控、可测、可溯”的技术与标准体系是未来关键。未来需从三方面发力：一是技术上引入因果推断、差分隐私等，实现“可控、可用、可信”的生成；二是建立“人机协同”的多维度评测方法论，如“一标一效、一审一对齐”；三是推动行业共建治理框架，明确合成数据在临床试验、器械注册、教学培训等不同场景下的准入标准与责任边界

引导发言

CCF YOCSEF上海-观点论坛

一、祁昊 复旦大学

复旦大学的祁昊博士代谭伟敏老师介绍了其团队利用合成数据进行医疗AI训练的研究。通过Diffusion模型生成眼底图像，在仅使用16.7%真实数据的情况下，模型性能达到甚至超过使用全量真实数据的基准模型，展示了合成数据在缓解数据稀缺问题上的巨大潜力。

二、李舒蕊 华东理工大学

华东理工大学李舒蕊代表金晶团队介绍了脑机接口（BCI）在医疗康复与人工智能领域的研究进展。包括对意识障碍患者和脑卒中患者的康复治疗、探索脑机接口与糖尿病控制的结合，以及将大模型集成到BCI系统中，实现多语言交互和轻量化应用。

三、徐捷 上海人工智能实验室

上海人工智能实验室徐捷在引导发言中表示合成数据是突破医疗AI数据孤岛、长尾问题与标注成本的“金钥匙”，主张通过技术实现可控可信生成、建立人机协同评估体系，并倡导产业、学界与监管共治，推动安全、开放的医疗AI生态发展。

为了表达谢意，YOCSEF上海副主席徐冰茹、委员蒋龙泉、委员许文波为三位嘉宾颁发了感谢牌，以感谢嘉宾们对本次活动的支持。

为三位引导嘉宾颁发感谢牌

思辨环节

CCF YOCSEF上海-观点论坛

合成数据是医疗AI的破局之钥还是伦理陷阱？

本次论坛特别设计了三大思辨问题，引导现场深入思考：

思辨问题一：

合成数据在医疗AI应用中的核心瓶颈是技术可信度不足，还是医疗场景的接受度壁垒？

万达信息陈诚认为，当前核心瓶颈在于技术可信度不足。合成数据难以完美反映原始数据的所有特征，尤其当数据使用方与算法拥有方存在信息壁垒时，平衡数据可用性与隐私保护极为困难。

瑞金医院常庆提出，医疗场景的接受度是一个复杂的评价体系。目前缺乏针对合成数据本身的细分评价标准，因此无法有效进入医疗流程。他以小分子药合成为例，强调任何新事物都需要经过完整的验证路径才能被接受。中山医院居旻杰表达了对数据来源局限性的担忧，认为若用于生成合成数据的原始数据本身有缺陷或偏差，生成的数据可能无法准确反映复杂疾病的分层情况，影响临床判断。

思辨问题二：

合成数据的质量评估应该优先追求"与真实数据的相似度"，还是"对下游任务的有效性"？如何平衡数据保真与隐私保护的矛盾？

关于评估标准，陈诚认为不应追求与真实数据的全面相似，而应针对特定下游任务保留关键维度的特征，避免因过度相似导致隐私泄露。

常庆从医学角度反思“真实数据”的定义，认为应将合成数据的质量评价与循证医学的评价体系相结合，关注其能否推动医学认知的进步。居旻杰和与会嘉宾均强调，评估应优先考虑对下游任务的有效性而非绝对相似度。例如，为稀缺的重症病例生成合成数据，其价值在于补充训练集，而非完全复制某个真实病人。

隐私与保真之间的矛盾是公认难题。徐捷指出，合成数据虽能打破数据孤岛，但也存在偏见继承、隐私泄露和监管真空等风险，需引入因果推断、差分隐私等技术来构建可控、可信的生成机制。

思辨问题三：

推动医疗合成数据应用，应该由产业界主导快速迭代（市场驱动），还是由学界和医疗机构主导严格验证（审慎原则）？开源共享与商业保护如何平衡？

对于推广主导权，观点呈现两极分化。一方认为应由产业界主导，以市场驱动快速迭代，通过实际应用暴露并解决问题，推动技术发展。另一方则主张必须由学界和医疗界主导，秉持审慎原则，确保技术安全可靠，避免重蹈“反应停事件”等历史覆辙。

在开源共享与商业保护方面，共识是需要建立多方协同的治理框架。政府、监管机构、医院、企业和学术界需共同合作，制定行业标准和规范。具体实践中，目前已出现了。“先提供合成数据进行程序调试”的新模式，这既满足了产业界对数据的需求，又符合医疗机构的安全要求，体现了务实的合作路径。

YOCSEF上海委员吴一鸣、蒋龙泉、丁炜超、老委员谭书华为特邀嘉宾颁发了感谢牌，以感谢嘉宾们对本次活动的支持。

为特邀嘉宾颁发感谢牌

总结与展望

CCF YOCSEF上海-观点论坛

最后，CCF YOCSEF上海委员、本次论坛执行主席蒋龙泉为本次论坛作总结发言。他提到，本次论坛围绕合成数据在医疗AI中的应用展开了深入、热烈且富有建设性的讨论，各方嘉宾从技术、伦理、临床、产业等多维度交换了观点。尽管合成数据在提升模型性能、缓解数据孤岛和隐私壁垒方面展现出巨大潜力，但其落地仍面临技术可信度与医疗场景接受度的双重挑战。论坛凝聚了关键共识—合成数据的价值不在于“像真实”，而在于“用得有效”；其推广应由产业界主导快速迭代，同时需与学界、医疗机构协同构建审慎共治的生态，以推动安全、合规的落地应用。

未来，CCF YOCSEF上海将围绕医疗数据与AI医疗的深度融合，围绕相关话题打造系列论坛，形成常态化、高规格的产学研对话平台。每次论坛力争聚焦核心议题——如合成数据、人机协同、伦理治理等—汇聚医院、企业、学界与监管方，推动从技术探索到临床落地的闭环。我们期待以此凝聚共识，让AI真正成为提升医疗公平性与效率的“可信伙伴”，最终促进产学研医用协同发展。

论坛合影

CCF YOCSEF 上海CCF Young Computer Scientists & Engineers Forum