编者寄语

多模态因果学习指的是从多模态数据(如图像、文本、语音视频等)中挖掘潜在的因果关系,进而揭示变量之间的生成机理与干预效应。与传统的多模态表示学习相比,因果范式强调对“为什么”与“如何发生”解释,将表征、推断与解释紧密结合。该方向融合多模态融合、因果推断与可解释人工智能的优势,为构建具备逻辑推理、稳健决策与强泛化的智能系统奠定基础。其核心价值在于促使人工智能由感知驱动迈向机理驱动,使得模型能够在动态不确定环境中进行稳健推理与可迁移学习,特别是在视频事件分析、医疗诊断及行为理解等领域展现出广阔的应用前景。然而当前研究仍然面临着不同模态数据结构差异使得因果变量难以统一表示,模态噪声、缺失与时序错位干扰因果关系的识别,此外跨模态干预设计、反事实生成与可检验性评估仍处于起步阶段,尚缺乏统一规范与基准等挑战性问题。

本专题聚焦多模态因果学习的关键技术与前沿应用,涵盖基于因果去偏新闻推荐、情境感知自然语言的因果推理、小样本学习结合因果干预的鲁棒模型、因果约束下的可解释稳定学习、基于因果掩码的强化学习算法,以及因果启发的稳定学习等,致力于揭示多模态因果学习的内在机制与应用潜力。


编委主任:苏金树 CCF会士 军事科学院教授

本期主编:闵巍庆 CCF多媒体技术专委秘书长 中国科学院计算技术研究所副研究员

                 张东霖 江南大学副教授

从众性感知的因果去偏新闻推荐方法

基于神经网络的新闻推荐算法能够从纷繁复杂的新闻中筛选出符合用户偏好的新闻,对于提升用户获取信息的效率以及阅读新闻的体验具有重要的意义。现有的新闻推荐方法不仅在用户偏好的准确建模方面取得了显著的效果,同时通过识别新闻数据中的虚假关联(例如用户性别与特定新闻类别之间的联系)开展了无偏新闻推荐的初步尝试.然而用户的新闻点击行为是一系列复杂认知行为相互作用之后的决策结果,仅对有偏信息进行直接建模,简化了有偏信息和用户行为之间的复杂交互关系,忽略了用户行为背后的复杂认知因素的影响,导致无偏推荐效果难以满足实际需求.为了解决该问题,本文提出一种全新的从众性感知的因果去偏新闻推荐方法。

格式:
文章
针对情境感知的自然语言的因果去偏推理方法

情境感知的自然语言推理任务要求模型能够根据给定情境信息判断前提句子与假设句子之间的语义推理关系. 大量的研究工作通过利用情境信息增强对输入句子的语义表征学习,取得了显著的效果.

格式:
文章
基于小样本学习和因果干预的ResNeXt对抗攻击

随着深度学习相关技术在计算机视觉、自然语言处理等领域的快速发展和广泛应用,深度学习模型逐渐成为了高价值攻击目标,其固有的易受噪声干扰的安全隐患也逐步暴露出来,如基于生成对抗网络(GAN)或机器学习的方式,通过添加少量特定的噪声来生成对抗样本,导致现有的深度学习模型失效。

格式:
文章
因果约束的可解释稳定学习

内容聚焦因果推理与机器学习的交叉领域,针对当前主流 AI 算法依赖相关性、易受虚假相关与分布偏移影响,导致预测不可解释、稳定性不足的核心痛点,系统性传授因果正则化稳定学习的核心理论与前沿方法。

格式:
PPT
基于因果掩码的因果强化学习算法

针对序列上连续决策问题,诸如故障告警根因定位问题,强化学习(RL)已经成为一种重要的解决方法,但现有强化学习方法存在样本效率低、探索成本高昂等问题,阻碍了其广泛应用。研究表明,引入因果知识为提升强化学习智能体的决策可解释性和样本效率提供了巨大潜力。

格式:
文章
因果启发的稳定学习

近年来人工智能技术的发展,在诸多垂直领域取得了性能突破。但当我们将这些技术应用于医疗、司法、工业生产等风险敏感领域时,发现当前人工智能在稳定性、可解释性、公平性、可回溯性等“四性”方面存在严重缺陷。究其深层次原因,当前统计机器学习的基础——关联统计自身不稳定、不可解释、不公平、不可回溯可能是问题的根源。相对于关联统计,因果统计在保证“四性”方面具有更好的理论基础。但如何将因果统计融入机器学习框架,是一个开放并有挑战的基础性问题。本报告中,讲者将重点介绍将因果推理引入预测性问题所提出的稳定学习理论和方法,及其在解决OOD泛化问题方面的机会和挑战。

格式:
视频

本期编委成员