多模态持续学习：支撑未来AI系统持续进化的基础

编者寄语

多模态持续学习是指在不断获取新任务和新数据的过程中，模型能够持续地从多种模态（如图像、文本、语音等）中学习，同时避免灾难性遗忘已有知识。这一研究方向不仅结合了多模态融合与知识持续积累的优势，更贴近现实世界中数据多样且动态演化的场景。其重要性体现在推动智能体从“静态理解”走向“动态适应”，在智能问答、自动驾驶、人机交互等任务中具备更强的泛化能力与环境适应性，是迈向通用人工智能的重要一步。然而，多模态持续学习技术目前仍面临包括模态间表征差异导致的知识融合困难、旧模态遗忘、模态不一致性引发的知识迁移障碍等多项挑战。

本专题聚焦知识引导的多模态持续学习的关键技术与前沿应用，涵盖连续情感分析中的持续建模、增量式跨模态检索、持续多媒体内容理解与生成、小样本增量学习，以及自动驾驶在开放环境下的持续适应能力，力求为读者提供从理论机制到实际场景的解析与洞察。

编委主任：苏金树 CCF会士军事科学院教授

本期主编：闵巍庆 CCF多媒体技术专委会秘书长中国科学院计算技术研究所副研究员

余璐 CCF多媒体技术专委会执行委员天津理工大学副教授

目前情感分析的研究普遍基于大数据驱动型模型, 严重依赖高昂的标注成本和算力成本, 因此针对低资源场景下的情感分析研究显得尤为迫切. 然而, 存在的低资源场景下的情感分析研究主要集中在单个任务上, 这导致模型难以获取外部任务知识. 因此构建低资源场景下的连续情感分析任务, 旨在利用持续学习方法, 让模型随时间步学习多个情感分析任务. 这样可以充分利用不同任务的数据, 并学习不同任务的情感信息, 从而缓解单个任务训练数据匮乏问题. 认为低资源场景下的连续情感分析任务面临两大核心问题, 一方面是单个任务的情感信息保留问题, 另一方面是不同任务间的情感信息融合问题. 为了解决上述两大问题, 提出针对低资源场景下连续情感分析任务的持续注意力建模方法. 所提方法首先构建情感掩码Adapter, 用于为不同任务生成硬注意力情感掩码, 这可以保留不同任务的情感信息, 从而缓解灾难性遗忘问题. 其次, 所提方法构建动态情感注意力, 根据当前时间步和任务相似度动态融合不同Adapter抽取的特征, 这可以融合不同任务间的情感信息. 在多个数据集上的实验结果表明: 所提方法的性能显著超过了目前最先进的基准方法. 此外, 实验分析表明, 所提方法较其他基准方法具有最优的情感信息能力和情感信息融合能力, 并且能同时保持较高的运行效率。

格式：

文章

基于知识架构的持续学习情感分类方法

王松、买日旦·吾守尔、古兰拜尔·吐薛源尔洪、,

当情感分类模型依次学习多个领域的情感分类任务时，从新任务中学到的参数会直接修改模型原有参数，由于缺少对原有参数的保护机制，降低了模型在旧任务上的分类准确率。为缓解灾难遗忘现象对模型性能的影响，并增加任务间的知识迁移，提出一种用于中文情感分类的基于知识架构的持续学习方法。在Transformer编码层中，采用任务自注意力机制为每个任务单独设置注意力变换矩阵，通过区分任务特有的注意力参数实现知识保留。在TextCNN的全连接层中，利用任务门控注意力（HAT）机制控制每个神经元的开闭，为每个任务训练特定的网络结构，仅激活对任务重要的神经元加强知识挖掘，提升分类效率与准确率。在JD21中文数据集上的实验结果表明，该方法的Last ACC和负类F1值相比于基于HAT的持续学习方法分别提升了0.37和0.09个百分点，具有更高的分类准确率，并且有效缓解了灾难遗忘现象。

格式：

文章

增量跨模态检索方法

江朝杰、杨良怀、高楠、范玉雷,

跨模态检索是可由一个模态样本查询能够返回另一模态语义相关结果的检索方法.但是在许多实际检索系统中，新数据是不断增量迭代的，这就要求检索模型具有良好的可扩展性。然而当下的大多数跨模态检索方法未聚焦于可扩展性的研究,无法平衡新知识和旧知识之间的关系.针对跨模态检索中存在的这个问题，本文提出了增量跨模态检索方法(Incremental Cross Modal Retrieval,ICMR).该方法仅使用增量样本数据集进行模型的扩展。所提方法包含两个阶段：阶段1是基于跨模态的知识蒸馏网络构建,目的是防止增量学习模型对旧数据集的灾难性遗忘；阶段2是生成不同模态哈希编码的特征表示,利用构建的新旧标签共现概率矩阵更有效的将新增类别语义信息加入到特征表示当中。实验表明基于跨模态的增量学习模型仍能保持旧数据集检索任务性能，并且在新增类样本集上也具有良好的检索精度。

格式：

文章

知识引导的连续学习方法-多媒体内容理解与生成

李宏亮,

如何学习新知识同时减少对旧知识的灾难性遗忘是目前连续学习面临的重要挑战。本次报告将围绕视觉任务中的连续学习问题，从多教师连续学习机制到具体视觉任务中的连续学习模型的实现，介绍最近的相关工作。最后针对视觉任务连续学习的若干问题进行简要讨论。

格式：

视频

视觉语言模型引导的文本知识嵌入的小样本增量学习

姚涵涛、余璐、徐常胜,

真实场景往往面临数据稀缺和数据动态变化的问题，小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘。已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器，实现模型对于新数据的迁移和旧数据的抗遗忘。但是少量数据的视觉特征往往难以建模一个类别的完整特征分布, 导致上述算法的泛化能力较弱. 相比于视觉特征, 图像类别描述的文本特征具有较好的泛化性和抗遗忘性. 因此, 在视觉语言模型的基础上, 研究基于文本知识嵌入的小样本增量学习, 通过在视觉特征中嵌入具有抗遗忘能力的文本特征, 实现小样本增量学习中新旧类别数据的有效学习. 具体而言, 在基础学习阶段, 利用视觉语言模型抽取图像的预训练视觉特征和类别的文本描述, 并通过文本编码器实现预训练视觉特征到文本空间的映射. 进一步利用视觉编码器融合学习到的文本特征和预训练视觉特征抽象具有高辨别能力的视觉特征. 在增量学习阶段, 提出类别空间引导的抗遗忘学习, 利用旧数据的类别空间编码和新数据特征微调视觉编码器和文本编码器, 实现新数据知识学习的同时复习旧知识. 在4个数据集(CIFAR-100, CUB-200, Car-196和 miniImageNet)上验证算法的有效性, 证明基于视觉语言模型文本知识嵌入可以在视觉特征的基础上进一步提升小样本增量学习的鲁棒性。

格式：

文章

自动驾驶汽车的开放环境人工智能和持续学习

刘兵,

自动驾驶汽车也许是对人工智能的一种真正考验，它存在一些需要人类层次的智能和学习能力才能解决的问题，这些问题目前的学习算法还无法解决。当前最成功的学习方式均是基于孤立状态和封闭环境的前提，只适用于封闭环境中定义良好的窄任务。对于像自动驾驶汽车这样的机器人系统来说，需要面对真实、不确定和充满未知的开放世界，现有的算法还远远不够。人类可以不断地学习，积累所学的知识，以自我监督和互动的方式学习，开放世界终身/持续学习旨在模仿这种人类的持续学习能力。本次报告将讨论一些在自动驾驶汽车中可能需要通过开放世界持续学习才能解决的挑战性问题，并介绍一些初步的尝试。

格式：

视频