返回首页

联手信息系统专业委员会:“多模态表示学习”术语发布 | CCF术语快线

阅读量:57 2021-12-10 收藏本文

本期发布术语热词:多模态表示学习(Multimodal Representation Learning)。


开篇导语:


本期发布术语热词:多模态表示学习(Multimodal Representation Learning)。在大数据环境和新基建背景下,人机交互过程中数据对象的日益丰富和变化,呈现多模态的特点。其中,“多模态”可以直观地理解为数据不同的多媒体形式,也可以作为一个更加细粒度的概念。多模态表示学习旨在通过利用不同多模态数据之间的互补性,剔除模态冗余性。从而将多模态数据语义表征为实值向量...


多模态表示学习(Multimodal Representation Learning)

作者:王萌(东南大学)


InfoBox:

中文名:多模态表示学习

外文名:Multimodal Representation Learning

学科:机器学习

实质:表示学习


简介:

在大数据环境和新基建背景下,人机交互过程中数据对象的日益丰富和变化,呈现多模态的特点。其中,“多模态”可以直观地理解为数据不同的多媒体形式,也可以作为一个更加细粒度的概念,关键点在于为数据是否具有异构性,例如,对于某个歌手,互联网上可以找到他的照片和歌曲视频,同时也有相关的文本信息(百科,新闻等)以及具体的歌曲音频。这四种数据代表了图片、视频、文本、语音,可以被理解为该对象的多模态数据。多模态表示学习旨在通过利用不同多模态数据之间的互补性,剔除模态冗余性,从而将多模态数据的语义表征为实值向量,该实值向量蕴含了不同模态数据的共同语义和各自特有特征,可以应用于多模态数据的处理和理解中。


研究概况:

目前的多模态表示学习目前涉及了人工智能多个领域的研究,这里从宏观方向上的机器学习和知识工程两个研究领域介绍代表性工作(不一一列举):


机器学习领域:

在理论层面,Ngiam等人采用联合表示学习的思路[1],将自动编码器无监督学习的思想扩展到多模态领域,旨在将各个模态的数据源映射到同一个空间中进行表示,其核心思路是使用堆叠降噪自动编码器来分别对每个模态进行表示,然后在神经网络融合层使用另一个自动编码器将它们融合成一个多模态表示。另一种方法是协同表示学习,其思路是分别将各模态投影到独立的空间中表示,但是这些空间有约束关系,例如,清华大学朱文武等人提出了一种面向多模态表达的紧致哈希编码方法[2]。该工作首先基于模态内和模态间的相关性约束设计深度学习模型生成哈希编码,在此基础上基于正交正则化方法降低哈希编码特征的冗余性,并给出理论分析。


在应用层面,北京大学彭宇新等人提出了跨媒体智能[3]的概念,其借鉴人脑跨越视觉、听觉、语言等不同感官信息认知外部世界的特性,重点研究了多模态表示学习在跨媒体分析推理技术中的应用,包括细粒度图像分类、跨媒体检索、文本生成图像、视频描述生成等。华南理工大学蔡毅等人[4]提出一种结合图像信息和文本信息的神经网络来对短文本中的实体进行识别和消歧。其核心思想是将视觉和文本信息通过表示学习生成的嵌入连接起来,并且为细粒度的信息交互引入了的共同关注机制,实验结果表明,其方法优于单纯依赖文本信息的方法。


知识工程领域:

在理论层面,多模态表示学习理论方面的代表性工作是Mousselly等人[5]将视觉特征、文本特征和符号知识(主要是知识图谱)的结构特征构建成统一的知识嵌入,相较于传统的基于结构的知识图谱表示学习,其在链接预测和实体分类任务上的效果均有提升。清华大学刘知远等人[6]在后续提出了改进模型IKRL,其核心思路是在表示学习的过程中就将视觉特征和知识图谱的结构特征进行联合建模,进而在学习过程中通过不同模态信息之间的约束生成质量更高的多模态知识图谱嵌入。


在应用层面,中国科学技术大学的徐童等人[7]探索了如何有效联合映射与建模知识图谱中的跨模态语义信息,进而为支撑面向多模态内容的智能应用服务(如多模态知识图谱实体对齐)奠定重要基础。国防科技大学的赵翔等人[8]在多模态知识图谱的实体对齐任务上进一步进行了探索,其主要将多模态实体对齐任务从欧式空间拓展到了双曲空间进行建模表示,最终利用双曲空间内的图卷积网络和视觉特征抽取模型DENSENET实现了多个数据集上的实体对齐效果。


参考文献:

[1]Ngiam J, Khosla A, Kim M, Nam J, Lee H, Ng A Y. Multimodal deep learning [C]. Proceedings of the 28th International Conference on International Conference on Machine Learning, 2011: 689-696.
[2]Wang D, Cui P, Ou M, Zhu W. Learning compact hash codes for multimodal representations using orthogonal deep structure [J]. IEEE Transactions on Multimedia, 2015, 17(9): 1404-1416.
[3]Peng Y-x, Zhu W-w, Zhao Y, Xu C-s, Huang Q-m, Lu H-q, Zheng Q-h, Huang T-j, Gao W. Cross-media analysis and reasoning: advances and directions [J]. Frontiers of Information Technology & Electronic Engineering, 2017, 18(1): 44-57.
[4]Wu Z, Zheng C, Cai Y, Chen J, Leung H-f, Li Q. Multimodal Representation with Embedded Visual Guiding Objects for Named Entity Recognition in Social Media Posts [C]. Proceedings of the 28th ACM International Conference on Multimedia, 2020: 1038-1046.
[5]Mousselly-Sergieh H, Botschen T, Gurevych I, Roth S. A multimodal translation-based approach for knowledge graph representation learning [C]. Proceedings of the Seventh Joint Conference on Lexical and Computational Semantics, 2018: 225-234.
[6]Xie R, Liu Z, Luan H, Sun M. Image-embodied knowledge representation learning [C]. Proceedings of the 26th International Joint Conference on Artificial Intelligence, 2017: 3140-3146.
[7]Chen L, Li Z, Wang Y, Xu T, Wang Z, Chen E. MMEA: Entity Alignment for Multi-modal Knowledge Graph [C]. Proceedings of the International Conference on Knowledge Science, Engineering and Management, Springer, 2020: 134-147.
[8]Guo H, Tang J, Zeng W, Zhao X, Liu L. Multi-modal Entity Alignment in Hyperbolic Space [J]. Neurocomputing, 2021, 461(1): 598-607.

术语工委及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。


术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。


新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。

微信图片_20230410125847



计算机术语审定工作委员会

主任:

刘挺(哈尔滨工业大学)

副主任:

王昊奋(同济大学)

李国良(清华大学)

主任助理:

李一斌(上海海乂知信息科技有限公司)

执行委员:

丁军(上海海乂知信息科技有限公司)

林俊宇(中国科学院信息工程研究所)

兰艳艳(清华大学)

张伟男(哈尔滨工业大学)

640 (1)