有关情感计算的论述可以追溯到20世纪末的詹姆斯·罗塞尔(James Russell)。1970年,人工智能创始人之一、ACM图灵奖获得者、麻省理工学院教授明斯基(Minsky)在《脑智社会》(The Society of Mind)专著中就情感的重要性专门指出“问题不在于智能机器能否有情感,而在于没有情感的机器能否实现智能(The question is not whether intelligent machines can have any emotions, but whether machines can be intelligent without emotions)”。1994年,美国爱荷华大学神经科学家达马西奥(Damasio)教授从大量的现场实验中得出结论:“当人的大脑中缺少负责处理情感机制的神经子系统,或者其受到损伤时,他将不能有效地进行决策活动”。这个结论让人们对情感在人类智能中的重要作用有了更深的认识,促使研究者对情感计算进行更深入的研究。
然而计算能力的提高并没有带来计算机在情感处理方面性能的提升,这是目前信息科学、脑认知、神经科学共同面临的一个难题。情感计算作为认知科学、信息科学与社会科学的交叉学科,在计算机情感处理性能方面起到了重要的纽带和聚合作用。情感智能的研究将给人工智能、脑认知科学发展带来很多全新的方向(如大脑机制、个人和群体心理等)。
情感的认知和建模
情感的认知
现代研究认为情感受到环境、生理状态和认知过程这三种因素的制约。其中,认知过程在情感的产生中起关键性的作用。心理学家以及从事认知科学研究的学者在情感的认知方面做了很多努力。1988年,奥托尼(Ortony)和科林斯(Collins)在《情感的认知结构》(The Cognitive Structure of Emotions)一书中提出了著名的OCC模型[1]。该模型将情感与人工智能中的智能体研究相结合——通过建立基于OCC模型和操作制约理论的情感智能体,来模仿智能系统与环境的交互过程。OCC模型假设情感是一个评价的认知过程,评价取决于事件(愉快与否)、主体(满意与否)和对象(喜欢与否),最终构成情感的倾向(正面/负面)。
由于情感的表征和产生都较为复杂,目前,学术界关于情感的表示并没有统一的认识,也没有一个测量评价标准,其表示方法主要分为离散情感论和维度情感论两大类。
离散情感理论
离散情感理论基于达尔文的生物进化理论,将情感看作是与物种生存相适应的进化现象。该理论将情感视为离散的相互独立的实体,分为基本类和扩展类/复合情感两种。派生复合情感是由基本情感变化或混合得到的。考伊(Cowie)将这种生成理论命名为情感的“调色板理论”,认为最主要的基本情感状态可以生成其他情感状态。福克斯(Fox)提出了一种三级情感模型,认为“按照情感中表现的主动和被动程度,可以将情感分成不同的等级,等级越低,分类越粗糙;等级越高,分类越精细”。
维度情感理论
维度情感理论是用连续的维度空间来描述情感,用它们在维度空间中的相对距离来衡量彼此的相似性和差异性,并认为情感状态的转变是逐渐的、平稳的。最早提出维度情感模型的是德国心理学家威廉·冯特(Wilhelm Wundt),他认为情感空间由愉快-不愉快、激动-平静和紧张-松弛三个维度构成,每种情感即为这三维空间中的一个点。随后,罗塞尔提出了简化的情感环模型[2]。在该模型中,情感分为愉快度和强度两维,将多种情感分布在二维坐标中的不同点上。梅拉比安(Mehrabian)在此基础上提出了PAD(Pleasure- Arousal- Dominance,愉悦度-激活度-优势度)三维情感空间[3]。其中,P代表愉悦度,表示个体情感状态的正负特性;A代表激活度,表示个体的神经生理激活水平;D代表优势度,表示个体对情景和他人的控制状态。
研究表明,这两种情感表示方法在应用上各有优劣。离散情感虽然给出了人能理解和体会的情感表示,但表示的情感种类有限,只能定性描述,不能完全反映人类复杂、微妙的心理情感状态;维度情感虽然从理论上能表示人类所有的情感状态,但由于情感状态被统一表示为维度空间中的坐标值,一般不易被人理解和体验。
多模态情感信息获取
情感语音处理
情感语料是进行情感语音研究的重要基础。过去几十年,国内外研究者已经构建了多种情感语料库。这些情感语料从自然度和表现形式来看,分为表演语料、引导语料和自然语料三类[4]。典型的表演语料包括Berlin(柏林)语料库、SAVEE语料库和中科院自动化所情感语料库。引导语料一般采用有情感倾向性的图片或者视频,激发被试的情感状态,进而得到半自然状态的情感语料。这类语料的代表有IEMOCAP1。随着情感计算研究的深入,自然情感语料因其情感表达的真切自然而受到学者的广泛关注。这类语料的代表有Belfast(贝尔法斯特)语料库、AFEW语料库等。CHEAVD是一个近期构建的大规模的音视频情感语料库[5],是从中文的电影、电视剧和节目中截取的,十分接近现实生活中的应用场景,属于自然型数据库。该语料库采用离散情感标注,除了常见的基本情感,还标注了骄傲、窘迫等一些非典型情感。
研究表明,情感识别系统在表演型数据库(情感的表达较为夸张)与自然型或引导型数据库上的识别效果仍然存在一定的差异,表演型数据库的识别准确率要远高于另外两类数据库[6]。但是,从实际应用的角度来讲,需要识别非表演形态下人物的情感。因此,近期的研究越来越集中到非表演型的数据库中。
关于情感语音的声学特征,文献[7~11]都对情感语音分析和情感语音识别进行了深入的调研和分析,其中声学特征的分析主要围绕韵律、频谱和音质特征进行。尽管韵律、音质和频谱这三类特征均对情感识别有不同程度的贡献,但是它们在不同语料下的作用不尽相同。李雅等人[6]针对三种典型语料库分别做了实验分析,发现频谱类特征在自然情感识别下较为鲁棒,而韵律和音质类特征在表演语料条件下较为鲁棒,对情感识别结果贡献较大,具体结果如图1所示。
在几种典型情感状态下,语音的声学特征如表1所示。
表情的描述和特征获取
人脸表情识别是对人脸的表情信息进行特征提取和分析,利用人类所有的情感信息方面的先验知识,去判断人脸信息中包含的情感,主要包括人脸的检测和定位、特征点跟踪和抽取、通过统计模型进行表情识别,其流程如图2所示。其中,表情相关的特征提取和识别是研究的核心问题。目前表情参数的获取多是从人脸识别的研究发展而来。
形状特征主要反映的是人脸部位的位置或形状信息。埃克曼在表情参数的基础上,建立了面部运动编码系统(Facial Action Coding System, FACS)来描述面部表情。外观特征反映的是人脸纹理信息。外观特征方面,局部二值模式(LBP)、局部相位量化特征(LPQ)、盖博(Gabor)特征被广泛应用于静态图像的表情识别工作中。人脸特征点提取和定位以主导形状模型(ASM)和主动外观模型(AAM)为典型代表。主导形状模型不仅采用形状约束进行特征点定位,同时又融入了脸部的纹理特征。
在基于视频的情感识别工作中,时序信息为情感识别提供了关键信息。许多基于上述特征的时空特征,如LBP-TOP(LBP from Three Orthogonal Planes),也在基于视频的表情识别中得到广泛应用。计算机视觉中常用的方向梯度直方图(HOG)描述子、塔式方向梯度直方图(PHOG)描述子、尺度不变特征变换(SIFT)描述子与词袋模型(BOW)和Gist描述子也均在表情识别工作中有所涉及。
人体姿态与手势的跟踪
现有的姿态检测技术分为基于视觉技术的方法和非视觉技术的方法。非视觉方案的典型代表包括机械式、声学式、光学式、电磁式等测量方法。基于视觉技术的方法则通过视觉处理技术对人体姿态进行检测和估计。相关研究多采用一种基于人体轮廓的关节位置确定方法,得到人体姿态并对其进行情感识别。
随着可穿戴设备的发展,实时采集人体姿态与手势变得更为便利。身体的姿态以及肢体动作等主要通过在人体躯干、四肢关节等典型部位部署惯性运动测量单元模块,并通过有线或无线方式在模块间建立数据通信网络来实现传感数据的传输和汇聚。
精细的手指运动原始信号的采集可通过惯性传感、视觉传感和柔性传感等方法得到,相关的研究工作包括:(1)在视觉传感方面,马约尔(Mayol)等人在用户肩部放置的摄像头装置检测手指运动[13];泰德(Thad)等人在头盔中集成了摄像头,用于捕获用户的哑语手势。(2)在柔性传感方面,典型的工作有奥格里斯(Ogris)等集成在肩、肘、腕部位衣物中检测肢体运动应力的压力传感电阻条,体感臂环产品MYO中采集手指运动产生的肌电信号的传感装置等。
生理信号的采集和获取
生理信号是伴随着情感变化由人体内部器官产生的一种生物电信号,更能客观真实地反映情感状态。这种信号大多频率较低,不稳定,变化较大,易受到各种因素的干扰,要做到准确测量有一定的难度,但对情感的变化反应较敏感,可以通过可穿戴计算系统进行采集[15],即通过在生理信号源部位部署光电、压电、应力等各类传感装置来实现。典型的研究工作包括:欧盟MyHeart项目嵌入了心电图和惯性传感,采用有线集中供电的智能衣物和胸带等;意大利MagIC项目将心电、呼吸等传感器以及一个便携式运动检测装置集成到无纺布织物中,用于全天候持续监护用户的心脏;欧盟智能纺织品和交互式纺织品项目MERMOT使用低成本、舒适、可拉伸的针织传感衣物,用于心电监测、电感体积描记法呼吸测量、体温测量以及运动测量等。
情感识别
情感识别的研究重点是通过各类传感器获取由人类情感引起的生理指标或者行为特征信号,并建立可计算的情感模型,使计算机能够感知、识别和理解用户的情感。从情感表达方式看,情感识别本质上是一个多模态融合的问题。典型的多模态情感识别系统如图3所示。
语音情感识别研究
情感语音识别系统框图如图4所示。根据情感模型的不同,情感语音识别主要分为离散情感识别和连续情感语音识别。
离散情感识别是一个典型的模式分类问题,各种传统的分类器均被广泛应用于语音情感识别系统。例如隐马尔科夫模型(HMM)、高斯混合模型(GMM)、支持向量机(SVM)、人工神经网络(ANN)。文献[16]使用隐马尔科夫模型,采用LFPC、MFCC和LPCC这几个情感特征参数,进行了6类情感的识别,在缅甸语语料库和汉语普通话语料库中情感识别正确率分别达到78.5%和75.5%。弗拉先科(Vlasenko)等人在Berlin数据库上采用高斯混合模型进行语音情感识别,识别率达到了89.9%。EmotiW(Emotion Recognition in the Wild Challenge)是国际上著名的情感识别竞赛,自2013年开始每年举办一次[20],吸引了国内外30多支队伍参加。
维度情感识别一般被建模为回归预测问题。在机器学习算法层面,从考虑序列上下文信息角度出发,现有方法可分为静态和动态两种机器学习算法。在静态机器学习算法中,支持向量机、AdaBoost、高斯混合模型、多层感知器(MLP)、支持向量回归、线性回归器等广泛应用于维度情感识别中序列单元的分类或回归。鉴于维度情感的序列标注情况,序列上下文信息有助于提高情感识别性能[21~23],因而更多的工作集中于动态机器学习算法。舒勒(Schuller)等人作为维度情感识别的积极推动者,在动态机器学习方法上进行了一系列的先驱实验。2008年,沃尔默(Wöllmer)等人[22]将长短时记忆模型循环神经网络(LSTM-RNN)[24, 25]引入维度情感识别领域,并同时利用了条件随机场(CRF)。两种动态机器学习算法均取得了超越支持向量回归算法的实验效果。2010年,沃尔默等人将双向长短时记忆循环神经网络(BLSTM)引入基于对话应用的情感识别系统中。此后,基于长短时记忆模型循环神经网络的系统[21, 26~28]便被广泛应用于维度情感识别领域。在另一项国际情感识别评测AVEC(International Audio/Visual Emotion Challenge and Workshop)[29]中,基于长短时记忆模型循环神经网络的系统在2011年和2015年均取得了最佳成绩[21, 30]。与此同时,伴随着维度情感识别领域的发展,其他动态机器学习算法,如级联隐马尔科夫模型(Concatenated-HMM)、延时动态条件随机场(Latent-Dynamic CRF)、连续型条件随机场(Continuous-CRF)等也被引入维度情感识别建模中。
表情识别研究
人脸表情识别的流程主要包括人脸的检测和定位以及表情的特征提取和识别。现有的表情识别技术多集中在从静态图像、视频序列中获取特征,进而进行情感识别。目前面部表情分析方法大致分为基于几何特征的方法和基于视觉特征的方法。这两种方法主要在特征的提取与描述方法上有所不同。基于几何特征的方法包括面部成分的形状和位置特征、面部特征点的位置等。典型的基于视觉特征的方法是动态纹理识别方法。文献[32]对自动表情识别技术进行了全面详尽的分析。常见的表情数据库有Cohn-Kanade数据库、JAFFE数据库和ORL数据库[31]等。
在表情分类方法方面,各种传统的分类器也都被广泛使用。基于深度学习的特征提取近年来受到了越来越多的重视。卡荷(Kahou)等人[33]利用多种深度学习神经网络模型在EmotiW 2013情感识别比赛中夺得了第一名。他们在表情的外观特征提取中,采用了深度卷积网络(CNN)模型[34]。文献[35]利用人脸识别数据库对深度卷积网络进行预训练,并利用预训练好的深度卷积网络来提取表情特征。实验结果表明,经过人脸识别数据训练的深度卷积网络能够很好地泛化到表情识别任务中。除了基于单帧图像的深度卷积网络提取特征以外,基于视频连续帧的特征提取也有相关的研究工作[36]。总体而言,由于受到基于视频的表情识别数据库规模的限制,目前基于深度学习的特征学习大都集中于对静态图片的表情识别,基于视频的表情识别也大都对单帧静态图像提取相应的特征再进行后期的处理。
多模态情感识别
虽然多模态信息的提取、建模、识别方法有很多,但目前国内外尚缺乏有效的针对实际情感计算系统需要的特征表述和信息融合手段。更进一步,由于以往的研究多侧重当前孤立状态的情感识别,缺乏对历史情感状态的融入,因此,无法准确地对当前用户情感状态进行判断。对来自生理、视听觉、语境等情感相关的多模态异构异步信息的感知、识别和深度融合机制进行探索,是情感计算需要解决的一个关键问题。
从信息融合层面上讲,多模态信息融合的方法主要包括决策层融合和特征层融合,也有一些学者将这两个融合方式混合使用[37]。
基于决策层的融合方法可以归纳为以下三类[37]:基于规则的算法、基于分类器的算法和基于估计的算法(如卡尔曼滤波器、粒子滤波器等)。这几种融合方法均在音视频融合的情感识别领域得到广泛应用。图6表示一个音视频的多模态决策层融合方法[39]。文献[33]采用基于支持向量机、多层感知器和线性融合的方式,并且基于规则的线性融合方式在EmotiW2013中显著提高了情感识别准确率。文献[40]提到的层级分类器融合方法中采用了多数投票机制实现最终的预测。在维度情感识别方面,文献[41]采用延时动态条件随机场进行音频和视频信号的情感预测,实现两个信号流融合后的情感输出。文献[26]在音频单独建模和双模态融合方面均采用长短时记忆模型循环神经网络。整体而言,基于规则和分类器融合的方法更多地应用于离散情感识别,而维度情感识别中多为基于分类器的融合和估计算法的融合。同时,由于决策层融合方式的操作方便灵活,允许各个模态采用最适合的机器学习算法进行单独建模,因此是目前最常用的融合方法。
特征层融合的做法通常是将各个通道的特征相串联组合成一个长的特征向量,再将该特征向量放入机器学习算法进行分类或回归输出。黄(Huang)等人[42]采用基于Boosting算法将音频特征和视觉特征融合起来实现音视频数据的情感分类。在EmotiW2013,西卡(Sikka)等人[43]利用多核学习方法将多组视觉描述子与音频特征相融合,实现了多组特征互相竞争并互相补充,使得分类精度最大化。金(Kim)等人[44]利用深度置信网络在音频和视频信号上学习联合特征。特征层融合的方式考虑了多个通道之间的数据耦合,然而特征层融合后容易发生维度灾难,并且情感识别中的数据规模相对较小,容易发生模型过拟合的现象。另一方面,特征层融合对数据有时序对齐要求,而音频数据和视频数据的采样率并不一致,这也限制了其在情感识别尤其是维度情感识别中的应用。
模型级融合技术为各模态建立统一的模型,既降低了对各信息源同步的要求,又利用了各模态之间的关联信息。曾(Zeng)等人[45]根据最大熵及最大互信息准则,利用多流融合隐马尔科夫模型建立了音频数据流和视频数据流之间的最优连接。
从EmotiW2013到EmotiW2015,六种基本情感的音视频多模态情感识别准确率正逐年提高,分别为41.03%[33]、50.37%[35]和53.80%[46]。但由于背景噪声、大范围头部运动、光照、遮挡等多种因素对情感识别的影响,在完全自然条件下情感识别仍然是一个极具挑战性的问题。
除了音视频融合的情感识别外,视频与人体姿态、手势、语音与生理信号等几种模态也可以进行各种融合,用于多模态的情感识别研究。麻省理工学院媒体实验室将生理信号的特征与语音信号的模式识别结合起来进行情感状态的确认,以提高语音情感识别的正确率。瓦格纳(Wagner)等人通过融合肌动电流、心电、皮肤电阻和呼吸这四个通道的生理参数,获得了92%的融合识别准确率。
情感计算的应用
情感交互系统是情感计算的综合性应用,包括多模态情感识别和情感合成两个方面的应用。图7是一个典型的情感交互系统示意图。情感语音识别技术典型的应用包括电话服务中心和网络教学。在电话服务中心中,可以通过自动情感识别技术及时发现负面情绪较为激烈的用户,并将他们的电话及时转接给人工客服,达到优化用户体验的目的。在网络教学中,可以采用情感识别技术对学生的学习状态进行监控,在学生出现注意力不集中或处于负面情感状态的时候,及时提醒学生或者调整授课策略、改进教学方式,进而提高教学质量,减少教学资源的浪费。在支持情感的人机交互系统中,融入表情识别的人机交互系统能够针对用户的表情等状态,更智能地提供恰当的反馈输出。