国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

情感計算與理解研究發(fā)展概述

2022-07-04 01:53姚鴻勛鄧偉洪劉洪海洪曉鵬王甦菁楊巨峰趙思成
中國圖象圖形學報 2022年6期

姚鴻勛,鄧偉洪,劉洪海,洪曉鵬,王甦菁,楊巨峰,趙思成

1. 哈爾濱工業(yè)大學,哈爾濱 150006; 2. 北京郵電大學,北京 100876; 3. 中國科學院心理研究所,北京 100083;4. 南開大學,天津 300071; 5. 美國哥倫比亞大學,紐約 10032,美國

0 引 言

情感(emotion) 一詞源于希臘文“pathos”,最早用來表達人們對悲劇的感傷之情。情感在感知、決策、邏輯推理和社交等一系列智能活動中起到核心作用,甚至有研究顯示“人類交流中80%的信息都是情感性的信息”。由于情感在人類信息溝通中的重大意義,情感計算是實現(xiàn)人機交互過程必不可少的部分,也是讓機器具有智能的重要突破口。情感計算的概念由美國麻省理工學院媒體實驗室Picard教授提出,并于1997年正式出版書籍《Affective Computing(情感計算)》。在書中,Picard教授指出“情感計算是與情感相關(guān),來源于情感或能夠?qū)η楦惺┘佑绊懙挠嬎恪?,開辟了情感計算研究的先河。情感計算與理解旨在賦予計算機系統(tǒng)識別、理解、表達和適應人的情感的能力來建立和諧人機環(huán)境,并使計算機具有更高、更全面的智能。根據(jù)輸入信號的不同,情感計算與理解包含不同的研究方向。

1.1 多模態(tài)情感識別

多模態(tài)情感識別通過提取圖像、視頻、音頻、文本和生理信號等多種模態(tài)數(shù)據(jù)中的情感信號,完成情感的分類、回歸、檢測和檢索任務。多模態(tài)情感識別發(fā)展的早期,主要通過進行引導參與者產(chǎn)生目標情感的實驗,記錄參與者的生理信號、聲音和面部表情的方式收集數(shù)據(jù),支持多模態(tài)情感識別的研究(Koelstra等,2012;Soleymani等,2012)。近幾年,多媒體技術(shù)快速發(fā)展,越來越多的用戶在社交平臺上發(fā)表關(guān)于電影、餐廳和電子商品的評價內(nèi)容。研究者們開始搜集這些有情感傾向的圖像、視頻、音頻和文本評價內(nèi)容來構(gòu)造多模態(tài)情感研究的數(shù)據(jù)集(Zadeh等,2018c;Yu等,2020)。隨著數(shù)據(jù)量的增長和計算能力的突破,研究者們開始使用深度神經(jīng)網(wǎng)絡來分析多模態(tài)情感。很多研究使用基于Transformer的網(wǎng)絡進行識別任務(Rahman等,2020)。與之前的深度模型相比,基于Transformer的網(wǎng)絡具有更好的并行計算效率和更好的建模遠距離特征優(yōu)勢。多模態(tài)情感識別的研究可以進一步提升人們的生活質(zhì)量。在輿情分析方面,可以分析用戶對新冠疫情等事件的情感傾向;在商業(yè)智能方面,可以分析用戶對于商品的滿意度,設(shè)計引起用戶積極情感的廣告;在健康方面,可以分析駕車、上課等狀態(tài)下的情感程度,針對性地給出警示,提高工作效率。

1.2 孤獨癥情感識別

孤獨癥譜系障礙(autism spectrum disorder, ASD),又稱自閉癥,是兒童時期最常見的神經(jīng)發(fā)育障礙疾病之一,其臨床表現(xiàn)主要為社交溝通障礙、刻板行為和興趣狹隘(Centers for Disease Control and Prevention,2016)。根據(jù)美國疾病控制與預防中心(Centers for Disease Control and Prevention, CDC)2021年的調(diào)查報告,孤獨癥兒童患病率從2005年的1/166增長到了目前的1/44,且呈現(xiàn)逐年增加的趨勢?!吨袊蚤]癥教育康復行業(yè)發(fā)展狀況報告Ⅲ》指出,中國孤獨癥發(fā)病率約有1%,目前已約有超1 000萬孤獨癥譜系障礙人群,其中12歲以下的兒童達200多萬,而且孤獨癥兒童的數(shù)量每年以接近20萬的數(shù)字遞增。孤獨癥會嚴重影響患兒的日常生活,并給家庭和社會帶來巨大的花銷,據(jù)美國報道,孤獨癥兒童終身花銷大約為200萬美元到240萬美元。目前,孤獨癥尚無特效治療方法,主要以早期診斷、干預為主。然而,目前孤獨癥早期行為干預大多依賴于臨床醫(yī)師和專業(yè)人員通過行為學觀察并制定相應的干預方案,這種診療模式以臨床醫(yī)師和臨床專業(yè)人員為主導,其耗時較長,非常不利于該病的治療。 美國早在1943年就對孤獨癥有了第1次確診,但在中國,直到1982 年陶國泰教授才確診了我國第1例孤獨癥,經(jīng)過幾十年的發(fā)展,我國孤獨癥臨床和基礎(chǔ)研究取得了一定的進步。但迄今為止,我國孤獨癥診療仍面臨諸多困難:專業(yè)診療隊伍缺乏、無基于國情行業(yè)標準和診療指南等。社交溝通障礙是自閉癥的核心癥狀之一,主要體現(xiàn)在社交情境中患兒情感功能失調(diào)。根據(jù)《國際功能、殘疾和健康分類(兒童和青少年版)》,孤獨癥患兒的社交情感功能可以界定為兩大方面:情感識別與理解以及情感調(diào)節(jié)與表達。孤獨癥社交情感分析可為孤獨癥臨床康復提供新的技術(shù)手段和科學方法,也為揭示孤獨癥病理機制奠定了基礎(chǔ)。

1.3 情感圖像內(nèi)容分析

Minsky(1970年圖靈獎獲得者)曾指出,“問題不在于智能機器是否會有情感,而是沒有情感的機器能否智能”(Minsky,1986)。情感在機器和人工智能領(lǐng)域起到至關(guān)重要的作用,能夠影響人們的判斷與決策。隨著移動相機和社交平臺的廣泛普及,人們習慣于用圖像、視頻和文字等多媒體數(shù)據(jù)在線分享和表達自己的觀點(Zhao等,2020b)。識別這些數(shù)據(jù)中的情感內(nèi)容,可以幫助理解用戶的行為和情感?!耙粓D勝千言”,圖像可以傳遞豐富的語義信息。情感圖像內(nèi)容分析(affection image content analysis,AICA)的目標是理解認知層次的語義信息,識別圖像對特定觀看者或大多數(shù)人會誘發(fā)的情感(Zhao等,2021)。使用AICA自動地推斷人們的情感狀態(tài),可以幫助檢測他們的心理健康、發(fā)現(xiàn)情感異常,阻止他們對自己、甚至對整個社會進行的極端行為(Zhao等,2021)。

情感圖像內(nèi)容分析(AICA)在心理學和行為學的研究基礎(chǔ)上出現(xiàn),例如基于IAPS(International Affective Picture System)數(shù)據(jù)集研究視覺刺激與情感之間的關(guān)聯(lián)(Lang等,1997;Mikels等,2005)。早期情感圖像內(nèi)容分析的方法多是基于手工設(shè)計的特征,例如低層次的全局Wiccest和Gabor特征(Yanulevskaya等,2008)、藝術(shù)元素(Machajdik和Hanbury,2010)、中層次的藝術(shù)原理(Zhao等,2014)和高層次的形容詞名詞對(Borth等,2013)。2014年,研究者將大規(guī)模數(shù)據(jù)集上預訓練的卷積網(wǎng)絡參數(shù)遷移到AICA領(lǐng)域(Xu等,2014)。為了解決情感感知的主觀性問題,研究者們提出了個性化情感預測(Xu等,2014;Yang等,2013;Zhao等,2016;Rui等,2017)和情感分布學習(Zhao等,2015,2017c,2020a;Peng等,2015)策略。近幾年,領(lǐng)域自適應(Zhao等,2018b,2019b;Lin等,2020)和零樣本學習(Zhan等,2019)也應用到AICA領(lǐng)域,來解決情感標簽缺失問題。

1.4 面部表情識別

面部表情(facial expression)作為人類視覺最杰出的能力之一,是非語言交流的一種重要形式(Ekman,1965)。人臉表情分析(facial expression analysis, FEA) (Tian等,2011)則屬于計算機識別和解釋人類情感狀態(tài)的多學科研究領(lǐng)域——即情感計算的一部分,并建立在計算機視覺技術(shù)的基礎(chǔ)之上,通過分析不同來源數(shù)據(jù)(如靜態(tài)圖像和視頻)中的人臉表情,來直觀地揭示人物情緒狀態(tài)。在醫(yī)療健康、刑偵檢測、廣告娛樂和在線教育等系列場景中均有著廣泛的應用。

早在19世紀,關(guān)于人臉表情的研究就已經(jīng)展開,早期主要集中在心理學和生物學方面。1862年,神經(jīng)學家杜興通過其著名的面部電流刺激實驗,論證了面部肌肉是如何產(chǎn)生表情的(Emery等,2015)。緊接著,1872年,達爾文從進化論的角度出發(fā),在其著作《人類和動物的情感表達》中指出,人和動物擁有與生俱來的情緒和共同的情感生物起源(Darwin,2015)。該研究對心理學家??寺a(chǎn)生了巨大的影響。他在20世紀60年代開展的首批跨文化實地研究中支持了達爾文的假說,即表情具有普適性(Ekman和Friesen,1971)?;谠撗芯浚寺x了6種人類普遍表達的基本離散表情,即悲傷、恐懼、憤怒、開心、驚訝和厭惡(Ekman等,1987)。此外,還有一種基于局部外觀的客觀描述形式,即面部動作編碼系統(tǒng)(facial action coding system,F(xiàn)ACS)(Ekman和Friesen,1978)。該系統(tǒng)根據(jù)人臉解剖學的特點,將面部肌肉劃分成若干動作單元(action unit,AU),來描述人臉表情的組成和變化。目前觀察到的動作單元AU組合已經(jīng)達到7 000余種。

1.5 面部微表情識別

雖然在心理學上已有長達半個多世紀的研究,但是在計算機視覺、人工智能領(lǐng)域卻只有短短10余年的發(fā)展(Zhao和Li,2019)。2011年,芬蘭Oulu大學團隊提出了一種基于幀插值和多核學習(multiple kernel learning, MKL)的微表情識別方法,并建立了首個自發(fā)微表情識別數(shù)據(jù)集(Pfister等,2011)。自此以后,越來越多的學者嘗試用計算機視覺的方法研究自動微表情分析。

2 國際研究現(xiàn)狀

2.1 多模態(tài)情感識別

在多模態(tài)情感識別中,可以根據(jù)多種模態(tài)的情感信號來分析人的情感。這些不同的情感模態(tài)可以分為顯性和隱性兩類,顯性的模態(tài)從人的身體變化來表現(xiàn)情感,如人臉表情、眼球移動、聲音、動作、步態(tài)和腦電圖等,這些模態(tài)信號可以被觀察并記錄;隱性模態(tài)指從多媒體平臺上獲取的用戶信息,如用戶發(fā)表的圖像、視頻、音頻和文本,這些模態(tài)信息在數(shù)字設(shè)備之間傳輸并存儲。

多模態(tài)情感識別的數(shù)據(jù)集構(gòu)建包括獲取數(shù)據(jù)和情感標注兩個步驟。獲取數(shù)據(jù)的方法可以分為兩類,第1類在特定的場景下記錄實驗信息作為多模態(tài)情感數(shù)據(jù)。例如英國倫敦大學的Sander團隊構(gòu)建的DEAP(database for emotion analysis using physiological signals)(Koelstra等,2012), 記錄參與者觀看音樂劇時的人臉視頻、腦電圖等信號。第2類直接從多媒體平臺獲取用戶上傳的圖像、視頻、音頻和文本模態(tài)的數(shù)據(jù)。例如美國卡內(nèi)基梅隆大學的Louis-Philippe Morency教授團隊從YouTube收集用戶上傳的獨白視頻,構(gòu)建了具有代表性的CMU-MOSEI(Carnegie Mellon University——Multimodal Opinion Sentiment and Emotion Intensity)數(shù)據(jù)集(Zadeh等,2018c)。情感標注通常由多位參與者在情感維度打分或報告感受的情感類別。另外,一些數(shù)據(jù)集并不需要進行情感的標注。例如,EMODB數(shù)據(jù)集(Burkhardt等,2005)中,演員表演的每個句子都對應一個目標情感、Multi-ZOL的每條用戶評價都包含一個用戶給出的打分(Xu等,2019)。

多模態(tài)情感識別面臨來自多模態(tài)融合和情感識別兩方面的挑戰(zhàn)。多模態(tài)融合方面,第1個挑戰(zhàn)是數(shù)據(jù)缺失,在獲取數(shù)據(jù)的階段,由于傳感器的故障等難以避免的情況,經(jīng)常出現(xiàn)特定模態(tài)的數(shù)據(jù)不完整的問題;第2個挑戰(zhàn)是跨模態(tài)不一致,在社交平臺上,例如用戶發(fā)表的圖像與文本信息有時并無語義上的關(guān)聯(lián);第3個挑戰(zhàn)是跨模態(tài)信息不均衡,例如,新聞通常包含很大篇幅的文本內(nèi)容和少數(shù)的幾幅圖像。情感識別方面,第1個挑戰(zhàn)是情感的鴻溝,即從特定模態(tài)上提取的特征,缺乏情感上的區(qū)分性;第2個挑戰(zhàn)是感知的主觀性,由于文化、性格等因素的差異,不同的人感受到相同的刺激時,產(chǎn)生的情感可能差別很大;第3個挑戰(zhàn)是標簽的噪聲和缺失,由于主觀性,情感標注通常需要統(tǒng)計多位參與者的投票,因此通常自動地獲取網(wǎng)絡上的標記或關(guān)鍵詞作為標注。這種情況下,標簽通常包含很多噪聲。

多模態(tài)情感識別的計算方法包括情感模態(tài)的表示方法和情感模態(tài)的融合方法、多模態(tài)情感識別的分類方法、多模態(tài)情感識別的領(lǐng)域自適應方法。情感模態(tài)的表示,是存儲和利用模態(tài)信息的基礎(chǔ)。關(guān)于文本信息,詞語表示是分析文本內(nèi)容的基礎(chǔ)。目前主要通過詞到向量(word to vector, word2vec)、全局向量(global vectors, GLOVE)和基于變換器的雙向編碼器表示技術(shù)(bidirectional encoder representations from transformers,BERT)等訓練方法獲取詞語的表示向量(Xu等,2019;Poria等,2017;Zadeh等,2018b)。關(guān)于音頻信息,先轉(zhuǎn)換成頻譜圖等圖形化的表示,再用卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)提取特征的方法在很多大規(guī)模任務中有很好的表現(xiàn);關(guān)于圖像信息,關(guān)注圖像情感區(qū)域的表示方法有很好的競爭力(Yang等,2018a)。另外,如果圖像中包含人臉信息,那么人臉表情則是一個很有用的線索;關(guān)于視頻信息,由于包含一段有序的圖像,最近很多工作使用加入時序的3維卷積提取特征表示;關(guān)于生理信號,腦電圖是其中最有代表性的一種信號。腦電圖由多個通道組成,因此加入通道注意力的卷積神經(jīng)網(wǎng)絡可以更有效地提取表示信號的特征。

情感模態(tài)的融合是多模態(tài)情感識別的一個關(guān)鍵步驟,旨在結(jié)合不同情感模態(tài)的表示信息,完成情感識別任務。一般來說,情感模態(tài)融合包含模型無關(guān)融合、基于模型融合兩類方法。模型無關(guān)的融合方法可以分為先融合、晚融合、混合融合3類。先融合也稱為特征融合,將不同情感模態(tài)的表示在時間上同步后,連接為單個特征表示;后融合也稱為決策融合,將每個情感模態(tài)的識別結(jié)果進行集成。與先融合相比,后融合具有更好的靈活性和魯棒性?;旌先诤鲜褂靡粋€統(tǒng)一的框架將先融合與后融合結(jié)合起來并利用二者的優(yōu)勢,這種情況下進行計算的成本較高。目前,由于模型無關(guān)的融合方法難以表示多模態(tài)數(shù)據(jù)的復雜情況,基于模型的融合方法獲得了更多的關(guān)注。針對淺層模型,基于支持向量機(support vector machine, SVM)等核函數(shù)和基于圖的融合方法最具有代表性;針對深層模型,通常使用基于張量計算、注意力機制和神經(jīng)網(wǎng)絡的方法進行融合。

針對多模態(tài)情感識別的計算方法,本文在5個通用數(shù)據(jù)集上進行了非深度方法與深度方法的定量比較,在表 1中展示結(jié)果。比較的非深度方法包括支持向量機(SVM)、隨機森林(random forest, RF)和三模態(tài)隱馬爾可夫(tri-modal hidden Markov model, THMM),深度方法包括多視圖長短期記憶(multi-view long short-term memory, MV-LSTM)、雙向上下文長短期記憶(bi-directional contextual LSTM, BC-LSTM)、張量融合網(wǎng)絡(tensor fusion network, TFN)、多注意力循環(huán)網(wǎng)絡(multi-attention recurrent network, MARN)和記憶融合網(wǎng)絡(memory fusion network, MFN)。觀察表 1中的結(jié)果可以發(fā)現(xiàn),與非深度的分類方法相比, MARN(Zadeh等,2018b)、MFN(Zadeh等,2018a)等5個深度的方法在多數(shù)情況下具有更好的表現(xiàn)。另外,數(shù)據(jù)集不同,性能最好的模型也不同。在YouTube(Morency等,2011)、ICT-MMMO(W?llmer等,2013) 數(shù)據(jù)集上,MFN有明顯的優(yōu)勢;在IEMOCAP(Busso等,2008) 數(shù)據(jù)集上,MARN更有競爭力。另外,在CMU-MOSI(Busso等,2008) 數(shù)據(jù)集上使用基于Transformer進行詞嵌入的多模態(tài)情感分類方法進行定量實驗,在表 2中展示結(jié)果,其中FT(fine-turning)和MAG(multimodal adaptation gate)分別代表微調(diào)和多模態(tài)適應門。表2采用了BERT、超長網(wǎng)絡(extra long network, XLNet)兩種詞嵌入方法。與表1結(jié)果相比,基于Transformer的深度網(wǎng)絡明顯具有更好的性能,這是目前最有代表性的方法。通過進一步比較可以發(fā)現(xiàn),基于XLNet的方法具有更穩(wěn)定的優(yōu)勢。

表1 非深度方法與深度方法在5個常用多模態(tài)情感識別數(shù)據(jù)集的定量比較Table 1 Quantitative comparisons of some representative non-deep and deep methods on five widely-used multi-modal emotion recognition datasets

表2 在CMU-MOSI 數(shù)據(jù)集上分別使用BERT和XLNet作為詞嵌入對多模態(tài)情感識別分類方法定量比較結(jié)果Table 2 Quantitative comparisons of some representative methods for multi-modal emotion recognition on the CMU-MOSI dataset using BERT and XLNet as word embeddings

多模態(tài)情感識別的領(lǐng)域自適應方法,旨在從經(jīng)過標注的源域上學習模型,將模型遷移到無標注的目標域上同樣可以有很好的表現(xiàn)。領(lǐng)域自適應的方法是用來解決標簽噪聲挑戰(zhàn)的一個重要手段(Yu等,2021)。目前的工作致力于深度無監(jiān)督領(lǐng)域自適應的方法,采用兩條分支的結(jié)構(gòu)。一條分支在標記的源域上訓練多模態(tài)情感模型,另一條分支對齊源域與目標域的數(shù)據(jù)。

國際上比較有代表性的研究團隊包括美國卡內(nèi)基梅隆大學的Louis-Philippe Morency教授團隊、英國倫敦帝國理工學院的Bj?rn W. Schuller教授團隊、美國羅徹斯特大學的Ehsan Hoque教授團隊、新加坡南洋理工大學的Erik Cambria教授團隊、新加坡科技設(shè)計大學的Soujanya Poria教授團隊等。上述團隊的研究方向各有側(cè)重,例如Louis-Philippe Morency教授團隊關(guān)注多模態(tài)情感識別的計算方法,Bj?rn W. Schuller教授團隊關(guān)注在開放環(huán)境的情感分析,Ehsan Hoque教授團隊、Erik Cambria教授團隊關(guān)注對話中的情感識別,Soujanya Poria教授團隊關(guān)注情感模態(tài)的融合方法。

2.2 孤獨癥情感識別

目前,孤獨癥情感識別主要集中在面部情緒識別。面孔是人類表達、認知情感的重要工具和途徑,正確的表達和識別面部表情是人類生存的一項重要的技能,面部表情的識別和理解能力對于兒童有著重要的社會意義(Theeuwes和Van der Stigchel,2006;Tomasello等,2005)。與正常兒童相比,孤獨癥患兒在面部信息識別方面存在著障礙,例如孤獨癥患兒不能識別和理解表情,進而無法進行正常的社交或情感交流。隨著計算機視覺技術(shù)的發(fā)展,目前已經(jīng)存在多種情緒/情感分類算法,它們在孤獨癥篩查和干預方面發(fā)揮著重要作用。然而,這些算法主要是在成人數(shù)據(jù)集上進行訓練的,因此無法推廣到孤獨癥患者進行應用。為了解決上述問題,美國斯坦福大學Kalantarian等人(2019)通過一種移動猜謎游戲來收集和標記孤獨癥患兒的情感數(shù)據(jù)。實驗結(jié)果表明,分類器在孤獨癥數(shù)據(jù)集上的識別能力能夠得到較大提升。隨后,通過與主流云提供商相互合作,Kalantarian等人(2020)將他們的面部情感分析模型提供給消費者以便進一步對模型進行迭代和優(yōu)化。同樣來自美國斯坦福大學,Washington等人(2019)認為目前的大多數(shù)工作都側(cè)重于通過面部感知和學習來訓練孤獨癥患兒的情感識別能力,較少有方法通過協(xié)作/交互的方式讓孤獨癥患兒能夠意識到情感的存在。因此,他們通過一個協(xié)作游戲告知孤獨癥患兒彼此間的情緒,以減輕患兒的壓力,使其快樂參與游戲。與利用視覺進行情緒識別不同,美國斯坦福大學的其他一些學者(Nag等,2020)通過可穿戴智能眼鏡分析孤獨癥患兒的凝視模式以識別他們的情緒,作者認為可穿戴技術(shù)或許能夠?qū)⑶榫w識別帶入自然的社交互動和環(huán)境中,因此能夠更好地探索情緒對社交的影響。美國麻省理工學院的學者在孤獨癥篩查和干預方面也有很深入的研究,例如Rudovic等人(2018)利用深度學習技術(shù)定制了個性化的機器學習框架,用于在機器人輔助自閉癥治療期間自動感知兒童的情感狀態(tài)和參與度。此外,Narain等人(2020a,b)圍繞非語言發(fā)聲(如嘆息、咕嚕聲和單音節(jié)聲音)進行研究,他們認為對于患有輕微孤獨癥的人,這些發(fā)聲包含重要的個人情感和交流信息。英國倫敦學院Palser等人(2021)認為孤獨癥患者在理解情緒方面是有差異的。通過實驗,他們發(fā)現(xiàn)孤獨癥兒童身體情感地圖的潛在差異與內(nèi)在的感受信號處理有關(guān)(如心跳),因此可以通過內(nèi)在的生理信號分析這種差異化。美國匹茲堡大學Conner等人(2020)研究發(fā)現(xiàn)許多孤獨癥患兒在管理情緒(情緒調(diào)節(jié))和焦慮方面存在問題。通過1 000份調(diào)查問卷,他們認為雖然情緒調(diào)節(jié)和焦慮是相互關(guān)聯(lián)的,但情緒調(diào)節(jié)問題可能是治療自閉癥焦慮癥的重要目標。英國紐卡斯爾大學Ola和Gullon-Scott(2020)研究發(fā)現(xiàn)感知和體驗情緒共享相同的神經(jīng)系統(tǒng),因此能夠識別自己的情緒可能有助于識別他人的能力。上述國際研究大都在探究影響孤獨癥患兒的外在和內(nèi)在因素,進而分析導致孤獨癥典型癥狀的原因,為臨床的篩查和干預提供依據(jù)。

2.3 情感圖像內(nèi)容分析

情感圖像內(nèi)容分析一般包括數(shù)據(jù)集構(gòu)建、情感特征提取和分類模型學習等步驟(Zhao等,2021)。在AICA研究初期,數(shù)據(jù)集通常來自于心理學或藝術(shù)學領(lǐng)域,數(shù)據(jù)集規(guī)模通常較小,例如IAPS(Lang等,1997)、Abstract (Machajdik和Hanbury,2010)、GAPED(Geneva affective picture database)(Dan-Glauser和Scherer,2011)和MART(Museum of Modern and Contemporary Art of Trento and Rovereto)(Alameda-Pineda等,2016)等。其中IAPS(Lang等,1997)是最常用的視覺情感刺激數(shù)據(jù)集,它來自于情感實驗分析和心理學注意力研究中,包含1 182幅現(xiàn)實風格自然圖像,由約100位本科生標注為9種情感等級。IAPS的一個子集IAPSa(Mikels等,2005)由20位本科生標注為8種離散情感類別。隨著社交網(wǎng)絡的快速發(fā)展,多個大規(guī)模數(shù)據(jù)集通過爬取網(wǎng)絡數(shù)據(jù)的方式產(chǎn)生,例如FI(You等,2016)、VSO(Borth等,2013)、Emotion6(Peng等,2015)、T4SA(Twitter for sentiment analysis)(Vadicamo等,2017)和LUCFER(labeled University of Central Florida emotion recognition)(Balouchian等,2019)等。VSO數(shù)據(jù)集(Borth等,2013)用1 000多個形容詞—名詞對作為檢索詞從Flickr搜索并下載約50萬幅圖像。標注圖像的ANP包含在圖像對應的標題、標記或者描述等元數(shù)據(jù)中。采用Plutchik輪盤的8種基本情感和3種強烈程度作為情感模型。Emotion6(Peng等,2015)同樣使用來自于Flickr的圖像,基于優(yōu)勢度—激活度(valence-arousal,VA)分數(shù)和離散的情感分布兩種情感模型進行標注。FI(You等,2016) 是一個基于Mikels的情感模型構(gòu)建的常用的大規(guī)模情感圖像數(shù)據(jù)集,其包含的圖像通過使用8種情緒作為關(guān)鍵詞在Flickr和Instagram搜索得到,并雇傭200余位AMT員工標注圖像。

情感特征提取在AICA中起到至關(guān)重要的作用。研究者們提出了多種有效的視覺特征(從傳統(tǒng)的手工特征到近期的深度特征)來表示情感。研究初期,各種低層次特征用來表示情感內(nèi)容。例如,Machajdik和Hanbury(2010)融合了不同類型的特征,包括各種顏色和紋理表示,是低層次特征發(fā)展過程的一個里程碑; Lu等人(2012)系統(tǒng)地研究視覺形狀對于圖像情感的影響; Sartori等人(2015)基于Itten的顏色輪盤,研究了抽象畫中不同的顏色組合與圖像情感之間的關(guān)聯(lián)。低層次特征容易從已有的計算機視覺特征中遷移而來,但卻缺乏合理的解釋,并且與情感之間的關(guān)聯(lián)較弱。相較于低層次特征,中層次情感特征更易于理解,并且與情感之間的關(guān)聯(lián)更加強烈。例如, Yuan等人(2013)提出了一個稱為Sentribute的中層屬性特征,并且考慮了檢測到的人臉表情; Rao等人(2016)考慮了基于多尺度結(jié)構(gòu)的情感特征挖局,使用不同的分割方法提取每幅圖像的多尺度模塊,然后提取圖像的尺度不變特征變換(scale-invariant feature transform,SIFT)特征,使用視覺詞包(bag of visual words,BoVW)的方法編碼每個模塊,結(jié)果證明BoVW可以較好地描述不同區(qū)域的情感信息。高層次特征指容易理解且可以直接使觀看者產(chǎn)生情感的圖義信息。最具代表性的高層特征是SentiBank,一個大規(guī)模視覺情感本體論。它包含1 200個概念,每一個概念表示一個形容詞—名詞對,例如可愛的小孩,這些概念包含很明顯的語義信息。Jou等人(2015)對Sentibenk進行了擴展,提出了一個大規(guī)模多語言視覺情感本體論。

近年來,隨著卷積神經(jīng)網(wǎng)絡的快速發(fā)展,基于學習的特征在AICI研究中越來越受重視。此類方法大致可分為兩類:全局特征和局部特征。全局特征平等地處理和對待圖像中每個區(qū)域;基于心理學中關(guān)于情感區(qū)域的研究,局部特征側(cè)重于提取包含豐富信息的局部特征。Chen等人(2014)使用卷積神經(jīng)網(wǎng)絡對1 200個形容詞—名詞對進行分類,所提出的基于深度網(wǎng)絡的DeepSentiBank 模型取得的性能明顯好于不用深度網(wǎng)絡的SentiBank。Xu等人(2014)將大規(guī)模數(shù)據(jù)集(ImageNet)訓練的卷積神經(jīng)網(wǎng)絡參數(shù)遷移到情感預測任務,發(fā)現(xiàn)FC7層激活后得到的特征優(yōu)于FC8層。You等人(2015)所提出的基于弱標記圖像訓練的漸進卷積神經(jīng)網(wǎng)絡極具代表性,將預測結(jié)果中情感極性有較大差異的訓練樣本保留到下一輪訓練,使得噪聲數(shù)據(jù)逐漸移除。Rao等人(2020)提出了一個包含AlexNet、美學網(wǎng)絡、紋理網(wǎng)絡3條并行分支的端到端網(wǎng)絡結(jié)構(gòu),通過融合卷積神經(jīng)網(wǎng)絡生成多層深度特征,進而捕捉圖像不同類型的信息。局部特征因其捕捉包含豐富信息的情感區(qū)域的能力,受到了越來越多的關(guān)注。Chen等人(2015)考慮細粒度的信息,利用不同尺度提取局部塊的特征,然后通過Fisher Vector集成為一個統(tǒng)一的表示。Liu等人(2016a)在計算視覺顯著性區(qū)域時檢測人臉表情和情感的物體,一起構(gòu)成情感因子。You等人(2017)在可描述的圖像屬性基礎(chǔ)上,使用注意力機制發(fā)現(xiàn)引起觀看者情感的局部區(qū)域,從這些區(qū)域中提取的特征提高了AICA的性能。Zhao等人(2019a)將基于空間注意力和通道注意力的特征連接后作為優(yōu)勢度—激活度—控制度(valence-arousal-dominance, VAD) 視覺情感回歸任務的表示。為了有效地使用不同層得到的信息,Rao等人(2019)提出了一個多層次基于區(qū)域的卷積神經(jīng)網(wǎng)絡框架,找出局部區(qū)域的情感表示。研究表明,全局特征和局部特征都可以在一定程度上決定圖像的情感,結(jié)合局部特征應該比全局特征會生成更具判別性的情感圖像表示(Zhao等,2021)。

情感特征提取之后學習分類模型。在AICA領(lǐng)域,已有分類模型多數(shù)集中在大眾化情感識別、個性化情感預測和情感分布學習,以及從噪聲數(shù)據(jù)或少量標簽中學習等任務。早期方法大多使用傳統(tǒng)分類器對大眾化情感進行識別,常用的分類器包括支持向量機SVM(Zhao等,2014)、樸素貝葉斯(Machajdik和Hanbury,2010)和非線性矩陣補全(Alameda-Pineda等,2016)等。例如,Ahsan等人(2017)通過訓練的卷積神經(jīng)網(wǎng)絡模型檢測活動概念,然后使用SVM分類器將視覺屬性映射到具體的情感。近期研究大多通過設(shè)計各種各樣基于學習的方法來識別圖像情感??紤]到情感的特性,研究者通過改進傳統(tǒng)的交叉熵損失函數(shù)和均方誤差損失函數(shù)來改進AICA的性能。例如, Zhao等人(2019a)提出了極性一致的均方誤差損失函數(shù)用于圖像情感的回歸。Fan等人(2017)提出一個稱為焦點通道的第4條通道,用于圖像中焦點物體的掩碼,或者顯著性圖表示,結(jié)果證明消極情感主要是由焦點區(qū)域引出的,圖像的其他區(qū)域很難造成影響,而積極情感則由焦點區(qū)域和其他區(qū)域一起決定。為了解決情感感知的主觀性問題,Peng等人(2015)使用概率分布的標注方法構(gòu)造了Emotion6數(shù)據(jù)集,并且使用卷積神經(jīng)網(wǎng)絡回歸作為情感回歸模型。Wang等人(2015b)根據(jù)視覺內(nèi)容和相關(guān)文本信息的關(guān)系,在網(wǎng)絡圖像上進行無監(jiān)督情感分析。領(lǐng)域自適應研究如何將有標注的源域數(shù)據(jù)上訓練的模型,遷移到另一個稀疏標注或無標注的目標域。Zhao等人(2018b)首先研究了情感分布學習的域適應問題,所提出的EmotionGAN對抗模型通過生成與目標域相近的中間域來實現(xiàn)源域和目標域的像素級對齊。語義一致性約束保證了中間域的圖像能夠保留源域的情感信息。此外,Zhao等人(2019b)利用CycleGAN代替GAN,來解決傳統(tǒng)GAN的不穩(wěn)定性和容易訓練失敗的問題,在不需要匹配圖像對的情況下,學習大眾化情感的跨域遷移。Lin等人(2020)研究了圖像情感二分類任務的多源域遷移問題,設(shè)計了一個多源域情感對抗生成網(wǎng)絡,挖掘多源域、目標域圖像具有相似分布的統(tǒng)一情感隱藏空間。Panda等人(2018)研究了情感圖像內(nèi)容分析的域泛化問題,以此解決不同數(shù)據(jù)集圖像存在明顯差異的問題。

國際上比較有代表性的研究團隊包括美國哥倫比亞大學Shih-Fu Chang教授團隊、美國加州大學伯克利分校Kurt Keutzer教授團隊、美國賓夕法尼亞州立大學James Z. Wang教授團隊、美國羅徹斯特大學Jiebo Luo教授團隊、美國中佛羅里達大學Hassan Foroosh教授團隊、美國康奈爾大學Tsuhan Chen教授團隊、意大利特倫托大學Nicu Sebe教授團隊、奧地利信息系統(tǒng)工程研究所Allan Hanbury教授團隊、澳大利亞悉尼科技大學Min Xu教授團隊、新加坡國立大學Tat-Seng Chua教授團隊等。上述團隊的研究側(cè)重點各有不同,例如,Shih-Fu Chang教授團隊和Jiebo Luo教授團隊主要關(guān)注社交網(wǎng)絡中圖像情感的分析,James Z. Wang教授團隊、Allan Hanbury教授團隊和Nicu Sebe教授主要研究如何設(shè)計有效的手工特征,Tsuhan Chen教授團隊主要關(guān)注情感分布的研究,Tat-Seng Chua教授團隊主要研究情感在推薦系統(tǒng)中的應用,而Kurt Keutzer教授團隊主要關(guān)注AICA中的領(lǐng)域自適應問題。

2.4 面部表情識別

隨著計算機視覺、模式識別和人工智能等學科的發(fā)展,目前領(lǐng)域在基本表情上真實世界中的識別結(jié)果已經(jīng)可以達到很高的水平。例如在RAF-DB數(shù)據(jù)集上(Li等,2017;Li和Deng,2019b),最新技術(shù)已將7類基本表情分類結(jié)果提高到90%以上(Xue等,2021)。然而,越來越多的研究表明,基本表情并不能完整包含人類所有情緒。心理學研究中還有一些更為復雜且全面的情感描述形式。普拉切克的情緒輪盤模型指出,單個基本情緒具有不同的強度,并且可以互相混合,從而派生出更多復雜的情緒(Plutchik,2001)。另一種維度描述模型則是將大量不同類別的情感投射到一個連續(xù)的維度空間里(Mehrabian,1996)。這些研究都表明,傳統(tǒng)的7類基本表情過于局限,無法涵蓋自然交流場景中更多復雜的情緒。為了進一步拓展表情模型的描述范圍,相關(guān)研究通過將不同基本表情組合起來,提出了混合表情的概念(Nummenmaa,1988;Martin等,2006)。其中,復合表情作為一項特例,指由兩種不同基本表情組合而來的表情類別(Du和Martinez,2015;Du等,2014)。

國際上有很多廣泛用于算法評估的真實世界人臉表情數(shù)據(jù)集和相應評估準則。FERPlus數(shù)據(jù)集(Barsoum等,2016)在FER2013(Goodfellow等,2013)的基礎(chǔ)之上通過眾包對其進行了更加精準的8類基本表情標注(7類基本表情和蔑視表情)。該數(shù)據(jù)集包含28 558幅訓練圖像,3 579幅驗證圖像和3 573幅測試圖像。EmotiNet(Benitez-Quiroz,2016)是一個包含從互聯(lián)網(wǎng)收集的一百萬幅面部表情圖像的大型數(shù)據(jù)庫。其中有950 000幅圖像由機器自動標注上動作單元(AU)標簽,而剩余250 000幅圖像則是由手動標注了11類 AU。該數(shù)據(jù)庫所提供的23類基本表情和復合表情標簽并非由標注者直接標注,而是由AU組合推斷而來,因此存在較大誤差。AffectNet數(shù)據(jù)集(Mollahosseini等,2019)包含從互聯(lián)網(wǎng)收集而來的超過一百萬幅圖像,其中450 000 幅圖像具有手動標注的8類基本表情標簽(7類基本表情和蔑視表情)。此外,該數(shù)據(jù)庫也對圖像進行了維度空間的標注。AFEW 7.0(Dhall,2019)包含由電影片段剪輯而來的1 809個視頻數(shù)據(jù),其中分別用于訓練、驗證和測試的視頻數(shù)分別為773,383和653,每一個視頻也進行了7類基本表情的標簽標注。ExpW (Zhang等,2018)數(shù)據(jù)集則包含了91 793幅從互聯(lián)網(wǎng)收集而來的圖像數(shù)據(jù),每幅圖像被標注上了7類基本表情標簽。Aff-wild2(Kollias和Zafeiriou,2019)是第1個同時針對效價—喚醒2維連續(xù)情感估計、7類基本表情識別和面部動作單元檢測這3種任務都進行標注的真實世界數(shù)據(jù)集。其中有558個視頻包含了效價—喚醒度標注,63個視頻包含了8類AU標簽,84個視頻包含了7類基本表情標簽。

2.5 面部微表情分析與識別

本節(jié)從數(shù)據(jù)庫構(gòu)建、微表情預處理方法、微表情檢測和微表情識別幾個方面闡述相關(guān)的進展。

2.5.1微表情數(shù)據(jù)庫構(gòu)建

考慮到微表情產(chǎn)生的機理以及相關(guān)研究目前仍然處于初期發(fā)展階段,如何構(gòu)建合理的數(shù)據(jù)集一直是研究者們關(guān)注的焦點問題。芬蘭Oulu大學的團隊在2013年擴展了此前的Pfister等所用的數(shù)據(jù)集(Pfister等,2011),并正式發(fā)布了SMIC(spontaneous micro-expression database)(Li等,2013)。Husk等人(2017)對視頻網(wǎng)站上的撲克牌游戲視頻進行標注,構(gòu)建了MEVIEW(microexpression videos in the wild)數(shù)據(jù)集。Davison等人(2018) 構(gòu)建了SAMM(the spontaneous actions and micro-movements dataset)數(shù)據(jù)集。

2.5.2微表情預處理方法

微表情存在動作幅度小、持續(xù)時間短的特點,往往需要專門的方法進行相應預處理。因此微表情預處理也成為微表情分析任務中一個顯著技術(shù)難點。其中,拉格朗日視頻運動放大法采用拉格朗日視角(Lagrangian view)對運動進行描述和操作并被引入微表情分析領(lǐng)域(Ngo等,2018)。

2.5.3微表情檢測

在自動微表情分析系統(tǒng)中,在進行微表情識別任務之前需要先進行微表情檢測(Li等,2018)。微表情檢測,可以分為對于臉部整體運動的檢測和基于臉部運動單元(AU) (Ekman等,2002)的檢測。如局部描述子的差分(Moilanen等,2014)、圖像區(qū)域的亮度變化(Husk等,2017)以及光流的運動向量(Patel等,2015)等都已經(jīng)用于檢測微表情。

2.5.4微表情識別

國際上早期微表情識別研究普遍使用手工設(shè)計特征,如局部二值模式(LBP)(Li等,2013)及其時域擴展LBP-TOP(Pfister等,2011)進行識別。除此之外,幾何特征(Pfister等,2011)、基于光流特征的運動信息(Happy和Routray,2019)也受到了越來越多的關(guān)注。隨著機器學習乃至深度學習在微表情分析領(lǐng)域的應用,Patel等人(2016)使用特征遷移將深度學習技術(shù)引入微表情識別,并基于特征選擇技術(shù)選擇在最壞情況下性能最好的特征組合以緩解深度學習模型在小樣本微表情數(shù)據(jù)集上的過擬合問題。該工作一般被認為是深度學習在微表情識別領(lǐng)域的首次成功應用。Kim等人(2016)將卷積神經(jīng)網(wǎng)路(CNN)和長短期記憶網(wǎng)絡結(jié)合,分別利用CNN和LSTM提取空間和時間特征。早期的深度學習方法在性能上尚不能與傳統(tǒng)方法性能相比。為此,研究者們持續(xù)改進基于深度學習的微表情識別方法與技術(shù),使其發(fā)展迅速。

3 國內(nèi)研究進展

3.1 多模態(tài)情感識別

多模態(tài)情感識別在國內(nèi)也引起了廣泛的關(guān)注。多模態(tài)情感識別的數(shù)據(jù)集方面,中國科學院自動化研究所的毛文吉研究員團隊從中關(guān)村在線網(wǎng)站收集了28 469條評論,構(gòu)建基于漢語的Multi-ZOL圖文情感數(shù)據(jù)集(Xu等,2019);清華大學的徐華教授團隊從影視劇和綜藝節(jié)目中搜集2 281個視頻片段,構(gòu)建基于漢語的CH-SIMS視頻情感數(shù)據(jù)集(Yu等,2020)。這些數(shù)據(jù)集為基于漢語文本的多模態(tài)情感識別發(fā)展奠定了基礎(chǔ)。

多模態(tài)情感識別的計算方法方面,毛文吉研究員團隊結(jié)合情感傾向,提出基于深度網(wǎng)絡的特征融合方法(Xu等,2019)。分別提取各模態(tài)的特征,送入多層交互記憶網(wǎng)絡。在網(wǎng)絡的每一層中都對不同模態(tài)的特征進行交互,實現(xiàn)跨模態(tài)的融合。為了解決長時間序列多模態(tài)融合的遺忘問題,中山大學的胡海峰教授團隊將多模態(tài)情感數(shù)據(jù)按照時間劃分為多個部分,并對每一個時間塊的多模態(tài)數(shù)據(jù)進行顯式融合(Mai等,2022)。哈爾濱工業(yè)大學的秦兵教授團隊在Wu等人(2021)提出的以文本為主的多模態(tài)信息中融合新思路。與只使用文本信息進行情感識別的方法相比,非文本信息從共享語義、獨享語義兩個方面提高識別能力。一方面,圖像、音頻等模態(tài)的語義與文本提供的語義相同,這些重復的信息可以對原有語義進行增強,這是多模態(tài)信息的共享語義;另一方面,非文本模態(tài)可以提供與文本語義不同的信息,這些語義信息可以幫助模型更準確地進行情感識別,這是多模態(tài)信息的獨享語義?;谶@兩種多模態(tài)的語義信息,提出一個以文本為中心的多模態(tài)融合框架。廈門大學的紀榮嶸教授團隊在Ji等人(2019)提出雙層的多模態(tài)超圖情感識別方法中,顯式地對不同模態(tài)之間的相關(guān)性建模。在模型的第1層學習數(shù)據(jù)的特征和相關(guān)性進行情感識別,在模型的第2層對各模態(tài)特征的相關(guān)性進行學習。清華大學的徐華教授團隊在Yu等人(2020)研究中證明單模態(tài)的標簽可以為多模態(tài)情感識別提供幫助。因此在Yu等人(2021)的研究中,徐華教授團隊提出自監(jiān)督訓練單模態(tài)情感預測的方法。在訓練的過程中,為多模態(tài)和每個單一模態(tài)分別維護標簽中心,基于每個單一模態(tài)標簽與中心的距離,應與多模態(tài)標簽與中心距離一致的假設(shè),為每個單一模態(tài)提供訓練過程中的監(jiān)督信息。在預測階段單模態(tài)預測結(jié)果完成識別任務。

多模態(tài)情感識別的應用方面,毛文吉研究員團隊提出了針對用戶評價情感傾向分析的數(shù)據(jù)集和模型方法(Xu等,2019)。之前的工作全部使用單一文本模態(tài)進行情感傾向分析,這是首次使用多模態(tài)信息進行情感傾向分析的工作。廈門大學的紀榮嶸教授團隊針對微博數(shù)據(jù)進行多模態(tài)的情感分析(Chen等,2018a)。使用數(shù)據(jù)中包含的表情符號作為噪聲標簽,使用概率圖形模型提取具有情感區(qū)分性的多模態(tài)特征并過濾標簽中的噪聲。南開大學的楊巨峰教授團隊提出了針對用戶旅途情感傾向分析的數(shù)據(jù)集和模型方法(Wang等,2021a)。在這篇工作中,將旅途分為值機、等待、途中和延遲4種事件。使用深度模型分別提取文本特征、圖像特征,經(jīng)過先融合后,預測情感傾向和事件類型。

國內(nèi)比較有代表性的研究團隊包括清華大學的徐華教授團隊、中國科學院自動化研究所的毛文吉研究員團隊、哈爾濱工業(yè)大學的秦兵教授團隊、廈門大學的紀榮嶸教授團隊、中山大學的胡海峰教授團隊和南開大學的楊巨峰教授團隊等,其中各個團隊的側(cè)重點有所不同。如徐華教授團隊關(guān)注多模態(tài)情感識別的分類方法、毛文吉教授團隊關(guān)注多模態(tài)情感傾向分析、秦兵教授團隊關(guān)注文本為主的多模態(tài)情感分析方法、紀榮嶸教授團隊關(guān)注社交平臺的多模態(tài)情感識別、胡海峰教授關(guān)注多種情感模態(tài)的融合方法、楊巨峰教授團隊關(guān)注包含圖文信息的多模態(tài)情感識別方法。

3.2 孤獨癥情感識別

在國內(nèi),也有眾多的學者對孤獨癥患兒的情感識別和理解進行研究,并提出了一些用于孤獨癥情感干預的方法和技術(shù)手段,他們大都認為孤獨癥患兒的情感表達和其社交障礙之間存在著關(guān)聯(lián)。香港協(xié)康會提出“情感表達和互動”是孤獨癥干預比較困難的部分,因此將“情感表達”分解為多個次范疇,如面部表情、身體語言和恰當?shù)那榫w等,然后通過設(shè)計針對性的干預范式對不同的次范疇進行訓練。臺灣成功大學Tsai等人(2021)通過使用3D虛擬場景提高孤獨癥兒童正確識別情緒的能力。同時,他們使用第三人稱視角角色扮演游戲來教授孤獨癥患兒社交技能并幫助他們加深理解6種(憤怒、恐懼、驚訝、厭惡、快樂和悲傷)基本情緒。中山大學附屬第三醫(yī)院鄒小兵醫(yī)生(鄒小兵,2019)也曾指出矯正不良情緒和行為是突破自閉癥社交障礙的重要一環(huán),他呼吁家長對孤獨癥患兒進行情緒調(diào)控。南開大學王崇穎教授(Sullivan和Wang,2020)同樣認為社交情緒干預是孤獨癥干預的核心問題之一。北京大學易莉研究員(Wang等,2018)探討了孤獨癥患兒的眼睛回避是否會受到情緒表達的影響。實驗結(jié)果表明當面對憤怒的面孔時,孤獨癥患兒比正常兒童對眼睛的注意力更少,而且持續(xù)時間長,這項研究不僅擴展了凝視厭惡假設(shè),而且對孤獨癥的治療和篩查也有影響。昆山杜克大學李明教授等人(Pan等,2021)設(shè)計了“社交性微笑”的篩查范式,他們通過集成語音識別和計算機視覺技術(shù),提出了一個機器學習框架以實現(xiàn)在特定范式下對受試兒童的行為進行分析。華東師范大學陳靚影教授等人(廖夢怡等,2021)探索了融合多模態(tài)數(shù)據(jù)的孤獨癥患兒智能化識別方法,該方法可以根據(jù)數(shù)據(jù)來源和時間同步性將數(shù)據(jù)進行分層融合,因此可以提高孤獨癥患兒的識別準確率。同樣適用多源數(shù)據(jù)融合,哈爾濱工業(yè)大學(深圳)劉洪海教授等人(Wang等,2021b;Liu等,2020)通過“五不(不看、不應、不指、不說、不當)”行為、社交情感等設(shè)計出了國內(nèi)首臺孤獨癥早期輔助篩查平臺和機器輔助干預系統(tǒng),實現(xiàn)孤獨癥早期篩查自動化評估和干預。

對于通過行為對孤獨癥患兒進行診療的方法,社交情緒/情感是其中非常重要的一環(huán),它對提升孤獨癥患兒的社交能力非常重要。目前,如何捕捉和量化孤獨癥患兒社交情緒非常困難,國內(nèi)外尚未出現(xiàn)針對孤獨癥社交情緒診療的機器智能輔助系統(tǒng)。

3.3 情感圖像內(nèi)容分析

國內(nèi)研究者針對情感圖像內(nèi)容分析的研究也涵蓋了數(shù)據(jù)集構(gòu)建、情感特征提取和分類模型學習等步驟。國內(nèi)構(gòu)造的數(shù)據(jù)集具有代表性的是哈爾濱工業(yè)大學姚鴻勛教授團隊的IESN(image-emotion-social-net)數(shù)據(jù)集(Zhao等,2014)和南開大學楊巨峰教授團隊的Comics數(shù)據(jù)集(She等,2019)、Flickr_LDL數(shù)據(jù)集和Twitter_LDL數(shù)據(jù)集(Yang等,2017b)。IESN數(shù)據(jù)集構(gòu)建的目的是實現(xiàn)個性化的情感預測,包括從一萬余位用戶上傳至Flickr的一百萬余幅圖像,并且收集了與圖像相關(guān)的標記、描述、評論和上傳者的社會背景等各種元數(shù)據(jù)。數(shù)據(jù)集的每幅圖像都提供了上傳者想表達的情感,以及觀看者實際感受到的情感?;陉P(guān)鍵字搜索,該模型使用VAD模型和Mikels模型進行標注。Comics(She等,2019)包括從海賊王、蜘蛛俠等70幅漫畫中選出的11 821幅圖像。10位參與者(平均年齡20.3歲)使用Mikels的8種情緒類別標注。將該數(shù)據(jù)集進一步分為兩個子集:動漫子集包含歐洲、美國的現(xiàn)實風格動漫,漫畫子集包含亞洲漫畫風格的抽象圖像。Flickr_LDL數(shù)據(jù)集(Yang等,2017b)和Twitter_LDL數(shù)據(jù)集(Yang等,2017b)是針對情感的模糊性和多義性提出的數(shù)據(jù)集。Flickr_LDL從VSO數(shù)據(jù)集抽取出10 700幅圖像,11位參與者觀看每一幅圖像,然后根據(jù)Mikels情感進行標注。Twitter_LDL通過多個情感關(guān)鍵詞在Twitter數(shù)據(jù)集上獲取數(shù)據(jù),8位觀看者對10 045幅圖像使用Mikels情感進行標注。

國內(nèi)研究者很早就開始了低層次手工情感特征的設(shè)計,華南理工大學王偉凝教授團隊研究了線條方向與圖像情感之間的關(guān)聯(lián)(Wang等,2004);基于心理學的顏色理論,他們在一個正交的3維情感空間中構(gòu)造了亮度—冷系—暖系、飽和度—冷系—暖系—對比度以及對比度—銳度表示(Wang等,2006)。在中層特征提取方面,國內(nèi)研究者也有涉及。例如,清華大學賈珈教授團隊設(shè)計了一組可解釋的、容易理解的特征(Wang等,2013),用于表示圖像前景區(qū)域與背景區(qū)域的對比;哈爾濱工業(yè)大學姚鴻勛教授團隊提出了基于藝術(shù)原理的特征(Zhao等,2014),通過量化平衡、強調(diào)、和諧、多樣和漸變等藝術(shù)原理,改進了圖像情感識別的性能。近年來,國內(nèi)在深度情感特征提取方面也展開了系列工作。例如,中國科學院大學黃慶明教授團隊使用卷積神經(jīng)網(wǎng)絡的不同層來提取多層次特征(Zhu等,2017),并且使用雙向門控循環(huán)單元結(jié)構(gòu)來捕捉不同層之間的依賴關(guān)系。南開大學楊巨峰教授團隊在深度全局特征和局部特征提取上展開了多個原創(chuàng)性工作:提出了一個由不同層的Gram矩陣元素組成的情感表示方法(Yang等,2018b);提出了使用離線物體檢測工具生成候選邊界框,結(jié)合在去重后區(qū)域中提取的特征和全局圖像的特征進行情感分類(Yang等,2018c);提出了一個包含分類分支和檢測分支的統(tǒng)一結(jié)構(gòu),在檢測分支通過結(jié)合所有基于類別的特征表示,生成弱監(jiān)督的情感圖,將全局特征和情感圖耦合,得到完整的局部信息(Yang等,2018a);在低層次和高層次分別添加極性注意力和情感注意力,通過跨層次的雙線性池融合不同層次的特征,生成最終的情感表示(Yao等,2019)。近年來,西安電子科技大學高新波教授團隊在物體與情感關(guān)系的挖掘上作出了重要貢獻:基于心理學“刺激—機體—反應”框架,提出了選擇圖像中可能誘發(fā)情感的不同刺激,并為這些刺激提取不同的深度特征(Yang等,2021b);提出了基于圖卷積網(wǎng)絡的場景—物體相關(guān)情感推理網(wǎng)絡,來挖掘圖像里物體與物體以及物體與場景之間的交互(Yang等,2021a)。

在大眾化情感分類模型上,西安電子科技大學高新波教授團隊提出了層次化的交叉熵損失函數(shù)來加大對錯誤分類樣本的懲罰(Yang等,2021a)。國內(nèi)研究者關(guān)于個性化情感預測和情感分布學習的研究走在了國際前列。具備代表性的關(guān)于個性化情感預測的兩個工作出自清華大學朱文武教授團隊和哈爾濱工業(yè)大學姚鴻勛教授團隊。前者提出了基于用戶興趣和社會影響的個體情感預測模型(Yang等,2013)。用戶的興趣通過個性化詞典構(gòu)造和基本顏色特征聚類得到,社會影響通過計算不同用戶對相同微博的情感相似度得到。隨后,該團隊使用概率圖模型擴展了賦予權(quán)重的過程(Rui等,2017)。后者考慮了可能影響情感的多種因素(Zhao等,2016,2018a),如:圖像的視覺內(nèi)容、用戶的社會背景、情感隨時間的變化以及圖像的位置信息等。結(jié)合這些因素,文章提出了迭代多任務超圖學習方法,對用戶、目標圖像和歷史圖像集構(gòu)建超邊,通過半監(jiān)督學習方法同時為多個用戶進行個性化情感預測。圖像情感分布學習任務上比較具有代表性的國內(nèi)團隊包括:南開大學楊巨峰教授團隊、清華大學丁貴廣教授團隊、哈爾濱工業(yè)大學姚鴻勛教授團隊和天津大學劉安安教授團隊。例如,姚鴻勛教授團隊將情感分布學習當做共享稀疏學習問題建模(Zhao等,2015);丁貴廣教授團隊提出了帶權(quán)重的多模態(tài)共享稀疏學習(Zhao等,2017a)和帶權(quán)重的多模態(tài)條件概率神經(jīng)網(wǎng)絡(Zhao等,2017b),自動學習不同特征的權(quán)重;楊巨峰教授團隊提出了改進的條件概率神經(jīng)網(wǎng)絡BCPNN(binary conditional probability neural network)和ACPNN(augmented conditional probability neural network)(Yang等,2017a),分別使用二進制編碼替換單個整數(shù)表示標簽和向真實標簽添加噪聲,使得訓練的模型更加魯棒;楊巨峰教授團隊還提出了一個同時計算Kullback-Leibler (KL)損失和softmax損失,并且將單個情感標簽轉(zhuǎn)變成概率分布的統(tǒng)一框架(Yang等,2017a);天津大學劉安安教授團隊提出將低秩和協(xié)方差正則化加入一個框架中進行情感分布學習,確保了回歸系數(shù)的結(jié)構(gòu)稀疏性(Liu等,2018)。丁貴廣教授團隊和姚鴻勛教授團隊在連續(xù)的情感空間中使用混合高斯模型建模連續(xù)分布(Zhao等,2017c),用期望最大化算法預測參數(shù)值,使用共享稀疏回歸(shared sparse regression, SSR)作為學習的模型,并且擴展至多任務SSR來挖掘不同任務之間的相關(guān)性,通過使用合適的跨任務共享參數(shù)來預測不同測試圖像的參數(shù)。

國內(nèi)比較有代表性的研究團隊包括哈爾濱工業(yè)大學姚鴻勛教授團隊、清華大學朱文武教授團隊、丁貴廣教授團隊和賈珈教授團隊、南開大學楊巨峰教授團隊、中國科學院大學黃慶明教授團隊、西安電子科技大學高新波教授團隊和李雷達教授團隊等。上述團隊的研究各有側(cè)重,例如姚鴻勛教授團隊側(cè)重在中層情感特征設(shè)計和個性化情感預測,丁貴廣教授團隊主要關(guān)注圖像情感的離散和連續(xù)概率分布學習,楊巨峰教授團隊在圖像情感的離散分布學習和深度局部特征挖掘等多個方向都有涉及,高新波教授團隊近年來主要挖掘圖像內(nèi)不同物體之間的關(guān)系及其與情感之間的映射。

3.4 面部表情識別

近年來,國內(nèi)對人臉表情識別領(lǐng)域的發(fā)展有了很大的進展,包含一些廣泛用于算法評估的真實世界人臉表情數(shù)據(jù)集和相應評估準則。如RAF-DB數(shù)據(jù)集(Li等,2017;Li和Deng,2019b)包含了從互聯(lián)網(wǎng)下載的近3萬幅高度多樣化面部圖像。通過手動的眾包標注和標簽可靠性估計,該數(shù)據(jù)庫為樣本提供了精確的7類基本表情標簽和12類復合表情標簽。RAF-ML(Li和Deng,2019a)是第1個真實世界混合表情數(shù)據(jù)集,其包含了類別更為豐富的4 908幅多標簽表情圖像樣本。RAF-AU(real-world affective faces action unit)(Yan等,2020)則是在RAF-ML數(shù)據(jù)集的基礎(chǔ)之上對其進行了26類AU標簽的手動標注。

算法方面,也有一些具有代表性的算法。下面分別從不確定性學習、關(guān)系學習和解耦學習這幾個方面對該領(lǐng)域內(nèi)近年來具有代表性的表情分析算法進行介紹。

3.4.1 不確定性學習

表情標注具有主觀性和差異性,因此數(shù)據(jù)集中的標簽噪聲難以避免。針對該問題,相關(guān)研究提出了樣本的不確定性學習算法,通過自動糾正不確定性大的樣本標簽,提高模型的泛化能力。Wang等人(2020a)通過全連接層學習來計算出每個樣本對應的權(quán)重,并將該權(quán)重作用到softmax指數(shù)部分,使得不確定性高的樣本對應的重要性權(quán)重更低,從而降低噪聲樣本帶來的負面影響。最后通過對不確定性高的樣本進行重標注實現(xiàn)噪聲清洗。She等人(2021)進一步考慮了標簽分布來解決標注模糊的問題。通過依次dropout某一類別的樣本,分別學習獨立的網(wǎng)絡分支,來獲取每個樣本的潛在標簽分布,從而巧妙地分散噪聲標簽的影響。此外,不確定性的絕對數(shù)值很難定義,但相對大小比較好確定。Zhang等人(2021e)使用不確定度作為權(quán)重對圖像的特征進行加權(quán)混合,通過對比進行不確定度的學習,設(shè)計了一種特征mixup的機制,利用損失函數(shù)“公平”地從混合特征中同時識別出兩種表情。在降低損失函數(shù)的過程中,通過整個訓練中大量pair的對比,自動學習到圖像的不確定度值。

3.4.2 關(guān)系學習

各種情感類別或者所學情感特征之間存在著關(guān)聯(lián),利用這種內(nèi)在關(guān)聯(lián)知識,可以在小樣本條件下獲得更加穩(wěn)定的情感識別性能。標簽分布學習是一種典型的類別間的關(guān)系學習方法。不同情感類別之間存在著潛在的相關(guān)關(guān)系,對此Wang和Geng(2021)提出了標簽分布流形學習算法,通過挖掘標簽分布中隱藏的流形結(jié)構(gòu)來同時編碼標簽之間的全局和局部關(guān)系。除了利用類別間的關(guān)系,還可以結(jié)合圖神經(jīng)網(wǎng)絡來建模潛在動作特征之間的關(guān)系。例如,Ruan等人(2021)利用圖神經(jīng)網(wǎng)絡來計算每幅圖像包含的潛在表情成分特征之間的關(guān)系。Song等人(2021)則是結(jié)合了多種關(guān)系學習方法。首先引入了貝葉斯網(wǎng)絡來建模面部動作之間的關(guān)系,然后將該習得的分布作為圖卷積的輸入鄰接矩陣來進一步建模特征之間關(guān)系。此外,隨著Transformer技術(shù)(Vaswani等,2017)在計算機視覺中取得的進展和優(yōu)秀成果(Dosovitskiy等,2020;Liu等,2021b),部分工作也將其運用到了表情分析中。Jacob和Stenger(2021)直接提取各個AU的表示特征作為Transformer的輸入,利用Transformer的自注意力機制建模了AU之間的關(guān)系。Xue等人(2021)則是在視覺變換器(vision transformer,ViT)網(wǎng)絡(Dosovitskiy等,2020)中結(jié)合了dropout機制,取得了目前最佳的表情識別結(jié)果。

3.4.3 解耦學習

在情感識別中,存在著人物(身份、年齡、性別和種族等)、采集噪聲(遮擋、低分辨率等)和姿態(tài)變化等與情感無關(guān)的干擾因素,如何在情感特征中解耦出這些干擾噪聲,從而獲得能夠有效建模情緒的判別性特征,是情感識別的根本問題。Xu等人(2020)利用對抗學習分別獲得了表情和各個人臉屬性(種族、年齡和性別)的獨有特征,通過人為去除人臉屬性特征,獲得了對各個屬性公平的表情識別性能。Niu等人(2020)提出了生理信號與噪聲解耦的交叉檢驗方法,在有效地從信號中分離出噪聲信號的同時,可以生產(chǎn)偽信號,起到樣本增廣的作用。此外,姿態(tài)的整體變化會淹沒面部的細微動作,而細微動作正是反映情感的有效特征。對此,Li等人(2022)提出了頭部姿態(tài)變化與面部動作的分解方法,利用分解信號的合并驗算以及姿態(tài)變化和面部動作分別構(gòu)造正負變換,構(gòu)造了一個基于視頻的自監(jiān)督AU學習框架。對于面部遮擋干擾, Wang等人(2020b)提出采用注意力機制讓網(wǎng)絡降低對遮擋度高面部區(qū)域的學習權(quán)重。人物身份也是另一項待解耦因素,不同個體表達情感的方式以及其面部身份信息對表情識別有著較大干擾。Zhang等人(2021d)采用偏差計算模塊,直接從人臉特征中減去身份屬性特征來獲取身份不變特征。

3.5 面部微表情分析與識別

3.5.1微表情數(shù)據(jù)庫構(gòu)建

國內(nèi)方面,中國科學院心理研究所團隊利用先后構(gòu)建的CASME(the Chinese Academy of Sciences Micro-expression)(Yan等,2013)、CASME Ⅱ(Yan等,2014a)和CAS(ME)2(Qu等,2018)數(shù)據(jù)集,并與山東大學和復旦大學等的學者聯(lián)合發(fā)布了MMEW(micro-and-macro expression warehouse)數(shù)據(jù)庫(Ben等,2021)。從SMIC(spontaneous micro-expression database)到CASME(the Chinese Academy of Sciences micro-expression dataset)系列再到MMEW數(shù)據(jù)集,研究者們基本采用了一致的微表情誘發(fā)策略,即通過讓被試在盡量保持中性表情的前提下觀看帶有較強情緒性的視頻片段并伺機采集誘發(fā)的微表情。之前的數(shù)據(jù)庫主要側(cè)重微表情識別方面的驗證,近期有一些工作也開始關(guān)注微表情檢測(spotting)的數(shù)據(jù)和實驗條件。由于CAS(ME)2和SAMM同時提供了包含宏表情和微表情的長序列,因此這兩個數(shù)據(jù)集可以用來開展微表情檢測的研究。近期Tran等人(2021)在SMIC數(shù)據(jù)集中長序列版本SMIC-VIS-E上進行了擴展和標注,提供了SMIC-E-Long 數(shù)據(jù)集,并對測試協(xié)議和性能評價方法進行了探討。

3.5.2微表情預處理方法

國內(nèi),歐拉視頻運動放大方法(Eulerian video magnification, EVM)(Wu等2012)在2015年被引入微表情識別任務(Li等,2015,2018)。Lei等人(2020a)進一步嘗試了基于學習的視頻運動放大方法(Oh等,2018),并取得較好的效果。在時域插值方面,基于圖模型的插值方法(Zhou等,2011,2014)得到廣泛應用。在基礎(chǔ)上,研究者將運動放大和幀插值兩個模塊進行統(tǒng)一建模,形成了單一預處理模塊。該方法不僅提高了運算速度,還進一步提升了識別性能(Peng等,2019;Hong等,2019)。Xia等人(2019a)使用了多種運動放大倍數(shù)的預處理方式。此外,基于數(shù)據(jù)生成的預處理方式也開始受到關(guān)注。Xie等人(2020)使用AU強度可控的生成對抗網(wǎng)絡(generative adversarial network, GAN)生成。Liong等人(2020)則使用條件生成對抗網(wǎng)絡對提取的光流圖進行增強。

3.5.3微表情檢測

國內(nèi)關(guān)于臉部信息變化的有效刻畫,如局部描述子的差分(Li等,2018)、光流的運動向量(He,2021)、光流主方向的模最大差分(Wang等,2017)以及光流的夾角和模信息(Guo等,2021b)等都已經(jīng)被用來檢測微表情。Yan等人(2014b)、Liong等人(2015)、Han等人(2018)以及Li等人(2021a)則嘗試了針對峰值幀(apex frame)的檢測方法。Li等人(2020a)分析了微表情發(fā)生時的局部時域模式,并提出了一種基于S-模式的微表情檢測方法?;趧幼鲉卧狝U的檢測是近年來的熱點,Zhang等人(2021d)根據(jù)不同AU活動的面部范圍設(shè)計了新的面部關(guān)鍵子區(qū)域分割方法,再根據(jù)分割后的關(guān)鍵區(qū)域,將全臉AU檢測這個大型的多標簽分類問題轉(zhuǎn)化為多個在各個關(guān)鍵子區(qū)域內(nèi)的小型多標簽分類問題。Li等人(2021b)引入attention機制進行AU的檢測。

3.5.4微表情識別

早期的微表情識別研究者普遍使用手工設(shè)計特征。廣泛使用如局部二值模式(local binary patter,LBP)(Li等,2013)、STLBP-IP(spatiotemporal local binary pattern with integral projection)(Huang等,2015)、STCLQP(spatiotemporal completed local quantized patterns)(Huang等,2016)、HSTLBP-IP(hierarchical spatiotemporal local binary pattern with integral projection)(Zong等,2018b)、DiSTLBP-RIP(discriminative spatiotemporal local binary pattern with revisited integral projection)(Huang等,2019)等。Hong等人(2016a)提出了TOP類特征的改進實現(xiàn),加速了描述子的計算效率。Li等人(2015,2018)對LBP、HIGO(histograms of image gradient orientation)和HOG(histograms of oriented gradients)的時空變種進行對比,發(fā)現(xiàn)只體現(xiàn)梯度方向信息而不反映梯度能量信息的HIGO-TOP描述子在微表情分析上相比LBP-TOP和HOG-TOP更為高效。在此基礎(chǔ)上構(gòu)建了第1個完整的微表情檢測與識別的系統(tǒng),并進行了人機對戰(zhàn)實驗。該工作受到了MIT Technology Review等的專文報道(https://www.technologyreview.com/2015/11/13/10130/machine-vision-algorithm-learns-to-recognize-hidden-facial-expressions/)。除了基于梯度的直方圖特征之外,顏色空間特征(Wang等,2015a)、協(xié)方差矩陣(Hong等,2016b)和基于光流特征的運動信息(Liu等,2016b,2021a;Xu等,2017)也受到了越來越多的關(guān)注。

4 國內(nèi)外研究進展比較

4.1 多模態(tài)情感識別

綜合國內(nèi)外關(guān)于多模態(tài)情感識別的研究現(xiàn)狀,1)從多模態(tài)情感識別的數(shù)據(jù)來看,目前國內(nèi)缺乏大規(guī)模的數(shù)據(jù)集。多模態(tài)視頻數(shù)據(jù)集中,基于漢語的CH-SIMS包含2 281個視頻片段(Yu等,2020)。國際上常用的CMU-MOSEI數(shù)據(jù)集包含23 453個視頻片段(Zadeh等,2018c)。隨著深度模型的發(fā)展,對數(shù)據(jù)量有了更高的要求。2)國內(nèi)缺乏包含顯性模態(tài)信息的數(shù)據(jù)集。直接表示身體變化的物理信號是進行情感識別的一個重要模態(tài)。國際上的DEAP(database for emotion analysis using physiological signals)、MAHNOB-HCI(multimodal analysis of human nonverbal behaviour in real-world settings-human machine interaction)等數(shù)據(jù)集包含了豐富的身體信號(Koelstra等,2012;Soleymani等,2012)。3)在計算方法的創(chuàng)新上國內(nèi)已經(jīng)具有優(yōu)勢,如中國科學院自動化研究所毛文吉研究員團隊提出多層交互記憶網(wǎng)絡計算多模態(tài)情感傾向(Xu等,2019)、中山大學胡海峰教授團隊在時間上分布進行多種情感模態(tài)的融合(Mai等,2022)、哈爾濱工業(yè)大學秦兵教授團隊從共享語義、獨享語義兩方面設(shè)計情感模態(tài)的融合方法(Wu等,2021a)、廈門大學紀榮嶸教授設(shè)計雙層超圖模型計算情感模態(tài)之間的相關(guān)性(Ji等,2019)、清華大學徐華教授團隊提出自監(jiān)督單模態(tài)情感預測輔助多模態(tài)情感識別的方法(Yu等,2021)、南開大學楊巨峰教授團隊提出用多模態(tài)注意力機制學習新聞內(nèi)容的情感表征(Guo等,2021)。4)在多模態(tài)情感識別的應用上,國內(nèi)也做出了更多的嘗試,如分析手機評價的情感(Xu等,2019)、微博數(shù)據(jù)的情感(Chen等,2018a)、用戶旅途的情感(Wang等,2021a)以及文本和圖像構(gòu)成的新聞情感(Guo等,2021a)。

4.2 孤獨癥情感識別

國際上孤獨癥相關(guān)研究起步較早,因此孤獨癥患兒的診斷、干預以及生活都有專業(yè)的醫(yī)療團隊提供幫助。然而,國內(nèi)的孤獨癥專業(yè)診療隊伍缺乏,相關(guān)醫(yī)療資源短缺,孤獨癥患兒的診療和教育狀況不容樂觀。此外,國外具有比較完善的評估量表、診療指南和干預手冊,因此很方便進行家庭干預或社區(qū)干預。國內(nèi)尚無專業(yè)和權(quán)威的孤獨癥診療手冊,因此無法進行家庭和社區(qū)的全面推廣。此外,國內(nèi)缺乏具有資質(zhì)的孤獨癥臨床醫(yī)師和專業(yè)診療機構(gòu)。對于孤獨癥情感或情緒方面的研究,國外學者比較注重分析情感與社交能力、情感與內(nèi)在生理信息以及情感與病理或干預機制之間的關(guān)系。國內(nèi)學者大都關(guān)注于如何對孤獨癥患兒的情感識別和理解能力進行訓練,常常忽略干預效果的評估,也缺乏對干預機制和機理的探究。因此,國內(nèi)相關(guān)研究學者應該聯(lián)合起來,建立符合中國國情的孤獨癥診療手冊,并加大對相關(guān)領(lǐng)域的投入,培養(yǎng)專業(yè)醫(yī)師隊伍,鼓勵相關(guān)產(chǎn)業(yè)的發(fā)展。在國內(nèi)外,目前均缺乏有效的孤獨癥情感干預系統(tǒng)(設(shè)備),因此開發(fā)相關(guān)診療設(shè)備意義重大,不僅可以促進國內(nèi)孤獨癥相關(guān)研究的發(fā)展,也可以為家庭和社會創(chuàng)造巨大的經(jīng)濟效益。

4.3 情感圖像內(nèi)容分析

綜合上述國內(nèi)和國際關(guān)于情感圖像內(nèi)容分析的研究進展,可以發(fā)現(xiàn)國內(nèi)研究者在AICA方向的研究開展相對較晚,但近年來國內(nèi)在該方向上持續(xù)發(fā)力,與國際上的差距逐步縮小,甚至在某些具體任務上已經(jīng)走在國際前沿。1)現(xiàn)有的大規(guī)模數(shù)據(jù)集主要是由國外研究者構(gòu)造,例如FI、T4SA和LUCFER等。國內(nèi)在百萬級甚至更大規(guī)模數(shù)據(jù)集的構(gòu)建上需繼續(xù)發(fā)力。2)國內(nèi)在個性化情感預測和情感分布學習任務上已經(jīng)走在了國際前列。例如清華大學朱文武教授團隊和哈爾濱工業(yè)大學姚鴻勛教授團隊關(guān)于個性化情感的研究極具代表性;南開大學楊巨峰教授團隊構(gòu)建的關(guān)于情感分布學習的數(shù)據(jù)集FlickrLDL和TwitterLDL已經(jīng)成為規(guī)模較大的標準數(shù)據(jù)集。3)國內(nèi)在從噪聲數(shù)據(jù)或少量標簽數(shù)據(jù)中進行圖像情感識別的工作有些滯后。現(xiàn)實場景中的數(shù)據(jù)很可能是有噪聲的,并且由于標注的昂貴性和情感的復雜主觀性,有標注的數(shù)據(jù)量可能是少量的,因此國內(nèi)在這種特定情況下的AICA研究還需加強。4)國內(nèi)基于AICA的具體應用較少。圖像情感在很多實際應用中起到重要作用,如廣告推薦、自閉癥治愈和輿情監(jiān)測等。Tat-Seng Chua教授團隊和Jiebo Luo教授團隊在基于情感的廣告推薦和基于情感的COVID-19(corona virus disease 2019)輿情監(jiān)測任務上取得了顯著進展,而國內(nèi)在開發(fā)基于AICA的應用上有待改進。

4.4 微表情分析與識別

微表情檢測與識別的研究是由芬蘭Oulu大學Matti Pietik?inen和趙國英團隊首倡。之后國內(nèi)的中國科學院心理研究所、東南大學、復旦大學和山東大學等單位迅速跟進并始終與前者保持密切合作。而在該領(lǐng)域較為活躍的英國曼徹斯特城市大學和馬來西亞研究組也均與上述機構(gòu)保持合作。因此,在微表情分析領(lǐng)域國內(nèi)外研究者一直緊密合作、相互促進,國內(nèi)外研究進展基本上是同步進行的。這一點,通過國內(nèi)外學者共同組織的MEGC(Facial Micro-Expressions Grand Challenge)和FME(Workshop on Facial Micro-Expression)系列挑戰(zhàn)賽的發(fā)展可以更清楚地看到。該系列挑戰(zhàn)賽是來自中國、英國、馬來西亞、芬蘭和中國臺灣的學者聯(lián)合組織的一項微表情識別與檢測挑戰(zhàn)賽,從2018年開始,已經(jīng)舉辦了4屆。在該系列挑戰(zhàn)賽和相關(guān)的報告(Yap等,2018;See等,2019;Li等,2020b,2021d)上可以了解微表情研究領(lǐng)域中比較前沿的測試方式與方法。

5 發(fā)展趨勢與展望

5.1 多模態(tài)情感識別

1)從研究方法的角度考慮。多模態(tài)情感識別的發(fā)展可以加入一些創(chuàng)新的思維。例如,人感受的情感可以由對話場景和年齡、文化等先驗信息影響,因此將先驗信息建模到模型的學習過程是一個可以嘗試的途徑。結(jié)合顯性和隱性情感模態(tài)的方法也是一個有意義的思路。顯性模態(tài)容易被抑制且難以獲取,隱性模態(tài)難以實時反映情感信息,利用兩類模態(tài)信息對情感識別的優(yōu)勢進行互補是一個有趣的研究方向。

2)從應用的角度考慮。多模態(tài)情感識別的發(fā)展可以做一些更貼近現(xiàn)實場景的探索。例如,由于手機、攝像頭等邊緣設(shè)備計算能力的不足,將多模態(tài)情感識別的大模型進行部署時會出現(xiàn)計算資源的限制。因此考慮對多模態(tài)情感識別模型的量化是一個很有意義的發(fā)展趨勢。

5.2 孤獨癥情感識別

最近的很多國內(nèi)外工作開始關(guān)注孤獨癥情感功能與社交能力之間的關(guān)系。例如,電子科技大學成都腦科學研究院臨床醫(yī)院(Zhang等,2021b)設(shè)計了一系列電腦訓練游戲來幫助提高孤獨癥患兒的面部表情識別能力以及社交能力。作者發(fā)現(xiàn)通過相關(guān)程序的干預,孤獨癥患兒的表情識別能力可以得到顯著的提升。與控制組的患兒相比,孤獨癥患兒的社交能力也能夠得到相應的提升,但是對于提升的程度以及所持續(xù)的時間作者并未分析。此外,美國哈佛大學醫(yī)學院(Zagury-Orly等,2022)也指出孤獨癥患者人臉處理能力的缺陷和社交能力緊密相關(guān),但是這種關(guān)系會受到年齡、性別和智商的影響。在孤獨癥研究領(lǐng)域,大多數(shù)工作還是主要關(guān)注患兒的認知能力或社交行為,如怎么識別表情、如何回應他人的指令和如何表達需求等。雖然這些工作研究如何教會孤獨癥患兒識別和理解他人的情感,但是較少有工作關(guān)注孤獨癥患兒如何體驗和表達自己的情感。可能正是由于孤獨癥患兒對自己的情感體驗和表達不足或異常導致了他們的社交溝通障礙,因此研究孤獨癥患兒的情感體驗和表達機制非常重要。未來的研究趨勢應該是探究孤獨癥患兒的情感體驗和表達機制,并分析孤獨癥情感與社交能力之間的聯(lián)系。同時,目前缺乏有效的孤獨癥情感干預系統(tǒng),這也是未來國內(nèi)研究者競相爭逐的一個熱點。

5.3 情感圖像內(nèi)容分析

盡管情感圖像內(nèi)容分析已經(jīng)取得了顯著的進步,但仍然有一些開放的問題和方向,值得心理學、認知科學、多媒體和機器學習等各行各業(yè)的人一起努力考慮和研究。1)圖像內(nèi)容和上下文理解。準確分析圖像內(nèi)容可以改進AICA的性能,使用手工特征指導生成可解釋的深度特征值得研究。2)觀看者上下文和先驗知識建模。觀看者在看圖像時的上下文信息可以影響情感,結(jié)合這些背景因素可以改進AICA的性能。3)群體情感聚類。一些興趣愛好相似、背景相似的用戶群體,可能對同一幅圖像產(chǎn)生相似的情感反應,群體情感識別在推薦中起到很關(guān)鍵的作用。分析用戶自己提供的性別、背景、興趣和愛好等個人資料,將用戶分為不同類型的群體,然后使用概率圖模型或圖卷積網(wǎng)絡來表示不同因素的復雜關(guān)系值得嘗試。4)觀看者與圖像交互。除直接分析情感內(nèi)容外,還可以記錄并分析觀看者在看圖像時的視聽和生理反應(例如面部表情、腦電信號),并結(jié)合圖像內(nèi)容和觀看者的反應進行綜合建??梢愿玫貜浐锨楦续櫆?。5)高效的AICA學習。高效性問題在AICA領(lǐng)域尚處于開放階段?;谟嬎銠C視覺中已有方法(例如剪枝、神經(jīng)網(wǎng)絡搜索等),結(jié)合AICA的特性(例如情感層次),或許有效。如果在邊緣設(shè)備上訓練的模型可以在線增量式地學習,將會更有意義。

5.4 面部表情識別

面部表情數(shù)據(jù)集的識別精度在穩(wěn)步提升,除了提高數(shù)據(jù)集上的準確率外,真實世界的情感感知還有很多準確率之外的實際挑戰(zhàn)。

1)數(shù)據(jù)采集和標注問題。例如,在諸如自閉癥孤獨癥之類的心理疾病篩查應用場景中,數(shù)據(jù)采集條件與真實應用場景仍存在較大差距。在進行采集環(huán)境的設(shè)置時,必須結(jié)合心理學知識,才能獲得有效的數(shù)據(jù)和相應標注(Zhang等,2021c;Tang等,2020)。目前該方面的數(shù)據(jù)采集量仍無法滿足大規(guī)模神經(jīng)網(wǎng)絡訓練的要求。

2)實時表情分析問題。目前的訓練數(shù)據(jù)大都是切分好的片段序列或者單幅圖像,而情緒往往可能隱藏在某個瞬間(Ben等,2021)。如何采用高效檢測手段來進行實時化的情感識別也是目前待解決的一項問題。從面部行為推斷該個人明顯情緒的線索通常是稀疏且不規(guī)則地分布在感興趣的時間窗內(nèi),收集這種分布的上下文線索對進行實時化情緒判斷是至關(guān)重要的(Sanchez等,2021)。

3)混合表情識別問題。由于細粒度混合表情的復雜性和模糊性,其表情類別數(shù)也遠遠超過6類基本表情,因此傳統(tǒng)方法無法很好地區(qū)分混合表情。目前領(lǐng)域仍缺乏精心設(shè)計的算法對混合表情進行精準識別。

4)個體情感表達差異問題。由于不同被試個體之間在生理(性別、年齡等)和心理(種族文化等)方面上的差異,在相同誘發(fā)條件下,不同個體表達同一情感的面部方式也會存在較大的鴻溝(Xu等,2020;Chen和Joo,2021)。可以考慮采用遷移學習或增量學習的方法來減小這些差異,從而構(gòu)建出具有更佳泛化能力的表情分析模型(Li和Deng,2020;Kara等,2021)。

5)用戶隱私問題。隨著各項表情識別應用的普及,用戶的視覺隱私也成為了不可避免的問題。人們對于個人信息隱私保護關(guān)注的日益增長,視覺攝像頭在生活場景中的實施也會受到阻礙(Rahulamathavan和Rajarajan,2017)。因此,目前領(lǐng)域還需要可靠準確的面部表情識別隱私保護方法。這方面的研究仍不足 (Nakashima等,2015;Chen等,2018b;Ullah等,2021)。

5.5 微表情分析與識別

智能微表情分析在刑偵測謊、商業(yè)談判以及治療有效性評估等領(lǐng)域具有十分廣闊的應用的前景。在美劇《別對我撒謊》(Lie to me)中,主角Cal Lightman的故事即以Paul Ekman博士的諸多案例和事跡改編而成。盡管經(jīng)過10年左右的發(fā)展,在微表情的檢測和識別方面都取得了一些進展,但也應該看到,目前絕大部分微表情分析的工作都是針對在實驗室或者受控環(huán)境下采集的微表情樣本來進行的。如何設(shè)計出可以檢測、識別與分析自然產(chǎn)生的微表情的有效方法,仍然是一個亟待解決的研究方向。其次,在微表情數(shù)據(jù)集構(gòu)建方面,僅僅使用誘發(fā)的范式進行采集很難創(chuàng)造大規(guī)模的數(shù)據(jù)集,因此一種潛在的趨勢是提出更為科學的方法,充分利用來自社交媒體如bilibili等的大量視頻并對其存在的微表情進行標注。再者,動作單元AU與微表情之間是否有AU與宏表情類似的對應關(guān)系?對這個問題的探索將有助于進一步理解微表情和人類情感表達之間的關(guān)系,并為自動微表情分析提供進一步的依據(jù)。此外,如何充分利用相對來講更為容易獲得的宏表情數(shù)據(jù)提升微表情識別系統(tǒng)的性能,也是一個很有意義的研究方向。最后,微表情分析在應用落地方面,仍然存在諸多障礙,面臨不少難題,這些都有待學術(shù)界和工業(yè)界的同行共同去努力應對。

致 謝本文由中國圖象圖形學學會情感計算與理解專業(yè)委員會組織撰寫,專委會更多詳情請見鏈接:http://www.csig.org.cn/detail/3186。

宜昌市| 双鸭山市| 噶尔县| 英超| 关岭| 蕉岭县| 株洲县| 朔州市| 盐亭县| 盐城市| 社旗县| 贺兰县| 灌南县| 浦江县| 同江市| 东山县| 拉萨市| 澎湖县| 沿河| 葵青区| 井陉县| 刚察县| 中牟县| 嘉荫县| 沙湾县| 千阳县| 营山县| 开封县| 丰台区| 赤壁市| 凉城县| 龙口市| 宣威市| 威宁| 天津市| 尚义县| 德州市| 广元市| 武平县| 宜兰县| 安泽县|