多模態(tài)維度情感預(yù)測綜述

2018-04-23 04:00李霞盧官明閆靜杰張正言

自動化學(xué)報(bào) 2018年12期

李霞盧官明閆靜杰張正言

情感是人們?nèi)粘Ｉ钪谐Ｒ姷囊环N心理現(xiàn)象.對情感的準(zhǔn)確識別是利用情感進(jìn)行交流的前提,在日常人際交往中有著重要的作用.對于智能機(jī)器,只有能夠?qū)θ说那楦袪顟B(tài)進(jìn)行快速準(zhǔn)確的判斷,才有可能進(jìn)一步理解和響應(yīng)人類情感,從而實(shí)現(xiàn)與用戶進(jìn)行自然、友好、和諧地交互[1].例如在智能汽車系統(tǒng)中,對駕駛員的情感狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測,并根據(jù)監(jiān)測結(jié)果給予必要的響應(yīng)便能夠有效避免事故的發(fā)生;在智能電話服務(wù)系統(tǒng)中,對來電者的情感狀態(tài)進(jìn)行自動判斷,根據(jù)判斷結(jié)果給予合適的響應(yīng)或?qū)⒖刂凭€轉(zhuǎn)接給人工處理,便能有效地提高服務(wù)效率和質(zhì)量.

人的情感是通過面部表情、身體姿態(tài)、聲音以及生理信號等多種模態(tài)表現(xiàn)出來的.情感判斷可以基于這些模態(tài)中的一個(gè)或多個(gè)來進(jìn)行,但是單個(gè)模態(tài)的信息存在信息不全面、容易受噪聲干擾等缺陷,目前越來越多的研究者開始綜合運(yùn)用多個(gè)模態(tài)的信息進(jìn)行情感判斷.多個(gè)模態(tài)的信息能夠互相印證、互相補(bǔ)充,從而可以為情感判斷提供更加全面準(zhǔn)確的信息,提高情感判斷的性能.D0Mello等[2]對2009～2013年出現(xiàn)的多模態(tài)情感識別系統(tǒng)進(jìn)行元數(shù)據(jù)分析發(fā)現(xiàn),相比于單模態(tài)情感識別系統(tǒng),平均性能提高了9.83%,這充分肯定了多模態(tài)信息融合對提高情感識別性能的有效性.

要對人的情感狀態(tài)進(jìn)行判斷,首要的任務(wù)是建立情感狀態(tài)的表示模型.在情感識別領(lǐng)域,常用的情感表示模型主要有離散情感模型和維度情感模型.離散情感模型使用快樂、悲傷、憤怒等形容詞標(biāo)簽表示情感,雖然此種表示方式非常簡單、直觀,但無法區(qū)分情感的細(xì)微差別,也無法描述情感的演變過程.維度情感模型用幾個(gè)取值連續(xù)的維度將情感刻畫為一個(gè)多維信號[3].由于每個(gè)維度的取值可以連續(xù)變化,因此可以對情感的細(xì)微差別進(jìn)行區(qū)分,同時(shí)可以通過對情感狀態(tài)的實(shí)時(shí)標(biāo)注跟蹤情感狀態(tài)的演變過程.同時(shí),心理學(xué)的研究表明,一些情感維度的取值情況與人的記憶、注意等認(rèn)知行為具有密切聯(lián)系[1],這使得機(jī)器更容易根據(jù)維度情感預(yù)測結(jié)果來理解和響應(yīng)用戶的情感行為.

隨著手機(jī)、平板等各種便攜錄像、錄音設(shè)備,以及iwatch等智能可穿戴設(shè)備的出現(xiàn),人們隨時(shí)隨地獲取視頻、音頻及生理信號成為可能,這為多模態(tài)維度情感預(yù)測提供了數(shù)據(jù)基礎(chǔ),拓展了多模態(tài)維度情感預(yù)測的應(yīng)用領(lǐng)域.在多模態(tài)交互式對話系統(tǒng)中,系統(tǒng)中的虛擬人可以根據(jù)用戶的語音、面部表情和姿態(tài)預(yù)測用戶的維度情感,并根據(jù)預(yù)測結(jié)果選擇合適的詞語與用戶進(jìn)行對話,將用戶的情感狀態(tài)向某個(gè)特定的情感狀態(tài)進(jìn)行引導(dǎo).

多模態(tài)維度情感預(yù)測是綜合運(yùn)用情感的多個(gè)表現(xiàn)模態(tài)對各個(gè)情感維度的取值進(jìn)行預(yù)測,是一個(gè)復(fù)雜工程,包括建立多模態(tài)維度情感數(shù)據(jù)庫、從各個(gè)模態(tài)中提取特征、選擇與設(shè)計(jì)預(yù)測模型、信息融合等環(huán)節(jié),每個(gè)環(huán)節(jié)的處理對最后的預(yù)測性能都具有重大影響.本文綜述了多模態(tài)維度情感預(yù)測各個(gè)環(huán)節(jié)的研究現(xiàn)狀,對比和分析了不同方法對預(yù)測性能的影響,并總結(jié)出多模態(tài)維度情感預(yù)測面臨的挑戰(zhàn)及發(fā)展趨勢.

1 維度情感模型

離散情感模型和維度情感模型是情感識別領(lǐng)域廣泛使用的兩種情感表示模型.離散情感模型使用形容詞標(biāo)簽將情感表示為幾種相對獨(dú)立的情感類別(例如Ekman提出的快樂、悲傷、憤怒、恐懼、厭惡和驚訝六種基本情感[3]).離散情感模型因其簡單直觀的優(yōu)點(diǎn),在情感識別領(lǐng)域得到了極其廣泛的應(yīng)用.但是存在許多缺點(diǎn):1)情感的類別總是運(yùn)用某個(gè)詞語表示,導(dǎo)致運(yùn)用此模型能夠表示的情感范圍有限,同時(shí)導(dǎo)致情感的編碼與文化和語言具有密切的聯(lián)系[4],從而限制了情感編碼的普適性;2)很多情感類別之間存在高度的相關(guān)性[5],但在此模型下很難對這種相關(guān)性進(jìn)行度量和處理;3)情感的產(chǎn)生、發(fā)展和消失是一個(gè)過程,而此模型無法描述情感的發(fā)展進(jìn)程.

為了克服離散情感模型的缺點(diǎn),研究者建立了維度情感模型.維度情感模型認(rèn)為情感是一種高度相關(guān)的連續(xù)體,運(yùn)用幾個(gè)取值連續(xù)的基本維度將情感狀態(tài)描述為多維空間中的某一個(gè)坐標(biāo),每個(gè)維度是對情感的某一方面的度量[5].對于情感具有哪些維度,心理學(xué)家并沒有統(tǒng)一的認(rèn)識,其中認(rèn)同度最高的一種模型為“愉悅(Pleasure)–喚醒(Arousal)–支配(Dominance)”模型或PAD模型,此模型認(rèn)為情感具有愉悅維、喚醒維和支配維三個(gè)維度.愉悅維也稱為效價(jià)(Valence)維,是對人的愉悅程度的度量,從一個(gè)極端(苦惱)到另一個(gè)極端(狂喜);喚醒維也稱為激活(Activation)維,是對生理活動和心理警覺水平的度量,如睡眠、厭倦等為低喚醒,清醒、緊張等為高喚醒;支配維也稱為注意(Attention)維或能量(Power)維,是指影響周圍環(huán)境及他人或反過來受其影響的一種感受,高的支配度是一種有力、主宰感,而低的支配度是一種退縮、軟弱感[5?6].Russell在對PAD模型進(jìn)行深入研究時(shí)發(fā)現(xiàn),支配維更多地與認(rèn)知活動有關(guān),愉悅和喚醒兩個(gè)維度就可以表示絕大部分不同的情感,他采用環(huán)狀結(jié)構(gòu)模型表示復(fù)雜的情感[5].在環(huán)狀結(jié)構(gòu)模型中,每個(gè)維度的取值極限構(gòu)成一個(gè)圓,圓的中心表示中性的情感[7],愉悅和喚醒是兩個(gè)相互正交的維度,情感均勻地分布在圓環(huán)的內(nèi)部[5],此模型稱為愉悅–喚醒模型(也稱為效價(jià)–喚醒模型或VA模型),運(yùn)用此模型可以表示多數(shù)基本情感,如圖1所示[8].由于愉悅–喚醒模型的簡單和實(shí)用性,很多維度情感預(yù)測的研究都是在這兩個(gè)維度上進(jìn)行的.理論上講PAD模型能夠表示無窮多種情感,但它仍然不能表示人類所能體驗(yàn)的所有情感,例如“驚訝”就處在了此情感空間的外部[2].為了更完整地描述情感,一些研究者將期望(Expectation/anticipation)維作為第四個(gè)維度,強(qiáng)度(Intensity)維作為第五個(gè)維度[9].期望維是對個(gè)體情感出現(xiàn)的突然性的度量,即個(gè)體缺乏預(yù)料和準(zhǔn)備程度的度量;強(qiáng)度指的是個(gè)體偏離冷靜的程度.Fontaine等[10]的研究表明,第四個(gè)維度的加入能夠?qū)ⅰ绑@訝”與其他的情感類型區(qū)分開來,基本能夠區(qū)分日常生活中的所有情感.因此,在維度情感預(yù)測中,也有不少是基于前四個(gè)維度進(jìn)行的.

近年來,維度情感預(yù)測受到了越來越多的關(guān)注.其主要優(yōu)勢在于:1)維度情感模型相比于離散情感模型具有更強(qiáng)的表示能力,尤其是在處理自然的數(shù)據(jù)時(shí)優(yōu)勢更加明顯,此時(shí)情感狀態(tài)的范圍非常廣泛,很難用有限的幾種情感類型描述[4];2)運(yùn)用維度情感模型可以對情感的發(fā)展變化過程進(jìn)行跟蹤[4];3)運(yùn)用維度情感模型可以對情感的相似性和差異性進(jìn)行度量[9];4)心理學(xué)研究表明,人類的決策、推理、記憶、注意等認(rèn)知都與PAD模型中的三個(gè)維度存在密切關(guān)系,例如,Lang等研究表明愉悅維度決定了欲求動機(jī)系統(tǒng)和防御動機(jī)系統(tǒng)哪個(gè)被情感刺激激活,而喚醒維度決定了每個(gè)動機(jī)系統(tǒng)被激活的程度[11].由此可見,在人機(jī)互動中,運(yùn)用維度情感模型比運(yùn)用離散情感模型更利于機(jī)器充分理解人的情感并做出合適的反應(yīng).

圖1 愉悅–喚醒模型Fig.1 Pleasure-arousal model

2 維度情感標(biāo)注

維度情感模型雖然具有很多優(yōu)點(diǎn),但是維度情感預(yù)測直到最近幾年才得到人們的更多關(guān)注,主要原因是這種表示方式比較抽象,標(biāo)注比較困難.

維度情感標(biāo)注工作是基于情感量化理論完成的,目前沒有一個(gè)統(tǒng)一的方法.SAM(Self-assessment manikin)系統(tǒng)是一種被多數(shù)研究者認(rèn)可的維度情感量化方法,它基于PAD模型建立[12],使用卡通小人的形象表示PAD模型中三個(gè)維度的取值.圖2是效價(jià)維、喚醒維和支配維的取值分布[12],以卡通小人眉毛和嘴巴的變化表示效價(jià)維的取值;以心臟位置出現(xiàn)的震動程度以及眼睛的有神程度表示喚醒維的取值;以圖片的大小表示受控制的程度.在某個(gè)維度標(biāo)注的過程中,只需從對應(yīng)的卡通小人中選出一個(gè)最符合當(dāng)前情感狀態(tài)的即可.使用的小人數(shù)目由對此維度進(jìn)行量化的數(shù)目決定,一般為5個(gè)或9個(gè).每個(gè)小人對應(yīng)的具體數(shù)值沒有一個(gè)嚴(yán)格規(guī)定,使用9個(gè)小人時(shí),對應(yīng)的9個(gè)數(shù)字可以是1～9的整數(shù),可以是?4～4的整數(shù),也可以是[?1,1]的9個(gè)等間隔的值[13].相比于其他情感量化方法,SAM系統(tǒng)具有簡單、快速、直觀的優(yōu)點(diǎn),并且避免了不同人對同一詞語的不同理解造成的差異,從而獲得的標(biāo)注結(jié)果方差較小、不同標(biāo)注者間的一致性較高[14],因此SAM系統(tǒng)經(jīng)常被用于維度情感的標(biāo)注任務(wù)中.在每個(gè)卡通小人的下方標(biāo)注數(shù)字并與小人一起呈現(xiàn)于屏幕上,允許標(biāo)注者點(diǎn)擊兩個(gè)數(shù)字之間的任意位置,即可以實(shí)現(xiàn)對目標(biāo)維度的連續(xù)賦值[13].

圖2 SAM系統(tǒng)Fig.2 SAM system

情感是一個(gè)不斷變化的過程,為了對每個(gè)情感維度的取值進(jìn)行實(shí)時(shí)跟蹤,研究者開發(fā)了很多標(biāo)記工具,FEELtrace[7]和ANNEMO[15]是兩個(gè)常用的標(biāo)記工具.FEELtrace是基于效價(jià)–喚醒環(huán)狀模型建立的,如圖3所示[7],將以效價(jià)維和喚醒維為主軸的圓呈現(xiàn)于電腦屏幕上,標(biāo)注者只需根據(jù)自己感知的情感用鼠標(biāo)拖動圓形光標(biāo)到合適的位置即可同時(shí)對效價(jià)維和喚醒維賦值[7].ANNEMO是一種基于網(wǎng)頁的維度情感標(biāo)記工具,如圖4所示[15],它將視頻和標(biāo)記光標(biāo)同時(shí)顯示于一個(gè)窗口,用戶在觀看視頻的同時(shí),對視頻中對象的某個(gè)情感維度進(jìn)行時(shí)間連續(xù)的標(biāo)記[15].與FEELtrace相比,ANNEMO使用更加方便,而且一次只對一個(gè)維度進(jìn)行標(biāo)記,得到的結(jié)果更加精確.

圖4 ANNEMO標(biāo)注示例Fig.4 Example of ANNEMO annotation

3 維度情感預(yù)測的性能評估指標(biāo)

維度情感預(yù)測問題主要可以分為兩種類型,一是根據(jù)一個(gè)或多個(gè)維度的取值將維度情感預(yù)測問題退化為一個(gè)分類問題[9],此分類問題既可以是按照某個(gè)維度的取值分成正與負(fù)(或積極與消極)兩種類型的兩分類問題[16],又可以是按照某個(gè)維度的取值分為低、中、高三種類型的三分類問題[17],還可以是在效價(jià)–喚醒空間中用四個(gè)象限代表四個(gè)類別的四分類問題[18]等;二是對每個(gè)維度的連續(xù)取值進(jìn)行預(yù)測,此時(shí)維度情感預(yù)測問題是一個(gè)回歸問題[19].

當(dāng)維度情感預(yù)測問題退化為分類問題時(shí),稱為維度情感分類,此時(shí)預(yù)測性能的評價(jià)指標(biāo)與離散情感識別使用的評價(jià)指標(biāo)相同,主要有整體分類準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1-score等.設(shè)共有A,B兩種類別,nTP是A類樣本正確分類的樣本數(shù),nFN是A類樣本錯(cuò)誤分類的樣本數(shù),nFP是B類樣本錯(cuò)誤分類的樣本數(shù),nTN是B類樣本正確分類的樣本數(shù).則整體分類準(zhǔn)確率定義為

A類樣本的分類準(zhǔn)確率或召回率定義為[20]

A類樣本的分類精確率定義為[20]

A類樣本的分類F1-socre定義為[20]

當(dāng)維度情感預(yù)測為回歸問題時(shí),稱為連續(xù)維度情感預(yù)測,此時(shí)預(yù)測性能的評價(jià)指標(biāo)是一個(gè)不斷探索的問題,早期的文獻(xiàn)一般采用均方誤差(Mean squared error,MSE)度量估計(jì)的性能.設(shè)是估計(jì)標(biāo)簽,θ是真實(shí)標(biāo)簽,n為樣本數(shù)目,分別是和θ的方差,分別是和θ的期望,則MSE定義為[21]

MSE描述了預(yù)測與真值的偏差,但MSE對于異常值敏感,以及對θ與的相對變化趨勢無法進(jìn)行描述,因此并不能很好地描述預(yù)測與真值的吻合度.鑒于MSE的缺點(diǎn),Pearson相關(guān)系數(shù)(Pearson correlation coefficient,CC)被用來作為連續(xù)維度情感預(yù)測的評價(jià)指標(biāo),其定義為[21]

CC的取值范圍為[?1,1],反映了預(yù)測與真值具有線性關(guān)系的緊密程度.圖5給出了兩組效價(jià)維的預(yù)測與真值的對比圖[21],從圖5可以看出,CC能夠很好地反映預(yù)測與真值的協(xié)同變化關(guān)系.但是,由于CC對預(yù)測的幅值不敏感,無法對θ與的偏差進(jìn)行度量,因此仍不能很好地描述預(yù)測與真值的吻合程度.為了更好地描述預(yù)測與真值的吻合程度,AV+EC 2015[22]競賽中開始使用一致性相關(guān)系數(shù)(Concordance correlation coefficient,CCC)作為預(yù)測性能的評價(jià)指標(biāo),其定義為

CCC結(jié)合了CC與MSE的優(yōu)點(diǎn),既反映了預(yù)測與真值的協(xié)同變化關(guān)系,又反映了預(yù)測與真值的偏差,因此能夠更好地反映預(yù)測與真值的吻合程度,是目前廣泛使用的連續(xù)維度情感預(yù)測性能評價(jià)指標(biāo).圖6給出了CC相同,而CCC不同的預(yù)測與估計(jì)的吻合程度對比[23],顯然CCC高的吻合程度更高.

圖5 具有不同MSE和CC的效價(jià)維的預(yù)測與真值的對比圖Fig.5 Comparison of the prediction and truth values of valence dimension with different MSEs and CCs

4 多模態(tài)維度情感預(yù)測研究現(xiàn)狀

人類的情感可以通過面部表情、身體姿態(tài)、語音、生理信號等多個(gè)模態(tài)表現(xiàn)出來.面部表情和身體姿態(tài)都是可視的,有時(shí)也將它們統(tǒng)一看作視覺模態(tài);語音信息可以從聽覺途徑獲得,也稱為聽覺模態(tài).從這兩個(gè)(或多個(gè))模態(tài)中進(jìn)行情感判斷與我們的日常生活經(jīng)驗(yàn)相符,而且它們可以通過非侵入性的傳感器獲取,相對來說簡單方便成本低,因此一直以來基于這幾個(gè)模態(tài)中的一個(gè)或多個(gè)進(jìn)行情感判斷都是一個(gè)重要的課題.近些年隨著可穿戴傳感器的出現(xiàn),使得生理信號的實(shí)時(shí)獲取成為可能,這促進(jìn)了生理信號在情感識別研究中的運(yùn)用.

面部表情是人們?nèi)粘＝涣髦欣斫鈱Ψ角楦械闹饕€索之一[24?25].面部表情的最大優(yōu)點(diǎn)是它對六種基本情感的表現(xiàn)具有普遍性,并與文化背景無關(guān)[26].因此早期的情感識別主要集中于運(yùn)用面部表情進(jìn)行六種基本情感的識別.在維度情感模型下進(jìn)行情感預(yù)測,面部表情自然也是經(jīng)常使用的重要線索之一.

圖6 CC相同的條件下喚醒維的預(yù)測與真值的對比圖Fig.6 Comparison of the prediction and truth values of arousal dimension with the same CC

Ekman和Friesen的研究[27]表明身體姿態(tài)比面部表情能夠?yàn)榫S度情感預(yù)測提供更多的信息.因此很多維度情感預(yù)測的工作是基于身體姿態(tài)進(jìn)行的,Gunes等[28]運(yùn)用頭部運(yùn)動的幅度和方向,點(diǎn)頭和搖頭的頻率對五個(gè)情感維度的取值進(jìn)行了預(yù)測.

目前,運(yùn)動捕獲系統(tǒng)也經(jīng)常用于獲取面部和身體行為信息,它通過在面部和身體的固定位置放置一些標(biāo)記,記錄人的運(yùn)動行為.IEMOCAP[14]和CreativeIT[29]數(shù)據(jù)庫都提供了由運(yùn)動捕獲系統(tǒng)獲取的面部和身體行為數(shù)據(jù).

聽覺模態(tài)是可用于情感識別的一個(gè)重要模態(tài),聲音信號中既有明確的語言信息又有非語言的聲學(xué)信息,這些信息都可用于情感狀態(tài)的推斷[9,30].很多實(shí)驗(yàn)[31?32]都表明使用音頻信息比視頻信息能夠獲得更好的維度情感預(yù)測效果.因此,不管是進(jìn)行單模態(tài)還是多模態(tài)維度情感預(yù)測,聽覺模態(tài)都非常重要.

心理學(xué)的研究表明,人的情感與人的中樞神經(jīng)系統(tǒng)和自主神經(jīng)系統(tǒng)等都具有密切的聯(lián)系.人的不同情感活動會引起大腦的不同部位發(fā)生不同的反應(yīng)[33];能夠激起人的交感神經(jīng)系統(tǒng)活躍,從而引起腎上腺素和去甲腎上腺素分泌增多,心血管系統(tǒng)發(fā)生一系列變化[33];能夠引起內(nèi)外腺體變化,從而影響激素分泌量的變化[33]等.因此,腦電圖(Electroencephalography,EEG)、皮膚電活動(Electrodermal activity,EDA)、肌電圖 (Electromyography,EMG)、心電圖(Electrocardiogram,EKG 或ECG)、眼電圖 (Electrooculogram,EOG)、心率、呼吸率等[4,34]生理信號也常用來進(jìn)行維度情感預(yù)測.

上述這些模態(tài)可以單獨(dú)用于情感預(yù)測,但是單個(gè)模態(tài)存在信息不全面、容易受噪聲干擾等固有缺陷,造成依賴單個(gè)模態(tài)的情感預(yù)測系統(tǒng)在魯棒性、精確性等方面都不能滿足使用要求,這在很大程度上限制了它的應(yīng)用[2].而且,心理學(xué)領(lǐng)域的研究和情感識別領(lǐng)域的實(shí)驗(yàn)結(jié)果都表明同時(shí)考慮多個(gè)模態(tài)的信息確實(shí)能夠提高情感識別的效果,因此,多模態(tài)情感預(yù)測受到了人們極大的重視.構(gòu)建一個(gè)多模態(tài)維度情感預(yù)測系統(tǒng)一般包括多模態(tài)維度情感數(shù)據(jù)的收集、各個(gè)模態(tài)中的特征提取、預(yù)測模型的設(shè)計(jì)和選擇、信息融合和其他影響因素的處理.

4.1 多模態(tài)維度情感數(shù)據(jù)庫

在日常生活中,各種情感狀態(tài)的出現(xiàn)具有不平衡性,為了獲取豐富而全面的情感數(shù)據(jù),情感數(shù)據(jù)的收集一般是在實(shí)驗(yàn)室進(jìn)行的.由于表演的情感與自然的情感在很多個(gè)方面都存在差異,目前一般不直接要求對象表演某種情感,而是設(shè)計(jì)某種場景來誘導(dǎo)對象的情感,這樣獲得的情感數(shù)據(jù)也被認(rèn)為是自然的數(shù)據(jù).近年來研究者們在多個(gè)場景下收集了多模態(tài)情感數(shù)據(jù),并在不同的維度上進(jìn)行了標(biāo)注,常用的多模態(tài)維度情感數(shù)據(jù)庫有SEMAINE,RECOLA,IEMOCAP,CreativeIT,DEAP,VAM等.

SEMAINE(Sustained emotionally colored machine-human interaction using nonverbal expression)數(shù)據(jù)庫[35]是為了實(shí)現(xiàn)計(jì)算機(jī)能夠與人類進(jìn)行流暢的、富有情感的對話而建立的.目前公開的數(shù)據(jù)是在被稱作Solid SAL(Sensitive artificial listener)的場景下獲取的,此場景模擬了人機(jī)對話的過程,由人扮演了機(jī)器角色與用戶進(jìn)行對話.機(jī)器角色根據(jù)用戶的情感狀態(tài)選擇詞語與用戶進(jìn)行對話,使得對話不中斷,并將用戶的情感狀態(tài)向某個(gè)特定的情感狀態(tài)引導(dǎo).共有24個(gè)用戶分別與四個(gè)不同性格的機(jī)器角色進(jìn)行對話,每次對話都記錄了用戶和機(jī)器角色的正面視頻和音頻,以及用戶的側(cè)面視頻.標(biāo)注人員按照視頻幀率逐幀給出了用戶在對話過程中的情感狀態(tài)在喚醒維、效價(jià)維、支配維、期望維和強(qiáng)度維五個(gè)維度上的取值.

RECOLA(Remote collaborative and affective interactions)數(shù)據(jù)庫[15]共記錄了46個(gè)參與者的情感數(shù)據(jù),這些參與者兩人一組被分成23組,每組通過遠(yuǎn)程視頻會議討論某個(gè)災(zāi)難場景下逃生的方案,并達(dá)成一致意見.數(shù)據(jù)庫中包含所有參與者在討論過程中的面部視頻和音頻數(shù)據(jù),以及其中35個(gè)參與者的ECG、EDA數(shù)據(jù).標(biāo)注人員按照視頻幀率逐幀給出了參與者前5分鐘討論過程中的情感狀態(tài)在效價(jià)維和喚醒維的值.

IEMOCAP數(shù)據(jù)庫[14]共記錄了10個(gè)演員(5男,5女)的情感數(shù)據(jù),這些演員一男一女組合被分成5組,每組按照腳本或即興進(jìn)行對話表演.同一對話內(nèi)容由相同的演員表演兩次,每次使用運(yùn)動捕獲設(shè)備記錄對話一方的面部表情、頭部姿勢和手部運(yùn)動數(shù)據(jù),同時(shí)記錄對話雙方的視頻和音頻數(shù)據(jù).數(shù)據(jù)庫中共有174段對話,每一段對話都被分割成了語句,每個(gè)語句呈現(xiàn)的情感狀態(tài)在效價(jià)維、喚醒維和支配維三個(gè)維度上的值用1～5的整數(shù)進(jìn)行了標(biāo)記.

CreativeIT數(shù)據(jù)庫[29]共記錄了16個(gè)演員的情感數(shù)據(jù),這些演員兩人一組被分成了8組進(jìn)行即興表演,共進(jìn)行了50次表演.每次表演過程中,都記錄了表演雙方的視頻和音頻數(shù)據(jù),以及使用Vicon動作捕獲系統(tǒng)獲取的演員全身動作數(shù)據(jù).標(biāo)注人員按照視頻幀率逐幀給出了每個(gè)演員表演過程中的情感狀態(tài)在效價(jià)維、喚醒維和支配維三個(gè)維度的取值.

DEAP數(shù)據(jù)庫[13]記錄的是32個(gè)參與者在觀看音樂視頻時(shí)的EEG信號、外圍生理信號,以及其中22個(gè)人的正面視頻.每個(gè)參與者都觀看了40段音樂視頻,并將自己在觀看音樂視頻過程中感受到的情感在喚醒維、效價(jià)維和支配維上給出了1～9之間的連續(xù)自我評估.

VAM數(shù)據(jù)庫[36]中的素材來自德國的電視脫口秀節(jié)目Vera am Mittag.其數(shù)據(jù)分為三部分:VAM-video集、VAM-audio集和VAM-faces集.VAM-video集中的數(shù)據(jù)是從節(jié)目中分割出的1421條語句對應(yīng)的嘉賓視頻.VAM-audio集中的數(shù)據(jù)是從上述語句中選出的1081條比較好的語句對應(yīng)的聲音信號,并由標(biāo)注人員對每條語句展現(xiàn)的情感狀態(tài)在喚醒維、效價(jià)維和支配維三個(gè)維度上用[?1,1]的5個(gè)等間隔值進(jìn)行標(biāo)注.從VAM-video集中選取了大部分時(shí)間都是說話者正面圖像的視頻,并從中提取出說話者的面部圖像,構(gòu)成了VAM-faces集,共包含1867張圖片.標(biāo)注人員對VAM-faces集的圖片中對象的情感狀態(tài)在喚醒維、效價(jià)維和支配維三個(gè)維度上用[?1,1]的5個(gè)等間隔值進(jìn)行標(biāo)注.

表1總結(jié)了常用維度情感數(shù)據(jù)庫的數(shù)據(jù)獲取場景、參與者數(shù)目、記錄的模態(tài)、標(biāo)注的情感維度、標(biāo)注者人數(shù)、使用的標(biāo)注工具或標(biāo)注方法、標(biāo)簽的取值范圍及取值類型.

現(xiàn)有的數(shù)據(jù)庫多數(shù)是在特定場景下誘導(dǎo)得到的,在一個(gè)場景下訓(xùn)練的系統(tǒng)在另一個(gè)場景下或在真正自然的場景下的泛化能力如何,是一個(gè)值得研究的問題,這依賴于多個(gè)場景以及真正自然的場景下多模態(tài)維度情感數(shù)據(jù)庫的建立.構(gòu)建多模態(tài)維度情感數(shù)據(jù)庫與構(gòu)建多模態(tài)離散情感數(shù)據(jù)庫相比,除了要面臨情感狀態(tài)的出現(xiàn)不平衡、完整的多模態(tài)信息不容易捕捉等共同要面臨的困難外,維度情感標(biāo)簽的標(biāo)注也是一大困難.眾所周知,情感是一個(gè)變化的過程,對于多模態(tài)情感數(shù)據(jù)給出時(shí)間連續(xù)的維度情感標(biāo)簽比按段給出維度情感標(biāo)簽要更有使用價(jià)值.但時(shí)間連續(xù)的維度情感標(biāo)注不僅是一個(gè)耗時(shí)、耗力的乏味工作,而且由于時(shí)間連續(xù)的維度情感標(biāo)注是一個(gè)比較精細(xì)的過程,因此標(biāo)注結(jié)果與標(biāo)注者自身的偏好、經(jīng)驗(yàn)等都有著密切的關(guān)系.為了降低標(biāo)注者自身的因素對標(biāo)注結(jié)果的影響,常采取的方法[15]有:1)選擇多個(gè)標(biāo)注者共同完成標(biāo)注任務(wù);2)選擇與標(biāo)記對象具有相同母語的標(biāo)注者;3)在標(biāo)注工作開始之前對標(biāo)注者進(jìn)行訓(xùn)練使其能夠盡量客觀地給出維度情感的標(biāo)注,并且能夠熟練地使用維度情感標(biāo)注工具;4)對多個(gè)標(biāo)注者的標(biāo)注結(jié)果進(jìn)行插值、標(biāo)準(zhǔn)化等一系列后期處理,進(jìn)一步減少標(biāo)注偏差.

4.2 特征提取

無論是多模態(tài)還是單模態(tài)維度情感預(yù)測,也無論是維度情感預(yù)測還是離散情感識別,各個(gè)模態(tài)的特征提取都是非常關(guān)鍵的.特征提取后得到的特征維數(shù)往往較高,并且可能包含過多的冗余信息,從而影響最后的預(yù)測性能,因此常在特征提取之后進(jìn)行特征選擇和降維.表2總結(jié)了維度情感預(yù)測文獻(xiàn)中使用的模態(tài)以及各個(gè)模態(tài)的特征提取、特征選擇和降維方法,同時(shí)總結(jié)了預(yù)測模型和信息融合方法.

所有可以用于情感識別的特征都可以用于多模態(tài)維度情感預(yù)測中.如,視覺模態(tài)的幾何特征、紋理特征(Gabor[37],LBP[38],HoG[39],Haar[40]等)、時(shí)空幾何特征和時(shí)空紋理特征(LBP-TOP[41],LPQTOP[42],LGBP-TOP[43],時(shí)空Haar[44]等);音頻信號中的聲學(xué)特征(梅爾倒譜系數(shù)、對數(shù)頻率能量系數(shù)、線性預(yù)測系數(shù)、線性預(yù)測倒譜系數(shù)、譜質(zhì)心、頻譜流量、感知線性預(yù)測系數(shù)、共振峰頻率及其帶寬、頻率微擾和振幅微擾、聲門參數(shù)等[4,8])及其函數(shù);音頻信號中的語言特征(BoW(Bag of words)[4],BoC(Bag of concepts)[4],BoNG(Bag-of-N-grams)[45],BoCNG(Bag-of-character-N-grams)[45]等);生理信號的時(shí)域特征(過零率、均值等)、頻域特征(高頻能量、低頻能量等)、時(shí)間–頻域特征(希爾伯特–黃譜、離散小波變換等)等[46?47],都可用于維度情感預(yù)測中.

特征提取后得到的特征維數(shù)往往比較高,并且可能包含的冗余信息過多,從而影響最后的識別性能.因此常在特征提取之后進(jìn)行特征選擇和降維,常用的特征選擇和降維方法CFS(Correlation-based feature subset selection)[18],PCA(Principal component analysis)[48],SPCA(Supervised PCA)[48],KPCA(Kernel principal component analysis)[50],LDA (Linear discriminant analysis)[50],GDA(General discriminant analysis)[50]等都可以用于維度情感預(yù)測中.這些經(jīng)典的特征提取、特征選擇和降維方法使用廣泛,在很多綜述文章(如文獻(xiàn)[4,8?9,70]等)都有論述.

表1 常用維度情感數(shù)據(jù)庫總結(jié)Table 1 Summary of the frequently used dimensional emotion database

表2 維度情感預(yù)測文獻(xiàn)總結(jié)Table 2 Literature review of the dimensional emotion prediction

表2 維度情感預(yù)測文獻(xiàn)總結(jié)(續(xù))Table 2 Literature review of the dimensional emotion prediction(continued)

近年來,深度學(xué)習(xí)技術(shù)得到了突飛猛進(jìn)的發(fā)展,在很多領(lǐng)域都得到了比較成功的應(yīng)用.運(yùn)用深度學(xué)習(xí)技術(shù)進(jìn)行特征提取和選擇,不僅可以減少人工的干預(yù),減少手工提取和選擇特征的復(fù)雜性和盲目性,而且提取的特征對于識別問題來說能夠突出目標(biāo)本質(zhì)的差異性而忽略無關(guān)的差異性,從而能夠提高目標(biāo)識別的準(zhǔn)確性[71].因此,研究者們也將深度學(xué)習(xí)技術(shù)應(yīng)用到情感識別領(lǐng)域進(jìn)行各個(gè)模態(tài)的特征提取和選擇.

圖7 單層卷積神經(jīng)網(wǎng)絡(luò)的三個(gè)階段Fig.7 The tree phases of the single layer convolutional neural network

最常用于特征提取的深度網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN),它由多個(gè)單層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行多次堆疊而成.單層卷積神經(jīng)網(wǎng)絡(luò)一般包括卷積、非線性變換和下采樣三個(gè)階段,如圖7所示[72].每層的輸入和輸出為由一組向量構(gòu)成的特征圖.卷積階段的卷積核決定了對輸入特征圖的觀測模式,不同的卷積核得到不同的特征;非線性變換對卷積階段得到的特征進(jìn)行篩選;下采樣也稱作池化,其在減少數(shù)據(jù)量的同時(shí)能保留有用的信息.在CNN最后一層的輸出特征圖后接一個(gè)全連接層和分類器,即可實(shí)現(xiàn)分類或識別.CNN每一層的輸出都可看作是輸入信號的特征,可以單獨(dú)用于不同的任務(wù).卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)決定了其非常適合對圖像進(jìn)行特征提取,因此在多模態(tài)維度情感預(yù)測中,CNN經(jīng)常被用于提取視覺模態(tài)的特征(如文獻(xiàn)[67?69]).對于其他模態(tài)的特征也可使用CNN進(jìn)行特征提取,例如Zheng等[73]將語音信號轉(zhuǎn)換為一系列二維矩陣,作為CNN的輸入來提取語音特征;Poria等[74]將文本中的每個(gè)詞語根據(jù)word2vec詞典以及詞性表示成一個(gè)306維的向量,一個(gè)句子中的所有詞語對應(yīng)的向量連接成一個(gè)向量作為CNN的輸入進(jìn)行特征提取.遺憾的是運(yùn)用CNN提取非視覺模態(tài)的特征只是用于離散情感識別中,在維度情感預(yù)測中未見文獻(xiàn)報(bào)告.使用CNN進(jìn)行特征提取遇到的問題主要是數(shù)據(jù)量不足,從而導(dǎo)致過擬合現(xiàn)象,為了解決此問題一般采取的方法是,先使用其他庫訓(xùn)練CNN,然后在目標(biāo)庫上進(jìn)行特征提取,例如Chao等[69]使用在CFW和FaceSrub數(shù)據(jù)庫上訓(xùn)練的CNN獲取面部的表示.

由于情感的產(chǎn)生、發(fā)展和消退是一個(gè)過程,為了獲取更多的情感信息,研究者們試圖使用各種時(shí)空特征(時(shí)空幾何特征[23,61]、時(shí)空紋理特征[23,61]等)來提高維度情感預(yù)測的性能.由于LSTM(Long short-term memory)具有對時(shí)間序列進(jìn)行建模的能力,因此也經(jīng)常用來提取特征或提高特征的區(qū)分能力.Zhang等[65]為了消除自然環(huán)境下的加性噪聲和卷積噪聲對維度情感預(yù)測的影響,基于LSTM的結(jié)構(gòu)構(gòu)建了循環(huán)去噪自編碼(Recurrent denoising autoencoder,RDA)系統(tǒng),對傳統(tǒng)聲學(xué)特征進(jìn)行特征增強(qiáng),獲得了很好的效果.W?llmer等[18]將LSTM與動態(tài)Bayesian網(wǎng)絡(luò)(Dynamic Bayesian networks,DBN)相結(jié)合得到LSTM-DBN關(guān)鍵詞檢查器來獲取二值的語言特征.

堆疊自編碼(Stacked autoencoder,SAE)可以通過無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)來確定系統(tǒng)的參數(shù)、提高特征的可區(qū)分性,因此也常用來進(jìn)行特征提取或?qū)鹘y(tǒng)特征進(jìn)行抽象.SAE是以自編碼器(AutoEncoder,AE)為基本單元堆疊而成的一種深度網(wǎng)絡(luò).AE的結(jié)構(gòu)如圖8所示,包括編碼器和解碼器兩部分,輸入信號通過編碼器得到編碼,再通過一個(gè)解碼器得到輸入信號的重構(gòu),重構(gòu)與輸入信號對比得到重構(gòu)誤差.編碼器的輸出編碼即為抽象化的特征并作為下一層AE的輸入.逐層最小化重構(gòu)誤差,確定編碼和解碼參數(shù),即可以實(shí)現(xiàn)SAE的無監(jiān)督預(yù)訓(xùn)練,在最頂層添加一個(gè)分類器,運(yùn)用有標(biāo)簽樣本,通過有監(jiān)督學(xué)習(xí)可以實(shí)現(xiàn)對系統(tǒng)的參數(shù)微調(diào).但是對于SAE的層數(shù)以及每層神經(jīng)元的個(gè)數(shù)一般需要使用者根據(jù)自己的經(jīng)驗(yàn)確定.Yin等[20]提出了一種生理數(shù)據(jù)驅(qū)動的方法確定SAE的結(jié)構(gòu),并使用SAE獲取了各種傳統(tǒng)生理信號特征的抽象表示,進(jìn)而實(shí)現(xiàn)維度情感分類.

圖8 自編碼器的結(jié)構(gòu)Fig.8 Structure of autoencoder

4.3 預(yù)測模型

維度情感預(yù)測可以是一個(gè)分類問題也可以是一個(gè)回歸問題,當(dāng)其是一個(gè)分類問題時(shí),常用的分類器如支持向量機(jī)(Support vector machine,SVM)、K-最近鄰分類器、隱馬爾科夫模型(Hidden Markov model,HMM)等[9]都可用于完成維度情感分類的任務(wù);當(dāng)維度情感預(yù)測是一個(gè)回歸問題時(shí),常用的回歸模型如支持向量回歸(Support vector regression,SVR)、關(guān)聯(lián)向量機(jī) (Relevance vector ma-chine,RVM)等[9]都可用于連續(xù)維度情感預(yù)測.

情感的產(chǎn)生、發(fā)展和消退是一個(gè)過程,能夠?qū)Ω鱾€(gè)模態(tài)的時(shí)間動態(tài)信息進(jìn)行建模,對提高維度情感預(yù)測的性能是有益的,而RNN(Recurrent neural networks)正具有這樣的優(yōu)點(diǎn),因此RNN及其變形經(jīng)常被用于維度情感預(yù)測中.RNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示,圖9右邊是左邊網(wǎng)絡(luò)按時(shí)間展開的結(jié)果[71].t時(shí)刻的輸出不僅與t時(shí)刻的輸入有關(guān),而且還與歷史狀態(tài)有關(guān),因此它能夠?qū)r(shí)間序列進(jìn)行建模.但是當(dāng)t時(shí)刻依賴的信息越來越久遠(yuǎn)時(shí),RNN學(xué)習(xí)到這些信息會越來越困難,此時(shí)RNN的變形LSTM顯示了優(yōu)越性,它對長期信息進(jìn)行有選擇的記憶是一種默認(rèn)行為,不需要付出很大的代價(jià),因此LSTM更加適合進(jìn)行維度情感預(yù)測,很多文獻(xiàn)都使用了此模型(如[67?69]等).LSTM 模型只能使用歷史信息,但未來信息對維度情感預(yù)測也是有用的,為了將未來信息也用于維度情感預(yù)測中,一些文獻(xiàn)(如[21,31])使用了BLSTM(Bidirectional LSTM)模型,為了充分發(fā)掘特征與標(biāo)簽之間復(fù)雜的關(guān)系,也有很多文獻(xiàn)(如[62,64])使用了由BLSTM堆疊構(gòu)成的深度BLSTM(Deep BLSTM,DBLSTM)模型.

圖9 RNN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 Network structure of RNN

傳統(tǒng)RNN以平方誤差為代價(jià)函數(shù),而維度情感預(yù)測的目標(biāo)是最大化預(yù)測標(biāo)簽與實(shí)際標(biāo)簽的相關(guān)性,同時(shí)最小化它們的平均偏差,為了更好地實(shí)現(xiàn)這個(gè)目的,Weninger等[75]將RNN的代價(jià)函數(shù)由平方誤差更改為CCC,大大提高了連續(xù)維度情感預(yù)測的性能.Banda等[76]為了發(fā)揮RNN能夠?qū)^長的上下文依賴性進(jìn)行建模的優(yōu)點(diǎn),并加快收斂速度提高泛化能力,使用了NARX-RNN(Nonlinear AutoRegressive with eXogenous inputs recurrent neural network)模型進(jìn)行情感預(yù)測,也獲得了不錯(cuò)的效果.Pei等[66]將深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)與切換卡爾曼濾波器(Switching Kalman filter,SKF)相結(jié)合提出了DNN-SKF框架,先對輸入特征和情感維度之間復(fù)雜的非線性關(guān)系用DNN進(jìn)行建模,然后用分段線性的SKF對情感的時(shí)間動態(tài)進(jìn)行建模,進(jìn)而實(shí)現(xiàn)連續(xù)維度情感預(yù)測.

4.4 信息融合

理論上講,綜合考慮多個(gè)模態(tài)以及其他信息能夠提高情感識別系統(tǒng)的性能,但是一個(gè)不恰當(dāng)?shù)娜诤戏椒ú粌H不能提高識別的性能,可能還會降低識別的性能,文獻(xiàn)[77]僅用音頻或視頻模態(tài)進(jìn)行情感識別,所得平均識別率分別為0.506和0.500,但是運(yùn)用音視頻雙模態(tài)融合進(jìn)行情感識別的平均識別率僅為0.47.近些年研究者對信息融合進(jìn)行了非常廣泛的研究,提出了很多融合方法,其中用于維度情感預(yù)測的融合方法除了常見的特征層融合、決定層融合和模型層融合方法外,針對維度情感預(yù)測的特殊性,很多研究者將各個(gè)維度之間的關(guān)系用于維度情感預(yù)測過程中,這類融合方法稱為標(biāo)簽層融合.

特征層融合也稱早期融合,概念簡單、容易理解和操作,被廣泛應(yīng)用于維度情感預(yù)測中[51,78].Eyben等[32]為了將多個(gè)模態(tài)的行為事件(例如微笑、搖頭、嘆息等)用于各個(gè)情感維度的預(yù)測中,使用特征層融合的思想提出了基于串的融合方法,這也可以看作特征層融合的一個(gè)變形.為了充分發(fā)掘不同模態(tài)之間復(fù)雜的非線性關(guān)系,研究者提出了很多深層的特征融合方法,并將其應(yīng)用于維度情感預(yù)測中,Yin等[20]提出的基于多融合層的SAE集成分類器(Multiple-fusion-layer based ensemble classifier of SAE,MESAE)框架中,多個(gè)模態(tài)的生理信號特征先經(jīng)過SAE進(jìn)行抽象,再通過一個(gè)基于連通圖的分層融合網(wǎng)絡(luò)進(jìn)行融合得到最后的抽象融合特征.特征層融合中,最難處理是不同模態(tài)數(shù)據(jù)的異步性,為了處理這個(gè)難題,Chen等[63]在LSTM框架中將具有不同持續(xù)時(shí)間的特征輸入到網(wǎng)絡(luò)的不同層,短時(shí)音頻特征輸入到第一隱層,長時(shí)視頻特征輸入到第二隱層,最長時(shí)間的ECG特征輸入到第三隱層.

決定層融合也稱后期融合,也是一種操作簡單的融合方法,有著廣泛應(yīng)用.在多模態(tài)維度情感預(yù)測任務(wù)中,常用的決定層融合方法有求加權(quán)和[60]、求平均[79]、求中值[23]和線性回歸[22]等.為了對不同模態(tài)的預(yù)測結(jié)果之間復(fù)雜的關(guān)系進(jìn)行建模,近年來一些先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)也被用來進(jìn)行決定層融合,如Kalman濾波器[67]、極端學(xué)習(xí)機(jī)(Extreme learning machine,ELM)[64]、DLSTM[62]等.但是,決定層融合中默認(rèn)的各個(gè)模態(tài)相互獨(dú)立的假定與實(shí)際情形不符,這也限制了最后的預(yù)測性能.

模型層的融合是設(shè)計(jì)一個(gè)模型將多個(gè)模態(tài)的信息以及其他方面的信息相結(jié)合來獲取最終的情感預(yù)測結(jié)果.設(shè)計(jì)同時(shí)實(shí)現(xiàn)多模態(tài)信息融合和維度情感預(yù)測的模型技巧性較強(qiáng)、困難較大,文獻(xiàn)中的工作也不是太多.Soladi′e等[55]設(shè)計(jì)了一個(gè)模糊推斷系統(tǒng),將視頻、音頻和上下文相關(guān)特征進(jìn)行融合,并對情感的效價(jià)維、喚醒維等四個(gè)維度的取值進(jìn)行預(yù)測;Metallinou等[53]提出了一個(gè)高斯混合模型(Gaussian mixture model,GMM)融合多個(gè)音視頻特征,并對情感的喚醒維和支配維進(jìn)行跟蹤;Lin等[54]使用了誤差加權(quán)半耦合隱馬爾科夫模型(Error weighted semi-coupled hidden Markov model,EWSC-HMM)將音視頻特征在模型層面進(jìn)行融合,并實(shí)現(xiàn)維度情感分類;Wu等[80]提出了雙層半耦合隱馬爾科夫模型(Two-level hierarchical alignment-based SC-HMM,2H-SC-HMM),能夠?qū)σ曨l和音頻兩個(gè)模態(tài)的時(shí)間階段內(nèi)部以及時(shí)間階段之間的關(guān)系進(jìn)行對齊矯正,在此基礎(chǔ)上對音視頻信息進(jìn)行融合并實(shí)現(xiàn)維度情感分類.

上面三類融合方法是經(jīng)典的信息融合方法,在多模態(tài)離散情感識別和多模態(tài)維度情感預(yù)測中都有應(yīng)用,但是對多模態(tài)維度情感預(yù)測來說,所能使用的信息除了多模態(tài)信息外,還有各個(gè)維度之間的關(guān)系,將這些信息融入到多模態(tài)維度情感預(yù)測的過程中對于提高維度情感預(yù)測的性能是有益的,這種融合方法稱為標(biāo)簽層融合.Nicolaou等[21]基于心理學(xué)的研究結(jié)果(情感的各個(gè)維度之間是有密切聯(lián)系的)首次將情感的各個(gè)維度之間的關(guān)系應(yīng)用于多模態(tài)維度情感預(yù)測中,提出了一個(gè)輸出相關(guān)(Output-associative,OA)融合框架來利用各個(gè)情感維度間的相關(guān)性.在此框架中,對每個(gè)模態(tài)都使用LSTM分別對喚醒維和效價(jià)維進(jìn)行預(yù)測,將每個(gè)維度在每個(gè)模態(tài)上的預(yù)測結(jié)果作為輸入再一次使用LSTM 得到每個(gè)維度的最終估計(jì),如圖10所示[21].此種OA融合框架與決定層融合類似,最大的特點(diǎn)是使用了不同維度的預(yù)測結(jié)果來進(jìn)一步得到某一維度最后的預(yù)測;此融合框架中共進(jìn)行了前后兩次回歸運(yùn)算,這兩次回歸運(yùn)算使用的回歸模型并不限于LSTM,可以使用其他的回歸模型代替.實(shí)際上很多文獻(xiàn)也做了這樣的工作,例如Nicolle等[56]使用了局部線性回歸來融合基于不同模態(tài)的各個(gè)維度的預(yù)測.Nicolaou等[57]使用RVM代替LSTM,提出了OA-RVM回歸框架,并將輸入特征與初步預(yù)測一起輸入到一個(gè)RVM 中,得到最后的預(yù)測.Huang等[61]在使用OA和OA-RVM時(shí)將某一個(gè)時(shí)刻及其之前某一段時(shí)間的預(yù)測和輸入特征連接,輸入到下一個(gè)回歸模型中實(shí)現(xiàn)對這一時(shí)刻的維度情感預(yù)測,以此來對上下文信息進(jìn)行建模.Nicolaou等[59]為了利用每個(gè)情感維度之間以及每個(gè)維度與各個(gè)模態(tài)的特征之間的關(guān)系,借助CCA的思想提出了CSR(Correlatedspaces regression)模型,此模型先將所有模態(tài)的特征和標(biāo)簽運(yùn)用CCA映射到變換空間,然后在變換空間中學(xué)習(xí)特征到標(biāo)簽的映射,在測試集中只需將在變換空間中的估計(jì)映回原始標(biāo)簽空間即可.CSR模型使用了各個(gè)維度的相關(guān)性并且同時(shí)實(shí)現(xiàn)了特征的有監(jiān)督降維和多模態(tài)融合,也獲得了較好的效果.

圖10 OA融合框架Fig.10 OA fusion framework

4.5 其他信息的影響和應(yīng)用

多模態(tài)維度情感預(yù)測的性能不僅受多個(gè)模態(tài)的特征提取、預(yù)測模型選取以及信息融合的影響,而且受許多其他因素的影響,要獲取好的預(yù)測性能需要全面考察所有的影響因素.

在對每個(gè)情感維度進(jìn)行實(shí)時(shí)標(biāo)注時(shí),人的觀察、評估以及反應(yīng)都需要時(shí)間,這造成了標(biāo)注結(jié)果與情感表現(xiàn)之間有一個(gè)延時(shí),此延時(shí)與標(biāo)注者、標(biāo)注的維度、觀察的行為都有關(guān)系[81].用合適的方法處理這種延時(shí)有助于提高維度情感預(yù)測的性能.Huang等[61]將標(biāo)簽的前N幀和特征的后N幀去掉實(shí)現(xiàn)標(biāo)簽和特征在時(shí)間上的對齊,對最后的預(yù)測標(biāo)簽采用光滑濾波實(shí)現(xiàn)預(yù)測標(biāo)簽的延時(shí)以與基準(zhǔn)標(biāo)簽在時(shí)間上對齊.文中根據(jù)最后的預(yù)測性能尋找最佳延時(shí),獲得了很好的預(yù)測效果.Nicolle等[56]認(rèn)為特征與實(shí)際維度情感之間具有更強(qiáng)的相關(guān)性,于是利用特征與延時(shí)標(biāo)簽的相關(guān)系數(shù)構(gòu)建了延時(shí)概率分布,基于此概率分布進(jìn)行特征選擇,大大增強(qiáng)了預(yù)測結(jié)果的健壯性.Mariooryad等[81?82]通過最大化情感表現(xiàn)與延時(shí)標(biāo)簽的互信息獲取最佳延時(shí),并對標(biāo)簽進(jìn)行平移彌補(bǔ)延時(shí)造成的影響,在基于面部和聲音特征的維度情感分類中,這種彌補(bǔ)相對于基準(zhǔn)獲得了超過7%的增益.

5 對比與分析

維度情感預(yù)測一般是在自然的數(shù)據(jù)庫上進(jìn)行的,這是一個(gè)比較困難的任務(wù).為了提高情感預(yù)測的性能,研究者在特征提取、信息融合、預(yù)測模型的設(shè)計(jì)以及發(fā)掘維度情感預(yù)測性能的影響因素等方面都做了不懈努力.但是,由于文獻(xiàn)使用的數(shù)據(jù)庫、實(shí)驗(yàn)方法、分析的時(shí)間粒度、性能評價(jià)指標(biāo)、使用的維度以及對每個(gè)維度的處理方法等都不盡相同,因此很難進(jìn)行詳盡的對比分析.這里僅對一些具有可比性的結(jié)果進(jìn)行對比分析.表3和表4是在常用數(shù)據(jù)庫上

進(jìn)行連續(xù)維度情感預(yù)測和維度情感分類的對比總結(jié),給出的預(yù)測性能是相應(yīng)文獻(xiàn)中各個(gè)維度預(yù)測性能的平均值,其中文獻(xiàn)[22,47]中基于視頻特征的預(yù)測結(jié)果是基于紋理特征和幾何特征所得預(yù)測結(jié)果的平均值,文獻(xiàn)使用多種方法的,這里只列出獲得最好預(yù)測性能使用的方法.

表3 連續(xù)維度情感預(yù)測對比總結(jié)Table 3 Comparison and summary of continuous dimensional emotion prediction

表4 維度情感分類對比總結(jié)Table 4 Comparison and summary of dimensional emotion classification

情感的產(chǎn)生、發(fā)展和消退是一個(gè)動態(tài)過程,在特征提取時(shí)考慮時(shí)間變化,在模型設(shè)計(jì)時(shí)考慮上下文的依賴關(guān)系,都被證明對提高維度情感預(yù)測的性能是有效的.文獻(xiàn)[58,78]基于視頻的預(yù)測中,在相同條件下使用局部時(shí)空特征的預(yù)測結(jié)果明顯比使用靜態(tài)LBP特征的預(yù)測結(jié)果好.從2014年開始,AVEC比賽都是以時(shí)空特征(包括時(shí)空紋理特征和幾何特征)為基準(zhǔn)視頻特征,雖然與AVEC 2012使用的數(shù)據(jù)庫不同,也大概可以看出,與AVEC 2012基于視頻特征的基準(zhǔn)預(yù)測結(jié)果相比有了大幅的提高.在選擇分類/回歸模型時(shí),使用能夠?qū)ι舷挛牡膭討B(tài)依賴關(guān)系建模的模型比使用靜態(tài)模型的效果要好.文獻(xiàn)[31]采用LSTM模型對上下文信息進(jìn)行建模,使用AVEC 2011大賽組提供的音頻特征進(jìn)行維度情感分類,平均準(zhǔn)確率比AVEC 2011的基準(zhǔn)平均準(zhǔn)確率有了大幅度的提高.

各個(gè)模態(tài)的信息具有互為補(bǔ)充、互為印證的關(guān)系,合理地利用它們來提高各個(gè)情感維度的預(yù)測性能也是非常有效的.從表3可以看出,多模態(tài)維度情感預(yù)測系統(tǒng)的性能普遍優(yōu)于單模態(tài)維度情感預(yù)測系統(tǒng).多模態(tài)信息融合算法對預(yù)測性能的影響是巨大的,文獻(xiàn)[55]使用的多模態(tài)模糊推斷系統(tǒng)的預(yù)測結(jié)果與AVEC 2012基準(zhǔn)雙模態(tài)預(yù)測結(jié)果相比具有很大的提升.文獻(xiàn)[80]使用的2H-SC-HMM 模型,具有對音視頻兩個(gè)模態(tài)的時(shí)間階段內(nèi)部以及時(shí)間階段之間的關(guān)系進(jìn)行對齊矯正的能力,在SEMAINE庫上進(jìn)行維度情感分類的平均準(zhǔn)確率達(dá)到了87.5%,相比文獻(xiàn)[54]使用的EWSC-HMM模型完成相同任務(wù)的平均準(zhǔn)確率78.13%有了大幅的提高.

多模態(tài)維度情感預(yù)測是一項(xiàng)復(fù)雜的工程,其性能受到多種因素的影響,好的預(yù)測系統(tǒng)往往綜合考慮了各個(gè)方面的影響因素.文獻(xiàn)[56]使用多尺度動態(tài)視頻特征,考慮了反應(yīng)延時(shí)問題,使用局部線性回歸融合從每個(gè)模態(tài)獲得的各個(gè)維度的預(yù)測結(jié)果,獲得了目前AVEC 2012數(shù)據(jù)庫上最好的預(yù)測性能(平均CC=0.46).文獻(xiàn)[61]處理了標(biāo)注延時(shí)的問題,考慮了情感的各個(gè)維度的相關(guān)性問題,使用基于輸出相關(guān)融合框架的多模態(tài)系統(tǒng)在AVEC 2015數(shù)據(jù)庫上獲得了優(yōu)異的預(yù)測性能(平均CCC=0.66).文獻(xiàn)[62]利用DBLSTM具有對上下文的依賴性進(jìn)行建模的優(yōu)點(diǎn),將其應(yīng)用于單模態(tài)預(yù)測和對每個(gè)模態(tài)的預(yù)測結(jié)果進(jìn)行融合的過程中,而且在進(jìn)行單模態(tài)預(yù)測時(shí)進(jìn)行了特征選擇,同時(shí)處理了標(biāo)注延時(shí)的問題,獲得了AVEC 2015數(shù)據(jù)庫上目前最好的預(yù)測性能(平均CCC=0.68).

6 總結(jié)與展望

多模態(tài)維度情感預(yù)測涉及了心理學(xué)、生理學(xué)、社會科學(xué)等多個(gè)學(xué)科,它的發(fā)展依賴于多個(gè)領(lǐng)域的成果和發(fā)現(xiàn).隨著人工智能的發(fā)展和人機(jī)互動的迫切需要,多模態(tài)維度情感預(yù)測受到越來越多研究者的關(guān)注,近年來取得了很大進(jìn)展.本文通過對多模態(tài)維度情感預(yù)測研究現(xiàn)狀的認(rèn)識,思考總結(jié)出其面臨的挑戰(zhàn)及發(fā)展趨勢如下:

1)各個(gè)情感維度的標(biāo)記是一個(gè)十分耗費(fèi)時(shí)間和精力并且需要一定技巧的工作,這限制了維度情感數(shù)據(jù)集的建立.因此,充分應(yīng)用有限的現(xiàn)有數(shù)據(jù),采用弱監(jiān)督或半監(jiān)督學(xué)習(xí)提升預(yù)測的泛化能力是一個(gè)亟待解決的問題.

2)多個(gè)模態(tài)的情感數(shù)據(jù)一般是通過多種傳感器獲取的,在獲取過程中很難做到記錄的同步性,并且不同的模態(tài)對情感狀態(tài)的表現(xiàn)也不是同步的,在進(jìn)行多模態(tài)維度情感預(yù)測中如何更好地處理這些異步性是一個(gè)挑戰(zhàn)性的問題.

3)各個(gè)模態(tài)蘊(yùn)含的情感信息互為補(bǔ)充、互為印證,而且受數(shù)據(jù)的獲取條件以及個(gè)體的刻意控制等很多因素的影響,會出現(xiàn)一個(gè)或多個(gè)模態(tài)信息的缺失,因此如何更好地建立模型實(shí)現(xiàn)多模態(tài)信息融合是一個(gè)需要研究的問題.

4)情感的維度信息與其他信息(如情感的類別信息、社會行為信息等)都具有密切的關(guān)系,在維度情感預(yù)測過程中如何充分利用這些信息提高維度情感預(yù)測的性能是一個(gè)有趣的問題.

5)在現(xiàn)有的多模態(tài)維度情感預(yù)測中,對于生理信號和語言信息(語音識別出的語言或文本中的語言)的使用十分有限,但是顯然這兩種信號能夠?yàn)榫S度情感預(yù)測提供有用的信息.因此如何從這兩種信號中挖掘出對維度情感預(yù)測有用的信息是值得研究的.

6)隨著深度學(xué)習(xí)技術(shù)的發(fā)展以及在各個(gè)領(lǐng)域的成功應(yīng)用,多模態(tài)維度情感預(yù)測領(lǐng)域也不可避免地受到影響,并且目前也有了一些應(yīng)用.但是如何更好的將深度學(xué)習(xí)技術(shù)應(yīng)用于維度情感預(yù)測的各個(gè)環(huán)節(jié),深度學(xué)習(xí)技術(shù)在各個(gè)環(huán)節(jié)的應(yīng)用能否優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù),以及運(yùn)用深度學(xué)習(xí)技術(shù)提升的預(yù)測性能相對計(jì)算成本的增加是否相匹配等,都是需要充分研究的問題.

7)由于人機(jī)互動的實(shí)時(shí)性需要,提高多模態(tài)維度情感預(yù)測性能的同時(shí)降低計(jì)算量,使多模態(tài)維度情感預(yù)測能夠?qū)崟r(shí)地進(jìn)行具有很大的實(shí)際應(yīng)用意義.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡