陳 田,蔡從虎,袁曉輝,羅蓓蓓
(1.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥 230009;2.智能互聯(lián)系統(tǒng)安徽省實(shí)驗(yàn)室,合肥 230009;3.情感計(jì)算與先進(jìn)智能機(jī)器安徽省重點(diǎn)實(shí)驗(yàn)室,合肥 230009;4.北德克薩斯大學(xué) 計(jì)算機(jī)科學(xué)與工程系,丹頓 76207)
情感對(duì)人類生活生產(chǎn)有巨大意義,隨著情感計(jì)算技術(shù)的不斷發(fā)展,使用情感計(jì)算輔助計(jì)算機(jī)理解和表達(dá)人類情感成為潛在需求[1]。人的生理信號(hào)是人在面對(duì)不同外部環(huán)境時(shí)產(chǎn)生的電信號(hào),主要包括腦電(ElectroEncephaloGram,EEG)信號(hào)、心電(ElectroCardioGram,ECG)信號(hào)、眼動(dòng)信號(hào)等。一方面,這些信號(hào)源自生理反應(yīng),無法被個(gè)體主觀掩飾,具有客觀性[2];另一方面,生理信號(hào)與情感的產(chǎn)生和表達(dá)具有相關(guān)性,數(shù)據(jù)包含大量情感相關(guān)信息,也易于采集,因此,基于生理信號(hào)的情感識(shí)別方法具有很大的研究價(jià)值和廣泛的應(yīng)用場景[3-4]。
腦電、心電和眼動(dòng)等生理信號(hào)本身呈現(xiàn)非平穩(wěn)隨機(jī)信號(hào)的特點(diǎn),普通的時(shí)頻域分析能得到的信息量較少,識(shí)別結(jié)果也存在準(zhǔn)確率低、跨個(gè)體泛化能力弱的問題。近年來,許多研究使用深度學(xué)習(xí)方法學(xué)習(xí)生理信號(hào)特征,以增強(qiáng)提升情感識(shí)別能力[5-6]。然而,以卷積為代表的深度學(xué)習(xí)方法存在參數(shù)量大、訓(xùn)練成本高的問題,導(dǎo)致方法的實(shí)用性低。不同生理信號(hào)在個(gè)體之間的特征和變化規(guī)律存在差異,因此Chen等[7]提出結(jié)合多種生理信號(hào)進(jìn)行多模態(tài)生理信號(hào)的情感識(shí)別,以提高跨個(gè)體的情感識(shí)別能力。基于決策層融合的多模態(tài)方法需要構(gòu)建多個(gè)分類器,對(duì)不同的信號(hào)分別進(jìn)行處理,這進(jìn)一步加大了參數(shù)規(guī)模。使用統(tǒng)一模型進(jìn)行數(shù)據(jù)訓(xùn)練和情感分類的特征層融合的方法有利于減小參數(shù)規(guī)模;然而多模態(tài)特征在融合時(shí)可能相互干擾,影響識(shí)別效果[8],因此需要進(jìn)一步地研究有效的特征融合方法。
本文提出一種基于EEG、ECG 和眼動(dòng)信號(hào)的特征層融合的多模態(tài)情感識(shí)別方法。首先通過適用于生理信號(hào)的1D-Inception(One-Dimensional-Inception)多尺度深度學(xué)習(xí)結(jié)構(gòu)對(duì)EEG、ECG 和眼動(dòng)信號(hào)進(jìn)行特征學(xué)習(xí)。1D-Inception 通過設(shè)置多尺度卷積核降低卷積參數(shù)規(guī)模,在有限的卷積層內(nèi)提取更高維度的情感相關(guān)特征。不僅如此,本文還通過自注意力(Self-Attention)機(jī)制將不同生理信號(hào)所提取的特征在特征層融合。本文所做的主要工作如下:
1)使用1D-Inception 結(jié)構(gòu)對(duì)生理信號(hào)進(jìn)行特征學(xué)習(xí)。相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),該結(jié)構(gòu)更適合生理信號(hào)的特征學(xué)習(xí)。1D 卷積保證了不同生理信號(hào)單獨(dú)進(jìn)行特征提取,排除其他模態(tài)的干擾。
2)使用自注意力和雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)對(duì)各生理信號(hào)的特征進(jìn)行融合和分類。前者用于多模態(tài)特征融合,后者則通過時(shí)序特征學(xué)習(xí)對(duì)情感進(jìn)行預(yù)測。
EEG、ECG 和眼動(dòng)信號(hào)都具有非穩(wěn)態(tài)特點(diǎn),并不具有特定的波形模式。有研究使用時(shí)頻域和統(tǒng)計(jì)學(xué)特征提取特征。Chen 等[9]使用了EEG 的Lempel-Ziv 復(fù)雜性和小波細(xì)節(jié)因子特征組成綜合特征進(jìn)行情感識(shí)別;Katsigiannis 等[8]使用ECG中的波形統(tǒng)計(jì)特征,結(jié)合心率變異度(Heart Rate Variability,HRV)和功率譜密度(Power Spectral Density,PSD)等特征檢測情感。對(duì)于眼動(dòng)信號(hào),陳田等[10]使用眼球上下運(yùn)動(dòng)模式的波形相關(guān)性系數(shù)和作為特征,取得了一定的識(shí)別效果。
生理信號(hào)在個(gè)體間存在差異,傳統(tǒng)的時(shí)頻域和統(tǒng)計(jì)學(xué)特征的固定計(jì)算方法難以體現(xiàn)差異,通常存在識(shí)別率低、跨個(gè)體分類的泛化能力弱的問題[11]。隨著深度學(xué)習(xí)的發(fā)展,基于CNN 的特征學(xué)習(xí)方法成為研究熱點(diǎn)。CNN 通過堆疊網(wǎng)絡(luò)和調(diào)整參數(shù)自動(dòng)學(xué)習(xí)特征表示,在面對(duì)不同個(gè)體差異時(shí)分類更具有可泛化性。Singson 等[12]使用ResNet 架構(gòu)的CNN 對(duì)實(shí)驗(yàn)采集的ECG 數(shù)據(jù)進(jìn)行特征學(xué)習(xí)和情感識(shí)別,取得了68.42%的識(shí)別準(zhǔn)確率。Chen 等[13]將EEG 原始數(shù)據(jù)和PSD特征組合,并使用CNN 進(jìn)行分類,在DEAP 數(shù)據(jù)集[14]上取得了85.57%的準(zhǔn)確率。然而,傳統(tǒng)CNN 為了學(xué)習(xí)高維度特征需要累加多層網(wǎng)絡(luò),導(dǎo)致方法參數(shù)量大、訓(xùn)練成本高、可實(shí)用性低。
Inception[15]是一種更高效的卷積結(jié)構(gòu)。傳統(tǒng)卷積只考慮固定范圍內(nèi)的數(shù)據(jù),單層視野域有限,因此需要多層卷積疊加提升視野域范圍。而Inception 設(shè)置多個(gè)尺度的卷積核,使卷積過程中具備更多的視野域,既能考慮大范圍整體數(shù)據(jù),又能考慮小范圍的局部數(shù)據(jù)。相較于傳統(tǒng)卷積,Inception 單層卷積就能獲得信息量更豐富的特征,具有更強(qiáng)的特征學(xué)習(xí)能力和更低的參數(shù)代價(jià)。文獻(xiàn)[16-17]中分別使用2 維和3 維的卷積核搭建Inception 結(jié)構(gòu),用于EEG 的運(yùn)動(dòng)想象識(shí)別,取得了良好的識(shí)別效果,證明了Inception 結(jié)構(gòu)能有效學(xué)習(xí)生理信號(hào)特征。在多模態(tài)信號(hào)中采用多維卷積核會(huì)導(dǎo)致不同生理信號(hào)在卷積中相互干擾,因此,本文擬采取1D-Inception 的結(jié)構(gòu)進(jìn)行特征學(xué)習(xí),既保留Inception 的優(yōu)勢,同時(shí)1 維卷積核又可以保證不同通道的信號(hào)之間彼此隔絕,避免信號(hào)互相干擾而導(dǎo)致特征的可識(shí)別性下降。
基于生理信號(hào)的情感識(shí)別通常受噪聲、個(gè)體差異的影響,而生理信號(hào)的多模態(tài)融合方法則可以讓各種生理信號(hào)達(dá)成信息互補(bǔ),提高方法的識(shí)別效果。Kwon 等[18]融合EEG 和皮膚電反應(yīng)(Galvanic Skin Response,GSR)信號(hào),在DEAP 數(shù)據(jù)集上取得了73.4%的情感識(shí)別率。Chen 等[7]將實(shí)驗(yàn)采集的EEG 和ECG 數(shù)據(jù)分別使用支持向量機(jī)(Support Vector Machines,SVM)和長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)進(jìn)行分類,最終在決策層融合,取得了85.38%的準(zhǔn)確率。然而決策層融合需要訓(xùn)練多個(gè)分類器,會(huì)極大增加參數(shù)規(guī)模而降低實(shí)用性。在特征層融合的方法中,由于不同模態(tài)的異質(zhì)性,進(jìn)行簡單的特征連接會(huì)造成模態(tài)相互干擾。Katsigiannis 等[8]分別使用EEG 的PSD 特征和ECG 的HRV 等特征在DREAMER 數(shù)據(jù)集[8]上訓(xùn)練分類器,結(jié)果表明特征層融合的多模態(tài)方法相較于單模態(tài)性能提升有限,一些情況下甚至遜于單模態(tài)。對(duì)于不同模態(tài)的特征融合,使用自注意力機(jī)制可能是一種有效的方法。自注意力通過學(xué)習(xí)特征之間的相關(guān)性,將相關(guān)性高的特征賦予高權(quán)重,低的則相反。因而每個(gè)模態(tài)的特征在融合后充分考慮了它與其他模態(tài)的相關(guān)性,能得到模態(tài)間干擾程度低、信息量豐富的融合特征。Chen 等[19]使用自注意力對(duì)EEG 多個(gè)通道特征進(jìn)行學(xué)習(xí)融合,在DEAP 數(shù)據(jù)集的情感識(shí)別任務(wù)上取得了93.72%的準(zhǔn)確率,證明了自注意力特征融合方法的有效性。
本文基于EEG、ECG 和眼動(dòng)信號(hào),使用1D-Inception 特征學(xué)習(xí)模塊、自注意力模塊和Bi-LSTM 網(wǎng)絡(luò)組成骨干網(wǎng)絡(luò),對(duì)三種生理信號(hào)進(jìn)行特征提取和融合,最終使用全連接層輸出預(yù)測概率。多模態(tài)情感識(shí)別方法的模型結(jié)構(gòu)如圖1 所示,主要由4 個(gè)模塊構(gòu)成。其中,頻帶注意力學(xué)習(xí)模塊對(duì)EEG 多個(gè)頻帶的數(shù)據(jù)進(jìn)行處理,1D-Inception 特征學(xué)習(xí)模塊用于各種生理信號(hào)的特征學(xué)習(xí),自注意力模塊學(xué)習(xí)不同生理信號(hào)的各個(gè)特征之間的相互關(guān)系并為這些特征添加權(quán)重,最后使用Bi-LSTM 網(wǎng)絡(luò)提取時(shí)序信息,并通過全連接層(Fully Connection layer,F(xiàn)C)完成分類。
圖1 多模態(tài)情感識(shí)別方法的模型結(jié)構(gòu)Fig.1 Model architecture of multimodal emotion recognition method
EEG 不同于其他生理信號(hào),它的頻率范圍被認(rèn)為和情感高度相關(guān)[20],EEG 不同頻帶對(duì)應(yīng)的大腦活動(dòng)如表1 所示(δ 頻段由于頻率過低,能采集的數(shù)據(jù)較少,因此不考慮采用)。不同頻帶的EEG 信號(hào)對(duì)應(yīng)不同的大腦活動(dòng),因此有必要對(duì)EEG 信號(hào)分頻;然而,高頻率的EEG 頻帶并不包含所有的情感信息,一些情感對(duì)應(yīng)的大腦活動(dòng)并不是很激烈,因此只考慮單頻帶的EEG 也不妥。為了解決這個(gè)問題,本文提出對(duì)EEG 的頻帶數(shù)據(jù)使用注意力機(jī)制的方法。
表1 EEG不同頻帶對(duì)應(yīng)的大腦活動(dòng)Tab.1 Brain activities corresponding to different frequency bands of EEG
注意力機(jī)制是一種為數(shù)據(jù)加權(quán)的自適應(yīng)方法,通過學(xué)習(xí)數(shù)據(jù)之間的關(guān)系來分配權(quán)重。注意力機(jī)制使得與情感高度相關(guān)的頻帶特征被強(qiáng)化,無關(guān)數(shù)據(jù)則被抑制。傳統(tǒng)人工賦予權(quán)值的方法無法考慮個(gè)體信號(hào)差異,導(dǎo)致方法跨個(gè)體分類性能不佳[9]。本文采用的自適應(yīng)的注意力機(jī)制可以綜合考慮數(shù)據(jù),根據(jù)不同個(gè)體的特征重要程度給出不同的權(quán)重配置。
在頻帶注意力學(xué)習(xí)模塊中,首先計(jì)算EEG 樣本中各個(gè)頻帶的平均值,結(jié)果表示為x=(x1,x2,…,xr),其中xi是頻帶的EEG 平均值,r是頻帶數(shù)。隨后采用兩個(gè)全連接層進(jìn)行權(quán)值學(xué)習(xí),它們的作用不同:第一層是參數(shù)為W1和b1的升維層,第二層則是參數(shù)為W2和b2的降維層。升維使用tanh 作為固定激活函數(shù)增加注意力學(xué)習(xí)網(wǎng)絡(luò)的非線性,避免計(jì)算結(jié)果中出現(xiàn)過多線性組合。降維的激活函數(shù)選擇使用sigmoid,作用是將網(wǎng)絡(luò)計(jì)算的分?jǐn)?shù)轉(zhuǎn)換為取值在0~1 的權(quán)值。如式(1)所示:
通過權(quán)值學(xué)習(xí),EEG 頻帶的重要性轉(zhuǎn)化為了頻帶的注意力a=(a1,a2,…,ar),其中ai是某一頻帶的注意力。依據(jù)式(2)對(duì)于不同的EEG 頻帶數(shù)據(jù)添加注意力:
其中:Di∈Rn×t(i=1,2,…,r)表示某頻帶EEG 數(shù)據(jù);n和t是EEG 信號(hào)通道數(shù)和時(shí)間維度;Ofreq為加權(quán)結(jié)果,顯然Ofreq∈Rn×t。經(jīng)過添加注意力的操作后,情感關(guān)鍵的頻帶數(shù)據(jù)被賦予了高權(quán)重,在分類模型中的作用會(huì)被強(qiáng)化。
在生理信號(hào)情感計(jì)算中,基于CNN 的特征學(xué)習(xí)方法是有效的[13]。然而CNN 存在的問題為:CNN 在一層卷積內(nèi),卷積核大小是固定不變的,因此單層卷積的視野域也是固定的。如果想要擴(kuò)展卷積的視野域,就需要疊加多層的卷積,造成參數(shù)規(guī)模和訓(xùn)練代價(jià)上升,也容易造成過擬合。而Inception 結(jié)構(gòu)則是對(duì)CNN 的一種改進(jìn)方案。Inception 結(jié)構(gòu)在一層卷積內(nèi)使用多個(gè)尺度的卷積核提供各種視野域,單層卷積就能得到信息量豐富的特征,且具有較小的參數(shù)規(guī)模。因此,本文對(duì)原始Inception 結(jié)構(gòu)進(jìn)行改進(jìn),提出一種適合于生理信號(hào)特征學(xué)習(xí)的1D-Inception 結(jié)構(gòu)用于生理信號(hào)的多尺度卷積,如圖2 中的框內(nèi)部分所示。對(duì)于生理信號(hào)數(shù)據(jù),1D-Inception 的卷積操作包含3 個(gè)分支:第1 個(gè)分支首先使用寬度為1 的卷積核對(duì)原始數(shù)據(jù)進(jìn)行升維,之后使用寬度為d的卷積核進(jìn)行卷積;第2 個(gè)分支使用寬度為2d的卷積核,與第1 個(gè)分支相比,視野域擴(kuò)大一倍;第3 個(gè)分支對(duì)原始數(shù)據(jù)進(jìn)行池化采樣和升維,采樣寬度為1.5d,這個(gè)分支保留了原始的數(shù)據(jù)信息,并進(jìn)行了通道映射。最后將3 個(gè)分支的卷積池化結(jié)果在通道維度上連接,計(jì)算結(jié)果既包含兩種尺度的卷積結(jié)果,又包含原始的數(shù)據(jù)特征,因此可以得到相較于一般卷積信息量更豐富的特征。
圖2 1D-Inception特征學(xué)習(xí)模塊的結(jié)構(gòu)Fig.2 Structure of 1D-Inception feature learning module
為進(jìn)一步減少參數(shù)規(guī)模和降低訓(xùn)練代價(jià),本文使用池化層和批標(biāo)準(zhǔn)化對(duì)1D-Inception 的卷積結(jié)果進(jìn)行處理。采用平均池化將計(jì)算結(jié)果采樣后,使用批標(biāo)準(zhǔn)化將批次內(nèi)的特征調(diào)整到標(biāo)準(zhǔn)正態(tài)分布下,使損失函數(shù)更平坦,加速學(xué)習(xí)過程[21]。由于單層參數(shù)規(guī)模和訓(xùn)練代價(jià)并不高,因此本文將兩個(gè)1D-Inception 塊堆疊以增加模塊學(xué)習(xí)能力,中間使用池化采樣和批標(biāo)準(zhǔn)化進(jìn)行連接,組成本文所使用的1D-Inception 特征學(xué)習(xí)模塊,如圖2 所示。模塊最終輸出的特征是維度為時(shí)間和通道的二維特征,通過特征展平最終輸出一維特征。在使用1D-Inception 特征學(xué)習(xí)模塊時(shí),將EEG 的各個(gè)通道、ECG 信號(hào)和眼動(dòng)信號(hào)分別單獨(dú)送入模塊提取特征避免不同模態(tài)之間的數(shù)據(jù)互相干擾。
對(duì)各生理信號(hào)完成特征學(xué)習(xí)后,需要對(duì)特征進(jìn)行有效融合。如果只對(duì)不同模態(tài)的特征簡單拼接,由于不同生理信號(hào)的信號(hào)模式存在差異,特征可能會(huì)相互干擾,降低識(shí)別準(zhǔn)確率,因此,本文提出使用自注意力[22]進(jìn)行不同生理信號(hào)的特征融合。自注意力機(jī)制可以學(xué)習(xí)特征向量之間的相關(guān)性,進(jìn)而提高關(guān)鍵特征的權(quán)重,降低非關(guān)鍵特征對(duì)于結(jié)果的影響。
使用自注意力機(jī)制對(duì)多模態(tài)生理信號(hào)特征進(jìn)行融合,自注意力模塊的結(jié)構(gòu)如圖3 所示。實(shí)驗(yàn)采用的EEG 數(shù)據(jù)的通道數(shù)為32,因此首先分別訓(xùn)練32 個(gè)EEG 信號(hào)、1 個(gè)ECG 信號(hào)和1 個(gè)眼動(dòng)信號(hào)總計(jì)34 個(gè)特征向量的query、key和value向量;然后通過計(jì)算不同特征之間的query與key向量的相關(guān)性來代表特征之間的相關(guān)性,通過softmax 標(biāo)準(zhǔn)化后,得到向量之間的注意力;最后將注意力值和各特征向量的value向量進(jìn)行加權(quán)和,得到的新特征向量會(huì)根據(jù)學(xué)習(xí)的注意力值的不同,區(qū)別關(guān)注各輸入特征向量的信息。
圖3 自注意力模塊的結(jié)構(gòu)Fig.3 Structure of self-attention module
特征向量的query、key和value向量的計(jì)算方法如式(3)所示:
其中:ci∈Rt(i=1,2,…,34)為特征向量,34為多模態(tài)生理信號(hào)的特征向量數(shù),t為特征維度都是維度變換的參數(shù)矩陣,t' 是變換后維度,顯然之后,使用各特征的keyj和queryi的向量點(diǎn)積來計(jì)算特征之間彼此的注意力,如式(4)所示:
其中:atti,j代表特征i對(duì)特征j的注意力值,softmax 函數(shù)起到歸一化作用,使點(diǎn)積值映射到(0,1)區(qū)間內(nèi)形成權(quán)值。注意力值計(jì)算完成后,使用注意力值對(duì)各個(gè)輸入向量的valuej加權(quán)疊加,如式(5)所示:
其中mi即為特征i的加權(quán)后結(jié)果??煽闯龃诉^程中的每個(gè)特征綜合考慮了其他所有特征的相關(guān)性,對(duì)計(jì)算后的特征進(jìn)行拼接可以減少不同模態(tài)信號(hào)之間的相互干擾。
生理信號(hào)是連續(xù)的生物電信號(hào),因此信號(hào)的特征片段之間并非孤立,存在時(shí)序關(guān)系。而卷積網(wǎng)絡(luò)受制于其結(jié)構(gòu),不適合處理序列關(guān)系。LSTM 是一種常用于序列分析的網(wǎng)絡(luò)模型。生理信號(hào)的順序并不固定,從左到右或從右到左可能都存在時(shí)序信息[7],傳統(tǒng)的LSTM 網(wǎng)絡(luò)只能按一個(gè)順序?qū)W習(xí)分類,存在局限性。為了解決上述問題,本文采用Bi-LSTM 網(wǎng)絡(luò)對(duì)融合后的多模態(tài)生理信號(hào)特征進(jìn)行時(shí)序特征學(xué)習(xí)。Bi-LSTM 網(wǎng)絡(luò)既可以學(xué)習(xí)正向的時(shí)序特征,考慮每個(gè)特征與后續(xù)特征之間的關(guān)系,又可以學(xué)習(xí)反向時(shí)序特征,考慮和前序特征的關(guān)系,與多模態(tài)生理信號(hào)的特點(diǎn)相匹配。
本文搭建的Bi-LSTM 網(wǎng)絡(luò)如圖4 所示,網(wǎng)絡(luò)由兩層的LSTM 單元構(gòu)成。LSTM 單元之間并非獨(dú)立存在,單元會(huì)考慮上一單元的輸出結(jié)果和輸出給下一單元的結(jié)果。LSTM 單元使用3 個(gè)門控函數(shù)實(shí)現(xiàn)這種功能,即:輸入門、遺忘門和輸出門。Bi-LSTM 網(wǎng)絡(luò)的各單元所作的計(jì)算如式(6)所示:
圖4 Bi-LSTM網(wǎng)絡(luò)的結(jié)構(gòu)和數(shù)據(jù)流向Fig.4 Structure and data flow of Bi-LSTM network
對(duì)于第T個(gè)時(shí)序片段xT∈R34t',將它和上一層的輸出向量hT-1進(jìn)行拼接,分別使用4 組參數(shù)矩陣Wi、Wf、Wo、W和偏置向量bi、bf、bo、b計(jì)算輸入權(quán)重zi、遺忘權(quán)重zf、輸出權(quán)重zo和候選記憶狀態(tài)z。其中:輸入權(quán)重決定在多大程度上接受輸入數(shù)據(jù),遺忘權(quán)重決定在多大程度上考慮上一單元的輸出結(jié)果,輸出權(quán)重則決定將多少計(jì)算結(jié)果輸出給下一個(gè)單元,候選記憶狀態(tài)起到了標(biāo)準(zhǔn)化數(shù)據(jù)的作用。每一份LSTM 單元會(huì)根據(jù)所學(xué)習(xí)到的上下文序列信息計(jì)算自己的記憶狀態(tài),并提供給下一單元參考來體現(xiàn)網(wǎng)絡(luò)之中各個(gè)單元的接續(xù)性。
LSTM 單元進(jìn)行的運(yùn)算如式(7)所示。首先需要將遺忘權(quán)重zf和上一層的記憶狀態(tài)CT-1進(jìn)行哈達(dá)瑪積運(yùn)算(⊙),以決定保留多少上一層的記憶;然后將候選記憶狀態(tài)z和輸入權(quán)重zi作哈達(dá)瑪積,決定保留多少本單元的記憶;最后計(jì)算本單元的記憶狀態(tài)。這個(gè)記憶狀態(tài)綜合考慮了前序單元的記憶狀態(tài)和輸入向量,并考慮了它們之間的權(quán)重配置。第二層的反向LSTM 的計(jì)算方法相同,不同在于每個(gè)單元通過考慮后一個(gè)單元的輸出結(jié)果來決定自己的記憶狀態(tài)。最終Bi-LSTM 將兩個(gè)方向?qū)?yīng)的運(yùn)算結(jié)果拼接并輸出為最終運(yùn)算結(jié)果。這個(gè)結(jié)果包含了兩個(gè)方向上的時(shí)序特征學(xué)習(xí)的結(jié)果,相較于單向LSTM 時(shí)序,信息量更豐富,更適合生理信號(hào)的時(shí)序特征學(xué)習(xí)。
為了采集實(shí)驗(yàn)所需要的生理信號(hào)數(shù)據(jù),本文進(jìn)行了志愿者招募、情感激勵(lì)實(shí)驗(yàn)和數(shù)據(jù)預(yù)處理等工作,多模態(tài)情感識(shí)別的總體實(shí)驗(yàn)流程如圖5 所示。在情感激發(fā)的過程中,視頻激勵(lì)相較于音樂、圖像等激勵(lì)源具有更好的情感激發(fā)效果[23]。首先篩選了50 段備選視頻,招募了110 名觀眾在線上觀看視頻,并對(duì)各個(gè)視頻對(duì)情感的激勵(lì)程度打分。最終35段情感激發(fā)效果最好的視頻被選為實(shí)驗(yàn)采用的情感激勵(lì)源,這些視頻經(jīng)過實(shí)驗(yàn)證明可以有效激發(fā)積極和消極情感。
圖5 多模態(tài)情感識(shí)別的總體實(shí)驗(yàn)流程Fig.5 Overall experimental flow of multimodal emotion recognition
數(shù)據(jù)采集實(shí)驗(yàn)首先招募了15 名志愿者,其中男性8 人,女性7 人。他們均是年齡在19 歲到26 歲的在校學(xué)生,精神健康狀況良好且無精神疾病史。數(shù)據(jù)采集的流程如圖6 所示,每名實(shí)驗(yàn)人員需要進(jìn)行35 次實(shí)驗(yàn)。在每次實(shí)驗(yàn)中,實(shí)驗(yàn)者有5 s 的時(shí)間閉眼進(jìn)行情緒平復(fù),在此期間記錄個(gè)體不受情感激勵(lì)時(shí)的生理信號(hào)作為基線數(shù)據(jù)。之后實(shí)驗(yàn)者需要觀看長度在60~242 s 的激勵(lì)視頻。觀看結(jié)束后實(shí)驗(yàn)者有60 s時(shí)間對(duì)自己的情緒進(jìn)行評(píng)分,包括效價(jià)維度(Valence)和喚醒度維度(Arousal)的1~9 分,鼓勵(lì)實(shí)驗(yàn)者根據(jù)自己的真實(shí)情感打分。實(shí)驗(yàn)工作通過了倫理委員會(huì)的許可,在參與者的知情和允許下進(jìn)行。
圖6 數(shù)據(jù)采集的實(shí)驗(yàn)流程Fig.6 Experimental flow of data acquisition
實(shí)驗(yàn)采用3 種設(shè)備采集信號(hào)。Emotiv 的32 導(dǎo)電極帽用于采集EEG 數(shù)據(jù),電極按照國際10-20 系統(tǒng)均勻分布在頭皮上,如圖7 所示。實(shí)驗(yàn)中還使用導(dǎo)電膏增強(qiáng)頭皮到電極的導(dǎo)電性?;贏D8232 芯片的雙電極傳感器用于采集ECG 信號(hào),其中兩個(gè)電極佩戴在實(shí)驗(yàn)者雙腕的脈搏處。Tobii 眼動(dòng)追蹤儀用于采集眼動(dòng)信號(hào),追蹤儀可以實(shí)時(shí)采集實(shí)驗(yàn)者眼球注視位置。EEG、ECG 和眼動(dòng)信號(hào)設(shè)備的采樣頻率分別為128 Hz、500 Hz 和133 Hz。
圖7 實(shí)驗(yàn)使用的32導(dǎo)設(shè)備的電極分布Fig.7 Electrode distribution of 32-channel devices used in experiment
標(biāo)簽處理方面,本文以5 為中間值,將標(biāo)簽在效價(jià)和喚醒度兩個(gè)維度上分為了高和低兩個(gè)類別,轉(zhuǎn)換為二分類任務(wù)和效價(jià)/喚醒度四分類任務(wù)。
原始的生理信號(hào)數(shù)據(jù)受噪聲和基線漂移影響較大,其中噪聲主要來源于人體皮膚電信號(hào)和采集設(shè)備本身的工頻信號(hào),基線漂移則是因?yàn)閷?shí)驗(yàn)者在實(shí)驗(yàn)過程中的運(yùn)動(dòng)幅度過大,導(dǎo)致信號(hào)整體參考水平發(fā)生變化。對(duì)于ECG 信號(hào),采用小波變換將原始信號(hào)分解為不同頻率的子信號(hào)分量,再利用閾值去噪的方法設(shè)定一個(gè)噪聲閾值,只保留大于閾值的信號(hào)分量,再通過小波反變換還原去噪后的ECG 信號(hào)。噪聲閾值的計(jì)算方法如式(8)所示,這是一種基于魯棒估計(jì)的閾值去噪方法,可以有效去除信號(hào)中的高頻噪聲部分[24]:
其中:median(abs(signalECG))表示原始ECG 數(shù)據(jù)的絕對(duì)值的中位數(shù),L表示數(shù)據(jù)長度。
對(duì)于EEG 信號(hào),首先使用乳突處電極的平均波形對(duì)原始信號(hào)進(jìn)行重參考,之后使用獨(dú)立成分分析(Independent Component Analysis,ICA)刪除EEG 信號(hào)中的眼電信號(hào)(ElectroOculoGram,EOG)成分[25]。EOG 是眼球運(yùn)動(dòng)時(shí)產(chǎn)生的電信號(hào),對(duì)于EEG 信號(hào)來說是干擾因素。在信號(hào)采集時(shí)會(huì)采集實(shí)驗(yàn)者未受情感激發(fā)時(shí)的EEG 基線數(shù)據(jù),它記錄了大腦在平靜情況下產(chǎn)生的自然電位變化,可以利用基線信號(hào)解決EEG 的基線漂移問題。具體地,本文按照1 s 的寬度將原始信號(hào)分成若干段,求得基線信號(hào)各段的平均波形,再使用原始信號(hào)實(shí)驗(yàn)部分的各數(shù)據(jù)段減去基線部分的平均波形,如式(9)所示:
其中:Xbase(i)代表第i段EEG 的基線數(shù)據(jù),l代表基線數(shù)據(jù)段數(shù),Xtrial(j)和分別代表處理前和處理后的受情感激勵(lì)的實(shí)驗(yàn)部分EEG 分段。
本文實(shí)驗(yàn)采用眼動(dòng)信號(hào)記錄實(shí)驗(yàn)者在屏幕上的注視點(diǎn)Y軸坐標(biāo)。這是因?yàn)閄坐標(biāo)可能受實(shí)驗(yàn)者閱讀字幕等的影響,而Y軸受影響較小。眼動(dòng)數(shù)據(jù)受抖動(dòng)的影響很大:一方面,傳感器記錄的位置會(huì)有微弱抖動(dòng);另一方面,人的眼睛長期看向某一點(diǎn)時(shí),會(huì)下意識(shí)瞥向周圍,然后迅速回到原始點(diǎn)以緩解視覺疲勞。因此,需要對(duì)原始的眼動(dòng)數(shù)據(jù)平滑處理,去除由于傳感器和人眼本身造成的抖動(dòng)異常,本文方法使用高斯濾波器。具體地,利用窗口內(nèi)的數(shù)據(jù)加權(quán)平均值取代窗口內(nèi)中心點(diǎn)的值,可以有效過濾短時(shí)的高頻噪聲,達(dá)到平滑窗口內(nèi)曲線的目的。在計(jì)算加權(quán)平均值時(shí),權(quán)值的計(jì)算如式(10)所示:
其中:w表示窗口內(nèi)的某個(gè)點(diǎn)到中心點(diǎn)的距離,σ是控制高斯濾波的參數(shù),G(w)為計(jì)算的權(quán)值。
預(yù)處理完成后,需要對(duì)處理后的數(shù)據(jù)進(jìn)行分段,作為模型的訓(xùn)練測試數(shù)據(jù)。本文使用1 s 的寬度對(duì)數(shù)據(jù)進(jìn)行切分,每1 s 切分出對(duì)應(yīng)的EEG 的32 導(dǎo)的數(shù)據(jù)、1 導(dǎo)的ECG 數(shù)據(jù)和1 導(dǎo)的眼動(dòng)數(shù)據(jù)片段,共34 導(dǎo)的信號(hào)波形。為了統(tǒng)一3 種生理信號(hào)的維度,將3 種信號(hào)統(tǒng)一采樣至128 Hz,形成維度為(34,128)的數(shù)據(jù)單元。根據(jù)2.1 節(jié)的方法介紹,EEG 的數(shù)據(jù)還需要進(jìn)行分頻處理,分為θ、α、β 和γ 這4 個(gè)頻段,δ 頻段EEG 在人清醒環(huán)境下很少會(huì)出現(xiàn)所以不使用。顯然分頻后的EEG 數(shù)據(jù)維度為(32,4,128)。
3.3.1 1D-Inception模塊的有效性驗(yàn)證
為了證明1D-Inception 特征學(xué)習(xí)模塊相較于傳統(tǒng)特征提取方法和傳統(tǒng)CNN 的有效性,本文進(jìn)行了有效性驗(yàn)證實(shí)驗(yàn)。首先使用信號(hào)的PSD 作為特征,使用SVM 作為分類器,高斯核作為核函數(shù)。之后搭建了一個(gè)3 層的簡單CNN 用于原始信號(hào)的直接分類。1D-Inception 特征學(xué)習(xí)模塊被單獨(dú)設(shè)置,在特征學(xué)習(xí)后直接進(jìn)行分類,驗(yàn)證三者的分類能力。實(shí)驗(yàn)結(jié)果如表2 所示,ACC(Accuracy)和STD(STandard Deviation)是平均分類準(zhǔn)確率和準(zhǔn)確率標(biāo)準(zhǔn)差。1D-Inception 模塊取得了最高的分類準(zhǔn)確率,相較于前兩者在平均準(zhǔn)確率上提升了28.98 個(gè)百分點(diǎn)(效價(jià))和30.05 個(gè)百分點(diǎn)(喚醒度)。個(gè)體之間的準(zhǔn)確率標(biāo)準(zhǔn)差也降低至8.77%(效價(jià))和7.91%(喚醒度),且1D-Inception 模塊的參數(shù)規(guī)模要小于3 層CNN,說明本文模塊具有更小的參數(shù)代價(jià)和更高的特征學(xué)習(xí)性能,學(xué)習(xí)的特征可分類性更好,在不同個(gè)體之間的泛化能力更強(qiáng)。由此證明了本文提出的1D-Inception 特征學(xué)習(xí)模塊更適合于生理信號(hào)特征學(xué)習(xí)。
表2 1D-Inception與其他特征提取方法的準(zhǔn)確率對(duì)比 單位:%Tab.2 Accuracy comparison of 1D-Inception with other feature extraction methods unit:%
3.3.2 特征融合的有效性驗(yàn)證
為了驗(yàn)證本文采用的基于自注意力的特征融合方法的有效性,實(shí)驗(yàn)使用特征直接融合方法、決策層融合方法和本文融合方法進(jìn)行對(duì)比。在進(jìn)行對(duì)比實(shí)驗(yàn)之前,本文使用的Bi-LSTM 模塊使用的序列長度需要被確定,即模型在多大序列范圍內(nèi)提取時(shí)序特征。本文中針對(duì)這一問題嘗試了5 種序列長度:1、3、6、10 和15。實(shí)驗(yàn)結(jié)果如表3 所示。當(dāng)6 作為序列長度時(shí),模型取得了最好的分類效果;15 作為序列長度時(shí)盡管標(biāo)準(zhǔn)差略低,但是準(zhǔn)確率出現(xiàn)了大幅下降。
表3 不同的Bi-LSTM序列長度的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.3 Comparison of experimental results with different sequence lengths of Bi-LSTM unit:%
序列長度確定后,對(duì)三種融合策略進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表4 所示。直接融合方法是將特征提取模塊輸出的各個(gè)模態(tài)的特征直接進(jìn)行向量拼接,再送入Bi-LSTM 網(wǎng)絡(luò)進(jìn)行分類;決策層融合方法則是將不同模態(tài)的特征單獨(dú)送入獨(dú)立的Bi-LSTM 網(wǎng)絡(luò)進(jìn)行單獨(dú)分類,再將分類結(jié)果通過最大值融合方法進(jìn)行決策層融合。結(jié)果表明,自注意力融合方法在效價(jià)、喚醒度和效價(jià)喚醒度四分類任務(wù)上分別取得了90.29%、91.38%和83.53%的識(shí)別準(zhǔn)確率,個(gè)體的識(shí)別標(biāo)準(zhǔn)差降低至6.28%、6.02%和9.77%。相較于其他融合方法取得了最好的識(shí)別效果,證明了本文提出的自注意力融合方法對(duì)于多模態(tài)生理信號(hào)特征融合的有效性。
表4 自注意力融合方法和其他融合方法的準(zhǔn)確率對(duì)比 單位:%Tab.4 Accuracy comparison between self-attention-based fusion method and other fusion methods unit:%
3.3.3 多模態(tài)方法的有效性驗(yàn)證
本文使用三種生理信號(hào)的單模態(tài)、EEG+ECG 雙模態(tài)、EEG+眼動(dòng)雙模態(tài)和本文使用的三模態(tài)融合方法進(jìn)行了對(duì)比。在實(shí)驗(yàn)環(huán)境上,本文在Pytorch1.8.1 深度學(xué)習(xí)環(huán)境下搭建模型,使用的硬件加速設(shè)備和驅(qū)動(dòng)版本分別為Nvidia 1660S 和CUDA11.1。在實(shí)驗(yàn)設(shè)置上,使用交叉熵作為損失函數(shù),Adam 為優(yōu)化器,采用10 折交叉訓(xùn)練驗(yàn)證的方法提升模型的情感識(shí)別能力。批大?。˙atch Size)設(shè)置為80,最大迭代次數(shù)為100。在算法的運(yùn)行時(shí)間上,每位受試者的數(shù)據(jù)訓(xùn)練平均花費(fèi)389.49 s,測試平均花費(fèi)1.25 s。
實(shí)驗(yàn)結(jié)果如表5 所示??梢钥闯鲈趩文B(tài)實(shí)驗(yàn)中,EEG單模態(tài)相較于其他兩種生理信號(hào)取得了最優(yōu)的識(shí)別效果,效價(jià)喚醒度四分類準(zhǔn)確率高達(dá)76.42%,明顯高于ECG 的45.39%和眼動(dòng)的39.28%。這說明相較于ECG 和眼動(dòng)信號(hào),EEG 更適合用于情感識(shí)別任務(wù)。
表5 多模態(tài)方法與單、雙模態(tài)方法的準(zhǔn)確率對(duì)比 單位:%Tab.5 Accuracy comparison between multimodal method with unimodal and bimodal methods unit:%
進(jìn)行模態(tài)融合后,多模態(tài)方法相比EEG 單模態(tài)方法取得了更好的識(shí)別效果。EEG+ECG 雙模態(tài)的準(zhǔn)確率提升至89.37%(效價(jià))、88.23%(喚醒度)和82.26%(效價(jià)喚醒度四分類),而且標(biāo)準(zhǔn)差更低,跨個(gè)體的識(shí)別準(zhǔn)確率更加穩(wěn)定。而三模態(tài)融合取得了最好的識(shí)別效果,在三個(gè)分類任務(wù)上分別取得了90.29%、91.38%和83.53%的識(shí)別準(zhǔn)確率。相較于EEG 單模態(tài)提升了3.46~7.11 個(gè)百分點(diǎn),相比EEG+ECG 雙模態(tài)提升了0.92~3.15 個(gè)百分點(diǎn),而且個(gè)體間準(zhǔn)確率的標(biāo)準(zhǔn)差降至最低。這說明三模態(tài)比EEG 單模態(tài)和雙模態(tài)的識(shí)別方法更加優(yōu)越,ECG 和眼動(dòng)這兩個(gè)模塊的加入有效提升了基于EEG 情感識(shí)別的準(zhǔn)確率和跨個(gè)體識(shí)別的穩(wěn)定性。
表6 給出了本文方法和其他的生理信號(hào)情感識(shí)別方法的準(zhǔn)確率對(duì)比。其中文獻(xiàn)[18]方法融合了EEG 和皮膚電信號(hào)并使用CNN 進(jìn)行情感識(shí)別。文獻(xiàn)[26]方法將腦磁圖、EOG 和ECG 等多種生理信號(hào)模態(tài)融合,構(gòu)建層次模塊化神經(jīng)網(wǎng)絡(luò)對(duì)情感進(jìn)行分類。文獻(xiàn)[27]方法融合EEG 和眼動(dòng)特征并使用深度典型相關(guān)分析進(jìn)行多模態(tài)情感識(shí)別。文獻(xiàn)[7,28]方法均是EEG 和ECG 和雙模態(tài)融合,它們分別使用了時(shí)頻域特征計(jì)算和圖神經(jīng)網(wǎng)絡(luò)對(duì)生理信號(hào)進(jìn)行特征提取。本文方法在喚醒度上取得了最好的識(shí)別準(zhǔn)確率,效價(jià)的準(zhǔn)確率也提升了3.68~13.73 個(gè)百分點(diǎn)。效價(jià)的準(zhǔn)確率雖然略低于文獻(xiàn)[28]方法,但是在喚醒度上提高了3.14 個(gè)百分點(diǎn)。
表6 與現(xiàn)存的基于生理信號(hào)情感識(shí)別方法的準(zhǔn)確率對(duì)比 單位:%Tab.6 Accuracy comparison with existing physiological signal-based emotion recognition methods unit:%
本文的多模態(tài)方法能取得優(yōu)秀的識(shí)別效果與多模態(tài)模型結(jié)構(gòu)有關(guān)。首先,1D-Inception 模塊的多尺度卷積方法能學(xué)習(xí)更穩(wěn)定、更高維度的生理信號(hào)特征;其次,頻帶注意力機(jī)制能有效放大EEG 中的關(guān)鍵頻帶中的數(shù)據(jù),而基于自注意力機(jī)制的特征融合也能增加多模態(tài)信號(hào)中的關(guān)鍵特征的權(quán)重,降低非關(guān)鍵特征對(duì)于分類結(jié)果的影響;最后,多模態(tài)的方法利用信號(hào)之間的互補(bǔ)性,各種生理信號(hào)之間相互補(bǔ)充情感信息,有效提升了分類準(zhǔn)確率,并且使得跨個(gè)體的識(shí)別效果更穩(wěn)定。
然而,本文方法仍有改進(jìn)空間。需要注意到,實(shí)驗(yàn)結(jié)果中識(shí)別準(zhǔn)確率的標(biāo)準(zhǔn)差盡管有所改進(jìn),但是跨個(gè)體的識(shí)別效果仍然存在一些波動(dòng)。本文經(jīng)過分析認(rèn)為標(biāo)簽的比例失衡可能是潛在原因,因?yàn)閷?shí)驗(yàn)采用的標(biāo)簽處理方法是以5 為界進(jìn)行劃分,少數(shù)實(shí)驗(yàn)者將大部分打分都打在5 以上,造成了反例數(shù)據(jù)的不足,導(dǎo)致識(shí)別效果下降。因此情感標(biāo)簽的處理方法可能需要進(jìn)一步研究,以優(yōu)化樣本比例[29]。
本文提出了一種基于EEG、ECG 和眼動(dòng)信號(hào)三種模態(tài)的特征層融合的情感識(shí)別方案,通過有效的特征學(xué)習(xí)和特征層融合方法提升了情感識(shí)別準(zhǔn)確率和跨個(gè)體的識(shí)別穩(wěn)定性。對(duì)于生理信號(hào)的特征提取,首先使用頻帶注意力處理EEG信號(hào)的多頻帶問題,通過自適應(yīng)添加權(quán)重的方法放大EEG中情感關(guān)鍵頻帶的數(shù)據(jù)。之后本文提出一種1D-Inception 模塊對(duì)數(shù)據(jù)進(jìn)行多尺度卷積,提高模型識(shí)別準(zhǔn)確率和減小卷積參數(shù)規(guī)模。對(duì)于多個(gè)模態(tài)生理信號(hào)的特征融合,本文使用了自注意力機(jī)制在多模態(tài)特征之間進(jìn)行注意力學(xué)習(xí),提高關(guān)鍵特征的權(quán)重并降低非關(guān)鍵特征對(duì)于結(jié)果的影響。最后,通過Bi-LSTM 網(wǎng)絡(luò)對(duì)融合后的特征進(jìn)行時(shí)序特征學(xué)習(xí)和情感分類。實(shí)驗(yàn)結(jié)果表明,本文方法在效價(jià)、喚醒度和效價(jià)/喚醒度四分類的識(shí)別任務(wù)上分別取得了90.29%、91.38% 和83.53%的識(shí)別準(zhǔn)確率,體現(xiàn)了多模態(tài)融合方法的有效性。未來的工作中,將結(jié)合更好的情感標(biāo)簽處理方法進(jìn)行進(jìn)一步的研究。