基于多尺度卷積和自注意力特征融合的多模態(tài)情感識(shí)別方法

2024-03-21 02:25蔡從虎袁曉輝羅蓓蓓

計(jì)算機(jī)應(yīng)用 2024年2期

陳田，蔡從虎，袁曉輝，羅蓓蓓

（1.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院，合肥 230009；2.智能互聯(lián)系統(tǒng)安徽省實(shí)驗(yàn)室，合肥 230009；3.情感計(jì)算與先進(jìn)智能機(jī)器安徽省重點(diǎn)實(shí)驗(yàn)室，合肥 230009；4.北德克薩斯大學(xué) 計(jì)算機(jī)科學(xué)與工程系，丹頓 76207）

0 引言

情感對(duì)人類生活生產(chǎn)有巨大意義，隨著情感計(jì)算技術(shù)的不斷發(fā)展，使用情感計(jì)算輔助計(jì)算機(jī)理解和表達(dá)人類情感成為潛在需求［1］。人的生理信號(hào)是人在面對(duì)不同外部環(huán)境時(shí)產(chǎn)生的電信號(hào)，主要包括腦電（ElectroEncephaloGram，EEG）信號(hào)、心電（ElectroCardioGram，ECG）信號(hào)、眼動(dòng)信號(hào)等。一方面，這些信號(hào)源自生理反應(yīng)，無法被個(gè)體主觀掩飾，具有客觀性［2］；另一方面，生理信號(hào)與情感的產(chǎn)生和表達(dá)具有相關(guān)性，數(shù)據(jù)包含大量情感相關(guān)信息，也易于采集，因此，基于生理信號(hào)的情感識(shí)別方法具有很大的研究價(jià)值和廣泛的應(yīng)用場景［3-4］。

腦電、心電和眼動(dòng)等生理信號(hào)本身呈現(xiàn)非平穩(wěn)隨機(jī)信號(hào)的特點(diǎn)，普通的時(shí)頻域分析能得到的信息量較少，識(shí)別結(jié)果也存在準(zhǔn)確率低、跨個(gè)體泛化能力弱的問題。近年來，許多研究使用深度學(xué)習(xí)方法學(xué)習(xí)生理信號(hào)特征，以增強(qiáng)提升情感識(shí)別能力［5-6］。然而，以卷積為代表的深度學(xué)習(xí)方法存在參數(shù)量大、訓(xùn)練成本高的問題，導(dǎo)致方法的實(shí)用性低。不同生理信號(hào)在個(gè)體之間的特征和變化規(guī)律存在差異，因此Chen等［7］提出結(jié)合多種生理信號(hào)進(jìn)行多模態(tài)生理信號(hào)的情感識(shí)別，以提高跨個(gè)體的情感識(shí)別能力。基于決策層融合的多模態(tài)方法需要構(gòu)建多個(gè)分類器，對(duì)不同的信號(hào)分別進(jìn)行處理，這進(jìn)一步加大了參數(shù)規(guī)模。使用統(tǒng)一模型進(jìn)行數(shù)據(jù)訓(xùn)練和情感分類的特征層融合的方法有利于減小參數(shù)規(guī)模；然而多模態(tài)特征在融合時(shí)可能相互干擾，影響識(shí)別效果［8］，因此需要進(jìn)一步地研究有效的特征融合方法。

本文提出一種基于EEG、ECG 和眼動(dòng)信號(hào)的特征層融合的多模態(tài)情感識(shí)別方法。首先通過適用于生理信號(hào)的1D-Inception（One-Dimensional-Inception）多尺度深度學(xué)習(xí)結(jié)構(gòu)對(duì)EEG、ECG 和眼動(dòng)信號(hào)進(jìn)行特征學(xué)習(xí)。1D-Inception 通過設(shè)置多尺度卷積核降低卷積參數(shù)規(guī)模，在有限的卷積層內(nèi)提取更高維度的情感相關(guān)特征。不僅如此，本文還通過自注意力（Self-Attention）機(jī)制將不同生理信號(hào)所提取的特征在特征層融合。本文所做的主要工作如下：

1）使用1D-Inception 結(jié)構(gòu)對(duì)生理信號(hào)進(jìn)行特征學(xué)習(xí)。相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN），該結(jié)構(gòu)更適合生理信號(hào)的特征學(xué)習(xí)。1D 卷積保證了不同生理信號(hào)單獨(dú)進(jìn)行特征提取，排除其他模態(tài)的干擾。

2）使用自注意力和雙向長短期記憶（Bi-directional Long Short-Term Memory，Bi-LSTM）網(wǎng)絡(luò)對(duì)各生理信號(hào)的特征進(jìn)行融合和分類。前者用于多模態(tài)特征融合，后者則通過時(shí)序特征學(xué)習(xí)對(duì)情感進(jìn)行預(yù)測。

1 相關(guān)工作

EEG、ECG 和眼動(dòng)信號(hào)都具有非穩(wěn)態(tài)特點(diǎn)，并不具有特定的波形模式。有研究使用時(shí)頻域和統(tǒng)計(jì)學(xué)特征提取特征。Chen 等［9］使用了EEG 的Lempel-Ziv 復(fù)雜性和小波細(xì)節(jié)因子特征組成綜合特征進(jìn)行情感識(shí)別；Katsigiannis 等［8］使用ECG中的波形統(tǒng)計(jì)特征，結(jié)合心率變異度（Heart Rate Variability，HRV）和功率譜密度（Power Spectral Density，PSD）等特征檢測情感。對(duì)于眼動(dòng)信號(hào)，陳田等［10］使用眼球上下運(yùn)動(dòng)模式的波形相關(guān)性系數(shù)和作為特征，取得了一定的識(shí)別效果。

生理信號(hào)在個(gè)體間存在差異，傳統(tǒng)的時(shí)頻域和統(tǒng)計(jì)學(xué)特征的固定計(jì)算方法難以體現(xiàn)差異，通常存在識(shí)別率低、跨個(gè)體分類的泛化能力弱的問題［11］。隨著深度學(xué)習(xí)的發(fā)展，基于CNN 的特征學(xué)習(xí)方法成為研究熱點(diǎn)。CNN 通過堆疊網(wǎng)絡(luò)和調(diào)整參數(shù)自動(dòng)學(xué)習(xí)特征表示，在面對(duì)不同個(gè)體差異時(shí)分類更具有可泛化性。Singson 等［12］使用ResNet 架構(gòu)的CNN 對(duì)實(shí)驗(yàn)采集的ECG 數(shù)據(jù)進(jìn)行特征學(xué)習(xí)和情感識(shí)別，取得了68.42%的識(shí)別準(zhǔn)確率。Chen 等［13］將EEG 原始數(shù)據(jù)和PSD特征組合，并使用CNN 進(jìn)行分類，在DEAP 數(shù)據(jù)集［14］上取得了85.57%的準(zhǔn)確率。然而，傳統(tǒng)CNN 為了學(xué)習(xí)高維度特征需要累加多層網(wǎng)絡(luò)，導(dǎo)致方法參數(shù)量大、訓(xùn)練成本高、可實(shí)用性低。

Inception［15］是一種更高效的卷積結(jié)構(gòu)。傳統(tǒng)卷積只考慮固定范圍內(nèi)的數(shù)據(jù)，單層視野域有限，因此需要多層卷積疊加提升視野域范圍。而Inception 設(shè)置多個(gè)尺度的卷積核，使卷積過程中具備更多的視野域，既能考慮大范圍整體數(shù)據(jù)，又能考慮小范圍的局部數(shù)據(jù)。相較于傳統(tǒng)卷積，Inception 單層卷積就能獲得信息量更豐富的特征，具有更強(qiáng)的特征學(xué)習(xí)能力和更低的參數(shù)代價(jià)。文獻(xiàn)［16-17］中分別使用2 維和3 維的卷積核搭建Inception 結(jié)構(gòu)，用于EEG 的運(yùn)動(dòng)想象識(shí)別，取得了良好的識(shí)別效果，證明了Inception 結(jié)構(gòu)能有效學(xué)習(xí)生理信號(hào)特征。在多模態(tài)信號(hào)中采用多維卷積核會(huì)導(dǎo)致不同生理信號(hào)在卷積中相互干擾，因此，本文擬采取1D-Inception 的結(jié)構(gòu)進(jìn)行特征學(xué)習(xí)，既保留Inception 的優(yōu)勢，同時(shí)1 維卷積核又可以保證不同通道的信號(hào)之間彼此隔絕，避免信號(hào)互相干擾而導(dǎo)致特征的可識(shí)別性下降。

基于生理信號(hào)的情感識(shí)別通常受噪聲、個(gè)體差異的影響，而生理信號(hào)的多模態(tài)融合方法則可以讓各種生理信號(hào)達(dá)成信息互補(bǔ)，提高方法的識(shí)別效果。Kwon 等［18］融合EEG 和皮膚電反應(yīng)（Galvanic Skin Response，GSR）信號(hào)，在DEAP 數(shù)據(jù)集上取得了73.4%的情感識(shí)別率。Chen 等［7］將實(shí)驗(yàn)采集的EEG 和ECG 數(shù)據(jù)分別使用支持向量機(jī)（Support Vector Machines，SVM）和長短期記憶（Long Short-Term Memory，LSTM）網(wǎng)絡(luò)進(jìn)行分類，最終在決策層融合，取得了85.38%的準(zhǔn)確率。然而決策層融合需要訓(xùn)練多個(gè)分類器，會(huì)極大增加參數(shù)規(guī)模而降低實(shí)用性。在特征層融合的方法中，由于不同模態(tài)的異質(zhì)性，進(jìn)行簡單的特征連接會(huì)造成模態(tài)相互干擾。Katsigiannis 等［8］分別使用EEG 的PSD 特征和ECG 的HRV 等特征在DREAMER 數(shù)據(jù)集［8］上訓(xùn)練分類器，結(jié)果表明特征層融合的多模態(tài)方法相較于單模態(tài)性能提升有限，一些情況下甚至遜于單模態(tài)。對(duì)于不同模態(tài)的特征融合，使用自注意力機(jī)制可能是一種有效的方法。自注意力通過學(xué)習(xí)特征之間的相關(guān)性，將相關(guān)性高的特征賦予高權(quán)重，低的則相反。因而每個(gè)模態(tài)的特征在融合后充分考慮了它與其他模態(tài)的相關(guān)性，能得到模態(tài)間干擾程度低、信息量豐富的融合特征。Chen 等［19］使用自注意力對(duì)EEG 多個(gè)通道特征進(jìn)行學(xué)習(xí)融合，在DEAP 數(shù)據(jù)集的情感識(shí)別任務(wù)上取得了93.72%的準(zhǔn)確率，證明了自注意力特征融合方法的有效性。

2 本文方法

本文基于EEG、ECG 和眼動(dòng)信號(hào)，使用1D-Inception 特征學(xué)習(xí)模塊、自注意力模塊和Bi-LSTM 網(wǎng)絡(luò)組成骨干網(wǎng)絡(luò)，對(duì)三種生理信號(hào)進(jìn)行特征提取和融合，最終使用全連接層輸出預(yù)測概率。多模態(tài)情感識(shí)別方法的模型結(jié)構(gòu)如圖1 所示，主要由4 個(gè)模塊構(gòu)成。其中，頻帶注意力學(xué)習(xí)模塊對(duì)EEG 多個(gè)頻帶的數(shù)據(jù)進(jìn)行處理，1D-Inception 特征學(xué)習(xí)模塊用于各種生理信號(hào)的特征學(xué)習(xí)，自注意力模塊學(xué)習(xí)不同生理信號(hào)的各個(gè)特征之間的相互關(guān)系并為這些特征添加權(quán)重，最后使用Bi-LSTM 網(wǎng)絡(luò)提取時(shí)序信息，并通過全連接層（Fully Connection layer，F(xiàn)C）完成分類。

圖1 多模態(tài)情感識(shí)別方法的模型結(jié)構(gòu)Fig.1 Model architecture of multimodal emotion recognition method

2.1 頻帶注意力學(xué)習(xí)模塊

EEG 不同于其他生理信號(hào)，它的頻率范圍被認(rèn)為和情感高度相關(guān)［20］，EEG 不同頻帶對(duì)應(yīng)的大腦活動(dòng)如表1 所示（δ 頻段由于頻率過低，能采集的數(shù)據(jù)較少，因此不考慮采用）。不同頻帶的EEG 信號(hào)對(duì)應(yīng)不同的大腦活動(dòng)，因此有必要對(duì)EEG 信號(hào)分頻；然而，高頻率的EEG 頻帶并不包含所有的情感信息，一些情感對(duì)應(yīng)的大腦活動(dòng)并不是很激烈，因此只考慮單頻帶的EEG 也不妥。為了解決這個(gè)問題，本文提出對(duì)EEG 的頻帶數(shù)據(jù)使用注意力機(jī)制的方法。

表1 EEG不同頻帶對(duì)應(yīng)的大腦活動(dòng)Tab.1 Brain activities corresponding to different frequency bands of EEG

注意力機(jī)制是一種為數(shù)據(jù)加權(quán)的自適應(yīng)方法，通過學(xué)習(xí)數(shù)據(jù)之間的關(guān)系來分配權(quán)重。注意力機(jī)制使得與情感高度相關(guān)的頻帶特征被強(qiáng)化，無關(guān)數(shù)據(jù)則被抑制。傳統(tǒng)人工賦予權(quán)值的方法無法考慮個(gè)體信號(hào)差異，導(dǎo)致方法跨個(gè)體分類性能不佳［9］。本文采用的自適應(yīng)的注意力機(jī)制可以綜合考慮數(shù)據(jù)，根據(jù)不同個(gè)體的特征重要程度給出不同的權(quán)重配置。

在頻帶注意力學(xué)習(xí)模塊中，首先計(jì)算EEG 樣本中各個(gè)頻帶的平均值，結(jié)果表示為x=(x1，x2，…，xr)，其中xi是頻帶的EEG 平均值，r是頻帶數(shù)。隨后采用兩個(gè)全連接層進(jìn)行權(quán)值學(xué)習(xí)，它們的作用不同：第一層是參數(shù)為W1和b1的升維層，第二層則是參數(shù)為W2和b2的降維層。升維使用tanh 作為固定激活函數(shù)增加注意力學(xué)習(xí)網(wǎng)絡(luò)的非線性，避免計(jì)算結(jié)果中出現(xiàn)過多線性組合。降維的激活函數(shù)選擇使用sigmoid，作用是將網(wǎng)絡(luò)計(jì)算的分?jǐn)?shù)轉(zhuǎn)換為取值在0～1 的權(quán)值。如式（1）所示：

通過權(quán)值學(xué)習(xí)，EEG 頻帶的重要性轉(zhuǎn)化為了頻帶的注意力a=(a1，a2，…，ar)，其中ai是某一頻帶的注意力。依據(jù)式（2）對(duì)于不同的EEG 頻帶數(shù)據(jù)添加注意力：

其中：Di∈Rn×t(i=1，2，…，r)表示某頻帶EEG 數(shù)據(jù)；n和t是EEG 信號(hào)通道數(shù)和時(shí)間維度；Ofreq為加權(quán)結(jié)果，顯然Ofreq∈Rn×t。經(jīng)過添加注意力的操作后，情感關(guān)鍵的頻帶數(shù)據(jù)被賦予了高權(quán)重，在分類模型中的作用會(huì)被強(qiáng)化。

2.2 1D-Inception特征學(xué)習(xí)模塊

在生理信號(hào)情感計(jì)算中，基于CNN 的特征學(xué)習(xí)方法是有效的［13］。然而CNN 存在的問題為：CNN 在一層卷積內(nèi)，卷積核大小是固定不變的，因此單層卷積的視野域也是固定的。如果想要擴(kuò)展卷積的視野域，就需要疊加多層的卷積，造成參數(shù)規(guī)模和訓(xùn)練代價(jià)上升，也容易造成過擬合。而Inception 結(jié)構(gòu)則是對(duì)CNN 的一種改進(jìn)方案。Inception 結(jié)構(gòu)在一層卷積內(nèi)使用多個(gè)尺度的卷積核提供各種視野域，單層卷積就能得到信息量豐富的特征，且具有較小的參數(shù)規(guī)模。因此，本文對(duì)原始Inception 結(jié)構(gòu)進(jìn)行改進(jìn)，提出一種適合于生理信號(hào)特征學(xué)習(xí)的1D-Inception 結(jié)構(gòu)用于生理信號(hào)的多尺度卷積，如圖2 中的框內(nèi)部分所示。對(duì)于生理信號(hào)數(shù)據(jù)，1D-Inception 的卷積操作包含3 個(gè)分支：第1 個(gè)分支首先使用寬度為1 的卷積核對(duì)原始數(shù)據(jù)進(jìn)行升維，之后使用寬度為d的卷積核進(jìn)行卷積；第2 個(gè)分支使用寬度為2d的卷積核，與第1 個(gè)分支相比，視野域擴(kuò)大一倍；第3 個(gè)分支對(duì)原始數(shù)據(jù)進(jìn)行池化采樣和升維，采樣寬度為1.5d，這個(gè)分支保留了原始的數(shù)據(jù)信息，并進(jìn)行了通道映射。最后將3 個(gè)分支的卷積池化結(jié)果在通道維度上連接，計(jì)算結(jié)果既包含兩種尺度的卷積結(jié)果，又包含原始的數(shù)據(jù)特征，因此可以得到相較于一般卷積信息量更豐富的特征。

圖2 1D-Inception特征學(xué)習(xí)模塊的結(jié)構(gòu)Fig.2 Structure of 1D-Inception feature learning module

為進(jìn)一步減少參數(shù)規(guī)模和降低訓(xùn)練代價(jià)，本文使用池化層和批標(biāo)準(zhǔn)化對(duì)1D-Inception 的卷積結(jié)果進(jìn)行處理。采用平均池化將計(jì)算結(jié)果采樣后，使用批標(biāo)準(zhǔn)化將批次內(nèi)的特征調(diào)整到標(biāo)準(zhǔn)正態(tài)分布下，使損失函數(shù)更平坦，加速學(xué)習(xí)過程［21］。由于單層參數(shù)規(guī)模和訓(xùn)練代價(jià)并不高，因此本文將兩個(gè)1D-Inception 塊堆疊以增加模塊學(xué)習(xí)能力，中間使用池化采樣和批標(biāo)準(zhǔn)化進(jìn)行連接，組成本文所使用的1D-Inception 特征學(xué)習(xí)模塊，如圖2 所示。模塊最終輸出的特征是維度為時(shí)間和通道的二維特征，通過特征展平最終輸出一維特征。在使用1D-Inception 特征學(xué)習(xí)模塊時(shí)，將EEG 的各個(gè)通道、ECG 信號(hào)和眼動(dòng)信號(hào)分別單獨(dú)送入模塊提取特征避免不同模態(tài)之間的數(shù)據(jù)互相干擾。

2.3 自注意力模塊

對(duì)各生理信號(hào)完成特征學(xué)習(xí)后，需要對(duì)特征進(jìn)行有效融合。如果只對(duì)不同模態(tài)的特征簡單拼接，由于不同生理信號(hào)的信號(hào)模式存在差異，特征可能會(huì)相互干擾，降低識(shí)別準(zhǔn)確率，因此，本文提出使用自注意力［22］進(jìn)行不同生理信號(hào)的特征融合。自注意力機(jī)制可以學(xué)習(xí)特征向量之間的相關(guān)性，進(jìn)而提高關(guān)鍵特征的權(quán)重，降低非關(guān)鍵特征對(duì)于結(jié)果的影響。

使用自注意力機(jī)制對(duì)多模態(tài)生理信號(hào)特征進(jìn)行融合，自注意力模塊的結(jié)構(gòu)如圖3 所示。實(shí)驗(yàn)采用的EEG 數(shù)據(jù)的通道數(shù)為32，因此首先分別訓(xùn)練32 個(gè)EEG 信號(hào)、1 個(gè)ECG 信號(hào)和1 個(gè)眼動(dòng)信號(hào)總計(jì)34 個(gè)特征向量的query、key和value向量；然后通過計(jì)算不同特征之間的query與key向量的相關(guān)性來代表特征之間的相關(guān)性，通過softmax 標(biāo)準(zhǔn)化后，得到向量之間的注意力；最后將注意力值和各特征向量的value向量進(jìn)行加權(quán)和，得到的新特征向量會(huì)根據(jù)學(xué)習(xí)的注意力值的不同，區(qū)別關(guān)注各輸入特征向量的信息。

圖3 自注意力模塊的結(jié)構(gòu)Fig.3 Structure of self-attention module

特征向量的query、key和value向量的計(jì)算方法如式（3）所示：

其中：ci∈Rt(i=1，2，…，34)為特征向量，34為多模態(tài)生理信號(hào)的特征向量數(shù)，t為特征維度都是維度變換的參數(shù)矩陣，t' 是變換后維度，顯然之后，使用各特征的keyj和queryi的向量點(diǎn)積來計(jì)算特征之間彼此的注意力，如式（4）所示：

其中：atti，j代表特征i對(duì)特征j的注意力值，softmax 函數(shù)起到歸一化作用，使點(diǎn)積值映射到（0，1）區(qū)間內(nèi)形成權(quán)值。注意力值計(jì)算完成后，使用注意力值對(duì)各個(gè)輸入向量的valuej加權(quán)疊加，如式（5）所示：

其中mi即為特征i的加權(quán)后結(jié)果?？煽闯龃诉^程中的每個(gè)特征綜合考慮了其他所有特征的相關(guān)性，對(duì)計(jì)算后的特征進(jìn)行拼接可以減少不同模態(tài)信號(hào)之間的相互干擾。

2.4 Bi-LSTM網(wǎng)絡(luò)

生理信號(hào)是連續(xù)的生物電信號(hào)，因此信號(hào)的特征片段之間并非孤立，存在時(shí)序關(guān)系。而卷積網(wǎng)絡(luò)受制于其結(jié)構(gòu)，不適合處理序列關(guān)系。LSTM 是一種常用于序列分析的網(wǎng)絡(luò)模型。生理信號(hào)的順序并不固定，從左到右或從右到左可能都存在時(shí)序信息［7］，傳統(tǒng)的LSTM 網(wǎng)絡(luò)只能按一個(gè)順序?qū)W習(xí)分類，存在局限性。為了解決上述問題，本文采用Bi-LSTM 網(wǎng)絡(luò)對(duì)融合后的多模態(tài)生理信號(hào)特征進(jìn)行時(shí)序特征學(xué)習(xí)。Bi-LSTM 網(wǎng)絡(luò)既可以學(xué)習(xí)正向的時(shí)序特征，考慮每個(gè)特征與后續(xù)特征之間的關(guān)系，又可以學(xué)習(xí)反向時(shí)序特征，考慮和前序特征的關(guān)系，與多模態(tài)生理信號(hào)的特點(diǎn)相匹配。

本文搭建的Bi-LSTM 網(wǎng)絡(luò)如圖4 所示，網(wǎng)絡(luò)由兩層的LSTM 單元構(gòu)成。LSTM 單元之間并非獨(dú)立存在，單元會(huì)考慮上一單元的輸出結(jié)果和輸出給下一單元的結(jié)果。LSTM 單元使用3 個(gè)門控函數(shù)實(shí)現(xiàn)這種功能，即：輸入門、遺忘門和輸出門。Bi-LSTM 網(wǎng)絡(luò)的各單元所作的計(jì)算如式（6）所示：

圖4 Bi-LSTM網(wǎng)絡(luò)的結(jié)構(gòu)和數(shù)據(jù)流向Fig.4 Structure and data flow of Bi-LSTM network

對(duì)于第T個(gè)時(shí)序片段xT∈R34t'，將它和上一層的輸出向量hT-1進(jìn)行拼接，分別使用4 組參數(shù)矩陣Wi、Wf、Wo、W和偏置向量bi、bf、bo、b計(jì)算輸入權(quán)重zi、遺忘權(quán)重zf、輸出權(quán)重zo和候選記憶狀態(tài)z。其中：輸入權(quán)重決定在多大程度上接受輸入數(shù)據(jù)，遺忘權(quán)重決定在多大程度上考慮上一單元的輸出結(jié)果，輸出權(quán)重則決定將多少計(jì)算結(jié)果輸出給下一個(gè)單元，候選記憶狀態(tài)起到了標(biāo)準(zhǔn)化數(shù)據(jù)的作用。每一份LSTM 單元會(huì)根據(jù)所學(xué)習(xí)到的上下文序列信息計(jì)算自己的記憶狀態(tài)，并提供給下一單元參考來體現(xiàn)網(wǎng)絡(luò)之中各個(gè)單元的接續(xù)性。

LSTM 單元進(jìn)行的運(yùn)算如式（7）所示。首先需要將遺忘權(quán)重zf和上一層的記憶狀態(tài)CT-1進(jìn)行哈達(dá)瑪積運(yùn)算（⊙），以決定保留多少上一層的記憶；然后將候選記憶狀態(tài)z和輸入權(quán)重zi作哈達(dá)瑪積，決定保留多少本單元的記憶；最后計(jì)算本單元的記憶狀態(tài)。這個(gè)記憶狀態(tài)綜合考慮了前序單元的記憶狀態(tài)和輸入向量，并考慮了它們之間的權(quán)重配置。第二層的反向LSTM 的計(jì)算方法相同，不同在于每個(gè)單元通過考慮后一個(gè)單元的輸出結(jié)果來決定自己的記憶狀態(tài)。最終Bi-LSTM 將兩個(gè)方向?qū)?yīng)的運(yùn)算結(jié)果拼接并輸出為最終運(yùn)算結(jié)果。這個(gè)結(jié)果包含了兩個(gè)方向上的時(shí)序特征學(xué)習(xí)的結(jié)果，相較于單向LSTM 時(shí)序，信息量更豐富，更適合生理信號(hào)的時(shí)序特征學(xué)習(xí)。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 生理信號(hào)采集實(shí)驗(yàn)

為了采集實(shí)驗(yàn)所需要的生理信號(hào)數(shù)據(jù)，本文進(jìn)行了志愿者招募、情感激勵(lì)實(shí)驗(yàn)和數(shù)據(jù)預(yù)處理等工作，多模態(tài)情感識(shí)別的總體實(shí)驗(yàn)流程如圖5 所示。在情感激發(fā)的過程中，視頻激勵(lì)相較于音樂、圖像等激勵(lì)源具有更好的情感激發(fā)效果［23］。首先篩選了50 段備選視頻，招募了110 名觀眾在線上觀看視頻，并對(duì)各個(gè)視頻對(duì)情感的激勵(lì)程度打分。最終35段情感激發(fā)效果最好的視頻被選為實(shí)驗(yàn)采用的情感激勵(lì)源，這些視頻經(jīng)過實(shí)驗(yàn)證明可以有效激發(fā)積極和消極情感。

圖5 多模態(tài)情感識(shí)別的總體實(shí)驗(yàn)流程Fig.5 Overall experimental flow of multimodal emotion recognition

數(shù)據(jù)采集實(shí)驗(yàn)首先招募了15 名志愿者，其中男性8 人，女性7 人。他們均是年齡在19 歲到26 歲的在校學(xué)生，精神健康狀況良好且無精神疾病史。數(shù)據(jù)采集的流程如圖6 所示，每名實(shí)驗(yàn)人員需要進(jìn)行35 次實(shí)驗(yàn)。在每次實(shí)驗(yàn)中，實(shí)驗(yàn)者有5 s 的時(shí)間閉眼進(jìn)行情緒平復(fù)，在此期間記錄個(gè)體不受情感激勵(lì)時(shí)的生理信號(hào)作為基線數(shù)據(jù)。之后實(shí)驗(yàn)者需要觀看長度在60～242 s 的激勵(lì)視頻。觀看結(jié)束后實(shí)驗(yàn)者有60 s時(shí)間對(duì)自己的情緒進(jìn)行評(píng)分，包括效價(jià)維度（Valence）和喚醒度維度（Arousal）的1～9 分，鼓勵(lì)實(shí)驗(yàn)者根據(jù)自己的真實(shí)情感打分。實(shí)驗(yàn)工作通過了倫理委員會(huì)的許可，在參與者的知情和允許下進(jìn)行。

圖6 數(shù)據(jù)采集的實(shí)驗(yàn)流程Fig.6 Experimental flow of data acquisition

實(shí)驗(yàn)采用3 種設(shè)備采集信號(hào)。Emotiv 的32 導(dǎo)電極帽用于采集EEG 數(shù)據(jù)，電極按照國際10-20 系統(tǒng)均勻分布在頭皮上，如圖7 所示。實(shí)驗(yàn)中還使用導(dǎo)電膏增強(qiáng)頭皮到電極的導(dǎo)電性?；贏D8232 芯片的雙電極傳感器用于采集ECG 信號(hào)，其中兩個(gè)電極佩戴在實(shí)驗(yàn)者雙腕的脈搏處。Tobii 眼動(dòng)追蹤儀用于采集眼動(dòng)信號(hào)，追蹤儀可以實(shí)時(shí)采集實(shí)驗(yàn)者眼球注視位置。EEG、ECG 和眼動(dòng)信號(hào)設(shè)備的采樣頻率分別為128 Hz、500 Hz 和133 Hz。

圖7 實(shí)驗(yàn)使用的32導(dǎo)設(shè)備的電極分布Fig.7 Electrode distribution of 32-channel devices used in experiment

標(biāo)簽處理方面，本文以5 為中間值，將標(biāo)簽在效價(jià)和喚醒度兩個(gè)維度上分為了高和低兩個(gè)類別，轉(zhuǎn)換為二分類任務(wù)和效價(jià)/喚醒度四分類任務(wù)。

3.2 數(shù)據(jù)預(yù)處理

原始的生理信號(hào)數(shù)據(jù)受噪聲和基線漂移影響較大，其中噪聲主要來源于人體皮膚電信號(hào)和采集設(shè)備本身的工頻信號(hào)，基線漂移則是因?yàn)閷?shí)驗(yàn)者在實(shí)驗(yàn)過程中的運(yùn)動(dòng)幅度過大，導(dǎo)致信號(hào)整體參考水平發(fā)生變化。對(duì)于ECG 信號(hào)，采用小波變換將原始信號(hào)分解為不同頻率的子信號(hào)分量，再利用閾值去噪的方法設(shè)定一個(gè)噪聲閾值，只保留大于閾值的信號(hào)分量，再通過小波反變換還原去噪后的ECG 信號(hào)。噪聲閾值的計(jì)算方法如式（8）所示，這是一種基于魯棒估計(jì)的閾值去噪方法，可以有效去除信號(hào)中的高頻噪聲部分［24］：

其中：median(abs(signalECG))表示原始ECG 數(shù)據(jù)的絕對(duì)值的中位數(shù)，L表示數(shù)據(jù)長度。

對(duì)于EEG 信號(hào)，首先使用乳突處電極的平均波形對(duì)原始信號(hào)進(jìn)行重參考，之后使用獨(dú)立成分分析（Independent Component Analysis，ICA）刪除EEG 信號(hào)中的眼電信號(hào)（ElectroOculoGram，EOG）成分［25］。EOG 是眼球運(yùn)動(dòng)時(shí)產(chǎn)生的電信號(hào)，對(duì)于EEG 信號(hào)來說是干擾因素。在信號(hào)采集時(shí)會(huì)采集實(shí)驗(yàn)者未受情感激發(fā)時(shí)的EEG 基線數(shù)據(jù)，它記錄了大腦在平靜情況下產(chǎn)生的自然電位變化，可以利用基線信號(hào)解決EEG 的基線漂移問題。具體地，本文按照1 s 的寬度將原始信號(hào)分成若干段，求得基線信號(hào)各段的平均波形，再使用原始信號(hào)實(shí)驗(yàn)部分的各數(shù)據(jù)段減去基線部分的平均波形，如式（9）所示：

其中：Xbase(i)代表第i段EEG 的基線數(shù)據(jù)，l代表基線數(shù)據(jù)段數(shù)，Xtrial(j)和分別代表處理前和處理后的受情感激勵(lì)的實(shí)驗(yàn)部分EEG 分段。

本文實(shí)驗(yàn)采用眼動(dòng)信號(hào)記錄實(shí)驗(yàn)者在屏幕上的注視點(diǎn)Y軸坐標(biāo)。這是因?yàn)閄坐標(biāo)可能受實(shí)驗(yàn)者閱讀字幕等的影響，而Y軸受影響較小。眼動(dòng)數(shù)據(jù)受抖動(dòng)的影響很大：一方面，傳感器記錄的位置會(huì)有微弱抖動(dòng)；另一方面，人的眼睛長期看向某一點(diǎn)時(shí)，會(huì)下意識(shí)瞥向周圍，然后迅速回到原始點(diǎn)以緩解視覺疲勞。因此，需要對(duì)原始的眼動(dòng)數(shù)據(jù)平滑處理，去除由于傳感器和人眼本身造成的抖動(dòng)異常，本文方法使用高斯濾波器。具體地，利用窗口內(nèi)的數(shù)據(jù)加權(quán)平均值取代窗口內(nèi)中心點(diǎn)的值，可以有效過濾短時(shí)的高頻噪聲，達(dá)到平滑窗口內(nèi)曲線的目的。在計(jì)算加權(quán)平均值時(shí)，權(quán)值的計(jì)算如式（10）所示：

其中：w表示窗口內(nèi)的某個(gè)點(diǎn)到中心點(diǎn)的距離，σ是控制高斯濾波的參數(shù)，G(w)為計(jì)算的權(quán)值。

預(yù)處理完成后，需要對(duì)處理后的數(shù)據(jù)進(jìn)行分段，作為模型的訓(xùn)練測試數(shù)據(jù)。本文使用1 s 的寬度對(duì)數(shù)據(jù)進(jìn)行切分，每1 s 切分出對(duì)應(yīng)的EEG 的32 導(dǎo)的數(shù)據(jù)、1 導(dǎo)的ECG 數(shù)據(jù)和1 導(dǎo)的眼動(dòng)數(shù)據(jù)片段，共34 導(dǎo)的信號(hào)波形。為了統(tǒng)一3 種生理信號(hào)的維度，將3 種信號(hào)統(tǒng)一采樣至128 Hz，形成維度為（34，128）的數(shù)據(jù)單元。根據(jù)2.1 節(jié)的方法介紹，EEG 的數(shù)據(jù)還需要進(jìn)行分頻處理，分為θ、α、β 和γ 這4 個(gè)頻段，δ 頻段EEG 在人清醒環(huán)境下很少會(huì)出現(xiàn)所以不使用。顯然分頻后的EEG 數(shù)據(jù)維度為（32，4，128）。

3.3 情感分類實(shí)驗(yàn)

3.3.1 1D-Inception模塊的有效性驗(yàn)證

為了證明1D-Inception 特征學(xué)習(xí)模塊相較于傳統(tǒng)特征提取方法和傳統(tǒng)CNN 的有效性，本文進(jìn)行了有效性驗(yàn)證實(shí)驗(yàn)。首先使用信號(hào)的PSD 作為特征，使用SVM 作為分類器，高斯核作為核函數(shù)。之后搭建了一個(gè)3 層的簡單CNN 用于原始信號(hào)的直接分類。1D-Inception 特征學(xué)習(xí)模塊被單獨(dú)設(shè)置，在特征學(xué)習(xí)后直接進(jìn)行分類，驗(yàn)證三者的分類能力。實(shí)驗(yàn)結(jié)果如表2 所示，ACC（Accuracy）和STD（STandard Deviation）是平均分類準(zhǔn)確率和準(zhǔn)確率標(biāo)準(zhǔn)差。1D-Inception 模塊取得了最高的分類準(zhǔn)確率，相較于前兩者在平均準(zhǔn)確率上提升了28.98 個(gè)百分點(diǎn)（效價(jià)）和30.05 個(gè)百分點(diǎn)（喚醒度）。個(gè)體之間的準(zhǔn)確率標(biāo)準(zhǔn)差也降低至8.77%（效價(jià)）和7.91%（喚醒度），且1D-Inception 模塊的參數(shù)規(guī)模要小于3 層CNN，說明本文模塊具有更小的參數(shù)代價(jià)和更高的特征學(xué)習(xí)性能，學(xué)習(xí)的特征可分類性更好，在不同個(gè)體之間的泛化能力更強(qiáng)。由此證明了本文提出的1D-Inception 特征學(xué)習(xí)模塊更適合于生理信號(hào)特征學(xué)習(xí)。

表2 1D-Inception與其他特征提取方法的準(zhǔn)確率對(duì)比單位：%Tab.2 Accuracy comparison of 1D-Inception with other feature extraction methods unit：%

3.3.2 特征融合的有效性驗(yàn)證

為了驗(yàn)證本文采用的基于自注意力的特征融合方法的有效性，實(shí)驗(yàn)使用特征直接融合方法、決策層融合方法和本文融合方法進(jìn)行對(duì)比。在進(jìn)行對(duì)比實(shí)驗(yàn)之前，本文使用的Bi-LSTM 模塊使用的序列長度需要被確定，即模型在多大序列范圍內(nèi)提取時(shí)序特征。本文中針對(duì)這一問題嘗試了5 種序列長度：1、3、6、10 和15。實(shí)驗(yàn)結(jié)果如表3 所示。當(dāng)6 作為序列長度時(shí)，模型取得了最好的分類效果；15 作為序列長度時(shí)盡管標(biāo)準(zhǔn)差略低，但是準(zhǔn)確率出現(xiàn)了大幅下降。

表3 不同的Bi-LSTM序列長度的實(shí)驗(yàn)結(jié)果對(duì)比單位：%Tab.3 Comparison of experimental results with different sequence lengths of Bi-LSTM unit：%

序列長度確定后，對(duì)三種融合策略進(jìn)行了對(duì)比實(shí)驗(yàn)，結(jié)果如表4 所示。直接融合方法是將特征提取模塊輸出的各個(gè)模態(tài)的特征直接進(jìn)行向量拼接，再送入Bi-LSTM 網(wǎng)絡(luò)進(jìn)行分類；決策層融合方法則是將不同模態(tài)的特征單獨(dú)送入獨(dú)立的Bi-LSTM 網(wǎng)絡(luò)進(jìn)行單獨(dú)分類，再將分類結(jié)果通過最大值融合方法進(jìn)行決策層融合。結(jié)果表明，自注意力融合方法在效價(jià)、喚醒度和效價(jià)喚醒度四分類任務(wù)上分別取得了90.29%、91.38%和83.53%的識(shí)別準(zhǔn)確率，個(gè)體的識(shí)別標(biāo)準(zhǔn)差降低至6.28%、6.02%和9.77%。相較于其他融合方法取得了最好的識(shí)別效果，證明了本文提出的自注意力融合方法對(duì)于多模態(tài)生理信號(hào)特征融合的有效性。

表4 自注意力融合方法和其他融合方法的準(zhǔn)確率對(duì)比單位：%Tab.4 Accuracy comparison between self-attention-based fusion method and other fusion methods unit：%

3.3.3 多模態(tài)方法的有效性驗(yàn)證

本文使用三種生理信號(hào)的單模態(tài)、EEG+ECG 雙模態(tài)、EEG+眼動(dòng)雙模態(tài)和本文使用的三模態(tài)融合方法進(jìn)行了對(duì)比。在實(shí)驗(yàn)環(huán)境上，本文在Pytorch1.8.1 深度學(xué)習(xí)環(huán)境下搭建模型，使用的硬件加速設(shè)備和驅(qū)動(dòng)版本分別為Nvidia 1660S 和CUDA11.1。在實(shí)驗(yàn)設(shè)置上，使用交叉熵作為損失函數(shù)，Adam 為優(yōu)化器，采用10 折交叉訓(xùn)練驗(yàn)證的方法提升模型的情感識(shí)別能力。批大?。˙atch Size）設(shè)置為80，最大迭代次數(shù)為100。在算法的運(yùn)行時(shí)間上，每位受試者的數(shù)據(jù)訓(xùn)練平均花費(fèi)389.49 s，測試平均花費(fèi)1.25 s。

實(shí)驗(yàn)結(jié)果如表5 所示?？梢钥闯鲈趩文B(tài)實(shí)驗(yàn)中，EEG單模態(tài)相較于其他兩種生理信號(hào)取得了最優(yōu)的識(shí)別效果，效價(jià)喚醒度四分類準(zhǔn)確率高達(dá)76.42%，明顯高于ECG 的45.39%和眼動(dòng)的39.28%。這說明相較于ECG 和眼動(dòng)信號(hào)，EEG 更適合用于情感識(shí)別任務(wù)。

表5 多模態(tài)方法與單、雙模態(tài)方法的準(zhǔn)確率對(duì)比單位：%Tab.5 Accuracy comparison between multimodal method with unimodal and bimodal methods unit：%

進(jìn)行模態(tài)融合后，多模態(tài)方法相比EEG 單模態(tài)方法取得了更好的識(shí)別效果。EEG+ECG 雙模態(tài)的準(zhǔn)確率提升至89.37%（效價(jià)）、88.23%（喚醒度）和82.26%（效價(jià)喚醒度四分類），而且標(biāo)準(zhǔn)差更低，跨個(gè)體的識(shí)別準(zhǔn)確率更加穩(wěn)定。而三模態(tài)融合取得了最好的識(shí)別效果，在三個(gè)分類任務(wù)上分別取得了90.29%、91.38%和83.53%的識(shí)別準(zhǔn)確率。相較于EEG 單模態(tài)提升了3.46～7.11 個(gè)百分點(diǎn)，相比EEG+ECG 雙模態(tài)提升了0.92～3.15 個(gè)百分點(diǎn)，而且個(gè)體間準(zhǔn)確率的標(biāo)準(zhǔn)差降至最低。這說明三模態(tài)比EEG 單模態(tài)和雙模態(tài)的識(shí)別方法更加優(yōu)越，ECG 和眼動(dòng)這兩個(gè)模塊的加入有效提升了基于EEG 情感識(shí)別的準(zhǔn)確率和跨個(gè)體識(shí)別的穩(wěn)定性。

3.4 與其他方法的比較

表6 給出了本文方法和其他的生理信號(hào)情感識(shí)別方法的準(zhǔn)確率對(duì)比。其中文獻(xiàn)［18］方法融合了EEG 和皮膚電信號(hào)并使用CNN 進(jìn)行情感識(shí)別。文獻(xiàn)［26］方法將腦磁圖、EOG 和ECG 等多種生理信號(hào)模態(tài)融合，構(gòu)建層次模塊化神經(jīng)網(wǎng)絡(luò)對(duì)情感進(jìn)行分類。文獻(xiàn)［27］方法融合EEG 和眼動(dòng)特征并使用深度典型相關(guān)分析進(jìn)行多模態(tài)情感識(shí)別。文獻(xiàn)［7，28］方法均是EEG 和ECG 和雙模態(tài)融合，它們分別使用了時(shí)頻域特征計(jì)算和圖神經(jīng)網(wǎng)絡(luò)對(duì)生理信號(hào)進(jìn)行特征提取。本文方法在喚醒度上取得了最好的識(shí)別準(zhǔn)確率，效價(jià)的準(zhǔn)確率也提升了3.68～13.73 個(gè)百分點(diǎn)。效價(jià)的準(zhǔn)確率雖然略低于文獻(xiàn)［28］方法，但是在喚醒度上提高了3.14 個(gè)百分點(diǎn)。

表6 與現(xiàn)存的基于生理信號(hào)情感識(shí)別方法的準(zhǔn)確率對(duì)比單位：%Tab.6 Accuracy comparison with existing physiological signal-based emotion recognition methods unit：%

本文的多模態(tài)方法能取得優(yōu)秀的識(shí)別效果與多模態(tài)模型結(jié)構(gòu)有關(guān)。首先，1D-Inception 模塊的多尺度卷積方法能學(xué)習(xí)更穩(wěn)定、更高維度的生理信號(hào)特征；其次，頻帶注意力機(jī)制能有效放大EEG 中的關(guān)鍵頻帶中的數(shù)據(jù)，而基于自注意力機(jī)制的特征融合也能增加多模態(tài)信號(hào)中的關(guān)鍵特征的權(quán)重，降低非關(guān)鍵特征對(duì)于分類結(jié)果的影響；最后，多模態(tài)的方法利用信號(hào)之間的互補(bǔ)性，各種生理信號(hào)之間相互補(bǔ)充情感信息，有效提升了分類準(zhǔn)確率，并且使得跨個(gè)體的識(shí)別效果更穩(wěn)定。

然而，本文方法仍有改進(jìn)空間。需要注意到，實(shí)驗(yàn)結(jié)果中識(shí)別準(zhǔn)確率的標(biāo)準(zhǔn)差盡管有所改進(jìn)，但是跨個(gè)體的識(shí)別效果仍然存在一些波動(dòng)。本文經(jīng)過分析認(rèn)為標(biāo)簽的比例失衡可能是潛在原因，因?yàn)閷?shí)驗(yàn)采用的標(biāo)簽處理方法是以5 為界進(jìn)行劃分，少數(shù)實(shí)驗(yàn)者將大部分打分都打在5 以上，造成了反例數(shù)據(jù)的不足，導(dǎo)致識(shí)別效果下降。因此情感標(biāo)簽的處理方法可能需要進(jìn)一步研究，以優(yōu)化樣本比例［29］。

4 結(jié)語

本文提出了一種基于EEG、ECG 和眼動(dòng)信號(hào)三種模態(tài)的特征層融合的情感識(shí)別方案，通過有效的特征學(xué)習(xí)和特征層融合方法提升了情感識(shí)別準(zhǔn)確率和跨個(gè)體的識(shí)別穩(wěn)定性。對(duì)于生理信號(hào)的特征提取，首先使用頻帶注意力處理EEG信號(hào)的多頻帶問題，通過自適應(yīng)添加權(quán)重的方法放大EEG中情感關(guān)鍵頻帶的數(shù)據(jù)。之后本文提出一種1D-Inception 模塊對(duì)數(shù)據(jù)進(jìn)行多尺度卷積，提高模型識(shí)別準(zhǔn)確率和減小卷積參數(shù)規(guī)模。對(duì)于多個(gè)模態(tài)生理信號(hào)的特征融合，本文使用了自注意力機(jī)制在多模態(tài)特征之間進(jìn)行注意力學(xué)習(xí)，提高關(guān)鍵特征的權(quán)重并降低非關(guān)鍵特征對(duì)于結(jié)果的影響。最后，通過Bi-LSTM 網(wǎng)絡(luò)對(duì)融合后的特征進(jìn)行時(shí)序特征學(xué)習(xí)和情感分類。實(shí)驗(yàn)結(jié)果表明，本文方法在效價(jià)、喚醒度和效價(jià)/喚醒度四分類的識(shí)別任務(wù)上分別取得了90.29%、91.38% 和83.53%的識(shí)別準(zhǔn)確率，體現(xiàn)了多模態(tài)融合方法的有效性。未來的工作中，將結(jié)合更好的情感標(biāo)簽處理方法進(jìn)行進(jìn)一步的研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡