王 偉,周建華,劉紫恒,趙世昊,伏云發(fā)
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500)
情緒是人對(duì)客觀事物的態(tài)度的一種反映,與人的行為和日常生活緊密聯(lián)系。對(duì)情緒的研究是一個(gè)有重要意義的課題,在醫(yī)療、教育、安全等領(lǐng)域都有著廣泛的應(yīng)用。傳統(tǒng)研究往往針對(duì)語(yǔ)音、面部表情、身體姿勢(shì)等外在特征來進(jìn)行情緒識(shí)別[1],但是由于這些特征本身可以進(jìn)行偽裝來影響識(shí)別效果,因此通過這些外在特征并不能準(zhǔn)確地進(jìn)行情緒識(shí)別。而腦電信號(hào)具有很好的客觀表征情緒的特點(diǎn)[2],因此以腦電對(duì)情緒進(jìn)行研究成為情緒識(shí)別領(lǐng)域的常用手段。
以往對(duì)腦電信號(hào)進(jìn)行研究多采用傳統(tǒng)機(jī)器學(xué)習(xí)的方式,需要大量經(jīng)驗(yàn)尋找最佳腦電信號(hào)特征,選擇合適的分類器對(duì)情緒進(jìn)行分類,而不同被試者腦電信號(hào)差異很大,采用傳統(tǒng)機(jī)器學(xué)習(xí)的方式對(duì)腦電信號(hào)進(jìn)行情緒分類往往需要大量時(shí)間[3]。因此,有學(xué)者開始將深度學(xué)習(xí)用于腦電情緒識(shí)別的領(lǐng)域。文獻(xiàn)[4]使用單一尺寸卷積進(jìn)行腦電情緒識(shí)別,然而隨著識(shí)別種類數(shù)增加準(zhǔn)確率不斷地下降。文獻(xiàn)[5]提取腦電信號(hào)的時(shí)域、頻域和非線性動(dòng)力學(xué)特征,沿時(shí)間構(gòu)成特征序列,用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)對(duì)腦電信號(hào)從愉悅度和喚醒度兩個(gè)維度進(jìn)行二分類,準(zhǔn)確率分別為73.5%和73.87%。LSTM的遞歸結(jié)構(gòu)能夠加強(qiáng)時(shí)間特征的提取,但是也忽略了空間信息的利用,整體時(shí)空特征的利用依舊不足。文獻(xiàn)[6]提出了新的識(shí)別框架,稱為通道融合的密集卷積神經(jīng)網(wǎng)絡(luò)(channel-fused dense convolutional network,CDCN),該網(wǎng)絡(luò)由一維卷積層和一維密集層組成,處理后的腦電數(shù)據(jù)提取微分熵后輸入到上述網(wǎng)絡(luò),在情緒三分類上取得了90.63%的識(shí)別精度。然而一維卷積無法獲取電極間相互關(guān)系,不能充分利用采集電極的分布性信息,且沒有利用時(shí)間連續(xù)性特征。文獻(xiàn)[7]從腦電信號(hào)中分別提取了統(tǒng)計(jì)特征、功率譜密度特征、希爾伯特黃特征,并一起輸入到深度置信網(wǎng)絡(luò)(deep belief networks,DBN),在喚醒和效價(jià)兩個(gè)維度分別得到了75.92%和76.83%的識(shí)別精度。多重特征提取雖然增加了特征提取的豐富度,但是手動(dòng)特征提取大大增加了工作量,而且識(shí)別準(zhǔn)確度偏低。文獻(xiàn)[8]利用離散小波變換(discrete wavelet transformation,DWT)將腦電信號(hào)分解成多個(gè)頻段,并利用粒子群優(yōu)化算法(particle swarm optimization,PSO)對(duì)數(shù)據(jù)進(jìn)行降維操作,之后采取LSTM深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)特征進(jìn)行提取分類,在情緒四分類上實(shí)現(xiàn)了82.01%的識(shí)別精度,但是過多的特征往往導(dǎo)致特征堆積,影響識(shí)別效果。
針對(duì)以上方法存在的不足,本文保留了腦電電極的位置信息和拓?fù)浣Y(jié)構(gòu),提出了一種時(shí)空Inception殘差注意力網(wǎng)絡(luò),從空間和時(shí)間兩個(gè)維度提取與情緒相關(guān)的信息。在數(shù)據(jù)處理層面,將原始電極映射到9×9的矩陣中,采集信號(hào)作為數(shù)據(jù)通道,構(gòu)成圖像化形式的腦電信號(hào);在空間層面,將Inception結(jié)構(gòu)作為空間特征提取的主體結(jié)構(gòu)構(gòu)建空間特征提取模型;在時(shí)間層面,使用雙向長(zhǎng)短期記憶(bi-directional long short-term memory,BiLSTM)網(wǎng)絡(luò)探究腦電信號(hào)時(shí)段重要性和時(shí)序關(guān)聯(lián)性,獲取與情緒相關(guān)的時(shí)間信息。將IAResnet和BiLSTM進(jìn)行融合實(shí)現(xiàn)了腦電信號(hào)時(shí)空特征的提取,豐富了腦電信號(hào)的提取方式,有效地提高了識(shí)別精度。
DEAP數(shù)據(jù)集采用了音樂視頻誘發(fā)情緒的方式,將包含特定情緒類型的音樂視頻片段用來誘發(fā)受試者情緒的變化;總共選取32名受試者,每個(gè)受試者觀看40個(gè)時(shí)長(zhǎng)約1分鐘的音樂視頻,每觀看完1個(gè)視頻片段受試者均需要使用SAM量表來完成對(duì)誘發(fā)情緒狀態(tài)的自我評(píng)分[9];每個(gè)實(shí)驗(yàn)數(shù)據(jù)包含60 s音樂視頻誘發(fā)信號(hào)和3 s基線信號(hào),基線信號(hào)記錄受試者沒有接受刺激的狀態(tài)下的腦電信號(hào),每段視頻的采集數(shù)據(jù)均由32導(dǎo)腦電信號(hào)和8導(dǎo)其他生理信號(hào)組成,數(shù)據(jù)庫(kù)已將采樣頻率由512 Hz降采樣到128 Hz。該數(shù)據(jù)集數(shù)據(jù)格式為32(受試者數(shù)量)×40(音樂視頻數(shù))×32(EEG通道數(shù))×8 064(采樣數(shù))。
情緒分類有多種標(biāo)準(zhǔn),維度理論是情緒分類的主流方案,研究中常用效價(jià)度、喚醒度來量化人的情緒。效價(jià)度用于反映情緒的積極和消極程度;喚醒度反映人某一狀態(tài)時(shí)的興奮程度。按照情緒維度理論,受試者每次參與實(shí)驗(yàn)后產(chǎn)生的情緒,可以用SAM標(biāo)準(zhǔn)從效價(jià)度、喚醒度等維度來量化。維度評(píng)分為1-9,評(píng)分結(jié)果高于5劃為高水平組,否則為低水平組[10],情緒維度模型如圖1所示。圖1中,4個(gè)象限依次為高喚醒高效價(jià)、高喚醒低效價(jià)、低喚醒低效價(jià)、低喚醒高效價(jià)。使用DEAP數(shù)據(jù)集來進(jìn)行情緒識(shí)別的四分類任務(wù)。
圖1 情緒維度模型Fig.1 Emotional dimension model
從所有通道中提取基線信號(hào)C并以固定長(zhǎng)度L將其切成N段,得到N段C×L矩陣,用X表示該矩陣;計(jì)算分段信號(hào)基線的平均值A(chǔ),用其來表示受試者的基本情緒狀態(tài),公式為[11]
(1)
將原始腦電信號(hào)用O表示,減去對(duì)應(yīng)的基本情緒狀態(tài)數(shù)值A(chǔ)獲得兩者差值G,得到預(yù)處理后的信號(hào)數(shù)據(jù),表示為
Gj=Oj-A
(2)
國(guó)際10-20系統(tǒng)及其電極平面映射矩陣如圖2所示。圖2a中,紅圈中字母Fp1、Fp2等表示采集電極,紅色節(jié)點(diǎn)表示DEAP數(shù)據(jù)集中腦電采集電極的分布位置。DEAP數(shù)據(jù)集丟失了原始 EEG 信號(hào)電極的位置信息,為了解決這個(gè)問題,實(shí)驗(yàn)中將DEAP數(shù)據(jù)集使用的32個(gè)腦電信號(hào)采集電極重新定位到基于10-20系統(tǒng)的2D電極拓?fù)浣Y(jié)構(gòu)。對(duì)于每個(gè)時(shí)間采樣點(diǎn)來說,32 通道的腦電信號(hào)都被映射到一個(gè) 9×9 的矩陣之中,未使用的電極用零數(shù)據(jù)填充[12],如圖2b所示。使用1 s的無重疊滑動(dòng)窗口,對(duì)處理后的數(shù)據(jù)進(jìn)行切割,獲得76 800個(gè)數(shù)據(jù)維度為128×9×9的腦電數(shù)據(jù)。
a 國(guó)際10-20系統(tǒng)
b 電極平面映射矩陣
腦電信號(hào)包含著空間和時(shí)間兩部分信息,情緒識(shí)別模型在對(duì)采集電極進(jìn)行平面映射后分別從空間和時(shí)間兩個(gè)方面對(duì)腦電信號(hào)進(jìn)行表征后分類。
空間層面,使用Inception殘差注意力卷積網(wǎng)絡(luò)利用提取電極之間的拓?fù)湫畔?最大程度保留腦電信號(hào)的空間特征;時(shí)間層面,使用BiLSTM網(wǎng)絡(luò)來獲取腦電信號(hào)間的時(shí)序信息,提取時(shí)間特征;最后使用分類模塊進(jìn)行結(jié)果分類。整體架構(gòu)如圖3所示。
圖3 情緒識(shí)別整體架構(gòu)Fig.3 Overall architecture of emotion recognition
由圖3可見,將原始腦電信號(hào)經(jīng)過基線處理和平面映射處理后得到數(shù)據(jù)維度為128×9×9的數(shù)據(jù),再輸入到上述時(shí)空模型之中,經(jīng)全連接操作后(Dropout=0.2)使用LogSoftmax操作得到分類結(jié)果。
本文提出的Inception殘差注意力網(wǎng)絡(luò)由兩層Inception作為主體,這兩層Inception結(jié)構(gòu)由殘差模塊連接網(wǎng)絡(luò)主干之后添加ECA注意力機(jī)制,用于提取圖像化腦電數(shù)據(jù)的空間信息。每層Inception結(jié)構(gòu)中使用的卷積核大小為1×1、3×3、5×5。Inception殘差注意力網(wǎng)絡(luò)如圖4所示。
圖4 Inception殘差注意力網(wǎng)絡(luò)Fig.4 Inception residual attention network
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)往往是朝著增加網(wǎng)絡(luò)深度的方向來發(fā)展的,若深度增加使網(wǎng)絡(luò)訓(xùn)練參數(shù)過多,則將導(dǎo)致過擬合。Inception從加寬網(wǎng)絡(luò)的角度出發(fā),增加了橫向網(wǎng)絡(luò)結(jié)構(gòu),對(duì)輸入特征圖進(jìn)行并行特征采集,將所有輸出拼接為一個(gè)新的特征圖。在并行提取特征時(shí),每一層中卷積核大小不一樣,因而可提取到不同的特征。將腦電信號(hào)電極平面映射得到類似圖片的文件之后便可以將用于圖像領(lǐng)域的Inception網(wǎng)絡(luò)用于腦電情緒識(shí)別領(lǐng)域。使用Inception網(wǎng)絡(luò)不僅實(shí)現(xiàn)了多尺度特征提取的功能,增加了神經(jīng)元的個(gè)數(shù),還在此基礎(chǔ)上減少了網(wǎng)絡(luò)參數(shù)量,提高了網(wǎng)絡(luò)性能[13]。
本文對(duì)Inception結(jié)構(gòu)進(jìn)行了改進(jìn),將1×1、3×3、5×5的卷積核與池化操作并行連接,增加了BN層和Relu函數(shù),并通過增加一個(gè)1×1的卷積核保持通道數(shù)的統(tǒng)一,同時(shí)進(jìn)行降維實(shí)現(xiàn)同一層網(wǎng)絡(luò)下多特征提取的目標(biāo)。改進(jìn)后的Inception網(wǎng)絡(luò)如圖5所示。
圖5 改進(jìn)后的Inception網(wǎng)絡(luò)Fig.5 Improved Inception network
傳統(tǒng)的多尺度模型采用并行相連的結(jié)構(gòu),即前一個(gè)尺寸為1的卷積核與后面尺寸為1的卷積核相連接,前一個(gè)尺寸為3的卷積核與后面尺寸為3的卷積核相連接,這使前一層無法得到融合特征來傳遞給下一層。本文把改進(jìn)后的Inception結(jié)構(gòu)看作一個(gè)整體,將輸入端與經(jīng)Inception后的輸出采用殘差形式[14]相連接得到Inception殘差網(wǎng)絡(luò),如圖6所示。
圖6 Inception殘差網(wǎng)絡(luò)Fig.6 Inception residual network
圖6中,Xl代表輸入;Y1—Y4代表從Inception結(jié)構(gòu)各部分得到的輸出;H(xl)為經(jīng)Inception后的輸出部分與輸入之和。計(jì)算式為
Yn=Fn(xl,ωl)
(3)
H(Xl)=(Y1+Y2+Y3+Y4)+ωsxl
(4)
本文將兩層Inception殘差網(wǎng)絡(luò)層相連接,得到空間特征提取模塊的主體結(jié)構(gòu);將ECA注意力機(jī)制引入到空間提取主體結(jié)構(gòu),得到Inception殘差注意力網(wǎng)絡(luò),以賦予權(quán)重[15]的形式將信息重要性展現(xiàn)出來使網(wǎng)絡(luò)性能得到提高。
ECA注意力機(jī)制保留了原有的特征圖維度,充分利用通道間的交互信息[16]獲得和周圍通道的局部交互關(guān)系,最早用于圖像處理領(lǐng)域。本文把ECA注意力機(jī)制引入腦電情緒識(shí)別。腦電信號(hào)是二維的,使用時(shí)必須轉(zhuǎn)換為三維,即將二維的腦電數(shù)據(jù)映射到128×9×9三維矩陣之中,再利用ECA注意力機(jī)制獲得通道的權(quán)重信息。權(quán)重計(jì)算公式為
ω=sigmoid(C1Dk(y))
(5)
(5)式中:k代表卷積核大小;sigmoid為激活函數(shù);H、W、C指特征圖維度。將權(quán)重與原始輸入特征圖對(duì)應(yīng)元素相乘,得到輸出特征圖。ECA注意力機(jī)制結(jié)構(gòu)如圖7所示。
圖7 ECA注意力機(jī)制結(jié)構(gòu)圖Fig.7 ECA attention mechanism structure diagram
BiLSTM神經(jīng)網(wǎng)絡(luò)由兩層LSTM組成,按照時(shí)間的方向分為前向LSTM和后向LSTM[17],BiLSTM結(jié)構(gòu)如圖8所示。由圖8可見,BiLSTM的輸出結(jié)果由前向LSTM計(jì)算結(jié)果和后向LSTM計(jì)算結(jié)果疊加得到[18]。將BiLSTM與注意力機(jī)制結(jié)合,調(diào)整權(quán)重信息,即可構(gòu)建新的BiLSTM層。
圖8 BiLSTM神經(jīng)網(wǎng)絡(luò)Fig.8 BiLSTM neural network
前向LSTM公式[19]為
Mi=f1(ω1xi+ω2Mi-1)
(6)
后向LSTM公式為
Ni=f2(ω3xi+ω5Ni+1)
(7)
BiLSTM最終輸出公式為
Zi=f3(ω4Mi+ω6Ni)
(8)
(6)—(8)式中:Xi代表各個(gè)時(shí)刻的輸入數(shù)據(jù);Mi、Ni代表前向和后向LSTM;Zi代表相應(yīng)的輸出數(shù)據(jù);ω1、ω2、ω3、ω4、ω5、ω6代表各層相應(yīng)權(quán)重。
分類模塊由展平、全連接操作和LogSoftmax操作構(gòu)成。將時(shí)空Inception殘差注意力網(wǎng)絡(luò)輸出信號(hào)輸入到全連接層,通過LogSoftmax操作獲得分類結(jié)果。當(dāng)輸入數(shù)據(jù)為(z1,…,zn)時(shí),LogSoftmax公式為
(9)
(9)式中:zi代表輸入數(shù)據(jù);zm代表輸入數(shù)據(jù)最大值。
為了驗(yàn)證電極平面映射方法的有效性,將DEAP數(shù)據(jù)集中的數(shù)據(jù)按照A-V情緒維度理論進(jìn)行四分類,分別對(duì)應(yīng)高效價(jià)高喚醒(HAHV)、高效價(jià)低喚醒(LAHV)、低效價(jià)高喚醒(HALV)、低效價(jià)低喚醒(LALV)4類標(biāo)簽,對(duì)應(yīng)樣本量為26 340、16 140、17 880、16 440,如表1所示。
表1 DEAP數(shù)據(jù)集樣本劃分要求及對(duì)應(yīng)樣本數(shù)
將DEAP數(shù)據(jù)集腦電采集電極位置信息映射到二維平面之后得到的三維數(shù)據(jù)和未經(jīng)映射的原始二維數(shù)據(jù)分別輸入到時(shí)空Inception殘差注意力網(wǎng)絡(luò)(分別使用2D和1D卷積,其他參數(shù)均保持一致),實(shí)驗(yàn)在pytorch框架實(shí)現(xiàn),使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 1,訓(xùn)練集與測(cè)試集按照9∶1劃分,進(jìn)行4組實(shí)驗(yàn),結(jié)果如圖9所示。
圖9 準(zhǔn)確率對(duì)比圖Fig.9 Accuracy comparison chart
由圖9可知,在相同參數(shù)下,將腦電電極映射在矩陣平面上可使時(shí)空Inception殘差注意力網(wǎng)絡(luò)情緒識(shí)別準(zhǔn)確度提升1.5~2個(gè)百分點(diǎn),這表明腦電電極各位置之間保留大量相互關(guān)系信息,將電極映射到平面之后可將這些信息最大程度進(jìn)行保留,提升空間特征獲取能力。將電極映射到平面之后對(duì)腦電進(jìn)行情緒識(shí)別的能力優(yōu)于未將電極映射到平面的方式。
為了驗(yàn)證改進(jìn)Inception模塊的有效性,將改進(jìn)的Inception結(jié)構(gòu)中池化和1×1卷積部分由7×7的卷積代替組成多尺度卷積,進(jìn)行10次試驗(yàn)取平均準(zhǔn)確度,對(duì)比結(jié)果如表2所示。
由表2可知,由改進(jìn)Inception結(jié)構(gòu)組成的模型優(yōu)于多尺度卷積組成的模型,可取得更好的分類準(zhǔn)確度。雖然7×7卷積可有更大感受野,但是較大卷積核也導(dǎo)致細(xì)節(jié)特征挖掘不明顯,同時(shí)較大卷積核導(dǎo)致計(jì)算量增大。因此,腦電進(jìn)行情緒識(shí)別的過程中,Inception結(jié)構(gòu)效果是好于多尺度模型的。
為了驗(yàn)證時(shí)空Inception殘差注意力網(wǎng)絡(luò)的有效性,將DEAP數(shù)據(jù)集腦電采集電極位置信息映射到二維平面之后得到的數(shù)據(jù)用于時(shí)空Inception殘差注意力網(wǎng)絡(luò)中。在相同的參數(shù)下,將空間特征提取網(wǎng)絡(luò)即Inception殘差注意力網(wǎng)絡(luò)(IAResnet)、時(shí)間特征提取網(wǎng)絡(luò)即BiLSTM網(wǎng)絡(luò)、時(shí)空融合特征提取網(wǎng)絡(luò)即時(shí)空Inception殘差注意力網(wǎng)絡(luò)(IAResnet-BiLSTM)3種網(wǎng)絡(luò)進(jìn)行性能對(duì)比。訓(xùn)練過程均在pytorch框架下完成,使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 1,用10折交叉驗(yàn)證法加以驗(yàn)證,以10次運(yùn)算結(jié)果的平均值作為算法準(zhǔn)確度。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同網(wǎng)絡(luò)下準(zhǔn)確度對(duì)比
由表3可知,本文時(shí)空融合特征提取網(wǎng)絡(luò)獲得了93.71%的識(shí)別精度,相較于空間和時(shí)間模型分別提升了1.36和2.16個(gè)百分點(diǎn),原因是利用了導(dǎo)聯(lián)的位置信息、導(dǎo)聯(lián)之間的相互關(guān)系以及信號(hào)的時(shí)間連續(xù)性,充分挖掘了腦電信號(hào)的時(shí)空特征,避免了傳統(tǒng)網(wǎng)絡(luò)特征提取不全面的問題。
將本文研究方法IAResnet-BiLSTM與現(xiàn)有腦電情緒識(shí)別方法進(jìn)行對(duì)比,結(jié)果如表4所示。文獻(xiàn)[20]采用基于靈活解析小波變換的方式,將腦電信號(hào)分解為多個(gè)子波段信號(hào)并從中提取特征,經(jīng)隨機(jī)森林分類,分類準(zhǔn)確度為71.43%;文獻(xiàn)[8]使用離散小波變換結(jié)合LSTM網(wǎng)絡(luò)進(jìn)行情緒識(shí)別,分類準(zhǔn)確度為82.01%;文獻(xiàn)[21]將注意力機(jī)制引入Resnet網(wǎng)絡(luò),并將殘差模塊中Relu函數(shù)改為Selu函數(shù),得到MAResnet網(wǎng)絡(luò),在情緒五分類任務(wù)中獲得了85.2%的分類準(zhǔn)確度。對(duì)比方法的分類準(zhǔn)確度均明顯低于本文方法。
表4 DEAP數(shù)據(jù)集下已有研究成果與本文結(jié)果對(duì)比
傳統(tǒng)的腦電情緒識(shí)別研究?jī)H針對(duì)空間或時(shí)間單一角度,忽略了腦電采集電極空間位置信息。本文使用DEAP數(shù)據(jù)集對(duì)腦電情緒識(shí)別問題進(jìn)行研究,對(duì)4種情緒狀態(tài)進(jìn)行分類,提出IAResnet-BiLSTM網(wǎng)絡(luò)。該網(wǎng)絡(luò)將原始數(shù)據(jù)集映射到一個(gè)二維平面,保留了原有電極的位置信息;通過IAResnet網(wǎng)絡(luò)將多尺度卷積和注意力機(jī)制結(jié)合在一起,最大限度提取到空間信息和各電極之間的關(guān)聯(lián)性信息;采用BiLSTM對(duì)時(shí)間信息加以提取,使得時(shí)間連續(xù)性信息得以保留;以時(shí)空融合的方式來提取情緒相關(guān)特征,分類準(zhǔn)確度得到較大提高。該模型在效價(jià)度、喚醒度組成的二維平面模型四分類中取得了93.71%的分類準(zhǔn)確度,相較于傳統(tǒng)方法有10%~20%的精度提升,實(shí)驗(yàn)結(jié)果證明了本文方法在腦電情緒識(shí)別領(lǐng)域的有效性。