国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人臉圖像和腦電的連續(xù)情緒識別方法①

2021-02-23 06:29李瑞新蔡兆信王冰冰潘家輝
計算機系統(tǒng)應(yīng)用 2021年2期
關(guān)鍵詞:腦電分類器模態(tài)

李瑞新,蔡兆信,王冰冰,潘家輝

(華南師范大學(xué) 軟件學(xué)院,佛山 528225)

1 引言

1.1 研究背景

情緒(emotion)是人對客觀事物的態(tài)度體驗和相應(yīng)的行為反映[1],是一種由感覺、思想與行為綜合而成的復(fù)雜的心理和生理狀態(tài),它與大腦許多內(nèi)部和外部活動相關(guān)聯(lián),在生活中的各個方面都起重要作用.情緒識別在心理學(xué)研究、安全駕駛、犯罪測謊、遠程教育、人機交互、數(shù)字醫(yī)療等領(lǐng)域有著重要的影響和需求.情緒識別技術(shù)涵蓋人工智能、自然語言處理、認知與社會科學(xué)等領(lǐng)域的方法和技術(shù)[2].但是,目前情緒識別的量化精度不高,又囿于被試生理數(shù)據(jù)的缺乏以及情緒的主觀性,目前情緒識別在技術(shù)層面仍然需要克服數(shù)據(jù)集小、跨被試性能差等問題.基于此背景,本文采用Posner 提出的情緒的二維模型[3]量化情緒,將情緒分為效價(valence)和喚醒度(arousal)兩個維度,每個維度的分數(shù)范圍為1–9.同時,本文基于人臉圖像和腦電技術(shù),提出了多個情緒識別模型.

1.2 研究現(xiàn)狀

(1)人臉表情識別的相關(guān)研究

人臉的表情是一種重要的情緒交流方式,1971年,Ekman 等[4]首次將表情劃分為6 種基本形式:悲傷(sad)、高興(happy)、恐懼(fear)、厭惡(disgust)、驚訝(surprise)和憤怒(angry).而人臉表情識別(Facial Expression Recognition,FER)技術(shù)則將生理學(xué)、心理學(xué)、圖像處理、機器視覺 與模式識別等研究領(lǐng)域進行交叉與融合,是近年來模式識別與人工智能領(lǐng)域研究的一個熱點問題[5].傳統(tǒng)的人臉表情識別方法重視特征提取和表情分類.2016年,Meng 等[6]將Roweis 研究團隊提出的LLE 方法[7]與神經(jīng)網(wǎng)絡(luò)進行結(jié)合,提出了LLENET 特征提取算法,顯著提高了算法的性能.2009年,朱明旱等[8]結(jié)合二維Fisher 線性判別分析(Two Dimensional Fisher Linear discriminant Analysis,2DFLA)與局部保持投影算法識別表情,顯著提升了識別效率.基于深度學(xué)習(xí)的人臉表情識別方法能夠同時提取特征并分類表情.Mollahosseini 等[9]將AlexNet與GoogleNet 模型結(jié)合,構(gòu)建了一個7 層的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)用于人臉表情識別,得到了較好的識別效果.目前人臉表情識別的研究有如下難點:①表情量化方式不精確;②表情適用范圍小;③被試數(shù)據(jù)量不足,難以訓(xùn)練更復(fù)雜的深度學(xué)習(xí)模型.

(2)腦電情緒識別的相關(guān)研究

相較于人臉表情,腦電信號具有的更高的客觀性,難以偽裝.因此,腦電信號在情緒識別領(lǐng)域備受關(guān)注.現(xiàn)有的腦電情緒識別技術(shù)大多針對時域特征、頻域特征、時頻域特征和空間域特征4 個方向進行特征值挖掘[10],以達到更好的分類效果.1924年,St.Louis 等[11]首次提出在實踐中應(yīng)用腦電技術(shù),后來該技術(shù)被應(yīng)用于情緒識別領(lǐng)域.2009年,Yazdani 等[12]利用貝葉斯線性判別分析,基于腦電模態(tài)對喜悅、憤怒、厭惡、悲傷、驚訝、恐懼等6 種情緒進行分類,實驗表明準(zhǔn)確率超過80%.2015年,Georgieva 等[13]采用6 種無監(jiān)督算法構(gòu)建被試內(nèi)和被試間的情緒模型,實驗表明模糊C 均值據(jù)類算法的效果最佳.2020年,鄭偉龍等[14]用異質(zhì)遷移學(xué)習(xí)構(gòu)建跨被試腦電情感模型,利用眼動信號作為量化被試間域差異的標(biāo)準(zhǔn),初步實現(xiàn)了跨被試情緒識別,準(zhǔn)確率達到69.72%.目前基于腦電的情緒識別研究有如下難點:①腦電信號具有非平穩(wěn)性,難以挖掘合適的特征值;②腦電信號個體差異性顯著,大多模型為被試依賴型模型,難以在保證準(zhǔn)確率的情況下實現(xiàn)跨被試型情緒識別模型.

(3)多模態(tài)情緒信息融合的相關(guān)研究

基于不同的生理模態(tài),情緒識別的研究方法有很多.但是,單一模態(tài)的情緒識別往往準(zhǔn)確率比多模態(tài)情緒識別低.正如前文所述,人臉表情容易偽裝,腦電情緒的跨被試性能差,各個生理模態(tài)的信息有不同的優(yōu)缺點.因此,近年來,針對不同層次的模態(tài)信息融合算法也在快速發(fā)展中.通過融合多種互補的模態(tài)生理信息,能夠切實提高情緒識別的準(zhǔn)確率和適用范圍.

針對以上研究現(xiàn)狀,本文的工作是:①對于人臉表情識別,利用遷移學(xué)習(xí)技術(shù)訓(xùn)練多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)模型,以避免因數(shù)據(jù)量少而導(dǎo)致的過擬合現(xiàn)象.②對于腦電情緒識別,本文提出了兩種互相獨立的方法,第一種是準(zhǔn)確率較高的被試依賴型模型—支持向量機(Support Vector Machine,SVM);第二種是適用范圍廣的跨被試型模型—長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)網(wǎng)絡(luò).③融合人臉圖像模態(tài)和腦電信號模態(tài)的決策層信息(情緒得分),以提高情緒識別的準(zhǔn)確率.其中,針對被試依賴型模型,我們將SVM 和CNN 子分類器進行模態(tài)融合,而對于基于腦電信號的跨被試模型LSTM,則作為單模態(tài)情緒識別模型,獨立進行實驗.

2 基于人臉圖像的情緒識別

2.1 基于人臉圖像識別表情的基本流程

在基于人臉圖像識別表情的模塊中,通過系統(tǒng)調(diào)用攝像頭以4 Hz 的頻率對視頻進行圖像數(shù)據(jù)采樣,使用文獻[15]的基于Haar 特征值的自適應(yīng)增強(Adaptive Boost,AdaBoost)算法[16]檢測人臉,并將提取的人臉圖像信息轉(zhuǎn)換為寬和高皆為48 像素的矩陣,將該矩陣輸入至多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Convolutional Neural Networks,MTCNN)[16]中,以預(yù)測人臉表情的效價和喚醒度得分.其系統(tǒng)運行流程如圖1所示.

圖1 人臉表情識別系統(tǒng)運行流程

2.2 人臉檢測

本文采用基于Haar 特征值的AdaBoost 模型進行人臉檢測.對于AdaBoost 算法而言,用式(1)假定一個訓(xùn)練數(shù)據(jù)集T,用式(2)假定權(quán)值系數(shù)Di.

其中,xi∈X?Rn為實例,X是實例空間,Y是標(biāo)記集合.最終分類器G(x)由多個弱分類器線性組合而成.弱分類器yi∈Y={?1,+1} 的分類誤差率em由式(3)表示,弱分類器Gm(x)的系數(shù)αm由式(4)表示.

每次計算出更新的訓(xùn)練數(shù)據(jù)集的權(quán)值分布Dm+1如式(5)所示,權(quán)值向量中的每個權(quán)值由式(6)表示.式(6)中的Zm是規(guī)范化因子.

通過不斷地訓(xùn)練,可以得到如式(8)所示的最終分類器.AdaBoost 算法執(zhí)行流程如圖2所示.

本文采用AdaBoost 算法在人臉檢測及模態(tài)信息融合模塊中進行分類預(yù)測.在人臉檢測中,使用OpenCV開源框架中已訓(xùn)練的分類模型,該模型通過(*.xml)文件存儲信息,是用于檢測人臉及前額的AdaBoost 檢測方法.

2.3 利用遷移學(xué)習(xí)技術(shù)訓(xùn)練CNN 人臉表情識別模型

(1)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)

我們利用遷移學(xué)習(xí)技術(shù),訓(xùn)練一個多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)來進行人臉圖像的特征提取和特征分類.具體來說,訓(xùn)練網(wǎng)絡(luò)的過程分為2 步.第1 步,先將網(wǎng)絡(luò)在一個具有圖像級別標(biāo)注的大數(shù)據(jù)集(Fer2013)進行訓(xùn)練[17].第2 步,將模型所有卷積層參數(shù)固定,以相對比較小的學(xué)習(xí)率(0.001)在小數(shù)據(jù)集(我們的目標(biāo)數(shù)據(jù)集的劃分)上再進行二次訓(xùn)練(微調(diào)),這樣才能完成模型的訓(xùn)練.

得到充分訓(xùn)練的CNN 模型之后.對于一個視頻,在找出視頻中的人臉之后,我們將多個人臉分別輸入模型得到多個子結(jié)果,通過這些子結(jié)果的投票,我們得到這個視頻的基于臉部的情緒結(jié)果(valence 和arousal的分類).

CNN 得到子結(jié)果的過程是通過神經(jīng)網(wǎng)絡(luò)的一個從輸入端到輸出端的前向傳播.具體過程如下,對于一個48×48 的灰度圖,首先被模型的3 個卷積層提取圖像特征,第1 個卷積層為32 個3×3×1 的卷積核.第2 個卷積層是具有32 個大小為3×3×32 的核.第3 個卷積層有64 個大小為3×3×32 的核.提取出來的特征經(jīng)過鋪平后送到第4 層與64 個神經(jīng)元完全連接.所有卷積層和全連接層,都應(yīng)用ReLU 激活函數(shù)[18].網(wǎng)絡(luò)隨后分為兩個分支預(yù)測任務(wù).本文所提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.

圖2 AdaBoost 算法執(zhí)行流程

圖3 多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)模型,其中“DO”為CNN 的dropout 層

(2)基于卷積神經(jīng)網(wǎng)絡(luò)的情緒回歸計算

第一個分支學(xué)習(xí)計算效價得分,它包含兩個全連接的大小為64 和1 的層.然后將輸出輸入到Sigmoid函數(shù)中,并最大限度地減少交叉熵損失L1:

其中,y1i表示第i個樣本效價的真實標(biāo)簽 (ground-truth labels),表示第i個樣本對應(yīng)于情緒效價的模型輸出,m表示訓(xùn)練樣本的大小.第二個分支是針對喚醒度進行預(yù)測的,它包含兩個全連接i的大小為64 和1 的層.輸出被饋送到Sigmoid 函數(shù),我們再次最小化交叉熵損失L2:

其中,y2i表示第i個樣本中喚醒度的真實標(biāo)簽,表示第i個樣本對應(yīng)于喚醒度的模型輸出,m表示訓(xùn)練樣本的大小.最終,我們最小化L1和L2的聯(lián)合損失.

其中,αp是的線性權(quán)重,也是模型需要確定的超參數(shù).如果我們將第二個權(quán)重設(shè)置為0,模型將退化為傳統(tǒng)的單任務(wù)學(xué)習(xí)方法.在模型充分訓(xùn)練完之后,我們可通過式(12)從網(wǎng)絡(luò)的輸出值Sface中得到情緒效價和喚醒度分類的結(jié)果如下:

例如,如果上分支效價得分的輸出為Sface=0.8,那么認為它對應(yīng)的效價結(jié)果屬于high 一類.對于表情數(shù)據(jù)的回歸計算,本文的損失函數(shù)不再是交叉熵,而是均方差誤差.然后分別預(yù)測效價和喚醒度的數(shù)值連續(xù)大小.

3 基于腦電信號的情緒識別

3.1 基于腦電信號識別情緒的基本流程

在基于腦電信號識別情緒模塊中,使用Emotiv Eopc+的腦機接口采集生理數(shù)據(jù),并利用小波變換提取特征值,選取好特征值后再利用SVM 或者LSTM 識別情緒.其中,基于SVM 的情緒識別方法為被試依賴型模型,基于LSTM 的情緒識別方法為跨被試型模型.基于腦電信號的情緒識別系統(tǒng)運行流程如圖4所示.

圖4 腦電情緒識別系統(tǒng)運行流程

3.2 利用小波變換提取腦電信號特征值

在特征值提取與選取階段,利用小波變換從原始EEG 數(shù)據(jù)中獲得功率譜密度(Power Spectral Density,PSD)特征.小波變換適用于多尺度分析,這意味著可以使用不同的頻率和時間尺度檢查信號.本文采用Daubechies 的小波變換系數(shù)[19]進行特征提取,小波變換公式如下所示:

其中,ωf(s,τ)表示一維連續(xù)小波變換,φ表示小波母函數(shù),s表示尺度參數(shù),t為平移參數(shù).而連續(xù)小波逆變換的公式如下所示:

在提取特征值后,情緒識別模型分為兩種情況:第一種為一個模型僅適用于一個被試,即模型依賴于被試(subject dependence).此時訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集為同源數(shù)據(jù),來自于同樣的被試,沒有域差異.第二種則為一個模型適用于所有被試,即模型不依賴于被試(subject independence).此時訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集來自于完全不同的被試,有一定的域差異.針對情況一,為構(gòu)建被試依賴型模型(subject dependent models),使用遞歸特征消除算法(Recursive Feature Elimination,RFE)進一步選擇了提取的特征,并將所選特征再通過SVM 進行分類以獲得基于腦電信號的情緒狀態(tài).針對情況二,為構(gòu)建跨被試型模型(cross-subject models),可以通過構(gòu)建長度為10 s 的時序特征,將所有特征利用長短時記憶網(wǎng)絡(luò)模型模型進行預(yù)測,從而跨被試預(yù)測腦電情緒狀態(tài).

3.3 利用SVM 構(gòu)建被試依賴型腦電情緒識別模型

本文的算法使用14 個通道(AF3,F3,F7,FC5,T7,P7,O1,AF4,F4,F8,FC6,T8,P8,O2)進行特征提取.使用的5 個頻率波段分別為theta (4 Hz<f<8 Hz)、slow alpha (8 Hz<f<10 Hz)、alpha (10 Hz<f<12 Hz)、beta(12 Hz<f<30 Hz)以及gamma (30 Hz<f<45 Hz),共有14×5=70 個特征.

在第二步分類中,在最終的特征被選擇之后,本文用一個應(yīng)用于高斯核的SVM 進行分類,且該SVM 的懲罰系數(shù)C=1.0 .當(dāng)懲罰系數(shù)C=1.0時該模型能夠達到較好的效果,弱數(shù)值過大,則易導(dǎo)致過擬合,若數(shù)值過小則容易欠擬合.為訓(xùn)練模型,我們?nèi)コ藱?quán)重最低的10%的特征數(shù)據(jù),并使用10 倍交叉驗證分割訓(xùn)練數(shù)據(jù)集[20].訓(xùn)練完模型之后,對于不同的任務(wù)(預(yù)測valence 和arousal),我們分別用不同的SVM 進行預(yù)測.每個對應(yīng)的SVM 預(yù)測出得分SEEG.我們再根據(jù)這個得分,通過式(13)獲得基于腦電波的結(jié)果rEEG.

3.4 利用LSTM 構(gòu)建跨被試型腦電情緒識別模型

本文提出利用LSTM 構(gòu)建跨被試腦電情緒識別模型.該過程分為兩步,第1 步先進行構(gòu)造時序特征,第2 步再使用LSTM 進行回歸預(yù)測.

在構(gòu)建跨被試模型時所有特征值仍然如前文所述,但選取方式有了變化.在構(gòu)造時序特征時,以10 s 作為一個樣本,以50%的重疊率采樣.并且,以每一秒作為一個時間單元,比如說對于離線實驗,一秒有85 個特征,那么本文的一個樣本是一個二維矩陣第1 維是10,而第2 維是85.而不是一個大小為850 的一維向量.樣本的構(gòu)造跟LSTM 的結(jié)構(gòu)有關(guān).

在使用LSTM 進行預(yù)測時,網(wǎng)絡(luò)首先是兩層LSTM層,跟著一個全連接層,然后接著是輸出層.第一個LSTM 層由10 個LSTM 單元(LSTM cell)組成,每個單元包含128 個神經(jīng)元.第二層LSTM 層由10 個LSTM單元(LSTM cell)組成,每個單元包含64 個神經(jīng)元.全連接層包含54 個神經(jīng)元.輸出層由2 個神經(jīng)元構(gòu)成代表情緒的效價得分和喚醒度得分.每個層都應(yīng)用了0.5 的dropout.每層都應(yīng)用了ReLU 激活函數(shù)以及在每層之間,本文都進行了數(shù)據(jù)歸一化.采用均方差作為網(wǎng)絡(luò)損失函數(shù).

4 融合雙模態(tài)決策層信息的情緒識別

4.1 融合雙模態(tài)決策層信息的算法流程

本系統(tǒng)通過調(diào)用攝像頭和腦機接口設(shè)備采集兩個模態(tài)的生理數(shù)據(jù),并在各模態(tài)情緒識別模型的決策層進行信息融合,以提高情緒識別準(zhǔn)確率.圖5為本系統(tǒng)進行雙模態(tài)情緒識別的運行流程圖.首先對采集的人臉圖像信息和腦電信息進行預(yù)處理,并提取特征值,然后分模塊各自進行情緒量化計算,并最終融合兩個模態(tài)的情緒得分.

圖5 雙模態(tài)情緒識別系統(tǒng)運行流程

4.2 利用枚舉權(quán)重算法融合信息

在獲取了基于腦電波和人臉表情2 個分類器給出的情緒得分之后,通過枚舉2 個單模態(tài)分類器輸出的線性組合權(quán)重,來找到一個參數(shù)k,使得兩個模態(tài)情緒輸出的線性組合在訓(xùn)練集上取得最好的表現(xiàn):對于分類,找出最大準(zhǔn)確率;對于回歸,找出真實值和預(yù)測值的最小絕對值.具體來說,先通過式(16)來進行融合輸出情緒得分,并通過式(17)輸出結(jié)果.問題的關(guān)鍵在于找出合適的k,以0.01 的步長枚舉k,并且每一次枚舉,都計算融合后的準(zhǔn)確率,選取一個k,使得融合后在訓(xùn)練集上準(zhǔn)確率最大.

其中,renum代表量化的情緒分數(shù)融合后預(yù)測的分類結(jié)果(high 或low)而Senum則代表融合后預(yù)測的連續(xù)值結(jié)果,Sface和SEEG分別代表人臉表情和腦電波的輸出,而k代表人臉表情的重要程度,相應(yīng)地,(1–k)代表腦電波的重要程度.我們應(yīng)用這個方法在兩個不同的任務(wù)(效價和喚醒度)上,也就是說,兩個任務(wù)的k是不同的.

4.3 利用自適應(yīng)增強算法融合信息

對于第二種方法,我們使用AdaBoost 技術(shù),將兩個分類器作為AdaBoost 的子分類器進行融合.該方法的目標(biāo)是為每一個子分類器尋找wj(j=1,2,···,n)和獲得最終的輸出,如式(18),式(19).

其中,rboost代表自適應(yīng)增強融合方法的預(yù)測的結(jié)果(high 或low),sj∈{?1,1}(j=1,2,···,n)代表對應(yīng)的子分類器的輸出.比如說,S1是基于腦電的情緒分類器的輸出而S2代表基于人臉圖像的情緒分類器的輸出.而要獲取wj(j=1,2,···,n)的方法如下所述:對于一個含m個樣本的訓(xùn)練集,我們先用s(xi)j∈{?1,1}表示第j個分類器對于第i個樣本的輸出,用yi表示第i個樣本的真實標(biāo)簽.我們首先用式(20)初始化每個樣本的訓(xùn)練權(quán)重:

其中,αi代表第i個樣本的權(quán)重系數(shù).訓(xùn)練權(quán)重體現(xiàn)在訓(xùn)練數(shù)據(jù)的時候,如果用到當(dāng)前數(shù)據(jù)點,那么數(shù)據(jù)點的數(shù)據(jù)要先乘以這個權(quán)重系數(shù).然后進行子分類器的訓(xùn)練如之前所述,訓(xùn)練完之后用式(21)計算錯誤率 εj.

其中,ti通過式(22)確定.

最終,用式(23)得到需要計算的子分類器權(quán)重:

隨后,還需根據(jù)式(24)更新每個數(shù)據(jù)點的權(quán)重系數(shù),用于下一個分類器更加針對性地訓(xùn)練.

與枚舉權(quán)重融合方法相同,我們應(yīng)用這個方法在兩個不同的任務(wù)(效價和喚醒度)中,為兩個任務(wù)訓(xùn)練出不同的參數(shù).

5 實驗設(shè)置與結(jié)果分析

5.1 離線實驗

(1)被試依賴型模型的離線實驗結(jié)果

本實驗選用的數(shù)據(jù)集為DEAP 數(shù)據(jù)集來驗證被試依賴型模型的有效性.圖6是4 種被試依賴型模型在DEAP 數(shù)據(jù)集上的表現(xiàn).根據(jù)實驗結(jié)果可知,人臉表情識別的準(zhǔn)確率較高,但在部分被試上仍表現(xiàn)出較低的準(zhǔn)確率,其分別為:被試1、被試3、被試5、被試11、被試12.各模型的平均最高準(zhǔn)確率如表1所示.

(2)被試依賴型模型實驗的顯著性分析

對被試依賴型模型進行數(shù)據(jù)的顯著性檢驗:首先對4 種方法的結(jié)果(EEG,臉部圖像,枚舉權(quán)重融合方法和自適應(yīng)增強融合方法)進行正態(tài)分布檢驗(normality test),正態(tài)分布檢測的結(jié)果小于0.05,因而認為其符合正態(tài)分布.對符合正態(tài)分布的數(shù)據(jù)接著進行t方檢驗,t方檢驗的P值小于0.05,因而可以認為有顯著的差異;而對于不符合正態(tài)分布的數(shù)據(jù),則進行Nemenyi 檢驗,其P值小于0.05,因而也可以認為其有顯著差異.進一步地說,顯著的差異意味著準(zhǔn)確率的顯著提升.在DEAP數(shù)據(jù)集的valence 空間和arousal 空間中,各個融合方法之間未體現(xiàn)出顯著性差異.

(3)跨被試情緒識別模型的實驗與分析

對于跨被試情緒識別模型—基于LSTM 識別腦電情緒模型,利用MAHNOB-HCI 數(shù)據(jù)集訓(xùn)練并驗證.該數(shù)據(jù)集采集自30 名被試,此處我們僅使用腦電數(shù)據(jù)集,并對該模型進行了如下兩組實驗:驗證數(shù)據(jù)與訓(xùn)練數(shù)據(jù)部分同源實驗、驗證數(shù)據(jù)與訓(xùn)練數(shù)據(jù)完全非同源實驗.記驗證數(shù)據(jù)與訓(xùn)練數(shù)據(jù)部分同源組為A 組,驗證數(shù)據(jù)與訓(xùn)練數(shù)據(jù)完全非同源實驗為B 組.

圖6 被試依賴型模型在DEAP 數(shù)據(jù)集上的準(zhǔn)確率

表1 被試依賴型模型在DEAP 數(shù)據(jù)集上的準(zhǔn)確率(%)

當(dāng)驗證數(shù)據(jù)與訓(xùn)練數(shù)據(jù)部分同源時,我們對數(shù)據(jù)集進行劃分:選取1 至23 號被試的數(shù)據(jù),1 號至20 號被試的數(shù)據(jù)作為訓(xùn)練集,21 號至23 號被試作為驗證集.當(dāng)已訓(xùn)練的模型預(yù)測1 至23 號被試的數(shù)據(jù)時,模型在valence 維度的平均準(zhǔn)確率為78.56%,回召率為68.18%;而模型在arousal 維度的平均準(zhǔn)確率為77.22%,回召率為69.28%.

當(dāng)驗證數(shù)據(jù)與訓(xùn)練數(shù)據(jù)完全非同源時,即我們使用被試1 至20 號的數(shù)據(jù)訓(xùn)練模型,而模型卻預(yù)測21 至30 號的數(shù)據(jù).最終模型在效價維度的平均準(zhǔn)確率為51.70%,回召率為47.13%;而模型在喚醒度維度的平均準(zhǔn)確率為58.65%,回召率為33.62%.

關(guān)于跨被試模型情緒識別的損失函數(shù)最終值如表2所示(表中l(wèi)oss 值對應(yīng)實驗組的訓(xùn)練損失函數(shù),val_loss值代表實驗組的驗證損失函數(shù));而關(guān)于跨被試模型情緒識別的準(zhǔn)確率、回召率和均方根誤差(Root Mean Square Error,RMSE)如表3所示.

表2 跨被試模型在MAHBON-HCI 數(shù)據(jù)集上的損失函數(shù)最終值

表3 跨被試模型在MAHBON-HCI 數(shù)據(jù)集上的情緒識別準(zhǔn)確率和回召率

由此可見,雖然當(dāng)模型預(yù)測非同源數(shù)據(jù)時準(zhǔn)確率和回召率均有下降,損失函數(shù)最終值較高,但在面對預(yù)測連續(xù)情緒這種較為復(fù)雜多樣的情緒的情況下仍能保持超過50%的準(zhǔn)確率,情緒識別性能具有一定的穩(wěn)定性.

(4)模型比較與分析

情緒識別相關(guān)研究有很多.本文使用兩種信息融合算法,將雙模態(tài)情緒識別信息融合,在喚醒度和效價維度平均準(zhǔn)確率分別可以達到74.23%和80.30%.而本文提出的基于腦電的跨被試情緒識別模型,在使用MAHNOB-HCI 數(shù)據(jù)集驗證的情況下,在喚醒度和效價維度最高準(zhǔn)確率分別可以達到77.22%和78.56%.

2019年,Chao 等[21]基于腦電信號提出了多頻段特征矩陣(Multiband Feature Map,MFM)和膠囊網(wǎng)絡(luò)(Capsule Networks,CapsNet)模型,在使用DEAP 數(shù)據(jù)集驗證的情況下,該模型在喚醒度和效價維度最高分別能夠達到68.28%和66.73%的準(zhǔn)確率.同年,Huang等[22]基于腦電和其他生理信號提出利用集成卷積神經(jīng)網(wǎng)絡(luò)(Ensemble Convolutional Neural Network,ECNN)識別情緒,該算法利用DEAP 數(shù)據(jù)集進行驗證,對情緒的四分類準(zhǔn)確率最高能夠達到82.92%.2017年,Yin等[23]提出遷移特征遞歸消除跨被試模型,在使用DEAP數(shù)據(jù)集驗證的情況下,在喚醒度和效價維度準(zhǔn)確率分別達到78.67%和78.75%.

由此可見,本文提出的被試依賴型模型與其他模型相比同樣具有較高的準(zhǔn)確率.本文的跨被試模型與目前已有的跨被試情緒識別模型相比具有相近的準(zhǔn)確率.

5.2 在線實驗

(1)實驗步驟

圖7概述了本文實驗的工作流程.一開始使用視頻來誘發(fā)被試的情緒,同時記錄面部圖像和EEG 信號.在視頻結(jié)束時,要求被試報告他們的效價維度(valence)和喚醒度(arousal)維度的分數(shù),也即時情緒狀態(tài)——模型要預(yù)測的目標(biāo).積極程度和喚醒程度的值為1 到9 之間的離散值.

圖7 在線實驗流程圖

在線實驗包含20 名被試(50%男性,50%女性),年齡范圍從7 到75(平均值=34.15,標(biāo)準(zhǔn)差=22.14).實驗過程如下,首先向被試介紹了valence 和arousal 的含義,接著被試觀看視頻并在每個視頻結(jié)束時報告他們的情緒指標(biāo)(valence 和arousal).在實驗期間,被試坐在舒適的椅子上并被指示盡量避免眨眼或移動他們的身體.期間還進行了設(shè)備測試并校正了相機位置,以確保拍攝對象的面部出現(xiàn)在屏幕中央.

在進行實驗之前需要選擇用于誘發(fā)情緒的材料:從大量商業(yè)電影中手動選擇40 個視頻進行剪輯,再將他們分為2 部分用于采集訓(xùn)練時展示和采集測試數(shù)據(jù)中展示.每個部分包含20 個視頻.影片剪輯的持續(xù)時間為69.00 到292.00 s (平均值=204.06,標(biāo)準(zhǔn)差=50.06).

在進行測試之前,首先需要數(shù)據(jù)來訓(xùn)練模型.因此,實驗首先進行訓(xùn)練數(shù)據(jù)的收集.對于每個被試收集20 組實驗的數(shù)據(jù).在每組實驗開始時,屏幕中央都會有10 秒倒計時,以吸引被試的注意力,并作為視頻開始的提示.倒計時結(jié)束后,屏幕上開始播放電影視頻用于誘發(fā)情緒.在此期間使用攝像機每秒收集4 個人臉圖像,并使用Emotiv Epoc+移動設(shè)備每秒收集10 組EEG 信號.每個影片持續(xù)2~3 分鐘.在每組試驗結(jié)束時,情緒自評量表(Self-Assessment Manikins,SAM)[24]出現(xiàn)在屏幕中央,以收集被試的valence 和arousal 標(biāo)簽.指示被試填寫整個表格并單擊“提交”按鈕以進行下一個試驗.在兩次連續(xù)的情緒恢復(fù)試驗中,屏幕中央還有10 秒的倒計時.收集的數(shù)據(jù)(EEG 信號,面部圖像和相應(yīng)的化合價和喚醒標(biāo)簽)用于訓(xùn)練上述模型.

在測試階段,每個被試進行20 組實驗.每次實驗的過程與訓(xùn)練階段數(shù)據(jù)收集的過程類似.這里使用不同于訓(xùn)練采集數(shù)據(jù)時的視頻對被試進行刺激,因為相同的視頻會引發(fā)相同的生理狀態(tài)從而導(dǎo)致無法判別生理狀態(tài)是由情緒產(chǎn)生還是由視頻產(chǎn)生.在每次試驗結(jié)束時,使用4 種不同的檢測器(面部表情檢測器,EEG 檢測器,枚舉權(quán)重融合方法和自適應(yīng)增強融合檢測器)來得到結(jié)果.通過比較預(yù)測結(jié)果和真實標(biāo)簽來統(tǒng)計準(zhǔn)確率.

(2)實驗結(jié)果與顯著性分析

圖8展示了20 個實驗對象的測試過程中準(zhǔn)確率.

圖8 在線實驗不同對象各種方法準(zhǔn)確率

表4展示了測試過程中各種方法的平均準(zhǔn)確率.可以看到,除了在線實驗中喚醒度維度中枚舉權(quán)重融合方法相對于腦電情緒識別的準(zhǔn)確率,所有融合方法的準(zhǔn)確率都比單一模態(tài)高.并且,由于在線實驗無法進行超參的調(diào)整,使得我們的模型普適性更高.在線實驗中,我們只針對被試依賴型情緒識別模型進行實驗.

表4 在線實驗情緒識別準(zhǔn)確率(%)

對于在線實驗,在效價維度中,枚舉權(quán)重融合方法相對于臉部圖像的結(jié)果有顯著差異P=0.026.而且自適應(yīng)增強融合方法與人臉表情識別方法,在效價維度和喚醒維度均有顯著性差異,效價維度中的P為0.026而喚醒度維度中的P為0.007.

5.3 改進情緒識別方法的有效性分析

(1)AdaBoost 融合雙模態(tài)信息的有效性分析

為了融合雙模態(tài)決策層信息,本文提出利用AdaBoost算法融合人臉表情識別分類器和腦電情緒識別分類器,以達到提高雙模態(tài)情緒識別準(zhǔn)確率的效果.實驗表明,AdaBoost 算法的表現(xiàn)優(yōu)于枚舉權(quán)重.

AdaBoost 相對于枚舉權(quán)重算法的優(yōu)點主要體現(xiàn)在兩點:①對多組訓(xùn)練數(shù)據(jù)集賦予不同權(quán)值;②子分類器權(quán)重精度更高.

本文所提的兩種融合方法都是根據(jù)錯誤率的降低的思路來找到最優(yōu)解的.枚舉權(quán)重算法僅設(shè)置了一定精度的步長(本文為0.01),通過步長的增加,子分類器的權(quán)重遍歷范圍為[0,1]之間的數(shù)值,從而找到最低錯誤率對應(yīng)的子分類器權(quán)重.而AdaBoost 算法首先賦予多組訓(xùn)練數(shù)據(jù)集默認權(quán)值,然后計算分類誤差率,接著通過分類誤差率計算子分類器的權(quán)重,最后更新訓(xùn)練數(shù)據(jù)集的權(quán)值分布,開始下一個分類誤差率和子分類器權(quán)重的計算.在這個過程中,AdaBoost 算法要求計算規(guī)范化因子,并結(jié)合上一組的訓(xùn)練數(shù)據(jù)集權(quán)值、規(guī)范化銀子、子分類器系數(shù)、ground-truth 標(biāo)簽和子分類器權(quán)重,計算下一組權(quán)值分布,使得該權(quán)值成為一個概率分布——對于重要的訓(xùn)練數(shù)據(jù)集,權(quán)值更高.這種方法區(qū)別于默認數(shù)據(jù)集為均勻權(quán)值分布的枚舉權(quán)重算法,更符合實際中訓(xùn)練數(shù)據(jù)集是非均勻分布的這一情況.同時,在計算過程中,因為沒有固定的步長.由此可得,子分類器的權(quán)重精度高于枚舉權(quán)重算法.

(2)整體情緒識別算法復(fù)雜度分析

對于模型的算力需求和時間復(fù)雜度,整個算法的計算主要集中在卷積神經(jīng)網(wǎng)絡(luò)的部分,相比于卷積神經(jīng)網(wǎng)絡(luò)的參數(shù),SVM 的參數(shù)極少.而實際上,我們的卷積神經(jīng)網(wǎng)絡(luò)共有831 074 個參數(shù),使用GeForce GTX 950顯卡中,進行一次單樣本前向傳播的時間是0.0647 s.對于基于LSTM 的腦電情緒識別模型,我們首先提取了腦電特征值,然后進行訓(xùn)練,每個epoch 訓(xùn)練時間均不超過3 s.

在模型融合方面,第一種枚舉權(quán)重融合方法被許多多模態(tài)融合的研究廣泛使用,該種方法比較簡單但是其計算損失卻隨著模態(tài)的增多指數(shù)上升.因為第一種融合方法的復(fù)雜度為O(100mn),其中m是樣本個數(shù)而n是模態(tài)個數(shù).而第二種方法AdaBoost 的時間復(fù)雜度卻是O(nm).也就是說第二種方法隨著模態(tài)的增多計算損失的增加是線性的,因此在更多模態(tài)的條件下第二種融合方法更加適合.

(3)改進的情緒識別機制

在情緒識別的基準(zhǔn)值方面,區(qū)別于傳統(tǒng)的離散情緒識別方法,本文引入了連續(xù)情緒的概念,利用效價(valence)和喚醒度(arousal)兩個維度的得分量化情緒,分數(shù)為整數(shù),范圍為[1,9].

在算法方面,本文重點介紹了兩種方法,分別用于解決情緒識別的兩個難題:準(zhǔn)確率不高、跨被試性能差.

為了提高準(zhǔn)確率,本文結(jié)合了人臉表情識別技術(shù)和腦電情緒識別技術(shù).在人臉圖像模態(tài),我們采用端到端的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),以計算效價和喚醒度得分.由于在通過被試獲取數(shù)據(jù)集時,人臉圖像往往數(shù)據(jù)集過少,因此利用遷移學(xué)習(xí)技術(shù),首先用Fer2013 數(shù)據(jù)集預(yù)訓(xùn)練模型,然后再用采集的被試的數(shù)據(jù)微調(diào)模型.在腦電模態(tài),我們利用了分類效果最好的支持向量機算法,根據(jù)效價和喚醒度得分是否大于5,來進行二分類.(若大于5 則為高分,否則屬于低分).而為了融合兩個模態(tài)的數(shù)據(jù)以進一步提高準(zhǔn)確率,我們探究了枚舉權(quán)重融合方法和AdaBoost 方法.通過在決策層的信息融合提高情緒識別準(zhǔn)確率.實驗表明,在融合更多模態(tài)數(shù)據(jù)的時候,AdaBoost 表現(xiàn)出優(yōu)于枚舉權(quán)重算法的性能.

然而,上述算法依然無法做到一個模型識別多個被試的情緒,而是針對每個被試訓(xùn)練一組特定的模型,由此本文稱之為被試依賴型模型,其適用范圍不廣.

為了提高情緒識別的跨被試性能,本文在腦電模態(tài)提出了基于LSTM 的跨被試情緒識別方法.通過構(gòu)建長短時記憶網(wǎng)絡(luò)達到一個模型識別多個被試情緒的目的.實驗表明,該方法具有一定的跨被試性能.

6 總結(jié)

本文基于人臉圖像和腦電信號提出了多種情緒識別方法.本文使用情緒的二維模型量化情緒,根據(jù)連續(xù)情緒的效價和喚醒度兩個維度的得分量化情緒.在人臉圖像模態(tài),本文利用遷移學(xué)習(xí)技術(shù)訓(xùn)練多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)以識別人臉表情.在腦電信號模態(tài),對于與訓(xùn)練數(shù)據(jù)同源的數(shù)據(jù),本文采用支持向量機進行情緒識別;對于非同源數(shù)據(jù),則采用長短時記憶網(wǎng)絡(luò).為了提高情緒識別的準(zhǔn)確率,本文提出使用枚舉權(quán)重模型和自適應(yīng)增強模型融合人臉表情模型和腦電情緒模型的決策層信息以提高準(zhǔn)確率.

本文進行的實驗可驗證各情緒識別方法的有效性.其中跨被試腦電情緒模型在預(yù)測非同源數(shù)據(jù)時準(zhǔn)確率仍然高于傳統(tǒng)算法,一定程度上保證了模型的穩(wěn)定性和有效性.對于多模態(tài)情緒識別來說,本文的最終實驗涵蓋了情緒的效價和喚醒度,即愉悅度和強度.該量化情緒的指標(biāo)有效、可行,且在識別較多種類情緒的情況下依然體現(xiàn)出了較高的準(zhǔn)確率.下一步的工作即針對跨被試型腦電情緒識別模型進行優(yōu)化,通過結(jié)合其他生理模態(tài)信息的方法,為不同被試源的情緒信息衡量域差異,并根據(jù)域差異來進一步利用遷移學(xué)習(xí)提升跨被試腦電情緒識別模型的性能.

猜你喜歡
腦電分類器模態(tài)
認知控制的層級性:來自任務(wù)切換的腦電證據(jù)*
引入注意力機制的AdaBoost算法
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴增分類
多模態(tài)資源在語篇教學(xué)中的運用與反思
聯(lián)合仿真在某車型LGF/PP尾門模態(tài)仿真上的應(yīng)用
EASY-EV通用底盤模態(tài)試驗
學(xué)貫中西(6):闡述ML分類器的工作流程
工作記憶負荷對反饋加工過程的影響:來自腦電研究的證據(jù)*
基于成本最小化信息的社會性意圖識別:來自腦電和行為的證據(jù)*
模態(tài)可精確化方向的含糊性研究