国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

C-CapsNet:一種異構(gòu)腦電和眼動(dòng)雙模態(tài)的情緒識(shí)別模型

2022-12-25 12:22:02馬軍輝肖家賦相虎生
關(guān)鍵詞:眼動(dòng)電信號(hào)準(zhǔn)確率

馬軍輝,王 峰,王 曄,肖家賦,相虎生

(1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院, 太原 030000;2.中國(guó)人民武裝警察部隊(duì)指揮學(xué)院, 天津 300000)

0 引言

情緒識(shí)別嘗試感知、理解和調(diào)節(jié)個(gè)體情緒,涉及認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、神經(jīng)科學(xué)和人工智能等多個(gè)學(xué)科。得益于傳感器技術(shù)和計(jì)算機(jī)圖像處理單元(GPU)的發(fā)展,基于情緒的人機(jī)互動(dòng)在虛擬現(xiàn)實(shí)、輔助駕駛、游戲開(kāi)發(fā)和醫(yī)療診斷等多個(gè)領(lǐng)域快速發(fā)展[1]。情緒識(shí)別所使用的信號(hào)模態(tài)可以分為生理信號(hào)和非生理信號(hào)兩類。非生理信號(hào)包括面部表情(微表情)、眼動(dòng)、語(yǔ)音和姿勢(shì)等與情緒密切相關(guān)或是情緒產(chǎn)生結(jié)果的外在信號(hào);生理信號(hào)包括腦電圖(EEG)、心電圖(ECG)、血容量脈沖(BVP)和心率變異性(HRV)等不受主觀意識(shí)控制的內(nèi)在信號(hào)[2]。在外在信號(hào)中,可以使用低成本設(shè)備輕易獲取面部表情、語(yǔ)音和姿勢(shì),但這些外在信號(hào)容易被誤導(dǎo)性產(chǎn)生,進(jìn)而使真實(shí)情緒被隱藏。情緒是人類與周?chē)h(huán)境進(jìn)行互動(dòng)的結(jié)果,有其特定的背景,眼動(dòng)信號(hào)包括注視、掃視、眨眼和瞳孔直徑等數(shù)據(jù),雖然獲取成本較高,但以一種自然的方式觀察用戶行為是一種非侵入性和準(zhǔn)確的情緒研究數(shù)據(jù)源,可嵌入到虛擬現(xiàn)實(shí)等穿戴設(shè)備[3-4]。在各種生理信號(hào)中,腦電信號(hào)具有反映人類真實(shí)情緒和不受刻意隱藏的優(yōu)勢(shì),隨著腦電信號(hào)采集技術(shù)的迅速發(fā)展,已被廣泛應(yīng)用于情緒識(shí)別研究[5]。在頭部表層放置多個(gè)感應(yīng)大腦電場(chǎng)的電極采集腦電信號(hào)是一種非侵入性的采集過(guò)程,具有靈活性和準(zhǔn)確性優(yōu)勢(shì)。

近年來(lái),研究者整合多模態(tài)數(shù)據(jù)源用于提高情緒識(shí)別有效性和準(zhǔn)確性[6-7]。其中,情緒可以誘發(fā)瞳孔直徑和眼睛注視模式的波動(dòng)[8]。文獻(xiàn)[9]使用眼睛注視和瞳孔直徑作為決策樹(shù)的輸入;文獻(xiàn)[10]通過(guò)提取瞳孔直徑數(shù)據(jù)的光譜功率和腦電信號(hào)不同頻段功率譜密度(PSD),輸入到使用徑向基核的支持向量機(jī)(SVM);文獻(xiàn)[11]提出一種基于腦電、瞳孔反應(yīng)和凝視距離的主體獨(dú)立情緒識(shí)別方法,在Valence和Arousal得到68.5%和76.4%的準(zhǔn)確率;文獻(xiàn)[12-14]基于腦電和眼動(dòng),分別應(yīng)用特征級(jí)融合、決策級(jí)融合和雙峰深度自動(dòng)編碼器進(jìn)行情緒分類研究;Zheng等[15]探索了腦電信號(hào)與眼動(dòng)信號(hào)之間的互補(bǔ)特征,他們發(fā)現(xiàn)腦電信號(hào)具有分類快樂(lè)情緒的優(yōu)勢(shì),眼動(dòng)信號(hào)具有分類恐懼情緒的優(yōu)勢(shì),實(shí)驗(yàn)結(jié)果表明:與單一模態(tài)相比,2種模態(tài)信號(hào)融合能夠顯著提高情緒識(shí)別性能;文獻(xiàn)[16]基于腦電信號(hào)、眼動(dòng)信號(hào)和面部表情三種模態(tài)進(jìn)行融合,在自采集情緒數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),Valence和Arousal識(shí)別準(zhǔn)確率達(dá)到67.8%和77.0%。以上研究表明,融合腦電與眼動(dòng)2種非侵入式模態(tài)被證明為一種情緒識(shí)別建模的有效方法。本文解決2個(gè)問(wèn)題:預(yù)處理腦電和眼動(dòng)2種模態(tài),異構(gòu)這2種模態(tài)的生物信號(hào);設(shè)計(jì)膠囊網(wǎng)絡(luò)模型處理異構(gòu)信號(hào),實(shí)現(xiàn)情緒識(shí)別。

1 相關(guān)研究

1.1 情緒識(shí)別

情緒識(shí)別研究有2個(gè)主要趨勢(shì):手工特征提取和經(jīng)典分類器組成的經(jīng)典方法;直接從數(shù)據(jù)源學(xué)習(xí)通用特征的神經(jīng)網(wǎng)絡(luò)(NN)方法。在過(guò)去幾年中,端到端(end-to-end)的神經(jīng)網(wǎng)絡(luò)方法快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的大量應(yīng)用證明了這一點(diǎn)[17]。

以基于腦電信號(hào)情緒識(shí)別研究為例。為了克服腦電信號(hào)易受污染的局限性,保證輸入到機(jī)器學(xué)習(xí)模型的數(shù)據(jù)質(zhì)量,研究人員針對(duì)有效手工提取腦電特征進(jìn)行了大量研究,包括Hjorth特征、對(duì)數(shù)功率、小波變換(WT)、非平穩(wěn)指數(shù)、高階交叉特征、分形維數(shù)特征、功率譜密度特征(PSD)、微分熵特征(DE)、理性不對(duì)稱(RASM)特征、差分尾測(cè)(DCAU)特征和微分不對(duì)稱(DASM)特征,然后與機(jī)器學(xué)習(xí)分類器相結(jié)合,如貝葉斯分類器、支持向量機(jī)(SVM)、線性判別分析(LDA)、決策樹(shù)(DT)和隨機(jī)森林(RF),得到良好的情緒識(shí)別分類結(jié)果。近年來(lái),包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)[18]、圖形卷積神經(jīng)網(wǎng)絡(luò)(GCNN)[19]、深度信念網(wǎng)絡(luò)(DBN)[20]在內(nèi)的深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用于情感識(shí)別研究,基于大量源數(shù)據(jù)自動(dòng)提取特征,描述數(shù)據(jù)源與情緒之間更加豐富的內(nèi)在信息。深度學(xué)習(xí)克服了基于機(jī)器學(xué)習(xí)手工提取特征泛化能力低的問(wèn)題,同時(shí)引入了不能充分使用腦電信號(hào)空間分辨率和時(shí)間分辨率的問(wèn)題[21]。文獻(xiàn)[22]將下采樣的腦電信號(hào)時(shí)間序列輸入CNN,通過(guò)參數(shù)調(diào)優(yōu)優(yōu)化準(zhǔn)確率,忽視了腦電信號(hào)電極空間排列特征;文獻(xiàn)[23]構(gòu)建腦電信號(hào)每個(gè)子帶皮爾遜相關(guān)系數(shù)矩陣,然后輸入到CNN訓(xùn)練,忽視了腦電信號(hào)的時(shí)間信息;文獻(xiàn)[24]根據(jù)電極實(shí)際位置進(jìn)行空間重構(gòu),得到二維腦電矩陣,疊加二維腦電矩陣得到三維腦電流,最后輸入到3D CNN網(wǎng)絡(luò)。

近些年,很少有情緒識(shí)別研究基于腦電信號(hào)空間和時(shí)間信息,以及使用膠囊網(wǎng)絡(luò)進(jìn)行情緒識(shí)別研究。文獻(xiàn)[25]使用小波變換分解腦電信號(hào)波段,構(gòu)建信道之間的Granger因果關(guān)系矩陣,使用CapsNet進(jìn)行情緒分類,完全排除了腦電信號(hào)的空間信息;文獻(xiàn)[26]結(jié)合多層學(xué)習(xí)特征,在DEAP數(shù)據(jù)集上情緒識(shí)別結(jié)果低于普通CapsNet的準(zhǔn)確率,而且多層學(xué)習(xí)特征不確定包含腦電信號(hào)的空間信息以及時(shí)間信息;文獻(xiàn)[21]基于腦電電極空間位置填充多頻帶手工提取的PSD特征,拼接為18×18矩陣(MFM),輸入到CapsNet進(jìn)行訓(xùn)練,然而在MFM中不包含腦電信號(hào)的時(shí)間信息;文獻(xiàn)[24]按照電極位置排列重構(gòu)二維平面,沿時(shí)域方向組成的三維特征矩陣同時(shí)包含空間信息和時(shí)間信息,在DEAP數(shù)據(jù)集使用10-fold驗(yàn)證方法得到準(zhǔn)確率結(jié)果,但是訓(xùn)練模型基于3D CNN而非CapsNet,也未使用留一交叉驗(yàn)證方法評(píng)估跨主體情緒識(shí)別性能。

不同模態(tài)可用于描述情緒的不同方面,且互相之間含有互補(bǔ)信息,通過(guò)融合不同模態(tài)對(duì)于構(gòu)建更加穩(wěn)健的情緒識(shí)別模型具有指導(dǎo)意義[27]。文獻(xiàn)[28]提出一種結(jié)合面部表情和觸摸的情緒研究方法;文獻(xiàn)[29]提出一種使用特征級(jí)、決策級(jí)融合面部表情、腦電信號(hào)的多模態(tài)情緒識(shí)別方法;文獻(xiàn)[30]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度殘差網(wǎng)絡(luò)(ResNet)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)構(gòu)建語(yǔ)音和視覺(jué)的端到端多模態(tài)情緒識(shí)別模型。近些年,文獻(xiàn)[15]評(píng)估了腦電信號(hào)與眼動(dòng)信號(hào)之間的情緒互補(bǔ)性;文獻(xiàn)[16]融合面部表情、腦電信號(hào)和眼動(dòng)信號(hào)3種模態(tài),基于CNN網(wǎng)絡(luò)在自采集數(shù)據(jù)庫(kù)上得到情緒識(shí)別準(zhǔn)確率。以上多模態(tài)融合相較于單一模態(tài)均取得了高準(zhǔn)確率,然而很少使用腦電信號(hào)與眼動(dòng)2種模態(tài)基于膠囊網(wǎng)絡(luò)(CapsNet)進(jìn)行多模態(tài)融合研究。

針對(duì)上述研究現(xiàn)狀,本文充分利用腦電信號(hào)電極排列位置的空間特征以及時(shí)間維度的時(shí)間特征,構(gòu)建腦電信號(hào)三維時(shí)空張量,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取腦電信號(hào)三維時(shí)空張量的底層信息,同時(shí)使用CNN提取并重構(gòu)眼動(dòng)特征,然后異構(gòu)腦電和眼動(dòng)2種模態(tài)作為CapsNet的底層膠囊(PrimaryCaps),使得一個(gè)底層膠囊同時(shí)包含腦電信號(hào)的時(shí)-空特征和眼動(dòng)數(shù)據(jù)特征,使用路由算法進(jìn)行訓(xùn)練,實(shí)現(xiàn)情緒識(shí)別。模型名標(biāo)記為C-CapsNet,對(duì)實(shí)驗(yàn)結(jié)果在公開(kāi)的多模態(tài)數(shù)據(jù)庫(kù)SEED-IV上進(jìn)行評(píng)估。

1.2 情緒模型

情緒識(shí)別模型大致分為3類:① 沙漏模型,認(rèn)為情緒分布在一個(gè)沙漏空間[31],以沙漏模型為基礎(chǔ)的情緒識(shí)別研究較少;② 情緒離散模型,認(rèn)為情緒可以直接使用某種狀態(tài)表示,例如文獻(xiàn)[32]提出離散情緒的6種基本類型:憤怒、厭惡、快樂(lè)、悲傷、恐懼和驚訝;③ 情緒連續(xù)(環(huán)形)模型,認(rèn)為情緒是一種漸變過(guò)程,在許多的情緒分類研究中,常采用二維效價(jià)(valence)和喚醒(arousal)描述模型[33-34],在二維平面上,情緒狀態(tài)可以被看做是由V-A軸線所定義的某個(gè)點(diǎn),Valence表示愉悅程度,Arousal表示活躍程度,如圖1所示?;赩-A連續(xù)模型有2種不同的處理方式:量化Valence和Arousal值,以DEAP數(shù)據(jù)庫(kù)為例,低于5表示為“l(fā)ow”,高于5表示“high”,分別在Valence和Arousal進(jìn)行獨(dú)立二元分類;② 基于V-A模型,結(jié)合使用Valence和Arousal值,如圖2所示,將情緒分為4類:LALV、LAHV、HALV、HAHV。本文采用情緒連續(xù)(環(huán)形)模型,基于獨(dú)立二元分類進(jìn)行實(shí)驗(yàn)。

圖1 Valence和Arousal分值圖

圖2 V-A情緒四分類模型

2 SEED IV數(shù)據(jù)集及預(yù)處理

2.1 SEED IV數(shù)據(jù)集

SEED IV數(shù)據(jù)集是由上海交通大學(xué)鄭偉龍團(tuán)隊(duì)公開(kāi)的一種基于腦電信號(hào)與眼動(dòng)信號(hào)的多模態(tài)數(shù)據(jù)集。邀請(qǐng)44名參與者(22名男性,22名女性,均為中國(guó)在校大學(xué)生)觀看168個(gè)電影片段后評(píng)估他們的情緒,評(píng)估方法包括2種:4種離散情緒,包括快樂(lè)、悲傷、中性和恐懼;Valence和Arousal兩個(gè)維度的評(píng)分,Valence表示從悲傷到快樂(lè),Arousal表示從平靜到興奮,分值范圍為-5—5。最終選定其中15名被認(rèn)為成功激發(fā)情緒的受試者,在3個(gè)不同時(shí)期采集3組數(shù)據(jù),每組影視刺激源均不相同,得到45組實(shí)驗(yàn)數(shù)據(jù)。在每組數(shù)據(jù)采集中,受試者分別觀看了24個(gè)影視片段(每種情緒影視片段為6個(gè))。具體實(shí)驗(yàn)約定過(guò)程如圖3所示。

圖3 SEED IV數(shù)據(jù)集采集過(guò)程

2.1.1EEG信號(hào)

在SEED IV數(shù)據(jù)集中,根據(jù)國(guó)際10-20系統(tǒng)放置62個(gè)通道電極位置,如圖4所示。eeg_raw_data文件夾包括3個(gè)文件夾,分別是15名受試者在3次不同時(shí)期采集的數(shù)據(jù),每個(gè)受試者對(duì)應(yīng)1個(gè)mat文件,在每個(gè)mat文件中包括24個(gè)字段,分別對(duì)應(yīng)24次實(shí)驗(yàn)記錄,每次實(shí)驗(yàn)記錄中包括使用 ESI NeuroScan系統(tǒng)以1 000 Hz采樣率記錄的62個(gè)通道原始EEG數(shù)據(jù)。

圖4 SEED IV數(shù)據(jù)集62個(gè)電極位置分布圖

2.1.2EOG信號(hào)

在SEED IV數(shù)據(jù)集中,采集EEG信號(hào)的同時(shí),同步使用SMI-ETG眼動(dòng)追蹤眼鏡記錄眼球運(yùn)動(dòng)的各種詳細(xì)參數(shù)。eye_raw_data文件夾記錄15個(gè)受試者在3次不同時(shí)間的眼球運(yùn)動(dòng)信息,包括眨眼(blink)、事件類型(event)、注視(fixation)、瞳孔相關(guān)信息(pupil),掃視(saccade)和注視時(shí)長(zhǎng)(Fixationduration,PD)。其中以_blink結(jié)尾的mat文件中包含24個(gè)矩陣,分別記錄24個(gè)視頻的眨眼次數(shù)和事件;以_saccade結(jié)尾的mat文件同樣記錄了24個(gè)矩陣,包括掃視持續(xù)事件和振幅兩個(gè)特征。

2.2 預(yù)處理

2.2.1EEG信號(hào)預(yù)處理

對(duì)于SEED IV數(shù)據(jù)集,每個(gè)受試者觀看視頻時(shí)通過(guò)頭戴62個(gè)通道電極獲取腦電信號(hào),此時(shí)腦電信號(hào)在時(shí)間軸上表示為一維信號(hào),原始腦電信號(hào)以1 000 Hz進(jìn)行采樣,每個(gè)通道采集的腦電數(shù)量并不統(tǒng)一。根據(jù)SEED IV數(shù)據(jù)集采集協(xié)議,截取62個(gè)通道原始信號(hào)中間10 000個(gè)數(shù)據(jù)點(diǎn),使用徑向基(RBF)函數(shù)填充至長(zhǎng)度為12 000個(gè)數(shù)據(jù)點(diǎn)。

許多傳統(tǒng)方法使用通道簡(jiǎn)單累加而成的二維矩陣進(jìn)行實(shí)驗(yàn)研究[31-32],忽視了電極放置的拓?fù)潢P(guān)系,這種做法只能用于表示腦電信號(hào)時(shí)間信息,不能表示腦電信號(hào)空間信息,造成原始腦電信號(hào)電極空間信息丟失。最近文獻(xiàn)中,例如文獻(xiàn)[21,24,33]嘗試使用二維矩陣映射電極位置,但是沒(méi)有使用時(shí)間維度進(jìn)行實(shí)驗(yàn)研究。

腦電信號(hào)空間拓?fù)湫畔⒖捎糜诟纳菩阅?,本文將腦電電極拓?fù)湮恢眠M(jìn)行空間映射,首先使用一個(gè)9×9矩陣映射SEED IV數(shù)據(jù)集62個(gè)通道電極空間拓?fù)湫畔?,如圖5所示;然后將62個(gè)通道在時(shí)間t上的數(shù)據(jù)分別填入9×9的矩陣中,其他位置填入空值,如圖6所示。沿時(shí)間維度,原始腦電信號(hào)使用120 Hz下采樣形成一個(gè)9×9×120的時(shí)空幀,為了匹配時(shí)間特征、空間特征和模型輸入維度,重新調(diào)整為64×64×120的三維時(shí)空張量(Tensor),其他空值部分使用徑向基(RBF)函數(shù)進(jìn)行數(shù)據(jù)填充,得到100組三維時(shí)空張量。

圖5 SEED IV電極位置空間映射圖

圖6 SEED IV空間映射數(shù)值填充

2.2.2眼動(dòng)數(shù)據(jù)預(yù)處理

對(duì)于SEED IV數(shù)據(jù)集,瞳孔數(shù)據(jù)被認(rèn)為與情緒有關(guān)聯(lián)。以_pupil結(jié)尾的mat文件中包含24個(gè)矩陣,對(duì)應(yīng)24個(gè)視頻片段,矩陣中記錄了垂直和水平方向瞳孔大小和色散4個(gè)維度的數(shù)據(jù),以300 Hz下采樣4個(gè)維度眼動(dòng)瞳孔數(shù)據(jù),然后使用徑向基函數(shù)進(jìn)行數(shù)值填充,得到400×4的眼動(dòng)矩陣,為了匹配模型輸入維度,重構(gòu)數(shù)據(jù)格式為400×4×1。

3 C-CapsNet模型

基于Valence和Arousal情緒模型,提出情緒識(shí)別模型C-CapsNet,架構(gòu)如圖7所示。首先采集受試者腦電信號(hào)和眼動(dòng)信號(hào),分別針對(duì)腦電信號(hào)和眼動(dòng)信號(hào)進(jìn)行預(yù)處理,一方面去除信號(hào)中的噪聲,另一方面提取腦電信號(hào)時(shí)空特征以及眼動(dòng)信號(hào)特征。卷積層對(duì)于處理不同時(shí)間位置的數(shù)據(jù)模式非常有用,CNN是最常用的二維分類方法,但同時(shí)丟失了數(shù)據(jù)路由過(guò)程,位置信息以及姿態(tài)信息。本文首先使用卷積神經(jīng)網(wǎng)絡(luò)提取腦電信號(hào)和眼動(dòng)信號(hào)的底層信息,特征融合后,重新異構(gòu)成一個(gè)包含腦電信號(hào)和眼動(dòng)信號(hào)特征的底層膠囊(PrimaryCaps),最后所有PrimaryCaps共同決定情緒膠囊(EmotionCaps),得到情緒識(shí)別分類結(jié)果。腦電信號(hào)和眼動(dòng)信號(hào)預(yù)處理過(guò)程如2.2小節(jié)描述。

圖7 C-CapsNet架構(gòu)示意圖

如2.2.1小節(jié)所述,SEED IV數(shù)據(jù)集腦電信號(hào)經(jīng)過(guò)預(yù)處理后得到一個(gè)64×64×120的三維時(shí)空張量,首先使用256個(gè)9×9×120卷積核(Conv)提取腦電時(shí)空張量的底層信息,卷積輸出特征圖大小為(64-9+1)×(64-9+1)×(120-120+1)×256=56×56×1×256,然后使用2×2最大池化過(guò)濾器(pool),則第一層卷積輸出特征圖為28×28×256。第二層卷積用于約束腦電信號(hào)特征與膠囊網(wǎng)絡(luò)之間的匹配關(guān)系,使用16個(gè)9×9×256三維卷積核與第一層輸出進(jìn)行卷積,得到一組20×20×16三維張量。經(jīng)過(guò)8次同樣操作后,最終得到8個(gè)20×20×16三維張量,重構(gòu)(reshape)后形成3 200個(gè)1×16向量,具體過(guò)程如圖8所示。

圖8 使用CNN提取腦電信號(hào)三維時(shí)空張量底層信息

如2.2.2小節(jié)所述,眼動(dòng)數(shù)據(jù)經(jīng)過(guò)預(yù)處理后得到一組400×4×1三維張量。使用卷積神經(jīng)網(wǎng)絡(luò)提取眼動(dòng)信號(hào)底層信息,第一層使用200個(gè)5×2卷積核(Conv),輸出特征圖大小為(400-5+1)×(4-2+1)=396×3,經(jīng)過(guò)4×1最大池化過(guò)濾器(Pool),則第一層輸出特征圖大小為99×3。第二層使用400個(gè)4×2卷積核和2×1最大池化層,第三層使用800個(gè)3×2卷積核和2×1最大池化層,第四層使用1 600個(gè)4×1卷積核和2×1最大池化層,第五層使用3 200個(gè)3×1卷積核和2×1最大池化層,所有卷積-池化操作均使用整流線性單元(ReLU)激活函數(shù),該激活函數(shù)在分類問(wèn)題中得到良好的結(jié)果。經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)處理的眼動(dòng)數(shù)據(jù)經(jīng)重構(gòu)后得到3 200個(gè)1×4向量。

腦電信號(hào)和眼動(dòng)信號(hào)經(jīng)過(guò)卷積提取底層特征信息后,將兩個(gè)特征進(jìn)行異構(gòu)得到3200×1×(16+4)三維張量,作為膠囊網(wǎng)絡(luò)的底層膠囊(PrimaryCaps),每個(gè)底層膠囊是一個(gè)1×20向量,該向量同時(shí)包含腦電信號(hào)和眼動(dòng)信號(hào)特征,經(jīng)過(guò)投票路由算法(agreement routing)和Squash激活函數(shù)訓(xùn)練,最終得到兩個(gè)1×40高層情緒膠囊(emotioncaps),使用||L2||范數(shù),由包含40個(gè)數(shù)值的高層情緒膠囊向量共同決定最終的情緒分類結(jié)果。C-CapsNet模型如圖9所示。

圖9 C-CapsNet情緒識(shí)別模型

CapsNet用于表示局部對(duì)象與整體對(duì)象之間的相對(duì)位置,核心單元被稱為膠囊,每個(gè)膠囊不再是標(biāo)量,而是將屬性編碼后的向量。不同的膠囊通過(guò)一種迭代投票路由機(jī)制進(jìn)行連接,將底層膠囊傾向性的輸出到高層膠囊。CapsNet利用變換共享矩陣對(duì)局部和整體之間的內(nèi)在空間關(guān)系進(jìn)行編碼,在平移和旋轉(zhuǎn)方面具有更好的穩(wěn)健性。在過(guò)去幾年,CapsNet被廣泛應(yīng)用于自然語(yǔ)言處理、醫(yī)學(xué)圖像分類、高光譜圖像分類和語(yǔ)音識(shí)別等領(lǐng)域。

C-CapsNetC-CapsNet模型動(dòng)態(tài)路由算法如圖10所示。

圖10 C-CapsNet模型動(dòng)態(tài)路由算法示意圖

(1)

然后使用參數(shù)cij相加所有的預(yù)測(cè)向量獲得sj,過(guò)程如下所示:

(2)

cij定義如下:

(3)

其中:bij表示第i個(gè)primaryCpas投票至第j個(gè)EmotionCaps概率,設(shè)置初始值后根據(jù)式(5)進(jìn)行迭代更新。

為了約束EmotionCaps向量模長(zhǎng)處于0~1,且方向不變,使用Squash激活函數(shù)得到vj,Squash激活函數(shù)表達(dá)式如下:

(4)

(5)

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)所有網(wǎng)絡(luò)均使用PyTorch實(shí)現(xiàn),并在NVIDIA Tesla V100 GPU上訓(xùn)練。如上所述,使用SEED IV數(shù)據(jù)集驗(yàn)證模型性能,數(shù)據(jù)集中Valence和Arousal以0值為界限分別標(biāo)記為“Low”和“High”兩個(gè)標(biāo)簽,進(jìn)行獨(dú)立兩分類(SLC)實(shí)驗(yàn)。數(shù)據(jù)集共有15×3×24=1 080組實(shí)驗(yàn)數(shù)據(jù),其中80%作為訓(xùn)練集,剩下的20%用作測(cè)試集。驗(yàn)證方法包括2種:① 樣本數(shù)據(jù)被隨機(jī)分成5簇,每次使用其中4簇進(jìn)行訓(xùn)練,剩下一簇用于測(cè)試,依次循環(huán)5次(5-fold);② 留一交叉驗(yàn)證(LOO)研究模型跨主體性能。

4.2 結(jié)果分析

4.2.1不同參數(shù)的C-CapsNet性能

C-CapsNet在訓(xùn)練過(guò)程中不斷調(diào)整參數(shù)獲取更好的分類準(zhǔn)確率,對(duì)共享矩陣初始化方法、迭代次數(shù)和學(xué)習(xí)率等參數(shù)進(jìn)行情緒獨(dú)立二分類實(shí)驗(yàn),使用5-fold交叉驗(yàn)證法統(tǒng)計(jì)Valence和Arousal兩個(gè)維度的平均準(zhǔn)確率。

根據(jù)膠囊網(wǎng)絡(luò)動(dòng)態(tài)路由算法可知每個(gè)小膠囊首先通過(guò)共享矩陣計(jì)算傾向概率,分別采用Random Normal、Random Uniform、Truncated Normal和Orthogonal四種初始化方式,結(jié)果如表1所示。從表1可以發(fā)現(xiàn),不同共享矩陣初始方法會(huì)影響情緒分類準(zhǔn)確率,其中Orthogonal初始化方法結(jié)果最優(yōu),其Valence和Arousal平均準(zhǔn)確率分別達(dá)到82.46%和83.15%。

C-CapsNet訓(xùn)練時(shí),每次情緒膠囊輸出向量通過(guò)學(xué)習(xí)率更新投票標(biāo)量,正向循環(huán)計(jì)算權(quán)重,更新整個(gè)C-CapsNet參數(shù)。設(shè)置學(xué)習(xí)率為0.1、0.01、0.001和0.0001四個(gè)參數(shù),分別進(jìn)行C-CapsNet訓(xùn)練,其中學(xué)習(xí)率為0.001時(shí)最優(yōu),Valence和Arousal平均準(zhǔn)確率分別為78.56%和79.28%。

表2 不同學(xué)習(xí)率的C-CapsNet平均準(zhǔn)確率

膠囊網(wǎng)絡(luò)類似循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),通過(guò)正向傳播不斷更新權(quán)重參數(shù),使用膠囊網(wǎng)絡(luò)在手寫(xiě)字?jǐn)?shù)據(jù)集MNIST訓(xùn)練時(shí),迭代次數(shù)為2時(shí)達(dá)到98%以上的準(zhǔn)確率,迭代次數(shù)為3時(shí)準(zhǔn)確率達(dá)到99%以上,后續(xù)增加迭代次數(shù)并不能繼續(xù)提升分類識(shí)別準(zhǔn)確率。本文使用SEED IV數(shù)據(jù)集訓(xùn)練C-CapsNet,分別設(shè)置迭代次數(shù)為1、2、3、4和5,Valence和Arousal準(zhǔn)確率如表3所示,當(dāng)?shù)螖?shù)為4時(shí),平均準(zhǔn)確率分別為85.69和86.94%。C-CapsNet訓(xùn)練時(shí)間相較其他模型更加耗費(fèi)時(shí)間,這里設(shè)置迭代次數(shù)為4。

表3 不同迭代次數(shù)的C-CapsNet平均準(zhǔn)確率

4.2.2整體識(shí)別性能

根據(jù)不同參數(shù)對(duì)于C-CapsNet的影響,設(shè)置共享矩陣初始化方法為Orthogonal,學(xué)習(xí)率為0.001,迭代次數(shù)為4。采用留一交叉驗(yàn)證方法(LOO)驗(yàn)證C-CapsNet跨主體識(shí)別性能,每輪留一個(gè)樣本用作測(cè)試集,測(cè)試集不參與訓(xùn)練,目前據(jù)筆者所知并無(wú)基于SEED IV數(shù)據(jù)集采用LOO交叉驗(yàn)證方法的情緒識(shí)別研究?;谀X電信號(hào)的情緒識(shí)別研究有多種模型,依照C-CapsNet模型架構(gòu),首先設(shè)置三組基準(zhǔn)模型(Baseline)?;鶞?zhǔn)模型一(B1)使用腦電信號(hào)一種模態(tài),腦電信號(hào)預(yù)處理后將時(shí)間序列進(jìn)行簡(jiǎn)單通道累加組成二維矩陣,使用卷積網(wǎng)絡(luò)提取二維矩陣底層特征后輸入到CapsNet網(wǎng)絡(luò);基準(zhǔn)模型二(B2)和基準(zhǔn)模型三(B3)使用腦電信號(hào)模態(tài),根據(jù)2.2.1小節(jié)提取腦電信號(hào)三維時(shí)空張量,其中B2采用文獻(xiàn)[24]設(shè)計(jì)的C3D型三維卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),B3采用本文CapsNet模塊?;赟EED IV數(shù)據(jù)集的平均準(zhǔn)確率如表4所示,其中使用腦電信號(hào)時(shí)間特征而忽略電極空間排列拓?fù)湫畔r(shí),平均準(zhǔn)確率最低。利用腦電信號(hào)時(shí)間和空間特征,構(gòu)建腦電信號(hào)三維時(shí)空張量能夠提高情緒識(shí)別平均準(zhǔn)確率。通過(guò)異構(gòu)腦電信號(hào)時(shí)空特征與眼動(dòng)信號(hào)特征,基于SEED IV多模態(tài)數(shù)據(jù)集的C-CapsNet情緒識(shí)別模型平均準(zhǔn)確率分別為82.96%和79.94%,優(yōu)于三組基準(zhǔn)模型。

表4 基準(zhǔn)模型與C-CapsNet在SEED IV上的平均準(zhǔn)確率

目前,基于SEED IV多模態(tài)數(shù)據(jù)集進(jìn)行情緒識(shí)別研究較少,選取使用膠囊網(wǎng)絡(luò)但基于其他模態(tài)數(shù)據(jù)集的相關(guān)研究作為比較,如表5所示。C-CapsNet網(wǎng)絡(luò)架構(gòu)情緒最高準(zhǔn)確率低于文獻(xiàn)[26]所報(bào)告的98%最高準(zhǔn)確率,高于其他基于膠囊網(wǎng)絡(luò)的情緒識(shí)別最高準(zhǔn)確率。需要注意的是,文獻(xiàn)[21,25,26]均使用k-fold交叉驗(yàn)證方法得到最高準(zhǔn)確率,文獻(xiàn)[34]和本文C-CapsNet均是基于LOO交叉驗(yàn)證方法得到跨主體最高準(zhǔn)確率。

表5 C-CapsNet與其他類似研究的最高準(zhǔn)確率

5 結(jié)論

提出一種端到端情緒識(shí)別模型C-CapsNet,使用卷積神經(jīng)網(wǎng)絡(luò)異構(gòu)腦電信號(hào)時(shí)-空信息與眼動(dòng)信號(hào)數(shù)據(jù)2種模態(tài),作為膠囊網(wǎng)絡(luò)的底層膠囊,基于SEED IV多模態(tài)數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。首先研究了共享矩陣初始化方法、迭代次數(shù)和學(xué)習(xí)率對(duì)于C-CapsNet的影響,使用5-fold交叉驗(yàn)證方法得到最優(yōu)參數(shù)下情緒識(shí)別平均準(zhǔn)確率。然后使用留一交叉驗(yàn)證方法與近些年基于膠囊網(wǎng)絡(luò)的同類型情緒識(shí)別研究進(jìn)行比較,C-CapsNet基于SEED IV多模態(tài)數(shù)據(jù)集的Valence和Arousal最高準(zhǔn)確率分別為91.5%和92.4%,優(yōu)于其他相似類型的研究。針對(duì)C-CapsNet訓(xùn)練過(guò)程中耗費(fèi)時(shí)間過(guò)多的問(wèn)題,時(shí)間優(yōu)化問(wèn)題留待未來(lái)研究。針對(duì)將C-CapsNet應(yīng)用于可穿戴設(shè)備的問(wèn)題,未來(lái)將進(jìn)行靠近眼睛附近的腦電信號(hào)六通道與眼動(dòng)數(shù)據(jù)雙模態(tài)異構(gòu)的情緒識(shí)別研究。

猜你喜歡
眼動(dòng)電信號(hào)準(zhǔn)確率
基于眼動(dòng)的駕駛員危險(xiǎn)認(rèn)知
基于聯(lián)合聚類分析的單通道腹部心電信號(hào)的胎心率提取
基于ssVEP與眼動(dòng)追蹤的混合型并行腦機(jī)接口研究
載人航天(2021年5期)2021-11-20 06:04:32
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
基于Code Composer Studio3.3完成對(duì)心電信號(hào)的去噪
科技傳播(2019年24期)2019-06-15 09:29:28
高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
基于隨機(jī)森林的航天器電信號(hào)多分類識(shí)別方法
國(guó)外翻譯過(guò)程實(shí)證研究中的眼動(dòng)跟蹤方法述評(píng)
且末县| 冀州市| 长泰县| 遂宁市| 延津县| 大名县| 高陵县| 上饶市| 文安县| 宜丰县| 乐都县| 凉城县| 丰都县| 府谷县| 永靖县| 志丹县| 三明市| 孟津县| 淮阳县| 东海县| 克什克腾旗| 来凤县| 邵阳市| 鄱阳县| 阿城市| 高阳县| 阿合奇县| 峨眉山市| 玛曲县| 南昌市| 花莲县| 阿坝县| 蚌埠市| 永胜县| 黄山市| 安龙县| 永宁县| 青浦区| 浦县| 衡阳市| 丹巴县|