国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ConvLSTM網(wǎng)絡(luò)的維度情感識別模型研究

2021-09-26 10:47:20米珍美趙恒斌
關(guān)鍵詞:學(xué)業(yè)維度情緒

米珍美,趙恒斌,高 攀

石河子大學(xué) 信息科學(xué)與技術(shù)學(xué)院,新疆 石河子832003

學(xué)業(yè)情緒不僅作用于學(xué)習(xí)者學(xué)習(xí)過程中產(chǎn)生的注意、記憶、決策等各個(gè)認(rèn)知加工環(huán)節(jié),而且影響學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī)和學(xué)習(xí)興趣[1]。精準(zhǔn)檢測學(xué)習(xí)者學(xué)習(xí)狀態(tài)是智慧學(xué)習(xí)環(huán)境的基礎(chǔ),也對實(shí)施個(gè)性化教育起著尤為重要的作用。學(xué)習(xí)者面部情感已成為教育情感計(jì)算中最常用的人工智能技術(shù)之一[2],相比于離散情感模型在時(shí)間軸上是點(diǎn)式非連續(xù)的,維度情感模型是基于時(shí)間的一系列數(shù)據(jù),更能揭示數(shù)據(jù)的趨勢性、規(guī)律性、異常性[3]。

目前基于維度情感計(jì)算研究主要針對人類的普通表情,而面向中學(xué)生學(xué)業(yè)情緒的研究卻很少。分析維度情感預(yù)測研究,主要可分為回歸和分類兩類問題。早期的連續(xù)維度情感識別方法主要采用手工特征并結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行識別[4]。維度情感分類識別常用的算法有支持向量機(jī)(Support Vector Machine,SVM)[5]、隱馬爾可夫模型(Hidden Markov Model,HMM)[6],維度情感預(yù)測常用的回歸模型如支持向量回歸(Support Vector Regression,SVR)等[7-8]。隨著深度學(xué)習(xí)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)以及其變體長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)也被用于維度情感檢測[9-10]。

Metallinou等[11]結(jié)合隱馬爾可夫模型與雙向長短時(shí)記憶網(wǎng)絡(luò)(BLSTM)進(jìn)行維度情感識別,其結(jié)果優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。余莉萍等[12]通過改進(jìn)LSTM,在算法中引入注意力機(jī)制,將傳統(tǒng)的遺忘門和輸入門用注意力門進(jìn)行替換,并在多個(gè)時(shí)刻的細(xì)胞狀態(tài)Fau Aibo兒童情感數(shù)據(jù)語料庫以及嬰兒哭聲情感數(shù)據(jù)庫上得到比傳統(tǒng)LSTM更好的識別結(jié)果。湯宇豪等[13]則提出基于層次注意力機(jī)制的維度情感識別方法,將人臉信息與聲音信息通過多層注意力進(jìn)行有效融合,結(jié)果表明模型在大規(guī)模的數(shù)據(jù)集中表現(xiàn)突出。Kollias等[14]設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、CNN和RNN相結(jié)合的模型進(jìn)行情感維度識別,并在CVPR比賽中獲得優(yōu)異成績。

雖然上述方法在維度情感方面取得了成功的應(yīng)用,但是在面向中學(xué)生學(xué)業(yè)情緒識別上存在很大挑戰(zhàn):(1)相比于基本情緒,學(xué)生在學(xué)習(xí)過程中產(chǎn)生的情感更加復(fù)雜,雖然研究者一直致力于識別更精準(zhǔn)、更加豐富的人類情感,但其研究結(jié)果并不能直接應(yīng)用于實(shí)際學(xué)習(xí)環(huán)境中;(2)基于面部表情的維度情感識別更需要時(shí)空融合模型提取特征值,已有研究者提出CNN與LSTM堆疊相結(jié)合的方法,在時(shí)序模型LSTM階段融合空間模型CNN進(jìn)行時(shí)空特征提取,忽略了LSTM時(shí)序建模中面部情感特征的學(xué)習(xí)。

因此,本文利用ConvLSTM[15]網(wǎng)絡(luò)進(jìn)行維度情感識別,其不僅具有CNN刻畫圖像局部特征的能力,而且能夠像LSTM一樣建立時(shí)序模型,通過篩選有用的學(xué)生面部情感特征,解決LSTM網(wǎng)絡(luò)無法處理冗余空間信息的問題。在自建的中學(xué)生學(xué)習(xí)維度情感數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),并在Aff-Wild公開數(shù)據(jù)集[16]上進(jìn)行試驗(yàn),得到的相關(guān)系數(shù)均值為0.222。實(shí)驗(yàn)表明,本文提出的基于維度情感模型在中學(xué)生學(xué)業(yè)情緒識別中CCC相關(guān)度系數(shù)指標(biāo)提升了7.6%~43.0%。

本文主要貢獻(xiàn)有兩點(diǎn):(1)構(gòu)建面向中學(xué)生的二維情感數(shù)據(jù)庫;(2)通過經(jīng)典深度卷積網(wǎng)絡(luò)提取視頻中的學(xué)生面部學(xué)業(yè)情緒,并將提取的特征輸入ConvLSTM網(wǎng)絡(luò)進(jìn)行維度情感預(yù)測。

1 實(shí)驗(yàn)方法

1.1 維度情感預(yù)測

維度情感模型用幾個(gè)取值連續(xù)的維度將情感刻畫為一個(gè)多維信號,維度情感預(yù)測是對維度空間中每個(gè)維度的連續(xù)取值進(jìn)行預(yù)測,通過對情感狀態(tài)的實(shí)時(shí)標(biāo)注來跟蹤情感狀態(tài)的演變過程。

基于Arousal-Valence二維情感空間從Arousal、Valence兩個(gè)維度刻畫情感,Valence代表價(jià)效維度,表示情感的強(qiáng)烈和微弱程度。通過價(jià)效和喚醒兩個(gè)維度可以區(qū)分更多細(xì)微的情感,每個(gè)人的情感狀態(tài)可以根據(jù)價(jià)效維度和喚醒維度上的取值組合得到表征,這也使得機(jī)器能夠更好地理解人的感情并做出精準(zhǔn)的反應(yīng)。

借鑒不同模態(tài)中基本情感維度的預(yù)測方法,宏觀上模型分為面向中學(xué)生的不同學(xué)業(yè)情緒特征學(xué)習(xí)和維度情感預(yù)測兩個(gè)階段。在模型訓(xùn)練階段,將待訓(xùn)練學(xué)生學(xué)業(yè)情緒視頻輸入到模型中學(xué)習(xí)情感顯著特征。在模型測試階段,將待測試維度情感預(yù)測視頻輸入到訓(xùn)練充分的算法模型中,先提取學(xué)生學(xué)業(yè)情緒的面部顯著特征,再進(jìn)行最終情感預(yù)測。實(shí)驗(yàn)中首先建立基于面向中學(xué)生的學(xué)業(yè)情緒數(shù)據(jù)集,通過Arousal-Valence二維情感空間描述學(xué)生的學(xué)業(yè)情緒,如圖1所示部分學(xué)業(yè)情緒在維度空間中的表示;其次以中學(xué)生學(xué)業(yè)情緒數(shù)據(jù)集為基準(zhǔn)篩選最優(yōu)特征,并進(jìn)行數(shù)據(jù)集與訓(xùn)練集的劃分,其中訓(xùn)練集與測試集劃分比例為4∶1;最后分析不同CNNLSTM算法模型在情感維度中的預(yù)測結(jié)果,即使用V、A各維度的最優(yōu)特征對算法模型進(jìn)行訓(xùn)練,得到最好的模型,然后將測試集輸入到訓(xùn)練好的算法模型中,得到待檢測圖像的A、V二維向量預(yù)測值。

圖1 二維(Arousal-Valence)情感狀態(tài)空間Fig.1 Two dimensional(Arousal-Valence)emotional state space

1.2 ConvLSTM網(wǎng)絡(luò)

LSTM擅長時(shí)序數(shù)據(jù)的處理,但是如果時(shí)序數(shù)據(jù)是圖像等三維圖形,其有著豐富的空間信息并且每一個(gè)點(diǎn)與周圍具有很強(qiáng)的相關(guān)性,普通的LSTM很難刻畫這種空間特征,于是在LSTM的基礎(chǔ)上加上卷積操作捕捉空間特征,對于圖像的特征提取會更加有效。為了解決這個(gè)問題,Shi等[15]設(shè)計(jì)了ConvLSTM網(wǎng)絡(luò),其將輸入與各門之間的連接替換為卷積,從而融合CNN提取局部特征的能力和LSTM時(shí)序建模的能力。傳統(tǒng)LSTM[17]有輸入門、輸出門、遺忘門三個(gè)門,網(wǎng)絡(luò)主要通過學(xué)習(xí)對這三者的控制來得到理想的結(jié)果,如果是多層結(jié)構(gòu),每個(gè)LSTM計(jì)算單元向上層傳遞的是h值。ConvLSTM是LSTM的變體,主要是將w的權(quán)值計(jì)算變成卷積運(yùn)算,這樣可以提取出圖像的特征,如圖2所示LSTM單元結(jié)構(gòu)圖。

圖2 LSTM單元結(jié)構(gòu)圖Fig.2 LSTM cell structure

LSTM的輸入、單元輸出和狀態(tài)都是一維向量,其關(guān)鍵公式如式(1)~(5)所示,其中“°”表示Hadamard乘積:

與傳統(tǒng)網(wǎng)絡(luò)不同,ConvLSTM網(wǎng)絡(luò)所有的輸入X1,X2,…,Xt,細(xì)胞的輸出C1,C2,…,Ct,隱藏狀態(tài)H1,H2,…,Ht以及輸入門it、遺忘門ft、輸出門ot,均為三維向量,其最后兩個(gè)維度代表行和列兩個(gè)空間信息。式(6)~(10)顯示了ConvLSTM的關(guān)鍵等式,其中“?”表示卷積運(yùn)算,“°”表示Hadamard乘積:

1.3 基于ConvLSTM網(wǎng)絡(luò)的維度情感結(jié)構(gòu)

基于ConvLSTM網(wǎng)絡(luò)的維度情感模型結(jié)構(gòu)如圖3所示,通過卷積神經(jīng)網(wǎng)絡(luò)和ConvLSTM網(wǎng)絡(luò)實(shí)現(xiàn)自動(dòng)定位重要信息并對不同的幀分配不同的權(quán)重。首先,對中學(xué)生學(xué)業(yè)情緒視頻進(jìn)行預(yù)處理,為獲取視頻中學(xué)生面部特征,視頻采樣率FPS值為5,即每0.2秒提取1幀,采用Opencv中的人臉特征模型對每一幀有效的學(xué)生學(xué)業(yè)情緒進(jìn)行裁剪,并歸一化到相同尺寸大?。唤又鴮⒅袑W(xué)生學(xué)業(yè)情緒視頻幀序列輸入到由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的空間注意力網(wǎng)絡(luò)中;隨后將提取的卷積特征經(jīng)過Conv-LSTM解析后提取出長時(shí)間的序列特征,同時(shí)結(jié)合不同視頻幀的時(shí)間信息生成視頻的特征表示;最后生成的特征表示經(jīng)過全連接層和tanh激活函數(shù),輸出V、A二維向量預(yù)測值。

圖3 基于ConvLSTM網(wǎng)絡(luò)的維度情感預(yù)測模型結(jié)構(gòu)圖Fig.3 Structure of dimensional affective prediction model of ConvLSTM network

實(shí)驗(yàn)中去除VGG、ResNet和Inception網(wǎng)絡(luò)的全連接層,主要目的是學(xué)習(xí)中學(xué)生面部情緒中的高層特征,相比選取最后的全連接層作為特征,池化后提取的特征未經(jīng)壓縮和拉直,保留原始圖像位置信息和通道信息,同時(shí)ConvLSTM網(wǎng)絡(luò)要求保留面部學(xué)業(yè)情緒的特征矩陣。視頻圖像序列特征通過堆疊三層ConvLSTM網(wǎng)絡(luò),最終的預(yù)測結(jié)果由可能性最大的參數(shù)估算值決定,如式(11)所示。通過多層疊加的ConvLSTM層,具有較強(qiáng)的時(shí)空表征能力,適用于維度情感等復(fù)雜問題的預(yù)測。

2 數(shù)據(jù)庫構(gòu)建

實(shí)驗(yàn)通過模擬在線學(xué)習(xí)環(huán)境,實(shí)時(shí)采集學(xué)生學(xué)業(yè)情緒,創(chuàng)建了基于情感維度的中學(xué)生學(xué)業(yè)情緒數(shù)據(jù)庫,數(shù)據(jù)庫包括157個(gè)視頻。實(shí)驗(yàn)采集了來自中學(xué)年齡在12~18歲的32名學(xué)生,其中男生8名,女生24名,所有實(shí)驗(yàn)人員在實(shí)驗(yàn)開始之前均自愿簽署了知情同意書。實(shí)驗(yàn)提前調(diào)查了被試學(xué)生所學(xué)知識以及知識水平,根據(jù)其學(xué)習(xí)特點(diǎn),選擇相應(yīng)的知識內(nèi)容,以使學(xué)生產(chǎn)生多樣的學(xué)業(yè)情緒。圖4顯示了數(shù)據(jù)庫中的一些幀,不同學(xué)生表現(xiàn)出不同的學(xué)業(yè)情感。

圖4 二維Arousal-Valence情感空間中的學(xué)生學(xué)業(yè)情緒Fig.4 Two-dimensional Arousal-Valence academic emotionin emotional space

實(shí)驗(yàn)結(jié)束,邀請4名標(biāo)記人員依據(jù)二維Arousal-Valence情感空間和維度情感數(shù)據(jù)庫[18]對情感視頻進(jìn)行標(biāo)注。如圖5和圖6展示生成數(shù)據(jù)庫中Arousal和Valence注釋值的直方圖。

圖5 學(xué)業(yè)情緒數(shù)據(jù)庫Arousal標(biāo)簽分布直方圖Fig.5 Academic emotional database Arousal label distribution histogram

圖6 學(xué)業(yè)情緒數(shù)據(jù)庫Valence標(biāo)簽分布直方圖Fig.6 Academic emotional database Valence label distribution histogram

2.1 數(shù)據(jù)預(yù)處理

為了更有效地提取面部特征,本文對視頻進(jìn)行預(yù)處理,通過Peakutils庫提取視頻幀,在每一幀中,使用Adaboost人臉檢測算法進(jìn)行人臉檢測并進(jìn)行裁剪[19],在此過程中刪除檢測失敗的幀,最終得到2 178張學(xué)生面部表情幀。

2.2 數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注過程中使用了ANNEMO[20]軟件,一個(gè)基于情感和社會行為標(biāo)注的Web軟件,其界面如圖7所示。每個(gè)維度的標(biāo)注過程如下:

圖7 ANNEMO標(biāo)記界面圖Fig.7 ANNEMO tag interface diagram

(1)用戶使用郵箱注冊進(jìn)行登錄;

(2)同步所需標(biāo)注的視頻,用戶可選擇標(biāo)注的視頻;

(3)播放視頻,通過左右移動(dòng)標(biāo)桿為視頻標(biāo)注Arousal-Valence值,其范圍在[-1,1]之間,最后在數(shù)據(jù)庫中存儲每一幀生成相應(yīng)的Arousal-Valence值。

實(shí)驗(yàn)中選擇4位標(biāo)注人員進(jìn)行視頻情感維度標(biāo)注,每位注釋者均得到注釋文檔,指導(dǎo)該任務(wù)的進(jìn)行。該文檔包括識別情緒Arousal和Valence的基礎(chǔ)方法,標(biāo)注人員通過對學(xué)業(yè)情緒狀態(tài)的理解進(jìn)行標(biāo)注。其中在開始對每個(gè)學(xué)業(yè)視頻標(biāo)注之前,標(biāo)注者觀看了整個(gè)視頻,以便對所顯示的視頻進(jìn)行更為精準(zhǔn)的標(biāo)注。

2.3 注釋統(tǒng)計(jì)分析

本文主要提供對標(biāo)記者標(biāo)記結(jié)果的詳細(xì)分析。相比于離散情感模型,Arousal-Valence情感模型可以用來更好地識別學(xué)生在學(xué)習(xí)過程中的情緒,通過定量和定性方法證明標(biāo)記者標(biāo)記結(jié)果的可靠性。圖8中的散點(diǎn)圖顯示了Arousal-Valence值在在線學(xué)習(xí)中六種(專注、困惑、疲憊、厭煩、走神和愉快)常見的學(xué)業(yè)情緒的分布值。

圖8 六種學(xué)業(yè)情緒在Arousal-Valence維度空間分布圖Fig.8 Six kinds of academic emotions in Arousal-Valence dimension space distribution

從六種情感類別在Arousal-Valence空間中的分布情況可以看出:(1)單一情感(如愉快)可產(chǎn)生多個(gè)Arousal-Valence值。這表明每一種類別的情感可能有不同的Arousal-Valence分布,這意味著傳統(tǒng)離散情感類別可能不能準(zhǔn)確地描述人的內(nèi)心情感。(2)情緒之間存在重疊,表明不同的情緒類別可能具有相似的Arousal-Valence分布。例如,某些“專注”和“愉快”圖像的Arousal、Valence值非常接近。這表明每個(gè)人對語言特征都有不同的理解。在描述上,人類對情感的分類標(biāo)記的一致性是相當(dāng)差的??梢钥吹剑瑥脑S多明確的詞語中選擇一種情感來描述一個(gè)人的情感是不容易的,因?yàn)橛行┣楦袠?biāo)簽之間有細(xì)微的差別,或者說情緒之間也有關(guān)系。

為進(jìn)一步檢驗(yàn)Arousal-Valence標(biāo)簽的質(zhì)量,隨機(jī)選取標(biāo)記者的500個(gè)圖像序列,本文使用Cronbach的alpha方法評估數(shù)據(jù)的可靠性。在所有Arousal-Valence標(biāo)簽分?jǐn)?shù)的Cronbach’s alpha值為0.69,最小值為0.52。可以證明,不同標(biāo)記者標(biāo)注的標(biāo)簽之間的內(nèi)部一致性是良好的。不同標(biāo)記者之間的Pearson[21]相關(guān)系數(shù)為0.46。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中采用一致相關(guān)系數(shù)(Concordance Correlation Coefficient,CCC)和均方誤差作為評估維度情感識別效能的評價(jià)指標(biāo)。CCC通過將兩個(gè)時(shí)間序列(例如所有標(biāo)注視頻和預(yù)測)的相關(guān)系數(shù)與它們的均方差進(jìn)行縮放來評估它們之間的一致性。其取值范圍為[-1,1],其中+1表示完全一致,-1表示完全不一致。CCC的值越高,注釋和預(yù)測之間的擬合越好。CCC被定義為如式(12)所示:

其中,ρxy指皮爾遜相關(guān)系數(shù)(PCC)[21],sx和sy分別為學(xué)生學(xué)習(xí)視頻Valance或Arousal真實(shí)標(biāo)簽值和預(yù)測值,sxy是相應(yīng)的協(xié)方差值。

均方誤差(Mean Square Error,MSE)作為損失函數(shù),其定義如式(13)所示:

其中,x和y分別是學(xué)生學(xué)習(xí)視頻Valance或Arousal真實(shí)標(biāo)簽值與預(yù)測值,N是樣本數(shù)量。MSE的值越小,代表模型的預(yù)測能力越強(qiáng)。

實(shí)驗(yàn)中已標(biāo)注的學(xué)生學(xué)習(xí)視頻作為訓(xùn)練集和測試集,測試集與訓(xùn)練集數(shù)據(jù)之間相互隔離,并且訓(xùn)練集與測試集比例為4∶1,對比實(shí)驗(yàn)設(shè)置中分別采用Vgg19、ResNet34、ResNet50、InceptionV3四種經(jīng)典CNN提取學(xué)生面部學(xué)業(yè)情緒特征,并采用單向兩層LSTM堆疊結(jié)構(gòu)進(jìn)行時(shí)序建模,tanh作為激活函數(shù),小批量梯度下降法,比較不同網(wǎng)絡(luò)特征融合的預(yù)測結(jié)果,其中設(shè)置圖片大小為224×224或229×229,后文稱之為CNN-LSTM網(wǎng)絡(luò)。在ConvLSTM網(wǎng)絡(luò)中,使用三個(gè)ConvLSTM層進(jìn)行特征學(xué)習(xí),三層卷積核大小均為7×7,卷積層中第一層卷積核數(shù)量為32,第二層卷積核數(shù)量為16,第三層卷積核數(shù)量為8。為縮減模型計(jì)算量,在網(wǎng)絡(luò)中使用最大池化層,設(shè)置尺寸為4×4,圖像矩陣邊緣填充為“same”。

在驗(yàn)證ConvLSTM模型預(yù)測效果階段,設(shè)置了三組對比實(shí)驗(yàn):(1)使用CNN-LSTM網(wǎng)絡(luò)進(jìn)行維度預(yù)測,比較CCC、MSE相關(guān)度系數(shù)。(2)在使用CNN-LSTM情況下,分析CNN-LSTM、CNN-GRU的預(yù)測性能,比較CCC、MSE相關(guān)度系數(shù)。(3)將模型應(yīng)用于Aff-Wild數(shù)據(jù)當(dāng)中,分析其檢測效果。

實(shí)現(xiàn)實(shí)驗(yàn)的操作系統(tǒng)為Ubuntu16.04,深度學(xué)習(xí)框架為Pytorch1.4,CPU為Intel酷睿處理器,內(nèi)存為三星DDR4 2400 16 GB×2(32 GB),GPU為GTX1080 Ti顯存,開發(fā)語言采用Python3.5。在前期多次實(shí)驗(yàn)對比的情況下,為了保證訓(xùn)練充分,比較了三種不同梯度下降優(yōu)化算法SGD、Adam和RMSProp,初始epoch次數(shù)設(shè)置為1 000,學(xué)習(xí)率設(shè)置為0.000 1。為了更直觀地對比訓(xùn)練和測試的結(jié)果之間的差異,每訓(xùn)練一個(gè)epoch并在相應(yīng)數(shù)據(jù)集上測試一次。

3.2 性能比較

3.2.1 不同CNN-LSTM網(wǎng)絡(luò)預(yù)測結(jié)果對比

實(shí)驗(yàn)中依次使用四種深度CNN網(wǎng)絡(luò)與LSTM進(jìn)行結(jié)合分別對Arousal和Valence兩個(gè)維度進(jìn)行預(yù)測,結(jié)果對比如表1所示。實(shí)驗(yàn)中通過多次比較不同深度的LSTM網(wǎng)絡(luò),最終選擇了兩層的LSTM網(wǎng)絡(luò),并在網(wǎng)絡(luò)最后連接2層全連接層實(shí)現(xiàn)Valance和Arousal兩個(gè)情感維度的預(yù)測,實(shí)驗(yàn)中VGG19相對于InceptionV3和ResNet50網(wǎng)絡(luò)參數(shù)都要少,但是其結(jié)果最佳,可能是因?yàn)閿?shù)據(jù)量相對較少。

表1 CNN-LSTM網(wǎng)絡(luò)預(yù)測結(jié)果對比Table 1 Comparison of CNN-LSTM network prediction results

表1中實(shí)驗(yàn)針對學(xué)生維度情感數(shù)據(jù)庫,結(jié)果顯示,VGG網(wǎng)絡(luò)模型在CCC和MSE均表現(xiàn)最好,通過計(jì)算不同CNN-LSTM在Arousal和Valence的均值(Mean Value)可以看出VGG19-LSTM在CCC均值上至少高出其他CNN-LSTM模型0.086;在VGG網(wǎng)絡(luò)中VGG19-LSTM網(wǎng)絡(luò)預(yù)測能力總體強(qiáng)于VGG16-LSTM,可以看出VGG19-LSTM網(wǎng)絡(luò)對Valance維度的預(yù)測能力最佳,CCC值高于VGG16-LSTM網(wǎng)絡(luò)0.191,CCC均值高于VGG16-LSTM網(wǎng)絡(luò)0.086,并且MSE均值中低于VGG16-LSTM網(wǎng)絡(luò)0.003,因此適當(dāng)增加網(wǎng)絡(luò)深度可以增強(qiáng)網(wǎng)絡(luò)對樣本數(shù)據(jù)的學(xué)習(xí)能力,但并非越深的網(wǎng)絡(luò)實(shí)驗(yàn)效果越好。由于訓(xùn)練樣本數(shù)據(jù)量有限,ResNet50網(wǎng)絡(luò)在此數(shù)據(jù)集中模型沒有取得好的效果。

3.2.2 ConvLSTM上的性能分析

經(jīng)典的LSTM網(wǎng)絡(luò)中state-state采用全連接形式,而ConLSTM采用卷積的形式,分析3.2.1小節(jié)結(jié)果,實(shí)驗(yàn)將使用VGG19網(wǎng)絡(luò)提取特征并融合ConLSTM特征進(jìn)行維度預(yù)測,分別比較了VGG19-LSTM與ConLSTM網(wǎng)絡(luò)對學(xué)生學(xué)業(yè)情緒預(yù)測的能力。另外,實(shí)驗(yàn)比較了三種不同梯度下降優(yōu)化算法SGD、Adam和RMSProp。

ConLSTM可以更好地學(xué)習(xí)圖像輸入的特征而不造成信息冗余。本文提出VGG19-ConLSTM結(jié)構(gòu)不僅可以兼顧學(xué)生的面部表情特征,更能夠克服時(shí)序數(shù)據(jù)對空間數(shù)據(jù)造成的冗余,又避免了LSTM無法實(shí)現(xiàn)對局部特征的刻畫特點(diǎn)。

如圖9和圖10所示,三種網(wǎng)絡(luò)VGG19-LSTM、VGGGRU以及ConvLSTM在Arousal和Valence兩個(gè)維度上訓(xùn)練和測試時(shí)的MSE損失曲線,在最終訓(xùn)練模型的評估中Arousal和Valence的值均達(dá)到0.9以上,測試集中ConvLSTM表現(xiàn)最優(yōu),epoch在900左右時(shí),模型接近于水平。從圖10中可以看出測試過程較為抖動(dòng),獲取整個(gè)過程的Arousal和Valence兩個(gè)維度的真實(shí)值和預(yù)測值,最終得到Arousal的CCC為0.592,Valence維度上CCC為0.571。

圖9 維度情感訓(xùn)練過程Fig.9 Training process of dimensional emotion

圖10 維度情感測試過程Fig.10 Test process of dimensional emotion

圖11顯示了三種網(wǎng)絡(luò)對測試集的預(yù)測能力,圖中橫坐標(biāo)代表待測試幀,縱坐標(biāo)為每一幀對應(yīng)Arousal和Valence維度值,黃色線代表模型在Arousal和Valence兩個(gè)維度上的預(yù)測值,藍(lán)色線代表模型在Arousal和Valence兩個(gè)維度上的真實(shí)值。從圖中可以看出Conv-LSTM預(yù)測效果最好,VGG19-GRU網(wǎng)絡(luò)的預(yù)測效果相比于VGG19-LSTM網(wǎng)絡(luò)較為遜色。因此,雖然GRU相對于LSTM模型結(jié)構(gòu)復(fù)雜度低,需要更少的訓(xùn)練參數(shù),但在數(shù)據(jù)集不同的情況下,模型預(yù)測能力是有所變化的。而ConvLSTM網(wǎng)絡(luò)通過充分地提取空間特征并對特征進(jìn)行篩選,充分提升預(yù)測網(wǎng)絡(luò)能力。

圖11 三種不同模型對Arousal和Valence的預(yù)測結(jié)果Fig.11 Three different models prediction results for Arousal and Valence

另外,本文還將ConvLSTM模型應(yīng)用在Aff-Wild數(shù)據(jù)庫中進(jìn)行測試,劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集,訓(xùn)練集和測試集比例為4∶1,具體對比實(shí)驗(yàn)結(jié)果如表2所示,相比于當(dāng)前維度情感識別中的其他方法,ConvLSTM雖然在損失上遠(yuǎn)優(yōu)于其他結(jié)果,但是CCC相關(guān)度系數(shù)更能反映情感預(yù)測值和情感標(biāo)簽值的擬合程度,可以看出,使用了ConvLSTM網(wǎng)絡(luò)在CCC均值上已經(jīng)超越了大部分結(jié)果。CCC在兩個(gè)維度上分別達(dá)到了0.203和0.240,這說明使用ConvLSTM網(wǎng)絡(luò)在具有時(shí)空信息的維度情感預(yù)測中具有一定的效果。

表2 Aff-Wild數(shù)據(jù)庫實(shí)驗(yàn)結(jié)果比較Table 2 Comparison of Aff-Wild database experiment results

4 討論與結(jié)論

本文在Vlence-Arousal維度情感理論和教育心理學(xué)的基礎(chǔ)上,實(shí)現(xiàn)了面向中學(xué)生的維度情感數(shù)據(jù)庫,其中有157個(gè)學(xué)生學(xué)業(yè)情緒視頻和2 178張帶有Arousal和Valence維度標(biāo)簽的學(xué)生面部表情。在此基礎(chǔ)上,利用ConvLSTM網(wǎng)絡(luò)能有效處理時(shí)空信息的能力設(shè)計(jì)維度情感預(yù)測模型,實(shí)現(xiàn)了面向?qū)W生學(xué)業(yè)情緒的維度情感預(yù)測。實(shí)驗(yàn)證明ConvLSTM與其他CNN-LSTM網(wǎng)絡(luò)相比,在一致性相關(guān)系數(shù)和均方誤差標(biāo)準(zhǔn)方面,均能提供最佳的Vlence-Arousal估計(jì)性能。實(shí)驗(yàn)結(jié)果表明,將ConvLSTM網(wǎng)絡(luò)應(yīng)用于面向中學(xué)生的維度情感預(yù)測具有較好效果,為了測試模型預(yù)測能力,本文還在Aff-Wild公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與目前的方法相比,本實(shí)驗(yàn)將學(xué)生面部的局部特征與其時(shí)間信息進(jìn)行充分融合,減少數(shù)據(jù)冗余,識別中CCC相關(guān)度系數(shù)指標(biāo)提升了7.6%~43.0%。

學(xué)生學(xué)業(yè)情緒的精準(zhǔn)測量是學(xué)生進(jìn)行個(gè)性化學(xué)習(xí)的重要依據(jù),本文將深度學(xué)習(xí)應(yīng)用于教育中,實(shí)現(xiàn)學(xué)生的學(xué)業(yè)情緒預(yù)測,是教育與人工智能融合的有力嘗試。當(dāng)然,由于數(shù)據(jù)量不夠,難免在精度上有一些欠缺。未來的研究方向首先應(yīng)該擴(kuò)大面向?qū)W生的維度情感數(shù)據(jù)庫,并將其他特征融入到學(xué)生學(xué)業(yè)情緒中,比如學(xué)生學(xué)習(xí)的音頻信息,學(xué)生學(xué)習(xí)的文本日志信息以及學(xué)生的學(xué)習(xí)行為數(shù)據(jù),相信這些信息會進(jìn)一步提高模型的預(yù)測能力。

猜你喜歡
學(xué)業(yè)維度情緒
艱苦的學(xué)業(yè)
音樂提升學(xué)生學(xué)業(yè)表現(xiàn)
樹起學(xué)業(yè)擔(dān)當(dāng)之心
淺論詩中“史”識的四個(gè)維度
中華詩詞(2019年7期)2019-11-25 01:43:00
小情緒
小情緒
小情緒
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
“五個(gè)維度”解有機(jī)化學(xué)推斷題
情緒認(rèn)同
平顶山市| 错那县| 高雄市| 汽车| 珠海市| 大庆市| 元朗区| 勃利县| 新田县| 共和县| 江阴市| 霞浦县| 桑植县| 乌兰县| 湟中县| 葵青区| 雅江县| 屯昌县| 阳朔县| 石狮市| 莆田市| 兴城市| 阿坝| 汕尾市| 普兰店市| 固安县| 蕉岭县| 保定市| SHOW| 民乐县| 洪雅县| 芷江| 营口市| 大冶市| 海口市| 湾仔区| 岱山县| 翁源县| 鹰潭市| 嵊州市| 吴桥县|