陳子健,段春紅
(貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴州 貴陽 550025)
認(rèn)知情緒是學(xué)習(xí)者在處理新的、非常規(guī)的任務(wù)時(shí)由認(rèn)知問題引發(fā)的情緒。不同于日常生活情境中發(fā)生頻率最高的6 種基本情緒,學(xué)習(xí)情境中最常產(chǎn)生的認(rèn)知情緒是困惑、厭倦、沮喪、興趣等[1-2]。隨著認(rèn)知加工活動(dòng)的進(jìn)行,認(rèn)知情緒的類別也發(fā)生動(dòng)態(tài)變化。賦予在線學(xué)習(xí)系統(tǒng)識(shí)別認(rèn)知情緒的能力,可以發(fā)揮認(rèn)知情緒監(jiān)測(cè)在學(xué)習(xí)中的價(jià)值潛能,有助于全面、科學(xué)地評(píng)估學(xué)習(xí)者的學(xué)習(xí)狀態(tài),也有助于實(shí)現(xiàn)人機(jī)情感交互,推動(dòng)智適應(yīng)教學(xué)系統(tǒng)的發(fā)展。
情緒作為一種內(nèi)隱的心理狀態(tài),無法直接測(cè)量,一般通過對(duì)情緒體驗(yàn)、外顯表情和生理喚醒3 個(gè)情緒構(gòu)成要素的調(diào)查或測(cè)量,間接實(shí)現(xiàn)對(duì)情緒的識(shí)別或測(cè)量。在線學(xué)習(xí)情境中的認(rèn)知情緒識(shí)別不僅需要提高識(shí)別的準(zhǔn)確率,還需考慮識(shí)別方式的適切性,降低監(jiān)測(cè)過程中對(duì)學(xué)習(xí)者的侵入性,避免干擾學(xué)習(xí)者的學(xué)習(xí)。面部表情是情緒的主要表現(xiàn)形式[3],并且人類的面部表情也是不學(xué)而能的,新生兒就會(huì)因饑餓呈現(xiàn)哭鬧表情,因舒適呈現(xiàn)微笑表情,因驚嚇呈現(xiàn)恐懼表情[4]。由于進(jìn)化中適應(yīng)生存的需要,人類各種具體情緒的適應(yīng)功能各不相同,情緒的功能差異又通過各種不同的面部表情實(shí)現(xiàn)[5],即情緒和面部表情之間存在先天的一致性。雖然由于社會(huì)規(guī)范、道德、價(jià)值標(biāo)準(zhǔn)的約束,人類在后天生活過程中,可能學(xué)會(huì)抑制或修飾自身情緒的面部表情,但是在線學(xué)習(xí)情境中,學(xué)習(xí)者是單獨(dú)處在一個(gè)虛擬學(xué)習(xí)空間中進(jìn)行自主學(xué)習(xí),不存在對(duì)情緒的面部表情進(jìn)行抑制或修飾的需求。
目前,面部表情識(shí)別領(lǐng)域的研究人員普遍將6 類基本情緒面部表情作為研究對(duì)象,利用實(shí)驗(yàn)室環(huán)境下收集得到的受控面部表情庫(kù)開展研究,如JAFFE、CK、CK+、MMI、Oulu-CASIA 等,并取得了較好的識(shí)別率,但是實(shí)驗(yàn)室中采集的受控面部表情大部分是故意擺拍,無法反映現(xiàn)實(shí)生活中的復(fù)雜場(chǎng)景[6],針對(duì)真實(shí)世界中面部表情的識(shí)別研究是推進(jìn)面部表情識(shí)別發(fā)展和應(yīng)用的重點(diǎn)。收集和創(chuàng)建真實(shí)世界中的面部表情數(shù)據(jù)庫(kù),又是推進(jìn)真實(shí)世界中面部表情識(shí)別研究的首要環(huán)節(jié)。針對(duì)此問題,本文設(shè)計(jì)認(rèn)知情緒誘發(fā)實(shí)驗(yàn),創(chuàng)建認(rèn)知情緒面部表情庫(kù),用于認(rèn)知情緒面部表情識(shí)別算法的開發(fā)和評(píng)估。
有效提取具有判別能力的特征是面部表情識(shí)別的核心問題。自從Kahou 等人[7]構(gòu)建由多種不同類別網(wǎng)絡(luò)組成的混合深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)面部表情特征的自動(dòng)提取和分類,并取得EmotiW2013 情感識(shí)別大賽冠軍,越來越多的研究者采用深度學(xué)習(xí)的方法進(jìn)行面部表情特征的提取。相關(guān)研究主要是對(duì)已有的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,如增加Inception 模塊[8],引入殘差結(jié)構(gòu)[9-10],引入對(duì)抗生成網(wǎng)絡(luò)[11],將局部塊注意力機(jī)制引入深度網(wǎng)絡(luò)中,對(duì)面部表情分區(qū)進(jìn)行學(xué)習(xí)[12-13],以增加網(wǎng)絡(luò)的特征學(xué)習(xí)能力,或者設(shè)計(jì)新的網(wǎng)絡(luò)損失層輔助網(wǎng)絡(luò)模型的訓(xùn)練,以進(jìn)一步降低面部表情類內(nèi)差異[14-15]。對(duì)于視頻序列形式的面部表情,則將面部表情的空間域特征和時(shí)間域特征相結(jié)合來提高識(shí)別的性能[16-18]。真實(shí)學(xué)習(xí)情境中的認(rèn)知情緒面部表情具有短暫性、局部性、細(xì)微性的特點(diǎn),為了針對(duì)性地學(xué)習(xí)到具有表情判別性的特征,本文設(shè)計(jì)混合深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)面部表情在空間域和時(shí)間域中的幾何特征和表觀特征,融合2種特征識(shí)別認(rèn)知情緒面部表情。
面向在線學(xué)習(xí)情境的認(rèn)知情緒面部表情識(shí)別,首先需要解決的是學(xué)習(xí)者監(jiān)測(cè)畫面中的人臉檢測(cè)問題,然后在提取面部表情特征的基礎(chǔ)上識(shí)別面部表情。面部表情是一個(gè)動(dòng)態(tài)的過程,既有空間域的特征,又有時(shí)間域的特征??臻g域特征既包括眉毛、眼睛、鼻子、嘴唇等單個(gè)或多個(gè)面部器官的幾何特征,也包括由于面部肌肉運(yùn)動(dòng)產(chǎn)生的皺紋、溝紋、紋理等表觀特征。實(shí)現(xiàn)面部表情的本質(zhì)特征提取是提升識(shí)別準(zhǔn)確率的重要途徑,因此本文提出基于雙模態(tài)空時(shí)域特征的面部表情識(shí)別方法,通過設(shè)計(jì)混合深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)面部表情的空時(shí)域幾何特征和空時(shí)域表觀特征的自動(dòng)提取,融合2 種模態(tài)的特征識(shí)別圖像序列形式的面部表情。將提出的方法應(yīng)用于認(rèn)知情緒面部表情識(shí)別,創(chuàng)建認(rèn)知情緒面部表情庫(kù),訓(xùn)練認(rèn)知情緒面部表情識(shí)別的網(wǎng)絡(luò)模型,并對(duì)模型的性能進(jìn)行測(cè)評(píng)。
圖像序列形式的面部表情從起始到結(jié)束的持續(xù)時(shí)間是一個(gè)變化量,而神經(jīng)網(wǎng)絡(luò)自身的特點(diǎn)決定了輸入數(shù)據(jù)的維度是一個(gè)恒定值。也就是說,不能直接將圖像序列形式的面部表情輸入神經(jīng)網(wǎng)絡(luò),因?yàn)槊總€(gè)表情包含的圖像幀數(shù)量不一致。為了解決這個(gè)問題,本文參考相關(guān)研究[18-19],從面部表情的圖像序列中選取固定數(shù)量的代表幀作為神經(jīng)網(wǎng)絡(luò)的輸入。代表幀選擇的計(jì)算公式如下:
式中,F(xiàn)'表示選取的面部表情代表幀集合;ft表示代表幀,下標(biāo)t是代表幀的時(shí)間碼;ton和tapex分別表示面部表情圖像序列中起始幀和峰值幀的時(shí)間碼;n表示要選取的代表幀的數(shù)量。
設(shè)計(jì)的混合深度神經(jīng)網(wǎng)絡(luò)由全連接神經(jīng)網(wǎng)絡(luò)(FCN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)這3 個(gè)子網(wǎng)絡(luò)構(gòu)成。認(rèn)知情緒面部表情的識(shí)別流程如圖1 所示:1)在面部表情圖序列的起始幀和峰值幀之間選取統(tǒng)一數(shù)量的代表幀;2)檢測(cè)所有代表幀中人臉,并對(duì)圖像進(jìn)行裁剪,只保留人臉區(qū)域圖像;3)對(duì)所有代表幀中的人臉特征點(diǎn)進(jìn)行定位,特征點(diǎn)坐標(biāo)值組成的向量,用于表征面部表情的空間域幾何特征;4)所有代表幀的空間域幾何特征輸入FCN 子網(wǎng)絡(luò),進(jìn)一步提取空時(shí)域幾何特征;5)第2 步中,裁剪后的代表幀輸入CNN 子網(wǎng)絡(luò),提取代表幀在空間域的表觀特征;6)所有代表幀的空間域表觀特征輸入LSTM子網(wǎng)絡(luò),進(jìn)一步提取空時(shí)域表觀特征;7)融合后的空時(shí)域幾何特征和空時(shí)域表觀特征,通過全連接層輸入分類器,分類器輸出面部表情在各個(gè)類別上的概率分布。
圖1 認(rèn)知情緒面部表情識(shí)別流程(表情實(shí)例來自CASME Ⅱ[19]數(shù)據(jù)庫(kù))
人臉檢測(cè)屬于目標(biāo)檢測(cè)的范疇,就是判斷給定的圖像上是否存在人臉,如果存在,則輸出人臉?biāo)幍奈恢眉捌溥吙蛐畔?。傳統(tǒng)的VJ[20]人臉檢測(cè)算法提升了人臉檢測(cè)的速度,推動(dòng)了人臉檢測(cè)的發(fā)展,但是仍然采用的是暴力窮舉式的滑窗法,并且只提取窗口圖像的底層特征,檢測(cè)的精度還有待提升。隨著目標(biāo)檢測(cè)的迅速發(fā)展,新的檢測(cè)算法層出不窮,代表性的算法有Faster R-CNN[21-22]、SSD[23-25]、YOLO[26-28]等。本文構(gòu)建基于Faster R-CNN 框架的人臉檢測(cè)器,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其中,CNN 輸出檢測(cè)圖像的卷積特征圖,RPN在卷積特征圖的基礎(chǔ)上生成人臉候選區(qū)域,候選區(qū)域的圖像特征圖經(jīng)過RoI 池化后,分別輸入分類器和回歸器,分類器判斷人臉候選框是不是人臉,回歸器對(duì)人臉候選框的坐標(biāo)位置進(jìn)行調(diào)整,以獲取更高精度人臉檢測(cè)框。
圖2 人臉檢測(cè)器網(wǎng)絡(luò)結(jié)構(gòu)
利用Wider-Face[29]中的人臉樣本訓(xùn)練人臉檢測(cè)器,利用FDDB[30]中的人臉樣本測(cè)試人臉檢測(cè)器的性能。其中,CNN 采用Incetption ResNet V2網(wǎng)絡(luò)結(jié)構(gòu),并使用預(yù)訓(xùn)練模型對(duì)權(quán)值參數(shù)進(jìn)行初始化,以加速人臉檢測(cè)網(wǎng)絡(luò)的訓(xùn)練。構(gòu)建均值為0、標(biāo)準(zhǔn)差為0.01 的高斯分布,對(duì)人臉檢測(cè)網(wǎng)絡(luò)中其它層的權(quán)值參數(shù)進(jìn)行隨機(jī)初始化。在人臉檢測(cè)測(cè)試實(shí)驗(yàn)中,AP 值為0.9049,誤檢數(shù)為500 時(shí),TPR 值為0.93。圖3 呈現(xiàn)了人臉檢測(cè)器的一個(gè)測(cè)試實(shí)例。從圖中可以發(fā)現(xiàn)人臉檢測(cè)器對(duì)圖像中不同位置、不同大小、不同方向的人臉都具有較好的檢測(cè)效果。
圖3 人臉檢測(cè)器的測(cè)試實(shí)例
為了提取面部表情產(chǎn)生時(shí)眉毛、眼睛、鼻子、嘴唇等單個(gè)或多個(gè)面部器官的幾何形變信息,本文首先構(gòu)建訓(xùn)練人臉特征點(diǎn)定位模型,對(duì)人臉的68 個(gè)特征點(diǎn)(如圖4 所示)進(jìn)行定位,用歸一化的特征點(diǎn)坐標(biāo)值表征面部表情在空間域的幾何特征,然后設(shè)計(jì)全連接神經(jīng)網(wǎng)絡(luò),從多個(gè)表情圖像幀的空間域幾何特征中進(jìn)一步提取面部表情的空時(shí)域幾何特征。
圖4 68個(gè)人臉特征點(diǎn)
構(gòu)建的人臉特征點(diǎn)定位模型中,為了降低頭部姿態(tài)的影響,先對(duì)眼角和嘴角4 個(gè)特征點(diǎn)進(jìn)行定位,計(jì)算頭部的傾斜角度,在此基礎(chǔ)上旋轉(zhuǎn)圖像,糾正頭部?jī)A斜。然后,采用分治法和由粗到精的定位方式,先將特征點(diǎn)劃分為人臉輪廓和五官2 個(gè)部分,進(jìn)行初次定位。再在初次定位的基礎(chǔ)上,將五官劃分為左眉毛和眼睛、右眉毛和眼睛、鼻子、嘴唇共4 個(gè)部分,進(jìn)行第二次定位。構(gòu)建的人臉特征點(diǎn)模型由7 個(gè)級(jí)聯(lián)的CNN 組成,使用300-W Challenge 數(shù)據(jù)集訓(xùn)練和測(cè)試網(wǎng)絡(luò)模型。測(cè)試過程中,采用MNE 評(píng)估人臉特征點(diǎn)定位的誤差,計(jì)算公式如下如示:
其中,N表示人臉特征點(diǎn)的數(shù)量,表示第i個(gè)特征點(diǎn)模型定位的坐標(biāo)值表示第i個(gè)特征點(diǎn)標(biāo)注的坐標(biāo)值,dio表示兩眼外眼角間的距離。測(cè)試樣本的MNE均值為0.04709。
單個(gè)的面部表情圖像幀輸入人臉特征點(diǎn)定位模型,輸出68 個(gè)特征點(diǎn)的坐標(biāo)值,然后所有特征點(diǎn)坐標(biāo)值減去鼻尖(圖4 中黑色圓點(diǎn))的坐標(biāo)值,再將所有特征點(diǎn)的X 和Y 坐標(biāo)值分別進(jìn)行Z-score 標(biāo)準(zhǔn)化處理,用于表征面部表情圖像幀在空間域的幾何特征。面部表情所有圖像幀的空間域幾何特征輸入設(shè)計(jì)的全連接神經(jīng)網(wǎng)絡(luò),進(jìn)一步提取面部表情在空時(shí)域的幾何特征。設(shè)計(jì)的全連接神經(jīng)網(wǎng)絡(luò)由1 個(gè)輸入層、3 個(gè)隱藏層和1 個(gè)輸出層組成,3 個(gè)隱藏層中分別包含256、128 和64 個(gè)神經(jīng)元,采用線性整流函數(shù)(ReLU)作為神經(jīng)元的激活函數(shù)。
針對(duì)面部表情圖像幀在空間域的表觀特征提取問題,通過構(gòu)建CNN 實(shí)現(xiàn)特征的自動(dòng)提取。由于真實(shí)的在線學(xué)習(xí)情境中,認(rèn)知情緒面部表情的面部變化比較細(xì)微,特征提取難度大,因此采用增加網(wǎng)絡(luò)深度的方式,提升網(wǎng)絡(luò)的非線性表達(dá)能力,進(jìn)而提升網(wǎng)絡(luò)學(xué)習(xí)特征的能力。同時(shí),在網(wǎng)絡(luò)中采用小型卷積核,從而有助于網(wǎng)絡(luò)學(xué)習(xí)認(rèn)知情緒面部表情的細(xì)微特征,也有助于降低網(wǎng)絡(luò)的參數(shù)量。CNN 的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)參考VGG-16[31],將整個(gè)CNN 分為5段,每段內(nèi)有2~3個(gè)卷積層,每段段尾連接一個(gè)池化層用于數(shù)據(jù)降維。卷積層統(tǒng)一采用3×3大小的卷積核,池化層統(tǒng)一采用2×2大小的最大池化。通過一系列的卷積和池化操作,CNN最終輸出面部表情圖像幀在空間域的表觀特征。
為了進(jìn)一步提取面部表情在時(shí)間域的表觀特征,設(shè)計(jì)構(gòu)建長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),以面部表情所有圖像幀的空間域表觀特征作為L(zhǎng)STM 的輸入,在圖像幀的空間域表觀特征的基礎(chǔ)上,繼續(xù)學(xué)習(xí)面部表情在時(shí)間域的表觀特征,輸出面部表情在空時(shí)域的表觀特征,整個(gè)流程如圖5 所示。設(shè)計(jì)構(gòu)建的LSTM 由3 層組成,每層分別包含512、256、128 個(gè)LSTM 單元。為了提取面部表情在時(shí)間域的變化特征,將LSTM 前2層設(shè)置為輸出時(shí)序數(shù)據(jù),最后一個(gè)LSTM 層則設(shè)置為輸出靜態(tài)數(shù)據(jù),輸出結(jié)果用于表征面部表情的空時(shí)域表觀特征。
圖5 面部表情的空時(shí)域表觀特征提取
在分類網(wǎng)絡(luò)模型訓(xùn)練過程中,訓(xùn)練數(shù)據(jù)的類別分布不均會(huì)致使網(wǎng)絡(luò)偏重對(duì)數(shù)量多的樣本特征的學(xué)習(xí),而對(duì)數(shù)量少的樣本特征學(xué)習(xí)不充分,從而導(dǎo)致意外錯(cuò)誤,甚至造成嚴(yán)重后果。因此,在網(wǎng)絡(luò)模型的訓(xùn)練過程中,本文為不同類別的樣本設(shè)置不同的權(quán)重,確保網(wǎng)絡(luò)模型對(duì)不同類別的面部表情樣本進(jìn)行同等程度的特征學(xué)習(xí)。樣本類別的權(quán)重按如下公式進(jìn)行計(jì)算:
其中,Wi表示第i個(gè)類別的權(quán)重,Nall是所有樣本的數(shù)量,NCi是第i個(gè)類別中樣本的數(shù)量。在網(wǎng)絡(luò)模型訓(xùn)練階段,將樣本類別的權(quán)重傳遞給損失函數(shù)。模型訓(xùn)練過程中在計(jì)算模型的損失時(shí),損失函數(shù)根據(jù)類別權(quán)重計(jì)算不同類別樣本的損失。
在視覺分類任務(wù)中,通常采用交叉熵作為損失函數(shù),使用Softmax 函數(shù)作為分類器[32]。通過交叉熵衡量網(wǎng)絡(luò)輸出的概率分布(Softmax 輸出值)和期望的概率分布(樣本標(biāo)簽)之間的誤差。網(wǎng)絡(luò)訓(xùn)練的目標(biāo)就是調(diào)節(jié)網(wǎng)絡(luò)參數(shù),使得輸出值和期望值之間誤差最小,即網(wǎng)絡(luò)的損失(loss)最小。假定網(wǎng)絡(luò)當(dāng)前輸出的概率分布為(v1,v2,v3,v4),而期望的輸出概率分布為(1,0,0,0),依據(jù)交叉熵的公式:
當(dāng)前網(wǎng)絡(luò)的loss可以表示為:
其中,V=v1+v2+v3+v4。通過訓(xùn)練不斷降低網(wǎng)絡(luò)的loss,使得網(wǎng)絡(luò)的輸出(v1,v2,v3,v4)趨近于或等于(1,0,0,0),其實(shí)質(zhì)是訓(xùn)練網(wǎng)絡(luò)模型擬合樣本數(shù)據(jù)的one-hot分布。利用交叉熵作為損失函數(shù)訓(xùn)練網(wǎng)絡(luò)容易實(shí)現(xiàn),付出的代價(jià)也小。在網(wǎng)絡(luò)訓(xùn)練過程中,如果v1已經(jīng)是(v1,v2,v3,v4)中的最大值,只需增大訓(xùn)練參數(shù),從而增大向量(v1,v2,v3,v4)的模長(zhǎng),就可以使得ev1V接近1(loss 接近0)。但采用的Softmax 分類器即使輸入噪音,分類的結(jié)果也是非1即0,使用交叉熵作為損失函數(shù)易導(dǎo)致網(wǎng)絡(luò)模型訓(xùn)練的過擬合,也會(huì)使得在實(shí)際應(yīng)用中難以確定置信區(qū)間、設(shè)置閾值。因此,本文為交叉熵?fù)p失函數(shù)添加約束項(xiàng),使得網(wǎng)絡(luò)模型訓(xùn)練時(shí)以擬合one-hot 分布為主,同時(shí)也按設(shè)定的權(quán)重?cái)M合均勻分布。改進(jìn)后的損失函數(shù)如下:
其中,ε是屬于區(qū)間(0,0.5)的可調(diào)節(jié)系數(shù),n是分類的類別數(shù)。相應(yīng)地,上述實(shí)例的loss為:
在網(wǎng)絡(luò)模型訓(xùn)練時(shí),單純地增大向量(v1,v2,v3,v4)的模長(zhǎng),使得ev1V接近于1,已經(jīng)不是最優(yōu)解。改進(jìn)交叉熵?fù)p失函數(shù),有助于降低網(wǎng)絡(luò)模型訓(xùn)練過程中的過擬合風(fēng)險(xiǎn)。
為了測(cè)試方法的有效性,本文先利用CASME Ⅱ微表情數(shù)據(jù)庫(kù)[19]進(jìn)行微表情識(shí)別測(cè)試,并與其它方法進(jìn)行比較。選擇難度更大的微表情識(shí)別任務(wù)能更好地測(cè)試方法的有效性,并且在測(cè)試中訓(xùn)練的微表情識(shí)別網(wǎng)絡(luò)模型可以作為預(yù)訓(xùn)練模型,應(yīng)用于后續(xù)的認(rèn)知情緒面部表情識(shí)別網(wǎng)絡(luò)模型的訓(xùn)練中,可以加快模型收斂的速度,同時(shí)也能在訓(xùn)練樣本數(shù)據(jù)有限的情況下,提升模型的識(shí)別性能。
CASME Ⅱ由中國(guó)科學(xué)院心理研究所創(chuàng)建,包括高興、厭惡、驚訝、憂郁、其它5種類別的微表情,并且已經(jīng)標(biāo)注微表情的類別、微表情的起始幀、峰值幀和結(jié)束幀等相關(guān)信息。采用數(shù)據(jù)增強(qiáng)和隨機(jī)取樣的方法,將所有的微表情樣本分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集用于訓(xùn)練網(wǎng)絡(luò)模型,驗(yàn)證集用于訓(xùn)練階段的測(cè)試,測(cè)試集則用于訓(xùn)練結(jié)束后對(duì)網(wǎng)絡(luò)模型進(jìn)行測(cè)試。
本文使用以TensorFlow 為后端的Keras 搭建網(wǎng)絡(luò),并訓(xùn)練網(wǎng)絡(luò)模型。網(wǎng)絡(luò)參數(shù)進(jìn)行隨機(jī)初始化,通過BP算法傳遞網(wǎng)絡(luò)誤差,采用Adam方法優(yōu)化網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率lr 設(shè)置為0.00008。為防止模型訓(xùn)練過程中出過擬合現(xiàn)象,采用了Dropout 機(jī)制(參數(shù)為0.3)。其它訓(xùn)練設(shè)置為:batch_size=20,epoch=1000。測(cè)試結(jié)果顯示在測(cè)試集上平均識(shí)別準(zhǔn)確率為83.90%,與其它方法在CASME Ⅱ上的識(shí)別準(zhǔn)確率的對(duì)比結(jié)果如表1 所示。對(duì)比結(jié)果顯示,本文提出的方法能有效提升微表情識(shí)別的準(zhǔn)確率。
表1 與其它方法在CASME Ⅱ上的識(shí)別準(zhǔn)確率比較
設(shè)計(jì)認(rèn)知情緒誘發(fā)實(shí)驗(yàn),設(shè)置數(shù)學(xué)測(cè)試和智力挑戰(zhàn)游戲2 種實(shí)驗(yàn)任務(wù),模擬真實(shí)的在線學(xué)習(xí)情境,通過打破認(rèn)知平衡的方式誘發(fā)被試者的認(rèn)知情緒,并利用攝像頭全程記錄被試者的面部影像。從大學(xué)生中共招募59 名被試者參與實(shí)驗(yàn),對(duì)被試者的年齡、性別、專業(yè)等不做任何限定。實(shí)驗(yàn)開始前,主試隨機(jī)決定被試者具體的實(shí)驗(yàn)任務(wù)(數(shù)學(xué)測(cè)試或智力挑戰(zhàn)游戲),隨機(jī)選擇實(shí)驗(yàn)材料(數(shù)學(xué)測(cè)試隨機(jī)抽取試卷,智力挑戰(zhàn)游戲則隨機(jī)決定從第幾關(guān)開始),并對(duì)實(shí)驗(yàn)任務(wù)進(jìn)行說明和操作演示。實(shí)驗(yàn)正式開始后,被試者獨(dú)自一人在實(shí)驗(yàn)室內(nèi)完成實(shí)驗(yàn),實(shí)驗(yàn)時(shí)長(zhǎng)為40 min。
實(shí)驗(yàn)結(jié)束后,首先對(duì)所有被試者的面部影像中出現(xiàn)的專注、愉悅、困惑、沮喪和厭倦5 類認(rèn)知情緒面部表情進(jìn)行標(biāo)注,包括面部表情的起始幀位置、峰值幀位置、對(duì)應(yīng)的認(rèn)知情緒類別。然后,從面部影像文件中分離出所有的認(rèn)知情緒面部表情樣本,每個(gè)樣本由面部表情起始幀到峰值幀之間的圖像序列組成,如圖6 所示。最終,創(chuàng)建了包含5 個(gè)類別,共計(jì)772 個(gè)樣本的認(rèn)知情緒面部表情庫(kù),并且后續(xù)會(huì)公開該面部表情庫(kù),供相關(guān)人員開展科學(xué)研究使用。從理論上講,樣本數(shù)據(jù)越多,訓(xùn)練的網(wǎng)絡(luò)模型的泛化能力越強(qiáng)。因此通過圖像翻轉(zhuǎn)、旋轉(zhuǎn)和縮放等數(shù)據(jù)增強(qiáng)方法對(duì)樣本進(jìn)行擴(kuò)充,得到5 個(gè)類別的認(rèn)知情緒面部表情樣本共計(jì)3119 個(gè)。采用隨機(jī)取樣的方法,將所有的樣本分成3個(gè)部分:訓(xùn)練集、驗(yàn)證集和測(cè)試集。
圖6 認(rèn)知情緒面部表情庫(kù)中的樣本實(shí)例
通過遷移學(xué)習(xí),將已經(jīng)訓(xùn)練好的微表情識(shí)別網(wǎng)絡(luò)模型通過微調(diào)(Fine-tune)的方式遷移到認(rèn)知情緒面部表情識(shí)別模型的訓(xùn)練中。根據(jù)源域和目標(biāo)域中數(shù)據(jù)的相似度、目標(biāo)域中訓(xùn)練數(shù)據(jù)量,微調(diào)在深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練中又存在不同的具體實(shí)現(xiàn)方式。由于微表情識(shí)別和認(rèn)知情緒面部表情識(shí)別具有較大相似性,面部肌肉運(yùn)動(dòng)幅度都相對(duì)較小,并且本文構(gòu)建的認(rèn)知情緒面部表情庫(kù)的數(shù)據(jù)量大于CASME Ⅱ微表情數(shù)據(jù)庫(kù)的數(shù)據(jù)量,所以將微表情識(shí)別模型作為預(yù)訓(xùn)練模型,保持其網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值參數(shù)不變,利用創(chuàng)建的認(rèn)知情緒面部表情庫(kù)繼續(xù)訓(xùn)練網(wǎng)絡(luò),進(jìn)一步優(yōu)化網(wǎng)絡(luò)的權(quán)值參數(shù),使得訓(xùn)練的網(wǎng)絡(luò)模型能夠?qū)崿F(xiàn)認(rèn)知情緒面部表情雙模態(tài)空時(shí)域特征的自動(dòng)學(xué)習(xí)和分類識(shí)別。
網(wǎng)絡(luò)的搭建和訓(xùn)練同樣采用以TensorFlow 為后端的Keras。為避免網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)過擬合,采用了Dropout機(jī)制(參數(shù)為0.3)。采用Adam 方法優(yōu)化網(wǎng)絡(luò)的權(quán)值參數(shù),初始學(xué)習(xí)率lr 設(shè)置為0.00004,其它參數(shù)設(shè)置為batch_size=9,epoch=1000。圖7 和圖8分別呈現(xiàn)了網(wǎng)絡(luò)訓(xùn)練過程中的損失曲線和正確率曲線。從圖中可以發(fā)現(xiàn),由于采用了微調(diào)的方式訓(xùn)練網(wǎng)絡(luò)模型,利用預(yù)訓(xùn)練的微表情識(shí)別模型對(duì)網(wǎng)絡(luò)權(quán)值參數(shù)進(jìn)行初始化,使得網(wǎng)絡(luò)在剛開始訓(xùn)練時(shí)已經(jīng)具有一定的特征學(xué)習(xí)能力,只是在原來的基礎(chǔ)上進(jìn)一步優(yōu)化權(quán)值參數(shù),所以在訓(xùn)練前期網(wǎng)絡(luò)損失快速下降,準(zhǔn)確率快速提升。隨著迭代次數(shù)的繼續(xù)增加,網(wǎng)絡(luò)的損失降低和準(zhǔn)確度上升的速度逐漸放緩,然后趨于平穩(wěn),表明網(wǎng)絡(luò)收斂較好。
圖7 誤差曲線
圖8 準(zhǔn)確率曲線
網(wǎng)絡(luò)訓(xùn)練完成后,利用測(cè)試集對(duì)得到的認(rèn)知情緒面部表情識(shí)別模型進(jìn)行測(cè)試,并采用多個(gè)指標(biāo)評(píng)價(jià)模型的性能。測(cè)試集共包含468 個(gè)樣本,其中“厭倦”樣本85 個(gè)、“專注”樣本85 個(gè)、“困惑”樣本120 個(gè)、“沮喪”樣本95個(gè)、“愉悅”樣本83個(gè)。先采用分類算法評(píng)價(jià)指標(biāo)中常用的準(zhǔn)確率(Accuracy,ACC)對(duì)模型進(jìn)行初步評(píng)價(jià),計(jì)算公式如下:
式中的TP、TN、FP 和FN 分別代表真正例、真負(fù)例、假正例和假負(fù)例。但是僅僅使用ACC 并不能全面、準(zhǔn)確地評(píng)價(jià)網(wǎng)絡(luò)模型的性能,特別是在測(cè)試樣本類別分布不均時(shí),所以進(jìn)一步采用混淆矩陣和多類別ROC(Receiver Operating Characteristic)曲線評(píng)價(jià)網(wǎng)絡(luò)模型?;煜仃嚨男惺菧y(cè)試樣本的真實(shí)類別分布,混淆矩陣的列是網(wǎng)絡(luò)模型輸出的測(cè)試樣本的類別分布,分類正確的測(cè)試樣本都位于混淆矩陣的對(duì)角線上。ROC 曲線是以FPR(FP/(TN+FP))為橫軸、TPR(TP/(TP+FN))為縱軸的一條曲線。通過ROC 曲線與橫軸圍成的面積(Area Under Curve,AUC)評(píng)價(jià)網(wǎng)絡(luò)模型的性能。AUC值的范圍為0.5~1,大于0.9表示性能極好,0.8~0.9 表示性能較好,0.7~0.8 表示性能一般,0.6~0.7表示性能較差,0.5~0.6表示性能極差。
網(wǎng)絡(luò)模型對(duì)認(rèn)知情緒面部表情測(cè)試集中468 個(gè)樣本分類識(shí)別的平均準(zhǔn)確率為92.94%。圖9 所示的多類別ROC 曲線顯示,厭倦(class 0)、專注(class 1)、困惑(class 2)、沮喪(class 3)、愉悅(class 4)的ROC 曲線的AUC 值分別為0.95、0.95、0.96、0.90、0.96,表明網(wǎng)絡(luò)模型對(duì)5 個(gè)類別的樣本的分類識(shí)別都達(dá)到了“極好”的級(jí)別。從圖10 的混淆矩陣可以發(fā)現(xiàn),427 個(gè)樣本分類正確,41 個(gè)樣本分類錯(cuò)誤。其中,83個(gè)愉悅(happy)樣本中只有1個(gè)被誤判,120個(gè)困惑(confusion)樣本中有4 個(gè)被誤判,85 個(gè)專注(concentrated)樣本中有6 個(gè)被誤判,85 個(gè)厭倦(boredom)樣本中有14 個(gè)被誤判,95 個(gè)沮喪(depressed)樣本中有16個(gè)被誤判。厭倦和沮喪2個(gè)類別的誤判樣本中,沮喪的誤判樣本分布比較均勻,而厭倦的誤判樣本主要是被誤判為沮喪。相對(duì)于沮喪,厭倦的識(shí)別難度更大。后續(xù)需要研究如何進(jìn)一步提升網(wǎng)絡(luò)模型對(duì)這2類認(rèn)知情緒面部表情進(jìn)行分類識(shí)別的準(zhǔn)確性。
圖9 多類別ROC曲線
圖10 混淆矩陣
總體而言,測(cè)試結(jié)果顯示網(wǎng)絡(luò)模型對(duì)5 個(gè)類別的認(rèn)知情緒面部表情都具有較好的分類識(shí)別性能,表明本文提出的方法可以有效地識(shí)別認(rèn)知情緒面部表情,從而通過面部表情識(shí)別獲取學(xué)習(xí)者內(nèi)隱的認(rèn)知情緒。
人工智能時(shí)代的教育呼喚教學(xué)環(huán)境更具感知性、交互性和情境性。利用人工智能技術(shù)實(shí)現(xiàn)在線學(xué)習(xí)系統(tǒng)的情感智能,是構(gòu)建智能化在線學(xué)習(xí)環(huán)境的重要組成部分。在線學(xué)習(xí)環(huán)境下認(rèn)知情緒自動(dòng)識(shí)別是實(shí)現(xiàn)個(gè)性化、精準(zhǔn)化教學(xué)及評(píng)價(jià)的必然選擇,也是實(shí)現(xiàn)在線學(xué)習(xí)系統(tǒng)的情感智能的起點(diǎn)。賦予在線學(xué)習(xí)環(huán)境下的計(jì)算機(jī)識(shí)別認(rèn)知情緒面部表情的能力,通過對(duì)學(xué)習(xí)者外顯的面部表情的識(shí)別,實(shí)現(xiàn)對(duì)學(xué)習(xí)者內(nèi)隱的、動(dòng)態(tài)變化的認(rèn)知情緒的監(jiān)測(cè)識(shí)別,具有侵入性低、實(shí)用性強(qiáng)的優(yōu)點(diǎn)。針對(duì)認(rèn)知情緒面部表情存在的特征不明顯、持續(xù)時(shí)間短的問題,本文提出了通過設(shè)計(jì)混合深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)面部表情在空間域和時(shí)間域2 種模態(tài)特征的自動(dòng)提取,融合2 種模態(tài)特征識(shí)別面部表情的方法,并開展了綜合性實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文提出的方法能有效提升面部表情識(shí)別的準(zhǔn)確率,訓(xùn)練的認(rèn)知情緒面部表情識(shí)別網(wǎng)絡(luò)模型具有較好的分類識(shí)別性能。
本文的研究是促進(jìn)人工智能與在線學(xué)習(xí)深度融合的一次嘗試。認(rèn)知情緒面部表情自動(dòng)識(shí)別應(yīng)用的落地還存在一些有待解決的問題,比如有學(xué)者、家長(zhǎng)和學(xué)生擔(dān)憂人臉識(shí)別、面部表情識(shí)別等技術(shù)在教學(xué)中的應(yīng)用是否會(huì)侵犯學(xué)生的隱私。雖然,任何技術(shù)都具有價(jià)值負(fù)荷功能,具有善惡兼具的兩面性[36],可以先發(fā)展后規(guī)范,但還是需要通過法律、法規(guī)為認(rèn)知情緒面部表情識(shí)別技術(shù)的應(yīng)用注入更多安全基因,凸顯技術(shù)的善,避免技術(shù)的惡。同時(shí),也需要通過對(duì)認(rèn)知情緒面部表情識(shí)別技術(shù)的繼續(xù)完善,使技術(shù)的應(yīng)用朝著安全、可靠、可控的方向發(fā)展。