包志龍 陳華輝
面部表情是人類日常交流中最直接表達(dá)內(nèi)心感受的方式之一,傳遞的有效信息占比高達(dá)55%[1],分析一個人在某一時刻的面部表情可以了解其當(dāng)前的身體狀態(tài)和精神狀態(tài).近年來,表情識別技術(shù)被廣泛應(yīng)用于醫(yī)療智能監(jiān)護(hù)、犯罪調(diào)查、疲勞駕駛監(jiān)測、教育評估及其它人機(jī)交互方面[2-3].面部表情識別包括圖像預(yù)處理、面部特征提取、表情分類三步.根據(jù)是否使用深度學(xué)習(xí)進(jìn)行特征提取,可將面部表情識別分為傳統(tǒng)面部表情識別和基于深度學(xué)習(xí)的面部表情識別.
傳統(tǒng)特征提取方法主要分為兩類:1)基于人類面部紋理特征的提取方法;2)基于光流法[4],利用運(yùn)動物體在視覺平面成像的原理進(jìn)行特征提取.由于傳統(tǒng)特征提取方法都是基于手工制作,算法依賴歷史經(jīng)驗,只能提取淺層特征,容易導(dǎo)致特征丟失.
深度學(xué)習(xí)可通過疊加多層非線性變換提取深層特征,大幅降低特征丟失的概率,因此被逐漸應(yīng)用于表情識別的研究.Tang等[5]使用深度學(xué)習(xí)與支持向量機(jī)(SVM)共同訓(xùn)練網(wǎng)絡(luò),在2013年FER挑戰(zhàn)賽的驗證集和測試集上都取得第一名.Jung等[6]采用模型融合技術(shù)設(shè)計網(wǎng)絡(luò),融合時間特征和表情特征,提高整體網(wǎng)絡(luò)的識別準(zhǔn)確率.Liu等[7]從表情圖像中提取深層次穩(wěn)健特征信息,減少光照、遮擋、低分辨率等條件的影響,使用增強(qiáng)決策樹判別面部表情所屬類別,性能和魯棒性均較優(yōu).Hariri等[8]利用三維圖像特征和二維卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征進(jìn)行特征融合,再使用融合特征的協(xié)方差矩陣檢測特征融合的效果,最后利用有監(jiān)督的支持向量機(jī)進(jìn)行表情分類.為了提高表情識別的效果,Li等[9]使用2個網(wǎng)絡(luò)分別學(xué)習(xí)表情數(shù)據(jù)集上的身份特征和表情特征,再融合2種特征并送入全連接層進(jìn)行分類輸出,準(zhǔn)確率較高.
深度學(xué)習(xí)在表情識別領(lǐng)域取得良好效果,但由于輸入圖像往往包含大面積的非表情區(qū)域,影響識別準(zhǔn)確率.近年來,受到人類注意力機(jī)制的啟發(fā),研究人員開始設(shè)計具有注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu).Hu等[10]提出SENet(Squeeze and Excitation Networks),調(diào)整特征通道的權(quán)重,加強(qiáng)關(guān)鍵特征的使用.Woo等[11]提出CBAM(Convolutional Block Attention Mo-dule),在SENet的基礎(chǔ)上增加空間維度的注意力機(jī)制.
注意力機(jī)制也被研究人員用于表情識別網(wǎng)絡(luò)中,以便增強(qiáng)網(wǎng)絡(luò)對表情相關(guān)區(qū)域特征的提取.Sun等[12]提出以聚焦于感興趣區(qū)域(Region of Interest, ROI)為核心的表情識別網(wǎng)絡(luò),并引入數(shù)據(jù)增強(qiáng)策略——Artificial Face,提高網(wǎng)絡(luò)魯棒性.Li等[13]提出端到端表情識別網(wǎng)絡(luò),引入局部二值模式(Local Binary Pattern, LBP)特征和注意力機(jī)制,使網(wǎng)絡(luò)能專注于有效特征信息.Sun等[14]提出具有注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu),前10層卷積用于提取人臉局部特征,再通過注意力機(jī)制自動識別與表情相關(guān)的特征區(qū)域,匯總這些局部特征并輸出表情的具體分類.Gan等[15]提出密集連接的空間注意力卷積神經(jīng)網(wǎng)絡(luò),可自動定位關(guān)鍵特征區(qū)域,提高表情相關(guān)特征的表達(dá).引入注意力機(jī)制雖然可提高人臉表情關(guān)鍵特征的表達(dá),但人臉面部表情復(fù)雜多樣,單一尺寸的卷積核無法充分提取表情特征.
金字塔卷積(Pyramidal Convolution, PyConv)[16]是由IIAI(Inception Institute of Artificial Intelligence)提出的一種卷積結(jié)構(gòu).PyConv對不同尺寸的卷積核進(jìn)行堆疊,實現(xiàn)多尺度的特征提取,在圖像分類、目標(biāo)檢測、圖像分割等領(lǐng)域都具有較好的應(yīng)用效果.ResNet(Residual Network)[17]使用殘差結(jié)構(gòu)學(xué)習(xí)高層特征信息,使數(shù)據(jù)能跨層流動,同時解決深層網(wǎng)絡(luò)梯度下降期間網(wǎng)絡(luò)性能退化的問題.
因此,為了充分提取面部表情特征,增強(qiáng)表情相關(guān)特征的表達(dá),本文提出基于殘差注意力機(jī)制和金字塔卷積的表情識別網(wǎng)絡(luò)(Expression Recognition Network Based on Residual Attention Mechanism and Pyramid Convolution, RAPNET).引入PyConv,有效提取多尺度特征信息,捕捉不同類表情間的細(xì)微變化.引入通道注意力機(jī)制和空間注意力機(jī)制,加速網(wǎng)絡(luò)對于關(guān)鍵特征的定位.使用Center Loss[18]和Softmax Loss的聯(lián)合損失函數(shù),縮小同類表情間的距離,降低系統(tǒng)誤判的概率.在Fer2013、CK+數(shù)據(jù)集上的實驗驗證RAPNET的有效性,并通過消融實驗,分析對比在RAPNET中引入金字塔卷積、注意力機(jī)制和聯(lián)合損失函數(shù)的效果.
為了捕捉不同表情間的細(xì)微變化,提高關(guān)鍵特征的利用效果,本文引入金字塔卷積和殘差注意力機(jī)制,設(shè)計RAPyconv(Residual Attention Pyramidal Convolution)模塊,替代標(biāo)準(zhǔn)卷積進(jìn)行表情識別中的特征提取.以RAPyconv模塊為核心,基于VGG網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建RAPNET進(jìn)行表情識別,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
圖1 RAPNET網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 RAPNET network structure
RAPNET由三部分組成:1)MTCNN(Multi-task Convolutional Network)[19],完成人臉檢測、人臉裁切及人臉對齊操作;2)特征提取網(wǎng)絡(luò),整體采用VGG堆疊式結(jié)構(gòu),在第三、四階段使用RAPyconv;3)表情識別損失函數(shù),采用Softmax Loss和Center Loss的聯(lián)合損失函數(shù),降低表情誤判的概率.
本文選用常用的MTCNN[19]快速有效地完成輸入圖像中的人臉檢測.MTCNN由P-Net、R-Net、O-Net組成,結(jié)構(gòu)如圖2所示.首先,將輸入圖像送入P-Net,P-Net先使用三層卷積捕獲人臉區(qū)域的邊界,再使用NMS(Non Maximum Suppression)合并重疊窗口.針對P-Net輸出的候選框,R-Net進(jìn)行微調(diào),再繼續(xù)使用NMS消除重疊的邊框.O-Net功能和R-Net類似,只是在去除重疊邊框的同時輸出5個人臉關(guān)鍵點.
圖2 MTCNN網(wǎng)絡(luò)結(jié)構(gòu)[19]Fig.2 MTCNN network structure[19]
常規(guī)PyConv雖然性能較優(yōu),但是無法有效利用圖像中的關(guān)鍵特征,本文結(jié)合PyConv的多尺度特征,提取引入金字塔卷積和殘差注意力機(jī)制對關(guān)鍵特征的表達(dá)能力,設(shè)計RAPyconv模塊,具體結(jié)構(gòu)如圖3所示.
圖3 RAPyconv模塊結(jié)構(gòu)Fig.3 RAPyconv module structure
為了將RAPyconv應(yīng)用于深層網(wǎng)絡(luò),解決網(wǎng)絡(luò)訓(xùn)練過程中性能下降問題,RAPyconv模塊整體采用殘差結(jié)構(gòu).RAPyconv標(biāo)準(zhǔn)殘差結(jié)構(gòu)的對比如圖4所示.本文將標(biāo)準(zhǔn)殘差模塊(圖4(a))中的3×3標(biāo)準(zhǔn)卷積替換為PM(Pyramid Module)及CBAM模塊.
(a)標(biāo)準(zhǔn)殘差模塊 (b)RAPyconv模塊(a)Standard residual module (b)RAPyconv module圖4 標(biāo)準(zhǔn)殘差模塊與RAPyconv模塊結(jié)構(gòu)對比Fig.4 Comparison between standard residual module and RAPyconv module
1.2.1PM模塊
為了充分提取面部表情的多尺度特征信息,受PyConv啟發(fā),本文設(shè)計圖5所示的PM模塊,采用的卷積核尺寸分別為1×1、3×3、5×5、7×7,g表示分組卷積中的分組數(shù),即各層卷積對應(yīng)的分組數(shù)分別為1、2、4、4.
圖5 PM模塊結(jié)構(gòu)Fig.5 PM module structure
1.2.2CBAM模塊
為了提高多尺度特征中關(guān)鍵特征的權(quán)重,本文將注意力機(jī)制CBAM[11]引入模型設(shè)計,對PM模塊提取的多尺度特征重新賦予權(quán)重,增強(qiáng)局部關(guān)鍵特征的表達(dá)能力.
CBAM由通道注意力機(jī)制CAM(Channel Atten-tion Module)和空間注意力機(jī)制SAM(Spatial Atten-tion Module)組成,其中CAM負(fù)責(zé)關(guān)注有效特征信息,SAM在補(bǔ)充通道注意力機(jī)制的同時負(fù)責(zé)生成注意力特征的空間關(guān)系.
在CAM中,輸入特征F∈RH×W×C,經(jīng)過平均池化層和最大池化層,分別得到對應(yīng)的特征圖Favg和Fmax,再根據(jù)特征信息的有效程度,使用MLP(Multi-layer Perceptron)重新賦予權(quán)重矩陣Mc∈RC×1×1,最后將Mc與F相乘,得到CAM的輸出特征:
FCAM=Mc(F)?F,
Mc(F)=
σ(MLP(Avgpool(F))+MLP(Maxpool(F))),
其中σ表示sigmoid激活函數(shù).
在SAM中,首先使用平均池化層和最大池化層匯總特征通道信息,得到2個特征F′avg和F′max,再使用卷積核尺寸為7×7、激活函數(shù)為sigmoid的卷積層進(jìn)行特征提取,得到權(quán)重矩陣Ms∈RC×1×1,最后將F與Ms相乘,得到SAM的輸出特征:
FSAM=Ms(F)?F,
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)])),
其中σ表示sigmoid激活函數(shù).
1.2.3模塊性能分析
RAPyconv模塊是本文設(shè)計的核心,根據(jù)圖4(b)中RAPyconv結(jié)構(gòu)可知,在RAPyconv模塊的特征提取過程中,輸入圖像先經(jīng)過點卷積進(jìn)行通道壓縮,降低網(wǎng)絡(luò)參數(shù)量,再通過PM模塊和CBAM模塊,最后使用點卷積進(jìn)行維度擴(kuò)充.研究表明[11],引入CBAM模塊帶來的精度提升對于網(wǎng)絡(luò)整體而言成本幾乎可忽略不計,因而RAPyconv模塊的主要計算量由PM模塊產(chǎn)生.針對PM模塊,從參數(shù)量Parameter(空間性能)和計算所需FLOPs(Floating Point Operations)(時間性能)兩方面進(jìn)行分析.
每層卷積輸出的特征通道數(shù)分別為{FMo1,FMo2,FMo3,FMo4},則PM模塊對應(yīng)的參數(shù)量和FLOPs如下:
1)多尺度處理.PM模塊具有不同尺寸和深度的卷積核,能從多個尺度解析輸入特征,并通過融合多尺度的特征,促進(jìn)面部表情特征的充分表達(dá).
2)高效性.PM模塊各層卷積能實現(xiàn)獨(dú)立并行計算,甚至可在不同機(jī)器上獨(dú)立運(yùn)行,最后進(jìn)行特征融合即可,因此整體計算效率較高.
雖然Softmax Loss可擴(kuò)大不同類間距離,但縮小類內(nèi)距離能力較差.現(xiàn)實場景中不同表情可能非常相似,同類表情也可能差異很大,僅使用Softmax Loss可能會導(dǎo)致表情誤判,影響整體網(wǎng)絡(luò)表情識別的準(zhǔn)確率.Center Loss[18]縮小類內(nèi)距離的能力較強(qiáng),因此本文將其引入網(wǎng)絡(luò),計算過程如下:
其中,xi表示輸入特征,cyi表示和yi擁有相同類別標(biāo)簽的所有樣本的中心.
因此,RAPNET網(wǎng)絡(luò)采用的損失函數(shù)為
L=LS+λLC,
其中,λ表示超參數(shù),用于平衡Center Loss在總損失中所占比重,經(jīng)過多次實驗,確定本文λ=0.000 1.
本文實驗基于python3.6,采用Keras 2.4.3進(jìn)行深度學(xué)習(xí)網(wǎng)絡(luò)的搭建,訓(xùn)練和測試系統(tǒng)為Windows10 1903.硬件條件如下:CPU為i7-9700K,基頻 3.6 GHz;內(nèi)存為32 GB;GPU 為NVIDIA GTX 2080Ti.
本文選擇在Fer2013[20]、CK+[21]數(shù)據(jù)集上進(jìn)行實驗.
Fer2013數(shù)據(jù)集[20]包含35 887幅圖像,其中訓(xùn)練集圖像為28 709幅,公共測試集圖像和私有測試集圖像各3 589幅,圖像格式統(tǒng)一為48×48的灰度圖.在給定的訓(xùn)練集中,標(biāo)簽0表示生氣、標(biāo)簽1表示厭惡、標(biāo)簽2表示恐懼、標(biāo)簽3表示高興、標(biāo)簽4表示悲傷、標(biāo)簽5表示驚喜、標(biāo)簽6表示中性.
訓(xùn)練集數(shù)據(jù)的整體分布如圖6(a)所示,其中高興類圖像最多,為7 215幅,厭惡類圖像最少,為436幅.
(a)原始訓(xùn)練集分布(a)Original training set distribution
針對Fer2013數(shù)據(jù)集數(shù)據(jù)分布不均衡、樣本中存在大量非人臉區(qū)域問題,進(jìn)行如下數(shù)據(jù)預(yù)處理.
1)由于厭惡類圖像太少,對厭惡類原始圖像采用隨機(jī)水平翻轉(zhuǎn)、旋轉(zhuǎn)、平移、縮放及灰度化等數(shù)據(jù)增強(qiáng)處理,處理后的圖像加入?yún)拹侯?,使該類?shù)據(jù)從436幅增加至4 280幅,平衡整體數(shù)據(jù)分布.
2)使用MTCNN進(jìn)行人臉裁切和人臉對齊,去除樣本中非人臉區(qū)域.
由圖4(a)可以看出,高鈦渣原料呈現(xiàn)出金屬鹽團(tuán)聚吸附包裹在表面。結(jié)合圖1,高鈦渣原料含有Mg-Ti-O、Fe-Ti-O和Fe-Mn-Ti-O等黑鈦石物相,蘇打焙燒的目的就是破壞這種難與酸反應(yīng)的結(jié)構(gòu)。楊艷華[12]對云南鈦渣直接進(jìn)行了高壓酸浸除雜實驗,實驗結(jié)果顯示高壓酸浸并沒有破壞鈦渣表面的包裹結(jié)構(gòu),TiO2的品位也只提高到了83%。圖4(b)顯示,鈦渣經(jīng)蘇打焙燒后形成了針狀、柱狀、板條狀晶體,這種結(jié)構(gòu)形態(tài)與未經(jīng)蘇打焙燒時對比發(fā)生了明顯變化,這種松散結(jié)構(gòu)可使物料的比表面積顯著增加,有利于加快焙燒鈦渣酸浸反應(yīng)的速率,明顯改善酸浸除雜效果。
3)為了使圖像數(shù)據(jù)盡可能多樣地模擬現(xiàn)實中人臉表情,針對1)、2)處理后的數(shù)據(jù),采用1)中相同的數(shù)據(jù)增強(qiáng)操作,使訓(xùn)練集圖像從32 553幅增至69 262幅,增加后的數(shù)據(jù)分布如圖6(b)所示.
CK+數(shù)據(jù)集[21]是在實驗室內(nèi)采集完成,本文選用其中327個帶有標(biāo)簽的圖像序列(共計981幅圖像)作為訓(xùn)練集,總體數(shù)據(jù)分布如圖7(a)所示,其中驚喜類圖像最多,為249幅,中性類圖像最少,為54幅.
由于訓(xùn)練集數(shù)據(jù)量太少,為了提高模型泛化能力,同樣針對數(shù)據(jù)集采用隨機(jī)水平翻轉(zhuǎn)、旋轉(zhuǎn)、平移、縮放等技術(shù)進(jìn)行數(shù)據(jù)增強(qiáng),(b)為數(shù)據(jù)增強(qiáng)之后的分布情況.
(a)原始訓(xùn)練集分布(a)Original training set distribution
實驗采用圖像分類常用評價指標(biāo):精確率、召回率、F1值和準(zhǔn)確率(Accuracy, Acc).具體公式如下:
其中,TP表示正樣本預(yù)測正確的個數(shù),F(xiàn)P表示正樣本預(yù)測錯誤的個數(shù),F(xiàn)N表示負(fù)樣本預(yù)測錯誤的個數(shù),TN表示負(fù)樣本預(yù)測正確的個數(shù),故F1值為精確率和召回率的調(diào)和平均值.
本文超參數(shù)的設(shè)置如下:批次為140,批尺寸大小為64,優(yōu)化器為Adam(Adaptive Moment Esti-mation),初始學(xué)習(xí)率為0.001,使用ReduceLROn-Plateau回調(diào)函數(shù)動態(tài)調(diào)整學(xué)習(xí)率.具體地,當(dāng)驗證集損失在20個批次內(nèi)沒有下降時,學(xué)習(xí)率降至原來的0.1.
RAPNET在Fer2013、CK+數(shù)據(jù)集上的準(zhǔn)確率曲線和損失曲線如圖8和圖9所示.由圖可知,RAP-NET具有較強(qiáng)的擬合能力,隨著批次的增加,驗證集的準(zhǔn)確率和損失在不斷優(yōu)化,網(wǎng)絡(luò)并未出現(xiàn)過擬合或欠擬合現(xiàn)象,由此驗證本文構(gòu)造的網(wǎng)絡(luò)和損失函數(shù)具有良好的泛化能力.
(a)Fer2013 (b)CK+圖9 RAPNET在2個數(shù)據(jù)集上的損失曲線Fig.9 Loss curves of RAPNET on 2 datasets
RAPNET在Fer2013測試集上的指標(biāo)值如表1所示,總體準(zhǔn)確率為72.76%.由于數(shù)據(jù)集上存在大量負(fù)樣本,部分樣本亮度較低及面部遮擋較嚴(yán)重,導(dǎo)致恐懼類和悲傷類樣本準(zhǔn)確率較低.
表1 RAPNET在Fer2013測試集上的指標(biāo)值Table 1 Indexes of RAPNET on Fer2013 test set %
RAPNET在CK+測試集上的指標(biāo)值如表2所示,總體準(zhǔn)確率為97.75%.由于CK+數(shù)據(jù)集質(zhì)量較高,沒有標(biāo)簽錯誤的訓(xùn)練樣本,因此整體準(zhǔn)確率較高.
表2 RAPNET在CK+測試集上的指標(biāo)值Table 2 Indexes of RAPNET on CK+ test set %
為了可視化CBAM和PyConv對特征提取的影響,本文將圖像分別送入4個網(wǎng)絡(luò)中,4個網(wǎng)絡(luò)分別使用常規(guī)卷積、CBAM、PyConv及CBAM+PyConv進(jìn)行特征提取,再對最后一層卷積的輸出進(jìn)行特征圖可視化(Class Activation Mapping),結(jié)果如圖10所示,圖中橘黃色區(qū)域為卷積核提取的特征區(qū)域.由圖可發(fā)現(xiàn),常規(guī)卷積的特征提取沒有針對性,關(guān)鍵特征的利用率較低.CBAM和PyConv的特征提取都可聚焦于關(guān)鍵器官,但特征提取區(qū)域仍有優(yōu)化的空間.由于輸入高興表情的圖像,圖像的關(guān)鍵特征為嘴部特征,因此CBAM+PyConv可較好地解決關(guān)鍵器官特征利用率偏低的問題.
(a)常規(guī)卷積 (b)PyConv(a)Standard convolution
為了驗證RAPNET的先進(jìn)性,在Fer2013、CK+數(shù)據(jù)集上進(jìn)行對比實驗.對比網(wǎng)絡(luò)如下:SUN[12]、MobileNets[22]、MobileNetV2[23]、DenseNet121[24]、文獻(xiàn)[25]方法~文獻(xiàn)[28]方法.各方法實驗結(jié)果如表3所示,表中文獻(xiàn)[22]~文獻(xiàn)[24]的方法在本地環(huán)境復(fù)現(xiàn).由于文獻(xiàn)[12]、文獻(xiàn)[25]~文獻(xiàn)[28]未找到可復(fù)現(xiàn)的代碼,因此實驗結(jié)果直接取自原論文.
表3 各網(wǎng)絡(luò)的實驗結(jié)果對比Table 3 Comparison of experiment results of different networks
由表3可知,在Fer2013數(shù)據(jù)集上,相比Mobile-Net、MobileNetV2、DenseNet121,RAPNET的準(zhǔn)確率提升2.9%~4.9%.相比文獻(xiàn)[25]方法,RAPNET使用金字塔卷積進(jìn)行多尺度特征提取,同時注重關(guān)鍵特征的利用,提高上下文特征的聯(lián)系.相比文獻(xiàn)[26]方法,RAPNET不需要手工提取特征,網(wǎng)絡(luò)整體參數(shù)量較少,模型訓(xùn)練和部署對設(shè)備內(nèi)存空間的要求較低.在CK+數(shù)據(jù)集上,相比其它方法,RAP-NET準(zhǔn)確率提升1.6%~2.1%.文獻(xiàn)[27]方法使用卷積層和殘差模塊搭建一個深度神經(jīng)網(wǎng)絡(luò),由于缺少注意力機(jī)制,網(wǎng)絡(luò)無法高效利用關(guān)鍵特征.文獻(xiàn)[28]方法雖然引入注意力機(jī)制,但網(wǎng)絡(luò)整體較深,參數(shù)較多,容易發(fā)生過擬合.
通過實驗對比可發(fā)現(xiàn),RAPNET參數(shù)量較少,對于設(shè)備的內(nèi)存空間要求較低,同時利用注意力機(jī)制和金字塔卷積,有效提取關(guān)鍵特征.
為了驗證RAPNET的輕量化特性,本文在Fer2013數(shù)據(jù)集上與MobileNetV2和DenseNet121進(jìn)行對比實驗,結(jié)果如表4所示.由表可見,RAPNET的預(yù)測時間和FLOPs下降幅度達(dá)到80%,相比DenseNet121,F(xiàn)LOPs下降91%.實驗表明RAPNET在實際應(yīng)用中具有較強(qiáng)的競爭力.
表4 各網(wǎng)絡(luò)的輕量化實驗結(jié)果對比Table 4 Comparison of lightweight experiment results of different networks
為了驗證CBAM、LC損失函數(shù)及PyConv的有效性,同時確定三者的輕重緩急,在Fer2013數(shù)據(jù)集(數(shù)據(jù)增強(qiáng)后)上進(jìn)行消融實驗,結(jié)果如圖11所示.origin表示原始網(wǎng)絡(luò)(含有CBAM、金字塔卷積及LC損失函數(shù));origin_CBAM表示去掉CBAM之后的網(wǎng)絡(luò);origin_LC表示去掉LC損失函數(shù)之后的網(wǎng)絡(luò)(采用Softmax損失函數(shù));origin_Pyconv表示去掉金字塔卷積之后的網(wǎng)絡(luò).由圖可看出,origin網(wǎng)絡(luò)準(zhǔn)確率最高,為72.5%,origin_LC網(wǎng)絡(luò)準(zhǔn)確率為70.5%,origin_CBAM網(wǎng)絡(luò)準(zhǔn)確率為68.2%,origin_Pyconv網(wǎng)絡(luò)準(zhǔn)確率為67.5%,都低于origin網(wǎng)絡(luò),從而驗證CBAM、LC損失函數(shù)及金字塔卷積的有效性.進(jìn)一步對比發(fā)現(xiàn),origin_Pyconv的準(zhǔn)確率最低,表明去掉PyConv之后網(wǎng)絡(luò)準(zhǔn)確率下降最大,因此PyConv作用最大,其次為CBAM,最后為LC損失函數(shù).
圖11 消融實驗結(jié)果Fig.11 Results of ablation experiment
本文提出基于殘差注意力機(jī)制和金字塔卷積的表情識別網(wǎng)絡(luò)(RAPNET),利用Pyconv模塊捕捉上下文多尺度特征,使用CBAM注意力機(jī)制模塊提高關(guān)鍵特征的利用率.為了縮小同類表情的距離,聯(lián)合Softmax Loss和Center Loss進(jìn)行網(wǎng)絡(luò)訓(xùn)練.在Fer-2013、CK+數(shù)據(jù)集上的測試準(zhǔn)確率分別為72.76%和97.75%,網(wǎng)絡(luò)參數(shù)量僅有0.67 M,表明RAPNET在現(xiàn)實場景中的應(yīng)用更具競爭力.今后一方面需要提高算法針對悲傷類表情識別的準(zhǔn)確率(相比其它類準(zhǔn)確率偏低),另一方面可結(jié)合神經(jīng)網(wǎng)絡(luò)輕量化,進(jìn)一步減少網(wǎng)絡(luò)參數(shù)量,提高網(wǎng)絡(luò)的運(yùn)行效率.