何昱均 韓永國 張紅英
摘 要:針對面部表情識別在復(fù)雜環(huán)境中遮擋和姿態(tài)變化問題,提出一種穩(wěn)健的識別模型FFDNet(feature fusion and feature decomposition net)。該算法針對人臉區(qū)域尺度的差異,采用多尺度結(jié)構(gòu)進(jìn)行特征融合,通過細(xì)粒度模塊分解和細(xì)化特征差異,同時使用編碼器捕捉具有辨別力和微小差異的特征。此外還提出一種多樣性特征損失函數(shù),驅(qū)動模型挖掘更豐富的細(xì)粒度特征。實(shí)驗(yàn)結(jié)果顯示,F(xiàn)FDNet在RAF-DB和FERPlus數(shù)據(jù)集上分別獲得了88.50%和88.75%的精度,同時在遮擋和姿態(tài)變化數(shù)據(jù)集上的性能都優(yōu)于一些先進(jìn)模型。實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。
關(guān)鍵詞:表情識別; 頭部姿態(tài); 特征解耦; 損失函數(shù)
中圖分類號:TP391.41 文獻(xiàn)標(biāo)志碼:A?文章編號:1001-3695(2024)05-042-1578-07
doi:10.19734/j.issn.1001-3695.2023.08.0394
FFDNet:fine-grained facial expression recognition in challenging environments
Abstract:This paper proposed a robust recognition model FFDNet for facial expression recognition in complex environments with occlusion and pose variation of the face. The algorithm used a multi-scale structure for feature fusion to address the diffe-rences in face region scales. It decomposed feature differences and fine-grained by fine-grained modules, and used encoders to capture features with discriminative power and small differences. Furthermore it proposed a diversity feature loss function to drive the model to mine richer fine-grained features. Experimental results show that FFDNet obtains 88.50% and 88.75% accuracy on the RAF-DB and FERPlus datasets, respectively, while outperforming some state-of-the-art models on both occlusion and pose variation datasets. The experimental results demonstrate the effectiveness of the algorithm.
Key words:expression recognition; head position; feature decoupling; loss function
0 引言
面部表情是人類交流時傳遞信息的重要方法。心理學(xué)家Mehrabian[1]的研究表明, 人類的感情傳遞55%來自于面部表情。面部表情識別旨在通過算法自動識別人臉情緒,在虛擬現(xiàn)實(shí)、心理輔導(dǎo)和健康檢測等方面有重要應(yīng)用,吸引了學(xué)術(shù)界和工業(yè)界的大量關(guān)注[2]。
早期針對人臉表情識別的研究在受控的實(shí)驗(yàn)室場景中進(jìn)行,因?yàn)榄h(huán)境良好,所以如梯度方向直方圖[3]、局部二值模式[4] 和主成分分析法[4]等人工設(shè)計(jì)特征提取器的方法能夠獲得良好的性能。近年來,無約束野外場景下的人臉表情識別備受關(guān)注。然而,在這一背景下,人臉遮擋和姿態(tài)變化問題成為了人臉表情識別所面臨的新挑戰(zhàn)。人臉遮擋會極大地改變?nèi)四樀囊曈X外觀,嚴(yán)重影響人臉表情識別的準(zhǔn)確度。由于遮擋導(dǎo)致人臉特征定位不準(zhǔn)確、人臉對齊不精確或配準(zhǔn)錯誤,進(jìn)而增加了從被遮擋的面部提取可鑒別特征的難度[5]。人臉姿態(tài)變化則會造成特定的面部特征(如眼睛、嘴巴等)在圖像中的位置和形狀發(fā)生變化,相同的表情在不同的頭部姿態(tài)下會呈現(xiàn)出不同的視覺特征,給表情識別帶來挑戰(zhàn)。為了解決這些問題,一些研究工作進(jìn)行了探索。何俊等人[6]為解決人臉識別多角度問題,首先提取回歸模型的增量修正特征,然后用PCA進(jìn)行特征選擇,最后采用判別共享高斯過程隱變量模型識別多角度人臉表情。Wang等人[7]使用隨機(jī)裁剪和基于關(guān)鍵點(diǎn)的裁剪,生成不同的面部區(qū)塊圖像,以緩解遮擋和姿態(tài)對表情識別的影響。Ye等人[8]注重利用表情識別中人臉的關(guān)鍵部分信息,結(jié)合兩層注意力機(jī)制的CNN-LSTM,有效地挖掘重要區(qū)域的信息。王素琴等人[9]基于GAN先對遮擋人臉圖像填補(bǔ)修復(fù),再進(jìn)行表情識別。鄭劍等人[10]關(guān)注到人臉局部細(xì)節(jié)信息的重要性,使用雙分支結(jié)構(gòu)分別提取全局特征和局部特征,使用兩階段注意力權(quán)重學(xué)習(xí)策略,按重要性權(quán)重融合全局和局部特征,同時采用區(qū)域偏向損失函數(shù)鼓勵重要區(qū)域,獲得較高的注意力權(quán)重。
上述方法側(cè)重于提取具有較強(qiáng)判別能力的特征,如眼睛、嘴巴、額頭等在不同表情中變化顯著的強(qiáng)特征。然而,這些強(qiáng)特征往往只占據(jù)了人臉區(qū)域的一部分。在人臉遮擋或頭部姿態(tài)變化情況下,人臉顯著特征缺失,會帶來嚴(yán)重的精度損失。與之相對應(yīng)的,一些在表情變化中變化微弱、但由于其分布廣泛而對于識別過程同樣重要的弱特征,如鼻翼、顴骨肌肉、眉毛等區(qū)域,卻沒有針對性的研究。在實(shí)際場景中,由于人臉遮擋和頭部姿態(tài)的變化,面部區(qū)域的信息會受到不同程度的損失。這也就意味著,除了關(guān)注強(qiáng)特征外,亦需關(guān)注弱特征,以提高模型的魯棒性。弱特征因?yàn)閰^(qū)域尺度較小,在特征提取過程中,會逐漸消失在模型不同的特征層中,所以本文的多尺度特征融合方法顯得尤為重要。多尺度方法能夠從全局和局部兩個方面出發(fā),綜合提取人臉中與表情相關(guān)的強(qiáng)特征和弱特征,從而擴(kuò)大特征信息的覆蓋范圍,有效地緩解姿態(tài)變化和人臉遮擋問題。
通過多尺度特征融合方法能夠獲取更為豐富和多樣化的特征信息。然而,在人臉遮擋和頭部姿態(tài)變化的情境下,對殘存人臉的融合特征進(jìn)行細(xì)膩的識別,能夠提升人臉表情識別的效果。通過將多尺度的融合特征分解為多組細(xì)粒度特征,可以將原本融合的整體特征細(xì)分為更小、更具體的特征。這樣做的好處在于,細(xì)粒度特征更加具有針對性,可以專注于捕獲細(xì)微的、特定于面部表情的特征差異。例如,在“開心”和“憤怒”兩種表情中只采用整體的特征,可能會注意到一些共性,比如嘴巴的張開程度。然而,通過細(xì)粒度特征分解可以更加具體地關(guān)注在“開心”時嘴角的上揚(yáng)程度,以及在“憤怒”時嘴角的下垂程度等細(xì)微差別,從而更準(zhǔn)確地辨識這兩種表情。因此,本文使用細(xì)粒度模塊將融合特征分解為多組細(xì)粒度特征以感知面部動作,有效提升面部表情識別對細(xì)微特征差別的識別能力,這在復(fù)雜環(huán)境下非常具有優(yōu)勢。在特征分解過程中,為了得到差異性高冗余性低的多細(xì)粒度特征,設(shè)計(jì)了一種多樣性損失驅(qū)動模型分解多樣性特征,提高模型表征能力。同時,充分利用編碼器encoder的優(yōu)勢,挖掘細(xì)粒度特征之間的潛在關(guān)系,有助于在捕獲微小差異特征的同時,更為專注那些具有更高價值的特征。綜上所述,本文的主要貢獻(xiàn)總結(jié)如下:
a)基于特征融合和特征分解的思想,提出了針對頭部姿態(tài)和遮擋問題的表情識別網(wǎng)絡(luò)FFDNet。FFDNet利用卷積神經(jīng)網(wǎng)絡(luò)獲得全局和局部特征,并且通過encoder模塊挖掘潛在的特征關(guān)系,從而精準(zhǔn)捕獲面部表情間的差異。
b)利用融合單元構(gòu)建多尺度模塊,獲取不同感受野和處于不同深度的特征。融合單元具有不同的功能,通過GSConv卷積對特征進(jìn)行壓縮、擴(kuò)展、交互和下采樣。多尺度模塊在面部表情識別中能夠提取不同尺度區(qū)域的特征,有助于獲得更豐富的面部表情信息。
c)提出細(xì)粒度模塊,將包含高級語義信息的結(jié)構(gòu)特征分解為多組細(xì)粒度特征。每個特征都會學(xué)習(xí)一個特征關(guān)系權(quán)重,并使用encoder來捕獲潛在特征之間的內(nèi)在關(guān)系,從而獲得具有區(qū)分性特征的表示。
d)為了提取更加豐富的細(xì)粒度特征,設(shè)計(jì)了多樣性特征損失(diversity feature loss,DF loss)。通過降低細(xì)粒度特征之間的相似性促進(jìn)特征的多樣性和豐富性。
最后,F(xiàn)FDNet在野外數(shù)據(jù)集中進(jìn)行了廣泛實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,F(xiàn)FDNet優(yōu)于幾種先進(jìn)的人臉表情識別方法。同時在姿態(tài)變化和遮擋數(shù)據(jù)集上的精度更是顯著優(yōu)于幾種先進(jìn)算法。這表明基于特征融合和特征分解的方法能夠進(jìn)一步提高面部表情識別,尤其是復(fù)雜情況下的識別性能。
1 相關(guān)工作
自文獻(xiàn)[11]第一次提出對表情進(jìn)行研究后,人臉表情識別的研究一直在繼續(xù)。目前對于人臉表情識別任務(wù),常見的方法是提取面部表情的特征,然后根據(jù)特征進(jìn)行分類。早期的人臉識別通常使用人工設(shè)計(jì)提取特征,然后使用支持向量機(jī)[12]和AdaBoost[13]等分類器進(jìn)行分類。
得益于計(jì)算機(jī)視覺的發(fā)展,基于深度學(xué)習(xí)的表情識別獲得了巨大進(jìn)步。數(shù)據(jù)集是深度學(xué)習(xí)算法的重要部分。從數(shù)據(jù)集難易程度大致可以分為實(shí)驗(yàn)室受控?cái)?shù)據(jù)集和野外數(shù)據(jù)集。野外數(shù)據(jù)集因?yàn)闃颖痉植几咏鎸?shí)使用場景而受到廣泛關(guān)注。但是數(shù)據(jù)集中完整且姿勢標(biāo)準(zhǔn)的人臉樣本占據(jù)大多數(shù),而遮擋和姿態(tài)變化等的復(fù)雜樣本較少,給模型的泛化性帶來了困擾。人為收集并標(biāo)注大量復(fù)雜情況的樣本幾乎是不可能的?;趯股删W(wǎng)絡(luò)GAN的圖像合成方法帶來了新的解決方案。Huang等人[14]提出了TP-GAN,該模型使用單張圖像可以合成正面照,在大姿態(tài)情況下也能夠保持身份特征和較好的真實(shí)感。Tran等人[15]提出了DR-GAN,學(xué)習(xí)和其他臉部信息如頭部姿態(tài)解耦的特征,可以通過單張或多張同身份的圖片有效轉(zhuǎn)正側(cè)臉。Xie等人[16]認(rèn)為從圖像中提取的特征通常和其他面部屬性比如姿勢等糾纏在一起,這對于FER不利。所以提出一種雙分支解纏生成對抗網(wǎng)絡(luò)模塊,引入兩個鑒別器進(jìn)行身份和表達(dá)分類,分離表情和其他屬性。
目前許多工作注重提取人臉表情特征,以實(shí)現(xiàn)更好的分類效果。比如Gera等人[17]使用遷移學(xué)習(xí)得到一個特征提取器結(jié)構(gòu),通過高效通道注意力鼓勵有效特征并抑制無效特征。Fard等人[18]針對面部圖像的類內(nèi)差異和類間相似性問題,提出Ad-Corre損失。該損失函數(shù)指導(dǎo)網(wǎng)絡(luò)生成類內(nèi)樣本相關(guān)性高、類間樣本相關(guān)性較低的嵌入式特征向量。Xue等人[19]使用multi-attention dropping隨機(jī)丟棄注意力圖增強(qiáng)局部區(qū)域在表情識別中的作用,利用Transformer探索不同局部區(qū)域之間的豐富聯(lián)系。Ruan等人[20]提出基于特征分解和重構(gòu)的特征學(xué)習(xí)方法。通過特征分解模擬表情相似性,然后捕獲特征類間和類內(nèi)的關(guān)系,并以此重建表情特征。Wang等人[21]在人臉表情識別數(shù)據(jù)集上建立自我關(guān)注機(jī)制,利用排名正則化對訓(xùn)練中的每個樣本進(jìn)行加權(quán),并建立重新標(biāo)記機(jī)制,以修改排名最低組中樣本的標(biāo)簽。
但是這些工作沒有很好地解決遮擋、姿態(tài)變化的問題。目前的研究工作證明了從全局和多尺度解決人臉表情識別中的復(fù)雜情況是非常有效果的。Xia等人[22]針對遮擋和姿態(tài)變化,提出了多尺度特征融合網(wǎng)絡(luò)。該模型將分成不同粒度的局部區(qū)域形成新圖像,從細(xì)粒度到粗粒度輸入圖像,逐步挖掘局部細(xì)粒度信息、粗粒度信息和全局信息。同時使用多尺度特征融合策略捕獲細(xì)微類間的變化特征。Zhao等人[23]使用多尺度模塊融合具有不同感受野的特征,降低了更深層次卷積對遮擋和變化姿態(tài)的易感性。同時使用局部注意力模塊引導(dǎo)網(wǎng)絡(luò)關(guān)注局部的顯著特征。Gera等人[17]在模型的不同深度上將特征圖進(jìn)行分割,得到多個區(qū)域,獲取到全局上下文信息和局部上下文信息。Liao等人[24]從三重注意力的卷積神經(jīng)網(wǎng)絡(luò)分支中獲取全局特征向量,從關(guān)鍵點(diǎn)引導(dǎo)的注意分支中獲取局部特征向量,最后使用拓?fù)鋱D和圖匹配模塊增強(qiáng)信息表達(dá)和區(qū)分不同表情的能力。Cho等人[25]提出了一種局部注意力網(wǎng)絡(luò),它根據(jù)姿勢變化,自適應(yīng)地捕捉重要的面部區(qū)域。Ma等人[26]提出了同時接收RGB圖和LBP特征圖的模型,使用注意選擇性融合進(jìn)行特征融合,然后使用Transformer在可視詞和全局子注意力之間構(gòu)建相關(guān)性。自Vision of Transformer[27]工作獲得成功后,Transformer被廣泛用于計(jì)算機(jī)視覺。ViT將Transformer成功應(yīng)用在圖像分類領(lǐng)域,其模型簡單、效果好,且可擴(kuò)展性強(qiáng)。ViT通過將圖像分解為大小相同的區(qū)域并嵌入為向量,在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,實(shí)現(xiàn)了與CNN有競爭力的效果。目前基于Transformer的表情識別分為基于完全的Transformer和基于CNN和Transformer組合模式兩種。比如Akeh等人[28]使用完全ViT架構(gòu)進(jìn)行表情識別,將圖像劃分為區(qū)域后,輸入ViT模塊中進(jìn)行識別。另一種如Xue等人[19]使用CNN提取特征圖,將特征圖劃分為patch輸入ViT中進(jìn)行分類。
受這些工作的啟發(fā),本文設(shè)計(jì)了一個基于特征融合和特征分解的多細(xì)粒度關(guān)系感知網(wǎng)絡(luò)。通過采用特征融合技術(shù),能夠提取豐富的多尺度特征,同時關(guān)注到關(guān)鍵的微小人臉區(qū)域。接著采用特征分解和encoder來從全局層面探索多尺度潛在特征之間的關(guān)系,從而幫助模型集中關(guān)注具有辨別力的面部區(qū)域和微小特征。
2 本文方法
本章將介紹模型的整體結(jié)構(gòu)以及各部分的實(shí)現(xiàn)細(xì)節(jié)。如圖1所示,F(xiàn)FDNet由用于特征融合的多尺度模塊、分解融合特征的細(xì)粒度模塊和特征關(guān)系提取模塊encoder三個部分組成。在特征提取模塊,F(xiàn)FDNet使用ResNet34[29]作為骨干網(wǎng)絡(luò),因?yàn)樗哂泻芎玫姆夯阅?。特征關(guān)系提取模塊則使用Transformer的encoder完成。
2.1 特征提取和多尺度模塊
針對輸入圖像,首先需要進(jìn)行特征提取。ResNet是一種深度卷積神經(jīng)網(wǎng)絡(luò),其允許網(wǎng)絡(luò)學(xué)習(xí)殘差映射,從而增加網(wǎng)絡(luò)的深度。FFDNet的特征提取使用ResNet34。該網(wǎng)絡(luò)有四個stage,每個stage輸出特征的分辨率分別為40×40,20×20,10×10和5×5。
正如上文所述,人臉中貢獻(xiàn)給表情識別的區(qū)域尺度是不同的。在特征提取時,不同尺度區(qū)域的特征信息會分布在模型的不同深度中,導(dǎo)致模型更加關(guān)注擁有顯著和較大尺度的人臉區(qū)域。然而當(dāng)人臉受到遮擋或者姿態(tài)變化,顯著區(qū)域可能會出現(xiàn)缺失,這將嚴(yán)重影響模型的識別性能。
特征融合可以很好地解決該問題。首先,特征融合能夠整合來自不同層次的特征圖,這些特征圖具有不同的分辨率和語義信息,從而實(shí)現(xiàn)了多尺度特征表達(dá)。其次,該方法可以將低層特征的細(xì)節(jié)信息與高層特征的語義信息融合在一起,為模型提供更豐富的特征信息。當(dāng)然,特征融合還有助于增加網(wǎng)絡(luò)的深度和寬度,從而提高網(wǎng)絡(luò)的魯棒性,使其能夠更好地應(yīng)對圖像中的變形、遮擋、噪聲等問題。
多尺度的特征融合通常采用自頂向下的方式,能夠有效傳輸定位信息。然而,在分類任務(wù)中并不需要定位信息。所以FFDNet的特征融合方式在建立不同特征級別間的信息流時,更偏重深度特征。圖1中feature fusion部分展示該特征融合算法的結(jié)構(gòu)。該結(jié)構(gòu)共進(jìn)行了三次特征融合。前兩次分別融合了ResNet模塊stage1~3的高分辨率低語義特征和stage2~4的低分辨率高語義特征。最后融合了前兩次融合的輸出以及最具有語義信息的stage4輸出。最終得到一個長度為512的特征向量,用于進(jìn)一步的任務(wù)處理。
在特征融合過程中,過于復(fù)雜的模型不利于收斂,所以FFDNet采用了GSConv[30]。如圖2所示,GSConv通過將原始卷積、深度可分離卷積和通道混洗混合在一起得到。這種方法解決了深度可分離卷積在通道信息上也是深度可分離的問題,同時在特征提取能力和速度之間取得了較好的平衡。除了計(jì)算量的優(yōu)勢外,GSConv還可以通過控制卷積的stride實(shí)現(xiàn)不同倍的下采樣,并通過點(diǎn)卷積實(shí)現(xiàn)通道交互并調(diào)節(jié)通道數(shù)。這些操作在多尺度特征融合時被廣泛使用,使得FFDNet在特征融合過程中能夠更加高效地處理任務(wù)。
單個融合單元(fusion unit,F(xiàn)U)結(jié)構(gòu)如圖3所示。每個GSConv塊使用兩個GSConv堆疊。每個FU使用四個GSConv塊,分別完成通道調(diào)節(jié)、通道交互和下采樣功能。FU中所有卷積都是用1×1的感受野。這沒有改變特征的感受野,只是將特征信息進(jìn)行融合和傳遞。淺層的粗級特征會通過FU模塊向深層流動,并且和細(xì)級特征進(jìn)行融合。最終在模型的各層中建立直接的信息流,增強(qiáng)了特征的表示。
2.2 細(xì)粒度模塊
由于人臉具有相似的全局結(jié)構(gòu),所以人臉表情識別可以視為一種細(xì)粒度分類任務(wù)。要實(shí)現(xiàn)高性能的細(xì)粒度分類,需要捕捉能夠有效區(qū)分不同類別、細(xì)微差異的細(xì)粒度特征。在前面的FFDNet中,通過特征融合提取了在網(wǎng)絡(luò)不同深度的特征,這在一定程度上促進(jìn)了細(xì)粒度特征的提取,但是多層感知機(jī)對于從融合特征中分解細(xì)粒度特征并不敏感。
細(xì)粒度模塊將融合的特征向量分解為多組細(xì)粒度特征,然后encoder探索這些細(xì)粒度特征之間的關(guān)系,捕獲對不同表情類別敏感的特征。在圖4中,細(xì)粒度模塊首先使用FC和ReLU對融合特征進(jìn)行特征映射,從融合特征中獲取差異化信息。不同分支從融合特征中分離出不同特征,將一個融合特征分解為多組不同的潛在特征。潛在特征的不同維度代表不同的元信息,而特征內(nèi)部元信息的關(guān)注度應(yīng)當(dāng)是不同的,因此需要為特征分配一個特征內(nèi)關(guān)系權(quán)重。
首先通過FC產(chǎn)生一個和潛在向量等長的權(quán)重向量,然后通過sigmoid映射到合理數(shù)值得到內(nèi)特征權(quán)重,從而得到一個自感知的特征。在整個過程中,長度為512的融合特征向量通過細(xì)粒度模塊被分解為多組細(xì)粒度特征,作為特征序列送入encoder中進(jìn)行特征挖掘和分類。
2.3 多樣性損失
融合特征被分解為多個細(xì)粒度特征的過程中,特征冗余是無法避免的。為此設(shè)計(jì)一種降低冗余,提高特征多樣性的損失函數(shù)DF loss(diversity feature loss)。FFDNet希望不同的細(xì)粒度特征在特征空間是不同的矢量,它們具有不同的方向。DF loss對于特征向量在空間中的大小并不關(guān)心,因?yàn)橥较虿煌笮〉奶卣魇枪簿€向量。共線向量可以通過放大或者縮小一個向量得到。所以使用余弦相似度(cos similarity,CS)衡量兩個特征在方向上的相似度,公式如下:
其中:u和v分別代表兩個細(xì)粒度特征向量;L為向量的長度。當(dāng)u和v在方向上等同時,相似度為1,反之則為-1。
假設(shè)細(xì)粒度模塊中的特征分解為N個細(xì)粒度特征。計(jì)算每個細(xì)粒度特征之間的相似性,會產(chǎn)生N×N個相似度結(jié)果,定義為相似性矩陣CORMN×N。因?yàn)镃S(u,v)等于CS(v,u),且CS(u,u)=1,所以CORMN×N是一個對角線值為1的對稱矩陣。其中CORM[i,j]代表第i和j個向量間的相似性。相似性越低,兩個特征之間就具有更強(qiáng)的差異性。具體來講,CORMN×N和細(xì)粒度特征的關(guān)系用式(2)表示。
其中:Fn表示第n個細(xì)粒度特征。該矩陣清晰展示了多組細(xì)粒度特征兩兩之間的相似性程度。對于批次大小為B的樣本,會得到批相似性矩陣BCORMB×N×N。但是訓(xùn)練時,會存在有分類錯誤的樣本,該類樣本的特征及其特征相似度不具有參考價值。所以需要過濾錯誤分類樣本的相似性矩陣。
對于批次大小為B的樣本,有target labels TL={TL1,TL2,…,TLB},有預(yù)測類別predict labels PL={PL1,PL2,…,PLB},分類是否正確的判別函數(shù)為
然后,定義分類結(jié)果:
在訓(xùn)練過程中,DF loss結(jié)合了交叉熵?fù)p失函數(shù),總的損失函數(shù)如下:
Losstotal=CELoss+λDFLoss(6)
DF loss只是在模型訓(xùn)練過程中提供輔助,所以λ被用來調(diào)節(jié)CE loss和DF loss的比例,通常設(shè)置λ值小于1。
3 實(shí)驗(yàn)結(jié)果與分析
本文在兩個野外數(shù)據(jù)集RAF-DB[31]和FERPlus[32]以及姿態(tài)變化和遮擋數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證FFDNet在表情識別尤其是復(fù)雜任務(wù)下的優(yōu)越性。
3.1 數(shù)據(jù)集
圖5中展示了RAF-DB和FERPlus數(shù)據(jù)集中的部分樣本。
a)RAF-DB。該數(shù)據(jù)集是一個擁有30 000張面部圖像的野外表情數(shù)據(jù)庫。數(shù)據(jù)集分為單標(biāo)簽子集和多標(biāo)簽子集。本文只使用了單標(biāo)簽表情圖像,包括七種基本情緒(驚訝、害怕、厭惡、開心、傷心、憤怒和中性)。其中12 271幅圖像作為訓(xùn)練集,3 068幅圖像作為測試集。
b)FERPlus。該數(shù)據(jù)集是FER2013數(shù)據(jù)集的擴(kuò)展版本,提供了更準(zhǔn)確和豐富的標(biāo)簽,以及一些增強(qiáng)的圖像質(zhì)量。FERPlus數(shù)據(jù)集中包含來自各種真實(shí)場景和環(huán)境的人臉圖像,這些圖像包含八種基本的表情類別,相比于RAF-DB數(shù)據(jù)集多了contempt類別。
c)occlusion datasets。為了驗(yàn)證模型在遮擋條件下的性能,Wang等人[7]從RAF-DB和FERPlus的測試集中收集了面部遮擋圖像作為遮擋數(shù)據(jù)集。兩個數(shù)據(jù)集的遮擋圖像分別有735張和605張。
d)pose variation datasets。同時為了驗(yàn)證模塊在不同頭部姿態(tài)下的性能,Wang等人[7]從RAF-DB和FERPlus的測試集中收集了頭部姿態(tài)變化的圖像。在姿態(tài)RAF-DB和姿態(tài)FERPlus數(shù)據(jù)集中,有1 248張和1 171張圖像的俯仰角和偏航角大于30°,558和634張圖像大于45°。
3.2 實(shí)驗(yàn)細(xì)節(jié)
本文使用對齊的人臉表情樣本作為模型的輸入,分辨率設(shè)置為40×40。在訓(xùn)練中采用了數(shù)據(jù)增強(qiáng)方法(比如隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)擦除等)緩解過擬合問題。
模型框架使用PyTorch搭建,在Intel i5-13600k和NVIDIA 3080 Ti硬件設(shè)備上進(jìn)行訓(xùn)練。對于所有數(shù)據(jù)集均設(shè)置批次大小為64,模型訓(xùn)練200個epoch。優(yōu)化器使用Adam,初始學(xué)習(xí)率使用0.001,并使用reduce學(xué)習(xí)率衰減策略。這樣的策略有助于模型更好地收斂。
3.3 消融實(shí)驗(yàn)
為了顯示FFDNet各模塊的有效性,本文在野外數(shù)據(jù)集RAF-DB和FERPlus上進(jìn)行了消融實(shí)驗(yàn),評估不同模塊對性能的影響。實(shí)驗(yàn)結(jié)果如表1所示。
基線網(wǎng)絡(luò)(實(shí)驗(yàn)1)將ResNet34提取的特征直接簡單嵌入后送入encoder中,不使用其他策略。但是由于嵌入過程中,特征沒有平滑過渡,其性能沒有優(yōu)勢。實(shí)驗(yàn)2在基線上新增了特征融合,即在卷積特征提取階段使用了本文的特征融合模塊,然后將融合特征輸入encoder中。
與基線相比,實(shí)驗(yàn)2的性能有了顯著提升(0.64%,0.56%)。這證明了特征融合在人臉表情識別中的有效性。有效性的原因在于特征融合從不同層次不同尺度的特征圖融合信息,同時捕獲低級別的細(xì)節(jié)信息和高級別的語義信息。特征融合也為模型創(chuàng)建了類似殘差的更短更多的路徑,在一定程度上也緩解了梯度消失的問題。
實(shí)驗(yàn)3在baseline上使用了特征融合和特征分解策略,在兩個數(shù)據(jù)集上分別提升了0.89%和0.42%。特征融合能夠提升特征的豐富性,但是沒有重點(diǎn)關(guān)注區(qū)分性特征。在融合的特征上進(jìn)行特征分解得到細(xì)粒度特征,能夠驅(qū)動模型在豐富的特征中挖掘有區(qū)分性的特征。
實(shí)驗(yàn)4進(jìn)一步使用了DF loss,該損失函數(shù)降低了細(xì)粒度特征中的冗余信息,推動模型挖掘更多差異性的細(xì)粒度特征。該實(shí)驗(yàn)在兩個數(shù)據(jù)集上獲得了0.4%和0.21%的提升,證明了該損失函數(shù)的有效性。
a)細(xì)粒度特征分解數(shù)量對模型的影響。在特征分解中,融合特征被分解為多個細(xì)粒度特征。細(xì)粒度特征的數(shù)量和特征的維度都是可調(diào)的參數(shù),所以該實(shí)驗(yàn)將在RAF-DB數(shù)據(jù)集上探討這兩種參數(shù)對模型影響。
圖6(a)展示特征分解時不同特征個數(shù)在RAF-DB數(shù)據(jù)集上的測試精度。可以看到當(dāng)分解個數(shù)為33時能夠獲得最佳性能。一方面,當(dāng)使用小數(shù)量的細(xì)粒度特征時,特征的表達(dá)能力有限,模型難以充分挖掘數(shù)據(jù)中的復(fù)雜特征,導(dǎo)致性能下降。另一方面,當(dāng)特征數(shù)更多時會增加網(wǎng)絡(luò)的深度,從而可能導(dǎo)致梯度消失或梯度爆炸問題。同時計(jì)算復(fù)雜度增加,可能會過度擬合訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)。
圖6(b)展示了細(xì)粒度特征向量不同維度對模型的性能影響??梢钥吹?,當(dāng)向量維度為216時獲得了最佳的分類精度。但是相比于192維度只有極小的提升,所以在FFDNet中使用了計(jì)算量更少的192維度。
同樣地,當(dāng)用更低的維度表征細(xì)粒度特征時,表達(dá)能力有限。當(dāng)使用更高的維度時,會增加計(jì)算復(fù)雜度,使得模型難以訓(xùn)練。
b)t-SNE可視化。為了進(jìn)一步展示特征融合和特征分解方法的有效性,該實(shí)驗(yàn)使用t-SNE在二維空間上進(jìn)行可視化。如圖7所示,不同顏色代表不同的類別。點(diǎn)代表RAF-DB測試集的樣本。在baseline(圖7(a))上有一定的聚類效果,但是類別間隔不明顯。使用特征融合后的算法(圖7(b))能夠捕獲更多人臉區(qū)域特征,所以有更好的分類間隔。特征分解能夠關(guān)注融合特征上更具有辨別力的特征(圖7(c)),特別是對于存在遮擋、姿態(tài)偏移和相似的類間樣本,有著更好的判別力。所以在t-SNE中類間間隔有了擴(kuò)大,提升了模型的性能。
3.4 與先進(jìn)算法對比
1)在RAF-DB上的對比情況
表2顯示了FFDNet與幾種先進(jìn)的人臉表情識別方法在RAF-DB數(shù)據(jù)集上的比較結(jié)果。
從表2可以看出,F(xiàn)FDNet方法的分類準(zhǔn)確率最高,達(dá)到了88.50%。與VTFF和PACVT相比,提高了0.36%和0.29%。MA-Net、CERN、PACVT和本文方法一樣,通過探索多尺度全局特征對人臉表情識別的有效性。RAN使用多區(qū)域的輸入實(shí)現(xiàn)對遮擋和姿態(tài)的魯棒性。Ad-corre通過設(shè)計(jì)復(fù)雜的損失函數(shù)促進(jìn)特征的多樣性。但是相比于這些方法,F(xiàn)FDNet獲得了更高的精度。這是因?yàn)槌岁P(guān)注大視野的特征外,F(xiàn)FDNet還注重豐富特征中各細(xì)粒度特征間的關(guān)系。
圖8為FFDNet在RAF-DB數(shù)據(jù)集上的混淆矩陣??梢钥吹剑現(xiàn)FDNet在驚訝、開心、傷心、憤怒和中性上分別獲得了88%、96%、87%、83%和88%的可觀精度。但是在害怕和厭惡類別上的精度較差,原因是多方面的。一方面,從圖5可以看出,這兩種表情與開心憤怒等表情相比,沒有較為強(qiáng)烈的特征變化,并且非常相似。另一方面,這兩類表情的數(shù)據(jù)樣本數(shù)量偏低,也使得網(wǎng)絡(luò)在兩種表情上的泛化性弱。
2)在FERPlus上的對比情況
表3顯示了先進(jìn)方法在FERPlus數(shù)據(jù)集上的結(jié)果。從表3可以看到,F(xiàn)FDNet獲得了最高的性能,達(dá)到了88.75%。SCN針對數(shù)據(jù)集標(biāo)簽進(jìn)行優(yōu)化。RAN將圖片裁剪為多個區(qū)塊作為輸入,提高模型對遮擋人臉的魯棒性。LAN使用局部注意力網(wǎng)絡(luò),根據(jù)姿態(tài)變化自適應(yīng)捕捉重要面部區(qū)域的注意力。文獻(xiàn)[34]使用雙分支結(jié)構(gòu)將表情識別中的不利因素解耦過濾,實(shí)現(xiàn)了較好的分類性能。與這些方法相比,F(xiàn)FDNet注重特征的尺度性,并挖掘特征的潛在關(guān)系,實(shí)現(xiàn)了更優(yōu)的性能。
圖9為FFDNet在FERPlus數(shù)據(jù)集上的混淆矩陣。可以看到在中性、開心、驚訝和憤怒類別上獲得了非常好的性能。與RAF-DB數(shù)據(jù)集一樣,在害怕和厭惡類別上的精度較低。輕蔑類別是FERPlus數(shù)據(jù)集在FER2013上新增的類別。從圖5可以看到,輕蔑和中性類別的人臉具有很高的相似性,從混淆矩陣可以看到,輕蔑類別經(jīng)常被錯分為中性類別。這也是FERPlus數(shù)據(jù)集上的一個難點(diǎn)。
3.5 在遮擋和姿態(tài)數(shù)據(jù)集上的實(shí)驗(yàn)
為了驗(yàn)證FFDNet在復(fù)雜場景下能夠?qū)崿F(xiàn)非常好的性能,本文在遮擋和姿態(tài)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
表4是FFDNet和先進(jìn)算法在姿態(tài)變化的人臉表情數(shù)據(jù)集上的結(jié)果,最佳精度使用加粗字體表示??梢钥吹紽FDNet在姿態(tài)變化數(shù)據(jù)集上相比于其他先進(jìn)算法有更好的表現(xiàn)。特別是在Pose-RAF-DB數(shù)據(jù)集上比其他算法有很大的優(yōu)勢,在兩種姿態(tài)數(shù)據(jù)集上分別比其他最先進(jìn)算法提升了0.58%和0.49%。
表5是FFDNet和先進(jìn)算法在遮擋人臉表情數(shù)據(jù)集上的結(jié)果,最佳精度使用加粗字體表示。可以看到FFDNet總是獲得最優(yōu)分類性能,在兩個遮擋數(shù)據(jù)集上分別獲得了84.13%和85.12%的精度。特別地,在Occlusion-RAF-DB上的性能與其他算法相比有較大的優(yōu)勢。
在姿態(tài)變化和遮擋數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,F(xiàn)FDNet使用特征融合和細(xì)粒度特征分解能夠有效提取和捕獲具有分辨力的特征,實(shí)現(xiàn)在復(fù)雜情況下更具有判別力的人臉表情識別算法。
3.6 可視化分析
為了更好地解釋FFDNet的有效性,本實(shí)驗(yàn)使用Grad-CAM[37]方法對基線模型、基線模型+特征融合和FFDNet三種模型進(jìn)行可視化分析。為了更清楚地表達(dá)模型在復(fù)雜情況下的有效性,本文從RAF-DB中收集了包含光照、姿態(tài)變化、遮擋等情況的圖像樣本進(jìn)行可視化。從圖10可以看到,特征融合的感受尺度(圖10(c))總體上是比基線網(wǎng)絡(luò)(圖10(b))更大,這也說明特征融合能夠提取感受野更大、語義信息更豐富的特征,但是更豐富的特征并沒有重點(diǎn)關(guān)注有辨別力的區(qū)域。FFDNet中通過細(xì)粒度特征分解和encoder進(jìn)行特征關(guān)系提取,能夠從豐富特征中定位更具有判別力的特征。從圖10可以看到,使用了特征分解的FFDNet(圖10(d))是從(特征融合得到的)尺度泛濫的特征上收斂到更重要的區(qū)域上,總是能穩(wěn)健地定位到正確的人臉區(qū)域。特征融合擴(kuò)大特征尺度,特征分解后通過encoder能夠挖掘和關(guān)注更重要的特征,所以FFDNet在復(fù)雜情況數(shù)據(jù)集上總是能獲得更加優(yōu)異的性能。
3.7 算法實(shí)時性
為了評估該模型在實(shí)際應(yīng)用中的執(zhí)行性能,本文進(jìn)行了實(shí)時性測試。實(shí)驗(yàn)環(huán)境采用了3.2節(jié)中所描述的配置,并對1 000張圖片進(jìn)行了多次測試。結(jié)果顯示,每幀圖像的平均推理耗時約為10 ms,相當(dāng)于每秒處理100幀。在僅使用CPU的環(huán)境下,每幀圖像的平均推理耗時約為20 ms,相當(dāng)于每秒處理50幀。兩組實(shí)驗(yàn)結(jié)果表明,本文算法能夠滿足實(shí)現(xiàn)實(shí)時性任務(wù)的要求。
4 結(jié)束語
本文提出了一種基于特征融合和特征分解的表情識別模型FFDNet,用于野外的表情識別。具體來說,首先通過骨干網(wǎng)絡(luò)提取特征,通過GSConv構(gòu)建的多尺度模塊進(jìn)行多級特征的融合;然后多尺度特征被多分支的細(xì)粒度模塊分解為多組特征。使用encoder提取細(xì)粒度特征間的豐富關(guān)系,捕獲具有辨別力的細(xì)粒度特征。為了解決特征冗余問題,使用DF loss降低細(xì)粒度特征之間的相關(guān)性,提升特征的多樣性。在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,F(xiàn)FDNet在野外數(shù)據(jù)集中,特別是在姿態(tài)變化和遮擋數(shù)據(jù)集上有卓越的識別性能。
參考文獻(xiàn):
[1]Mehrabian A. Communication without words[J]. Communication Theory, 2008,6: 193-200.
[2]Jeong M, Ko B C. Drivers facial expression recognition in real-time for safe driving[J]. Sensors, 2018,18(12): 4270.
[3]童瑩. 基于空間多尺度HOG特征的人臉表情識別方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014,35(11): 3918-3922,3979. (Tong Ying. Facial expression recognition algorithm based on spatial multi-scaled HOG feature[J]. Computer Engineering and Design, 2014,35(11): 3918-3922,3979.)
[4]李俊華, 彭力. 基于特征塊主成分分析的人臉表情識別[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2008,29(12): 3151-3153. (Li Junhua, Peng Li. Facial expression recognition based on feature block principal component analysis[J]. Computer Engineering and Design, 2008,29(12): 3151-3153.)
[5]南亞會, 華慶一. 遮擋人臉表情識別深度學(xué)習(xí)方法研究進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用研究, 2022,39(2): 321-330. (Nan Yahui, Hua Qingyi. Research progress of deep learning methods for occlusion facial expression recognition[J]. Application Research of Compu-ters, 2022,39(2): 321-330.)
[6]何俊, 何忠文, 蔡建峰, 等. 一種新的多角度人臉表情識別方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2018,35(1): 282-286. (He Jun, He Zhongwen, Cai Jianfeng, et al. New method of multi-view facial expression recognition[J]. Application Research of Computers, 2018,35(1): 282-286.)
[7]Wang Kai, Peng Xiaojiang, Yang Jianfei, et al. Region attention networks for pose and occlusion robust facial expression recognition[J]. IEEE Trans on Image Processing, 2020,29: 4057-4069.
[8]Ye Ming, Hu Qian, Liu Guangyuan. CNN-LSTM facial expression recognition method fused with two-layer attention mechanism[J]. Computational Intelligence and Neuroscience, 2022, 2022: article ID 7450637.
[9]王素琴, 高宇豆, 張加其. 基于生成對抗網(wǎng)絡(luò)的遮擋表情識別[J]. 計(jì)算機(jī)應(yīng)用研究, 2019,36(10): 3112-3115,3120. (Wang Suqin, Gao Yudou, Zhang Jiaqi. Occluded facial expression recognition based on generative adversarial networks[J]. Application Research of Computers, 2019,36(10): 3112-3115,3120.)
[10]鄭劍, 鄭熾, 劉豪, 等. 融合局部特征與兩階段注意力權(quán)重學(xué)習(xí)的面部表情識別[J]. 計(jì)算機(jī)應(yīng)用研究, 2022,39(3): 889-894,918. (Zheng Jian, Zheng Chi, Liu Hao, et al. Deep convolutional neural fusing local feature and two-stage attention weight learning for facial expression recognition[J]. Application Research of Computers, 2022,39(3): 889-894,918.)
[11]Darwin C, Prodger P. The expression of the emotions in man and animals[M]. USA: Oxford University Press, 1998.
[12]Shan Caifeng, Gong Shaogang, McOwan P W. Facial expression re-cognition based on local binary patterns: a comprehensive study[J]. Image and Vision Computing, 2009,27(6): 803-816.
[13]Wang Yubo, Ai Haizhou, Wu Bo, et al. Real time facial expression recognition with AdaBoost[C]//Proc of the 17th International Confe-rence on Pattern Recognition. Piscataway, NJ: IEEE Press, 2004: 926-929.
[14]Huang Rui, Zhang Shu, Li Tianyu, et al. Beyond face rotation: global and local perception GAN for photorealistic and identity preserving frontal view synthesis[C]//Proc of IEEE International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 2439-2448.
[15]Tran L, Yin Xi, Liu Xiaoming. Disentangled representation learning GAN for pose-invariant face recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1415-1424.
[16]Xie Siyue, Hu Haifeng, Chen Yizhen. Facial expression recognition with two-branch disentangled generative adversarial network[J]. IEEE Trans on Circuits and Systems for Video Technology, 2020,31(6): 2359-2371.
[17]Gera D, Balasubramanian S, Jami A. CERN: compact facial expression recognition net[J]. Pattern Recognition Letters, 2022,155: 9-18.
[18]Fard A P, Mahoor M H. Ad-corre: adaptive correlation-based loss for facial expression recognition in the wild[J]. IEEE Access, 2022,10: 26756-26768.
[19]Xue Fanglei, Wang Qiangchang, Guo Guodong. Transfer: learning relation-aware facial expression representations with transformers[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 3601-3610.
[20]Ruan D, Yan Yan, Lai Shenqi, et al. Feature decomposition and reconstruction learning for effective facial expression recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 7660-7669.
[21]Wang Kai, Peng Xiaojiang, Yang Jianfei, et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 6897-6906.
[22]Xia Haiying, Lu Lidian, Song Shuxiang. Feature fusion of multi-granularity and multi-scale for facial expression recognition[J/OL]. The Visual Computer. (2023-06-10). https://doi.org/10.1007/s00371-023-02900-3.
[23]Zhao Zengqun, Liu Qingshan, Wang Shanmin. Learning deep global multi-scale and local attention features for facial expression recognition in the wild[J]. IEEE Trans on Image Processing, 2021,30: 6544-6556.
[24]Liao Lei, Zhu Yu, Zheng Bingbing, et al. FERGCN: facial expression recognition based on graph convolution network[J]. Machine Vision and Applications, 2022, 33(3): 40.
[25]Cho S, Lee J. Learning local attention with guidance map for pose robust facial expression recognition[J]. IEEE Access, 2022,10: 85929-85940.
[26]Ma Fuyan, Sun Bin, Li Shutao. Facial expression recognition with visual transformers and attentional selective fusion[J]. IEEE Trans on Affective Computing, 2021,14(2): 1236-1248.
[27]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.
[28]Akeh L J, Chandra R K, Loo W, et al. Modelling emotions recognition from facial expression using vision transformer with IMED dataset[C]//Proc of the 3rd International Conference on Artificial Intelligence and Data Sciences. Piscataway, NJ: IEEE Press, 2022: 254-257.
[29]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.
[30]Li Hulin, Li Jun, Wei Hanbing, et al. Slim-neck by GSConv: a better design paradigm of detector architectures for autonomous vehicles[EB/OL]. (2022-08-17). https://arxiv.org/abs/2206.02424.
[31]Li Shan, Deng Weihong, Du Junping. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2017: 2852-2861.
[32]Barsoum E, Zhang Cha, Ferrer C C, et al. Training deep networks for facial expression recognition with crowd-sourced label distribution[C]//Proc of the 18th ACM International Conference on Multimodal Interaction. Piscataway, NJ: IEEE Press, 2016: 279-283.
[33]Liu Chang, Hirota K, Dai Yaping. Patch attention convolutional vision transformer for facial expression recognition with occlusion[J]. Information Sciences, 2023, 619: 781-794.
[34]Xie Yunlan, Tian Wenhong, Zhang Hengxin, et al. Facial expression recognition through multi-level features extraction and fusion[J]. Soft Computing, 2023, 27(16): 11243-11258.
[35]Ma Xin, Ma Yingdong. Relation-aware network for facial expression recognition[C]//Proc of the 17th International Conference on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE Press, 2023: 1-7.
[36]Liu Hanwei, Cai Huiling, Lin Qingcheng, et al. Adaptive multilayer perceptual attention network for facial expression recognition[J]. IEEE Trans on Circuits and Systems for Video Technology, 2022, 32(9): 6253-6266.
[37]Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 618-626.