基于注意力機制的人臉表情識別網(wǎng)絡(luò)

2022-05-12 07:52張?為，李?璞

天津大學(xué)學(xué)報(自然科學(xué)與工程技術(shù)版) 2022年7期

張?為，李?璞

張?為，李?璞

(天津大學(xué)微電子學(xué)院，天津 300072)

人臉表情識別一直是計算機視覺領(lǐng)域的一個難題．近年來，隨著深度學(xué)習(xí)的飛速發(fā)展，一些基于卷積神經(jīng)網(wǎng)絡(luò)的方法大大提高了人臉表情識別的準(zhǔn)確率，但未能充分利用人臉圖像中的信息，這是由于對于面部表情識別有意義的特征主要集中在一些關(guān)鍵位置，例如眼睛、鼻子和嘴巴等區(qū)域，因此在特征提取時增加這些關(guān)鍵位置的權(quán)重可以改善表情識別的效果．為此，提出一種基于注意力機制的人臉表情識別網(wǎng)絡(luò)．首先在主干網(wǎng)絡(luò)中加入了深淺層特征融合結(jié)構(gòu)，以充分提取原始圖像中不同尺度的淺層特征，并將其與深層特征級聯(lián)，以減少前向傳播時的信息丟失．然后在網(wǎng)絡(luò)中嵌入一種基于兩步法的通道注意力模塊，對級聯(lián)后的特征圖中的通道信息進行編碼，得到通道注意力圖，再將其與級聯(lián)特征圖逐元素相乘，得到通道加權(quán)特征圖，將多尺度特征提取與空間注意力相結(jié)合，提出多尺度空間注意力模塊，對通道加權(quán)特征圖的不同位置進行加權(quán)，得到空間加權(quán)特征圖．最后將通道和空間均已加權(quán)的特征圖輸入到后續(xù)網(wǎng)絡(luò)中繼續(xù)進行特征提取和分類．實驗結(jié)果表明，所提出的方法與現(xiàn)有的基于深度學(xué)習(xí)的方法相比，在擴展的Cohn-Kanada數(shù)據(jù)集上的表情識別準(zhǔn)確率提高了0～3%，在OULU-CASIA NIR&VIS數(shù)據(jù)集上的表情識別準(zhǔn)確率提高了1%～8%，證明了該方法的有效性.

人臉表情識別；卷積神經(jīng)網(wǎng)絡(luò)；注意力機制；深淺層特征融合

人臉表情識別是人臉識別技術(shù)的重要組成部分，近年來，在人機交互、自動駕駛、精準(zhǔn)營銷、課堂教學(xué)等領(lǐng)域得到了廣泛應(yīng)用，成為學(xué)術(shù)界和工業(yè)界的研究熱點．根據(jù)特征提取方法的不同，人臉表情識別技術(shù)大致可以分為兩種方法：手工特征提取方法和基于深度學(xué)習(xí)的特征提取方法．

在早期的人臉表情識別方法中，首先進行人工特征提取，然后將特征向量輸入到分類器中進行訓(xùn)練.特征提取的質(zhì)量直接影響到面部表情分類的效果.常用的人臉特征提取方法有局部二值模式(local binary pattern，LBP)[1]、局部定向模式(local directional pattern，LDP)[2]和Gabor小波變換等[3]．傳統(tǒng)的人臉特征提取方法雖然取得了一定的效果，但其缺點是人臉特征的提取是手工進行的，容易受到干擾．近年來，卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，?CNN)在計算機視覺研究中得到了廣泛的應(yīng)用，并在面部表情識別任務(wù)中取得了良好的效果．與傳統(tǒng)方法相比，CNN的主要優(yōu)點是網(wǎng)絡(luò)的輸入是原始圖像，避免了前期復(fù)雜的預(yù)處理．文獻(xiàn)[4]提出了一種身份感知的卷積神經(jīng)網(wǎng)絡(luò)，使用兩個卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，一個用于訓(xùn)練與面部表情相關(guān)的特征，另一個用于訓(xùn)練與身份相關(guān)的特征，提高了對不同人臉的表情識別準(zhǔn)確率．Mollahosseini等[5]以Incepiton層為基礎(chǔ)增加了網(wǎng)絡(luò)的寬度和深度，在CK+等數(shù)據(jù)集上取得了良好的效果．文獻(xiàn)[6]提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)，通過改進的LeNet和ResNet分別提取面部特征，再將兩個特征向量連接起來用于分類，提高了面部表情識別的準(zhǔn)確性和魯棒性．Lee等[7]設(shè)計了一種分別提取人臉和背景區(qū)域特征的雙流編碼網(wǎng)絡(luò)，結(jié)合情景進行表情識別，使網(wǎng)絡(luò)減少歧義并提高情緒識別的準(zhǔn)確性．文獻(xiàn)[8]提出了一種自我修復(fù)網(wǎng)絡(luò)(self-cure network，SCN)，通過排序正則化對訓(xùn)練中的每個樣本進行加權(quán)，緩解了大規(guī)模面部表情數(shù)據(jù)集標(biāo)注不準(zhǔn)確的問題．雖然這些基于卷積神經(jīng)網(wǎng)絡(luò)的方法大大提高了人臉表情識別的準(zhǔn)確率，但仍未能充分利用人臉圖像中的信息．主要是由于對于面部表情識別任務(wù)，可用于識別的特征主要集中在一些關(guān)鍵位置，例如眼睛、鼻子和嘴巴，因此增加這些關(guān)鍵特征的權(quán)重有助于改善表情識別效果．

人類的視覺系統(tǒng)傾向于關(guān)注圖像中輔助判斷的部分信息，并忽略掉不相關(guān)的信息．同樣，在計算機視覺中，某些輸入特征可能會比其他部分對決策更有幫助．因此可以通過學(xué)習(xí)中間注意力圖，然后在注意力圖和源特征圖上采用逐元素乘積的方式來給不同特征增加權(quán)重，從而選擇最具代表性的特征進行分類. Hu等[9]提出了壓縮激勵模塊(squeeze-and-excitation block，SE block)，證明了該模塊能以很小的額外計算成本給現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)帶來顯著的性能提升．文獻(xiàn)[10]提出了一種自注意力編碼網(wǎng)絡(luò)，首先計算特征圖每個通道的L2范數(shù)平方的倒數(shù)，然后將該值與每個通道相乘得到加權(quán)特征圖，有效地增大了稀疏特征圖的權(quán)重．Woo等[11]設(shè)計了卷積塊注意力模塊(convolutional block attention module，CBAM)，將通道注意力和空間注意力結(jié)合起來，進一步提高了卷積神經(jīng)網(wǎng)絡(luò)的性能．雖然現(xiàn)有的注意力機制改善了網(wǎng)絡(luò)的性能，但目前在計算通道注意力時，為了匯總空間信息，通常采用平均池化或最大池化一次性地將每個通道上的所有空間特征編碼為一個全局特征．這種暴力的編碼方式會損失較多的信息，從而使學(xué)習(xí)到的注意力不準(zhǔn)確．

針對以上問題，本文提出一種分兩步匯總空間信息的方法，可以更加精細(xì)地編碼空間特征，從而使學(xué)習(xí)到的通道注意力更加具有代表性．為了給一張?zhí)卣鲌D的不同位置賦予不同的權(quán)重，本文還提出一種多尺度空間注意力機制，以關(guān)注人臉關(guān)鍵部位的特征．此外，卷積神經(jīng)網(wǎng)絡(luò)在前向傳播過程中會丟失信息，而淺層特征包含了豐富的圖像信息．因此，本文充分提取原始圖像中不同尺度的淺層特征，然后與主干網(wǎng)絡(luò)中的深層特征堆疊，進行深淺層特征融合，以提取出豐富的原始圖像信息．

1?表情識別網(wǎng)絡(luò)

1.1?網(wǎng)絡(luò)整體結(jié)構(gòu)

圖1?本文網(wǎng)絡(luò)結(jié)構(gòu)示意

表1?主干網(wǎng)絡(luò)的最后幾個卷積層以及分類器

1.2?通道注意力模塊

由于特征圖的每個通道都可以視為一個特征檢測器[14]，因此可以賦予它們一個權(quán)重，給重要的通道更多的關(guān)注，給那些相對無用的通道較少的關(guān)注，可以提高網(wǎng)絡(luò)的特征提取能力．為了有效地計算通道注意力，需要將每個通道內(nèi)部的全局空間信息壓縮到一個通道描述符中．傳統(tǒng)的方法通常僅采用平均池化來壓縮空間信息，文獻(xiàn)[11]證明了采用平局池化和最大池化結(jié)合的方式可以更加精細(xì)地推斷通道注意力．此外，目前的通道注意力模塊大都采用暴力的編碼方式匯總空間信息，即將特征圖的尺寸從××直接壓縮到×1×1(其中表示特征圖的通道數(shù)，表示高，表示寬)，這種壓縮方式的優(yōu)點是簡單，但也會不可避免地?fù)p失較多信息．為了解決這個問題，本文提出一種新的基于兩步法的通道注意力模塊，可以更加精細(xì)地編碼空間特征，將其插入到深淺層特征融合之后，以關(guān)注那些增益較大的通道，抑制無關(guān)特征．

所提出的通道注意力模塊如圖2所示．與現(xiàn)有的方法不同，該方法分兩步匯總空間信息．首先通過平均池化和最大池化來聚合特征圖的空間信息，先將特征圖的維度壓縮到×3×3，而非×1×1，因此保留的空間信息是原來的9倍，以便于進一步學(xué)習(xí)空間特征．然后將它們輸入到無填充的3×3卷積層中，以進一步聚合空間信息，將每個通道編碼為一個特征描述子．同時將特征維度降低到輸入的1/(表示降維系數(shù))，以更好地擬合通道間的相關(guān)性，并減少參數(shù)量和計算量．然后特征圖被輸入到一個1×1卷積層后將通道維數(shù)恢復(fù)為，并將兩個特征圖逐元素相加．為減少參數(shù)量，3×3卷積層和1×1卷積層對每個特征圖是共享的．最后采用sigmoid函數(shù)對合并后的特征圖進行激活，將每個通道描述符壓縮到0～1范圍內(nèi)，即得到了通道注意力圖．通道注意力的計算公式為

圖2?通道注意力模塊

1.3?空間注意力模塊

在面部表情識別任務(wù)中，對表情分類有意義的特征主要集中在眉毛、眼睛、鼻子和嘴巴等關(guān)鍵部位，這是由于這些位置包含的紋理信息較多，當(dāng)人做出不同表情時，這些位置的特征(如梯度和灰度等)會發(fā)生劇烈變化，因此可以通過空間注意力模塊在特征圖上增加這些關(guān)鍵部位的權(quán)重，使網(wǎng)絡(luò)更加專注于對表情識別至關(guān)重要的特征，提高網(wǎng)絡(luò)的特征提取能力．而不同部位(如眼睛、鼻子、嘴巴等)的特征可能存在于不同大小的感受野中，并且根據(jù)人臉在輸入圖片中所占的比例不同，紋理特征也會存在于不同大小的感受野中，如果感受野太小，則只能觀察到局部的特征，如果感受野太大，則獲取了過多的無效信息，因此本文將多尺度特征提取與空間注意力結(jié)合，相比于單尺度注意力，可以更加魯棒地提取權(quán)重特征．

圖3?多尺度空間注意力模塊

2?實?驗

2.1?數(shù)據(jù)集、預(yù)處理與訓(xùn)練

1) 擴展的Cohn-Kanada(CK+)數(shù)據(jù)集

擴展的Cohn-Kanada(CK+)數(shù)據(jù)集包含123名參與者的593個序列，其中118名參與者的327個序列有標(biāo)簽，共有6種基本面部表情(即憤怒、厭惡、恐懼、幸福、悲傷和驚訝)．每個序列中包含了表情從平靜到峰值的圖片．從中選取927張峰值表情圖片，并增加227張中性表情圖片構(gòu)成7類表情數(shù)據(jù)集．7類表情的圖片數(shù)量分別為135、177、75、207、84、249和227，共1154張．

2) OULU-CASIA數(shù)據(jù)集

OULU-CASIA NIR&VIS面部表情數(shù)據(jù)集包含來自80名參與者的6種典型表情(高興、悲傷、驚訝、憤怒、恐懼、厭惡)的視頻．這些視頻是通過近紅外和可見光兩種成像系統(tǒng)在正常照明、弱照明和暗照明3種不同的光照條件下拍攝的．在本實驗中，只使用可見光攝像機在正常光照下拍攝的視頻．一共有480個序列，每個序列同樣包含表情從平靜到峰值的一組圖片．選擇每個序列的后3幀進行評估，即共有1440張圖片，構(gòu)成6類表情數(shù)據(jù)集．

首先通過face_recognition庫進行人臉檢測，提取出圖像中的臉部區(qū)域并統(tǒng)一縮放到220×220，然后將圖像的3個通道合并，保存為灰度圖，如圖4所示．訓(xùn)練時將輸入圖片隨機水平翻轉(zhuǎn)，以增強網(wǎng)絡(luò)的泛化能力．實驗采用交叉熵?fù)p失函數(shù)和隨機梯度下降法優(yōu)化總體損失，損失函數(shù)計算公式為

圖4?預(yù)處理后的人臉表情

式中：為樣本數(shù)；為標(biāo)簽類別數(shù)，、分別為樣本和類別索引號；y,表示真實值向量；p,表示預(yù)測值向量．

批量大小設(shè)置為8，初始學(xué)習(xí)率設(shè)置為0.01，動量初始化為0.9，訓(xùn)練輪數(shù)設(shè)置為200，50輪后，學(xué)習(xí)率開始以每5輪0.9倍的速率衰減．計算公式為

式中：表示當(dāng)前訓(xùn)練輪數(shù)；INT()表示向下取整.

測試時，通過裁剪左上角、左下角、右上角、右下角和中心，然后對每幅裁剪圖像進行翻轉(zhuǎn)，得到10張216×216大小的圖片．取這10張圖片的預(yù)測結(jié)果的平均值來做最終的決策，以減少分類誤差．訓(xùn)練集與測試集的比值為4∶1．模型訓(xùn)練是在具有11Gb內(nèi)存的GeForce RTX 2080Ti GPU上完成的，利用了Pytorch深度學(xué)習(xí)框架．

2.2?消融實驗

所提出的模型由主干網(wǎng)絡(luò)部分、深淺層特征融合結(jié)構(gòu)、通道注意力和空間注意力模塊4個部分組成．為了研究每個模塊對網(wǎng)絡(luò)性能的影響，本文將兩個表情數(shù)據(jù)集合并為一個大數(shù)據(jù)集，進行消融研究．首先測試了基準(zhǔn)網(wǎng)絡(luò)(GhostNet)的性能．然后在基準(zhǔn)網(wǎng)絡(luò)中加入深淺層特征融合結(jié)構(gòu)，構(gòu)成深淺層特征融合網(wǎng)絡(luò)(deep and shallow feature fusion network，DSFFNet)．為了對比所提出的基于兩步法的通道注意力與一步法通道注意力的性能，對所提出的通道注意力模塊進行修改，利用平均池化和最大池化將特征圖的維度直接壓縮到×1×1，并將3×3卷積改為1×1卷積，將其嵌入到網(wǎng)絡(luò)中，構(gòu)成了基于一步法通道注意力網(wǎng)絡(luò)(one-step channel attention module based network，OSCAM-Net)．此外，為了對比所提出的通道注意力模塊和目前最常用的注意力模塊的性能，將上述網(wǎng)絡(luò)中的注意力模塊替換為SE block，構(gòu)成了基于SE block的網(wǎng)絡(luò)SE-Net．再將SE block替換為所提出的通道注意力模塊(channel attention module，CAM)，構(gòu)成了基于CAM的網(wǎng)絡(luò)CAM-Net．為了對比多尺度空間注意力與單尺度空間注意力機制的性能，首先在CAM-Net中加入單尺度空間注意力模塊(即僅用3×3的卷積核提取空間注意力)，構(gòu)成網(wǎng)絡(luò)Ours_1，然后將單尺度空間注意力模塊替換為所提出的多尺度空間注意力模塊(multiscale spatial attention module，MSAM)，構(gòu)成了本文最終的網(wǎng)絡(luò)Ours_2．以上幾個網(wǎng)絡(luò)的消融實驗結(jié)果如表2所示．

表2?不同網(wǎng)絡(luò)的消融實驗結(jié)果

Tab.2?Ablation experiment results of different networks

由表2可以看出，深淺層特征融合網(wǎng)絡(luò)相比基準(zhǔn)網(wǎng)絡(luò)的表情識別準(zhǔn)確率提高了1.23%．當(dāng)在網(wǎng)絡(luò)中加入基于一步法的通道注意力后性能又有所提升．而CAM-Net相比于OSCAM-Net識別準(zhǔn)確率提高了1%以上，并且相對于目前常用的通道注意力模塊SE block識別準(zhǔn)確率提高了2.3%左右，進一步證明了所提出的通道注意力模塊的有效性．而Ours_1與CAM-Net的分類準(zhǔn)確率幾乎相當(dāng)，說明單尺度空間注意力無法準(zhǔn)確地提取出空間權(quán)重特征，不同位置的權(quán)重差別不大，無法有效提高網(wǎng)絡(luò)性能．對比之下，Ours_2相比于CAM-Net識別準(zhǔn)確率有較大提升，證明多尺度特征提取與空間注意力結(jié)合具有可行性，能夠更加精細(xì)地編碼空間權(quán)重特征，提升網(wǎng)絡(luò)性能．由此，可以得出所提出的每個模塊對最終結(jié)果都有一定程度的改進．

此外，為了更加直觀地觀察學(xué)習(xí)到的空間注意力，將其做可視化處理，生成熱度圖，如圖5所示，從左到右表情依次為憤怒、厭惡、恐懼、高興、悲傷和驚訝．熱度圖清楚地顯示了注意力區(qū)域．對于不同的表情，注意力區(qū)域有所不同．例如，對于憤怒的表情，網(wǎng)絡(luò)的注意力更多地集中在眼睛和眉毛區(qū)域；對于高興和驚訝的表情，網(wǎng)絡(luò)的關(guān)注點主要在嘴巴上；而對于另外3種表情，眼睛眉毛和嘴巴都有一定的貢獻(xiàn).這也可以更好地幫助理解人類表情的表達(dá)方式.

圖5?不同表情的空間注意力熱度圖

2.3?不同表情的識別效果

本文還研究了所提出的網(wǎng)絡(luò)對不同表情的識別效果．由于CK+表情數(shù)據(jù)集中不同表情的樣本數(shù)量不同，模型對于不同的表情擬合程度不同，對于樣本數(shù)量較少的表情，模型訓(xùn)練會欠擬合，導(dǎo)致識別效果較差，因此結(jié)果不具有代表性．而OULU-CASIA表情數(shù)據(jù)集中各種表情的樣本數(shù)量相等，因此可以更加公平地比較模型對不同表情的識別效果，故僅在該數(shù)據(jù)集上比較網(wǎng)絡(luò)對不同表情的識別效果．混淆矩陣如圖6所示，其中縱坐標(biāo)表示真實標(biāo)簽，橫坐標(biāo)表示預(yù)測類別．可以看出，所提出的網(wǎng)絡(luò)對于恐懼、高興、驚訝3種表情具有很好的識別效果，基本可以達(dá)到95%以上，這是由于這幾種表情特征比較明顯(例如眼睛睜大、嘴巴張開等)，而對憤怒、厭惡和悲傷的識別效果稍差，一些標(biāo)記為憤怒的面部表情被識別為悲傷，一些標(biāo)記為厭惡的表情被分類為憤怒，標(biāo)記為悲傷的表情被分類為了厭惡，即這3種表情之間的分類出現(xiàn)了一些混淆現(xiàn)象．這些錯誤與筆者在查看數(shù)據(jù)集中的圖像時看到的是一致的，即不同的人表達(dá)這幾種情緒的方式有差異，有些表情具有一定的相似性以至于人類都無法準(zhǔn)確地辨別．

圖6?不同表情的識別準(zhǔn)確率混淆矩陣

2.4?與其他方法的比較

本文還將所提出的方法與在CK+數(shù)據(jù)集和OULU-CASIA數(shù)據(jù)集上評估的最新方法進行了對比，對比結(jié)果如表3所示．其中加粗的數(shù)據(jù)分別為不同方法在該數(shù)據(jù)集上的最高準(zhǔn)確率以及本文方法的準(zhǔn)確率．可以看出，所提出方法的性能超過了大多數(shù)現(xiàn)有方法．在OULU-CASIA數(shù)據(jù)集上，與基于手工特征提取的算法相比提高了10%～20%，與基于深度學(xué)習(xí)的算法相比提高了1%～8%．在CK+數(shù)據(jù)集上，與基于手工特征提取的算法相比準(zhǔn)確率提高了7%～10%，與現(xiàn)有的基于深度學(xué)習(xí)的方法相比大約提高了0～3%，雖然Fu等[16]的方法在此數(shù)據(jù)集上略高于本文方法，但在OULU-CASIA數(shù)據(jù)集上本文方法比其高了2%以上，證明了本文方法的有效性和先進性．

表3?兩個數(shù)據(jù)集上不同方法的表情識別準(zhǔn)確率

Tab.3 Expression recognition accuracy of different methods in the two datasets %

3?結(jié)?語

本文提出了一種新的人臉表情識別網(wǎng)絡(luò)，將提出的深淺層特征融合結(jié)構(gòu)、通道注意力模塊以及多尺度空間注意力模塊結(jié)合在一起，使它們成為一個相互促進的整體，提高了人臉表情識別的準(zhǔn)確率和泛化性能．此外，所提出的基于兩步法的通道注意力模塊和多尺度空間注意力模塊是即插即用的，可以作為一個組件嵌入到任何其他卷積神經(jīng)網(wǎng)絡(luò)中，以提升網(wǎng)絡(luò)的性能．在CK+和OULU-CASIA兩個數(shù)據(jù)集上的實驗結(jié)果表明，本文方法對于表情識別的準(zhǔn)確率優(yōu)于大多數(shù)現(xiàn)有方法．未來希望繼續(xù)改進網(wǎng)絡(luò)，使網(wǎng)絡(luò)不僅局限于對空間域的特征提取，也加入一些時間域的信息，從而進一步提高模型的泛化能力．

［1］ Ojala T，Pietik?inen M，Harwood D. A comparative study of texture measures with classification based on featured distributions[J]. Pattern Recognition，1996，29(1)：51-59.

［2］ Jabid T，Kabir M H，Chae O. Facial expression recog-nition using local directional pattern(LDP)[C]//2010 IEEE International Conference on Image Processing. Hong Kong，China，2010：1605-1608.

［3］龔?安，曾?雷. 基于Gabor變換與改進SLLE的人臉表情識別[J]. 計算機系統(tǒng)應(yīng)用，2017，26(9)：210-214.

Gong An，Zeng Lei. Facial expression recognition based on Gabor transform and improved SLLE[J]. Computer Systems & Applications，2017，26(9)：210-214(in Chinese).

［4］ Zhang C，Wang P，Chen K，et al. Identity-aware con-volutional neural networks for facial expression recogni-tion[J]. Journal of Systems Engineering and Electron-ics，2017，28(4)：784-792.

［5］ Mollahosseini A，Chan D，Mahoor M H. Going deeper in facial expression recognition using deep neural networks[C]//2016 IEEE Winter Conference on Applications of Computer Vision(WACV). Lake Placid，USA，2016：1-10.

［6］ Liu K C，Hsu C C，Wang W Y，et al. Facial expression recognition using merged convolution neural network[C]//2019 IEEE 8th Global Conference on Consumer Electronics(GCCE). Osaka，Japan，2019：296-298.

［7］ Lee J，Kim S，Kim S，et al. Context-aware emotion recognition networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul，Korea，2019：10143-10152.

［8］ Wang K，Peng X，Yang J，et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle，USA，2020：6897-6906.

［9］ Hu J，Shen L，Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City，USA，2018：7132-7141.

［10］冀?中，柴星亮. 基于自注意力和自編碼器的少樣本學(xué)習(xí)[J]. 天津大學(xué)學(xué)報(自然科學(xué)與工程技術(shù)版)，2021，54(4)：338-345.

Ji Zhong，Chai Xingliang. Few-shot learning based on self-attention and auto-encoder[J]. Journal of Tianjin University(Science and Technology)，2021，54(4)：338-345(in Chinese).

［11］ Woo S，Park J，Lee J Y，et al. Cbam：Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision(ECCV). Munich，Germany，2018：3-19.

［12］ Han K，Wang Y，Tian Q，et al. Ghostnet：More features from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle，USA，2020：1580-1589.

［13］ He K，Zhang X，Ren S，et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas，USA，2016：770-778.

［14］ Zeiler M D，F(xiàn)ergus R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Zurich，Switzerland，2014：818-833.

［15］ Szegedy C，Liu W，Jia Y，et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston，USA，2015：1-9.

［16］ Fu Y，Wu X，Li X，et al. Semantic neighborhood-aware deep facial expression recognition[J]. IEEE Transactions on Image Processing，2020，29：6535-6548.

［17］ Zhao G，Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2007，29(6)：915-928.

［18］ Guo Y，Zhao G，Pietik?inen M. Dynamic facial expression recognition using longitudinal facial expression atlases[C]//European Conference on Computer Vision. Firenze，Italy，2012：631-644.

［19］ Zhong L，Liu Q，Yang P，et al. Learning active facial patches for expression analysis[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence，USA，2012：2562-2569.

［20］ Liu M，Shan S，Wang R，et al. Learning expressionlets on spatio-temporal manifold for dynamic facial expression recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus，USA，2014：1749-1756.

［21］ Jung H，Lee S，Yim J，et al. Joint fine-tuning in deep neural networks for facial expression recognition[C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago，Chile，2015：2983-2991.

［22］ Sikka K，Sharma G，Bartlett M. LOMO：Latent ordinal model for facial analysis in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas，USA，2016：5580-5589.

［23］ Meng Z，Liu P，Cai J，et al. Identity-aware convolutional neural network for facial expression recognition[C]//2017 12th IEEE International Conference on Automatic Face & Gesture Recognition(FG 2017). Washington，USA，2017：558-565.

［24］ Kim J H，Kim B G，Roy P P，et al. Efficient facial expression recognition algorithm based on hierarchical deep neural network structure[J]. IEEE Access，2019，7：41273-41285.

［25］ Li S，Deng W，Du J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hono-lulu，USA，2017：2852-2861.

［26］ Yang H，Zhang Z，Yin L. Identity-adaptive facial ex-pression recognition through expression regeneration us-ing conditional generative adversarial networks[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition. Xi’an，China，2018：294-301.

［27］ Kumawat S，Verma M，Raman S. LBVCNN：Local binary volume convolutional neural network for facial expression recognition from image sequences[C]// Pro-ceedings of the IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition Workshops. Long Beach，USA，2019：207-216.

Facial Expression Recognition Network Based on Attention Mechanism

Zhang Wei，Li Pu

(School of Microelectronics，Tianjin University，Tianjin 300072，China)

Facial expression recognition has remained a challenging problem in computer vision. Recently，with the rapid development of deep learning，some methods based on convolutional neural networks have greatly improved the accuracy of facial expression recognition. However，these methods have not fully used the available information because the meaningful features for facial expression recognition are mainly concentrated in some key locations，such as eyes，nose，and mouth. Increasing the weight of these key positions can improve the effect of facial expression recognition. This paper proposed a facial expression recognition network based on an attention mechanism. First，a deep and shallow feature fusion structure was added to the backbone network. This structure was designed to fully extract the shallow features at various scales from the original image and cascade these features with deep features to reduce information loss during forward propagation. Second，a two-step-based channel attention module was embedded in the network to encode the channel information in the cascaded feature map and obtain the channel attention map. Then，this paper proposed a multiscale spatial attention module by combining multiscale feature extraction with spatial attention. Through this module，various positions of the channel-weighted feature map were weighted to obtain the spatial-weighted feature map. Finally，the feature map whose channels and spatial positions were weighted was input into the subsequent network for feature extraction and classification. Experimental results show that this method improves the expression recognition accuracy by 0—3% and 1%—8% on the extended Cohn-Kanada and OULU-CASIA NIR(near infrared)&VIS(visible light)datasets，respectively，which proves the effectiveness of this method.

facial expression recognition；convolutional neural network；attention mechanism；deep and shallow feature fusion

10.11784/tdxbz202105001

TP391

0493-2137(2022)07-0706-08

2021-05-01；

2021-10-17.

張?為（1975—??），男，博士，教授.Email：m_bigm@tju.edu.cn

張?為，tjuzhangwei@tju.edu.cn.

新一代人工智能科技重大專項資助項目(19ZXZNGX00030)；應(yīng)急管理部消防救援局科研計劃重點攻關(guān)項目(2019XFGG20).

the Major Projects of New Generation Artificial Intelligence Technology(No.19ZXZNGX00030)，the Key Research Project of Fire Rescue Bureau of Emergency Management Department(No.2019XFGG20).

(責(zé)任編輯：王曉燕)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于注意力機制的人臉表情識別網(wǎng)絡(luò)

1?表情識別網(wǎng)絡(luò)

1.1?網(wǎng)絡(luò)整體結(jié)構(gòu)

1.2?通道注意力模塊

1.3?空間注意力模塊

2?實?驗

2.1?數(shù)據(jù)集、預(yù)處理與訓(xùn)練

2.2?消融實驗

2.3?不同表情的識別效果

2.4?與其他方法的比較

3?結(jié)?語

2.1?數(shù)據(jù)集、預(yù)處理與訓(xùn)練