齊 妙, 閆光友, 徐 慧, 孫 慧
(1. 東北師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院, 長春 130117; 2. 長春人文學(xué)院 理工學(xué)院, 長春 130117)
人臉表情識別的早期研究大多數(shù)通過提取手工設(shè)計的面部表情特征進行表情分類, 如Soyel等[1]先使用判別尺度不變特征變換構(gòu)建人臉特征向量, 再利用加權(quán)多數(shù)投票分類器進行面部表情分類, 取得了較好的識別效果; Tian等[2]提出將面部表情細(xì)粒度變化映射為動作單元的自動人臉表情識別系統(tǒng), 并以此進行表情分類. 隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的廣泛應(yīng)用, 卷積神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于人臉表情識別研究中. Liu等[3]提出了一種基于語義圖的雙流網(wǎng)絡(luò)進行情感特征表達(dá), 該網(wǎng)絡(luò)通過設(shè)計一個圖表示對關(guān)鍵外觀和幾何變化及其語義關(guān)系進行建模; Zhu等[4]建立了卷積關(guān)系網(wǎng)絡(luò)進行野外環(huán)境下的人臉表情識別, 該模型通過挖掘充足情感類別樣本之間的特征相似性識別具有少樣本的新類別; Zhao等[5]通過將特征選擇機制嵌入到AlexNet網(wǎng)絡(luò)中從而得到特征選擇網(wǎng)絡(luò)(feature selection network, FSN), 該網(wǎng)絡(luò)根據(jù)學(xué)習(xí)到的人臉表情特征圖自動強調(diào)相關(guān)特征并過濾無關(guān)特征, 從而提高人臉表情識別的準(zhǔn)確率, 特征選擇機制進一步提升了AlexNet網(wǎng)絡(luò)的識別性能和泛化能力; Liu等[6]提出了一種端到端的動態(tài)多通道度量學(xué)習(xí)網(wǎng)絡(luò)進行表情識別, 該網(wǎng)絡(luò)使用3個并行多通道卷積網(wǎng)絡(luò)從不同的面部區(qū)域?qū)W習(xí)融合的全局和局部特征; 韓興等[7]為解決面部表情類間相似度高、 類內(nèi)差異性大等問題, 提出了一種高效通道注意力網(wǎng)絡(luò), 該網(wǎng)絡(luò)通過設(shè)計高效注意力模塊將特征圖的深度與空間信息相結(jié)合以提高網(wǎng)絡(luò)模型的判別能力.
本文設(shè)計一種網(wǎng)絡(luò)深度適當(dāng)、 模型參數(shù)適宜的多尺度網(wǎng)絡(luò)(multi-scale network, MSN), 該網(wǎng)絡(luò)可提取不同尺度的特征, 從而傳遞更準(zhǔn)確、 更完整的面部表情特征. 特征選擇機制可精確定位重要特征并忽略無關(guān)背景信息, 為進一步提升網(wǎng)絡(luò)的識別性能和泛化能力, 本文結(jié)合多尺度網(wǎng)絡(luò)和特征選擇機制, 提出一種新的多尺度特征選擇網(wǎng)絡(luò)(multi-scale feature selection network, MSFSN), 該網(wǎng)絡(luò)同時兼?zhèn)涠喑叨染W(wǎng)絡(luò)和特征選擇機制的優(yōu)勢, 通過在不同的人臉表情識別數(shù)據(jù)集上實驗, 驗證了多尺度特征選擇網(wǎng)絡(luò)的有效性.
圖1 多尺度卷積的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of multi-scale convolution
在計算機視覺的相關(guān)任務(wù)中, 網(wǎng)絡(luò)模型的深度是優(yōu)化網(wǎng)絡(luò)性能的關(guān)鍵因素, 通常認(rèn)為更深層次的網(wǎng)絡(luò)結(jié)構(gòu)才會獲得更好的結(jié)果, 但現(xiàn)有人臉表情識別數(shù)據(jù)集的樣本數(shù)量有限, 大量人臉表情識別的實驗結(jié)果表明, 適當(dāng)深度的網(wǎng)絡(luò)結(jié)構(gòu)且使用較少網(wǎng)絡(luò)參數(shù)的網(wǎng)絡(luò)模型仍能取得良好的面部表情分類性能. 為減少網(wǎng)絡(luò)模型在訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象, 本文設(shè)計一種網(wǎng)絡(luò)深度適中、 模型參數(shù)適宜的多尺度網(wǎng)絡(luò)結(jié)構(gòu). 該網(wǎng)絡(luò)受GoogLeNet[8]網(wǎng)絡(luò)中Inception結(jié)構(gòu)的啟發(fā), 通過結(jié)合多個不同尺度的卷積操作, 可以提取輸入面部表情圖像數(shù)據(jù)中不同尺度的特征信息, 從而獲得更豐富、 更完整、 更準(zhǔn)確的輸入數(shù)據(jù)特征信息, 進而整合局部特征信息和全局特征信息. 本文提出的多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示. 該結(jié)構(gòu)由1×1,3×3,5×5三類卷積核組成, 卷積核的個數(shù)分別為16,32,16, 在卷積層后加入可以提高擬合能力和收斂速度的批量歸一化層(batch normalization, BN), 最后將不同卷積操作得到的特征圖進行通道連接(⊕)操作. 因此, 多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu)可以很好地保證特征的全面性與完整性.
多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu)的計算過程為
其中Xinput表示多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu)的輸入數(shù)據(jù), *表示卷積操作,Wm,1表示第m層1×1卷積操作的權(quán)重,bm,1表示第m層1×1卷積操作的偏置,Xm,1表示第m層經(jīng)過1×1卷積操作得到的輸出數(shù)據(jù),Wm,2表示第m層3×3卷積操作的權(quán)重,bm,2表示第m層3×3卷積操作的偏置,Xm,2表示第m層經(jīng)過3×3卷積操作得到的輸出數(shù)據(jù),Wm,3表示第m層5×5卷積操作的權(quán)重,bm,3表示第m層5×5卷積操作的偏置,Xm,3表示第m層經(jīng)過5×5卷積操作得到的輸出數(shù)據(jù), concatenate( )表示通道連接操作,Xoutput表示多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu)的輸出數(shù)據(jù).
疊加卷積層可進一步提高網(wǎng)絡(luò)模型的鑒別能力[9], 因此本文設(shè)計的多尺度網(wǎng)絡(luò)在第一個最大池化層之前疊加兩個多尺度卷積結(jié)構(gòu), 然后在第二個最大池化層之前疊加兩個卷積核為3×3的卷積層, 最后連接3個全連接層, 神經(jīng)元的個數(shù)分別為512,512,7, 每個全連接層后都加入Dropout層, 用于減小過擬合風(fēng)險, 最后是Softmax分類器. 多尺度網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
圖2 多尺度網(wǎng)絡(luò)的結(jié)構(gòu)Fig.2 Structure of multi-scale network
圖3 特征選擇機制的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of feature selection mechanism
特征提取是人臉表情識別中最重要的步驟, 特征選取的優(yōu)劣直接影響人臉表情分類的準(zhǔn)確率. 特征選擇機制作為一種針對人臉表情識別而設(shè)計的網(wǎng)絡(luò)輔助結(jié)構(gòu),其可以根據(jù)學(xué)習(xí)到的特征圖強調(diào)相關(guān)特征, 并有效過濾無關(guān)特征, 特征選擇機制通常嵌入卷積神經(jīng)網(wǎng)絡(luò)的卷積層和全連接層之間, 如圖3所示.
特征選擇機制具有兩個分支, 將兩個分支得到的輸出結(jié)果進行通道連接(⊕)操作可得到最終的輸出結(jié)果. 特征選擇機制的第一個分支有3個卷積層, 其所有卷積層的卷積核都是1×1, 可將第三個卷積層的通道數(shù)設(shè)置為1, 即第三層只有一個特征圖, 從而可強制定位所有重要的面部表情特征, 且可以計算每個位置的影響占比, 不同面部區(qū)域具有不同的權(quán)重(如前額的重要程度小于臉頰), 從而得到一張?zhí)卣鳈?quán)重圖. 該分支每次迭代都會更新, 所以對于每張輸入面部表情圖像都會獲得對應(yīng)的特征權(quán)重圖. 然后將特征權(quán)重圖與輸入特征圖進行點乘(☉)操作, 以達(dá)到放大重要區(qū)域、 削弱甚至消除不重要區(qū)域的目的, 進而提高網(wǎng)絡(luò)模型的識別性能和泛化能力.
本研究通過分析中國云南省南部紅河哈尼族彝族自治州境內(nèi),3類喀斯特生態(tài)系統(tǒng)中露石、碎石因子和植物因子的變化規(guī)律,得出以下結(jié)論:
1×1卷積核有3個優(yōu)點: 1) 可用于保持或壓縮特征圖的通道數(shù)量, 實現(xiàn)跨通道的信息組合, 對不同通道上的像素點進行線性組合, 然后進行非線性化操作; 2) 可實現(xiàn)降維, 從而達(dá)到減少參數(shù)的目的; 3) 在保證特征圖尺度不變的條件下大幅度地增強非線性特性, 從而提高網(wǎng)絡(luò)的表達(dá)能力. 圖4為特征選擇機制第一個分支的網(wǎng)絡(luò)結(jié)構(gòu), 將第一個分支的輸入特征圖記為U, 其高度、 寬度、 通道數(shù)分別記為H,W,C.由圖4可見, 第一個分支的前向傳播過程, 首先通過三層卷積得到特征權(quán)重圖X, 然后將特征權(quán)重圖X與輸入特征圖U進行點乘(☉)操作, 得到特征選擇后的輸出特征圖V, 計算公式表示為
Vn=X☉Un,n=1,2,…,N,
(5)
其中Un表示輸入特征圖U的第n個通道,Vn表示輸出特征圖V對應(yīng)同一通道的特征圖.關(guān)于第一個分支的后向傳播, 其相應(yīng)梯度的計算公式表示為
由上述公式可見, 特征權(quán)重圖X對輸入特征圖U的N個特征圖的影響相同.
圖4 特征選擇機制第一個分支的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of the first branch of feature selection mechanism
第二個分支使用面部掩膜圖像作為輸入限制人臉區(qū)域, 其扮演著輔助特征提取的角色. 輸入掩膜圖像的制作過程如圖5所示. 面部掩膜圖像的制作首先通過Dlib工具庫得到68個人臉特征點, 其次選取構(gòu)成人臉輪廓的27個特征點(圖5(B)), 將這些特征點依次連接得到人臉輪廓(圖5(C)), 然后將人臉輪廓外的像素值標(biāo)記為0, 將人臉輪廓內(nèi)的像素值標(biāo)記為1, 從而得到面部掩膜圖像(圖5(D)), 最后將面部掩膜圖像的大小調(diào)整為H×W, 以適應(yīng)第一個分支得到的特征權(quán)重圖尺寸. 通常背景信息對人臉表情識別具有較強的負(fù)面影響, 將得到的面部掩膜圖像與輸入特征圖進行點乘(☉)操作, 從而排除所有與面部表情無關(guān)的背景信息.
圖5 輸入掩膜圖像的制作過程Fig.5 Production process of input mask image
因此, 特征選擇機制可以有效強調(diào)重要特征, 并忽略背景信息的負(fù)面影響, 從而提高人臉表情識別的性能.
為進一步提高網(wǎng)絡(luò)結(jié)構(gòu)的識別性能和泛化能力, 本文在多尺度網(wǎng)絡(luò)的卷積層和全連接層之間嵌入特征選擇機制, 提出多尺度特征選擇網(wǎng)絡(luò), 該網(wǎng)絡(luò)可以自動提取和過濾面部表情特征, 從而達(dá)到精確定位重要特征、 忽略無關(guān)背景信息的目的, 該網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示.
圖6 多尺度特征選擇網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Structure of multi-scale feature selection network
多尺度特征選擇網(wǎng)絡(luò)的第一部分由兩個多尺度卷積結(jié)構(gòu)、 兩個卷積層和兩個最大池化層組成, 第二部分即為特征選擇機制, 如圖6所示. 通過特征選擇機制第一個分支所得到的特征權(quán)重圖大小為12×12, 為適應(yīng)特征權(quán)重圖將輸入掩膜圖像的大小也調(diào)整為12×12, 第三部分由3個全連接層構(gòu)成.
為驗證本文提出的多尺度網(wǎng)絡(luò)(MSN)和多尺度特征選擇網(wǎng)絡(luò)(MSFSN)的識別性能和泛化能力, 本文將兩個網(wǎng)絡(luò)模型分別在真實世界情感人臉數(shù)據(jù)庫(real-world affective faces database, RAF-DB)[10]和人臉表情識別數(shù)據(jù)庫(FER2013, http://www-etud.iro.umontreal.ca/~goodfeli/fer2013.html)上進行實驗, 并將兩個網(wǎng)絡(luò)與目前一些性能優(yōu)越的人臉表情識別方法進行對比分析.
人臉表情識別的性能評估一般分為單一數(shù)據(jù)集評估方法和跨數(shù)據(jù)集交叉驗證評估方法兩種. 在單一數(shù)據(jù)集評估方法中, 網(wǎng)絡(luò)模型使用某個數(shù)據(jù)集的子數(shù)據(jù)集進行訓(xùn)練, 并使用同一數(shù)據(jù)集的其他子數(shù)據(jù)集進行測試評估. 在跨數(shù)據(jù)集交叉驗證評估方法中, 網(wǎng)絡(luò)模型使用某個數(shù)據(jù)集的子數(shù)據(jù)集進行訓(xùn)練, 并使用其他數(shù)據(jù)集的子數(shù)據(jù)集進行測試評估. 本文使用上述兩種評估方法評估多尺度特征選擇網(wǎng)絡(luò)的識別性能和泛化能力. 多尺度網(wǎng)絡(luò)和多尺度特征選擇網(wǎng)絡(luò)與其他方法的識別準(zhǔn)確率對比結(jié)果列于表1.
表1 多尺度網(wǎng)絡(luò)和多尺度特征選擇網(wǎng)絡(luò)與其他方法的識別準(zhǔn)確率對比結(jié)果
由表1可見, 本文構(gòu)建的多尺度網(wǎng)絡(luò)(MSN)的網(wǎng)絡(luò)參數(shù)僅為AlexNet網(wǎng)絡(luò)的8.38%. MSN在RAF-DB和FER2013數(shù)據(jù)集上的準(zhǔn)確率比AlexNet網(wǎng)絡(luò)分別提高了16.5%和5.21%, 這主要是因為當(dāng)使用AlexNet等參數(shù)規(guī)模較大的卷積神經(jīng)網(wǎng)絡(luò)分類面部表情時, 多數(shù)算法通常使用的訓(xùn)練策略是預(yù)訓(xùn)練和微調(diào)方法. 即首先使用大型人臉識別數(shù)據(jù)集作為輔助數(shù)據(jù)進行預(yù)訓(xùn)練, 然后使用人臉表情識別數(shù)據(jù)集(如RAF-DB, FER2013等)進行微調(diào), 這樣將導(dǎo)致人臉表情識別的性能下降, 而且這種訓(xùn)練策略是非端到端的學(xué)習(xí)方法. 而多尺度網(wǎng)絡(luò)是一個端到端的訓(xùn)練框架, 多尺度卷積結(jié)構(gòu)的使用可提取不同尺度的特征, 從而傳遞更準(zhǔn)確、 更完整的面部表情特征信息. 因此相比于層次結(jié)構(gòu)深、 網(wǎng)絡(luò)參數(shù)多的網(wǎng)絡(luò)模型(如VGG[9], AlexNet[19]等), 本文所構(gòu)建的網(wǎng)絡(luò)深度適當(dāng)、 模型參數(shù)適宜的多尺度網(wǎng)絡(luò)更適用于人臉表情識別任務(wù). 此外, 本文構(gòu)建的多尺度特征選擇網(wǎng)絡(luò)(MSFSN)可有效結(jié)合多尺度網(wǎng)絡(luò)和特征選擇機制的優(yōu)點, 從而能顯著提高其性能. 雖然該網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)僅為AlexNet網(wǎng)絡(luò)的16.14%, 但其在RAF-DB和FER2013數(shù)據(jù)集上的準(zhǔn)確率分別為76.79%和71.25%, 識別性能優(yōu)于其他人臉表情識別方法.
為更直觀地分析數(shù)據(jù)集各類別的分類結(jié)果, 本文繪制了該網(wǎng)絡(luò)在RAF-DB和FER2013數(shù)據(jù)集上的混淆矩陣, 如圖7所示, 其中混淆矩陣對角線上的數(shù)據(jù)表示每個類別的準(zhǔn)確率.
圖7 多尺度特征選擇網(wǎng)絡(luò)在兩個數(shù)據(jù)集上的混淆矩陣Fig.7 Confusion matrix of multi-scale feature selection network on two datasets
由圖7可見, 對于RAF-DB數(shù)據(jù)集上的7種表情類別, 多尺度特征選擇網(wǎng)絡(luò)識別厭惡表情的難度最大, 準(zhǔn)確率僅為42%, 厭惡表情最易被誤判為中性表情, 誤判率為19%, 這主要是因為厭惡和中性兩種表情的表情特征均不明顯且識別特征相似. 開心表情相對于其他表情較易識別, 準(zhǔn)確率高達(dá)90%, 這是因為開心表情具有更易識別的顯著特征, 例如嘴角翹起、 嘴巴微張和眼瞼收縮等. 對于FER2013數(shù)據(jù)集上的7種表情類別, 多尺度特征選擇網(wǎng)絡(luò)同樣識別開心表情的準(zhǔn)確率明顯高于其他表情. 但悲傷和恐懼兩種表情的識別準(zhǔn)確率較低, 分別為52%和61%, 且這兩種表情相互之間的誤判率較高, 悲傷表情被誤判為恐懼表情的概率為17%, 恐懼表情被誤判為悲傷表情的概率為13%, 這主要是因為悲傷和恐懼這兩種表情本身特征具有一定的相似性, 例如這兩種表情均具有嘴唇下拉、 眉毛收緊等相同特征. 此外, 悲傷表情也易被誤判為中性表情, 誤判率為13%, 這是因為通常中性表情會具有眼角和嘴角略下拉的特征, 這也是悲傷表情的主要特征, 因此這兩種表情在分類時易被混淆. 實驗結(jié)果表明, 誤判容易出現(xiàn)在厭惡和中性、 恐懼和悲傷等特定相似表情上, 因此應(yīng)加大對特定表情的關(guān)注, 從而進一步提高分類能力.
為驗證多尺度特征選擇網(wǎng)絡(luò)的泛化能力, 本文在RAF-DB和FER2013兩個數(shù)據(jù)集上進行交叉驗證實驗, 表2為多尺度特征選擇網(wǎng)絡(luò)與其他方法在這兩個數(shù)據(jù)集上交叉驗證實驗的對比結(jié)果. 實驗結(jié)果表明, 多尺度特征選擇網(wǎng)絡(luò)具有更好的泛化能力.
表2 對比多尺度特征選擇網(wǎng)絡(luò)與其他方法的跨數(shù)據(jù)集交叉驗證實驗結(jié)果
由上述對比實驗結(jié)果可見:
1) 多尺度特征選擇網(wǎng)絡(luò)的網(wǎng)絡(luò)深度適當(dāng)、 模型參數(shù)適宜, 適用于樣本數(shù)量有限的人臉表情識別任務(wù), 且該網(wǎng)絡(luò)在使用較少網(wǎng)絡(luò)參數(shù)的情況下, 其識別準(zhǔn)確率優(yōu)于其他多數(shù)網(wǎng)絡(luò)模型, 驗證了該網(wǎng)絡(luò)對人臉表情識別任務(wù)的有效性;
2) 跨數(shù)據(jù)集交叉驗證實驗結(jié)果驗證了多尺度特征選擇網(wǎng)絡(luò)具有良好的泛化能力, 適用于分類非受控的自然環(huán)境下的面部表情.
綜上所述, 本文通過對現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識別方法進行分析, 結(jié)合多尺度網(wǎng)絡(luò)和特征選擇機制提出了一種新的多尺度特征選擇網(wǎng)絡(luò), 實驗結(jié)果驗證了本文提出的多尺度特征選擇網(wǎng)絡(luò)具有良好的識別性能和泛化能力.