杜洋濤,楊鼎康,翟 鵬,3,5,張立華,2,3,4,5
1(復(fù)旦大學(xué)工程與應(yīng)用技術(shù)研究院,上海 200433)
2(季華實(shí)驗(yàn)室,佛山 528200)
3(智能機(jī)器人教育部工程研究中心,上海 200433)
4(吉林省人工智能與無人系統(tǒng)工程研究中心,長春 130703)
5(吉林省智能科學(xué)與工程聯(lián)合重點(diǎn)實(shí)驗(yàn)室,長春 132606)
面部表情是最自然、通用的人類情感信息傳達(dá)的方式之一.機(jī)器學(xué)習(xí)任務(wù)中,面部表情識別可以幫助機(jī)器更好的理解人類的行為和與人類交互,在人機(jī)協(xié)同、自動(dòng)駕駛等領(lǐng)域有重要應(yīng)用.目前表情識別算法可以在大部分場景下發(fā)揮較好效果,但是對于模糊微弱表情或伴隨著遮擋、面部姿勢、光照等外在干擾情況,現(xiàn)有算法仍然具有一定缺陷.
一般來說,面部表情識別主要包括3 個(gè)階段,即人臉檢測、特征提取和表情分類.在人臉檢測階段,Dlib[1]是較為輕量級別的檢測接口,但由于其對側(cè)臉檢測效果一般,所以MTCNN[2]人臉檢測器在復(fù)雜場景中更為常用.表情的特征提取工作可以根據(jù)特征類型,分為手工設(shè)計(jì)特征和基于學(xué)習(xí)得到的特征.手工特征主要分為基于紋理表達(dá)和基于幾何結(jié)構(gòu)兩類,如SIFT[3]、HOG[4]、LBP 直方圖[5]、Gabor 小波系數(shù)[6]等屬于經(jīng)典的紋理表達(dá)特征,同時(shí)還有大量研究基于鼻子、眼睛和嘴巴周圍關(guān)鍵點(diǎn)的相關(guān)幾何特征.隨著GPU 等并行計(jì)算設(shè)備高速發(fā)展,深度學(xué)習(xí)逐漸成為圖像分析領(lǐng)域的主要研究方向,因此基于學(xué)習(xí)得到特征是目前表情特征提取的主流方法.Tang[7]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行特征提取并分類,Liu 等人[8]也提出了一種基于面部動(dòng)作單元的CNN 架構(gòu)用于表情識別.
大部分現(xiàn)實(shí)生活中的表情并不會像實(shí)驗(yàn)室采集的數(shù)據(jù)那樣具有明顯的表情幅度特征,更多以微弱表情形式呈現(xiàn),同時(shí)真實(shí)場景下人臉表情關(guān)鍵部位可能會被墨鏡、口罩、帽子等遮擋.模糊微弱表情識別的主要難點(diǎn)在于表情特征過小會被淹沒與人臉圖像特征中,使得表情特征無法對分類器訓(xùn)練產(chǎn)生促進(jìn)效果.為了解決此問題,Peng 等人[9]基于遷移學(xué)習(xí)的概念,在經(jīng)過ImageNet 預(yù)訓(xùn)練的ResNet101 網(wǎng)絡(luò)基礎(chǔ)上,用表情數(shù)據(jù)集進(jìn)行凍結(jié)訓(xùn)練微調(diào)參數(shù).Khor 等人[10]進(jìn)一步提出豐富的長期遞歸卷積網(wǎng)絡(luò)(enriched long-term recurrent convolutional network,ELRCN),在長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)結(jié)構(gòu)基礎(chǔ)上利用CNN 模塊完成模糊表情序列的特征向量編碼,最后實(shí)現(xiàn)分類.Peng 等人[11]和Huang 等人[12]利用表情序列進(jìn)行特征增強(qiáng),通過計(jì)算表情幅度最大的圖像幀與序列中某一代表幀的光流特征作為時(shí)序信息,然后利用CNN 完成模糊表情識別,同時(shí)提高了分類正確率和節(jié)省了序列信息的計(jì)算耗時(shí).
面部遮擋、光照明暗和不同的姿勢帶來的面部表情信息損失通常發(fā)生在現(xiàn)實(shí)世界的場景,因?yàn)槊娌繀^(qū)域可以很容易被太陽眼鏡,帽子,圍巾等遮擋.Liu 等人[13]提出利用Gabor 直方圖衡量圖像部分遮擋,并引入LGBPHS 方法來解決.Cotter[14,15]提出對部分遮擋圖片使用稀疏性表示分類器效果較差的問題.Li 等人[16]設(shè)計(jì)了一個(gè)基于補(bǔ)丁的注意網(wǎng)絡(luò),用于遮擋感知下的表情識別.對于位姿變化問題,Rudovic 等人[17]提出了耦合比例高斯過程回歸(CSGPR)模型的頭部歸一化,Lai 等人[18]利用GAN 從側(cè)臉圖像生成正臉圖像來解決面部姿勢問題.
由于表情模糊導(dǎo)致的表情特征不明顯和由于遮擋導(dǎo)致的表情特征不可見是表情識別領(lǐng)域的兩個(gè)重要問題.因此如果直接對面部圖像進(jìn)行特征提取,微弱模糊的表情特征容易被忽略,同時(shí)遮擋區(qū)域則會提取面部無關(guān)特征,而人類卻可以“放大”微弱表情特征同時(shí)忽略遮擋區(qū)域的無關(guān)特征.心理學(xué)研究表明[19],人類的注意力機(jī)制可以有效地利用局部區(qū)域和整體面孔來感知不完整面孔傳遞地語義信息.受到此研究啟發(fā),近年來涌現(xiàn)出許多基于注意力機(jī)制(attention)的深度學(xué)習(xí)方法.
注意機(jī)制是在強(qiáng)化算法的基礎(chǔ)上發(fā)展起來的,但卻廣泛地應(yīng)用于視覺深度學(xué)習(xí)領(lǐng)域的局部特征強(qiáng)化.Badanau 等人[20]同時(shí)對翻譯和源語言對齊兩項(xiàng)任務(wù)進(jìn)行注意力運(yùn)算,他們的工作是首次嘗試將注意機(jī)制應(yīng)用于機(jī)器翻譯,并獲得突破性結(jié)果.隨后,注意力模型在深度學(xué)習(xí)領(lǐng)域被廣泛應(yīng)用,針對不同任務(wù)提出了多種注意機(jī)制模型,如針對機(jī)器閱讀的LSTM模型、機(jī)器翻譯[21]的多類注意模型和視頻分類[22]的注意集群模型.在計(jì)算機(jī)視覺領(lǐng)域,注意力模型也取得了異常成功的效果,Wang 等人[23]提出了一種人臉檢測的注意網(wǎng)絡(luò),在生成錨點(diǎn)的步驟中突出了人臉區(qū)域.Yang 等人提出的神經(jīng)聚合網(wǎng)絡(luò)(neural aggregation network,NAN)[24],NAN 使用級聯(lián)注意機(jī)制將一個(gè)視頻或集合的人臉特征聚合成一個(gè)緊湊的視頻表示.
上述討論的所有深度學(xué)習(xí)網(wǎng)絡(luò)幾乎均采用傳統(tǒng)的卷積、池化、全連接等網(wǎng)絡(luò)層.Yu 等人研究認(rèn)為[25],傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)使用卷積層、最大池化或平均池化和全連接層只能捕獲一階統(tǒng)計(jì)量,而二階統(tǒng)計(jì)量如協(xié)方差等被認(rèn)為是比第一階統(tǒng)計(jì)量(如均值或最大值)更好的圖像區(qū)域語義描述符[26].而基于流行網(wǎng)絡(luò)的特征提取模塊可以捕獲二階統(tǒng)計(jì)量,更好的刻畫圖像扭曲的特征.在文獻(xiàn)[25,27,28] 中,作者基于VGG 網(wǎng)絡(luò)的各種架構(gòu)實(shí)驗(yàn)二階特征的合并效果,并在圖像分類、目標(biāo)檢測等數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).而在表情識別領(lǐng)域,Acharya 等人在文獻(xiàn)[28]中提出了一種協(xié)方差池化(covariance pooling)的深度學(xué)習(xí)架構(gòu),該工作分析了駐留在SPD 流形[29,30]上的二階統(tǒng)計(jì)特征,并構(gòu)造成網(wǎng)絡(luò)框架對特征協(xié)方差進(jìn)行學(xué)習(xí)迭代,其實(shí)驗(yàn)表明在表情識別任務(wù)中擁有較好的效果.但是協(xié)方差池化往往針對全局采用相同的計(jì)算系數(shù),對于表情微弱和局部遮擋等情況并未做考慮,因此本文改進(jìn)其方法,以更好的應(yīng)對模糊微弱表情和遮擋情況.
因此本文認(rèn)為二階統(tǒng)計(jì)特征可以更好地描述區(qū)域的扭曲程度從而更好地學(xué)習(xí)表情語義,如果結(jié)合注意力機(jī)制將更有效地提取局部微弱表情特征同時(shí)抑制無關(guān)特征.因此本文利用流形學(xué)習(xí)網(wǎng)絡(luò)獲取局部區(qū)域的二階統(tǒng)計(jì)特征并將其作為局部注意力特征輸入主網(wǎng)絡(luò)中.值得指出的是,本文并非第一個(gè)提出用局部注意力機(jī)制解決表情識別問題的,但盡我們所知,本文是第一個(gè)用流形學(xué)習(xí)獲取二階統(tǒng)計(jì)信息作為面部區(qū)域注意力系數(shù)的.
綜上所述,本文的主要貢獻(xiàn)有:
(1)構(gòu)建了面部表情局部注意力網(wǎng)絡(luò)框架,利用注意力機(jī)制強(qiáng)化模糊微弱表情等情況下的微小表情特征,同時(shí)抑制由于墨鏡、口罩等面部遮擋物帶來的表情無關(guān)特征,從而提高表情識別能力;
(2)提出流形注意力機(jī)制模塊(SPD-Attention module),構(gòu)造對稱正定的協(xié)方差矩陣結(jié)合流形學(xué)習(xí)網(wǎng)絡(luò)得到二階統(tǒng)計(jì)特征刻畫局部區(qū)域的扭曲程度,相比于一階特征可以更好地刻畫表情特,同時(shí)提出了對流形網(wǎng)絡(luò)過程的正則化損失,提高其收斂速度;
(3)在AffectNet、CK+、FER2013、FER2013plus、RAF-DB、SFEW 和公開的模糊遮擋數(shù)據(jù)集上進(jìn)行了測評,相比與ResNet34、VGG19 等經(jīng)典深度學(xué)習(xí)方法具有普遍提升效果,同時(shí)與目前先進(jìn)方法對比也取得了近似或更好的水平.
目前大部分表情識別方法主要基于深度學(xué)習(xí)網(wǎng)絡(luò),對于微表情和遮擋問題也主要依賴于網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整和細(xì)化.基于以上研究方向,本文希望可以通過注意力機(jī)制自動(dòng)地增強(qiáng)較小的表情特征和抑制遮擋帶來的無關(guān)特征,并構(gòu)建一個(gè)端到端(end-to-end)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行學(xué)習(xí)訓(xùn)練.
由于注意力機(jī)制可以由不同的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn),其本質(zhì)是對特征的賦權(quán),如文獻(xiàn)[31]中,Wang 等人利用共享的全連接層訓(xùn)練注意力系數(shù).但考慮到二階統(tǒng)計(jì)信息往往可以更好地刻畫面部扭曲情況(而表情語義往往蘊(yùn)含與局部扭曲),因此本文考慮采用二階統(tǒng)計(jì)信息來構(gòu)造注意力機(jī)制,設(shè)計(jì)算法1.
算法1.基于局部流形注意力的表情識別框架1)從將輸入圖片進(jìn)行一份拷貝和n 份局部剪裁構(gòu)成圖片集;S O={output0,output1,···,outputn}F={fea0,fea1,···,fean}imageraw S={image0,image1,···,imagen}2)將圖片集輸入一個(gè)共享權(quán)值的基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)(CNN),并提取該網(wǎng)絡(luò)某一層(本文提取倒數(shù)第2 層)的特征圖集合和該網(wǎng)絡(luò)最后的特征向量集合;outputifeai vectori~Vector 3)將每個(gè)特征圖和特征向量輸入流形注意力計(jì)算模塊(SPD-Attention module)中得到帶注意力的j 局部特征向量,最后求和輸出;FC1 4)計(jì)將求和后的特征向量輸入全連接層中得到分類預(yù)測結(jié)果.
這樣做的好處主要有兩點(diǎn): (1)模糊微弱表情的二階統(tǒng)計(jì)特征相對一階統(tǒng)計(jì)特征更明顯,可以提高分類效果; (2)面部圖像中的墨鏡等遮擋物在二階統(tǒng)計(jì)信息會被相對抑制,可以過濾表情無關(guān)特征.本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示.
如圖1 所示,本文的主體框架是基于局部圖像的自注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu),主要包含3 個(gè)步驟,第1 步是獲得表情圖像的聯(lián)合特征向量: 輸入原始圖像的一份拷貝和n份局部剪裁圖片構(gòu)成整體輸入圖片集合S={image0,image1,···,imagen},經(jīng)過基礎(chǔ)特征提取卷積神經(jīng)網(wǎng)絡(luò)(該網(wǎng)絡(luò)對S中的每個(gè)元素權(quán)值共享)得到特征圖和特征向量; 第2 步是利用第1 步得到的特征圖求取協(xié)方差矩陣,然后經(jīng)過流形注意力模塊(SPDAttention module)得到帶注意力的圖像待分類特征向量; 第3 步則是利用最終的待分類特征向量通過全連接層進(jìn)行分類預(yù)測.我們將在第1.2 節(jié)詳細(xì)介紹SPDAttention 模塊,此處將詳細(xì)介紹第1 步和第3 步.
圖1 基于局部流形注意力的表情識別網(wǎng)絡(luò)框架
為了保證網(wǎng)絡(luò)可以得到面部表情的全局特征作為局部特征的參考,對于輸入圖片imageraw,我們首先復(fù)制其本身得到image0,然后對其進(jìn)行局部剪裁得到局部圖像序列image1,image2,···,imagen本文采用的局部剪裁方法主要有兩種,第1 種是隨機(jī)剪裁: 設(shè)定剪裁區(qū)域面積占總面積的比例為r(本文取r=0.75),然后隨機(jī)選取相應(yīng)面積區(qū)域; 第2 種是面部關(guān)鍵點(diǎn)剪裁: 根據(jù)標(biāo)定的83 個(gè)人臉關(guān)鍵點(diǎn)[2],剪裁關(guān)鍵點(diǎn)周圍區(qū)域.剪裁完成后將得到的圖片集S={image0,image1,···,imagen}輸入一個(gè)權(quán)值共享的CNN 網(wǎng)絡(luò)中,本文采用ResNet18作為基本框架,得到特征圖輸出集合O={output0,output1,···,outputn}和最后的特征向量集合F={fea0,fea1,···,fean}.
上述特征圖和特征向量經(jīng)過局部流行注意力機(jī)制后再求和得到最終的待分類特征向量并將其輸入最后一層全連接層FC1得到分類的預(yù)測結(jié)果,由于是多分類任務(wù),本文采用的分類損失函數(shù)為交叉熵?fù)p失(CrossEntropy),具體如式(1)所示:
其中,p為標(biāo)簽值,q為預(yù)測值(經(jīng)過Softmax 后的onehot 形式).
流形注意力機(jī)制(SPD-Attention module)是本文的核心創(chuàng)新點(diǎn),如圖1 虛線框中模塊所示.對于CNN輸出的特征圖輸出集合O={output0,output1,···,outputn}中的每個(gè)元素outputi進(jìn)行相同的操作,首先將outputi的每一層拉平,假設(shè)原來的outputi的維度為w×h×c,拉平后維度變成wh×c即變成c個(gè)向量組,由此可以對它們求協(xié)方差矩陣Covmatrixi,Tuzel 等人[26]的研究表明由特征計(jì)算出的協(xié)方差矩陣駐留在SPD 流形上,其相較于一階統(tǒng)計(jì)信息可以更好地捕獲區(qū)域特征.值得一提的是,CNN 輸出的特征圖理論上可以選取任一層,本文選取ResNet18 的倒數(shù)第2 層作為輸出.
假設(shè)特征圖拉平后得到的向量為{x1,x2,···,xc}∈Rwh則協(xié)方差矩陣為式(2):
其中,為均值.
當(dāng)向量集{x1,x2,···,xc}中的線性獨(dú)立元素個(gè)數(shù)大于wh時(shí),該協(xié)方差矩陣為對稱正定矩陣(SPD),而只有在協(xié)方差矩陣滿足SPD 性質(zhì)時(shí),黎曼流形的SPD 網(wǎng)絡(luò)結(jié)構(gòu)[29]才得以使用.而協(xié)方差矩陣一定滿足對稱性,根據(jù)式(3)可以證明協(xié)方差矩陣Covmatrixi一定半正定.
其中,β為任意向量.
因此可以通過矩陣跡的方式將協(xié)方差矩陣正定化,即如式(4)所示:
其中,λ為正則系數(shù),I為單位矩陣.
Huang 等人[30]提出了Bilinear Mapping 層、Eigenvalue Rectification 層、Log Eigenvalue 層可以在黎曼流形空間進(jìn)行參數(shù)學(xué)習(xí),本文在其基礎(chǔ)上對駐留在SPD 流形上的協(xié)方差特征矩陣進(jìn)行了網(wǎng)絡(luò)訓(xùn)練,下文將簡要介紹,流形學(xué)習(xí)流程如圖2 所示.
圖2 SPD 流形學(xué)習(xí)流程
由于直接將CNN 輸出的特征圖拉平計(jì)算協(xié)方差矩陣Cov,因此Cov 維度可能非常大,而且可能并不適合用傳統(tǒng)的網(wǎng)絡(luò)層連接方式.所以采用Bilinear Mapping層代替?zhèn)鹘y(tǒng)的網(wǎng)絡(luò)層鏈接方式,可以在降低維度的同時(shí)保證其幾何結(jié)構(gòu)不變,其具體如式(5)所示:
其中,Xk-1為輸入Bilinear Mapping 層的SPD 矩陣,Wk為權(quán)值矩陣,Xk為輸出的SPD 矩陣.
傳統(tǒng)的CNN 在每一層卷積池化之后往往需要添加如ReLU 等激活函數(shù)層,而在黎曼流形下可以采用Eigenvalue Rectification 層代替,其具體如式(6)所示:
其中,Xk-1為輸入Eigenvalue Rectification 層的SPD 矩陣,Xk為輸出的SPD 矩陣,ε為閾值,Uk-1和Σk-1為Xk-1的矩陣特征向量和特征值,即Xk-1=Uk-1Σk-1
由于黎曼流形于傳統(tǒng)歐氏空間計(jì)算法則并不一致,所以可以采用Log Eigenvalue 層使黎曼流形中的元素具有李群結(jié)構(gòu),其輸出矩陣可以展平并且可以應(yīng)用標(biāo)準(zhǔn)的歐幾里得運(yùn)算.其具體如式(7)所示:
其中,Xk-1為輸入Log Eigenvalue 層的SPD 矩陣,Xk為輸出的SPD 矩陣,Uk-1和Σk-1為Xk-1的矩陣特征向量和特征值,即Xk-1=Uk-1Σk-1.
如第1.2 節(jié)中式(7)所示,由于在網(wǎng)絡(luò)末端的全鏈接結(jié)構(gòu)需要進(jìn)行標(biāo)準(zhǔn)的歐幾里得運(yùn)算,所以需要采用Log Eigenvalue 層將分布于黎曼空間的SPD 矩陣轉(zhuǎn)到歐氏空間中.雖然Eigenvalue Rectification 層保證了Σk中的數(shù)值符合Log Eigenvalue 層的計(jì)算定義,但是由于對數(shù)運(yùn)算本身的性質(zhì),當(dāng)Σk(i,i)趨向于0 時(shí)容易導(dǎo)致梯度爆炸,而Σk(i,i)過大時(shí)容易導(dǎo)致梯度消失.為了網(wǎng)絡(luò)收斂的穩(wěn)健性,本文此處引入正則項(xiàng),約束 Σk的分布,保證良好的梯度性質(zhì).
根據(jù)泰勒一階展開,我們可以定義正則約束如式(8)所示:
根據(jù)Log Eigenvalue 層的Backpropagation 規(guī)則[30],我們可以修正梯度式(9)到式(10).
其中,L(k)為第k層的loss,I為單位矩陣.
為了充分驗(yàn)證算法的有效性,本文首先在多個(gè)通用的表情識別數(shù)據(jù)集上實(shí)驗(yàn)了效果,并與VGG、ResNet等經(jīng)典深度學(xué)習(xí)方法和Covariance Pooling[28]等時(shí)下先進(jìn)方法進(jìn)行比較; 其次為了進(jìn)一步驗(yàn)證本文算法對于微弱表情和遮擋情況的效果提升,在專用的模糊遮擋表情數(shù)據(jù)集上驗(yàn)證了效果,并與時(shí)下先進(jìn)方法進(jìn)行對比; 最后,本文對具體效果進(jìn)行了可視化,對比分析了正則項(xiàng)對于流形網(wǎng)絡(luò)的梯度約束作用.
本文在6 個(gè)公開通用表情數(shù)據(jù)集和1 個(gè)公開專用遮擋或模糊表情數(shù)據(jù)集上實(shí)驗(yàn)了本文的效果; 6 個(gè)通用表情數(shù)據(jù)集分別是: Affectnet、CK+、FER2013、FER2013plus、RAFDB 和SFEW,專用遮擋或模糊表情數(shù)據(jù)集來自Kai 等人的工作[31].
AffectNet 數(shù)據(jù)集.AffectNet 是一個(gè)由互聯(lián)網(wǎng)圖片組成了規(guī)模巨大的數(shù)據(jù)集,其標(biāo)注包含了離散的表情分和連續(xù)的VA 標(biāo)注信息.AffectNet 由一個(gè)不平衡的訓(xùn)練集和一個(gè)平衡的測試集組成,在本文實(shí)驗(yàn)中,采用的是其中給出8 種基本表情類別(分別為: 憤怒、蔑視、嫌棄、恐懼、高興、中性、悲傷、驚訝)的450k 張數(shù)據(jù)作為訓(xùn)練集,4k 張數(shù)據(jù)作為測試集.
CK+數(shù)據(jù)集.CK+數(shù)據(jù)集是經(jīng)典的實(shí)驗(yàn)室數(shù)據(jù)集,由序列圖片構(gòu)成,圖片序列展示了表情幅度由弱變強(qiáng)的過程,其中包含了8 種基本表情.與目前大多數(shù)方法類似,本文在處理CK+數(shù)據(jù)時(shí)取最后3 幀表情圖片用于實(shí)驗(yàn),同時(shí)利用MTCNN[2]等算法對圖片進(jìn)行人臉裁剪,除去背景等無關(guān)信息.
FER2013 數(shù)據(jù)集.FER2013 數(shù)據(jù)集是ICML2013的比賽數(shù)據(jù)集,是一個(gè)大規(guī)模的現(xiàn)實(shí)生活環(huán)境表情數(shù)據(jù)集.FER2013 包含28 709 張訓(xùn)練集,3 589 張驗(yàn)證集和3 589 張測試集,每張圖片是48×48 的灰度圖片,共有7 種表情標(biāo)簽.
FER2013plus 數(shù)據(jù)集.FER2013plus 數(shù)據(jù)集是由數(shù)據(jù)集FER2013 擴(kuò)展而成,包含了10 種離散的表情標(biāo)簽.同Covariance Pooling 工作一致,我們選取其中標(biāo)簽位8 種基本表情的圖片為實(shí)驗(yàn)數(shù)據(jù).值得注意的是,FER2013plus 數(shù)據(jù)集并未給出唯一真實(shí)標(biāo)簽,而是公布了所有標(biāo)注者對同一張圖片的標(biāo)注信息,本文同以往工作一致,根據(jù)最大投票原則確定表情類別.
RAFDB 數(shù)據(jù)集.RAFDB 包含30 000 張由受過訓(xùn)練的40 位標(biāo)注人員給出多重表情標(biāo)簽的圖片,圖像質(zhì)量和標(biāo)簽質(zhì)量均相對較高,在本文的實(shí)驗(yàn)中,與Covariance Pooling 工作一致,采用基礎(chǔ)的12 271 張表情標(biāo)注圖片用于訓(xùn)練,3 068 張作為測試.
SFEW 數(shù)據(jù)集.SFEW 數(shù)據(jù)集是數(shù)據(jù)集AFEW 的子集,包含958 張訓(xùn)練集圖片,436 張驗(yàn)證集圖片和372 張測試集圖片.由于測試集標(biāo)簽并未開源,所以同以往工作一致,本文利用訓(xùn)練集訓(xùn)練,驗(yàn)證集測試效果.
由于SFEW 數(shù)據(jù)集過小,為了提高訓(xùn)練效果,本文將RAFDB 數(shù)據(jù)集的訓(xùn)練集加入SFEW 數(shù)據(jù)的訓(xùn)練過程中,提升模型泛化能力.由于AffectNet 等數(shù)據(jù)集存在數(shù)據(jù)分布不平衡的問題,同時(shí)CK+數(shù)據(jù)集存在訓(xùn)練樣本分布較小的問題,所以本文對于AffectNet 等數(shù)據(jù)集采用帶權(quán)重的分類損失,權(quán)重正比例于訓(xùn)練集的樣本分布,同時(shí)對CK+等數(shù)據(jù)采用水平翻轉(zhuǎn)、隨機(jī)剪裁等數(shù)據(jù)增強(qiáng)方法擴(kuò)大訓(xùn)練數(shù)據(jù)集規(guī)模,圖片尺寸統(tǒng)一采用224×224.本文在PyTorch 框架下進(jìn)行實(shí)驗(yàn),網(wǎng)絡(luò)backbone 為PyTorch 官方提供的ResNet18,訓(xùn)練時(shí)batchsize 為256,測試時(shí)batchsize 為128,學(xué)習(xí)率初始為0.1,并每20 個(gè)epoch 下降10%,實(shí)驗(yàn)在Tesla V100 GOSUs 平臺完成.
為了驗(yàn)證本文算法的有效性,本文首先在Affectnet、CK+、FER2013、FER2013plus、RAFDB 和SFEW 6 個(gè)通用數(shù)據(jù)集上實(shí)驗(yàn)了本文算法,并于經(jīng)典的深度學(xué)習(xí)方法ResNet18、ResNet34、VGG16、VGG19進(jìn)行了對比實(shí)驗(yàn).如圖3 所示,分別展示了本文方法在6 個(gè)通用數(shù)據(jù)集上的混淆矩陣.從圖中可以看出在本文方法在CK+、FER2013plus 和RAFDB 上表現(xiàn)較好,而在SFEW 上表現(xiàn)則一般.這主要是因?yàn)镃K+數(shù)據(jù)集較為簡單,FER2013plus 和RAFDB 的數(shù)據(jù)較為清晰,相比之下SFEW 的數(shù)據(jù)難度較大,且圖像存在較多干擾,值得指出的是,目前的所有先進(jìn)方法在SFEW 數(shù)據(jù)上的表現(xiàn)均遠(yuǎn)遜于其他數(shù)據(jù)集.同時(shí)對于不同種類的表情的識別結(jié)果也有顯著區(qū)別,對于高興這類表情的識別效果普遍較好,對于恐懼等表情識別效果一般較差.這主要是因?yàn)楦吲d的表情具有區(qū)分性非常強(qiáng)的特征,而恐懼的表情特征則容易和驚訝等表情混淆.
圖3 通用表情識別數(shù)據(jù)集結(jié)果
如表1 所示,本文在6 個(gè)數(shù)據(jù)集上和經(jīng)典的深度學(xué)習(xí)方法進(jìn)行了對比.VGG 網(wǎng)絡(luò)是圖像識別領(lǐng)域非常經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu),在人臉識別領(lǐng)域具有廣泛應(yīng)用,ResNet 由于其殘差學(xué)習(xí)的特質(zhì),可以適應(yīng)于大規(guī)模深度網(wǎng)絡(luò),同時(shí)也是ImageNet 比賽的冠軍網(wǎng)絡(luò)框架.為了更好的消融對比,本文此處采用的ResNet 和VGG均保持原有框架,分類器統(tǒng)一選擇全連接層,除此之外沒有其他任何模塊.為了對比的公平性,本文此處采用相同數(shù)據(jù)集進(jìn)行訓(xùn)練,未加載任何人臉識別預(yù)訓(xùn)練權(quán)重,優(yōu)化方法均選擇隨機(jī)梯度下降方式(SGD).從表格中可以看出,本文的方法相比與經(jīng)典方法在所有數(shù)據(jù)集上均有效果提升.
表1 通用表情識別數(shù)據(jù)集上與經(jīng)典方法對比結(jié)果(%)
在驗(yàn)證效果普遍優(yōu)于經(jīng)典方法后,由于目前先進(jìn)方法普遍是基于ResNet 等經(jīng)典方法改進(jìn)的,所以為了進(jìn)一步驗(yàn)證本文算法效果,在RAFDB 數(shù)據(jù)集上與目前先進(jìn)方法進(jìn)行了效果對比,結(jié)果如表2 所示,此處選擇RAFDB 數(shù)據(jù)集的原因主要是由于RAFDB 是公認(rèn)的高質(zhì)量數(shù)據(jù)集,所有目前先進(jìn)方法均匯報(bào)了在其上的效果.如表2 所示,本文相比目前先進(jìn)方法在RADFB數(shù)據(jù)上的效果也均有提升.值得一提的是,對比方法中的Covariance Pooling 同樣也采用了流形學(xué)習(xí)的方式,利用全局的協(xié)方差池化提取二階統(tǒng)計(jì)信息,但本文方法相比于其增加了注意力機(jī)制的使用,將二階統(tǒng)計(jì)信息用作注意力系數(shù),更好地把握了表情的局部信息,由此相比與Covariance Pooling 本文有更好的識別效果.
表2 RAFDB 上與目前先進(jìn)方法對比結(jié)果
本文方法的設(shè)計(jì)初衷是為了應(yīng)對表情數(shù)據(jù)中出現(xiàn)模糊微弱表情或者面部存在遮擋的情況,所以此處本文在專用的RAFDB 模糊、遮擋數(shù)據(jù)集[31]上進(jìn)行實(shí)驗(yàn),并于目前先進(jìn)方法進(jìn)行對比,結(jié)果如表3 所示,混淆矩陣如圖4、圖5 所示.
表3 模糊、遮擋表情數(shù)據(jù)集上與目前先進(jìn)方法對比結(jié)果(%)
圖4 SPD-Attention on Occlusion
圖5 SPD-Attention on Pose blur
可以看出,在模糊微弱表情或存在遮擋情況下本文算法相較于目前先進(jìn)方法有一定提升.Covariance Pooling 方法在模糊、遮擋數(shù)據(jù)集上表現(xiàn)效果顯著降低,本文相較于其具有3%以上的提升,主要原因是遮擋或模糊數(shù)據(jù)集主要信息來自于面部的局部信息,而Covariance Pooling 采用的是全局協(xié)方差池化,缺乏對局部信息的關(guān)注.值得一提的是,Finetune 的效果是利用專用的網(wǎng)絡(luò)并在大規(guī)模專用數(shù)據(jù)集上進(jìn)行細(xì)節(jié)化調(diào)整得到的結(jié)果,其可以反映目前先進(jìn)方法在遮擋等情況下的表情識別效果.
通過和目前先進(jìn)方法的對比,可看出本文利用流形學(xué)習(xí)得到二階統(tǒng)計(jì)信息會比其他方法使用的一階統(tǒng)計(jì)信息具有更好的表情特征描述能力,也具備更好的抗干擾能力; 同時(shí)也可以看出,相較目前利用二階統(tǒng)計(jì)信息的先進(jìn)工作,本文將二階統(tǒng)計(jì)信息作為注意力系數(shù)放入網(wǎng)絡(luò)架構(gòu)中,可以更好地關(guān)注局部信息,提高對微弱表情特征的學(xué)習(xí),抑制無關(guān)遮擋信息的影響.
為了進(jìn)一步探究不同程度表情模糊數(shù)據(jù)對本文算法的影響,針對FER2013plus 數(shù)據(jù)集上不同程度姿態(tài)模糊數(shù)據(jù)[31]進(jìn)行對比實(shí)驗(yàn).如表4 所示,對于大姿態(tài)(Pose45)變化導(dǎo)致的表情模糊,本文算法效果會有一定下降,但與目前先進(jìn)方法效果持平,本文認(rèn)為是大姿態(tài)模糊情況下表情信息非常有限導(dǎo)致.
表4 不同程度模糊數(shù)據(jù)本文方法對比結(jié)果(%)
如圖6 所示,是本文利用梯度熱力圖方式對本文算法的注意力區(qū)域進(jìn)行可視化,利用網(wǎng)絡(luò)在梯度傳遞時(shí)對于不同區(qū)域的梯度大小,表示網(wǎng)絡(luò)對圖像區(qū)域的關(guān)注程度.顏色越鮮艷的區(qū)域表示網(wǎng)絡(luò)對于該區(qū)域的梯度更大,即表示該區(qū)域的內(nèi)容對于網(wǎng)絡(luò)識別越重要.
圖6 網(wǎng)絡(luò)熱力圖可視化
從圖6 中可以看出,本文算法著重關(guān)注面部的扭曲區(qū)域,對于手、眼睛等遮擋具有較強(qiáng)的對抗能力,同時(shí)對于模糊微弱表情也可以著重關(guān)注表情特征顯著區(qū)域.
由于流形網(wǎng)絡(luò)計(jì)算需要通過對數(shù)運(yùn)算將SPD 流形結(jié)構(gòu)轉(zhuǎn)到歐氏空間,為了抑制梯度爆炸和梯度消失,本文對網(wǎng)絡(luò)的對數(shù)層引入正則損失.由圖7 所示不同程度正則損失對于網(wǎng)絡(luò)梯度的影響,可以得出結(jié)論: 合適的正則損失可以有效提高網(wǎng)絡(luò)的魯棒性.
圖7 不同程度正則損失對于網(wǎng)絡(luò)梯度的影響
本文重點(diǎn)關(guān)注了表情識別中模糊微弱表情和存在遮擋的表情,從注意力機(jī)制和流形學(xué)習(xí)角度出發(fā),利用表達(dá)能力更強(qiáng)的二階統(tǒng)計(jì)信息表達(dá)局部表情特征,提出了局部流形注意力機(jī)制.通過和ResNet 等經(jīng)典方法以及Covariance Pooling 等目前先進(jìn)方法的實(shí)驗(yàn)對比,驗(yàn)證了本文算法對于模糊、遮擋表情識別有較好的效果.同時(shí)為了抑制流形學(xué)習(xí)可能帶來的梯度消失、梯度爆炸等情況,利用正則損失約束網(wǎng)絡(luò)梯度,提高了網(wǎng)絡(luò)穩(wěn)定性.在未來工作中,本文將繼續(xù)探究流形注意力機(jī)制在人臉識別等任務(wù)中的應(yīng)用可能,同時(shí)從知識蒸餾等角度降低由于流形網(wǎng)絡(luò)計(jì)算帶來的整體算法復(fù)雜度的提升,探究在移動(dòng)設(shè)備端使用的價(jià)值.