戴 蓉
(中國民用航空飛行學院 四川 廣漢 618307)
面部表情識別(Facial Expression Recognition,F(xiàn)ER)是一個活躍的多學科研究領域,在人機交互、認知心理學、計算神經(jīng)科學和醫(yī)療保健領域具有廣泛的應用潛力[1]。1984年Ekman根據(jù)臉部不同的運動單元組合定義出恐懼、生氣、開心、厭惡、悲傷、驚訝6種基本表情[2],從此基于6種情緒類別的情緒識別在機器學習研究界得到了廣泛的關注。近年來,卷積神經(jīng)網(wǎng)絡(CNN)在人工智能和模式識別方面取得了許多令人振奮的成果,并成功地應用于面部表情識別。
Jiswal等[3]提出了一種結(jié)合卷積和雙向長短期記憶網(wǎng)絡(CNN-BLSTM)的面部動作單元檢測新方法,該方法以深度學習的方式共同學習形狀、外觀和動態(tài)。Kim等[4]提出了一個具有指數(shù)加權決策融合的深度神經(jīng)網(wǎng)絡層次結(jié)構(gòu),通過訓練多個CNN模型改變網(wǎng)絡結(jié)構(gòu)、輸入標準化和權值初始化,從而獲得不同的決策邊界。Sang[5]提出了一個基于卷積神經(jīng)網(wǎng)絡架構(gòu)的有效檢測笑臉表情的識別系統(tǒng),采用改進ReLU函數(shù)和小濾波器相結(jié)合的方式構(gòu)建深度卷積神經(jīng)網(wǎng)絡。然而,這些CNN模型通常在同一個數(shù)據(jù)集上進行培訓和測試。
在現(xiàn)實生活中,雖然6種基本情緒是普遍存在的,但是個體在不同的文化、年齡、性別以及表達情緒的方式上可能會有所不同[6]。因此,一個訓練有素的CNN模型在訓練數(shù)據(jù)集上具有較高的識別精度,在其他數(shù)據(jù)集上通常表現(xiàn)不佳。為了使面部表情識別系統(tǒng)更加實用,提高識別模型的泛化能力,研究跨數(shù)據(jù)庫的FER是很重要的。目前,針對跨數(shù)據(jù)庫的人臉表情識別算法還不多。朱俊勇等[7]提出了基于稀疏子空間聚類的跨域人臉遷移學習算法,實現(xiàn)了不同數(shù)據(jù)庫間的信息遷移,但是該方法會產(chǎn)生一些不利于結(jié)果的冗余特征和噪聲。Wang等[8]提出了一種基于生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)來提高人臉表情識別的交叉數(shù)據(jù)集性能的算法,并通過引入分布式偽標簽方法提高目標數(shù)據(jù)的自適應能力,但是跨數(shù)據(jù)庫的表情識別率有待提高。
針對實際應用中交叉數(shù)據(jù)集無法通過監(jiān)督轉(zhuǎn)移學習對預先訓練的模型進行微調(diào)的問題,本文提出了一種基于條件生成對抗網(wǎng)絡的跨域面部表情識別框架。
生成對抗網(wǎng)絡GAN基于博弈論中的二人零和博弈思想,具有強大的圖片生成能力,在超分辨率、圖像修復和合成等方面應用廣泛。
生成對抗網(wǎng)絡是一種通過對抗過程估計生成模型的網(wǎng)絡框架,該網(wǎng)絡的基本框架由一個生成網(wǎng)絡G和一個判別網(wǎng)絡D構(gòu)成,GAN的結(jié)構(gòu)如圖1所示。
圖1 生成對抗網(wǎng)絡的結(jié)構(gòu)示意圖
生成網(wǎng)絡G利用真實數(shù)據(jù)樣本x訓練生成新的數(shù)據(jù)樣本G(z),判別網(wǎng)絡D是一個二分類器,判斷樣本是來自原始數(shù)據(jù)x還是由生成網(wǎng)絡產(chǎn)生的G(z)。整個GAN過程網(wǎng)絡G與D同時運行,判別網(wǎng)絡的目的是盡量使D(G(z))接近0,而生成網(wǎng)絡的目的是盡量使它接近1,最終二者在博弈中達到平衡。G和D的總體損失函數(shù)可以表示為:
Ez,P(z)[log(1-D(G(z)))]
(1)
式中:z是潛在表征;x是真實數(shù)據(jù)樣本;P表示概率分布;E表示期望。
為了解決GAN太過自由的問題,文獻[10]提出了一種帶條件約束的GAN-條件生成對抗網(wǎng)絡(Conditional Generative Adversarial Net,CGAN),如圖2所示。該模型在生成網(wǎng)絡(G)和判別網(wǎng)絡(D)的建模中均引入條件變量Y(如數(shù)據(jù)的標簽),使用額外信息Y對模型增加條件,指導數(shù)據(jù)生成過程,從而使GAN具有多類數(shù)據(jù)的生成能力。
圖2 CGAN結(jié)構(gòu)示意圖
與傳統(tǒng)的GAN相比,CGAN模型僅僅在總體損失函數(shù)做了一定的修改,新的總體損失函數(shù)定義為:
Ez,P(z)[log(1-D(G(z|Y)))]
(2)
本文提出了一種基于條件生成對抗網(wǎng)絡的跨域面部表情識別框架,主要分為特征嵌入模塊、對抗性學習模塊和分類模塊,算法的結(jié)構(gòu)示意圖如圖3所示。源域是CK+數(shù)據(jù)集,目標域是RAF-DB數(shù)據(jù)集,在訓練階段,網(wǎng)絡管道由兩個并行數(shù)據(jù)流組成,一條是F→C的分類分支,其中F和C采用監(jiān)督分類損失進行更新;另一條是對抗分支F→G→D,其中F、G和D使用對抗損失和輔助分類損失進行更新。在測試階段,只保留F和C作為最終分類。
圖3 本文算法的結(jié)構(gòu)示意圖
2.1.1 特征嵌入模塊
從圖3可以看出,特征嵌入模塊F采用了一個修正的VGG16網(wǎng)絡的前5個卷積塊作為其基本架構(gòu),預先訓練的卷積層初始學習率設定為rateF=0.000 01。
給定一幅從源域或者目標域數(shù)據(jù)集中獲取的圖像I,F(xiàn)(I)表示由特征嵌入模塊F生成的結(jié)果,然后從N(0,1)中抽取隨機噪聲矢量z∈Rd。情緒類別信息c∈{0,1}(N+1),以一種熱編碼格式表示,其中N表示真實表情標簽的數(shù)量,第(N+1)個標簽表示真/偽類。F(I)、z和c作為生成器G的輸入Ig=[F(I),z,c]。目標域中的所有圖像都應與偽類的一個熱編碼相關聯(lián),可以視它們?yōu)槲礃擞浀臄?shù)據(jù)。
2.1.2 對抗性學習模塊
在對抗性學習模中,發(fā)生器G由6個反卷積層組成,每層后面都有一個批歸一化層和ReLU激活函數(shù)。判別器D有4個卷積層,每層后面也有一個批歸一化層和泄漏ReLU激活函數(shù)。D和G的學習率按經(jīng)驗設置為rateD=0.000 1。
(3)
(4)
(5)
2.1.3 分類模塊
分類模塊C包含兩個全連接層,最后一層是SoftMax層,有6個輸出值,全連接層的初始學習率根據(jù)經(jīng)驗設定為rateC=0.000 1,給出一個源域圖像Is及其相應的表情標簽,利用交叉熵損失以相同的監(jiān)督方式更新了特征嵌入模塊F和分類模塊C。因此,通過優(yōu)化以下目標訓練C和F:
(6)
迭代優(yōu)化過程的核心部分是對特征嵌入F進行優(yōu)化,與源域相關的直接方法是通過傳統(tǒng)的監(jiān)督學習利用式(6)的梯度。在我們的研究中,特征學習F也受到敵方模塊中輔助分類丟失的影響,在這種情況下,目標是:
(7)
另一個挑戰(zhàn)是如何充分利用F的目標域數(shù)據(jù),為了獲得相應的梯度,我們通過D的逆勢損失即Dadv來探索生成機制。因此,F(xiàn)也更新為:
(8)
最后,F(xiàn)的聯(lián)合目標函數(shù)公式如下:
(9)
式中:λ和α是平衡三個損失的參數(shù)。最終目標是使f能夠生成與源域分布S一致的目標嵌入特性。
式(9)中的系數(shù)分別設置為λ=0.1和α=0.2。整個框架采用隨機梯度下降(Stochastic Gradient Descent,SGD)進行訓練,模型經(jīng)過了20 000~30 000次迭代訓練。其余參數(shù)設置如下:權值衰減量ω=0.000 1,動量參數(shù)Mo=0.9,批量值BS=8。
(1) 擴展的Cohn-Kanade數(shù)據(jù)集(CK+)[8]。該數(shù)據(jù)集由123名受試者記錄的593個視頻序列組成。受試者表現(xiàn)出不同的表情,每個視頻從中立表情開始,在最后一幀達到峰值。根據(jù)之前的標準設置,在本文實驗中選擇了本文提取每個視頻的最后三幀,生成了981幅圖像數(shù)據(jù)集。
(2) Oulu-CASIA NIR&VIS數(shù)據(jù)庫[11]。該數(shù)據(jù)集是以視頻的方式誘發(fā)的包含近紅外光和可見光的自發(fā)表情數(shù)據(jù)集,包含80名受試者記錄的六類基本表情的,共計480個視頻序列,存放于VIS和NIR兩個子集內(nèi)。實驗中,只使用了由可見光攝像頭在良好的正常光照下拍攝的視頻。同樣,選擇每個序列帶有表情標簽的最后三幀用于構(gòu)建新數(shù)據(jù)集,生成了1 440幅圖像數(shù)據(jù)集。
(3) 真實世界數(shù)據(jù)庫(RAF-DB)[11]。該數(shù)據(jù)集包含將近30 000幅真實世界面部表情圖像,根據(jù)每幅圖對應的七維表情概率分布向量,將數(shù)據(jù)庫劃分為七類基本表情來注釋這些數(shù)據(jù),并且對每一幅圖像進行了精確的特征點標注以及人臉屬性標注。由于RAF-DB中包含更多的自發(fā)表情,因此具有極大的挑戰(zhàn)性,其中一些表情無法很好地區(qū)分。實驗選取其中12 271個訓練樣本和3 068個測試樣本的靜態(tài)面部表情圖像進行測試。
CK+→Oulu-CASIA表示CK+數(shù)據(jù)庫中的981個樣本作為訓練集(源域),Oulu-CASIA數(shù)據(jù)庫中的1 440個樣本作為測試集(目標域)。訓練階段,來自目標域的樣本被視為未標記的數(shù)據(jù)。由于RAF-DB包含更多的自發(fā)表情,CK+→RAF-DB存在較大的域間隙,因此,對算法的域適應方面提出了更大的挑戰(zhàn)。為了解決這一問題,首先使用981幅標記的CK+圖像(源域)和1 000幅未標記的RAF-DB圖像來訓練本文模型,并評估其對整個RAF-DB集(目標域)的有效性。RAF-DB→CK+表示對1 000幅標記的RAF-DB圖像(源域)進行采樣,并使用整個CK+集(目標域)。同樣的規(guī)則也適用于RAF-DB→Oulu和Oulu→RAF-DB的測試。
為了驗證提出方法的優(yōu)越性,本文比較了不同的域自適應方法:Generative Adversarial Networks(GAN)[8]、Adversarial Residual Transform Networks(ARTN)[12]、Joint Adaptation Network(JAN)[13]。表1和圖4給出了本文方法(FCGD)、不帶域自適應(FC)的方法以及上述三種域自適應方法的測試結(jié)果。可以發(fā)現(xiàn),與其他域自適應方法相比,在所有的跨域測試中,本文域自適應算法更具優(yōu)勢,特別是在RAF→CK+、Oulu→CK+的性能尤為突出。相對于無任何調(diào)整的跨數(shù)據(jù)集方法FC,本文方法在Oulu→CK+的測試結(jié)果提高了10.5%,RAF→CK+提高了15.5%。
表1 不同域適應方法的識別準確度 %
圖4 不同域適應方法的識別準確度
為了進一步了解類別分類,表2-表7給出了FCGD在6個跨數(shù)據(jù)集任務中生成的混淆矩陣。通過分析矩陣發(fā)現(xiàn),在所有任務中,高興、厭惡和驚奇三種表情的識別準確率在6種表情中總是排在前3位,這與之前文獻[14]的研究一致。憤怒的低準確性在CK+→RAF和RAF→CK+時尤為明顯,這也與文獻[14]中的結(jié)果保持一致。此外,當目標域為RAF時,域的移動是相當大的(如表4、表6),RAF性能不佳,這是由于圖像數(shù)據(jù)的收集條件不同造成的。同時也說明了在實驗室控制的數(shù)據(jù)庫(CK+和Oulu)上表現(xiàn)良好的方法不適用于野外的FER任務。
表2 FCGD在CK+→Oulu跨數(shù)據(jù)集任務中生成的混淆矩陣
表3 FCGD在Oulu→CK+跨數(shù)據(jù)集任務中生成的混淆矩陣
表4 FCGD在CK+→RAF跨數(shù)據(jù)集任務中生成的混淆矩陣
表5 FCGD在RAF→CK+跨數(shù)據(jù)集任務中生成的混淆矩陣
表6 FCGD在Oulu→RAF跨數(shù)據(jù)集任務中生成的混淆矩陣
表7 FCGD在RAF→Oulu跨數(shù)據(jù)集任務中生成的混淆矩陣
本文提出了一種基于條件生成對抗網(wǎng)絡的域自適應面部表情識別方法,該方法通過優(yōu)化特征嵌入、對抗性學習和分類三個模塊的聯(lián)合學習過程,大大降低了面部表情圖像在源數(shù)據(jù)域和目標數(shù)據(jù)域之間的分布差異。本文方法在6個跨域FER任務中始終優(yōu)于其他域自適應方法,相較于無自適應的跨域方法,面部表情識別率有了明顯提高。