一種基于條件生成對抗網(wǎng)絡的面部表情識別技術

2020-09-02 01:22戴蓉

計算機應用與軟件 2020年8期

戴蓉

(中國民用航空飛行學院四川廣漢 618307)

0 引言

面部表情識別(Facial Expression Recognition，F(xiàn)ER)是一個活躍的多學科研究領域，在人機交互、認知心理學、計算神經(jīng)科學和醫(yī)療保健領域具有廣泛的應用潛力[1]。1984年Ekman根據(jù)臉部不同的運動單元組合定義出恐懼、生氣、開心、厭惡、悲傷、驚訝6種基本表情[2]，從此基于6種情緒類別的情緒識別在機器學習研究界得到了廣泛的關注。近年來，卷積神經(jīng)網(wǎng)絡(CNN)在人工智能和模式識別方面取得了許多令人振奮的成果，并成功地應用于面部表情識別。

Jiswal等[3]提出了一種結(jié)合卷積和雙向長短期記憶網(wǎng)絡(CNN-BLSTM)的面部動作單元檢測新方法，該方法以深度學習的方式共同學習形狀、外觀和動態(tài)。Kim等[4]提出了一個具有指數(shù)加權決策融合的深度神經(jīng)網(wǎng)絡層次結(jié)構(gòu)，通過訓練多個CNN模型改變網(wǎng)絡結(jié)構(gòu)、輸入標準化和權值初始化，從而獲得不同的決策邊界。Sang[5]提出了一個基于卷積神經(jīng)網(wǎng)絡架構(gòu)的有效檢測笑臉表情的識別系統(tǒng)，采用改進ReLU函數(shù)和小濾波器相結(jié)合的方式構(gòu)建深度卷積神經(jīng)網(wǎng)絡。然而，這些CNN模型通常在同一個數(shù)據(jù)集上進行培訓和測試。

在現(xiàn)實生活中，雖然6種基本情緒是普遍存在的，但是個體在不同的文化、年齡、性別以及表達情緒的方式上可能會有所不同[6]。因此，一個訓練有素的CNN模型在訓練數(shù)據(jù)集上具有較高的識別精度，在其他數(shù)據(jù)集上通常表現(xiàn)不佳。為了使面部表情識別系統(tǒng)更加實用，提高識別模型的泛化能力，研究跨數(shù)據(jù)庫的FER是很重要的。目前，針對跨數(shù)據(jù)庫的人臉表情識別算法還不多。朱俊勇等[7]提出了基于稀疏子空間聚類的跨域人臉遷移學習算法，實現(xiàn)了不同數(shù)據(jù)庫間的信息遷移，但是該方法會產(chǎn)生一些不利于結(jié)果的冗余特征和噪聲。Wang等[8]提出了一種基于生成對抗網(wǎng)絡(Generative Adversarial Network，GAN)來提高人臉表情識別的交叉數(shù)據(jù)集性能的算法，并通過引入分布式偽標簽方法提高目標數(shù)據(jù)的自適應能力，但是跨數(shù)據(jù)庫的表情識別率有待提高。

針對實際應用中交叉數(shù)據(jù)集無法通過監(jiān)督轉(zhuǎn)移學習對預先訓練的模型進行微調(diào)的問題，本文提出了一種基于條件生成對抗網(wǎng)絡的跨域面部表情識別框架。

1 相關概念

生成對抗網(wǎng)絡GAN基于博弈論中的二人零和博弈思想，具有強大的圖片生成能力，在超分辨率、圖像修復和合成等方面應用廣泛。

1.1 GAN

生成對抗網(wǎng)絡是一種通過對抗過程估計生成模型的網(wǎng)絡框架，該網(wǎng)絡的基本框架由一個生成網(wǎng)絡G和一個判別網(wǎng)絡D構(gòu)成，GAN的結(jié)構(gòu)如圖1所示。

圖1 生成對抗網(wǎng)絡的結(jié)構(gòu)示意圖

生成網(wǎng)絡G利用真實數(shù)據(jù)樣本x訓練生成新的數(shù)據(jù)樣本G(z)，判別網(wǎng)絡D是一個二分類器，判斷樣本是來自原始數(shù)據(jù)x還是由生成網(wǎng)絡產(chǎn)生的G(z)。整個GAN過程網(wǎng)絡G與D同時運行，判別網(wǎng)絡的目的是盡量使D(G(z))接近0，而生成網(wǎng)絡的目的是盡量使它接近1，最終二者在博弈中達到平衡。G和D的總體損失函數(shù)可以表示為：

Ez,P(z)[log(1-D(G(z)))]

(1)

式中：z是潛在表征；x是真實數(shù)據(jù)樣本；P表示概率分布；E表示期望。

1.2 CGAN

為了解決GAN太過自由的問題，文獻[10]提出了一種帶條件約束的GAN-條件生成對抗網(wǎng)絡(Conditional Generative Adversarial Net，CGAN)，如圖2所示。該模型在生成網(wǎng)絡(G)和判別網(wǎng)絡(D)的建模中均引入條件變量Y(如數(shù)據(jù)的標簽)，使用額外信息Y對模型增加條件，指導數(shù)據(jù)生成過程，從而使GAN具有多類數(shù)據(jù)的生成能力。

圖2 CGAN結(jié)構(gòu)示意圖

與傳統(tǒng)的GAN相比，CGAN模型僅僅在總體損失函數(shù)做了一定的修改，新的總體損失函數(shù)定義為：

Ez,P(z)[log(1-D(G(z|Y)))]

(2)

2 基于條件生成對抗網(wǎng)絡的表情識別

本文提出了一種基于條件生成對抗網(wǎng)絡的跨域面部表情識別框架，主要分為特征嵌入模塊、對抗性學習模塊和分類模塊，算法的結(jié)構(gòu)示意圖如圖3所示。源域是CK+數(shù)據(jù)集，目標域是RAF-DB數(shù)據(jù)集，在訓練階段，網(wǎng)絡管道由兩個并行數(shù)據(jù)流組成，一條是F→C的分類分支，其中F和C采用監(jiān)督分類損失進行更新；另一條是對抗分支F→G→D，其中F、G和D使用對抗損失和輔助分類損失進行更新。在測試階段，只保留F和C作為最終分類。

圖3 本文算法的結(jié)構(gòu)示意圖

2.1 框架內(nèi)容

2.1.1 特征嵌入模塊

從圖3可以看出，特征嵌入模塊F采用了一個修正的VGG16網(wǎng)絡的前5個卷積塊作為其基本架構(gòu)，預先訓練的卷積層初始學習率設定為rateF=0.000 01。

給定一幅從源域或者目標域數(shù)據(jù)集中獲取的圖像I，F(xiàn)(I)表示由特征嵌入模塊F生成的結(jié)果，然后從N(0,1)中抽取隨機噪聲矢量z∈Rd。情緒類別信息c∈{0,1}(N+1)，以一種熱編碼格式表示，其中N表示真實表情標簽的數(shù)量，第(N+1)個標簽表示真/偽類。F(I)、z和c作為生成器G的輸入Ig=[F(I),z,c]。目標域中的所有圖像都應與偽類的一個熱編碼相關聯(lián)，可以視它們?yōu)槲礃擞浀臄?shù)據(jù)。

2.1.2 對抗性學習模塊

在對抗性學習模中，發(fā)生器G由6個反卷積層組成，每層后面都有一個批歸一化層和ReLU激活函數(shù)。判別器D有4個卷積層，每層后面也有一個批歸一化層和泄漏ReLU激活函數(shù)。D和G的學習率按經(jīng)驗設置為rateD=0.000 1。

(3)

(4)

(5)

2.1.3 分類模塊

分類模塊C包含兩個全連接層，最后一層是SoftMax層，有6個輸出值，全連接層的初始學習率根據(jù)經(jīng)驗設定為rateC=0.000 1，給出一個源域圖像Is及其相應的表情標簽，利用交叉熵損失以相同的監(jiān)督方式更新了特征嵌入模塊F和分類模塊C。因此，通過優(yōu)化以下目標訓練C和F：

(6)

2.2 聯(lián)合學習

迭代優(yōu)化過程的核心部分是對特征嵌入F進行優(yōu)化，與源域相關的直接方法是通過傳統(tǒng)的監(jiān)督學習利用式(6)的梯度。在我們的研究中，特征學習F也受到敵方模塊中輔助分類丟失的影響，在這種情況下，目標是：

(7)

另一個挑戰(zhàn)是如何充分利用F的目標域數(shù)據(jù)，為了獲得相應的梯度，我們通過D的逆勢損失即Dadv來探索生成機制。因此，F(xiàn)也更新為：

(8)

最后，F(xiàn)的聯(lián)合目標函數(shù)公式如下：

(9)

式中：λ和α是平衡三個損失的參數(shù)。最終目標是使f能夠生成與源域分布S一致的目標嵌入特性。

式(9)中的系數(shù)分別設置為λ=0.1和α=0.2。整個框架采用隨機梯度下降(Stochastic Gradient Descent，SGD)進行訓練，模型經(jīng)過了20 000～30 000次迭代訓練。其余參數(shù)設置如下：權值衰減量ω=0.000 1，動量參數(shù)Mo=0.9，批量值BS=8。

3 實驗

3.1 數(shù)據(jù)集

(1) 擴展的Cohn-Kanade數(shù)據(jù)集(CK+)[8]。該數(shù)據(jù)集由123名受試者記錄的593個視頻序列組成。受試者表現(xiàn)出不同的表情，每個視頻從中立表情開始，在最后一幀達到峰值。根據(jù)之前的標準設置，在本文實驗中選擇了本文提取每個視頻的最后三幀，生成了981幅圖像數(shù)據(jù)集。

(2) Oulu-CASIA NIR&VIS數(shù)據(jù)庫[11]。該數(shù)據(jù)集是以視頻的方式誘發(fā)的包含近紅外光和可見光的自發(fā)表情數(shù)據(jù)集，包含80名受試者記錄的六類基本表情的，共計480個視頻序列，存放于VIS和NIR兩個子集內(nèi)。實驗中，只使用了由可見光攝像頭在良好的正常光照下拍攝的視頻。同樣，選擇每個序列帶有表情標簽的最后三幀用于構(gòu)建新數(shù)據(jù)集，生成了1 440幅圖像數(shù)據(jù)集。

(3) 真實世界數(shù)據(jù)庫(RAF-DB)[11]。該數(shù)據(jù)集包含將近30 000幅真實世界面部表情圖像，根據(jù)每幅圖對應的七維表情概率分布向量，將數(shù)據(jù)庫劃分為七類基本表情來注釋這些數(shù)據(jù)，并且對每一幅圖像進行了精確的特征點標注以及人臉屬性標注。由于RAF-DB中包含更多的自發(fā)表情，因此具有極大的挑戰(zhàn)性，其中一些表情無法很好地區(qū)分。實驗選取其中12 271個訓練樣本和3 068個測試樣本的靜態(tài)面部表情圖像進行測試。

3.2 結(jié)果和分析

CK+→Oulu-CASIA表示CK+數(shù)據(jù)庫中的981個樣本作為訓練集(源域)，Oulu-CASIA數(shù)據(jù)庫中的1 440個樣本作為測試集(目標域)。訓練階段，來自目標域的樣本被視為未標記的數(shù)據(jù)。由于RAF-DB包含更多的自發(fā)表情，CK+→RAF-DB存在較大的域間隙，因此，對算法的域適應方面提出了更大的挑戰(zhàn)。為了解決這一問題，首先使用981幅標記的CK+圖像(源域)和1 000幅未標記的RAF-DB圖像來訓練本文模型，并評估其對整個RAF-DB集(目標域)的有效性。RAF-DB→CK+表示對1 000幅標記的RAF-DB圖像(源域)進行采樣，并使用整個CK+集(目標域)。同樣的規(guī)則也適用于RAF-DB→Oulu和Oulu→RAF-DB的測試。

為了驗證提出方法的優(yōu)越性，本文比較了不同的域自適應方法：Generative Adversarial Networks(GAN)[8]、Adversarial Residual Transform Networks(ARTN)[12]、Joint Adaptation Network(JAN)[13]。表1和圖4給出了本文方法(FCGD)、不帶域自適應(FC)的方法以及上述三種域自適應方法的測試結(jié)果。可以發(fā)現(xiàn)，與其他域自適應方法相比，在所有的跨域測試中，本文域自適應算法更具優(yōu)勢，特別是在RAF→CK+、Oulu→CK+的性能尤為突出。相對于無任何調(diào)整的跨數(shù)據(jù)集方法FC，本文方法在Oulu→CK+的測試結(jié)果提高了10.5%，RAF→CK+提高了15.5%。

表1 不同域適應方法的識別準確度 %

圖4 不同域適應方法的識別準確度

為了進一步了解類別分類，表2-表7給出了FCGD在6個跨數(shù)據(jù)集任務中生成的混淆矩陣。通過分析矩陣發(fā)現(xiàn)，在所有任務中，高興、厭惡和驚奇三種表情的識別準確率在6種表情中總是排在前3位，這與之前文獻[14]的研究一致。憤怒的低準確性在CK+→RAF和RAF→CK+時尤為明顯，這也與文獻[14]中的結(jié)果保持一致。此外，當目標域為RAF時，域的移動是相當大的(如表4、表6)，RAF性能不佳，這是由于圖像數(shù)據(jù)的收集條件不同造成的。同時也說明了在實驗室控制的數(shù)據(jù)庫(CK+和Oulu)上表現(xiàn)良好的方法不適用于野外的FER任務。

表2 FCGD在CK+→Oulu跨數(shù)據(jù)集任務中生成的混淆矩陣

表3 FCGD在Oulu→CK+跨數(shù)據(jù)集任務中生成的混淆矩陣

表4 FCGD在CK+→RAF跨數(shù)據(jù)集任務中生成的混淆矩陣

表5 FCGD在RAF→CK+跨數(shù)據(jù)集任務中生成的混淆矩陣

表6 FCGD在Oulu→RAF跨數(shù)據(jù)集任務中生成的混淆矩陣

表7 FCGD在RAF→Oulu跨數(shù)據(jù)集任務中生成的混淆矩陣

4 結(jié) 語

本文提出了一種基于條件生成對抗網(wǎng)絡的域自適應面部表情識別方法，該方法通過優(yōu)化特征嵌入、對抗性學習和分類三個模塊的聯(lián)合學習過程，大大降低了面部表情圖像在源數(shù)據(jù)域和目標數(shù)據(jù)域之間的分布差異。本文方法在6個跨域FER任務中始終優(yōu)于其他域自適應方法，相較于無自適應的跨域方法，面部表情識別率有了明顯提高。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡