文/陳霖 段巍 劉立志
(1.中國電子科技集團(tuán)公司第二十八研究所 江蘇省南京市 210000 2.武警天津市總隊(duì)參謀部 天津市 300000)
面部表情識(shí)別是計(jì)算機(jī)視覺中最重要的任務(wù)之一,它在心理學(xué)、教育、數(shù)字娛樂、駕駛員監(jiān)控等許多應(yīng)用中起著至關(guān)重要的作用。面部表情識(shí)別旨在將給定的表情分析并分類成幾種特定的情緒類型,其過程主要有兩個(gè)階段,即特征提取和表情識(shí)別。在現(xiàn)有的方法中,大多數(shù)表情識(shí)別只基于正面面部圖像,對(duì)于任意姿態(tài)下的表情識(shí)別問題亟需解決。近年來,深度網(wǎng)絡(luò)已廣泛用于計(jì)算機(jī)視覺的各種任務(wù),基于深度網(wǎng)絡(luò)的面部表情識(shí)別[1]問題也得到了發(fā)展,但使用深度模型需要足夠的標(biāo)記數(shù)據(jù)來訓(xùn)練,目前人臉表情識(shí)別中大部分?jǐn)?shù)據(jù)庫中的數(shù)據(jù)量非常有限。因此,本文設(shè)計(jì)了一個(gè)基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的模型生成更多的圖像擴(kuò)充訓(xùn)練集,同時(shí)并將分類器嵌入到GAN 網(wǎng)絡(luò)中實(shí)現(xiàn)面部表情識(shí)別。
現(xiàn)有的表情識(shí)別過程分為特征提取和表情識(shí)別兩個(gè)階段。傳統(tǒng)的用于特征提取的方法主要包括SIFT[2]、LBP、Gabor 以及Geometry 等。本文采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法提取特征。特征提取后,將其輸入到表情的分類模型中參與訓(xùn)練,進(jìn)行表情識(shí)別。常用的表情分類模型主要有SVM、KNN 以及隨機(jī)森林等。得到相應(yīng)的表情分類模型之后,即可針對(duì)一張給定的圖像進(jìn)行表情分類任務(wù)。與現(xiàn)有的方法不同,為解決任意姿態(tài)下的面部表情識(shí)別問題,本文采用GAN 網(wǎng)絡(luò)的變體生成具有不同姿態(tài)和表情的面部圖像,并將分類器嵌入到GAN 網(wǎng)絡(luò)中訓(xùn)練,實(shí)現(xiàn)一個(gè)端到端的深度學(xué)習(xí)模型。
GAN 網(wǎng)絡(luò)[3]是一種深度學(xué)習(xí)模型,包括一個(gè)生成模型與一個(gè)判別模型。生成模型用于接收一個(gè)隨機(jī)的噪聲,通過噪聲生成數(shù)據(jù)或圖片。判別模型包含兩類輸入,一類是生成的噪聲數(shù)據(jù),另一類是從現(xiàn)實(shí)場(chǎng)景中采集到的真實(shí)數(shù)據(jù)。可以把判別模型看作一個(gè)二分類器,輸出的是一個(gè)概率值,用來判別輸入的樣本的真假,當(dāng)輸出值大于0.5 說明樣本為真即來自現(xiàn)實(shí)場(chǎng)景中采集到的真實(shí)數(shù)據(jù),反之樣本為假即來自生成器生成的噪聲數(shù)據(jù)。生成模型與判別模型是兩個(gè)獨(dú)立的模型,使用交替迭代的訓(xùn)練方式。在訓(xùn)練過程中,不斷優(yōu)化生成模型,使得生成模型盡量生成服從真實(shí)數(shù)據(jù)分布的數(shù)據(jù),不斷優(yōu)化判別模型,直到對(duì)于生成的圖片判別模型不再能判別出其真假。生成模型與判別模型的目的正好是相反的,所以稱之為對(duì)抗。
圖1:模型架構(gòu)圖
表1:本文的方法與現(xiàn)有的方法準(zhǔn)確率對(duì)比
本文提出的方法模型包括一個(gè)生成器,兩個(gè)判別器和一個(gè)分類器,如圖1。將原始圖像輸入到生成器之前,先使用人臉檢測(cè)算法[3]去除背景之類的冗余信息。經(jīng)過預(yù)處理后,將面部圖像輸入到由一個(gè)編碼器(Genc)和一個(gè)解碼器(Gdec)構(gòu)成的生成器中。經(jīng)過編碼器處理后,得到一個(gè)關(guān)于人臉圖像特征的表示,記作f(x),然后把人臉圖像特征、姿態(tài)和表情的編碼輸入到解碼器中,生成一張新的人臉圖像。之后,通過判別器(Datt)與生成器之間的對(duì)抗可以解開人臉圖像特征、表情以及姿態(tài)之間的關(guān)系。將其關(guān)系解開后,加入新的姿態(tài)編碼以及新的表情編碼可以生成大量不同姿態(tài)以及不同表情下的人臉圖像,促進(jìn)表情識(shí)別任務(wù)的完成。同時(shí),為了提高生成圖像的質(zhì)量,加入另外一個(gè)判別器(Di)。在這個(gè)判別器中,把從均勻采樣中得到的數(shù)據(jù)當(dāng)作正樣本,把經(jīng)過編碼器處理后的人臉圖像特征當(dāng)作負(fù)樣本,通過兩者之間的對(duì)抗可以使得人臉圖像特征滿足均勻分布,從而提高生成圖像的質(zhì)量。最后,用生成的人臉圖像與原始圖像共同訓(xùn)練分類模型。
生成器G 與判別器Datt的對(duì)抗學(xué)習(xí)過程:
x 代表經(jīng)過預(yù)處理后的面部圖像,條件y 代表表情和姿態(tài)的編碼信息,用one-hot 向量表示,G(x,y)是由生成器生成的數(shù)據(jù)。這里加入條件y 有助于生成器在生成具有不同表情和不同姿態(tài)的圖像的同時(shí)保持人臉圖像特征不變,擴(kuò)充了數(shù)據(jù)集,解決訓(xùn)練集數(shù)據(jù)量不足的問題,推動(dòng)當(dāng)下姿態(tài)不變的面部表情識(shí)別問題的發(fā)展。真實(shí)的圖像滿足pd(x)分布,判別器通過圖像的分布信息來判別圖像的真假。通過生成器G 與判別器Datt之間的對(duì)抗訓(xùn)練可以得到一個(gè)用于任意姿態(tài)與任意表情下圖像生成的模型,該訓(xùn)練過程滿足式(1):
生成器G 與判別器Di的對(duì)抗學(xué)習(xí)過程:
假設(shè)prior(f)滿足某種先驗(yàn)分布,則 f*~prior(f)表示從先驗(yàn)分布中隨機(jī)采樣的過程。將從先驗(yàn)分布中采樣的樣本當(dāng)作正樣本,將經(jīng)過生成器中的編碼器處理后的人臉圖像特征f(x)當(dāng)作負(fù)樣本,通過生成器G與判別器Di之間的對(duì)抗訓(xùn)練可以得一張滿足均勻分布、高質(zhì)量的人臉圖像,該訓(xùn)練過程滿足式(2):
最后,將生成的圖像與原始圖像同時(shí)輸入到分類模型C 中訓(xùn)練,兩項(xiàng)交叉熵作為損失函數(shù),前一項(xiàng)交叉熵用生成的圖像來訓(xùn)練,后一項(xiàng)用原始圖像進(jìn)行訓(xùn)練:
為了保障生成圖像與原始圖像之間的人物一致性,加入了一個(gè)l1范式進(jìn)行約束:
本文提出的方法在SFEW[4]數(shù)據(jù)集上得到了驗(yàn)證,如表1,對(duì)比現(xiàn)有的方法,該方法在七個(gè)基本表情上的平均識(shí)別準(zhǔn)確率是所有方法中最高的,以此證明了該方法的有效性。
本文提出了一個(gè)端到端的深度學(xué)習(xí)模型,在進(jìn)行面部圖像合成的同時(shí)解決了姿態(tài)不變的面部表情識(shí)別問題。通過解開面部圖像中的人臉特征、姿態(tài)以及表情之間的關(guān)系,生成具有任意表情以及姿態(tài)的面部圖像擴(kuò)充訓(xùn)練集,以此提高模型的準(zhǔn)確率,并在數(shù)據(jù)集SFEW 上得到了有效的驗(yàn)證,與現(xiàn)有的面部表情識(shí)別方法相比,取得了最高的準(zhǔn)確率,為面部表情識(shí)別方法的發(fā)展做出了相應(yīng)的貢獻(xiàn)。