孫文赟,宋 昱,陳昌盛
深圳市媒體信息內(nèi)容安全重點(diǎn)實(shí)驗(yàn)室,廣東省智能信息處理重點(diǎn)實(shí)驗(yàn)室,深圳大學(xué)電子與信息工程學(xué)院,廣東深圳518060
深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)已在多種計(jì)算機(jī)視覺任務(wù)中獲得成功應(yīng)用,尤其是人臉表情識別與人臉識別任務(wù).從數(shù)據(jù)中學(xué)習(xí)深度人臉特征是一種常見的做法,研究者通過設(shè)計(jì)不同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法獲取具有不同性質(zhì)的人臉特征.這些可學(xué)習(xí)的深度特征具有比傳統(tǒng)圖像特征更好的性質(zhì).例如,在人臉識別任務(wù)中,一個(gè)訓(xùn)練良好的身份特征對人臉的姿態(tài)、人臉表情、年齡和配飾具有不變性.類似地,在人臉表情識別任務(wù)中,表情特征對人臉的姿態(tài)、身份具有不變性.而在最新的域自適應(yīng)算法中,訓(xùn)練良好的跨域特征可對域偏移具有不變性.
基于深度特征學(xué)習(xí)理論,SUN等[1]使用一對卷積-反卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了身份特征與表情特征兩組正交的人臉特征.其中,身份特征對表情的變化不變,而表情特征對身份變化不變.但是,該方法在特征學(xué)習(xí)過程中需要一對含表情的人臉和中性人臉,后者作為監(jiān)督信息,用于定義同身份但不同表情的人臉圖像的統(tǒng)一錨點(diǎn).此外,該方法還需對每個(gè)身份分別記錄7種表情(生氣、惡心、恐懼、高興、悲傷、驚訝和中性)的人臉圖像.然而,主流的人臉識別數(shù)據(jù)集僅包含身份特征,并無關(guān)于表情的標(biāo)簽,少數(shù)的人臉表情識別數(shù)據(jù)集雖同時(shí)具有身份與表情標(biāo)簽,卻并沒有為每個(gè)身份提供對應(yīng)的中性人臉.本研究為解決以上在聯(lián)合學(xué)習(xí)過程中缺乏訓(xùn)練數(shù)據(jù)的問題,擴(kuò)寬人臉身份與表情正交特征聯(lián)合學(xué)習(xí)算法的應(yīng)用范圍,基于文獻(xiàn)[1]方法,引入相關(guān)性最小化損失來緩解訓(xùn)練時(shí)對中性人臉的依賴,通過構(gòu)建一個(gè)卷積-反卷積神經(jīng)網(wǎng)絡(luò),在已對齊人臉圖像上提取身份與表情特征,并采用重構(gòu)損失、分類損失和相關(guān)性最小化損失組合訓(xùn)練目標(biāo).本研究首次使用了表情標(biāo)簽學(xué)習(xí)身份特征,將新方法記為無監(jiān)督正交人臉特征學(xué)習(xí)(unsupervised orthogonal facial feature learning, UOFFL)算法,而將文獻(xiàn)[1]方法記為有監(jiān)督正交人臉特征學(xué)習(xí)(supervised orthogonal facial feature learning, SOFFL)算法.在大規(guī)模合成人臉表情數(shù)據(jù)集(large-scale synthesized facial expression dataset, LSFED)[1]與受限的Radboud人臉數(shù)據(jù)集(Radboud faces dataset, RaFD)[2]上的人臉特征學(xué)習(xí)結(jié)果表明,UOFFL算法的性能超越了一些無監(jiān)督算法,且接近SOFFL等有監(jiān)督算法.
正交人臉特征學(xué)習(xí)方法將人臉特征分解為身份、姿態(tài)、表情和背景等部分,從任務(wù)角度來看,UOFFL算法與人臉特征分解[1,3-8]有關(guān);從損失與優(yōu)化角度來看,UOFFL算法中的相關(guān)性最小化損失與基于協(xié)方差對齊和最小化的域自適應(yīng)算法有關(guān)[9-12],因?yàn)樗鼈兙ㄟ^優(yōu)化來調(diào)整神經(jīng)網(wǎng)絡(luò)特征的分布,實(shí)現(xiàn)了特征的二階統(tǒng)計(jì)量調(diào)節(jié).
將深度人臉特征分解為身份、姿態(tài)、表情和背景等屬性,一方面可從圖像數(shù)據(jù)中學(xué)習(xí)、提取并分解不同的深度特征;另一方面,圖像可從分解后的特征中重構(gòu)和生成[1,3-8].現(xiàn)有的可分解深度特征學(xué)習(xí)方法大多采用卷積神經(jīng)網(wǎng)絡(luò)提取特征,并使用反卷積神經(jīng)網(wǎng)絡(luò)重構(gòu)和生成圖像,也有采用基于對抗學(xué)習(xí)的生成模型[3-6].TRAN等[3]和ZHANG等[4]分別提出可分解特征學(xué)習(xí)生成對抗網(wǎng)絡(luò)和條件對抗自編碼器.這兩個(gè)網(wǎng)絡(luò)將人臉分解為身份特征與姿態(tài)或年齡特征,并根據(jù)給定特征生成新的人臉圖像.MA等[5]將行人圖像分解為前景特征、背景特征與姿態(tài)特征,并根據(jù)給定特征生成新的行人圖像.BERTHELOT等[6]提出一種對抗受限自編碼器插值的新型損失,可提高合成人臉的真實(shí)感和插值特征的語義連續(xù)性.還有一些基于判別模型的圖像重構(gòu)方法[1, 7-8].ZHU等[7]使用非確定性神經(jīng)元來采樣隨機(jī)的姿態(tài)特征,提出一種非確定性神經(jīng)網(wǎng)絡(luò)用于建模人臉、身份與姿態(tài)的關(guān)系.DOSOVITSKIY等[8]用反卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)屬性到圖像的函數(shù)映射.本課題組2018年提出的SOFFL算法[1]亦屬于可分解深度特征學(xué)習(xí)范疇.
SOFFL算法從已對齊的人臉圖像中提取身份特征與表情特征,訓(xùn)練樣本為三元組(X,y,Z).其中,X為被提取特征的原始含表情人臉;y為真實(shí)表情標(biāo)簽;Z為對應(yīng)于原始含表情人臉的中性人臉,X和Z具有相同的身份和不同的表情.在一些任務(wù)中,中性臉Z很難獲取,因?yàn)橹髁鞯娜四樧R別數(shù)據(jù)集僅擁有身份標(biāo)簽,即使有些人臉表情識別數(shù)據(jù)集同時(shí)具有身份和表情標(biāo)簽,但也并非每個(gè)個(gè)體都有中性臉圖像,訓(xùn)練數(shù)據(jù)要求過高是SOFFL算法的主要缺點(diǎn).
二階統(tǒng)計(jì)量調(diào)整是域自適應(yīng)領(lǐng)域的主流方法之一[9-12].其中,協(xié)方差對齊算法定義為
(1)
其中,A為對齊源域和目標(biāo)域特征的協(xié)方差的線性變換;xs與xt分別為源域和目標(biāo)域的樣本域特征;函數(shù)cov()計(jì)算協(xié)方差矩陣.文獻(xiàn)[9]給出了式(1)的閉式解.
在神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)中,協(xié)方差對齊問題常轉(zhuǎn)化為
(2)
其中,神經(jīng)網(wǎng)絡(luò)fθ受可訓(xùn)練參數(shù)θ控制;fθ(xs)和fθ(xt)分別為待對齊的源域特征與目標(biāo)特征的激活與目標(biāo)激活,優(yōu)化可使它們的分布在源域和目標(biāo)域中一致.式(2)常配合卷積神經(jīng)網(wǎng)絡(luò)的主要目標(biāo)進(jìn)行聯(lián)合訓(xùn)練[10-12],等價(jià)于最小化帶有二次多項(xiàng)式核的最大均值差異(maximum mean discrepancy, MMD)[11, 13-14].協(xié)方差對齊與核MMD均為用于神經(jīng)網(wǎng)絡(luò)的域自適應(yīng)的主流算法.
另一種二階統(tǒng)計(jì)量對齊方法為協(xié)方差最小化.BOUSMALIS等[11]提出基于二階統(tǒng)計(jì)量的損失用于鼓勵(lì)神經(jīng)網(wǎng)絡(luò)特征的各維度之間的分布差異:
(3)
其中,x為輸入樣本;fθc和fθp分別是計(jì)算公共特征集和私有特征集的神經(jīng)網(wǎng)絡(luò).若fθc(x)和fθp(x)均已中心化,則式(3)等價(jià)于最小化兩個(gè)特征集合之間的兩兩協(xié)方差
(4)
這些域自適應(yīng)方法初步驗(yàn)證了對神經(jīng)網(wǎng)絡(luò)激活的二階統(tǒng)計(jì)量的調(diào)整的可行性.
LIAO等[15]提出的無監(jiān)督特征學(xué)習(xí)算法,可從一組姿態(tài)連續(xù)變化的人臉視頻中學(xué)習(xí)人臉光照與姿態(tài)不變的特征.該方法將相同身份的人臉分組在同一視頻或集合中,分組被視為身份監(jiān)督的一種變形.UOFFEL算法則是從特征的互補(bǔ)性角度出發(fā),因并未使用任何形式的身份監(jiān)督,對訓(xùn)練數(shù)據(jù)要求更低.
圖1 SOFFL的網(wǎng)絡(luò)結(jié)構(gòu)[1]
圖2 UOFFL的網(wǎng)絡(luò)結(jié)構(gòu)
在圖2中,lrec為重構(gòu)損失;lcls為分類損失;lcorr為相關(guān)性最小化損失.假設(shè)算法的已對齊人臉圖像中僅存在身份和表情兩種變化,則在前向傳播中,卷積層將人臉圖像編碼為身份和表情特征,而反卷積層從特征中重構(gòu)輸入的人臉圖像.
(5)
則網(wǎng)絡(luò)的前向傳播為
(6)
(7)
本研究參考VGG網(wǎng)絡(luò)的設(shè)計(jì)思路,采用若干3×3卷積層后附一個(gè)下采樣層組成的基礎(chǔ)結(jié)構(gòu),再由若干基礎(chǔ)結(jié)構(gòu)構(gòu)成網(wǎng)絡(luò).表1展示了UOFFL網(wǎng)絡(luò)的層類型、層激活個(gè)數(shù)和層參數(shù)個(gè)數(shù)等細(xì)節(jié),整個(gè)網(wǎng)絡(luò)是由一個(gè)卷積部分和一個(gè)反卷積部分組成,其中卷積部分包含6個(gè)VGG基礎(chǔ)結(jié)構(gòu),將尺寸為64×64×1像素的輸入圖像變換為1×1×519像素的全局向量形式特征;而反卷積部分也包含6個(gè)VGG基礎(chǔ)結(jié)構(gòu),其中后置下采樣層替換為前置上采樣層.反卷積部分將1×1×519像素的特征變換為64×64×1像素的圖像.當(dāng)輸入尺寸、中間特征個(gè)數(shù)和輸出尺寸確定時(shí),表1中的細(xì)節(jié)可按VGG網(wǎng)絡(luò)的基本規(guī)則生成.
表1 UOFFL的網(wǎng)絡(luò)細(xì)節(jié)
使用批歸一化(batch normalization, BN)、激活函數(shù)tanh()和平均池化下采樣法來確保網(wǎng)絡(luò)激活的是標(biāo)準(zhǔn)正態(tài)分布.歸一化激活分布不僅可加速訓(xùn)練還可簡化相關(guān)性最小化損失中的皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient, PCC)的計(jì)算.每個(gè)卷積層使用BN歸一化和tanh()激活.整個(gè)網(wǎng)絡(luò)共包括了18個(gè)卷積層,不含任何全連接層,網(wǎng)絡(luò)共有約328萬個(gè)可訓(xùn)練參數(shù),網(wǎng)絡(luò)的規(guī)模遠(yuǎn)比一些常見網(wǎng)絡(luò)小,但已足夠達(dá)到提取正交特征、重構(gòu)原始人臉的要求.
(8)
其中,E()和σ()分別為期望值與標(biāo)準(zhǔn)差函數(shù).因此,兩組隨機(jī)向量a=(a1,a2, …,am)T和b=(b1,b2, …,bn)T之間的皮爾遜相關(guān)矩陣可定義為
ρ(a,b)=
(9)
PCC是一種歸一化的協(xié)方差,值域?yàn)閇-1, 1],相比協(xié)方差矩陣,它對隨機(jī)變量的尺度具有不變性.基于皮爾遜相關(guān)矩陣的相關(guān)性最小化損失為
(10)
該損失在計(jì)算上等價(jià)于兩兩PCC的平方和,即
(11)
(12)
(13)
假設(shè)人臉空間中僅有身份和表情兩種變化,則分類損失lcls用于學(xué)習(xí)表情特征y;重構(gòu)損失lrec用于確保信息完整性;相關(guān)性最小化損失lcorr提升兩組特征之間的獨(dú)立性.總體損失為三者的加權(quán)和
ltotal=lrec+λ1lcls+λ2lcorr
(14)
其中,非負(fù)權(quán)重λ1和λ2用于平衡3個(gè)分量的重要性.
采用LSFED[1]與RaFD[2]數(shù)據(jù)庫驗(yàn)證UOFFL算法的性能.由于LSFED數(shù)據(jù)庫中的圖像由軟件合成,不含噪聲且對齊精準(zhǔn),導(dǎo)致所有對比算法的性能都趨于飽和,無法區(qū)別算法優(yōu)劣,故提升難度以模擬復(fù)雜的真實(shí)世界環(huán)境,給數(shù)據(jù)集加入SNR=20 dB的高斯噪聲,并將加噪的數(shù)據(jù)集記為LSFED-G.根據(jù)文獻(xiàn)[15]方法構(gòu)造包含高斯噪聲和隨機(jī)相似變換的數(shù)據(jù)集,記為LSFED-GS;構(gòu)造包含高斯噪聲、隨機(jī)相似變換和隨機(jī)背景的數(shù)據(jù)集,記為LSFED-GSB.
RaFD是一個(gè)在受限環(huán)境下采集的小規(guī)模人臉表情數(shù)據(jù)集,僅包含67個(gè)個(gè)體,每個(gè)個(gè)體有8種表情、5種姿態(tài)和3個(gè)眼睛注視方向信息.為保持?jǐn)?shù)據(jù)集的一致性,本實(shí)驗(yàn)僅使用眼睛直視的正面臉圖像,并丟棄輕蔑表情的圖像,最終剩下469張人臉圖像.在處理中,首先使用基于方向梯度直方圖(histogram of oriented gradient, HOG)特征與支持向量機(jī)(support vector machine, SVM)的人臉檢測器檢測人臉包圍盒;然后檢測68個(gè)人臉特征點(diǎn)[17],估計(jì)人臉形狀與姿態(tài)[18];最后將人臉圖像對齊到預(yù)定義的三維人臉幾何體上,再渲染和裁剪出尺寸為64×64像素的人臉圖像.圖3為部分預(yù)處理后的人臉.
圖3 部分預(yù)處理后的LSFED與RaFD數(shù)據(jù)集人臉
兩個(gè)數(shù)據(jù)集大致按照8∶2的比例劃分為訓(xùn)練集和測試集,且其中的人臉?biāo)鶎俚纳矸莶恢睾?
采用文獻(xiàn)[19]方法初始化網(wǎng)絡(luò)的卷積核,偏置被初始化為0,BN中的均值和標(biāo)準(zhǔn)差的滑動平均初始值分別設(shè)為0和1,采用自適應(yīng)矩估計(jì)(adaptive moment estimation, ADAM)優(yōu)化器訓(xùn)練網(wǎng)絡(luò),優(yōu)化器參數(shù)設(shè)置為α=0.001、β1=0.9、β2=0.999,ε=1×10-8.使用隨機(jī)梯度下降方式最小化總體損失.訓(xùn)練集先被隨機(jī)打亂順序,每次迭代依次送入100個(gè)訓(xùn)練樣本,每個(gè)訓(xùn)練樣本均參與訓(xùn)練100次后終止訓(xùn)練.為評價(jià)3個(gè)損失分量對識別結(jié)果的影響,采用不同的λ1和λ2值,當(dāng)λ1=λ2=0時(shí)對應(yīng)的損失分量不發(fā)揮作用.
基于已訓(xùn)練的網(wǎng)絡(luò),使用人臉驗(yàn)證任務(wù)評價(jià)學(xué)得的身份特征h的性能.隨機(jī)抽取1 000個(gè)正樣本對(相同身份但不同表情)和1 000個(gè)負(fù)樣本對(不同身份但相同表情),計(jì)算樣本對在身份特征空間中的歐氏距離,并選取合適的閾值.若兩個(gè)人臉的距離大于閾值則判別為不同身份;若小于閾值則判別為相同身份.選取的接收者操作特征曲線上面積(area under the receiver operating characteristic curve, AUC)和等錯(cuò)誤率(equal error rate, EER)評價(jià)指標(biāo)與閾值無關(guān),在應(yīng)用中可選取訓(xùn)練集上距離的中值作為人臉驗(yàn)證的閾值.表2展示了不同數(shù)據(jù)集在不同空間歐氏距離中采用無監(jiān)督人臉識別所得AUC和EER值.由表2可見,UOFFL算法在LSFED、RaFD和加噪的數(shù)據(jù)集上工作良好,在相對干凈的LSFED、LSFED-G與RaFD數(shù)據(jù)集上,取λ1=1,λ2=1時(shí)可獲得較好的結(jié)果,而在有嚴(yán)重噪聲的LSFED-GS與LSFED-GSB數(shù)據(jù)集上,取λ1=1,λ2=10,適當(dāng)提高相關(guān)性最小化損失的作用,提升身份特征與表情特征之間的獨(dú)立性,可獲得較好的身份特征,進(jìn)而獲得更好的人臉驗(yàn)證性能.
表2 基于不同空間歐氏距離的無監(jiān)督人臉識別性能結(jié)果1)
表2第2列X空間中的AUC和EER值是將原始圖像拉直為向量后,計(jì)算歐氏距離所得的AUC和EER指標(biāo)結(jié)果.第3~7列為不同λ1和λ2取值下UOFFL算法的AUC和EER指標(biāo)結(jié)果,使用特征學(xué)習(xí)可以獲得比原始圖像上更好的結(jié)果.對比第3~6列可以發(fā)現(xiàn),啟用相關(guān)性最小化損失,并選取合適的權(quán)重可分別在LSFED、LSFED-G、LSFED-GS、LSFED-GSB和RaFD數(shù)據(jù)集上獲得0.002 7、0.004 1、0.108 9、0.057 5與0.021 8的AUC指標(biāo)提升,故UOFFL算法的相關(guān)性最小化是解決無監(jiān)督人臉驗(yàn)證問題的關(guān)鍵.選擇合適的λ1和λ2可進(jìn)一步提升性能,在大多數(shù)情況下,取λ1=λ2=1較好,當(dāng)人臉圖像中噪聲交大時(shí),可嘗試取λ1=1,λ2=10.
表3對比了UOFFL算法與其他7種人臉驗(yàn)證算法的AUC指標(biāo)值.其中,LBP+PCA+LDA[20]、AlexNet預(yù)訓(xùn)練+微調(diào)[21]、兩層神經(jīng)網(wǎng)絡(luò)、LBP+PCA+聯(lián)合貝葉斯[22]和SOFFL算法[1]因訓(xùn)練中使用身份標(biāo)簽屬有監(jiān)督學(xué)習(xí);UOFFL算法、原圖上的歐氏距離方法、PCA主成分上的歐氏距離方法和文獻(xiàn)[14]算法是未使用身份標(biāo)簽的無監(jiān)督學(xué)習(xí).UOFFL算法在相對干凈的LSFED、LSFED-G與RaFD數(shù)據(jù)集上的表現(xiàn)超過或接近有監(jiān)督學(xué)習(xí)方法;在噪聲較大的LSFED-GS數(shù)據(jù)集上,UOFFL算法在無監(jiān)督算法中的表現(xiàn)仍保持最好;而在含有隨機(jī)背景的LSFED-GSB數(shù)據(jù)集上,UOFFL算法的性能不佳,這是因?yàn)殡S機(jī)背景作為表情特征的互補(bǔ)亦被編碼在身份特征中,影響人臉驗(yàn)證效果.LSFED-GSB數(shù)據(jù)集違背了UOFFL算法人臉空間中僅有身份和表情兩種變化的假設(shè),故需根據(jù)實(shí)際情況選擇算法.
表3 有監(jiān)督和無監(jiān)督人臉驗(yàn)證方法的性能對比1)
UOFFL算法與SOFFL算法關(guān)系緊密,不同于主流的已在人臉基準(zhǔn)上獲得較好的性能的人臉驗(yàn)證算法,SOFFL算法需要包含表情人臉和同身份中性表情人臉圖像對作為訓(xùn)練數(shù)據(jù),其訓(xùn)練樣本為三元組(X,y,Z).由于對數(shù)據(jù)要求過高,SOFFL方法無法在野外標(biāo)簽人臉(labeled faces in the wild, LFW)數(shù)據(jù)庫等主流數(shù)據(jù)集上訓(xùn)練測試,本研究將其訓(xùn)練數(shù)據(jù)簡化為二元組(X,y),導(dǎo)致UOFFL算法在LSFED-GS與LSFED-GSB數(shù)據(jù)集上的性能略低于SOFFL方法.然而,在小樣本RaFD數(shù)據(jù)集上,UOFFL算法的確比SOFFL算法略有提升(由0.962提升至0.974),這是因?yàn)镾OFFL算法需要學(xué)習(xí)一個(gè)復(fù)雜的圖像到圖像雙向映射,這在小樣本數(shù)據(jù)上會比較困難,而UOFFL算法改為學(xué)習(xí)像素圖像到519維特征的雙向映射,避免了該問題.
盡管有監(jiān)督方法比無監(jiān)督方法因使用更多的數(shù)據(jù)而獲得了更好的性能,但UOFFL算法提出的相關(guān)性最小化損失,能夠緩解標(biāo)簽缺失的劣勢,縮小無監(jiān)督和有監(jiān)督方法的性能差距.總體上講,UOFFL算法性能優(yōu)于無監(jiān)督的文獻(xiàn)[14]和有監(jiān)督的SPFFL算法,接近有監(jiān)督的聯(lián)合貝葉斯人臉識別算法.
提出一種基于卷積-反卷積網(wǎng)絡(luò)的正交人臉特征學(xué)習(xí)UOFFL算法,使用3個(gè)損失訓(xùn)練網(wǎng)絡(luò):分類損失用于學(xué)習(xí)表情特征,重構(gòu)損失用于確保特征中信息的完整性,相關(guān)性最小化損失用于提高身份特征與表情特征之間的獨(dú)立性,最后,在合成人臉和真實(shí)人臉數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證.下一步,計(jì)劃將方法拓展到非受限人臉和跨庫或跨域問題中.例如,在野外靜態(tài)面部表情(static facial expressions in the wild, SFEW)數(shù)據(jù)集上訓(xùn)練,并在LFW數(shù)據(jù)集上測試,或?qū)SFED數(shù)據(jù)集上學(xué)得的知識遷移到非受限人臉.