趙繼東,李晶晶,魯 珂,吳 躍
?
一種魯棒的多態(tài)人臉識別算法
趙繼東,李晶晶,魯 珂,吳 躍
(電子科技大學(xué)計算機科學(xué)和工程學(xué)院 成都 611731)
如何處理人臉識別中的多態(tài)性一直是人臉識別領(lǐng)域的一個難題。傳統(tǒng)的圖嵌入算法忽視了同類中多態(tài)子類間的同屬關(guān)系,而且也沒有恰當(dāng)?shù)靥幚懋愵愰g的區(qū)別信息。該文提出一種魯棒的圖嵌入人臉識別算法,該算法可以恰當(dāng)?shù)啬M同類中的多態(tài)間關(guān)系,而且能在局部流形結(jié)構(gòu)與全局區(qū)別信息間實現(xiàn)平衡?;诙鄠€公開數(shù)據(jù)庫的人臉識別實驗證明了該方法的有效性。
人臉識別; 圖嵌入; 流形學(xué)習(xí); 多態(tài)信息
與大多數(shù)圖像識別任務(wù)一樣,人臉識別也經(jīng)常面臨“維數(shù)災(zāi)難”[1]問題,這時最常見的處理辦法是使用降維技術(shù)。特征選擇和子空間學(xué)習(xí)是兩種經(jīng)常使用的降維技術(shù)。
主成分分析(principal component analysis,PCA)、Fisher判別式分析(fisher discriminant analysis, FDA)、保局投影(locality preserving projections,LPP)[2]是3種典型的子空間學(xué)習(xí)算法。盡管PCA和FDA已經(jīng)在很多應(yīng)用領(lǐng)域成功使用,但它們處理非線性數(shù)據(jù)的效果卻不太理想。在面對非線性數(shù)據(jù)時,具有流形學(xué)習(xí)能力的LPP明顯優(yōu)于PCA和FDA。盡管上述3種方法的原理有所不同,但可以把它們統(tǒng)一在一個通用的圖嵌入框架下[3]。為了更好地保留標記信息,文獻[4-6]提出了基于FDA的一些圖嵌入方法,它們在存在標記樣本集的一些場合具有優(yōu)異的性能。在圖像識別領(lǐng)域,多態(tài)圖像(人臉、交通信號、手寫文字等)識別[7-9]一直是一個研究熱點。在多態(tài)人臉識別環(huán)境中,可以把同一類別人臉中具有同一模態(tài)的樣本稱為一個多態(tài)子類,如暗光、遮擋、側(cè)臉可以為3個不同的模態(tài)。由于忽視了同類中多態(tài)子類間的同屬關(guān)系,而且也沒有恰當(dāng)?shù)靥幚懋愵愰g的區(qū)別信息,上述基于FDA的圖嵌入算法在處理多態(tài)人臉識別中會遇到困難。
特征選擇和子空間學(xué)習(xí)在降維應(yīng)用上各有所長,近年來提出的稀疏表示方法[10-12]結(jié)合了二者的優(yōu)點,成為一個研究熱點。一些稀疏表示算法[12]在處理遮擋人臉識別任務(wù)時表現(xiàn)優(yōu)異。由于稀疏表示算法可以有效地整合具有良好分類能力的特征,因而應(yīng)該特別適合用于多態(tài)人臉識別任務(wù)。
受到統(tǒng)一圖嵌入框架、基于FDA的圖嵌入算法、以及稀疏表示方法的啟發(fā),本文提出一種魯棒的多態(tài)圖嵌入算法(robust multimodal graph embedding,RMGE)。為了更好地模擬多態(tài)人臉識別環(huán)境中的數(shù)據(jù)集特征,本文設(shè)計了一種新型的圖結(jié)構(gòu)。這種圖結(jié)構(gòu)可以更好地保留同類中多態(tài)子類間的同屬關(guān)系,且對異類間的區(qū)別信息也進行了更有效地保留。另外,通過在子空間映射時引入稀疏子空間學(xué)習(xí)技術(shù),該算法可以更好地提取多態(tài)數(shù)據(jù)中的區(qū)別特征。
幾種監(jiān)督圖嵌入算法[7-8]均試圖獲得一個具有較強分類能力的子空間。LDE(local discriminant embedding)[7]使用一般的近鄰方法構(gòu)造類內(nèi)圖和類間圖。LFDA(local fisher discriminant analysis)[8]用近鄰方法構(gòu)造類內(nèi)圖,但使用全連通方法構(gòu)造類間圖。CGE(constraints graph embedding)[13]把局部保留矩陣和強制約束矩陣結(jié)合在一起獲得降維子空間。在多態(tài)人臉識別任務(wù)中,由于同類中多態(tài)子類間經(jīng)常距離較遠,因此簡單地使用近鄰來保留數(shù)據(jù)局部流形,可能會使得這些子類的同類屬性在子空間中丟失。另外,這些方法也并沒有考慮如何在保留局部流形和保留類間區(qū)別信息間達到平衡。
1.1 圖結(jié)構(gòu)設(shè)計規(guī)則
譜圖理論[14]指出,利用鄰接圖、數(shù)據(jù)對之間的鄰接關(guān)系可以在低維空間中得到保留。針對多態(tài)人臉識別任務(wù)設(shè)計一個魯棒的圖嵌入算法的關(guān)鍵是構(gòu)造一個適當(dāng)?shù)膱D結(jié)構(gòu)。當(dāng)類內(nèi)圖的鄰接邊過多或過少時,數(shù)據(jù)局部流形不能很好地保留;另外,當(dāng)類間連接邊過多時,將會破壞類內(nèi)圖的緊湊性。為構(gòu)造一個適合多態(tài)人臉識別的圖結(jié)構(gòu)定義了以下3個構(gòu)圖規(guī)則。
規(guī)則 1 在每個多態(tài)子類里使用近鄰方法連接近鄰點。
該規(guī)則可以基于預(yù)定義的認知語義,有效保留每個多態(tài)子類內(nèi)的流形結(jié)構(gòu),且避免了在子類間產(chǎn)生混淆。
規(guī)則2 在同類中每一對多態(tài)子類間中連接距離最遠的兩點。
該規(guī)則強制將多態(tài)子類從最遠端進行連接,可以使類內(nèi)圖盡量緊湊,同時又避免了破壞多態(tài)子類內(nèi)的局部流形結(jié)構(gòu)。
規(guī)則3 為每一類搜索個異類間近鄰點(由近到遠,每一個異類搜索一對近鄰點)進行類間連接。
該規(guī)則在類間圖里連接適當(dāng)多的異類對,只會在同一異類對間出現(xiàn)最多一條邊,也沒有采用極端的全連通形式。
用幾組人臉圖像數(shù)據(jù)來說明本文設(shè)計的圖結(jié)構(gòu)。在圖1中,使用具有正臉、側(cè)臉、遮擋3個模態(tài)的類人臉數(shù)據(jù)和只具有遮擋模態(tài)的類人臉數(shù)據(jù)。圖1a~圖1d的4個子圖分別表示原始數(shù)據(jù)、CGE的近鄰圖、LDE/LFDA的類內(nèi)圖、RMGE的類內(nèi)圖。其中,圖1b表示CGE是在所有數(shù)據(jù)中用近鄰方法構(gòu)造類內(nèi)圖;圖1c表示LDE和LFDA都是在同類中用近鄰方法構(gòu)造類內(nèi)圖;圖1d表示RMGE是在同類的每個多態(tài)子類中先用近鄰方法連接近鄰點,然后在每一對多態(tài)子類間中連接距離最遠的兩點。為統(tǒng)一表示,對于類內(nèi)圖,對每個算法均取近鄰參數(shù)1=2。
a. 原始數(shù)據(jù)????????b. CGE的近鄰圖
c. LFDA/LDE類內(nèi)圖????????d. RMGE類內(nèi)圖
圖1 類內(nèi)圖構(gòu)建對比示意圖
在圖2中,本文使用具有正臉、側(cè)臉兩個模態(tài)的類人臉數(shù)據(jù)、側(cè)臉模態(tài)的類人臉數(shù)據(jù)、正臉模態(tài)的類人臉數(shù)據(jù)來表示類間圖構(gòu)造。為統(tǒng)一表示,在類間圖中,對每個算法均取近鄰參數(shù)2=2。圖2a~圖2d的4個子圖分別表示原始數(shù)據(jù)、LFDA的類間圖、LDE的類間圖、RMGE的類間圖。圖2b表示LFDA的類間圖使用全連通方式構(gòu)建,該子圖只表示了類中1個點的類間連接情況。圖2c表示LDE的類間圖使用無差別的近鄰方式構(gòu)建,該子圖表示了類中2個點的類間連接情況,顯然,、間這時沒有連線。圖2d表示RMGE的類間圖使用由近及遠逐類的近鄰方式構(gòu)建,對于類,2=2時,將只有兩條邊分別連接-、-中兩對異類近鄰點。
綜合圖1、圖2可以發(fā)現(xiàn),RMGE的圖結(jié)構(gòu)在類內(nèi)圖的緊湊性及類間圖連接邊的分布均衡性方面,明顯要優(yōu)于CGE、LFDA、和LDE。在類內(nèi)圖中,通過多態(tài)子類間最遠點對的連接,RMGE可以在保持局部流形結(jié)構(gòu)的同時盡量強制多態(tài)子類靠近,而LFDA和LDE均不具有該特點。在類間圖中,RMGE最多只在一對異類間有一條連接邊,從而比LFDA和LDE可以用更少的類間連接保留更多的類間區(qū)別信息,這種特點在類別數(shù)目較多時可以更有效地在保留類內(nèi)局部流形與保留類間區(qū)別信息間取得平衡。另外,與文獻[15]的方法相比,RMGE工作在全監(jiān)督模式,而且連接的是多態(tài)子類間的最遠點對而不是最近點對。顯然,RMGE近鄰圖的參數(shù)1、2的選擇將直接影響算法的性能,本文在后面第4節(jié)將討論這一問題。
a 原始數(shù)據(jù)????????b LFDA的類間圖
c. LDE類間圖????????d. RMGE類間圖
圖2 類間圖構(gòu)建對比示意圖
1.2 基于圖結(jié)構(gòu)的可視化實驗
本文使用一個直觀的簡單實驗來驗證RMGE的圖結(jié)構(gòu)更適合用于多態(tài)人臉識別任務(wù)。選用4類人臉數(shù)據(jù),每類選取10個樣本,分別來自正臉、側(cè)臉、遮擋3個模態(tài)。對于CGE,設(shè)置=4;對于LFDA,設(shè)置=3;對于LDE和RMGE,設(shè)置1=2,2=3。使用不同算法得到的圖像數(shù)據(jù)3維可視化結(jié)果如圖3所示。
從圖3可以看出,由于使用全局近鄰而且沒有類間圖,CGE的可視化呈現(xiàn)為一個較混雜的球形分布。對于LFDA,由于使用全連接的類間圖,圖像的可視化顯示類間區(qū)別清晰,但類內(nèi)緊湊性被嚴重破壞。對于LDE的可視化結(jié)果,類內(nèi)分布較緊湊,但由于類間連接容易重復(fù)在最近鄰的兩類間,使得其他異類間的點在降維后容易出現(xiàn)混雜。對于RMGE,其可視化結(jié)果明顯優(yōu)于其他3種算法。
a. CGE可視化效果
b. LFDA可視化效果
c. LDE可視化效果
d. RMGE可視化效果
圖3 三維可視化實驗對比示意圖
基于前面設(shè)計的圖結(jié)構(gòu),可以通過通用的圖嵌入框架得到嵌入映射矩陣,然后獲得一個低維子空間。但為了更適合多態(tài)人臉識別環(huán)境,將稀疏子空間學(xué)習(xí)方法結(jié)合到圖嵌入過程中,使低維子空間能夠更好地提取多態(tài)圖像的類間區(qū)別特征,從而對多態(tài)人臉圖像具有更強的分類識別能力。下面先對基本圖嵌入進行說明,然后介紹如何將稀疏子空間學(xué)習(xí)結(jié)合到圖嵌入過程中,最終獲取一個優(yōu)化的子空間模型。
2.1 基本圖嵌入
按照本文的構(gòu)圖規(guī)則,可以構(gòu)造一個類內(nèi)圖{G,W}和一個類間圖{G,W}。設(shè)=[1,2, …,y]T是基于圖的低維映射向量,按拉普拉斯規(guī)則[16],可以得到:
式中,L、L分別是類內(nèi)圖和類間圖的拉普拉斯算子。顯然應(yīng)該最小化類內(nèi)距離并最大化類間距離,以得到更好的圖嵌入子空間,按照基于FDA的LPP框架[4-5],可以得到目標函數(shù)為:
(2)
設(shè)是轉(zhuǎn)換矩陣,是圖像數(shù)據(jù)的原始特征表示,則=T。式(2)可以表示為:
然后,轉(zhuǎn)換矩陣可以通過求解得到:
(4)
2.2 優(yōu)化圖嵌入
對于多態(tài)人臉識別任務(wù),多態(tài)性經(jīng)常表現(xiàn)為人臉角度、光照、遮擋等變化因素,因此要求映射子空間能盡量從多態(tài)的原始數(shù)據(jù)中保留那些對分類最有用的特征。由于稀疏子空間學(xué)習(xí)可以將降維映射和特征選擇結(jié)合起來,因此,期望通過它能得到一個優(yōu)化的子空間模型。本文主要參考投影矩陣列稀疏方法。類似的優(yōu)化方法也在文獻[8,14]中被使用。首先,轉(zhuǎn)換矩陣可以通過下式實現(xiàn)稀疏特性:
這樣,中只有少量的元素是非零的。因此,那些使得最能接近它的低維表示的特征將得到保留。為了使得盡量稀疏,可以增加一個正則項:
(6)
可以將式(3)變形為:
結(jié)合等式(5)~式(7),可以得到優(yōu)化的目標函數(shù)為:
(8)
然后可以得到:
(10)
其中,
(12)
于是,優(yōu)化的目標函數(shù)可以用如下方法求解:首先是定值,通過式(12)可以求解出;然后將代入式(10)可以得到更新后的;重復(fù)上述兩步,直到和收斂。
本文將通過以下實驗來驗證RMGE的有效性。本文對以下算法進行對比測試:
1) CGE算法[13],CGE通過把類別標志作為附加的強制約束來實現(xiàn)監(jiān)督學(xué)習(xí),在全監(jiān)督模式下,該算法類似于有監(jiān)督的LPP算法。
2) LDE[4]和LFDA[5],兩種典型的基于FDA框架的LPP算法,其原理本文前面已作介紹。
3) SRLP[17],該算法直接用一個基于稀疏表示的矩陣來替換LPP的轉(zhuǎn)換矩陣。
4) LSIR[18],該算法基于逆向回歸框架,應(yīng)用kNN方法來保留數(shù)據(jù)集的局部結(jié)構(gòu)。
本文選取了多態(tài)性比較明顯的兩個人臉數(shù)據(jù)庫(CMU PIE, UCSD/Honda)來進行比較試驗。CMU PIE包含68類共41 368幅人臉圖片,UCSD/Honda是一個包括15類,每類兩段人臉視頻的數(shù)據(jù)庫。
為了增加比較實驗的可信度,測試了多個類別數(shù)(=4, 5, 6, 7, 8, 9, 10, 11,12)的情況。對于CMU PIE,隨機選擇訓(xùn)練集后剩余的圖像構(gòu)成測試集;對于UCSD/Honda,訓(xùn)練集直接被用作測試集。本文在實驗中用最近鄰分類器來判定人臉類別,實驗結(jié)果如圖4所示。
通過圖4可以發(fā)現(xiàn):
1) RMGE和SRLP的識別效果明顯優(yōu)于CGE,證實了稀疏表示和本文提出的圖結(jié)構(gòu)對于多態(tài)人臉識別的助益。與RMGE相比,SRLP僅僅使用了稀疏轉(zhuǎn)換矩陣,而沒有涉及近鄰圖結(jié)構(gòu)的改善,因此其識別效果不如RMGE。
2) 由于在子空間學(xué)習(xí)時同時考慮類內(nèi)結(jié)構(gòu)和類間信息,LDE和LFDA可以在類別數(shù)較少時獲得優(yōu)于SRLP的效果,甚至接近RSGE。但類別數(shù)較大時,不合理的類間連接會破壞類內(nèi)圖的緊湊性,從而使得這兩種方法的效果急劇降低。相比LDE,LFDA的全連接方式在類別數(shù)增大時表現(xiàn)會更差。
3) 對于LSIR來說,逆向回歸方法在類別數(shù)較少時效果很好,準確率只略低于RMGE,但類別數(shù)增加后,LSIR算法的準確率下降比其他算法更劇烈,證明其不適合類別數(shù)較多的多態(tài)人臉識別任務(wù)。
通過兩個數(shù)據(jù)庫的比較實驗,證實了RMGE在多態(tài)人臉環(huán)境下的識別效果明顯優(yōu)于其他方法。這種優(yōu)勢應(yīng)該主要來源于其獨特的近鄰圖結(jié)構(gòu),該結(jié)構(gòu)能很好地保留原始數(shù)據(jù)的多態(tài)結(jié)構(gòu);另外,利用稀疏子空間學(xué)習(xí)來優(yōu)化圖嵌入過程也應(yīng)該對算法性能的提升有一定幫助。
本文提出一種魯棒的圖嵌入人臉識別算法RMGE,對于多態(tài)人臉識別任務(wù),該算法可以恰當(dāng)?shù)啬M同類中的多態(tài)間關(guān)系,而且能在局部流形結(jié)構(gòu)與全局區(qū)別信息間實現(xiàn)平衡。與現(xiàn)有的一些典型監(jiān)督圖嵌入算法相比,由于有更恰當(dāng)?shù)膱D結(jié)構(gòu)并在子空間學(xué)習(xí)時引入了稀疏表示方法,該算法能明顯提升多態(tài)人臉識別的準確率。
[1] DUDA R O, HART P E, STORK D G. Pattern classication[M]. 2nd ed. [S.l.]: John Wiley and Sons, 2000.
[2] HE X F, NIYOGI P. Locality preserving projections[C]// NIPS. Cambridge, MA, USA: MIT, 2003: 159-167.
[3] YAN S C, XU D, ZHANG B Y, et al. Graph embedding and extensions: a general framework for dimensionality reduction[J]. IEEE Trans Pattern Anal Mach Intell, 2007, 29(1): 40-51.
[4] CHEN H T, CHANG H W, LIU T L. Local discriminant embedding and its variants[C]//CVPR. Piscataway, NJ, USA: IEEE, 2005: 846-853.
[5] SUGIYAMA M. Local fisher discriminant analysis for supervised dimensionality reduction[C]//ICML. New York, USA: ACM, 2006: 905-912.
[6] CAI D, HE X F, HAN J. Semi-supervised discriminant analysis[C]// ICCV. Piscataway, NJ, USA: IEEE, 2007: 1-7.
[7] ZENG Q S, LAI J H, WANG C D. Multi-local model image set matching based on domain description[J]. Pattern Recognition, 2014, 47(2): 694-704.
[8] LU K, DING Z, GE S. Sparse-representation-based graph embedding for traffic sign recognition[J]. IEEE Transactions on Intelligent Transportation Systems, 2012, 13(4): 1515- 1524.
[9] SHARMA A, JACOBS D W. Bypassing synthesis: Pls for face recognition with pose, low-resolution and sketch[C]// CVPR. Piscataway, NJ, USA: IEEE, 2011: 593-600.
[10] ZOU H, HASTIE T, TIBSHIRANI R. Sparse principal component analysis[J]. Journal of Computational and Graphical Statistics, 2006, 15(2): 265-286.
[11] GU Q Q, LI Z H, HAN J W. Joint feature selection and subspace learning[C]//IJCAI. Menlo Park, USA: AAAI, 2011: 1294-1299.
[12] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE Trans Pattern Anal Mach Intell, 2009, 31(2): 210-227.
[13] HE X F, JI M, BAO H J. Graph embedding with constraints[C]//IJCAI. Pasadena, CA, USA: AAAI, 2009: 1065-1070.
[14] CHUNG F R K. Spectral graph theory[M]. [S.l.]: American Mathematical Soc, 1997.
[15] LU K, DING Z, ZHAO J. Locally connected graph embedding for semisupervised image classification[J]. Journal of Electronic Imaging, 2012, 21(4): 43-52.
[16] BELKIN M, NIYOGI P. Laplacian eigenmaps and spectral techniques for embedding and clustering[C]//NIPS. Cambridge, MA, USA: MIT, 2001: 585-591.
[17] TIMOFTE R, GOOL L V. Sparse representation based projections[C]//Proceedings of the British Machine Vision Conference. [S.l.]: BMVA, 2011: 1-12.
[18] WU Q, LIANG F, SAYAN M. Localized sliced inverse regression[J]. Journal of Computational and Graphical Statistics, 2010, 19(4): 843-860.
編 輯 黃 莘
A Robust Multimodal Face Recognition Algorithm
ZHAO Ji-dong, LI Jing-jing, LU Ke, and WU Yue
(School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731)
It is always a difficult problem in face recognition on how to process the multimodal information (e.g. variation in lighting or orientation). Traditional graph embedding algorithms neglect congener correlation between different multimodal clusters of the same class (i.e. subject) and do not properly incorporate discriminative information between classes. In this paper, a robust graph embedding face recognition algorithm is proposed. It properly captures multimodal structure within one class and also realizes a balance between local manifold structures and the global discriminative information. Experiments in several public databases demonstrate that the proposed algorithm can achieve better performance than the state-of-arts reported in recent literatures.
face recognition; graph embedding; manifold learning; multimodal information
TP391.4
A
10.3969/j.issn.1001-0548.2015.02.020
2014-08-29;
2014-11-05
國家自然科學(xué)基金(61273254,61371183)
趙繼東(1976-),男,副教授,主要從事圖像處理及計算機視覺等方面的研究.