高志榮,熊承義
(1 中南民族大學(xué) 計算機科學(xué)學(xué)院, 武漢 430074;2 中南民族大學(xué) 電子信息工程學(xué)院, 武漢 430074)
人臉識別技術(shù)以其直接、自然、友好的特點,受到了研究者們的廣泛關(guān)注,并成為計算機視覺和模式識別領(lǐng)域的研究熱點.然而,由于不同個體的相似性和人臉外形的不穩(wěn)定性,人臉識別一直是生物識別領(lǐng)域最具有挑戰(zhàn)性的研究課題之一.
人臉識別技術(shù)的發(fā)展已經(jīng)經(jīng)歷了幾十年的歷史,自動人臉識別研究關(guān)心的問題主要包括人臉特征提取和分類識別方法.特征提取的目的在于找到有效表達人臉的方法,而分類識別方法在于通過先前提取的人臉有效特征完成最終的人臉分類識別.目前,特征提取方法可以總體分為基于全局特征和基于局部特征的特征提取.經(jīng)典的基于全局特征的提取算法包括主成分分析[1,2]和線性判別分析[3,4]等.基于主成分分析的方法通過K-L變換,將人臉庫變換到特征子空間,再將測試圖像映射到該子空間中,并與訓(xùn)練圖像的位置進行比較,最后利用2-范數(shù)距離分類器進行分類識別.而線性判別分析方法則是使投影后模式樣本的類間散布矩陣最大而類內(nèi)散布矩陣最小,即模式樣本在新的空間中有最大的類間距離和最小的類內(nèi)距離.這兩種方法都是基于所有訓(xùn)練圖像進行特征提取的算法.基于局部特征的特征提取通過對圖像的局部區(qū)域進行變換分解,找到能有效描述圖像的特征.這類方法有局部二值模式 (LBP)[5,6]、Gabor小波[7]、局部非負(fù)矩陣分解(LNMF)[6]等.在有污損或遮擋的人臉識別中,基于局部特征的識別往往比基于全局特征的識別更為有效.
最近,基于稀疏表示[8-10]的人臉識別技術(shù)成為研究熱點,其基本思想是:利用訓(xùn)練圖像構(gòu)成冗余字典,通過計算待檢圖像相對于所有訓(xùn)練圖像的稀疏表示,進而通過比較基于每類線性表示的冗余實現(xiàn)對測試圖像分類.稀疏表示分類對于存在噪聲污染和遮擋的人臉識別展現(xiàn)了良好的性能,但也存在計算復(fù)雜度高,以及對圖像配準(zhǔn)敏感等問題.為此,后來的研究者們對稀疏表示分類人臉識別進行廣泛研究以更好地提升其性能,如:Meng等人[11]提出了一種基于Gabor變換的遮擋字典以降低系統(tǒng)的計算復(fù)雜度;平強[12]等人針對稀疏表示人臉識別算法對姿態(tài)變化敏感的問題,提出了一種基于仿射變化的分塊稀疏表示分類,以提高對姿態(tài)變化的魯棒性.
當(dāng)前,隨著數(shù)字成像技術(shù)與網(wǎng)絡(luò)技術(shù)的發(fā)展,我們已身處大數(shù)據(jù)時代,基于大數(shù)據(jù)的人臉識別具有良好的應(yīng)用前景[13].為此,本文研究了一種基于稀疏表示理論基礎(chǔ)上的大規(guī)模人臉識別,提出一種基于兩級線性編碼表示的人臉識別方法.首先利用第一級的線性編碼表示,通過在初始的大規(guī)模人臉庫中尋找對應(yīng)測試圖像的M最近鄰,以消除干擾訓(xùn)練樣本并降低訓(xùn)練樣本集的規(guī)模;然后以此M最近鄰為訓(xùn)練樣本集,通過第二級的線性編碼表示實現(xiàn)對測試樣本的分類判別.在線性編碼表示中,通過進一步引入非負(fù)系數(shù)約束,更好地改善了分類識別的魯棒性.基于AR,ORL和Yale B人臉庫的實驗結(jié)果初步驗證了本文方法的有效性.
兩級線性編碼表示(TSLCR)的第一個階段在于提取測試圖像的M最近鄰,以消除子空間中遠(yuǎn)離測試樣本的訓(xùn)練樣本[14],減少用于識別的訓(xùn)練樣本集的規(guī)模并提升識別的魯棒性.
考慮含有k個類的人臉庫中,n幅訓(xùn)練圖像分別標(biāo)識為x1,x2,…,xn.基于同一個體的圖像存在于同一個線性子空間的假設(shè),測試圖像y可以表示為所有訓(xùn)練樣本的線性表示,即:
y=a1x1+a2x2+…+anxn,
(1)
其中ai(i=1,2,…,n)是每個訓(xùn)練樣本xn的系數(shù).進一步,式(1)可以表示為:
y=XA,
(2)
這里A=[a1…an]T,X=[x1…xn],y為列向量.
若X是非奇異方陣,則式(2)可以通過A=X-1y來求解;否則,可以通過下面式子來求解:A=XTX+μI)-1XTy,這里μ是正常數(shù),μ∈[0,1],I是單位矩陣.
通過對式(2)進行求解,可以將式(1)中的測試圖像表示為所有訓(xùn)練圖像的線性表示,即測試圖像本質(zhì)上可近似等價為所有訓(xùn)練圖像的加權(quán)和.接下來,通過式(3)計算測試圖像與每一幅訓(xùn)練圖像的距離:
di=‖y-aixi‖2,
(3)
這里,di稱為距離函數(shù),它可以衡量測試圖像與訓(xùn)練圖像之間的差異.很顯然,di越小,訓(xùn)練圖像與測試圖像越接近,相似程度越高,判別為測試圖像所屬類的可能性也越大.
通過選擇M個距離最小的訓(xùn)練圖像,得到訓(xùn)練圖像庫的一個子集,進一步用于第二階段的識別中.令M個訓(xùn)練樣本的標(biāo)識為x1,x2,…,xM,對應(yīng)的類來自集合S={s1,s2,…,sM},且s1∈{1,2,…,K}.在第二階段的識別中,屬于集合S的類將作為可能的類來進行運算,而不屬于集合S的類將被舍棄.
接下來的第二個階段將實現(xiàn)基于第一階段獲得的規(guī)模減小的樣本集進行精確匹配,最終輸出測試圖像所屬的類.根據(jù)第一階段的假設(shè),M個近鄰可以標(biāo)識為x1,x2,…,xM,進一步,算法用M個訓(xùn)練樣本的線性表示測試圖像,可以得到如下式子:
y=b1x1+b2x2+…+bMxM.
(4)
這里,bi(i=1,2,…,M)表示對應(yīng)每個樣本的系數(shù).式(4)可以進一步表示為:
(5)
(6)
這里,γ是正常數(shù),且γ∈[0,I],I是單位矩陣.
在求解出系數(shù)bi后,再用對應(yīng)同一類的所有訓(xùn)練樣本線性表示測試圖像y:
hr=bpxp+bp+1xp+1+…+bqxq.
(7)
計算測試圖像y與上述線性表示的結(jié)果hr之間的距離:
ei=‖y-hr‖2.
(8)
最終,基于最小距離判決測試圖像y所屬的類.
非負(fù)矩陣分解(NMF)[15]理論認(rèn)為:整體感知可由組成整體的部分感知構(gòu)成.假設(shè)有m個n維空間的非負(fù)樣本數(shù)據(jù)Zn×m,(Z≥0),可以分解成兩個非負(fù)矩陣W和X的乘積:
Zn×m≈Wn×r×Xr×m,
(9)
其中Wn×r為基矩陣,Xr×m為系數(shù)矩陣.若選擇r比n小,用系數(shù)矩陣代替原數(shù)據(jù)矩陣,就可以實現(xiàn)對原數(shù)據(jù)矩陣的降維,得到數(shù)據(jù)特征的降維矩陣,從而減少存儲空間,節(jié)省計算資源.式(9)的另一種正則化表示形式為:
其中,‖X‖1,1=∑ij|Xij|,λ>0.
在實際的應(yīng)用中,式(1)和(4)的分解系數(shù)往往出現(xiàn)為負(fù)數(shù),由此表現(xiàn)在對測試圖像的表示并非真正意義上的加權(quán)求和,從而其線性編碼表示結(jié)果并不具有良好的稀疏性;當(dāng)其用于人臉識別時,這種具有負(fù)值的表示會對大的表情、光照及姿態(tài)的變化敏感,造成人臉識別率的急劇下降.
受非負(fù)矩陣分解的啟發(fā),將表示系數(shù)的非負(fù)性引入到基于表示的人臉識別問題具有很好的物理意義.由此,待識別的人臉圖像y的非負(fù)約束線性編碼表示可通過求解式(10)的最優(yōu)化問題[16]而得到:
(10)
上述問題是非負(fù)矩陣分解的特例,即基矩陣固定為訓(xùn)練樣例.α的迭代求解公式如下:
α←(-α.*min(0,(λ/2)E-XTy))/(XTXy),
(11)
式中,E-m×t表示元素全部為1的矩陣.
(11)式通過將每一個訓(xùn)練圖像的系數(shù)作為自適應(yīng)的調(diào)節(jié)因子,結(jié)合迭代的方案,使得分解得到的系數(shù)滿足非負(fù)性和表示的稀疏性,進一步提高識別的性能.
本文所提出的基于兩級線性編碼表示的人臉識別框架如圖1所示.
圖1 兩級線性編碼表示人臉識別框架Fig.1 Framework of two-stage linear coding representation based face recognition
給定的測試圖像y,先計算其基于所有訓(xùn)練圖像的非負(fù)系數(shù)表示,根據(jù)式(10)的距離公式,尋找y的M最近鄰;再用M最近鄰表示測試圖像y,結(jié)合式(11)計算殘差,最后輸出分類結(jié)果.
算法1:兩級非負(fù)線性表示人臉識別算法(TSLCR)
輸入:測試圖像y,訓(xùn)練圖像x,參數(shù)λ;
輸出:y的類標(biāo)識;
(1) 根據(jù)設(shè)定的參數(shù)y,計算φ=(λ/2)e-XTy;
(2) 指定允許的最大迭代次數(shù),并迭代求解式(11);
(3)步驟(2)求得系數(shù)a,結(jié)合式(10)求解測試圖像y的M最近鄰;
(4) 用類似于步驟(1)、(2)的方法求解基于M最近鄰的關(guān)于y的非負(fù)表示系數(shù);
(5) 結(jié)合式(8)計算測試圖像與M最近鄰中各個類的殘差;
(6) 選擇(5)中的最小殘差所對應(yīng)的類輸出.
為了驗證本文算法的有效性,我們基于Windows 7.0操作系統(tǒng)、Matlab R2010a環(huán)境,針對AR、ORL及Yale B人臉庫進行了模擬對比實驗.
由于第一級要選擇M最近鄰,這里首先給出M的取值策略.分別選擇AR、ORL和Yale B人臉庫的部分樣本,采用本文算法計算第一級M的取值與識別率的相互關(guān)系,其實驗結(jié)果如圖2所示.
圖2 M取值與識別率之間的關(guān)系Fig.2 Correlation of M and the recognition rate
從圖2中可以看出,當(dāng)M在50附近時,3個人臉庫均有最佳的性能,說明M取值與具體的人臉庫無關(guān).在后續(xù)實驗中,選擇了M=50,相同的運行環(huán)境下,按照以下4種算法的思想,進行的模擬比對實驗:分塊兩階稀疏(BTPSRC)[12]、兩階稀疏表示表示(TPSRC)[14]、非負(fù)稀疏表示(NSRC)[16,17]、兩級線性編碼表示(TSLCR,本文算法).
AR人臉庫包括2個子集,子集1構(gòu)成測試數(shù)據(jù)集,子集2構(gòu)成訓(xùn)練數(shù)據(jù)集.分別包含100個不同個體、各700幅人臉圖像.包含不同表情、姿態(tài)及光照變化,每幅人臉圖像已經(jīng)裁剪成60×43大小.子集1(測試人臉圖像)和子集2(訓(xùn)練人臉圖像)通過歸一化、裁剪、配準(zhǔn)等預(yù)處理操作后的人臉圖像,分別如圖3和圖4所示.表1所示為算法運行10次所得平均識別率的結(jié)果.
圖3 測試圖像樣本列舉Fig.3 The example of test images
圖4 訓(xùn)練圖像樣本列舉Fig.4 The example of training images
方法NSRCTPSRCBTPSRCTSLCR識別率/%66.5778.7176.7182.29
從表1可以看出,3種基于兩級測試圖像表示算法的識別率均高于75%,明顯優(yōu)于一級測試圖像表示的算法(識別率僅為66.57%).通過修正表示系數(shù)的非負(fù)性,本文算法進一步提高了同類算法的性能,識別率達82%以上.
ORL人臉庫包括40個類、共400幅人臉圖像,每幅圖像裁剪成64×64的尺寸.包含了較大的姿態(tài)、光照、表情變化以及眼鏡遮擋,部分樣本在圖5中給出.
圖5 ORL人臉圖像樣本列舉Fig.5 The example of ORL database
將每個類隨機取5幅作為訓(xùn)練圖像,剩余5幅作為測試圖像,算法運行10次所得平均識別率如表2所示.
表2 ORL庫識別率的比較
從表2可以看出,在有較大的姿態(tài)變化時,四種算法對大部分人臉均能正確識別.但本文算法仍具有最好的性能,比其他算法的識別率提高了3%~8%.
Yale B人臉庫主要包括較大的光照以及表情變化.我們選擇了其中576幅人臉圖像,包括9個類,每個類64幅,其樣本圖像如圖6.
圖6 Yale B人臉圖像樣本列舉Fig.6 The example of Yale B database
將每個類的隨機32幅作為訓(xùn)練圖像,剩余32幅作為測試圖像,算法運行10次所得平均識別率,其結(jié)果如表3所示.
表3 Yale B庫識別率的比較
從表3中可以看出,4種算法的識別率相比于其他人臉庫有下降.這主要是因為大的光照變化,對測試圖像的表示結(jié)果有很大的影響.但本文算法的仍具有相對的優(yōu)越性.
提出了一種兩級非負(fù)線性編碼表示的人臉識別算法.第一級在全部人臉庫中尋找測試圖像的M最近鄰圖像集合,第二級在M個最近鄰圖像集合中尋找測試圖像所屬類別.受非負(fù)矩陣分解技術(shù)的啟發(fā),將非負(fù)屬性引入到兩級線性表示方法中,兩階段均采用了迭代的方案和自適應(yīng)調(diào)節(jié)因子,可以使分解系數(shù)為非負(fù).非負(fù)性的限制帶來了表示的稀疏性,從而有利于抑制表情、光照、姿態(tài)變化的不利影響,從而提高人臉圖像的識別率和魯棒性.基于3個標(biāo)準(zhǔn)的人臉庫AR、ORL和Yale B的仿真實驗結(jié)果,初步證明了本文算法的有效性.
參 考 文 獻
[1] Luan X, Fang B, Liu L H, et al. Extracting sparse error of robust PCA for face recognition in the presence of varying illumination and occlusion[J]. Pattern Recognition, 2014, 47(2): 495-508.
[2] 李 欣,王科俊, 賁晛燁. 基于MW(2D)~2 PCA的單訓(xùn)練樣本人臉識別[J].模式識別與人工智能,2010,23(1):77-83.
[3] Yin F, Jiao L C, Shang F H, et al. Double linear regressions for single labeled image per person face recognition[J]. Pattern Recognition, 2014, 47(4):1547-1558.
[4] 張 健,肖 迪.基于多尺度自適應(yīng)LDA的人臉識別方法[J].計算機工程與設(shè)計,2012,33(1):332-335.
[5] 袁寶華,王 歡,任明武. LBP與LNMF特征融合的人臉識別[J]. 計算機工程與應(yīng)用,2012,49(5): 166-169.
[6] 周家銳,紀(jì) 震,沈琳琳,等. 基于Gabor小波與Memetic算法的人臉識別方法[J].電子學(xué)報,2012, 40(4):642-646.
[7] 戴金波,肖 霄,趙宏偉. 基于低分辨率局部二值模式的人臉識別[J]. 吉林大學(xué)學(xué)報:工程技術(shù)版,2013,43(2):435-438.
[8] Xu Y,Zhu Q,F(xiàn)an Z Z, et al. Using the idea of the sparse representation to perform coarse-to-fine face recognition [J]. Information Sciences, 2013, 238(20):138-148.
[9] Lu C Y, Min H, Gui J, et al. Face recognition via Weighted Sparse Representation [J]. Journal of Visual Communication and Image Representation, 2013, 24(2):111-116.
[10] Li H B, Huang D, Morvan J M, et al. Expression-robust 3D face recognition via weighted sparse representation of multi-scale and multi-component local normal patterns[J]. Neurocomputing, 2014, 133(10):179-193.
[11] Yang M,Zhang L.Gabor feature based sparse representa-tion for face recognition with gabor occlusion dictionary [C]. Proceedings of the 11th European Conference on Computer Vision , 2010: 448-461.
[12] 平 強,莊連生,俞能海.姿態(tài)魯棒的分塊稀疏表示人臉識別算法[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2011,41(11):975-981.
[13] Ortiz E G, Becker B C. Face recognition for web-scale datasets [J]. Computer Vision and Image Understanding, 2014, 118(2):153-170.
[14] Xu Y, Zhang D, Yang J,et al. A two-phase test sample sparse representation method for use with face recognition. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(9), 1255-1262.
[15] Hoyer P O.Non-negative matrix factorization with sparse-ness constrains[J]. Journal of Machine Learning Research, 2004,5(1):1457-1469.
[16] 史加榮,楊 威,魏宗田.基于非負(fù)稀疏表示的人臉識別[J].計算機工程與設(shè)計,2012,33(5):2002-2006.
[17] 高志榮,熊承義,笪邦友.改進的基于殘差加權(quán)的稀疏表示人臉識別[J].中南民族大學(xué)學(xué)報:自然科學(xué)版,2012,31(3):72-76.