公維軍 吳建軍 李曉霞 李曉旭
(1.河西學(xué)院信息技術(shù)與傳媒學(xué)院 張掖 734000)(2.蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院 蘭州 730050)
隨著人工智能技術(shù)的不斷普及和發(fā)展,身份識(shí)別得到了廣泛的發(fā)展和應(yīng)用。人臉識(shí)別作為生物識(shí)別技術(shù)其自然性和無侵犯性等優(yōu)點(diǎn)得到了廣泛的共識(shí)和應(yīng)用,在眾多領(lǐng)域的如人機(jī)交互、門禁系統(tǒng)、安防、交通駕駛安全、虛擬游戲互動(dòng)、金融等領(lǐng)域應(yīng)用越來越廣泛,其重要性不言而喻。因此,對(duì)于人臉識(shí)別的研究越來越受到眾多學(xué)者的重視,也是當(dāng)前研究的一個(gè)熱點(diǎn)。
傳統(tǒng)識(shí)別算法如主成分分析(PCA)和線性判別分析(LDA)是人臉識(shí)別中上最常見的兩個(gè)算法[1]。但對(duì)人臉特征的細(xì)節(jié)的把握和對(duì)外部因素的影響如光照、表情及姿態(tài)等的處理不夠友好,局部性能不佳。近年來 LBP(Local binary patter)[2]算法由于具有良好的紋理描述,計(jì)算簡(jiǎn)單和運(yùn)算速度快在人臉識(shí)別、表情識(shí)別中得到了廣泛的應(yīng)用。但該算法對(duì)光照變化和隨機(jī)噪聲適應(yīng)能力不足。后續(xù)有學(xué)者提出了 MB-LBP、CSLBP 等改進(jìn)算法[3~4]。學(xué)者Jabid在LBP基礎(chǔ)上提出了LDP(Local Directional Patterns)[5]局部定向模式算法,該算法使用模板卷積獲得邊緣梯度信息,因此對(duì)于具有隨機(jī)噪聲和非一致性光照變化的人臉圖像具有良好的特征提取能力。
最近,深度學(xué)習(xí)[6~7]作為機(jī)器學(xué)習(xí)領(lǐng)域熱門的研究方向,由于可以模擬大腦的深度組織結(jié)構(gòu),通過組合低層特征形成更抽象、更有效的高層表示,被應(yīng)用在視覺識(shí)別領(lǐng)域。由Hinton于2006年提出的典型的深度學(xué)習(xí)算法DBN(Deep Belief Network)[8]深度信念網(wǎng)絡(luò),通過不斷的自上而下學(xué)習(xí)各層的抽象特征,進(jìn)而最終得到特征的非線性描述。但是由于DBN忽略了圖像的局部特性,若直接以像素級(jí)特征輸入,受外部噪聲影響很可能學(xué)習(xí)不到有效的特征。部分學(xué)者針對(duì)這些問題提出將LBP紋理特征作為DBN的輸入,在人臉識(shí)別中能夠取得一定的效果[9~10]。本文針對(duì)LBP作為對(duì)人臉特征具有光照和噪聲不穩(wěn)定性等特點(diǎn)及單一算法在識(shí)別率上的限制等問題,同時(shí)為了提取更具選擇性的人臉特征和降低網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜度,提出更具有選擇性的局部方向人臉特征算法LLDP(Local-LDP)對(duì)局部敏感特征進(jìn)行分塊式局部方向特征提取,最后將聯(lián)合特征送入DBN進(jìn)行深度學(xué)習(xí)和自動(dòng)特征提取,實(shí)驗(yàn)證明本文提出的算法對(duì)細(xì)節(jié)和層次的把握能力更強(qiáng),能夠獲得更好的識(shí)別率,魯棒性更強(qiáng)。
傳統(tǒng)人臉識(shí)別算法在進(jìn)行人臉識(shí)別前,只是進(jìn)行簡(jiǎn)單的裁剪,進(jìn)行全局特征提取,或?qū)⒄w圖像進(jìn)行平均分塊,在經(jīng)過特征提取后在獲取直方圖后進(jìn)行拼接,雖然增強(qiáng)了特征的局部性能,但也帶來了處理時(shí)間長(zhǎng),冗余信息多,圖像噪聲影響識(shí)別率。本文在綜合上述方法優(yōu)缺點(diǎn)的基礎(chǔ)上,提出基于敏感信息的人臉特征提取方法。人臉在識(shí)別當(dāng)中最突出的特征在于眼睛、眉毛、鼻子、嘴巴及下巴,這部分的能量差異性尤其是眉形、眼形、鼻溝的深淺、鼻孔的變化、嘴型、下巴的形狀等在各類人臉中都呈現(xiàn)尤為明顯,這類差異性可以成為人臉判別的重要標(biāo)準(zhǔn)之一。因此,結(jié)合傳統(tǒng)人臉識(shí)別的思想,同時(shí)為了進(jìn)一步減小直接預(yù)處理后的圖像的復(fù)雜度和冗余度較高的問題,我們采用將眼、眉、嘴、鼻、下巴這部分具有重要甄別特征的人臉敏感部位單元共同作用于人臉識(shí)別進(jìn)行處理中,為下一步特征提取打好基礎(chǔ)。文中采用adaboost[11]方法進(jìn)行各部位的迅速定位,如圖1所示。
圖1 人臉敏感特征區(qū)域提取
LDP局部方向模式由Jabid等在2010年在LBP算法的基礎(chǔ)上提出,繼承了LBP算法計(jì)算速度塊和適用范圍廣等特點(diǎn),能夠有效提取人臉圖像的紋理特征。LBP算法是對(duì)于人臉圖像中的任意一點(diǎn)p(xi,yi),定義一個(gè)以該像素點(diǎn)為中心的3×3的矩陣區(qū)域,順時(shí)針讀取其周圍的8個(gè)像素點(diǎn)的值,通過式(1)得到該像素點(diǎn)的二進(jìn)制編碼。
其中,(i,j)代表像素坐標(biāo),gp和gc分別代表鄰接像素和中心像素灰度值,s(x)為符號(hào)函數(shù),對(duì)于基本LBP的鄰接數(shù)為8。
圖2 LBP編碼
圖2 中代表以中心像素115組成的3×3區(qū)域根據(jù)LBP算法得到的最終LBP二進(jìn)制編碼00101010,對(duì)應(yīng)十進(jìn)制為42。
但是LBP算法雖然對(duì)于一致性光照變化不敏感,但是對(duì)于包含隨機(jī)噪聲與非一致性光照變化的圖像,在特征提取性能上反而變壞[12],而LDP算法卻在這方面有自己獨(dú)特的優(yōu)勢(shì),如圖5所示,該算法在細(xì)節(jié)和光照的處理明顯比LBP具有優(yōu)勢(shì),具有更強(qiáng)的特征提取能力。該方法通過計(jì)算像素點(diǎn)在8個(gè)方向上的邊緣響應(yīng)值來計(jì)算LDP值,選取Krisch算子進(jìn)行卷積運(yùn)算得到相應(yīng)的邊緣梯度值,構(gòu)成了8位的二進(jìn)制編碼。
圖3 Krisch算子模板集合
如圖3所示,通過將每個(gè)像素分別與Krisch算子8個(gè)方向模板進(jìn)行卷積運(yùn)算,可得到8個(gè)LDP值,對(duì)這8個(gè)邊緣梯度值取絕對(duì)值進(jìn)行排序,取前k個(gè)最大的值作為特征值(通過實(shí)驗(yàn)論證本文中取k=3效果最佳),并賦值為1,其余(8-k)個(gè)賦值為0,最終得到一個(gè)8位的2進(jìn)制LDP編碼。如式(2)所示:
具體編碼過程如圖4所示。
圖4 LDP編碼
圖中設(shè)置LDP編碼取k=3個(gè)邊緣梯度模值的絕對(duì)值為1,其余為0。最終的LDP對(duì)應(yīng)2進(jìn)制編碼為:00010011,對(duì)應(yīng)十進(jìn)制為21。
圖5 原始圖、LBP、LDP編碼特征圖
深度信念網(wǎng)絡(luò)(DBN)屬于一種深度學(xué)習(xí)模型,是Hinton等學(xué)者在受限玻爾茲曼機(jī)(RBM)[13]基礎(chǔ)上提出的學(xué)習(xí)模型。它實(shí)質(zhì)上是將多個(gè)RBM疊堆,前一層作輸出作為后一層的輸入進(jìn)而構(gòu)成深度玻爾茲曼機(jī)RBMs,即深度信念網(wǎng)絡(luò)。每個(gè)RBM由一層可視層單元和隱藏層單元組成的隨機(jī)神經(jīng)網(wǎng)絡(luò),在隱藏層中每一層從前一層的隱藏單元捕獲高度的關(guān)聯(lián)性,其中在可視層和隱藏層中每個(gè)神經(jīng)元之間的狀態(tài)是條件獨(dú)立的。利用構(gòu)建包括多層非線性映射的深度網(wǎng)絡(luò)來模擬人腦結(jié)構(gòu)與認(rèn)知過程,采用非監(jiān)督的方式實(shí)現(xiàn)對(duì)輸入層逐層抽象的特征提取。在網(wǎng)絡(luò)最后一層采用有監(jiān)督BP網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)整體網(wǎng)絡(luò)的參數(shù)調(diào)整與分類。
受限玻爾茲曼機(jī)(RBM)作為DBN的堆疊組成單元,它在一組給定狀態(tài) (v,h),實(shí)際參數(shù)θ=(ai,bj,wij)下的能量表達(dá)式為
m和n分別代表可見層和隱藏層的神經(jīng)元個(gè)數(shù),ai和bj分別表示可見層和隱藏層神經(jīng)元的偏置值,hj和vi分別為可見層中第i個(gè)和隱藏層中第j個(gè)神經(jīng)元的狀態(tài),wij表示連接可見層和隱藏層的各個(gè)神經(jīng)元網(wǎng)絡(luò)的權(quán)值。當(dāng)θ確定時(shí),隨機(jī)變量(v,h)的聯(lián)合概率分布為
在可見層概率分布給定的情況下,通過條件概率即可得出隱藏層第j個(gè)神經(jīng)元hj的激活因子概率為
同理,對(duì)于隱藏層給定的條件下,可見層第i個(gè)神經(jīng)元vi的激活因子概率為
其中σ(x)即Sigmoid函數(shù),取值范圍在[0,1]之間。
對(duì)于一個(gè)具有l(wèi)層的DBN,可視層和隱藏層單元的聯(lián)合分布為
根據(jù)上式,設(shè)k∈(1,2…l),則第k和k+1層隱藏單元的關(guān)系滿足以下條件:
其中為第k和k+1層的權(quán)值為第k層的偏置。
DBN在具體學(xué)習(xí)過程可分為:預(yù)訓(xùn)練階段和微調(diào)階段兩個(gè)階段。預(yù)訓(xùn)練階段是采用無監(jiān)督訓(xùn)練方式對(duì)RBMs從第一層到最后一層逐層訓(xùn)練,前一層RBM的輸出作為后一層RBM的輸入;在微調(diào)階段則是將RBMs訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)值作為整體網(wǎng)絡(luò)參數(shù)對(duì)BP網(wǎng)絡(luò)進(jìn)行初始化,該階段采用有監(jiān)督的學(xué)習(xí)方法對(duì)BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練。最終將BP網(wǎng)絡(luò)訓(xùn)練的輸出標(biāo)簽與實(shí)際標(biāo)簽產(chǎn)生的誤差逐層反向傳播,達(dá)到對(duì)整個(gè)DBN網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)的目的。DBN的結(jié)構(gòu)如圖6所示。
圖6 深度信念網(wǎng)絡(luò)(DBN)示意圖
本文將局部敏感信息特別應(yīng)用在局部方向算法當(dāng)中,在利用深度學(xué)習(xí)算法DBN進(jìn)行學(xué)習(xí),最終獲得識(shí)別結(jié)果。具體算法如下:
1)采用2.1中的方法對(duì)人臉圖像中的關(guān)鍵敏感人臉特征進(jìn)行分塊處理,獲得眼、眉、鼻、嘴和下巴局部關(guān)鍵區(qū)域;
2)利用LDP算法對(duì)以上5個(gè)局部敏感區(qū)域進(jìn)行人臉特征提取,獲得每一個(gè)子塊的LDP特征,將該5個(gè)區(qū)域的直方圖進(jìn)行首尾相連,最終形成樣本的局部敏感LDP特征即LLDP特征;
3)將訓(xùn)練樣本的LLDP特征作為DBN的可視層的輸入,通過對(duì)DBN網(wǎng)絡(luò)進(jìn)行逐層訓(xùn)練,在該算法當(dāng)中,根據(jù)實(shí)驗(yàn)設(shè)置DBN的層數(shù)為2層,第一層迭代次數(shù)為45次,學(xué)習(xí)率為0.0025,第2層迭代次數(shù)為45次,學(xué)習(xí)率為0.003。
4)在深度網(wǎng)絡(luò)訓(xùn)練完后,將測(cè)試樣本的LLDP紋理特征作為DBN可視層輸入,采用經(jīng)過參數(shù)優(yōu)化后的網(wǎng)絡(luò)由下向上逐層次學(xué)習(xí)并最終提取測(cè)試樣本的人臉特征,最終在網(wǎng)絡(luò)頂層利用Softmax方法進(jìn)行回歸分類并獲得測(cè)試樣本的分類值,最終得到識(shí)別率。
本文通過以下兩個(gè)實(shí)驗(yàn)來對(duì)本文算法進(jìn)行實(shí)驗(yàn)驗(yàn)證,并在實(shí)驗(yàn)中將本文算法與相關(guān)算法進(jìn)行了性能比較,在實(shí)驗(yàn)前,所有的人臉圖像在剪切和校準(zhǔn)后,最終歸一化到32×32,為下一步算法區(qū)域定位與提取做好準(zhǔn)備。
實(shí)驗(yàn)一:在ORL人臉庫(kù)[14]上進(jìn)行實(shí)驗(yàn)測(cè)試。該人臉庫(kù)包括40人,其中每個(gè)人存在不同時(shí)間拍攝的10張92×112大小的人臉灰度圖像,包含不超過20度的人臉偏轉(zhuǎn),如圖7所示。本文在實(shí)驗(yàn)中,分別對(duì)于每個(gè)人隨機(jī)提取5張圖片作為訓(xùn)練圖片,其余5張作為測(cè)試圖片。不同算法在不同隱藏單元中的識(shí)別率如表1所示。
表1 各種算法在ORL庫(kù)中不同隱藏單元的識(shí)別率
圖8 ORL中不同隱藏單元識(shí)別率
實(shí)驗(yàn)二:在MIT-CBCL人臉庫(kù)進(jìn)行實(shí)驗(yàn)驗(yàn)證。MIT-CBCL庫(kù)是一組由10人構(gòu)成的圖像庫(kù),總共2000個(gè)圖像序列,對(duì)于每個(gè)人都包含有200張115×115大小的一系列的人臉圖像,最大轉(zhuǎn)向達(dá)到30度,包含各類表情,實(shí)驗(yàn)數(shù)據(jù)十分豐富[15],如圖9所示。算法選擇其中10人進(jìn)行測(cè)試實(shí)驗(yàn),每人選取20張不同的人臉圖像進(jìn)行試驗(yàn)。選取其中每個(gè)人10張作為訓(xùn)練樣本,另外10張作為測(cè)試樣本。相對(duì)應(yīng)不同隱藏單元的實(shí)驗(yàn)結(jié)果如表2所示。
圖9 MIT-CBCL人臉數(shù)據(jù)庫(kù)樣本
表2 各種算法在MIT-CBCL庫(kù)中不同隱藏單元的識(shí)別率
圖10 MIT-CBCL中不同隱藏單元識(shí)別率
為了更好地體現(xiàn)本文算法在不同圖庫(kù)中與其他相應(yīng)算法在性能上的表現(xiàn)差異,本文設(shè)計(jì)了不同算法對(duì)照實(shí)驗(yàn),識(shí)別性能對(duì)照如表3所示。
表3 各種算法人臉庫(kù)中識(shí)別性能對(duì)比
從表1可知,當(dāng)隱藏單元較少時(shí),同樣深度網(wǎng)絡(luò)不能較為準(zhǔn)確學(xué)習(xí)到人臉圖像的判別信息,而當(dāng)隱藏單元數(shù)不斷增加,網(wǎng)絡(luò)學(xué)習(xí)到的特征越來越充分和精確,當(dāng)隱藏單元數(shù)達(dá)到5000時(shí),該網(wǎng)絡(luò)學(xué)習(xí)到的人臉圖像特征具有更強(qiáng)的判別性。表2既體現(xiàn)了實(shí)驗(yàn)一算法的優(yōu)勢(shì),由于MIT-CBCL圖庫(kù)相比ORL圖庫(kù),尤其在光照的變化上幅度較大,由于應(yīng)用了LLDP這類對(duì)光照更有魯棒性的算法,局部特征的選擇性更強(qiáng),所以也體現(xiàn)出了良好的識(shí)別率。
如表3所示,通過算法對(duì)比兩個(gè)圖庫(kù),MIT-CBCL人臉中的圖像表情更豐富,偏轉(zhuǎn)幅度相對(duì)ORL庫(kù)較大,所以實(shí)驗(yàn)二結(jié)果整體比實(shí)驗(yàn)一識(shí)別率略有下降。但從兩個(gè)實(shí)驗(yàn)綜合分析,本文提出的LLDP+DBN算法識(shí)別率要高于傳統(tǒng)的PCA、LDP和DBN算法,比原始混合算法有更好的表現(xiàn),算法盡可能地利用深度學(xué)習(xí)的優(yōu)勢(shì)通過模擬人腦大腦組織來學(xué)習(xí)最具甄別性的局部敏感人臉信息,減少了冗余信息,也對(duì)分類保留了最佳特性信息,實(shí)驗(yàn)很好地體現(xiàn)了該算法的有效性和優(yōu)良性。
本文提出了針對(duì)局部敏感信息的基于深度學(xué)習(xí)的局部方向人臉識(shí)別算法,利用LLDP算法定位最具辨別性的人臉局部敏感區(qū)域進(jìn)行分塊,借助算法良好的紋理和抗干擾特性對(duì)其進(jìn)行特征提取,依次相互連接形成最大化特征臉后送入學(xué)習(xí)性能優(yōu)秀的深度信念網(wǎng)絡(luò)DBN進(jìn)行學(xué)習(xí),最終取得良好的分類效果。算法分別在ORL和MIT-CBCL人臉庫(kù)上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,本文算法在光照、姿態(tài)、表情等各類因素下具有較好的識(shí)別性能,驗(yàn)證了本文所提算法的有效性和可行性。同時(shí),對(duì)于今后的研究,將選取對(duì)于實(shí)際中具有更大的隨機(jī)性和復(fù)雜性自然人臉的驗(yàn)證研究;同時(shí)對(duì)于有遮擋及偏轉(zhuǎn)幅度較大補(bǔ)償算法的研究。該問題的研究也是人臉識(shí)別當(dāng)前的難點(diǎn),也是當(dāng)前亟待重點(diǎn)解決的問題之一。