姜文秀
(揚州市職業(yè)大學(xué) 信息工程學(xué)院,江蘇 揚州 225009)
目前,人臉識別和分析已經(jīng)在多個領(lǐng)域有了廣泛的應(yīng)用。例如,醫(yī)療領(lǐng)域中能夠應(yīng)用人臉表情的變化判斷臨床中各種疾病引發(fā)的病痛;教育應(yīng)用領(lǐng)域可以借助人臉識別完成各種考試考場的監(jiān)控,根據(jù)考生的表情變化判斷是否存在舞弊行為;生活娛樂領(lǐng)域和虛擬現(xiàn)實等體驗類游戲可以根據(jù)玩家的表情增強游戲的反饋性。此外,人臉識別還被廣泛應(yīng)用于安全支付、管理監(jiān)控以及教育軟件等領(lǐng)域。
隨著移動終端和圖像處理技術(shù)的迅速發(fā)展,人臉識別方面的研究也越來越常見,基于幾何特征、人臉局部特征以及統(tǒng)計特征的二維人臉識別技術(shù)越來越成熟[1]。然而,傳統(tǒng)的人臉識別技術(shù)大多是根據(jù)單一的人臉特征進行識別,很容易受到光照、表情、所處背景以及姿態(tài)等因素的影響。
多特征融合技術(shù)可以從特征提取的原始數(shù)據(jù)中得到多種特征向量,并根據(jù)特定的融合方法將這多個低維度的特征向量融合為高維度的聯(lián)合特征向量。將特征融合應(yīng)用到人臉識別中能夠有效克服光照和姿態(tài)變化等因素的影響,具有光照不變性和姿態(tài)無關(guān)性,且不易受飾品、衣物以及毛發(fā)等的影響。
人臉識別中應(yīng)用多特征融合時,首先需要進行人臉特征的提取,并進行初步的建模與處理,其次將提取的多種特征用一定的方式表示出來,最后對多種特征進行融合。
人臉特征指的是和其他人臉進行區(qū)別的本質(zhì)。人臉特征提取就是提取出能夠和其他人臉進行區(qū)別的信息,同時還需要剔除人臉特征中存在的不必要信息和干擾信息等。在進行特征提取前需要先進行人臉模型預(yù)處理。常見的人臉模型預(yù)處理方式包括人臉區(qū)域裁切、人臉姿態(tài)校正以及三維曲面重建等[2]。
人臉表情多種多樣,因此可用于特征提取的方法也很多。目前常見的人臉特征提取的方法包括基于特征降維提取、原始特征提取以及局部特征提取等。
基于特征降維提取的目的是有效降低原始人臉特征的數(shù)據(jù)量,從所有人臉數(shù)據(jù)中抓取主要的人臉特征。最常用的特征降維方法是主成分分析法(Principal Component Analysis,PCA)。PCA會對人臉統(tǒng)計特征進行正交運算,以此降低不同分量間的相關(guān)性,并從降維后的所有特征向量中提取相關(guān)性最大的幾個特征,從而在實現(xiàn)降維的同時保留人臉的絕大部分特征信息。和特征降維方法不同的是,局部特征提取方法并不是基于人臉的全局特征提取。因為全局特征容易受到光照和姿態(tài)變化等因素的影響,不能區(qū)分人臉本身的特征和人臉圖像噪聲。使用局部特征提取方法對人臉特征進行歸一化處理,能夠有效降低外界干擾,提高識別效果。
人臉識別時最關(guān)注的是人臉中心區(qū)域,包括眼睛、眉毛、嘴巴以及鼻子等。其他區(qū)域的數(shù)據(jù)對人臉識別作用不大,而且會增加識別過程中的計算量,所以人臉模型預(yù)處理的首要步驟就是對人臉進行區(qū)域裁切,只保留人臉中心區(qū)域。人臉的姿態(tài)除了正面外,還有可能是側(cè)面或背面,此時就需要進行人臉模型姿態(tài)校正,目的是將側(cè)面和背面的人臉變換到一個僅僅依賴人臉曲面分布的姿態(tài)坐標系中。經(jīng)過裁切后的人臉可以近似看作是一個上下方向長、左右方向短的橢球,以分析人臉主成分,并提取人臉縱向、橫向以及深度方向的3個主要特征,然后利用提取出的特征向量構(gòu)建姿態(tài)坐標系。
根據(jù)人臉不同區(qū)域?qū)ψR別的貢獻度不同,將人臉區(qū)域劃分成5個感興趣區(qū)域(Region of Interest,ROI)[3]。先手工將五官區(qū)域的中心點作為區(qū)域特征點,然后確定感興趣區(qū)域的大小,再將子區(qū)域進行雙線性插值操作以完成歸一化處理。子區(qū)域的劃分不是任意的,其個數(shù)和分快數(shù)對特征維數(shù)和人臉識別的性能都有影響。子區(qū)域數(shù)目越多能夠得到越好的人臉特征表示,但同時也會降低人臉識別的性能。
將人臉圖像劃分成左眼、右眼、眉心、嘴以及鼻子5個子區(qū)域后,再將每個子區(qū)域分成不同大小的分塊,分塊的個數(shù)及大小如表1所示。
表1 人臉子區(qū)域大小及塊數(shù)
局部二值模式(Local Binary Pattern,LBP)能夠有效表達人臉圖像局部特征,具有旋轉(zhuǎn)不變性和灰度不變性等特點,不會受到光照等因素的影響。其人臉圖像處理算法是定義一個3×3的窗口,將窗口內(nèi)部像素點的灰度值作為閾值,并將每個像素點相鄰的8個像素點的灰度值和當(dāng)前像素點進行比較,如果相鄰像素點的像素值比當(dāng)前像素值大,則設(shè)置為1,否則設(shè)置為0。窗口內(nèi)的像素點按照順序生成一個8位的二進制數(shù),即為LBP碼。
LBP描述算法僅僅比較了中心像素點和其相鄰區(qū)域的灰度值,忽略了像素間的差異,因此無法表示對比度不變時非線性變換前后的差異,會導(dǎo)致部分人臉信息丟失。針對中心像素值信息丟失的問題,對LBP描述算法的改進如下[4]。增加一個閾值T,人臉像素點的值不再只是0或1。三值模式的閾值采用基于中心像素的動態(tài)調(diào)節(jié)方式,從而降低人臉像素值變化對人臉識別的影響,提高了人臉識別的抗光照變化和噪聲干擾的能力。此外,局部三值模式使用正負二值模式進行表示。如果直接使用局部三值模式會導(dǎo)致人臉特征維度由原來的256維(28)增加到6 561維(38),會大大增加識別復(fù)雜度。此時,可以將局部三值模式表示為正負二值模式,即正256維(28)和負256維(28),使得特征維度只有512維,既保留了加入閾值T后的人臉細節(jié)信息,又降低了特征維數(shù)。
預(yù)處理最后需要對人臉圖像進行灰度值均衡化。由于在人臉采集過程中光照、背景以及膚色等差異會導(dǎo)致人臉圖像存在不同程度的明暗現(xiàn)象,如果不對其進行灰度均衡化處理,則會使人臉的灰度等級分布范圍較廣,無形中增加了計算量。
利用上面的多特征表示算法提取到人臉的特征后,可以將所有的特征向量表示為系數(shù)矩陣,在進行稀疏重構(gòu)后將人臉識別問題轉(zhuǎn)化為多個線性回歸模型的分類問題。
多特征稀疏表示方法首先通過人臉關(guān)鍵點定位和特征提取得到人臉的局部紋理特征和人臉全局信息,其次借助人臉局部紋理特征和全局信息構(gòu)建訓(xùn)練字典進行字典學(xué)習(xí),再次將人臉識別問題表示為多特征稀疏表示的目標函數(shù),并用加速梯度算法(Accelerated Proximal Gradient,APG)進行求解,最后將目標函數(shù)的稀疏系數(shù)矩陣傳給SVM進行人臉識別[5]。主要過程如圖1所示。
對于不同類別的人臉表情,可以將每類表情的樣本特征表示為稀疏表示字典及稀疏向量乘積。假設(shè)D={d1,d2,…,dn}為稀疏表示字典,并定義w為稀疏向量,則可以將第k類表情的第i個樣本的特征yki表示為:
基于多特征稀疏表示方法進行人臉識別系統(tǒng)在實現(xiàn)上可以分成預(yù)處理模塊、特征提取模塊、特征訓(xùn)練模塊以及表情識別模塊4大模塊,用例圖表示如圖2所示。
在實際進行人臉識別時,采用Holdout策略將人臉樣本分成一個訓(xùn)練學(xué)習(xí)組和一個識別測試組,并從這兩個組中隨機選擇每人每類表情的2~3張圖片作為訓(xùn)練樣本,每人每類表情中的1張圖片作為測試樣本,隨機進行4次識別試驗,得到人臉識別結(jié)果如表2所示。
圖1 多特征稀疏表示人臉識別示意圖
圖2 多特征稀疏表示人臉識別系統(tǒng)用例圖
表2 4次人臉識別結(jié)果的識別率
從試驗結(jié)果可以看出,應(yīng)用多特征稀疏表示進行人臉識別的平均識別率接近90%。另外,識別率最高的人臉表情為“驚訝”,這是因為此時人臉的眉毛抬高并彎曲、眼睛睜大,而且可能會出現(xiàn)嘴巴張開和唇齒分離等現(xiàn)象。這種明顯的特征變化使得多特征稀疏矩陣更加豐富,從而得到優(yōu)秀的識別效果。
研究特征融合在人臉識別中的應(yīng)用,首先介紹了人臉識別的基礎(chǔ)人臉特征提取和模型預(yù)處理,其次分析了改進的多特征融合算法,增加閾值和正負二值模式兩種方式在保留人臉細節(jié)信息的情況下降低了特征維數(shù),提高了人臉識別的抗光照變化和噪聲干擾的能力,最后使用多特征稀疏表示方法進行人臉識別,并給出了人臉識別結(jié)果。