李玲俐
(廣東司法警官職業(yè)學(xué)院 廣州 510520)
生物特征識別是利用計(jì)算機(jī)技術(shù),通過采集人的生物特征樣本進(jìn)行人的身份識別。心理學(xué)家20世紀(jì)50年代開始研究人臉識別,60年代后,慢慢發(fā)展成一種重要的生物特征識別技術(shù)。區(qū)別于指紋、虹膜等其他生物識別,人臉識別技術(shù)具有直觀、非接觸性、方便采集、交互性強(qiáng)、可擴(kuò)展性的優(yōu)點(diǎn)[1],成為大數(shù)據(jù)時代背景下的生物特征識別中一個非常熱門的研究領(lǐng)域,被廣泛應(yīng)用于門禁考勤、訪問控制、欺詐檢測、公安刑偵、智能支付等領(lǐng)域。
人臉技術(shù)雖然取得了一些研究成果,但由于人臉的不同姿態(tài)、表情以及光線、遮擋、角度、分辨率等因素,識別率和準(zhǔn)確性會降低,影響了人臉識別的研究效果。目前,傳統(tǒng)的人臉識別技術(shù)已經(jīng)不能解決各類復(fù)雜因素下的人臉識別問題,實(shí)際應(yīng)用面臨諸多挑戰(zhàn)。隨著深度學(xué)習(xí)的發(fā)展和廣泛應(yīng)用,人臉識別研究有了很大的突破,其自身適應(yīng)性、精確性和智能度得到很大提升。本文從傳統(tǒng)人臉識別方法面臨的技術(shù)問題出發(fā),闡述深度學(xué)習(xí)理論及其在人臉識別中的應(yīng)用,并對未來的發(fā)展進(jìn)行展望。
傳統(tǒng)的人臉識別方法主要有以下幾種。
1)基于幾何特征[2]的方法。最簡單的人臉識別方法,將人臉的眼睛、鼻子、嘴巴等重點(diǎn)部位和這些部位的形狀、位置進(jìn)行比較來判別。該方法主要依賴特征提取的準(zhǔn)確度,但由于形狀、位置等特點(diǎn)不能精確體現(xiàn)出人臉圖像中的非線性因素,該方法的識別度和可靠性較低。
2)基于代數(shù)特征[3]的方法。通過主成分分析(Principal Component Analysis,PCA)[4]、線性判別分析(Linear Discriminant Analysis,LDA)[5]等方法獲取特征,對圖片的灰度特征作代數(shù)變化處理,或者通過分解人臉圖像構(gòu)成的矩陣來實(shí)現(xiàn)。采用降維策略,線性結(jié)構(gòu)時具有強(qiáng)大的功效,但面對非線性結(jié)構(gòu)時,識別效果降低。
3)基于模型的方法。將人臉圖像與數(shù)據(jù)庫中所有的模板記錄進(jìn)行對比,選取最相似的模板作為待處理圖像的分類。但數(shù)據(jù)庫中圖片數(shù)量是有限的,而且對背景、表情、光線、角度等條件很敏銳。這種理想狀態(tài)的方法不適用于現(xiàn)實(shí)場景。
4)基于局部保值映射(Locality Preserving Projection,LPP)的方法。為克服非線性方法中存在的缺點(diǎn),浙江大學(xué)何曉飛教授提出了LPP。降低空間維度的同時,能準(zhǔn)確得到圖像的局部特征結(jié)構(gòu),但不能提取圖像的原有特征結(jié)構(gòu)[6]。
5)基于神經(jīng)網(wǎng)絡(luò)[7]的方法。包括卷積神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,采用降維方式,從原圖中自動學(xué)習(xí)特征,但面對巨大的網(wǎng)絡(luò)參數(shù)時,訓(xùn)練時間加長導(dǎo)致效率降低,或者產(chǎn)生過度擬合,使得測試準(zhǔn)確性下降。因此,不適合現(xiàn)實(shí)應(yīng)用。
6)基于稀疏表示[8~9]的方法。人臉識別中采用稀疏信號表示來處理問題,使得特征選擇變得簡單。但是,如何正確地計(jì)算稀疏表示是關(guān)鍵,而且該方法不能進(jìn)行主動學(xué)習(xí),必須要人工設(shè)置[6]。
由于非線性因素的影響,加上人臉識別自身的復(fù)雜性,訓(xùn)練大規(guī)模的人臉數(shù)據(jù)集、算法和計(jì)算性能等的制約,傳統(tǒng)人臉識別方法存在的這些缺陷,極大降低了人臉識別的精度,間接導(dǎo)致很多研究者放棄使用這些方法。
深度學(xué)習(xí)也稱為深度神經(jīng)網(wǎng)絡(luò),其概念來自多倫多大學(xué)的Geoffrey Hinton等于2006年在《Science》上發(fā)表的一篇文章[10],通過神經(jīng)網(wǎng)絡(luò)模擬人腦的學(xué)習(xí)過程,采用無監(jiān)督預(yù)訓(xùn)練方法,借鑒人腦的多層抽象思維對文本、語音、圖像等數(shù)據(jù)或?qū)嶋H對象完成抽象表述,將特征提取器和分類器整合到一個學(xué)習(xí)架構(gòu)中[11],進(jìn)行特征提取時要避免過多的人為干預(yù)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中對數(shù)據(jù)進(jìn)行自動學(xué)習(xí)的一種方法,“深度”表現(xiàn)在能對特征進(jìn)行多次變換,深度的出現(xiàn)和快速發(fā)展,使得人們在很多研究和應(yīng)用中能夠從樣本中無監(jiān)督地學(xué)習(xí)到更能體現(xiàn)數(shù)據(jù)的本來特征[12]。輸入原始數(shù)據(jù)到模型中,再對模型進(jìn)行學(xué)習(xí),得到適合分類的、具有表達(dá)性和推廣性的特征表示[12]。常用的深度學(xué)習(xí)模型為多層神經(jīng)網(wǎng)絡(luò),能逐層地對復(fù)雜數(shù)據(jù)進(jìn)行特征提取,其功能非常強(qiáng)大。
深度學(xué)習(xí)網(wǎng)絡(luò)的高層語義特征表現(xiàn)很突出,遇到缺少標(biāo)記數(shù)據(jù)或大數(shù)據(jù)集等不易解決的問題時,能自動調(diào)整非監(jiān)督數(shù)據(jù)來提高性能。深度學(xué)習(xí)算法已被大量應(yīng)用在模式識別、圖像分類、計(jì)算機(jī)視覺、人臉識別等領(lǐng)域并獲取了極好的效果。
深度學(xué)習(xí)炙手可熱主要包括三個原因:1)創(chuàng)新的算法;2)高計(jì)算機(jī)處理能力;3)能夠訓(xùn)練大規(guī)模的數(shù)據(jù)集。
深度學(xué)習(xí)通過模擬人類大腦神經(jīng)系統(tǒng)來處理消息,能較好地解決人臉識別中存在的復(fù)雜問題。在深度學(xué)習(xí)模型下,對大數(shù)據(jù)分析借助圖形處理器構(gòu)成的運(yùn)算系統(tǒng)實(shí)現(xiàn),能夠直接從原圖中學(xué)習(xí)具有判斷性的人臉特征。在海量人臉數(shù)據(jù)時代,基于深度學(xué)習(xí)的人臉識別無論在速度還是準(zhǔn)確性方面都已經(jīng)取得了最好的效果[1],對深度學(xué)習(xí)的理論研究和人臉識別的實(shí)際應(yīng)用具有極其重要的意義。
目前已有多種深度學(xué)習(xí)模型,最重要的兩種方法是深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),下面主要介紹這兩種模型在人臉識別上的研究與應(yīng)用。
DBN是第一個被提出的深度學(xué)習(xí)模型,它由基本結(jié)構(gòu)單元——受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)組成。RBM是深度學(xué)習(xí)中一塊非常重要的奠基石,能夠很好地擬合數(shù)據(jù),通常用作非線性分類器。RBM在降維、分類、建模和特征學(xué)習(xí)等領(lǐng)域應(yīng)用廣泛。
相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)的一個重要優(yōu)勢是,很大程度上解決了低層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和精度問題。多層模型進(jìn)行全局學(xué)習(xí)前,DBN會將神經(jīng)網(wǎng)絡(luò)分解為多個RBM的層疊,再對其進(jìn)行逐層訓(xùn)練[13]。DBN為了準(zhǔn)確描述特征結(jié)構(gòu),能自下而上學(xué)習(xí)各層的抽象特征,與代數(shù)特征方法不同,其特征提取不用人工來選擇,完全采用自動學(xué)習(xí)來完成。文獻(xiàn)[13]解決了深度學(xué)習(xí)在人臉識別姿態(tài)和分辨率上存在的問題。使用DBN在姿態(tài)映射和姿態(tài)分類處理中的應(yīng)用,實(shí)驗(yàn)結(jié)果表明,基于DBN的姿態(tài)映射可以學(xué)習(xí)到側(cè)面人臉圖像到正面人臉圖像的一個全局映射;基于DBN的姿態(tài)分類可以達(dá)到良好的性能。
DBN的一個缺陷是直接采用人臉圖像的像素作為學(xué)習(xí)的輸入,往往忽略了人像的局部特征,在姿態(tài)、光線、噪聲等因素的影響下,輸出的特征表達(dá)可能會對結(jié)果不利[14]。為了解決這個問題,文獻(xiàn)[15]通過提取Gabor特征當(dāng)作DBN的輸入來進(jìn)行人臉識別,識別率高達(dá)92.7%。文獻(xiàn)[16]也提出一種基于Gabor小波與DBN相結(jié)合的人臉識別方法,有效提取人像的抽象特征,且很好地降低了姿態(tài)、光線等對識別率的影響,實(shí)現(xiàn)了對人像的準(zhǔn)確識別。
CNN源自多層前向網(wǎng)絡(luò),通過多次卷積、激函數(shù)、池化等運(yùn)算過程自動學(xué)習(xí)特征,是第一個真正訓(xùn)練成功的多層網(wǎng)絡(luò)結(jié)構(gòu),數(shù)據(jù)越復(fù)雜,網(wǎng)絡(luò)結(jié)構(gòu)也越深。CNN類似于生物神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)具有局部權(quán)值共享網(wǎng)絡(luò)的特殊性,能降低網(wǎng)絡(luò)模型的復(fù)雜度,減少權(quán)值的數(shù)量[16]。CNN具有特征提取、局部感知區(qū)域、結(jié)構(gòu)層次化、共享卷積核、對高維數(shù)據(jù)處理無壓力等特點(diǎn),而且,CNN訓(xùn)練時所需參數(shù)數(shù)量比其他神經(jīng)網(wǎng)絡(luò)要少,增強(qiáng)了CNN的實(shí)用性。
CNN不用對復(fù)雜圖像進(jìn)行預(yù)處理,直接將圖像的像素作為網(wǎng)絡(luò)的輸入,降低了傳統(tǒng)人臉識別方法中提取特征和分類過程中重建數(shù)據(jù)的復(fù)雜度,多維圖像作為輸入時其表現(xiàn)更為明顯,使得CNN在圖像識別等分類學(xué)科領(lǐng)域獲得廣泛的應(yīng)用。
采用CNN模型,文獻(xiàn)[17]在LFW數(shù)據(jù)庫上的人臉識別準(zhǔn)確率高達(dá)97.45%,只比文獻(xiàn)[18]中的人類視覺識別率97.5%略低。通過改進(jìn),學(xué)習(xí)非線性特征變換減小類內(nèi)變化,并使得不同身份的人像間距保持不變,其在LFW數(shù)據(jù)庫上的識別率提高到99.15%[19],超越了目前研究者們在LFW數(shù)據(jù)庫以及所有領(lǐng)先的人臉識別算法的識別率[1]。
本文對基于深度學(xué)習(xí)理論的人臉識別技術(shù)進(jìn)行了綜述,傳統(tǒng)人臉識別技術(shù)存在一些問題,將基于深度學(xué)習(xí)的技術(shù)引入到人臉識別中,詳細(xì)討論了當(dāng)前應(yīng)用最多的兩種模型DBN和CNN。從國內(nèi)外研究現(xiàn)狀來看,基于DBN和CNN的人臉識別技術(shù)已被廣泛運(yùn)用,并取得良好的效果。但是,二者也存在相同的問題,很難徹底解決小樣本情況下識別率普遍偏低的問題,所以,DBN和CNN更適合大數(shù)據(jù)集。
相對其他機(jī)器學(xué)習(xí)的人臉識別方法,深度學(xué)習(xí)的優(yōu)勢在于自動提取特征且能力非常強(qiáng)大,能處理各類復(fù)雜的數(shù)據(jù),能構(gòu)造各種精確的模型等。深度學(xué)習(xí)也存在一些缺點(diǎn),例如:計(jì)算復(fù)雜度高,訓(xùn)練時間比較長;模型參數(shù)過多,進(jìn)行優(yōu)化時需要不斷迭代;不確定是否能得到全局最優(yōu)解等。當(dāng)然,深度學(xué)習(xí)和人臉識別技術(shù)都在不斷發(fā)展和繼續(xù)研究中,基于深度學(xué)習(xí)的人臉識別算法的準(zhǔn)確率也不斷被提升。未來,安防人臉檢測和識別、公共場所實(shí)時監(jiān)控等領(lǐng)域?qū)θ四樧R別的精確性要求更高,后續(xù)的研究將是在復(fù)雜度更高,包括人臉在光照、姿態(tài)、表情、遮擋及脈沖類噪聲干擾等情況下改進(jìn)算法、提高人臉圖像的識別率,進(jìn)一步提高人臉識別效率;為適應(yīng)大數(shù)據(jù)時代的發(fā)展,進(jìn)一步豐富數(shù)據(jù)庫資源,這項(xiàng)工作將具有很大的挑戰(zhàn)性;基于深度學(xué)習(xí)理論的人臉識別還要跟其他方法相結(jié)合,更好更快推動人工智能的發(fā)展。