朱天才,周曉波
(西京學院計算機學院,西安 710123)
人臉識別技術(shù)是指通過計算機程序?qū)θ四槇D像進行處理和分析,從而實現(xiàn)對人臉身份信息的識別和驗證[1]。人臉識別技術(shù)的發(fā)展歷程可以追溯到上世紀70 年代,當時人們已經(jīng)開始探索如何利用計算機技術(shù)完成圖像識別。在過去的幾十年中,隨著計算機技術(shù)和人工智能技術(shù)的不斷發(fā)展,人臉識別技術(shù)也在不斷地改進和完善。
人臉識別技術(shù)的發(fā)展可以分為三個階段。第一個階段是基于幾何特征的傳統(tǒng)方法,該方法主要是基于幾何測量和特征提取的原理,通過對人臉圖像進行特征計算和比對,實現(xiàn)對人臉身份信息的識別。第二個階段是人機交互式識別階段,主要用幾何特征來表達人臉正面圖像的特征,但此階段仍然需要操作人員的經(jīng)驗知識,仍以能達到完全自動化的識別目標為目的[2]。第三個階段是基于深度學習的方法,該方法利用深度神經(jīng)網(wǎng)絡進行特征提取和分類,通過學習更加抽象和高層次的特征信息,實現(xiàn)對人臉身份信息的準確識別。
人臉識別技術(shù)具有高準確率、快速識別、無接觸等優(yōu)勢,已經(jīng)廣泛應用于各個領(lǐng)域。在公共安全領(lǐng)域,人臉識別技術(shù)可以實現(xiàn)門禁安檢控制、視頻瀏覽安全監(jiān)控等功能[3]。在金融領(lǐng)域中,人臉識別技術(shù)可以用于身份驗證、交易確認等。在醫(yī)療領(lǐng)域中,人臉識別技術(shù)可以實現(xiàn)患者身份確認、醫(yī)療記錄管理等功能。此外,在智能家居、教育等領(lǐng)域中也有人臉識別技術(shù)的應用。
深度學習是機器學習的一個分支,它試圖使用包含復雜結(jié)構(gòu)或者通過多重非線性變換構(gòu)成的多個處理層對數(shù)據(jù)進行深層抽象的算法。基于深度學習的人臉識別方法是以端到端的方式學習提取特征的能力,并使用提取到的特征進行分類,在損失函數(shù)的指導下利用一些優(yōu)化方法,如梯度下降、自適應學習率算法優(yōu)化神經(jīng)網(wǎng)絡中的參數(shù)[4],最終實現(xiàn)對圖像的識別。
傳統(tǒng)人臉識別方法面臨著許多困難和挑戰(zhàn),其中之一是角度變化的影響。由于角度變化會導致人臉圖像的形態(tài)、紋理等發(fā)生變化,因此傳統(tǒng)方法往往難以準確地識別人臉。特別是在現(xiàn)實生活中,人們所處的環(huán)境和角度多種多樣,傳統(tǒng)方法很難滿足對于多種角度的識別要求。傳統(tǒng)人臉識別方法基本上都是采用基于特征點的方法進行識別,因此會受到人臉角度變化的影響,導致識別準確率下降。例如,在人臉旋轉(zhuǎn)的情況下,特征點的位置會發(fā)生變化,因此無法準確匹配,識別精度會受到嚴重的影響。在如今這個時代,隨著深度學習的發(fā)展和廣泛應用,人臉識別研究有了極大的突破,其自身適應性、精確性、魯棒性和智能度都得到很大提升[5]。
光照、表情、年齡等因素是傳統(tǒng)人臉識別方法所存在的主要局限性[6]。光照因素會引起人臉圖像亮度和對比度的變化,甚至能夠使人臉的形狀發(fā)生變化。表情因素也會導致人臉圖像的變化,使得人臉的特征提取難以實現(xiàn)。年齡因素同樣存在,導致人臉圖像的細節(jié)和特征隨著時間的推移而逐漸發(fā)生變化,已有的特征信息也會逐漸丟失。
近年來由于深度學習技術(shù)被引入到了人臉識別領(lǐng)域,傳統(tǒng)方法中的這些問題得到了解決。通過訓練大量的人臉圖像數(shù)據(jù),深度學習網(wǎng)絡可以自動從中提取光照、表情、年齡等影響因素下不變的人臉特征,從而提高人臉識別的準確率。同時,深度學習技術(shù)還可以應對大規(guī)模人臉識別系統(tǒng)中可能存在的復雜情況,使得識別系統(tǒng)更加健壯和可靠。
卷積神經(jīng)網(wǎng)絡[7](CNN)是一種十分有效的深度學習網(wǎng)絡模型,在人臉識別技術(shù)中得到廣泛應用。CNN 是一種具有局部連接、權(quán)重共享等特性的深層前饋神經(jīng)網(wǎng)絡[8],基本結(jié)構(gòu)就是輸入層、卷積層(conv)、子采樣層(pooling)、全連接層、輸出層,如圖1 所示。CNN 的主要思想是通過將輸入的圖像進行多次卷積操作和池化操作,得到對圖像特征的提取。通過不斷疊加多個層,最終得到分類器輸出與輸入之間的映射關(guān)系。
圖1 CNN基本結(jié)構(gòu)
CNN 在人臉識別技術(shù)中的應用主要包括兩個方面:特征提取和人臉分類。在特征提取方面,CNN將人臉圖像轉(zhuǎn)化為特征圖(feature map),并在該特征圖上進行卷積和池化操作,從而獲取高度特征化的圖像表示。
通過CNN模型,文獻[9]使用標準人臉數(shù)據(jù)集CASIA-WebFace 進行訓練,在LTW 數(shù)據(jù)庫上的人臉識別準確率可達97.8 %。文獻[10]使用標準的AT&T數(shù)據(jù)集,通過參數(shù)調(diào)優(yōu)的方法使準確率最大達到了98.75%。通過以上結(jié)論得出CNN 模型在人臉識別的應用上效果非常突出,在未來也將得到更深、更廣泛的應用。
深度信念網(wǎng)絡(DBN)[11]是一種用于特征提取的無監(jiān)督深度生成模型。它由多層構(gòu)成,每層均為二元變量的隨機變量。DBN 在特征提取上具有一定優(yōu)勢,它可以通過在上下層之間使用反向傳播算法進行訓練,從而學習到不同層次的特征表示。通過使用DBN,提取到的特征可以具有更加高層次的抽象性,這對于人臉識別這種復雜的任務尤為重要。
相比傳統(tǒng)神經(jīng)網(wǎng)絡,深度學習的一個重要優(yōu)勢是,很大程度上解決了低層神經(jīng)網(wǎng)絡的訓練速度和精度問題。如圖2所示,多層模型進行全局學習前DBN 會將神經(jīng)網(wǎng)絡分解為多個受限玻爾茲曼機(RBM)的層疊,再對其進行逐層訓練[12]。DBN 為了準確描述特征結(jié)構(gòu),能自下而上學習各層的抽象特征,與代數(shù)特征方法不同,其特征提取不用人工來選擇,完全采用自動學習來完成。林妙真[12]證明出了深度學習在人臉識別姿態(tài)和分辨率上存在的問題,并且實驗結(jié)果表明,基于DBN 的姿態(tài)映射可以學習到側(cè)面人臉圖像到正面人臉圖像的一個全局映射;基于DBN的姿態(tài)分類可以達到良好的性能。
圖2 DBN模型結(jié)構(gòu)
DBN 的一個缺陷是直接采用人臉圖像的像素作為學習的輸入,往往忽略了人像的局部特征,在姿態(tài)、光線、噪聲等因素的影響下,輸出的特征表達可能會對結(jié)果不利[13]。為了解決這個問題,文獻[14]通過提取Gabor 特征當作DBN 的輸入來進行人臉識別,識別率高達92.7%。趙遠東[15]也提出一種基于Gabor 小波與DBN 相結(jié)合的人臉識別方法,有效提取人像的抽象特征,且很好地降低了姿態(tài)、光線等對識別率的影響,實現(xiàn)了對人像的準確識別。
局部LBP 和深度學習相結(jié)合是一種新興的人臉識別技術(shù)。LBP 是Ojala 等人發(fā)現(xiàn)的并且能夠描述局部紋理的算法[16],但其在角度轉(zhuǎn)變、光照轉(zhuǎn)變等方面體現(xiàn)較差。深度學習是近年來備受研究者關(guān)注的技術(shù),其能夠快速有效地提取人臉圖像中的特征,具有較好的泛化能力。將LBP 特征和深度學習相結(jié)合,可以提高人臉識別的準確率和魯棒性。
2016 年吳進等[17]采用了一種將多尺度LBP算法加DBN 算法相結(jié)合的方法,通過LBP 算法提取人臉紋理特征,進而將LBP 提取的紋理特征作為深度信念網(wǎng)絡的輸入,然后通過多層網(wǎng)絡層進行訓練,得到最優(yōu)的訓練參數(shù)。經(jīng)過最終的測試得到了92.5%的正確率,比Gabor 小波和主成分分析算法的識別率還要高出2.6個百分點。
2017 年王大偉等[18]通過LBP 與卷積神經(jīng)網(wǎng)絡相結(jié)合的方法,首先提取人臉圖片的LBP 特征圖像,然后把LBP 圖像與原RGB 圖像結(jié)合作為網(wǎng)絡輸入數(shù)據(jù),并且使用隨機梯度下降法訓練網(wǎng)絡參數(shù),最后用訓練得到的網(wǎng)絡模型對人臉圖片進行識別。在LFW(labeled face in the wild)人臉識別數(shù)據(jù)庫上的實驗表明,在卷積神經(jīng)網(wǎng)絡中加入LBP 圖像信息可以提高人臉識別的準確率。另外,當增加訓練數(shù)據(jù)時,提出的方法得到的識別率會進一步提高,更說明提出方法的有效性。
2018 年李騰等[19]為了克服傳統(tǒng)人臉識別算法特征表征能力差,且對光線變化和噪聲干擾敏感等問題,通過LBP 提取人臉圖像的紋理特征,然后將得到的紋理特征作為卷積網(wǎng)絡的輸入,在卷積網(wǎng)絡中提取各池化層處理后得到的特征,利用提取的特征并在全連接層進行級聯(lián)融合,得到最終的分類特征,最后利用Softmax分類器分類識別。實驗中,將人臉庫旋轉(zhuǎn)不同的角度來擴充數(shù)據(jù)庫和驗證算法的魯棒性,分別在ORL、YALE、AR 3個數(shù)據(jù)庫進行實驗,最后正確識別率分別達到了98.6%、95.6%和98.9%,高于經(jīng)典識別算法,魯棒性也優(yōu)于對比算法。
2020 年滿忠昂等[20]提出一種將人臉圖像進行分塊,局部運用LBP 算子然后與深度置信網(wǎng)絡結(jié)合的人臉識別算法(BPBN)。首先,將人臉圖像進行分塊,對分塊后的圖像提取LBP 進行統(tǒng)計,將生成的LBP 直方圖按照一定秩序組合連接成新的特征向量。其次,將得到的LBP 特征作為DBN 的輸入,采用貪婪算法逐層進行訓練,然后用反向傳播(BP)算法對訓練得到的深度置信網(wǎng)絡進行優(yōu)化。最后,用訓練好的深度置信網(wǎng)絡對人臉進行識別。在ORL 人臉數(shù)據(jù)庫上進行實驗,識別率達到96.0%,然后與傳統(tǒng)的主成分分析(PCA)算法集成支持向量機(SVM)的方法進行比較,識別率有較為顯著的提升。
簡言之,在LBP 特征的基礎(chǔ)上,利用卷積神經(jīng)網(wǎng)絡、深度信念網(wǎng)絡等深度學習模型進行特征融合和分類,能夠有效地提高人臉圖像的特征表現(xiàn)力和分類精度,同時極大地克服傳統(tǒng)人臉識別方法的不足。
對于人臉圖像,常常會存在不同的顏色和紋理區(qū)域。因此,我們采用了基于顏色和紋理的特征提取方法[21],以獲取更準確的人臉識別結(jié)果。具體而言,首先對圖像進行顏色量化,將每個像素點的顏色值轉(zhuǎn)換為離散的顏色,以減少計算量。隨后,提取了人臉圖像的紋理特征,包括紋理方向、梯度和直方圖等內(nèi)容。通過這些特征的提取,可以有效地區(qū)分人臉圖像的不同區(qū)域,從而提高人臉識別的準確率。
基于顏色和紋理的特征提取方法是一種相對簡單卻有效的人臉識別技術(shù)。它可以幫助我們從圖像中提取出更具代表性的特征,提高人臉識別的準確性。
在人臉識別技術(shù)中,特征提取是非常重要的步驟之一。當今時代,基于深度學習的特征提取方法已經(jīng)普遍流行。其中,多尺度特征提取方法可以有效提高人臉識別的準確性。
多尺度特征提取方法通過對輸入圖像進行不同比例的卷積和池化操作,來提取出多層次的圖像特征。這些特征反映了不同細節(jié)層次的信息,可以有效地改善人臉圖像中存在的尺度變化問題。
一種常見的多尺度特征提取方法是特征金字塔結(jié)構(gòu)[22]。該結(jié)構(gòu)包括多個不同比例的圖像,對每個圖像進行特征提取,再將不同尺度的特征融合起來。這種方法可以豐富特征表示的多樣性,從而提高準確率。
此外,深度神經(jīng)網(wǎng)絡也可以實現(xiàn)多尺度特征提取。例如,在卷積神經(jīng)網(wǎng)絡中,可以使用多個不同大小的卷積核對輸入圖像進行卷積操作,得到不同尺度的卷積特征圖[23]。然后,再對這些特征圖進行匯聚和激活函數(shù)處理,得到更高層次的特征。這種方法可以更加精細地提取圖像的細節(jié)信息,使得特征更具有區(qū)分性。
通過以上綜述,傳統(tǒng)人臉識別的方法存在一些缺陷,在人臉識別中引入深度學習的技術(shù),主要討論了當前最流行的深度模型DBN、CNN和LBP 與深度學習相結(jié)合等三種模型。與此同時也討論了特征提取的一些技術(shù)。從國內(nèi)外研究現(xiàn)狀來看,基于DBN 和CNN 的人臉識別技術(shù)的應用已趨于成熟,并取得良好的效果。但是,在數(shù)據(jù)比較少的情況下這兩種模型識別率普遍偏低的問題很難徹底解決,但是第三種模型在數(shù)據(jù)集比較小的情況下也獲得比較好的效果。
基于深度學習的人臉識別技術(shù)已成為計算機視覺領(lǐng)域最熱門的研究方向之一,得到了廣泛的應用。隨著人們對人臉識別技術(shù)的需求不斷增加,相關(guān)研究也在不斷推進。本文綜述的基于深度學習的多角度人臉識別方法,克服了傳統(tǒng)的人臉識別方法容易受到角度變化的影響的問題。與此同時,深度學習技術(shù)的引入也提高了人臉識別的準確率。在未來,多模態(tài)融合有望成為人臉識別技術(shù)的發(fā)展方向。多模態(tài)融合是指將來自不同傳感器或不同模態(tài)的信息進行融合,以提高識別的準確性和魯棒性。例如,可以將人臉圖像、人臉紋理、聲音、姿態(tài)等多個信息融合在一起,對人臉進行更全面、準確的識別。在此基礎(chǔ)上,我們可以開發(fā)出更加智能化、更加細致化的人臉識別應用,為各個領(lǐng)域提供更加可靠的身份識別解決方案。