陳文云
百色學(xué)院信息工程學(xué)院 廣西 百色 533000
人臉識(shí)別技術(shù)是指利用計(jì)算手段,使計(jì)算機(jī)具有像人一樣能通過人臉圖像辨識(shí)人的能力。人臉識(shí)別技術(shù)是屬于計(jì)算機(jī)視覺范疇,但其實(shí)現(xiàn)核心技術(shù)不限于計(jì)算機(jī)視覺技術(shù),是多學(xué)科交叉融合技術(shù),主要運(yùn)用包括模式識(shí)別、圖像處理、計(jì)算機(jī)圖形學(xué)、神經(jīng)網(wǎng)絡(luò)以及心理學(xué)等科學(xué)知識(shí)和技術(shù)[1]。
人臉識(shí)別技術(shù)最初溯源于20世紀(jì)50年代的心理學(xué)研究工作中的表情、情緒和手勢(shì)的研究[2]。布萊索于20世紀(jì)60年代首次在美國(guó)國(guó)防部的資助下運(yùn)用計(jì)算機(jī)進(jìn)行人臉識(shí)別工作[3],并提出了一些業(yè)界幾十年來(lái)一直難以攻克的一些難題,如光照影響、頭部轉(zhuǎn)動(dòng)角度、臉部表情以及年齡對(duì)人臉識(shí)別的影響等。這一時(shí)期人臉識(shí)別主要是通過檢測(cè)和測(cè)量人臉特有的一些面部特征,如耳朵大小、眉毛形狀、眼睛大小、眼間距、鼻子長(zhǎng)度等,通過模式分類技術(shù)來(lái)識(shí)別人臉[4]。20世紀(jì)70年代科研工作者開始運(yùn)用幾何參數(shù)來(lái)描述人臉,然后運(yùn)用模式識(shí)別技術(shù)來(lái)識(shí)別人臉,1973年基于該技術(shù)的特征自動(dòng)提取并識(shí)別的人臉識(shí)別系統(tǒng)Kenade面世[5]。20世紀(jì)80年代許多新技術(shù)運(yùn)用于人臉識(shí)別,如模式匹配算法為適應(yīng)表情變化產(chǎn)生了可變模式匹配算法[6];BP算法出現(xiàn)推動(dòng)神經(jīng)網(wǎng)絡(luò)技術(shù)重新煥發(fā)生機(jī),并運(yùn)用于人臉識(shí)別[7];運(yùn)用主元分析(PCA)機(jī)器學(xué)習(xí)算法來(lái)識(shí)別人臉,從而通過降低人臉數(shù)據(jù)的維度產(chǎn)生特征臉,一定程度上降低計(jì)算復(fù)雜度[8]。20世紀(jì)90年代特征臉技術(shù)得到廣泛運(yùn)用,并基于該技術(shù)產(chǎn)生第一個(gè)人臉識(shí)別工業(yè)應(yīng)用[9],同時(shí)派生出獨(dú)立成分分析(ICA)、線性判別分析(LDA)等相關(guān)人臉識(shí)別技術(shù)。
人臉識(shí)別系統(tǒng)通常是以圖片或視頻作為輸入,輸出為在輸入中出現(xiàn)的一個(gè)或多個(gè)人的名字。該系統(tǒng)通常由3部分組成:人臉檢測(cè)、特征提取以及人臉識(shí)別,如圖1所示。人臉檢測(cè)負(fù)責(zé)查看輸入圖片或視頻中是否有人臉,以及每一個(gè)人臉的位置區(qū)域,人臉檢測(cè)的本質(zhì)就是二分類問題;特征提取模塊負(fù)責(zé)從檢測(cè)到的人臉區(qū)域提取人臉識(shí)別模塊所需的各種特征信息,不同識(shí)別算法所需要的特征信息各不相同;最終由人臉識(shí)別模塊完成人臉識(shí)別任務(wù),其本質(zhì)是多分類問題。
圖1 人臉識(shí)別系統(tǒng)
組成人臉識(shí)別系統(tǒng)的各部分之間沒有嚴(yán)格的界限,由于識(shí)別算法、實(shí)現(xiàn)方法的不同或應(yīng)用場(chǎng)景的不同,各部分可能會(huì)同時(shí)并行進(jìn)行,也可能級(jí)聯(lián)處理。
人臉檢測(cè)是在圖中檢測(cè)人臉存在與否,并確定其具體位置區(qū)域,可看作為簡(jiǎn)化版人臉識(shí)別,即兩分類人臉識(shí)別,故與識(shí)別算法具有某種相似性,常應(yīng)用于目標(biāo)定位與跟蹤。如果輸入圖片只包含一個(gè)標(biāo)準(zhǔn)化的人臉,如公安、安檢以及刷臉支付等受控環(huán)境的人臉檢索、識(shí)別系統(tǒng),人臉檢測(cè)環(huán)節(jié)就可以省略,直接可進(jìn)行特征提取或人臉識(shí)別。理想情況下,用于人臉檢測(cè)的照片是其正面照片。現(xiàn)實(shí)應(yīng)用大多是在不受控環(huán)境進(jìn)行的,很多因素都會(huì)影響人臉檢測(cè)的性能和準(zhǔn)確性,進(jìn)而影響人臉識(shí)別,其中包括:由于物體移動(dòng)或拍攝角度的影響,導(dǎo)致人臉特征在拍攝的照片中體現(xiàn)不完整;人臉特征之間的遮擋,如戴眼鏡、留胡須、戴帽子等;面部表情會(huì)導(dǎo)致人臉特征的變化;不同的照片拍攝環(huán)境以及拍攝工具都會(huì)導(dǎo)致圖像的差異。
人臉檢測(cè)算法大致由以下部分組成:預(yù)處理,包括數(shù)據(jù)降維、人臉特征抽取等,人臉判斷以及位置檢測(cè),有時(shí)也包括人臉跟蹤,如圖2所示。
圖2 人臉檢測(cè)算法
人臉檢測(cè)算法種類繁多,分類方法也多種多樣。根據(jù)應(yīng)用場(chǎng)景的不同,可分為:受控環(huán)境下的邊界檢測(cè)算法[10],彩色照片可用膚色模型[11],視頻中的運(yùn)動(dòng)檢測(cè)(眨眼、張嘴等)模型[12];根據(jù)檢測(cè)算法的不同,可將人臉識(shí)別分為:基于知識(shí)的算法、基于不變特征算法、模板匹配算法和基于模型的算法。
特征提取是指通過高效的手段找出人臉圖片中有助于辨別出其身份的有用信息的過程,通常包含降維、抽取特征以及特征選擇子過程。特征提取有助于避免維數(shù)災(zāi)難,提高人臉識(shí)別的效率和對(duì)內(nèi)存的依賴。
特征提取算法很多,主要包括主元分析(PCA)、線性判別分析(LDA)、獨(dú)立成分分析(ICA)、神經(jīng)網(wǎng)絡(luò)分析、ASM、AAM、小波變換、離散余弦變換等。
特征選擇是在抽取的特征中選擇一個(gè)能使分類誤差最小的特征子集。特征選擇算法有很多,如窮舉法ES、分支定界法BB、順序前進(jìn)選擇法SFS、順序后退選擇法SBS等。尋找最小誤差子集的過程是一個(gè)NP難問題,故業(yè)界通常尋找一個(gè)在特征維度和計(jì)算復(fù)雜度約束下可接受的算法,而非最優(yōu)算法。
人臉識(shí)別算法大致可以分為3類:基于規(guī)則算法、基于模型算法和基于機(jī)器學(xué)習(xí)算法。無(wú)論是哪一種算法,都是通過在一個(gè)或多個(gè)分類器來(lái)實(shí)現(xiàn)對(duì)人臉的分類,單個(gè)分類器的分類標(biāo)準(zhǔn)多種多樣,大致可以基于相似度、概率和決策邊界等幾種,復(fù)雜任務(wù)有時(shí)需要通過多個(gè)好而不同的分類器進(jìn)行集成完成。
正如前面所講,人臉識(shí)別由人臉檢測(cè)、特征提取和人臉分類模塊組成。它們之間沒有嚴(yán)格界限,可能相互交叉,這主要取決于其所在的人臉識(shí)別算法和實(shí)現(xiàn)方法。
人臉識(shí)別算法的分類,根據(jù)不同的分類標(biāo)準(zhǔn)而不同。根據(jù)用于分類的信息本身不同可分為幾何參數(shù)法和統(tǒng)計(jì)參數(shù)法[13];根據(jù)用于識(shí)別的信息量多少可分為局部判別法和整體判別法;根據(jù)表示臉的方法不同分為外觀法和模型法。當(dāng)下最為流行的人臉識(shí)別算法主要分為3類:模板匹配法、統(tǒng)計(jì)法和神經(jīng)網(wǎng)絡(luò)法。
模板匹配法在人臉識(shí)別算法中得到廣泛運(yùn)用,它使用像素點(diǎn)、樣本、紋理或模型為模式,匹配算法計(jì)算測(cè)試樣例的對(duì)應(yīng)特征與模式之間的差別來(lái)找到最佳匹配,從而完成識(shí)別任務(wù)。在模式匹配過程中的差別可以是特征之間的相關(guān)性,也可以是特征之間歐氏距離。
模式匹配可以基于二維圖片,也可以基于三維實(shí)體。二維圖片是目前人臉識(shí)別的主要方法,但是它對(duì)圖片的拍攝角度和光照很敏感,目前較為有效的方法是利用彈性約束圖算法得以緩解。三維模式匹配是通過形狀和紋理在匹配樣本與模式之間進(jìn)行匹配,形狀、紋理信息與樣本的姿勢(shì)和光照無(wú)關(guān),因而可以很好地規(guī)避該弱點(diǎn),但三維模式匹配的主要缺點(diǎn)是三維信息需要在控制條件下進(jìn)行三維掃描獲得,成為其廣泛應(yīng)用的主要障礙。
基于模式匹配的典型人臉識(shí)別算法是主動(dòng)外觀模型(AAM)。該模型是一種有監(jiān)督的學(xué)習(xí)算法,它是通過對(duì)人臉的特征形狀和紋理先進(jìn)行PCA主元成分分析,提取其主分量作為形狀和紋理特征,然后對(duì)形狀和紋理在主分量上進(jìn)行正交分解,從而得到人臉的外觀模型;在訓(xùn)練階段通過學(xué)習(xí)每個(gè)人的多張圖片的形狀點(diǎn)和紋理信息,最終得到其形狀和紋理特征;人臉分割和匹配階段,就是在測(cè)試圖片中尋找給定模型的形狀和紋理特征,并加以分割。該算法能夠較好地將人臉形狀和紋理信息進(jìn)行組合形成新的特征,具有不錯(cuò)的人臉分割和識(shí)別效果。
人臉圖像可以看作由各像素點(diǎn)的亮度值構(gòu)成的高維數(shù)據(jù),如果直接利用原始像素進(jìn)行計(jì)算,不僅增加數(shù)據(jù)存儲(chǔ)空間,增加建模、運(yùn)算復(fù)雜度,而且浪費(fèi)大量計(jì)算資源。
統(tǒng)計(jì)法將高維圖像中的人臉看成低維空間的流形,通過使用適當(dāng)?shù)慕y(tǒng)計(jì)工具來(lái)提取和分析圖像中蘊(yùn)含的人臉流形。首先需要在原始圖像空間定義嵌入人臉流形低維空間,再將不同人臉映射到嵌入人臉空間中可分的不同區(qū)域,最后通過已知的人臉識(shí)別算法在低維空間對(duì)人臉進(jìn)行識(shí)別。
構(gòu)造嵌入人臉空間的方法很多,常見方法有主成分析(PCA)[13]、離散余弦變換(DCT)[14]、線性判別分析(LDA)[15]、局部保留投影(LPP)[16]、Gabor小波[17]、獨(dú)立成分分析(ICA)等。
隨著BP算法的發(fā)明,神經(jīng)網(wǎng)絡(luò)技術(shù)開始復(fù)蘇并在圖像處理和識(shí)別中顯示強(qiáng)大的威力,人臉識(shí)別中運(yùn)用神經(jīng)網(wǎng)絡(luò)也逐漸流行并取得良好效果[18]。神經(jīng)網(wǎng)絡(luò)技術(shù)不僅在監(jiān)督學(xué)習(xí)中對(duì)有標(biāo)簽人臉數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),也可以運(yùn)用無(wú)監(jiān)督學(xué)習(xí)技術(shù)對(duì)人臉進(jìn)行特征提取,利用監(jiān)督學(xué)習(xí)技術(shù)對(duì)人臉特征進(jìn)行選擇以降低分類誤差[19]。卷積神經(jīng)網(wǎng)絡(luò)是典型基于監(jiān)督學(xué)習(xí)的圖像識(shí)別算法,編解碼器神經(jīng)網(wǎng)絡(luò)是常用的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)。
傳統(tǒng)的人臉技術(shù)主要用于靜止圖片的識(shí)別和處理,現(xiàn)在受控環(huán)境下基本達(dá)到可應(yīng)用的水平,非受控環(huán)境的人臉識(shí)別仍然有一些技術(shù)障礙等待攻克。近年來(lái)隨著物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的出現(xiàn)及快速發(fā)展,如何從海量的視頻數(shù)據(jù)中檢索特定人臉,并對(duì)特定人臉的跟蹤,對(duì)人臉識(shí)別技術(shù)提出了新的挑戰(zhàn),如何利用視頻中的時(shí)空信息,對(duì)人臉進(jìn)行檢測(cè)、識(shí)別和跟蹤稱為當(dāng)下科研工作者的主要努力方向。