摘 要:文章針對(duì)部分遮擋人臉識(shí)別問(wèn)題研究進(jìn)行了綜述,總結(jié)了人臉識(shí)別存在的主要困難,詳細(xì)分析了部分遮擋人臉識(shí)別的主要方法,如圖像修復(fù)法、局部特征法、魯棒估計(jì)法、稀疏表示法和非負(fù)判別式字典學(xué)習(xí)法,指出了各類方法的主要思想和其中代表性方法,分析了存在的問(wèn)題以及未來(lái)的發(fā)展趨勢(shì)。
關(guān)鍵詞:部分遮擋;人臉識(shí)別;局部特征;魯棒估計(jì);稀疏表示
人臉識(shí)別包括人臉檢測(cè)、特征提取和分類器設(shè)計(jì)等基本步驟,是典型的生物特征識(shí)別技術(shù)之一。目前已在金融、教育、醫(yī)療、旅游和安防等眾多領(lǐng)域得到了廣泛的應(yīng)用。
近年來(lái),人臉識(shí)別技術(shù)已經(jīng)取得了重大進(jìn)展,但仍然面臨諸多困難,比如光照的變化、表情的變化、姿態(tài)的變化、年齡的變化和部分遮擋,如圖1所示。
針對(duì)表情變化、光照變化、姿態(tài)變化和年齡變化等問(wèn)題,研究人員已經(jīng)分別進(jìn)行了深入的研究。然而部分遮擋問(wèn)題卻一直沒有引起研究人員足夠的重視?,F(xiàn)有算法對(duì)被遮擋人臉的識(shí)別率急劇下降,即使是在嚴(yán)格控制的實(shí)驗(yàn)室環(huán)境下的遮擋人臉識(shí)別問(wèn)題都一直未得到很好的解決。另一方面,遮擋人臉識(shí)別問(wèn)題又廣泛存在于實(shí)際應(yīng)用中,如圖2所示。人們?nèi)粘I畲鞯哪R、帽子、圍巾等遮擋物成為導(dǎo)致現(xiàn)有人臉識(shí)別算法失敗的主要因素。
總之,遮擋已經(jīng)成為人臉識(shí)別技術(shù)進(jìn)一步廣泛應(yīng)用的主要障礙之一,研究對(duì)遮擋魯棒的人臉識(shí)別算法有著重要的理論意義和應(yīng)用價(jià)值。
1 部分遮擋人臉識(shí)別方法
目前的部分遮擋人臉識(shí)別方法大致可以分為4類:圖像修復(fù)法、局部特征分析法、魯棒估計(jì)法和稀疏表示法。
1.1圖像修復(fù)法
部分遮擋即相對(duì)整個(gè)人臉而言,遮擋只占一小部分。圖像修復(fù)法[5-7]正是基于這樣的事實(shí),利用圖像信息的冗余性,通過(guò)未被遮擋人臉區(qū)域的像素值去修復(fù)遮擋區(qū)域,然后利用恢復(fù)后的圖像進(jìn)行識(shí)別。這類方法的優(yōu)點(diǎn)是能夠使修復(fù)后的區(qū)域與整體人臉圖像灰度信息一致,不足的是無(wú)法恢復(fù)遮擋區(qū)域的紋理特征。另一方面,此類方法是基于單張圖像內(nèi)已有的冗余信息進(jìn)行修復(fù)的,若雙眼區(qū)被完全遮擋,則圖像內(nèi)無(wú)相關(guān)冗余信息,因而無(wú)法從圖像其他區(qū)域找到合適的圖像模式來(lái)填充遮擋的眼睛區(qū)域。因此,基于圖像修復(fù)的方法能有效解決小面積遮擋人臉識(shí)別問(wèn)題,且需要手動(dòng)標(biāo)記遮擋區(qū)域,這顯然不適合大規(guī)模的自動(dòng)人臉識(shí)別。事實(shí)上,實(shí)際中遮擋類型多樣復(fù)雜,無(wú)法預(yù)測(cè)。
1.2局部特征法
局部特征法的基本思想是減弱或丟棄遮擋區(qū)域在識(shí)別中的作用。與圖像修復(fù)法不同,它不是試圖去恢復(fù)被遮擋區(qū)域。此類方法同樣是基于遮擋為局部性的事實(shí),通過(guò)對(duì)未遮擋局部區(qū)域賦予大的權(quán)重值,對(duì)被遮擋區(qū)域賦予小權(quán)重值,或者完全舍棄其對(duì)應(yīng)部分的特征,達(dá)到消除遮擋影響的目的。典型的方法如局部非負(fù)約束的矩陣分解(Local Non-negative Matrix Factorization,LNMF)。實(shí)際中,因遮擋導(dǎo)致的重構(gòu)誤差并不服從高斯分布,因此對(duì)大面積遮擋很敏感。為此,Oh[9]等提出了改進(jìn)的局部特征學(xué)習(xí)法。具體做法是,先將圖像分為互不相連的子塊,然后利用主成分分析法檢測(cè)各子塊是否被遮擋,據(jù)此選擇與遮擋無(wú)關(guān)的基底張成新的投影空間,在新的投影空間上進(jìn)行人臉識(shí)別,實(shí)現(xiàn)消除遮擋影響的目的。類似的工作,如Martinez等則是先將人臉劃分為多個(gè)子塊,提出了一種取代傳統(tǒng)投票機(jī)制的概率權(quán)重確定方法。Tan[ll]等在各人臉子塊的基礎(chǔ)上,通過(guò)學(xué)習(xí)組織映射神經(jīng)網(wǎng)絡(luò)來(lái)提取特征,實(shí)現(xiàn)減弱遮擋影響的目的。整體來(lái)看,上述幾種算法都是基于圖像子塊,根據(jù)子塊是否受影響再作進(jìn)一步的處理。該方法只對(duì)局部集中遮擋有效,如果遮擋分散在整個(gè)人臉,如網(wǎng)狀遮擋即各個(gè)子塊中都存在遮擋時(shí),圖像分塊的方法無(wú)法再通過(guò)調(diào)節(jié)權(quán)重來(lái)消除遮擋的影響。另外實(shí)際中遮擋物形狀各異、大小不一,同時(shí)子塊劃分方案對(duì)結(jié)果影響也很大。為此,研究人員提出了提取或增強(qiáng)局部特征的方法來(lái)減弱遮擋的影響。如,Zhang等為了減少遮擋對(duì)算法的影響,在已有的Gabor=值模式[13]基礎(chǔ)上,通過(guò)無(wú)遮擋局部區(qū)域與待評(píng)測(cè)局部區(qū)域之間的局部Gabor=值特征散度來(lái)預(yù)測(cè)遮擋發(fā)生的概率,并利用此概率對(duì)特征加權(quán),從而達(dá)到減弱遮擋的影響。該方法基于以下假設(shè),即遮擋區(qū)域直方圖分布與對(duì)應(yīng)遮擋物的區(qū)域直方圖分布之間存在差異。如果遮擋物顏色與人臉膚色相近時(shí)(如人臉被手遮擋),該方法性能將受到影響。局部特征法對(duì)特定類型的遮取得較好效果,但并未從根本上將遮擋從人臉圖像中移除。另外,實(shí)際中遮擋類型復(fù)雜,僅靠“風(fēng)險(xiǎn)均衡或轉(zhuǎn)移”的思想無(wú)法應(yīng)對(duì)所有情況。還存在以下問(wèn)題值得研究,如遮擋區(qū)域檢測(cè)、未受遮擋區(qū)域局部特征有效融合、權(quán)重設(shè)定等。
1.3魯棒估計(jì)法
上述兩種方法都存在不足,如圖像修復(fù)法在眼睛、嘴巴等重要部位缺失時(shí)無(wú)法由單張的人臉圖像得到恢復(fù),而局部特征法則是減弱或舍棄遮擋區(qū)域,導(dǎo)致相應(yīng)的判別特征一起遭到舍棄。
魯棒估計(jì)法的基本想法是由已有無(wú)遮擋樣本中通過(guò)學(xué)習(xí)的方法來(lái)估計(jì)受遮擋部分的圖像特征,因而不受遮擋區(qū)域大小、位置等因素影響,在遮擋人臉識(shí)別中得到了深入研究。
代表性方法有魯棒主成分分析方法,如Leonardis等[14-15]提出不直接將樣本投影到特征空間,而是通過(guò)假設(shè)檢驗(yàn)的方法來(lái)估計(jì)重建系數(shù),從而實(shí)現(xiàn)對(duì)遮擋區(qū)域的估計(jì)。然而,該方法要求訓(xùn)練樣本是干凈的,不能包含遮擋或噪聲。實(shí)際中,對(duì)人臉這種非剛體而言,在實(shí)驗(yàn)環(huán)境下采集的樣本很難達(dá)到此方法對(duì)訓(xùn)練集的要求,從而影響遮擋區(qū)域估計(jì)及最終識(shí)別?;隰敯艄烙?jì)理論,Dahyot等提出自適應(yīng)地去估計(jì)誤差分布,利用半二次優(yōu)化方法,通過(guò)迭代加權(quán)最小二乘求解得到主分量。該方法同樣依賴于訓(xùn)練樣本。類似的工作,如He等提出的最大相關(guān)熵的魯棒主成分分析。Candes等基于低秩的約束提出了一種新的魯棒主成分分析方法,即將其建模為低秩部分加上稀疏噪聲部分。這種方法中訓(xùn)練集中容許有遮擋的人臉圖像。但該方法在將遮擋等分離去除的同時(shí),將紋理等一些判別式信息也作為噪聲去除了。另外,該方法是無(wú)監(jiān)督的,無(wú)法有效利用監(jiān)督信息。
1.4稀疏表示法
稀疏表示是近年來(lái)發(fā)展起來(lái)的一種新的理論和方法,其核心在于自適應(yīng)的學(xué)習(xí)過(guò)完備基,使處理對(duì)象在這組基下表示是稀疏的。稀疏表示在圖像去噪、超分辨率、壓縮傳感、特征選擇等方面取得了成功。稀疏表示最先由Olshausen等提出,該方法通過(guò)冗余字典上的稀疏編碼,學(xué)習(xí)得到的字典有類似Gabor濾波器的性質(zhì),這為圖像表示和分析提供了一條新的思路和方法。Wright等提出將稀疏表示應(yīng)用于人臉識(shí)別SRC( Sparse RepresentationClassification)。稀疏表示人臉識(shí)別的基礎(chǔ)是假設(shè)同一個(gè)人不同光照下的人臉圖像處于同一個(gè)線性子空間中,將所有不同人臉的訓(xùn)練樣本組合得到訓(xùn)練樣本字典。對(duì)測(cè)試樣本而言,它只可能由其所在類的樣本進(jìn)行線性表示,因而其在訓(xùn)練樣字典的表示是稀疏的。通過(guò)求解該稀疏表示,利用在各子類字典上的重構(gòu)誤差大小判別測(cè)試樣本的類別。結(jié)果表明,該方法對(duì)光照變化、部分遮擋及隨機(jī)噪聲等魯棒性非常好。
稀疏表示的魯棒性,為部分遮擋人臉識(shí)別問(wèn)題提供了新的研究思路。但如何增強(qiáng)字典的判別性,當(dāng)學(xué)習(xí)樣本部分被遮擋時(shí)如何學(xué)習(xí)字典,如何融合各種判別信息提高算法的魯棒性,如何解決字典原子中負(fù)值像素等問(wèn)題值得進(jìn)一步深入研究。在SRC中,以12-范數(shù)來(lái)度量重構(gòu)誤差,實(shí)際上就是假設(shè)誤差服從高斯分布。然而實(shí)際中,遮擋情況下,重構(gòu)誤差根本不服從高斯分布,也不服從拉普拉斯分布。為了解決此問(wèn)題,Yang等將稀疏編碼問(wèn)題建模為稀疏約束的魯棒回歸問(wèn)題,通過(guò)迭代稀疏編碼求解。He等[22]利用相關(guān)熵誘導(dǎo)的測(cè)度度量重構(gòu)誤差,對(duì)重構(gòu)誤差大的像素點(diǎn)賦予小的權(quán)重,對(duì)重構(gòu)誤差小的像素點(diǎn)賦予大的權(quán)重,減小被遮擋像素點(diǎn)的影響,得到了較好的識(shí)別結(jié)果。與前兩種方法不同,Yang等先通過(guò)自適應(yīng)地編碼殘差來(lái)估計(jì)被遮擋的像素,然后求得未被遮擋像素的協(xié)同表示重構(gòu)誤差,結(jié)合類中心的編碼偏差分類識(shí)別。總的來(lái)說(shuō),這類方法自適應(yīng)估計(jì)誤差分布預(yù)測(cè)遮擋,區(qū)別在于所用的誤差估計(jì)模型不一樣。這些方法在稀疏表示框架下有效提高了算法的魯棒性,但它們的共同點(diǎn)是:字典仍然是由訓(xùn)練樣本組成,因而判別性不強(qiáng)。如何在含有遮擋樣本情況下增強(qiáng)字典的判別性,是遮擋人臉識(shí)別值得進(jìn)一步研究的問(wèn)題。
實(shí)際中遮擋部分的像素在空間上具有連續(xù)性。基于這樣的事實(shí),Zhou等用馬爾科夫隨機(jī)場(chǎng)刻畫遮擋像素的空域相關(guān)性,提出了基于馬爾科夫隨機(jī)場(chǎng)的部分遮擋人臉識(shí)別算法。進(jìn)一步,結(jié)合編碼誤差的分布和遮擋區(qū)域的形狀結(jié)構(gòu)信息,Dai等[24]提出了結(jié)構(gòu)化稀疏誤差編碼的遮擋人臉識(shí)別算法。這些研究表明,考慮遮擋的實(shí)際形狀結(jié)構(gòu)信息能有效提高算法對(duì)遮擋的魯棒性。但不足的是上述兩類方法仍然是以訓(xùn)練樣本作為字典,要求訓(xùn)練樣本都不能被遮擋,因而無(wú)法利用實(shí)際中大量的遮擋人臉數(shù)據(jù)。另一方面,由訓(xùn)練樣本構(gòu)成的字典通常都很大,導(dǎo)致稀疏表示求解復(fù)雜度急劇增加。因此,研究者提出了從數(shù)據(jù)中學(xué)習(xí)緊湊的字典進(jìn)行遮擋人臉識(shí)別。
Deng等[25]提出了通過(guò)類內(nèi)變化表示遮擋的擴(kuò)展字典人臉識(shí)別算法( Extended-SRC,ESRC),為遮擋人臉識(shí)別研究提出了新的思路。但該方法僅僅是將同一個(gè)人不同遮擋下的圖與無(wú)遮擋圖的差作為類內(nèi)變化。這樣出現(xiàn)了兩個(gè)問(wèn)題:第一,相減產(chǎn)生了負(fù)值像素,這與實(shí)際是不符合的;第二,當(dāng)訓(xùn)練樣本多時(shí),遮擋字典很大,沒有經(jīng)過(guò)任何的優(yōu)化。基于此,Ou等提出了基于相關(guān)性最小化的遮擋字典學(xué)習(xí)方法。該方法通過(guò)投影而非相減得到遮擋模式樣本,約束與訓(xùn)練樣本字典的相關(guān)性,提高遮擋字典的判別性。有效地解決了遮擋字典過(guò)大的問(wèn)題。但與ESRC方法一樣,訓(xùn)練樣本仍然不能包含任何的遮擋,且訓(xùn)練樣本字典沒有經(jīng)過(guò)任何優(yōu)化。Yang等提出了基于fisher準(zhǔn)則的判別式結(jié)構(gòu)字典學(xué)習(xí)方法的人臉識(shí)別。該字典由各類的字典構(gòu)成,每個(gè)子字典對(duì)本類樣本表達(dá)力強(qiáng)而對(duì)其他類表達(dá)力弱,從而增加判別性。最后利用重構(gòu)誤差和稀疏編碼系數(shù)進(jìn)行識(shí)別。Jiang等[28]直接利用稀疏編碼系數(shù)作為人臉表示特征,直接將類標(biāo)信息及線性分類函數(shù)一起加入字典學(xué)習(xí)框架,通過(guò)k-svd算法求解字典,有效提高了字典的判別性。類似的工作有]??傊?,上述方法分別從重構(gòu)性、判別性和稀疏性3個(gè)方面提出了各種字典學(xué)習(xí)方法,為研究對(duì)遮擋魯棒的人臉識(shí)別算法做了有益的探索。
1.5非負(fù)表示法
稀疏表示因沒有限制系數(shù)的非負(fù)性,因而得到的基底出現(xiàn)負(fù)像素,這與實(shí)際不符。非負(fù)矩陣分解作為稀疏非負(fù)特征提取方法,有效結(jié)合了二者的優(yōu)勢(shì)。綜合考慮稀疏性和非負(fù)性,歐衛(wèi)華提出了魯棒判別式非負(fù)字典學(xué)習(xí)方法。該方法利用相關(guān)熵誘導(dǎo)距離度量重構(gòu)誤差,通過(guò)考慮局部幾何相似性和判別式信息,學(xué)習(xí)到了魯棒的判別式非負(fù)基底,在實(shí)際遮擋和隨機(jī)模擬遮擋中取得了很好地識(shí)別效果。
2 存在的問(wèn)題及研究方向
因部分遮擋人臉識(shí)別問(wèn)題未向光照、表情和姿態(tài)等問(wèn)題受到研究者的關(guān)注,目前該領(lǐng)域的研究存在以下問(wèn)題。
(1)數(shù)據(jù)集缺乏。沒有專門的數(shù)據(jù)集是阻礙該領(lǐng)域深入發(fā)展的重要瓶頸。目前研究實(shí)驗(yàn)主要集中在AR數(shù)據(jù)集上。該數(shù)據(jù)集是在實(shí)驗(yàn)控制條件下采集的、只有兩種類型的遮擋,即墨鏡、圍巾。因此,遮擋類型有限,遮擋方式固定,與實(shí)際中復(fù)雜遮擋模式差距較大。
(2)實(shí)驗(yàn)協(xié)議標(biāo)準(zhǔn)不統(tǒng)一。不同研究者通過(guò)隨機(jī)模擬實(shí)際中的遮擋進(jìn)行實(shí)驗(yàn),因而實(shí)驗(yàn)結(jié)果很難重復(fù),無(wú)法進(jìn)行比較優(yōu)劣。
近年來(lái),深度學(xué)習(xí)在人臉識(shí)別領(lǐng)域取得了突破性進(jìn)展,如代表性工作DeepFace'32],DeepID'33].FaceNet[34]。在深度學(xué)習(xí)框架下,學(xué)習(xí)算法直接從原始圖像學(xué)習(xí)對(duì)于光照、表情、角度等不變的特征。這些特性是從大量數(shù)據(jù)中學(xué)習(xí)得到,并未特別針對(duì)每種人臉識(shí)別問(wèn)題。因此,如果針對(duì)部分遮擋的特點(diǎn),設(shè)計(jì)專門的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),將是未來(lái)解決部分遮擋人臉識(shí)別問(wèn)題的有效途徑。
3結(jié)語(yǔ)
本文分析了人臉識(shí)別面臨的主要挑戰(zhàn),指出部分遮擋是其中的主要困難之一,系統(tǒng)分析和總結(jié)目前部分遮擋人臉識(shí)別的主要方法以及存在的不足,分析存在的主要問(wèn)題和未來(lái)可能的研究途徑。