孫金娜 原明亭
摘要: 針對人臉特征點定位的精確性對人臉識別系統(tǒng)精確性的影響,本文在受約束的局部模型(constrained local models,CLM)基礎上,主要研究人臉特征點定位算法——受約束的局部神經(jīng)域模型(constrained local neural fields,CLNF)算法??紤]每個patch模型(特征點檢測器)的可靠性,CLNF結合局部神經(jīng)域(local neural field,LNF)的patch模型,在擬合過程中,由原來的正則化特征點均值偏移(regularised landmark mean shift,RLMS)改為采用不均勻的正則化特征點均值偏移方法進行人臉擬合,同時,在人臉數(shù)據(jù)集MultiPIE上進行實驗,并對比分析兩種模型。分析結果表明,CLNF定位算法在平均用時、成功率及誤差率方面都具有明顯優(yōu)勢,證明CLNF的LNF patch模型在人臉特征點擬合的精確性相對于CLM有明顯提高。該技術擬合速度更快,擬合準確率更高,能夠使人臉識別技術更加精確,具有更大的優(yōu)勢。該研究具有廣泛的應用前景。
關鍵詞: 特征點定位; 受約束的局部神經(jīng)域模型; patch模型; 受約束的局部模型; 局部神經(jīng)域
中圖分類號: TP391.41文獻標識碼: A
現(xiàn)代社會中,隨著科學技術網(wǎng)絡技術飛速發(fā)展,信息安全問題受到越來越多的威脅與挑戰(zhàn)[1]。對個人身份進行鑒別能夠有效保護個人信息安全,而生物特征(人臉、人手)識別技術在身份鑒別工作中具有更高的可靠性和安全性,其中人臉識別技術,即通過計算機對攝像頭采集的人臉圖像進行身份驗證和識別[2]。人臉識別技術在社會安全金融、教育、醫(yī)療及眾多企事業(yè)單位等領域都有廣泛應用,這也對人臉識別算法提出了更高的要求。人臉識別技術的一大技術核心即為精確定位人臉特征點[3],這也是該技術的一大難點。近年來,國內外的一些研究者對該技術進行了研究,T.F.Cootes等人[4]基于幾何形狀信息的方法改進了Snake模型,后來又陸續(xù)提出了主動形狀模型(active shape model,ASM)和主動外觀模型(active appearance model,AAM)[56];D.Cristinacce等人[78]提出的CLM算法,是對人臉識別算法的不斷改進;山世光[9]研究了人臉特征點定位的理論價值和現(xiàn)實意義?;诖?,本文對人臉特征點的實時性和精確性進行研究,在CLM算法的基礎上,進一步對先進的CLNF算法進行研究。通過訓練樣本,并根據(jù)特征建立模型[10],將其與圖像或視頻進行對比,找出具有相同特征的區(qū)域,進行特征點定位。實驗結果表明,結構化模型在人臉檢測、頭部姿態(tài)估計[11]和特征點定位方面具有更高的效率。該研究對人臉識別更加精確,具有更大的優(yōu)勢。
1人臉特征檢測
人臉特征檢測是指檢測圖像中某些面部特征點的位置。例如,檢測鼻尖、眼角和嘴唇的輪廓。人臉特征點定位分為基于模型和非模型的兩大類定位方法。目前,已經(jīng)提出了一些解決該問題的方法。
CLNF算法是對CLM算法的創(chuàng)新,且使用了和CLM相同的框架[12]。CLM算法主要由點分布模型(point distribution model,PDM)[13]、patch模型和使用的擬合方法3部分組成。PDM是基于非剛性形狀和剛體全局變換參數(shù)的人臉特征點定位模型。每一個特征點的鄰域塊使用patch模型建模。CLM算法中有多種擬合策略,其最常用的是正則化特征點平均偏移(regularised landmark mean shift,RLMS)[14]。訓練模型時,剛性和非剛性參數(shù)的p估計均使用擬合方法進行估計,即
P*=argminP[R(p)+∑ni=1Di(Xi;L)](1)
式中,R(p)表示形變約束;D表示匹配代價,即擬合之后的特征點代替原來特征點位置的代價,新特征點的位置與平均形狀之間的差值就是這個位置的代價,這樣就對特征點構成了位置和形狀的兩種約束,第i個特征點的位置Xi=xi,yi,ziT由參數(shù)P通過PDM控制,所以第i個特征點的位置為
Xi=sR2DXi+Φiq+t(2)
式中,Xi=xi,yi,ziT是第i個特征的平均值;Φi是主成分矩陣;q是控制非剛性形狀參數(shù)的m維向量。剛性形狀參數(shù)可以使用6個標量參數(shù)化:縮放量s,平移量t=tx,tyT,旋轉量w=wx,wy,wzT。旋轉參數(shù)w控制旋轉矩陣R2D(3×3的旋轉矩陣R的前兩行)。整個形狀可用p=s,t,w,q來描述。
2CLNF算法
本節(jié)介紹了約束局部神經(jīng)域(CLNF)特征點檢測模型。它包括一個結合LNF[15]的新型patch模型,能夠學習像素的值與特征點之間對齊概率的非線性和空間關系。CLNF還使用了一種考慮到patch可靠性的非均勻正則化特征點均值平移擬合方法。
1)LNF patch模型。LNF是可以捕獲像素的值和輸出響應之間復雜的非線性關系的神經(jīng)網(wǎng)絡層,LNF patch模型的圖形模型如圖1所示。圖1中,實線表示頂點特征(fk),虛線表示邊緣特征(gk或lk)。輸入向量xi通過組合神經(jīng)層(Θ)和頂點權重α的頂點特征連接到相關輸出向量yi。輸出進一步與邊緣特征gk(相似性)或lk(稀疏度)。LNF patch模型是一個連續(xù)的輸出模型。它將條件神經(jīng)域(conditional neural fields,CNF)[16]的非線性與連續(xù)條件隨機場(continuous conditional random fields,CCRF)[17]的靈活性和連續(xù)輸出相結合。此外,LNF patch模型可以通過學習相似性和距離遠近的稀疏約束來捕獲像素(相鄰和較長距離)之間的關系,CLNF patch模型如圖2所示,可以看出每個特征點的興趣區(qū)域是不一樣的。
2)模型定義。LNF是一種無向圖形模型,可以根據(jù)連續(xù)x(支持區(qū)域中的像素強度值)對連續(xù)值向量y
(patch排列的概率)的條件概率進行建模。用于特定的觀察集模型符合條件概率分布,即
Py|X=expΨ∫∞-∞expΨdy(3)
式中,X=x1,x2,…,xn是一組觀察到的輸入變量,Y=y1,y2,…,yn是一組輸出變量,∫∞-∞expΨdy是歸一化函數(shù),使之成為有效的概率分布(通過使其和為1)。期望的結果:xi∈Rm是patch模型支持區(qū)域中的矢量化像素強度(例如,對于11×11的支持區(qū)域,m=121),yi∈R,n是評估patch模型的可能區(qū)域。
3)勢函數(shù)。勢函數(shù)的定義為
Ψ=∑i∑k1k=1αkfkyi,X,θk+∑i,j∑k2k=1βkgkyi,yi+∑i,j∑k3k=1γklkyi,yi(4)
式中,fk為頂點特征;gk和lk為邊緣特征。3種類型勢函數(shù)分別為
fkyi,X,θk=-yi-hθk,xi2, hθ,X=11+e-θTX(5)
gkyi,yj=-12Sgki,jyi-yj2(6)
lkyi,yj=-12Slki,jyi+yj2(7)
式中,fk為頂點特征,表示通過單層神經(jīng)網(wǎng)絡從輸入xi到輸出yi的映射;θk是特定神經(jīng)元k的權重向量;頂點特征fk的相應αk表示第k個神經(jīng)元(卷積核)的可靠性;邊緣特征gk表示觀察yi和yj之間的相似性。
在LNF patch模型中,gk使連接節(jié)點變得平滑,這也受鄰域度量Sgk的影響,因此能夠控制平滑的程度。對于LNF patch模型,只有當兩個節(jié)點i和j是網(wǎng)格中的直接(水平/垂直)相鄰時,定義Sg1才返回1(否則返回0);當i和j是網(wǎng)格中的對角線相鄰時,定義Sg2返回1(否則返回0);邊緣特征lk表示觀察yi和yj之間的稀疏約束。例如,如果yi和yj都很高,模型就會受到約束,但如果它們都為零,則不會受到約束。這將出現(xiàn)只有yi或yj是高的時候會受到約束,但是當yi和yj都是高的時候受到約束會更大。這是由鄰域度量Slk控制,可以定義執(zhí)行稀疏性的區(qū)域。根據(jù)先驗經(jīng)驗定義鄰域Sl,只有當兩個節(jié)點i和j分開在4和6個邊緣之間(其中邊緣從LNF patch模型的網(wǎng)格布局中計數(shù))時才返回1。
4)訓練。主要介紹如何估計模型參數(shù)α,β,γ,Θ,這里要注意的是所有參數(shù)都是聯(lián)合優(yōu)化的。其中,α=α1,α2,…,αk1;Θ=θ1,θ2,…,θk1;β=β1,β2,…,βk2;γ=γ1,γ2,…γk3被學習并用于測試期間的推斷。
給出M個塊xq,yqMq=1作為訓練數(shù)據(jù),其中每個xq=xq1,xq2,…,xqn是一個輸入序列(特征點可能區(qū)域中的像素值),每個yq=yq1,yq2,…,yqn是一個實值輸出序列。
訓練中,要選擇使訓練序列上LNF的條件對數(shù)似然最大化的α,β,γ和Θ值,即
Lα,β,γ,Θ=∑Mq=1logPyq|x(q)(8)
,,,=argmaxα,β,γ,ΘLα,β,γ,Θ(9)
這有助于式(8)偏微分方程的推導,將式(7)轉化為多元高斯形式,即
Py|X=12πn2∑12exp-12y-μT∑-1y-μ, ∑-1=2A+B+C(10)
式中,A為對角矩陣,表示α項(頂點特征)對協(xié)方差矩陣的貢獻;B和C為對稱矩陣,表示β和γ項(邊緣特征)的貢獻。其中
Ai,j=∑k1k=1αk, i=j0, i≠j, Bi,j=(∑k2k=1βk∑nr=1S(gk)i,r)-(∑k2k=1βkS(gk)i,j), i=j-∑k2k=1βkS(gk)i,j, i≠j(11)
Ci,j=(∑k2k=1γk∑nr=1S(lk)i,r)-(∑k2k=1γkS(lk)i,j), i=j-∑k2k=1γkS(lk)i,j, i≠j(12)
此外,定義向量d描述分布中的線性項,定義μ是CCNF分布中的高斯形式的平均值,即
d=2αThΘX, μ=∑d(13)
式中,X為一個矩陣,第i列的元素為xi;Θ是連接神經(jīng)網(wǎng)絡的權重;hM是M的每個元素上激活函數(shù)的應用,因此hΘX表示xi處每個神經(jīng)層的響應;d為頂點特征的貢獻之一;∑為控制邊緣特征對輸出的影響;μ為分布的期望值,是使Py|x最大化的y的值。
為保證配分函數(shù)是可積分的,約束αk>0,βk>0,γk>0,其中Θ不受約束。為訓練LNF patch模型,需要定義輸出變量yi。給定在z=u,vT處具有正確特征點的圖像,可將其在zi處的概率建模為yi=Nzi;z,σ(實驗發(fā)現(xiàn),最佳結果是用σ=1),然后在各個角度對圖像取樣,以獲取培訓樣本。
3擬合過程的優(yōu)化
CLM和CLNF算法都是為了實現(xiàn)人臉特征點精確的目標定位[18],主要包括以下兩個方面:
1)利用訓練好的patch模型,在每個特征點的可能區(qū)域進行詳盡的搜索。
2)對PDM參數(shù)進行優(yōu)化,使檢測時獲得的特征點響應圖能夠取得最小值。
但CLM依賴于初始參數(shù)估計,假設有一個初始估計P0,想要找到一個參數(shù)ΔP來更新當前的形狀參數(shù),使其接近P*=P0+ΔP(其中P*為最優(yōu)解)[19],迭代擬合目標為
argminΔPRP0+ΔP+∑ni=1Dixi;L(14)
采用正則化特征點均值偏移(regularised landmark mean shift,RLMS)[15]方法,找到其最小二乘解為
argminΔP‖P0+ΔP‖2Λ-1+‖JΔP0-v‖2(15)
式中,J是在P處評估的參數(shù)向量P的特征點位置的雅可比矩陣。高斯分布的前一條記錄pP∝Nq;0,Λ用于非剛性形狀和剛體形狀參數(shù)的均勻分布;v=v1,…,vnT是patch均值偏移的響應,使用高斯核密度估計器的近似響應圖的表達式為
vi=∑yi∈ΨiπyiNxci;yi,ρI∑zi∈ΨiπziNxci;zi,ρI-xci(16)
均值偏移向量計算取決于xci和由經(jīng)驗確定的當前估計參數(shù)ρ。得到更新后的形狀參數(shù)為
ΔP=-JTJ+rΛ-1-1rΛ-1p-JTv(17)
計算更新,迭代計算更新,直到收斂。但CLM存在的問題是每個patch模型的可信度均等,但具體到每個特征點卻不是這樣,其中某些特征響應圖是嘈雜的。為解決此問題,CLNF在擬合時采用不均勻的RLMS,盡量減少目標函數(shù)
argminΔP‖P0+ΔP‖2Λ-1+‖JΔP-v‖2w(18)
式中,W是對角化權重矩陣,對均值偏移進行加權。具有Tikhonov正則化的非線性最小二乘法,導致以下更新規(guī)則,即
ΔP=-JTWJ+rΛ-1rΛ-1P-JTWv(19)
為了構建W,計算每個patch模型關于訓練數(shù)據(jù)的交叉驗證的相關性分數(shù),使W=wdiagc1,…,cn;c1,…,cn,其中ci是第i個patch模型在交叉測試的相關系數(shù),w由實驗確定。對角線上的第i個和第i+n個元素代表了第i個patch模型的可信度。針對每個比例和視圖,分別計算patch模型的可靠性矩陣W。
4實驗結果
通過實驗驗證CLNF能很好的定位特征點,CLNF特征點定位圖如圖3所示。為突出CLNF相對于CLM及其他特征點定位算法的優(yōu)越性,在人臉數(shù)據(jù)集MultiPIE[20]上進行實驗,MultiPIE人臉數(shù)據(jù)庫中包括337個人的不同姿態(tài)、表情、光照的人臉圖像,共750 k+人臉圖像。其中,選擇200個人的臉部正面圖像進行實驗,對比驗證CLNF相對于CLM在特征點擬合性能上的優(yōu)勢。CLM和CLNF擬合曲線如圖4所示。
圖4中,橫坐標表示形狀均方根誤差及擬合圖像中特征點位置相對于準確特征點位置之間距離的均方根誤差;縱坐標表示不同人臉圖像在不同環(huán)境干擾下的圖像比例。由圖4可以看出,CLNF特征點擬合性能相對于CLM有明顯提高。
定位比較結果如表1所示。由表1可以看出,CLNF定位算法在平均用時、成功率及誤差率方面都具有明顯優(yōu)勢。需要說明的是,在對比圖中,AAM算法的平均用時相對CLNF和CLM的差距較大,這是因為AAM算法在人臉定位時應用了全臉的紋理特征,因此在擬合過程中需要相對更長的時間來擬合到準確的特征點。
5結束語
本文通過引入勢函數(shù),確定LNF patch模型區(qū)域,針對每個特征點的比例和視圖分別計算出不同的可信度,使patch模型具有更高的可信度。本文所主要闡述的CLNF算法,在patch模型匹配特征點及特征點位置擬合過程中,相對于傳統(tǒng)的CLM等其他算法,擬合速度更快,擬合準確率更高,能夠使人臉識別技術更加精確,具有更大的優(yōu)勢。但本文研究的內容仍具有一定的提升空間,比如當人臉在光照、噪聲、背景等環(huán)境因素較為惡劣的情況下,CLNF算法雖然能在特征點定位方面保持一定的精確性,但對特征點的搜索和特征點擬合的過程耗時較長,擬合速度需進一步提升,這也是將要進一步研究的課題。
參考文獻:
[1]Asthana A, Zafeiriou S, Cheng S, et al. Robust Discriminative Response Map Fitting with Constrained Local Models[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 34443451.
[2]Gross R, Matthews I, Cohn J, et al. MultiPIE[J]. IEEE International Conference on Antomatic Face & Gesture Recognition, 2010, 28(5): 18.
[3]蘇楠, 吳冰, 徐偉, 等. 人臉識別綜合技術的發(fā)展[J]. 信息安全研究, 2016, 2(1): 3339.
[4]杜春華. 人臉特征點定位及識別的研究[D]. 上海: 上海交通大學, 2008.
[5]Cootes T F, Taylor C J. Active Shape ModelsSmart Snakes[C]∥Proceedings of British Machine Vision Conference. Leeds, UK: Springer London, 1992: 266275.
[6]林維訓, 潘綱, 吳朝暉, 等. 臉部特征定位方法[J]. 中國圖象圖形學報, 2003(8): 849859.
[7]Cootes T F, Edwards G J, Taylor C J. Active Appearance Models[J]. European Conference on Computer vision, 1998, 23(6): 484498.
[8]Tzimiropoulos G, AlabortIMedina J, Zafeiriou S, et al. Generic Active Appearance Models Revisited[J]. Springer, 2012, 7726: 650663.
[9]Cristinacce D, Cootes T F. Feature Detection and Tracking with Constrained Local Models[C]∥British Machine Vision Conference. Edinburgh, UK: DBLP, 2006, 41: 929938.
[10]Wang Y, Lucey S, Cohn J F. Enforcing Convexity for Improved Alignment with Constrained Local Models[C]∥IEEE Conference on Computer Vision & Pattern Recognition. Porc IEEE Comput Soc Conf Comput Vis Pattern Recognit, 2008: 18.
[11]山世光. 人臉識別中若干關鍵問題的研究[D]. 北京: 中國科學院研究生院計算技術研究所, 2004.
[12]宗智勇, 惲如偉, 劉丹. 三維人臉建模中特征點標定的簡化應用研究[C]∥2011數(shù)碼游戲化學習國際學術會議. 北京: 北京大學, 2011.
[13]Czupryski B, Strupczewski A. High Accuracy Head Pose Tracking Survey[J]. Springer International Publishing, 2014: 407420.
[14]Morency L, Baltrusaitis T, Robinson P. 3D Constrained Local Model for Rigid and NonRigid Facial Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2012, 157(10): 26102617.
[15]Surhone L M, Tennoe M T, Henssonow S F. Point Distribution Model[J]. Betascript Publishing, 2010.
[16]Saragih J M, Lucey S, Cohn J F. Deformable Model Fitting by Regularized Landmark MeanShift[J]. International Journal of Computer Vision, 2011, 91(2): 200215.
[17]Baltrusaitis T, Robinson P, Morency L P. Constrained Local Neural Fields for Robust Facial Landmark Detection in the Wild[C]∥IEEE International Conference on Computer Vision Workshops. NSW, Australia: IEEE, 2014: 354361.
[18]Peng J, Bo L, Xu J. Conditional Neural Fields[C]∥International Conference on Neural Information Processing Systems. British Columbia, Canada: ACM, 2009: 14191427.
[19]Qin T, Liu T Y, Zhang X D, et al. Global Ranking Using Continuous Conditional Random Fields[C]∥Conference on Neural Information Processing Systems. British Columbia, Canada: DBLP, 2008: 12811288.
[20]Wang Y, Lucey S, Cohn J F. Enforcing Convexity for Improved Alignment with Constrained Local Models[C]∥Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008, 2008: 18.