黃葉玨
摘 要:針對人臉識別可以通過照片和視頻進行攻擊的問題,提出一種交互式隨機動作的活體檢測方法。對認證用戶發(fā)出隨機化的動作指令,根據(jù)對視頻中的人臉進行檢測和對齊跟蹤來判斷用戶是否按要求完成動作,從而實現(xiàn)活體檢測。利用隨機化序列方式有效地抵抗了照片和視頻認證的攻擊。
關(guān)鍵詞:人臉識別;人臉檢測;活體檢測;交互式隨機動作;認證
DOIDOI:10.11907/rjdk.1511355
中圖分類號:TP306
文獻標(biāo)識碼:A 文章編號文章編號:16727800(2015)012002602
0 引言
人臉識別作為一項成熟的生物識別技術(shù),目前已被廣泛應(yīng)用于金融、公安、社會服務(wù)、電子商務(wù)等領(lǐng)域。然而人臉很容易用視頻或照片等進行復(fù)制,從而達到攻擊的目的,活體檢測是人臉識別能否有效應(yīng)用的前提,目前對活體檢測方法的研究有很多。大多數(shù)活體檢測方法基于特征提取與訓(xùn)練的方式,由于應(yīng)用環(huán)境的復(fù)雜性和不可控性,基于訓(xùn)練的方法的準(zhǔn)確性不可控[16]。另一類方法要求用戶做轉(zhuǎn)頭、搖頭、眨眼或者張嘴等動作,這類方法對于視頻的防欺騙性不高,比如北京智慧眼科技有限公司的活體檢測只要求用戶眨眼即可;騰訊微眾銀行通過語音識別技術(shù)識別用戶是否正確認讀數(shù)字并結(jié)合用戶嘴巴是否張開作為輔助技術(shù)來確保用戶是活體,但是這種方法需要聲音接收設(shè)備,比常規(guī)的視頻活體檢測的應(yīng)用場景限制更嚴(yán)格。本文克服現(xiàn)有技術(shù)的不足,提供一種交互式隨機動作的活體檢測方法,采用人臉對齊技術(shù),使得檢測的健壯性更高,能準(zhǔn)確判斷出當(dāng)前檢測者是否為活體真人,解決了現(xiàn)有活體檢測技術(shù)中存在的照片或視頻欺騙問題。采用對視頻中的人臉進行檢測、跟蹤和對齊,對用戶發(fā)隨機化的動作指令,對人臉特征位置進行分析來確定用戶所做的動作是否按要求完成,從而實現(xiàn)活體檢測。通過隨機化的序列方式有效地抵抗了照片和視頻的攻擊。
1 人臉檢測與人臉對齊算法
在人臉活體檢測認證的應(yīng)用場景中,一般要求人臉圖像清晰且人臉正面朝向鏡頭。在該應(yīng)用場景中,人臉檢測算法的要求不高,可采用OpenCV中的AdaBoost人臉檢測器實現(xiàn)人臉定位。獲取視頻中的人臉位置后,可利用人臉對齊算法[7]定位人臉的特征點位置。人臉對齊算法可得到比較準(zhǔn)確的人臉各個特征點的位置,給定圖像中n個特征點位置Pi∈P,通過提取對應(yīng)位置的SIFT特征[8]、HOG特征[9]或者其它特征,根據(jù)式(1)求最小化實現(xiàn)人臉特征點對齊:
F(P0+ΔP)=||H(P0+ΔP)-H(P*)||(1)
其中,P0為根據(jù)人臉檢測器的定位以及平均人臉對齊特征點計算得到的初始位置配置,P*為訓(xùn)練集中手工標(biāo)注的人臉特征點位置,ΔP為初始位置配置與P*的位移量,H(·)為SIFT特征或者HOG特征提取函數(shù)。
在訓(xùn)練階段,先采用人工標(biāo)注的方式對訓(xùn)練數(shù)據(jù)集人臉各個特征點的位置進行標(biāo)注。使用人臉檢測器對訓(xùn)練數(shù)據(jù)集中的人臉進行定位,根據(jù)檢測到的人臉框,計算各個特征點在人臉框中的局部坐標(biāo),對訓(xùn)練數(shù)據(jù)集中所有特征點的坐標(biāo)計算其平均值,就可以得到一個訓(xùn)練集的平均人臉特征點位置,將它作為人臉特征點位置的初始配置。人臉對齊模型訓(xùn)練通過計算每個訓(xùn)練數(shù)據(jù)的人工標(biāo)注特征點與初始配置特征點的差異,得到迭代方向和步長生成對齊模型。為了提高算法的健壯性,需要對訓(xùn)練數(shù)據(jù)進行增強,即在原始訓(xùn)練數(shù)據(jù)對的基礎(chǔ)上,通過對人臉檢測框進行旋轉(zhuǎn)、平移和縮放來增加初始配置的多樣性。
訓(xùn)練得到人臉對齊模型后,就可以根據(jù)對齊模型和人臉檢測框通過迭代的方式來得到各個人臉標(biāo)注特征點位置。對于視頻的每一幀使用人臉檢測算法得到人臉框,人臉檢測算法可能會獲得多個人臉框。由于人臉活體檢測認證應(yīng)用中,被認證者是端坐在攝像機前的,所以取最大的1~2個人臉框作為候選人臉即可。然后根據(jù)人臉框使用平均人臉特征點位置作為初始配置,再根據(jù)人臉對齊模型進行迭代獲得人臉特征點的位置。
為了進一步提高算法的健壯性,引入一個評分模型來降低誤判。首先使用OpenCV的人臉檢測器對FDDB人臉數(shù)據(jù)庫[10]進行檢測,檢測時降低閾值以達到99%以上召回率。該人臉檢測器就可產(chǎn)生很多的誤報人臉窗口,將這些輸出結(jié)果通過人工篩選方式分成人臉和非人臉兩類。訓(xùn)練時,利用前面得到的人臉對齊模型對人臉和非人臉都進行對齊迭代,根據(jù)各個特征點的位置分計算32×32的128位SIFT特征,然后將這些SIFT特征連接起來,輸入到線性SVM中進行訓(xùn)練。這樣就可以根據(jù)線性SVM的得分為閾值來評判人臉對齊的結(jié)果。本文實驗中閾值為0.3,小于0.3的就認為該人臉對齊結(jié)果不符合要求,如圖1所示。
圖1 人臉對齊算法產(chǎn)生的人臉特征點位置
2 基于有限狀態(tài)機的張嘴和眨眼動作識別
對視頻進行人臉檢測和人臉對齊后,就可以得到如圖1(b)所示的人臉對齊特征點位置??梢愿鶕?jù)各個特征點位置來估計人臉的姿態(tài),只需判斷張嘴和眨眼動作即可。以右眼為例,右眼的左右眼角的特征點位置標(biāo)號分別為0和2,上下眼皮的特征點位置標(biāo)號分別為1和3,那么可以計算當(dāng)前眼睛的寬和高,并根據(jù)下式可以判斷右眼的狀態(tài):
J(P)=||P0(x)-P2(x)||P3(y)-P1(y)(2)
其中,Pi(x)和Pi(y)分別特征點i的x和y的坐標(biāo)值,J(P)為右眼的寬和高的比例。根據(jù)眼睛的寬和高的比例,就可以確定當(dāng)前眼睛是處于睜開狀態(tài)還是閉眼狀態(tài),同理可以估計左眼和嘴巴的狀態(tài)。
對于張閉嘴和眨眼動作,它們是一個序列,張閉嘴動作表示從開始的閉嘴狀態(tài)轉(zhuǎn)換到張嘴狀態(tài)再到閉嘴狀態(tài)來完成整個動作,同理眨眼動作也是由睜眼狀態(tài)轉(zhuǎn)換到閉眼狀態(tài)再轉(zhuǎn)換到睜眼狀態(tài)。通過有限狀態(tài)來完成張閉嘴和眨眼動作的檢測。以張閉嘴動作為例,首先算法進入初始狀態(tài)(0),如果當(dāng)前為張嘴狀態(tài)則繼續(xù)在原狀態(tài)循環(huán),如果檢測到閉嘴狀態(tài),則轉(zhuǎn)入到閉嘴狀態(tài)(1);在閉嘴狀態(tài)(1)時,如果檢測嘴巴是閉合,則繼續(xù)在原狀態(tài),如果檢測到嘴巴張開,則跳轉(zhuǎn)到張嘴狀態(tài)(2);在張嘴狀態(tài)(2)時,如果檢測到嘴巴還張著,則繼續(xù)在原狀態(tài),如果檢測到嘴巴閉上,則跳轉(zhuǎn)到張嘴動作完成狀態(tài)(3),此時表示判斷用戶完成了張閉嘴的整個動作,返回動作成功的結(jié)果,如圖2所示。
圖2 張閉嘴動作檢測的有限狀態(tài)機
3 基于交互式隨機動作序列的活體檢測
識別視頻中的人臉動作后,就可以根據(jù)需要發(fā)出指令讓用戶來完成相應(yīng)的動作。本文設(shè)計了“張閉嘴動作”、“左眼睜開右眼閉上”和“右眼睜開左眼閉上”3種動作,由于眨眼動作是無意識的,讓用戶強行控制會不自然,所以沒有采用。在活體認證時,計算機檢測到人臉后,并進行人臉對齊,這樣可以根據(jù)特征點位置來分析人臉的動作。然后計算機從上述的3個動作中隨機選取一個,要求用戶在5秒鐘內(nèi)完成,計算機根據(jù)特征點位置來分析用戶是否完成動作。交互式動作認證重復(fù)8次,計算機根據(jù)這8次的識別結(jié)果判斷用戶是否按要求完成動作,以確定攝像機中的用戶是否是活體。在整個認證過程中,計算機對用戶人臉進行跟蹤,以防止用戶認證過程中切換視頻,如果計算機發(fā)現(xiàn)跟蹤中斷,認證過程中止。
由于每一次的動作是從3個動作中隨機選取,那么8次認證所產(chǎn)生的可能總數(shù)為=6 561種,所以使用圖片或者預(yù)先錄制的視頻通過認證的概率是非常低的。在實際的活體認證應(yīng)用場景中,一般會限制用戶進行認證的次數(shù),對于異常的認證結(jié)果會引起人工核查,所以在實際的使用中通過圖片或者預(yù)先錄制的視頻通過認證幾乎是不可能的。活體認證系統(tǒng)采用Visual C++實現(xiàn),在主流的計算機上運行速度可以達到實時。
4 結(jié)語
本文提出了一種基于交互式隨機動作序列的活體檢測方法,通過視頻人臉檢測和人臉對齊算法定位人臉特征點,根據(jù)人臉特征點位置估計人臉動作。設(shè)計了3種隨機動作進行交互式認證,根據(jù)概率認證了該方法可以很好地防止照片和視頻對活體認證攻擊。
參考文獻參考文獻:
[1] 楊健偉.面向人臉識別的人臉活體檢測方法研究.[D].北京:北京郵電大學(xué),2014.
[2] 羅浩.人臉識別中的活體檢測方法研究.[D].長沙:湖南師范大學(xué),2015.
[3] 劉華成 .人臉活體檢測關(guān)鍵技術(shù)研究.[D].寧波:寧波大學(xué),2014.
[4] PINTO A,ROBSON SCHWARTZ W,PEDRINI H,et al.Using visual rhythms for detecting videobased facial spoof attacks[J].Information Forensics and Security,2015,10(5):10251038.
[5] X TAN,Y LI,J LIU,L JIANG.Face liveness detection from a single image with sparse low rank bilinear discriminative model[C].Proc.11th Eur.Conf.Comput.Vis,2010.
[6] W R SCHWARTZ,A ROCHA,H PEDRINI.Face spoofing detection through partial least squares and lowlevel descriptors.[C]Proc.Int.Joint Conf.Biometrics,2011.
[7] XIONGET F,DE LA TORRE.Supervised descent method and its applications to face alignment[J].CVPR,2013.
[8] DAVID G LOWE,Distinctive image features from scaleinvariant keypoints[J].International Journal of Computer Vision,2004(2):91110
[9] NAVNEET DALAL,BILL TRIGGS.Histograms of oriented gradients for human detection[C].International Conference on Computer Vision & Pattern Recognition,2005.
[10] JAIN V,LEARNEDMILLER,E FDDB.A benchmark for face detection in unconstrained settings[M]Tech.Rep.UMCS2010009,University of Massachusetts,Amherst,2010.
(責(zé)任編輯:陳福時)