楊瑞杰,鄭貴林
基于InceptionV3和特征融合的人臉活體檢測
楊瑞杰*,鄭貴林
(武漢大學(xué) 電氣與自動化學(xué)院,武漢 430072)( ? 通信作者電子郵箱2323309093@qq.com)
針對身份驗(yàn)證中經(jīng)常出現(xiàn)的照片欺詐問題,提出了一種基于InceptionV3和特征融合的人臉活體檢測模型——InceptionV3_FF。首先,在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練InceptionV3模型;其次,從InceptionV3模型的不同層得到圖像的淺層、中層和深層特征;然后,將不同的特征進(jìn)行融合得到最終的特征;最后,使用全連接層對特征進(jìn)行分類,從而實(shí)現(xiàn)端到端的訓(xùn)練。InceptionV3_FF模型在NUAA數(shù)據(jù)集和自制的STAR數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,InceptionV3_FF模型在NUAA數(shù)據(jù)集和STAR數(shù)據(jù)集上分別取得了99.96%和98.85%的準(zhǔn)確率,高于InceptionV3遷移學(xué)習(xí)和遷移微調(diào)模型;而與非線性擴(kuò)散卷積神經(jīng)網(wǎng)絡(luò)(ND-CNN)、擴(kuò)散核(DK)、異構(gòu)內(nèi)核卷積神經(jīng)網(wǎng)絡(luò)(HK-CNN)等模型相比,InceptionV3_FF模型在NUAA數(shù)據(jù)集上的準(zhǔn)確率更高,具備一定的優(yōu)越性。InceptionV3_FF模型對數(shù)據(jù)集中隨機(jī)抽取的單張圖片進(jìn)行識別時(shí),僅需4 ms。InceptionV3_FF模型和OpenCV結(jié)合構(gòu)成的活體檢測系統(tǒng)可以對真假人臉進(jìn)行識別。
活體檢測;特征融合;人臉識別;ImageNet數(shù)據(jù)集;NUAA數(shù)據(jù)集;遷移學(xué)習(xí)
人臉欺詐問題是圖像識別領(lǐng)域的重要研究課題,也是人臉識別應(yīng)用中重要的一環(huán),按照其欺詐方式的不同可以分為照片欺詐[1-2]、視頻欺詐[3-4]和3D人臉欺詐[5-6],本文主要研究的是照片欺詐。
人臉活體檢測模型大致可以分為傳統(tǒng)的活體檢測模型和基于深度學(xué)習(xí)的活體檢測模型兩大類。Kim等[7]選取685 nm和850 nm兩個(gè)紅外光波段,將波段下采集的人臉圖像投影到二維空間進(jìn)行真假人臉分類。Boulkenafet等[2]重點(diǎn)研究了亮度和顏色,利用顏色和紋理的聯(lián)合信息進(jìn)行識別,取得了很好的結(jié)果。但是,傳統(tǒng)的模型依賴于手工設(shè)計(jì)特征,特征代表性不強(qiáng),很難分辨高清圖片和真實(shí)人臉之間的細(xì)微差別?;诖?,更多的研究者將目光轉(zhuǎn)向了深度學(xué)習(xí)。
Atoum等[8]利用卷積神經(jīng)網(wǎng)絡(luò)提取圖片特征,將人臉深度圖作為真假人臉的分類依據(jù),進(jìn)行真假人臉識別。Liu等[9]提出利用時(shí)間和空間信息作為輔助信息得到的識別模型的準(zhǔn)確率超過了以局部二值模式(Local Binary Pattern, LBP)[10]為代表的傳統(tǒng)圖像分類模型。Tang等[11]提出使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)從人臉圖像中提取不同的特征(時(shí)間特征、顏色特征、局部特征)并進(jìn)行特征融合,利用融合后的特征進(jìn)行活體檢測分類。
為應(yīng)對小樣本數(shù)據(jù)集的問題,Lucena等[12]提出采用遷移學(xué)習(xí)的方式將VGG16(Visual Genometer Group)遷移過來,修改分類層,得到的模型結(jié)果也不錯(cuò)。鄧雄等[13]遷移MobileNetV2模型從RGB、HSV、局部二值模式(LBP)三種圖像中提取特征進(jìn)行融合,在SiW數(shù)據(jù)集上取得了較低的錯(cuò)誤率。
之后,更多的學(xué)者開始探索使用不同的特征進(jìn)行融合,來更好地分類圖像。欒曉等[14]提出的模型因?yàn)槿诤狭松疃葓D上的深度信息、光流圖上的動態(tài)信息以及殘差噪聲圖上的二次成像噪聲信息,在NUAA等數(shù)據(jù)集上取得了不錯(cuò)的結(jié)果。Tronci等[15]提出了融合紋理信息和運(yùn)動信息的活體檢測模型。Yan等[16]提出將非剛性運(yùn)動、人臉背景一致性、圖像條紋效應(yīng)三種特征融合后進(jìn)行活體檢測模型。Wang等[17]融合深度信息和紋理信息進(jìn)行人臉活體檢測。蔡佩等[18]提出了基于CNN和亮度均衡的人臉活體檢測模型。封筠等[19]使用融合后的DQ_CoALBP(Different Quantization Co-occurrence of Adjacent Local Binary Pattern)和局部相位量化(Local Phase Quantization, LPQ)算子進(jìn)行特征提取并用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行人臉欺詐判別。Li等[20]設(shè)計(jì)了融合邊緣檢測的雙目立體網(wǎng)絡(luò)進(jìn)行活體檢測。
基于深度學(xué)習(xí)的算法可以有效彌補(bǔ)傳統(tǒng)算法的不足。但是大部分的研究都是專注于如何更好地提取圖像的深層特征,或者融合不同的深度特征進(jìn)行分類,而關(guān)于如何融合圖像的淺層、中層和深層特征的研究較少;所以,本文提出一種基于InceptionV3[21]和特征融合的人臉活體檢測模型InceptionV3_FF(InceptionV3 and Feature Fusion),該模型從預(yù)訓(xùn)練的IncepionV3模型的不同層中得到圖像的淺層、中層和深層特征,并將所有特征進(jìn)行融合,最后使用softmax全連接層進(jìn)行分類。
本文所使用的數(shù)據(jù)集是NUAA數(shù)據(jù)集和STAR數(shù)據(jù)集。NUAA數(shù)據(jù)集是通過電腦攝像頭捕獲得到的。真實(shí)人臉圖像是在不同的位置不同的光照條件下收集的15個(gè)受訪者在受到限制條件下(不隨意的頭部運(yùn)動和眨眼,使得盡可能與虛假圖像相像)的圖像。虛假圖像是先使用相機(jī)捕獲面部圖像,再將其打印在尺寸為6.8 cm×10.2 cm、8.9 cm×12.7 cm的相紙(使用傳統(tǒng)照片打印方法)和70張GSM A4紙張(使用彩色HP打印機(jī)),最后使用網(wǎng)絡(luò)攝像頭重新捕獲這3類獲得的。
STAR數(shù)據(jù)集的真實(shí)人臉圖像是從互聯(lián)網(wǎng)上下載的照片、海報(bào)、證件照等。虛假人臉圖像是通過手機(jī)拍攝的在不同光照條件下的雜志、電腦屏幕上的照片。真假數(shù)據(jù)集涉及的人物只有部分重合,類間差異比較大。
將NUAA數(shù)據(jù)集和STAR數(shù)據(jù)集中的圖像按照6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。表1中的數(shù)字代表的是劃分后的圖像的數(shù)量。
表1數(shù)據(jù)集的劃分
Tab.1 Dataset partitioning
NUAA數(shù)據(jù)集和STAR數(shù)據(jù)集都屬于小樣本數(shù)據(jù)集,為了提高數(shù)據(jù)集的復(fù)雜度,對數(shù)據(jù)集中的圖像進(jìn)行數(shù)據(jù)增強(qiáng),具體的圖像增強(qiáng)的參數(shù)如表2所示。
表2數(shù)據(jù)增強(qiáng)參數(shù)
Tab.2 Data augmentation parameters
遷移學(xué)習(xí)[22]的核心思想是找出問題之間的相似性,完成遷移。遷移學(xué)習(xí)可以有效解決深度學(xué)習(xí)應(yīng)用時(shí)所遇到的數(shù)據(jù)集小、訓(xùn)練平臺配置低、模型訓(xùn)練時(shí)間長的問題。遷移學(xué)習(xí)的具體方法是將在源域訓(xùn)練好的數(shù)據(jù)、模型或特征遷移到目標(biāo)域上使用。遷移學(xué)習(xí)可以分為基于實(shí)例的遷移學(xué)習(xí)、基于特征的遷移學(xué)習(xí)、基于關(guān)系的遷移學(xué)習(xí)和基于模型的遷移學(xué)習(xí)這四種。
本文所使用的遷移方式是基于模型的遷移,是將在源域訓(xùn)練好的模型的結(jié)構(gòu)和參數(shù)遷移到目標(biāo)域的一種遷移方法。具體表現(xiàn)為將在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的模型InceptionV3保存后,遷移到NUAA數(shù)據(jù)集和STAR數(shù)據(jù)集進(jìn)行使用。ImageNet數(shù)據(jù)集有14 197 122幅圖像,數(shù)據(jù)集大、質(zhì)量高,可以訓(xùn)練出很深的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在圖像分類領(lǐng)域應(yīng)用廣泛。
InceptionV3模型是由谷歌團(tuán)隊(duì)搭建的,取得了2014年ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比賽的冠軍。InceptionV3深度為159,共23 903 010個(gè)參數(shù),大小為92 MB。InceptionV1模型的貢獻(xiàn)是在模型中加入了1×1的卷積核,起到了降低特征圖厚度的作用。InceptionV2模型的貢獻(xiàn)是加入了BN(Batch Normalization)層,使每一層的輸出都規(guī)范化到一個(gè)N(0,1)的高斯,并且使用2個(gè)3×3的卷積核替代Inception模塊中的5×5卷積核,既降低了參數(shù)數(shù)量,也加快了計(jì)算。InceptionV3模型的貢獻(xiàn)是拆分網(wǎng)絡(luò),使得網(wǎng)絡(luò)深度進(jìn)一步增加,也增加了網(wǎng)絡(luò)的非線性。
InceptionV3的模型展開后共有312層,結(jié)構(gòu)如圖1所示。圖1中Much層代表多層網(wǎng)絡(luò)結(jié)構(gòu)(多個(gè)卷積層、池化層、激活層)。第1個(gè)Much代表模型的1~39層,第2個(gè)Much代表模型的41~163層,第3個(gè)Much代表模型的164~310層。Mixed0、Mixed5、Mixed10代表的是模型的層名。
圖1 InceptionV3的結(jié)構(gòu)
根據(jù)Zeiler等[23]的研究可知,1~2次卷積可以得到圖像的顏色、邊緣等淺層特征,3次卷積可以得到圖像的紋理特征,5次左右可以得到圖像具有辨別性的關(guān)鍵特征,卷積次數(shù)越多,得到的圖像特征相對就越深、分類效果越好,所以取Mixed0層的輸出作為淺層特征,取Mixed5層的輸出作為中層特征,取Mixed10層的輸出作為深層特征。然后,將得到的淺層、中層、深層特征進(jìn)行融合,得到最終的特征輸入全連接層進(jìn)行分類。
本文提出的InceptionV3_FF(InceptionV3 and Feaure Fusion)模型共有10層,深度為6,模型結(jié)構(gòu)如圖2所示。Pooling代表的是全局平均池化(GlobalAveragePooling2D)。
圖2 InceptionV3_FF的結(jié)構(gòu)
從圖2中可以看出,InceptionV3_FF模型由三部分組成:輸入層、特征提取層和分類層。輸入層輸入的是圖像預(yù)處理后的圖像。特征提取層由Model1、Model2、Model3三部分組成。Model1代表的是圖1的Model1,指的是遷移的InceptionV3模型的0~40層的網(wǎng)絡(luò)模型;Model2代表的是圖1的Model2,指的是遷移的InceptionV3模型的0~164層的網(wǎng)絡(luò)模型;Model3代表的是圖1的Model3,指的是遷移的InceptionV3模型的0~310層的網(wǎng)絡(luò)模型。ReLU(Rectified Liner Unit)層指的是激活函數(shù)為ReLU的全連接層,Softmax層指的是激活函數(shù)為Softmax的全連接層,用于分類。
InceptionV3_FF模型的Model1提取的是圖像的淺層特征,Model2提取的是圖像的中層特征,Model3提取的是圖像的深層特征。InceptionV3_FF模型進(jìn)行訓(xùn)練時(shí)學(xué)習(xí)率(learning rate)設(shè)為0.005,采用accuray作為模型的評價(jià)指標(biāo),模型訓(xùn)練200次,每一批次有20幅圖像。
InceptionV3_FF模型的結(jié)構(gòu)如圖2所示,模型采取隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)進(jìn)行訓(xùn)練,學(xué)習(xí)率是0.005,動量是0.9,loss采取categorical_crossentropy,每批次數(shù)據(jù)有20個(gè),訓(xùn)練200 epoch,每個(gè)epoch訓(xùn)練100次。
InceptionV3_FF模型在NUAA數(shù)據(jù)集上訓(xùn)練200個(gè)epoch后,訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率變化曲線如圖3所示。取最后10個(gè)epoch的平均值作為最終的值,故訓(xùn)練集的準(zhǔn)確率為99.81%,驗(yàn)證集的準(zhǔn)確率為99.96%。加載模型對測試集中的數(shù)據(jù)進(jìn)行測試,測試集的準(zhǔn)確率為99.96%。
從圖3中可以看出,模型訓(xùn)練50個(gè)epoch左右就達(dá)到了一定的準(zhǔn)確率,隨著訓(xùn)練步數(shù)的增加,模型的準(zhǔn)確率逐漸趨于穩(wěn)定。實(shí)驗(yàn)結(jié)果表明,InceptionV3_FF模型在NUAA數(shù)據(jù)集上的訓(xùn)練測試結(jié)果波動較小,準(zhǔn)確率很高。
圖3 InceptionV3_FF模型準(zhǔn)確率(NUAA數(shù)據(jù)集)
圖4是InceptionV3_FF模型在NUAA數(shù)據(jù)集上訓(xùn)練時(shí)訓(xùn)練集和驗(yàn)證集的損失函數(shù)變化。圖4的損失函數(shù)變化表明,模型的準(zhǔn)確率雖然很高,但是并沒有出現(xiàn)過擬合現(xiàn)象。
圖4 InceptionV3_FF模型損失函數(shù)(NUAA數(shù)據(jù)集)
將InceptionV3_FF模型按照同樣的超參數(shù)設(shè)置,在STAR數(shù)據(jù)集上訓(xùn)練200 epoch,得到的模型的結(jié)果如圖5所示,訓(xùn)練集準(zhǔn)確率為99.8%,驗(yàn)證集準(zhǔn)確率為98.9%,測試集的結(jié)果為98.85%。InceptionV3_FF模型在STAR數(shù)據(jù)集上也能夠得到較好的結(jié)果。
圖5 InceptionV3_FF模型準(zhǔn)確率(STAR數(shù)據(jù)集)
圖6是InceptionV3_FF模型在STAR數(shù)據(jù)集上訓(xùn)練時(shí)訓(xùn)練集和驗(yàn)證集的損失函數(shù)變化。圖6的損失函數(shù)變化表明,模型在STAR數(shù)據(jù)集上沒有出現(xiàn)過擬合現(xiàn)象。
圖6 InceptionV3_FF模型損失函數(shù)(STAR數(shù)據(jù)集)
InceptionV3_FF模型在兩種數(shù)據(jù)集上都取得了很好的效果,表明了InceptionV3_FF模型結(jié)構(gòu)的有效性。為了進(jìn)一步驗(yàn)證算法的優(yōu)越性,將InceptionV3_FF模型與InceptionV3_T模型(遷移)和InceptionV3_TL模型(遷移+微調(diào))進(jìn)行對比分析。
將在ImageNet預(yù)訓(xùn)練好的InceptionV3模型去除分類層后遷移到新數(shù)據(jù)集上,加上新的分類層后得到新的模型。只訓(xùn)練分類層得到的是InceptionV3_T模型;訓(xùn)練分類層,并微調(diào)特征提取層得到的是InceptionV3_TL模型。將3個(gè)算法模型在NUAA數(shù)據(jù)集和STAR數(shù)據(jù)集中的測試結(jié)果進(jìn)行對比,對比結(jié)果如表3所示,其中AUC(Area Under Curve)為ROC曲線下的面積。
表33種模型的測試結(jié)果對比
Tab.3 Comparison of test results of three models
從表3中可以看出:1)無論是在NUAA數(shù)據(jù)集中還是在STAR數(shù)據(jù)集中,InceptionV3_FF模型的準(zhǔn)確率都要高于InceptionV3_T和InceptionV3_TL;2)三種模型在NUAA數(shù)據(jù)集上取得的結(jié)果都要優(yōu)于STAR數(shù)據(jù)集上的結(jié)果。
將本文提出的InceptionV3_FF模型與其他文獻(xiàn)模型進(jìn)行對比,對比結(jié)果如表4所示。Alotaibi等[24]提出了基于非線性擴(kuò)散核深度卷積神經(jīng)網(wǎng)絡(luò)(Nonlinear Diffusion-CNN, ND-CNN)的模型。非線性擴(kuò)散的作用是通過快速擴(kuò)散輸入圖像,幫助區(qū)分假圖像和真實(shí)圖像,深度卷積神經(jīng)網(wǎng)絡(luò)用來提取最重要的特征,從而實(shí)現(xiàn)更好的分類。Yu等[25]提出的擴(kuò)散核(Diffusion Kernel, DK)模型是通過廣義多核學(xué)習(xí)方法融合擴(kuò)散核(DK)特征和深度特征進(jìn)行分類。蔡祥云[26]提出了基于局部感受野的極限學(xué)習(xí)機(jī)(Extreme Learning Machine-Local Receptive Field, ELM-LRF)模型。該模型的特點(diǎn)在于隨機(jī)生成輸入權(quán)重,然后采用正則化最小二乘法解析計(jì)算出輸出權(quán)重。陳路燕[27]使用ResNet50的網(wǎng)絡(luò)架構(gòu)提取圖像的深度特征,之后引入壓縮-激勵(lì)模塊SE(Squeeze and Excitation)協(xié)助特征分類。盧鑫[28]提出的異構(gòu)內(nèi)核卷積神經(jīng)網(wǎng)絡(luò)(Heterogeneous Kernel-CNN, HK-CNN)模型是通過重新構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)的卷積核來完成活體檢測。曲嘯楓[29]提出的基于紋理特征融合的模型,融合了局部二值模式(LBP)、灰度分布統(tǒng)計(jì)(Gray Statistics, GS)、灰度共生矩陣(Gray Level Co-occurrence Matrix, GLCM)在時(shí)空域上的紋理特征和對偶樹復(fù)小波變換(Dual-Tree Complex Wavelet Transform, DT-CWT)動態(tài)紋理特征在頻率域上的信息,在NUAA數(shù)據(jù)集上取得了較高的準(zhǔn)確率。李新豆等[30]提出的模型使用兩個(gè)支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行分類:一個(gè)支持向量的輸入特征是使用LBP提取的擴(kuò)散速度特征,另一個(gè)則是圖像的模糊特征和色彩紋理特征。
從表4中可以看出,本文模型InceptionV3_FF通過InceptionV3模型提取圖像的淺層、中層和深層特征進(jìn)行融合分類,在NUAA數(shù)據(jù)集上取得了較高的準(zhǔn)確率。相較于其他模型,本文模型具有一定的優(yōu)越性。
表4不同模型的準(zhǔn)確率結(jié)果對比 單位:%
Tab.4 Accuracy results comparison of different models unit:%
InceptionV3_FF模型的圖像識別實(shí)驗(yàn),主要分為兩步:單張圖片的識別和基于OpenCV的識別系統(tǒng)。對單張圖片進(jìn)行識別時(shí),平均單次識別僅需要4 ms。InceptionV3_FF模型與OpenCV相結(jié)合,構(gòu)成了活體檢測系統(tǒng),證明本文的模型具備實(shí)際應(yīng)用的價(jià)值。InceptionV3_FF模型是在NUAA數(shù)據(jù)集上訓(xùn)練得到的。
本文的InceptionV3_FF模型對從NUAA數(shù)據(jù)集中隨機(jī)抽取的圖片進(jìn)行檢測,檢測結(jié)果如圖7所示。圖7(a)是從數(shù)據(jù)集隨機(jī)抽取的一張真實(shí)人臉圖像,圖7(b)是模型對圖7(a)進(jìn)行識別后的結(jié)果,圖7(c)是從數(shù)據(jù)集中隨機(jī)抽取的一張?zhí)摷偃四槇D像,圖7(d)是模型對圖7(c)進(jìn)行識別后的結(jié)果。
圖7 圖片識別結(jié)果
InceptionV3_FF模型對于隨機(jī)抽取的圖片均能正確識別分類。識別單張圖片平均需要4 ms,識別效率較高。
利用OpenCV來進(jìn)行人臉活體檢測的實(shí)時(shí)識別,分為兩個(gè)步驟:檢測到人臉并畫框,識別人臉真假。檢測人臉?biāo)褂玫氖荋aar Cascade算法。
Haar分類器由Haar特征提取、離散強(qiáng)分類器、強(qiáng)分類級聯(lián)器組成,核心思想是提取人臉的Haar特征,使用積分圖對特征進(jìn)行快速計(jì)算,然后挑選出少量關(guān)鍵特征,送入由強(qiáng)分類器組成的級聯(lián)分類器進(jìn)行迭代訓(xùn)練。采用OpenCV中的Haar Cascade算法檢測到圖像中的人臉后,使用本文得到的InceptionV3_FF模型對攝像頭采集到的人臉圖像進(jìn)行識別。
檢測的數(shù)據(jù)共分為兩類:一類是由三名志愿者提供的真實(shí)人臉,識別結(jié)果如圖8所示;一類是由三名志愿者手持本人照片的圖像,識別結(jié)果如圖9所示。模型的識別結(jié)果標(biāo)注在人臉框的左上角。spoof和true分別是虛假人臉和真實(shí)人臉的標(biāo)簽。窗口的標(biāo)題是Live Face Detection。
圖8 真實(shí)人臉識別結(jié)果
圖9 真實(shí)和虛假人臉識別結(jié)果
從圖8、9中可以看出,InceptionV3_FF模型對于真假人臉均能正確識別。
針對身份驗(yàn)證中經(jīng)常出現(xiàn)的照片欺詐問題,現(xiàn)有的研究很少有關(guān)于圖像的淺層、中層和深層特征融合的現(xiàn)狀,本文提出了一種基于InceptionV3和特征融合的人臉活體檢測模型——InceptionV3_FF。所提InceptionV3_FF模型在 STAR數(shù)據(jù)集上取得了98.85%的準(zhǔn)確率,在NUAA數(shù)據(jù)集上取得了99.96%的準(zhǔn)確率。將InceptionV3_FF算法與遷移學(xué)習(xí)和遷移微調(diào)的模型相比,實(shí)驗(yàn)結(jié)果表明,InceptionV3_FF模型的準(zhǔn)確率更高。將InceptionV3_FF模型在NUAA數(shù)據(jù)集上的結(jié)果與ND-CNN、DK、HK-CNN、ELM-LRF等7種模型對比,對比結(jié)果表明本文模型的準(zhǔn)確率更高。本文使用InceptionV3_FF模型對隨機(jī)抽取的圖片進(jìn)行識別,識別結(jié)果無誤,單次識別僅需4 ms;且使用OpenCV和本文模型結(jié)合搭建一個(gè)活體檢測系統(tǒng),對三種人臉圖像進(jìn)行識別,識別結(jié)果無誤。本文模型具備應(yīng)用的條件,只是模型參數(shù)較多,若需要應(yīng)用到移動端,需要進(jìn)行一定的模型壓縮。
[1] BOULKENAFET Z, KOMULAINE J, HADID A. Face anti-spoofing based on color texture analysis[C]// Proceedings of the 2015 IEEE International Conference on Image Processing. Piscataway: IEEE, 2015: 2636-2640.
[2] BOULKENAFET Z, KOMULAINEN J, HADID A. Face spoofing detection using colour texture analysis[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(8):1818-1830.
[3] LI X B, KOMULAINEN J, ZHAO G Y, et al. Generalized face anti-spoofing by detecting pulse from face videos[C]// Proceedings of the 23rd International Conference on Pattern Recognition. Piscataway: IEEE, 2016: 4244-4249.
[4] CHINGOVSKA I, ERDOGMUS N, ANJOS A, et al. Face recognition systems under spoofing attacks [M]// BOURLAI T. Face Recognition Across the Imaging Spectrum. Cham: Springer, 2016:165-194.
[5] LIU S Q, LAN X Y, YUEN P C. Remote photoplethysmography correspondence feature for 3D mask face presentation attack detection[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11220. Cham: Springer, 2018:577-594.
[6] COSTA-PAZO A, BHATTACHARJEE S, VAZQUEZ-FERNANDEZ E, et al. The replay-mobile face presentation-attack database[C]// Proceedings of the 2016 International Conference of the Biometrics Special Interest Group. Piscataway: IEEE, 2016:1-7.
[7] KIM Y, NA J, YOON S, et al. Masked fake face detection using radiance measurements[J]. Journal of the Optical Society of America A, 2009, 26(4):760-766.
[8] ATOUM Y, LIU Y J, JOURABLOO A, et al. Face anti-spoofing using patch and depth-based CNNs[C]// Proceedings of the 2017 IEEE International Joint Conference on Biometrics. Piscataway: IEEE, 2017: 319-328.
[9] LIU Y J, JOURABLOO A, LIU X M. Learning deep models for face anti-spoofing: binary or auxiliary supervision[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 389-398.
[10] DE FREITAS PEREIRA T, ANJOS A, DE MARTINO J M, et al.based countermeasure against face spoofing attacks[C]// Proceedings of the 2012 Asian Conference on Computer Vision, LNCS 7728. Berlin: Springer, 2013:121-132.
[11] TANG Y, WANG X, JIA X, et al. Fusing multiple deep features for face anti-spoofing[C]// Proceedings of the 2018 Chinese Conference on Biometric Recognition, LNCS 10996. Cham: Springer, 2018: 321-330.
[12] LUCENA O, JUNIOR A, MOIA V, et al. Transfer learning using convolutional neural networks for face anti-spoofing[C]// Proceedings of the 2017 International Conference on Image Analysis and Recognition, LNCS 10317. Cham: Springer, 2017: 27-34.
[13] 鄧雄,王洪春. 基于深度學(xué)習(xí)和特征融合的人臉活體檢測算法[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(4):1009-1015.(DENG X, WANG H C. Face liveness detection algorithm based on deep learning and feature fusion[J]. Journal of Computer Applications, 2020, 40(4):1009-1015.)
[14] 欒曉,李曉雙. 基于多特征融合的人臉活體檢測算法[J]. 計(jì)算機(jī)科學(xué), 2021, 48(11A):409-415.(LUAN X, LI X S. Face anti-spoofing algorithm based on multi-feature fusion[J]. Computer Science, 2021, 48(11A):409-415.)
[15] TRONCI R, MUNTONI D, FADDA G, et al. Fusion of multiple clues for photo-attack detection in face recognition systems[C]// Proceedings of the 2011 International Joint Conference on Biometrics. Piscataway: IEEE, 2011:1-6.
[16] YAN J J, ZHANG Z W, LEI Z, et al. Face liveness detection by exploring multiple scenic clues[C]// Proceedings of the 12th International Conference on Control Automation Robotics and Vision. Piscataway: IEEE, 2012: 188-193.
[17] WANG Y, NIAN F D, LI T, et al. Robust face anti-spoofing with depth information[J]. Journal of Visual Communication and Image Representation, 2017, 49: 332-337.
[18] CAI P, QUAN H M. Face anti-spoofing algorithm combined with CNN and brightness equalization[J]. Journal of Central South University, 2021, 28(1):194-204.
[19] 封筠,董祉怡,劉甜甜,等. 融合DQ_CoALBP和LPQ算子的人臉活體檢測[J/OL]. 計(jì)算機(jī)工程與應(yīng)用. (2021-04-19) [2021-05-10].http://kns.cnki.net/kcms/detail/11.2127.TP.20210419.1401.045.html.(FENG J, DONG Z Y, LIU T T, et al. Face anti-spoofing liveness detection based on combining DQ_CoALBP with LPQ descriptors[J/OL]. Computer Engineering and Applications. (2021-04-19) [2021-05-10].http://kns.cnki.net/kcms/detail/11.2127.TP.20210419.1401.045.html.)
[20] LI C Y, LI R, SUN J H. CNN face live detection algorithm based on binocular camera[J]. Journal of Physics: Conference Series, 2021, 1881(2): No.022015.
[21] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1-9.
[22] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
[23] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8689. Cham: Springer, 2014: 818-833.
[24] ALOTAIBI A, MAHMOOD A. Deep face liveness detection based on nonlinear diffusion using convolution neural network[J]. Signal, Image and Video Processing, 2017, 11(4): 713-720.
[25] YU C Y, JIA Y D. Anisotropic diffusion-based kernel matrix model for face liveness detection[EB/OL]. (2017-07-10) [2021-05-22].https://arxiv.org/pdf/1707.02692.pdf.
[26] 蔡祥云. 人臉識別中的活體檢測及應(yīng)用研究[D]. 蘭州:蘭州交通大學(xué), 2020:34-48.(CAI X Y. Research on spoofing detection and application in face recognition[D]. Lanzhou: Lanzhou Jiaotong University, 2020:34-48.)
[27] 陳路燕. 人臉識別中的活體檢測算法研究[D]. 北京:北京郵電大學(xué), 2020:23-38.(CHEN L Y. Research on face anti-spoofing algorithm in face recognition[D]. Beijing: Beijing University of Posts and Telecommunications, 2020:23-38.)
[28] 盧鑫. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉活體檢測研究[D]. 鞍山:遼寧科技大學(xué), 2020:39-48.(LU X. Research of face liveness detection based on improved convolutional neural network[D]. Anshan: University of Science and Technology Liaoning, 2020:39-48.)
[29] 曲嘯楓. 基于多特征融合的活體人臉檢測算法研究及應(yīng)用[D]. 濟(jì)南:濟(jì)南大學(xué), 2019:21-28.(QU X F. Research and application of face liveness detection based on multi-feature fusion[D]. Jinan: University of Jinan, 2019:21-28.)
[30] 李新豆,高陳強(qiáng),周風(fēng)順,等. 基于圖像擴(kuò)散速度模型和紋理信息的人臉活體檢測[J]. 計(jì)算機(jī)科學(xué), 2020, 47(2):112-117.(LI X D, GAO C Q, ZHOU F S, et al. Face liveness detection based on image diffusion speed model and texture information[J]. Computer Science, 2020, 47(2):112-117.)
YANG Ruijie, born in 1996, M. S. candidate. Her research interests include image recognition, object detection.
ZHENG Guilin, born in 1963, Ph. D., professor. His research interests include smart home, internet of things, computer vision.
Face liveness detection based on InceptionV3 and feature fusion
YANG Ruijie*, ZHENG Guilin
(,,430072,)
Aiming at the photo spoofing problem that often occurs in identity verification, a face liveness detection model based on InceptionV3 and feature fusion, called InceptionV3 and Feature Fusion (InceptionV3_FF), was proposed. Firstly, the InceptionV3 model was pretrained on ImageNet dataset. Secondly, the shallow, middle, and deep features of the image were obtained from different layers of the InceptionV3 model. Thirdly, different features were fused to obtain the final features. Finally, the fully connected layer was used to classify the features to achieve end-to-end training. The InceptionV3_FF model was simulated on NUAA dataset and self-made STAR dataset. Experimental results show that the proposed InceptionV3_FF model achieves the accuracy of 99.96% and 98.85% on NUAA dataset and STAR dataset respectively, which are higher than those of the InceptionV3 transfer learning and transfer fine-tuning models. Compared with Nonlinear Diffusion-CNN (ND-CNN), Diffusion Kernel (DK), Heterogeneous Kernel-Convolutional Neural Network (HK-CNN) and other models, the InceptionV3_FF model has higher accuracy on NUAA dataset and has certain advantages. When the InceptionV3_FF model recognizes a single image randomly selected from the dataset, it only takes 4 ms. The face liveness detection system consisted of the InceptionV3_FF model and OpenCV can identify real and fake faces.
liveness detection; feature fusion; face recognition; ImageNet dataset; NUAA dataset; transfer learning
TP183
A
1001-9081(2022)07-2037-06
10.11772/j.issn.1001-9081.2021050814
2021?05?18;
2022?02?23;
2022?02?25。
楊瑞杰(1996—),女,河南開封人,碩士研究生,主要研究方向:圖像識別、目標(biāo)檢測; 鄭貴林(1963—),男,湖北武漢人,教授,博士,主要研究方向:智能家居、物聯(lián)網(wǎng)、計(jì)算機(jī)視覺。