国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)特征融合的輕量級(jí)人臉活體檢測(cè)方法

2020-12-31 02:24皮家甜楊杰之楊琳希彭明杰趙立軍唐萬(wàn)梅吳至友
計(jì)算機(jī)應(yīng)用 2020年12期
關(guān)鍵詞:活體人臉卷積

皮家甜 ,楊杰之,楊琳希,彭明杰,鄧 雄,趙立軍,唐萬(wàn)梅,吳至友

(1.重慶師范大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 401331;2.重慶市數(shù)字農(nóng)業(yè)服務(wù)工程技術(shù)研究中心(重慶師范大學(xué)),重慶 401331;3.智慧金融與大數(shù)據(jù)分析重慶市重點(diǎn)實(shí)驗(yàn)室(重慶師范大學(xué)),重慶 401331;4.重慶師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,重慶 401331)

(?通信作者電子郵箱1093895431@qq.com)

0 引言

人臉識(shí)別技術(shù)現(xiàn)今已被廣泛使用,人臉活體檢測(cè)是提高人臉識(shí)別安全性的重要方法。人臉活體檢測(cè)是指系統(tǒng)會(huì)根據(jù)攝像頭捕捉到的人臉去辨別其是否為活體狀態(tài),通常可視為二分類問(wèn)題。傳統(tǒng)方法常在提取人臉圖像中的以局部二值模式(Local Binary Pattern,LBP)呈現(xiàn)的紋理特征以及色調(diào)、飽和度和明度(Hue,Saturation,Value;HSV)顏色空間等手工設(shè)計(jì)特征后,利用機(jī)器學(xué)習(xí)等方法去分辨真實(shí)人臉和假人臉。文獻(xiàn)[1]提取人臉圖像灰度化后的紋理特征進(jìn)行真假臉的判斷,文獻(xiàn)[2]利用HSV 與LBP 特征的融合來(lái)進(jìn)行活體檢測(cè)。雖然這類方法易實(shí)現(xiàn),具有一定屏蔽光照的影響且計(jì)算量少,能從單張圖片中預(yù)測(cè)結(jié)果,但對(duì)于一些低分辨率特征,準(zhǔn)確率和魯棒性均較低。這要求輸入圖像的質(zhì)量足夠高才能給出精確的判斷。

近年來(lái),深度學(xué)習(xí)占據(jù)了活體檢測(cè)的主導(dǎo)地位,通過(guò)搭建多層卷積神經(jīng)網(wǎng)絡(luò)篩選高層語(yǔ)義的特征來(lái)辨別目標(biāo)是否為活體。文獻(xiàn)[3]利用十三層網(wǎng)絡(luò)從RGB 圖像中抽取特征進(jìn)行訓(xùn)練以判別活體真?zhèn)危窃摲椒ú捎脭?shù)據(jù)集的總量少、攻擊形式過(guò)于單一,導(dǎo)致網(wǎng)絡(luò)泛化能力弱。文獻(xiàn)[4]提出了運(yùn)用多模態(tài)融合特征網(wǎng)絡(luò)FaceBagNet,通過(guò)訓(xùn)練CASIA-SURF 數(shù)據(jù)集,在TPR@FPR=10E-4 指標(biāo)上達(dá)到了99%的效果,但網(wǎng)絡(luò)模型參數(shù)巨大。文獻(xiàn)[5]分別采用18層、34層、50層的殘差網(wǎng)絡(luò)做人臉活體檢測(cè),雖然在準(zhǔn)確率上都有著良好的效果,但是該模型在實(shí)際應(yīng)用中并不具備實(shí)時(shí)性。

深度學(xué)習(xí)模型普遍有著龐大的計(jì)算量,意味著需要更優(yōu)良的設(shè)備,如圖形處理器(Graphics Processing Unit,GPU)、張量處理器(Tensor Processing Unit,TPU)等。隨著智能移動(dòng)端的發(fā)展,將深度學(xué)習(xí)模型嵌入至移動(dòng)端設(shè)備成為了現(xiàn)如今的業(yè)界的需求,國(guó)內(nèi)外研究者們提出了一系列降低卷積神經(jīng)網(wǎng)絡(luò)計(jì)算量的方法,如:Howard 等研究者提出MobileNet[6]和MobileNetV2[7]以及MobileNetV3[8]用于移動(dòng)端的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)。Iandola 等[9]研究者提出SqueezeNet,利用FireModule 模塊降低卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)量;但是SqueezeNet模型過(guò)于輕量,這種加寬網(wǎng)絡(luò)的方法并不能夠?yàn)槿四樆铙w檢測(cè)帶來(lái)優(yōu)良的效果。對(duì)于輕量級(jí)活體檢測(cè)的研究,Zhang等[10]研究者提出了輕量級(jí)網(wǎng)絡(luò)FeatherNet,用人臉的深度圖作為訓(xùn)練數(shù)據(jù),同時(shí)采取融合與級(jí)聯(lián)的方式來(lái)提高準(zhǔn)確率;雖然FeatherNet 是輕量級(jí)的網(wǎng)絡(luò),但是單個(gè)信息具有一定的局限性,雖然采用融合與級(jí)聯(lián)的方式來(lái)提高準(zhǔn)確率,但是算法的時(shí)間復(fù)雜度又增長(zhǎng)了不少,導(dǎo)致識(shí)別活體的時(shí)間變得較長(zhǎng)。

為了減少網(wǎng)絡(luò)的計(jì)算量,同時(shí)保證網(wǎng)絡(luò)精度,本文提出了一種基于MobileNetV3 的活體檢測(cè)模型,并優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),利用人臉的深度特征與顏色紋理特征的互補(bǔ)性,將人臉的深度信息與RGB 圖同時(shí)作為網(wǎng)絡(luò)輸入,并在網(wǎng)絡(luò)訓(xùn)練中進(jìn)行特征融合,將網(wǎng)絡(luò)的全局平均池化(Global Average Pooling,GAP)用Streaming Module 代替,在網(wǎng)絡(luò)的底層采用1×1 的卷積替代全連接層,以此降低參數(shù)量。在確保活體檢測(cè)速度提升的同時(shí)不降低活體檢測(cè)的精度,實(shí)驗(yàn)結(jié)果表明本文方法具有良好的檢測(cè)效果。

1 人臉活體檢測(cè)模型

基于單幀人臉的活體檢測(cè)一直是靜默活體檢測(cè)中最主要的方式,特征的豐富程度會(huì)決定著網(wǎng)絡(luò)的魯棒性。隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,融合的方法也在網(wǎng)絡(luò)中更加容易實(shí)現(xiàn),融合方法有決策層的決策級(jí)融合,還有卷積層的特征級(jí)融合,決策融合的優(yōu)勢(shì)在于當(dāng)Softmax 做決策分類時(shí),將多個(gè)決策結(jié)果進(jìn)行權(quán)衡得到最終輸出,其缺點(diǎn)在于若是多個(gè)結(jié)果差別巨大,則準(zhǔn)確結(jié)果不容易獲得。根據(jù)文獻(xiàn)[11]指出特征級(jí)融合可分為:“高層融合”“中層融合”和“底層融合”?!案邔尤诤稀奔刺卣鲌D于網(wǎng)絡(luò)的高層進(jìn)行融合,會(huì)提高網(wǎng)絡(luò)的泛化性,但是會(huì)帶來(lái)信息丟失,從而導(dǎo)影響判別的精度?!暗讓尤诤稀奔慈诤宵c(diǎn)位于輸入層,優(yōu)點(diǎn)在于保留了原始的數(shù)據(jù),缺點(diǎn)在于原始數(shù)據(jù)中同時(shí)也包含了冗余數(shù)據(jù),特征過(guò)早的融合也會(huì)帶來(lái)龐大的計(jì)算量,不利于網(wǎng)絡(luò)訓(xùn)練?!爸袑尤诤稀奔慈诤宵c(diǎn)位于網(wǎng)絡(luò)中層,既保留了網(wǎng)絡(luò)的原始數(shù)據(jù),同時(shí)也能夠提升網(wǎng)絡(luò)的泛化能力?;谏鲜龇治觯疚牟捎谩爸袑尤诤稀钡姆绞阶鳛榫W(wǎng)絡(luò)的主要框架,本文活體檢測(cè)模型如圖1所示。

1.1 MoibileNetV3網(wǎng)絡(luò)

MoibileNetV3 網(wǎng)絡(luò)結(jié)構(gòu)綜合了以下三種網(wǎng)絡(luò)思想:MobileNetV1的深度可分離卷積,MobileNetV2的具有線性瓶頸的逆殘差結(jié)構(gòu),以及MnasNet 的基于SE(Squeeze and Excitation)[12]結(jié)構(gòu)的輕量級(jí)注意力機(jī)制。MobileNetV3 是自動(dòng)機(jī)器學(xué)習(xí)算法NAS(Network Architecture Search)[13]以及NetAdapt算法[14]生成。激活函數(shù)采用的是HS(H-Swish),分別替換了修正線性單元(Rectified Linear Unit,ReLU)(簡(jiǎn)稱RE)以及Sigmoid,使用Swish 函數(shù)能夠增加網(wǎng)絡(luò)的精度但是也會(huì)帶來(lái)龐大的計(jì)算量,因此H-Swish 激活函數(shù)成為MobileNetV3的另一個(gè)核心思想。H-Swish激活函數(shù)的計(jì)算式如式(1)所示。

1.2 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化

1.2.1 瓶頸層優(yōu)化

瓶頸層最早由He 等[15]提出,Bottleneck(Bneck)不同于傳統(tǒng)的3×3 卷積層以及池化層,瓶頸層由1×1、3×3 和1×1卷積構(gòu)成:第一個(gè)1×1的卷積是為了匹配通道數(shù);第二個(gè)3×3 的卷積通過(guò)降低特征圖通道數(shù)來(lái)達(dá)到在通道低維空間中進(jìn)一步學(xué)習(xí);最后又通過(guò)1×1的卷積還原通道數(shù)。這樣做有利于網(wǎng)絡(luò)更高效的傳播,同時(shí)還會(huì)降低網(wǎng)絡(luò)的計(jì)算量。MobileNetV3 在這樣的結(jié)構(gòu)基礎(chǔ)上加以改進(jìn):首先,通過(guò)設(shè)置一個(gè)擴(kuò)張因子,將輸入的網(wǎng)絡(luò)通道乘以擴(kuò)張因子得到了第一個(gè)1×1卷積核的個(gè)數(shù);其次,將中間3×3的卷積換成了5×5的深度可分離卷積;接下來(lái)的1×1卷積用線性激活函數(shù)替代原來(lái)的ReLU 激活函數(shù);最后,整個(gè)瓶頸層加入了殘差連接防止梯度爆炸導(dǎo)致精度丟失。由于MobileNetV3 在瓶頸層沒(méi)有池化的操作,因此本文在MobileNetV3上在旁路連接中加上了1×1 的卷積和一個(gè)平均池化層的操作對(duì)特征進(jìn)行細(xì)粒度的提取,這樣能夠保證在特征尺寸下降的過(guò)程中進(jìn)一步地篩選特征,實(shí)驗(yàn)結(jié)果表明,該方法能夠提高準(zhǔn)確率,降低損失。在MobileNetV3的注意力機(jī)制中,本文通過(guò)降低注意力機(jī)制模塊中的全連接層的神經(jīng)元個(gè)數(shù)來(lái)降低模型的參數(shù)量,SE 模塊通過(guò)學(xué)習(xí)的方式來(lái)自動(dòng)獲取每個(gè)特征通道的重要程度,然后依照特征的重要程度去提升有用的特征并抑制對(duì)當(dāng)前任務(wù)用處不大的特征。改進(jìn)前后的瓶頸層如圖2所示。

圖2 瓶頸層的改進(jìn)Fig.2 Improvement of bottleneck layer

1.2.2 多模態(tài)特征融合

訓(xùn)練數(shù)據(jù)集D可以描述為:

其中:xi、di分別為預(yù)處理后放入CNN 的RGB 圖以及深度圖;yi(yi∈RM)為圖像的標(biāo)簽,由one-hot編碼組成,M為樣本的標(biāo)簽數(shù)量;gD(di,θD)為深度輸入圖經(jīng)過(guò)第二個(gè)瓶頸層前向傳播的結(jié)果,為待更新的參數(shù)。

訓(xùn)練單種特征圖像表達(dá)式如下:

其中:WD為softmax層的權(quán)重;L為交叉熵?fù)p失函數(shù)。L表達(dá)式如下:

經(jīng)實(shí)驗(yàn)后發(fā)現(xiàn)僅憑深度單輸入網(wǎng)絡(luò)的特征是不夠的,所以網(wǎng)絡(luò)需要多模態(tài)的特征。

在活體識(shí)別任務(wù)中本文采用了兩種圖像特征:第一種是RGB圖,是由RealSense SR300的RGB攝像頭采集的三通道圖像;第二種是由RealSense SR300 的深度攝像頭采集的單通道圖像。RGB 圖能夠描述物體的輪廓、顏色以及部分紋理的信息,而深度圖能夠描述物體的形狀、尺度以及空間幾何的信息,因此兩種特征的圖像具備互補(bǔ)性。兩種圖像采用特征融合的方式,對(duì)于CQNU-LN 以及CASIA-SURF 數(shù)據(jù)集,輸入圖像是112×112×3的RGB 圖像和112×112×1的深度圖像。由于本文采用的“中層融合”,所以特征圖在經(jīng)過(guò)2個(gè)瓶頸層之后進(jìn)行融合,從而令gI(di,θI)為RGB圖經(jīng)過(guò)第二個(gè)瓶頸層前向傳播的結(jié)果,di為經(jīng)過(guò)預(yù)處理后的人臉RGB圖像,表達(dá)式如下:

其中θ為特征融合后的參數(shù),所以RGB-D 多模態(tài)特征融合后的表達(dá)式如下:

1.2.3 Streming Module

全局平均池化(GAP)被許多目標(biāo)檢測(cè)網(wǎng)絡(luò)采用,比如ResNet[15]、DenseNet[16]、MobileNetV2、ShuffleNet[17-18]系列,它能夠降低特征圖維度和防止過(guò)擬合,并且能夠有效地抑制計(jì)算量,但是在人臉相關(guān)的任務(wù)中,全局平均池化對(duì)準(zhǔn)確性卻容易造成負(fù)面影響,人臉圖像不同于一般的目標(biāo)檢測(cè)圖像,中心區(qū)域應(yīng)該比邊緣區(qū)域享有更高的權(quán)重,全局平均池化是無(wú)法做區(qū)域權(quán)重區(qū)分的。能夠做到區(qū)域權(quán)重區(qū)分的其中一個(gè)方案是用全連接層來(lái)代替全局平均池化,為了網(wǎng)絡(luò)的預(yù)測(cè)功能達(dá)到實(shí)時(shí)性,全連接層的使用會(huì)導(dǎo)致參數(shù)大量的增加并且也會(huì)讓網(wǎng)絡(luò)增加過(guò)擬合的風(fēng)險(xiǎn),所以網(wǎng)絡(luò)底部的全連接層不利于用作人臉活體檢測(cè)模型。

Chen 等[19]設(shè)計(jì)的Streaming Module 保證了網(wǎng)絡(luò)輕量化并且對(duì)區(qū)域權(quán)重進(jìn)行區(qū)分,本文采用Streaming Module 來(lái)代替?zhèn)鹘y(tǒng)的全局平均池化層或者全連接層。Streaming Module 由一個(gè)全局深度可分離卷積(Global Depth Convolution,GDConv)和1×1 的卷積層組成,經(jīng)過(guò)GDConv 網(wǎng)絡(luò)后特征圖會(huì)變?yōu)橐粋€(gè)1×1 的特征圖,最后通過(guò)1×1 卷積進(jìn)行線性激活作為特征輸出層。GDConv的計(jì)算過(guò)程為:

其中:F為輸入的特征圖,它的尺寸是W×H×M,W、H和M分別為特征圖的寬度、高度及通道數(shù);K為尺寸為W×H×M的GDConv;Gm為經(jīng)過(guò)GDConv再通過(guò)Flatten后的大小為1×1的特征圖。最終分類層上令Gm通過(guò)2 個(gè)1×1 的卷積并用Softmax激活,從而達(dá)到真假分類的目的。Streaming Module 如圖3 所示,改進(jìn)后模型的結(jié)構(gòu)如表1 所示。Streaming Module的計(jì)算量為W×H×M×1×1×2。

圖3 Streaming Module結(jié)構(gòu)Fig.3 Structure of Streaming Module

表1 改進(jìn)后模型的結(jié)構(gòu)Tab.1 Improved model structure

2 相關(guān)數(shù)據(jù)集

2.1 CASIA-SURF數(shù)據(jù)集

針對(duì)大多數(shù)公開(kāi)的活體檢測(cè)數(shù)據(jù)集只包含了RGB 人臉圖像的情況,若是訓(xùn)練只含RGB 的圖像模型在測(cè)試時(shí)精度不高,而Zhang 等[20]所制作的人臉活體檢測(cè)數(shù)據(jù)庫(kù)CASIA-SURF收集了1 000 張人臉,由Intel RealSense SR300 采集的21 000個(gè)視頻中提取,每個(gè)樣本均有RGB、深度以及紅外(Infrared Radiation,IR)模態(tài),在這些視頻中共裁剪出492 522 張人臉RGB、深度、紅外圖像。提取到的人臉圖像通過(guò)人臉重建網(wǎng)絡(luò)(Position map Regression Network,PRNet)以及貼上掩碼的操作進(jìn)行預(yù)處理,讓人臉以外的部分全為黑色。整個(gè)數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集。CASIA-SURF 主要有如下6種欺詐手段:

1)展平的打印的照片其中去除眼睛區(qū)域,使真人的眼睛裸露出來(lái)。

2)彎曲的打印的照片其中去除眼睛區(qū)域,使真人的眼睛裸露出來(lái)。

3)展平的打印的照片其中去除鼻子區(qū)域,使真人的鼻子裸露出來(lái)。

4)彎曲的打印的照片其中去除鼻子區(qū)域,使真人的鼻子裸露出來(lái)。

5)展平的打印的照片其中去除嘴巴區(qū)域,使真人的嘴巴裸露出來(lái)。

6)彎曲的打印的照片其中去除嘴巴區(qū)域,使真人的嘴巴裸露出來(lái)。

本文選取了CASIA-SURF 自主劃分的訓(xùn)練集作為主要的數(shù)據(jù)集,在實(shí)驗(yàn)中將IR 圖剔除,首先在訓(xùn)練集中按照固定的隨機(jī)數(shù)種子隨機(jī)選取25%同順序的RGB 和Depth數(shù)據(jù)作為驗(yàn)證與測(cè)試的集合;其次在驗(yàn)證與測(cè)試的集合中按同樣的方式隨機(jī)選取60%的測(cè)試集,剩下40%作為驗(yàn)證集,所以訓(xùn)練集、測(cè)試集以及驗(yàn)證集所占比例為0.75∶0.15∶0.1,并且驗(yàn)證集在訓(xùn)練過(guò)程中做交叉驗(yàn)證,實(shí)時(shí)觀測(cè)模型有無(wú)過(guò)擬合。實(shí)驗(yàn)中取每個(gè)epoch 在驗(yàn)證集上的準(zhǔn)確率作為模型是否過(guò)擬合的觀測(cè)指標(biāo)。

2.2 CQNU-LN數(shù)據(jù)集

雖然CASIA-SURF 數(shù)據(jù)集樣本足夠豐富,但是僅局限于打印的人臉,實(shí)際應(yīng)用中欺騙的手段遠(yuǎn)不止這些,電子屏的欺騙是現(xiàn)如今最常見(jiàn)的欺騙攻擊手段,因此本文在CASIASURF的基礎(chǔ)上,采集了全新的數(shù)據(jù)集CQNU-LN。

CQNU-LN 數(shù)據(jù)集由Intel Realsense SR300 采集RGB 以及深度視頻,由提供數(shù)據(jù)的志愿者面對(duì)鏡頭做上、下、左、右,以及順時(shí)針和逆時(shí)針的頭部活動(dòng),攝像頭有效采集人臉的范圍為0.2 m 至1 m,超出范圍則視為無(wú)效數(shù)據(jù)。視頻通過(guò)RealSense SDK 操作將分辨率為640×480的RGB 視頻以及深度視頻對(duì)齊。

提取人臉的方法采用SSD(Single Shot MultiBox Detector)檢測(cè)算法[21],在RGB 視頻中截取人臉將人臉面部作為感興趣區(qū)域(Region Of Interests,ROI),記錄RGB 人臉的坐標(biāo)同時(shí)在深度視頻中根據(jù)坐標(biāo)提取深度視頻人臉。

CQNU-LN 包含了12 個(gè)樣本,每個(gè)樣本有4 個(gè)視頻?;贑ASIA-SURF 對(duì)打印人臉的采集,本文在打印攻擊手段中添加了6 種方式,同時(shí)將電子屏的攻擊手段也作為假集的一部分,所以CQNU-LN有如下攻擊手段:

1)展平的打印的照片其中去除眼睛區(qū)域,使真人的眼睛裸露出來(lái)。

2)彎曲的打印的照片其中去除眼睛區(qū)域,使真人的眼睛裸露出來(lái)。

3)展平的打印的照片其中去除鼻子區(qū)域,使真人的鼻子裸露出來(lái)。

4)彎曲的打印的照片其中去除鼻子區(qū)域,使真人的鼻子裸露出來(lái)。

5)展平的打印的照片其中去除嘴巴區(qū)域,使真人的嘴巴裸露出來(lái)。

6)彎曲的打印的照片其中去除嘴巴區(qū)域,使真人的嘴巴裸露出來(lái)。

7)展平的打印的照片其中去除眼睛、鼻子區(qū)域,使真人的眼睛、鼻子裸露出來(lái)。

8)彎曲的打印的照片其中去除眼睛、鼻子區(qū)域,使真人的眼睛、鼻子裸露出來(lái)。

9)展平的打印的照片其中去除眼睛、嘴巴區(qū)域,使真人的眼睛、嘴巴裸露出來(lái)。

10)彎曲的打印的照片其中去除眼睛、嘴巴區(qū)域,使真人的眼睛、嘴巴裸露出來(lái)。

11)展平的打印的照片其中去除鼻子、嘴巴區(qū)域,使真人的鼻子、嘴巴裸露出來(lái)。

12)彎曲的打印的照片其中去除鼻子、嘴巴區(qū)域,使真人的眼睛、嘴巴裸露出來(lái)。

13)展平的打印的照片其中去除眼睛、鼻子、嘴巴區(qū)域,使真人的眼睛、鼻子、嘴巴裸露出來(lái)。

14)彎曲的打印的照片其中去除眼睛、鼻子、嘴巴區(qū)域,使真人的眼睛、鼻子、嘴巴裸露出來(lái)。

15)將錄制的真實(shí)人臉視頻保存在ipad、iphone 以及擁有2K高分辨率顯示器的計(jì)算機(jī)上,作為攻擊手段。

實(shí)驗(yàn)中共有48 498 張RGB 與Depth 人臉圖像,采用與2.1 節(jié)相同的方式對(duì)數(shù)據(jù)集進(jìn)行劃分,其中10%作為驗(yàn)證集,15% 作為測(cè)試集。在對(duì)比實(shí)驗(yàn)中,本文采用多模態(tài)ResNet18[15]、VGG-6(輕量級(jí))、FeatherNetA[10]、FeatherNetB[10]、ShuffleNetV1[18]、ShuffleNetV2[17]以及MobileNetV3 這7 個(gè)不同的卷積神經(jīng)網(wǎng)絡(luò)與本文方法進(jìn)行對(duì)比,其中ResNet18 采用文獻(xiàn)[20]所提的人臉活體檢測(cè)方式,將文中所提的ResNet18 在Keras 框架中復(fù)現(xiàn)。本文將輕量級(jí)人臉活體檢測(cè)網(wǎng)絡(luò)FeatherNetA[10]和FeatherNetB[10]改為多模態(tài)特征融合的形式進(jìn)行對(duì)比實(shí)驗(yàn)。各模型在CASIA-SURF 以及CQNU-LN 數(shù)據(jù)集上交叉驗(yàn)證中以驗(yàn)證集在每輪訓(xùn)練中的準(zhǔn)確率作為指標(biāo)進(jìn)行采集,如圖4 所示。本文方法在模型訓(xùn)練過(guò)程中相較其他方法,雖然準(zhǔn)確率相差不大但是在訓(xùn)練中呈現(xiàn)的趨勢(shì)更加穩(wěn)定。實(shí)驗(yàn)結(jié)果如表2~3 所示,本文方法在CQNU-LN 以及CASIA-SURF數(shù)據(jù)集上有著更高的準(zhǔn)確率。

表2 CASIA-SURF數(shù)據(jù)集驗(yàn)證結(jié)果對(duì)比Tab.2 Comparison of verification results on CASIA-SURF dataset

2.3 CQNU-3Dmask數(shù)據(jù)集

由于模型在3D的攻擊手段中不具備泛化能力,所以采集了一批由醫(yī)學(xué)腦部CT 圖像所建模的3D 頭模、頭套以及面具,針對(duì)光照對(duì)于模型影響,在采集CQNU-3Dmask 時(shí),納入三種光線條件,即:普通光照,亮光照以及暗光照情況,如圖5 所示。表4為本文實(shí)驗(yàn)所用到數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)。

表3 CQNU-LN數(shù)據(jù)集驗(yàn)證結(jié)果對(duì)比Tab.3 Comparison of verification results on CQNU-LN dataset

圖5 CQNU-3Dmask數(shù)據(jù)采集形式Fig.5 CQNU-3Dmask data acquisition forms

表4 實(shí)驗(yàn)所用數(shù)據(jù)集信息Tab.4 Information of datasets used in experiments

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境及設(shè)置

實(shí)驗(yàn)的硬件環(huán)境如下:CPU 為Intel Xeon,內(nèi)存為62.8 GB;顯卡為Titan XP,顯存為12 GB;實(shí)驗(yàn)編程環(huán)境選用GPU 版本的tensorflow1.8.0 和Keras2.2.4,英偉達(dá)并行計(jì)算架構(gòu)(Compute Unified Device Architecture,CUDA)版本為8.0。

在對(duì)RGB 圖與深度圖分別進(jìn)行特征提取以及融合的階段,不同于MobileNetV3 傳統(tǒng)的輸入,本文采用歸一化后尺寸為112×112 的圖像作為輸入尺寸。優(yōu)化方法采用Adam,初始學(xué)習(xí)率設(shè)置為1E-4,衰減率設(shè)置為5E-3。

3.2 與其他活體檢測(cè)網(wǎng)絡(luò)的比較

在對(duì)比實(shí)驗(yàn)中,評(píng)估指標(biāo)采用文獻(xiàn)[22]中提到的評(píng)估方式,在CASIA-SURF以及CQNU-LN數(shù)據(jù)集上進(jìn)行評(píng)估。

本文以錯(cuò)誤接受率(False Acceptance Rate,F(xiàn)AR)、真正類率(True Positive Rate,TPR)、等錯(cuò)誤率(Equal Error Rate,EER)、半錯(cuò)誤率(Half Total Error Rate,HTER)作為評(píng)估指標(biāo)。FAR表示為算法在所有的假體人臉數(shù)據(jù)集中將假體人臉判斷成活體人臉的比率。TPR 表示為算法在所有的活體人臉數(shù)據(jù)集中把活體人臉判斷為活體人臉的比例。EER表示為在受試者工作特征曲線(Receiver Operating Characteristic curve,ROC曲線)上錯(cuò)誤拒絕率(False Rejection Rate,F(xiàn)RR)與FAR 相等時(shí)的均值。半錯(cuò)誤率HTER 表示為測(cè)試集中FRR 與FAR 的均值。

不同模型在CQNU-LN 數(shù)據(jù)集的結(jié)果如表5 所示。訓(xùn)練的方式為將深度圖與RGB 圖特征融合訓(xùn)練。ResNet18 為文獻(xiàn)[20]的活體檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)采用參數(shù)量較大的ResNet18作為主要的框架,采用多模態(tài)特征融合的方式進(jìn)行活體檢測(cè)訓(xùn)練。其他對(duì)比方法為近年來(lái)流行的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò),其中FeatherNetA、FeatherNetB 為文獻(xiàn)[10]中輕量級(jí)活體檢測(cè)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)更適用于本文所制定的活體檢測(cè)任務(wù)。ShuffleNetV2[17]在TPR@FAR=10E-4上達(dá)到了精度為95.49%,是目前最優(yōu)的活體檢測(cè)網(wǎng)絡(luò)模型,本文方法在TPR@FAR=10E-4 達(dá)到95.54%,相較于ShuffleNetV2提升了0.05%。

表5 不同卷積神經(jīng)網(wǎng)絡(luò)在CQNU-LN數(shù)據(jù)集上的指標(biāo)Tab.5 Indicators of different convolutional neural networks on CQNU-LN dataset

不同模型在CASIA-SURF 數(shù)據(jù)集的結(jié)果如表6 所示。效果最好的模型為ShuffleNetV1[18],在TPR@FAR=10E-4指標(biāo)上達(dá)到95.01%,本文方法在TPR@FAR=10E-4 指標(biāo)上達(dá)到了95.15%,相較目前效果最好的方法提升了0.1%。

表6 不同卷積神經(jīng)網(wǎng)絡(luò)在CASIA-SURF數(shù)據(jù)集上的指標(biāo)Tab.6 Indicators of different convolutional neural networks on CASIA-SURF dataset

3.3 多模態(tài)魯棒性實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證多模態(tài)特征融合是否具備魯棒性,本文采取分別訓(xùn)練RGB 和深度圖與特征融合后的RGB 和深度圖進(jìn)行比對(duì),三個(gè)模型的超參數(shù)設(shè)置相同。

表7~8分別為本文方法在CQNU-LN 以及CASIA-SURF數(shù)據(jù)集上各種模態(tài)的網(wǎng)絡(luò)效果對(duì)比。

實(shí)驗(yàn)結(jié)果表明,在CQNU-LN 數(shù)據(jù)集上,RGB+Depth 的方式在TPR@FAR=10E-4 指標(biāo)相較僅訓(xùn)練RGB 的方式提升了10.9%,相較僅訓(xùn)練Depth 的方式提升了4.1%。在CASIASURF數(shù)據(jù)集上,RGB+Depth 的方式在TPR@FAR=10E-4指標(biāo)相較僅訓(xùn)練RGB 的方式提升了10.4%,相較僅訓(xùn)練Depth 的方式提升了1.9%。

表7 CQNU-LN測(cè)試集上各種模態(tài)的測(cè)試效果Tab.7 Test results of various modalities on CQNU-LN test set

表8 CASIA-SURF測(cè)試集上各種模態(tài)的測(cè)試效果Tab.8 Test results of various modalities on CASIA-SURF test set

為了進(jìn)一步驗(yàn)證網(wǎng)絡(luò)是否具備嵌入式的條件,表9 為模型輕量級(jí)指標(biāo),以Keras 生成的網(wǎng)絡(luò)模型參數(shù)文件大小(Parameter),每秒浮點(diǎn)數(shù)運(yùn)算量(FLoating-point Operations Per second,F(xiàn)LOPs)和模型預(yù)測(cè)單張圖像所需要的時(shí)間來(lái)恒定反映各網(wǎng)絡(luò)參數(shù)規(guī)模。本文方法在模型參數(shù)量上與FeatherNet以及MobileNetV3 一致,模型預(yù)測(cè)時(shí)間一致,在FLOPs 上雖然不及FeatherNet,但是與ResNet 與VGG-6 相比較低。綜合各指標(biāo)可知本文方法符合在嵌入式設(shè)備中運(yùn)行的標(biāo)準(zhǔn)。

表9 不同模型輕量級(jí)指標(biāo)Tab.9 Lightweight indicators of different models

3.4 3D攻擊防御手段

人臉活體攻擊并非僅存在打印式的照片、視頻的攻擊,隨著3D 打印技術(shù)的不斷發(fā)展和成熟,制作出價(jià)格低廉、形象逼真的人臉3D 的攻擊手段已經(jīng)可以實(shí)現(xiàn),如3D 面具、頭模和頭套,3D 的攻擊方式已逐漸成為人臉認(rèn)證系統(tǒng)的新威脅。然而,許多以前提出的攻擊檢測(cè)方法在面對(duì)3D攻擊手段的攻擊時(shí)基本失去效果,同樣本文在2D手段上的防御模型也無(wú)法解決3D 攻擊。針對(duì)上述問(wèn)題,本文同樣以RGB 與Depth 圖像為輸入進(jìn)行特征融合的方式來(lái)構(gòu)建針對(duì)3D 攻擊的活體檢測(cè)模型,雖然3D 攻擊手段不再是平面的圖像,利用深度特征難以辨識(shí),但是深度特征會(huì)對(duì)光照具有一定的魯棒性,再加上采集數(shù)據(jù)集時(shí)考慮到光照信息,同時(shí)訓(xùn)練RGB 圖能夠使模型關(guān)注到圖像的顏色以及紋理上面的差異,從而使模型更加魯棒。本文方法在CQNU-3Dmask上進(jìn)行多模態(tài)魯棒性實(shí)驗(yàn),結(jié)果如表10所示。

由表10 可知,在TPR@FAR=10E-4 指標(biāo)上,訓(xùn)練RGB 圖加Depth 圖的精度相較僅訓(xùn)練RGB 圖提升了0.9%,比僅訓(xùn)練深度圖提升了6.2%。

在實(shí)際應(yīng)用場(chǎng)景中,本文采取一種級(jí)聯(lián)的手段防御2D、3D 攻擊:網(wǎng)絡(luò)首先會(huì)給出2D 模型的判斷,若2D 模型給出標(biāo)簽為假,最終結(jié)果則為假;若2D 模型判別結(jié)果為真則調(diào)用3D模型所預(yù)測(cè)的結(jié)果作為最終判斷。級(jí)聯(lián)方法如下代碼所示,融合之后的實(shí)機(jī)演示圖如圖6所示。

表10 CQNU-3Dmask測(cè)試集上各種模態(tài)的測(cè)試效果Tab.10 Test results of various modalities on CQNU-3Dmask test set

圖6 實(shí)機(jī)演示效果Fig.6 Real machine demonstration effect

4 結(jié)語(yǔ)

針對(duì)非交互、靜默式活體檢測(cè)算法,在MobileNetV3 的基礎(chǔ)上本文提出了一種全新的深度卷積神經(jīng)網(wǎng)絡(luò)模型。為保證特征的多樣性,該模型以RGB 以及深度圖作為輸入特征,并且對(duì)兩種特征進(jìn)行融合,在結(jié)構(gòu)上豐富了提取特征,提高了特征表達(dá)的能力;為了保證精度且減少網(wǎng)絡(luò)計(jì)算量,在網(wǎng)絡(luò)尾端采用Streaming Module 替換傳統(tǒng)的全局平均池化模塊以達(dá)到減少計(jì)算量的目的。在數(shù)據(jù)集上分別采集了針對(duì)2D 攻擊手段的CQNU-LN 和針對(duì)3D 攻擊手段的CQNU-3Dmask 數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明本文方法具有良好的檢測(cè)效果。

雖然本文所提出的方法在活體檢測(cè)任務(wù)上較為全面,但是也有不足之處:1)對(duì)于3D 的攻擊手段的表現(xiàn)并不那么穩(wěn)定,由于光照、面部細(xì)節(jié)等影響,在實(shí)際的使用過(guò)程中還是會(huì)出現(xiàn)錯(cuò)誤的預(yù)測(cè),研究者們可以手工提取特征或者基于注意力機(jī)制去解決這一系列由外部影響所帶來(lái)的問(wèn)題。2)白盒、黑盒的對(duì)抗攻擊方式在近年來(lái)也一直是研究的重點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)的模型普遍存在著通過(guò)一個(gè)擾動(dòng)即可以攻擊整個(gè)網(wǎng)絡(luò),使模型出現(xiàn)預(yù)測(cè)偏差。如何讓活體檢測(cè)網(wǎng)絡(luò)對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的對(duì)抗攻擊性更加魯棒,也是接下來(lái)值得深入研究的一個(gè)方向。

猜你喜歡
活體人臉卷積
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
有特點(diǎn)的人臉
一種并行不對(duì)稱空洞卷積模塊①
活體盲盒
一起學(xué)畫人臉
玻璃窗上的人臉
讓活體肝移植研究走上世界前沿
始祖鳥是鳥類的祖先嗎