任 拓, 況立群, 謝劍斌, 薛紅新
(1.中北大學 計算機科學與技術學院, 山西 太原 030051;2.山西省視覺信息處理及智能機器人工程研究中心, 山西 太原 030051;3.機器視覺與虛擬現(xiàn)實山西省重點實驗室,山西 太原 030051)
人臉活體檢測是人臉識別的關鍵一環(huán), 通過人臉活體檢測可以有效篩選出偽造人臉, 從而保障人臉識別系統(tǒng)的安全。然而, 現(xiàn)階段人臉活體檢測算法普遍存在泛化能力不足的問題。一些學者提出使用頻率域的方法來提取偽造人臉圖像上的偽造痕跡, 比如使用高通濾波器提取高頻信息來獲取圖像紋理和邊緣信息。使用頻率域處理雖然可以提取隱藏在圖片中的偽造信息, 但是對光照環(huán)境和采集設備變化的適應性差, 魯棒性較差。故本文針對頻率域的方法進行改進, 在使用頻率域的同時引入空間域方法, 通過提取頻率域和空間域的多尺度信息來提高人臉活體檢測的效果。
人臉活體檢測技術是指一種判斷人臉是否偽造(如人皮面具、數(shù)字照片、打印照片、視頻等)的技術?,F(xiàn)有的人臉活體檢測技術主要分為兩類: 基于空間域的活體檢測和基于頻率域的活體檢測。
基于空間域的方法可以分為基于傳統(tǒng)手工特征和基于深度學習的方法。傳統(tǒng)手工特征包括LBP[1]、HOG[2]、SIFT等靜態(tài)特征和面部活動、眨眼、光線變化、遠程生理信號特征RPPG[3]等運動特征。但是, 靜態(tài)特征所含信息層次較低, 并且提取操作繁瑣; 基于運動特征的方法對回放視頻類攻擊的識別率不高。此外, 時間信息也是一些學者關注的方向, 甘俊英等[4]提出了基于時空信息的3D卷積神經(jīng)網(wǎng)絡。利用深度學習的方法主要包括Auxiliary[5]、STASN[6]、CDCN[7]等, 其中, Auxiliary方法[5]將循環(huán)神經(jīng)網(wǎng)絡RCNN模型估計的人臉深度和利用視頻序列估計的RPPG信號融合在一起, 來區(qū)分真實人臉和偽造人臉。STASN方法[6]利用LSTM對時間信息編碼進行分類, 利用SASM模塊從多個區(qū)域中提取特征, 尋找邊界、反射偽影等細微證據(jù), 從而有效地識別偽造人臉。CDCN[7]指中心差分卷積網(wǎng)絡, 通過聚合強度信息和梯度信息來獲取人臉內(nèi)在的細節(jié)模式。但是, 空間域方法在數(shù)據(jù)采集設備干擾較大的情況下, 仍然無法提取到更為有效的偽造信息。
頻域分析是圖像信號處理中一種經(jīng)典而重要的方法, 已經(jīng)廣泛應用于諸如圖像分類[8]、紋理分類和超分辨率重建方面。已有學者利用小波變換(WT)或離散傅里葉變換(DFT)[8]將圖像轉換到頻域并對潛在偽影進行挖掘。例如, Durall等[8]利用DFT變換和不同頻帶的振幅來提取頻域信息, Stuchi等[9]利用一組固定頻域濾波器來提取不同范圍的信息, 然后通過全連接層來獲得輸出。還有學者在人臉活體檢測中采用濾波方法對偽造圖像中的潛在細微信息進行提取和挖掘。例如, 使用高通濾波器、Gabor濾波器[10]等來提取基于高頻成分的特征(例如邊緣和紋理信息)。Wang等[11]發(fā)現(xiàn), 經(jīng)過高通濾波后, 真實圖像和假圖像的光譜有顯著差異。然而, 在這些研究中使用的濾波器往往是固定的和手工制作的, 因此不能自適應地捕獲偽造痕跡。Jourabloo等[12]利用快速傅里葉變換(FFT)來分析偽造攻擊噪聲, 發(fā)現(xiàn)低頻特征與顏色失真和重放偽影有關, 而高頻特征對打印攻擊更敏感。最近, Chen等[13]融合了高頻和低頻特征以提高人臉活體檢測的普遍性, 使用三個固定的濾波器從輸入圖像中提取高頻信息, 并用高斯模糊濾波器來提取低頻特征。Qian等[14]提出一系列可學習的頻率濾波器并用于人臉偽造檢測。然而, 手工制作的和固定的過濾器可能無法覆蓋完整的頻率域, 并且頻域方法對光照環(huán)境和采集設備的變化很敏感, 所以, 頻域方法很難自適應地捕獲偽造信息。
綜上, 基于頻率域的方法可以有效地提取富含邊緣信息和紋理信息的高頻信息和富含顏色信息和均衡度信息的低頻信息, 但是普通頻率濾波器的方法不能自適應地捕獲偽造信息, 同時, 基于空間域的方法在傳感器干擾大的情況下無法直接捕獲偽造信息。由于這兩種圖像處理方法在高分辨率和高頻處都有相同的語義信息, 故本文提出基于多尺度雙通道的人臉活體檢測方法, 對頻率域和空間域的方法進行改進, 本文的主要貢獻有:
1)提出多尺度雙通道網(wǎng)絡, 一個通道負責頻率域的處理, 一個通道負責空間域的特征提取, 分別提取高低中頻信息和高低中分辨率的空間信息。
2)在設計的雙通道網(wǎng)絡中, 利用空間注意力機制將對應的各個尺度下的頻率域特征和空間域特征進行了特征融合, 增強了網(wǎng)絡的特征提取能力, 提高了人臉活體檢測效果。
本文提出多尺度雙通道人臉活體檢測方法, 具體網(wǎng)絡架構如圖1 所示, 該網(wǎng)絡由兩個分支組成, 第一個分支為頻率域分支, 主要用于圖像的頻率域, 將圖像分為低、中、高、全部4個頻段, 分別負責提取人臉圖像的紋理信息、上下文內(nèi)容信息等; 第二個分支為空間域分支, 主要負責從圖像的空間域提取有效信息, 通過提取圖像多尺度分辨率下的特征圖, 獲取顏色、均衡度、圖像上下文信息和圖像紋理四個方面的信息。具體實現(xiàn)過程如下: 首先, 使用MTCNN檢測出人臉, 獲取人臉區(qū)域, 將輸入圖像歸一化為224×224×3的圖像; 其次, 進行人臉對齊獲取人臉關鍵點, 利用人臉眼角關鍵點的連線, 將所有人臉圖像旋轉為豎直的人臉圖像, 將預處理后的人臉圖像輸入頻率域分支和空間域分支, 通過多尺度頻率域與多尺度空間域信息的有效結合來實現(xiàn)人臉活體檢測。其中, 頻率域和空間域的具體實現(xiàn)分別在2.2節(jié)和2.3節(jié)中闡述。
基于深度學習的人臉活體檢測方法在已知數(shù)據(jù)集上的檢測性能較好。但在未知數(shù)據(jù)集上進行測試時, 性能通常會急劇下降, 這可能是由于攻擊設備(傳感器噪音)和捕獲環(huán)境(光照環(huán)境)的變化造成的。為了解決這一問題, 本文提出基于頻率域與圖像域結合的處理方法, 這種可學習的多尺度頻率域和空間域的人臉活體檢測方法是將輸入的人臉圖像分解成不同級別的頻率成分和不同級別分辨率的圖像。下面介紹頻率域的多級頻率分解網(wǎng)絡的設計。
采用非手工設計的二進制基濾波器將頻域劃分為低、中、高頻段。二進制基濾波器的目標是大致相等地劃分從低頻到高頻的頻譜。這種二進制基濾波器中定義
Fbi={fbi|0
(1)
式中:fbi表示第i多尺寸的頻域濾波器;n=4, 分別表示低頻、中頻、高頻、全頻。fbi定義為
fb={fbjk=1|pstart pstart (2) 式中:pstart,pend分別表示低、中、高頻譜的起始位置。 本文在二進制基濾波器的基礎上增加了可學習的濾波器, 旨在自適應地選擇感興趣的頻率。該濾波器是一個符合均值為0.0, 方差為0.1的正態(tài)分布。綜上, 本文的頻率域濾波器定義為 根據(jù)病畜臨床表現(xiàn),在排除惡性傳染性疾病的基礎上,現(xiàn)場對4頭24 h內(nèi)死亡的牦牛尸體進行了解剖。在4頭病死牦牛的肝、膽部都發(fā)現(xiàn)了大量片狀吸蟲寄生,寄生蟲蟲體為深紅褐色,腹背扁平,長30~50 mm,在放大鏡下觀察,蟲體前端有明顯突出的頭錐,體表密布細小棘刺。在病死牦牛其他器官未發(fā)現(xiàn)寄生蟲,也未檢出其他種類寄生蟲。 Fi=fbi+σ(fli)={fbijk=1|pstart k 0 (3) 式中:Fi表示第i個濾波器;fli表示第i個可學習的濾波器;N表示正態(tài)分布;σ表示sigmoid操作。 利用濾波器對輸入圖像進行分解得到圖像分量, 其計算公式為 0 (4) 通過上述公式, 可以獲得明確劃分的低頻、中頻和高頻帶的頻域和互補的全頻帶[14]。本文選擇3個波段: ①fb1為整個頻譜的前1/16的低頻帶; ②fb2為整個頻譜的1/16和1/8之間的中頻帶; ③fb3為整個頻譜的1/8和7/8之間的高頻帶。除此之外, 為避免分段頻率引起的真實人臉圖像和偽造人臉圖像之間的偽造痕跡的丟失, 本文增加了一個額外的可學習濾波器, 該濾波器作用于整個頻譜fb4。 為了補充頻率域的信息, 本文引入空間域分支, 在3個分辨率尺度下提取特征, 兼顧了圖像的顏色、上下文、紋理等信息。首先使用下采樣對圖像進行編碼, 將圖像由224×224變?yōu)?12×112, 56×56, 28×28的特征圖; 其次再通過上采樣對特征圖進行解碼, 分解得到56×56, 112×112, 224×224的特征圖, 這3個分辨率下的特征圖分別代表圖像偽造信息中的顏色范圍、均衡偏差、圖像上下文內(nèi)容信息和圖像紋理。最終將下采樣得到的3個不同尺度的特征圖歸一化為14×14, 并拼接起來; 再次經(jīng)過卷積神經(jīng)網(wǎng)絡將其提取為1張代表偽造信息的二值化特征圖, 若輸入圖像是偽造人臉, 生成的二值化特征圖分布將接近0, 反之, 該分布將接近1。同時, 將低級的空間域信息與低階段頻率域的信息相結合, 高級語義信息與高頻段信息結合, 實現(xiàn)了頻率域與空間域的互補。 為了進一步提高人臉活體檢測實驗結果的效率, 本文提出了分層注意力機制(HAM)來整合頻率域和空間域的特征, 并利用雙通道中不同層次的特征進行融合。多級頻率域分解這一通道有多層次的頻率特性, 并且濾波器的權值在模型訓練時可以自適應學習。其中, 高頻分量包含邊緣和紋理信息等特征, 低頻分量則包含色域的空間分布特征。在空間域中, 高分辨率圖像強調(diào)邊緣紋理信息, 中間分辨率圖像強調(diào)上下文信息, 低分辨率圖像強調(diào)圖像顏色范圍和均衡偏差。隨著網(wǎng)絡層數(shù)的提升, 其所提取的特征會越來越高級, 低級特征往往包含圖像的紋理和邊緣信息, 高級特征往往包含一些高級的語義特征。如圖1 所示, 本文將2個通道中間特征圖28×28, 56×56, 112×112拼接起來, 使用卷積神經(jīng)網(wǎng)絡進行特征聚合, 最終生成3個14×14的特征圖, 將3個尺度生成的特征圖拼接生成1個14×14的二值化特征圖, 對該特征圖的約束為 (a)Oulu-NPU數(shù)據(jù)集示例 (5) 式中:m為樣本總數(shù);zi為單個樣本的特征圖約束, 定義為 (6) 式中:xi,yi分別表示預測的特征圖和數(shù)據(jù)的預定標簽, 即真實人臉圖像的預定標簽為14×14的全1特征圖, 偽造人臉圖像的預定標簽為14×14的全0特征圖。 本文方法在3個公開可用的人臉活體檢測數(shù)據(jù)集Oulu-NPU[15]、Siw[5]和Idiap Replay-Attack[16]上進行了評估。Oulu-NPU[15]數(shù)據(jù)集由55名受試者和6部手機錄制的5940個視頻組成, 具體包括3種光照環(huán)境, 照片和回放視頻兩種欺騙攻擊方式, 高清電子設備和普通電子設備兩種攻擊設備。圖2(a)展示了Oulu-NPU數(shù)據(jù)集的樣本, 從上至下分別為光照1, 2, 3; 從左至右分別為真實人臉照片紙質(zhì)打印照片1、紙質(zhì)打印照片2、錄制視頻1、錄制視頻2。Idiap Replay-Attack[16]包含50個受試者和不同傳感器及不同光照條件下捕獲的300個視頻。具體包括兩種類型的攻擊: 打印攻擊和回放視頻攻擊, 兩種光照: 可控光照和不均勻光照, 兩種數(shù)據(jù)采集設備: 固定機位采集和移動機位采集。 圖2(b)展示了該數(shù)據(jù)集的樣本, 從上至下分別為逆光場景和均勻光照場景, 從左至右分別為紙質(zhì)打印照片、手機電子照片、高清平板電子照片、手機錄制視頻、高清平板錄制視頻和真實人臉照片。Siw[5]數(shù)據(jù)集包括165個受試者, 每個受試者有8個真實視頻和20個偽造視頻, 含紙質(zhì)打印照片和回放視頻兩種攻擊方式, 紙質(zhì)打印照片攻擊采用2種不同質(zhì)量的打印紙材, 回放視頻采用4種不同品牌的手機錄制, 所有數(shù)據(jù)使用2種不同的相機采集(佳能和羅技)。圖2(c)展示了紙質(zhì)攻擊樣本示例, 從上至下分別為高分辨率圖像和低分辨率圖像, 從左至右分別為光面紙質(zhì)和亞光面紙質(zhì)。圖2(d)展示了Siw數(shù)據(jù)集視頻攻擊樣本示例, 從上至下分別為不同的攝像方式, 從左至右分別為ipad視頻、iphone視頻、電腦視頻、三星S8視頻。測試時, 本文遵循所有的測試方案, 并與SOTA方法進行比較。與之前的大多數(shù)工作類似, 本文只使用上述數(shù)據(jù)集中的人臉區(qū)域進行訓練和測試。 3.1.1 實驗評價指標 本文采用APCER、BPCER、ACER和AUC兩種實驗評價指標。APCER、BPCER、ACER描述給定一個預定閾值的性能, AUC描述分類器效果的好壞。具體地, APCER表示偽造人臉圖像被當成真實人臉圖像的概率; BPCER表示真實人臉圖像被當作偽造人臉圖像的概率; ACER表示平均分類錯誤率, 即APCER和BPCER的平均; AUC表示ROC曲線下的面積, 橫坐標為FPR, 縱坐標為TPR, TPR即APCER。計算公式分別為 (7) 式中: FP指False Positive, 即假的正樣本, 表示偽造人臉圖像被當作真實人臉圖像; TN指True Negative, 即真實的負樣本。 (8) 式中: FN指False Negative, 即假的負樣本, 表示真實人臉圖像被當作偽造人臉圖像; TP指True Positive, 即真實的正樣本。 FPR=1-BPCER。 (9) 3.1.2 實驗參數(shù)設置 本實驗在NVIDIA GeForce RTX 3090, 16 GB內(nèi)存的實驗環(huán)境下進行, 在Pytorch框架中實現(xiàn)。初始學習速率為1×10-4, 總共訓練100次迭代, 批處理大小為256, 并按照3個輪次不更新?lián)p失的規(guī)律等比例降低學習率。 3.2.1 Oulu-NPU數(shù)據(jù)集實驗結果 為了評估人臉活體檢測方法的通用能力, Oulu-NPU數(shù)據(jù)集提供了4種實驗方案。實驗1用于測試不同光照環(huán)境對活體檢測的影響, 實驗2用于測試不同攻擊制作設備對活體檢測的影響(比如紙質(zhì)打印照片的不同材質(zhì), 回放視頻的不同錄制設備), 實驗3用于測試不同數(shù)據(jù)采集設備對活體檢測的影響, 實驗4用于測試不同光照、不同攻擊制作設備、不同數(shù)據(jù)采集設備(即跨所有條件)對活體檢測的影響。為了進行公平的比較, 本文嚴格遵循這些實驗的定義和評價標準。Oulu-NPU數(shù)據(jù)集的示例如圖2 所示。 將本文多尺度雙通道人臉活體檢測方法與近年文獻中提出的Despoof[12]、DeepPixBis[17]、CDCN[7]、CDCN(UL)[18]人臉活體檢測方法進行比較, 具體實驗數(shù)據(jù)見表1。本文方法在各個實驗上獲得的ACER值分別為0.26%, 1.4%, 3.4%和3.3%??梢钥闯? 本文方法所得結果優(yōu)于現(xiàn)有方法。例如, 在最具挑戰(zhàn)性的實驗4中, Despoof[12]獲得的最低平均分類錯誤率為3.2%, 而本文方法的平均分類錯誤率為3.3%。表1 中最后一組數(shù)據(jù)展示了各個方法在4個實驗上的平均錯誤率, 本文方法在Oulu-NPU數(shù)據(jù)集上的BPCER和ACER達到了最優(yōu), APCER達到次優(yōu)。 表1 Oulu-NPU數(shù)據(jù)集測試結果 3.2.2 Idiap Replay-Attack實驗結果 本文在該數(shù)據(jù)集的紙質(zhì)打印照片、電子照片、回放視頻3種攻擊上進行實驗, 表2 為Replay Attack數(shù)據(jù)集針對3種欺騙類型(紙質(zhì)打印照片、數(shù)字照片、視頻)的AUC值, AUC值代表了分類器效果的好壞, AUC值越高, 說明分類器效果越好。 表2 Idiap Replay Attack 數(shù)據(jù)集實驗結果 由表2 可知, 本文方法對紙質(zhì)打印照片和電子照片的活體檢測效果在所有對比方法中為最優(yōu), 并且在3種攻擊下的平均檢測效果也最優(yōu)。 3.2.3 Siw數(shù)據(jù)集實驗結果 本文在Siw數(shù)據(jù)集上嚴格遵循第1個實驗方案, 即跨實驗對象。將本文方法與Siw數(shù)據(jù)集的Disentangled[21]、FAS-SGTD[22]、MA-Net[23]、BCN[24], CDCN[7]方法進行對比, 實驗結果見表3, 由表3 可知, 本文方法在實驗1中的檢測錯誤率為最低。 表3 Siw 數(shù)據(jù)集實驗結果 3.2.4 消融實驗 在Siw數(shù)據(jù)集上進行消融實驗, 分別從雙通道、多尺度、以及注意力機制3個方面進行驗證, 實驗結果見表4。由表4 可知, 雙通道網(wǎng)絡的引入大大提升了人臉活體檢測的準確率, 多尺度的引入對雙通道網(wǎng)絡進行了提升, 注意力機制在多尺度雙通道的效果有所提升, 通過逐步消融實驗證明了本文提出的雙通網(wǎng)絡、多尺度概念、注意力機制是有效的。 表4 消融實驗結果 3.2.5 可視化結果 圖3 為在SIW數(shù)據(jù)集上訓練的熱力圖, 展示了本文網(wǎng)絡在訓練過程中著重關注的圖像部位, 從上至下分別為真實人臉圖像、紙質(zhì)打印照片攻擊圖像、回放視頻攻擊圖像, 從左至右分別為源數(shù)據(jù)、頻率域通道的熱力圖、空間域通道的熱力圖、多尺度雙通道的熱力圖。 圖3 熱力圖 由圖3 可以看出, 紙質(zhì)打印照片在嘴角處、眼睛、鼻翼旁邊有明顯的摩爾紋和紙質(zhì)紋理, 網(wǎng)絡訓練過程中也確實觀察到了這些點, 說明本文網(wǎng)絡在人臉活體檢測上是有效的, 并且直觀地觀察到雙通道的網(wǎng)絡在訓練過程中提高了人臉的注意力區(qū)域。 本文提出了基于多尺度雙通道的人臉活體檢測方法, 在頻率域和空間域兩個通道上提取多尺度特征, 并使用時空注意力機制融合頻率域和空間域特征。為了驗證本文方法的有效性, 在Oulu-NPU、Idiap Replay-Attack、Siw等3個數(shù)據(jù)集上進行實驗, 其中在Oulu-NPU數(shù)據(jù)集上的平均錯誤率為2%, 在Siw數(shù)據(jù)集上的錯誤率為0.11%, 在Idiap Replay-Attack數(shù)據(jù)集上的檢測準確率為99.5%以上。與同類方法相比, 本文方法在光照環(huán)境和傳感器采集設備變化兩個方面的適應性明顯提升, 提高了人臉活體檢測的魯棒性和準確性。2.3 多尺度空間域分解網(wǎng)絡
2.4 分層注意力機制
3 實驗結果與分析
3.1 實驗設置
3.2 實驗結果
4 結 論