国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖像分割網(wǎng)絡的深度假臉視頻篡改檢測

2021-01-25 03:51:38胡永健高逸飛劉琲貝廖廣軍
電子與信息學報 2021年1期
關(guān)鍵詞:庫內(nèi)錯誤率人臉

胡永健 高逸飛 劉琲貝 廖廣軍

①(華南理工大學電子與信息學院 廣州 510641)

②(中新國際聯(lián)合研究院 廣州 511356)

③(廣東警官學院 廣州 510230)

1 引言

在眾多的生物特征中,人臉是最具有代表性的特征之一,可辨識度較高。因此,隨著人臉識別技術(shù)的突飛猛進,人臉篡改所帶來的安全威脅越來越大,特別是在手機高度流行和社交網(wǎng)絡日益成熟的當代。虛假新聞、丑聞、名人色情視頻以及報復性的色情視頻在各種網(wǎng)絡社區(qū)上涌出,困擾著從政治家、名人到普通民眾,甚至威脅到國家安全。目前,有3種常見的假臉視頻篡改技術(shù)[1]:Face2Face,Faceswap和Deepfakes[2]。Face2Face通過重建3維模型只對面部表情進行控制,而Faceswap和Deepfakes則將源視頻中的整張人臉替換到目標視頻中,基于傳統(tǒng)計算機圖形學方法的技術(shù)統(tǒng)稱為Faceswap,而基于深度學習的技術(shù)統(tǒng)稱為Deepfakes。Deepfakes主要利用深度學習中的深度卷積神經(jīng)網(wǎng)絡、自編碼器(auto-encoder)和對抗生成網(wǎng)絡(Generative Adversarial Networks, GANs)等技術(shù),使網(wǎng)絡可以學習到目標視頻中更深層次的人臉特征,從而實現(xiàn)精準替換,并且能夠匹配目標視頻中人臉的動作和變化,達到較為理想的換臉效果。Deepfakes有時直接指利用深度網(wǎng)絡換臉所得到的視頻。

假臉視頻對社會的威脅日益增加,引起了學術(shù)界和工業(yè)界的廣泛關(guān)注,已經(jīng)出現(xiàn)了一些相關(guān)研究,甚至出現(xiàn)針對換臉視頻檢測的國際大賽1)DeepFake Detection Challenge: < https://www.kaggle.com/c/deepfake-detection-challenge>。根據(jù)所使用的特征,現(xiàn)有的假臉視頻檢測技術(shù)大致分為3大類:基于傳統(tǒng)手工特征、基于生物特征和基于神經(jīng)網(wǎng)絡提取特征。第1類方法主要借鑒了圖像取證思想,對單幀圖像進行分析,典型做法包括使用圖像質(zhì)量測度和主成分分析[2]以及使用局部二值模式(Local Binary Pattern, LBP)特征[3]。第2類方法主要利用了人臉特有的生物信息,文獻[4]將臉部標志點根據(jù)篡改過程時的受影響程度大小分為兩組,使用不同標志點估計出頭部姿態(tài)方向后比較差異作為判別依據(jù);文獻[5]發(fā)現(xiàn)假臉中兩只眼睛的瞳孔部位呈現(xiàn)出的漫反射信息存在不一致的現(xiàn)象;文獻[6]同時利用視頻圖像和音頻的信息,通過比較真假視頻中唇部動作和聲音匹配的差異甄別有無篡改;文獻[7]指出每一個人都有獨特的運動動作模式,而換臉導致目標對象與源對象動作模式的不匹配,可從額頭、臉頰、鼻子等區(qū)域的運動變化中提取特征進行分類判決。第3類方法主要通過構(gòu)建卷積神經(jīng)網(wǎng)絡對人臉進行學習,提取較高維度的語義特征進行分類。一些研究者將其視為常規(guī)的分類問題,文獻[3]使用了AlextNet,VGG-19,ResNet[8],Inception和Xception[9]等用于圖像識別的經(jīng)典分類模型進行檢測;文獻[10]搭建了Meso-4和MesoInception-4,文獻[11]搭建了ShallowNet對單幀圖像進行檢測;文獻[12]指出在篡改檢測問題中篡改痕跡比圖像內(nèi)容信息更加重要,據(jù)此構(gòu)建了帶有受約束卷積層的MISLnet,在提取淺層特征時抑制圖像內(nèi)容;文獻[13]考慮視頻中的時域信息,將卷積神經(jīng)網(wǎng)絡與序列神經(jīng)網(wǎng)絡結(jié)合,尋找假臉視頻中連續(xù)幀特征的不一致性;文獻[14]使用ResNet-50[8]網(wǎng)絡模型對不同GAN合成圖像和Deepfake假臉圖像進行檢測。

從以上研究給出的實驗結(jié)果看,基于神經(jīng)網(wǎng)絡提取特征的算法往往能在庫內(nèi)檢測中獲得較高的準確率,但其主要缺陷在于跨庫檢測時性能均急劇下降,存在泛化性能不足的問題[3]。

本文針對換臉視頻檢測網(wǎng)絡泛化性能不足的問題提出一種解決方案。與上述基于特征檢測的方法不同,本文直接從圖像像素出發(fā),認為假臉篡改是一種特殊的拼接篡改問題,根據(jù)換臉主要對部分人臉區(qū)域進行操作而未修改其他圖像內(nèi)容的事實,提出了利用預測篡改區(qū)域和人臉框的交并比作為是否發(fā)生換臉的依據(jù)進行檢測的方法。主要貢獻包括:(1)利用圖像分割網(wǎng)絡逐像素地估計篡改區(qū)域;(2)解決盲檢測時沒有真實篡改區(qū)域作為參考信號的不足,提出一種計算人臉交并比(Face-Intersection of Union, Face-IoU)的新方法,作為是否發(fā)生換臉篡改的判斷依據(jù);(3)根據(jù)換臉視頻的先驗知識,構(gòu)建信任機制,進一步改進Face-IoU的計算,得到Face-IoUP(Face-IoU with Penalty)。本文分別基于FCN-8s, FCN-32s[15]和DeepLabv3[16]3個分割網(wǎng)絡實現(xiàn)檢測算法,實驗結(jié)果表明,本文檢測模型不僅在庫內(nèi)具有很高的準確率,在跨庫檢測中,平均錯誤率與現(xiàn)有流行的方法相比也有顯著下降。

2 算法介紹

本文算法整體流程如表1和表2的偽代碼所示,包括網(wǎng)絡訓練和樣本測試。網(wǎng)絡訓練部分利用訓練集訓練分割模型,利用驗證集計算最小等錯誤率時的二值化閾值和判決閾值;樣本測試部分對分幀預處理后的圖像分割得到掩膜,平滑濾波去除掩膜噪點,二值化處理得到預測篡改區(qū)域的位置和面積信息,以待測視頻的人臉區(qū)域為參考信號計算面部交并比,并根據(jù)換臉視頻相關(guān)的先驗知識建立信任機制改進面部交并比的計算,作為最終的判決依據(jù),完成檢測。下面對關(guān)鍵環(huán)節(jié)進行描述。

表1 網(wǎng)絡訓練

表2 樣本測試

2.1 利用深度分割網(wǎng)絡得到篡改區(qū)域的預測掩膜概率圖

傳統(tǒng)的圖像拼接篡改通常是指將非同源圖像不作任何修飾地粘貼到目標圖像上的篡改技術(shù)[17]。一般而言,視頻換臉和傳統(tǒng)拼接篡改的共同點在于兩者都使用非同源的圖像對目標圖像的部分區(qū)域進行替換,篡改方式類似;其不同點在于后者使用的人臉大都來自于真實圖像,而前者所使用的人臉可能是通過計算機圖形學技術(shù)或深度網(wǎng)絡生成。雖然人眼難以區(qū)分這兩類圖像,但這兩類圖像的內(nèi)部結(jié)構(gòu)和紋理特征存在差異,其在顏色空間特征[18]和共生矩陣[19]上有所反映。

鑒于此,本文將換臉篡改認為是一種特殊的拼接篡改問題,借助像素級的精確標簽讓神經(jīng)網(wǎng)絡按紋理差異區(qū)分真假臉像素點,從而將來源不同的兩種圖像分割成兩類不同的圖像區(qū)域。以語義分割FCN網(wǎng)絡[15,20]為例,分割網(wǎng)絡首先借助諸如VGG-16的分類網(wǎng)絡作為骨架網(wǎng)絡提取特征,然后利用跨層架構(gòu)將來自淺且精細網(wǎng)絡層的表象信息與來自深且粗糙網(wǎng)絡層的語義信息相結(jié)合,即表征圖像內(nèi)部結(jié)構(gòu)差異的低水平特征和表征邊緣不連續(xù)的深層特征相結(jié)合,逐像素地對圖像進行來源判斷,最終輸出值在0-1之間的篡改區(qū)域預測掩膜概率圖 M,其尺寸與輸入圖像大小一致。

2.2 去噪與二值化處理獲得預測的篡改區(qū)域

盡管分割網(wǎng)絡能夠預測出像素級的掩膜概率圖,但由于提取特征過程中的卷積和池化處理使深層語義特征的感受野越來越大,在轉(zhuǎn)化為特征表達圖像時,跨層結(jié)構(gòu)的上采樣處理不可避免地引入噪聲,造成預測掩膜概率圖出現(xiàn)細小孤立的噪聲點。為了獲得準確的預測掩膜概率圖,便于機器自動計算篡改面積,本文利用傳統(tǒng)的圖像去噪方法對概率圖去噪,利用鄰域信息抑制孤立噪聲點,得到去噪后的預測掩膜概率圖 MF。

去噪后的預測掩膜概率圖需要進行二值化處理后才能逐像素計算面積。一種直接取二值化門限的方法是使其等于0.5,然而這種方法過于簡單,無法獲得最佳的分類效果。本文將二值化處理和篡改判斷相結(jié)合,提出一種等錯誤率最小時獲取最優(yōu)二值化門限的方法,詳見2.5節(jié)。設所得到的二值化閾值為 T1,當預測概率大于T1時置為1(即篡改),否則置為0(即未篡改)。具體公式為

2.3 人臉交并比Face-IoU的提出

2.4 信任機制下改進的人臉交并比Face-IoUP

2.5 最優(yōu)二值化閾值和判決閾值的獲取

3 實驗場景設置

本文在4個常見的深度假臉視頻數(shù)據(jù)庫上進行了實驗,分別為TIMIT[2], FaceForensics++[1],FFW[3]和DFD[1]。對于TIMIT, FaceForensics++以及DFD數(shù)據(jù)庫,類似文獻[21],以按人劃分的準則依7:2:1的比例將它們分為訓練集、驗證集和測試集。而對FFW數(shù)據(jù)庫,由于只有假臉視頻,正負樣本不平衡而無法進行全面的評估,本文從Face-Forensics++數(shù)據(jù)庫的測試集中隨機選取了50段真實視頻進行補充。

圖1 待檢測區(qū)域、實際篡改區(qū)域和預測篡改區(qū)域示例及其廣義示意圖

為了有效評估算法的學習能力和泛化能力,實驗分庫內(nèi)檢測和跨庫檢測兩個內(nèi)容。由于FFW數(shù)據(jù)庫中補充了FaceForensics++數(shù)據(jù)庫的視頻,為了不影響性能評測,在跨庫檢測中不使用Face-Forensics++數(shù)據(jù)庫訓練的模型測試FFW數(shù)據(jù)庫。

為了獲得統(tǒng)一尺寸的輸入圖像,將各數(shù)據(jù)庫中的視頻分幀,逐幀使用Dlib庫中卷積神經(jīng)網(wǎng)絡檢測器定位人臉,以人臉框為中心取 k(k >1)倍于人臉大小的圖像區(qū)域,采樣至256×256的尺寸,作為輸入圖像??梢钥吹?, k ?1倍的圖像區(qū)域(即人臉框周邊區(qū)域)是背景。需要指出的是, k值太小,懲罰項的作用就??; k值太大,會包含一些遠離人臉的像素,不符合換臉的事實。本文統(tǒng)一取經(jīng)驗值k =1.3,得到的輸入圖像即為圖1(a)。

4 去噪濾波器的選取和懲罰因子 p的 確定

檢測模型的性能與預測掩膜概率圖的去噪程度以及落在人臉框外的預測像素的可信程度有直接關(guān)系。本小節(jié)在TIMIT,F(xiàn)aceForensics++和FFW這3個數(shù)據(jù)庫中以FCN-8s和FCN-32s這兩個分割網(wǎng)絡為例,分別討論去噪濾波器和懲罰因子的作用。

4.1 去噪濾波器的選取

二值化預測掩膜上每一點處的{0,1}值都會影響交并比的計算,因此,必須對預測掩膜概率圖進行去噪預處理,排除噪聲點引起的交并比計算誤差。表3列出未濾波和分別采用均值、中值以及高斯濾波這4種情形下檢測模型的平均錯誤率。濾波器核的大小分別為3×3和5×5。

表3顯示,總的來看,去噪處理有助于改善檢測模型的性能。而在均值、中值和高斯這3種濾波器中,以核大小為3×3的高斯濾波器對降低檢測模型的平均誤差率效果最好。本文在不作特殊聲明的場合均采用核大小為3×3的高斯濾波器。

4.2 信任機制中懲罰因子p 的選取

本文信任機制是由式(3)分母中的懲罰項來體現(xiàn),懲罰強度會直接影響分類的性能。本小節(jié)將懲罰因子 p分別設置為0(無懲罰),0.5, 1.0和1.5進行實驗,結(jié)果如表4所示。

由表4可知,與不使用懲罰項相比,有懲罰時兩個分割網(wǎng)絡的庫內(nèi)和跨庫檢測錯誤率總的來說是有所降低,且在 p=1.0時效果最好。本文在不作特殊聲明的場合均采用p =1.0。

5 實驗結(jié)果

換臉視頻檢測目前并無統(tǒng)一比較基準。為展現(xiàn)所提出檢測模型的良好性能,本文以同類且較新的4個檢測網(wǎng)絡MesoInception-4[10],ShallowNetV1[11],MISLnet[12], ResNet-50[8,14]和Xception[9]作為對象進行比較。為了展示本文算法良好的可擴展性,除用前述FCN-8s和FCN-32s[15],還以DeepLabv3[16]分割網(wǎng)絡作為分割手段,實現(xiàn)本文算法。在TIMIT,FaceForensices++和FFW數(shù)據(jù)庫上的實驗結(jié)果見表5和表6,可視化結(jié)果見圖2,其中熱力圖紅色部分表示篡改區(qū)域,藍色部分表示未篡改區(qū)域。

表3 檢測模型在不同濾波器下的平均錯誤率(%) p =1

表4 檢測模型在不同懲罰因子下的平均錯誤率(%)

表5 以TIMIT數(shù)據(jù)庫訓練模型所得到的測試結(jié)果(%)

表6 以FaceForensics++數(shù)據(jù)庫訓練模型所得到的測試結(jié)果(%)

表5顯示,基于FCN-8s和FCN-32s分割網(wǎng)絡的檢測模型在TIMIT的庫內(nèi)檢測均有較好準確率,尤其是基于FCN-8s的模型,庫內(nèi)準確率位于次高,平均錯誤率位于并列最低;其在FaceForensics++中的平均錯誤率比目前文獻算法降低超過12%,位于最低;其在FFW庫中的平均錯誤率比目前文獻算法降低超過12%,僅高于本文基于FCN-32s的模型,綜合表現(xiàn)最佳,充分證明本文基于分割網(wǎng)絡進行換臉視頻檢測的有效性和優(yōu)良的泛化性能?;贒eepLabv3檢測模型的良好表現(xiàn)也證明所提出方法具有很好的可擴展性,其在庫內(nèi)的等錯誤率只有1.1%。表6的結(jié)果趨勢大致與表5的類似。

圖2進一步給出基于FCN-8s分割網(wǎng)絡的檢測模型在FaceForensics++數(shù)據(jù)庫上檢測結(jié)果示例圖。第1行為針對換臉視頻的檢測結(jié)果,從左到右依次為:假臉視頻幀,輸入圖像的正確熱力圖,通過FaceForensics++庫訓練模型后得到的預測熱力圖(即庫內(nèi)檢測熱力圖),通過TIMIT訓練模型后得到的預測熱力圖(即跨庫檢測熱力圖)??梢钥吹?,本文算法無論在庫內(nèi)還是庫外都能夠較精確地檢測出輸入圖像的篡改區(qū)域。第2行為針對真實為篡改視頻的檢測結(jié)果,從左到右分別為:真臉視頻幀,輸入圖像的正確熱力圖,通過FaceForensics++庫訓練模型后得到的庫內(nèi)檢測熱力圖,通過TIMIT訓練模型后得到的跨庫檢測熱力圖。

圖2結(jié)果顯示,本文算法無論在庫內(nèi)還是庫外都能正確判斷輸入圖像中的篡改區(qū)域,證明該算法的有效性。尤其在假臉圖像中,能夠有效區(qū)分篡改區(qū)域和真實區(qū)域,通過像素級的精確標簽讓網(wǎng)絡學習到紋理像素點之間的差異而降低對內(nèi)容信息的依賴,進而降低了在單一數(shù)據(jù)庫上訓練造成的過擬合現(xiàn)象,提升了跨庫測試的性能。

針對由演員表演為素材,假臉合成質(zhì)量普遍較高的DFD數(shù)據(jù)庫,表7給出了本文基于FCN-8s和FCN-32s兩個分割網(wǎng)絡的部分測試結(jié)果。DFD數(shù)據(jù)庫中包括無壓縮庫(C0)、壓縮比為23(C23)的高質(zhì)量視頻庫,以及壓縮比為40(C40)的低質(zhì)量視頻庫。檢測模型在C23視頻庫上訓練,得到的庫內(nèi)檢測結(jié)果以及在TIMIT, FaceForensics++(C0和C23)和FFW這3個數(shù)據(jù)庫上的跨庫檢測結(jié)果??梢钥吹奖疚乃惴ㄓ邢喈斖怀龅谋憩F(xiàn),庫內(nèi)檢測的平均錯誤率低于2%,且跨庫檢測的平均錯誤率比上述跨庫檢測的結(jié)果更低。

在實際檢測中存在多人臉情況,由于本文算法逐像素判斷當前像素是落在真臉區(qū)域還是假臉區(qū)域,因此檢測過程并不受人臉數(shù)目的影響,只與標簽圖像有關(guān)。限于文章篇幅,此處僅給出FFW測試庫中(4hMa-gKljhw_0.000_6.773.avi)的檢測結(jié)果,該段視頻中的右邊人臉為假臉。圖3顯示,可以看到本文算法同樣可以有效檢測出假臉。

5.1 算法時間對比

本小節(jié)討論各算法計算復雜度,按浮點運算次數(shù)(FLOPs)和檢測時長(Time)進行對比。檢測時長包括了對100段10 s視頻的逐幀檢測,每一視頻檢測過程均包括“分幀-人臉定位-人臉檢測-結(jié)果判決”4個步驟。結(jié)果如表8所示。由于分割網(wǎng)絡是對每個像素進行判斷,其網(wǎng)絡結(jié)構(gòu)與其他分類器相比增加了上采樣部分,因此FLOPs和運行總時長均有所增加。以FCN-8s實現(xiàn)的本算法為例,測試一個10 s視頻的平均時長為37.8 s,與最快的MesoInception-4相比,時長增加了約0.5倍,應在可接受的范圍之內(nèi)。通過犧牲少量時長來提高檢測精度在很多應用場景下都是有意義的。

6 結(jié)束語

圖2 FaceForensics++數(shù)據(jù)庫視頻檢測結(jié)果示例圖

表7 通過DFD的C23數(shù)據(jù)庫訓練模型所得到的平均錯誤率(%)

圖3 同時含有真臉和假臉的檢測熱力圖示例

表8 算法復雜度與時間對比

目前流行的假臉視頻檢測算法大多利用深度網(wǎng)絡提取特征進行,這類方法跨庫性能欠佳的主要原因是深度網(wǎng)絡容易學到過多的庫內(nèi)特征,導致泛化性能不好。與文獻中的方法不同,本文將假臉視頻檢測視為一個特殊的拼接篡改檢測問題,利用圖像分割網(wǎng)絡逐像素對篡改區(qū)域進行預測,降低不同訓練數(shù)據(jù)庫的影響,提高檢測算法的泛化性能。此外,利用去噪、優(yōu)化的二值化門限和根據(jù)換臉先驗知識改進的人臉交并比等措施提高檢測的準確性。在多個流行換臉視頻測試庫上的實驗結(jié)果表明,與其他同類算法相比,本文方法在庫內(nèi)檢測保持高準確率的同時大幅降低了跨庫檢測平均錯誤率,算法具有很好的通用性。本文方法在不同分割網(wǎng)絡的實現(xiàn)均能獲得優(yōu)良的假臉視頻檢測性能,說明本文提高泛化性能的思想具有一般性。將來的改進方向包括解決側(cè)臉人臉框的確定、不同尺寸人臉的精確檢測以及優(yōu)化分割網(wǎng)絡模型等方面。

猜你喜歡
庫內(nèi)錯誤率人臉
限制性隨機試驗中選擇偏倚導致的一類錯誤率膨脹*
動車檢查庫庫內(nèi)熱源特性實測與分析
有特點的人臉
牽引蓄電池工程車庫內(nèi)充電插座燒損故障分析及解決措施
三國漫——人臉解鎖
動漫星空(2018年9期)2018-10-26 01:17:14
正視錯誤,尋求策略
教師·中(2017年3期)2017-04-20 21:49:49
耽車泵站庫內(nèi)集滲試驗分析
解析小學高段學生英語單詞抄寫作業(yè)錯誤原因
馬面部與人臉相似度驚人
降低學生計算錯誤率的有效策略
即墨市| 肇州县| 法库县| 舒兰市| 海原县| 桐梓县| 湖口县| 娱乐| 青岛市| 巫山县| 化隆| 廊坊市| 盘山县| 黄浦区| 盐城市| 金湖县| 汉沽区| 贵阳市| 临澧县| 广饶县| 文水县| 吉木乃县| 博湖县| 理塘县| 武隆县| 丹阳市| 宁南县| 新泰市| 哈尔滨市| 新余市| 黑水县| 明光市| 沙坪坝区| 洞头县| 扶沟县| 凤冈县| 民丰县| 广西| 措美县| 安多县| 吉木乃县|