李家春 李博文 林偉偉
(華南理工大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510006)
隨著計算機(jī)視覺領(lǐng)域的快速發(fā)展,通過數(shù)字操作生成虛假視頻和圖像的深度偽造技術(shù),如Deepfakes[1],已經(jīng)走到了公眾關(guān)注的前沿。深度偽造可以將名人的面孔轉(zhuǎn)變成色情視頻,并被用來偽造新聞、惡作劇和財務(wù)欺詐,甚至是世界領(lǐng)導(dǎo)人的虛假演講視頻,對世界安全構(gòu)成了威脅。因此,設(shè)計一個通用、實(shí)用的深度偽造檢測模型至關(guān)重要。
近年來,基于深度學(xué)習(xí)的方法在深度偽造檢測領(lǐng)域取得了令人矚目的成績[2-5]。大多數(shù)提出的檢測偽造人臉的方法利用從空間域提取出的語義特征判別偽像,尤其是在RGB 中。Cozzolino 等[6-7]在淺層CNN架構(gòu)中使用手工特征,但該方法的檢測性能對數(shù)據(jù)集的質(zhì)量或數(shù)據(jù)分布非常敏感,當(dāng)通用特征提取器應(yīng)用于偽造檢測時,早期工作的表現(xiàn)就顯得不盡如人意。Afchar等[8]設(shè)計了多個小型卷積模塊來捕捉被篡改圖像的微觀特征,提出的Mesonet架構(gòu)可以有效地檢測深度偽造并降低計算成本。Chollet[9]展示了強(qiáng)大的通用特征提取器XceptionNet在多種偽造算法上的最佳性能。幾乎所有這些基于CNN的方法都偏向于特定方法的語義特征,導(dǎo)致泛化性能不佳。
除了關(guān)注語義特征外,一些方法還利用紋理特征來捕捉偽造的人工制品。Masi等[10]使用多尺度拉普拉斯算子(LoG)抑制低級特征圖中存在的圖像內(nèi)容,充當(dāng)帶通濾波器以放大偽影,通過犧牲幀級檢測精度提升了跨數(shù)據(jù)集的檢測性能;Zhao等[11]通過減去圖像低頻信息增強(qiáng)淺層的紋理特征,并引入?yún)^(qū)域獨(dú)立損失協(xié)助網(wǎng)絡(luò)訓(xùn)練,但在高強(qiáng)度壓縮下檢測性能大幅下滑,并且模型泛化能力不佳;Wu 等[12]通過帶有一個中間塊的簡化XceptionNet 作為骨干網(wǎng)絡(luò)來提取紋理特征,但忽略了平均池化所帶來的負(fù)面影響。
最近出現(xiàn)了幾種基于時序特征的人臉偽造檢測方法。Güera 等[13]提出一種可感知時間的管道,首先使用卷積神經(jīng)網(wǎng)絡(luò)提取幀級特征,然后將這些特征用于訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò);Sabir 等[14]證明了遞歸卷積模型和面部對齊方法的組合可以改善現(xiàn)有技術(shù)的水平,結(jié)果顯示基于關(guān)鍵點(diǎn)的人臉對齊與特征雙向遞歸傳遞對視頻的篡改檢測最佳。但目前的方法對不同的時間序列分配相同的權(quán)重,這對網(wǎng)絡(luò)的訓(xùn)練是不利的。
上述方法在深度偽造檢測領(lǐng)域已經(jīng)取得了巨大進(jìn)步,但仍然存在許多缺陷。大多數(shù)基于紋理信息的檢測方法都是利用特定的初始約束條件來捕捉特征,往往只能有效地捕捉到特定頻段信息,無法靈活運(yùn)用在不同篡改算法生成的深度偽造上。此外,雖然許多雙流網(wǎng)絡(luò)被用來提取紋理和語義信息進(jìn)行學(xué)習(xí),但它們沒有充分利用不同特征間的優(yōu)勢。事實(shí)上,從淺層紋理中提取的噪聲殘差可以有效地突出篡改痕跡,引導(dǎo)語義分支探索可疑區(qū)域的深層特征。另外,注意力機(jī)制對時序網(wǎng)絡(luò)的提升也很容易被研究人員忽視,因?yàn)閭卧煲曨l需要以一種連貫的方式處理所有幀,由人臉篡改引起的低級偽影預(yù)計會進(jìn)一步表現(xiàn)為具有幀級不一致的時間偽影,檢測時對不同時間序列應(yīng)分配不同權(quán)重。
針對上述問題,本文提出一個基于多樣化特征的自適應(yīng)網(wǎng)絡(luò)AdfNet用于深度偽造檢測。該方法從避免采用固定約束和引入多樣化特征兩方面入手。首先,設(shè)計了一種具有多樣化特征的自適應(yīng)網(wǎng)絡(luò)架構(gòu);然后,提出了一種自適應(yīng)紋理噪聲提取機(jī)制(ATNEM),利用未池化的特征映射和基于頻域的通道注意力機(jī)制,靈活提取非固定頻段的噪聲殘差;接著,研究了一種深層語義分析指導(dǎo)策略(DSAGS),通過噪聲殘差生成的空間注意力圖來突出篡改痕跡,并引導(dǎo)深層網(wǎng)絡(luò)聚焦于特定的可疑區(qū)域;最后,設(shè)計了一種多尺度時序特征處理方法(MTFPM),利用注意力機(jī)制給時間序列分配不同權(quán)重,有效捕獲不同特征間的幀級差異。本文還通過消融實(shí)驗(yàn)驗(yàn)證主要模塊的有效性,在跨數(shù)據(jù)集評估中,驗(yàn)證所提出的方法在保持?jǐn)?shù)據(jù)集內(nèi)高檢測性能同時的泛化性。
本文提出的網(wǎng)絡(luò)框架如圖1所示。首先,將連續(xù)幀的圖像送入篡改殘差提取單元,語義特征(上)和紋理特征(下)分別從RGB 圖和灰度圖中提取。本單元設(shè)計了一種自適應(yīng)紋理噪聲提取機(jī)制(ATNEM)來捕獲基于頻域通道注意力機(jī)制的紋理殘差,防止有效噪聲被過濾,從而自適應(yīng)地學(xué)習(xí)非固定頻段的噪聲殘差。接著,將RGB 特征圖Fr和噪聲特征圖Fn傳送到篡改殘差分析單元,分析得到語義特征圖Fh和紋理特征圖Fl。本模塊提出了一種深層語義分析指導(dǎo)策略(DSAGS),它利用ATNEM 提取出的噪聲殘差所產(chǎn)生的空間注意力機(jī)制來指導(dǎo)語義分析塊集中在特定的可疑區(qū)域。然后,F(xiàn)h和Fl被輸入到篡改殘差聚合單元。其過程如下:①采用多尺度時序特征處理方法(MTFPM)生成兩種不同類型的時序特征,即語義-時序特征圖h和紋理-時序特征圖。MTFPM利用具有注意力機(jī)制的雙向時序網(wǎng)絡(luò)來學(xué)習(xí)不同特征間的幀級差異。②用融合模塊將和合并,將這些帶有噪聲殘差的不同特征匯聚到一個廣義的特征空間,用于深度篡改檢測。最后,進(jìn)行真假分類。
圖1 AdfNet的框架Fig.1 Framework of AdfNet
ATNEM 的處理流程如圖2(a)所示。目前的紋理特征提取方法中,通道注意力機(jī)制中的全局平均池化(GAP)和特征映射中的平均池化層被視為一個低通濾波器,將過濾掉圖像中的高頻噪聲,導(dǎo)致篡改痕跡被人為丟失,影響后續(xù)檢測;此外,它們使用固定頻段濾波器的通道注意力只保留了特定的信息。因此本文提出了如下改進(jìn)方法:在整個模塊中放棄平均池化,并設(shè)計一種自適應(yīng)頻域通道注意力機(jī)制(AFCA),如圖2(b)所示。在AFCA 中用二維離散余弦變換(DCT)代替GAP,使用殘差來確定通道權(quán)重,并在ATNEM 中學(xué)習(xí)非固定頻段的噪聲殘差。紋理特征通道的權(quán)重(wc)可由式(1)推出:
圖2 自適應(yīng)噪聲殘差提取機(jī)制示意圖Fig.2 Schematic diagram of adaptive noise residual extraction mechanism
ATNEM提取的噪聲特征圖Fn經(jīng)卷積核下采樣,生成與RGB 特征圖Fr同維度的特征圖Fg。接著,F(xiàn)g的通道維度被最大池化和平均池化,再經(jīng)過一個7 × 7的卷積層,生成與殘差相關(guān)的空間注意力圖,以更好地引導(dǎo)高級語義特征流探索關(guān)鍵區(qū)域的深層特征。該空間注意力圖與RGB 特征圖形成跳躍連接,對不同像素點(diǎn)位賦予權(quán)值,得到加權(quán)特征圖F',如圖3所示。其計算公式如下:
圖3 深層語義分析指導(dǎo)策略示意圖Fig.3 Schematic diagram of deeper semantic analysis guidance strategy
式中,down(·) 表示向下采樣,AvgPool(·) 和MaxPool(·)分別表示平均池化和最大池化,f7*7表示濾波器大小為7 × 7的卷積操作。
為了提高時序網(wǎng)絡(luò)捕捉幀級差異的能力,本文選擇具有注意力機(jī)制的雙向GRU 分別訓(xùn)練高級和低級特征。相較于LSTM,GRU 在性能相持下計算量更低,也更易收斂,雙向GRU 則能更好地捕獲雙向流的依賴信息;時序注意力機(jī)制可以關(guān)注不同時序的重要性,為不同時序賦予不同的權(quán)重。由于語義特征圖Fh和紋理特征圖Fl分別來自不同的操作,包含不同的信息,因此在融合前先進(jìn)入殘差聚合單元以得到更豐富的多尺度時間特征。多尺度時序特征處理流程如下。
首先,計算特征圖Fx在t時刻的隱藏層狀態(tài)Sxt為
接著,計算Fx的時序權(quán)重wxt,wxt∈[0,1]:
式中,uxt=tanh(Sxt),tanh 為激活函數(shù),以增強(qiáng)網(wǎng)絡(luò)的非線性變換能力,uv為隨機(jī)初始化的注意力矩陣。這樣,輸入Fl與Fh,由式(3)和(4)可得到Slt、wlt以及Sht和wht。
接下來,由上述隱藏層狀態(tài)和時序權(quán)重計算可以得到紋理-時序特征圖和語義-時序特征圖:
最后,將不同特征圖放入融合模塊得到最終的融合特征圖F:
式中,融合模塊 fusion(·)采用的是注意力特征融合方法。
2.1.1 數(shù)據(jù)集
本文使用FaceForensics++(FF++)[15]和Celeb-DF[16]兩個數(shù)據(jù)集。FF++是深度偽造檢測領(lǐng)域最常用的數(shù)據(jù)集,包含了1 000 個來自互聯(lián)網(wǎng)的真實(shí)視頻,每個真實(shí)視頻對應(yīng)一個由5種不同操作方法生成的深度造假視頻,即Deepfakes(DF)、NeuralTextures(NT)、FaceSwap(FS)、Face2Face(F2F)和FaceShifter(FSH),其中F2F 和FS 基于計算機(jī)圖形法生成,DF、NT 和FSH 基于學(xué)習(xí)法生成,為保證實(shí)驗(yàn)篡改方式均衡,本文在FF++整體測試中沒有將FSH放入。本實(shí)驗(yàn)測試使用FF++的輕度壓縮HQ(默認(rèn)模式)和重度壓縮LQ 版本,訓(xùn)練集選用740 個視頻,驗(yàn)證和測試集均使用140 個視頻;同時選用518個視頻作為Celeb-DF分類測試集。
2.1.2 評價指標(biāo)
本文主要使用如下評價指標(biāo)評估檢測性能。
(1)準(zhǔn)確度分?jǐn)?shù)ACC
ACC(RACC)的計算公式如下:
式中,TP 為真陽性,TN 為真陰性,F(xiàn)P 為假陽性,F(xiàn)N為假陰性。
(2)ROC曲線下面積AUC(RAUC)
AUC可直觀地評價不同數(shù)據(jù)集的性能,計算公式如下:
式中,ranki為 第i個樣本的序號,表示只將正樣本的序號相加,M和N分別為正樣本的個數(shù)和負(fù)樣本的個數(shù)。
2.1.3 實(shí)驗(yàn)環(huán)境
采用PyTorch 框架,使用人臉提取器Dlib 識別68 個人臉檢測點(diǎn),對齊的人臉圖像格式為299*299。
高級語義特征提取采用Xception[9]作為骨干網(wǎng)絡(luò),并用ImageNet[17]預(yù)訓(xùn)練參數(shù)初始化Xception;紋理特征的提取采用SRNet[18]作為骨干網(wǎng)絡(luò),其中通道注意力機(jī)制的實(shí)現(xiàn)參考了Fcanet[19];時序網(wǎng)絡(luò)中權(quán)重w1和w2均設(shè)置為1,偏差bt為0。
采用AdamW 優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為1×10-4,權(quán)重衰減為1×10-6。在批量大小為12 的2 個RTX 2080TI GPU 上訓(xùn)練模型。源代碼參見https://github.com/booven/adaptive_network。
2.2.1 FF++數(shù)據(jù)集上的評估
由表1 結(jié)果可見,文獻(xiàn)[10]和[11]使用固定的初始約束條件來提取圖像的淺層特征,以捕獲噪聲殘差,在高質(zhì)量的FF++版本上取得了優(yōu)異的性能,但在較低質(zhì)量的FF++(LQ)上性能會明顯下降;而本文所提出的網(wǎng)絡(luò)通過特征學(xué)習(xí)自適應(yīng)計算噪聲殘差,并將高級與低級特征分離放入時序網(wǎng)絡(luò)進(jìn)一步放大幀級差異,提升檢測準(zhǔn)確率,在檢測不同質(zhì)量的Deepfakes方面均取得了最好的檢測率。
表1 FF++數(shù)據(jù)集上LQ和HQ模式下的測試結(jié)果Table 1 Results of LQ and HQ mode tests on FF++dataset%
2.2.2 FF++-Cele-DF間跨數(shù)據(jù)集上的評估
表2顯示:本文提出的方法在FF++數(shù)據(jù)集上保持99.80%的AUC 同時,在Celeb-DF 上可以達(dá)到76.41%的AUC,具有較好的泛化性能;Liu等[20]的SPSL 方法在FF++上保持較好性能情況下,在Celeb-DF 上性能比AdfNet 高0.47 個百分點(diǎn)。分析發(fā)現(xiàn),SPSL 的泛化能力取決于人臉生成中的上采樣操作,如果偽造人臉不是基于生成模型生成的,其檢測性能就會大幅下降。而AdfNet以數(shù)據(jù)驅(qū)動的方式自適應(yīng)地學(xué)習(xí)不同篡改方法所特有的痕跡,避免了使用不完整的先驗(yàn)知識來約束網(wǎng)絡(luò),因此本文提出方法的泛化能力仍具有相當(dāng)?shù)母偁幜Α?/p>
表2 FF++-Celeb-DF 間跨數(shù)據(jù)集上的評估(AUC)(在FF++上訓(xùn)練,在Celeb-DF上測試)Table 2 Cross-dataset evaluation(AUC)between FF++-Celeb-DF(training on FF++,testing on Celeb-DF)%
2.2.3 FF++的不同篡改方式間的交叉評估
使用FF++(HQ)數(shù)據(jù)集上任一種篡改方法生成的偽造圖像進(jìn)行訓(xùn)練,在4種方法的偽造圖像上進(jìn)行測試,評估結(jié)果如表3所示??梢?,本文提出的網(wǎng)絡(luò)在大多數(shù)情況下超過了MesoNet 和Xception。由于MesoNet 和Xception 過于依賴圖像整體模式,性能在未經(jīng)訓(xùn)練的偽造樣本中急劇下降,而本文提出的方法充分利用了多樣化的特征,使網(wǎng)絡(luò)捕獲的整體信息更加豐富,泛化能力更佳。
表3 在FF++(HQ)上進(jìn)行的跨數(shù)據(jù)集評估(AUC)Table 3 Cross-database evaluation on FF++database(HQ)%
2.3.1 本文提出方法的有效性
實(shí)驗(yàn)在FF++HQ版本中測試,結(jié)果如表4所示,其中雙流網(wǎng)絡(luò)由Xception 與SRNet 組成,“雙流網(wǎng)絡(luò)+雙向GRU”表示在雙流網(wǎng)絡(luò)特征融合后經(jīng)過雙向GRU 神經(jīng)網(wǎng)絡(luò)??梢园l(fā)現(xiàn):加入時序模塊(雙向GRU或MTFPM)后,檢測精度均得到顯著提升;相比“雙流網(wǎng)絡(luò)+雙向GRU”,MTFPM 的檢測精度進(jìn)一步提升;雙流網(wǎng)絡(luò)加上本文提出的方法后檢測性能有所提升,3 種方法共同使用時網(wǎng)絡(luò)的檢測性能最佳。
表4 本文提出方法有效性的消融結(jié)果Table 4 Ablation results of effectiveness of the proposed method %
2.3.2 網(wǎng)絡(luò)的連續(xù)幀長度
單幀、連續(xù)兩幀、連續(xù)3 幀以及連續(xù)4 幀輸入對模型檢測性能的影響如表5所示??梢园l(fā)現(xiàn):圖像序列(多幀)輸入優(yōu)于單幀輸入;連續(xù)幀長越長,檢測效果越佳。雖然GRU[25]可以解決長序列訓(xùn)練過程中梯度消失和梯度爆炸的問題,但根據(jù)時序網(wǎng)絡(luò)相關(guān)研究結(jié)果,過長的連續(xù)序列會導(dǎo)致模型過擬合。本文所有實(shí)驗(yàn)參數(shù)取連續(xù)幀長為2。
表5 使用不同長度視頻子序列的檢測結(jié)果Table 5 Detection results using video subsequences of different lengths %
2.3.3 融合方法分析
本文研究了拼接(Concatenate)、逐點(diǎn)相加(add)、雙線性池化[26]和注意力特征融合[27]4 種融合方式對檢測性能的影響,消融結(jié)果如表6 所示。由表可以看出:簡單的拼接和逐點(diǎn)相加操作能獲得優(yōu)于基準(zhǔn)的性能;注意力特征融合和雙線性池化使模型性能提升得更高,且注意力機(jī)制的融合方法效果最佳。
表6 不同融合方法的消融結(jié)果Table 6 Ablation results of different fusion methods %
本文提出了一個具有多樣化特征的自適應(yīng)深度偽造檢測網(wǎng)絡(luò),通過自適應(yīng)紋理噪聲提取機(jī)制有效提取深度偽造方法留下的殘差噪聲,設(shè)計深層語義分析指導(dǎo)策略引導(dǎo)高級語義特征流聚焦在可疑區(qū)域,采用多尺度時序特征處理方法有效檢測出幀級不一致的時間偽影,并嘗試了不同融合方法來有效聚合雙流特征。實(shí)驗(yàn)證明本文提出的方法在跨數(shù)據(jù)集和FF++數(shù)據(jù)集內(nèi)具有優(yōu)越的檢測性能,體現(xiàn)了良好的泛化能力。未來的研究將通過對抗學(xué)習(xí)進(jìn)一步提高網(wǎng)絡(luò)泛化能力。