孫 磊 張洪蒙 毛秀青 郭 松 胡永進(jìn)
(戰(zhàn)略支援部隊(duì)信息工程大學(xué) 鄭州 450001)
深度偽造(DeepFake)是人工智能技術(shù)濫用所產(chǎn)生的問題之一[1],由“深度學(xué)習(xí)”(Deep learning)和“偽造”(Fake)二詞組合而成,專指基于人工智能尤其是深度學(xué)習(xí)的人體圖像合成技術(shù)。這一概念最早出現(xiàn)在2017年底,Reddit網(wǎng)站用戶“Deepfakes”在網(wǎng)上發(fā)布了一段使用FakeAPP合成某一明星的色情視頻[2],引發(fā)各界關(guān)注。隨后,研究者使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)等深度網(wǎng)絡(luò)模型提高視頻的換臉效果及生成效率[3—5]。偽造音視頻能轉(zhuǎn)變演講人的表情、身份和演講內(nèi)容等,達(dá)到以假亂真的程度,對(duì)數(shù)據(jù)隱私和社會(huì)安全構(gòu)成嚴(yán)重危害。因此,各種偽造內(nèi)容的檢測(cè)和過濾方法也隨之出現(xiàn)。騰訊、阿里、谷歌等國(guó)內(nèi)外各人工智能實(shí)驗(yàn)室均提出了深度偽造視頻圖像檢測(cè)方案,學(xué)術(shù)界關(guān)于深度偽造視頻的檢測(cè)研究也逐漸從傳統(tǒng)檢測(cè)往機(jī)器學(xué)習(xí)算法檢測(cè)的方向發(fā)展。
DeepFake換臉視頻在創(chuàng)建時(shí)需要通過仿射人臉變換,例如縮放、旋轉(zhuǎn)和剪切,來匹配源視頻的人臉各區(qū)域特征。由于扭曲變換的人臉區(qū)域和周圍環(huán)境之間的分辨率不一致,該過程會(huì)產(chǎn)生偽影特征,可由CNN模型捕捉,例如VGG16[6],ResNet50,ResNet101和ResNet152[7]。Zhou等人[8]提出了雙流框架檢測(cè)深度偽造視頻,通過GoogleNet學(xué)習(xí)偽影特征并行人臉分類,使用三重態(tài)流來進(jìn)行偽造人臉檢測(cè)。Afchar等人[9]提出的MesoNet網(wǎng)絡(luò),并對(duì)壓縮數(shù)據(jù)進(jìn)行測(cè)試,準(zhǔn)確率達(dá)到70.47%,但對(duì)特征提取未作充分解釋。Matern等人[10]從眼睛等區(qū)域提取特征向量,并訓(xùn)練一個(gè)小型全連接神經(jīng)網(wǎng)絡(luò)對(duì)真?zhèn)螆D像分類。文獻(xiàn)[11]提出一種計(jì)算人臉交并比的新方法,并在3個(gè)不同的基礎(chǔ)分割網(wǎng)絡(luò)上實(shí)現(xiàn),顯著降低了跨庫(kù)檢測(cè)的平均錯(cuò)誤率。R?ssler等人[12]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)模型,在壓縮數(shù)據(jù)集上的檢測(cè)率為81.00%。Li等人[13]提出了一種基于偽影的深度偽造檢測(cè)方法,通過ResNet50分類。該文章為DeepFake視頻的檢測(cè)提供了新思路,但在強(qiáng)壓縮視頻檢測(cè)上表現(xiàn)較差,還有進(jìn)一步改進(jìn)的空間,這是由于在強(qiáng)壓縮后,數(shù)據(jù)質(zhì)量降低,在真實(shí)數(shù)據(jù)集中出現(xiàn)偽造數(shù)據(jù)集中的偽影特征,導(dǎo)致CNN對(duì)其誤判。
在平常社交網(wǎng)絡(luò)上接觸到的視頻由于帶寬約束、存儲(chǔ)空間限制等因素通常經(jīng)過壓縮后進(jìn)行傳輸。視頻壓縮會(huì)引入下采樣、模糊和量化噪聲等降質(zhì)技術(shù)降低空間冗余和時(shí)間冗余[14],所以在強(qiáng)壓縮格式的真實(shí)數(shù)據(jù)集中,視頻中會(huì)引入類似于偽造視頻幀所獨(dú)有的偽影特征,使得以上檢測(cè)方法難以廣泛應(yīng)用到復(fù)雜壓縮質(zhì)量格式的數(shù)據(jù)集上。所以,針對(duì)社交網(wǎng)絡(luò)中傳播的視頻的真?zhèn)闻袆e,需要研究對(duì)強(qiáng)壓縮視頻的深度偽造檢測(cè)方法。
本文考慮到強(qiáng)壓縮視頻的偽造檢測(cè)必要性,探究了當(dāng)前檢測(cè)方法在強(qiáng)壓縮視頻數(shù)據(jù)集的可用性;借鑒雙網(wǎng)絡(luò)模型的視頻超分辨率方法,并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),提高其在人臉視頻超分辨率重建的表現(xiàn);設(shè)計(jì)卷積神經(jīng)檢測(cè)網(wǎng)絡(luò),將視頻超分辨率重建技術(shù)引入到深度偽造檢測(cè)方法中,提高了真實(shí)視頻單幀測(cè)試的準(zhǔn)確率,在強(qiáng)壓縮視頻測(cè)試中整體表現(xiàn)更好。
本文的檢測(cè)方法整體框架如圖1。檢測(cè)模型分為訓(xùn)練和測(cè)試兩個(gè)部分,在訓(xùn)練時(shí),使用高分辨率圖像以及真實(shí)圖像經(jīng)過高斯模糊等技術(shù)產(chǎn)生低分辨率圖像以及模擬偽造圖像,分別對(duì)應(yīng)形成字典對(duì)對(duì)超分辨率重建的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。測(cè)試時(shí),首先使用訓(xùn)練好的動(dòng)態(tài)濾波網(wǎng)絡(luò)對(duì)視頻幀采樣重建,由殘差生成網(wǎng)絡(luò)補(bǔ)充重建幀的高頻細(xì)節(jié),然后疊加成最終的重建幀,最后輸入到訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行檢測(cè)并輸出判別視頻為偽造的概率。
圖1 本文檢測(cè)模型整體框架
視頻的超分辨率重建技術(shù)指的是將給定的質(zhì)量不高且分辨率不高的視頻,通過信號(hào)及圖像改善的方法來提升其品質(zhì)[15]。文獻(xiàn)[16]提出雙網(wǎng)絡(luò)模型進(jìn)行圖像超分辨率重建,本文在其神經(jīng)網(wǎng)絡(luò)上改進(jìn)使其適用于人臉視頻超分辨率重建場(chǎng)景,降低真實(shí)數(shù)據(jù)集中的偽影特征,又使偽造視頻中的偽影特征不被重建消失。本文隱式地利用運(yùn)動(dòng)信息來生成動(dòng)態(tài)上采樣濾波器,利用生成的上采樣濾波器,可以通過對(duì)輸入中心幀進(jìn)行局部濾波來直接構(gòu)建高分辨率(High Resolution,HR)幀,并使用殘差網(wǎng)絡(luò)補(bǔ)充高頻細(xì)節(jié),可以生成時(shí)間上一致的更清晰的HR視頻。本文進(jìn)行視頻超分辨率重建的框架結(jié)構(gòu)如圖2所示。
圖2 視頻超分辨率重建網(wǎng)絡(luò)結(jié)構(gòu)
動(dòng)態(tài)濾波網(wǎng)絡(luò)由濾波生成單元和動(dòng)態(tài)濾波層組成。濾波生成網(wǎng)絡(luò)的每個(gè)單元由ReLU激活函數(shù)以及3D卷積組成,根據(jù)輸入的視頻幀動(dòng)態(tài)生成濾波器,并將其輸入至動(dòng)態(tài)濾波層,該層采用生成的濾波器對(duì)輸入進(jìn)行動(dòng)態(tài)卷積等操作,本方法將其應(yīng)用于低分辨率幀低頻重建。本方法所采用的動(dòng)態(tài)濾波網(wǎng)絡(luò)及殘差網(wǎng)絡(luò)中均包含了11個(gè)生成單元共22個(gè)卷積層,2個(gè)上采樣卷積層以及1個(gè)全連接層。在濾波生成單元后,卷積層采用所生成的動(dòng)態(tài)濾波器,reshape之后結(jié)合中心輸入幀xt經(jīng)過softmax層得到高清幀。殘差網(wǎng)絡(luò)用于生成具有高頻細(xì)節(jié)的殘差圖像,由多個(gè)輸入幀構(gòu)成,并且使用動(dòng)態(tài)濾波網(wǎng)絡(luò)構(gòu)建的高清幀作為基線,與計(jì)算出的殘差相加,即將殘差rt添加到上采樣結(jié)果,得到最終的高分辨率輸出幀。其具體算法見算法1。
算法1 基于濾波器與殘差生成網(wǎng)絡(luò)的視頻超分辨率重建
輸入:低分辨率視頻幀xt(t為視頻總幀數(shù))
輸出:高分辨率視頻幀
(1)輸入低分辨率視頻幀xt,并將初始低分辨率視頻幀xt劃分成采樣塊;
(2)通過濾波器生成網(wǎng)絡(luò)和殘差生成網(wǎng)絡(luò)分別對(duì)低分辨率視頻幀xt的低頻分量和高頻分量進(jìn)行處理;
(3)取塊bi(bi ?xt),利用下式,通過濾波器構(gòu)建低頻域的高清塊
其中,y和x是 低分辨率網(wǎng)格中的坐標(biāo),v和u是每個(gè)r×r采樣塊(0≤v,u ≤r-1)中 的坐標(biāo),t表示時(shí)間軸,n是所選取序列幀數(shù)。
(4)取塊bi(bi ?xt),通過殘差生成網(wǎng)絡(luò)去除偽高頻成分,獲得有效高頻殘差塊;
(5)重復(fù)步驟3和步驟4,直至完成所有視頻幀塊的操作,得到高清幀和 殘差幀rt;
(6)使用濾波器生成網(wǎng)絡(luò)構(gòu)建的高清幀作為基線,與生成的殘差幀rt疊加得到最終的高分辨率視頻幀;
(7)重復(fù)步驟2—步驟6,直至完成所有視頻幀的操作,實(shí)現(xiàn)對(duì)低分辨率視頻的超分辨率重建。
在網(wǎng)絡(luò)的構(gòu)建中,動(dòng)態(tài)濾波網(wǎng)絡(luò)和殘差生成網(wǎng)絡(luò)共享大部分權(quán)重以減少開銷,其中網(wǎng)絡(luò)的參數(shù)共享是受密集塊啟發(fā)而設(shè)計(jì)的,并針對(duì)人臉圖像超分辨率重建問題進(jìn)行了適當(dāng)修改。因?yàn)?D卷積層比2D卷積層更適用于人臉動(dòng)作識(shí)別和視頻數(shù)據(jù)的時(shí)域空域特征提取,故原方法采用2D卷積層從視頻數(shù)據(jù)中學(xué)習(xí)時(shí)空特征。據(jù)文獻(xiàn)[17]所述,人臉超分辨率重建屬于低級(jí)視覺特征的捕捉,網(wǎng)絡(luò)輸入和輸出的空間分布十分相似,而神經(jīng)網(wǎng)絡(luò)中的批量歸一化(Batch Normalization,BN)層白化中間特征的方式破壞了原始空間的表征,因此在重建模型中需要部分層或參數(shù)來恢復(fù)這種表征,所以同等級(jí)的參數(shù)量,含有BN層的模型會(huì)降低人臉超分辨率重建的效果。因此,本方法首先移除動(dòng)態(tài)濾波網(wǎng)絡(luò)中的BN層。另外,考慮到殘差生成網(wǎng)絡(luò)用于捕捉重建幀的高頻細(xì)節(jié),需要模型有較高的泛化能力,同時(shí)保持兩個(gè)網(wǎng)絡(luò)參數(shù)共享以提高網(wǎng)絡(luò)收斂速度,本方法將殘差生成網(wǎng)絡(luò)中的BN層移除后,在最后增加dropout層解決歸一化問題,提高模型擬合能力。
本文檢測(cè)算法在ResNet50模型[6]的基礎(chǔ)上進(jìn)行改進(jìn)構(gòu)成端到端的神經(jīng)網(wǎng)絡(luò)。在訓(xùn)練過程中,使用負(fù)樣本生成方法,使模型對(duì)人臉區(qū)域的特征提取更敏感,提高分類準(zhǔn)確率。
2.2.1 負(fù)樣本生成算法
為了增強(qiáng)CNN捕捉偽影特征的能力并簡(jiǎn)化訓(xùn)練過程,本文通過模擬DeepFake中的仿射翹曲變換生成的分辨率不一致性對(duì)負(fù)樣本數(shù)據(jù)進(jìn)行預(yù)處理。
首先,如圖3(f)所示,創(chuàng)建RoI(Region of Interest)區(qū)域,即矩形區(qū)域減掉根據(jù)眼睛與嘴巴底部的特征點(diǎn)創(chuàng)建的凸多邊形所形成的區(qū)域。具體來說,使用人臉特征點(diǎn)的坐標(biāo)來確定RoI,例如其中y0,x0,y1,x1表示可以覆蓋所有臉部特征點(diǎn)坐標(biāo)的最小邊界框。變量是[0,h/5]和[0,w/8]之間的隨機(jī)值,其中h,w分別是矩形人臉的高度和寬度。其偽代碼如表1所示。
圖3 負(fù)樣本生成及選擇RoI區(qū)域過程
表1 負(fù)樣本生成的偽代碼
2.2.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
ResNet50模型中包含了49個(gè)卷積層1個(gè)全連接層。其中,第2至第5階段中的id block表示的是恒等殘差塊,即不改變輸入輸出圖像的尺寸,conv block代表的是添加尺度的卷積殘差塊,每個(gè)殘差塊包含3個(gè)卷積層,結(jié)構(gòu)如圖4所示。
圖4中的階段1到階段5表示殘差塊,conv 是卷積操作的卷積層,batch norm是批量正則化處理,激活函數(shù)使用ReLU函數(shù),maxpool表示最大池化操作,avgpool表示全局平均池化層操作。其具體結(jié)構(gòu)參數(shù)如表2所示。經(jīng)過殘差塊的連續(xù)卷積運(yùn)算后,得到的特征圖矩陣的通道數(shù)量越來越深,然后通過flatten圖層將特征圖的的大小更改為2048×2048。最后一個(gè)卷積層的特征圖矩陣輸入到全連接層fc,對(duì)圖像檢測(cè)的概率由 softmax分類器輸出。
表2 改進(jìn)的ResNet50結(jié)構(gòu)參數(shù)
圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
考慮到本文訓(xùn)練集采用的是CelebA數(shù)據(jù)集,而測(cè)試集則是FaceForensics++數(shù)據(jù)集,兩個(gè)數(shù)據(jù)集存在分布不一致的可能性,故本文在softmax層加入tanh函數(shù),在權(quán)值矩陣和偏置量都沒有改變的情況下,通過改變激活函數(shù),將原模型的決策邊界進(jìn)行了軟化,輸入層和隱藏層之間的權(quán)值矩陣將不會(huì)再局限于稀疏矩陣,而可以是任意矩陣,有效防止模型的過擬合問題。
FaceForensics++數(shù)據(jù)集由R?ssler等人[12]所制作的FaceForensics數(shù)據(jù)集[18]擴(kuò)充而來,后又收錄谷歌與Jigsaw 聯(lián)合制作的大型DeepFake數(shù)據(jù)集[19],進(jìn)一步豐富原有偽造與真實(shí)視頻。目前,F(xiàn)ace-Forensics++作為標(biāo)準(zhǔn)數(shù)據(jù)集已廣泛使用在深度偽造檢測(cè)模型的訓(xùn)練和測(cè)試中。R?ssler等人[12]根據(jù)偽造方法的不同將FaceForensics++數(shù)據(jù)集劃分為DF(DeepFake),F2F(Face2Face),FS(FaceSwap)和NT(NeuralTextures)4個(gè)子數(shù)據(jù)集,每個(gè)子數(shù)據(jù)集包含1000個(gè)視頻,視頻具有3種壓縮格式,分別為無損壓縮、輕壓縮、強(qiáng)壓縮,總共包含超過180萬張偽造圖像。
DFDC (the DeepFake Detection Challenge)為Kaggle舉辦的DeepFake檢測(cè)挑戰(zhàn)賽的正式數(shù)據(jù)集,共有119196個(gè)視頻,由演員拍攝,質(zhì)量較FaceForensics++數(shù)據(jù)集高。
香港中文大學(xué)Liu等人[20]創(chuàng)建了CelebA數(shù)據(jù)集,即名人人臉屬性數(shù)據(jù)集。該數(shù)據(jù)集包含10177個(gè)名人的圖像(人均約有20張),共計(jì)202599張。
為了提高訓(xùn)練的人臉數(shù)據(jù)的多樣性,本文改變了所有訓(xùn)練樣本的圖像信息:亮度、對(duì)比度、失真度和銳度等,并采用動(dòng)態(tài)的方式來產(chǎn)生負(fù)樣本。對(duì)于每個(gè)訓(xùn)練批次,隨機(jī)選擇一半正樣本按照前文預(yù)處理的方法將其轉(zhuǎn)化為模擬偽造數(shù)據(jù),使得訓(xùn)練數(shù)據(jù)更加多樣化。由于改進(jìn)后的ResNet50 神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)大小為224×224×3,所以需要在輸入數(shù)據(jù)之前進(jìn)行圖像預(yù)處理,把數(shù)據(jù)裁剪成指定大小。批訓(xùn)練大小設(shè)置為64,學(xué)習(xí)速率從0.001開始,每1000步衰減95%,并使用隨機(jī)梯度下降優(yōu)化方法,訓(xùn)練過程在第20個(gè)迭代周期終止,使用困難樣本挖掘策略[21]對(duì)模型進(jìn)行微調(diào),最終使用訓(xùn)練好的參數(shù)模型對(duì)數(shù)據(jù)進(jìn)行測(cè)試。
本文選擇FaceForensics++數(shù)據(jù)集來評(píng)估所提出的檢測(cè)方法。其中,訓(xùn)練集采用Celeb A數(shù)據(jù)集;測(cè)試集中的偽造人臉數(shù)據(jù)集為FaceForensics++數(shù)據(jù)集中DeepFake視頻庫(kù),真實(shí)數(shù)據(jù)集為對(duì)應(yīng)的真實(shí)人臉視頻庫(kù)。實(shí)驗(yàn)環(huán)境采用的是64位Windows 10 操作系統(tǒng)下的TensorFlow深度學(xué)習(xí)平臺(tái)。
為了驗(yàn)證本文算法對(duì)視頻及視頻幀的有效性,分別針對(duì)視頻及視頻幀進(jìn)行偽造檢測(cè),具體步驟是:隨機(jī)選擇FaceForensics++中的真?zhèn)我曨l拆分成幀運(yùn)行檢測(cè)算法并分析實(shí)驗(yàn)結(jié)果,同時(shí)測(cè)試所選視頻并和現(xiàn)有方法的檢測(cè)結(jié)果進(jìn)行比較和量化分析。本文對(duì)比實(shí)驗(yàn)部分所參考的評(píng)價(jià)參數(shù)為測(cè)試準(zhǔn)確率及受試者操作特征(Receiver Operating Characteristic,ROC)曲線,如式(1)及式(2)所示
其中,ROC曲線的橫軸為假正類率(False Postive Rate,FPR),代表檢測(cè)模型預(yù)測(cè)的真實(shí)視頻中實(shí)際偽造視頻占所有偽造視頻的比例;縱軸為真正類率(True Postive Rate,TPR),代表檢測(cè)模型預(yù)測(cè)的真實(shí)視頻中實(shí)際真實(shí)視頻占所有真實(shí)視頻的比例。AUC(Area Under roc Curve)是一種用來度量分類模型好壞的標(biāo)準(zhǔn),其值就是處于ROC 曲線下方的那部分面積的大小。
4.2.1 視頻幀的檢測(cè)效果對(duì)比
本節(jié)首先驗(yàn)證所提方法在強(qiáng)壓縮數(shù)據(jù)集上對(duì)真實(shí)視頻幀檢測(cè)準(zhǔn)確率的提高,隨機(jī)選擇FaceForensics++中強(qiáng)壓縮格式的真實(shí)與相對(duì)應(yīng)的偽造的視頻進(jìn)行測(cè)試,將視頻拆分成共396幀進(jìn)行測(cè)試并輸出其為偽造視頻幀的概率,對(duì)比方法為文獻(xiàn)[13]中未重建的ResNet50檢測(cè)方法。
圖5(a)及圖6(b)為未重建方法與本文方法對(duì)強(qiáng)壓縮真實(shí)視頻每一幀檢測(cè)的準(zhǔn)確率曲線,縱軸表示為視頻幀檢測(cè)為偽造的概率,可以看出未重建方法對(duì)真實(shí)視頻幀的誤判較為嚴(yán)重。圖5(c)及 圖5(d)中曲線含義為未重建方法與本文方法所得出的準(zhǔn)確率的差值,從圖中可以看出差值主要集中在0~0.5之間,證明在對(duì)視頻進(jìn)行重建之后,本文方法判斷為偽造視頻的概率明顯降低,即對(duì)真實(shí)視頻幀的檢測(cè)準(zhǔn)確率有所提高。
圖5 兩種方法下的真實(shí)視頻幀檢測(cè)準(zhǔn)確率對(duì)比及差值曲線
圖6(a)及 圖6(b)為使用未重建方法與本文方法對(duì)強(qiáng)壓縮偽造視頻每一幀檢測(cè)的準(zhǔn)確率曲線,圖6(c)及圖6(d)中曲線含義為未重建方法與本文方法所得出的準(zhǔn)確率的差值,從圖中可以看出差值主要在—0.1~0.3之間波動(dòng),說明本文方法對(duì)偽造視頻的檢測(cè)準(zhǔn)確率的影響較小。但結(jié)合圖5中對(duì)真實(shí)視頻幀的檢測(cè)結(jié)果,表明加入超分辨率重建提高了深度偽造視頻檢測(cè)方法在視頻幀上的檢測(cè)準(zhǔn)確率。
圖6 兩種方法下的偽造視頻幀檢測(cè)準(zhǔn)確率對(duì)比及差值曲線
4.2.2 視頻的檢測(cè)效果對(duì)比
本節(jié)驗(yàn)證所提方法在強(qiáng)壓縮數(shù)據(jù)集上對(duì)真實(shí)視頻檢測(cè)準(zhǔn)確率的提高,在FaceForensics++數(shù)據(jù)集中DeepFake視頻庫(kù)隨機(jī)選擇100個(gè)強(qiáng)壓縮格式的真實(shí)與相對(duì)應(yīng)的偽造的視頻進(jìn)行測(cè)試。
圖7(a)分別為未重建方法以及超分辨率重建的方法在強(qiáng)壓縮真實(shí)視頻中的檢測(cè)準(zhǔn)確率曲線,橫軸為視頻編號(hào),縱軸為檢測(cè)為偽造視頻的概率。可以看出,在后段數(shù)據(jù)中,未重建方法對(duì)視頻的偽造檢測(cè)概率上下波動(dòng),而在重建之后對(duì)視頻可以進(jìn)行精確的判別,前段數(shù)據(jù)中方法對(duì)強(qiáng)壓縮的原始視頻出現(xiàn)誤判,在重建之后提升了其判別概率。在對(duì)視頻內(nèi)容統(tǒng)計(jì)研究后發(fā)現(xiàn),比如圖5(a)中編號(hào)14視頻,未重建和重建后結(jié)果相似,均對(duì)視頻造成誤判,類似視頻還有23,28等。此類視頻中人物存在大量夸張表情,同時(shí)在強(qiáng)壓縮技術(shù)的影響下,導(dǎo)致原方法對(duì)其誤判;而經(jīng)歷超分辨率重建后,雖然對(duì)視頻消除了部分偽影,但視頻中人物表情未有改變,故而使得超分重建方法所起作用較小。而編號(hào)20,24之類的視頻,人物距離攝像機(jī)較遠(yuǎn),從而導(dǎo)致提取到的人臉分辨率更低,在Resize至檢測(cè)網(wǎng)絡(luò)中時(shí),相比其他網(wǎng)絡(luò)特征更少,因此檢測(cè)準(zhǔn)確率降低;此類視頻在經(jīng)過超分重建后均有較為明顯的提升。
圖7(b)分別為未重建方法以及超分辨率重建的方法在強(qiáng)壓縮偽造視頻中的檢測(cè)準(zhǔn)確率曲線,本文方法對(duì)偽造視頻的檢測(cè)概率有所影響,這是由于偽造圖像經(jīng)過超分重建后,平滑了人臉與背景的拼接區(qū)域,部分消除了換臉?biāo)惴ㄋa(chǎn)生的偽影,因而一定程度上降低了模型檢測(cè)準(zhǔn)確率。
圖7 兩種方法下的視頻檢測(cè)準(zhǔn)確率對(duì)比
本文基于AUC度量對(duì)在FaceForensics++數(shù)據(jù)集中DeepFake視頻庫(kù)隨機(jī)選擇100個(gè)強(qiáng)壓縮格式的真實(shí)與相對(duì)應(yīng)的偽造的視頻評(píng)估本文檢測(cè)方法,其中未重建方法在強(qiáng)壓縮視頻集上的AUC值為63.36%,重建之后為94.86%,見圖8??梢钥吹骄匦慰蜻x中的區(qū)域,此處原始模型呈反向判別的趨勢(shì),由縱橫坐標(biāo)可以看出,此處FPR值較高,而相對(duì)應(yīng)的TPR值較低,由FPR和TPR的定義可知,在此處樣本點(diǎn)作為閾值的條件下,真實(shí)視頻中判斷正確所占比例很低,即此處表示原始模型對(duì)真實(shí)視頻誤判的情況。結(jié)果表明,基于超分辨率重建的方法提高了對(duì)強(qiáng)壓縮視頻的檢測(cè)準(zhǔn)確率,可以較好地解決真實(shí)數(shù)據(jù)出現(xiàn)誤判的問題。
圖8 兩種方法下的ROC曲線對(duì)比
本文方法及2種檢測(cè)算法(文獻(xiàn)[9]、文獻(xiàn)[13])各自在FaceForensics++數(shù)據(jù)集中4個(gè)數(shù)據(jù)庫(kù)以及DFDC公開測(cè)試集上的檢測(cè)結(jié)果的AUC值如表3所示,并在MesoNet網(wǎng)絡(luò)添加超分辨率網(wǎng)絡(luò)形成VSR-MesoNet模型,同其余模型在原有測(cè)試集上進(jìn)行測(cè)試。從表3可以看出,本文方法的檢測(cè)效果在AUC值上明顯優(yōu)于文獻(xiàn)[13]未重建的對(duì)比方法,在DF和FS以及DFDC數(shù)據(jù)集上優(yōu)于MesoNet和VSR-MesoNet。但由于F2F和NT所生成視頻是基于面部重現(xiàn)的原理,而本文方法基于圖像分割掩膜技術(shù)所提取拼接特征來進(jìn)行檢測(cè),故在F2F和NT數(shù)據(jù)集上表現(xiàn)較差。加入超分重建網(wǎng)絡(luò)的MesoNet即VSR-MesoNet和原始MesoNet相比,在各大數(shù)據(jù)集上表現(xiàn)各有優(yōu)劣,其中在F2F及NT數(shù)據(jù)集上有相對(duì)明顯的提升,但在DF及DFDC數(shù)據(jù)集上提升不明顯,并在FS數(shù)據(jù)集上有所下降。按照提出該網(wǎng)絡(luò)的文獻(xiàn)[9]所述,MesoNet網(wǎng)絡(luò)激活的特征主要為眼睛區(qū)域的細(xì)節(jié)特征,其次是鼻子區(qū)域,并非依靠偽影對(duì)真?zhèn)我曨l進(jìn)行分類,而本文網(wǎng)絡(luò)針對(duì)的是去除拼接區(qū)域的偽影,故而將超分辨率重建應(yīng)用在MesoNet網(wǎng)絡(luò)提升有限。
表3 各算法強(qiáng)壓縮數(shù)據(jù)集檢測(cè)結(jié)果對(duì)比
本文提出一種基于超分辨率重建的強(qiáng)壓縮深度偽造視頻的檢測(cè)方法。首先,在對(duì)真實(shí)數(shù)據(jù)的人臉區(qū)域進(jìn)行對(duì)齊后,施加高斯模糊對(duì)人臉拼接區(qū)域進(jìn)行處理,將其轉(zhuǎn)化為負(fù)樣本,減少負(fù)樣本生成工作;然后將真實(shí)數(shù)據(jù)和處理數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,由于先前數(shù)據(jù)的預(yù)處理,神經(jīng)網(wǎng)絡(luò)對(duì)于人臉邊緣偽影特征的提取更加敏感,有效提高神經(jīng)網(wǎng)絡(luò)的收斂速度;再使用神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)試數(shù)據(jù)進(jìn)行超分辨率重建,神經(jīng)網(wǎng)絡(luò)采用殘差網(wǎng)絡(luò)在超分辨率重建中對(duì)視頻幀像素點(diǎn)間差值進(jìn)行預(yù)測(cè),增加重建細(xì)節(jié);最后,利用訓(xùn)練好的深度網(wǎng)絡(luò)模型對(duì)超分辨率重建后的視頻進(jìn)行測(cè)試。實(shí)驗(yàn)證明,針對(duì)強(qiáng)壓縮深度偽造視頻,所提方法對(duì)真實(shí)視頻的誤檢率降低,并在視頻單幀的測(cè)試中精確度更高。另外對(duì)無損壓縮數(shù)據(jù)的檢測(cè)準(zhǔn)確率相較于文獻(xiàn)[13]方法有所降低,并且在除DF數(shù)據(jù)集的其他子數(shù)據(jù)集表現(xiàn)較差,這也是后續(xù)需要重點(diǎn)研究的工作。