張 璐,蘆天亮,杜彥輝
1.中國人民公網(wǎng)絡(luò)安全學(xué)院,北京100038
2.山東警察學(xué)院偵安大學(xué)信息查系,濟(jì)南250200
2017 年12 月,一個(gè)名為“DeepFakes”的Reddit 用戶正式發(fā)布了第一個(gè)利用深度神經(jīng)網(wǎng)絡(luò)生成的以好萊塢女星蓋爾·加朵為主人公的偽造色情視頻,這正式標(biāo)志著人臉視頻深度偽造技術(shù)的興起。單詞“深度偽造”(deepfake)源自“深度學(xué)習(xí)”(deep learning)與“造假”(fake)的組合,這成為利用深度學(xué)習(xí)實(shí)現(xiàn)人物換臉、表情編輯等視頻偽造的一系列技術(shù)的統(tǒng)稱,用以躲避識(shí)別、混淆視聽、娛樂用戶以及其他目的[1]。近年來深度偽造技術(shù)已經(jīng)逐漸從娛樂領(lǐng)域滲透到了政治、媒體、體育等多個(gè)領(lǐng)域。在商業(yè)領(lǐng)域,電影特效、廣告營銷等是深度偽造技術(shù)兩大應(yīng)用方向。在政治領(lǐng)域,深度偽造技術(shù)易帶來負(fù)面影響,尤其是在操縱選舉方面極易帶來負(fù)面的信任危機(jī)。例如2016 年美國大選期間由特朗普支持者所制作的佩洛西的偽造視頻在互聯(lián)網(wǎng)上被大肆傳播;2018 年美國也出現(xiàn)了利用深度偽造視頻偽造前任總統(tǒng)對(duì)時(shí)任總統(tǒng)進(jìn)行辱罵的視頻片段[2];近期伴隨著俄烏戰(zhàn)場形勢的發(fā)展,在互聯(lián)網(wǎng)上也出現(xiàn)了俄羅斯總統(tǒng)普京宣布已實(shí)現(xiàn)和平,以及烏克蘭總統(tǒng)澤連斯基宣布放下武器的偽造視頻。
深度偽造的技術(shù)原理簡單,最常用的兩種技術(shù)便是自動(dòng)編碼器與對(duì)抗生成網(wǎng)絡(luò)(generative adversarial network,GAN)。近幾年隨著技術(shù)的發(fā)展,人臉視頻深度偽造的成本與難度越來越低,出現(xiàn)了很多“傻瓜式”“一鍵式”的換臉軟件與應(yīng)用,這進(jìn)一步使得互聯(lián)網(wǎng)上各類針對(duì)人臉的深度偽造視頻數(shù)量激增,顛覆了人們對(duì)于“耳聽為虛、眼見為實(shí)”觀念的認(rèn)識(shí)。據(jù)統(tǒng)計(jì),當(dāng)前深度偽造產(chǎn)品泛濫成災(zāi),增長率已超300%,其濫用已對(duì)私人權(quán)利、個(gè)人名譽(yù)甚至是社會(huì)穩(wěn)定與國家安全產(chǎn)生威脅,因此對(duì)于人臉深度偽造視頻,應(yīng)當(dāng)掌握一定的檢測方法,以能夠?qū)崿F(xiàn)對(duì)絕大多數(shù)的偽造視頻圖像的鑒定分類。
本文以人臉深度偽造視頻為研究對(duì)象,主要針對(duì)2019 年以來所公開的人臉視頻深度偽造檢測研究成果在采用特征的角度上進(jìn)行總結(jié)。
數(shù)據(jù)集主要用來訓(xùn)練、驗(yàn)證及評(píng)估模型的質(zhì)量與性能表現(xiàn)。與人臉識(shí)別、圖像分類等傳統(tǒng)計(jì)算機(jī)視覺任務(wù)相比,人臉視頻深度偽造檢測任務(wù)是近幾年伴隨著以DeepFake 為代表的圖像/視頻偽造技術(shù)的產(chǎn)生發(fā)展而誕生的,因此深度視頻偽造的數(shù)據(jù)集種類與數(shù)量相對(duì)較少。當(dāng)前使用較為廣泛的人臉深度視頻偽造數(shù)據(jù)集如表1 所示,其中DFDC(deepfake detection challenge)[3]、FaceForensics++[4]、Celeb-DF[5]等均是被廣泛應(yīng)用的數(shù)據(jù)集,但近幾年隨著研究思路的創(chuàng)新,針對(duì)不同技術(shù)方法、任務(wù)及特點(diǎn)也出現(xiàn)了許多新的數(shù)據(jù)集。
表1 人臉視頻深度偽造檢測各類數(shù)據(jù)集Table 1 Datasets of facial deepfake video detection
(1)UADFV、DF-TIMIT
UADFV[6]、DF-TIMIT[7]均是人臉視頻深度偽造檢測研究早期所提出的數(shù)據(jù)集,可作為基準(zhǔn)測試數(shù)據(jù)集使用。其缺點(diǎn)在于數(shù)據(jù)集規(guī)模較小,偽造技術(shù)較淺,整體質(zhì)量較低,因此檢測難度低,各類基準(zhǔn)方法均可取得較高檢測率,無法有效判別模型的可用性。除此之外,DF-TIMIT 數(shù)據(jù)集帶有原始視頻的音軌信息,沒有對(duì)音軌信息進(jìn)行修改,因此可通過音畫不同步對(duì)視頻真?zhèn)芜M(jìn)行檢測,研究意義與價(jià)值相對(duì)較低。
(2)FaceForensics++
為彌補(bǔ)傳統(tǒng)數(shù)據(jù)集偽造質(zhì)量較低、偽造技術(shù)單一的缺點(diǎn),F(xiàn)aceForensics++數(shù)據(jù)集被提出并被廣泛應(yīng)用。該數(shù)據(jù)集從YouTube 獲取1 000 個(gè)原始視頻,并對(duì)其分別運(yùn)用多種篡改技術(shù)生成共5 000 個(gè)偽造視頻,且具有三種不同壓縮率(c0,c23,c40)。數(shù)據(jù)集的生成采用了DeepFakes、Face2Face、FaceSwap、Neural Textures 與FaceShifter 五種技術(shù)。其中,F(xiàn)aceSwap 是一種基于圖形的方法,用于將面部區(qū)域從源視頻傳輸?shù)侥繕?biāo)視頻,其利用稀疏檢測到的臉部特征點(diǎn)(landmarks)提取源人物與目標(biāo)人物的臉部圖像,并在臉部交換之后通過渲染模型與圖像混合進(jìn)行顏色校正并完成人臉替換;DeepFakes 基于自動(dòng)編碼器,編碼器提取面部圖像的潛在特征,解碼器重建面部圖像,為了在源圖像和目標(biāo)圖像之間交換面部,需要兩個(gè)編碼器/解碼器對(duì);Face2Face[8]是一種面部重演系統(tǒng),可將源視頻的表情轉(zhuǎn)移到目標(biāo)視頻,同時(shí)保持目標(biāo)人的身份,是人臉屬性編輯的典型代表;Neural Textures[9]使用原始視頻數(shù)據(jù)來學(xué)習(xí)目標(biāo)任務(wù)的神經(jīng)紋理,模型只修改與嘴部區(qū)域相對(duì)應(yīng)的面部表情,而眼睛區(qū)域保持不變,在模型訓(xùn)練過程中則使用Pix2Pix[10]中的基于補(bǔ)丁的GAN 損失;FaceShifter[11]克服了現(xiàn)有技術(shù)合成交換人臉時(shí)僅利用來自目標(biāo)圖像的有限信息的缺陷,解決交換的人像中可能存在的遮擋問題,提升面部替換逼真度。
“FaceForensics++”數(shù)據(jù)集特點(diǎn)是數(shù)據(jù)規(guī)模大,偽造技術(shù)種類較多,但是視覺效果較差,視頻面部合成痕跡明顯,因此常被用作模型訓(xùn)練,以進(jìn)行后續(xù)的庫內(nèi)與跨庫測試。
(3)Celeb-DF
鑒于上述各類數(shù)據(jù)集數(shù)據(jù)質(zhì)量參差不齊的現(xiàn)狀,Celeb-DF 數(shù)據(jù)集被提出與應(yīng)用。該數(shù)據(jù)集從YouTube 上采集了59 位名人的590 個(gè)真實(shí)視頻,視頻考慮到不同的性別、年齡、種族的人群,并使用較為單一的DeepFakes 方式生成5 639 個(gè)平均長度為13 s的MPEG4.0 格式的偽造視頻。數(shù)據(jù)集通過提升人臉分辨率,建立偽造視頻與原始視頻中人臉的顏色轉(zhuǎn)換算法,更好地融合偽造區(qū)域與原始區(qū)域的邊界等算法提高數(shù)據(jù)質(zhì)量。
該數(shù)據(jù)集相較于之前各類數(shù)據(jù)集的整體質(zhì)量較高,可以用于模擬真實(shí)環(huán)境中的偽造生成視頻。其缺點(diǎn)是數(shù)據(jù)集整體規(guī)模較小,且正負(fù)樣本不平衡,通常在模型的跨庫測試中模擬現(xiàn)實(shí)世界中的偽造視頻進(jìn)行測試,衡量模型的泛化能力。
(4)DFDC
當(dāng)前常用的人臉視頻深度偽造檢測數(shù)據(jù)集普遍存在數(shù)據(jù)規(guī)模較小的問題,基于此現(xiàn)狀,DFDC 數(shù)據(jù)集被提出并應(yīng)用。該數(shù)據(jù)集是目前較大的公開可用的領(lǐng)域內(nèi)數(shù)據(jù)集之一,包含來自3 426 名付費(fèi)演員的10 萬多個(gè)視頻片段,且均統(tǒng)一為10 s 的視頻長度,便于模型的訓(xùn)練,減少預(yù)處理步驟。此外,數(shù)據(jù)集中的偽造視頻通過多種DeepFakes、GAN 和Non-Learned方法生成,考慮了多種生成技術(shù),相較于傳統(tǒng)的UADFV 與DF-TIMIT 等數(shù)據(jù)集具有較高的多樣性。
該數(shù)據(jù)集中視頻來源為真人拍攝,故相較于其他數(shù)據(jù)集來說視頻內(nèi)容較為生活化,全真實(shí)場景,貼近現(xiàn)實(shí)。其缺點(diǎn)在于人臉?biāo)疾糠州^小,動(dòng)作幅度較大時(shí)邊界偽影會(huì)比較明顯。
(5)DeeperForensics-1.0[12]
DeeperForensics-1.0[12]數(shù)據(jù)集共計(jì)包括60 000 個(gè)視頻數(shù)據(jù),其中真實(shí)視頻50 000 個(gè),偽造視頻10 000個(gè),總共1 760 萬幀。數(shù)據(jù)集的生成采用了DF-VAE(deepfake variational auto-encoder)算法,考慮到質(zhì)量逼真、多樣性豐富、數(shù)量充足、視頻有足夠的壓縮模糊等變化要求,其包括結(jié)構(gòu)提取模塊、解耦模塊與融合模塊,并通過光流差異最小化來優(yōu)化時(shí)序的連續(xù)性,提高偽造視頻的質(zhì)量。
數(shù)據(jù)集的偽造生成充分考慮并模擬了現(xiàn)實(shí)世界的具體情況,考慮到不同的頭部姿勢、照明條件、臉部表情、相機(jī)角度、人物膚色、失真情況等多方面因素。其缺點(diǎn)在于偽造生成過程的方式較為單一,采用“面部識(shí)別-臉部交換”的自編碼器模式。
(6)FFIW
傳統(tǒng)數(shù)據(jù)集中,每一幀所出現(xiàn)的人臉數(shù)量通常為1,而在現(xiàn)實(shí)世界中的偽造視頻卻不受人臉數(shù)量的限制。同一幀畫面中可能會(huì)出現(xiàn)多個(gè)人臉,并且選擇其中部分或者全部的人臉進(jìn)行篡改。因此為了增強(qiáng)模型在同一幀畫面中的真?zhèn)伪鎰e能力,Zhou 等人針對(duì)多場景下的偽造檢測而建立了FFIW(face forensics in wild)數(shù)據(jù)集[13]。該數(shù)據(jù)集中共包括10 000 個(gè)高質(zhì)量的偽造視頻,每幀會(huì)出現(xiàn)多張人臉(最少1 張,最多15 張,平均為3 張人臉),其中部分或者全部人臉被篡改偽造,這更能代表真實(shí)世界環(huán)境中的偽造情況。數(shù)據(jù)集的生成采用了DeepFaceLab[14]、FSGAN(face swapping generative adversarial networks)[15]、FaceSwap 三種偽造技術(shù)。
該數(shù)據(jù)集除了視頻級(jí)別的標(biāo)注,還提供了人臉級(jí)別的標(biāo)注,方便模型訓(xùn)練。偽造數(shù)據(jù)的生成基于對(duì)抗網(wǎng)絡(luò),節(jié)省人力成本,但是生成算法仍是基于人臉交換,因此數(shù)據(jù)集的難度取決于模型所采用的人臉交換算法。
(7)KoDF
當(dāng)前大部分的數(shù)據(jù)集原始數(shù)據(jù)來源為YouTube截取或真人拍攝,其中絕大部分均為歐美人物主題,亞洲人在其中所占比例極低,數(shù)據(jù)不平衡現(xiàn)象嚴(yán)重??紤]到東西方人在臉型、骨形、行為習(xí)慣等方面的不同,Kwon 等人建立了一個(gè)基于韓國主題的偽造視頻數(shù)據(jù)集KoDF(Korean deepfake)[16],其是第一個(gè)以亞洲人為視頻人物主題的偽造視頻檢測數(shù)據(jù)集。數(shù)據(jù)集共包含403 個(gè)人物的175 776 個(gè)偽造視頻與62 166 個(gè)真實(shí)視頻,數(shù)據(jù)集規(guī)模巨大,且利用6 種不同的合成模型生成深度偽造視頻。為了平衡亞洲人在現(xiàn)有的深度造假檢測數(shù)據(jù)庫中所占的比例,KoDF的參與者主要由韓國人組成,視頻的收集考慮到人物的年齡、性別與所在地的分布,且在視頻拍攝過程中引入了攝像機(jī)角度、焦距、位置、背景、道具、燈光等方面的細(xì)微變化。
數(shù)據(jù)集的生成采用了FaceSwap、DeepFakeLab[14]、FSGAN[15]、FOMM(first order motion model)[17]、ATFHP(audio-driven talking face head pose)[18]、Wav2Lip[19]六種偽造技術(shù),數(shù)據(jù)質(zhì)量整體較高。其缺點(diǎn)是質(zhì)量差距較大,部分偽造視頻中篡改痕跡明顯,無法有效衡量模型分類能力。
(8)Vox-DeepFake
基于身份一致性的檢測方法是人臉視頻深度偽造檢測的重要方法,且取得了較高的準(zhǔn)確率,但是該方法依賴于具有大量參照對(duì)象的數(shù)據(jù)集,傳統(tǒng)領(lǐng)域內(nèi)數(shù)據(jù)集無法滿足該方法的要求。因此Dong 等人建立了一個(gè)包含視頻中所涉及人物的參考視頻的數(shù)據(jù)集Vox-DeepFake[20],用于實(shí)現(xiàn)基于身份一致性的視頻偽造檢測。
Vox-DeepFake 數(shù)據(jù)集是在VoxCeleb 數(shù)據(jù)集基礎(chǔ)上[21]進(jìn)行建設(shè)的,是當(dāng)前數(shù)據(jù)規(guī)模最大的數(shù)據(jù)集,包括4 000 個(gè)身份和超過100 萬個(gè)偽造視頻,平均每個(gè)身份對(duì)應(yīng)25.2 個(gè)獨(dú)立的偽造視頻,因此提供了更大的參考多樣性。該數(shù)據(jù)集的缺點(diǎn)是只考慮換臉這一種偽造類型,且數(shù)據(jù)集主要應(yīng)用于“基于身份一致性”檢測方法,雖然檢測準(zhǔn)確率較高,但主要針對(duì)具有參照視頻的重要人物,故應(yīng)用場景較少。
(9)WildDeepfake
當(dāng)前大部分?jǐn)?shù)據(jù)集中原始視頻采集來源單一,且視頻中場景單一,與真實(shí)世界中豐富多樣的場景不符,在場景種類方面無法模擬真實(shí)現(xiàn)實(shí)。為克服此問題,Zi 等人建立了WildDeepfake 數(shù)據(jù)集[22],其中真實(shí)視頻3 805 個(gè),偽造視頻3 509 個(gè)。數(shù)據(jù)集中的視頻內(nèi)容更加多樣化,各種各樣的活動(dòng)(如廣播、電影、采訪、談話和許多其他),不同的場景、背景、照明條件、壓縮率、分辨率和格式等,更符合真實(shí)環(huán)境中的復(fù)雜情況。但該數(shù)據(jù)集整體規(guī)模較小,只能用作模型的測試與驗(yàn)證,無法有效利用其進(jìn)行訓(xùn)練以增強(qiáng)模型表現(xiàn)。
(10)FFPMS
考慮到偽造視頻中并非所有幀均為篡改幀與部分幀偽造質(zhì)量較低,從而會(huì)影響到模型整體學(xué)習(xí)效果的特殊情況,Li 等人提出應(yīng)用多實(shí)例學(xué)習(xí)的思想進(jìn)行視頻真?zhèn)螜z測,并基于該方法構(gòu)建了FFPMS(face forensics plus with mixing samples)數(shù)據(jù)集,實(shí)現(xiàn)在幀級(jí)和視頻級(jí)對(duì)不同的檢測方法進(jìn)行評(píng)估[23]。該數(shù)據(jù)集從壓縮率為c40 的FaceForensics++數(shù)據(jù)集的每個(gè)視頻中進(jìn)行抽取,并在視頻中出現(xiàn)多張人臉時(shí)隨機(jī)對(duì)其進(jìn)行部分或者全部的替換,因此視頻包括幀級(jí)與視頻級(jí)的數(shù)據(jù)標(biāo)注。該數(shù)據(jù)集缺點(diǎn)是數(shù)據(jù)量較小,且整體偽造質(zhì)量較低,部分視頻偽造痕跡明顯,無法用來進(jìn)行有效的模型訓(xùn)練。
近幾年伴隨著深度學(xué)習(xí)的發(fā)展,人臉視頻深度偽造的檢測也逐漸擺脫了人工挖掘特征、傳統(tǒng)機(jī)器學(xué)習(xí)分類的模式,使用各類深度神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測鑒定。并在模型訓(xùn)練的過程中,利用多種訓(xùn)練方式不斷提高精確度[24]。同時(shí)在特征利用方面,也呈現(xiàn)出選擇范圍廣泛化、關(guān)鍵特征重點(diǎn)化的特點(diǎn)。本章首先總結(jié)了人臉視頻深度偽造檢測方面的難點(diǎn),然后重點(diǎn)聚焦于近三年在該領(lǐng)域的研究成果,以模型所使用的視頻圖像特征為切入點(diǎn),如圖1 所示,從空間特征、時(shí)空融合特征、生物特征等方面,對(duì)在該領(lǐng)域內(nèi)的最新研究進(jìn)展進(jìn)行梳理總結(jié),并對(duì)這些檢測方式中所呈現(xiàn)出的發(fā)展趨勢進(jìn)行分類整理,以期為后續(xù)的研究提供方向與借鑒。
圖1 人臉視頻深度偽造檢測方法分類Fig.1 Classification of facial deepfake video detection methods
人臉視頻深度偽造檢測技術(shù)在發(fā)展過程中出現(xiàn)了模型架構(gòu)多樣、特征選擇靈活的特點(diǎn),但當(dāng)前的研究成果依然難以達(dá)到落地應(yīng)用的標(biāo)準(zhǔn)。該挑戰(zhàn)的難點(diǎn)主要體現(xiàn)在以下幾方面:
(1)多模態(tài)數(shù)據(jù)的使用
在本文所介紹的各類常用偽造檢測視頻數(shù)據(jù)集中,大部分均不包括音頻數(shù)據(jù),只保留視覺數(shù)據(jù)。而當(dāng)前隨著偽造技術(shù)的不斷發(fā)展,單純使用圖像畫面,從空域、頻域、時(shí)域等方面提取特征灌入模型進(jìn)行訓(xùn)練以實(shí)現(xiàn)偽造檢測的思路必將越來越呈現(xiàn)出局限性。因此對(duì)于多模態(tài)數(shù)據(jù)的使用也是該領(lǐng)域研究的難點(diǎn)之一,體現(xiàn)在如何有效提取多模態(tài)數(shù)據(jù)并將其特征化,以及如何有效融合多模態(tài)數(shù)據(jù)特征實(shí)現(xiàn)不同類型特征的相互融合、相互補(bǔ)充。為解決該問題,眾多研究者從音畫特征的提取與訓(xùn)練入手,取得了一定效果。但當(dāng)前對(duì)于人臉視頻深度偽造檢測領(lǐng)域的多模態(tài)數(shù)據(jù)研究,依然處于起步階段,研究人員與成果較少。
(2)訓(xùn)練數(shù)據(jù)質(zhì)量與數(shù)量不一
人臉視頻深度偽造檢測常用數(shù)據(jù)集如前文所述,但其數(shù)據(jù)質(zhì)量與數(shù)量不一。模型訓(xùn)練結(jié)果好壞極大程度取決于訓(xùn)練數(shù)據(jù)的規(guī)模與質(zhì)量,因此如何有效利用已有數(shù)據(jù)集也是該領(lǐng)域研究難點(diǎn)之一。為解決該問題,眾多研究者從創(chuàng)建新型數(shù)據(jù)集、采用各類數(shù)據(jù)增強(qiáng)方法等方面進(jìn)行解決。
(3)代表性特征提取
模型泛化能力是人臉視頻深度偽造檢測模型的主要衡量指標(biāo),具體體現(xiàn)在模型跨庫測試與跨偽造方法的測試等方面。因此,如何在訓(xùn)練數(shù)據(jù)中提取出不因偽造方法而異的區(qū)分性特征也是制約該領(lǐng)域發(fā)展的重要因素。為解決該問題,研究者從生成對(duì)抗、自監(jiān)督、對(duì)比學(xué)習(xí)等方法提出了眾多解決方案,并取得了一定成果。
基于空間特征對(duì)人臉深度偽造視頻進(jìn)行檢測是較為傳統(tǒng)和有效的檢測方法,也是應(yīng)用較廣的特征選擇方法,其是指在視頻分解為幀的基礎(chǔ)上,以每一個(gè)圖像/幀為對(duì)象,在空域、頻域等方面所進(jìn)行的檢測。因此,基于空間特征的檢測方法適用于幾乎全部的當(dāng)前深度偽造視頻數(shù)據(jù)集,將偽造視頻的檢測任務(wù)轉(zhuǎn)化為針對(duì)每一幀圖像的分類任務(wù),屬于經(jīng)典的人臉分類任務(wù)范疇。基于空間特征的檢測方法的優(yōu)點(diǎn)在于簡單有效,因?yàn)閭卧煲曨l勢必會(huì)對(duì)原始圖像的空域、頻域分布產(chǎn)生擾動(dòng),所以研究提取這種局部與整體的不一致性便可作為模型訓(xùn)練與判別的特征。然而,由于每一幀的偽造是獨(dú)立的,故在偽造當(dāng)前幀時(shí)無法考慮到之前已偽造幀的情況,因此與真實(shí)視頻相鄰幀之間的連續(xù)性、關(guān)聯(lián)性相比,偽造視頻幀與幀之間存在著時(shí)空上的不連續(xù)性,而基于空間特征的檢測方法卻忽略了時(shí)序上的特征提取,導(dǎo)致特征提取的遺漏。同時(shí),對(duì)于壓縮率較高的數(shù)據(jù)集,由于其圖像的空域、頻域特征被壓縮處理,故基于空間特征的檢測方法效果較差。
基于空間特征的檢測,根據(jù)所利用的具體特征不同,可以分為基于圖像空間域的檢測、基于圖像頻率域的檢測和基于圖像上下文空間的檢測等。其中,基于圖像空間域的檢測是以圖像/視頻幀的像素域?yàn)橹饕獙?duì)象,通過各類卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的卷積、池化等操作所提取特征進(jìn)行檢測的方法;基于圖像頻率域的檢測,是指圖像/視頻幀的空間頻率,是將圖像看作二維平面的信號(hào),以對(duì)應(yīng)像素的灰度值(彩色圖像對(duì)應(yīng)RGB 三個(gè)分量)作為信號(hào)的幅值,其反映了圖像的像素灰度在空間中的變化情況;基于圖像上下文空間的檢測,與前兩者聚焦于完整圖像不同,更加關(guān)注圖像/視頻幀內(nèi)人臉及其他部分(即上下文)之間在空間上的區(qū)別聯(lián)系,以其作為特征進(jìn)行學(xué)習(xí)與分類。
2.2.1 基于圖像空間域的檢測方法
基于圖像空間域的檢測方法是較為傳統(tǒng)且有效的檢測方法。研究結(jié)果顯示,直接將視頻應(yīng)用于CNN 及其各類變種網(wǎng)絡(luò)中,并結(jié)合一定的注意力模塊,便能取得較好的效果[13,25-37]。
朱新同等人[38]提取并融合YCbCr 與RGB 特征,使用Scharr 算子提取YCbCr 色彩空間中Cb 和Cr 分量的圖像邊緣信息,利用拉普拉斯算子(Laplacian)提取RGB 色彩空間中G 分量的圖像邊緣二階梯度信息,并用EfficientNet-B0 進(jìn)行分類。Nataraj 等人[39]提取了視頻幀中像素級(jí)別的共現(xiàn)矩陣,并使用CNN 進(jìn)行視頻真?zhèn)蔚臋z測。Coccomini等人[33]將原始視頻幀應(yīng)用于EfficientNet[40]和ViT(vision transformer)及Cross-ViT[41]上,也取得了當(dāng)前DFDC 任務(wù)的Benchmark,進(jìn)一步表明了直接利用圖像空間域特征進(jìn)行偽造檢測的簡單有效性。
由于深度偽造視頻中的人臉與真實(shí)人臉圖像十分相似,而普通卷積在提取人臉面部特征時(shí)獲得的卷積特征圖過于單一,無法為模型后續(xù)檢測工作提供有效依據(jù)。針對(duì)此問題,暴雨軒等人[34]在ResNet網(wǎng)絡(luò)中引入分組卷積提取豐富特征,并在下采樣過程中引入最大池化以強(qiáng)化關(guān)鍵特征,同時(shí)引入注意力通道為每個(gè)特征圖分配不同權(quán)重,最后通過數(shù)據(jù)增強(qiáng)策略豐富數(shù)據(jù)集,并迫使模型學(xué)習(xí)到更豐富的特征表示。
傳統(tǒng)CNN 網(wǎng)絡(luò)進(jìn)行分類時(shí)對(duì)于圖像平移、扭曲、旋轉(zhuǎn)等操作具有較高敏感性,容易帶來誤差從而影響后續(xù)模型分類。為克服此問題,Nguyen 等人[35]將膠囊網(wǎng)絡(luò)應(yīng)用于偽造視頻的檢測任務(wù)中,首先使用VGG-19 進(jìn)行圖像特征的提取,再將其灌入膠囊網(wǎng)絡(luò)中。基于動(dòng)態(tài)路由的膠囊網(wǎng)絡(luò)的使用不僅可以有效避免圖像平移、扭曲、旋轉(zhuǎn)而帶來的誤差,同時(shí)能夠使用更少的訓(xùn)練數(shù)據(jù)最大化地學(xué)習(xí)到有效信息。但是該模型無法避免膠囊網(wǎng)絡(luò)訓(xùn)練速度慢、效率低的問題,因此也無法完全取代卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉視頻深度偽造檢測。
前人工作主要是針對(duì)整幅圖像的空間域特征進(jìn)行廣度提取,而不同區(qū)域中特征的重要程度與貢獻(xiàn)度是不同的,因此會(huì)導(dǎo)致模型無法有效挖掘出局部的、具有區(qū)分性的分類特征。針對(duì)此問題,Zhao 等人[42]將人臉視頻深度偽造檢測表述為細(xì)粒度分類問題進(jìn)行研究。如圖2 所示[42],提出基于多注意力頭的檢測網(wǎng)絡(luò)。該網(wǎng)絡(luò)提出區(qū)域獨(dú)立性損失作為損失函數(shù),并通過多注意力頭迫使網(wǎng)絡(luò)注意到不同的局部特征,通過紋理特征增強(qiáng)塊放大淺層特征中的細(xì)微假象,并在注意力圖的指導(dǎo)下使用雙線性池化聚合低層次的紋理特征和高層次的語義特征。類似的,為了增強(qiáng)圖像偽造痕跡,抑制原始信息,Guo 等人[43]針對(duì)GAN 生成的偽造視頻提出了預(yù)處理模塊,利用多層的殘差結(jié)構(gòu)對(duì)圖像進(jìn)行卷積后作差,以突出和增強(qiáng)偽造痕跡。
圖2 多注意力頭的深度偽造檢測Fig.2 Multi-attention head deepfake detection
對(duì)圖像空間域進(jìn)行分解與組合也是有效利用空間域特征的方法。Zhou等人[44]提出了融合人臉圖像原始特征與基于塊級(jí)別隱藏特征的雙流網(wǎng)絡(luò),在圖像空間域特征基礎(chǔ)上結(jié)合了色彩濾波陣列(color filter array,CFA)、局部噪聲殘差這樣的低級(jí)別相機(jī)特征,共同進(jìn)行訓(xùn)練與分類。Zhu 等人[45]引入人臉的3D 重建中的信息作為原始空間域特征的補(bǔ)充,模型在庫內(nèi)檢測取得了較好效果。但該方法只選擇了重建后人臉的部分組成成分,因此涉及到部分圖像特征被丟棄,并且對(duì)于無法進(jìn)行重建的人臉圖像不能進(jìn)行訓(xùn)練和預(yù)測的情況。
由于單純基于圖像空域的偽造檢測方法聚焦于單幀圖像中的偽造痕跡提取,而不同偽造技術(shù)所對(duì)應(yīng)的偽造痕跡特點(diǎn)不同,因此模型在泛化能力測試上表現(xiàn)較差。為增強(qiáng)模型跨庫測試的能力,Liu等人[46]聚焦于增強(qiáng)模型魯棒性,在挖掘空域特征之前,將原始圖像劃分為若干相同大小的塊,并隨機(jī)進(jìn)行塊內(nèi)的像素打亂和塊間的位置打亂,迫使模型挖掘更具有區(qū)分特性的偽造痕跡。但是該方法只是采用數(shù)據(jù)增強(qiáng)的思路提高模型魯棒性,未能深度挖掘不同偽造技術(shù)的區(qū)別與共性,因此泛化能力提升有限。針對(duì)此問題,Chen 等人[47]采用對(duì)抗網(wǎng)絡(luò)同時(shí)訓(xùn)練生成器與判別器,并用訓(xùn)練的判別器進(jìn)行測試。其創(chuàng)新點(diǎn)在于生成器在偽造之前隨機(jī)生成偽造配置,包括偽造區(qū)域、融合類型與融合比例,判別器在預(yù)測視頻真?zhèn)蔚耐瑫r(shí)需要預(yù)測出對(duì)應(yīng)的偽造配置,以此提高判別器對(duì)于不同偽造技術(shù)的泛化能力,在跨庫測試中取得80%的準(zhǔn)確率。類似的,Zhao 等人[48]也利用自監(jiān)督學(xué)習(xí)策略,生成像素級(jí)別的標(biāo)簽數(shù)據(jù),并認(rèn)為經(jīng)過偽造生成過程后的視頻圖像保留了不同源的特征,通過檢測圖像中像素之間的不一致性便可以判斷視頻真?zhèn)?,因?yàn)檎鎸?shí)視頻圖像的局部之間是具有一致性的。該模型在跨庫測試中取得超過90%的準(zhǔn)確率,是利用空間域特征進(jìn)行人臉視頻深度偽造檢測研究中泛化能力最好的模型之一。但是該模型只能鑒定面部編輯的偽造視頻圖像,對(duì)于利用GAN網(wǎng)絡(luò)直接生成全偽造圖像無法進(jìn)行鑒定與檢測。
2.2.2 基于圖像頻率域的檢測方法
基于圖像頻率域的檢測方法在近幾年研究論文中出現(xiàn)的頻率不高,主要集中在挖掘圖像頻率信號(hào)中的高頻信號(hào)、相位譜等,利用頻域特征或者頻域與空域的融合特征進(jìn)行人臉深度偽造視頻檢測[49-52],具體體現(xiàn)在以下幾方面。
目前基于空間域的檢測方法傾向于過度擬合到某種造假算法所特有的紋理模式,因而缺乏泛化能力。當(dāng)前的偽造生成模型在偽造過程中都必須經(jīng)過上采樣過程,而上采樣之后圖像的頻域上和自然圖像會(huì)出現(xiàn)明顯的差異[53]。在圖像頻率域,高頻信號(hào)祛除了顏色紋理,比低頻信號(hào)更能夠有效地區(qū)分真實(shí)與偽造視頻[54]。因此,Li 等人[55]提出了自適應(yīng)頻率特征生成模塊以挖掘頻率信息,通過離散余弦變換(discrete cosine transform,DCT)將視頻幀的各個(gè)通道的高頻與低頻信號(hào)進(jìn)行分離后重新組合,再通過卷積與線性池化操作有效提取頻率特征。同時(shí),為了更好地挖掘偽造視頻與真實(shí)視頻之間的差異,文章還提出了單中心損失(single-center loss,SCL)作為損失函數(shù)輔助訓(xùn)練,以更好地聚焦類內(nèi)差異,而拉大類間差異。Liu 等人[56]同樣也是利用上采樣過程中頻域的變化,但認(rèn)為真實(shí)視頻與偽造視頻頻域中的相位譜較于幅度譜變化更加明顯,更應(yīng)當(dāng)在模型學(xué)習(xí)中有重點(diǎn)的偏向和傾斜。
以上方法主要利用圖像頻率域特征進(jìn)行深度偽造視頻檢測,卻忽略了原始空域特征的像素特征,因此將頻域與空域特征結(jié)合能夠有效彌補(bǔ)兩者不足,在庫內(nèi)與跨庫檢測中均取得較使用單一特征時(shí)更高的準(zhǔn)確率。Wang 等人[57]則提出結(jié)合頻域與空域的多模態(tài)方式,挖掘圖像中不因偽造技術(shù)不同而變化的具有魯棒性的偽造痕跡。Chen 等人[58]將原始的圖像/視頻幀劃分為若干區(qū)域,考慮到真實(shí)區(qū)域之間差異較小、真實(shí)區(qū)域與偽造區(qū)域之間差距較大的特點(diǎn),在將原始圖像劃分為若干區(qū)域的基礎(chǔ)上,從頻域特征與空域特征兩方面計(jì)算兩兩區(qū)域之間的差異,以判斷視頻真?zhèn)巍?/p>
2.2.3 基于圖像上下文空間的檢測方法
當(dāng)前主流的生成人臉深度偽造視頻的方法是利用生成對(duì)抗網(wǎng)絡(luò)與自動(dòng)編碼器,其中前者更傾向于完全“從無到有”地創(chuàng)造出一個(gè)人的視頻,后者傾向于在已有的真實(shí)的視頻基礎(chǔ)上,通過人臉識(shí)別與局部替換等步驟,生成面部替換或人臉屬性編輯的偽造視頻。而此類偽造視頻,只是對(duì)于圖像/視頻幀中的人臉部分(或僅僅其中的局部)進(jìn)行篡改,而畫面中的其他部位(如人的軀干、圖片背景)是不做更改的。因?yàn)楸淮鄹暮臀幢淮鄹牡膮^(qū)域之間在理論上存在著必然的不同,所以利用這種不同進(jìn)行人臉視頻深度偽造的檢測(即基于圖像上下文空間的檢測方法)也是近幾年提出的重要方法。
Li 等人[59]較早地提出利用上下文進(jìn)行偽造檢測的思想。當(dāng)前的偽造技術(shù)在實(shí)現(xiàn)細(xì)節(jié)上具有不同,所偽造的結(jié)果在特征表現(xiàn)上也是不同的,因此為了提高模型的泛化能力,應(yīng)當(dāng)聚焦于所有技術(shù)的共同點(diǎn)。文章觀察到絕大多數(shù)的視頻偽造算法都是把目標(biāo)人物的臉裁剪下來,經(jīng)過編輯后放到源人物的臉上,因此會(huì)有融合過程。既然要融合,就會(huì)有邊界,邊界的檢測就可以作為判斷視頻真?zhèn)蔚臉?biāo)準(zhǔn)。同時(shí),因?yàn)榇朔椒ㄖ魂P(guān)注融合邊界,所以并不需要打好標(biāo)簽的真?zhèn)我曨l對(duì)作為訓(xùn)練數(shù)據(jù),解決了數(shù)據(jù)量的問題。
如果在偽造過程中沒有使用融合技術(shù),上述模型就無法進(jìn)行檢測,并且該方法受圖像噪聲的影響很大,這意味著沒有學(xué)習(xí)到人臉偽造檢測的內(nèi)在特征,檢測效果不穩(wěn)定。為克服此問題,Nirkin 等人[60]則在VGGFace2 數(shù)據(jù)集上預(yù)訓(xùn)練兩個(gè)視覺網(wǎng)絡(luò),分別對(duì)應(yīng)數(shù)據(jù)集中圖像/視頻幀中的人臉部位和扣除上下文背景信息部分,兩個(gè)網(wǎng)絡(luò)模型的輸出作差便是人臉與上下文之間的差異信息。如圖3 所示[60],配合第三個(gè)視覺網(wǎng)絡(luò),以待檢測的真?zhèn)我曨l為訓(xùn)練數(shù)據(jù),將三個(gè)網(wǎng)絡(luò)的輸出進(jìn)行融合用作最后的分類。
圖3 基于人臉及其上下文的深度偽造檢測Fig.3 Deepfake detection based on face and context
2.2.4 基于空間特征檢測技術(shù)測評(píng)結(jié)果
在人臉視頻深度偽造檢測方面,常用的指標(biāo)是ACC 與AUC。其中,ACC(accuracy)為準(zhǔn)確率,通過計(jì)算正確預(yù)測數(shù)量占全部測試集數(shù)量的比值獲得;AUC(area under curve)為ROC 曲線所圍出圖形的面積。ROC(receiver operating characteristic curve)全稱為受試者工作特征曲線,它是根據(jù)一系列不同的二分類方式(通常為閾值),以真陽性率為縱坐標(biāo),假陽性率為橫坐標(biāo)繪制的曲線。AUC 指數(shù)通過計(jì)算ROC 所圍圖形的面積來衡量分類器學(xué)習(xí)與分類效果優(yōu)劣。
上文主要介紹了利用空間特征實(shí)現(xiàn)人臉視頻深度偽造檢測的各項(xiàng)技術(shù)方法,其中部分算法在數(shù)據(jù)集上測評(píng)結(jié)果如表2 所示(所列數(shù)據(jù)均為測試時(shí)的最好結(jié)果)。
表2 基于空間特征的深度偽造檢測技術(shù)測評(píng)結(jié)果Table 2 Test result of deepfake detection technologies based on spatial features
視頻本質(zhì)便是幀的快速切換。因此相鄰幀之間在背景、人物動(dòng)作上是具有聯(lián)系的。而在人臉視頻深度偽造的過程中,首先將原始視頻分隔成幀,再對(duì)每一幀分別進(jìn)行處理和偽造,最后再進(jìn)行壓縮編碼,生成偽造后的視頻。與基于空間特征的檢測方法相對(duì)應(yīng)的,基于時(shí)空融合特征的檢測方法綜合了空間與時(shí)間兩個(gè)維度的不一致性,因此適用于幾乎全部的當(dāng)前深度偽造視頻數(shù)據(jù)集。其優(yōu)點(diǎn)主要體現(xiàn)在幀間特征的提取彌補(bǔ)了單純利用圖像空間特征所帶來的特征缺失問題,在高壓縮的數(shù)據(jù)集上的表現(xiàn)也稍好于后者。
基于時(shí)空融合特征的檢測方法,根據(jù)所采用的模型結(jié)構(gòu)與原理不同,可以分為基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的時(shí)空融合特征檢測、基于卷積的時(shí)空融合特征檢測、基于像素位移的時(shí)空融合特征檢測。其中,基于RNN 的時(shí)空融合特征檢測主要依賴RNN(LSTM、GRU)挖掘幀與幀之間的連續(xù)性關(guān)系;基于卷積的時(shí)空融合特征檢測通過精心設(shè)計(jì)的不同大小卷積核,挖掘時(shí)間上的連續(xù)性;基于像素位移的時(shí)空融合特征檢測,是通過像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性來找到上一幀跟當(dāng)前幀之間存在的對(duì)應(yīng)關(guān)系,即光流法。
2.3.1 基于RNN 的時(shí)空融合特征檢測方法
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在自然語言處理中經(jīng)常被用來提取上下文之間的語義聯(lián)系,在視頻處理領(lǐng)域,也可用來挖掘相鄰幀之間的相關(guān)性。近幾年利用時(shí)空融合特征檢測人臉深度偽造視頻的工作中,基于RNN 的時(shí)空融合特征檢測占據(jù)較大比例。
如圖4 所示,Sabir 等人[62]直接將CNN 與RNN 進(jìn)行組合得到較好的檢測效果,首先利用CNN 進(jìn)行每一圖像/視頻幀的特征提取,再使用RNN 挖掘相鄰幀之間的時(shí)序關(guān)系。這也成為基于RNN 的時(shí)空融合特征檢測方法的基本思路[63-64]。在此基礎(chǔ)上,Chintha 等人[65]使用Xception[66]和Bi-LSTM 取代之前的CNN 和RNN,并在交叉熵?fù)p失基礎(chǔ)上增加KL 散度損失以提高檢測準(zhǔn)確率。Fei 等人[67]發(fā)現(xiàn)人臉運(yùn)動(dòng)的振幅在視頻中首先被放大,虛假視頻會(huì)比原始視頻表現(xiàn)出更嚴(yán)重的失真或閃爍,因此首先使用運(yùn)動(dòng)增強(qiáng)放大人臉的面部運(yùn)動(dòng),然后用InceptionV3 提取每一幀的特征,最后結(jié)合LSTM(long short-term memory)提取時(shí)序信息。Wu 等人[68]則進(jìn)一步在空間與時(shí)間特征基礎(chǔ)上,增加了圖像的隱寫分析特征,檢測隱藏的被篡改的痕跡,如圖像像素的異常統(tǒng)計(jì)特征等。
圖4 基于CNN 與RNN 的深度偽造檢測Fig.4 Deepfake detection based on CNN and RNN
上述解決方案簡單且經(jīng)典,但是并沒有結(jié)合深度偽造視頻的獨(dú)有特點(diǎn),并不是專門為實(shí)現(xiàn)人臉深度偽造視頻檢測而設(shè)計(jì)的模型,因此在庫內(nèi)及跨庫檢測中并沒有體現(xiàn)出太高的準(zhǔn)確率。結(jié)合深度偽造視頻所特有的視頻幀之間的不連續(xù)性,很多研究提出了各自的解決方案。Amerini 等人[69]從偽造視頻的生成階段入手,認(rèn)為視頻在偽造的最后階段對(duì)每一幀進(jìn)行壓縮編碼時(shí),在生成I 幀、B 幀、P 幀的過程中帶來預(yù)測誤差,可以以幀間的預(yù)測誤差作為特征輸入,經(jīng)過CNN 的特征提取與LSTM 的時(shí)序提取,最終進(jìn)行分類。
Masi 等人[70]提出一種雙流網(wǎng)絡(luò),一路走普通的RGB,一路采用LoG 算子處理后的圖像,用于抑制RGB 圖像的內(nèi)容信息,提取高頻信號(hào)。兩個(gè)分支均使用DenseNet 結(jié)構(gòu),之后使用融合模塊將兩路融合,并經(jīng)過LSTM 抽取幀間的信息最后進(jìn)行分類。另外,提出基于one-class-classification 的損失函數(shù),讓正樣本拉近,同時(shí)推開負(fù)樣本。
Montserrat 等人[71]為了增強(qiáng)模型的泛化能力,同時(shí)考慮每一幀的圖像內(nèi)容及偽造質(zhì)量問題。每一幀在模型最終判斷視頻是否偽造的過程中所起到的作用是不同的,因此提出了自動(dòng)臉部權(quán)重(automatic face weighting,AFW),通過自動(dòng)加權(quán),在預(yù)測時(shí)強(qiáng)調(diào)哪些是重要的,哪些是不重要的。如圖5 所示[71],模型使用EfficientNet 提取幀的特征,并通過全連接層獲取預(yù)測的邏輯概率與權(quán)重,最后連同特征本身一同輸入GRU(gated recurrent unit)中提取時(shí)序特征,完成最后的分類。
圖5 基于自動(dòng)權(quán)重分配的深度偽造檢測Fig.5 Deepfake detection based on automatic face weighting
2.3.2 基于卷積的時(shí)空融合特征檢測方法
與利用RNN 提取時(shí)序特征不同,基于卷積的時(shí)空融合特征檢測更加依賴于卷積核的設(shè)計(jì)。通常的方法是對(duì)圖像/視頻幀的卷積核的時(shí)間維度進(jìn)行設(shè)計(jì),以提取幀間的連續(xù)性與相關(guān)性等特征。
邢豪等人[72]使用MTCNN(multi-task cascaded convolutional network)檢測出視頻中每一幀的人臉圖像,并將64 個(gè)相鄰幀組成一組輸入灌入到3D 卷積網(wǎng)絡(luò)中,以充分利用時(shí)間與空間特征時(shí)序特征。在此過程中,為迫使模型更好地關(guān)注臉部細(xì)節(jié),也可在數(shù)據(jù)經(jīng)過每一層卷積網(wǎng)絡(luò)時(shí)結(jié)合注意力圖,以更有針對(duì)性地提取特征[13]。但是此方法雖然使用3D 卷積,但依然更多地依賴空間上的特征,而對(duì)時(shí)間特征關(guān)注力度不夠,這也是直接利用3DCNN 進(jìn)行時(shí)序提取的普遍問題[73]。
為克服此問題,Zheng 等人[74]進(jìn)一步提出利用視頻不連續(xù)性實(shí)現(xiàn)深度偽造視頻檢測。首先,針對(duì)相鄰幀之間的不連續(xù)性,如表3 所示,卷積核的時(shí)間維度進(jìn)行手動(dòng)設(shè)置,并將卷積核的長寬維度設(shè)置為1,使之能夠在時(shí)間維度上充分挖掘特征,而不過多進(jìn)行空間卷積。另外,考慮到某些情況下,視頻幀間的不連續(xù)性并非出現(xiàn)在相鄰幀,而是出現(xiàn)在相隔若干幀的兩幀之間,因此選擇使用將上一步驟中提取出來的特征信息灌入Transformer 中以捕捉長距離的不連續(xù)性。
表3 模型參數(shù)設(shè)置Table 3 Model parameter settings
Li 等人[23]采用多實(shí)例學(xué)習(xí)的思想。在傳統(tǒng)多實(shí)例學(xué)習(xí)中,實(shí)例與實(shí)例間是相互獨(dú)立的,但由于DeepFakes 是單幀篡改的,導(dǎo)致同一人臉在相鄰幀上會(huì)有一些抖動(dòng)。于是,文章設(shè)計(jì)了時(shí)空實(shí)例,用來刻畫幀間一致性,輔助DeepFakes 檢測。具體而言,研究人員使用文本分類里常用的1-d卷積,使用不同大小的核對(duì)輸入的人臉序列從多視角進(jìn)行編碼,從而得到時(shí)空實(shí)例,用于最終檢測。
Gu 等人[75]進(jìn)一步從局部的角度上時(shí)空上挖掘不一致,提出時(shí)空不一致學(xué)習(xí)(spatial-temporal inconsistency learning,STIL)模塊。該模塊可以嵌入任何的主干網(wǎng)絡(luò)中輔助進(jìn)行特征提取,創(chuàng)新地提出了在挖掘時(shí)間不一致時(shí),除了利用卷積核在水平方向提取幀間不一致之外,也在垂直角度上挖掘時(shí)間特征,并將提取到的時(shí)間與空間特征進(jìn)行拼接作為最終的分類特征。但是該方法對(duì)幀采取了稀疏采樣策略,并且采樣幀的間隔可能太大而無法捕捉到由細(xì)微運(yùn)動(dòng)引起的不一致。
為了克服上述問題,基于片段不一致(snippets inconsistency module,SIM)的方法被提出[76]。首先,將原始視頻分為若干片段,各片段都由相同數(shù)量的相鄰幀組成;然后,針對(duì)片段內(nèi)部的不一致,分別從正反兩方向計(jì)算水平與垂直時(shí)序特征;緊接著,對(duì)于片段之間的不一致,分別從正反兩方向作差以表示前后片段之間不一致;最后,分別將片段內(nèi)與片段間整合為統(tǒng)一的模塊,嵌入到已有的主干網(wǎng)絡(luò)中輔助特征提取并進(jìn)行最后的分類。該模型在跨庫測試中取得了接近80%的準(zhǔn)確率。
2.3.3 基于像素位移的時(shí)空融合特征檢測方法
基于像素位移即光流法(optical flow)。光流是空間運(yùn)動(dòng)物體在觀察成像平面上像素運(yùn)動(dòng)的瞬時(shí)速度。光流法是利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性來找到上一幀跟當(dāng)前幀之間存在的對(duì)應(yīng)關(guān)系,從而計(jì)算出相鄰幀之間物體的運(yùn)動(dòng)信息的一種方法。通常將二維圖像平面特定坐標(biāo)點(diǎn)上的灰度瞬時(shí)變化率定義為光流矢量。
Amerini 等人[77]優(yōu)先提出利用像素位移即光流法進(jìn)行人臉視頻深度偽造的檢測。真實(shí)視頻與偽造視頻在所形成的光流的大小、方向、分布等方面存在差異,而這個(gè)差異可以被CNN 獲取與分析。文章首先使用PWC-Net(pyramid,warping,and cost volume CNN-Net)[78]提取視頻的光流特征,然后分別結(jié)合預(yù)訓(xùn)練的VGG16 和ResNet50 捕獲光流差異,最后接入全連接層和Sigmoid 進(jìn)行最后的二分類。模型在常見的DeepFakes、Face2Face、FaceSwap 的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,兩種卷積網(wǎng)絡(luò)分別取得了81.61%和75.46%的準(zhǔn)確率。
Chintha 等人[79]在前人利用光流法進(jìn)行檢測的基礎(chǔ)上,進(jìn)一步利用OpenCV 的Canny 邊緣檢測方法獲取每一幀的邊緣信息以更加豐富特征表達(dá),形成圖像的“邊-流特征圖”。再與圖像的原始RGB 以不同方式進(jìn)行融合,共同形成輸入模型的最終特征組合。根據(jù)融合方式不同選擇不同的Xception 結(jié)構(gòu),并接入Bi-LSTM 網(wǎng)絡(luò)挖掘幀間的關(guān)聯(lián)性與相關(guān)性,最后使用全連接與Sigmoid 進(jìn)行二分類。文章主要在常用的FaceForensics++、DFDC 等數(shù)據(jù)集上進(jìn)行訓(xùn)練、驗(yàn)證與測試,訓(xùn)練與測試使用相同數(shù)據(jù)集時(shí)平均準(zhǔn)確率最高達(dá)到97.94%,使用不同數(shù)據(jù)集時(shí)最高達(dá)到81.29%,表示了模型具有一定的泛化能力。
2.3.4 基于時(shí)空特征融合技術(shù)測評(píng)結(jié)果
上文主要介紹了利用空間與時(shí)間特征融合實(shí)現(xiàn)人臉視頻深度偽造檢測的各項(xiàng)技術(shù)方法,其中部分算法在數(shù)據(jù)集上測評(píng)結(jié)果如表4 所示(所列數(shù)據(jù)均為測試時(shí)的最好結(jié)果)。
表4 基于時(shí)空特征融合的深度偽造檢測技術(shù)測評(píng)結(jié)果Table 4 Test result of deepfake detection technologies based on spatial-temporal fusion features
人臉視頻深度偽造歸根結(jié)底是對(duì)人臉的偽造,作為偽造者來說,偽造的目的便是通過人臉的局部編輯、直接替換或者完整生成,以實(shí)現(xiàn)將目標(biāo)人物人臉與源人物身份的縫合。偽造視頻是對(duì)人身份的更改,因此從本質(zhì)上來說,對(duì)人臉視頻深度偽造檢測的最有效方法是對(duì)視頻中所出現(xiàn)的人的身份進(jìn)行檢測。前文所介紹的對(duì)于圖片或視頻的空間、時(shí)間、頻率、像素等方面的檢測只是對(duì)于載體的檢測,而基于生物特征的檢測則是基于人的,是不以偽造技術(shù)、承載介質(zhì)不同而出現(xiàn)不同的?;谏锾卣鞯臋z測主要依賴于兩個(gè)假設(shè):一是不同身份的人所表現(xiàn)出來的行為方式、說話習(xí)慣等是不同的,因此可以作為鑒定視頻中所出現(xiàn)人物是否符合其所表現(xiàn)出來的身份的標(biāo)準(zhǔn);二是真實(shí)的人與計(jì)算機(jī)生成和偽造的人相比,在行為表現(xiàn)上是不同的。真實(shí)的人是更具有生理特征的,例如眨眼頻率、神態(tài)情感等。但是基于生物特征的檢測方法卻依賴于底層的圖像處理技術(shù),尤其是對(duì)圖像或視頻的空間處理與識(shí)別技術(shù),如表情識(shí)別[80]、身份識(shí)別等[81]?;谏锾卣鞯臋z測方法適用于大多數(shù)的深度偽造視頻數(shù)據(jù)集,對(duì)于視頻壓縮率、是否包含音頻等方面有一定的要求。該方法的優(yōu)點(diǎn)在于脫離視頻載體,從“人”的角度判別視頻中人物對(duì)象的身份真?zhèn)危〉媚壳白罡叩目鐜鞙y試準(zhǔn)確率;缺點(diǎn)在于該方法對(duì)數(shù)據(jù)集的要求相較于其他檢測方法較高,泛化測試效果較好的檢測方法均采用了輔助的外部數(shù)據(jù)集,主要用于對(duì)重要人物的偽造視頻檢測,應(yīng)用場景較窄。
基于生物特征的檢測方法根據(jù)具體使用的側(cè)重點(diǎn)不同,可以分為基于身份一致性的檢測、基于面部關(guān)鍵部位識(shí)別的檢測、基于音畫特征的偽造檢測。其中,基于身份一致性的檢測主要針對(duì)以重要人物或關(guān)鍵性人物為代表的具有大量該對(duì)象真實(shí)視頻為參考的一類人群;基于人物生理信號(hào)的檢測則是通過對(duì)圖像/視頻中所出現(xiàn)人物的面部(或整個(gè)頭部)的行為、神態(tài)等進(jìn)行識(shí)別分析,以判斷是否是真實(shí)的人;基于音畫特征的偽造檢測方法則是以待檢測視頻為研究對(duì)象,對(duì)聲音與畫面在同步性、匹配性上進(jìn)行關(guān)聯(lián)關(guān)系分析,以判斷是真實(shí)視頻或是偽造視頻。
2.4.1 基于身份一致性的檢測方法
基于身份一致性的檢測可以解釋為“比較、對(duì)比”,通過對(duì)照參考集來判斷檢測集的真實(shí)性。此類方法的可靠性較高,但是應(yīng)用范圍相對(duì)較窄,應(yīng)用的限制也較多,因此適合應(yīng)用在涉及重要人物的視頻的真實(shí)性檢測上。
美國加州大學(xué)伯克利分校Hany Farid 教授團(tuán)隊(duì)的Agarwal 等人[82]對(duì)此類檢測方式進(jìn)行了較深的研究。文獻(xiàn)[82]認(rèn)為針對(duì)重要政治人物的深度偽造視頻會(huì)對(duì)社會(huì)問題、國家安全造成不可估計(jì)的重大損失,因此針對(duì)重要人物專門建立了一套鑒定涉及其視頻是否偽造的檢測方法。文章對(duì)幾位重要人物在公開場合的真實(shí)視頻展開分析,并對(duì)不同人在講話過程中的面部和頭部運(yùn)動(dòng)進(jìn)行降維后發(fā)現(xiàn)具有明顯的區(qū)分特性,因此可以認(rèn)定頭部與面部動(dòng)作可以作為視頻中身份一致性檢測的依據(jù)。文章首先對(duì)視頻中人臉進(jìn)行識(shí)別,并通過關(guān)鍵點(diǎn)(運(yùn)動(dòng)單元)從臉部提取20 個(gè)運(yùn)動(dòng)肌肉并對(duì)其動(dòng)作進(jìn)行建模;通過皮爾森相關(guān)性找出最相關(guān)的190 組特征向量,并將其作為最終特征用于模型的學(xué)習(xí)與分類。此類方法雖然檢測效果較好,但是需要人工提取相關(guān)行為動(dòng)作特征,并通過相關(guān)性分析確定與最終分類最相關(guān)的特征組合,效率較低,同時(shí)此模型的泛化能力較差。但是,此類方法的特點(diǎn)在于“定制性”,由于分類的高準(zhǔn)確率,可將其應(yīng)用于對(duì)重要商業(yè)人物與政治人物的保護(hù)上。
上述方法在特征挖掘時(shí)只利用到視頻中人物的動(dòng)態(tài)特征,而忽略掉靜態(tài)特征,因此在特征選擇上勢必會(huì)丟掉一些有區(qū)別性的特征。為克服此問題,Agarwal等人[83]除了利用視頻中人物的動(dòng)態(tài)特征之外,也進(jìn)一步以基于面部識(shí)別的靜態(tài)生物特征進(jìn)行特征補(bǔ)充。其中靜態(tài)特征由VGG 提取,動(dòng)態(tài)行為特征由FAb-Net(facial attributes-net)[84]提取,以兩者作為與參照集的比對(duì)標(biāo)準(zhǔn)進(jìn)行視頻偽造的鑒定,實(shí)現(xiàn)了能夠在4 s 的視頻中判斷出視頻的真?zhèn)巍?/p>
為了克服上述方法需要人工提取特征所帶來的效率低下問題,Cozzolino 等人[85]提出時(shí)序ID 網(wǎng)絡(luò)用來比較待檢測視頻人物與該對(duì)象的真實(shí)對(duì)照視頻之間的相似度。訓(xùn)練過程如圖6 所示[67],首先對(duì)視頻中的每一幀提取出面部特征,并通過3D 模型將其映射成低維表示,然后使用時(shí)序ID 網(wǎng)絡(luò)比較輸入特征之間相似度,同時(shí)也作為判別器來與3DMM 生成網(wǎng)絡(luò)進(jìn)行對(duì)抗學(xué)習(xí)。3DMM 生成網(wǎng)絡(luò)的作用是生成類似于經(jīng)過DeepFake 篡改過的視頻,通過對(duì)抗學(xué)習(xí)使得時(shí)序ID 網(wǎng)絡(luò)能夠?qū)W到有效區(qū)分的臉部特征。測試階段如圖7 所示[67],將時(shí)序ID 網(wǎng)絡(luò)用作待測視頻與對(duì)照參考視頻的比較器,輸出最終的分類結(jié)果。文章選擇VoxCeleb2數(shù)據(jù)集進(jìn)行訓(xùn)練,將其中的5 120個(gè)視頻作為訓(xùn)練集,512 個(gè)作為驗(yàn)證集。每個(gè)Batch 包括64個(gè)96 幀的視頻,其中的64 個(gè)視頻又分別是8 個(gè)人的8段視頻。測試集選擇為DFD(deepfake dataset)數(shù)據(jù)集,準(zhǔn)確率達(dá)84.8%。
圖6 訓(xùn)練過程Fig.6 Training process
圖7 測試階段Fig.7 Testing process
Dong 等人[86]提出利用人臉內(nèi)部區(qū)域與外部區(qū)域的對(duì)比作為檢測特征,結(jié)合外部參照集進(jìn)行身份一致性檢測。首先,將兩組真實(shí)圖像利用X-Ray[59]的方法分別交換內(nèi)外臉生成兩組訓(xùn)練數(shù)據(jù),利用Transformer 分別提取人臉內(nèi)部與外部區(qū)域,通過最小化內(nèi)臉一致性、外臉一致性完成訓(xùn)練過程。在測試階段,結(jié)合外部參照數(shù)據(jù)庫,在其中找到與測試對(duì)象內(nèi)臉A最接近的對(duì)應(yīng)內(nèi)臉A′,然后在參照集中找到A′所對(duì)應(yīng)的外臉B′,計(jì)算B′與A的對(duì)應(yīng)外臉B的相似度。測試對(duì)象的外臉同樣進(jìn)行如上相似度計(jì)算。通過以上計(jì)算,實(shí)現(xiàn)檢測對(duì)象與外部參照集中對(duì)象的身份一致性檢測,進(jìn)而判斷測試對(duì)象的身份真實(shí)性。該方法在模型的泛化測試上取得了較好的效果,在多個(gè)跨庫測試中取得了96.34%的平均準(zhǔn)確率。類似的,在測試時(shí)若不使用外部參照集,只是計(jì)算測試對(duì)象的內(nèi)外臉之間一致性以判斷對(duì)象真?zhèn)螘r(shí),跨庫平均準(zhǔn)確率為87.01%。
2.4.2 基于人物生理信號(hào)的檢測方法
基于人物生理信號(hào)的偽造檢測是以視頻中人臉動(dòng)態(tài)圖像為對(duì)象,通過使用Landmarks 對(duì)關(guān)鍵性部位的識(shí)別與追蹤[87],分析其行為特征、生物特征[88]、生理特征,以識(shí)別視頻中人物是否具有真實(shí)的人的生物特征的方法。
Yang 等人[89]認(rèn)為偽造視頻只是篡改替換了視頻中人物的中心表情,而不是將整個(gè)頭部進(jìn)行替換。因此可以將中心表情的運(yùn)動(dòng)姿勢和整個(gè)頭部的運(yùn)動(dòng)姿勢作為特征,結(jié)合支持向量機(jī)(support vector machine,SVM)分類器進(jìn)行分類。
Li 等人[6]充分考慮到真實(shí)人物的生理特征。真實(shí)人物對(duì)象平均會(huì)在6 s 出現(xiàn)一次眨眼行為,而偽造視頻則不會(huì)在偽造過程中對(duì)此進(jìn)行建模,因此可使用VGG16 識(shí)別眼部特征,用LSTM 提取時(shí)序信號(hào)判斷是否在一段時(shí)間內(nèi)出現(xiàn)眨眼的行為以判斷視頻中人物的真?zhèn)巍?/p>
同樣基于人的生理特征,Qi等人[90]提出了利用心跳信號(hào)來檢測視頻中人物對(duì)象的真實(shí)性。文章認(rèn)為,血液在流過臉部時(shí)會(huì)引起皮膚顏色的微小變化,這種變化肉眼無法看到,但通過視頻中幀的像素點(diǎn)變化可以檢測到,因此推測假的視頻中的心率變化與真的視頻中的心率變化不一致。文章首先在心率提取算法STR(spatial-temporal representation)[91]的基礎(chǔ)上改進(jìn)了從視頻中放大并提取人物對(duì)象的心跳信號(hào)算法,并將其分解為RGB 三個(gè)通道的分量,獲得運(yùn)動(dòng)放大時(shí)空映射(motion-magnified spatial-temporal map,MMST Map);然后將其作為輸入,利用卷積池化與RNN 網(wǎng)絡(luò)獲取空間與時(shí)間的注意力模塊;最后將所有結(jié)果進(jìn)行合并,利用ResNet18 與Sigmoid 作為最后的分類器。Ciftci 等人[92]同樣基于計(jì)算機(jī)視覺技術(shù),從視頻的人臉信號(hào)中提取生物特征,建立人臉紋理與心跳之間的關(guān)系,用作偽造視頻的檢測。Nguyen等人[93]在特征選擇方面進(jìn)行了創(chuàng)新,提出眉毛部分是合成圖像中最易受到影響的區(qū)域,因此使用眉毛匹配作為特征進(jìn)行偽造檢測。
Matern 等人[94]提取眼睛、牙齒以及臉部輪廓等位置的特征來鑒定視頻真?zhèn)?,并使用Logistic 回歸或淺層全連接網(wǎng)絡(luò)等淺層分類器進(jìn)行訓(xùn)練與分類。文章利用的特征主要包括全局一致性(global consistency)、光照估計(jì)(illumination estimation)和幾何估計(jì)(geometry estimation)。其中,全局一致性指偽造視頻中人物在全局上表現(xiàn)的矛盾性,例如瞳孔顏色、眼睛大小等不一致;光照估計(jì)指偽造過程中由數(shù)據(jù)隱式模擬入射光照時(shí)所帶來的錯(cuò)誤與不精準(zhǔn),容易在面部(尤其在鼻子附近)產(chǎn)生過暗的陰影,同時(shí)眼睛中的反射也會(huì)被簡化為白色斑點(diǎn)或者消失;幾何估計(jì)是指偽造過程中對(duì)原始人臉扣除或替換的過程導(dǎo)致縫合邊界的出現(xiàn)或者細(xì)節(jié)的丟失。
2.4.3 基于音畫特征的檢測方法
音畫特征即視頻中聲音與畫面的相關(guān)特征,其包括時(shí)間上和內(nèi)容上的同步性。目前部分的偽造視頻存在關(guān)注于對(duì)視頻內(nèi)容偽造,而對(duì)音畫匹配性注意力不夠的問題,因此可以將其作為視頻真?zhèn)舞b別的標(biāo)準(zhǔn)。但此方法只應(yīng)用于同時(shí)包括聲音與畫面通道的視頻,而對(duì)只有聲音或畫面的視頻無法使用此類方法。
關(guān)注視頻畫面與聲音的同步性是重要的檢測思路與方法[95-96]。Chugh 等人[97]提出了畫面與聲音的模態(tài)不協(xié)調(diào)平分,通過訓(xùn)練集獲取分?jǐn)?shù)閾值來表征畫面與聲音的協(xié)調(diào)程度,以表示視頻真?zhèn)?。然而該方法?duì)于視頻音畫特征的利用缺乏理論解釋,也沒有較為直觀的說服力,而且最終檢測效果依賴于通過訓(xùn)練集挖掘的分?jǐn)?shù)閾值的質(zhì)量,因此測試效果較差。為了克服該問題,深度挖掘視頻中音畫特征,并能夠從理論上解釋特征利用的有效性,應(yīng)當(dāng)著重于聲音與畫面人物動(dòng)作的匹配性,其中使用最多的是對(duì)視頻中聲音與人物嘴部運(yùn)動(dòng)的相關(guān)性分析。
Haliassos 等人[98]利用偽造視頻中的嘴唇運(yùn)動(dòng)的語義不連規(guī)則進(jìn)行檢測。如圖8 所示[98],首先對(duì)待檢測視頻通過Landmarks 定位并裁剪出嘴唇部分;然后使用ResNet18 語義作為特征提取器提取語義特征,并將降維后的特征輸入至?xí)r空網(wǎng)絡(luò)中進(jìn)行最終的分類。在具體訓(xùn)練之前,利用唇讀數(shù)據(jù)集(lip reading dataset,LRD)[99],使用交叉熵作為損失函數(shù),對(duì)Res-Net18 和時(shí)空網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。此數(shù)據(jù)集是以嘴部的動(dòng)作為訓(xùn)練數(shù)據(jù),以對(duì)應(yīng)的單詞為標(biāo)簽,通過預(yù)訓(xùn)練學(xué)習(xí)到與自然嘴部動(dòng)作相關(guān)的豐富的內(nèi)部表征。在真正視頻檢測的訓(xùn)練中,則將ResNet 的特征提取層參數(shù)凍結(jié),只對(duì)最后的分類網(wǎng)絡(luò)進(jìn)行微調(diào)。該方法在同數(shù)據(jù)集和跨數(shù)據(jù)集中的表現(xiàn)都非常優(yōu)越,體現(xiàn)出較好的模型泛化能力。但是該方法需要借助已標(biāo)注的其他訓(xùn)練數(shù)據(jù)(如唇讀數(shù)據(jù)),在訓(xùn)練數(shù)據(jù)開發(fā)方面具有極高成本。
圖8 基于嘴唇語義不連續(xù)的深度偽造檢測Fig.8 Deepfake detection based on semantic irregularities of lips
為克服上述問題,Zhao 等人[100]采用自監(jiān)督訓(xùn)練思想。首先,在訓(xùn)練過程中,分別提取成對(duì)真實(shí)視頻中的音頻與嘴部的視頻進(jìn)行對(duì)比學(xué)習(xí),其中嘴部動(dòng)作的提取利用Transformer 實(shí)現(xiàn)。通過訓(xùn)練,學(xué)習(xí)到真實(shí)視頻中嘴部運(yùn)動(dòng)表示方式。然后,利用深度偽造視頻數(shù)據(jù)集對(duì)Transformer 進(jìn)行參數(shù)微調(diào)便可在跨庫測試中取得較好效果。該方法雖然克服了預(yù)訓(xùn)練需要大量打標(biāo)簽的外部訓(xùn)練數(shù)據(jù)成本問題,但是在對(duì)偽造數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),會(huì)凍結(jié)一半的網(wǎng)絡(luò),這可能會(huì)犧牲最終的檢測性能。對(duì)應(yīng)的,Haliassos進(jìn)一步提出RealForensics 模型[101],采用BYOL(bootstrap your own latent)的自監(jiān)督訓(xùn)練策略[102],并在BYOL 的基礎(chǔ)上考慮聲音與圖像雙模態(tài),具體體現(xiàn)在分別利用聲音與圖像作為教師網(wǎng)絡(luò),利用真實(shí)視頻中圖像和音頻模態(tài)的一致性,學(xué)習(xí)人物面部的運(yùn)動(dòng)表示。Real-Forensics在跨庫測試中取得了較好的效果。
Lin 等人[103]同樣關(guān)注嘴部的行為特征,通過檢測嘴部動(dòng)作與聲音的匹配性來判斷視頻真?zhèn)?。文章觀察到一些詞語的發(fā)音在嘴唇的行為特征上是具有較明顯區(qū)別的,例如單詞“Apple”的發(fā)音經(jīng)歷了嘴巴從扁平到聚合的過程,真實(shí)視頻中對(duì)于這個(gè)單詞的連續(xù)幾幀的嘴部動(dòng)作相較于偽造視頻會(huì)更加連貫自然?;诖擞^察,文章建立了“音頻-唇形”的映射,用于對(duì)視頻中人物嘴唇行為與聲音匹配性的檢測,以達(dá)到視頻真實(shí)性檢測的目的。類似的,Agarwal 等人[104]也通過對(duì)視頻中關(guān)鍵音節(jié)的識(shí)別來進(jìn)行視頻真?zhèn)螜z測,其主要通過音位(phoneme)和視位(visemes)的匹配情況來實(shí)現(xiàn)。音位是語言學(xué)中能夠區(qū)別意義的最小語音單位。例如媽(ma)和發(fā)(fa)兩個(gè)字的音調(diào)相同,用來對(duì)其進(jìn)行區(qū)別的最小單位就是m 和f。視位表示發(fā)音一個(gè)詞時(shí)的面部和口腔動(dòng)作,是語音的基本可視構(gòu)建基塊。研究發(fā)現(xiàn)對(duì)于一些特殊音位,其視位也具有特殊性,因此重點(diǎn)關(guān)注視頻中發(fā)音為M(mama)、B(baba)或P(papa)的單詞相關(guān)的視位,通過比較音畫的同步性來檢測視頻真?zhèn)巍?/p>
Cheng 等人[105]在DFDC 中隨機(jī)抽取2 000 段真實(shí)視頻與10 000 段偽造視頻,用VGG 網(wǎng)絡(luò)分別提取其中聲音與人臉特征,并通過降維在二維層面上分別展示真實(shí)與偽造視頻中聲音與人臉的歐氏距離,以此證明偽造視頻中的音畫不同步問題。同時(shí),作者提取5 個(gè)人共計(jì)2 000 個(gè)真實(shí)語音片段的聲音特征,并展示其在二維上的明顯區(qū)別,證明聲音是具備區(qū)分不同對(duì)象身份特征的?;谝陨嫌^察,即聲音和人臉在一定程度上的同質(zhì)性,提出從“聲音-人臉”匹配的角度進(jìn)行深度偽造檢測的方法。為此,首先設(shè)計(jì)語音人臉匹配檢測模型,在一個(gè)通用的視聽數(shù)據(jù)集上度量兩者的匹配程度。然后,該模型可以在不進(jìn)行任何微調(diào)的情況下平穩(wěn)地轉(zhuǎn)移到深度造假數(shù)據(jù)集,從而增強(qiáng)了跨數(shù)據(jù)集的泛化能力。模型在DFDC和FakeAVCeleb 上的庫內(nèi)測試準(zhǔn)確率較高,利用FF++和DFDC 的跨庫測試也取得超過90%的準(zhǔn)確率,但其未在跨庫測試中使用常用的高偽造質(zhì)量的Celeb-DF數(shù)據(jù)集進(jìn)行測試。
除了嘴唇與聲音的一致性檢測之外,Agarwal 等人[106]還提出利用耳部和嘴部行為的協(xié)同關(guān)系判斷是否是偽造視頻。該方法認(rèn)為真實(shí)的人說話時(shí)嘴唇(下顎)的運(yùn)動(dòng)和耳朵的微小運(yùn)動(dòng)(例如耳廓和耳道的微小形狀變化)之間是有關(guān)聯(lián)的,但是換臉技術(shù)一般只關(guān)注臉部替換,而不會(huì)對(duì)耳朵進(jìn)行替換。但是此類方法限制較多,需要在視頻中有完整耳部露出,因此應(yīng)用范圍相對(duì)較窄。Mittal 等人[107]進(jìn)一步從視頻與音頻特征中使用MFN(memory fusion network)網(wǎng)絡(luò)分別提取情感向量[108],從情感向量的角度比較音畫的相似度關(guān)系。但是上述方法在特征的可解釋性上較于嘴部運(yùn)動(dòng)分析較差,且測試效果相對(duì)較差,故相關(guān)研究較少。
2.4.4 基于生物特征檢測技術(shù)測評(píng)結(jié)果
上文主要介紹了利用生物特征實(shí)現(xiàn)人臉視頻深度偽造檢測的各項(xiàng)技術(shù)方法,其中部分算法在數(shù)據(jù)集上測評(píng)結(jié)果如表5 所示(所列數(shù)據(jù)均為測試時(shí)的最好結(jié)果)。
表5 基于生物特征的深度偽造檢測技術(shù)測評(píng)結(jié)果Table 5 Test result of deepfake detection technologies based on biological features
前文所述的所有方法均有較為明確的特征選擇,并均屬于被動(dòng)檢測,是在偽造視頻已經(jīng)產(chǎn)生并傳播的情況下進(jìn)行檢測與鑒定,這也是目前絕大多數(shù)的人臉視頻深度偽造檢測所采用的主流思路。與被動(dòng)檢測相對(duì)應(yīng)的是主動(dòng)檢測方式,最常用的便是基于水印技術(shù)的檢測方法。該方法在生成、制作和發(fā)布人臉視頻之前,在視頻中加入水印[109]或者各類微小的信號(hào)噪聲擾動(dòng)[110],普通人眼無法看出區(qū)別,但任何對(duì)視頻的二次編輯行為均會(huì)留下痕跡[111],通過對(duì)痕跡的鑒定以判斷視頻是否被篡改,并可以按照線索找尋篡改人。
Kim 等人[112]提出一個(gè)分散歸因模型,使用一組與每個(gè)用戶端模型相關(guān)聯(lián)的二元線性分類器,每個(gè)分類器都由用戶特定的密鑰參數(shù)化,并將關(guān)聯(lián)的模型分布與真實(shí)數(shù)據(jù)分布區(qū)分開來,即通過密鑰實(shí)現(xiàn)將用戶端模型的水印與無水印的用戶進(jìn)行區(qū)分,使得生成的視頻具備用戶屬性,以保障實(shí)現(xiàn)后續(xù)對(duì)于偽造視頻傳播路徑的追蹤。
Yu 等人[113]主要針對(duì)由GAN 網(wǎng)絡(luò)生成的各類偽造視頻進(jìn)行檢測與主動(dòng)防御。文章首先將數(shù)字指紋嵌入到訓(xùn)練數(shù)據(jù)中,然后發(fā)現(xiàn)并驗(yàn)證了數(shù)字指紋從訓(xùn)練數(shù)據(jù)到各類生成模型的專業(yè)性,并最后出現(xiàn)在最終生成的偽造結(jié)果中。整個(gè)過程對(duì)于圖像級(jí)與模型級(jí)的其他干擾與擾動(dòng)可以保持較好的魯棒性。
Ma 等人[114]分析到之前的基于對(duì)視頻關(guān)鍵幀編碼進(jìn)行偽造檢測的主動(dòng)防御方法具有耗時(shí)耗力的低效問題,因此提出了基于空間與時(shí)間特性的視頻數(shù)字指紋生成算法。文章使用卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)分別提取每一幀的空間特征與幀間的時(shí)間特征,以此作為視頻的數(shù)字水印,實(shí)現(xiàn)了在傳統(tǒng)圖片水印的基礎(chǔ)上補(bǔ)充時(shí)間信息的目的。Li 等人[115]提出并行的3D 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提取連續(xù)幀之間的特征關(guān)聯(lián)作為視頻水印,以達(dá)到對(duì)視頻復(fù)制的檢測。Tang等人[116]提出一種對(duì)幾何變換和空間變化均具有魯棒性的視頻哈希生成算法ST-PCT(spatial-temporal polar cosine transform)算法,它將視頻視為三維矩陣,并在對(duì)視頻執(zhí)行DCT 變換后執(zhí)行PCT 變換,這種變換可以提取時(shí)空域的特征,具有幾何不變性?;赟TPCT,進(jìn)一步提出了用于視頻拷貝檢測的幾何魯棒視頻水印生成方法,生成的視頻特征被壓縮并量化為緊湊的二進(jìn)制哈希碼,用于保證視頻的完整性。
Koopman 等人[117]從視頻的底層物理特性考量,將光響應(yīng)非均勻性(photo response non-uniformity,PRNU)分析應(yīng)用于人臉視頻深度偽造的檢測。數(shù)字圖像的PRNU 模式是由數(shù)碼相機(jī)的光敏感傳感器的工件缺陷造成的噪聲模式,這種噪聲模式是高度個(gè)性化的,通常被稱為數(shù)字圖像的指紋。文章從待檢測的視頻中隨機(jī)抽取部分關(guān)鍵幀,并將其進(jìn)行分組。通過計(jì)算并比較各組視頻幀的PRNU 得到視頻的標(biāo)準(zhǔn)化互相關(guān)分?jǐn)?shù)(normalized cross correlation score,NCCS)。實(shí)驗(yàn)證明,真實(shí)視頻的NCCS 與偽造視頻是不同的,可以作為視頻真?zhèn)舞b定的標(biāo)準(zhǔn)。
Huang 等人[118]提出一種跨圖像、跨模型的通用對(duì)抗水印生成方法CUMA(cross-model universal adversarial),只需少量的面部圖像(128 張)進(jìn)行訓(xùn)練,生成的水印就可以保護(hù)幾乎所有的面部圖片,使多種DeepFake 模型不能將其篡改。具體的,文章提出了兩級(jí)擾動(dòng)融合(two-level perturbation fusion)的策略,使得生成的水印進(jìn)行圖像級(jí)別融合(image-level fusion)、模型級(jí)別融合(model-level fusion),提高水印的遷移性。同時(shí),為了減少迭代生成水印時(shí)步長對(duì)結(jié)果的影響,提高在不同模型之間的遷移性,CMUA使用TPE 自動(dòng)搜索不同模型的更新步長。實(shí)驗(yàn)證明,該方法在偽造視頻的檢測與主動(dòng)防御方面均具有較強(qiáng)的魯棒性。
近些年,區(qū)塊鏈已在許多領(lǐng)域得到有效使用,到目前為止,針對(duì)基于該技術(shù)的人臉視頻深度偽造檢測問題的研究很少。它可以創(chuàng)建一系列唯一的不可更改的元數(shù)據(jù)塊,因此是用于數(shù)字來源解決方案的出色工具。Hasan 等人[119]使用區(qū)塊鏈與智能合約進(jìn)行偽造視頻的檢測,認(rèn)為只有視頻具備可追溯性才可被認(rèn)定是真實(shí)視頻,否則是偽造視頻。為此,文章提出智能合約用于存儲(chǔ)數(shù)字內(nèi)容及其元數(shù)據(jù)的星際文件系統(tǒng)(interplanetary file system,IPFS)的哈希值,因此使用以太坊智能合約來追蹤數(shù)字內(nèi)容的出處及其原始來源。每一個(gè)視頻都有一個(gè)智能合約,該智能合約能夠鏈接到其上級(jí)視頻或來源視頻,同理每一個(gè)視頻也有一個(gè)指向其子視頻或下級(jí)視頻的鏈接,這樣即使視頻內(nèi)容被復(fù)制多次,也有跡可循,可以按照鏈接找到其最原始的出處,對(duì)偽造行為也可做到有效追蹤。
從2019 年起,針對(duì)人臉視頻深度偽造檢測的研究數(shù)量增長較快,其中在特征選擇、模型設(shè)計(jì)、訓(xùn)練思路等方面均出現(xiàn)了較多的新趨勢與特點(diǎn),主要集中在遷移學(xué)習(xí)的應(yīng)用、注意力模塊的使用以及非傳統(tǒng)神經(jīng)網(wǎng)絡(luò)與學(xué)習(xí)方法的應(yīng)用等方面。
除了傳統(tǒng)圖像處理領(lǐng)域的特征提取之外,近幾年在人臉視頻深度偽造檢測技術(shù)領(lǐng)域所涉及到的特征選擇同樣呈現(xiàn)出了一些新的趨勢與特點(diǎn)。
一是特征選擇更加細(xì)化。除了利用圖像層面的空域特征之外,越來越多的研究文獻(xiàn)傾向于進(jìn)一步細(xì)挖圖像頻率的特征。且對(duì)于圖像頻率,也有更多的文獻(xiàn)聚焦于高頻與低頻、相位譜與幅度譜等對(duì)人臉視頻深度偽造檢測的作用與價(jià)值。
二是更加注重生物特征的選擇與利用。偽造視頻歸根結(jié)底是對(duì)人的身份的偽造,因此相較于從圖像與視頻的間接角度,鑒別視頻真?zhèn)蔚母具€是從人的生物特征角度進(jìn)行判別,從而對(duì)于生物特征的選擇與利用成為該領(lǐng)域近幾年新的特點(diǎn)。除了傳統(tǒng)的眼球顏色、眼睛對(duì)稱、視覺偽影等淺層生物特征之外,如耳部運(yùn)動(dòng)、心跳節(jié)奏、面部運(yùn)動(dòng)趨勢等深層的生物特征也被用來進(jìn)行真?zhèn)螜z測,并取得不錯(cuò)的效果,但當(dāng)前應(yīng)用最多的還是利用視頻聲音與人物嘴部運(yùn)動(dòng)表示之間的相關(guān)性作為偽造檢測的特征。
遷移學(xué)習(xí)的應(yīng)用是當(dāng)前人臉視頻深度偽造檢測方法研究領(lǐng)域所呈現(xiàn)的重要趨勢特點(diǎn)之一,其出現(xiàn)包括兩方面原因:一是相較于傳統(tǒng)圖像識(shí)別、分類等任務(wù),視頻真?zhèn)螜z測領(lǐng)域的訓(xùn)練數(shù)據(jù)的數(shù)量規(guī)模較小,數(shù)據(jù)整體質(zhì)量參差不齊。同時(shí)深度偽造視頻的檢測依賴于底層對(duì)于視頻人臉的提取、動(dòng)作的識(shí)別,因此將成熟的模型進(jìn)行遷移學(xué)習(xí),能夠最大程度在已學(xué)習(xí)知識(shí)的基礎(chǔ)上,有效利用深度偽造視頻數(shù)據(jù)集進(jìn)行模型的訓(xùn)練與微調(diào),節(jié)約訓(xùn)練成本,提高模型表現(xiàn)。二是隨著生物特征在深度偽造檢測中已證明其優(yōu)越表現(xiàn),基于視頻中對(duì)象的生物及生理信號(hào)的提取訓(xùn)練將成為該領(lǐng)域的重要研究分支。其中將涉及到如嘴部運(yùn)動(dòng)[103]、語義連貫性分析[98]、人物對(duì)象微表情分析等領(lǐng)域的先驗(yàn)知識(shí),因此通過遷移學(xué)習(xí),將這些領(lǐng)域已成熟的訓(xùn)練模型用作底層特征提取,并在深度偽造數(shù)據(jù)集上進(jìn)行微調(diào),能夠提高特征的針對(duì)性,進(jìn)而提高模型表現(xiàn)。
Vision Transformer[120]與Swin Transformer[121]的預(yù)訓(xùn)練模型常被用來作為模型底層的特征提取器[31,33,57,122-125],通過在深度偽造數(shù)據(jù)集上對(duì)模型的微調(diào)以減少模型訓(xùn)練成本,提高模型最終的分類能力。Transformer的自注意力機(jī)制適用于挖掘圖像中各Patch 之間的相關(guān)性,從而定位到圖像中被偽造和篡改區(qū)域。同時(shí),不同尺寸的Patch 設(shè)計(jì)也可以迫使Transformer 關(guān)注不同層面的圖像特征,提高模型特征提取效率。
與圖像分類、身份識(shí)別等計(jì)算機(jī)視覺領(lǐng)域傳統(tǒng)任務(wù)相比,人臉視頻深度偽造檢測既有獨(dú)有特點(diǎn)又有共通之處。前者體現(xiàn)在其作為偽造視頻數(shù)據(jù),與真實(shí)視頻在空域、頻域等方面必然存在偏差,因此研究的重點(diǎn)在于挖掘真?zhèn)螛颖局g的差異,而傳統(tǒng)計(jì)算機(jī)視覺所研究對(duì)象均為真實(shí)或偽造數(shù)據(jù),因此更多關(guān)注樣本內(nèi)容上的差異即可。后者體現(xiàn)在深度偽造檢測的底層特征提取、特征融合、模型分類與傳統(tǒng)計(jì)算機(jī)視覺任務(wù)是相同的,其中涉及到的人臉識(shí)別、動(dòng)作識(shí)別等技術(shù)也具有共同之處?;谏鲜鲈?,在模型架構(gòu)設(shè)計(jì)與訓(xùn)練思路兩方面,人臉視頻深度偽造檢測與傳統(tǒng)計(jì)算機(jī)視覺任務(wù)相比,也應(yīng)當(dāng)具有共同性與獨(dú)特性,各類訓(xùn)練方法也能夠遷移并應(yīng)用到視頻真?zhèn)螜z測模型的學(xué)習(xí)中。
4.3.1 損失函數(shù)的定制
在機(jī)器學(xué)習(xí)中,交叉熵常被用作分類問題中的損失函數(shù)。但隨著越來越多復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練方法的創(chuàng)新與使用,單純的交叉熵?fù)p失無法完整地評(píng)估模型的好壞。另外,不同的損失函數(shù)對(duì)于同樣的數(shù)據(jù)集,在相同的網(wǎng)絡(luò)結(jié)構(gòu)情況下,對(duì)最終的結(jié)果影響依然存在著較大的差異[126]。
另外,與傳統(tǒng)視頻圖像的多分類不同,人臉視頻深度偽造檢測通常是“真-偽”兩分類,并更注重挖掘真?zhèn)螛颖局g的差異。基于以上原因,使用單交叉熵作為損失的研究越來越少,更多的結(jié)合具體模型設(shè)計(jì)而提出的定制型損失函數(shù)被創(chuàng)新與應(yīng)用。
Zhao 等人[42]提出區(qū)域獨(dú)立性損失,確保每個(gè)注意力圖集中在一個(gè)特定的區(qū)域而不重疊,并且集中的區(qū)域在不同的樣本中是一致的。Sun等人[127]與Li等人[55]分別提出類內(nèi)緊湊的損失函數(shù)與單中心損失,使同類數(shù)據(jù)更加聚集,同時(shí)推遠(yuǎn)非同類型數(shù)據(jù)。Chintha等人[65]則在交叉熵?fù)p失的基礎(chǔ)上增加KL 散度作為補(bǔ)充。
因此,結(jié)合人臉視頻深度偽造檢測的任務(wù)要求,應(yīng)當(dāng)更有針對(duì)性地設(shè)計(jì)損失函數(shù),使之能夠更加突出真?zhèn)螛颖镜牟町愋?,聚集同類樣本,排斥異類樣本?/p>
4.3.2 注意力機(jī)制的應(yīng)用
注意力機(jī)制最早在自然語言處理和機(jī)器翻譯對(duì)齊文本中提出并使用,并取得了不錯(cuò)的效果。在計(jì)算機(jī)視覺領(lǐng)域,也有一些學(xué)者探索了在視覺和卷積神經(jīng)網(wǎng)絡(luò)中使用注意力機(jī)制來提升網(wǎng)絡(luò)性能的方法。注意力機(jī)制的基本原理很簡單:網(wǎng)絡(luò)中每層不同特征的重要性不同,后面的層應(yīng)該更注重其中重要的信息,抑制不重要的信息。在人臉深度偽造視頻中,對(duì)于人臉的替換與二次編輯只是針對(duì)視頻中人物對(duì)象的完整臉部或者臉部中的具體位置(如眼睛、嘴巴等),而對(duì)于臉部以外的部位所篡改的概率較小,因此使用注意力機(jī)制能夠更好地在圖像層面讓模型關(guān)注到易篡改區(qū)域。在頻域?qū)用?,使用注意力機(jī)制也能夠使模型更好地關(guān)注到隨篡改行為有明顯變化的頻域范圍[128]。
在模型設(shè)計(jì)中融入注意力機(jī)制是提高當(dāng)前深度偽造視頻檢測模型表現(xiàn)的有效方法[13,42],聚焦于視頻圖像中的不同區(qū)域,提高圖像特征的挖掘能力,配合模型實(shí)現(xiàn)分類。注意力作為模塊,也可以插入到當(dāng)前各類分類模型中,作為即插即用的組成部分[29,129],迫使模型挖掘視頻圖像底層特征,而非只關(guān)注域表層具有優(yōu)良分類性能的特征,以提高模型的泛化能力。
4.3.3 學(xué)習(xí)方法的創(chuàng)新應(yīng)用
由于領(lǐng)域內(nèi)可用數(shù)據(jù)數(shù)量相對(duì)較少,單一模型性能有限,各類數(shù)據(jù)集之間特征差距較大所帶來的對(duì)模型泛化能力的要求等多方面原因,近幾年,越來越多的基于多任務(wù)和復(fù)雜模型的非傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與學(xué)習(xí)方式被應(yīng)用于人臉視頻深度偽造檢測領(lǐng)域。
自監(jiān)督學(xué)習(xí)的應(yīng)用是近兩年在人臉視頻深度偽造檢測領(lǐng)域被廣泛應(yīng)用的學(xué)習(xí)訓(xùn)練思路[47,61,86,100-101]。通過對(duì)無標(biāo)簽數(shù)據(jù)設(shè)計(jì)輔助任務(wù)來挖掘數(shù)據(jù)自身的表征特性作為監(jiān)督信息,來提升模型的特征提取能力。自監(jiān)督學(xué)習(xí)在深度偽造視頻檢測領(lǐng)域具有重要應(yīng)用價(jià)值的原因有三方面:一是當(dāng)前各類深度偽造視頻數(shù)據(jù)集的質(zhì)量參差不齊,既有Celeb-DF、Deeper-Forensics-1.0 等質(zhì)量較高、貼近現(xiàn)實(shí)的數(shù)據(jù)集,也有FaceForensics++等數(shù)據(jù)整體質(zhì)量較低、偽造痕跡明顯的數(shù)據(jù)集,因此不同數(shù)據(jù)質(zhì)量使得訓(xùn)練出的模型表現(xiàn)不一,無法達(dá)到應(yīng)用級(jí)標(biāo)準(zhǔn)。二是當(dāng)前深度偽造數(shù)據(jù)的規(guī)模與數(shù)量有待進(jìn)一步提高,因此為更有效地利用當(dāng)前數(shù)據(jù)集,采用自監(jiān)督學(xué)習(xí)能夠理論上無限制地?cái)U(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模,確保模型能夠獲得充分訓(xùn)練,提高模型表現(xiàn)。三是實(shí)際部署的泛化能力要求使得模型必須能夠兼顧識(shí)別挖掘出各類偽造數(shù)據(jù)的篡改痕跡,通過自監(jiān)督的學(xué)習(xí)方式,迫使模型提取深層特征,而不因數(shù)據(jù)集種類的不同而提取不同層級(jí)的視頻圖像特征,進(jìn)而提高模型的整體泛化能力,使之達(dá)到能夠解決現(xiàn)實(shí)生活中偽造視頻識(shí)別的目的。研究結(jié)果證明,自監(jiān)督學(xué)習(xí)能夠有效提升模型在跨庫測試中的表現(xiàn),無論訓(xùn)練集的偽造質(zhì)量高低,其檢測準(zhǔn)確率均取得了較好效果[61]。
另外,多實(shí)例學(xué)習(xí)也是近幾年在人臉視頻深度偽造檢測領(lǐng)域應(yīng)用較多的學(xué)習(xí)方式。偽造視頻的生成是將原始視頻分隔成幀,然后對(duì)每一幀偽造后進(jìn)行編碼壓縮發(fā)布。在這個(gè)過程中,可能存在幀與幀之間的偽造質(zhì)量與效果不同,或者存在部分幀并沒有進(jìn)行偽造的情況。其中,不同幀的不同偽造質(zhì)量會(huì)在訓(xùn)練階段影響模型的參數(shù)學(xué)習(xí),視頻中部分未經(jīng)過篡改的原始幀若被打標(biāo)簽為“被偽造”也同樣會(huì)干擾模型的訓(xùn)練?;诖耍刹捎枚鄬?shí)例學(xué)習(xí)的思想,把待檢測的視頻分割為若干個(gè)包(bag),其中包含若干個(gè)實(shí)例(幀),如果其中有一個(gè)實(shí)例被檢測為偽造,則可以標(biāo)記整個(gè)視頻均是偽造的。因此,多實(shí)例學(xué)習(xí)可以僅在擁有視頻級(jí)標(biāo)簽的情況下進(jìn)行學(xué)習(xí)。Zhou 等人[13]與Li 等人[23]均在人臉視頻深度偽造檢測的過程中引入多實(shí)例學(xué)習(xí)的思想。
除此之外,元學(xué)習(xí)[127]、多任務(wù)學(xué)習(xí)[130]、孿生訓(xùn)練[30,131]也均是當(dāng)前人臉視頻深度偽造檢測模型在訓(xùn)練學(xué)習(xí)階段所呈現(xiàn)出的新特點(diǎn)。其中,通過元學(xué)習(xí),可在多個(gè)數(shù)據(jù)域上訓(xùn)練,結(jié)合不同域的人臉對(duì)模型的貢獻(xiàn)不同,使得模型更容易學(xué)習(xí)到具體每一個(gè)數(shù)據(jù)域的偏差特點(diǎn);通過多任務(wù)學(xué)習(xí),對(duì)于輸入的待檢測的視頻,同時(shí)輸出對(duì)其是否偽造的二分類結(jié)果與偽造區(qū)域的定位結(jié)果;通過孿生訓(xùn)練,使得在網(wǎng)絡(luò)層的編碼空間中學(xué)習(xí)一種能夠很好地分離真實(shí)類和虛假類樣本(即人臉)的表示[30,131],提高后續(xù)模型的分類能力。
人臉視頻深度偽造檢測是近些年新興的研究方向,也是人工智能領(lǐng)域的研究熱點(diǎn)。本文主要對(duì)近三年的人臉視頻深度偽造檢測技術(shù)從特征選擇方面進(jìn)行了總結(jié),主要包括以下內(nèi)容:
(1)對(duì)常用數(shù)據(jù)集進(jìn)行整理,包括領(lǐng)域內(nèi)權(quán)威數(shù)據(jù)集和側(cè)重不同學(xué)習(xí)方法、訓(xùn)練模型的新型數(shù)據(jù)集。以UADFV、DF-TIMIT 為代表的傳統(tǒng)深度偽造數(shù)據(jù)集由于數(shù)量少、偽造質(zhì)量低已不符合當(dāng)前學(xué)術(shù)研究的要求。以DFDC、FaceForencies++、Celeb-DF 為代表的數(shù)據(jù)集是當(dāng)前領(lǐng)域內(nèi)研究常用的數(shù)據(jù)集,其中Celeb-DF 由于偽造質(zhì)量較高常被用來模擬現(xiàn)實(shí)生活中的偽造視頻,進(jìn)而用于測試模型的泛化能力。另外,由于不同研究者的特征選擇、模型結(jié)構(gòu)、訓(xùn)練思路不同,進(jìn)而提出若干新型數(shù)據(jù)集,如包含多實(shí)例人臉的FFIW 數(shù)據(jù)集、含有視頻人物參考信息的Vox-DeepFake 數(shù)據(jù)集等。但總體來說,數(shù)據(jù)集的建立與偽造技術(shù)的發(fā)展之間仍然存在差距,若要使模型達(dá)到工業(yè)應(yīng)用標(biāo)準(zhǔn),勢必需不斷提高數(shù)據(jù)集質(zhì)量。
(2)總結(jié)了基于空間特征的檢測方法。根據(jù)挖掘空間特征的挖掘?qū)ο蟛煌?,分為基于圖像空間域、圖像頻率域與圖像上下文空間的檢測方法?;诳臻g特征的檢測方法集中于從單幀的視頻圖像中提取空域特征、頻域特征與圖像上下文差異特征,其優(yōu)點(diǎn)是能夠從圖像底層挖掘真?zhèn)我曨l的差異,相對(duì)具有較高的模型泛化能力,但卻忽略了視頻中相鄰幀之間由于偽造技術(shù)所帶來的時(shí)序上不一致。
(3)總結(jié)了基于時(shí)空融合特征的檢測方法。根據(jù)時(shí)序特征提取方法的不同,分為基于RNN、基于卷積與基于像素位移的時(shí)空融合特征檢測方法。時(shí)空融合特征彌補(bǔ)了單純基于空間特征的不足,將單幀的空間特征與相鄰幀之間的時(shí)序不一致性進(jìn)行統(tǒng)一融合,從“時(shí)間-空間”的角度綜合分析視頻真?zhèn)巍5侨绾斡行П硎緯r(shí)間特征,并如何將時(shí)間與空間特征進(jìn)行融合,是重要的研究內(nèi)容,直接關(guān)系到最終模型的測試效果。
(4)總結(jié)了基于生物特征的檢測方法。根據(jù)利用的生物特征不同,分為基于身份一致性、人物生理信號(hào)與音畫特征的檢測方法。與空間特征、時(shí)空融合特征不同,該方法更從“人”的本質(zhì)上判斷視頻中出現(xiàn)人物的真?zhèn)?,進(jìn)而判定視頻真?zhèn)?。此類方法在模型檢測中取得不錯(cuò)的效果,但是對(duì)于生理特征的設(shè)計(jì)與挖掘需要部分的先驗(yàn)知識(shí),特征提取效率較低。同時(shí),外部參照集的使用降低了模型的應(yīng)用范圍,更適用于對(duì)重要人物的保護(hù),同時(shí)也降低了模型的訓(xùn)練與預(yù)測速度。
(5)總結(jié)了基于水印技術(shù)及區(qū)塊鏈的檢測方法。包括基于數(shù)字簽名、數(shù)字水印、區(qū)塊鏈、智能合約的檢測方法等。此類方法擺脫了傳統(tǒng)的特征提取、模型訓(xùn)練的過程,但是需要大量的先驗(yàn)知識(shí),應(yīng)用場景也較少。
(6)總結(jié)了近些年各類檢測方法所呈現(xiàn)出來的趨勢,包括特征選擇、模型設(shè)計(jì)、訓(xùn)練思路等方面的創(chuàng)新與特點(diǎn)。由于人臉視頻深度偽造檢測屬于計(jì)算機(jī)視覺領(lǐng)域,但又有其獨(dú)特性,同時(shí)該領(lǐng)域的數(shù)據(jù)集相對(duì)較少,因此需要結(jié)合任務(wù)的特點(diǎn),選擇設(shè)計(jì)合理的學(xué)習(xí)與訓(xùn)練策略,充分利用有限數(shù)據(jù)集,提升模型表現(xiàn)。
人臉視頻深度偽造檢測未來的發(fā)展方向,將體現(xiàn)在以下幾方面:
(1)遷移學(xué)習(xí)與大規(guī)模預(yù)訓(xùn)練模型的使用。利用大規(guī)模數(shù)據(jù)集與成熟的網(wǎng)絡(luò)模型,通過遷移學(xué)習(xí)實(shí)現(xiàn)對(duì)視頻圖像中豐富的人臉特征、局部特征的提取,以提高后續(xù)分類的準(zhǔn)確度。
(2)數(shù)據(jù)集的真實(shí)性與模型泛化能力的提高。深度偽造技術(shù)發(fā)展迅速,越來越多的高質(zhì)量偽造視頻層出不窮,作為檢測技術(shù),應(yīng)當(dāng)更加貼近真實(shí)世界中的偽造現(xiàn)狀,使用更具有泛化能力的模型檢測各類偽造技術(shù)生成的篡改視頻。
(3)主動(dòng)防御技術(shù)的發(fā)展。目前絕大多數(shù)的檢測均是事后的被動(dòng)檢測,只有主動(dòng)防御才能從根本上杜絕偽造視頻的生成與傳播,這也是未來發(fā)展的方向。