林佳瀅,周文柏,張衛(wèi)明,俞能海
空域頻域相結(jié)合的唇型篡改檢測(cè)方法
林佳瀅1,2,周文柏1,2,張衛(wèi)明1,2,俞能海1,2
(1. 中國(guó)科學(xué)院電磁空間信息重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230027;2. 中國(guó)科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,安徽 合肥 230027)
近年來(lái),社交網(wǎng)絡(luò)中的“換臉”視頻層出不窮,對(duì)說(shuō)話者進(jìn)行唇型篡改是其中的視頻代表之一,這給大眾生活增添娛樂(lè)的同時(shí),對(duì)于網(wǎng)絡(luò)空間中的個(gè)人隱私、財(cái)產(chǎn)安全也帶來(lái)了不小隱患。大多數(shù)唇型篡改檢測(cè)方法在無(wú)損條件下取得了較好的表現(xiàn),但廣泛存在于社交媒體平臺(tái)、人臉識(shí)別等場(chǎng)景中的壓縮操作,在節(jié)約像素和時(shí)間冗余的同時(shí),會(huì)對(duì)視頻質(zhì)量造成影響,破壞空域上像素與像素、幀與幀之間的連貫完整性,導(dǎo)致其檢測(cè)性能的下降,從而引發(fā)對(duì)真實(shí)視頻的錯(cuò)判情況。當(dāng)空域信息無(wú)法提供足夠有效的特征時(shí),能夠抵抗壓縮干擾的頻域信息就自然而然地成為重點(diǎn)研究對(duì)象。針對(duì)這一問(wèn)題,通過(guò)分析頻率信息在圖像結(jié)構(gòu)和梯度反饋上的優(yōu)勢(shì),提出了空域頻域相結(jié)合的唇型篡改檢測(cè)方法,有效利用空域、頻域信息的各自特點(diǎn)。對(duì)于空域上的唇型特征,設(shè)計(jì)了自適應(yīng)提取網(wǎng)絡(luò)和輕量級(jí)的注意力模塊;對(duì)于頻域上的頻率特征,設(shè)計(jì)了不同分量的分離提取與融合模塊。隨后,通過(guò)對(duì)空域上的唇型特征和頻域上的頻率特征進(jìn)行有側(cè)重的融合,保留更多關(guān)鍵紋理信息。此外,在訓(xùn)練中設(shè)計(jì)細(xì)粒度約束,分開(kāi)真假唇型特征類間距離的同時(shí),拉近類內(nèi)距離。實(shí)驗(yàn)結(jié)果表明,得益于頻率信息,所提方法能有效改善壓縮情況下的檢測(cè)準(zhǔn)確性,并具備一定的遷移性。另外,在對(duì)核心模塊開(kāi)展的消融實(shí)驗(yàn)中,相關(guān)結(jié)果驗(yàn)證了頻率分量對(duì)于抗壓縮的有效性,以及雙重?fù)p失函數(shù)在訓(xùn)練中的約束作用。
人臉偽造;人臉偽造檢測(cè)防御;唇型篡改檢測(cè);抗壓縮;深度學(xué)習(xí)
2017年,第一個(gè)針對(duì)名人的換臉視頻在社交平臺(tái)上發(fā)布,從此人臉偽造技術(shù)開(kāi)始走進(jìn)公眾視野。根據(jù)篡改區(qū)域的不同,人臉偽造技術(shù)分為全臉替換和局部篡改。前者通常將整個(gè)源臉替換成目標(biāo)臉;后者修改部分臉部區(qū)域,如篡改唇型來(lái)匹配音頻內(nèi)容,并達(dá)到視覺(jué)上的同步。前者篡改區(qū)域大,且伴隨著身份屬性的改變;后者篡改區(qū)域小,身份屬性不變但視頻內(nèi)容會(huì)發(fā)生更改,因而后者產(chǎn)生的社會(huì)危害更大。隨著攻防一體化的發(fā)展,針對(duì)人臉偽造的檢測(cè)技術(shù)應(yīng)運(yùn)而生,同樣按照篡改區(qū)域劃分為全臉檢測(cè)技術(shù)和局部檢測(cè)技術(shù)兩大類。無(wú)損情況下,唇型篡改視頻中淺層紋理特征能夠得到完整保留且具有連貫性,現(xiàn)有的局部檢測(cè)模型依靠該空域信息即可提取到具有區(qū)分性的特征,在真實(shí)、篡改視頻的鑒別任務(wù)中取得較好的表現(xiàn)。
然而實(shí)際生活中,壓縮作為一種基本的數(shù)據(jù)處理方式,普遍存在于各個(gè)數(shù)字平臺(tái)中。從像素空間冗余壓縮、時(shí)間冗余壓縮以及編碼冗余壓縮3個(gè)維度對(duì)視頻的分辨率和尺寸進(jìn)行改變,能夠有效節(jié)約帶寬資源,防止自身數(shù)據(jù)冗余造成不必要的消耗。倘若外界施加的壓縮強(qiáng)度過(guò)大,在包括信道傳輸損失等多路干擾的疊加下,視頻畫(huà)面極易產(chǎn)生大幅度的缺陷,甚至出現(xiàn)人眼都無(wú)法分辨清楚視頻內(nèi)容的情況。常見(jiàn)的壓縮導(dǎo)致的視頻受損情況有高斯噪聲、像素腐蝕以及高斯模糊等。
毫無(wú)疑問(wèn),對(duì)視頻采取的壓縮強(qiáng)度越大,淺層紋理特征就越容易被破壞,像素與像素、幀與幀之間的連貫完整性因此被削弱。原本未經(jīng)篡改的真實(shí)視頻此時(shí)在基于深度神經(jīng)網(wǎng)絡(luò)的檢測(cè)模型看來(lái),由于噪聲的影響其極有可能被認(rèn)為是經(jīng)過(guò)篡改的假視頻而發(fā)生錯(cuò)判。作為一種廣泛使用的后處理操作,壓縮對(duì)當(dāng)前的局部唇型篡改檢測(cè)提出了新的挑戰(zhàn)。
當(dāng)空域信息所剩無(wú)幾,面對(duì)此類困難場(chǎng)景,本質(zhì)上需要解答一個(gè)問(wèn)題,即什么信息對(duì)于高壓縮視頻的檢測(cè)是有效的,這也是人臉偽造檢測(cè)發(fā)展至今,學(xué)者們不斷從各個(gè)領(lǐng)域借鑒新思路試圖解決的問(wèn)題。傳統(tǒng)圖像處理領(lǐng)域除了研究空域信息外,另一個(gè)重點(diǎn)研究對(duì)象是頻域。頻域信息能很好地反映圖像的不同結(jié)構(gòu),表征梯度的變化,這一特性使得某些操作在頻域上的效果會(huì)優(yōu)于空域,因而將其引入同屬于圖像處理細(xì)分下的人臉偽造檢測(cè)任務(wù)中,具備充分的合理性。
綜合上述研究背景,本文提出了空域頻域相結(jié)合的唇型篡改檢測(cè)方法。從空域頻域兩個(gè)方面入手,分別提取各自特征并采取有側(cè)重的融合方式,進(jìn)一步突出紋理信息;另外,為了更好地區(qū)分不同真假唇型特征,拉近相同特征,在訓(xùn)練中引入雙重?fù)p失函數(shù),對(duì)模型構(gòu)成細(xì)粒度約束。面對(duì)壓縮環(huán)境下的人臉偽造場(chǎng)景,從多個(gè)角度對(duì)檢測(cè)模型開(kāi)展積極探索,促進(jìn)實(shí)際人臉安全防御體系的構(gòu)建。
早期的局部唇型篡改主要基于單幅圖像或者純視頻,現(xiàn)階段為了進(jìn)一步營(yíng)造出自然逼真的效果,通常會(huì)與音頻進(jìn)行結(jié)合,生成可以說(shuō)話的偽造人臉視頻。其核心思想是篡改目標(biāo)人物的唇型以匹配當(dāng)前音頻的說(shuō)話內(nèi)容,因而在生成過(guò)程中會(huì)涉及音頻、視頻等多模態(tài)的特征信息。通過(guò)音頻結(jié)合的局部唇型篡改技術(shù),偽造方可以達(dá)到操控目標(biāo)人物說(shuō)出他們希望說(shuō)的話的目的。
通過(guò)音頻生成的唇型在完成張開(kāi)閉合動(dòng)作的同時(shí),還要盡可能形狀準(zhǔn)確,符合人類發(fā)音規(guī)律。為了實(shí)現(xiàn)這一任務(wù),深度學(xué)習(xí)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)模型成為首選。對(duì)音頻進(jìn)行編碼后作為特征輸入生成模型中,得到對(duì)應(yīng)的唇型關(guān)鍵點(diǎn)或者3D重建參數(shù),再將這些唇型特征送到解碼器中還原出當(dāng)前唇型。
相關(guān)唇型篡改方法包括Obama lip-sync[1]、First order motion[2]、Audio-driven[3]和Wav2Lip[4]等。其中,Obama lip-sync通過(guò)奧巴馬的每周總統(tǒng)演講視頻,學(xué)習(xí)其特定的說(shuō)話方式和表情姿勢(shì);Audio-driven利用3D重建分別提取音頻、表情參數(shù),將屬性和身份特征分開(kāi);First order motion則通過(guò)視頻驅(qū)動(dòng)單幅原始人臉圖像。Wav2Lip通過(guò)輸入一段動(dòng)態(tài)視頻和一段音頻,即可實(shí)現(xiàn)任意人的唇型篡改。Wav2Lip框架如圖1所示,由3個(gè)模塊組成:音頻驅(qū)動(dòng)的人臉唇型生成器、生成人臉視覺(jué)質(zhì)量判別器、音頻唇型同步判別器。不同于先前方法在每幀視頻上進(jìn)行篡改,該方法一次性輸入連續(xù)5 幀,經(jīng)過(guò)編解碼器結(jié)構(gòu)得到相應(yīng)的人臉輸出幀,使用 L1 重建損失約束生成人臉與真實(shí)人臉間的距離,同時(shí)視覺(jué)質(zhì)量判別器會(huì)對(duì)生成人臉進(jìn)行真假判斷,形成對(duì)抗式訓(xùn)練。
圖1 Wav2Lip框架
Figure 1 The framework of Wav2Lip
對(duì)局部唇型檢測(cè)方法的發(fā)展過(guò)程進(jìn)行大致追溯可以發(fā)現(xiàn),其主要從語(yǔ)音識(shí)別、唇型識(shí)別等真人音視頻任務(wù)上遷移而來(lái)。利用在真實(shí)大規(guī)模數(shù)據(jù)集上經(jīng)過(guò)嚴(yán)密訓(xùn)練和測(cè)試的語(yǔ)音、唇讀等預(yù)訓(xùn)練模型,可以很好地對(duì)當(dāng)前偽造人臉特征進(jìn)行初步篩選過(guò)濾。固定網(wǎng)絡(luò)的前層模塊,損失函數(shù)在迭代訓(xùn)練中更新調(diào)整最后一個(gè)全連接層的權(quán)重,實(shí)現(xiàn)預(yù)訓(xùn)練模型在人臉偽造數(shù)據(jù)集上的微調(diào)。
受到以上研究視角的啟發(fā),來(lái)自Facebook的團(tuán)隊(duì)率先提出了Lip Forensics算法[5],其框架如圖2所示,核心思想是挖掘高級(jí)語(yǔ)義在嘴部運(yùn)動(dòng)中存在的不規(guī)則性,如超出正常人嘴唇的開(kāi)合幅度,或者相反地,不能自如地完成嘴唇的閉合動(dòng)作。唇讀預(yù)訓(xùn)練模型的優(yōu)勢(shì)在于空間上提取 3D 特征,時(shí)間上使用 MS-TCN網(wǎng)絡(luò)[6]描述時(shí)序特征,學(xué)習(xí)真實(shí)自然場(chǎng)景下嘴部運(yùn)動(dòng)特有的高級(jí)語(yǔ)義表征。因此,能有效避免一些過(guò)擬合的情況,如檢測(cè)網(wǎng)絡(luò)過(guò)于依賴低層次語(yǔ)義表征或者某種生成方法產(chǎn)生的特定偽影。
圖2 Lip Forensics框架
Figure 2 The framework of Lip Forensics
圖3 空域頻域相結(jié)合的唇型篡改檢測(cè)方法的框架
Figure 3 The framework of lip forgery detection via spatial-frequency domain combination
值得一提的是,雖然預(yù)訓(xùn)練模型在庫(kù)內(nèi)和跨數(shù)據(jù)庫(kù)間的實(shí)驗(yàn)上展現(xiàn)了優(yōu)異的性能,但其龐大的模型結(jié)構(gòu)導(dǎo)致適用范圍受到局限,在大企業(yè)的大平臺(tái)上更具備施展空間。日常生活中,面向計(jì)算機(jī)和手機(jī)等靈活終端,往往要求模型輕量化、易部署,且對(duì)于壓縮場(chǎng)景具備一定檢測(cè)能力。
按照常規(guī)的幾種頻率變換方法如離散傅里葉變換、離散余弦變換,可以將圖像從空域轉(zhuǎn)到頻域。在此基礎(chǔ)上對(duì)頻率特征進(jìn)行劃分,進(jìn)而得到低頻、中頻、高頻3個(gè)基本分量。低頻信號(hào)往往占比最高,主要描述了圖像中梯度變化平緩的區(qū)域,這意味著在顏色和內(nèi)容上的波動(dòng)幅度不大,與空域中的低維紋理特征具有相同性質(zhì)。高頻信號(hào)則與此不同,其刻畫(huà)了梯度變化劇烈的部分。在圖像內(nèi)容出現(xiàn)明顯轉(zhuǎn)換的地方,高頻信號(hào)所蘊(yùn)含的能量越多,因而大多對(duì)應(yīng)空域中的高維細(xì)節(jié)特征如邊緣、輪廓等,甚至少部分的噪聲。中頻信號(hào)的梯度變化介于兩者之間,一方面,減少對(duì)圖像內(nèi)容的補(bǔ)充;另一方面,增加對(duì)細(xì)節(jié)的描繪。
實(shí)際上圍繞頻率信息,已經(jīng)有相關(guān)的人臉偽造檢測(cè)工作展開(kāi)。例如,文獻(xiàn)[7]和文獻(xiàn)[8]均指出空域上低維淺層紋理特征的重要性,另外,文獻(xiàn)[9]探討了不同頻率分量對(duì)檢測(cè)模型的有效性。
因此,不僅要引入頻率特征與空域上的唇型特征相結(jié)合,還要對(duì)頻率特征進(jìn)行劃分得到不同分量。在頻率分量的基礎(chǔ)上進(jìn)行特征融合,起到引導(dǎo)和增強(qiáng)的作用,有利于模型在壓縮情況下的檢測(cè)判斷。
壓縮操作會(huì)引發(fā)圖像空域出現(xiàn)一定缺陷,頻率信號(hào)卻因自身在結(jié)構(gòu)、梯度上的特性,能很好地抵抗此類影響。為了盡可能捕捉到更多有效特征減小干擾,可將空域、頻域二者結(jié)合,相互取長(zhǎng)補(bǔ)短,共同用于壓縮場(chǎng)景下的唇型篡改檢測(cè)任務(wù)。檢測(cè)方法的框架如圖3所示,采用空域頻域相結(jié)合的方式,在空域上提取唇型特征,在頻域上提取頻率特征,經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)將兩者進(jìn)行特征融合,最終得到真實(shí)、篡改的判斷。
其中,在空域的唇型特征提取模塊,使用區(qū)域生成網(wǎng)絡(luò)(RPN,region proposal network)[10]實(shí)現(xiàn)唇型候選區(qū)域的自適應(yīng)提取,在隨后的特征編碼階段引入輕量級(jí)的注意力模塊分別作用于通道和空間維度,調(diào)整每個(gè)通道的權(quán)重,關(guān)注感受野中激勵(lì)更強(qiáng)的區(qū)域。在頻率特征提取模塊中,利用離散余弦變換去相關(guān)性得到頻域信號(hào),濾波器濾波后提取低、中、高3個(gè)頻帶信息,再利用離散余弦反變換回空域,得到3個(gè)頻帶各自對(duì)應(yīng)的圖像信號(hào)。經(jīng)過(guò)特征堆疊網(wǎng)絡(luò)將3個(gè)圖像信號(hào)合并,形成最終的頻率特征。在特征融合階段,將兩路分支提取的特征進(jìn)行結(jié)合,經(jīng)過(guò)CNN 中的卷積、池化和全連接層,輸出最終的判決結(jié)果。
唇型特征提取模塊的目的在于直接從空域獲取顯著的低維紋理特征,核心由自適應(yīng)提取模塊和輕量級(jí)注意力模塊組成。
RPN自適應(yīng)提取模塊如圖4所示,目標(biāo)人臉圖像經(jīng)過(guò)卷積提取特征圖后,進(jìn)入RPN特征提取網(wǎng)絡(luò)。對(duì)該特征圖進(jìn)行卷積得到兩路分支,上支路進(jìn)行 Softmax 和 Reshape 操作生成初步的候選框,下支路保留該特征圖并與上支路結(jié)合,得到最終的唇型候選框。在特征響應(yīng)較大的人臉下半?yún)^(qū)域,唇型候選框經(jīng)過(guò)多次迭代優(yōu)化,具有一定動(dòng)態(tài)性,當(dāng)遇到臉部出現(xiàn)較大轉(zhuǎn)動(dòng)或外界遮擋的情況,候選框的大小與位置會(huì)做出靈活調(diào)整。與先前基于人臉關(guān)鍵點(diǎn)進(jìn)行唇型特征提取的方法相比,本文方法減少了人工干預(yù)和尺寸固定的限制。
圖4 RPN自適應(yīng)提取模塊
Figure 4 RPN adaptive extraction module
輕量級(jí)注意力模塊如圖5所示,本文分別設(shè)計(jì)了通道注意力模塊和空間注意力模塊,前者注重內(nèi)容理解找到關(guān)鍵信息,后者確定關(guān)鍵信息所在的具體位置。為了使特征更好地聚合并減少參數(shù)量,在注意力圖的生成過(guò)程中添加了兩種池化操作,分別為平均池化(AvgPool)和最大值池化(MaxPool),前者能保留全局范圍內(nèi)的反饋,后者能突出強(qiáng)調(diào)局部響應(yīng)大的反饋,相互補(bǔ)充。
圖5 輕量級(jí)注意力模塊
Figure 5 The light-weighted attention module
為了更好地發(fā)揮頻率特征的優(yōu)勢(shì),頻率特征提取模塊采取先分離后融合的策略,如圖6所示,本文設(shè)計(jì)了頻率特征分離模塊和頻率特征融合模塊。
圖6 頻率特征提取模塊
Figure 6 Frequency feature extraction module
首先進(jìn)行頻率特征分離操作。選用離散余弦變換得到人臉頻譜圖。其中,低頻分量密度大,集中在左上角;中頻分量信號(hào)靠近中間呈帶狀分布;高頻分量的密度較低,占據(jù)整個(gè)右下角。設(shè)計(jì)3種二分類濾波器將低頻、中頻、高頻分量各自提取出來(lái),其本質(zhì)是由 0、1構(gòu)成的二進(jìn)制掩碼。
在頻率分量的特征融合階段,依次經(jīng)過(guò)卷積和平均池化得到尺寸相同的編碼特征。隨后,在通道方向上按照低、中、高的順序進(jìn)行拼接,保持各頻率分量獨(dú)立的同時(shí)得到融合后的頻率特征。
特征融合是特征處理的關(guān)鍵模塊,空域頻域融合后的總體特征將對(duì)模型的最終決策起到指導(dǎo)作用。
在權(quán)重的指導(dǎo)下,相乘后的新頻率特征能呈現(xiàn)更多檢測(cè)所需的紋理信息。相比起均勻融合,以唇型特征為主的有側(cè)重融合,能突出有效特征,增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。
針對(duì)壓縮場(chǎng)景下的唇型篡改檢測(cè)任務(wù),本文設(shè)計(jì)雙重?fù)p失函數(shù),改善原先方法中普遍采取的基于二分類任務(wù)的粗粒度約束,進(jìn)一步優(yōu)化模型的檢測(cè)性能。損失函數(shù)模塊如圖8所示,輸入的融合特征經(jīng)過(guò)卷積、平均池化后,再通過(guò)全連接層進(jìn)行矩陣變換,與樣本標(biāo)記空間建立映射得到當(dāng)前的輸出結(jié)果。隨后,由 Softmax Loss[12]和 Center Loss[13]構(gòu)成的雙重?fù)p失函數(shù)模塊對(duì)輸出結(jié)果進(jìn)行誤差計(jì)算。
圖7 特征融合模塊
Figure 7 Feature fusion module
圖8 損失函數(shù)模塊
Figure 8 Loss function module
Softmax Loss計(jì)算公式如下:
Center loss計(jì)算公式如下:
進(jìn)一步,求得偏導(dǎo)為:
顯然,兩個(gè)損失函數(shù)的作用有所不同。在特征空間中,Softmax Loss 將不同類別間的各點(diǎn)分開(kāi),Center Loss 將同一類別中的各點(diǎn)向中心方向收縮,共同對(duì)唇型篡改檢測(cè)任務(wù)形成細(xì)粒度的約束。模型在上述迭代優(yōu)化中,逐漸學(xué)習(xí)真實(shí)、篡改唇型間更具有區(qū)分性的特征,提升檢測(cè)性能。而大多數(shù)方法采用的二分類交叉熵則屬于粗粒度約束,僅從輸出結(jié)果與標(biāo)簽之間的距離進(jìn)行衡量,導(dǎo)致類內(nèi)特征不夠緊湊,在唇型篡改的關(guān)鍵痕跡獲取上更難把握。
本節(jié)首先介紹實(shí)驗(yàn)設(shè)置,包括數(shù)據(jù)集和評(píng)價(jià)指標(biāo)等,隨后對(duì)提出的唇型篡改檢測(cè)方法進(jìn)行實(shí)驗(yàn),包括庫(kù)內(nèi)的真假分類評(píng)估、跨方法評(píng)估,跨數(shù)據(jù)庫(kù)的遷移性評(píng)估以及關(guān)鍵模塊的消融實(shí)驗(yàn)。
本文實(shí)驗(yàn)采用人臉偽造數(shù)據(jù)集FaceForensics++[14]和Celeb-DF[15]。
FaceForensics++數(shù)據(jù)集使用4 種人臉偽造方法,其中,F(xiàn)aceSwap[16]和Face2Face[17]是基于計(jì)算機(jī)圖形學(xué)的方法,而DeepFakes[18]和 Neural Textures[19]則是基于學(xué)習(xí)的方法,在不同方法間可進(jìn)行檢測(cè)評(píng)估。此外,采用H.264編解碼器對(duì)視頻進(jìn)行不同程度的壓縮,得到相應(yīng)的高質(zhì)量視頻(HQ,C23)和低質(zhì)量視頻(LQ,C40)。該數(shù)據(jù)集是目前首個(gè)引入壓縮操作的大型公開(kāi)數(shù)據(jù)集。
Celeb-DF數(shù)據(jù)集則以視頻制作精良,檢測(cè)難度較大為顯著特點(diǎn),是評(píng)估模型遷移性較為理想的測(cè)試數(shù)據(jù)集之一。
評(píng)價(jià)指標(biāo)方面,采用準(zhǔn)確率(ACC,accuracy)[23]和ROC曲線面積(AUC,area under thecurve)[20]對(duì)本文實(shí)驗(yàn)進(jìn)行評(píng)估。
為了評(píng)估不同壓縮強(qiáng)度下模型的檢測(cè)性能,在FaceForensics++數(shù)據(jù)集的C23和C40上分別進(jìn)行訓(xùn)練和測(cè)試,并與現(xiàn)有方法在ACC 和AUC指標(biāo)上進(jìn)行對(duì)比,得到的實(shí)驗(yàn)結(jié)果如表1所示。
表1 真假分類評(píng)估結(jié)果
在比較的方法中,Steg. Features[22]是基于隱寫分析特征的人工檢測(cè)方法,從Cozzolino等到XceptionNet的5種方法[23-27]則是基于卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)檢測(cè)方法。從表1中結(jié)果可以看出,本文方法在兩種壓縮場(chǎng)景下的性能均優(yōu)于先前方法。在高壓縮的C40上,通過(guò)結(jié)合頻率特征捕捉到關(guān)鍵篡改痕跡,取得了更大的增幅。
在FaceForensics++數(shù)據(jù)集的不同方法間使用留一法進(jìn)行評(píng)估,即選擇3類作為訓(xùn)練集,剩下一類作為測(cè)試集,總共產(chǎn)生4類測(cè)試結(jié)果。為了保障公平客觀性,本文實(shí)驗(yàn)統(tǒng)一使用C40高壓縮下的視頻進(jìn)行訓(xùn)練和測(cè)試,ACC作為評(píng)價(jià)指標(biāo),并與真假分類評(píng)估中的檢測(cè)方法進(jìn)行比較,結(jié)果如表2所示。
表2 庫(kù)內(nèi)跨方法評(píng)估結(jié)果
在4種篡改方法中,DeepFakes上的檢測(cè)準(zhǔn)確率普遍較高,而在Neural Textures的檢測(cè)上則呈現(xiàn)一定差距,這可能與篡改方法自身的原理有關(guān)。DeepFakes和FaceSwap屬于早期的篡改方法,Neural Textures和Face2Face則在前兩者的基礎(chǔ)上改進(jìn),提高了生成視頻的質(zhì)量。雖然不同方法間的檢測(cè)難度有所不同,本文方法依然在庫(kù)內(nèi)跨方法評(píng)估上取得了更好的表現(xiàn)效果。
為了更好地模擬真實(shí)場(chǎng)景,本文進(jìn)行了跨數(shù)據(jù)庫(kù)遷移性評(píng)估。本文實(shí)驗(yàn)采用FaceForensics++的C23視頻作為訓(xùn)練集,Celeb-DF作為測(cè)試數(shù)據(jù)集,AUC作為評(píng)價(jià)指標(biāo),并與主打遷移性的4種相關(guān)檢測(cè)方法進(jìn)行比較,具體的實(shí)驗(yàn)設(shè)置如表3所示。其中,Two-stream[28]采用雙流網(wǎng)絡(luò)結(jié)構(gòu);Multi-task[29]不僅判斷人臉圖像是否經(jīng)過(guò)篡改,還定位分割出篡改區(qū)域;VA-LogReg[30]使用邏輯回歸模型,聚焦于篡改方法在眼睛、牙齒上留下的視覺(jué)偽影;FWA[31]則捕捉插值和尺寸縮放引起的形變痕跡。上述方法分別從不同的檢測(cè)視角出發(fā)。
從同時(shí)列出的FaceForensics++(C23)和Celeb-DF的實(shí)驗(yàn)結(jié)果來(lái)看,兩個(gè)數(shù)據(jù)集的特征分布存在明顯差異,模型在后者上的表現(xiàn)出現(xiàn)普遍下降。雖然Celeb-DF在檢測(cè)上具有相當(dāng)?shù)奶魬?zhàn)難度,本文方法依然取得了AUC上的提升,達(dá)到66.24%,在跨數(shù)據(jù)庫(kù)間展現(xiàn)出一定的遷移性。
表3 跨數(shù)據(jù)集遷移性評(píng)估結(jié)果
3.5.1 頻率分量選擇實(shí)驗(yàn)
低頻、中頻、高頻分量分別包含不同的圖像特征,在壓縮場(chǎng)景下的唇型篡改檢測(cè)中產(chǎn)生的作用也不盡相同。設(shè)計(jì)實(shí)驗(yàn)對(duì)不同頻率信號(hào)下的模型檢測(cè)性能進(jìn)行評(píng)估,結(jié)果如表4所示。
表4 頻率分量選擇實(shí)驗(yàn)結(jié)果
表4中第一行基線模型XceptionNet 作為對(duì)照組,沒(méi)有頻率分量輸入。從壓縮程度來(lái)看,在高壓縮的C40上,性能提升幅度更大;從頻率信息來(lái)看,相比高頻信息,加入低頻和中頻信息的提升作用更大,但3個(gè)分量的加入均對(duì)模型的檢測(cè)起到正向作用。
3.5.2 損失函數(shù)選擇實(shí)驗(yàn)
本文方法的損失函數(shù)由Softmax Loss和Center Loss 兩部分組成,實(shí)驗(yàn)如表5所示。與第一行僅使用Softmax Loss的粗粒度約束場(chǎng)景相比,加上Center Loss的約束項(xiàng)后,在C23和C40的場(chǎng)景中模型的性能均有所提高。結(jié)果表明,改進(jìn)后的損失函數(shù)在模型訓(xùn)練中進(jìn)行了細(xì)粒度約束,在分開(kāi)不同特征的同時(shí),引導(dǎo)同一類特征向中心方向更加靠攏。
表5 損失函數(shù)選擇結(jié)果
針對(duì)網(wǎng)絡(luò)空間中廣泛存在的壓縮操作,對(duì)當(dāng)前唇型篡改檢測(cè)帶來(lái)的挑戰(zhàn),本文充分挖掘頻率信號(hào)抗干擾的特性,提出了空域頻域相結(jié)合的唇型篡改檢測(cè)方法??沼蛏希捎肦PN自適應(yīng)提取與輕量級(jí)注意力兩個(gè)模塊,關(guān)注局部重點(diǎn)區(qū)域,實(shí)現(xiàn)唇型特征的靈活提取;頻域上,使用離散余弦變換與反變化,提取低頻、中頻、高頻率分量再進(jìn)行通道上的堆疊,保持各分量獨(dú)立性。隨后,在唇型特征指導(dǎo)下對(duì)兩路特征進(jìn)行有側(cè)重的融合。訓(xùn)練階段,為了對(duì)模型形成細(xì)粒度約束,采用由Softmax Loss 和 Center Loss 構(gòu)成的雙重?fù)p失函數(shù)。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本文方法在檢測(cè)準(zhǔn)確性與遷移性上取得更好表現(xiàn)。此外,消融實(shí)驗(yàn)的結(jié)果證明了頻率分量和細(xì)粒度約束的有效性。
隨著人臉偽造方法的精細(xì)化發(fā)展,未來(lái)的檢測(cè)工作除了考慮現(xiàn)有的空域、頻域外,還可能拓展至?xí)r域,從3種特征維度上挖掘出更多潛在篡改痕跡,突破先前框架,進(jìn)一步提升面向?qū)嶋H的檢測(cè)性能。
[1] SUWAJANAKORN S, SEITZ S M, KEMELMACHER- SHLIZERMAN I. Synthesizing Obama: learning lip sync from audio[J]. ACM Transactions on Graphics (TOG), 2017, 36: 1-13.
[2] SIAROHIN A, LATHUILIèRE S, TULYAKOV S, et al. First order motion model for image animation[J]. ArXiv, 2019, abs/2003.00196.
[3] YI R, YE Z, ZHANG J, et al. Audio-driven talking face video generation with learning-based personalized head pose[J]. arXiv: 2002. 10137v2, 2020.
[4] PRAJWAL K R, MUKHOPADHYAY R, NAMBOODIRI V P, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 484-492.
[5] HALIASSOS A, VOUGIOUKAS K, PETRIDIS S, et al. Lips don't lie: a generalisable and robust approach to face forgery detection[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021: 5037-5047.
[6] FARHA Y A, GALL J. MS-TCN: multi-stage temporal convolutional network for action segmentation[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 3570-3579.
[7] QIAN Y Y, YIN G J, SHENG L, et al. Thinking in frequency: face forgery detection by mining frequency-aware clues[C]//Proceedings of Computer Vision – ECCV 2020. 2020: 86-103.
[8] LI J M, XIE H T, LI J H, et al. Frequency-aware discriminative feature learning supervised by single-center loss for face forgery detection[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021: 6454-6463.
[9] CHEN S, YAO T P, CHEN Y, et al. Local relation learning for face forgery detection[J]. arXiv:2105.02577, 2021.
[10] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[11] HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2261-2269.
[12] SUN Y, WANG X G, TANG X O. Deep learning face representation from predicting 10, 000 classes[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1891-1898.
[13] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[C]//Proceedings of Computer Vision – ECCV 2016. 2016: 499-515.
[14] R?SSLER A, COZZOLINO D, VERDOLIVA L, et al. FaceForensics++: learning to detect manipulated facial images[C]//Proceed- ings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). 2019: 1-11.
[15] LI Y Z, YANG X, SUN P, et al. Celeb-DF: a large-scale challenging dataset for DeepFake forensics[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 3204-3213.
[16] Faceswap. Faceswap github[EB].
[17] THIES J, ZOLLH?FER M, STAMMINGER M, et al. Face 2 face: real-time face capture and reenactment of RGB videos[J]. ArXiv, 2019, abs/2007.14808.
[18] DeepFakes. Deepfakes github[EB].
[19] THIES J, ZOLLH?FER M, NIE?NER M, et al. Real-time expression transfer for facial reenactment[J]. ACM Transactions on Graphics, 2015, 34(6): 1-14.
[20] LI L Z, BAO J M, ZHANG T, et al. Face X-ray for more general face forgery detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 5000-5009.
[21] KINGMA D P, BA J. Adam: a method for stochastic optimization[J]. CoRR, 2015, abs/1412.6980.
[22] FRIDRICH J J, KODOVSKY J. Rich models for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868-882.
[23] AFCHAR D, NOZICK V, YAMAGISHI J, et al. MesoNet: a compact facial video forgery detection network[J]. 2018 IEEE International Workshop on Information Forensics and Security (WIFS), 2018: 1-7.
[24] CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1800-1807.
[25] COZZOLINO D, POGGI G, VERDOLIVA L. Recasting residual-based local descriptors as convolutional neural networks: an application to image forgery detection[C]//Proceedings of the 5th ACM Workshop on Information Hiding and Multimedia Security. 2017: 159-164.
[26] BAYAR B, STAMM M C. A deep learning approach to universal image manipulation detection using a new convolutional layer[C]// Proceedings of the 4th ACM Workshop on Information Hiding and Multimedia Security. 2016: 5-10.
[27] RAHMOUNI N, NOZICK V, YAMAGISHI J, et al. Distinguishing computer graphics from natural images using convolution neural networks[J]. 2017 IEEE Workshop on Information Forensics and Security (WIFS), 2017: 1-6.
[28] ZHOU P, HAN X T, MORARIU V I, et al. Two-stream neural networks for tampered face detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017: 1831-1839.
[29] NGUYEN H H, FANG F M, YAMAGISHI J, et al. Multi-task learning for detecting and segmenting manipulated facial images and videos[C]//Proceedings of 2019 IEEE 10th International Conference on Biometrics Theory, Applications and Systems. 2019: 1-8.
[30] MATERN F, RIESS C, STAMMINGER M. Exploiting visual artifacts to expose deepfakesand face manipulations[J]. 2019 IEEE Winter Applications of Computer Vision Workshops(WACVW), 2019: 83-92.
[31] LI Y, LYU S. Exposing DeepFake videos by detecting face warping artifacts[J]. ArXiv, 2019, abs/1811.00656.
Lip forgery detection via spatial-frequency domain combination
LIN Jiaying1,2, ZHOU Wenbo1,2,ZHANG Weiming1,2,YU Nenghai1,2
1. Key Laboratory of Electromagnetic Space Information, Chinese Academy of Sciences, Hefei 230027, China 2. School of Cyber Science, University of Science and Technology of China, Hefei 230027, China
In recent years, numerous “face-swapping” videos have emerged in social networks, one of the representatives is the lip forgery with speakers. While making life more entertaining for the public, it poses a significant crisis for personal privacy and property security in cyberspace. Currently, under non-destructive conditions, most of the lip forgery detection methods achieve good performance. However, the compression operations are widely used in practice especially in social media platforms, face recognition and other scenarios. While saving pixel and time redundancy, the compression operations affect the video quality and destroy the coherent integrity of pixel-to-pixel and frame-to-frame in the spatial domain, and then the degradation of its detection performance and even misjudgment of the real video will be caused. When the information in the spatial domain cannot provide sufficiently effective features, the information in the frequency domain naturally becomes a priority research object because it can resist compression interference. Aiming at this problem, the advantages of frequency information in image structure and gradient feedback were analyzed. Then the lip forgery detectionvia spatial-frequency domain combination was proposed, which effectively utilized the corresponding characteristics of information in spatial and frequency domains. For lip features in the spatial domain, an adaptive extraction network and a light-weight attention module were designed. For frequency features in the frequency domain, separate extraction and fusion modules for different components were designed. Subsequently, by conducting a weighted fusion of lip features in spatial domain and frequency features in frequency domain, more texture information was preserved. In addition, fine-grained constraints were designed during the training to separate the inter-class distance of real and fake lip features while closing the intra-class distance. Experimental results show that, benefiting from the frequency information, the proposed method can enhance the detection accuracy under compression situation with certain transferability. On the other hand, in the ablation study conducted on the core modules, the results verify the effectiveness of the frequency component for anti-compression and the constraint of the dual loss function in training.
DeepFake forgery, DeepFake detection and defense, lipforgery detection, anti-compression, deep learning
TP309.2
A
10.11959/j.issn.2096?109x.2022075
2022?04?06;
2022?07?09
周文柏,welbeckz@ustc.edu.cn
國(guó)家自然科學(xué)基金(U20B2047,62072421,62002334,62102386,62121002);中國(guó)科技大學(xué)探索基金項(xiàng)目(YD3480002001);中央高?;A(chǔ)研究基金(WK2100000011)
The NationalNatural Science Foundation of China (U20B2047, 62072421, 62002334, 62102386, 62121002), Exploration Fund Project of University of Science and Technology of China(YD3480002001), Fundamental Research Funds for the Central Universities(WK2100000011)
林佳瀅, 周文柏, 張衛(wèi)明, 等. 空域頻域相結(jié)合的唇型篡改檢測(cè)方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2022, 8(6): 146-155.
LIN J Y, ZHOU W B, ZHANG W M, et al. Lip forgery detection via spatial-frequency domain combination[J]. Chinese Journal of Network and Information Security, 2022, 8(6): 146-155.
林佳瀅(1997? ),女,江西贛州人,中國(guó)科學(xué)技術(shù)大學(xué)碩士生,主要研究方向?yàn)槿斯ぶ悄馨踩⑿畔㈦[藏。
周文柏(1992? ),男,安徽合肥人,中國(guó)科學(xué)技術(shù)大學(xué)特任副研究員,主要研究方向?yàn)樾畔㈦[藏、人工智能安全。
張衛(wèi)明(1976? ),男,河北定州人,中國(guó)科學(xué)技術(shù)大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)樾畔㈦[藏、多媒體內(nèi)容安全、人工智能安全。
俞能海(1964? ),男,安徽無(wú)為人,中國(guó)科學(xué)技術(shù)大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)槎嗝襟w信息檢索、圖像處理與視頻通信、數(shù)字媒體內(nèi)容安全。