国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自動編碼器的深度偽造圖像檢測方法

2021-11-05 01:29:56李昕潔董云云姚紹文
計算機應(yīng)用 2021年10期
關(guān)鍵詞:編碼器函數(shù)測試

張 亞,金 鑫,江 倩*,李昕潔,董云云,姚紹文

(1.云南大學(xué)軟件學(xué)院,昆明 650504;2.教育部跨境網(wǎng)絡(luò)空間安全工程研究中心(云南大學(xué)),昆明 650504;3.陽明交通大學(xué)科技管理研究所,臺灣新竹 300093)

0 引言

深度學(xué)習(xí)方法已經(jīng)被廣泛應(yīng)用于很多領(lǐng)域,尤其是圖像處理領(lǐng)域。基于深度生成模型的圖像偽造方法大幅改善了生成圖像質(zhì)量,這種圖像偽造方法被統(tǒng)一稱為“Deepfake”,即“深度造假”。Deepfake 偽造圖像主要采用兩種方法:一種是通過編碼器-解碼器來生成,另一種是通過生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[1]實現(xiàn)。Deepfake 可用于影視文化行業(yè)產(chǎn)生一定的商業(yè)價值,如在不進(jìn)行重新拍攝的情況下為影視作品創(chuàng)建或更新片段;但也有可能被非法使用,對社會造成負(fù)面影響,如2017 年一個匿名的用戶“DeepFakes”將《神奇女俠》中女主蓋爾·加朵的臉移植到一部成人電影的女主身上,并上傳到了Reddit交流社區(qū),引起廣泛關(guān)注[2]。

安全分析公司Sensity 的最新結(jié)果顯示:自2018 年12 月以來,Deepfake 在線造假的數(shù)量大約每6 個月增加一倍。在2019 年中公開發(fā)布的14 678 個Deepfake 作品中,假色情視頻占據(jù)了96%[3]。另外,Deepfake 被濫用于制作名人和政客虛假視頻,可能會引起國家之間的政治或宗教關(guān)系緊張。此外,別有用心之人可以利用虛假視頻欺騙公眾影響一些國家的選舉活動,或通過制造假新聞在金融市場上造成混亂[4]。Deepfake 甚至可用于偽造地球衛(wèi)星圖像,使其包含實際不存在的地物,達(dá)到欺騙或誤導(dǎo)軍事活動的目的,如在沒有橋梁的河上偽造橋梁[5]。

隨著圖像生成方法越來越成熟,偽造圖像變得越發(fā)簡單。偽造逼真的圖像通常只需要幾張照片或簡短視頻即可,偽造圖像可以達(dá)到“以假亂真”的效果。近兩年來,研究高效、簡便的偽造圖像檢測方法成為了一個熱門的研究方向。

為了能夠有效地識別Deepfake 偽造圖像,很多檢測方法相繼產(chǎn)生。在頻域上,Durall等[6]通過離散傅里葉變換提取圖像頻域特征,對Deepfake 人臉的偽造圖像進(jìn)行檢測。在空域上,Mo 等[7]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的偽造圖像檢測方法,以監(jiān)督學(xué)習(xí)的方式實現(xiàn)對深度偽造圖像的檢測,對高質(zhì)量的大型人臉數(shù)據(jù)集(CelebFaces Attributes-High Quality,CELEBA-HQ)的偽造圖像進(jìn)行檢測;Hsu等[8]提出了一種基于判別器的新的深度學(xué)習(xí)框架,對5 種傳統(tǒng)的GAN 所生成的偽造圖片進(jìn)行檢測;同時ResNet50[9]、Xception[10]以及InceptionV3[11]也被應(yīng)用于偽造圖像檢測,并且可以取得不錯的效果。綜合分析,以上的檢測方法都存在一定的局限性。首先,大部分檢測方法需要大量的訓(xùn)練樣本;其次,絕大多數(shù)的檢測方法只是針對偽造的人臉圖像進(jìn)行檢測,檢測場景單一;最后,檢測方法基本都存在著沒有泛化能力或者泛化能力弱的問題。模型泛化性能的提升是Deepfake 檢測任務(wù)中的一大難點,因此,本文通過對現(xiàn)有Deepfake 偽造檢測方法的研究進(jìn)展以及存在的不足進(jìn)行分析,提出了一種基于自動編碼器的偽造圖像檢測方法,并對多種方法偽造的圖像進(jìn)行檢測。本文的主要工作有:

1)利用高斯濾波技術(shù)對圖像進(jìn)行預(yù)處理操作,提取圖像的高頻信息作為模型輸入,并在自動編碼器中添加注意力機制以提取有效特征,通過消融實驗證明了預(yù)處理方法和添加注意力機制的有效性。

2)本文的損失函數(shù)是由重構(gòu)損失和交叉熵?fù)p失兩部分構(gòu)成,在訓(xùn)練時可以加快模型的收斂。相較于其他模型方法,本文模型結(jié)構(gòu)相對簡單,是一個輕量級的檢測模型。

3)所提方法可以檢測多種生成模型偽造的圖像,且數(shù)據(jù)集包含樣本量小、場景豐富,檢測的平均準(zhǔn)確率可以達(dá)到97.10%,優(yōu)于其他方法。此外,本文通過跨數(shù)據(jù)集實驗驗證了本文所用方法的泛化性能也優(yōu)于其他方法。

1 圖像偽造方法

本章對基于深度學(xué)習(xí)的圖像偽造方法進(jìn)行簡要介紹,包括基于自動編碼器和基于GAN的圖像偽造方法。

1.1 基于自動編碼器的圖像偽造

自動編碼器由一個編碼器和一個解碼器兩部分構(gòu)成,其中編碼器對輸入數(shù)據(jù)進(jìn)行壓縮以提取數(shù)據(jù)的潛在特征,解碼器根據(jù)編碼器提取的潛在特征進(jìn)行重構(gòu)使得數(shù)據(jù)盡可能接近編碼器的輸入數(shù)據(jù)。基于自動編碼器的Deepfake 方法,可以在不同的人物之間進(jìn)行換臉生成虛假圖像和視頻[5]。圖1(a)為Deepfake 的訓(xùn)練過程,為了達(dá)到源圖像和目標(biāo)圖像人臉交換的目的,需要兩個編碼器-解碼器對,并且兩個編碼器之間共享兩組輸入圖像的參數(shù),在解碼時分別使用不同的解碼器對圖像進(jìn)行重構(gòu)。圖1(b)圖像為偽造過程,其中將人臉A 的特征集與解碼器B相連,可從原始人臉A重構(gòu)人臉B。

圖1 基于自動編碼器的Deepfake換臉過程Fig.1 Deepfake face change process based on autoencoder

1.2 基于GAN的圖像偽造

GAN 的主要思想源自博弈論,其包含生成器(Generator,G)和判別器(Discriminator,D)兩部分[1]。目的是訓(xùn)練一個生成器,從隨機噪聲或者潛在變量(Latent Variable)中生成逼真的樣本,同時訓(xùn)練一個鑒別器來鑒別真實數(shù)據(jù)和生成數(shù)據(jù),兩者同時訓(xùn)練,直到生成器生成的數(shù)據(jù)與真實樣本十分接近,鑒別器也無法正確地區(qū)分生成數(shù)據(jù)和真實數(shù)據(jù)。GAN 的基本結(jié)構(gòu)如圖2所示。

圖2 GAN基本結(jié)構(gòu)Fig.2 Basic structure of GAN

GAN訓(xùn)練的目標(biāo)函數(shù)公式為:

其中:E()表示分布函數(shù)的期望值;Pdata表示真實的數(shù)據(jù)分布;z為生成器網(wǎng)絡(luò)G中的輸入隨機噪聲;Pz表示隨機噪聲z的分布;D代表判別器。

原始GAN 生成的數(shù)據(jù)是不可控制的,條件生成對抗網(wǎng)絡(luò)(Conditional GAN,CGAN)[12]采用為生成器引入限定條件的方式來控制其生成的數(shù)據(jù),克服了GAN 生成數(shù)據(jù)不可控的缺點。后來漸進(jìn)式增長生成對抗網(wǎng)絡(luò)(Progressively growing GAN,ProGAN)[13]通過不斷向低分辨率的生成器和判別器的網(wǎng)絡(luò)中添加層,以提高圖片的分辨率,生成高質(zhì)量的圖片。在ProGAN 的基礎(chǔ)上提出的基于樣式的生成器體系結(jié)構(gòu)的生成對抗網(wǎng)絡(luò)(Style-based generator architecture for GAN,StyleGAN)[14],通過添加樣式模塊來影響生成器的生成過程,在許多數(shù)據(jù)集上都取得了很好的效果,但StyleGAN 有一個最明顯的缺陷:生成的圖像有時包含斑點狀的偽影。針對這一問題,在StyleGAN 基礎(chǔ)上StyleGAN2[15]被提出,并成功地克服了這一缺點。星型生成對抗網(wǎng)絡(luò)StarGAN[16]在生成器中采用星型網(wǎng)絡(luò)結(jié)構(gòu)以學(xué)習(xí)不同區(qū)域?qū)χg的信息,可實現(xiàn)多對多圖像翻譯轉(zhuǎn)換。基于空間自適應(yīng)歸一化的語義圖像合成的生成對抗網(wǎng)絡(luò)GauGAN[17]可在給定輸入語義布局的情況下生成逼真圖像。大規(guī)模生成對抗網(wǎng)絡(luò)BigGAN[18]采用對先驗分布噪聲的適時截斷和處理控制模型穩(wěn)定性,并且可以通過增加2~4倍的參數(shù)量,使GAN獲得最大的性能提升。

2 本文方法

本文提出了一種高效的偽造圖像檢測方法,其整體框架如圖3 所示。該方法主要包括3 部分:第1 部分是借助高斯濾波對圖像進(jìn)行預(yù)處理,提取圖像的高頻信息作為模型輸入;第2 部分是采用一種結(jié)合注意力機制的自動編碼器提取圖像特征;第3部分是采用三層全連接(Fully-Connected layer,F(xiàn)C)網(wǎng)絡(luò)對圖像真?zhèn)芜M(jìn)行分類。該模型主要通過編碼器和三層全連接網(wǎng)絡(luò)對預(yù)處理后的圖像進(jìn)行特征提取,在訓(xùn)練時通過重構(gòu)損失和交叉熵?fù)p失優(yōu)化模型參數(shù);在測試時,對預(yù)處理后的圖像通過編碼器和全連接層輸出檢測結(jié)果。

圖3 本文方法整體框架Fig.3 Overall framework of the proposed method

2.1 圖像預(yù)處理

Deepfake 偽造的圖片肉眼難辨,但對圖像中的高頻信息部分卻不能取得很好的生成效果,因此本文對源圖像進(jìn)行預(yù)處理,提取圖像的高頻信息作為模型的輸入。

高斯濾波可對圖像鄰域內(nèi)像素進(jìn)行平滑,其根據(jù)鄰域內(nèi)不同位置的像素賦予不同權(quán)值,在進(jìn)行平滑的同時能夠保留更多圖像總體灰度分布特征。高斯濾波是一種線性平滑濾波,適用于消除高斯噪聲。本文先用高斯濾波獲取圖像低頻信息,再從原圖中除去低頻信息以提取圖像高頻信息,算法1是預(yù)處理步驟。

算法1 圖像預(yù)處理算法。

輸入 源圖像im。

過程:

2.2 自動編碼器

本文采用自動編碼器結(jié)構(gòu),包含編碼器和解碼器兩部分。本文在編碼器中添加注意力機制模塊以提取更多有效信息,該注意力機制是采用Hu 等[19]提出的Squeeze-and-Excitation網(wǎng)絡(luò)塊來實現(xiàn)。一般卷積層的輸出只是針對各個通道做卷積,沒有考慮通道之間的依賴性。而該網(wǎng)絡(luò)塊對特征通道之間的依賴關(guān)系進(jìn)行建模,自動獲取特征通道的重要程度,然后依照重要程度提升對當(dāng)前任務(wù)作用較大的特征并抑制作用較小的特征,使網(wǎng)絡(luò)在特征提取時可以充分利用有效特征。

圖4為Squeeze-and-Excitation 網(wǎng)絡(luò)塊整體的結(jié)構(gòu)。如圖4所示,給定信息在進(jìn)入網(wǎng)絡(luò)模塊前,首先進(jìn)行如下卷積操作:Ftr:X→U,X∈RW'×H'×C',U∈RW×H×C,F(xiàn)tr表示卷積操作符;然后對其進(jìn)行Squeeze操作和Excitation操作。

圖4 Squeeze-and-Excitation網(wǎng)絡(luò)塊Fig.4 Network block of Squeeze-and-Excitation

Squeeze 操作 將全局空間信息壓縮為一個值,即利用平均池化層將大小為W×H的C個特征圖轉(zhuǎn)化為1×1大小的C個特征圖,計算式為:

其中:zC代表對第C個特征圖Squeeze 操作得到的值;uC(i,j)表示在第C個特征圖中位置(i,j)處的值。

Excitation 操作 學(xué)習(xí)并根據(jù)通道依賴程度對不同的特征圖進(jìn)行調(diào)整,包含兩個全連接層,計算式為:

其中:σ(·)是進(jìn)行線性激活函數(shù)操作;g(·)是sigmoid 激活函數(shù)。

最后,生成權(quán)重后即可加到不同的通道上,計算式為:

圖5為本文提出的自動編碼器結(jié)構(gòu),編碼器包含6個卷積模塊,其中,除了第1個模塊之外,其余5個模塊中在卷積層之前都添加了Squeeze-and-Excitation 網(wǎng)絡(luò)塊,即圖5 中的SEBlock;同樣,也是除第1 個模塊之外,其余5 個模塊中在卷積之后都添加了批量歸一化(Batch Normalization,BN)層,所采用的激活函數(shù)都是線性整流函數(shù)(Rectified Linear Unit,ReLU)。該模型的解碼器由5 個模塊組成,每個模塊都采用反卷積層,并且激活函數(shù)除了最后1 個模塊采用的是雙曲正切函數(shù)(Hyperbolic Tangent,tanh)激活函數(shù),其余4 個模塊均采用ReLU 激活函數(shù)。在對圖像分類時,本文采用3層全連接層,每層神經(jīng)元的數(shù)量分別是512、256 和2,除了最后1 層采用歸一化指數(shù)函數(shù)(Normalized exponential function),softmax激活函數(shù)外,其余2層均采用ReLU激活函數(shù)。

圖5 自動編碼器結(jié)構(gòu)Fig.5 Autoencoder structure

表1為圖像進(jìn)行特征提取的模型結(jié)構(gòu)細(xì)節(jié)。

表1 數(shù)據(jù)特征提取網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 Data feature extraction network structure

2.3 損失函數(shù)

本文所提損失函數(shù)由兩部分組成,分別是重構(gòu)損失和交叉熵?fù)p失,整體偽造檢測模型的損失函數(shù)為:

其中:α=β=0.5;α、β分別是交叉熵?fù)p失Lce和重構(gòu)損失Lre的權(quán)值。

2.3.1 交叉熵?fù)p失

偽造圖像檢測是一個二分類問題,交叉熵(Cross Entropy)可用于度量兩個概率分布間的差異性信息。因此,本文采用交叉熵?fù)p失函數(shù)為:

其中:l是真實圖像的標(biāo)簽,p是真實圖像的預(yù)測概率值。

2.3.2 重構(gòu)損失

重構(gòu)損失可使解碼器的輸出與輸入模型樣本更接近,本文采用L1損失函數(shù)度量自動編碼器輸入和輸出數(shù)據(jù)的差異,該損失函數(shù)為公式為:

其中:y是模型輸入的值,是重構(gòu)得到的值。

3 實驗與結(jié)果分析

本文實驗平臺為Windows 10 操作系統(tǒng),模型訓(xùn)練測試時采用2080 Ti 顯卡,搭配Inter Core i7-8700k 3.70 GHz 處理器,32 GB內(nèi)存,所有代碼在Tensorflow框架下實現(xiàn)。

3.1 數(shù)據(jù)集

為了評估本文所提方法的有效性,本文選取文獻(xiàn)[20]測試集中采用的ProGAN、StyleGAN、BigGAN、StarGAN、GauGAN、StyleGAN2、Deepfake、級聯(lián)優(yōu)化網(wǎng)絡(luò)(Cascaded Refinement Network,CRN)和隱式最大似然估計框架(Implicit Maximum Likelihood Estimation framework,IMLE)這9 種方法的偽造圖像作為數(shù)據(jù)集,在每一種數(shù)據(jù)集中,真實圖像和偽造圖像各占50%。圖6 為本文所用測試集中部分偽造圖像,數(shù)據(jù)集涵蓋人臉、水果、動物等生活常見物品以及自然場景。

圖6 測試集中部分偽造圖像Fig.6 Some fake images in test sets

表2 為數(shù)據(jù)集樣本量介紹,其中訓(xùn)練集占80%,測試集占20%。相較絕大多數(shù)偽造圖像檢測方法所檢測的數(shù)據(jù)集,本文方法所檢測的數(shù)據(jù)集不僅場景十分豐富而且樣本量較小。

表2 數(shù)據(jù)集介紹Tab.2 Dataset introduction

3.2 基于自編碼器的偽造圖像檢測方法

為驗證所提方法的合理性和有效性,本文做了消融實驗,表3為本文方法消融實驗設(shè)置。

表3 消融實驗設(shè)置Tab.3 Ablation experiment setting

3.3 結(jié)果分析

本文實驗選取InceptionV3、ResNet50、Xception 進(jìn)行對比。

實驗主要包含兩部分:第一部分是針對同源數(shù)據(jù)(即訓(xùn)練集和測試集是由相同方法偽造的)的消融實驗和對比實驗;第二部分是針對異源數(shù)據(jù)(即訓(xùn)練集和測試集是由不相同方法偽造的)泛化性能的測試與對比。

3.3.1 同源數(shù)據(jù)集實驗

表4 為訓(xùn)練集和測試集同源時不同檢測方法的檢測結(jié)果。從實驗結(jié)果可以觀察到:1)對于基礎(chǔ)模型1,其平均準(zhǔn)確率為86.50%,特別是檢測ProGAN 偽造圖像的準(zhǔn)確率可達(dá)99.21%。InceptionV3、ResNet50、Xception 的平均準(zhǔn)確率分別為71.22%、68.75%、72.64%,相比之下,本文所提基礎(chǔ)模型1優(yōu)于對比模型。2)對InceptionV3、ResNet50、Xception 以及本文所提基礎(chǔ)模型1 的輸入數(shù)據(jù)添加高斯濾波之后,平均準(zhǔn)確率均大幅提升,表明了本文所提預(yù)處理方式的有效性。3)對比本文基礎(chǔ)模型2,本文所提最終模型的檢測平均準(zhǔn)確率可以達(dá)到97.10%,證明了添加Squeeze-and-Excitation 網(wǎng)絡(luò)塊的有效性。

表4 同源數(shù)據(jù)準(zhǔn)確率檢測結(jié)果 單位:%Tab.4 Accuracy test results on same source data unit:%

綜上所述,相較InceptionV3、ResNet50 和Xception,在偽造圖像場景豐富且樣本量較小時,本文所提Deepfake 偽造圖像檢測方法的效果更優(yōu)。

3.3.2 異源數(shù)據(jù)集實驗

大多數(shù)現(xiàn)有偽造圖像檢測方法只能有效檢測訓(xùn)練集和測試集同源的圖像,存在缺乏泛化能力或泛化性能弱的問題。而本文方法在一定程度上克服了這一缺陷,并進(jìn)行了模型泛化性測試,與InceptionV3、ResNet50 以及Xception 進(jìn)行對比,泛化性測試結(jié)果展示在表5中。

表5 異源數(shù)據(jù)準(zhǔn)確率檢測結(jié)果Tab.5 Accuracy test results on different source data

觀察表5中數(shù)據(jù)可以看出,當(dāng)分別以ProGAN、Style-GAN2的訓(xùn)練集作為源域訓(xùn)練時,測試所有數(shù)據(jù)集的平均準(zhǔn)確率分別是82.23%和72.89%,優(yōu)于對比方法;將本文所有的數(shù)據(jù)集一起訓(xùn)練時,測試所有數(shù)據(jù)集的平均準(zhǔn)確率可以達(dá)到89.93%,優(yōu)于對比方法。所以,相較于InceptionV3、ResNet50以及Xception,本文所提最終模型的檢測效果更優(yōu)、泛化能力更強。

4 結(jié)語

Deepfake 對社會帶來的負(fù)面影響越來越多,而目前存在的偽造圖像檢測方法大部分都是針對偽造人臉的,本文提出了一種基于自動編碼器的深度偽造圖像檢測方法,可以有效檢測多種偽造方法偽造的圖像,所用數(shù)據(jù)集樣本量較小且包含場景豐富。本文方法主要采用高斯濾波提取圖像的高頻信息并且在編碼器網(wǎng)絡(luò)中添加注意力機制模塊以更好地提取圖像特征。對模型的泛化能力進(jìn)行測試,實驗結(jié)果表明,在訓(xùn)練集和測試集為同源或異源時,本文方法的檢測效果均優(yōu)于對比方法,有較好的泛化能力。下一步將在現(xiàn)有工作基礎(chǔ)上繼續(xù)探索一種通用Deepfake 偽造圖像檢測方法,進(jìn)一步提高模型的泛化性能。

猜你喜歡
編碼器函數(shù)測試
二次函數(shù)
第3講 “函數(shù)”復(fù)習(xí)精講
二次函數(shù)
幽默大測試
幽默大師(2020年11期)2020-11-26 06:12:12
函數(shù)備考精講
“攝問”測試
“攝問”測試
“攝問”測試
基于FPGA的同步機軸角編碼器
基于PRBS檢測的8B/IOB編碼器設(shè)計
岗巴县| 武山县| 连云港市| 驻马店市| 钟祥市| 阳泉市| 晴隆县| 平潭县| 青海省| 嫩江县| 苍梧县| 满城县| 金溪县| 绥阳县| 富锦市| 桂阳县| 祁连县| 玛沁县| 且末县| 大洼县| 锡林郭勒盟| 武城县| 江北区| 乐业县| 孟津县| 阜宁县| 四平市| 阿合奇县| 正宁县| 鄂州市| 南通市| 日土县| 盘锦市| 六盘水市| 颍上县| 九寨沟县| 巴林右旗| 兴宁市| 贵定县| 陕西省| 张掖市|