国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于空洞卷積和ECANet 的雙判別生成對抗網(wǎng)絡圖像修復模型

2024-01-31 13:23胡文松劉興德
電子制作 2024年2期
關鍵詞:掩碼空洞全局

胡文松,劉興德

(1.吉林化工學院 信息與控制工程學院,吉林吉林,132022;2.吉林化工學院 機電工程學院,吉林吉林,132022)

0 引言

圖像修復是合理填補圖像中缺失或者損壞的部分,使我們主觀視覺上看起來結(jié)構(gòu)一致,內(nèi)容真實的一種任務,隨著圖像修復技術的不斷發(fā)展,在文物資料修補[1]、公安面部修復[2]、醫(yī)學影像重建[3]等領域有著廣泛的應用。

現(xiàn)階段修復任務主要分為兩類,一種是傳統(tǒng)的擴散或補丁的方法,另一種是基于深度學習的方法來解決修復問題。通過擴散或補丁的方法[4~7]通常使用變分算法或補丁的方法,使信息由背景區(qū)域傳遞至缺失區(qū)域。這種方式雖然對靜態(tài)數(shù)據(jù)效果較好,但對于非靜態(tài)數(shù)據(jù)(例如自然圖像)來說受到限制。為了克服這一挑戰(zhàn),研究者們提出一種基于高效最近鄰域PatchMatch[8]算法,該算法在圖像編輯領域,包括圖像修復等應用,展現(xiàn)出顯著的實用價值。

伴隨著深度學習的快速發(fā)展和生成對抗網(wǎng)絡(Generator Adversarial Network,GAN)技術的出現(xiàn),圖像修復技術也迎來巨大的技術革命。Pathak 等[9]提出上下文編碼器(Context Encoder,CE),該算法使用編碼器-解碼器架構(gòu),結(jié)合L2 重構(gòu)損失和對抗損失進行預測,但輸出圖像表現(xiàn)模糊且含有視覺偽影。Iizuka 等[10]提出一種全局和局部雙判別器結(jié)構(gòu)(Globally and locally,GL),該算法,但對于細節(jié)和紋理處理比較模糊。Yu 等[11]提出一種雙步驟方法,以應對圖像修復問題。首先,對缺失區(qū)域進行粗略修復,隨后將修復后的圖像輸入細化網(wǎng)絡中,再引入上下文對于修復圖像的局部和全局的結(jié)構(gòu)一致性有所提高注意力機制,以實現(xiàn)對圖像紋理和結(jié)構(gòu)的精細修復。

圖1 生成對抗網(wǎng)絡結(jié)構(gòu)圖

1 相關研究

■1.1 生成對抗網(wǎng)絡

Lan Goodfellow[12]在2014 年提出生成對抗網(wǎng)絡(GAN),它由生成器(Generator,G)和判別器(Discriminator,D)所構(gòu)成。生成器吸收了隨機噪聲z 并提供信息,判別器是一個二分類器,它的主要任務就是辨別信息是來源于真實數(shù)據(jù)x,或者由生成器G(z)所生成的偽造信息。通過使用交叉熵損失,判別器D被訓練來正確識別輸入數(shù)據(jù)的真實性。其中,生成器盡可能生成逼真的數(shù)據(jù),而判別器最大限度辨別輸入數(shù)據(jù)的真假,這兩者通過不斷競爭和訓練,最終達到博弈的納什平衡。

■1.2 ECA 通道注意力

為解決圖像修復中紋理、結(jié)構(gòu)問題,本文引入通道注意力。借鑒文獻[13]提出的一種高效的通道注意力機制(Efficient Channel Attention,ECA),ECA 是基于SE 注意力[14]改進,其網(wǎng)絡結(jié)構(gòu)主要分為三個方面:首先,對于一個輸入的特征圖,Squeeze 操作通過全局平均池化把特征圖從大小為(N,C,H,W)轉(zhuǎn)化為(N,C,1,1),這樣就達到全局上下文信息的融合;接著,ECA 能夠計算自適應卷積核的大小,,其中C為輸入的通道數(shù),b=1,γ=2,并采用一維卷積計算通道的權重,最后采用Sigmoid 激活函數(shù)將權重映射在(0-1) 之間;最后將reshape 過后的權重值與原有的特征圖做乘法運算,得到不同權重下的特征圖。

圖2 ECANet 結(jié)構(gòu)圖

2 改進的網(wǎng)絡模型

本文選用文獻[10]提出的GL 模型構(gòu)建基礎的圖像修復模型,并對模型進行再現(xiàn)和改進,提出一種基于膨脹卷積和ECA 機制的雙判別生成對抗網(wǎng)絡圖像修復模型,本文模型是采用多段式的生成網(wǎng)絡修復模型,首先生成器由兩個部分構(gòu)成,一個是粗糙生成網(wǎng)絡,另一個是精細生成網(wǎng)絡,它們都是由一般卷積和空洞卷積組成。第一步將破損圖像加上掩碼作為輸入,經(jīng)歷兩次下采樣以此來獲得圖像的潛在特征,再經(jīng)過一般卷積和空洞卷積擴大感受視野獲得更多特征信息,緊接著兩次上采樣恢復到原始尺寸。將得到結(jié)果作為輸入放置到精細網(wǎng)絡中并引入注意力進一步修復圖像,最后利用全局判別器和局部判別器對真實圖像分類,引導生成器的修復,具體框架如圖3 所示。

圖3 本文圖像修復模型架構(gòu)

■2.1 基于級聯(lián)的生成網(wǎng)絡

本文的生成網(wǎng)絡與傳統(tǒng)生成網(wǎng)絡類似,采用自動編碼器的結(jié)構(gòu)。借鑒文獻[10],生成網(wǎng)絡有粗糙網(wǎng)絡和精細網(wǎng)絡兩部分。粗糙網(wǎng)絡共有15 層卷積包含一般卷積和空洞卷積,空洞卷積能夠在不增加計算量的情況下,增加模型的感受視野,從而更好地捕獲遠距離的上下文信息,在網(wǎng)絡模型上采樣中引入ECA 注意力來增強圖像特征,精細網(wǎng)絡與粗糙網(wǎng)絡的結(jié)構(gòu)一致,在每一次卷積后添加ECA 注意力對特征圖細節(jié)增強,從而引導生成器的修復能力。

■2.2 基于全局和局部的雙判別器網(wǎng)絡

為了解決原始生成對抗網(wǎng)絡(GAN)中二分類網(wǎng)絡這種單一判網(wǎng)絡框架下,生成器所生成的圖像不足問題。本文借鑒文獻[10]中判別器網(wǎng)絡模型,引入一個全局判別器G_D 和一個局部判別器L_D。全局判別器由6 個卷積層和一個輸出單個1024 維向量的全連接組成,所有卷積都采用2×2 的步幅來降低分辨率,并且所有卷積都使用5×5 內(nèi)核,局部判別器與全局判別器的網(wǎng)絡結(jié)構(gòu)一致。最后,將全局判別器和局部判別器的輸出連成一個2048 維的向量,由單個全連接通道進行處理輸出一個連續(xù)的值,再采用Sigmoid 傳遞函數(shù),使得該值在0~1 之間內(nèi)表示,從而判斷圖像的真實性。

■2.3 目標損失函數(shù)

為了訓練更穩(wěn)定和生成圖像更加逼真,本文聯(lián)合使用兩個損失函數(shù):WGAN-GP 損失作為訓練穩(wěn)定性,以及L1 重建損失來提高圖像的真實性。其中重建損失函數(shù)定義如下:

其中,xtarget(i,j)是目標圖像在位置(i,j)處的像素點,xgenerator(i,j)是生成的圖像在相同位置的像素值。

傳統(tǒng)的GAN 損失函數(shù)中,生成器和判別器之間的優(yōu)化目標是最大化一個交叉熵損失,但這種損失函數(shù)可能會導致訓練不穩(wěn)定,容易出現(xiàn)梯度爆炸或者模式塌陷等問題。對于這種問題,我們可以采用文獻[15]提出的WGAN-GP 損失,WGAN-GP 使用Wasserstein 距離來衡量生成器輸出和真實數(shù)據(jù)之間的不同,其定義如下:

式中,超參數(shù)λ是控制懲罰項所占的比重,在實驗中設置為10。在訓練中,聯(lián)合L1 重構(gòu)損失和WGAN-GP 對抗損失作為總損失,其表達式如下:

式中,λL1、λadv分別對應損失權重,參照文獻[10][11]中超參數(shù)配置多次實驗室,本文的λL1和λadv分別設為1,再經(jīng)過Adma 優(yōu)化器不斷更新迭代參數(shù),優(yōu)化模型。

3 實驗與結(jié)果

■3.1 實驗方法

實驗環(huán)境配置:AMD 處理器R7-5700X,Nvidia GeForce RTX 2080ti 顯卡,11G 顯存。環(huán)境為Windows10,編程語言為python3.8,基于Pytorch 框架。

本次實驗選用Celeba 數(shù)據(jù)集,隨機從數(shù)據(jù)集中抽取200 000 圖片作為訓練集,1000 圖片作為測試集,抽取的圖片大小為256×256,Batchsize 設為16,模型在數(shù)據(jù)集上進行50 輪Epoch,生成器和判別器的Learning_rate 設置為0.000 01,使用Adam 優(yōu)化器,其中一階、二階動量分別設置為0.5 和0.999。

■3.2 實驗結(jié)果

為了驗證本文所提修復模型相較于其他修復模型的優(yōu)越性,將文獻提出得到GL[11]、CA[12]兩個提出的圖像修復方法。采用相同的數(shù)據(jù)集CelebA_256,相同的遮擋區(qū)域進行比較。

GL 中生成網(wǎng)絡采用空洞卷積來擴大感受視野,并使用全局和局部特征融合的雙判別器網(wǎng)絡結(jié)構(gòu),對于修復圖像的局部和全局的結(jié)構(gòu)一致性有所提高。

CA 首次提出從粗到細兩段式網(wǎng)絡結(jié)構(gòu),并在生成網(wǎng)絡中引入一個Contextual Attention 機制,能夠?qū)⑷趾途植啃畔⒂行У亟Y(jié)合從而產(chǎn)生更準確的修復結(jié)果。

因為選擇的數(shù)據(jù)集是人臉數(shù)據(jù)集,所以掩碼選擇的是固定在圖像中心,遮擋人臉最重要的特征五官部分,大小約為85。從圖4 可以看出,GL 模型的修復結(jié)果在遮擋部分出現(xiàn)局部錯亂,語義信息不協(xié)調(diào),沒有學習到掩碼的消息,對掩碼區(qū)域無法進行判定,其中人臉結(jié)構(gòu)又較為復雜,因此在掩碼和背景交界處有明顯的偽影。CA 模型的修復結(jié)果整體效果較好,但在整體語義連貫這個問題上,依然存在較為明顯的掩碼信息,網(wǎng)絡不斷地加深,空洞卷積所學習到地特征比較少,并且人臉是人最復雜且重要地生物特征,所以在細節(jié)部分,尤其是鼻子和嘴巴修復的不是很好。而本文模型不僅保證圖像結(jié)構(gòu)一致性,在掩碼與背景交接處無掩碼信息殘留,在圖像細節(jié)部分也有明顯改善,例如頭發(fā)、鼻子相比GL、CA 模型圖像生成更加精細。

圖4 不同模型之間圖像修復結(jié)果

■3.3 實驗分析

為了更全面、客觀的評價不同模型的性能,采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)做客觀指標,繼續(xù)選用Celeba_256 數(shù)據(jù)集,添加不同的掩碼,選取100 張待修復圖像作為測試,分別投入訓練好的模型:GL、CA和本文模型。

從表1 可以看出,本文模型相對于GL、CA,在PSNR 指標上提升了6.6%~7.9%,在SSIM 指標上提升了2.9%~7.5%,說明本文模型在人臉圖像數(shù)據(jù)集CelebA_256對于方形掩碼效果更好。

表1 不同模型的客觀修復指標結(jié)果

4 結(jié)論

本文提出了一個全新的圖像修復網(wǎng)絡模型,它采用空洞卷積和ECANet,并結(jié)合雙判別器形成對抗網(wǎng)絡。生成網(wǎng)絡則采取了兩階段的生成模式,從粗向精逐漸還原圖像,并在精細層面引入了注意力機制。判別網(wǎng)絡使用局部判定和全局判定的雙重判別結(jié)構(gòu)。通過對抗損失和重建損失相結(jié)合的損失函數(shù),以便進行更精準的紋理和結(jié)構(gòu)修復。并通過多個實驗對比,模型在主觀視覺效果上表現(xiàn)優(yōu)異,各項客觀指標也有所提升。綜合來看,本文提出的修復模型在人臉圖像方面表現(xiàn)出良好的修復效果。

猜你喜歡
掩碼空洞全局
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
低面積復雜度AES低熵掩碼方案的研究
落子山東,意在全局
基于布爾異或掩碼轉(zhuǎn)算術加法掩碼的安全設計*
空洞的眼神
用事實說話勝過空洞的說教——以教育類報道為例
基于掩碼的區(qū)域增長相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究
新思路:牽一發(fā)動全局