黃夢濤,高 娜,劉 寶
基于雙判別器加權(quán)生成對抗網(wǎng)絡(luò)的圖像去模糊方法
黃夢濤,高 娜,劉 寶
(西安科技大學(xué) 電氣與控制工程學(xué)院,陜西 西安 710054)
原始生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN)在訓(xùn)練過程中容易產(chǎn)生梯度消失及模式崩潰的問題,去模糊效果不佳。由此本文提出雙判別器加權(quán)生成對抗網(wǎng)絡(luò)(dual discriminator weighted generative adversarial network, D2WGAN)的圖像去模糊方法,在GAN的基礎(chǔ)上增加了一個判別器網(wǎng)絡(luò),將正向和反向KL(Kullback-Leibler)散度組合成一個目標(biāo)函數(shù),引入加權(quán)的思想調(diào)整正向和反向KL散度的比例,利用兩個散度的互補(bǔ)特性,在學(xué)習(xí)清晰圖片過程中避免不良模式的形成。實驗結(jié)果表明,與現(xiàn)有方法相比,本文方法能更真實地恢復(fù)圖像細(xì)節(jié)部分,且在評價指標(biāo)峰值信噪比和圖像結(jié)構(gòu)相似度上有更好的表現(xiàn)。
生成對抗網(wǎng)絡(luò);加權(quán);雙判別器;圖像去模糊;
圖像去模糊技術(shù)是指將得到的模糊圖像通過一定技術(shù)恢復(fù)出它所對應(yīng)的清晰圖像。目前圖像去模糊在智能監(jiān)控[1-2]、無人機(jī)[3]、遙感影像[4-5]以及醫(yī)療圖像[6]等領(lǐng)域具有很重要的作用。由于拍攝設(shè)備晃動或者目標(biāo)物體的運動,難免會獲得模糊的圖片,不利于后續(xù)的處理。因此,對圖像去模糊技術(shù)的研究具有一定的現(xiàn)實意義。
傳統(tǒng)的圖像去模糊方法一般假設(shè)模糊核已知,利用模糊核與模糊圖像進(jìn)行反卷積得到清晰圖像。此類方法為非機(jī)器學(xué)習(xí)的方法,其中起源較早、應(yīng)用最為廣泛的經(jīng)典圖像去模糊方法之一為LR(Lucy-Richardson)算法[7-8],它假設(shè)模糊圖像服從泊松分布,通過最大似然估計迭代求解得到復(fù)原圖像。在簡單圖像中,LR算法可以有效還原出清晰圖像,但圖像較復(fù)雜時,復(fù)原的圖像容易產(chǎn)生振鈴效應(yīng),隨著迭代次數(shù)的增加,振鈴效應(yīng)趨于嚴(yán)重。
隨著機(jī)器學(xué)習(xí)與圖像處理技術(shù)的快速發(fā)展,尤其是2014年生成對抗網(wǎng)絡(luò)[9](Generative Adversarial Networks,GAN)的出現(xiàn),使得圖像去模糊應(yīng)用不再需要假設(shè)模糊核信息,因此,機(jī)器學(xué)習(xí)方法為圖像去模糊的發(fā)展開闊了思路。GAN主要應(yīng)用在圖像超分辨率重建、遷移學(xué)習(xí)、圖像修復(fù)等領(lǐng)域[10-13]。GAN中生成器所定義的損失函數(shù)等價于真實分布data與生成器生成分布G之間的JS(Jensen-Shannon)散度,優(yōu)化過程中會產(chǎn)生梯度消失和模式崩潰的問題,導(dǎo)致訓(xùn)練不穩(wěn)定,影響去模糊效果。Kupyn等人將條件生成對抗網(wǎng)絡(luò)[14]應(yīng)用到圖像去模糊中,對Isola等人提出的Pix2Pix網(wǎng)絡(luò)框架做出適當(dāng)修改,提出Deblur GAN網(wǎng)絡(luò)[15],是目前圖像去模糊領(lǐng)域效果好的方法之一。相比傳統(tǒng)GAN,用此方法去模糊后有更好的視覺體驗,但在實驗中發(fā)現(xiàn),使用Deblur GAN復(fù)原圖像時,會丟失部分細(xì)節(jié)信息。
針對上述問題,本文提出一種基于雙判別器加權(quán)生成對抗網(wǎng)絡(luò)(D2WGAN)的圖像去模糊方法,在原始生成對抗網(wǎng)絡(luò)的基礎(chǔ)上,額外加入一個判別器,將KL(Kullback-Leibler)散度與反向KL散度進(jìn)行結(jié)合,并引入加權(quán)的思想重構(gòu)目標(biāo)函數(shù),期望通過調(diào)節(jié)權(quán)值系數(shù)來平衡正向和反向KL散度的占比,更好地復(fù)原出清晰圖像。
為提升圖像去模糊的性能,本文提出基于雙判別器加權(quán)生成對抗網(wǎng)絡(luò)(D2WGAN)的圖像去模糊方法,將真實分布data與生成分布G之間的KL散度和生成分布G與真實分布data之間的KL散度,即反向KL散度組合成一個目標(biāo)函數(shù)。利用KL散度生成的數(shù)據(jù)會涵蓋真實數(shù)據(jù)的多種模式,然而,也會產(chǎn)生一些真實數(shù)據(jù)中不存在的樣本;而利用反向KL散度,生成的數(shù)據(jù)更傾向于真實數(shù)據(jù)的單一模式,會忽略其他模式,產(chǎn)生模式崩潰的問題[16]。因此,兩者相互補(bǔ)充,具有互補(bǔ)特性。理論證明,反向KL散度與JS散度具有相同的性質(zhì)[17],因此本文在引入新的判別器后,在正向KL散度權(quán)值為0,反向KL散度權(quán)值為1時,理應(yīng)和GAN具有相似的結(jié)果。如若將KL散度與反向KL散度結(jié)合,其互補(bǔ)特性會緩解GAN中的模式崩潰問題,因此,圖像去模糊的性能也必然會提升。
D2WGAN的模型結(jié)構(gòu)如圖1所示,其輸入不再是原始GAN的噪聲數(shù)據(jù),而是模糊圖片。生成器會依據(jù)輸入生成自己學(xué)習(xí)到的較為清晰的圖像(),隨后將生成器生成的圖像()以及模糊圖像所對應(yīng)的清晰圖像輸入判別器1、2中。判別器1對清晰圖像得高分,對生成器生成的圖像()得低分;判別器2對生成器生成的圖像()得高分,對清晰圖像得低分。生成器的目的是使生成的()圖像同時欺騙判別器1、2,三者進(jìn)行互相博弈,直到達(dá)到三者的平衡。、1和2都為多層感知器,整個模型通過反向傳播進(jìn)行訓(xùn)練。
圖1 D2WGAN網(wǎng)絡(luò)模型結(jié)構(gòu)
本質(zhì)上,D2WGAN將與()之間的KL散度和反向KL散度進(jìn)行加權(quán)融合,通過調(diào)節(jié)權(quán)值系數(shù),從而達(dá)到更好的去模糊的效果。本文受雙判別器生成對抗網(wǎng)絡(luò)[16]的啟發(fā),構(gòu)建D2WGAN損失函數(shù)如下:
D2WGAN引入了兩個超參數(shù)和,其中+=1,0≤,≤1,引入加權(quán)思想,結(jié)合正向KL散度和反向KL散度的優(yōu)勢,使生成的模式多樣化。
接下來驗證D2WGAN算法在最優(yōu)判別器下,通過最小化模型與真實數(shù)據(jù)之間的KL散度和反向KL散度,生成器可以恢復(fù)出真實數(shù)據(jù)。
首先在固定生成器時,最優(yōu)的判別器1D()和2D()為:
其次在最優(yōu)判別器基礎(chǔ)上,最優(yōu)生成器為:
因+=1,
理論證明在生成器能學(xué)習(xí)到最優(yōu)判別器時,當(dāng)且僅當(dāng)P=data時,KL散度和反向KL散度為0,(,1D,2D)=-1,得到全局最小值,即生成模型學(xué)習(xí)到了真實數(shù)據(jù)分布。此時判別器無法區(qū)分生成分布與真實分布,對兩分布都返回相同的得分為1。
本文研究的生成器模型如圖2所示,主要任務(wù)是在輸入模糊圖像時,學(xué)習(xí)清晰圖像的分布,生成的近似分布()。生成器模型具體搭建步驟如下:
1)對輸入的3×256×256的模糊圖片進(jìn)行一次卷積核大小為7×7,卷積核數(shù)量為64,步長為1的卷積;一次實例正則化層和修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù)。
2)兩個卷積核數(shù)量分別為128、256對應(yīng)的卷積核大小為3×3,步長為2的二維卷積,實例正則化和ReLU激活函數(shù)。
3)9個由一個卷積核大小為3×3,卷積核數(shù)量為256,步長為1的卷積層,一個標(biāo)準(zhǔn)化層和一個ReLU激活層,一個Dropout層隨機(jī)失活比例為0.5組成的ResBlock塊。
4)兩個卷積核數(shù)量分別為128、64對應(yīng)的卷積核大小為3×3,步長為1的反卷積,實例正則化和ReLU激活函數(shù)。目的是將卷積后的小尺寸高維度特征圖恢復(fù)到原始的尺寸。
5)為提高運算速度,本文生成網(wǎng)絡(luò)為全卷積網(wǎng)絡(luò),不使用全連接層和pooling層,最后一層經(jīng)過一次卷積核大小為7×7,卷積核數(shù)量分別為3,步長為1的反卷積,使用Tanh作為激活函數(shù)。
因使用Batch Normalization[18]進(jìn)行標(biāo)準(zhǔn)化訓(xùn)練可能會導(dǎo)致生成的圖像有偽陰影,而且在圖像去模糊中,去模糊效果依賴于模糊圖像對應(yīng)的清晰圖像,本文使用Instance Normalization[19]進(jìn)行歸一化操作可以加速模型收斂,并且保持每個圖像實例之間的獨立。
普通的判別器最后一層為全連接層,輸出為輸入樣本來自真實數(shù)據(jù)的概率,即結(jié)果為一個實數(shù)。本文將普通的判別器換成了全卷積網(wǎng)絡(luò),采用PatchGAN[20]判別器,將輸入映射為×的patch矩陣塊,將得到的patch塊求均值,為判別器最后的輸出,這樣在訓(xùn)練的時候能更好的恢復(fù)細(xì)節(jié)。其中每一個patch塊代表了一個感受野,可以追溯到原圖的某一個位置。文中兩個判別器使用同一個網(wǎng)絡(luò)模型,因損失函數(shù)不同,其優(yōu)化方向也不同。判別器模型結(jié)構(gòu)如圖3所示,網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,輸入為256×256的三通道圖像,經(jīng)過5層卷積網(wǎng)絡(luò),卷積核大小均為4×4,輸出為一個30×30的矩陣,代表著圖像中一個比較大的感受野,相比于輸出單個值的鑒別器效果更好。非線性激活函數(shù)使用帶泄露修正線性單元(Leaky ReLU)[21],斜率設(shè)為0.2。
本文使用對抗性損失和內(nèi)容損失結(jié)合的損失函數(shù),其中對抗損失著重于恢復(fù)圖像的紋理細(xì)節(jié),感知損失著重于恢復(fù)圖像的內(nèi)容。損失函數(shù)表達(dá)式如下:
=GAN+*X(6)
式中:GAN為對抗性損失;X為內(nèi)容損失;為比重參數(shù),文中設(shè)置為100。
對抗損失函數(shù)使用兩個判別器,這兩個判別器的模型結(jié)構(gòu)基本相同,因其訓(xùn)練時損失函數(shù)不同,所以這兩個判別器會朝著不同的方向優(yōu)化。第一個判別器損失函數(shù)為:
式中:0≤r≤1,該判別器主要側(cè)重于真實數(shù)據(jù)。第二個判別器損失函數(shù)為:
圖3 判別器模型結(jié)構(gòu)
表1 判別器網(wǎng)絡(luò)結(jié)構(gòu)
式中:0≤≤1,該判別器主要側(cè)重于生成器生成的數(shù)據(jù)。兩個判別器之間通過加權(quán)連接,兩個參數(shù)之間關(guān)系為:+=1。
內(nèi)容損失函數(shù):采用Johnson等人提出的感知損失[22],該損失函數(shù)嚴(yán)格來說也是一種L2損失,多用在圖像風(fēng)格轉(zhuǎn)換中。將清晰圖像和修復(fù)的模糊圖像分別輸入訓(xùn)練好的VGG-19網(wǎng)絡(luò)[23],計算每一層特征圖之間的誤差,最終的累計誤差就是感知損失,計算公式如下所示:
式中:,j是VGG19網(wǎng)絡(luò)在第個最大池化層之前通過第個卷積之后產(chǎn)生的特征圖;w,j和H,j是特征圖的維度;I是輸入的模糊圖像;I是經(jīng)過生成器模型產(chǎn)生的清晰圖像。
本文所使用的數(shù)據(jù)集為Nah等人提出的GOPRO數(shù)據(jù)集[24],由GOPRO相機(jī)拍攝的33段不同場景的清晰視頻而來,其中的22段場景視頻作為訓(xùn)練集,11段場景視頻作為測試集。對每段視頻相鄰的7~13幀圖像取平均值得到模糊圖像,一共生成了3214對模糊-清晰圖像,分辨率為1280×720。其中,訓(xùn)練數(shù)據(jù)有2103對,測試數(shù)據(jù)有1111對。
為了將每張模糊圖像與清晰圖像各個像素一一對應(yīng),在輸入數(shù)據(jù)集前,首先將模糊圖片與清晰圖片合并為一張圖片,如圖4所示。其次將輸入的合并后的圖片裁剪為1280×360,最后在裁剪后的圖片上隨機(jī)選取256×256大小的模糊圖像與對應(yīng)的清晰圖像進(jìn)行訓(xùn)練。
圖4 合并后的圖片
此次實驗在Windows 10操作系統(tǒng)下進(jìn)行,處理器為Inter Xeon E5-2620 v4,顯卡為NVIDIA GeForce RTX 2080Ti,使用pycharm編輯器,使用PyTorch深度學(xué)習(xí)框架。訓(xùn)練迭代300次,初始學(xué)習(xí)率為0.0001,前150次迭代的學(xué)習(xí)率采用初始值,后150次迭代的學(xué)習(xí)率按線性衰減至0,選擇Adam[25]優(yōu)化算法,批量大小設(shè)置為8。
GOPRO數(shù)據(jù)集中測試集為GoPro攝像機(jī)拍攝的11段視頻,共1111張圖像組成。本文在經(jīng)過多次訓(xùn)練后,發(fā)現(xiàn)權(quán)值在=0.1,=0.9時去模糊效果最好,實驗結(jié)果如圖5所示,本文方法的去模糊效果較明顯,可以有效地恢復(fù)圖像的細(xì)節(jié)部分。
本文將D2WGAN算法與原始GAN、LR濾波及DeblurGAN方法的圖像去模糊效果進(jìn)行對比,結(jié)果如圖6所示。表2為圖6中不同方法的峰值信噪比(peak signal to noise ratio,PSNR)與圖像結(jié)構(gòu)相似度(structural similarity,SSIM)。
圖6(b)中LR算法進(jìn)行去模糊時,邊緣的高頻信息有所改善,但整體會出現(xiàn)銳化的現(xiàn)象,視覺體驗一般;圖6(c)中GAN在復(fù)原圖像時會出現(xiàn)棋盤偽影的現(xiàn)象;圖6(d)中DeblurGAN方法整體復(fù)原效果較好,但仍有部分細(xì)節(jié)沒有復(fù)原出來。圖6(e)中本文方法去模糊的細(xì)節(jié)恢復(fù)較好,基本沒有棋盤偽影、銳化過度等視覺效果,恢復(fù)的圖像更加真實,而且從表2的評價指標(biāo)中可以看出,對比LR算法,本文方法有質(zhì)的飛躍。
圖5 本文方法去模糊前后效果對比圖
表2 不同方法對圖6中單張圖像的質(zhì)量評價結(jié)果
實驗中LR濾波算法在迭代150次時處理一張圖片平均用時約2.5min,而本文測試集共1111張圖片,如果使用LR濾波在1111張圖片上測試,大約需要46h,時間代價太大。因此本文只對GAN、DeblurGAN以及本文方法在GOPRO驗證集上測量平均PSNR與SSIM值,結(jié)果如表3所示。
從表3可以得知,相比DeblurGAN方法,本文方法在評價指標(biāo)PSNR上提升了約6.7%,在SSIM上提升了約9%,其結(jié)果說明本文提出的雙判別器加權(quán)生成對抗網(wǎng)絡(luò)方法是有效的。
表3 不同方法在GOPRO驗證集上的圖像質(zhì)量評價
為解決現(xiàn)有方法在恢復(fù)模糊圖像時仍存在的邊緣模糊現(xiàn)象,本文在原始生成對抗網(wǎng)絡(luò)的基礎(chǔ)上,增加了一個判別器,引入加權(quán)的思想,提出基于雙判別器加權(quán)生成對抗網(wǎng)絡(luò)的圖像去模糊方法。通過搭建生成器、判別器模型,引入雙判別器對抗損失和感知損失來恢復(fù)圖像的細(xì)節(jié)部分。實驗中使用GOPRO數(shù)據(jù)集來訓(xùn)練模型,將本文方法與原始GAN、LR算法及DeblurGAN方法進(jìn)行對比,發(fā)現(xiàn)本文方法可以有效地恢復(fù)出運動模糊圖像的細(xì)節(jié)部分,且沒有棋盤偽影、銳化等現(xiàn)象,提升了圖像視覺效果,在評價指標(biāo)PSNR與SSIM上有更好的表現(xiàn)。本文方法簡單且通用,為圖像去模糊的發(fā)展提供了一種新的思路。
[1] 李明東, 張娟, 伍世虔, 等. 基于RANSAC變換的車牌圖像去模糊算法[J]. 傳感器與微系統(tǒng), 2020, 39(2): 153-156, 160.
LI Mingdong, ZHANG Juan, WU Shiyu, et al. A deblurring algorithm for license plate image based on RANSAC transform[J]., 2020, 39(2): 153-156, 160.
[2] 馬蘇欣, 王家希, 戴雅淑, 等. 監(jiān)控視頻下模糊車牌的去模糊與識別探析[J]. 信息系統(tǒng)工程, 2019(11): 111-113.
MA Suxin, WANG Jiaxi, DAI Yashu, et al. Research on the deblurring and recognition of fuzzy license plates under surveillance video[J]., 2019(11): 111-113.
[3] 裴慧坤, 顏源, 林國安, 等. 基于生成對抗網(wǎng)絡(luò)的無人機(jī)圖像去模糊方法[J]. 地理空間信息, 2019, 17(12): 4-9, 155.
FEI Huikun, YAN Yuan, LIN Guoan et al. Deblurring method of UAV image based on generative confrontation network[J]., 2019, 17(12): 4-9, 155.
[4] 黃允滸, 吐爾洪江, 唐泉, 等. 一種基于à trous算法的遙感圖像模糊集增強(qiáng)算法[J]. 計算機(jī)應(yīng)用與軟件, 2018, 35(3): 187-192, 246.
HUANG Yunhu, TU Erhong, TANG Quan, et al. A remote sensing image fuzzy set enhancement algorithm based on à trous algorithm[J]., 2018, 35(3): 187-192, 246.
[5] 張廣明, 高爽, 尹增山, 等. 基于模糊圖像和噪聲圖像的遙感圖像運動模糊復(fù)原方法[J]. 電子設(shè)計工程, 2017, 25(18): 82-86.
ZHANG Guangming, GAO Shuang, YI Zengshan, et al. Remote sensing image motion blur restoration method based on blurred image and noise image[J]., 2017, 25(18): 82-86.
[6] 吳慶波, 任文琦. 基于結(jié)構(gòu)加權(quán)低秩近似的泊松圖像去模糊[J]. 北京航空航天大學(xué)學(xué)報, 2020, 46(9): 1701-1710.
WU Qingbo, REN Wenqi. Poisson image deblurring based on structure-weighted low-rank approximation[J]., 2020, 46(9): 1701-1710.
[7] RICHARDSON W. Bayesian-based iterative method of image restoration[J]., 1972, 62(1): 55-59.
[8] LUCY B. An iterative technique for the rectification of observed distributions[J]., 1974, 79(6): 745-754.
[9] IAN G, JEAN P, MEHDI M, et al. Generative adversarial nets[C]//27th(NIPS), 2014: 2672-2680.
[10] LEDIG C. Photo-realistic single image super-resolution using a generative adversarial network[C]//(CVPR), 2017: 105-114.
[11] LI Y, ZHAO K, ZHAO J. Research on super-resolution image reconstruction based on low-resolution infrared sensor[J]., 2020(8): 69186-69199.
[12] LI Z, WANG W, ZHAO Y. Image Translation by Domain-Adversarial Train[J]., 2018: 1-11. Doi: 10.1155/2018/8974638.
[13] YANG T, CHANG X, SU H, et al. Raindrop removal with light field image using image inpainting[J]., 2020(8): 58416-58426.
[14] Mirza M, Osindero S. Conditional generative adversarial nets[J/OL].: 1411.1784, 2014,https://arxiv.org/abs/1411.1784.
[15] Orest K, Volodymyr B, Mykola M, et al. DeblurGAN: Blind motion deblurring using conditional adversarial networks[C]//, 2018: 8183-8192.
[16] NGUYENT, LE T, VU H. Dual discriminator generative adversarial nets[C]//29th, 2017: 2667-2677.
[17] Lucas T, A?ron V, Matthias B. A note on the evaluation of generative models[J/OL].: 1511.01844, 2015.https:// arxiv.org/abs/1511.01844
[18] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//ICML'15:32nd, 2015, 37: 448-456.
[19] Ulyanov D, Vedaldi A, Lempitsky V. Instance normalization: the missing ingredient for fast stylization[C]//(CVPR), 2016: 1-13.
[20] LI C, WAND M. Precomputed Real-time texture synthesis with markovian generative adversarial networks[C]//, 2016: 702-716.
[21] Maas L, Hannun Y, Ng Y. Rectifier nonlinearities improve neural network acoustic models[C]//., 2013: 1-3.
[22] JOHNSON J, ALAHI A, FEI L. Perceptual losses for real-time style transfer and super-resolution[C]//, 2016: 694-711.
[23] SUN J, CAO W, XU Z, et al. Learning a convolutional neural network for non-uniform motion blur removal[C]//(CVPR), 2015: 769-777.
[24] NAH S, KIM H, LEE M. Deep multi-scale convolutional neural network for dynamic scene deblurring[C]//(CVPR), 2017: 257-265.
[25] Kingma D, Ba J. Adam: A method for stochastic optimization[C]//(ICLR), 2015: 1-15.
Image Deblurring Method Based on a Dual-Discriminator Weighted Generative Adversarial Network
HUANG Mengtao,GAO Na,LIU Bao
(College of Electrical & Control Engineering, Xi’an University of Science and Technology, Xi’an 710054, China)
The original generative adversarial network (GAN) is susceptible to the problems of vanishing gradients and mode collapse during the training process, and its deblurring effectiveness is poor. This study proposes an image deblurring method using a dual-discriminator weighted GAN. To extend the original GAN, a discriminator network is added to combine the forward and reverse Kullback–Leibler (KL) divergences into an objective function, and weights are used to adjust the ratio of forward and reverse KL divergences to leverage the complementary characteristics of the two divergences to avoid the formation of undesirable patterns in the process of learning clear pictures. Theoretical analysis proves that when an optimal discriminator is given, the difference between the forward and reverse KL divergences between real and generated data can be minimized. Experimental results demonstrate that compared to the existing methods, the proposed method can restore the details of an image more realistically and provides better performance in terms of the evaluation indexes of peak signal-to-noise ratio and structural similarity.
generation adversarial network, weighted, dual discriminator, image deblurring
TN911.7
A
1001-8891(2022)01-0041-06
2021-01-24;
2021-04-08.
黃夢濤(1965-),女,教授,博士,主要從事基于圖像的測量與識別和智能系統(tǒng)等方面的研究。E-mail:huangmt@xust.edu.cn
劉寶(1983-),男,講師,碩士生導(dǎo)師,主要從事多源信息融合、圖像處理等研究。E-mail:xiaobei0077@163.com
陜西省重點研發(fā)計劃項目(2019GY-097、2021GY-131);西安市科技計劃項目(2020KJRC0068);榆林市科技計劃項目(CXY-2020-037)。