基于深度殘差生成對(duì)抗網(wǎng)絡(luò)的運(yùn)動(dòng)圖像去模糊

2021-12-16 08:15:28魏丙財(cái)張立曄孟曉亮王康濤

液晶與顯示 2021年12期

魏丙財(cái)，張立曄，孟曉亮，王康濤

(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，山東淄博 255000)

1 引言

由于相對(duì)運(yùn)動(dòng)、鏡頭抖動(dòng)、相機(jī)內(nèi)部傳感器噪聲、天氣因素(霧霾等)、相機(jī)散焦等原因，導(dǎo)致圖像在拍攝、傳輸和儲(chǔ)存時(shí)會(huì)產(chǎn)生一定的退化，造成圖像質(zhì)量下降，產(chǎn)生模糊[1]。其中運(yùn)動(dòng)模糊圖像主要是由于相機(jī)與物體在短曝光時(shí)間內(nèi)發(fā)生相對(duì)運(yùn)動(dòng)造成的。為了從運(yùn)動(dòng)模糊圖像中提取有用的信息，圖像復(fù)原已成為圖像處理的一個(gè)重要研究方向，也是數(shù)字圖像處理的一個(gè)重要應(yīng)用。圖像復(fù)原技術(shù)可以消除或減少圖像退化的問題，獲得更清晰的圖像。

早期的圖像去模糊研究，一般是在去模糊過程中假設(shè)模糊特征，利用圖像的先驗(yàn)知識(shí)估計(jì)模糊核。因此，圖像去模糊的重點(diǎn)之一是確定模糊核。根據(jù)模糊核的已知與否，去模糊方法可以分為兩大類：一類模糊核已知，稱為非盲復(fù)原；另一類模糊核未知，稱為盲復(fù)原。

非盲復(fù)原又稱為傳統(tǒng)圖像復(fù)原算法，此種方法會(huì)根據(jù)已知的模糊核，進(jìn)行解卷積操作，如逆濾波、L-R算法、維納濾波等算法。由于在實(shí)際應(yīng)用中很難獲得精確的模糊核，因此非盲復(fù)原表現(xiàn)較差，無法得到清晰的復(fù)原圖像。

現(xiàn)實(shí)場(chǎng)景中盲復(fù)原的應(yīng)用場(chǎng)景更廣泛。早期的研究大多使用圖像先驗(yàn)，包括全變差、重尾梯度先驗(yàn)或超拉普拉斯先驗(yàn)，它們通常以由粗到細(xì)的方式應(yīng)用于圖像，如Pan等人提出了基于圖像暗通道先驗(yàn)的模糊核估計(jì)方法[2]，Levin等利用一種超拉普拉斯先驗(yàn)建模圖像的梯度來估計(jì)模糊核[3]。

近年來，隨著深度學(xué)習(xí)算法的發(fā)展，以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)為代表的深度學(xué)習(xí)算法被大量應(yīng)用到圖像盲去模糊領(lǐng)域。相比于早期根據(jù)圖像先驗(yàn)信息的盲去模糊算法，深度學(xué)習(xí)算法可以做到比圖像先驗(yàn)更好的效果。Xu等人引入了一種新穎的、可分離結(jié)構(gòu)的卷積結(jié)構(gòu)來進(jìn)行反卷積，取得了不錯(cuò)的去模糊效果[4]。Su等人利用CNN進(jìn)行端到端訓(xùn)練，利用視頻中幀與幀之間信息，實(shí)現(xiàn)了視頻去模糊[5]。

在真實(shí)數(shù)據(jù)集上，由于圖像模糊核未知，文獻(xiàn)[6]和文獻(xiàn)[7]中提出利用CNN預(yù)測(cè)圖像模糊核，實(shí)現(xiàn)模糊數(shù)據(jù)集的合成，最終實(shí)現(xiàn)了圖像去模糊。然而，核估計(jì)涉及到幾個(gè)問題。首先，假設(shè)簡單的核卷積不能模擬一些具有挑戰(zhàn)性的情況，如閉塞區(qū)域或深度變化。其次，核估計(jì)過程是微妙的，對(duì)噪聲和飽和度敏感，所以模糊模型必須花費(fèi)大量精力進(jìn)行精心設(shè)計(jì)。第三，為動(dòng)態(tài)場(chǎng)景中的每個(gè)像素尋找空間變化的模糊核需要大量的內(nèi)存和算力。當(dāng)模糊核參數(shù)無法進(jìn)行準(zhǔn)確估計(jì)時(shí)，上述方法都無法獲得理想的效果[8]。因此，文獻(xiàn)[8]和文獻(xiàn)[9]摒棄了模糊核的估計(jì)過程，直接使用CNN實(shí)現(xiàn)了端到端的動(dòng)態(tài)去模糊。

2014年，Goodfellow等人[10]提出了生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)。GAN由兩個(gè)相互競(jìng)爭的網(wǎng)絡(luò)構(gòu)成，一個(gè)稱為生成器，一個(gè)稱為判別器。生成器負(fù)責(zé)接收隨機(jī)噪聲輸入，然后合成數(shù)據(jù)樣本，它的目標(biāo)是令其盡量像正式數(shù)據(jù)樣本，以“欺騙”判別器。判別器負(fù)責(zé)判斷輸入數(shù)據(jù)是生成器合成的“偽造”樣本還是真實(shí)樣本，它的目標(biāo)是盡量將二者區(qū)分開。一個(gè)好的生成對(duì)抗網(wǎng)絡(luò)目標(biāo)就是讓判別器判斷真?zhèn)蔚母怕式咏?.5，即無法判斷是否是生成器產(chǎn)生的樣本。

由于性能強(qiáng)大，GAN很快被用于圖像去模糊領(lǐng)域。生成對(duì)抗網(wǎng)絡(luò)中的生成器負(fù)責(zé)接受模糊圖片，將其復(fù)原，目標(biāo)是生成類似清晰圖像的去模糊圖像，以騙過判別器；而判別器負(fù)責(zé)分別接收原始清晰圖片以及生成器去模糊后的圖片，盡量將二者區(qū)分。

Mao等人針對(duì)的是標(biāo)準(zhǔn)GAN生成的圖片質(zhì)量不高以及訓(xùn)練過程不穩(wěn)定這兩個(gè)缺陷進(jìn)行改進(jìn)，在判別器中使用最小二乘損失，提出了LSGAN，能夠生成較高質(zhì)量的圖像[11]。Johnson等人提出用于風(fēng)格遷移任務(wù)的網(wǎng)絡(luò)，提出了感知損失函數(shù)，可以較好地衡量模型的質(zhì)量[12]。Kupyn等人提出DeblurGAN[13]，運(yùn)用條件生成式對(duì)抗網(wǎng)絡(luò)和內(nèi)容損失函數(shù)(Content Loss Function)實(shí)現(xiàn)了運(yùn)動(dòng)圖像模糊的去除。由于單個(gè)神經(jīng)網(wǎng)絡(luò)同時(shí)用于模糊與清晰數(shù)據(jù)的訓(xùn)練得到的合成模糊圖像不能精確模擬真實(shí)場(chǎng)景的模糊過程，Zhang等人提出利用兩個(gè)GAN，將其中一個(gè)負(fù)責(zé)圖像的模糊，另一個(gè)負(fù)責(zé)圖像的去模糊，實(shí)現(xiàn)了真實(shí)模糊去模糊[14]。

受到上述研究的啟發(fā)，本文對(duì)GAN進(jìn)行了改進(jìn)。首先，改進(jìn)了PatchGAN的結(jié)構(gòu)，在網(wǎng)絡(luò)參數(shù)只增加2.38%的前提下，將其最底層感受野提升至原先的兩倍以上。其次，改進(jìn)了殘差塊的結(jié)構(gòu)，增加了卷積層數(shù)量，用以提升復(fù)原圖像的質(zhì)量。最后，基于GOPRO數(shù)據(jù)集和Lai數(shù)據(jù)集的仿真結(jié)果驗(yàn)證了本文提出的算法的有效性。

2 圖像模糊與去模糊

2.1 圖像的模糊

圖像模糊模型可以表示為：

IB=K*IS+N，

(1)

其中：IB為模糊后的圖像，IS為原圖像，K為卷積核，N為加性噪聲，*為卷積操作。

另外，模糊圖像也可以通過逐幀模糊產(chǎn)生。對(duì)于模糊空間變化的圖像，沒有相機(jī)響應(yīng)函數(shù)(Camera Response Function, CRF)的估計(jì)技術(shù)[15]，CRF可以近似為已知的CRF的平均值[14]，如公式(2)所示：

g(IS(i))=IS′(i)γ，

(2)

其中γ是一個(gè)參數(shù)，一般認(rèn)為其等于2.2。潛在的清晰圖像IS(i)可通過觀察到的清晰圖像IS′(i)得到。仿真的模糊圖像IB可以通過式(3)得到：

(3)

其中:M代表清晰幀的個(gè)數(shù)，t代表某個(gè)時(shí)間，IS(t)代表時(shí)間t對(duì)應(yīng)的清晰幀。

而真實(shí)的模糊圖像實(shí)際上是多幀清晰圖像的集成[16]，可表示為式(4)：

(4)

其中T為曝光時(shí)間周期。

現(xiàn)實(shí)世界的真實(shí)模糊圖像如圖1所示。

圖1 現(xiàn)實(shí)生活中的運(yùn)動(dòng)模糊圖片F(xiàn)ig.1 Motion blurred images in real life

2.2 圖像的去模糊

圖像去模糊就是對(duì)給定的模糊圖像進(jìn)行復(fù)原，得出相應(yīng)的原始圖像[17]。

非盲去模糊是指通過給定的已知模糊核進(jìn)行圖像的去模糊，而盲去模糊問題是指從給定噪聲圖像Y中估計(jì)出原圖像X和模糊核Z。

盲去模糊過程可以表示為:

(5)

其中:φ(X)和θ(Z)分別是預(yù)期的清晰圖像的正則化項(xiàng)和可能的模糊核。

3 相關(guān)工作

3.1 生成對(duì)抗網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)(GAN)中包含兩個(gè)相互競(jìng)爭、相互對(duì)抗的網(wǎng)絡(luò)——生成器和判別器(圖2)。GAN中的對(duì)抗思想可以追溯到博弈論的納什均衡，對(duì)抗的雙方分別是生成器和判別器。二者對(duì)抗的目標(biāo)函數(shù)可以描述為：

(6)

其中:x表示來自Pdata(x)真實(shí)樣本，Ex～Pdata(x)為輸入清晰圖像的期望，D(·)表示判別器D的輸出，G(·)表示生成器G的輸出。

圖2 GAN的結(jié)構(gòu)Fig.2 Structure of GAN

GAN自發(fā)明以來，一直是深度學(xué)習(xí)領(lǐng)域研究的重點(diǎn)，又有多種變體，如DCGAN，將生成對(duì)抗網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合，幾乎完全使用卷積神經(jīng)網(wǎng)絡(luò)代替全連接層；條件生成對(duì)抗網(wǎng)絡(luò)CGAN，在原始GAN的輸入上進(jìn)行改進(jìn)，將額外條件信息如標(biāo)簽在輸入階段即傳遞給生成器與判別器；WGAN，在損失函數(shù)方面對(duì)GAN進(jìn)行改進(jìn)，提出wassertein距離損失函數(shù)與權(quán)重截?cái)?Weight Clipping)措施，進(jìn)一步提升了GAN的性能[18]；WGAN-GP[19]，在WGAN基礎(chǔ)上進(jìn)行改進(jìn)，提出權(quán)重懲罰措施，有效防止WGAN可能發(fā)生的梯度消失、梯度爆炸以及權(quán)重限制困難等問題。

3.2 殘差塊及其改進(jìn)

殘差塊[20]包括：兩個(gè)權(quán)重層，中間包含一個(gè)ReLU激活函數(shù)，然后是一個(gè)跳躍連接塊，之后是一個(gè)ReLU激活函數(shù)。跳躍連接塊可實(shí)現(xiàn)梯度的跨層傳播，有助于克服梯度衰減現(xiàn)象。通過添加殘差塊，可以在加深網(wǎng)絡(luò)結(jié)構(gòu)的情況下，較好地解決梯度消失和梯度爆炸的問題。殘差塊結(jié)構(gòu)如圖3所示。

圖3 殘差塊的結(jié)構(gòu)Fig.3 Structure of res-block

本文改進(jìn)的殘差塊包括：3個(gè)卷積層，每個(gè)卷積層都是3×3的卷積核。使用兩個(gè)ReLU激活函數(shù)，這樣可以達(dá)到較快的收斂速度，并且在第一個(gè)卷積層與第二個(gè)卷積層之間添加一個(gè)概率為0.5的Dropout層，這樣有助于防止模型過擬合，同時(shí)加快模型訓(xùn)練速度。最后是一個(gè)跳躍連接模塊，有助于解決梯度消失問題以及梯度爆炸問題。同時(shí)由于BN層已被證明會(huì)增加計(jì)算復(fù)雜性，并且降低性能[8]，因此本文的判別器去除了批歸一化(Batch Normalization, BN)層，同時(shí)，本研究領(lǐng)域內(nèi)使用深度學(xué)習(xí)去模糊的研究，大都使用小批次進(jìn)行訓(xùn)練，如Nah[8]等，訓(xùn)練批次為2；Kupyn[13]等提出的DeblurGAN,訓(xùn)練批次為1；Zhang[14]等提出的基于真實(shí)模糊去模糊，批次為4；使用小批次訓(xùn)練時(shí)不適合使用批歸一化層。結(jié)構(gòu)如圖4所示。

圖4 改進(jìn)殘差塊的結(jié)構(gòu)Fig.4 Structure of improved Res-block

3.3 損失函數(shù)

本文使用WGAN[18]中的Wassertein距離為判別器的損失函數(shù)，其定義如下：

(7)

其中，x和y分別表示真實(shí)樣本和生成樣本，∏(Pdata,Pg)是Pdata和Pg的聯(lián)合分布的集合，(x,y)～γ表示其中的采樣，inf表示對(duì)采樣出的真實(shí)樣本和生成樣本的距離期望，即E(x,y)～γ[‖x-y‖]取下限。

同時(shí)，本文使用內(nèi)容損失[12](Content loss)作為生成器的損失函數(shù)。內(nèi)容損失是一種基于生成圖像和目標(biāo)圖像的CNN特征圖差異的L2損失，不同于普通的L2損失，內(nèi)容損失通過預(yù)訓(xùn)練的網(wǎng)絡(luò)某一層的輸出特征來定義：

(8)

其中:Φi,j代表通過預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖，本文使用的預(yù)訓(xùn)練模型為VGG16。Wi,j和Hi,j為特征圖的大小。

4 網(wǎng)絡(luò)結(jié)構(gòu)

4.1 生成器的網(wǎng)絡(luò)結(jié)構(gòu)

受到Johnson[12]等提出的用于風(fēng)格遷移任務(wù)的網(wǎng)絡(luò)的啟發(fā)，本文生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。其中的編碼器層(Encoder)和解碼器層(Decoder)均包含3層卷積層，每個(gè)卷積層后面還包括一個(gè)ReLU激活函數(shù)層。生成器中所有卷積層的填充方式均為same。最后的激活函數(shù)使用tanh激活函數(shù)，除此層外，生成器的激活函數(shù)均為ReLU激活函數(shù)。在這些結(jié)構(gòu)之上，生成器中還包含一個(gè)跳躍連接塊，用于解決由網(wǎng)絡(luò)深度過深帶來的梯度消失、梯度爆炸等問題。

圖5 生成器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure of generator

4.2 判別器的網(wǎng)絡(luò)結(jié)構(gòu)

PatchGAN是由Phillip Isola等[21]提出的一種馬爾科夫判別器。馬爾科夫判別器可以將圖像有效地建模為馬爾科夫隨機(jī)場(chǎng)。PatchGAN判別器試圖對(duì)圖像中的每個(gè)N×N塊進(jìn)行分類，以確定其真假，在圖像上卷積運(yùn)行這個(gè)鑒別器，對(duì)所有響應(yīng)進(jìn)行平均，作為最終的判別器輸出。Patch通過5層卷積層的疊加，將最底層卷積層的感受野擴(kuò)展為70×70。

受到PatchGAN判別器的啟發(fā)，本文對(duì)其進(jìn)行改進(jìn)，在參數(shù)數(shù)量只增加2.38%的前提下，將最底層感受野提升至142，而運(yùn)行時(shí)間幾乎沒有增加。在PatchGAN中，最后對(duì)網(wǎng)絡(luò)輸出的特征圖取均值作為判別器的最后輸出。為了進(jìn)一步降低算法復(fù)雜度，改進(jìn)的網(wǎng)絡(luò)在網(wǎng)絡(luò)最后使用全局平均池化層代替均值操作，同樣可以做到求取特征圖均值的效果。PatchGAN結(jié)構(gòu)以及本文改進(jìn)的PatchGAN結(jié)構(gòu)如表1和表2所示。

表1 PatchGAN結(jié)構(gòu)圖Tab.1 Structure of PatchGAN

表2 本文提出的改進(jìn)PatchGAN結(jié)構(gòu)圖

5 實(shí)驗(yàn)結(jié)果與分析

本文的仿真實(shí)驗(yàn)在配置有Tesla-P100的服務(wù)器上進(jìn)行，服務(wù)器系統(tǒng)為CentOS 7，使用TensorFlow2框架與Adam優(yōu)化器，初始學(xué)習(xí)率設(shè)置為10-4。經(jīng)過若干次迭代訓(xùn)練，最終學(xué)習(xí)率線性衰減到10-7。

由于本文網(wǎng)絡(luò)結(jié)構(gòu)的輸入要求，需要將訓(xùn)練數(shù)據(jù)集中的圖片剪裁成256×256大小的圖片。而生成器中全部都是卷積層，不存在全連接層，屬于全卷積(Fully Convolutional Networks, FCN)神經(jīng)網(wǎng)絡(luò)，可以應(yīng)用于任意大小的圖像。

5.1 數(shù)據(jù)集信息

本文采用GOPRO數(shù)據(jù)集和Lai數(shù)據(jù)集[24]對(duì)本文算法的復(fù)原效果進(jìn)行測(cè)試。

GOPRO數(shù)據(jù)集是目前進(jìn)行圖像去模糊研究的最常用的數(shù)據(jù)集之一，其使用GOPRO4相機(jī)拍攝240幀/s的視頻，然后生成模糊圖片來模擬真實(shí)的運(yùn)動(dòng)模糊。該數(shù)據(jù)集由3 214對(duì)清晰和模糊的圖像組成，每張圖像的分辨率都是1 280×720。我們采用其中2 103張圖片作為訓(xùn)練集，其余1 111張圖片作為測(cè)試集，并將其剪裁為256×256大小的圖片，作為神經(jīng)網(wǎng)絡(luò)的輸入。

Lai數(shù)據(jù)集是一系列真實(shí)世界的模糊圖像，是在真實(shí)場(chǎng)景中由不同的相機(jī)、不同的設(shè)置與不同的用戶處捕捉的，沒有清晰的對(duì)照物，無法進(jìn)行定量分析。

5.2 圖像質(zhì)量客觀評(píng)價(jià)

圖像復(fù)原仿真實(shí)驗(yàn)的結(jié)果通常選用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和結(jié)構(gòu)相似性(Structural Similarity, SSIM)兩項(xiàng)指標(biāo)進(jìn)行衡量。

表1的實(shí)驗(yàn)結(jié)果表明，在GOPRO數(shù)據(jù)集上，本文提出的基于深度殘差生成對(duì)抗網(wǎng)絡(luò)的運(yùn)動(dòng)去模糊算法具有更好的復(fù)原能力，可達(dá)到更高的PSNR和較高的SSIM。部分實(shí)驗(yàn)效果如圖6所示，其中左側(cè)部分是模糊圖像，中間部分是去模糊效果圖，最右側(cè)是清晰圖像。

表3 GOPRO數(shù)據(jù)集上不同算法質(zhì)量評(píng)估結(jié)果

圖6 GOPRO數(shù)據(jù)集復(fù)原效果Fig.6 Restoration effects of GOPRO dataset

5.3 Lai數(shù)據(jù)集主觀評(píng)價(jià)

圖7是Lai數(shù)據(jù)集中測(cè)試圖像face2去模糊效果比較圖，第一行圖片從左至右依次是模糊圖像，Sun[26]等、Krishnan[27]等、Whyte[28]等的結(jié)果；第二行圖像從左至右依次是Nah[8]等、Pan[2]等、Xu[29]等、本文算法的結(jié)果。從圖中可以看出，本文提出的算法能夠很好地獲得復(fù)原效果，從圖中可以清楚地獲取圖片人物的細(xì)節(jié)信息。

圖7 Lai 數(shù)據(jù)集去模糊效果定性比較Fig.7 Qualitative comparison of deblurring effects of Lai datasets

6 結(jié) 論

本文對(duì)圖像去模糊領(lǐng)域進(jìn)行了研究，提出了一種基于深度殘差生成對(duì)抗網(wǎng)絡(luò)的運(yùn)動(dòng)去模糊算法，實(shí)現(xiàn)了精度更高的運(yùn)動(dòng)模糊圖像盲復(fù)原。改進(jìn)了殘差塊的結(jié)構(gòu)，使之能更好的地適應(yīng)圖像去模糊領(lǐng)域的應(yīng)用，改進(jìn)了PatchGAN的結(jié)構(gòu)，在網(wǎng)絡(luò)參數(shù)只增加2.38%的前提下，將其最底層感受野提升至原先的兩倍以上。實(shí)驗(yàn)結(jié)果表明，在GOPRO數(shù)據(jù)集中，本文提出算法復(fù)原的圖像可達(dá)到較高的客觀評(píng)價(jià)指標(biāo)，峰值信噪比PSNR可達(dá)到28.31 dB，結(jié)構(gòu)相似性SSIM可達(dá)到0.831 7，可以恢復(fù)出較高質(zhì)量的清晰圖像。在Lai數(shù)據(jù)集上，復(fù)原的圖像可以達(dá)到較好的主觀視覺效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡