国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度殘差生成對(duì)抗網(wǎng)絡(luò)的運(yùn)動(dòng)圖像去模糊

2021-12-16 08:15:28魏丙財(cái)張立曄孟曉亮王康濤
液晶與顯示 2021年12期
關(guān)鍵詞:復(fù)原殘差梯度

魏丙財(cái), 張立曄, 孟曉亮, 王康濤

(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255000)

1 引 言

由于相對(duì)運(yùn)動(dòng)、鏡頭抖動(dòng)、相機(jī)內(nèi)部傳感器噪聲、天氣因素(霧霾等)、相機(jī)散焦等原因,導(dǎo)致圖像在拍攝、傳輸和儲(chǔ)存時(shí)會(huì)產(chǎn)生一定的退化,造成圖像質(zhì)量下降,產(chǎn)生模糊[1]。其中運(yùn)動(dòng)模糊圖像主要是由于相機(jī)與物體在短曝光時(shí)間內(nèi)發(fā)生相對(duì)運(yùn)動(dòng)造成的。為了從運(yùn)動(dòng)模糊圖像中提取有用的信息,圖像復(fù)原已成為圖像處理的一個(gè)重要研究方向,也是數(shù)字圖像處理的一個(gè)重要應(yīng)用。圖像復(fù)原技術(shù)可以消除或減少圖像退化的問題,獲得更清晰的圖像。

早期的圖像去模糊研究,一般是在去模糊過程中假設(shè)模糊特征,利用圖像的先驗(yàn)知識(shí)估計(jì)模糊核。因此,圖像去模糊的重點(diǎn)之一是確定模糊核。根據(jù)模糊核的已知與否,去模糊方法可以分為兩大類:一類模糊核已知,稱為非盲復(fù)原;另一類模糊核未知,稱為盲復(fù)原。

非盲復(fù)原又稱為傳統(tǒng)圖像復(fù)原算法,此種方法會(huì)根據(jù)已知的模糊核,進(jìn)行解卷積操作,如逆濾波、L-R算法、維納濾波等算法。由于在實(shí)際應(yīng)用中很難獲得精確的模糊核,因此非盲復(fù)原表現(xiàn)較差,無法得到清晰的復(fù)原圖像。

現(xiàn)實(shí)場(chǎng)景中盲復(fù)原的應(yīng)用場(chǎng)景更廣泛。早期的研究大多使用圖像先驗(yàn),包括全變差、重尾梯度先驗(yàn)或超拉普拉斯先驗(yàn),它們通常以由粗到細(xì)的方式應(yīng)用于圖像,如Pan等人提出了基于圖像暗通道先驗(yàn)的模糊核估計(jì)方法[2],Levin等利用一種超拉普拉斯先驗(yàn)建模圖像的梯度來估計(jì)模糊核[3]。

近年來,隨著深度學(xué)習(xí)算法的發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)為代表的深度學(xué)習(xí)算法被大量應(yīng)用到圖像盲去模糊領(lǐng)域。相比于早期根據(jù)圖像先驗(yàn)信息的盲去模糊算法,深度學(xué)習(xí)算法可以做到比圖像先驗(yàn)更好的效果。Xu等人引入了一種新穎的、可分離結(jié)構(gòu)的卷積結(jié)構(gòu)來進(jìn)行反卷積,取得了不錯(cuò)的去模糊效果[4]。Su等人利用CNN進(jìn)行端到端訓(xùn)練,利用視頻中幀與幀之間信息,實(shí)現(xiàn)了視頻去模糊[5]。

在真實(shí)數(shù)據(jù)集上,由于圖像模糊核未知,文獻(xiàn)[6]和文獻(xiàn)[7]中提出利用CNN預(yù)測(cè)圖像模糊核,實(shí)現(xiàn)模糊數(shù)據(jù)集的合成,最終實(shí)現(xiàn)了圖像去模糊。然而,核估計(jì)涉及到幾個(gè)問題。首先,假設(shè)簡單的核卷積不能模擬一些具有挑戰(zhàn)性的情況,如閉塞區(qū)域或深度變化。其次,核估計(jì)過程是微妙的,對(duì)噪聲和飽和度敏感,所以模糊模型必須花費(fèi)大量精力進(jìn)行精心設(shè)計(jì)。第三,為動(dòng)態(tài)場(chǎng)景中的每個(gè)像素尋找空間變化的模糊核需要大量的內(nèi)存和算力。當(dāng)模糊核參數(shù)無法進(jìn)行準(zhǔn)確估計(jì)時(shí),上述方法都無法獲得理想的效果[8]。因此,文獻(xiàn)[8]和文獻(xiàn)[9]摒棄了模糊核的估計(jì)過程,直接使用CNN實(shí)現(xiàn)了端到端的動(dòng)態(tài)去模糊。

2014年,Goodfellow等人[10]提出了生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)。GAN由兩個(gè)相互競(jìng)爭的網(wǎng)絡(luò)構(gòu)成,一個(gè)稱為生成器,一個(gè)稱為判別器。生成器負(fù)責(zé)接收隨機(jī)噪聲輸入,然后合成數(shù)據(jù)樣本,它的目標(biāo)是令其盡量像正式數(shù)據(jù)樣本,以“欺騙”判別器。判別器負(fù)責(zé)判斷輸入數(shù)據(jù)是生成器合成的“偽造”樣本還是真實(shí)樣本,它的目標(biāo)是盡量將二者區(qū)分開。一個(gè)好的生成對(duì)抗網(wǎng)絡(luò)目標(biāo)就是讓判別器判斷真?zhèn)蔚母怕式咏?.5,即無法判斷是否是生成器產(chǎn)生的樣本。

由于性能強(qiáng)大,GAN很快被用于圖像去模糊領(lǐng)域。生成對(duì)抗網(wǎng)絡(luò)中的生成器負(fù)責(zé)接受模糊圖片,將其復(fù)原,目標(biāo)是生成類似清晰圖像的去模糊圖像,以騙過判別器;而判別器負(fù)責(zé)分別接收原始清晰圖片以及生成器去模糊后的圖片,盡量將二者區(qū)分。

Mao等人針對(duì)的是標(biāo)準(zhǔn)GAN生成的圖片質(zhì)量不高以及訓(xùn)練過程不穩(wěn)定這兩個(gè)缺陷進(jìn)行改進(jìn),在判別器中使用最小二乘損失,提出了LSGAN,能夠生成較高質(zhì)量的圖像[11]。Johnson等人提出用于風(fēng)格遷移任務(wù)的網(wǎng)絡(luò),提出了感知損失函數(shù),可以較好地衡量模型的質(zhì)量[12]。Kupyn等人提出DeblurGAN[13],運(yùn)用條件生成式對(duì)抗網(wǎng)絡(luò)和內(nèi)容損失函數(shù)(Content Loss Function)實(shí)現(xiàn)了運(yùn)動(dòng)圖像模糊的去除。由于單個(gè)神經(jīng)網(wǎng)絡(luò)同時(shí)用于模糊與清晰數(shù)據(jù)的訓(xùn)練得到的合成模糊圖像不能精確模擬真實(shí)場(chǎng)景的模糊過程,Zhang等人提出利用兩個(gè)GAN,將其中一個(gè)負(fù)責(zé)圖像的模糊,另一個(gè)負(fù)責(zé)圖像的去模糊,實(shí)現(xiàn)了真實(shí)模糊去模糊[14]。

受到上述研究的啟發(fā),本文對(duì)GAN進(jìn)行了改進(jìn)。首先,改進(jìn)了PatchGAN的結(jié)構(gòu),在網(wǎng)絡(luò)參數(shù)只增加2.38%的前提下,將其最底層感受野提升至原先的兩倍以上。其次,改進(jìn)了殘差塊的結(jié)構(gòu),增加了卷積層數(shù)量,用以提升復(fù)原圖像的質(zhì)量。最后,基于GOPRO數(shù)據(jù)集和Lai數(shù)據(jù)集的仿真結(jié)果驗(yàn)證了本文提出的算法的有效性。

2 圖像模糊與去模糊

2.1 圖像的模糊

圖像模糊模型可以表示為:

IB=K*IS+N,

(1)

其中:IB為模糊后的圖像,IS為原圖像,K為卷積核,N為加性噪聲,*為卷積操作。

另外,模糊圖像也可以通過逐幀模糊產(chǎn)生。對(duì)于模糊空間變化的圖像,沒有相機(jī)響應(yīng)函數(shù)(Camera Response Function, CRF)的估計(jì)技術(shù)[15],CRF可以近似為已知的CRF的平均值[14],如公式(2)所示:

g(IS(i))=IS′(i)γ,

(2)

其中γ是一個(gè)參數(shù),一般認(rèn)為其等于2.2。潛在的清晰圖像IS(i)可通過觀察到的清晰圖像IS′(i)得到。仿真的模糊圖像IB可以通過式(3)得到:

(3)

其中:M代表清晰幀的個(gè)數(shù),t代表某個(gè)時(shí)間,IS(t)代表時(shí)間t對(duì)應(yīng)的清晰幀。

而真實(shí)的模糊圖像實(shí)際上是多幀清晰圖像的集成[16],可表示為式(4):

(4)

其中T為曝光時(shí)間周期。

現(xiàn)實(shí)世界的真實(shí)模糊圖像如圖1所示。

圖1 現(xiàn)實(shí)生活中的運(yùn)動(dòng)模糊圖片F(xiàn)ig.1 Motion blurred images in real life

2.2 圖像的去模糊

圖像去模糊就是對(duì)給定的模糊圖像進(jìn)行復(fù)原,得出相應(yīng)的原始圖像[17]。

非盲去模糊是指通過給定的已知模糊核進(jìn)行圖像的去模糊,而盲去模糊問題是指從給定噪聲圖像Y中估計(jì)出原圖像X和模糊核Z。

盲去模糊過程可以表示為:

(5)

其中:φ(X)和θ(Z)分別是預(yù)期的清晰圖像的正則化項(xiàng)和可能的模糊核。

3 相關(guān)工作

3.1 生成對(duì)抗網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)(GAN)中包含兩個(gè)相互競(jìng)爭、相互對(duì)抗的網(wǎng)絡(luò)——生成器和判別器(圖2)。GAN中的對(duì)抗思想可以追溯到博弈論的納什均衡,對(duì)抗的雙方分別是生成器和判別器。二者對(duì)抗的目標(biāo)函數(shù)可以描述為:

(6)

其中:x表示來自Pdata(x)真實(shí)樣本,Ex~Pdata(x)為輸入清晰圖像的期望,D(·)表示判別器D的輸出,G(·)表示生成器G的輸出。

圖2 GAN的結(jié)構(gòu)Fig.2 Structure of GAN

GAN自發(fā)明以來,一直是深度學(xué)習(xí)領(lǐng)域研究的重點(diǎn),又有多種變體,如DCGAN,將生成對(duì)抗網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,幾乎完全使用卷積神經(jīng)網(wǎng)絡(luò)代替全連接層;條件生成對(duì)抗網(wǎng)絡(luò)CGAN,在原始GAN的輸入上進(jìn)行改進(jìn),將額外條件信息如標(biāo)簽在輸入階段即傳遞給生成器與判別器;WGAN,在損失函數(shù)方面對(duì)GAN進(jìn)行改進(jìn),提出wassertein距離損失函數(shù)與權(quán)重截?cái)?Weight Clipping)措施,進(jìn)一步提升了GAN的性能[18];WGAN-GP[19],在WGAN基礎(chǔ)上進(jìn)行改進(jìn),提出權(quán)重懲罰措施,有效防止WGAN可能發(fā)生的梯度消失、梯度爆炸以及權(quán)重限制困難等問題。

3.2 殘差塊及其改進(jìn)

殘差塊[20]包括:兩個(gè)權(quán)重層,中間包含一個(gè)ReLU激活函數(shù),然后是一個(gè)跳躍連接塊,之后是一個(gè)ReLU激活函數(shù)。跳躍連接塊可實(shí)現(xiàn)梯度的跨層傳播,有助于克服梯度衰減現(xiàn)象。通過添加殘差塊,可以在加深網(wǎng)絡(luò)結(jié)構(gòu)的情況下,較好地解決梯度消失和梯度爆炸的問題。殘差塊結(jié)構(gòu)如圖3所示。

圖3 殘差塊的結(jié)構(gòu)Fig.3 Structure of res-block

本文改進(jìn)的殘差塊包括:3個(gè)卷積層,每個(gè)卷積層都是3×3的卷積核。使用兩個(gè)ReLU激活函數(shù),這樣可以達(dá)到較快的收斂速度,并且在第一個(gè)卷積層與第二個(gè)卷積層之間添加一個(gè)概率為0.5的Dropout層,這樣有助于防止模型過擬合,同時(shí)加快模型訓(xùn)練速度。最后是一個(gè)跳躍連接模塊,有助于解決梯度消失問題以及梯度爆炸問題。同時(shí)由于BN層已被證明會(huì)增加計(jì)算復(fù)雜性,并且降低性能[8],因此本文的判別器去除了批歸一化(Batch Normalization, BN)層,同時(shí),本研究領(lǐng)域內(nèi)使用深度學(xué)習(xí)去模糊的研究,大都使用小批次進(jìn)行訓(xùn)練,如Nah[8]等,訓(xùn)練批次為2;Kupyn[13]等提出的DeblurGAN,訓(xùn)練批次為1;Zhang[14]等提出的基于真實(shí)模糊去模糊,批次為4;使用小批次訓(xùn)練時(shí)不適合使用批歸一化層。結(jié)構(gòu)如圖4所示。

圖4 改進(jìn)殘差塊的結(jié)構(gòu)Fig.4 Structure of improved Res-block

3.3 損失函數(shù)

本文使用WGAN[18]中的Wassertein距離為判別器的損失函數(shù),其定義如下:

(7)

其中,x和y分別表示真實(shí)樣本和生成樣本,∏(Pdata,Pg)是Pdata和Pg的聯(lián)合分布的集合,(x,y)~γ表示其中的采樣,inf表示對(duì)采樣出的真實(shí)樣本和生成樣本的距離期望,即E(x,y)~γ[‖x-y‖]取下限。

同時(shí),本文使用內(nèi)容損失[12](Content loss)作為生成器的損失函數(shù)。內(nèi)容損失是一種基于生成圖像和目標(biāo)圖像的CNN特征圖差異的L2損失,不同于普通的L2損失,內(nèi)容損失通過預(yù)訓(xùn)練的網(wǎng)絡(luò)某一層的輸出特征來定義:

(8)

其中:Φi,j代表通過預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖,本文使用的預(yù)訓(xùn)練模型為VGG16。Wi,j和Hi,j為特征圖的大小。

4 網(wǎng)絡(luò)結(jié)構(gòu)

4.1 生成器的網(wǎng)絡(luò)結(jié)構(gòu)

受到Johnson[12]等提出的用于風(fēng)格遷移任務(wù)的網(wǎng)絡(luò)的啟發(fā),本文生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。其中的編碼器層(Encoder)和解碼器層(Decoder)均包含3層卷積層,每個(gè)卷積層后面還包括一個(gè)ReLU激活函數(shù)層。生成器中所有卷積層的填充方式均為same。最后的激活函數(shù)使用tanh激活函數(shù),除此層外,生成器的激活函數(shù)均為ReLU激活函數(shù)。在這些結(jié)構(gòu)之上,生成器中還包含一個(gè)跳躍連接塊,用于解決由網(wǎng)絡(luò)深度過深帶來的梯度消失、梯度爆炸等問題。

圖5 生成器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure of generator

4.2 判別器的網(wǎng)絡(luò)結(jié)構(gòu)

PatchGAN是由Phillip Isola等[21]提出的一種馬爾科夫判別器。馬爾科夫判別器可以將圖像有效地建模為馬爾科夫隨機(jī)場(chǎng)。PatchGAN判別器試圖對(duì)圖像中的每個(gè)N×N塊進(jìn)行分類,以確定其真假,在圖像上卷積運(yùn)行這個(gè)鑒別器,對(duì)所有響應(yīng)進(jìn)行平均,作為最終的判別器輸出。Patch通過5層卷積層的疊加,將最底層卷積層的感受野擴(kuò)展為70×70。

受到PatchGAN判別器的啟發(fā),本文對(duì)其進(jìn)行改進(jìn),在參數(shù)數(shù)量只增加2.38%的前提下,將最底層感受野提升至142,而運(yùn)行時(shí)間幾乎沒有增加。在PatchGAN中,最后對(duì)網(wǎng)絡(luò)輸出的特征圖取均值作為判別器的最后輸出。為了進(jìn)一步降低算法復(fù)雜度,改進(jìn)的網(wǎng)絡(luò)在網(wǎng)絡(luò)最后使用全局平均池化層代替均值操作,同樣可以做到求取特征圖均值的效果。PatchGAN結(jié)構(gòu)以及本文改進(jìn)的PatchGAN結(jié)構(gòu)如表1和表2所示。

表1 PatchGAN結(jié)構(gòu)圖Tab.1 Structure of PatchGAN

表2 本文提出的改進(jìn)PatchGAN結(jié)構(gòu)圖

5 實(shí)驗(yàn)結(jié)果與分析

本文的仿真實(shí)驗(yàn)在配置有Tesla-P100的服務(wù)器上進(jìn)行,服務(wù)器系統(tǒng)為CentOS 7,使用TensorFlow2框架與Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為10-4。經(jīng)過若干次迭代訓(xùn)練,最終學(xué)習(xí)率線性衰減到10-7。

由于本文網(wǎng)絡(luò)結(jié)構(gòu)的輸入要求,需要將訓(xùn)練數(shù)據(jù)集中的圖片剪裁成256×256大小的圖片。而生成器中全部都是卷積層,不存在全連接層,屬于全卷積(Fully Convolutional Networks, FCN)神經(jīng)網(wǎng)絡(luò),可以應(yīng)用于任意大小的圖像。

5.1 數(shù)據(jù)集信息

本文采用GOPRO數(shù)據(jù)集和Lai數(shù)據(jù)集[24]對(duì)本文算法的復(fù)原效果進(jìn)行測(cè)試。

GOPRO數(shù)據(jù)集是目前進(jìn)行圖像去模糊研究的最常用的數(shù)據(jù)集之一,其使用GOPRO4相機(jī)拍攝240幀/s的視頻,然后生成模糊圖片來模擬真實(shí)的運(yùn)動(dòng)模糊。該數(shù)據(jù)集由3 214對(duì)清晰和模糊的圖像組成,每張圖像的分辨率都是1 280×720。我們采用其中2 103張圖片作為訓(xùn)練集,其余1 111張圖片作為測(cè)試集,并將其剪裁為256×256大小的圖片,作為神經(jīng)網(wǎng)絡(luò)的輸入。

Lai數(shù)據(jù)集是一系列真實(shí)世界的模糊圖像,是在真實(shí)場(chǎng)景中由不同的相機(jī)、不同的設(shè)置與不同的用戶處捕捉的,沒有清晰的對(duì)照物,無法進(jìn)行定量分析。

5.2 圖像質(zhì)量客觀評(píng)價(jià)

圖像復(fù)原仿真實(shí)驗(yàn)的結(jié)果通常選用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和結(jié)構(gòu)相似性(Structural Similarity, SSIM)兩項(xiàng)指標(biāo)進(jìn)行衡量。

表1的實(shí)驗(yàn)結(jié)果表明,在GOPRO數(shù)據(jù)集上,本文提出的基于深度殘差生成對(duì)抗網(wǎng)絡(luò)的運(yùn)動(dòng)去模糊算法具有更好的復(fù)原能力,可達(dá)到更高的PSNR和較高的SSIM。部分實(shí)驗(yàn)效果如圖6所示,其中左側(cè)部分是模糊圖像,中間部分是去模糊效果圖,最右側(cè)是清晰圖像。

表3 GOPRO數(shù)據(jù)集上不同算法質(zhì)量評(píng)估結(jié)果

圖6 GOPRO數(shù)據(jù)集復(fù)原效果Fig.6 Restoration effects of GOPRO dataset

5.3 Lai數(shù)據(jù)集主觀評(píng)價(jià)

圖7是Lai數(shù)據(jù)集中測(cè)試圖像face2去模糊效果比較圖,第一行圖片從左至右依次是模糊圖像,Sun[26]等、Krishnan[27]等、Whyte[28]等的結(jié)果;第二行圖像從左至右依次是Nah[8]等、Pan[2]等、Xu[29]等、本文算法的結(jié)果。從圖中可以看出,本文提出的算法能夠很好地獲得復(fù)原效果,從圖中可以清楚地獲取圖片人物的細(xì)節(jié)信息。

圖7 Lai 數(shù)據(jù)集去模糊效果定性比較Fig.7 Qualitative comparison of deblurring effects of Lai datasets

6 結(jié) 論

本文對(duì)圖像去模糊領(lǐng)域進(jìn)行了研究,提出了一種基于深度殘差生成對(duì)抗網(wǎng)絡(luò)的運(yùn)動(dòng)去模糊算法,實(shí)現(xiàn)了精度更高的運(yùn)動(dòng)模糊圖像盲復(fù)原。改進(jìn)了殘差塊的結(jié)構(gòu),使之能更好的地適應(yīng)圖像去模糊領(lǐng)域的應(yīng)用,改進(jìn)了PatchGAN的結(jié)構(gòu),在網(wǎng)絡(luò)參數(shù)只增加2.38%的前提下,將其最底層感受野提升至原先的兩倍以上。實(shí)驗(yàn)結(jié)果表明,在GOPRO數(shù)據(jù)集中,本文提出算法復(fù)原的圖像可達(dá)到較高的客觀評(píng)價(jià)指標(biāo),峰值信噪比PSNR可達(dá)到28.31 dB,結(jié)構(gòu)相似性SSIM可達(dá)到0.831 7,可以恢復(fù)出較高質(zhì)量的清晰圖像。在Lai數(shù)據(jù)集上,復(fù)原的圖像可以達(dá)到較好的主觀視覺效果。

猜你喜歡
復(fù)原殘差梯度
溫陳華:唐宋甲胄復(fù)原第一人
基于雙向GRU與殘差擬合的車輛跟馳建模
一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
淺談曜變建盞的復(fù)原工藝
基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
毓慶宮惇本殿明間原狀陳列的復(fù)原
紫禁城(2020年8期)2020-09-09 09:38:04
一種自適應(yīng)Dai-Liao共軛梯度法
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
一類扭積形式的梯度近Ricci孤立子
平穩(wěn)自相關(guān)過程的殘差累積和控制圖
河南科技(2015年8期)2015-03-11 16:23:52
台中县| 遂平县| 科尔| 柯坪县| 江孜县| 韶山市| 湘潭市| 原平市| 渝北区| 南平市| 靖西县| 遂宁市| 龙陵县| 霸州市| 靖宇县| 应城市| 独山县| 温宿县| 科技| 洛隆县| 临潭县| 会宁县| 台北县| 南丹县| 晋江市| 中宁县| 梅州市| 明光市| 格尔木市| 沅江市| 虹口区| 汽车| 英山县| 前郭尔| 苏州市| 姚安县| 晋城| 洪泽县| 阿拉善左旗| 连州市| 民权县|