国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生成對抗網(wǎng)絡(luò)的圖像超分辨率重建算法

2021-12-16 08:15:38劉郭琦劉進(jìn)鋒朱東輝
液晶與顯示 2021年12期
關(guān)鍵詞:殘差分辨率注意力

劉郭琦, 劉進(jìn)鋒, 朱東輝

(寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川 750021)

1 引 言

在現(xiàn)代生產(chǎn)生活中,人們對圖像質(zhì)量的需求越來越高。由于低分辨率模糊圖像不能滿足應(yīng)用需求,高分辨率圖像逐漸成為了人們的剛需。雖然光學(xué)器件的發(fā)展對超分辨成像效果顯著[1],但由于成本和應(yīng)用環(huán)境的限制,算法層面的超分辨率重建技術(shù)仍然具有廣泛的應(yīng)用價值和市場前景。

圖像超分辨率重建方法可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法包括基于重建[2]和基于插值[3]兩種方法?;谥亟ǖ姆椒ㄖ饕ǖ赐队胺╗4]和凸集投影法[5]等,這類算法操作方便、重建速度比較快,但是所引入的先驗(yàn)知識有限,在重建后會丟失很多圖像細(xì)節(jié),效果并不理想?;诓逯档姆椒òp三次插值法[6]、最近鄰插值法[7]等,這類方法原理簡單,重建速度快,但重建的圖像比較模糊,實(shí)際應(yīng)用價值不高?;谏疃葘W(xué)習(xí)的超分辨率方法效果相比傳統(tǒng)方法好很多,在研究發(fā)展過程中逐步提高了神經(jīng)網(wǎng)絡(luò)的性能,使超分圖像具備了高頻信息,變得十分清晰。

對于基于深度學(xué)習(xí)的圖像超分辨率重建方法,通常如果學(xué)習(xí)的樣本足夠多,神經(jīng)網(wǎng)絡(luò)趨近最佳映射,重建的效果更好。目前基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)算法是解決圖像超分辨率問題的主流方法,該類方法重建圖像質(zhì)量高、受應(yīng)用場景限制少。

2014年,Dong等人提出的超分辨率卷積神經(jīng)網(wǎng)絡(luò)(SRCNN)[8]是超分辨率問題中深度學(xué)習(xí)的首次應(yīng)用。SRCNN網(wǎng)絡(luò)結(jié)構(gòu)包括3層:第一層提取補(bǔ)丁以低分辨尺度上的特征表示,第二層逼近非線性映射函數(shù),第三層重構(gòu)圖像。SRCNN是超分辨率技術(shù)的一個里程碑。

后來Kim等人提出的VDSR[9]是一個非常深的殘差網(wǎng)絡(luò)。VDSR的網(wǎng)絡(luò)結(jié)構(gòu)共有20層,每一層都有一個小型濾波器。輸入圖像到輸出估計(jì)間采用跳躍連接,使得卷積層學(xué)習(xí)估計(jì)與真實(shí)圖像之間的殘差。梯度裁剪策略允許使用高學(xué)習(xí)率來訓(xùn)練網(wǎng)絡(luò),對于龐大的架構(gòu),仍然可加快收斂速度。梯度裁剪的原理是截斷單個梯度,以便將所有梯度限制在預(yù)定范圍內(nèi),同時增加網(wǎng)絡(luò)的深度,結(jié)果的準(zhǔn)確性也得以提高。

深度遞歸卷積網(wǎng)絡(luò)(DRCN)[10]采用了遞歸結(jié)構(gòu),在減少參數(shù)量的同時增加了網(wǎng)絡(luò)的深度。遞歸結(jié)構(gòu)通過重復(fù)使用相同的簡單濾波器來提取圖像特征,遞歸塊的所有中間輸出及網(wǎng)絡(luò)的輸入被饋送到卷積層用于生成輸出預(yù)測。輸出預(yù)測有4個,最終估計(jì)由輸出預(yù)測的線性組合確定,并由均方損失優(yōu)化。限制普通遞歸網(wǎng)絡(luò)性能的因素主要是梯度爆炸或消失,它們導(dǎo)致網(wǎng)絡(luò)的不穩(wěn)定和學(xué)習(xí)能力的下降。DRCN采用兩個策略來解決這個問題:遞歸監(jiān)督和跳躍連接。遞歸監(jiān)督是指遞歸塊的所有中間輸出都參與確定輸出預(yù)測,且每個輸出預(yù)測都接受均方損失的監(jiān)督,輸出預(yù)測之間的差異能夠平滑參數(shù)的梯度。遞歸監(jiān)督是消除梯度的一種補(bǔ)救方法,跳過連接可避免梯度爆炸。

隨著網(wǎng)絡(luò)深度的不斷加深,增強(qiáng)型深度殘差網(wǎng)絡(luò)(EDSR)[11]應(yīng)運(yùn)而生。使用殘差塊(ResBlock)可以在低分辨率上增強(qiáng)結(jié)構(gòu)信息,提升了圖像質(zhì)量,并在殘差塊中刪除了批量歸一化,引入了恒定的縮放層,減少了圖像細(xì)節(jié)被忽視的可能,保留了更多圖像的淺層信息,有利于圖像的重建,減少了參數(shù)總量,并使用L1損失訓(xùn)練,擴(kuò)大了模型的尺寸來提升圖像質(zhì)量。

隨后Lai等人提出了拉普拉斯金字塔網(wǎng)絡(luò)(LapSRN)[12],目的是逐步重建高分辨率圖像的殘差,以低分辨率特征圖作為輸入,預(yù)測高頻殘差。但該結(jié)構(gòu)每次采樣后計(jì)算量會成倍增加,所以在計(jì)算上會受到很大的限制,難以應(yīng)用到深層網(wǎng)絡(luò)。

Zhang等人提出了一個殘差密集網(wǎng)絡(luò)(RDN)[13]。該研究比較了不同的網(wǎng)絡(luò)塊:殘差塊、密集塊、殘差密集塊,其中1×1卷積層用于減小維數(shù),殘差塊強(qiáng)制濾波器學(xué)習(xí)殘差信息;而密集塊能提高網(wǎng)絡(luò)描述復(fù)雜功能的能力;殘差密集塊兼具前兩者的優(yōu)點(diǎn),可以提供更好的性能。

Ledig等人提出了超分辨率生成對抗網(wǎng)絡(luò)(SRGAN)[14],它的創(chuàng)新在于改變了損失函數(shù),從原來的均方誤差(MSE)轉(zhuǎn)為基于VGG的內(nèi)容損失函數(shù),利用生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間相互對抗的方法來提高圖像的分辨率,將結(jié)果引入到生成網(wǎng)絡(luò)的損失函數(shù)中,重建后的圖像更加清晰,細(xì)節(jié)更加豐富,更符合人眼的主觀感受。

綜上所述,雖然超分辨率模型中神經(jīng)網(wǎng)絡(luò)層數(shù)越來越深,對模型性能有著更好的提升,但是在視覺感受上還有著些許欠缺。SRGAN模型是上述模型中比較經(jīng)典的模型,適用范圍很廣,但是這個模型對于圖像細(xì)節(jié)的恢復(fù)還有待進(jìn)一步提升,為此本文對SRGAN模型進(jìn)行了更深入的研究。受人類注意力機(jī)制的啟發(fā),本文在該模型的基礎(chǔ)上引入了注意力機(jī)制,提出了改進(jìn)優(yōu)化模型,使其重建的圖像更加清晰。

2 工作基礎(chǔ)

2.1 SRGAN

基于深度學(xué)習(xí)的超分辨率技術(shù)有很多,但往往處理后的圖像過于平滑且缺乏高頻信息,生成對抗網(wǎng)絡(luò)的出現(xiàn)大為彌補(bǔ)了這一缺點(diǎn)。GAN擁有出色的擬合能力,在計(jì)算機(jī)視覺領(lǐng)域起著非常重要的作用。SRGAN在基于殘差網(wǎng)絡(luò)的圖像超分辨率重建方法的基礎(chǔ)上加入了判別器網(wǎng)絡(luò),其主要改進(jìn)有:(1)將均方損失函數(shù)(MSE)替換為對抗損失和內(nèi)容損失;(2)引入了生成對抗網(wǎng)絡(luò),把傳統(tǒng)像素空間的內(nèi)容損失替換為對抗性質(zhì)的相似性;(3)引入深度殘差網(wǎng)絡(luò),用于提取更豐富的圖像細(xì)節(jié)。SRGAN的生成器網(wǎng)絡(luò)(Generator Network)結(jié)構(gòu)和判別器網(wǎng)絡(luò)(Discriminator Network)結(jié)構(gòu)如圖1所示。

圖1 SRGAN生成器G和判別器D模型Fig.1 SRGAN generator(G) and discriminator(D)model

圖1中,n代表特征圖個數(shù),s代表卷積步長。生成器中包含了多個殘差塊,以及批量歸一化層(Batch Normalization,BN)和激活函數(shù)層;判別器包含8個卷積層,激活函數(shù)為Leaky ReLU函數(shù),最后連接著全連接層。SRGAN目的是將超分辨率的放大因子增大,當(dāng)放大倍數(shù)超過4倍時,能得到較好的效果。使用感知損失、對抗損失來實(shí)現(xiàn)圖像超分辨率重建,增加了恢復(fù)圖像的清晰度和逼真度,但SRGAN生成的圖像存在偽影。

2.2 ECA通道注意力

近年來,隨著深度學(xué)習(xí)的研究越來越深入,注意力機(jī)制(Attention Mechanisms)[15]逐漸成為了深度學(xué)習(xí)研究的熱點(diǎn)問題之一,成為神經(jīng)網(wǎng)絡(luò)中的一個重要概念。注意力源于人類的視覺系統(tǒng),在人們觀察外界事物時,通常不會把外界事物看作一個整體,而是更傾向于選取事物中最重要的部分進(jìn)行觀察,把重要部分和相對不重要部分組合起來,形成一個觀察的整體。注意力機(jī)制對網(wǎng)絡(luò)輸入的每個部分賦予不同的權(quán)重,提取所需的重要信息,輔助模型做出準(zhǔn)確判斷,與此同時并不帶來更大的計(jì)算、存儲開銷,這也是注意力機(jī)制應(yīng)用廣泛的原因。

注意力機(jī)制可分為空間域注意力、通道域注意力、混合域注意力和時間域注意力。

通道域注意力機(jī)制不考慮每個像素之間的差值,對所有的特征進(jìn)行了加權(quán)。在神經(jīng)網(wǎng)絡(luò)中,初始圖像按(R,G,B)三通道進(jìn)行表示,經(jīng)過不同的卷積核運(yùn)算之后,每個通道都會自動產(chǎn)生新的信號。例如我們在使用64核卷積提取通道圖像特征時,都會自動產(chǎn)生64個新的通道矩陣(H,W,64),H和W分別表示其高度和寬度。每個通道上的信號都有一個權(quán)重,通道與通道之間具有一定相關(guān)性,如果權(quán)重越大,則相關(guān)性也就越高。

本文使用的ECA[16]通道注意力就是通道域注意力機(jī)制的一種。它是一種輕量級通道注意力,可以通過快速一維卷積有效地實(shí)現(xiàn)。此外,一個通道維數(shù)的函數(shù)就可以自適應(yīng)地確定一維卷積的核大小,它代表了局域交叉通道相互作用的覆蓋范圍。ECA模塊可以靈活地整合到現(xiàn)有的CNN架構(gòu)中,與同類網(wǎng)絡(luò)相比,ECA具有更高的效率。ECA通道注意力包含少量參數(shù),顯著降低了模型的復(fù)雜度,性能得到明顯提升。

圖2為ECA通道注意力模塊示意圖。ECA模型通過全局平均池化層(GAP)獲得聚集特征,通過執(zhí)行卷積核大小為k的快速1D卷積來生成信道權(quán)重,其中k是通過信道維度C的映射自適應(yīng)所確定。

圖2 ECA通道注意力模塊Fig.2 ECA channel attention module

ECA模塊可以適當(dāng)?shù)夭东@本地跨通道交互,因此需要確定交互的覆蓋范圍。對于在不同CNN架構(gòu)上具有不同頻道的卷積塊,可以手動調(diào)整交互的最佳覆蓋范圍。其中高維(低維)涉及固定組數(shù)的長距離(短距離)卷積。交互覆蓋范圍與信道維度C成正比,換言之,k與C之間可能存在映射關(guān)系φ:

C=φ(k),

(1)

最簡單的映射是線性映射,即φ(k)=γ*k-b,但用線性函數(shù)刻畫的關(guān)系過于有限。另一方面,信道維數(shù)C是濾波器的數(shù)量,通常設(shè)置為2的冪次。因此通常用線性函數(shù)φ(k)=γ*k-b擴(kuò)展到非線性函數(shù)中解決更多的問題。

C=φ(k)=2(γ*k-b),

(2)

然后給定信道維度C,可自適應(yīng)地確定卷積核大小k:

(3)

式中:|t|odd代表最接近t的奇數(shù),γ和b分別代表簡單線性映射的斜率和截距。顯然通過映射ψ,高維通道具有較長的交互范圍,而低維通道則需要使用非線性映射經(jīng)歷較短的范圍交互。

3 本文提出的網(wǎng)絡(luò)模型設(shè)計(jì)

本文提出的網(wǎng)絡(luò)模型是在 SRGAN 模型的基礎(chǔ)上分別優(yōu)化生成器G和判別器D。將生成器中的殘差模塊的BN層去除,并引入注意力模型——ECA通道注意力。判別器則去除了步長為1的卷積層,從而構(gòu)建運(yùn)行速度更快的生成對抗網(wǎng)絡(luò)的圖像超分辨率模型。

SRGAN的生成器包含多個殘差塊,本文對這些殘差塊進(jìn)行了改進(jìn),改進(jìn)的殘差塊網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。改進(jìn)后的殘差塊去除了BN層。對數(shù)據(jù)進(jìn)行BN處理能夠加快網(wǎng)絡(luò)收斂速度、防止梯度彌散。但在圖像超分辨率重建問題中,批歸一化操作會破壞卷積層所提取到的特征映射分布,導(dǎo)致色彩歸一化、破壞原圖像的空間表征等問題,直接影響圖像重建效果;另一方面,BN層增加了計(jì)算的復(fù)雜度和內(nèi)存消耗,因此本文移除了原SRGAN中的BN層。同時在殘差模塊中加入了ECA注意力模塊(ECA-Net),由于其高效、輕量的模型特性,能更好地獲取圖像的高頻信息。

圖3 (a)SRGAN殘差塊;(b)改進(jìn)的殘差塊。Fig.3 (a)SRGAN residual block ;(b)Improved residual block.

表1是生成器結(jié)構(gòu)的相關(guān)參數(shù)。每一個卷積層依次命名為Conv_1,Conv_2,Conv_3,Conv_4,Conv_5,Conv_6;每一個反卷積層依次命名為Deconv_1,Deconv_2,…Deconv_6。所有卷積層和反卷積層的參數(shù)都列在表1中。對于Leaky ReLU根據(jù)文獻(xiàn)[15]經(jīng)驗(yàn),統(tǒng)一α等于0.2。

表1 生成器卷積層結(jié)構(gòu)相關(guān)參數(shù)

對SRGAN的判別器網(wǎng)絡(luò)改進(jìn)后的結(jié)構(gòu)如圖4所示。為了描述方便,將一個卷積層(Conv)和批歸一化層(BN)和激活層(Leaky ReLU)稱為卷積模塊。在網(wǎng)絡(luò)中,圖像每經(jīng)過1個卷積模塊,特征圖的尺寸減半,通道數(shù)擴(kuò)大。因?yàn)槌鼗瘜尤菀讈G失有用的信息,本文采用步長為2的卷積層來代替原SRGAN中的池化層。經(jīng)過4個卷積模塊后,使用全連接層(FC)將輸出的特征圖映射為一個值,再使用Sigmoid層將該值映射到(0,1)區(qū)間內(nèi),得到最終的預(yù)測值,該預(yù)測值用于判斷輸入的圖像是否為真實(shí)圖像。

圖4 改進(jìn)后的判別器網(wǎng)絡(luò)Fig.4 Improved discriminator network

判別器各層數(shù)配置如表2所示。

表2 改進(jìn)后判別器卷積層配置

4 實(shí)驗(yàn)分析

4.1 評價指標(biāo)

對于超分辨率圖像重建技術(shù)的結(jié)果評價時,主觀評價在不同的環(huán)境下,不同的人往往會有不同的主觀感受,從而有不同的評價,并伴隨著周圍環(huán)境的變化而變化,因此評價往往不能統(tǒng)一,所以需要引入客觀評價標(biāo)準(zhǔn),以此更好地對超分辨率圖像做出更真實(shí)和準(zhǔn)確的評價。

本文采用的客觀評價指標(biāo)是峰值信噪比(Peak signal to noise ratio, PSNR)和結(jié)構(gòu)相似性(Structural similarity, SSIM),這兩個評價指標(biāo)是目前基于深度學(xué)習(xí)圖像超分辨率重建的主要評價指標(biāo)。

PSNR是衡量圖像重建質(zhì)量效果的客觀評價指標(biāo),它與生成圖像的均方誤差(MSE)的對數(shù)成反比。PSNR能反映圖像的噪聲水平,可以表征重建圖像失真的大小,其值越大,表示重構(gòu)圖像的效果越好。

SSIM是衡量圖像之間結(jié)構(gòu)相似度的客觀度量,它可以表示為亮度、對比度和結(jié)構(gòu)比較的加權(quán)乘積。SSIM的范圍為0~1,當(dāng)兩張圖像一樣時,SSIM的值越接近1,說明圖像效果越好。

4.2 實(shí)驗(yàn)環(huán)境

為了保證數(shù)據(jù)實(shí)驗(yàn)的準(zhǔn)確性和重建效果,本文提出的改進(jìn)算法使用DIV2K、BSDS300、Set5、Set14高清數(shù)據(jù)集。

硬件平臺配置如表3所示。實(shí)驗(yàn)使用的是Ubuntu操作系統(tǒng),深度學(xué)習(xí)框架是Pytorch,在優(yōu)化器為Adam的情況下訓(xùn)練了100輪。同時依據(jù)電腦性能,圖像在輸入前統(tǒng)一被裁剪為128×128大小的圖像,訓(xùn)練的batch size設(shè)置為64,驗(yàn)證batch size設(shè)置為32,損失函數(shù)為L1。

表3 實(shí)驗(yàn)環(huán)境Tab.3 Experimental environment

4.3 實(shí)驗(yàn)結(jié)果

如圖5所示,圖(a)與圖(b)、圖(c)相比,在放大2倍和4倍的情況下,中間畫框區(qū)域放大后,改進(jìn)后模型的翅膀線條依然清晰,說明重建起到了一定效果,因此本算法對高頻特征的恢復(fù)具有一定優(yōu)勢。

圖5 不同放大因子下的超分辨率重建圖像。(a)低分辨率圖;(b)使用2倍放大因子;(c)使用4倍放大因子。Fig.5 Super-resolution reconstructed images at different magnification factors.(a) Low resolution image;(b) Under 2x magnification factor;(c) Under 4x magnification factor.

通過一系列實(shí)驗(yàn),本文將在客觀評價結(jié)果和主觀評價結(jié)果兩方面來表示優(yōu)化后的模型重建能力。表4和表5給出在4倍放大因子下,Bicubic、SRCNN,SRGAN和本文提出的改進(jìn)的模型(Ours)在4種數(shù)據(jù)集上,評價指標(biāo)PSNR和SSIM的對比結(jié)果。

表4 4種網(wǎng)絡(luò)模型PSNR對比

改進(jìn)后的模型在各個數(shù)據(jù)集的PSNR指標(biāo)都有了一定提升,說明改進(jìn)后有了一定提高。

表5 4種網(wǎng)絡(luò)模型SSIM對比

改進(jìn)后的模型在各個數(shù)據(jù)集的SSIM指標(biāo)都更高,說明改進(jìn)后有了一定提高。

改進(jìn)后的模型由于總參數(shù)量減少,在運(yùn)行速度上也有了一定的提升。表6給出了SRGAN與本文改進(jìn)的模型(Ours)總參數(shù)情況。

表6 改進(jìn)前后模型的總參數(shù)量對比

由于總參數(shù)量的不同,改進(jìn)后的網(wǎng)絡(luò)模型總參數(shù)量明顯小于SRGAN,因此運(yùn)行速度也有了小幅的提升。

5 結(jié) 論

本文提出基于生成對抗網(wǎng)絡(luò)的超分辨率重建算法的改進(jìn),在生成網(wǎng)絡(luò)中加入了ECA通道注意力,在判別網(wǎng)絡(luò)中改變了卷積模塊,通過采用通用訓(xùn)練集DIV2K、BSDS300、Set5、Set14進(jìn)行測試,實(shí)驗(yàn)表明改進(jìn)的生成對抗網(wǎng)絡(luò)重建算法在峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)上均有提升,參數(shù)量有所減少,運(yùn)行速度有所提高。最后本文利用普遍采用的 PSNR 和 SSIM 評價指標(biāo), 對本文方法產(chǎn)生的超分辨率圖像同其他方法進(jìn)行了對比, 證明了本文方法的網(wǎng)絡(luò)性能和重建圖像在視覺質(zhì)量上與數(shù)值評價上的優(yōu)異表現(xiàn)。

猜你喜歡
殘差分辨率注意力
基于雙向GRU與殘差擬合的車輛跟馳建模
讓注意力“飛”回來
基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
EM算法的參數(shù)分辨率
原生VS最大那些混淆視聽的“分辨率”概念
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
基于深度特征學(xué)習(xí)的圖像超分辨率重建
一種改進(jìn)的基于邊緣加強(qiáng)超分辨率算法
A Beautiful Way Of Looking At Things
兰考县| 沈丘县| 宜都市| 安乡县| 固镇县| 肇州县| 富川| 云安县| 招远市| 巴马| 全椒县| 田东县| 独山县| 镇沅| 金平| 博客| 陵水| 剑川县| 遵义市| 简阳市| 自贡市| 静安区| 绥阳县| 肇州县| 阿合奇县| 体育| 伊川县| 滨海县| 西城区| 扶风县| 永修县| 辽阳市| 富顺县| 鸡泽县| 友谊县| 海口市| 泽库县| 邢台市| 碌曲县| 江华| 潼关县|