鄧酩, 柳慶龍, 侯立憲
(1.桂林理工大學信息科學與工程學院, 桂林 541006; 2.桂林理工大學, 廣西嵌入式技術與智能系統(tǒng)重點實驗室, 桂林 541006)
圖像超分辨率重建是指從低分辨率的圖像生成高分辨率圖像,它是一個重要的視覺應用。圖像超分辨率(super resolution, SR)的目的是提高給定低分辨率(low resolution, LR)圖像的分辨率,這是圖像技術中一個不間斷的過程,包括上采樣、去模糊、去噪等,并通過注入低分辨率圖像的高頻成分來重構高分辨率圖像。在醫(yī)學成像[1]、衛(wèi)星成像[2]、人臉識別[3]等領域,從圖像中提取重要信息顯得尤為重要。傳統(tǒng)的圖像超分辨方法分為以下幾類:基于插值的方法、基于重建的方法和基于學習的方法[4]。這些方法較為簡單,生成的圖像會出現(xiàn)邊緣模糊,丟失高頻細節(jié)等問題。隨著機器學習技術的發(fā)展,超分研究延伸到了一種新的基于學習的方法,即深度學習方法。由于深度卷積神經網絡[5]能從大量數據中學習有效表征,Dong等[6]提出了基于卷積神經網絡(convolutional neural networks,CNN)的超分辨率卷積神經網絡(super-resolution convolutional neural network, SRCNN),實現(xiàn)了從低分辨率到高分辨率圖像的端到端映射。針對SRCNN模型的計算冗余問題,Dong等[7]對SRCNN進行改進并提出了快速超分辨率卷積神經網絡(fast super-resolution by CNN, FSRCNN)。為了解決圖像重建上采樣放大問題,Shi等[8]采用亞像素卷積層,提出高效子像素卷積神經網絡 (efficient sub-pixel convolutional neural network, ESPCN) 模型,可以直接獲取低分辨率圖像上的特征,重建出高分辨率圖像。區(qū)別于以上兩種模型,Kim等[9]借鑒殘差網絡 (residual network,ResNet) 的思想,將網絡層數增加到20層提出了VDSR (very deep convolution networks)模型。Tong等[10]在密集跳躍連接思想的基礎上,提出了SRDenseNet (image super-resolution using dense skip connections),增強了網絡特征的傳播與復用。為避免高復雜度網絡訓練下低頻紋理的過擬合,Li等[11]利用帶有約束的RNN (recurrent neural network) 中的隱藏狀態(tài),提出了一種圖像超分辨率反饋網絡(feedback network for image super-resolution, SRFBN)。為了更好地保存圖像細節(jié)信息和空間一致性,Liu等[12]提出了一種基于雙卷積神經網絡的多焦點圖像融合算法。Nan等[13]提出了一種基于ResNeXt (residual next)的單圖像超分辨率重建算法,該方法去除了殘差網絡中的歸一化操作,提高了模型訓練速度。Ren等[14]將金字塔卷積和淺層殘差模塊相結合,提出了具有金字塔特征的多精餾網絡。
生成對抗網絡(generative adversarial net,GAN)興起后,被逐漸用于圖像超分任務。Ledig等[15]將生成對抗網絡與圖像超分結合,提出了基于生成對抗網絡的圖像超分辨率重建模型SRGAN (super resolution generative adversarial network),SRGAN使用深度殘差網絡作為生成器,從縮小的輸入中生成高分辨率(high resolution, HR)圖像。在SRGAN的基礎上,Wang等[16]使用密集連接模塊 (residual in residual dense block,RRDB)代替原始的殘差模塊,提出了ESRGAN (enhanced super resolution generative adversarial network)。為了減少復雜圖像中的偽影,Gong等[17]提出了一種帶有啟發(fā)模塊的Enlighten-GAN,啟發(fā)模塊通過設置更簡單的目標來確保網絡接收有效梯度,從而改善網絡。針對現(xiàn)有的超分辨率GAN網絡的特征表達弱、網絡冗余問題,Zhang等[18]通過減少殘差單元的數量,在所有殘差塊之間建立跳躍連接,提出了一種新型的輕型多重密集殘差塊結構的GAN網絡。Sun等[19]對殘差學習進行改進,提出了一種基于寬通道激活的生成對抗網絡(wavelet domain super resolution generative adversarial network, WDSRGAN),以此來獲取圖像的淺層信息。Wang等[20]提出一種基于反饋注意力機制(feature-based super resolution generative adversarial network, FBSRGAN)的SISR重建GAN方法,通過反饋連接逐漸創(chuàng)建高分辨率圖像。但GAN重建的后的圖像與真實數據的細節(jié)紋理仍存在偏差,具有偽影和噪聲。且專注于均方誤差[21]得分進行訓練,使得圖像中的紋理等高頻信息丟失。
針對上述問題,現(xiàn)提出一種基于多尺度殘差生成對抗網絡的圖像超分辨率重建算法,在生成網絡中將原SRGAN中的殘差模塊替換為由Dense-Res2Net模塊與特征壓縮與激發(fā)網絡(squeeze-and-excitation attention, SENet)[22]的組合。相比于傳統(tǒng)的殘差模塊,Dense-Res2Net將殘差模塊中的主卷積替換成多層小的卷積,以此提取更多尺度特征,在深層卷積神經網絡Res2Net[23]的基礎上采用密集連接方式進行特征映射,增加特征的重用。同時SENet注意力機制,能夠自適應地重新分配特征通道的權值,能夠進一步提升Dense-Res2Net的性能。
在損失函數中加入全變分[24](total variation,TV)正則化損失,減少圖像噪聲。針對生成對抗網絡中的訓練不穩(wěn)定、耗時長等問題,移除原SRGAN殘差塊中的BN(batch normalization)層,同時使用Wasserstein距離[25]代替JS(Jensen Shannon)散度優(yōu)化網絡,穩(wěn)定網絡的訓練。由此構建一個多尺度殘差生成對抗網絡的圖像超分辨率重建算法。
GAN 的結構受到博弈論中的納什均衡啟發(fā)。生成器的目的是了解真實數據的分布,而鑒別器的目的是正確判斷輸入數據是來自真實數據還是來自生成器。SRGAN模型結構如圖1所示。
圖1 基本SRGAN模型結構Fig.1 Structure of the basic SRGAN model
任何可微函數都可以用作生成器和判別器。其目標函數表達式為
Ez~P(z)(lg{1-D[G(x)]})
(1)
式(1)中:x為真實樣本;Ex~Pdata(x)()和Ez~P(z)()為分別表示對真實樣本和生成樣本進行期望操作;D(x)表示通過判別器后判定為真實圖像的概率;G(x)表示生成器輸出樣本,服從真實數據的Pdata(x)分布;z為輸入噪聲。x從真實的訓練數據中采樣作為D的輸入,D會自動學習,使其輸出接近1。G和D相互競爭,不斷迭代優(yōu)化,直到D無法區(qū)分輸入的圖像是G生成的圖像還是真實圖像。
SE模塊由Squeeze和Excitation兩部分組成。特征首先被傳遞給Squeeze操作通過沿著每個特性映射得到空間維度聚合產生每個特性映射的描述符。描述符產生信道級特征響應得到全局分布的嵌入。這使得網絡得到所有層都可以使用來自全局接受域的信息。在之后的Excitation操作中產生的嵌入用于為每個特征映射獲得調制權值的集合。將這些權值用于特征映射,生成加權特征映射,為每個特征通道生成權重。最后將Excitation輸出的權重通過乘法逐通道加權到先前的特征上,對原通道上的特征完成重標定。SE模塊的具體結構如圖2所示。
H×W×C分別表示輸入特征圖的高度,寬度和通道數圖2 SE模塊結構Fig.2 Structure of the basic SENet model
為了能夠提取LR圖像的全局和局部信息[27],擴大其感受野,使用Dense-Res2Net網絡以更細粒度地表示特征信息,實現(xiàn)多層特征復用。
相比于傳統(tǒng)的殘差模塊,Res2Net將殘差模塊中的主卷積替換成多層小的卷積,以此提取更多尺度特征,在Res2Net的基礎上采用密集連接方式進行特征映射,增加特征的重用,減少了圖像特征的丟失,使圖像保留更多高頻信息,增強了特征的可重用性,同時有助于緩解梯度分散問題,使訓練更快。Dense-Res2Net將一組3×3濾波器替換為更小的濾波器組來提取特征。Dense-Res2Net block的結構如圖3所示。
Dense-Res2Net block輸入的X∈RH×W×C經過1×1卷積后,將特征映射均勻地劃分成s個特征映射子集,此處s= 4,用xi(i=1,2,…,s)表示,與輸入的特征圖相比,每個特征子集xi都有相同的空間大小和1/s的通道數。除了特征子集x1外,每個xi都會對應一個3×3的卷積,記為Ki,用yi表示第i個特征子集的輸出。除x1外,其余的特征子集xi都會與前Ki-1,Ki-2,…,K1的輸出yi-1,yi-2,…,y1相加,然后輸入到xi中,得到其對應特征子集的輸出yi。因此,每個特征子集的輸出為
圖3 殘差模塊結構Fig.3 Residual module architecture
(2)
同時,去除了ResNet block中BN層。BN層的存在對整個網絡是有利的,可以加速訓練和收斂,避免梯度消失,防止過擬合[28]。但是它減少了數據樣本之間的絕對差異,突出了相對差異。當訓練集和測試集存在較大差異時,由于BN層的存在進一步限制了網絡的泛化能力,降低了模型的魯棒性。因此,BN層在圖像分類相關任務中能夠有良好的表現(xiàn),但在圖像超分任務中表現(xiàn)一般。去除BN層能夠有提高模型的性能,降低整體的計算復雜度。
卷積層中的濾波器以特征映射的形式捕捉局部空間關系。這些特征圖被進一步使用,因為它們不被重視,即每個特征圖都是獨立平等的。這可能會使不具有全局相關性的不重要特征在網絡中傳播,從而影響精度。SE模塊對特征進行重新校準,使全局信息用于從特征圖中確定比其他更“有信息”的特征的權重。通過增加SE模塊,可以靈活地擴展網絡,并且只需很少的額外計算就可以提高網絡的性能。基于此,將Dense-Res2Net和SE模塊組合在一起。
SRGAN網絡由生成網絡與判別網絡兩部分組成。生成網絡通過對LR圖像進行放大,重建SR圖像。判別網絡對重建后的SR圖像和原始HR圖像進行判斷,輸出一個一維張量進行回歸分析。
生成網絡主要由下采樣模塊、殘差模塊和上采樣重建模塊組成。具體網絡模型如圖4所示。為了在提取LR圖像中的特征時盡量擴大其感受野,先將LR圖像通過一層9×9的卷積核,通道數為64,步長為1的卷積層,激活函數使用Prelu,Prelu能夠在幾乎沒有增加額外參數的情況下提升模型擬合能力又能避免出現(xiàn)過擬合現(xiàn)象。之后再經過16個由Dense-Res2Net和SE模塊組合的多尺度殘差模塊提取圖像特征,每一個殘差塊的輸入與輸出之間采用跳躍連接,以提高特征的重用,加強圖像的紋理信息。再通過一層3×3的卷積核,通道數為64,步長為1的卷積層,該卷積層同樣與第一層卷積層采用跳躍連接,緊接上層輸出通過兩個亞像素卷積層[8](Subpixel Layer)進行圖片的上采樣,將輸入圖像的長度和寬度分別重建為原來圖像的4倍,最后通過一個3×3的卷積核,通道數為64,步長為1的卷積層來調整圖像的通道數,激活函數使用tanh對圖像進行輸出。
對于判別網絡,BN層在判別任務有較好的表現(xiàn),而且能夠穩(wěn)定網絡的訓練,因此保留了BN層。在設計判別網絡時,首先通過一組卷積層與LeakyReLU激活函數,進行特征的初步提取,。之后通過7組卷積層+BN層+LeakyReLU激活函數的方式來對圖像特征進行深度提取。原始GAN存在的訓練不穩(wěn)定,采用了Wasserstein距離優(yōu)化生成對抗網絡,因此判別網絡從SR圖像與HR圖像的二分類問題變成了回歸問題,去掉了原來最后的sigmoid層,來保證損失的收斂,最后通過全連接層輸出一維張量。具體的網絡結構如圖5所示。
圖4 生成網絡結構Fig.4 Generate network structure
k3n64s1表示一個3×3的卷積核,通道數為64,步長為1的卷積層圖5 判別網絡結構Fig.5 Discriminating network structure
在原始SRGAN的重構損失、內容損失以及對抗損失[29]的基礎上加入了全變分正則化(total variation loss, TV)損失,TV損失有利于保持生成圖像的平滑性,減少噪聲。
重構損失LMSE表示生成圖像與原始HR圖像的逐像素點MSE損失,可以表示為
(3)
式(3)中:r為采樣因子;W、H分別為特征圖的長和寬;ISR與ILR分別為高分辨圖像與低分辨率圖像;GθG(ILR)x,y為生成網絡重建后的高分辨圖像。
通過重構損失能夠很好地表示生成圖像與真實圖像之間的差距,得到較高的信噪比,但圖像缺乏較多的高頻細節(jié)。因此在計算MSE損失之前加入內容損失,引入基于預訓練的VGG19網絡提取網絡的特征損失,定義為重建圖像的特征與原始高分辨率圖像之間的歐式距離,表達式為
φi,j[GθG(ILR)]x,y}2
(4)
式(4)中:LVGG/i,j為內容損失;φi,j為VGG網絡中第i層最大池化和第j個卷積核輸出的特征圖;Wi,j和Hi,j為其特征圖的維度。
生成網絡生成的高分辨圖像要盡可能的達到欺騙判別網絡的目的,以此讓生成的高分辨圖像最接近真實的高分辨率圖像。因此生成對抗網絡特有的對抗損失表達式為
L=EIHR~pr(IHR)[lgDθD(IHR)]+
EILR~pGr(ILR)(lg{1-DθD[GθG(ILR)]})
(5)
式(5)中:DθD(ILR)和DθD[GθG(ILR)]分別為判別器判別真實圖像和重建圖像為真實圖像的估計概率。
在訓練過程中引入Wasserstein距離優(yōu)化對抗損失,優(yōu)化后的對抗損失公式為
L=EIHR~pr(IHR)[DθD(IHR)]-
EILR~pGr(ILR){DθD[GθG(ILR)]}
(6)
將生成網絡對抗損失LG與判別網絡對抗損失LD分開定義為
(7)
(8)
TV正則化能夠抑制圖像中的噪聲,被定義為在輸出圖像中產生銳度的梯度差絕對值之和,公式定義為
(9)
綜合以上所有損失函數,判別網絡的總損失即為判別網絡對抗損失LD,生成網絡的總損失Ltotal定義為
Ltotal=LVGG/i,j+λ1LMSE+λ2LG+λ3LTV
(10)
式(10)中:λ1、λ2和λ3為權重系數。
實驗在Intel(R) Xeon(R) CPU @ 2.00 GHz處理器,NVIDIA Tesla P100 16 GB顯卡,Pytorch1.10.0環(huán)境下進行。實驗使用DIV2K作為主要的訓練數據集,其中包含800張用于圖像恢復任務的高質量圖像。為了使重建后的圖像具有更多豐富的紋理,使用Flickr2K數據集來擴充數據集,通過MATLAB工具箱對以上數據使用翻轉放縮等方法進行數據增強。分別使用Bicubic kernel降采樣4倍,得到LR圖像。測試集使用3個廣泛的基準數據集Set5、Set14和BSDS100。為了驗證模型的有效性,選取了傳統(tǒng)的超分方法雙三次插值法(Bicubic)和基于學習的方法FSRCNN[7]、VDSR[9]、SRGAN[15]、DRSR[30]、WDSRGAN[19]、HSRGAN[31]和FBSRGAN[20]。所有實驗在放大因子為4的情況下進行。
實驗采用峰值信噪比(peak signal-to-noise ratio, PSNR)與結構相似性(SSIM)兩種客觀評價指標對模型的超分效果進行評價,由于PSNR和SSIM指標不能很好地代表真實的圖像重建質量,引入一個更接近人類視覺感知的指標學習感知圖像塊相似度(learned perceptual image patch similarity, LPIPS)[32],故實驗采用PSNR、SSIM和LPIPS進行綜合評價。
PSNR是最常見和最廣泛的評價指標,它由均方誤差定義。將兩幅W×H的灰度圖像X和噪聲圖Y的均方誤差定義為
(11)
因此,峰值信噪比的定義為
(12)
式(12)中:XMAX為圖像中可能的最大像素值。如果每個采樣點都有B-bit線性脈沖碼調制表示,則XMAX值為28-1,即每個采樣點都有8位表示,則XMAX=255。在超分辨圖像處理中,PSNR的值越大,說明圖像重建效果更好。
SSIM從結構、亮度以及對比度量化圖像的屬性,協(xié)方差估計結構相似程度,用均值來估計亮度,方差估計對比度。其表達式為
(13)
式(13)中:x為重構后的高分辨率圖像;y為原始的高分辨圖像;μ為圖像均值;σ2x為重構高分辨圖像方差;σ2y為原始高分辨圖像方差;σxy為x和y的協(xié)方差,c1=(k1L)2,c2=(k2L)2都是常數用來避免分母為零。通常,k1=0.01,k2=0.03。SSIM的取值范圍為0~1,得到的值越接近于1,說明生成的HR圖像越接近于原始HR圖像。
LPIPS度量標準學習生成圖像到Ground Truth的反向映射強制生成器學習從假圖像中重構真實圖像的反向映射,并優(yōu)先處理它們之間的感知相似度。其表達式為
(14)
由于硬件實驗設備受限,對每個訓練集中的超分辨率圖像裁剪出96×96大小的圖像進行訓練,一個批次訓練的樣本數(batch size)16,模型使用Adam優(yōu)化器,一階動量參數β1=0.9,二階動量參數β2=0.99,訓練整個網絡之前,對生成網絡使用MSE損失進行預訓練,學習率為10-4,迭代10 000次。之后開始對生成網絡與判別網絡進行交叉訓練,迭代200 000次,初始學習率為10-4,然后再用學習率10-5,訓練200 000次。損失函數中的3個超參數λ1、λ2和λ3分別為10-3、2×10-6和2×10-8。
將原SRGAN算法與改進后模型中不同的算法在BSD100數據集上進行了消融實驗,來表明改進方法均有提高圖像質量的有效性,表1為改進后模型與原模型的性能比較結果。從表1可以看出,使用Res2Net代替原本的ResNet能使PSNR從24.93 dB提升到25.36 dB,提升了約0.43 dB,證明Res2Net本身能夠提升SRGAN的性能,之后使用Dense-Res2Net,對比使用Rest2Net的網絡,PSNR直接提高了0.36 dB,SSIM提高了0.005,LPIPS優(yōu)化了0.014,說明使用密集連接之后的Res2Net能進一步提升重建的效果。單獨加入SENet情況下,各項指標有小幅度提升,PSNR提高了0.22 dB,LPIPS優(yōu)化了0.017,僅SSIM下降了0.003。單獨加入TV損失時,指標幾乎沒有什么變化,因為TV損失針對圖像中噪聲的去除,對于圖像的質量提升并不明顯,表明加入TV損失不會使得圖像的成像質量下降。將3種改進方法融合后不僅在PSNR與SSIM提升了0.96 dB和0.013,且LPIPS從0.259優(yōu)化到了0.229,表明SENet能夠進一步提高Dense-Res2Net的性能,改進后的模型更加符合人類視覺,紋理細節(jié)方面表現(xiàn)得更好。
與現(xiàn)有主流算法進行比較時,為了保證實驗結果的公平性,所有的模型都在相同的實驗條件下進行復現(xiàn)。通過PSNR、SIMM、LPIPS 3個客觀指標與8個模型比較,具體的量化結構如表2所示,表中以粗體標出了最佳值。從表2中可以發(fā)現(xiàn),對于數據集BSD100,本文提出的算法在PSNR和SSIM的得分上相較于VDSR和DRSR提升不大,SSIM的平均值略高于二者,因為其僅針對MSE得分進行訓練來重建圖像,這類方法的PSNR和SSIM得分往往較高,但是在達到納什均衡之前,生成網絡會和判別網絡相互博弈,直到生成的圖像達到真實圖像的水平為止,GAN可以生成更符合人類感知的高質量圖像。
表1 改進后模型與原模型性能比較Table 1 Comparison of the performance of the improved model and the original model
表2 改進后算法與主流重建算法性能比較Table 2 Performance comparison between the improved algorithm and the mainstream reconstruction algorithm
本文提出的多尺度殘差生成對抗網絡模型在3個測試集中的平均PSNR、SSIM和LPIPS比同類型的SRGAN高0.83 dB、0.023和低0.022,比WDSRGAN高0.45 dB、0.026和低0.073,比HSRGAN高0.37 dB、0.03和低0.053,比FBSRGAN高0.23 dB、0.015和低0.02。這是因為本文的網絡模型,從多個尺度的不同權重來獲得圖像的特征,在同等特征的條件下能夠復用不同層次的特征來獲得更大的感受野,通過局部特征融合自適應地學習以前和當前特征中更有效的特征,同時LPIPS評價指標的結果要明顯好于其他超分算法,表明改進后的算法從多個尺度學習到了圖像的高頻信息,能夠更好的還原圖像的紋理細節(jié)與幾何特征。
為了證明本文算法在性能上的有效性,以測試集BSD100為例,在放大因子為4的情況下,對浮點運算次數(floating-point operations per second,FLOPs)和參數數量進行比較,具體結果如圖6所示。FLOPs可以衡量算法的執(zhí)行能效,從圖6(a)中可以看出,在早期的技術中,FSRCNN和DRSR可以通過少量的參數獲得較好的性能,但FSRCNN重建的圖像實際過于平滑,DRSR由于其復雜的網絡結構,仍然難以訓練。相比于本文算法的FLOPs雖然并不是很低,但可以更好地提取圖像的全局特征,相較于原始的SRGAN,其運算效率大大提高,比之HSRGAN和FBSRGAN也相對減少。在圖6(b)所示的參數數量上,對比SRGAN本文算法的參數數量減少了將近2/3,同時也優(yōu)于HSRGAN和VDSR。再通過對比表2中重建后的圖像結果可以看出,本文提出的算法在參數減少、運算效率提高的同時,生成的圖片質量有所提高,在重構性能、FLOPs、網絡參數量之間取得了良好的平衡。
圖6 性能和模型復雜性的比較Fig.6 Performance and model complexity comparison
為了更加直觀地比較重建效果,選取了測試數據集Set5、Set14、BSD100中各選擇一張圖像進行放大細節(jié)分析。圖7展示了嬰兒圖像重建后的眼部細節(jié)對比,使用Bicubic重建的圖像非常模糊,FSRCNN和VDSR重建后的圖像非常平滑,紋理細節(jié)不明顯,DRSR雖略有改善,但仍然不夠突出。SRGAN和HSRGAN重建后的圖像雖然在細節(jié)方面有所提高,但圖像出現(xiàn)了許多偽影,重建的質量不高,FBSRGAN則對其睫毛重建的細節(jié)不理想,而使用本文改進后的算法進行重建可以看出:嬰兒的睫毛細節(jié)紋理更加突出,面部細節(jié)更加豐富,圖像更接近于真實。從圖8所示蝴蝶局部方法細節(jié)可以看出,相比于FSRCNN、VDSR和DRSR中的平滑線條,本文算法重建的圖像更加真實,比SRGAN、HRGAN和FBSRGAN重建的圖像增加了更多的紋理線條細節(jié)。從圖9中可以看出,Bicubic算法的重建效果最模糊, VDSR和DRSR算法雖然客觀得分較高,但重建的圖像并不是很清晰,FBSRGAN等基于GAN的算法重建的細節(jié)雖然有所提升,但不符合人類視覺感官。相反,本文算法各項結果表現(xiàn)較好,能夠很好地重建出陶瓷的細節(jié)。
圖7 Set5數據集中baby局部細節(jié)比較Fig.7 Comparison of local details of baby in Set5 dataset
圖8 Set14數據集中monarch局部細節(jié)比較Fig.8 Comparison of local details of monarch Set14 dataset
圖9 BSD100數據集中227092局部細節(jié)比較Fig.9 Comparison of local details of 227092 BSD100 dataset
為了充分展示本文算法的特點和優(yōu)勢,將Set14數據集經過人工增加高斯噪聲[33],得到高斯模糊后的Set14數據集,證明本文算法在面對噪聲污染的圖片時,仍然能夠重建出較為清晰的超分辨率圖像。
首先將原本的Set14數據集HR圖像進行高斯噪聲處理,然后將其進行下采樣得到的LR圖像進行超分辨率重建。具體的重建結果如表3所示。從表3中可以看出,在噪聲污染的情況下,本文重建算法的優(yōu)勢更加明顯。在PSNR、SSIM指標上的得分均高于其他同類算法,同時LPIPS的值為0.374,遠超其他算法,表明重建噪聲污染的圖像,仍可以保留高頻的細節(jié)信息。
在視覺上,圖10展示了噪聲處理后Set14數據集中foreman圖像的重建效果,使用DRSR與VDSR算法的PSNR分別為25.18 dB與25.03 dB,在客觀指標上表現(xiàn)較好,重建的圖像更為平滑,但重建的圖像中存在較多噪聲,圖像仍不清晰。SRGAN、HSRGAN和FBSRGAN重建出的圖像雖然較為清晰,但有明顯的偽影出現(xiàn)在圖像上。本文算法在損失函數中加入了TV損失,因此可以很好地重建出缺失的區(qū)域,可以在去除噪聲的同時保留更多的邊緣信息,重建出的圖像在視覺上表現(xiàn)更為突出。
表3 噪聲污染的Set14數據集客觀指標比較Table 3 Comparison of Set14 dataset for noise pollution
圖10 噪聲污染的Set14數據集中foreman局部細節(jié)比較Fig.10 Comparison of local details of foreman in Set14 dataset for noise pollution
本文提出了一種多尺度殘差生成對抗網絡的圖像超分辨率重建算法。首先,在Res2Net多尺度提取圖像特征的前提下,使用了Dense-Res2Net,提高了圖像的特征復用率。同時組合SENet能夠根據特征的重要程度,自適應地分配不同的權值,進一步增強Res2Net的整體性能。其次,在損失函數中,使用VGG-19網絡在MSE損失之前提取特征圖,同時引入TV正則化,來抑制圖像重建過程中產生的噪聲。最后,去除了BN層,減少模型的計算成本,使用Wasserstein代替JS散度優(yōu)化網絡,提高模型的穩(wěn)定性。實驗結果表明,本文算法相比于同類型算法在PSNR與SSIM得分上均有一定提升,在LPIPS上的得分明顯好于其他超分算法,本文算法重建后的圖像更加符合人類視覺感受,擁有更加豐富的紋理與更少的噪聲。本研究僅在放大倍數為4的情況下進行,下一步將針對高倍數圖像重建,以及如何使模型更加輕量化進行研究。