端木春江 姚松林
摘? 要: 在圖像超分辨率中,現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)的方法較傳統(tǒng)方法有明顯的優(yōu)勢。然而,圖像超分辨率的更深層卷積神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練。同時(shí),由于低分辨率圖像包含豐富的低頻特征信息,而這些信息在信道上與高頻信息一起被平等地對(duì)待,因此阻礙了卷積神經(jīng)網(wǎng)絡(luò)的表達(dá)能力。文章提出了基于信道注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),充分考慮信道之間的相互依賴性,自適應(yīng)地重新調(diào)整信道的特征。實(shí)驗(yàn)表明,該算法較以前的算法可以實(shí)現(xiàn)更好的性能和更清晰的視覺效果。
關(guān)鍵詞: 圖像處理; 圖像超分辨率; 卷積神經(jīng)網(wǎng)絡(luò); 信道注意力機(jī)制
中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2020)04-26-03
The super-resolution method based on the neural convolutional networks
of channel attention mechanism
Duanmu Chunjiang, Yao Songlin
(College of Physics and Electronic Information Engineering, Zhejiang Normal University, Jinhua, Zhejiang 321004, China)
Abstract: In the image super-resolution, current convolutional neural network methods have better performance than the traditional ones. However, the deep convolutional neural networks are difficult for training in the image super-resolution. And the low-resolution images generally have more low-frequency information, and it is treated evenly with the high frequency information in the channels of the networks, which hinders the expression ability of the whole convolutional neural network. A new method which utilizes the channel attention mechanism is proposed in this paper, it fully considers the mutual reliance of channels, and adaptively readjusts the channel features. Experiment results show that the proposed method has better performance and visual quality than previous ones.
Key words: image processing; image super-resolution; convolutional neural network; channel attention mechanism
0 引言
針對(duì)僅由一幅低分辨率圖像(LR)重建對(duì)應(yīng)的高分辨率圖像(HR)的問題,通常稱為單幅圖像超分辨率(Super Resolution,SR)。單幅圖像超分辨率可應(yīng)用于計(jì)算機(jī)視覺的各方面,包括安全和監(jiān)控成像,醫(yī)學(xué)影像,模式識(shí)別等。然而,圖像超分辨率是一個(gè)病態(tài)的問題,因?yàn)閷?duì)于任何低分辨率圖像,產(chǎn)生其高分辨率圖像可以有無窮多的解。為了解決這樣的病態(tài)逆問題,許多學(xué)者提出了很多基于學(xué)習(xí)的方法來學(xué)習(xí)LR和HR圖像對(duì)之間的映射關(guān)系。
基于學(xué)習(xí)的圖像超分辨率技術(shù)是當(dāng)前超分辨率技術(shù)的研究熱點(diǎn)。最近,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法[4-5]相比傳統(tǒng)的超分辨率方法[1-3]已經(jīng)取得了顯著的進(jìn)步。
注意力機(jī)制將可用的處理資源分配給最具信息性和最有用的輸入。最近,注意力機(jī)制逐漸應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)[6-7]。Fei等[6]提出了用于圖像分類的殘差注意網(wǎng)絡(luò),具有注意力機(jī)制。注意力機(jī)制也應(yīng)用于圖像的定位和理解、基于序列的網(wǎng)絡(luò)圖像等[7]。然而,很少有人將注意力機(jī)制應(yīng)用到低級(jí)視覺任務(wù)(如圖像超分辨率處理)中。
基于CNN的方法將從原始LR圖像輸入中提取特征并平等地處理每個(gè)通道的特征,這樣的過程將浪費(fèi)不必要的計(jì)算以獲得豐富的低頻特征,缺乏跨特征通道的判別性學(xué)習(xí)能力,并最終阻礙深度網(wǎng)絡(luò)的代表性能力。為了實(shí)際解決這些問題,我們提出了一個(gè)基于通道注意力機(jī)制的網(wǎng)絡(luò)來獲得不同的特征,并同時(shí)自適應(yīng)地學(xué)習(xí)更有用的信道特征。
1 信道注意力網(wǎng)絡(luò)
1.1 所提出方法的網(wǎng)絡(luò)架構(gòu)
如圖1所示,所提出的方法的網(wǎng)絡(luò)結(jié)構(gòu)主要由三部分組成:淺特征提取,深度特征提取和重建模塊。我們將ILR和ISR表示為網(wǎng)絡(luò)的輸入和輸出。首先,只使用一個(gè)卷積層從LR輸入圖像中提取淺層特征F0。
⑴
其中HSF表示卷積運(yùn)算。
然后使用信道注意力層對(duì)淺層特征進(jìn)行深度特征提?。?/p>
⑵
其中HA表示深層特征提取操作。
信道注意力層由一個(gè)卷積層和信道注意力機(jī)制組成。信道注意力機(jī)制可以讓卷積層自適應(yīng)學(xué)習(xí)更有用的信道特征,以提取更有用的深層特征。因此將其輸出FDF視為深層特征,最后通過重建模塊進(jìn)行特征的放大和圖像的重建:
⑶
其中HREC表示特征的放大和重建操作。重建模塊包含兩個(gè)卷積層和一個(gè)亞像素卷積層。首先使用一個(gè)卷積層對(duì)深層特征進(jìn)行擴(kuò)展,為特征的放大做預(yù)處理,然后通過一個(gè)亞像素卷積層對(duì)特征進(jìn)行放大,最后通過一個(gè)卷積層重建放大后的特征。
1.2 引入注意力機(jī)制
如何針對(duì)每個(gè)信道特征產(chǎn)生不同的注意值是關(guān)鍵步驟。這里主要有兩個(gè)問題。①LR圖像特征中具有豐富的低頻信息和有價(jià)值的高頻信息。低頻信息比較平滑,高頻信息通常是區(qū)域性的,包含邊緣、紋理和其他細(xì)節(jié)等。②卷積層中的每個(gè)濾波器都使用相同的感受野進(jìn)行操作。因此,卷積后的輸出特征無法充分利用自身區(qū)域之外的其他信息。
基于對(duì)上述問題分析,通過使用全局平均池化,來將信道的全局空間信息轉(zhuǎn)換為信道描述符。如圖2所示,設(shè)輸入特征X=[x1,…,xc,…,xC],C個(gè)特征圖的尺寸為H×W。通過壓縮X可以獲得信道的統(tǒng)計(jì)向量z,z的第c個(gè)元素由下式確定:
⑷
其中,xc(i,j)是第c個(gè)特征xc在位置(i,j)處的值,HGP表示全局池化函數(shù)。
為了從聚合信息中完整獲得信道的依賴性,引入了一個(gè)門控機(jī)制,這里選擇利用Sigmoid激活函數(shù)的來進(jìn)行門控機(jī)制:
⑸
其中,F(xiàn)和δ分別表示S形門控、和ReLU函數(shù)。W1是信道縮減層的權(quán)重,在被ReLU函數(shù)激活后,低維信號(hào)通過信道擴(kuò)展層以比率r增加,其權(quán)重設(shè)置為W2。然后便可以獲得最終的信道統(tǒng)計(jì)值S,對(duì)輸入xc進(jìn)行縮放:
⑹
其中,S和xc分別表示第c個(gè)信道中的縮放因子和特征映射。通過信道注意力機(jī)制,圖像特征被自適應(yīng)地重新縮放。
1.3 網(wǎng)絡(luò)模型架構(gòu)的細(xì)節(jié)
信道縮減層和信道擴(kuò)展層的內(nèi)核大小為1×1。除了信道縮減層和信道擴(kuò)展層外,其他所有卷積層的內(nèi)核大小都為3×3。內(nèi)核大小為3×3的卷積層均使用零填充來保持特征大小固定。淺層特征提取和深層特征提取的卷積層中,濾波器的數(shù)量為64個(gè)。信道縮減層有所不同,其卷積層有4個(gè)濾波器,縮減率r為16。重建模塊中,第一個(gè)卷積層有32n個(gè)濾波器,n為超分辨率需要放大的倍數(shù)。最終的重建層的濾波器數(shù)量只有3個(gè),因?yàn)榫W(wǎng)絡(luò)輸出的是彩色圖像。同時(shí),該網(wǎng)絡(luò)也可以處理灰度圖像。
損失函數(shù)將采用L1損失函數(shù):
⑺
其中,θ表示網(wǎng)絡(luò)的參數(shù)。利用隨機(jī)梯度下降法對(duì)損失函數(shù)進(jìn)行優(yōu)化。
2 實(shí)驗(yàn)結(jié)果
2.1 實(shí)驗(yàn)設(shè)置
本論文采用DIV2K數(shù)據(jù)集的800張高清訓(xùn)練圖像作為訓(xùn)練集。測試集采用兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集:Set5和Set14。實(shí)驗(yàn)結(jié)果在YCbCr顏色空間的Y信道(即亮度)上用PSNR(峰值信噪比)和SSIM(結(jié)構(gòu)相似度)進(jìn)行評(píng)估。
2.2 實(shí)驗(yàn)結(jié)果與討論
在表1、表2、表3、表4中,展示了本論文的方法與以前的方法(A+、SRCNN)進(jìn)行比較的實(shí)驗(yàn)結(jié)果。從這些表格中,可以看出,與以前的方法相比,本文方法在放大倍數(shù)為2、3、4時(shí),在Set5和Set14數(shù)據(jù)集上,其實(shí)驗(yàn)結(jié)果均好于之前的方法。
在圖3中,放大因子為3時(shí),對(duì)各種方法的重建圖像進(jìn)行了視覺比較。對(duì)于圖像“butterfly”,可以觀察到以前的方法不能很好地恢復(fù)邊緣細(xì)節(jié),并且有模糊、偽影等現(xiàn)象。相比之下,本文提出的算法可以更好地緩解模糊的偽影,并恢復(fù)更多細(xì)節(jié)。因此,實(shí)驗(yàn)結(jié)果表明,本算法提出的網(wǎng)絡(luò)具有不錯(cuò)的表征能力,可以從LR圖像中提取更復(fù)雜的特征。
3 結(jié)束語
本論文提出了一個(gè)基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu),用于對(duì)單幅圖像進(jìn)行超分辨率放大。通過加深網(wǎng)絡(luò)的深度,使所提出的網(wǎng)絡(luò)可以提取圖像中更深層的特征信息。同時(shí)把注意力機(jī)制引入到所提出的網(wǎng)絡(luò)中,利用信道之間的相互依賴性來自適應(yīng)地重新調(diào)整信道特征。實(shí)驗(yàn)表明,所提出的方法在標(biāo)準(zhǔn)測試集中所重構(gòu)的高分辨率的圖像的質(zhì)量更高,在PSNR和SSIM指標(biāo)上超過了之前的方法,同時(shí)提出的方法的重構(gòu)圖像具有更清晰和更豐富的紋理信息。利用更深層次的網(wǎng)絡(luò)來進(jìn)行圖像的超分辨率放大,并取得更好的效果,將是未來的研究方向。
參考文獻(xiàn)(References):
[1] W. W. Zou , P. C. Yue. Very low resolution facerecognition problem[J]. IEEE Transactions on Image Processing,2012.21(1):327-40
[2] J.D. Van Ouwerkerk. Image super-resolution survey [J].?Image & Vision Computing,2006.24(10):1039-1052
[3] J. Yang , J. Wright, T.S. Huang, et al. Image?super-resolution via sparse representation[J]. IEEE Transactions on Image Processing,2010.9(11):2861-2873
[4] C. Dong , C.C. Loy , K. He, et al. Image super-resolutionusing deep convolutional networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014.38(2):295-307
[5] W. S. Lai, J.B. Huang, N. Ahuja, et al. Fast and AccurateImage Super-Resolution with Deep Laplacian Pyramid Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2019 41(11):2599-2613
[6] W. Fei, M. Jiang, Q. Chen, et al. Residual AttentionNetwork for Image Classification [C]. Honolulu, HI, United states: Proceedings of 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017:6450-6458
[7] K. Li, Z. Wu, K.C. Peng, et al. Tell me where to look:guided attention inference network [C]. Salt Lake City, UT, United states: Proceedings of 31th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018:9215-9223