周登文 王婉君 馬 鈺 高丹丹
單圖像超分辨率 (Single Image Super-Resolu- tion, SISR)[1]是一個基本的低級計算機(jī)視覺問題,旨在由一個給定的低分辨率 (Low-Resolution, LR)圖像生成對應(yīng)的高分辨率 (High-Resolution, HR)圖像.SISR在醫(yī)學(xué)成像[2]、物體識別[3]、視頻監(jiān)控[4]和遙感成像[5]等領(lǐng)域都具有廣泛應(yīng)用.SISR是一個病態(tài)的逆問題,因為許多HR圖像可退化為相同的LR圖像,重建的超分辨率(Super-Resolution, SR)圖像往往會出現(xiàn)模糊、紋理細(xì)節(jié)丟失和失真等問題.
早期SISR的研究[6-7]主要是基于插值的方法,如雙線性插值和雙三次插值.基于插值的方法現(xiàn)仍廣泛使用,其優(yōu)勢是簡單、計算復(fù)雜度很低,但是不能恢復(fù)LR圖像中丟失的圖像細(xì)節(jié).基于稀疏字典學(xué)習(xí)的方法[8-10]改進(jìn)基于插值的方法,旨在通過訓(xùn)練圖像,學(xué)習(xí)LR圖像和HR圖像之間的映射函數(shù).但是基于稀疏字典學(xué)習(xí)的方法往往優(yōu)化困難,同時具有較高的推理復(fù)雜度.卷積神經(jīng)網(wǎng)絡(luò)(Convolu-tional Neural Networks, CNN)[11-16]直接端到端地學(xué)習(xí)LR圖像和HR圖像之間的映射函數(shù),已主導(dǎo)當(dāng)前SISR技術(shù)的研究.但是基于CNN的SISR方法嚴(yán)重依賴于網(wǎng)絡(luò)規(guī)模,即網(wǎng)絡(luò)中參數(shù)量、深度(層數(shù))和寬度(通道數(shù))等.
為了提升SISR的性能,往往需要規(guī)模更大的網(wǎng)絡(luò).Lim等[17]提出EDSR(Enhanced Deep SR Network),有65個卷積層,參數(shù)量為43 M.Zhang等[18]提出RCAN(Very Deep Residual Channel Attention Net-works),卷積層數(shù)超過800,參數(shù)量為16 M.
EDSR和RCAN雖然在性能上有顯著提升,但是需要較高的計算和存儲能力,難以在資源受限的設(shè)備(如手機(jī))上應(yīng)用.設(shè)計輕量級SISR網(wǎng)絡(luò)(計算和存儲需求較低)是當(dāng)前SISR方法研究的熱點,但面臨在CNN復(fù)雜度和性能之間如何建立更好平衡的挑戰(zhàn).
設(shè)計輕量級SISR網(wǎng)絡(luò)的一個選擇是使用遞歸結(jié)構(gòu)[19-24],卷積層(或塊)之間參數(shù)共享,在增加網(wǎng)絡(luò)深度時參數(shù)量不變,但依舊會增加計算量.特征蒸餾網(wǎng)絡(luò)是一個更有效的輕量級網(wǎng)絡(luò)架構(gòu)設(shè)計方案[25-26].Hui等[25]提出IMDN(Lightweight Information Multi-distillation Network),構(gòu)造IMDB(Information Multi-distillation Blocks),包含蒸餾和選擇性融合2部分.IMDN采用通道分裂和分層的特征蒸餾,IMDB根據(jù)特征的重要性進(jìn)行融合.Liu等[26]提出RFDN(Residual Feature Distillation Network),改進(jìn)IMDB的通道分裂和特征蒸餾,更輕量、有效,獲得AIM 2020[27]高效SR挑戰(zhàn)賽第1名.學(xué)者們也提出其它的輕量級SR網(wǎng)絡(luò)架構(gòu)[28-31].Li等[28]提出LAPAR(Linearly-Assembled Pixel-Adaptive Regression Net-work),將LR圖像到HR圖像的映射學(xué)習(xí)轉(zhuǎn)換為多個預(yù)定義濾波器庫字典上的線性系數(shù)回歸任務(wù).Zhao等[29]使用自校準(zhǔn)卷積作為基本的網(wǎng)絡(luò)構(gòu)件,提出PAN(Pixel Attention Networks).Chen等[30]提出A2N (Attention in Attention Network),由非注意力分支與耦合注意力分支構(gòu)成,并為2個分支生成動態(tài)注意力權(quán)重.李金新等[31]提出基于多層次特征的輕量級單圖像超分辨率網(wǎng)絡(luò).Li等[32]提出MSRN(Multi-scale Residual Network),基本構(gòu)件是MSRB(Multi-scale Residual Block),可提取與融合不同尺度的特征.MSRB是有效的,但是不夠輕量.
基于上述情況,本文提出基于區(qū)域互補注意力和多維注意力的輕量級圖像超分辨率網(wǎng)絡(luò)(Lightweight Image Super-Resolution Network Based on Regional Complementary Attention and Multi-dimen-sional Attention, RCA-MDA).首先提出通道重組聚合卷積單元(Channel Shuffle Aggregation Convolution Unit, CSAConv)和多交互殘差塊(Multiple Interactive Residual Block, MIRB),CSAConv使MIRB較輕量,可有效融合多尺度特征.為了提高特征利用率和表達(dá)能力,提出區(qū)域互補注意力塊(Region Comple-mentary Attention Block, RCAB)和多上下文信息融合塊(Multi-context Information Fusion Block, MI-FB),可使圖像不同區(qū)域的信息得到互補,有效提取和融合局部與非局部的多尺度特征.同時設(shè)計多維注意力塊(Multi-dimensional Attention Block, MD-AB),可同時逐像素地關(guān)注特征通道維和空間維的相關(guān)性,更有效利用特征信息.實驗表明本文網(wǎng)絡(luò)性能較優(yōu),并將當(dāng)前輕量級超分辨率網(wǎng)絡(luò)的復(fù)雜度和性能平衡提升到一個較高水平.
本文提出基于區(qū)域互補注意力和多維注意力的輕量級圖像超分辨率網(wǎng)絡(luò)(RCA-MDA),網(wǎng)絡(luò)架構(gòu)如圖1所示.
RCA-MDA主要包括4部分:淺層特征提取塊(Shallow Feature Extraction Block, SFEB)、非線性特征映射塊(Non-linear Feature Mapping Block, NFMB)、全局特征融合塊(Global Feature Fusion Block, GFFB)和上采樣塊(Upsampler).SFEB僅包括1個3×3卷積層和1個滲漏修正線性單元(Leaky Rectified Linear Unit, LReLU)[33].Upsampler使用亞像素卷積[34].NFMB級聯(lián)N(本文中N=3)個多上下文信息融合塊(MIFB).GFFB主要由多尺度的通道重組聚合卷積單元(CSAConv)和多維注意力塊(MDAB)組成.
給定輸入的LR圖像ILR,首先輸入到SFEB,得到淺層特征:
F0=LReLU(C3×3(ILR)),
其中,C3×3(·)表示3×3的卷積函數(shù),LReLU(·)表示LReLU激活函數(shù).
F0再輸入到NFMB中N個級聯(lián)的MIFB塊,提取多層深度上下文特征:
Ffusion=fGFFB(F1,F2,…,FN),
其中fGFFB(·)表示全局特征融合的函數(shù).Ffusion和ILR同時輸入Upsampler塊,獲得目標(biāo)SR圖像:
ISR=fup(Ffusion)+fup(C3×3(ILR)),
其中,fup(·)表示亞像素卷積上采樣[35],C3×3(·)表示3×3的卷積函數(shù),ISR表示輸入的SR圖像.
圖1 RCA-MDA網(wǎng)絡(luò)架構(gòu)
Zhang等[36]為移動設(shè)備設(shè)計計算效率較高的CNN架構(gòu),稱為ShuffleNet,基本構(gòu)件是ShuffleNet單元,結(jié)構(gòu)如圖2(a)所示.由于引入逐點的分組卷積,大幅降低計算代價,但ShuffleNet是為物體分類和檢測等高級視覺任務(wù)設(shè)計的,包含批規(guī)范化(Batch Normalization, BN)層[37].BN層對低級視覺任務(wù)——圖像超分辨率是有害的[17].CSAConv結(jié)構(gòu)如圖2(b)所示,去掉ShuffleNet單元中的BN層,也去掉ShuffleNet單元中的殘差連接和修正的線性單元(Rectified Linear Unit, ReLU)[38].另外,考慮到分組卷積,不同組的通道之間無交互,會降低特征的表達(dá)能力,因此使用1×1卷積代替Shuffle-
Net單元中最后的逐點分組卷積(Group Convolution, GConv).CSAConv是一個結(jié)構(gòu)更簡單、適用于SISR的基本網(wǎng)絡(luò)構(gòu)件.實驗表明:相比使用逐點的分組卷積,使用1×1卷積時,模型復(fù)雜度和性能之間具有更好的平衡.
CSAConv作為基本的計算單元,替代常規(guī)的卷積,可顯著減少參數(shù)量和計算量.假定輸出通道數(shù)均為C,特征圖大小為H×W,核大小為k×k的卷積的參數(shù)量為k2C2,計算量為k2C2HW.對于核大小為k×k的CSAConv,假定分組卷積的組數(shù)為g,參數(shù)量為
計算量為
在本文的設(shè)置中,C=48,k=3,g=3,若設(shè)H=W=64,常規(guī)卷積的參數(shù)量和計算量都大約是CSAConv的6倍.CSAConv-1表示去掉圖2(b)中逐深度卷積(Depthwise Convolution, DWConv).CSAConv-3表示CSAConv中的DWConv,使用核大小為3×3的標(biāo)準(zhǔn)卷積.CSAConv-d表示CSAConv中的DWConv,使用核大小為3×3、擴(kuò)張率為d的擴(kuò)張卷積.
(a)ShuffleNet單元[36]
(b)CSAConv
1.2 多上下文信息融合塊
如圖1所示,MIFB主要包括3條分支,從上到下分別為:分支1、分支2、分支3.分支1只是一個簡單的殘差連接.分支2包含M(本文中,M=6)個級聯(lián)的MIRB.分支3為1個RCAB.
MIRB中的擴(kuò)張卷積有不同的擴(kuò)張率.例如,6個級聯(lián)的MIRB中的擴(kuò)張率分別為1、2、3、3、2、1,以捕獲不同尺度的上下文特征.RCAB使圖像不同區(qū)域的信息互相補充,在不同大小的感受野范圍融合互補信息.基于MIRB和RCAB,MIFB可充分融合多尺度、局部和非局部的多上下文特征信息,有效利用LR圖像的自相似性.第n個MIFB支路2的輸出特征可表示為
其中fRCAB(·)表示RCAB函數(shù).第n個MIFB的輸出特征可表示為
其中⊙表示逐元素相乘.
1.2.1 多交互殘差塊
Li等[32]提出MSRB,使用3×3和5×5的卷積核,捕獲多尺度特征信息,并進(jìn)行跨尺度的交互.不過MSRB每個支路只有2個卷積層.實驗顯示: 增加卷積層數(shù)和跨尺度交互次數(shù),可更充分地利用特征信息,提高特征的表達(dá)能力.另外,MSRB使用的3×3和5×5的卷積,不夠輕量、靈活.本文提出的MIRB與MSRB結(jié)構(gòu)類似,參見圖1.重要改進(jìn)如下:1)把MSRB中的3×3卷積替換為CSAConv-3,5×5的卷積替換為CSAConv-d,可大幅減少參數(shù)量和計算量;2)進(jìn)行更多次數(shù)的多尺度特征交互,改進(jìn)性能(為了平衡性能與參數(shù)量和計算量,文中進(jìn)行3次多尺度特征交互).值得注意的是,MIRB比MSRB更靈活,通過調(diào)整CSAConv-d中DWConv的擴(kuò)張率,可較容易獲得更多不同尺度的特征信息.假定第n個MIFB塊中第m個MIRB的第1次多尺度特征交互的輸出為(忽略LReLU非線性激活)
(1)
其中,fCUS3×3(·)表示MIRB上支路的第1個CSAConv-
3函數(shù),fCUD3×3(·)表示MIRB下支路的第1個CSAConv-d函數(shù),[·]表示特征通道拼接,Fn,m-1表示第n個MIFB中第m-1個MIRB的輸出,即第n個MIFB中第m個MIRB的輸入.
其中C1×1(·)表示1×1的卷積函數(shù).
1.2.2 區(qū)域互補注意力塊
Zhang等[39]提出分割拼接塊(Cutting-Splicing Block, CSB),首先把特征圖分割成n×n的單元,然后把它們在通道維進(jìn)行拼接,再利用3×3的卷積提取局部和非局部的空間信息.受Zhang等[39]的啟發(fā),為了使網(wǎng)絡(luò)學(xué)習(xí)到圖像本身的自相似性,本文提出更輕量的RCAB,使圖像不同區(qū)域的特征信息可互相補充.
RCAB的結(jié)構(gòu)如圖1所示.輸入特征在通道維劃分成相等的兩部分,在2個支路上進(jìn)行如下處理.
1)在特征空間維度分別分割成大小相等的4塊,并在通道維進(jìn)行拼接.
2)對拼接后的特征:一個支路使用1×1卷積,學(xué)習(xí)4個像素點位置和通道的依賴性;另一個支路使用3×3的逐深度卷積和1×1逐點卷積(即深度可分離卷積),學(xué)習(xí)4個非局部區(qū)域間特征的依賴性,即令圖像不同區(qū)域的特征信息互相補充.
3)2個支路的特征自適應(yīng)地拼接,還原成輸入時的形狀,自適應(yīng)參數(shù)隨網(wǎng)絡(luò)模型端到端地學(xué)習(xí).
4)通過一個3×3逐深度卷積和一個1×1逐點卷積,進(jìn)一步融合特征,并使用Sigmoid函數(shù),獲得注意力權(quán)重.
RCAB包含兩條支路,假定RCAB使用單分支,輸入通道數(shù)為C,卷積核大小為k×k,僅用1×1卷積進(jìn)行區(qū)域間信息融合,參數(shù)量為C2+k2C+C2.雙分支RCAB如圖1所示,參數(shù)量為
若C=48,k=3,參數(shù)量大約減少30%.
其中,fCUT(·)表示特征空間維分割和特征通道拼接函數(shù),fICUT(·)表示fCUT(·)的逆函數(shù),DWC3×3(·)表示3×3的逐深度卷積函數(shù),λ1、λ2表示可學(xué)習(xí)的參數(shù),FRC表示兩個支路的輸出特征.
第n個MIFB的注意力塊RCAB的權(quán)重可計算為
1.3 全局特征融合塊
非線性特征映射塊(NFMB)中每個MIFB塊的輸出特征輸入到GFFB塊進(jìn)行分層的全局特征信息融合.GFFB有N個主支路(對應(yīng)N個層的特征),每個主支路處理一個層的特征(即對應(yīng)MIFB塊的輸出),如圖1所示.每個MIFB塊的輸出分別通過一個主支路中CSAConv-1和CSAConv-3,然后進(jìn)行通道拼接,再輸入MDAB.N個主分支的輸出分別乘以一個可學(xué)習(xí)的自適應(yīng)參數(shù),再求和,作為GFFB塊的輸出.這個過程可表示為
其中,fCUS1×1(·)表示CSAConv-1函數(shù),fCUS3×3(·)表示CSAConv-3函數(shù),[·]表示特征通道拼接,fMDAB(·)表示MDAB塊函數(shù),μn表示可學(xué)習(xí)的參數(shù),Fn表示第n個MIFB的輸出,Ffusion表示GFFB的輸出.
當(dāng)前,在SISR中,常見的注意力機(jī)制是通道注意力[40]和空間注意力[41].假定特征圖的大小為C×H×W(C為特征的通道數(shù),H、W為特征的高、寬),通道注意力計算1個一維向量(C×1×1),建模通道之間的依賴關(guān)系.空間注意力計算1個二維的矩陣(1×H×W),建??臻g位置之間的依賴關(guān)系.
Zhang等[39]提出一階三元組注意力,類似于通道注意力,它在特征的通道、行和列三個方向建模跨維度之間的依賴關(guān)系.Zhao等[29]提出像素注意力(Pixel Attention, PA),使用1×1的卷積和Sigmoid函數(shù),計算一個三維逐像素的矩陣(C×H×W).MDAB結(jié)構(gòu)如圖3所示,與PA類似,也是計算一個三維逐像素的矩陣(C×H×W).但是它們有如下區(qū)別:1)1×1的卷積替換為CSAConv-3,Sigmoid函數(shù)替換為Softmax函數(shù).2)為了更好地建模特征通道維和空間維的依賴關(guān)系,分別在通道維和空間維學(xué)習(xí)特征像素之間的依賴關(guān)系.MDAB包含1個CSA-Conv和2個1×1卷積,假定輸入通道數(shù)為48,MDAB的參數(shù)量僅約為8.1 K.
圖3 MDAB結(jié)構(gòu)圖
假定MDAB的輸入特征為FMS,分別經(jīng)過一個1×1卷積和CSAConv-3.CSAConv的輸出分別在通道維和空間維執(zhí)行Softmax函數(shù),獲得2個像素級的注意力權(quán)重.1×1卷積的輸出被這2個注意力權(quán)重加權(quán),并求和,再通過一個1×1卷積進(jìn)行信息融合.
FMS通過1×1卷積后的輸出特征為
FCom=C1×1(FMS).
FMS通過CSAConv-3后的輸出特征可表示為
FCUS=fCUS3×3(FMS),
其中fCUS3×3(·)表示CSAConv-3函數(shù).MDAB塊的輸出特征可表示為
FMDA=FCom⊙τ1(FCUS)+FCom⊙τ2(FCUS),
其中,⊙表示逐元素相乘,τ1(·)表示在通道維上執(zhí)行Softmax函數(shù),τ2(·)表示在空間維上執(zhí)行Softmax函數(shù).
MDAB實現(xiàn)簡單,也可方便地組合到其它SR模型中.
2.1 實驗設(shè)置
本文采用DIV2K數(shù)據(jù)集[42]作為訓(xùn)練和驗證數(shù)據(jù)集.第1幅~第800幅圖像用于訓(xùn)練,第821幅圖像~第830幅圖像用于驗證,標(biāo)記為DIV2K_val10.原HR訓(xùn)練圖像進(jìn)行雙三次下采樣,獲得配對的LR圖像.類似其它方法,對輸入圖像隨機(jī)地進(jìn)行90°、180°、270°旋轉(zhuǎn)和水平翻轉(zhuǎn),增強(qiáng)訓(xùn)練圖像.測試數(shù)據(jù)是5個標(biāo)準(zhǔn)的測試數(shù)據(jù)集: Set5[43]、Set14[9]、B100[44]、Urban100[45]和Manga109[46].
在YCbCr空間[35]的亮度(Y)通道上,計算峰值信噪比(Peak Signal to Noise Ratio, PSNR)和結(jié)構(gòu)相似性指數(shù)(Structural Similarity Index, SSIM)[47].
本文也給出各方法的參數(shù)量和計算量.計算量即GFLOPs(Giga Floating-Point Operations Per Se-
cond)[36],指乘法和加法運算的次數(shù).在模型訓(xùn)練中,每批次隨機(jī)選取16個64×64的圖像塊.使用Adam(Adaptive Moment Estimation)優(yōu)化器[48],
β1=0.9,β2=0.999 ,ε=10-8.
2倍SR模型訓(xùn)練1 000個迭代周期,初始學(xué)習(xí)率設(shè)置為2.5×10-3,每200個迭代周期衰減一半.2倍SR模型作為3倍SR和4倍SR的預(yù)訓(xùn)練模型,3倍SR和4倍SR模型同樣訓(xùn)練1 000個迭代周期.所有訓(xùn)練過程均使用L1損失函數(shù).使用Pytorch[49]框架和一個NVIDIA 2080Ti GPU實現(xiàn)模型,并進(jìn)行模型的訓(xùn)練和測試.
在RCA-MDA架構(gòu)中,級聯(lián)3個MIFB塊,每個MIFB塊的輸入通道數(shù)和輸出通道數(shù)均為48.每個MIFB塊級聯(lián)6個MIRB塊,每個MIRB塊中擴(kuò)張卷積的擴(kuò)張率分別為1,2,3,3,2,1.每個MIRB塊中CSAConv的輸入通道數(shù)為48,輸出通道數(shù)為24,分組卷積的組數(shù)為3.每個RCAB塊中可學(xué)習(xí)參數(shù)的初始值設(shè)置為
λ1=0.5,λ2=0.5.
GFFB塊中可學(xué)習(xí)參數(shù)的初始值設(shè)置為
μ1=0.3,μ2=0.3,μ3=0.4.
2.2 各模塊性能分析
2.2.1 多上下文信息融合塊
當(dāng)NFMB中分別級聯(lián)2、3和4個MIFB塊時,在DIV2K_val10驗證集上,3倍SR的PSNR和參數(shù)量對比如表1所示.由表可看出,MIFB塊個數(shù)更多,即網(wǎng)絡(luò)深度更深,PSNR性能更優(yōu).MIFB個數(shù)由2增加到3時,參數(shù)量增加141 K,PSNR增加0.142 dB.MIFB個數(shù)由3增加到4時,參數(shù)量減少139 K,但是PSNR僅減少0.009 dB.因此當(dāng)MIRB個數(shù)為3時,性能和參數(shù)量之間達(dá)到較好平衡.
表1 MIFB塊個數(shù)不同時,3倍SR的PSNR和參數(shù)量對比
2.2.2 多交互殘差塊
為了探究MIRB中擴(kuò)張卷積使用不同擴(kuò)張率對網(wǎng)絡(luò)性能的影響,進(jìn)行5組對比實驗.在6個MIRB中,一個支路的卷積核均為3×3,另一個支路擴(kuò)張卷積的擴(kuò)張率分別設(shè)置如下:1)均為1;2)均為2;3)均為3;4)1,2,3,1,2,3;5)1,2,3,3,2,1.這個設(shè)置是經(jīng)驗性的,情形1)~情形3)使用相同大小卷積核,分別為3×3、5×5和7×7.情形4)逐漸增大卷積核.情形5)逐漸增大卷積核,再逐漸減少卷積核,這個設(shè)置也與 Zhang等[39]設(shè)置相同.在 DIV2K_val10驗證集上,3倍SR的 PSNR值如下:情形1)時,PSNR為29.536 dB;情形2)時,PSNR為29.640 dB;情形3)時,PSNR為29.410 dB;情形4)時,PSNR為29.345 dB;情形5)時,PSNR為29.676 dB.由此可看出:情形4)結(jié)果最壞,情形5)結(jié)果最優(yōu).情形5)可更充分地融合3×3到7×7不同尺度的上下文特征信息.
分組卷積可減少參數(shù)量和計算量.MIRB塊中CSAConv最后的1×1卷積可替換為1×1的分組卷積.在DIV2K_val10驗證集上,1×1的分組卷積組數(shù)為3.3倍SR時,使用1×1分組卷積,參數(shù)量為334 K,PSNR為29.605 dB.CSAConv最后使用1×1卷積時,參數(shù)量為425 K,PSNR為29.676 dB.相比分組卷積,1×1卷積時,參數(shù)量增長91 K,但PSNR增長0.071 dB,說明使用1×1卷積時,模型在參數(shù)量和性能間取得較好平衡.
為了探索MIRB塊中多尺度特征間交互次數(shù)對性能的影響,進(jìn)行3組對比實驗,交互次數(shù)分別設(shè)為 2,3,4.在DIV2K_val10驗證集上,3倍SR的PSNR和參數(shù)量對比如表2所示.由表可看出,交互次數(shù)越多,PSNR性能越優(yōu).交互次數(shù)由2增加到3時,參數(shù)量增加92 K,PSNR提高0.112 dB;交互次數(shù)由3增加到4時,參數(shù)量增加91 K,PSNR僅提高0.029 dB.因此交互次數(shù)為3是一個合理的折衷.
表2 MIRB塊中多尺度特征間交互次數(shù)不同時,3倍SR的PSNR和參數(shù)量對比
2.2.3 區(qū)域互補注意力塊
為了驗證RCAB的有效性,在MIFB中,進(jìn)行包含和不包含RCAB的2組對比實驗.在DIV2K_val10驗證集上,MIFB中使用RCAB時3倍SR的PSNR為29.631 dB,不使用RCAB時3倍SR的PSNR為29.676 dB.可以看出,使用RCAB塊時,PSNR提升0.047 dB.
2.2.4 多維注意力塊
為了驗證MDAB的有效性,進(jìn)行6組對比實驗.對于GFFB塊:
1)去掉MDAB塊,模型稱為MDAB_0.
2)MDAB塊替換為SE通道注意力塊[40],模型稱為MDAB_1.
3)MDAB塊替換為Woo等[41]提出的空間注意力塊,模型稱為MDAB_2.
4)MDAB替換為Woo等[41]提出的通道和空間注意力塊CBAM(Convolutional Block Attention Mo-dule),模型稱為MDAB_3.
5)MDAB塊替換為PA[29],模型稱為MDAB_4.
6)使用本文的MDAB,模型稱為MDAB_5(即RCA-MDA).
在DIV2K_val10驗證集上,3倍SR的PSNR和參數(shù)量對比如表3所示.由表可看出,使用MDAB-5效果最優(yōu).
表3 GFFB中注意力塊不同時,3倍SR的PSNR和參數(shù)量對比
為了驗證RCA-MDA性能,首先對比較大模型MSRN[29]與RCA-MDA的性能,結(jié)果如表4所示.
同時,選擇如下13個代表網(wǎng)絡(luò)進(jìn)行客觀定量對比和主觀視覺效果對比:SRCNN(Image SR Using Deep Convolutional Networks)[11]、DRCN(Deeply-Recursive Convolutional Network)[19]、MemNet(Very Deep Persistent Memory Network)[21]、IMDN[25]、RFD-N[26]、LAPAR[28]、CARN(Cascading Residual Net-work)[50]、IDN(Information Distillation Network)[51]、FSRCNN(Fast SR CNN)[52]、VDSR (Accurate Image SR Using Very Deep Convolutional Networks)[53]、LapSRN (Laplacian Pyramid SR Network)[54]、 AWS-RN(Adaptive Weighted Learning SR Network)[55]、SMSR(Sparse Mask SR)[56].在5個標(biāo)準(zhǔn)測試數(shù)據(jù)集上,當(dāng)放大倍數(shù)為2,3,4時,各網(wǎng)絡(luò)的PSNR和SSIM值對比如表5~表7所示,表中黑體數(shù)字表示最優(yōu)值,斜體數(shù)字表示次優(yōu)值.
從表4~表7可看出,除早期網(wǎng)絡(luò)(SRCNN、FSRCNN和LapSRN)計算量小于RCA-MDA外,其它方法的計算量都大于RCA-MDA.以放大倍數(shù)為4為例,在所有測試數(shù)據(jù)集上,RCA-MDA的PSNR值和SSIM值幾乎是最好的.除MSRN以外,其它網(wǎng)絡(luò)的PSNR值和SSIM值結(jié)果來自作者的原論文.MSRN的結(jié)果源自作者在https://github.com/MIVRC-/MSRN-PyTorch上提交的結(jié)果.
對于輕量級模型,除了參數(shù)量以外,推理時間也是一個重要指標(biāo),在Urban100測試集上,各網(wǎng)絡(luò)4倍SR的推理時間如下:CARN為0.18 s,AWSRN為0.05 s,IMDN為0.08 s,LAPAR為0.13 s,RFDN為0.11 s,RCA-MDA為0.08 s.
表4 MSRN和RCA-MDA的性能對比
表5 放大倍數(shù)為2時各網(wǎng)絡(luò)的指標(biāo)值對比
表6 放大倍數(shù)為3時各網(wǎng)絡(luò)的指標(biāo)值對比
表7 放大倍數(shù)為4時各網(wǎng)絡(luò)的指標(biāo)值對比
圖4和圖5分別是各網(wǎng)絡(luò)在放大倍數(shù)為2和4時重建的SR圖像結(jié)果,圖中Bicubic表示LR圖像經(jīng)過雙三次上采樣得到的SR結(jié)果.由圖4和圖5可見,RCA-MDA的結(jié)果最優(yōu).以Set14數(shù)據(jù)集上bar-bara圖像為例,其它網(wǎng)絡(luò)的結(jié)果或過度模糊,或失真嚴(yán)重,或恢復(fù)的條紋方向錯誤,RCA-MDA的結(jié)果接近于原HR圖像.再以Urban100數(shù)據(jù)集上img004圖像為例,其它網(wǎng)絡(luò)也大都過度模糊或失真,RCA-MDA的結(jié)果最優(yōu).Urban100數(shù)據(jù)集上img096、img005圖像的結(jié)果也是類似的.
圖4 2倍SR時各網(wǎng)絡(luò)視覺效果對比
圖5 4倍SR時各網(wǎng)絡(luò)視覺效果對比
本文提出基于區(qū)域互補注意力和多維注意力的輕量級圖像超分辨率網(wǎng)絡(luò)(RCA-MDA),引入輕量級的卷積單元(CSAConv),基于CSAConv構(gòu)造多交互殘差塊(MIRB),相比MSRN[32]的多尺度殘差塊,MIRB可大幅減少模型參數(shù)量,同時保持SR性能.同時提出區(qū)域互補注意力塊(RCAB),組合RCAB和MIRB的多上下文信息融合塊(MIFB).MIFB可有效融合局部、非局部和多尺度特征信息,使不同圖像不同區(qū)域間的信息得到互補.本文也提出多維注意力塊(MDAB),可逐像素建模特征通道維和空間維之間的依賴關(guān)系.MDAB進(jìn)一步融合MIFB塊輸出的多層次特征信息.RCA-MDA網(wǎng)絡(luò)架構(gòu)輕量、有效.實驗表明,RCA-MDA性能較優(yōu),把輕量級SISR模型復(fù)雜度和性能平衡提升到一個較高水平.本文對網(wǎng)絡(luò)模型進(jìn)行輕量化的方法和注意力機(jī)制也可應(yīng)用到其它計算機(jī)視覺任務(wù)當(dāng)中,其普適性和對不同網(wǎng)絡(luò)性能的影響值得進(jìn)一步研究.