王 鑫,王翠榮,王 聰,苑 迎
(東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 沈陽 110169)
單幅圖像超分辨率重建旨在將模糊的低分辨率(low-resolution,LR)圖片重建為更加清晰的高分辨率(hight-resolution,HR)圖片.它可以解決視頻監(jiān)控,醫(yī)學(xué)、衛(wèi)星成像等領(lǐng)域存在的圖片模糊、噪聲干擾等問題.常用的單幅圖像超分辨率重建方法有插值法、基于稀疏表示的方法、局部線性回歸法,以及基于深度學(xué)習(xí)的方法.
近年來,基于深度學(xué)習(xí)的單幅圖像超分辨率重建取得了巨大成功[1-12].其中Dong等[2]最先提出了一個(gè)包含3個(gè)卷積層的SRCNN模型,完成了單幅圖像超分辨重建;Kim等[3]提出的VDSR模型首次將殘差學(xué)習(xí)[4]引入單幅圖像超分辨率重建中,并將神經(jīng)網(wǎng)絡(luò)深度提升到20層;Lim等[5]提出的EDSR模型是對(duì)文獻(xiàn)[4]中的殘差神經(jīng)網(wǎng)絡(luò)去除其規(guī)范化(batch normalization,BN)網(wǎng)絡(luò)層后的改進(jìn),使其更加適合超分辨重建任務(wù),其神經(jīng)網(wǎng)絡(luò)深度有69層,網(wǎng)絡(luò)寬度包含256個(gè)特征通道;Zhang等[6]通過堆疊殘差稠密塊構(gòu)建的RDN模型,是密度神經(jīng)網(wǎng)絡(luò)模型[7]的進(jìn)化,神經(jīng)網(wǎng)絡(luò)深度達(dá)到了149層.
不斷增長的神經(jīng)網(wǎng)絡(luò)規(guī)模,帶來了單幅圖像重建效果的提升,但也引發(fā)神經(jīng)網(wǎng)絡(luò)的構(gòu)建和訓(xùn)練難度的增加,需要更加合理地設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)以避免訓(xùn)練中出現(xiàn)梯度消失等問題,同時(shí)神經(jīng)網(wǎng)絡(luò)在計(jì)算過程中的時(shí)間復(fù)雜度和空間復(fù)雜度也在成倍增長,對(duì)GPU硬件依賴度高.為此,Li等[13]通過多尺度特征提取、層間融合的方法,構(gòu)建了MSRN模型,只使用29層神經(jīng)網(wǎng)絡(luò)獲得了接近文獻(xiàn)[5]中EDSR方法的單幅圖像重建效果,但該方法在縮小神經(jīng)網(wǎng)絡(luò)規(guī)模的同時(shí),網(wǎng)絡(luò)性能也有明顯的損失.
本文提出的雙通道多感知卷積網(wǎng)絡(luò)(DMCN),構(gòu)建了一個(gè)雙通道多感知?dú)埐钅K(dual-channel multi-perception residual block,DMRB).作為網(wǎng)絡(luò)的基礎(chǔ)模塊,該模塊能最大化感知圖片特征,重建中有較強(qiáng)的高頻信息還原能力,同時(shí)將各層DMRB模塊的輸出經(jīng)過卷積后輸入融合層,進(jìn)行特征融合并提取全局特征信息.最后通過上采樣層(Upsample)將圖片放大到特定倍數(shù),完成超分辨重建.DMCN通過DIV2K[14]數(shù)據(jù)集訓(xùn)練,在Set5,Set14,B100和Urban100基準(zhǔn)數(shù)據(jù)集測(cè)試中,多數(shù)測(cè)試結(jié)果好于MSRN,EDSR等對(duì)比算法.
卷積神經(jīng)網(wǎng)絡(luò)仿照生物視覺機(jī)制在計(jì)算機(jī)視覺領(lǐng)域有廣泛應(yīng)用.在超分辨率重建中,卷積神經(jīng)網(wǎng)絡(luò)利用其學(xué)習(xí)功能,通過訓(xùn)練建立起低分辨率圖片ILR到高分辨率圖片IHR的映射關(guān)系.
本文提出的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示,包括了三個(gè)組成部分:淺層特征提取層、深度特征提取層、放大重建層.
1) 淺層特征提取層對(duì)輸入網(wǎng)絡(luò)的低分辨率圖片ILR進(jìn)行升維,將RGB格式的圖片特征由3維提升到深度特征提取層的64維,并獲得圖片的初步特征信息,輸出特征圖X0.
2) 深層特征提取層作為整個(gè)神經(jīng)網(wǎng)絡(luò)的核心,決定了整個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)信息感知能力的強(qiáng)弱.DMCN重建模型包含了多層堆疊的雙通道多感知模塊DMRB,以及對(duì)各層進(jìn)行融合的卷積層.DMRB內(nèi)部結(jié)構(gòu)將在1.2小節(jié)詳細(xì)論述,層間融合結(jié)構(gòu)將在1.3小節(jié)詳細(xì)論述.深層特征提取層的末端是由跳躍連接(skip connection)構(gòu)建的殘差結(jié)構(gòu),并最終輸出特征圖Xd.
3) 放大重建層將圖片通過上采樣模塊放大到特定倍數(shù),再通過重建層重建圖片.上采樣模塊可以通過反卷積法、最近鄰上采樣法和亞像素卷積上采樣法[15]等方法實(shí)現(xiàn),本文使用了亞像素卷積法.
如果將淺層特征提取功能定義為HSFE(·),深層特征提取功能定義為HDFE(·),放大和重建功能定義為HUP_REC(·),則模型將低分辨圖片ILR重建為超分辨率圖片ISR的過程可表示為
ISR=HUP_REC(HDFE(HSFE(ILR))).
(1)
進(jìn)一步將整個(gè)網(wǎng)絡(luò)功能表示為HDMCN(·),它所完成的工作表示為
ISR=HDMCN(ILR).
(2)
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,深層特征提取層的核心是堆疊的雙通道多感知?dú)埐钅K(DMRB),這構(gòu)成了一個(gè)典型的深度網(wǎng)絡(luò)結(jié)構(gòu).淺層特征提取層的輸出值X0經(jīng)過該深度結(jié)構(gòu)時(shí),圖片特征在各層間被充分提取,并在最后一層輸出特征值Xn.這一深度提取過程可表示為
(3)
DMRB的內(nèi)部結(jié)構(gòu)如圖2所示,左右兩側(cè)的特征提取通道分別采用了3×3和5×5的卷積核.不同卷積核可使卷積操作獲得不同尺度上的圖片特征信息,如果將此信息融合并做進(jìn)一步特征提取,能有效增強(qiáng)深度結(jié)構(gòu)的感知能力,這種做法在GoogLeNet網(wǎng)絡(luò)[16]中得到成功應(yīng)用,文獻(xiàn)[8]中的MSRN網(wǎng)絡(luò)也使用了類似結(jié)構(gòu).本文的結(jié)構(gòu)與他們不同之處在于,DMRB中除了融合了兩種卷積操作輸出的特征信息外,還融合了局部稠密連接信息.具體方法如下.
1) 左右通道的第一層分別對(duì)輸入數(shù)據(jù)進(jìn)行卷積操作,并通過線性整流函數(shù)ReLU進(jìn)行修正.該過程表示為
(4)
(5)
其中:W1代表卷積層的權(quán)重;bi代表偏置項(xiàng)bias;ρ代表激活函數(shù)ReLU.左側(cè)通道使用3×3過濾器,右側(cè)通道使用5×5過濾器,右側(cè)通道對(duì)輸入圖片的感受范圍大于左側(cè),這保證了左右通道的輸出具有不同的特征感受力.
2) 經(jīng)過第一層處理后,通道連接節(jié)點(diǎn)Concat1對(duì)左右通道的輸出值及原始輸入值進(jìn)行連接,即
(6)
(7)
(8)
(9)
第三層的1×1卷積的另外一個(gè)功能是把接收的特征值維度降低到模塊原始輸入值Xi-1的特征維度,以便和跳躍連接求和,完成殘差結(jié)構(gòu)的計(jì)算.最后模塊輸出Xi的表達(dá)式為
(10)
基于深度卷積網(wǎng)絡(luò)的超分辨重建中,網(wǎng)絡(luò)深度越大,在輸出端能夠感受到的輸入圖片范圍也越大,即感受也越大,特征提取也更加充分.但這也引發(fā)了新的問題,特征信息從輸入端向網(wǎng)絡(luò)深處傳遞的過程中,很多有效信息會(huì)在卷積運(yùn)算中逐漸消失.為了解決這個(gè)問題,文獻(xiàn)[6]中RDN模型中提出了密集特征融合方法,將深度結(jié)構(gòu)的各層輸出特征值通過跳躍連接輸入到融合層進(jìn)行信息融合,來增強(qiáng)重建效果.但該方法的不足是融合操作將所有輸入信息等同對(duì)待,每一層在特征融合中作用都是相同的.
本文提出的全局特征融合方法,將除最后一層輸出Xn外,X0到Xn-1都經(jīng)過一個(gè)1×1卷積層進(jìn)行權(quán)重平衡,1×1卷積層的輸出和最后一層的輸出Xn求和后再輸入一個(gè)卷積融合層(Fusion)進(jìn)行特征融合.這樣除最后一層輸出在融合中有固定作用外,其他層會(huì)由1×1卷積層動(dòng)態(tài)調(diào)節(jié)在融合中的權(quán)重,從而能夠提取出更加準(zhǔn)確的圖片特征值.為了提高重建效果,融合層之后連接殘差操作.該過程可以表示為
(11)
其中:W代表卷積層的權(quán)重;b代表偏置項(xiàng)bias.
(12)
其中,θ是神經(jīng)網(wǎng)絡(luò)中所有參數(shù)的集合.目前,基于深度學(xué)習(xí)的超分辨率重建中常用的損失函數(shù)有L1損失、L2損失和對(duì)抗損失等,本文選擇L1損失作為網(wǎng)絡(luò)損失函數(shù),L1損失函數(shù)能獲得更高的測(cè)試指標(biāo),同時(shí)也和實(shí)驗(yàn)中主要對(duì)比網(wǎng)絡(luò)MSRN和EDSR采用的損失函數(shù)保持一致.最終的損失函數(shù)定義為
(13)
本文給出了一種基于雙通道多感知卷積神經(jīng)網(wǎng)絡(luò)模型的圖片超分辨率重建方法.重建過程是:首先對(duì)輸入的低分辨率圖片進(jìn)行上采樣,提取初步圖片特征信息,然后通過堆疊的雙通道多感知模塊以及層間融合結(jié)構(gòu)對(duì)圖片進(jìn)行深層特征提取,最后對(duì)圖片進(jìn)行放大重建,實(shí)現(xiàn)圖片的超分辨率重建.具體過程參見算法1.
算法 1 圖片超分辨率重建
輸入:低分辨率圖片ILR.
輸出:重建的超分辨率圖片ISR.
1) 對(duì)輸入的低分辨率圖片ILR通過卷積操作進(jìn)行上采樣,將其特征通道數(shù)提高到64,輸出特征圖X0;
2) 將淺層特征提取的輸出X0輸入堆疊的雙通道多感知模塊DMRB,每一層的輸出Xi作為下一層輸入,直到最后一層DMRB,得到輸出Xn;
5) 將特征融合的結(jié)果和X0求和,完成殘差操作,得到特征圖Xd;
6) 將特征圖Xd放大scale倍(scale=2,3,4)后進(jìn)行降維,生成輸出圖片ISR.
將圖片特征提取通過兩條卷積通道完成,除了便于設(shè)置不同的卷積核獲得圖片在不同范圍下的特征信息外,還能夠有效降低卷積網(wǎng)絡(luò)的計(jì)算復(fù)雜度.相同卷積核下,將一個(gè)卷積操作按特征通道等分成兩個(gè)卷積操作后,卷積的參數(shù)變?yōu)樵瓉淼囊话?,?jì)算量同樣隨之減半.本文提出的深度卷積網(wǎng)絡(luò)模型中3個(gè)組成部分的卷積結(jié)構(gòu)參數(shù)如表1所示.為了獲得良好的重建效果,同時(shí)將網(wǎng)絡(luò)規(guī)??刂圃谧钚∫?guī)模,深度特征提取部分采用了8層DMRB模塊堆疊.
表1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
實(shí)驗(yàn)用DIV2K數(shù)據(jù)集中的800張圖片對(duì)卷積網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,輸入圖片為RGB圖像并裁剪為48×48大小,對(duì)輸入圖像按EDSR網(wǎng)絡(luò)中的方法進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)等變換,以增強(qiáng)訓(xùn)練效果.每次訓(xùn)練樣本數(shù)(batch size)為16,共迭代1 000次.訓(xùn)練中對(duì)2倍、3倍、4倍重建分別進(jìn)行訓(xùn)練.訓(xùn)練結(jié)果基于Set5,Set14,B100和Urban100基準(zhǔn)數(shù)據(jù)集進(jìn)行測(cè)試,評(píng)價(jià)指標(biāo)為峰值信噪比(peak signal to noise ratio, PSNR)和結(jié)構(gòu)相似性(structural similarity inex, SSIM).DMCN網(wǎng)絡(luò)基于PyTorch 1.1框架搭建,實(shí)驗(yàn)中使用了一張TitanRTX GPU.訓(xùn)練使用Adam優(yōu)化器,參數(shù)為β1=0.9,β2=0.999,ε=10-8.學(xué)習(xí)率初始為10-4,每經(jīng)過50次迭代衰減為原來的90%.表2給出了本文方法與幾個(gè)經(jīng)典超分辨方法的比較,其中對(duì)MSRN原文采用Y色彩通道,本文統(tǒng)一采用了RGB通道進(jìn)行實(shí)驗(yàn),圖片切割尺寸為48×48.
表2 基準(zhǔn)數(shù)據(jù)集測(cè)試結(jié)果
表中加粗字體為測(cè)試中最好結(jié)果,DMCN+與DMCN不同之處在于,DMCN+在測(cè)試階段使用了文獻(xiàn)[5]中的幾何自集合(geometric self-ensemble)方法,將同一輸入圖片進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)后再進(jìn)行測(cè)試,然后對(duì)輸出結(jié)果取平均值.實(shí)驗(yàn)結(jié)果可以看出在多數(shù)測(cè)試中DMCN+都取得了最好的測(cè)試成績(jī),只在Ubran100測(cè)試集中全面落后于EDSR網(wǎng)絡(luò).DMCN和EDSR網(wǎng)絡(luò)模型之間的比較如表3所示.
表3 EDSR與DMCN的比較
不難看出DMCN的網(wǎng)絡(luò)規(guī)模明顯更小,處理時(shí)間也明顯更短,但DMCN+的重建結(jié)果比EDSR更好或者接近.DMCN網(wǎng)絡(luò)在Ubran100數(shù)據(jù)集合測(cè)試中落后于EDSR的原因在于Ubran100這種高分辨率圖片集的重建對(duì)網(wǎng)絡(luò)的感受也更加敏感,更大的感受也能帶來更佳的重建效果,而通常網(wǎng)絡(luò)深度和感受也成正比.EDSR有69層的深度,同時(shí)殘差結(jié)構(gòu)中通道數(shù)為256,而DMCN只有29層,殘差通道數(shù)也只有64.
圖3給出了在難度較高的4倍重建中DMCN模型與幾個(gè)主流重建模型重建效果的比較.從主觀視覺感受上,可以明顯看出DMCN的重建結(jié)果圖包含更加豐富、準(zhǔn)確的高頻細(xì)節(jié)信息,與原始圖片更加接近.這一結(jié)果主要得益于DMCN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能更全面地感知圖片中的各類信息,從而在重建中表現(xiàn)更佳.
1) 本文提出了一種能高效進(jìn)行圖片超分辨率重建的雙通道多感知卷積神經(jīng)網(wǎng)絡(luò)模型,模型對(duì)具有不同卷積核的雙卷積通道進(jìn)行局部稠密連接,獲得了對(duì)圖片特征信息的多種感知能力;用帶有卷積調(diào)節(jié)功能的層間融合結(jié)構(gòu)還原出更加準(zhǔn)確的圖片信息.
2) 實(shí)驗(yàn)在深度學(xué)習(xí)框架Pytorch 1.1下完成了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試.結(jié)果表明雙通道多感知卷積神經(jīng)網(wǎng)絡(luò)在較小的網(wǎng)絡(luò)規(guī)模下完成了優(yōu)良的圖片重建,在多數(shù)測(cè)試結(jié)果中圖片峰值信噪比和結(jié)構(gòu)相似性指標(biāo)優(yōu)于對(duì)比組重建算法,視覺效果包含更多細(xì)節(jié)圖片信息.