張一帆,楊 欣,朱松巖,周大可
(1.南京航空航天大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210016;2. 江蘇工程技術(shù)學(xué)院 紡織服裝學(xué)院,江蘇 南通 226000)
單幅圖像的超分辨率重建(SISR)是從單幅的低分辨率圖像重建(LR)得到單幅的高分辨率圖像(HR).SISR用于各種計(jì)算機(jī)視覺任務(wù),例如安全和監(jiān)視成像[1],醫(yī)學(xué)成像[2]和圖像生成[3].從LR圖像映射到HR圖像可以有多種解,因此超分辨率重建(SR)是一個(gè)病態(tài)的問題.傳統(tǒng)方法如基于插值的[4]、基于重建的[5]和基于學(xué)習(xí)的[6-7]被應(yīng)用于解決SR問題.近年來,隨著深度學(xué)習(xí)的發(fā)展和圖像集的豐富,基于深度學(xué)習(xí)的圖像超分辨率重建也顯現(xiàn)出了極好的重建效果.尤其的,更深的網(wǎng)絡(luò)模型有著更大的感受野,可以利用更大空間范圍內(nèi)的低頻信息來恢復(fù)HR圖像中的高頻信息,使HR圖像中的邊緣更加銳利,對(duì)于SR任務(wù)而言通常使用卷積層加深網(wǎng)絡(luò)來獲取大的感受野.
Dong等[8]提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的超分辨率重建的卷積神經(jīng)網(wǎng)絡(luò)(SRCNN)方法,直接學(xué)習(xí)低分辨率圖像塊和高分辨率圖像塊之間的映射.只采用了一個(gè)卷積層得到從LR圖片到特征圖的映射,因此特征提取的能力有限,同時(shí)整個(gè)網(wǎng)絡(luò)只有3個(gè)卷積層因此非線性映射能力有限.Kim在SRCNN的基礎(chǔ)上提出了超分辨率重建深度網(wǎng)絡(luò)(VDSR)[9]和循環(huán)超分辨率神經(jīng)網(wǎng)絡(luò)(DRCN)[10].由于VDSR和DRCN的網(wǎng)絡(luò)過深難以訓(xùn)練,VDSR使用了梯度剪切和跳躍連接,DRCN在映射部分使用循環(huán)的技巧避免引入過多的卷積核,同時(shí)引入中間損失函數(shù).這些方法,使得訓(xùn)練極深的網(wǎng)絡(luò)有著一定的可行性.
快速超分辨率重建的卷積神經(jīng)網(wǎng)絡(luò)(FSRCNN)[11]、子像素卷積超分辨率網(wǎng)絡(luò)(ESPCN)[12]通過直接對(duì)LR圖像進(jìn)行卷積運(yùn)算和將上采樣過程所用算子分別替換為反卷積層和子像素卷積來提高SRCNN的運(yùn)算速度.邰[13]提出CNN的特征圖感受野大小不同,深度的網(wǎng)絡(luò)中特征圖是不同層次的.Zhang[14]在此基礎(chǔ)上提出殘差密集連接超分辨率網(wǎng)絡(luò)(RDN),引入密集連接,充分的應(yīng)用不同層次的特征圖.
深度跳躍連接網(wǎng)絡(luò)DCSCN[15]整個(gè)網(wǎng)絡(luò)模型分為特征提取網(wǎng)絡(luò)和重建網(wǎng)絡(luò)2個(gè)部分.特征提取網(wǎng)絡(luò)的全部CNN都使用跳躍連接至特征提取網(wǎng)絡(luò)的輸出處,將全部特征圖按通道聯(lián)結(jié).重建網(wǎng)絡(luò)提出了類似于Network in Network結(jié)構(gòu)的并行上采樣網(wǎng)絡(luò),在計(jì)算復(fù)雜度和重建效果兩方面都取得了一定的效果.本文在DCSCN的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,做出了以下2點(diǎn)創(chuàng)新:①對(duì)聯(lián)結(jié)后的多層次特征圖進(jìn)行特征提取,得到融合的特征圖,應(yīng)用于SR任務(wù).②使用子像素卷積神經(jīng)網(wǎng)絡(luò)作為上采樣算子,進(jìn)行LR圖像到HR圖像的重建.
本文模型分為2個(gè)部分:特征提取網(wǎng)絡(luò)和重建網(wǎng)絡(luò).特征提取網(wǎng)絡(luò)可以分為層次特征提取部分和融合特征提取部分,層次特征提取部分采用的CNN 數(shù)目為可設(shè)置參數(shù)n,每個(gè)CNN的卷積核數(shù)目為參數(shù)G,融合特征提取部分由一個(gè)1×1CNN和一個(gè)3×3CNN構(gòu)成.重建網(wǎng)絡(luò)由一個(gè)上采樣算子和3×3CNN構(gòu)成.如圖1所示.
特征提取網(wǎng)絡(luò)的第1個(gè)CNN的數(shù)學(xué)形式表示為:F1(X)=σ(0,W1*X+B1).層次特征提取部分中第1個(gè)卷積層之后的卷積層的輸出數(shù)學(xué)形式為:Fi=σ(Wi*Fi-1+Bi).Fi為第i個(gè)卷積層的輸出,Wi為第i個(gè)卷積層的卷積核,Bi為偏置項(xiàng),*為卷積運(yùn)算.σ代表PReLU操作,數(shù)學(xué)形式為:F(y)=max(0,y)+α(min(0,y)).Fi-1為第i個(gè)卷積層的輸入,是特征提取網(wǎng)絡(luò)中第i-1卷積層輸出的特征圖.特征提取網(wǎng)絡(luò)在輸出特征圖之前將網(wǎng)絡(luò)中全部卷積層輸出特征圖的聯(lián)結(jié),表示為:[F1,F2,…,Fn].
1×1CNN跨通道的融合了聯(lián)結(jié)特征圖不同通道中的信息,再使用3×3卷積從FDF更進(jìn)一步提取特征,整個(gè)特征提取網(wǎng)絡(luò)的輸出表示為Fout.在LR空間大小特征提取網(wǎng)絡(luò)提取特征圖后,使用ESPCN中的子像素卷積作為上采樣算子,表示為Iup=FL(Fout)=PS(Wup*Fout+bup).最后使用3×3的CNN得到最后的HR圖像:ISR=σ(W*Iup+b).
對(duì)于SR任務(wù)而言,特征提取是至關(guān)重要的,如何提取低層次局部的特征和保留對(duì)重建有用的紋理信息一直是研究的重點(diǎn).
本文算法在特征提取網(wǎng)絡(luò)中采取跳躍連接的思想,將特征提取網(wǎng)絡(luò)中CNN的特征圖連接至層次特征提取部分的末端并聯(lián)結(jié),自適應(yīng)的學(xué)習(xí)權(quán)重來調(diào)整不同層次特征圖信息的留存.
本文算法中特征提取網(wǎng)絡(luò)以1個(gè)3×3CNN為末端,從降維的特征圖提取特征.
本文中我們選用子像素卷積來對(duì)LR圖像重建達(dá)到HR大小.與DCSCN的特征提取網(wǎng)絡(luò)不同的是,本文算法的特征提取網(wǎng)絡(luò)輸出的特征圖已是經(jīng)過1×1CNN降維的,并經(jīng)3×3CNN提取特征,因此在本文的重建網(wǎng)絡(luò)中并行結(jié)構(gòu)是不必要的.我們選擇使用1個(gè)子像素卷積層重建至Iup.ESPCN中直接將子像素卷積的輸出作為重建結(jié)果,本文添加1個(gè)3×3的卷積層,由于Iup的通道數(shù)為HR圖像的通道數(shù)C,幾乎不增加計(jì)算復(fù)雜度,卻使重建網(wǎng)絡(luò)有更好的非線性映射能力,得到更好的重建結(jié)果ISR.
為驗(yàn)證模型的有效性,本文以set5數(shù)據(jù)集為測(cè)試圖像,在PSNR和視覺效果2個(gè)方面與雙3次插值、SRCNN、DRCN、VDSR和DCSCN算法進(jìn)行對(duì)比.使用yang91作為訓(xùn)練圖片,由于SR任務(wù)對(duì)訓(xùn)練圖片的方向不敏感,本文中對(duì)訓(xùn)練集進(jìn)行水平、垂直方向反轉(zhuǎn)和90度旋轉(zhuǎn)來增強(qiáng)數(shù)據(jù)集.因此,文章中的全部訓(xùn)練集經(jīng)預(yù)處理后包含1 164張的圖片.
本文模型中除1×1卷積層之外全部卷積層的卷積核大小設(shè)置為3×3.層次特征提取部分卷積層的個(gè)數(shù)n本文實(shí)驗(yàn)中設(shè)置為7,卷積核的個(gè)數(shù)G設(shè)置為64.模型中的3×3卷積層使用填0來保持特征圖的空間大小不變.
CNN卷積核的初始化全部采用HE[16],偏置項(xiàng)和PReLU的值置零.使用ADAM對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.002.訓(xùn)練過程中當(dāng)連續(xù)5個(gè)epochs損失函數(shù)沒有降低,就將學(xué)習(xí)率除以2,當(dāng)學(xué)習(xí)率低于0.000 02時(shí)停止整個(gè)訓(xùn)練過程.
峰值信噪比(PSNR)是圖像超分辨率重建效果的1個(gè)重要性能指標(biāo),本文使用PSNR作為重建準(zhǔn)確率的性能指標(biāo).對(duì)于人眼觀察到的視覺效果而言,亮度分量更為重要,因此在實(shí)驗(yàn)中先對(duì)RGB圖片進(jìn)行轉(zhuǎn)換到Y(jié)cbcr空間處理.
表1表示了尺度為2時(shí)算法在set5圖片集上的重建結(jié)果PSNR,從PSNR來看本文算法對(duì)比其他算法有著一定程度的提高.本文算法相比雙3次插值算法有較大的提升.從視覺效果與SRCNN、DRCN、VDSR對(duì)比紋理細(xì)節(jié)更為清楚銳利,本文算法得到的高分辨率圖在改善上采樣后模糊的情況下更好的恢復(fù)了局部的細(xì)節(jié)信息.
表1 本文算法與其他算法set5實(shí)驗(yàn)
圖2與圖3為set5中的Head和Woman圖片,由左至右分別為原圖、雙3次插值、SRCNN、DRCN、VDSR和本文算法,第1行為HR大小的圖片,第2行為圖片的局部放大.通過對(duì)圖像局部的放大,可以觀察到更多的紋理細(xì)節(jié),雙3次插值在細(xì)節(jié)的重建上效果較差.
通過對(duì)圖2與圖3的觀察,在如Head中毛發(fā)此類的細(xì)節(jié)紋理復(fù)雜的區(qū)域本文算法沒有因細(xì)節(jié)信息缺失而影響重建視覺效果,驗(yàn)證了在本文算法中特征提取網(wǎng)絡(luò)跳躍連接將低層次特征圖連接至特征提取部分末端并添加3×3CNN提取特征以保存細(xì)節(jié)信息的想法有效.
提出了一種改進(jìn)的基于深度學(xué)習(xí)的超分辨率重建算法,在特征提取方面引入跳躍連接與不同層次特征融合充分利用不同層次的特征圖,在重建方法方面改為使用子像素卷積在減少計(jì)算量的情況下取得了更好的重建效果.實(shí)驗(yàn)結(jié)果表明,無論是從客觀性能指標(biāo)PSNR還是主觀視覺感受上,本文算法都取得了更好的結(jié)果.