王知人, 谷昊晟, 任福全, 史紫騰, 王 瑞
(燕山大學(xué) 理學(xué)院 河北 秦皇島 066004)
圖像超分辨率(super-resolution,SR)技術(shù)是從模糊不清的低分辨率(low-resolution,LR)圖像中重建出更加清晰的高分辨率(high-resolution,HR)圖像。SR主要在各種計(jì)算機(jī)視覺(jué)任務(wù)中應(yīng)用廣泛,例如安全和監(jiān)視成像、醫(yī)學(xué)成像和圖像生成。目前圖像SR算法主要包括基于插值的、基于重建的和基于學(xué)習(xí)的方法[1]?;诓逯档乃惴m然簡(jiǎn)單、運(yùn)算速度快,但是重建效果不夠好、穩(wěn)定性差?;谥亟ǖ乃惴ㄊ芟闰?yàn)知識(shí)影響較大,重建效果不穩(wěn)定?;趯W(xué)習(xí)的算法是目前超分辨率領(lǐng)域中發(fā)展前景最好的一類(lèi)算法,在計(jì)算機(jī)視覺(jué)領(lǐng)域獲得了明顯的優(yōu)勢(shì)。比較傳統(tǒng)的方法有基于局部線性嵌入的方法[2]和基于稀疏表示的方法[3]。Dong等[4-5]首次將三層卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)引入圖像SR,提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率方法(super-resolution convolutional neural network,SRCNN),建立了插值LR圖像與其對(duì)應(yīng)HR圖像之間的端到端映射,其重建效果比傳統(tǒng)的非深度學(xué)習(xí)方法有顯著提升。然而,基于CNN的SR算法容易受到卷積核大小和卷積層數(shù)量的影響。Kim等[6]通過(guò)使用20個(gè)卷積層的網(wǎng)絡(luò)深度,使感受野變得更大,構(gòu)建了基于深度超分辨網(wǎng)絡(luò)(very deep network for super-resolution,VDSR),并利用殘差學(xué)習(xí)和梯度裁剪,降低網(wǎng)絡(luò)的訓(xùn)練難度,然后在VDSR的基礎(chǔ)上構(gòu)建深度遞歸卷積網(wǎng)絡(luò)(deeply-recursive convolutional network,DRCN)[7],引入遞歸學(xué)習(xí)以進(jìn)行參數(shù)共享,降低了網(wǎng)絡(luò)參數(shù)。Zhang等[8]提出的基于深度卷積去噪先驗(yàn)圖像超分辨率網(wǎng)絡(luò)(deep CNN denoiser prior for image restoration,IRCNN),Shi等[9]提出的多尺度超分辨率網(wǎng)絡(luò)(multiple scale super-resolution network,MSSRNet),在網(wǎng)絡(luò)中引入了擴(kuò)張卷積技術(shù),使網(wǎng)絡(luò)的參數(shù)進(jìn)一步減少,重建效果良好。
然而,以上這些方法都需要將原始LR圖像應(yīng)用到網(wǎng)絡(luò)之前對(duì)其進(jìn)行插值處理,網(wǎng)絡(luò)從插值LR圖像中提取特征,無(wú)法建立端到端的LR與HR圖像映射。這個(gè)預(yù)處理步驟不僅增加了網(wǎng)絡(luò)的計(jì)算復(fù)雜度,而且使原始LR圖像過(guò)于平滑和模糊,從而造成細(xì)節(jié)上的丟失。為了解決這個(gè)問(wèn)題,Dong等[10]提出基于卷積神經(jīng)網(wǎng)絡(luò)的快速圖像超分辨率網(wǎng)絡(luò)(fast super-resolution convolutional neural network,F(xiàn)SRCNN),直接將原始LR圖像作為輸入,不需要先使用雙三次插值將輸入圖像放大,而是使用反卷積層對(duì)輸出特征進(jìn)行放大,實(shí)現(xiàn)上采樣。Shi等[11]提出了基于高效亞像素卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率網(wǎng)絡(luò)(efficient sub-pixel convolutional neural network,ESPCN),網(wǎng)絡(luò)直接對(duì)LR圖像進(jìn)行特征映射,并且引入了一個(gè)有效的亞像素卷積層,它的作用和反卷積層一樣用來(lái)實(shí)現(xiàn)上采樣。以上方法都是直接在低分辨率空間中進(jìn)行映射,并通過(guò)引入反卷積層或亞像素卷積層對(duì)網(wǎng)絡(luò)最后輸出的低分辨率特征進(jìn)行放大。這些操作使網(wǎng)絡(luò)計(jì)算的復(fù)雜度大大減小,增加網(wǎng)絡(luò)訓(xùn)練的效率。
另一方面,這些網(wǎng)絡(luò)都是以鏈?zhǔn)椒绞蕉询B構(gòu)建模塊的。它們忽略了充分利用來(lái)自多層卷積層的信息,只考慮了卷積層最后輸出的特征。每一個(gè)卷積層都會(huì)產(chǎn)生不同的獨(dú)特特征。深層網(wǎng)絡(luò)生成的分層特征對(duì)提高圖像SR重建效果具有很大作用。Ledig等[12]首次將生成對(duì)抗網(wǎng)絡(luò)用于圖像超分辨率重建(super resolution generative networks,SRGAN),其中的生成網(wǎng)絡(luò)部分利用殘差網(wǎng)絡(luò)(residual networks,ResNets)實(shí)現(xiàn)了信息層與層之間的傳遞。Tong等[13]構(gòu)建了基于密集網(wǎng)絡(luò)的圖像超分辨率網(wǎng)絡(luò)(super-resolution dense network,SRDenseNet),通過(guò)密集網(wǎng)絡(luò)加強(qiáng)了特征傳播,實(shí)現(xiàn)了多層特征的融合,進(jìn)一步提升了重建效果。
本文提出了一種多映射殘差卷積神經(jīng)網(wǎng)絡(luò)(multi-mapping residual convolutional neural network,MMRCNN),它使用深度網(wǎng)絡(luò)作為基本框架,使用跳躍連接來(lái)顯著增加映射階段的輸出特征數(shù)量,降低深度網(wǎng)絡(luò)訓(xùn)練的難度。此外,本文引入批量歸一化(batch normalization, BN),以提高M(jìn)MRCNN的模型訓(xùn)練性能。為了建立從原始LR到HR圖像的端到端映射,避免額外的計(jì)算開(kāi)銷(xiāo)和重建偽像,本文選擇在重建期間進(jìn)行上采樣而不是預(yù)處理。
本文的創(chuàng)新點(diǎn)主要有3方面:
1) 提出了一個(gè)從原始LR到HR圖像的端到端映射。直接對(duì)LR圖像進(jìn)行訓(xùn)練,不進(jìn)行預(yù)處理。計(jì)算成本較低,避免了重建偽像。
2) 利用殘差學(xué)習(xí)建立多映射網(wǎng)絡(luò)。不僅可以解決網(wǎng)絡(luò)退化問(wèn)題,而且可以使用多個(gè)分支映射來(lái)獲得更豐富的魯棒特征,克服了單一級(jí)聯(lián)網(wǎng)絡(luò)輸出導(dǎo)致的特征集不足的弊端。
3) 使用批量歸一化來(lái)優(yōu)化網(wǎng)絡(luò)。最后,本文的MMRCNN在量化指標(biāo)和視覺(jué)質(zhì)量方面都能實(shí)現(xiàn)較好的效果。
如圖1所示,MMRCNN可以分解為3個(gè)部分:特征提取、非線性映射和超分辨率重建。前兩部分是卷積層(convolutional layer),用Conv來(lái)表示,最后一部分是反卷積層(deconvolutional layer),用Deconv來(lái)表示。下面為MMRCNN模型的網(wǎng)絡(luò)結(jié)構(gòu)介紹。
圖1 MMRCNN網(wǎng)絡(luò)架構(gòu)Figure 1 The architecture of MMRCNN network
1.1.1特征提取 第1層為Conv+PReLU層,使用64個(gè)大小為5×5×c的濾波器來(lái)生成64個(gè)特征圖,然后使用參數(shù)修正線性單元(parametric rectified linear unit,PReLU)進(jìn)行非線性處理。這里c表示圖像通道的數(shù)量,灰度圖像時(shí)c=1,彩色圖像時(shí)c=3。
1.1.2非線性映射 第2~16層為Conv+BN+PReLU層,使用64個(gè)尺寸為3×3×64的濾波器,并且在卷積與PReLU之間添加批量歸一化操作[14]。此外,將非線性映射中每3個(gè)卷積層分為1個(gè)單元,即將15個(gè)卷積層分為5個(gè)單元,這樣可以使映射之后得到的特征與原有的特征存在一定的差異性。最后,對(duì)卷積層添加5條跳躍連接來(lái)建立多映射網(wǎng)絡(luò)模型,保證每一個(gè)單元的輸出可以直接與重建模塊相連接,充分地提取圖像的內(nèi)部信息。
1.1.3重建 最后一層為Deconv層,反卷積層可以看作是卷積的逆過(guò)程。本文使用反卷積操作對(duì)圖像進(jìn)行上采樣,用c個(gè)大小為9×9×64的濾波器來(lái)重建輸出。
殘差網(wǎng)絡(luò)和跳躍連接由He等[15]提出,這種網(wǎng)絡(luò)結(jié)構(gòu)使得深層網(wǎng)絡(luò)的訓(xùn)練更加容易,從而可以提升深度網(wǎng)絡(luò)的性能。圖2為殘差塊的基本結(jié)構(gòu)。
圖2 殘差塊的基本結(jié)構(gòu)Figure 2 The basic structure of the residual block
如圖2所示,殘差網(wǎng)絡(luò)在卷積層上使用跳躍連接來(lái)建立層與層之間的連接。殘差塊函數(shù)定義為
y=F(x,{Wi})+x,
(1)
其中,x和y分別代表殘差結(jié)構(gòu)的輸入和輸出,函數(shù)F(x,{Wi})代表殘差映射。深層網(wǎng)絡(luò)會(huì)產(chǎn)生退化問(wèn)題,這種情況是由冗余的網(wǎng)絡(luò)層產(chǎn)生的。假設(shè)網(wǎng)絡(luò)中的冗余層學(xué)習(xí)到的映射為恒等映射,即y=x,那么深層網(wǎng)絡(luò)就相當(dāng)于變成了淺層網(wǎng)絡(luò),模型的訓(xùn)練效果會(huì)更好。殘差網(wǎng)絡(luò)的殘差結(jié)構(gòu)使原始要學(xué)習(xí)的y,被表示成y=F(x)+x,因此對(duì)恒等映射y=x的學(xué)習(xí),就轉(zhuǎn)換為對(duì)殘差函數(shù)F(x)=y-x的學(xué)習(xí)。當(dāng)F(x)=0時(shí),就相當(dāng)于擬合恒等映射函數(shù)y=x,相比于用非線性層的堆疊來(lái)擬合恒等映射,網(wǎng)絡(luò)層學(xué)習(xí)F(x)=0更為容易。利用這種殘差學(xué)習(xí)策略,可以使深層卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得更為容易,提升模型重建效果。本文對(duì)映射中的卷積層添加5條跳躍連接,建立多映射模型,充分提取每部分的特征信息,提高超分辨的效果。
本文在網(wǎng)絡(luò)的每一層的非線性映射之前使用批量歸一化[14]和縮放移位步驟,以減輕每個(gè)卷積層輸入數(shù)據(jù)分布的變化,即減輕內(nèi)部協(xié)變量偏移。批量歸一化每次激活時(shí)僅添加兩個(gè)參數(shù),并且可以使用反向傳播來(lái)更新參數(shù)。批量歸一化具有訓(xùn)練速度快、性能好、初始化靈敏度低等優(yōu)點(diǎn)。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在殘差學(xué)習(xí)基礎(chǔ)上使用批量歸一化可以實(shí)現(xiàn)更好的超分辨率性能。
數(shù)據(jù)集:本文參考了不同的基于學(xué)習(xí)的SR方法的訓(xùn)練集。SRCNN采用Yang等[3]的91幅圖像(91images)以及ImageNet數(shù)據(jù)集兩種訓(xùn)練集來(lái)訓(xùn)練。FSRCNN使用General-100與91images聯(lián)合作為訓(xùn)練集。VDSR使用291幅圖像作為訓(xùn)練集,其中包括91images及BSD200,并使用旋轉(zhuǎn)以及縮放處理,來(lái)增加訓(xùn)練集。本文采用的訓(xùn)練集同樣為291幅圖像,包括91images、General-100和BSD100[16],并使用與VDSR相同的方式進(jìn)行數(shù)據(jù)增強(qiáng)。首先,將原有圖像進(jìn)行旋轉(zhuǎn)90°、180°和270°處理,這樣數(shù)據(jù)量會(huì)增加為原先的4倍,然后再將旋轉(zhuǎn)后的圖像進(jìn)行0.6、0.7、0.8和0.9倍的縮放處理。經(jīng)過(guò)多角度的轉(zhuǎn)換后,本文的訓(xùn)練數(shù)據(jù)變?yōu)樵瓉?lái)的20倍,即291×4×5=5 820張訓(xùn)練樣本。測(cè)試階段選取了圖像集5(set5)[17]和圖像集14(set14)[18]兩個(gè)通用的數(shù)據(jù)集。
實(shí)驗(yàn)細(xì)節(jié):訓(xùn)練時(shí),首先對(duì)訓(xùn)練圖像進(jìn)行隨機(jī)剪裁,獲得一系列33×33像素的HR子圖像{Xi},然后對(duì)子圖像{Xi}進(jìn)行雙三次下采樣,縮到原圖的1/3大小,得到一系列低分辨率圖像,然后再次使用雙三次上采樣,放大3倍,得到與HR圖像樣本{Xi}相對(duì)應(yīng)的LR圖像樣本{Yi}。本文按照步長(zhǎng)為14的大小從原始訓(xùn)練圖像中提取樣本,經(jīng)過(guò)實(shí)驗(yàn),更小的步幅沒(méi)有帶來(lái)明顯的效果提升。從實(shí)驗(yàn)效果來(lái)看,訓(xùn)練集足以訓(xùn)練本文的深度網(wǎng)絡(luò)。網(wǎng)絡(luò)的最大迭代次數(shù)設(shè)置為1×105,每種算法的放大倍數(shù)都選取為3倍。本文在訓(xùn)練過(guò)程中僅僅針對(duì)Y通道進(jìn)行訓(xùn)練。本文實(shí)驗(yàn)環(huán)境為Matlab2016a和Caffe深度學(xué)習(xí)框架。
評(píng)價(jià)標(biāo)準(zhǔn):本文選擇峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity,SSIM)[19]來(lái)作為評(píng)價(jià)圖像重建質(zhì)量的重要指標(biāo)。兩者數(shù)值越高,模型效果越好。
2.2.1客觀量化評(píng)價(jià) 本文在set5和set14這兩個(gè)測(cè)試集上詳細(xì)對(duì)比了Bicubic(BI)、ScSR[3]、KSVD[20]、ANR[1]、NE+NNLS[2]、NE+LLE[21]的PSNR值,具體數(shù)據(jù)如表1和表2所示。在整體數(shù)據(jù)集上對(duì)比了Bicubic、SRCNN-Ex[5]、FSRCNN[10]、VDSR[6]、MSSRNet[9]、ZSSR[22]的PSNR值和SSIM值,其中除Bicubic外,其他5種方法都是基于深度學(xué)習(xí)的圖像超分辨方法,具體數(shù)據(jù)如表3所示。表1~3中最好的結(jié)果用粗體表示。
表1 set5測(cè)試集上,不同圖像超分辨率方法的PSNR對(duì)比Table 1 The PSNR of different image super-resolution methods on the set5 test set
表2 set14測(cè)試集上,不同圖像超分辨率方法的PSNR對(duì)比Table 2 The PSNR of different image super-resolution methods on the set14 test set
表3 set5和set14上,不同圖像超分辨率方法的平均PSNR對(duì)比Table 3 The average PSNR of different image super-resolution methods on the set5 and set14
由表1~3的實(shí)驗(yàn)數(shù)據(jù)可以看到:在set5數(shù)據(jù)集上,MMRCNN算法的重建質(zhì)量要優(yōu)于其他幾種傳統(tǒng)算法。在set14數(shù)據(jù)集上,除barbara圖像略低于其他幾種傳統(tǒng)算法外,另外幾種情況下的重建質(zhì)量也要優(yōu)于其他幾種傳統(tǒng)算法。在整體數(shù)據(jù)對(duì)比上,MMRCNN的重建效果比其他幾種基于深度學(xué)習(xí)的算法較好。
2.2.2視覺(jué)效果 圖3~8所示為部分測(cè)試圖像的重建效果圖,本文選擇了6個(gè)圖像來(lái)進(jìn)行觀察。這里只顯示了BI、SRCNN-EX[5]、FSRCNN[10]和MMRCNN的超分辨率重建圖像。從視覺(jué)效果來(lái)看,MMRCNN算法具有較好的重建效果,細(xì)節(jié)更完善,更接近原始圖像。例如,由圖3~6的局部放大圖可以看到,MMRCNN算法重建的圖像更加清晰、噪聲更少、細(xì)節(jié)更加完整。由圖7~8的局部放大圖可以看到,MMRCNN算法的重建圖像紋理更加清晰、邊緣更加完整、銳度更強(qiáng)、與原圖效果更逼近。
圖3 關(guān)于圖像baby的重建效果比較Figure 3 Comparison of reconstruction effect of image baby
圖4 關(guān)于圖像butterfly的重建效果比較Figure 4 Comparison of reconstruction effect of image butterfly
圖5 關(guān)于圖像baboon的重建效果比較Figure 5 Comparison of reconstruction effect of image baboon
圖6 圖像pepper的重建效果比較Figure 6 Comparison of reconstruction effect of image pepper
圖7 圖像zebra的重建效果比較Figure 7 Comparison of reconstruction effect of image zebra
圖8 關(guān)于圖像ppt3的重建效果比較Figure 8 Comparison of reconstruction effect of image ppt3
本文提出了一種用于圖像超分辨率的多映射殘差卷積神經(jīng)網(wǎng)絡(luò),有效地解決了傳統(tǒng)方法中單一映射輸出不能完全提取圖像特征集的問(wèn)題。該算法通過(guò)跳躍連接大大提高重建模塊的訓(xùn)練特征集,提高超分辨率重建圖像的質(zhì)量。同時(shí)該算法集成了批量歸一化,加快了訓(xùn)練過(guò)程,提高了超分辨率性能。實(shí)驗(yàn)結(jié)果表明,本文算法的重建效果在客觀圖像量化評(píng)價(jià)和視覺(jué)效果上均有所改善和提高,能夠恢復(fù)更多的圖像細(xì)節(jié),具有更好的視覺(jué)效果。在未來(lái),將繼續(xù)研究合適的CNN模型,進(jìn)一步提高模型的重建性能。