王梓欣 牟葉 王德睿
摘要 卷積神經(jīng)網(wǎng)絡(luò)( ConvolutionNeural Networks, ConvNets,CNN)在圖像識別、目標(biāo)檢測、物體分類等方面已經(jīng)被證實有效可行,于是人們嘗試將CNN運用到更加廣闊的領(lǐng)域,并取得了遠(yuǎn)超傳統(tǒng)方法的性能。圖像的超分辨重建就是一個典型的代表。傳統(tǒng)的超分辨方法計算復(fù)雜,且對不同類型的圖像具有較差的適應(yīng)能力。將深度學(xué)習(xí)的方法應(yīng)用到圖像超分辨率重建上,大幅度提升了超分辨重建的效果,為超分辨重建領(lǐng)域開辟了一個新的方向。本文以SRCNN和VDSR為例,對基于深度學(xué)習(xí)的單幅圖像超分辨算法比較探究。對兩種網(wǎng)絡(luò)的結(jié)構(gòu)以及設(shè)計思想進行了詳細(xì)分析,并通過實驗比較驗證了兩種網(wǎng)絡(luò)的優(yōu)良性能。
【關(guān)鍵詞】深度學(xué)習(xí) CNN 圖像超分辨SRCNNVDSR
1 緒論
圖像的空間分辨率是度量圖像質(zhì)量的一個重要指標(biāo),高分辨率的圖像往往包含著更加豐富的細(xì)節(jié)信息,對于觀賞體驗的提升以及后續(xù)的圖像處理步驟都有著較大的幫助。擁有高分辨率的高清圖像,一直是學(xué)術(shù)界和工業(yè)界不懈追求的目標(biāo)。獲取高分辨率圖像最可靠的方法就是直接采用高分辨率傳感器,然而,由于圖像采集設(shè)施、存儲編碼算法以及網(wǎng)絡(luò)傳輸帶寬等因素的限制,直接獲取高分辨率圖像技術(shù)實現(xiàn)難度大,付出成本高。圖像超分辨重建技術(shù)應(yīng)運而生并得到快速發(fā)展。
早期,超分辨率主要采用基于插值的方法,之后基于重建的超分辨率算法被提出,這些方法在一定程度上提高了圖像的分辨率,但是在對圖像邊緣、紋理特征等細(xì)節(jié)信息的處理上不夠完善,重建結(jié)果偏向于平滑。
深度學(xué)習(xí)的出現(xiàn)使圖像超分辨領(lǐng)域取得了較大的突破,越來越多的研究者使用深層的卷積神經(jīng)網(wǎng)絡(luò)對低分辨率(Low Resolution)圖像進行超分辨處理,并在均方誤差(MSE)、峰值信噪比(PSNR)等指標(biāo)上取得了遠(yuǎn)超傳統(tǒng)方法的效果。卷積神經(jīng)網(wǎng)絡(luò)擁有強大的特征提取能力,通過大量的數(shù)據(jù)集進行訓(xùn)練,可得到具有較好泛化能力的超分辨網(wǎng)絡(luò)模型,為超分辨技術(shù)在實際生活中的應(yīng)用提供了較好的技術(shù)支撐。總之,超分辨重建技術(shù)正在成為各領(lǐng)域的研究熱點,在計算機視覺、圖像處理、視頻處理等領(lǐng)域,超分辨技術(shù)廣闊的應(yīng)用前景促進了超分辨技術(shù)的發(fā)展,超分辨技術(shù)的快速發(fā)展也為加速了相關(guān)技術(shù)的落地應(yīng)用。
2 圖像超分辨算法概述
圖像的超分辨是計算機視覺領(lǐng)域的一個經(jīng)典問題,其目的是從單張低分辨率的圖像中獲重建高分辨率的圖像。圖像超分辨重建的研究起源于20世紀(jì)60年代,最早是J.L.Harris和J.W.Goodman提出一種稱為Harris-Goodman頻譜外推的辦法。上個世紀(jì)80年代開始,凸集投影圖像復(fù)原(Pocs)方法、服從泊松分布的最大似然復(fù)原(泊松-ML)方法、泊松最大后驗概率復(fù)原(泊松-MAP)方法等一系列關(guān)于超分辨的算法被提出,Hunt和Sementilli于1993年對超分辨的定義和特性進行了分析闡述,提出圖像超分辨的能力取決于三個因素:噪聲、圖像的樣頻率以及空間限制。
近年來,基于總變差正則、迭代反投影、凸集投影、等超分辨算法不斷被提出,這些算法不同程度地提升了圖像的超分辨質(zhì)量。由于對低分辨率圖像及進行超分辨處理的解并不唯一,所以超分辨問題本質(zhì)上是一個病態(tài)問題。目前典型的求解此類問題的方法多為引入先驗信息加入約束條件以在一定程度上獲得較優(yōu)的解。目前最新的超分辨算法多使用基于實例的模型,這些算法通過探究相同圖像的內(nèi)在相似性或者通過學(xué)習(xí)低.高分辨率圖像對映射函數(shù)來進行超分辨處理。
2014年,Chao Dong等通過構(gòu)建一個具有3層卷積層的神經(jīng)網(wǎng)絡(luò)(SRCNN),仿照稀疏表示的步驟,提出了一種端到端的超分辨卷積神經(jīng)網(wǎng)絡(luò),首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于超分辨問題并取得了優(yōu)于傳統(tǒng)方法的結(jié)果。在此之后,諸如FSRCNN、ESPCN、VDSR、DRCN等超分辨神經(jīng)網(wǎng)絡(luò)算法被提出。基于深度學(xué)習(xí)的超分辨算法取得了以往傳統(tǒng)方法難以企及的性能提升。
3 卷積神經(jīng)網(wǎng)絡(luò)概述
卷積神經(jīng)網(wǎng)絡(luò)(CNN)的結(jié)構(gòu)層次比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)復(fù)雜,通過設(shè)置多個隱含層,網(wǎng)絡(luò)可以獲得更加優(yōu)秀的學(xué)習(xí)能力,取得更加本質(zhì)的數(shù)據(jù)特征映射。CNN的特點在于它所采用的局部感受野連接和權(quán)值共享策略,相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),一方面網(wǎng)絡(luò)參數(shù)大大減少,另一方面訓(xùn)練和前向測試的復(fù)雜度大幅度降低,避免了網(wǎng)絡(luò)訓(xùn)練過擬合的風(fēng)險。
卷積神經(jīng)網(wǎng)絡(luò)最早是為了解決二維圖形的識別問題而提出的一種卷積方式,其通常是在有監(jiān)督的方式下進行訓(xùn)練得到的。圖1是經(jīng)典的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由YannLecun于1998發(fā)明。目的是用于對手寫數(shù)字?jǐn)?shù)據(jù)集MNIST的檢測,具有極高的準(zhǔn)確率。
一個典型的神經(jīng)網(wǎng)絡(luò)通常具有輸入層、輸出層與隱藏層。網(wǎng)絡(luò)中的每一個神經(jīng)元接受來自網(wǎng)絡(luò)上一層的局部區(qū)域的感受野輸入,通過卷積操作得到局部特征。在圖像處理領(lǐng)域,卷積核可以提取出包括圖像的輪廓、顏色、紋理、邊緣等信息,由于卷積核的權(quán)值共享特性,所以這些提取得到的特征與圖像的位置和角度無關(guān)。
4 SRCNN、VDSR對比分析
隨著卷積神經(jīng)網(wǎng)絡(luò)的深入研究,更加復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用在諸如目標(biāo)檢測、圖像分割、語義理解、人臉識別等領(lǐng)域,極大地提升了圖像處理領(lǐng)域的處理效果和處理效率。最早將卷積神經(jīng)網(wǎng)絡(luò)引入單幅圖像超分辨重建的是ChaoDong等人[1-3],該算法參考了基于稀疏編碼的超分辨處理過程,提出一種具有三個卷積層的超分辨卷積神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)的方式全局優(yōu)化網(wǎng)絡(luò)參數(shù),經(jīng)過端到端的處理過程得到高分辨率圖像。
4.1 SRCNN
SRCNN( Super-Resolution ConvolutionNeural Network)是利用深度學(xué)習(xí)進行圖像超分辨的開山之作,最初由ChaoDong等人在2014年的ECCV會議上提出,后續(xù)將相關(guān)成果完善后發(fā)表在TPAMI雜志。該工作提出了一種用于單幅圖像超分辨的深度學(xué)習(xí)方法,直接學(xué)習(xí)高低分辨率圖像之間的端對端映射,并且證明了基于傳統(tǒng)稀疏編碼的超分辨方法也可以看作是一個深層的卷積神經(jīng)網(wǎng)絡(luò)。
相比用于目標(biāo)檢測、語義理解、圖像分割的復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,SRCNN具有非常靈巧的結(jié)構(gòu)設(shè)計[圖2]:整個網(wǎng)絡(luò)只有三個卷積層,具有較少的卷積核以及網(wǎng)絡(luò)參數(shù),甚至可以在CPU上進行網(wǎng)絡(luò)運算,同時,訓(xùn)練完成的網(wǎng)絡(luò)完全不需要求解任何優(yōu)化問題,并且隨著訓(xùn)練數(shù)據(jù)集的增加,網(wǎng)絡(luò)的超分辨重建效果可以得到進一步的提升。
SRCNN并不能改變圖像的大小,所以在利用SRCNN網(wǎng)絡(luò)進行超分辨處理之前需要對圖像使用雙三次插值將其擴大到所需的大小,得到一個“具有低分辨率的大尺寸圖像”。將此圖像送入SRCNN網(wǎng)絡(luò)進行訓(xùn)練或者測試,網(wǎng)絡(luò)輸出一個具有高分辨率的大尺寸圖像。
網(wǎng)絡(luò)結(jié)構(gòu)參照稀疏編碼可以分為三個部分:塊特征的提取與表示、特征之間的非線性映射以及最后的重建部分。整個超分辨結(jié)構(gòu)是由稀疏編碼驅(qū)動設(shè)計的,但巧合的是,三層操作均具有與卷積層相似的形式。把三個操作放在一起,構(gòu)成卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),并且采用求解神經(jīng)網(wǎng)絡(luò)梯度的方式對整個超分辨結(jié)構(gòu)進行優(yōu)化求解。
本文采用以下參數(shù)設(shè)置網(wǎng)絡(luò),塊特征的提取與表示:本層使用的卷積核大小為9x9,輸出特征數(shù)為64。特征之間的非線性映射:本層使用大小為lxl的卷積核,輸出特征個數(shù)為32。重建:本層使用卷積核大小為5x5。
關(guān)于損失函數(shù)的設(shè)定,本文使用均方誤差(MSE)作為損失函數(shù),通過優(yōu)化此損失函數(shù)得到的網(wǎng)絡(luò)輸出圖像有利于得到較高的峰值信噪比( PSNR)。
4.2 VDSR
雖然SRCNN成功地把CNN引入到超分辨問題中,但是SRCNN依賴于較小的感受野,這并不利于較大尺度的超分辨重建。只有三層的網(wǎng)絡(luò)結(jié)構(gòu)一定程度上也限制對更加復(fù)雜特征的提取與表示能力,而隨著網(wǎng)絡(luò)的層數(shù)加深,則可能帶來梯度消失等問題。
2015年,K.He提出了用于解決較深層次網(wǎng)絡(luò)梯度消失問題的殘差網(wǎng)絡(luò)模型( Resnet),它引入了全新的結(jié)構(gòu)以允許網(wǎng)絡(luò)盡可能地加深。VDSR( Super-Resolution Using Very DeepConvolutional Networks)借鑒了殘差網(wǎng)絡(luò)的思想,提出了具有更深網(wǎng)絡(luò)層次的超分辨重建網(wǎng)絡(luò)。多達(dá)20層的網(wǎng)絡(luò)使整個網(wǎng)絡(luò)擁有更大的感受野,可以根據(jù)更多的像素點去推測結(jié)果像素點。此外,通過只學(xué)習(xí)輸入圖像與網(wǎng)絡(luò)輸出圖像之間的高頻殘差,可以避免學(xué)習(xí)低分辨率圖像與高分辨率圖像大量相似的低頻部分,減少了訓(xùn)練時間。
VDSR將不同放大倍數(shù)的圖像混合在一起同時送入網(wǎng)絡(luò)進行訓(xùn)練,可以獲得對不同放大倍數(shù)的超分辨能力。在對圖像的邊界卷積操作上,本文選擇對圖像邊界補O,保證了特征圖與網(wǎng)絡(luò)的輸出擁有一致的尺寸大小,實驗結(jié)果證明,邊界的補O操作使得卷積網(wǎng)絡(luò)對邊緣像素的預(yù)測能力有所提升。
5 實驗測試
對于本文提出的卷積神經(jīng)網(wǎng)絡(luò)超分辨算法SRCNN、VDSR,在本章給出實驗驗證結(jié)果。實驗平臺為基于Linux系統(tǒng)下Ubuntu16.04下運行Tensorflow進行訓(xùn)練,采用顯卡GTX1080Ti進行實驗。
訓(xùn)練模型初始化參數(shù)服從高斯隨機分布,SRCNN的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示,VDSR的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示。
本次實驗的訓(xùn)練樣本采用標(biāo)準(zhǔn)訓(xùn)練集291,首先對圖旋轉(zhuǎn)、鏡像等操作,然后進行兩至四倍下采樣處理,將處理的到的圖像進行雙三次插值,然后裁剪圖像大小至41x41,送入神經(jīng)網(wǎng)絡(luò)訓(xùn)練。訓(xùn)練結(jié)果如圖4所示。表1展示基于深度學(xué)習(xí)的超分辨網(wǎng)絡(luò)訓(xùn)練結(jié)果比較(PSNR值)。
6 總結(jié)
將功能強大的卷積神經(jīng)網(wǎng)絡(luò)引入超分辨重建領(lǐng)域,極大地提升了圖像超分辨的成像效果。通過比較SRCNN和VDSR的重建效果以及指標(biāo),可以看出,使用了更深層網(wǎng)絡(luò)結(jié)構(gòu)的VDSR無論是在視覺效果還是在峰值信噪比(PSNR)指標(biāo)上,相比于SRCNN均有所提升。這也說明,更深層次的網(wǎng)絡(luò)能夠根據(jù)更多的像素感受野來更好地預(yù)測目標(biāo)區(qū)域的像素信息。殘差結(jié)構(gòu)也使VDSR在擁有更深層網(wǎng)絡(luò)的情況下只需較少的訓(xùn)練時間即可達(dá)到較好的訓(xùn)練效果。
在SRCNN和VDSR網(wǎng)絡(luò)之后,具有優(yōu)良性能的超分辨網(wǎng)絡(luò)層出不窮。以FSRCNN.ESPCN、 DRCN、 LapSRN、 SRGAN等為代表的超分辨網(wǎng)絡(luò)取得了出色的效果,諸如遞歸網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等越來越豐富的網(wǎng)絡(luò)結(jié)構(gòu)也被引入超分辨重建領(lǐng)域。
參考文獻(xiàn)
[l]Dong C, Chen C L,He K, et al. Learning aDeep Convolutional Network for ImageSuper-Resolution [M]. Computer Vision-ECCV 2014. Springer InternationalPublishing, 2014: 184-199.
[2]Kim J,Lee J K,Lee K M.AccurateImage Super-Resolution UsingVery Deep ConvolutionalNetworks [J]. 2015: 1646-1654.
[3] Dong C,Chen C L,He K,et al. ImageSuper-Resolution Using DeepConvolutional Networks [J].IEEE Transactions on PatternAnalysis &Machine; Intelligence, 2016, 38 (02): 295-307.
[4] Dong C,Chen C L,Tang X.Acceleratingthe Super-Resolution ConvolutionalNeural Network [J]. 2016: 391-407.
[5]Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied todocument
recognition [J]. Proceedingsof the IEEE, 1998, 86 (11): 2278-2324.
[6]趙小樂.單幅圖像超分辨技術(shù)研究[D].西南科技大學(xué),2015.
[7]韓小虎,基于深度學(xué)習(xí)的圖像超分辨算法研究[D].河南大學(xué),2016.
[8]王學(xué)文.基于學(xué)習(xí)的圖像超分辨率算法研究[D].華中科技大學(xué),2016.