莫建文 曾兒孟 張彤 袁華
摘要:針對(duì)單一冗余字典在稀疏表示圖像超分辨率重建結(jié)果出現(xiàn)不清晰、偽影以及重建過程編碼效率不高、運(yùn)算時(shí)間過長的問題,提出一種基于多字典學(xué)習(xí)和圖像塊映射的超分辨率重建方法。該方法在傳統(tǒng)稀疏表示的框架下,首先探索局部圖像塊的梯度結(jié)構(gòu)信息,按梯度角度將訓(xùn)練樣本塊分類; 然后為每個(gè)子類樣本集學(xué)習(xí)高低分辨率字典對(duì),再結(jié)合最近鄰思想應(yīng)用生成的字典,為每個(gè)子類計(jì)算從低分辨率塊到高分辨率塊映射的函數(shù);最后將重建過程簡化為輸入塊和映射函數(shù)的乘積,在保證提高重建質(zhì)量的同時(shí)減少了圖像重建的時(shí)間。實(shí)驗(yàn)結(jié)果表明,所提算法在視覺效果有較大的提升,同時(shí)與錨點(diǎn)鄰域回歸算法相比,評(píng)價(jià)參數(shù)峰值信噪比(PSNR)平均提高約0.4dB。
關(guān)鍵詞:稀疏表示;圖像塊分類;多字典學(xué)習(xí);映射函數(shù);鄰域嵌入
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
Abstract:To overcome the disadvantages of the unclear results and time consuming in the sparse representation of image superresolution reconstruction with single redundant dictionary, a single image superresolution reconstruction method based on multidictionary learning and image patches mapping was proposed. In the framework of the traditional sparse representation, firstly the gradient structure information of local image patches was explored, and a large number of training image patches were clustered into several groups by their gradient angles, from those clustered patches the corresponding dictionary pairs were learned. And then the mapping function was computed from low resolution patch to high resolution patch in each clustered group via learned dictionary pairs with the idea of neighbor embedding. Finally the reconstruction process was reduced to a projection of each input patch into the high resolution space by multiplying with the corresponding precomputed mapping function, which improved the images quality with less running time. The experimental results show that the proposed method improves the visual quality significantly, and increases the PSNR (Peak SignaltoNoise Ratio) at least 0.4dB compared with the anchored neighborhood regression algorithm.
Key words:sparse representation; image patches classification; multidictionary learning; mapping function; neighbor embedding
0 引言
在醫(yī)學(xué)診斷、衛(wèi)星遙感、視頻監(jiān)控等數(shù)字成像領(lǐng)域中,都需要圖像有較高的分辨率來為人的研究工作提供幫助。但是由于電子成像設(shè)備、環(huán)境以及傳感器制造成本制約等因素的影響,實(shí)際獲得的圖像分辨率難以滿足實(shí)際的應(yīng)用需求, 因此通過軟件技術(shù)手段,將輸入的單幅或多幅低分辨率(Low Resolution, LR)圖像恢復(fù)出相同場景的高分辨率(High Resolution, HR)圖像的方法叫圖像超分辨率(Image SuperResolution, ISR)重建,該技術(shù)在公共安全等眾多領(lǐng)域發(fā)揮著重要的作用[1]。
為了獲得超分辨率圖像,目前軟件算法主要分為基于插值的方法[2]、基于重建的方法[3]和基于學(xué)習(xí)的方法[4-8]三類。而近年來,隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)研究的深入,基于學(xué)習(xí)的重建算法取得了較大的進(jìn)步[1,4-7]。Chang等[9]受流型學(xué)習(xí)算法啟發(fā),提出局部線性嵌入(Local Linear Embedding, LLE)的超分辨率重建方法,學(xué)習(xí)到高、低分辨率圖像塊之間的局部特征映射模型,通過最近鄰域線性組合重建出高分辨率圖像。Yang等[5-6]利用稀疏編碼進(jìn)行超分辨率重構(gòu),該方法首先假設(shè)高低分辨率圖像塊在過完備字典下有相同的稀疏系數(shù),通過樣本圖像庫訓(xùn)練高低分辨率字典對(duì);然后求解待重建LR塊在低分辨率字典下的稀疏系數(shù),再結(jié)合高分辨率字典重建對(duì)應(yīng)的HR塊,從而得到最后的高分辨率圖像。Zeyde等[7]在Yang的基礎(chǔ)上把K次奇異值分解算法(Kmeans Singular Value Decomposition, KSVD)算法[9]應(yīng)用到字典學(xué)習(xí)中,并用正交匹配追蹤(Orthogonal Matching Pursuit, OMP)算法[10]對(duì)圖像塊稀疏編碼,在速度和重建結(jié)果上都比Yang的有一定的提高。Dong等 [11]研究圖像的非局部冗余結(jié)構(gòu),提出稀疏表示框架下非局部自回歸模型,該模型學(xué)習(xí)Kmean聚類下的主成分分析(Principal Component Analysis, PCA)多字典,并引入回歸模型和非局部約束,取得不錯(cuò)的效果。此外,Timofte等[4]提出一種快速的錨點(diǎn)鄰域回歸(Anchored Neighborhood Regression, ANR)算法,該算法結(jié)合稀疏編碼和最近鄰域嵌入(Neighbor Embedding, NE)思想,通過線下預(yù)先生成的映射關(guān)系,把超分辨率(SuperResolution, SR)過程簡化為輸入的LR塊和映射矩陣相乘,在保證重建質(zhì)量的同時(shí)極大提高SR速度。
雖然以上方法取得了不錯(cuò)的重建效果,但是它們建立的高度單一冗余字典對(duì)在稀疏分解中具有潛在的不穩(wěn)定性,易產(chǎn)生視覺偽影[12],且編碼效率不高。針對(duì)這一不足,本文在Timofte的基礎(chǔ)上提出了基于多字典學(xué)習(xí)和圖像塊映射(Multi Dictionary Learning and Image Patches Mapping, MDLIPM)的超分辨重建方法。MDLIPM方法在保持原有稀疏編碼的本質(zhì)基礎(chǔ)上,通過圖像局部梯度特征對(duì)圖像塊分類; 然后以KSVD算法對(duì)每個(gè)聚類庫訓(xùn)練出高低分辨率字典對(duì); 再結(jié)合最近鄰域思想,利用訓(xùn)練到的字典對(duì),學(xué)習(xí)從LR塊到HR塊的映射算子;最后將得到的映射函數(shù)應(yīng)用到重建階段,避免重建過程需要對(duì)每個(gè)圖像塊稀疏編碼的開銷,減少重建時(shí)間并提高重建質(zhì)量。實(shí)驗(yàn)結(jié)果顯示,本文方法的重建結(jié)果在主觀視覺效果和客觀評(píng)價(jià)參數(shù)上都取得不錯(cuò)的成績,重建時(shí)間有一定的降低。
2 MDLIPM的超分辨方法
本文汲取鄰域嵌入和稀疏表示重建的優(yōu)點(diǎn),提出的多字典學(xué)習(xí)和圖像塊映射超分辨率(Multi Dictionary Learning and Image Patches Mapping SuperResolution,MDLIPM SR)算法分為兩個(gè)階段:訓(xùn)練階段,首先分析圖像塊的梯度結(jié)構(gòu),以此把訓(xùn)練庫分成多個(gè)類,并為每個(gè)子類訓(xùn)練高低分辨率字典對(duì){D(i)l,D(i)h},i=1,2,…,K,然后利用字典對(duì)結(jié)合最近鄰域回歸思想,把鄰域的搜索空間限制在字典空間內(nèi),以此為每個(gè)子類學(xué)習(xí)到從LR塊到HR塊的映射回歸矩陣{f(i)},i=1,2…,K;重建階段,通過梯度信息判斷LR塊的所屬子類后,把該子類的映射函數(shù)矩陣與LR塊相乘直接重建出該LR塊對(duì)應(yīng)的HR圖像塊,避免了對(duì)圖像塊迭代求解稀疏系數(shù)的過程,從而減低重建時(shí)間并進(jìn)一步得到重建的HR圖像。
以上過程是Zeyde的兩步字典訓(xùn)練思想[12],因其字典訓(xùn)練速度快、編碼算法效率高,故本文同樣采用該思想進(jìn)行字典學(xué)習(xí)。但由于其訓(xùn)練的單一字典不足以最稀疏表示具有某種特定結(jié)構(gòu)特性的圖像塊,所以本文引進(jìn)2.1節(jié)描述的基于梯度信息進(jìn)行圖像塊分類,進(jìn)而學(xué)習(xí)到每個(gè)類的字典,并以訓(xùn)練得到的多字典作為學(xué)習(xí)圖像塊映射函數(shù)的依據(jù)。
2.3 圖像映射函數(shù)學(xué)習(xí)
本文引進(jìn)Timofte等[4]的方法,把基于字典的SR方法和最近鄰域方法相結(jié)合,限制鄰域搜索空間在字典空間內(nèi),學(xué)習(xí)從LR塊到HR塊的映射函數(shù),以避免在重建階段對(duì)圖像塊稀疏編碼的過程,保證重建質(zhì)量的同時(shí)降低重建的時(shí)間。
正如式(5)所示,由于計(jì)算上的需要,基于鄰域嵌入或稀疏表示的最小二乘問題都應(yīng)用1范數(shù)正則項(xiàng)對(duì)權(quán)重系數(shù)或者稀疏系數(shù)加以限制。為了獲得系數(shù)的解析解,本文重新調(diào)整正則約束項(xiàng),把1范數(shù)約束改為2范數(shù)約束;然后以嶺回歸[15]求解辦法獲得系數(shù)的解析形式。調(diào)整過之后,NE系數(shù)問題表示為:
3 實(shí)驗(yàn)仿真與結(jié)果分析
為了驗(yàn)證MDLIMP算法的有效性,在訓(xùn)練階段,本文選擇包括人物、植物、建筑等69幅圖像并分塊,每個(gè)塊的大小與學(xué)習(xí)單一字典的(Sparse coding Super Resolution,ScSR)、ANR的相同,設(shè)置為5×5,建立10000個(gè)高低分辨率圖像塊一一對(duì)應(yīng)的訓(xùn)練集,并按照文中的梯度信息分類方法對(duì)樣本集分成K=8類;然后以文中2.2節(jié)所述為每個(gè)子類學(xué)習(xí)原子數(shù)為512的高低分辨率字典對(duì)和映射回歸矩陣,實(shí)驗(yàn)中映射回歸學(xué)習(xí)式(18)的因子λ設(shè)為0.01。另外選取如圖1所示的10幅標(biāo)準(zhǔn)測試圖像,并通過雙三次插值方法降采用的到待重建的LR圖。整個(gè)測試實(shí)驗(yàn)平臺(tái)為Inter Core i53230M CPU 2.60GHz,Matlab的版本為R2010b。
實(shí)驗(yàn)中以雙三次插值算法Bicubic作為基準(zhǔn)對(duì)比算法,并選擇最近鄰域局部線性嵌入方法(Neighbor Embedding Super Resolution,NESR)[9]、學(xué)習(xí)單一字典的ScSR算法[6]、Kmean聚類多字典的(Nonlocal Autoregressive Modeling,NARM)算法[11]和錨點(diǎn)鄰域回歸的(ANR)算法[4]作為對(duì)比實(shí)驗(yàn),以檢驗(yàn)本文方法的性能。待重建的LR圖像放大因子s設(shè)為3,各方法重建結(jié)果的視覺主觀對(duì)比如圖2、3所示??陀^評(píng)價(jià)參數(shù)峰值信噪比(Peak SignaltoNoise Ratio, PSNR)和結(jié)構(gòu)相似度(Structural SIMilarity,SSIM)的對(duì)比結(jié)果見表1和表2。
圖2比較了Parrots圖在不同SR方法的重建結(jié)果,考察鸚鵡眼角周圍的羽毛紋理細(xì)節(jié)部分。從視覺觀測上來看,Bicubic基于平滑假設(shè),故重建細(xì)節(jié)不明顯,整體表明較為平滑;NESR算法丟失較多的高頻信息,在恢復(fù)了部分細(xì)節(jié)的同時(shí)引入了不可估計(jì)的噪聲,羽毛紋理出現(xiàn)鋸齒、模糊等現(xiàn)象;而其他幾個(gè)算法重建效果都比NESR的要好,重建出來的細(xì)節(jié)信息比NESR的要多,但仍有一些不足的地方。其中ScSR方法的細(xì)節(jié)重建明顯同時(shí)仍出現(xiàn)振鈴狀;NARM算法在鸚鵡羽毛的邊緣部分出現(xiàn)平滑和偽影效果,細(xì)節(jié)部分也不夠清晰;ANR算法中鸚鵡眼角的紋理相對(duì)較好,但同樣出現(xiàn)部分虛假信息。而本文MDLIPM方法在羽毛邊緣的銳度和清晰度都得到明顯的改善,重建的高頻信息豐富,視覺效果更好。同樣從圖3 face圖像人臉鼻子部分的雀斑看出,本文MDLIPM方法恢復(fù)的局部細(xì)節(jié)信息清晰、細(xì)膩,整體效果與原始圖像更接近。從客觀評(píng)價(jià)參數(shù)來看,從表1、2中可知,本文MDLIPM方法和NESR算法、ScSR算法以及NARM算法相比、在PSNR和SSIM上略有提高,其中單幅圖像PSNR提高最多的有0.8dB左右,而平均也可提高大概0.4dB,說明本文方法確實(shí)可行有效。同時(shí),添加局部對(duì)比度的質(zhì)量評(píng)價(jià)方法(Quality Index based on Local Variance, QILV)[16]、模糊系數(shù)K[17]和質(zhì)量因素Q[18],對(duì)重建結(jié)果進(jìn)行比較,其中各方法重建質(zhì)量評(píng)估參數(shù)平均值如表3所示。從表中可以看出,本文方法均取得較好的成果。
另外在重建時(shí)間上,不考慮訓(xùn)練時(shí)間,本文僅僅對(duì)各個(gè)方法的重建時(shí)間作比較。NESR算法需要對(duì)每個(gè)待重建塊搜索最近鄰域,故重建時(shí)間是最長的。從表4看出,ScSR、NARM、ANR算法以及本文方法平均的重建時(shí)間分別為42.46s、189.97s、0.45s和2.91s。由于本文方法在重建時(shí),需要判斷待圖像塊所屬類別,導(dǎo)致時(shí)間比ANR算法略長,但顯著提高了重建圖像的質(zhì)量。
4 結(jié)語
本文提出了基于多字典和圖像塊映射的超分辨率重建方法,該方法探索局部圖像塊的梯度結(jié)構(gòu)信息,并依據(jù)局部塊的梯度方向?qū)τ?xùn)練樣本塊分類,再應(yīng)用兩步字典訓(xùn)練方法為每個(gè)分類樣本訓(xùn)練高低分辨率字典對(duì);同時(shí)引入了最近鄰域回歸思想,在每個(gè)類中從學(xué)習(xí)到的字典對(duì)中建立從低分辨率塊到高分辨率塊的映射矩陣。在重建過程,首先對(duì)每個(gè)待重建塊歸并到所屬類中,然后應(yīng)用該類映射矩陣重建相對(duì)應(yīng)的高分辨率圖像塊,避免了對(duì)每個(gè)圖像塊稀疏編碼的運(yùn)算開銷。實(shí)驗(yàn)結(jié)果顯示,在保留經(jīng)典稀疏編碼圖像超分辨率重建效果的同時(shí),一定程度上提高SR重建效率、降低重建時(shí)間。未來的研究工作將尋求更好的優(yōu)化方法,進(jìn)一步提高重建質(zhì)量,以及應(yīng)用分布式并行處理降低訓(xùn)練階段的時(shí)間;同時(shí)將進(jìn)一步討論參數(shù)設(shè)置,如圖像塊的大小、樣本集聚類數(shù)K等對(duì)重建效果的影響。
參考文獻(xiàn):
[1]CHEN X, QI C. Nonlinear neighbor embedding for single image superresolution via kernel mapping[J]. Signal Processing, 2014, 94(1): 6-22.
[2]LIU X, ZHAO D, ZHOU J, et al. Image interpolation via graphbased Bayesian label propagation[J]. IEEE Transactions on Image Processing, 2014, 23(3): 1084-1096.
[3]RASTI P, DEMIREL H, ANBARJAFARI G. Image resolution enhancement by using interpolation followed by iterative back projection[C]// Proceedings of the 21st IEEE on Signal Processing and Communications Applications Conference. Piscataway, NJ: IEEE, 2013: 1-4.
[4]TIMOFTE R, DE V, VAN GOOL L. Anchored neighborhood regression for fast examplebased superresolution[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 1920-1927.
[5]YANG J, WRIGHT J, HUANG T S, et al. Image superresolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873.
[6]YANG J, WRIGHT J, HUANG T, et al. Image superresolution as sparse representation of raw image patches[C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE,2008: 1-8.
[7]ZEYDE R, ELAD M, PROTTER M. On single image scaleup using sparserepresentations[C]// Proceedings of the 7th International Conference on Curves and Surfaces. Heidelberg: Springer, 2012: 711-730.
[8]AHARON M, ELAD M, BRUCKSTEIN A. The KSVD: an algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322.
[9]CHANG H, YEUNG D Y, XIONG Y. Superresolution through neighbor embedding[C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2004, 1: 275-282.
[10]RUBINSTEIN R, ZIBULEVSKY M, ELAD M. Efficient implementation of the KSVD algorithm using batch orthogonal matching pursuit[R/OL].[2015-11-04].https://www.researchgate.net/publication/251229200.
[11]DONG W, ZHANG L, LUKAC R, et al. Sparse representation based image interpolation with nonlocal autoregressive modeling[J]. IEEE Transactions on Image Processing, 2013, 22(4): 1382-1394.
[12]ELAD M, YAVNEH I. A plurality of sparse representations is better than the sparsest one alone[J]. IEEE Transactions on Information Theory, 2009, 55(10): 4701-4714.
[13]FENG X G, MILANFAR P. Multiscale principal components analysis for image local orientation estimation[C]// Proceedings of IEEE Conference Record of the 36th Asilomar Conference on Signals, Systems and Computers. Piscataway, NJ: IEEE,2002, 1: 478-482.
[14]YANG S, WANG M, CHEN Y, et al. Singleimage superresolution reconstruction via learned geometric dictionaries and clustered sparse coding[J]. IEEE Transactions on Image Processing, 2012, 21(9): 4016-4020.
[15]TIKHONOV A N, ARSENIN V I A. Solutions of illposed problems[J]. Mathematics of Computation, 1978, 32(144):491.
[16]AJAFERNANDEZ S, SANJOSESTPAR R, ALBEROLALOPEZ C, et al. Image quality assessment based on local variance[C]// Proceedings of the 28th Annual IEEE International Conference on Engineering in Medicine and Biology Society. Piscataway, NJ: IEEE,2006: 4815-4818.
[17]黃文輝, 陳仁雷, 張家謀. 數(shù)字視頻圖像質(zhì)量客觀測量方法的改進(jìn)與實(shí)現(xiàn)[J]. 北京郵電大學(xué)學(xué)報(bào), 2005, 28(4): 87-90. (HUANG W H,CHEN R L, ZHANG J M. Improvement and implementation of objective digital video quality measurement[J].Journal of Beijing University of Posts and Telecommunications,2005, 28(4): 87-90.)
[18]WANG Z, SHEIKH H R, BOVIK ALAN C. Objective Video Quality Assessment[M]. Boca Raton: CRC Press, 2003:214-220.