陳 平
(徽商職業(yè)學院,安徽 合肥 230000)
圖像是一種直接獲得的可視化信息,人們可以通過圖像獲取和利用對自己有價值的信息。隨著社會的發(fā)展,各行各業(yè)對圖像質量的要求也越來越高,例如交通部門的電子監(jiān)控系統(tǒng)、醫(yī)學和天文學領域等。數(shù)字圖像是由數(shù)字設備如攝像機、數(shù)碼相機、錄像機等電子設備生成的圖像[1]。然而在實際生活中,經常會因為環(huán)境或設備本身原因造成圖像質量的降低[2]。因此提高圖像的分辨率在實際應用中具有很大意義。
為了獲得高分辨率的圖像,最直接的方法是改進或更換硬件設備,但成本較高。因此圖像超分辨率重構(super resolution,SR)技術已成為解決這一問題的主要途徑[3]。
在計算機視覺中,SR是具有很大的吸引力和挑戰(zhàn)性的任務,目的是從一幅或多幅低分辨率圖像中生成詳細的和空間分辨率強的圖像。通常SR可以分為3類:基于插值的方法、基于重構的方法和基于學習的方法[4-5]?;诓逯档姆椒ê唵?、快速,但結果過于平滑,振鈴現(xiàn)象嚴重。基于重建的方法利用數(shù)學模型重建高分辨率圖像,但計算復雜?;趯W習的方法充分利用了圖像固有的先驗知識。該方法能很好地保留圖像的細節(jié),適用于處理特殊圖像,如光譜圖像[6]、紅外圖像[7]和醫(yī)學圖像[8]。但是基于學習的方法需要大量的訓練樣本,訓練的時間代價也很高。
本文提出了一種新的圖像超分辨率算法,即特征融合卷積超分辨率重構神經網絡(FFSRN)。該方法由3個部分組成,第一部分是提取LR圖像的特征,第二部分是將提取到的各個層次LR圖像的特征傳遞到深層并融合,第三部分是重構HR圖像。本文的內容組織如下:在第一節(jié)中,對所提出的SR方法進行了詳細的說明,第二節(jié)給出了實驗結果,第三節(jié)對本文進行了總結。
現(xiàn)在卷積神經網絡越來越大,性能也越來越好。在一般情況下,神經網絡的性能可以通過增加層數(shù)和每層濾波器的數(shù)目來提高[9]。GoogLeNet是2014年ImageNet的冠軍,它的體系結構被認為是網絡中的網絡[10-11]。主模塊稱為Inception架構,是一個很小的網絡,在該網絡中,對圖像同時進行不同大小的濾波器卷積,得到不同的特征圖,然后將這些特征圖連接在一起,形成新的融合特征圖。該結構減少了濾波器大小對神經網絡性能的影響,可以提取更多的特征。因此GoogLeNet有非常好的表現(xiàn)。該方法受Inception架構的啟發(fā),在第一層使用不同的濾波器大小來提取更多的特征,提高圖像的重建性能[12-13]。
特征融合超分辨率重構網絡(FFSRN)是LR圖像與對應的HR圖像之間的端到端的映射。FFSRN實驗驗證了通過調整網絡的層數(shù)、濾波器的大小和每層濾波器的數(shù)目可以影響重構結果。因此本文將使用3種不同的濾波器尺寸,同時對LR圖像進行處理,然后將不同的特征圖連接起來共同形成新的融合特征圖,可以提高圖像重建的質量,如圖1所示。
圖1 特征融合超分辨率重構網絡結構
在接下來的敘述中,X代表高分辨率圖像,Y為雙三次低分辨率圖像插值,X和Y大小,尺寸相同。F(Y)表示為圖像的重構,F(Y)與X最相似。
1)特征提取
在第一層中,圖像同時被3層包含卷積不同尺寸卷積層的濾波器f11,f12和f13進行特征提取(對應的分別是pad11,pad12,pad13)。這3個特征圖相互關聯(lián)共同形成新的一層融合特征圖,作為下一層的輸入。特征提取與表示為
F1(Y)=max(0,W11*Y+B11)
⊕max(0,W12*Y+B12)
⊕max(0,W13*Y+B13)
(1)
其中,f11×f11,f12×f12,f13×f13為濾波器尺寸,W11,W12,W13為濾波器權值,B11,B12,B13為濾波器偏值,n11,n12,n13濾波器的個數(shù) 和B11,B12,B13為n維空間向量,假設n11=n12=n13=n1,其中‘*’表示卷積操作,‘⊕’表示連接符。
2)非線性映射
非線性映射是指將1個三維圖像特征映射到2個n維特征。非線性映射表示為
F2(Y)=max(0,W2*F1(Y)+B2)
(2)
其中,f2×f2是濾波器的大小,n2是濾波器的數(shù)目。其中W2和B2分別是濾波器的權重和濾波器的偏置。二維矢量表示n2維高分辨率特征并被用于最終的重建。
3)圖像重建
從重構濾波器卷積n2維高分辨率特征中得到最終的HR圖像。圖像重建表示為
F(Y)=W3*F2(Y)+B3
(3)
其中,W3是對應于f3×f3濾波器的濾波器權重,B3是標量。
超分辨率重構算法一般習慣使用均方誤差(mean squared error,MSE)作為損失函數(shù)來測試訓練模型的精度和更新模型的參數(shù)。所以在本文中,我們仍然使用MSE作為損失函數(shù)來訓練神經網絡,表達式為
(4)
其中n是訓練圖像的數(shù)量,Yi是采用雙三次插值的第i個低分辨率圖像,Xi是低分辨率圖像對應的高分辨率圖像,F(xiàn)(Yi;Θ)由網絡模型Θ重建高分辨率圖像。
本文采用DIV2K數(shù)據集。數(shù)據集1包括96幅圖像,訓練集為91幅,測試集為5幅(Set5)(圖2)。數(shù)據集2包括986幅圖像,訓練集為976幅,測試集為10幅(Set10),其中5幅與Set5相同。
本實驗分別使用Dataset1和Dataset2訓練FFSRN模型。用FFSRN模型、FFSRN Dataset1模型、FFSRN Dataset2模型對Set5進行測試(圖2)。注意FFSRN模型是由ImageNet進行訓練的,因此只能得到最終的重建結果。
圖2 FFSRN網絡實驗結果
圖3和圖4為實驗在訓練和測試時所得的PSNR和SSIM指標,網絡訓練迭代次數(shù)為1 000次,PSNR值可達38.5,SSIM值可達0.955。此外實驗表明訓練數(shù)據越多,網絡的性能越好。并且,對于圖像重建,自然圖像集優(yōu)于合成數(shù)據集。
圖3 訓練集的PSNR指標
圖4 訓練集的SSIM指標
下圖5和圖6分別為Dataset1和Dataset2數(shù)據集訓練時的損失函數(shù)收斂圖。由圖可知,1 000次迭代已接近收斂,損失函數(shù)的收斂情況相似。
圖5 Dataset1 MSE收斂曲線
圖6 Dataset2 MSE收斂曲線圖
為了提高圖像的重建質量,在第一層設計了3種不同的濾波器尺寸,特征融合卷積超分辨率重構網絡。FFSRN1:
(f11=5,f12=7,f13=9,f2=3,f3=5;
n11=n12=n13=32,n2=32,n3=1);
FFSRN2:
(f11=7,f12=9,f13=11,f2=3,f3=5;
n11=n12=n13=32,n2=32,n3=1);
FFSRN3:
(f11=9,f12=11,f13=13,f2=3,f3=5;
n11=n12=n13=32,n2=32,n3=1)。
1)濾波器的數(shù)量
在FFSRN2中,每層的過濾數(shù)為n11=n12=n13=32,n2=32,n3=1。本實驗改變了第一層和第二層的過濾數(shù),即FFSRN4和FFSRN5。
2)濾波器的尺寸
在FFSRN2中,非線性映射層的濾波器大小為f2=3。將非線性映射層的濾波器大小調整為FFSRN6(f2=1)和FFSRN7(f2=5)。在訓練集上的測試結果如實驗表明,F(xiàn)FSRN2的平均PSNR值高于其他兩種模型,因此FFSRN2模型仍然是最佳選擇。
本文提出了一種自然圖像超分辨率重建方法。基于FFSRN網絡算法,該方法在第一層卷積過程中使用多尺度并行濾波器,以獲得更多的圖像特征。在第二層實現(xiàn)非線性映射,然后在第三層進行超分辨率重建。實驗表明,該模型能有效提高低分辨率圖像的質量,但由于實際的如法醫(yī)圖像、車牌大小等圖像通常很小,甚至只有十幾個像素,因此,實驗結果不是很理想。所以在后續(xù)工作中將研究高倍化重建方法。