甄有恒
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.中國人民解放軍95876部隊(duì),張掖)
紅外成像技術(shù)利用目標(biāo)熱源信息差生成圖像空間數(shù)值,能夠有效克服可見光圖像無法實(shí)現(xiàn)穿透檢測的缺陷,已經(jīng)在軍事、工業(yè)、遙感、醫(yī)學(xué)等領(lǐng)域有著廣泛應(yīng)用。然而,受紅外傳感器工藝限制,紅外成像質(zhì)量明顯低于可見光成像,主要表現(xiàn)在成像分辨率低以及各類非均勻性噪聲顯著[1]。因此,提升紅外圖像分辨率具有重要的應(yīng)用價(jià)值。面對硬件性能研發(fā)困難的問題,算法設(shè)計(jì)更能節(jié)約研發(fā)成本。
圖像超分辨率重建是圖像退化的反過程,其本質(zhì)是回歸問題[2]。從機(jī)器學(xué)習(xí)過程看,超分辨率重建方法可以分為人工傳授、自主學(xué)習(xí)和半自主學(xué)習(xí)3種形式。人工傳授基于傳統(tǒng)算法模型設(shè)計(jì),需要扎實(shí)的學(xué)科理論基礎(chǔ),但是設(shè)計(jì)過程需要具備豐富的圖像處理先驗(yàn)知識;自主學(xué)習(xí)形式以深度學(xué)習(xí)為典型代表,依靠高維復(fù)雜的映射函數(shù)實(shí)現(xiàn)端到端的學(xué)習(xí),但是往往需要高算力和海量數(shù)據(jù)。半自主學(xué)習(xí)形式融合人工傳授和自主學(xué)習(xí)兩種形式的優(yōu)點(diǎn),通常采用傳統(tǒng)算法優(yōu)化輸入端,然后再自主映射學(xué)習(xí),但是對模型設(shè)計(jì)能力要求高。
利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)圖像超分辨率重建的模型中,基于重構(gòu)[3]、殘差[4-5]、生成對抗[6]等的卷積神經(jīng)網(wǎng)絡(luò)方法處理可見光圖像效果明顯。受此啟發(fā),文獻(xiàn)[7]首次將卷積神經(jīng)網(wǎng)絡(luò)用于紅外圖像增強(qiáng)處理,采用4層網(wǎng)絡(luò)對圖像進(jìn)行端到端的重構(gòu)。文獻(xiàn)[8]對MNIST數(shù)據(jù)集進(jìn)行伽馬變換和高斯濾波方法實(shí)現(xiàn)紅外數(shù)據(jù)仿真,利用多尺寸卷積核提取不同規(guī)模特征來實(shí)現(xiàn)增強(qiáng)對比度、突出紅外弱小目標(biāo)和抑制背景雜波。以上兩種方法均采用小型網(wǎng)絡(luò)結(jié)構(gòu),有利于低運(yùn)算量條件下的部署,但是網(wǎng)絡(luò)層數(shù)太淺導(dǎo)致模型對特征的非線性映射能力變得較差,無法提取更高頻的紅外圖像特征信息。文獻(xiàn)[9]在可見光圖像亮度域完成特征提取、映射和重建過程的模型訓(xùn)練,通過遷移學(xué)習(xí)將訓(xùn)練模型用于初始化紅外測試模型。
以上方法均取得了一定的效果,但是在高倍數(shù)重建任務(wù)中,網(wǎng)絡(luò)模型缺少從低頻特征向高頻特征的信息補(bǔ)充,對細(xì)節(jié)特征的處理能力較低。因此,本文在VDSR網(wǎng)絡(luò)模型基礎(chǔ)上進(jìn)行改進(jìn),提出一種級聯(lián)重建網(wǎng)絡(luò)模型CCNSR(Cascaded Convolutional Network for Super-Resolution)學(xué)習(xí)全局殘差特征。該模型第一級網(wǎng)絡(luò)利用卷積和反卷積操作進(jìn)行編解碼學(xué)習(xí),第二級網(wǎng)絡(luò)對編解碼后的特征圖進(jìn)行遞歸殘差學(xué)習(xí),兩個(gè)網(wǎng)絡(luò)級聯(lián)后,利用全局跳躍連接使得兩級網(wǎng)絡(luò)學(xué)習(xí)端到端的整體殘差。實(shí)驗(yàn)驗(yàn)證了本文模型在VDSR模型基礎(chǔ)上的改進(jìn)效果,同時(shí),對其他模型進(jìn)行性能分析。
設(shè)ILR表示紅外低分辨率圖像,IHR表示高分辨率圖像,ISR表示重建圖像。重建模型描述如下:
其中ILR表示低分辨率圖像,ISR表示超分辨率重建圖像,(F)表示重構(gòu)映射函數(shù),υ表示(F)的參數(shù)集。
全局殘差學(xué)習(xí)的主要優(yōu)勢在于:網(wǎng)絡(luò)模型只需要學(xué)習(xí)輸入輸出之間的殘差信息,充分利用殘差特征的稀疏性用以實(shí)現(xiàn)訓(xùn)練過程的快速收斂。殘差學(xué)習(xí)模型描述如下:
其中(R)表示殘差映射函數(shù),ω表示殘差映射參數(shù)集。
模型目標(biāo)函數(shù)如下:
其中N表示樣本容量,通過對參數(shù)集ω的迭代訓(xùn)練,達(dá)到殘差學(xué)習(xí)模型優(yōu)化的目的。
本文前饋卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要由編解碼子網(wǎng)絡(luò)和遞歸殘差子網(wǎng)絡(luò)級聯(lián)組成。網(wǎng)絡(luò)結(jié)構(gòu)及流程見圖1。
圖1 CCNSR網(wǎng)絡(luò)結(jié)構(gòu)及流程圖
編解碼子網(wǎng)絡(luò)的設(shè)計(jì)主要參照UNet模型[10]。該模型在圖像語義分割中有很好的表現(xiàn),有利于快速提取圖像輪廓特征。編解碼結(jié)構(gòu)設(shè)計(jì)中需要計(jì)算卷積操作后的特征圖尺寸,其計(jì)算公式:
其中K表示卷積核尺寸,P表示邊緣填充數(shù),S表示卷積核步長;Fx表示卷積前的特征圖尺寸,F(xiàn)y表示卷積后的特征圖尺寸,表示向下取整。反卷積計(jì)算公式如下:
在網(wǎng)絡(luò)內(nèi)部,卷積核和反卷積核參數(shù)均設(shè)為K=3,S=1,P=0。對稱設(shè)置確保了特征圖先降采樣后升采樣的編解碼功能。子網(wǎng)絡(luò)首位兩端跳躍連接確保了低語義局部殘差特征的快速學(xué)習(xí)。
遞歸殘差子網(wǎng)絡(luò)受DRRN模型[5]啟發(fā),在編解碼子網(wǎng)絡(luò)提取的初級殘差特征基礎(chǔ)上深度提取高頻殘差信息。該子網(wǎng)絡(luò)內(nèi)部全部采用卷積操作,卷積核統(tǒng)一設(shè)為K=3,S=1,P=1,用以保證特征圖在輸入輸出前后始終保持一致。遞歸跳躍連接實(shí)現(xiàn)低頻殘差特征逐步向高頻殘差特征做補(bǔ)充,同時(shí)豐富的連接數(shù)量有利于反向傳播梯度更新。文獻(xiàn)[11]解釋了批量正則化層(Batch Normalization,BN)對重建任務(wù)較為敏感,因此本文去除BN層。同時(shí),取消遞歸部分連續(xù)三層卷積中最后一層的傳遞函數(shù),用以消除網(wǎng)絡(luò)結(jié)構(gòu)冗余。
另外,除了兩級子網(wǎng)絡(luò)特征融合層卷積核數(shù)量設(shè)為1,其余層卷積核數(shù)量均設(shè)為15。激活函數(shù)統(tǒng)一采用Leaky ReLU函數(shù),特點(diǎn)是在ReLU激活函數(shù)基礎(chǔ)上對負(fù)向輸出添加激勵(lì)因子λ,適度更新神經(jīng)元抑制參數(shù)。
本文采用L2損失函數(shù)用以最小化圖像均方誤差。定義如下:
其中W、H分別表示單個(gè)樣本的寬和高,I(i)(j,k)Ii(j,k)表示圖像某像素點(diǎn)的值。
參數(shù)優(yōu)化采用目前主流的Adam算法[12],其在梯度更新方向和更新幅度方面很好的做到了自適應(yīng)性。更新公式如下:
其中l(wèi)表示網(wǎng)絡(luò)層序號,k表示迭代次數(shù),α表示學(xué)習(xí)率,β1(k)、β2(k)表示學(xué)習(xí)率衰減參數(shù)。
在式(7)中,O(l)(k,ω)表示從輸入層到第l層的映射函數(shù),ω(l)(k)表示第l層參數(shù),g(l)(k)表示迭代計(jì)算到k次時(shí)O(l)(k,ω) 的梯度,并且當(dāng)l為輸出層時(shí),O(l)(k,ω)=loss;式(8)表示帶有動(dòng)量的梯度下降迭代計(jì)算,用于控制梯度更新的方向,式(9)表示均方根梯度下降迭代計(jì)算,用于控制梯度更新的幅度。式(8)、式(9)分母用于修正數(shù)值;式(10)利用式(8)和式(9)調(diào)整后的新梯度進(jìn)行權(quán)值參數(shù)更新。根號是對式(9)中各維度的梯度分別求平方根,ε保持分母數(shù)值穩(wěn)定。
鑒于可見光圖像集訓(xùn)練紅外圖像超分辨率重建模型的方法較為成熟[7-9],本文采用General-100[13]和Urban-100[13]兩個(gè)可見光圖像數(shù)據(jù)集,為紅外圖像提供豐富的細(xì)節(jié)特征。同時(shí),高倍數(shù)差能夠?yàn)閿M合訓(xùn)練提供更高頻的殘差特征,因此設(shè)置高倍數(shù)訓(xùn)練條件。
構(gòu)建訓(xùn)練集,首先對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理,得到1600張圖像,并分割成32×32的圖像塊;然后,利用雙三次插值(Bicubic)對原始高分辨率圖像進(jìn)行8倍降采樣和升采樣,得到相同尺寸的低分辨率圖像;最后,配對圖像塊后構(gòu)成高-低分辨率訓(xùn)練集。測試集取自公開的LTIR紅外數(shù)據(jù)集[14]和FLIR熱紅外數(shù)據(jù)集[15],共隨機(jī)挑選24張圖像,測試集組成方法同訓(xùn)練集。
下面介紹兩種常用的評價(jià)指標(biāo):
峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)從全局衡量圖像重建效果。峰值信噪比公式如下:
其中MSE表示均方誤差,Pmax表示圖像像素最大值,對于8位圖像取Pmax=255;PSNR值越高,圖像重建質(zhì)量越好。
結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)[16]基于人眼視覺感受,從圖像亮度、對比度和結(jié)構(gòu)三個(gè)方面全面評價(jià)圖像整體復(fù)原質(zhì)量。SSIM值處于0到1之間,越接近1越好.結(jié)構(gòu)相似性公式如下:
其中μHR表示IHR的平均像素強(qiáng)度;μSR表示ISR的平均像素強(qiáng)度;σHR表示IHR的像素標(biāo)準(zhǔn)差;σSR表示ISR的像素標(biāo)準(zhǔn)差;σHR,SR表示協(xié)方差;C1、C2取常數(shù)用于穩(wěn)定分母。
本文采用Caffe深度學(xué)習(xí)框架下的CPU訓(xùn)練模式,借助MATLAB和MatConvNet對實(shí)驗(yàn)結(jié)果進(jìn)行分析。選取TEN、VDSR和DRRN三種典型超分辨率重建模型進(jìn)行對照實(shí)驗(yàn),具體操作如下:
(1)按照網(wǎng)絡(luò)結(jié)構(gòu)編寫*.prototxt文件,將訓(xùn)練batch_size設(shè)為128,測試batch_size設(shè)為2,數(shù)據(jù)集保存成HDF5數(shù)據(jù)格式。
(2)編寫Caffe網(wǎng)絡(luò)訓(xùn)練配置*_solver.prototxt文件并初始化訓(xùn)練參數(shù)。卷積層權(quán)值參數(shù)初始化采用MSRA方法,初始學(xué)習(xí)率α=10-4,Leaky ReLU激活函數(shù)負(fù)向激勵(lì)因子λ=0.2。參數(shù)優(yōu)化選擇Adam方法,其中學(xué)習(xí)率衰減參數(shù)β1=0.9、β2=0.999,衰減系數(shù)ε=10-8,最大迭代訓(xùn)練次數(shù)Iteration=50000。
(3)訓(xùn)練模型,迭代訓(xùn)練50000次后讀取Blobs數(shù)據(jù)塊并保存權(quán)值參數(shù)。輸入測試集,使用MatConvNet框架讀取訓(xùn)練好的權(quán)值參數(shù)并按照前饋流程生成重建圖像,計(jì)算評價(jià)指標(biāo)。
(4)對TEN、VDSR和DRRN模型分別按照(1)到(3)依次操作。調(diào)整VDSR和DRRN的卷積核數(shù)量為每層15個(gè),得到VDSR(15)和DRRN(15),用以保證實(shí)驗(yàn)相對公平。
實(shí)驗(yàn)重點(diǎn)測試本文模型在VDSR基礎(chǔ)上改進(jìn)后的性能提升,并對實(shí)驗(yàn)中各個(gè)模型的網(wǎng)絡(luò)結(jié)構(gòu)屬性進(jìn)行了相關(guān)統(tǒng)計(jì),見表1。
表1 各模型網(wǎng)絡(luò)結(jié)構(gòu)主要參數(shù)
其中TEN是基于重構(gòu)的紅外圖像超分辨率重建代表模型;VDSR算法是本文方法的模型基礎(chǔ);DRRN算法用于驗(yàn)證BN層對重建任務(wù)的影響。本文模型的網(wǎng)絡(luò)權(quán)值參數(shù)量是TEN的42%,是VDSR(15)和DRRN(15)的72%,網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量少。
實(shí)驗(yàn)分別對兩組測試集進(jìn)行測試,分別得到4倍和8倍放大倍數(shù)下的平均評價(jià)指標(biāo)值,統(tǒng)計(jì)結(jié)果見表2,其中橫向最優(yōu)值加粗顯示。圖2、圖3分別表示對應(yīng)重建倍數(shù)的性能變化曲線。
由表2統(tǒng)計(jì)數(shù)據(jù),結(jié)合圖2、圖3曲線分析可以得出:①本文方法在參數(shù)量減少的訓(xùn)練條件下,擬合PSNR和SSIM比VDSR模型稍有提升,但是在泛化能力上表現(xiàn)不足,這與編解碼子網(wǎng)絡(luò)中的卷積和反卷積操作過多有關(guān),使得邊緣分割嚴(yán)重。②傳統(tǒng)的雙三次差值方法和基于重構(gòu)的TEN算法對低倍數(shù)下的圖像重建效果較好,但是隨著重建倍數(shù)的上升,重構(gòu)方法的性能下降明顯;基于殘差學(xué)習(xí)的方法在不同倍數(shù)的重建任務(wù)中的影響,因此殘差學(xué)習(xí)可以有效克服對模型參數(shù)量的需求。③帶有BN層的DRRN模型在本文實(shí)驗(yàn)條件下的重建能力不太突出,原因之一是訓(xùn)練數(shù)據(jù)量少導(dǎo)致模型欠擬合,并從側(cè)面印證了添加BN層的操作不一定適用于圖像重建任務(wù)。
表2 各模型分別在4倍、8倍重建下迭代訓(xùn)練50000次的平均PSNR/SSIM值
圖2 各模型對4倍重建的性能測試曲線
圖3 各模型對8倍重建的性能測試曲線
圖4展示了LTIR測試集中13號圖像的局部重建效果??梢钥闯?,對于8倍重建測試,本文模型的重建效果與其他較優(yōu)模型相比性能相當(dāng);在4倍重建測試中,本文模型重建能力不太理想,說明參數(shù)量對網(wǎng)絡(luò)模型的表達(dá)能力影響明顯。
圖4 重建效果展示
本文提出一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的紅外圖像超分辨率重建模型。該模型利用典型模型的優(yōu)勢,通過將整體重建任務(wù)拆分為輪廓特征重建和紋理特征重建兩部分,在VDSR模型的基礎(chǔ)上對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),實(shí)現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。實(shí)驗(yàn)在低數(shù)據(jù)量訓(xùn)練條件下進(jìn)行,本文模型能夠在參數(shù)量較少的情況下實(shí)現(xiàn)PSNR和SSIM指標(biāo)以及擬合能力的提升,達(dá)到了相應(yīng)的實(shí)驗(yàn)?zāi)康摹?/p>