孔韋韋,雷 陽,任 聰,趙文陽
(1.西安郵電大學(xué) 計算機(jī)學(xué)院 陜西 西安 710121;2.武警工程大學(xué) 密碼工程學(xué)院 陜西 西安 710086)
目前,主流的多聚焦圖像融合方法可分為變換域融合方法與空間域融合方法兩類.代表性變換域融合方法主要基于多尺度幾何分析理論展開,可分為源圖像多尺度分解、子圖像融合以及最終圖像重構(gòu)3個步驟.經(jīng)典的小波變換僅能捕獲有限方向的圖像特征,且不具備平移不變性,非下采樣輪廓波變換[1-2]與非下采樣剪切波變換[3-7]作為經(jīng)典輪廓波變換與剪切波變換的改進(jìn)型模型,極大地提升了圖像的融合效果.然而,在此過程中,信息的損失和光譜信息的扭曲仍然是無法回避的問題.與多尺度幾何分析方法不同,稀疏表達(dá)[8-10]模型側(cè)重于將源圖像轉(zhuǎn)換為單一尺度的特征映射,并采用滑動窗口實現(xiàn)平移不變性圖像融合的近似表達(dá),該模型具有較好的圖像融合效果,但在源圖像高頻細(xì)節(jié)信息保存方面略顯不足.相比變換域融合方法,早期經(jīng)典的空間域融合方法通常采取將源圖像劃分為若干塊,而后選取空間頻率或梯度信息等評價指標(biāo)分別對源圖像的對應(yīng)塊加以比較和融合.但是圖像塊的尺寸以及融合規(guī)則的選取通常會對最終融合效果造成很大的影響.因此,目前主流的空間域方法主要著眼于圖像塊尺寸的自適應(yīng)調(diào)整以及融合規(guī)則的設(shè)定.
CNN作為深度學(xué)習(xí)中的代表性模型,由于具有優(yōu)越的圖像特征捕捉和信息分析能力,被廣泛應(yīng)用于圖像識別、圖像檢索等領(lǐng)域.本文采用CNN模型對多聚焦圖像融合問題加以解決.針對多聚焦圖像融合問題與CNN中分類問題的一致性,探索二者的切合點以及本文方案的可行性;對經(jīng)典的CNN模型加以優(yōu)化,構(gòu)建改進(jìn)型CNN模型;將待融合源圖像輸入到改進(jìn)型CNN模型進(jìn)行實驗仿真.仿真結(jié)果表明,與現(xiàn)有的代表性融合方法相比,該方法無論在直觀視覺效果還是客觀評價指標(biāo)值均具有顯著的優(yōu)勢.
CNN是一個可訓(xùn)練的多層前饋人工神經(jīng)網(wǎng)絡(luò),且每一層都包含與抽象層相對應(yīng)的一定數(shù)量的特征映射.其中,特征映射中的每個單元或系數(shù)稱為神經(jīng)元.線性卷積、非線性激活和空間域池化用于實現(xiàn)不同階段特征映射的連接.圖1給出了經(jīng)典CNN模型結(jié)構(gòu)圖.
圖1 經(jīng)典CNN模型結(jié)構(gòu)圖Fig.1 Structure of the traditional CNN model
圖1中的CNN模型擁有1個輸入層、1個輸出層、3個卷積層以及3個池化層.輸入層/輸出層用于接收/輸出圖像信息;CNN的第一卷積層的濾波器主要用于檢測低階特征,比如邊、角、曲線等.隨著卷積層的增加,對應(yīng)濾波器檢測的特征也更復(fù)雜.例如,第二卷積層的輸入實際上是第一層的輸出,該層濾波器用來檢測低階特征的組合等情況(半圓、四邊形等),如此累積,以檢測越來越復(fù)雜的特征.池化層周期性地出現(xiàn)在相鄰的兩個卷積層之間,可以有效減少訓(xùn)練參數(shù)的數(shù)量,壓縮圖像的空間大小.
CNN模型中濾波器激活圖源于特征提取,而融合規(guī)則的作用恰恰類似于分類任務(wù)中使用的分類器.就現(xiàn)行絕大多數(shù)空間域和變換域方法而言,激活映射圖可以通過構(gòu)造局部濾波器來獲取源圖像的高頻細(xì)節(jié)信息,而融合規(guī)則實質(zhì)上完成了針對源圖像像素點的權(quán)值分配.CNN模型中的“卷積”操作與多聚焦圖像融合過程中的濾波器操作等價,而多聚焦圖像的焦點映射圖生成過程等價于CNN模型的分類過程.因此,可以采用CNN模型用于圖像融合問題的解決.
針對經(jīng)典CNN模型中權(quán)值設(shè)置隨意,以及部分結(jié)構(gòu)不合理的問題,提出并構(gòu)建一種改進(jìn)型CNN模型,該模型主要涉及權(quán)值設(shè)定、卷積層和池化層3個部分.
經(jīng)典CNN模型涉及大量權(quán)值的設(shè)定,這些權(quán)值設(shè)置通常較為隨意,而權(quán)值設(shè)定的優(yōu)劣直接影響CNN模型的訓(xùn)練效果以及最終的分類結(jié)果.針對該問題,本文提出采用高斯概率分布函數(shù)確定輸入層與第一卷積層(C1)、池化層與相鄰后續(xù)卷積層間的權(quán)值,
其中:矩陣P中每一元素的尺寸均為r×r;N表示卷積核的數(shù)量.顯然,若前一層圖像信息的尺寸為k×k,則通過高斯概率分布函數(shù)獲得的特征映射圖的尺寸為(k-r+1)×(k-r+1).
卷積層主要針對源圖像或前一池化層中的特征映射采取“卷積”操作,以提取圖像中的特征信息.有了2.1節(jié)的權(quán)值設(shè)定,可以得到第i幅特征映射中位于點(x,y)的卷積結(jié)果為
其中:Θ表示待融合源圖像.需要說明的是,不同于經(jīng)典CNN模型,特征映射并不適用于非線性函數(shù).
池化層通常周期性地出現(xiàn)在相鄰的兩個卷積層之間,其功能主要在于有效減少訓(xùn)練參數(shù)的數(shù)量,從而壓縮圖像的空間大小.經(jīng)典CNN模型采用平均值池化層策略和最大值池化層策略.然而,這兩種策略均有不同程度的缺陷.其中,平均值池化針對每個池化鄰域內(nèi)的結(jié)點進(jìn)行算術(shù)平均運算,但會削弱強(qiáng)激活結(jié)點產(chǎn)生弱池化效應(yīng);最大值池化傾向于過度擬合訓(xùn)練集從而影響泛化性能.為了克服這兩種經(jīng)典池化策略的消極影響,本文提出了均方根池化策略.
大量仿真實驗結(jié)果表明,即使隨機(jī)設(shè)定若干權(quán)值,均方根池化策略仍然具有固有的頻率選擇性和平移不變性.該池化策略具有平方運算和求和運算兩個部分,可以使整個CNN模型具有很好的非線性和平移不變性.將均方根池化策略應(yīng)用于所有池化層,可以得到點(x,y)位于第j幅池化映射中的結(jié)果為
其中:Θ表示待融合源圖像;p,q=1,…,(k-r+1);e為池化鄰域半徑.
為了驗證文中提出的融合方法的有效性,本節(jié)將引入幾種近年代表性的方法與之進(jìn)行比較.本文的實驗平臺為一臺CPU,主頻為2.9 GHz、8G內(nèi)存的PC,采用的仿真軟件為Matlab 2014b.本節(jié)選取了兩組灰度圖像作為源圖像進(jìn)行融合仿真實驗.
本文將采用性能較為優(yōu)越的4種融合方法與文中方法(記為M5)進(jìn)行融合效果比較:基于框架變換耦合SUSAN的多聚焦圖像融合算法[11](M1)、基于小波變換的多聚焦圖像融合方法[12](M2)、基于NSCT耦合區(qū)域特性的多聚焦圖像融合算法[13](M3)、基于多尺度CNN和圖像分割的多聚焦圖像融合算法[14](M4).其中M1~M4中的參數(shù)均按照原對應(yīng)文獻(xiàn)中的給定數(shù)據(jù)設(shè)定.本文所提方法的改進(jìn)型CNN模型具有1個輸入層、1個輸出層、3個卷積層(3個卷積層的濾波器數(shù)量分別為5、10、15,且所有卷積核的尺寸均為3×3),3個池化層(池化層最后一層的鄰域尺寸設(shè)定為2×2,其余池化層的鄰域尺寸設(shè)定為5×5).
除了直觀視覺效果外,本文還采用了4種客觀評價指標(biāo)比較5種方法的性能,分別為空間頻率(spatial frequency,QSF)、Piella指標(biāo)(QPiella)、互信息量(mutual information,QMI)和相位一致性(phase congruency,QP).QSF是衡量圖像像素點信息反差度的重要指標(biāo),融合圖像的QSF值越大,表明融合圖像的信息量越豐富,融合質(zhì)量越好;QPiella描述了圖像的結(jié)構(gòu)信息,QPiella值越大,圖像的結(jié)構(gòu)信息越豐富,效果越好;QMI用來衡量融合圖像與源圖像間的交互信息,QMI值越大,表示融合圖像從源圖像中獲取的信息越豐富,融合效果越好,本文使用的是歸一化互信息量;QP利用相位一致性描述圖像邊緣信息,QP值越大,表明融合圖像的邊緣信息越豐富.以上各指標(biāo)的表達(dá)式參見文獻(xiàn)[15].
本節(jié)選取兩組灰度圖像作為待融合源圖像,圖像像素大小均為512×512.該兩組圖像分別擁有不同的聚焦信息,如何盡可能地將這些聚焦信息融合到一幅結(jié)果圖像中是本節(jié)實驗的主要目的.M1~M5 5種方法的圖像融合仿真效果如圖2~3所示.
圖2 第I組多聚焦圖像融合效果圖Fig.2 Fused results of the multi-focus images in group I
圖3 第II組多聚焦圖像融合效果圖Fig.3 Fused results of the multi-focus images in group II
從直觀角度看,上述5種方法均較好地保持了兩幅源圖像的重要信息,并對源多聚焦圖像進(jìn)行了較好的融合.為了更方便進(jìn)行比較,本節(jié)針對融合結(jié)果圖像中的部分顯著區(qū)域進(jìn)行了放大,如圖4所示.本文方法的融合結(jié)果圖具有更理想的視覺效果.此外,直觀效果在客觀評價指標(biāo)數(shù)據(jù)中也得到了驗證,表1和表2給出了5種融合算法的客觀評價測度值.
圖4 五種融合方法的區(qū)域放大圖Fig.4 Enlarged images based on five methods
表1 第I組灰度多聚焦圖像融合效果性能比較Tab.1 Performance comparison of the grey multi-focus images in group I
表2 第II組灰度多聚焦圖像融合效果性能比較Tab.2 Performance comparison of the grey multi-focus images in group II
如上所述,與現(xiàn)有代表性融合方法相比,本文提出的融合方法無論在直觀視覺效果還是客觀評價指標(biāo)值方面均具有較明顯的優(yōu)勢.
本文針對多聚焦圖像融合問題,提出了一種基于改進(jìn)型CNN模型的圖像融合方法.論述了多聚焦圖像融合問題與CNN中分類問題的一致性關(guān)系,表明了本文方法的合理性和可行性;對經(jīng)典的CNN模型加以改進(jìn),給出了權(quán)值設(shè)定方法,并對經(jīng)典模型的池化層機(jī)制進(jìn)行了改進(jìn);將待融合源圖像輸入改進(jìn)型CNN模型進(jìn)行了實驗仿真.仿真結(jié)果驗證了本文方法的有效性.