国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

采用多層卷積稀疏表示的紅外與可見光圖像融合

2021-12-13 02:03張洲宇曹云峰
關(guān)鍵詞:字典紅外卷積

張洲宇,曹云峰,丁 萌,陶 江

(1.南京航空航天大學(xué) 航天學(xué)院,南京 210016;2.南京航空航天大學(xué) 民航學(xué)院,南京 211106)

由于傳感器成像特性的差異,紅外傳感器與可見光傳感器拍攝的圖像往往具有較強的互補性[1]。紅外圖像在低能見度條件下依然可以清晰的捕獲目標(biāo),但是圖像的邊緣、紋理等細節(jié)不夠豐富??梢姽鈭D像具有較強的細節(jié)保存能力,但是成像質(zhì)量極易受到光照變化的影響。為了最大程度地結(jié)合兩種圖像類型的優(yōu)點,將紅外圖像與可見光圖像進行融合從而彌補傳感器的固有缺陷成為了一條行之有效的思路。紅外圖像與可見光圖像融合目前已廣泛地應(yīng)用于智能監(jiān)控、目標(biāo)監(jiān)視、視頻分析等領(lǐng)域[2]。

現(xiàn)有的圖像融合算法根據(jù)所選取的融合信息可分為像素級、特征級、決策級3個層級,其中像素級圖像融合直接對源圖像進行融合,所保存的細節(jié)信息最為完備,因此在過去數(shù)十年中得到了廣泛的關(guān)注[3]。像素級圖像融合又可以進一步分為空間域融合與變換域融合兩類,空間域融合無需對圖像進行任何變換操作,因此實現(xiàn)較為簡單,但是易于導(dǎo)致融合圖像低對比度及塊狀分布等缺陷。為了克服上述不足,變換域圖像融合采取的方案是對源圖像進行適當(dāng)?shù)膱D像變換,并對轉(zhuǎn)換后的圖像信息進行融合。變換域圖像融合的基本流程分為:1)圖像變換,將源圖像由空間域映射到變換域;2)活性度衡量,衡量變換后向量的重要程度;3)融合規(guī)則設(shè)計,采取恰當(dāng)?shù)娜诤弦?guī)則完成活性層的篩選。顯然,變換域圖像融合的核心在于由空間域到變換域的變換方式[4]。

早期的變換域圖像融合所采取的變換方法包括小波變換、金字塔變換等,通過人工構(gòu)建的小波基與金字塔基實現(xiàn)源圖像的變換。由于人工構(gòu)建的圖像變換的圖像表示能力始終有限,該類方法始終難以獲取圖像中所有隱藏的信息。為克服早期圖像變換的局限性,壓縮感知(compressive sensing,CS)理論通過預(yù)訓(xùn)練的過完備字典實現(xiàn)源圖像的變換,由于過完備字典是從大量的訓(xùn)練樣本中學(xué)習(xí)得到的,CS理論的圖像表示能力具有顯著的優(yōu)勢,在過去10年中受到了廣泛的研究[5]?;贑S理論的圖像融合方法可分為3個步驟:首先將源圖像分解為若干均等大小的圖像塊,對每一個圖像塊利用預(yù)訓(xùn)練的過完備字典計算與其對應(yīng)的稀疏向量;其次,對同一位置對應(yīng)的稀疏向量進行融合,獲取融合后的向量;最后,利用融合后的向量結(jié)合過完備字典完成融合圖像的重建。CS理論應(yīng)用于圖像融合最大的不足在于:1)基于圖像塊的建模方式破壞了源圖像的語義結(jié)構(gòu),難以有效提取源圖像中包含的空間上下文信息。2)基于圖像塊的建模、融合與重建對于兩幅圖像的匹配關(guān)系提出了嚴(yán)苛的要求,因此對于誤匹配的容忍度較低[6]。為克服上述不足,近年來的相關(guān)研究工作開始嘗試使用全局建模的方式對源圖像進行變換,其中最為有效的變換方式為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)與卷積稀疏表示(convolutional sparse representation,CSR)。

CNN根據(jù)所需解決任務(wù)屬性的不同可以分為分類式CNN與回歸式CNN兩類[7]。分類式CNN目前已在視覺目標(biāo)檢測、識別與分類等任務(wù)中得到了廣泛應(yīng)用,傳統(tǒng)的視覺識別流程總體上可分為3個步驟,即特征表示、特征選取與特征分類,分類式CNN最大的優(yōu)勢在于通過多層卷積神經(jīng)網(wǎng)絡(luò)將上述3個步驟聯(lián)合實現(xiàn)[8-12]。Liu等[4]指出,早期的變換域圖像融合方法所包含的3個步驟與傳統(tǒng)視覺識別的3個步驟具有極大的相似性,因此將分類式CNN應(yīng)用于圖像融合成為了一條可行的思路?;貧w式CNN又稱為全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network,FCN),一般采用端對端的方式實現(xiàn)視覺信息的分析與處理。回歸式CNN目前已在低級視覺任務(wù)中得到了大量應(yīng)用,例如圖像分割、超分辨率重建等。因此,如果給定融合圖像的真值圖,即可訓(xùn)練回歸式CNN通過端對端的方式獲取融合結(jié)果。然而,無論是分類式CNN還是回歸式CNN,其共性不足在于難以獲取大量帶標(biāo)簽的訓(xùn)練樣本用于網(wǎng)絡(luò)訓(xùn)練[13]。

CSR的基本思路源于Zeiler等[14]所設(shè)計的反卷積網(wǎng)絡(luò),其目的在于通過非監(jiān)督的方式從自然圖像中提取中級與高級特征。CSR的基本原理是通過一組預(yù)先訓(xùn)練的卷積字典濾波器將源圖像分解為一系列卷積稀疏響應(yīng)圖,每一張卷積稀疏響應(yīng)圖都包含了目標(biāo)不同層級的信息。作為一種非監(jiān)督機器學(xué)習(xí)方法,CSR已被成功地用于解決許多視覺處理任務(wù),例如目標(biāo)跟蹤、背景建模以及圖像去噪等。在圖像融合領(lǐng)域,CSR可以視為一種有效的圖像變換方法[15]。由于CSR的圖像建模方式無需對源圖像進行分解,避免了基于稀疏表示(sparse representation,SR)的圖像融合算法[3]的局部建模所帶來的語義信息缺失與對誤匹配的低容忍度兩大缺陷,因此CSR已在圖像融合領(lǐng)域得到了成功的應(yīng)用。Zeiler等[14]指出,當(dāng)基于CSR的反卷積網(wǎng)絡(luò)的層數(shù)加深時,網(wǎng)絡(luò)學(xué)習(xí)得到的圖像特征將由邊緣向整個目標(biāo)轉(zhuǎn)移,考慮到紅外與可見光圖像融合的初衷在于凸顯源圖像中的目標(biāo),為此本文設(shè)計了一種面向紅外與可見光圖像融合的多層卷積稀疏表示網(wǎng)絡(luò)。

1 面向紅外與可見光圖像融合的多層卷積稀疏網(wǎng)絡(luò)結(jié)構(gòu)

本文所設(shè)計的面向紅外與可見光圖像融合的多層卷積稀疏網(wǎng)絡(luò)如圖1所示,該網(wǎng)絡(luò)共包含5層,采用前饋的方式實現(xiàn)紅外與可見光源圖像的融合。

圖1 基于多層卷積稀疏表示的紅外與可見光圖像融合網(wǎng)絡(luò)

網(wǎng)絡(luò)的第1、2層為卷積稀疏層,通過預(yù)先訓(xùn)練的多層字典濾波器將源圖像變換為一組卷積稀疏響應(yīng)圖。網(wǎng)絡(luò)的第3層為融合層,通過對活性度衡量以獲得卷積稀疏響應(yīng)圖的融合結(jié)果。網(wǎng)絡(luò)的第4、5層為重建層,通過融合后的卷積稀疏響應(yīng)圖結(jié)合預(yù)先訓(xùn)練的多層字典濾波器實現(xiàn)融合圖像的重建。

相比于SR、CSR、CNN等現(xiàn)有圖像融合方法,本文所設(shè)計的圖像融合網(wǎng)絡(luò)具有以下優(yōu)勢:

1)與SR的局部變換方式不同,本文所設(shè)計的圖像融合網(wǎng)絡(luò)采用全局變換的方式,有效抑制了SR應(yīng)用于圖像融合所導(dǎo)致的語義信息損失以及對細節(jié)信息的低容忍度兩大缺陷。

2)相比于基于CSR的圖像融合方法,本文借鑒了卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計思路。Papyan等[16]通過理論分析已經(jīng)證明了多層卷積稀疏表示網(wǎng)絡(luò)與CNN的結(jié)構(gòu)存在著緊密的聯(lián)系,多層卷積稀疏表示可以實現(xiàn)更有效的圖像變換。

3)區(qū)別于CNN的監(jiān)督學(xué)習(xí)特性,本文所設(shè)計的多層卷積稀疏網(wǎng)絡(luò)采取的學(xué)習(xí)方式是非監(jiān)督的,無需大量帶有標(biāo)簽的訓(xùn)練樣本完成網(wǎng)絡(luò)的訓(xùn)練,在實現(xiàn)上更為簡單。

4)本文算法的計算復(fù)雜度相比于SR具有明顯的優(yōu)勢,相比于CSR不會明顯上升。假設(shè)SR與CSR所使用的字典維度均為k,輸入圖像的大小均為D×D,基于SR的圖像融合方法計算復(fù)雜度為O(D2×k2);基于CSR的圖像融合方法計算復(fù)雜度為O(k×D×log(D)),明顯低于SR的計算復(fù)雜度[17];本文算法共包含兩層卷積稀疏層,因此計算復(fù)雜度為O(2k×D×log(D)),較CSR更高,但依然低于SR。

2 基于多層卷積稀疏表示的紅外與可見光圖像融合算法

2.1 多層卷積稀疏表示理論

給定輸入圖像I∈RA×B,以及一組相同大小的圖像濾波器fi∈Ra×b,i=1,2,…,m,這樣一組濾波器被定義為卷積字典濾波器。CSR的基本思想在于任意一幅輸入圖像I都可以表示為卷積字典濾波器以及與之對應(yīng)的卷積稀疏響應(yīng)圖si∈RA×B,i=1,2,…,m乘積的和。CSR的目標(biāo)函數(shù)如下式所示:

(1)

式中λ為稀疏正則項。

由于卷積稀疏響應(yīng)S可被視為m張大小為A×B的圖像集合,S中的每一張卷積稀疏響應(yīng)圖可以進一步地被另一個卷積字典濾波器F′∈Ra′×b′×m′和與之對應(yīng)的卷積稀疏響應(yīng)圖表示,以此類推,可獲得K層的卷積稀疏響應(yīng)圖。如定義1所示,這種類型的CSR被稱為多層CSR。壓縮感知理論的基本思想可視為通過對過完備字典D中原子的組合來表示輸入信號,多層CSR的基本思想與壓縮感知理論相似,但是區(qū)別于壓縮感知理論所用到的字典原子,多層CSR用于表征信號的是采用多層字典的復(fù)雜組合Dl1Dl2…DlK,與壓縮感知理論中的字典原子對應(yīng),這一類的字典組合被稱為“分子”[16]。

……

(2)

式(2)可視為經(jīng)典的基追蹤問題的卷積形式,可通過交替方向乘子算法(Alternating direction method of multipliers,ADMM)有效求解。

為了引入ADMM求解式(2)的優(yōu)化問題,將式(2)轉(zhuǎn)換為如式(3)所示的交替形式,對式(3)的優(yōu)化過程通過迭代的方式進行,從第t步至第t+1步的迭代如式(4)~式(6)所示:

(3)

(4)

(5)

(6)

式中u為引入的輔助變量。

(7)

(8)

(9)

(10)

(11)

2.2 多層卷積字典學(xué)習(xí)

(12)

(13)

(14)

(15)

C={x∈RA×B:(I-PPT)x=0,‖x‖2=1}

(16)

(17)

通過引入輔助變量h以及參數(shù)ρ,式(15)可以改寫為式(18)的形式從而采用ADMM求解,從第t步至第t+1步的迭代過程如式(19)~式(21)所示。

(18)

(19)

(20)

(21)

(22)

(23)

(24)

(25)

(26)

至此,多層卷積字典學(xué)習(xí)的定義歸納如下。

……

2.3 紅外與可見光圖像融合算法

如圖1所示,給定一組配準(zhǔn)后的紅外圖像IIN與可見光圖像IVI,本文所設(shè)計的圖像融合網(wǎng)絡(luò)共包含5層,以前饋的方式實現(xiàn)。

(27)

(28)

(29)

最終,第4、5層的重建層利用預(yù)先訓(xùn)練的卷積字典逐層地重建恢復(fù)融合圖像,第4層的重建過程如式(30)所示,第5層的重建過程如式(31)所示。

(30)

(31)

至此,基于多層卷積稀疏網(wǎng)絡(luò)的紅外與可見光圖像融合算法歸納如下。

3 實驗分析與驗證

3.1 實驗設(shè)置

如圖2所示,3組配準(zhǔn)后的紅外圖像與可見光圖像被選為實驗用源圖像。為了衡量圖像融合的實驗結(jié)果,本文采用主觀評價與客觀評價相結(jié)合的方式來評判融合結(jié)果的優(yōu)劣。主觀評價單純依靠人眼衡量融合結(jié)果,而客觀評價通過一系列圖像質(zhì)量的評價指標(biāo)來衡量融合結(jié)果。本文所選取的圖像質(zhì)量評價指標(biāo)包括空間頻率(spatial frequency,SF),熵(Entropy,EN),互信息(mutual information,MI)以及梯度評價指標(biāo)QAB/F,各項評價指標(biāo)的含義如下:

1)SF代表融合結(jié)果的清晰度與紋理豐富度,SF越高,融合效果越好。

2)EN代表融合結(jié)果包含的信息量與紋理,EN越高,融合效果越好。

3)MI代表融合結(jié)果的互信息,MI越高,融合效果越好。

4)QAB/F代表融合結(jié)果的梯度信息,QAB/F越高,融合效果越好。

圖2 實驗圖像

3.2 參數(shù)學(xué)習(xí)與分析

對于本文所設(shè)計的多層卷積稀疏表示網(wǎng)絡(luò)而言,預(yù)訓(xùn)練的卷積稀疏字典對于網(wǎng)絡(luò)的融合效果有著至關(guān)重要的影響,因此有必要針對字典的選取對網(wǎng)絡(luò)融合效果的影響展開分析。由上一節(jié)的理論分析可知,給定訓(xùn)練樣本,學(xué)習(xí)參數(shù)λ,迭代次數(shù)t,卷積字典的長度與卷積字典的大小對于卷積字典的學(xué)習(xí)有重要的影響。本文用于第1卷積稀疏層的訓(xùn)練樣本為200幅自然圖像,用于第2卷積稀疏層的訓(xùn)練樣本為200幅卷積稀疏響應(yīng)圖,學(xué)習(xí)參數(shù)λ,迭代次數(shù)t設(shè)置為500。

3.2.1 卷積字典的尺寸對融合效果的影響

如表1所示,當(dāng)?shù)?、2卷積稀疏層的卷積字典長度固定為32時,卷積字典的大小取值為8×8,16×16,32×32和64×64。由于第2卷積稀疏層的卷積字典訓(xùn)練樣本為卷積稀疏響應(yīng)圖而非自然圖像,因此可以直觀地看出Dl2比Dl1更稀疏。

表1 不同尺寸的卷積字典

源圖像1,2,3在不同尺寸字典下的圖像融合客觀評價指標(biāo)如圖3~5所示。由圖中結(jié)果可知,Dl1中字典尺寸變化帶來的影響較Dl2更大,導(dǎo)致該現(xiàn)象的原因是:1)在字典訓(xùn)練的迭代次數(shù)一致的前提下,當(dāng)字典的尺寸增大時,對于源圖像變換的重建誤差將隨之上升,從而影響最終圖像融合的效果;2)與卷積神經(jīng)網(wǎng)絡(luò)類似,淺層的網(wǎng)絡(luò)對于提取圖像的邊緣信息更有效,且底層網(wǎng)絡(luò)所提取的邊緣信息是后續(xù)網(wǎng)絡(luò)提取語義信息的基礎(chǔ),因此第1層的重建誤差將傳播至第2層,影響最終的圖像融合結(jié)果。

圖3 源圖像1在不同字典尺寸下融合結(jié)果的客觀評價指標(biāo)

圖4 源圖像2在不同字典尺寸下融合結(jié)果的客觀評價指標(biāo)

3.2.2 卷積字典的長度對融合效果的影響

如表2所示,當(dāng)?shù)?、2卷積稀疏層的卷積字典尺寸固定為16×16,卷積字典的長度為16,32,64和128。源圖像1,2,3在不同尺寸字典下的圖像融合客觀評價指標(biāo)如圖6~8所示。由圖中結(jié)果可知,相比于卷積字典的尺寸,卷積字典的長度對融合結(jié)果的影響較小。當(dāng)卷積字典的長度增加時,圖像融合的效果會有微弱的改善,且Dl2對融合結(jié)果的影響較Dl1更大。上述現(xiàn)場產(chǎn)生的原因為:1)圖像變換對于信息的表示能力極大地取決于特征的維度,而多層CSR的特征維度與字典的長度緊密相關(guān),因此當(dāng)字典長度增加時,融合效果會有相應(yīng)的改善;2)與CNN的結(jié)構(gòu)類似,從網(wǎng)絡(luò)深層提取的信息相較于淺層信息的表示能力更強,因此Dl2對融合結(jié)果有更大的影響。

圖5 源圖像3在不同字典尺寸下融合結(jié)果的客觀評價指標(biāo)

表2 不同長度的卷積字典

3.3 對比實驗分析

本文采用了3種經(jīng)典的圖像融合算法與本文設(shè)計的算法進行對比,3種對比算法分別是:基于稀疏表示(SR)的圖像融合算法[3],基于卷積稀疏表示(CSR)的圖像融合算法[15],基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像融合算法[9]。每一種融合算法所對應(yīng)的融合結(jié)果剛見表3,根據(jù)融合結(jié)果采用主觀評價可知,本文所設(shè)計圖像融合算法獲得的結(jié)果在保留細節(jié)(例如可見光圖像中的植被、建筑等)的同時顯著增強了圖像中的目標(biāo)。

圖6 源圖像1在不同字典長度下融合結(jié)果的客觀評價指標(biāo)

圖7 源圖像2在不同字典長度下融合結(jié)果的客觀評價指標(biāo)

圖8 源圖像3在不同字典長度下融合結(jié)果的客觀評價指標(biāo)

表3 融合結(jié)果對比

進一步對本文所設(shè)計的算法進行客觀評價,客觀評價指標(biāo)對比結(jié)果如圖9所示。由客觀評價指標(biāo)的計算結(jié)果分析可知,本文所提出的圖像融合算法相比于同類算法具有一定的優(yōu)勢。

圖9 不同方法的融合結(jié)果客觀評價指標(biāo)對比

針對3組實驗圖像,對4種算法的實時性進一步進行驗證分析。本文的算法實現(xiàn)平臺為Matlab 2016b,計算機主頻為3.4 GHz,內(nèi)存為8 GB,采用Matlab的tic toc命令,對于4種算法的運行時間進行統(tǒng)計,統(tǒng)計結(jié)果見表4。由表4可知,本文算法相比于SR和CNN在計算時間方面具有明顯的優(yōu)勢;相比于CSR,由于前饋式的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致需要進行兩次卷積稀疏運算,因此計算時間略有增長。

表4 融合計算時間對比

4 結(jié) 論

1)本文設(shè)計了一種多層卷積稀疏表示網(wǎng)絡(luò),且給出了針對該網(wǎng)絡(luò)的卷積稀疏字典訓(xùn)練方法與卷積稀疏響應(yīng)圖求解方法,作為一種有效的圖像變換方法,該網(wǎng)絡(luò)不僅可用于紅外與可見光圖像融合,同樣可被擴展于目標(biāo)檢測、跟蹤等領(lǐng)域。

2)與基于稀疏表示的圖像融合方法對比,本文所設(shè)計的多層卷積稀疏表示網(wǎng)絡(luò)所具備的全局建模能力在誤匹配條件下具有明顯的優(yōu)勢。

3)作為一種基于非監(jiān)督學(xué)習(xí)的融合網(wǎng)絡(luò),本文所設(shè)計的圖像融合方法無需大量帶有標(biāo)簽的訓(xùn)練樣本即可完成參數(shù)的學(xué)習(xí),因此該網(wǎng)絡(luò)同樣可被用于解決其他類型的圖像融合問題,例如多焦點圖像融合、醫(yī)學(xué)圖像融合等。

猜你喜歡
字典紅外卷積
網(wǎng)紅外賣
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
閃亮的中國紅外『芯』
從濾波器理解卷積
字典的由來
8路紅外遙控電路
TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
大頭熊的字典