洪雨露 吳小俊 徐天陽
圖像融合是圖像處理中的一個重要課題,其目的是獲得具有重要目標和豐富細節(jié)的融合圖像.由于成像原理不同,單個傳感器能獲取的圖像信息相對有限.紅外圖像可獲取圖像的熱輻射信息,在視覺昏暗時也不受影響,但是包括的紋理細節(jié)信息較有限,影響人們對場景的理解.可見光圖像可獲得豐富的紋理信息和細節(jié)信息,但在昏暗條件下獲得的目標信息不明顯.因此,將紅外圖像和可見光圖像進行融合可使融合圖像中同時包含紅外圖像的顯著性目標和可見光圖像的背景細節(jié)信息,融合后的圖像更有利于人類的視覺感知,也便于后續(xù)應(yīng)用在其它計算機視覺任務(wù)中[1].融合技術(shù)可應(yīng)用在檢測[2-4]、目標跟蹤[5-6]、行為識別[7]等許多領(lǐng)域.
現(xiàn)有的圖像融合方法一般可分為傳統(tǒng)的圖像融合方法和基于深度學(xué)習的圖像融合方法.傳統(tǒng)的圖像融合方法主要包括基于多尺度變換的方法[8]和基于稀疏/低秩表示學(xué)習的方法[9-10].基于多尺度變換的方法將源圖像映射到不同尺度的特征空間,然后選擇合適的融合策略融合多尺度特征,最后通過逆多尺度變換生成融合圖像.基于稀疏/低秩表示學(xué)習的圖像融合方法是從高質(zhì)量的輸入圖像中學(xué)習一個過完備字典,獲得稀疏(低秩)的圖像表示,然后選擇合適的融合策略,獲得融合的稀疏表示系數(shù),最后通過圖像重構(gòu)得到融合圖像.雖然這些傳統(tǒng)的圖像融合方法可取得較好的融合質(zhì)量,但是學(xué)習一個過完備字典就占用融合算法的大部分運行時間,而且融合質(zhì)量非常依賴于手工設(shè)計的融合規(guī)則,這些融合規(guī)則使融合算法越來越復(fù)雜.
近年來,隨著深度學(xué)習的興起,其強大的特征提取能力和重構(gòu)能力被應(yīng)用于圖像融合中,學(xué)者們提出許多基于深度學(xué)習的圖像融合方法,可分為非端到端的圖像融合方法和端到端的圖像融合方法.非端到端的圖像融合方法[11-13]通常使用深度學(xué)習將源圖像映射到特征空間,并使用手工設(shè)計的融合規(guī)則融合深度特征.常用的融合規(guī)則包括取平均值、取最大值、加法等.Li等[12]提出DenseFuse(A Fusion Approach to Infrared and Visible Images),在訓(xùn)練階段,僅通過自動編碼器訓(xùn)練網(wǎng)絡(luò)的重構(gòu)性能,不涉及融合策略.在測試階段,應(yīng)用手動設(shè)計的融合策略獲得多模態(tài)圖像的融合圖像.Li等[13]提出NestFuse(An Infrared and Visible Image Fusion Architecture Based on Nest Connection and Spatial/Channel Atten-tion Models),為融合圖像添加更多的紋理信息.雖然上述方法使用深度學(xué)習獲得圖像特征,但仍需手動設(shè)計融合規(guī)則,增加融合算法的復(fù)雜性.
為了避免手動設(shè)計融合規(guī)則,讓網(wǎng)絡(luò)自適應(yīng)地學(xué)習融合參數(shù),學(xué)者們提出許多端到端的圖像融合方法[14-21].Prabhakar等[14]提出DeepFuse(A Deep Unsupervised Approach for Exposure Fusion with Ex-treme Exposure Image Pairs),使用無監(jiān)督的方式訓(xùn)練多曝光融合網(wǎng)絡(luò),網(wǎng)絡(luò)包括編碼器、融合層和解碼器,在融合層使用相加的方式進行特征融合.由于融合規(guī)則過于粗糙,在復(fù)雜的融合任務(wù)上,不具備優(yōu)勢.生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)也被應(yīng)用于端到端的紅外和可見光圖像融合中.Ma等[16]提出FusionGAN(A Generative Adver-sarial Network for Infrared and Visible Image Fusion),使用GAN完成圖像融合任務(wù).生成器用于生成紅外和可見光圖像的融合圖像,判別器用于為融合圖像添加紋理信息.但是,由于損失函數(shù)只包括內(nèi)容損失和對抗損失,融合后的圖像與紅外圖像接近,丟失可見光圖像的細節(jié).隨后,Ma等[17]改進文獻[16],在損失函數(shù)中添加細節(jié)損失和目標邊緣損失,在一定程度上提高融合質(zhì)量.
雖然基于GAN的融合方法可實現(xiàn)融合目的,但是由于GAN的訓(xùn)練不穩(wěn)定,網(wǎng)絡(luò)訓(xùn)練非常困難,并且融合圖像依然丟失大量紋理信息.為了在訓(xùn)練簡便的同時提升融合質(zhì)量,Zhang等[18]提出IFCNN(A General Image Fusion Framework Based on Convolutional Neural Network),使用兩個卷積層作為特征提取模塊,選擇簡單的融合策略(最大值、平均值、求和)融合提取特征,最后使用兩個卷積層進行圖像重建.這種方法雖然可應(yīng)用于多種圖像融合任務(wù),但網(wǎng)絡(luò)結(jié)構(gòu)過于簡單,無法提取全面的特征信息,使融合圖像丟失很多內(nèi)容.此后,Zhang等[19]提出PMGI(A Fast Unified Image Fusion Network Based on Proportional Maintenance of Gradient and Intensity),梯度分支負責提取紋理特征,強度路徑負責提取強度信息.該方法雖然實現(xiàn)圖像融合的任務(wù),但是僅設(shè)計一個卷積核為1的卷積層用于圖像重構(gòu),過于簡單的重構(gòu)網(wǎng)絡(luò)使融合圖像較模糊.程春陽等[20]提出基于GhostNet的圖像融合方法,用Ghost模塊替換卷積層,并在損失函數(shù)中引入感知損失,可自適應(yīng)地學(xué)習網(wǎng)絡(luò)參數(shù),融合圖像中紅外目標顯著,但可見光圖像的背景信息保留有限,邊緣不清晰.Xu等[21]提出U2Fision(A Unified Unsupervised Image Fusion Net-work),可解決多種圖像融合任務(wù),但在某些具體的融合任務(wù)上表現(xiàn)一般,缺乏針對性,在紅外和可見光圖像數(shù)據(jù)集上融合圖像的目標顯著性較弱,細節(jié)信息不足.
針對現(xiàn)有融合方法產(chǎn)生的融合圖像細節(jié)信息丟失嚴重的問題,本文提出基于差異雙分支編碼器的多階段圖像融合方法,以端到端的方式訓(xùn)練網(wǎng)絡(luò),避免手工設(shè)計融合策略,降低融合算法的復(fù)雜性.本文方法設(shè)計編碼器的兩個分支,使用不同的網(wǎng)絡(luò)結(jié)構(gòu)提取源圖像的特征,一個分支使用順序連接的方式連接卷積層,另一個分支使用密集連接的方式.差異雙分支編碼結(jié)構(gòu)可將源圖像映射到不同的特征空間,每個分支能獲取源圖像的差異性特征信息,增強特征提取能力.此外,在現(xiàn)有的一些融合方法[12,14,18]中,僅針對編碼器提取的深層特征進行融合,融合策略較粗糙,導(dǎo)致融合結(jié)果的細節(jié)信息丟失嚴重.因此,本文設(shè)計多階段精細化融合策略,不僅可在特征提取階段對多源特征進行粗略融合,還在深層特征空間和重構(gòu)過程中應(yīng)用融合操作,使特征融合更充分,有效增強融合圖像的細節(jié)信息,便于理解圖像場景,提升視覺感知效果.實驗驗證本文方法在視覺效果和客觀指標上都較優(yōu).
本文提出基于差異雙分支編碼器的多階段圖像融合方法,框架如圖1所示.方法由三部分組成:差異雙分支編碼網(wǎng)絡(luò)、融合層和重構(gòu)網(wǎng)絡(luò).
圖1 本文方法框架圖
如圖1所示,相比現(xiàn)有的圖像融合網(wǎng)絡(luò),本文設(shè)計差異雙分支編碼器提取源圖像的特征.編碼器的2個分支都使用4個卷積層,分別是EC1、EC2、EC3、EC4.在第1個分支中,將卷積層的連接方式設(shè)計為順序連接.在第2個分支中,將卷積層的連接方式設(shè)計為密集連接,以此將源圖像映射到不同的特征空間,提取更豐富、全面的特征,增強特征提取的多樣性.網(wǎng)絡(luò)輸入是級聯(lián)后的紅外圖像和可見光圖像,可表示為
Iinput=Concat(Ir,Ivis),
其中Concat(·,·)表示級聯(lián)操作.這樣的結(jié)構(gòu)具有如下2個優(yōu)點.1)使用兩種不同的網(wǎng)絡(luò)連接方式提取源圖像特征的差異雙分支編碼器,能學(xué)習更全面的信息.2)將不同模態(tài)的級聯(lián)圖像作為每個分支的輸入,可在特征提取階段對多模態(tài)特征進行粗略融合.
1.2 多階段特征融合策略
本文設(shè)計精細化的多階段融合策略,融合操作分布在網(wǎng)絡(luò)的三個階段.在第一階段,如圖1中的融合層1所示,在特征提取階段,對編碼器的兩個分支提取的特征進行初步融合,具體步驟是將前一層中兩個編碼分支產(chǎn)生的特征進行級聯(lián),然后對級聯(lián)后的特征分別進行1×1的卷積操作,以適應(yīng)兩個分支的通道數(shù)目,最后再將融合層1中生成的融合特征傳送給編碼器的兩個分支.這種方式可增強兩個分支之間的特征傳輸,使多模態(tài)特征得到初級融合.在第二階段,如圖1中的融合層2所示,在深層特征空間中,對編碼器提取的特征進行融合,將EC4的輸出進行級聯(lián),然后通過一次3×3的卷積融合兩個分支的深度特征.在第三階段,通過遠程橫向連接將編碼器的淺層特征融入圖像重建的過程中,指導(dǎo)圖像重構(gòu).
多階段的融合策略使融合操作分布在網(wǎng)絡(luò)的多個階段,實現(xiàn)精細化特征融合,獲取質(zhì)量更高的融合圖像.
本文的圖像重建網(wǎng)絡(luò)簡單有效,包括4個卷積層(DC1、DC2、DC3、DC4).圖像重構(gòu)網(wǎng)絡(luò)的DC4輸出融合圖像If.此外,將EC2的輸出連接到解碼器的前兩層(DC1,DC2),增強圖像重構(gòu)能力.DC1和DC2的輸出可表示為
其中,φDC1和φDC2分別表示DC1和DC2輸出的特征圖,Conv(·)表示卷積操作,φf2表示融合層2輸出的特征圖,φEC2表示EC2輸出的特征圖,n=2,表示編碼器的分支數(shù)量.
1.4 損失函數(shù)
本文的目標是生成包含多模態(tài)圖像信息的融合圖像.因此,融合圖像中不僅要具有紅外目標信息,還應(yīng)包含豐富的紋理細節(jié)信息.本文使用均方誤差計算融合圖像和輸入圖像之間的像素損失.但是,只使用均方誤差作為損失函數(shù)會使融合圖像過于平滑,丟失結(jié)構(gòu)信息.
為了解決此問題,引入結(jié)構(gòu)相似度(Structural Similarity, SSIM)[22]損失,指導(dǎo)融合圖像中包含更多紋理信息.因此,總的損失函數(shù)包括像素強度損失和結(jié)構(gòu)相似度損失:
Ltotal=Lpixel+λLssim,
(1)
其中,Lpixel表示像素強度損失,Lssim表示圖像的結(jié)構(gòu)相似性損失,λ表示平衡參數(shù).
圖像的像素強度損失Lpixel主要是為了使融合后的圖像看起來與輸入圖像相似,像素損失可表示為
其中,C表示圖像的通道數(shù),W、H表示圖像的寬、高,‖·‖2表示2范數(shù),If表示融合圖像,Ip表示設(shè)置的圖像,為兩個模態(tài)圖像的平均值.
由于可見光圖像包含更多的紋理信息,通過計算可見光圖像和融合圖像之間的結(jié)構(gòu)相似度損失,將更多的紋理細節(jié)信息反映到融合圖像中.結(jié)構(gòu)相似性損失
Lssim=1-SSIM(If,Ivis),
其中,SSIM(,·,)表示結(jié)構(gòu)相似度,用于計算融合圖像和可見光圖像的結(jié)構(gòu)相似度,If表示融合圖像,Ivis表示可見光圖像.
在訓(xùn)練階段,選擇TNO數(shù)據(jù)集(https://figshare.com/articles/TN_Image_Fusion_Dataset/1008029)中的15對紅外和可見光圖像,將這些圖像裁剪為 64×64的圖像塊,隨機選擇8 000對作為訓(xùn)練集.批處理大小為4,迭代次數(shù)為20.學(xué)習率為0.000 1.式(1)中的λ設(shè)置為10.實驗運行在NVIDIA GTX 1080Ti GPU上.在測試階段,使用TNO、VOT-2020-RGBT[23]數(shù)據(jù)集.
通過融合圖像的視覺效果及客觀指標評價融合質(zhì)量.質(zhì)量較高的融合圖像不僅要具有良好的視覺效果,客觀上還要包含充足的來自源圖像的信息.因此,本文選取如下6個客觀評價指標:熵(Entropy, En)[24]、視覺信息保真度(Visual Information Fidelity, VIF)[25]、互信息(Mutual Information, MI)[26]、基于離散余弦變換互信息(Discrete Cosine Transform Based Fast-Feature MI, FMIdct)[27]、基于小波特征互信息(Wavelet Based Fast-Feature MI, FMIw)[27]、Qabf(Edge Preservation Value)[28].
本文選擇如下對比方法:JSRSD(Infrared and Visible Image Fusion Method Based on Saliency Detec-tion in Sparse Domain)[9]、VggML(VGG-19 and The Multi-layer Fusion Strategy Based Method)[11]、Dense-Fuse[12]、NestFuse[13]、DeepFuse[14]、FusionGAN[16]、IFCNN[18]、PMGI[19]和U2Fusion[21],對比方法的融合結(jié)果都是從原作者提供的代碼中得到的.
為了證實多階段融合策略的有效性,進行消融實驗,包括:1)單階段融合策略(簡記為1-stage),融合策略只包含融合層2,無融合層1和DC1、DC2的橫向連接.2)兩階段融合策略(簡記為2-stage),即融合策略包括融合層2和DC1、DC2的橫向連接,無融合層1.2)三階段融合策略(簡記為3-stage),融合策略包括融合層1、融合層2和DC1、DC2的橫向連接.不同網(wǎng)絡(luò)獲得的融合圖像如圖2所示.
由圖2可知,在使用單階段融合策略獲得的融合圖像中,紅外目標信息突出,但在光線昏暗時,紋理細節(jié)信息丟失嚴重.相比使用單階段融合策略獲得的融合圖像,使用兩階段融合策略和三階段融合策略得到的融合圖像不僅擁有突出的紅外目標信息,還包含豐富的可見光圖像的紋理信息,具有良好的視覺效果.
(a)1-stage
(b)2-stage
(c)3-stage
為了更全面客觀地驗證多階段融合策略的有效性,本文使用TNO數(shù)據(jù)集上21對紅外和可見光圖像進行定量分析,計算3種融合策略在21張融合圖像上的指標平均值,結(jié)果如表1所示,表中黑體數(shù)字表示最優(yōu)值.
由表1可知,隨著融合階段的增多,得到的融合圖像質(zhì)量不斷提高,由此驗證多階段融合策略的有效性.
表1 在TNO數(shù)據(jù)集上使用不同融合策略獲得的指標平均值
為了驗證差異雙分支編碼器的有效性,將編碼器兩個分支的連接方式設(shè)置為如下3種方式:都使用順序連接(簡記為seq-seq)、都使用密集連接(簡記為dense-dense)、分別使用順序連接和密集連接(簡記為seq-dense).3種方式獲得的融合圖像如圖3所示.
(a)seq-seq
(b)dense-dense
(c)seq-dense
由圖3可知,都使用順序連接結(jié)構(gòu)獲得的融合圖像中紅外信息明顯,都使用密集連接結(jié)構(gòu)獲得的融合圖像更偏向可見光圖像,而分別使用兩種連接的結(jié)構(gòu)可更好地平衡紅外圖像和可見光圖像的信息,同時保留顯著特征和豐富的細節(jié)信息.
再使用TNO數(shù)據(jù)集上21對紅外和可見光圖像進行定量分析,結(jié)果如表2所示,表中黑體數(shù)字表示最優(yōu)值.
由表3可知,通過本文的差異雙分支編碼結(jié)構(gòu)得到的融合圖像綜合質(zhì)量最高.
表2 在TNO數(shù)據(jù)集上使用不同編碼結(jié)構(gòu)獲得的指標平均值
在TNO數(shù)據(jù)集的21對紅外和可見光圖像上測試本文方法.各對比方法獲得的融合圖像如圖4所示,圖中紅色方框標注細節(jié)信息,并對紅色方框內(nèi)的區(qū)域進行放大展示.
由圖4可知,JSRSD獲得的融合圖像中包含噪聲和偽影,顯著性特征不清晰.VggML、FusionGan和IFCNN獲得的融合圖像更偏向于紅外圖像, 字母信息模糊.由于背景信息在融合圖像中非常重要,DeepFuse、DenseFuse、NestFuse、U2Fusion的融合結(jié)果中保留一定的紋理信息,但仍較粗糙,字母邊緣不清晰.
本文方法獲得的融合圖像平衡紅外圖像和可見光圖像的特征,使融合圖像既包含紅外圖像的顯著目標,又含有可見光圖像的紋理,字母也較清晰,最終的融合效果更有利于人類的視覺感知.
(a)紅外圖像 (b)可見光圖像 (c) 本文方法 (d)JSRSD
(e)VggML (f)DeepFuse (g)DenseFuse (h)FusionGan
(i)IFCNN (j)NestFuse (k)U2Fusion
各對比方法在測試集上獲得的融合圖像的指標值如表3所示,在表中,黑體數(shù)字表示最優(yōu)值,斜體數(shù)字表示次優(yōu)值.
由表3可看出,本文方法可在EN、MI、Qabf、FMIdct、FMIw指標上獲得最優(yōu)值.這表明在本文方法獲得的融合圖像中,既包含豐富的細節(jié)信息量(EN、MI),又擁有充足的特征信息和較高的圖像質(zhì)量(VIF、FMIdct和FMIw).在VIF指標上,本文方法取得次佳值,僅次于U2Fusion,但兩種方法的VIF值非常相近.相比U2Fusion,本文方法的VIF值僅降低0.13%,仍具有良好的視覺保真度.此實驗驗證本文方法的有效性.
表3 各方法在TNO數(shù)據(jù)集上的指標值
為了驗證本文方法的泛化性,選擇VOT2020-RGBT與TNO數(shù)據(jù)集上40對紅外與可見光圖像進行測試.各方法在其中一對圖像上的融合效果如圖5所示,圖中紅色方框標記紅外信息,黃色方框標記可見光圖像信息.
由圖5可知,DeepFuse、DenseFuse、PMGI、U2Fusion的融合圖像中紅外信息不顯著,Nest-Fuse、IFCNN的融合圖像中丟失大量可見光圖像的紋理信息.本文方法獲得的融合圖像既有顯著的紅外特征,又含有豐富的紋理信息.
各方法在40對圖像上獲得的融合圖像的指標值如表4所示,表中黑體數(shù)字表示最優(yōu)值,斜體數(shù)字表示次優(yōu)值.
由表4可知,本文方法在EN、MI、FMIdct、FMIw指標上獲得最優(yōu)值,表明本文方法獲得的融合圖像質(zhì)量更高,也驗證本文方法具有泛化性.
(a)紅外圖像 (b)可見光圖像 (c) 本文方法 (d)DeepFuse
(e)DenseFuse (f)NestFuse (g)IFCNN (h)PMGI (i)U2Fusion
表4 各方法在VOT2020-RGBT與TNO數(shù)據(jù)集上的指標值
本文方法還可融合RGB圖像與紅外圖像.首先將RGB圖像轉(zhuǎn)換到Y(jié)CrCb空間,僅將Y通道(亮度通道)和紅外圖像作為本文方法的輸入,獲取融合后的亮度通道圖.然后將融合的亮度通道與CrCb通道一起轉(zhuǎn)換到RGB空間,獲得彩色融合圖像.
RGB與紅外圖像的測試數(shù)據(jù)來自文獻[4]和文獻[29].選取本文方法部分融合結(jié)果,如圖6所示,圖中紅色方框內(nèi)表示紅外顯著特征.由圖可知,融合圖像中不僅包含紅外圖像中的顯著性目標,還保留RGB圖像的色彩和背景信息,更有利于人類的視覺感知.
(a)紅外圖像
(b)RGB圖像
(c)融合圖像
本文提出基于差異雙分支編碼器的多階段圖像融合方法,使用差異雙分支編碼器提取多模態(tài)圖像的特征,彌補特征提取多樣性不足的問題.設(shè)計多階段的圖像融合策略,在融合網(wǎng)絡(luò)的不同階段融合特征空間的特征,使融合圖像包含更全面的源圖像的信息,提升融合圖像中的細節(jié)信息.實驗表明,本文方法可較好地保留紅外圖像的顯著目標信息和可見光圖像的背景信息,同時在人類視覺感知和客觀評價指標上都取得較優(yōu)結(jié)果.性能較優(yōu)的融合方法是應(yīng)用于實際任務(wù)的關(guān)鍵之一,還可應(yīng)用在其它計算機視覺任務(wù)中,如目標跟蹤、檢測等,今后可開展進一步的研究.