張浩 馬佳義 樊凡 黃珺 馬泳
(武漢大學(xué)電子信息學(xué)院 武漢 430072)
圖像融合旨在從不同傳感器或不同拍攝設(shè)置捕獲的圖像中提取最有意義的信息,并將這些信息融合生成單幅信息更完備、對后續(xù)應(yīng)用更有利的圖像[1-3].紅外與可見光圖像融合是應(yīng)用最為廣泛的圖像融合任務(wù)之一.具體來說,紅外傳感器對成像環(huán)境較魯棒,所捕獲的紅外圖像具有顯著的對比度,能有效地將熱目標(biāo)與背景區(qū)分開.然而,紅外圖像往往缺乏紋理細(xì)節(jié),不符合人類的視覺感知習(xí)慣.相反,可見光圖像往往包含豐富的紋理細(xì)節(jié),但容易受天氣、光照等因素影響,且無法有效突出目標(biāo).紅外與可見光圖像融合致力于同時保留這2 種模態(tài)的優(yōu)異特性,以生成既具有顯著對比度又包含豐富紋理細(xì)節(jié)的圖像.由于融合圖像的優(yōu)良特性,紅外與可見光圖像融合已被廣泛應(yīng)用于軍事探測、目標(biāo)監(jiān)控以及車輛夜間輔助駕駛等領(lǐng)域[4-5].
現(xiàn)存的紅外與可見光圖像融合方法根據(jù)其原理可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法.傳統(tǒng)方法通常利用相關(guān)的數(shù)學(xué)變換在空間域或變換域進(jìn)行活動水平測量,并設(shè)計相應(yīng)的融合規(guī)則來實(shí)現(xiàn)圖像融合[6].代表性方法有:基于多尺度變換的方法[7-8]、基于稀疏表示的方法[9]、基于子空間的方法[10]、基于顯著性的方法[11]以及混合方法[12].一般來說,這些傳統(tǒng)方法手工設(shè)計的活動水平測量及融合規(guī)則具有較大的局限性:一方面,源圖像的多樣性勢必會使這些手工設(shè)計越來越復(fù)雜;另一方面,這也限制了融合性能的進(jìn)一步提升,因?yàn)椴豢赡芤允止ぴO(shè)計的方式考慮所有因素.
近年來,深度學(xué)習(xí)的快速發(fā)展推動了圖像融合領(lǐng)域的巨大進(jìn)步.基于深度學(xué)習(xí)的融合方法憑借神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取和圖像重建能力,不斷提升融合性能[13].根據(jù)圖像融合的實(shí)現(xiàn)過程,現(xiàn)存的基于深度學(xué)習(xí)的圖像融合方法可以分為端到端融合方法和非端到端融合方法.端到端融合方法[14-17]通常在損失函數(shù)的引導(dǎo)下隱式地實(shí)現(xiàn)特征提取、特征融合及圖像重建,其損失函數(shù)被定義為圖像空間中融合圖像與源圖像絕對分布(如像素強(qiáng)度、梯度等原始圖像屬性)之間的距離,如圖1 所示.在這一類方法中,圖像融合網(wǎng)絡(luò)的優(yōu)化實(shí)際上是尋求紅外與可見光圖像絕對分布的中和比例,這勢必會造成有益信息被削弱,如紋理結(jié)構(gòu)和熱目標(biāo)被中和.
Fig.1 Schematic of the end-to-end fusion method圖1 端到端融合方法示意圖
非端到端融合方法一般基于自編碼網(wǎng)絡(luò),其先用編碼器實(shí)現(xiàn)特征提取,然后使用融合策略聚合提取到的特征,最后使用譯碼器對融合特征進(jìn)行譯碼實(shí)現(xiàn)圖像重建.然而,在現(xiàn)存非端到端圖像融合方法中,所采用的中間特征融合策略仍然是傳統(tǒng)的[18],如Mean 策略、Max 策略以及Addition 策略等,如圖2 所示.這些融合策略是全局的,不能根據(jù)輸入圖像來自適應(yīng)地調(diào)整,融合性能十分有限.比如,Mean 策略對輸入特征直接取平均,會造成顯著目標(biāo)的亮度被中和;Addition 策略直接將輸入特征相加,會造成部分區(qū)域亮度中和或飽和.
Fig.2 Schematic of the non-end-to-end fusion method圖2 非端到端融合方法示意圖
為了解決上述挑戰(zhàn),本文提出一個基于特征空間多類別對抗機(jī)制的紅外與可見光圖像融合網(wǎng)絡(luò),顯著提升了融合性能.首先,該方法基于自編碼網(wǎng)絡(luò),利用編碼器網(wǎng)絡(luò)和譯碼器網(wǎng)絡(luò)顯式地實(shí)現(xiàn)特征提取和圖像重建.其中,編碼器網(wǎng)絡(luò)引入了空間注意力機(jī)制來關(guān)注更重要的區(qū)域,如顯著目標(biāo)區(qū)和豐富紋理區(qū);譯碼器網(wǎng)絡(luò)引入通道注意力機(jī)制來篩選對重建圖像本身更有利的通道特征,如高頻特征通道和包含了顯著性目標(biāo)的低頻特征通道.此外,譯碼器網(wǎng)絡(luò)還采用了多尺度卷積,其可以從不同尺度處理特征,從而在重建過程中更好地保留細(xì)微紋理.然后,采用生成式對抗網(wǎng)絡(luò)(generative adversarial network,GAN)實(shí)現(xiàn)中間特征融合策略的可學(xué)習(xí)化.具體來說,本文設(shè)計了一個特征融合網(wǎng)絡(luò)作為生成器來融合由訓(xùn)練好的編碼器提取的特征,其致力于生成同時符合紅外和可見光2 種模態(tài)概率分布的融合特征.提出一個多分類器鑒別器,其致力于區(qū)分紅外特征、可見光特征以及融合特征.特征融合網(wǎng)絡(luò)和多分類器鑒別器持續(xù)地進(jìn)行多分類對抗學(xué)習(xí),直到多分類器鑒別器認(rèn)為融合特征既是可見光特征,又是紅外特征.此時,特征融合網(wǎng)絡(luò)便能保留紅外圖像和可見光圖像中最顯著的特性,從而生成高質(zhì)量的融合特征.最終的融合圖像由訓(xùn)練好的譯碼器網(wǎng)絡(luò)對融合特征譯碼得到.值得注意的是,所提方法采用的多分類對抗機(jī)制區(qū)別于傳統(tǒng)GAN[19]的二分類對抗,其更符合圖像融合任務(wù)的多源信息擬合需求.與當(dāng)前基于GAN 的圖像域?qū)谷诤戏椒╗16]也不同,所提方法首次將生成對抗機(jī)制引入特征空間,對技術(shù)路線中的“特征融合”環(huán)節(jié)更具針對性.更重要的是所提方法擺脫了當(dāng)前幾乎所有的基于GAN 的融合方法都需要的距離(內(nèi)容)損失,僅在GAN 分類決策所捕獲的模態(tài)概率分布(如對比度、紋理等模態(tài)屬性)之間構(gòu)建損失,有效地避免了有益信息的削弱,從而實(shí)現(xiàn)顯著熱目標(biāo)和豐富紋理結(jié)構(gòu)的自適應(yīng)保留.
所提方法有兩大優(yōu)勢:1)相較于現(xiàn)存端到端的融合方法,本文方法沒有使用融合圖像與源圖像絕對分布之間的距離作為損失函數(shù),而是在分類決策捕獲的模態(tài)概率分布之間建立對抗損失,從而避免有益信息被削弱.2)相較于現(xiàn)存非端到端的融合方法,所提方法將中間特征融合策略可學(xué)習(xí)化,能夠根據(jù)輸入圖像自適應(yīng)地調(diào)整融合規(guī)則,較好地保留了源圖像中的顯著對比度和豐富紋理細(xì)節(jié).這種智能融合策略可以避免傳統(tǒng)融合策略造成的亮度中和或飽和以及信息丟失等問題.為了直觀展示所提方法的優(yōu)勢,選取了代表性的端到端融合方法U2Fusion[15]和非端到端融合方法DenseFuse[18]來對比顯示,其中DenseFuse 按照原始論文建議選取了性能相對較好的Addition 策略,融合結(jié)果的差異如圖3 所示.可以看出,U2Fusion 的融合結(jié)果中出現(xiàn)了典型的亮度中和現(xiàn)象,目標(biāo)建筑物的亮度沒有被保持,紋理結(jié)構(gòu)也很不自然.DenseFuse 使用Addition 融合策略,雖然能較好地維持紋理結(jié)構(gòu)的顯著性,但目標(biāo)建筑物的亮度依舊被削弱.相比之下,本文方法能顯著地改善這些問題,融合結(jié)果不但準(zhǔn)確地保持了目標(biāo)建筑物的亮度,而且包含豐富的紋理細(xì)節(jié).這得益于所提方法中特征融合網(wǎng)絡(luò)的優(yōu)異性能,其能自適應(yīng)地保留紅外與可見光的模態(tài)特性.
本文的主要貢獻(xiàn)有3 個方面:1)提出了一個新的紅外與可見光圖像融合網(wǎng)絡(luò),其利用多分類對抗機(jī)制將傳統(tǒng)融合策略擴(kuò)展為可學(xué)習(xí),具有更好的融合性能.2)所提模型將現(xiàn)存方法中融合圖像與源圖像絕對分布之間的距離損失擴(kuò)展為模態(tài)概率分布之間的對抗損失,有效避免了現(xiàn)存融合方法中有益信息被削弱的問題.3)本文方法具有良好的泛化性,可以推廣到任意紅外與可見光圖像融合數(shù)據(jù)集.
Fig.3 Comparison of fusion performance圖3 融合性能對比
本節(jié)回顧和所提方法最相關(guān)的技術(shù)和工作,包括基于深度學(xué)習(xí)的融合方法及GAN.
近幾十年,基于深度學(xué)習(xí)的融合方法憑借神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取和圖像重建能力,獲得了遠(yuǎn)超傳統(tǒng)方法的性能[20].現(xiàn)存的基于深度學(xué)習(xí)的圖像融合方法可以分為端到端融合方法以及非端到端融合方法.
端到端融合方法通常直接使用一個整體網(wǎng)絡(luò)將輸入的紅外和可見光圖像進(jìn)行融合.換句話說,融合的各個階段如特征提取、特征融合以及圖像重建都是隱式的.端到端融合方法可根據(jù)所采取的架構(gòu)分為基于卷積神經(jīng)網(wǎng)絡(luò)的融合方法[21-22]和基于GAN 的融合方法[23-25].這些方法的共性在于依賴融合圖像與源圖像絕對分布之間的距離損失.例如,PMGI[14]在融合圖像和2 幅源圖像間建立強(qiáng)度和梯度距離損失,并通過調(diào)節(jié)損失項(xiàng)的權(quán)重系數(shù)來調(diào)整信息融合過程中的保留比例,從而控制融合結(jié)果絕對分布的傾向性.U2Fusion[15]則在融合圖像和2 幅源圖像間建立強(qiáng)度和結(jié)構(gòu)相似度損失[26],并通過度量特征圖的信息質(zhì)量來自適應(yīng)地調(diào)整損失項(xiàng)系數(shù),從而引導(dǎo)融合圖像保留有效信息.不幸的是,這種融合圖像與2 幅源圖像絕對分布之間的距離損失會建立一個博弈,導(dǎo)致最終融合圖像是2 幅源圖像原始屬性(如像素強(qiáng)度、梯度)的折中,不可避免地造成有益信息被削弱.除此以外,武漢大學(xué)的Ma 等人[16]將GAN 架構(gòu)引入到圖像融合領(lǐng)域并提出了引起廣泛關(guān)注的FusionGAN,其中網(wǎng)絡(luò)的優(yōu)化不僅依賴圖像絕對分布之間的距離損失,還依賴模態(tài)概率分布之間的對抗損失.隨后,文獻(xiàn)[16]的作者引入雙鑒別器來平衡紅外與可見光信息以進(jìn)一步提升融合性能[17],但是網(wǎng)絡(luò)優(yōu)化仍離不開圖像絕對分布之間的內(nèi)容損失,這意味有益信息的丟失問題仍然存在.
非端到端融合方法主要是基于自編碼架構(gòu)[27],其特征提取、特征融合以及圖像重建3 個階段都是非常明確的,由不同的網(wǎng)絡(luò)或模塊來實(shí)現(xiàn).現(xiàn)存非端到端圖像融合方法的融合質(zhì)量一直受融合策略的性能制約.具體來說,現(xiàn)存的基于自編碼結(jié)構(gòu)的融合方法采用的融合規(guī)則都是手工制作的,且不可學(xué)習(xí).例如,DenseFuse[18]采 用 Addition 策略和l1-norm 策 略;SEDRFuse[28]采用最大值策略.這些策略不能根據(jù)輸入圖像自適應(yīng)地調(diào)整,可能會造成亮度中和或過飽和、信息丟失等問題,因此,研究可學(xué)習(xí)的融合規(guī)則非常有意義.
原始GAN 由Goodfellow 等人[19]于2014 年提出,其由一個生成器和一個鑒別器組成.生成器是目標(biāo)網(wǎng)絡(luò),致力于生成符合目標(biāo)分布的偽數(shù)據(jù);鑒別器是一個分類器,其負(fù)責(zé)準(zhǔn)確分辨出真實(shí)數(shù)據(jù)和生成器偽造的假數(shù)據(jù).因此,生成器和鑒別器之間是敵對關(guān)系.也就是說,生成器希望生成鑒別器無法區(qū)分的偽數(shù)據(jù),而鑒別器則希望能準(zhǔn)確鑒別出偽數(shù)據(jù).生成器和鑒別器不斷迭代地優(yōu)化,直到鑒別器無法區(qū)分是真實(shí)數(shù)據(jù)還是由生成器產(chǎn)生的偽數(shù)據(jù).此時,生成器便具備生成符合目標(biāo)分布數(shù)據(jù)的能力.下面,我們形式化上述對抗學(xué)習(xí)過程.
假設(shè)生成器被表示為G,鑒別器被表示為D,輸入到生成器的隨機(jī)數(shù)據(jù)為Z={z1,z2,…,zn}~Pz,目標(biāo)數(shù)據(jù)為X={x1,x2,,…,xn}~PX.那么,生成器致力于估計目標(biāo)數(shù)據(jù)X的分布PX,并盡可能生成符合該分布的數(shù)據(jù)G(Z),而鑒別器D需要對真實(shí)數(shù)據(jù)X和生成的偽數(shù)據(jù)G(Z)進(jìn)行準(zhǔn)確區(qū)分.總而言之,GAN 的目的就是在不斷地對抗訓(xùn)練中使得偽數(shù)據(jù)的分布PG不斷逼近目標(biāo)數(shù)據(jù)分布PX.因此,GAN 的目標(biāo)函數(shù)被定義為
隨著研究的深入,研究者發(fā)現(xiàn)使用交叉熵?fù)p失的原始GAN 在訓(xùn)練過程中非常不穩(wěn)定,且生成結(jié)果質(zhì)量不高.最小二乘GAN[29]的提出改善了這一現(xiàn)象,其使用最小二乘損失作為損失函數(shù),引入標(biāo)簽來引導(dǎo)生成器和鑒別器的優(yōu)化.最小二乘GAN 的目標(biāo)函數(shù)被定義為
其中r,s,t是對應(yīng)的概率標(biāo)簽.具體來說,r是鑒別器判定目標(biāo)數(shù)據(jù)集合X中數(shù)據(jù)xi對應(yīng)的標(biāo)簽,設(shè)定r=1;s是鑒別器判定由生成器構(gòu)造的偽數(shù)據(jù)G(zi)對應(yīng)的標(biāo)簽,設(shè)定s=0;t是生成器希望鑒別器判定偽數(shù)據(jù)G(zi)對應(yīng)的標(biāo)簽,設(shè)定t=1.
本節(jié)詳細(xì)描述提出的基于特征空間多分類對抗機(jī)制的紅外與可見光圖像融合網(wǎng)絡(luò).首先,我們給出問題建模,然后介紹網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu),最后提供損失函數(shù)的具體設(shè)計.
從定義上來說,圖像融合是從源圖像中提取最有意義的特征,將它們?nèi)诤喜⒅亟òS富信息的單幅圖像.因此,圖像融合的整個過程可以分為3個階段:特征提取、特征融合以及圖像重建.基于上述思想,本文提出一個基于特征空間多分類對抗機(jī)制的紅外與可見光圖像融合網(wǎng)絡(luò),其總體框架如圖4所示.
Fig.4 Overall framework of the proposed method圖4 本文方法的總體框架圖
首先,鑒于自編碼器網(wǎng)絡(luò)的“低維—高維—低維”映射理念非常契合特征提取和圖像重建這2 個環(huán)節(jié),所提方法提出一個引入注意力機(jī)制的自編碼器網(wǎng)絡(luò)來實(shí)現(xiàn)特征提取和圖像重建.其中,編碼器網(wǎng)絡(luò)EI中的空間注意力機(jī)制能使得低維向高維映射時更關(guān)注那些包含重要信息的區(qū)域,如包含豐富紋理或顯著熱目標(biāo)的區(qū)域;而譯碼器網(wǎng)絡(luò)DI中的通道注意力機(jī)制則使得高維向低維映射時更關(guān)注對重建圖像更有利的通道特征,如高頻特征通道和包含顯著目標(biāo)的低頻特征通道.除此以外,譯碼器網(wǎng)絡(luò)DI還引入了多尺度卷積來加強(qiáng)對細(xì)微空間紋理的保留.
其次,使用訓(xùn)練好的編碼器網(wǎng)絡(luò)EI從紅外和可見光圖像中提取特征,并設(shè)計一個特征融合網(wǎng)絡(luò)F來融合這些特征,這種可學(xué)習(xí)的特征融合策略比現(xiàn)存方法所使用的傳統(tǒng)融合策略具有更強(qiáng)的性能.具體來說,所提的特征融合網(wǎng)絡(luò)F被當(dāng)作生成器,然后結(jié)合使用1 個多分類鑒別器MD,二者構(gòu)成特征空間上的生成式對抗網(wǎng)絡(luò).特征融合網(wǎng)絡(luò)F致力于同時估計紅外與可見光2 種模態(tài)特征概率分布,以生成同時符合這2 種模態(tài)概率分布的融合特征;而多分類鑒別器MD則致力于準(zhǔn)確區(qū)分可見光特征、紅外特征以及特征融合網(wǎng)絡(luò)生成的融合特征.經(jīng)過持續(xù)的對抗學(xué)習(xí),直到多分類鑒別器認(rèn)為融合特征既是紅外特征又是可見光特征,此時該融合特征便具備了紅外和可見光2 種模態(tài)中最顯著的特性.值得注意的是,所提模型中生成式對抗網(wǎng)絡(luò)的優(yōu)化僅依賴于模態(tài)概率分布之間的對抗損失,不依賴絕對分布之間的距離損失,這極大地避免了現(xiàn)存方法中存在的有益信息被削弱問題.最終,將特征融合網(wǎng)絡(luò)F生成的融合特征經(jīng)訓(xùn)練好的譯碼器網(wǎng)絡(luò)DI譯碼得到高質(zhì)量的融合圖像Ifused.整個融合過程可以被形式化為
其中Iir和Ivis分 別表示紅外圖像和可見光圖像;EI(·)表示編碼器網(wǎng)絡(luò)對應(yīng)的功能函數(shù),F(xiàn)(·)表示特征融合網(wǎng)絡(luò)對應(yīng)的功能函數(shù),DI(·)表示譯碼器網(wǎng)絡(luò)對應(yīng)的功能函數(shù).
本文所提紅外與可見光圖像融合網(wǎng)絡(luò)包括2 部分:負(fù)責(zé)特征提取和圖像重建的自編碼器網(wǎng)絡(luò);負(fù)責(zé)融合規(guī)則學(xué)習(xí)的GAN.
2.2.1 自編碼器網(wǎng)絡(luò)
自編碼器網(wǎng)絡(luò)是一種經(jīng)典的自監(jiān)督網(wǎng)絡(luò),其以重建輸入數(shù)據(jù)為導(dǎo)向,先利用編碼器網(wǎng)絡(luò)將圖像映射到高維特征空間,再利用譯碼器網(wǎng)絡(luò)將高維特征重新映射為圖像.因?yàn)樽g碼器網(wǎng)絡(luò)重建圖像的質(zhì)量依賴于中間高維特征的質(zhì)量,所以編碼器網(wǎng)絡(luò)必須能提取具有高表達(dá)能力的特征,而譯碼器網(wǎng)絡(luò)必須具備從中間特征準(zhǔn)確重建出源圖像的能力.本文提出了一種新的自編碼器網(wǎng)絡(luò)來實(shí)現(xiàn)融合過程中的特征提取和圖像重建,如圖5(a)所示.
編碼器網(wǎng)絡(luò)EI使用10 個卷積層從源圖像中提取特征,其中卷積核尺寸均為 3×3,激活函數(shù)均為lrelu(leaky relu).在第5 和第9 層后,使用空間注意力模塊對所提特征沿空間位置加權(quán),以增強(qiáng)特征中重要的空間區(qū)域(如顯著目標(biāo)、結(jié)構(gòu)紋理).空間注意力模塊[30]的網(wǎng)絡(luò)結(jié)構(gòu)如圖5(b)所示,可以看到,空間注意力模塊先使用最大池化和平均池化對固定空間位置不同通道的信息進(jìn)行聚合,然后使用1 個卷積層處理串接的聚合特征,以生成與原始特征空間尺寸相同的注意力譜.該注意力譜本質(zhì)上是一系列學(xué)習(xí)到的權(quán)重,對輸入特征沿著空間維度進(jìn)行選擇性加權(quán),從而實(shí)現(xiàn)感興趣區(qū)域特征的增強(qiáng).在編碼器中使用空間注意力模塊可以有效滿足對感興趣特征的提取偏好,提升編碼特征的表達(dá)能力.此外,編碼器還將密集連接[31]和殘差連接[32]相結(jié)合,其一方面把淺層特征不斷跳躍連接到深層網(wǎng)絡(luò)以增強(qiáng)后續(xù)特征表達(dá)能力和增加特征利用率,另一方面殘差連接也避免了特征提取過程出現(xiàn)的梯度消失和爆炸問題.
Fig.5 Structures of the autoencoder network for feature extraction and image reconstruction圖5 用于特征提取和圖像重建的自編碼器網(wǎng)絡(luò)結(jié)構(gòu)圖
在譯碼器網(wǎng)絡(luò)DI中,先使用2 個結(jié)合通道注意力模塊的多尺度卷積層處理由編碼器網(wǎng)絡(luò)EI提取的中間特征.在每個多尺度卷積層,3 個具有不同尺寸卷積核的卷積層并行處理輸入特征,其卷積核尺寸分別為 7×7,5 ×5,3 ×3,激活函數(shù)均為lrelu.通道注意力模塊[30]的網(wǎng)絡(luò)結(jié)構(gòu)如圖5(c)所示,其先使用最大池化和平均池化對固定通道不同空間位置的特征進(jìn)行聚合,然后在2 個分支中分別使用2 個卷積層對聚合特征進(jìn)行處理,最后將2 個分支的處理結(jié)果求和得到最終的注意力譜.該注意力譜是一個長度與輸入特征通道數(shù)相同的向量,表示將為輸入特征每個通道分發(fā)的權(quán)重.在自監(jiān)督重建的優(yōu)化導(dǎo)向下,譯碼器將自適應(yīng)地關(guān)注對重建更重要的特征通道,從而提升重建精度.最后,使用3 個卷積核尺寸為 3×3的卷積層來重建源圖像.其中,除了最后一層,其他卷積層均使用lrelu作為激活函數(shù),最后一層使用tanh 作為激活函數(shù).在上述特定設(shè)計下,所提自編碼網(wǎng)絡(luò)具有強(qiáng)大的特征提取和圖像重建能力.
2.2.2 GAN
本文設(shè)計了一種新穎的特征融合規(guī)則構(gòu)建方式,其利用GAN 將融合策略可學(xué)習(xí)化,從而獲得更好的融合性能,如圖6 所示.
首先,特征融合網(wǎng)絡(luò)F在對抗架構(gòu)中扮演生成器的角色,其將訓(xùn)練好的編碼器網(wǎng)絡(luò)EI提取的紅外特征Feair和可見光特征Feavis進(jìn)行融合,生成融合特征Feafused.在特征融合網(wǎng)絡(luò)F中,先使用3 個卷積核尺寸為3×3、激活函數(shù)為lrelu的卷積層來處理輸入的紅外特征與可見光特征.然后,采用3 個分支來分別預(yù)測融 合權(quán)重 ωir,ωvis以及偏差項(xiàng) ε.每 個分支包含2個卷積層,其卷積尺寸均為3×3.在融合權(quán)重預(yù)測分支,2 個卷積層分別使用lrelu和sigmoid作為激活函數(shù);在偏差預(yù)測分支,2 個卷積層的激活函數(shù)均為lrelu.融合特征可以被表示為
其次,使用1 個多分類鑒別器MD來區(qū)分紅外特征Feair、可見光特征Feavis以及特征融合網(wǎng)絡(luò)F合成的融合特征Feafused.在多分類鑒別器MD中,先使用4 個卷積層來處理輸入特征,它們的卷積核尺寸均為3×3,激活函數(shù)均為lrelu.然后,處理后的特征被重塑為1 個1 維向量,并使用1 個線性層來輸出1 個1×2 的預(yù)測向量,分別表示輸入特征為紅外特征的概率Pir,以及輸入特征為可見光特征的概率Pvis.特征融合網(wǎng)絡(luò)F和多分類鑒別器MD連續(xù)地對抗學(xué)習(xí),直到多分類鑒別器MD認(rèn)為生成器產(chǎn)生的融合特征既是紅外特征又是可見光特征,此時特征融合網(wǎng)絡(luò)F便學(xué)會合理的融合規(guī)則.
Fig.6 Structures of generative adversarial network for fusion rule learning圖6 用于融合規(guī)則學(xué)習(xí)的生成式對抗網(wǎng)絡(luò)結(jié)構(gòu)圖
本文的損失函數(shù)包括2 部分:自編碼器網(wǎng)絡(luò)損失函數(shù)和生成式對抗網(wǎng)絡(luò)損失函數(shù).
2.3.1 自編碼器網(wǎng)絡(luò)損失函數(shù)
自編碼器網(wǎng)絡(luò)先利用編碼器網(wǎng)絡(luò)EI將低維圖像映射為高維特征,再利用譯碼器網(wǎng)絡(luò)DI重新將高維特征映射為低維圖像.也就是說,自編碼器網(wǎng)絡(luò)致力于重建輸入圖像.所提方法在強(qiáng)度域和梯度域構(gòu)建重建圖像與輸入圖像的一致性損失:
其中 LAE是自編碼器網(wǎng)絡(luò)的總損失,Lint是強(qiáng)度損失,Lgrad是 梯度損失,β是平衡強(qiáng)度損失項(xiàng)和梯度損失項(xiàng)的參數(shù).值得注意的是,自編碼器網(wǎng)絡(luò)的訓(xùn)練同時在紅外圖像與可見光圖像上進(jìn)行,即紅外圖像和可見光圖像共享編碼器網(wǎng)絡(luò)EI和譯碼器網(wǎng)絡(luò)DI的權(quán)重,因此對應(yīng)的強(qiáng)度損失和梯度損失被定義為:
其中Iir和Ivis是輸入源紅外和可見光圖像,是 自編碼網(wǎng)絡(luò)重建的紅外和可見光圖像,其可以表示為=DI(EI(I(·))).此 外,|·|是 ?1范 數(shù),?是Sobel 梯度算子,其從水平和豎直2 個方向來計算圖像的梯度.在上述損失的約束下,編碼器網(wǎng)絡(luò)EI能較好地從源圖像中提取特征,譯碼器網(wǎng)絡(luò)DI則能從編碼特征中準(zhǔn)確地重建源圖像.
2.3.2 GAN 損失函數(shù)
生成式對抗網(wǎng)絡(luò)通過連續(xù)地對抗學(xué)習(xí)構(gòu)建高性能融合規(guī)則,其網(wǎng)絡(luò)優(yōu)化僅依賴于模態(tài)概率分布之間的對抗損失,不依賴融合圖像與源圖像絕對分布之間的距離損失,極大地避免了有益信息被削弱.
對于特征融合網(wǎng)絡(luò)F,其目的是產(chǎn)生可以騙過多分類鑒別器MD的融合特征Feafused,即讓MD認(rèn)為所生成的融合特征Feafused既是紅外特征Feair又是可見光特征Feavis.因此,特征融合網(wǎng)絡(luò)F的損失 LF為
其中MD(·)表示多分類鑒別器的函數(shù),其輸出是1個1×2 的概率向量.MD(Feafused)[1]指的是該向量的第1 項(xiàng),表示多分類鑒別器判定輸入特征是紅外特征的概率Pir;MD(Feafused)[2]指的是該向量的第2 項(xiàng),表示多分類鑒別器判定輸入特征是可見光特征的概率Pvis.a是概率標(biāo)簽,設(shè)定a=0.5,即特征融合網(wǎng)絡(luò)希望通過自身的優(yōu)化使得多分類鑒別器無法區(qū)分融合特征是紅外特征還是可見光特征.
與特征融合網(wǎng)絡(luò)F成敵對關(guān)系,多分類鑒別器MD希望能準(zhǔn)確判斷輸入特征是紅外特征、可見光特征還是由特征融合網(wǎng)絡(luò)F產(chǎn)生的融合特征.因此,多分類鑒別器損失 LMD包括3 部分:判定紅外特征的損失 LMDir、判定可見光特征的損失 LMDvis以及判定融合特征的損失 LMDfused,即
其中,α1,α2,α3是平衡這些損失項(xiàng)的參數(shù).當(dāng)輸入特征為紅外特征Feair,多分類鑒別器判定的Pir應(yīng)趨于1,Pvis應(yīng)趨于0.對應(yīng)的損失函數(shù)LMDir被定義為
其中b1和b2是 紅外特征對應(yīng)的概率標(biāo)簽,設(shè)定b1=1,b2=0,即多分類鑒別器應(yīng)該準(zhǔn)確識別出輸入特征是紅外特征而不是可見光特征.
類似地,當(dāng)輸入特征為可見光特征Feavis,對應(yīng)的損失函數(shù) LMDvis被定義為
其中c1和c2是可見光特征對應(yīng)的概率標(biāo)簽,設(shè)定c1=0,c2=1,即多分類鑒別器應(yīng)該準(zhǔn)確識別出輸入特征是可見光特征而不是紅外特征.
當(dāng)輸入特征為融合特征Feafused,多分類鑒別器輸出的Pir和Pvis都應(yīng)趨于0.對應(yīng)的損失函數(shù)LMDfused被定義為
其中d1和d2是 融合特征對應(yīng)的概率標(biāo)簽,d1和d2都被設(shè)為0,即MD應(yīng)能準(zhǔn)確識別出輸入特征既不是紅外特征也不是可見光特征.
本節(jié)將在公開數(shù)據(jù)集上評估所提方法.5 個最先進(jìn)的紅外與可見光圖像融合方法被挑選作為對比,包括GTF[12],MDLatLRR[33],DenseFuse[18],FusionGAN[16],U2Fusion[15].值得注意的是,在后續(xù)實(shí)驗(yàn)中,DenseFuse使用推薦的性能更好的Addition 策略.首先,提供實(shí)驗(yàn)配置,如實(shí)驗(yàn)數(shù)據(jù)、訓(xùn)練細(xì)節(jié)以及評估指標(biāo).其次,從定性和定量2 方面實(shí)施對比實(shí)驗(yàn).本節(jié)還提供泛化性實(shí)驗(yàn)、效率對比及消融實(shí)驗(yàn)來驗(yàn)證所提方法的有效性.
3.1.1 實(shí)驗(yàn)數(shù)據(jù)
本文選用TNO 數(shù)據(jù)集[34]和MFNet 數(shù)據(jù)集[35]作為對比實(shí)驗(yàn)的數(shù)據(jù),TNO 數(shù)據(jù)集和MFNet 數(shù)據(jù)集用于測試的圖像對數(shù)量分別為20 和200,用于訓(xùn)練的數(shù)據(jù)分別為裁剪得到的45 910 對和96 200 對80×80的圖像塊.此外,選用RoadScene[36]數(shù)據(jù)集作為泛化性實(shí)驗(yàn)的數(shù)據(jù),用于測試的圖像對數(shù)量為20.以上3個數(shù)據(jù)集中的圖像對都已被嚴(yán)格配準(zhǔn)[37].
3.1.2 訓(xùn)練細(xì)節(jié)
首先訓(xùn)練自編碼器網(wǎng)絡(luò).在自編碼器網(wǎng)絡(luò)的訓(xùn)練過程中,批大小被設(shè)置為s1,訓(xùn)練1 期需要m1步,一共訓(xùn)練M1期.在實(shí)驗(yàn)中,設(shè)置為s1=48,M1=100,m1是訓(xùn)練圖像塊總數(shù)量和批大小s1的比率.自編碼器網(wǎng)絡(luò)訓(xùn)練好后凍結(jié)其參數(shù),然后在訓(xùn)練好的編碼器網(wǎng)絡(luò)提取的特征空間中訓(xùn)練GAN.在GAN 的訓(xùn)練過程中,批大小被設(shè)置為s2,訓(xùn)練1 期需要m2步,一共訓(xùn)練M2期.在實(shí)驗(yàn)中,設(shè)置s2=48,M1=20,m2是訓(xùn)練圖像塊總數(shù)量和批大小s2的比率.無論是自編碼器網(wǎng)絡(luò)還是GAN,都采用Adam 優(yōu)化器來更新參數(shù).在整個訓(xùn)練結(jié)束后,將編碼器網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)以及譯碼器網(wǎng)絡(luò)級聯(lián)組成完整的圖像融合網(wǎng)絡(luò).值得注意的是,因?yàn)樵搱D像融合網(wǎng)絡(luò)是一個全卷積神經(jīng)網(wǎng)絡(luò),輸入可以是任意尺寸源圖像對,即測試時不需要像訓(xùn)練那樣對源圖像進(jìn)行裁剪.此外,根據(jù)經(jīng)驗(yàn),設(shè)定式(6)中的參數(shù)β=10,式(10)中的參數(shù)α1=0.25,α2=0.25,α3=0.5.所有的實(shí)驗(yàn)均在GPU NVIDIA RTX 2080Ti 及CPU Intel i7-8750H 上實(shí)施.
3.1.3 評估指標(biāo)
本文從定性和定量2 個方面評估各方法的性能.定性評估是一種主觀評估方式,其依賴于人的視覺感受,好的融合結(jié)果應(yīng)同時包含紅外圖像的顯著對比度和可見光圖像的豐富紋理.定量評估則通過一些統(tǒng)計指標(biāo)來客觀評估融合性能,本文選用了7 個在圖像融合領(lǐng)域被廣泛使用的定量指標(biāo),如視覺信息保真度[38](visual information fidelity,VIF)、信息熵[39](entropy,EN)、差異相關(guān)和[40](the sum of the correlations of differences,SCD)、互信息[41](mutual information,MI)、質(zhì)量指標(biāo)[42](quality index,QAB/F)、標(biāo)準(zhǔn)差[43](standard deviation,SD)及空間頻率[44](spatial frequency,SF).VIF測量融合圖像保真度,大的VIF值表示融合圖像保真度高;EN測量融合圖像的信息量,EN值越大,融合圖像包含的信息越多;SCD測量融合圖像包含的信息與源圖像的相關(guān)性,SCD越大意味著融合過程引入的偽信息越少;MI衡量融合圖像中包含來自源圖像的信息量,MI越大意味著融合圖像包含來自源圖像的信息越多;QAB/F衡量融合過程中邊緣信息的保持情況,QAB/F越大,邊緣被保持得越好;SD是對融合圖像對比度的反映,大的SD值表示良好的對比度;SF測量融合圖像整體細(xì)節(jié)豐富度,SF越大,融合圖像包含的紋理越豐富.
3.2.1 定性對比
首先,在TNO 數(shù)據(jù)集上進(jìn)行定性對比.5 組典型的結(jié)果被挑選來定性地展示各方法的性能,如圖7所示.可以看出,本文所提方法有2 方面的優(yōu)勢:一方面,本文方法能非常精確地保留紅外圖像中的顯著目標(biāo),它們的熱輻射強(qiáng)度幾乎沒有損失,且邊緣銳利;另一方面,所提方法也能很好地保留可見光圖像中的紋理細(xì)節(jié).
從融合結(jié)果的傾向性可以把對比方法分為2 類:第1 類是融合結(jié)果傾向于可見光圖像的方法,如MDLatLRR,DenseFuse,U2Fusion.從圖7 中可以看到,這一類方法的融合結(jié)果雖然包含豐富的紋理細(xì)節(jié),但其對比度較差,熱輻射目標(biāo)被削弱.例如,在第1組結(jié)果中,MDLatLRR,DenseFuse,U2Fusion 對樹木紋理保留得較好,但卻削弱了目標(biāo)建筑物的亮度.類似的還有第2 組中的水面、第3 組和第4 組中的人以及第4 組中的坦克.第2 類是融合結(jié)果傾向于紅外圖像的方法,如GTF 和FusionGAN.這一類方法能較好地保留熱目標(biāo),但紋理細(xì)節(jié)不夠豐富,它們的結(jié)果看起來很像是銳化的紅外圖像.如在圖7 中的第1 組結(jié)果中,GTF 和FusionGAN 較好地保留了目標(biāo)建筑物的顯著性,但周邊樹木的紋理結(jié)構(gòu)卻不夠豐富.類似地還有第2 組中的灌木、第3 組中的路燈以及第4 組中的樹葉.本文所提方法綜合了這2 類方法的優(yōu)勢.具體來說,所提方法既能像第1 類方法那樣保持場景中的紋理細(xì)節(jié),又能像第2 類方法那樣準(zhǔn)確保持熱輻射目標(biāo).值得注意的是所提方法對熱目標(biāo)邊緣保持得比第2 類方法更銳利.總的來說,本文方法在定性對比上優(yōu)于這些最新方法.
3.2.2 定量對比
進(jìn)一步,在20 幅測試圖像上的定量對比結(jié)果如表1 所示.可以看出,本文所提方法在EN,SCD,MI,QAB/F,SD,SF這6 個指標(biāo)上都取得最高平均值;在VIF上,本文方法排行第2,僅次于方法U2Fusion.這些結(jié)果說明:本文方法在融合過程中從源圖像傳輸?shù)饺诤蠄D像的信息最多、引入的偽信息最少、能最好地保持邊緣.生成的融合結(jié)果包含的信息量最大、有最好的對比度、具有最豐富的整體紋理結(jié)構(gòu).總的來說,本文方法相較于這些對比方法在定量指標(biāo)上也是有優(yōu)勢的.
3.3.1 定性對比
Fig.7 Qualitative results of the comparative experiment on TNO dataset圖7 TNO 數(shù)據(jù)集上對比實(shí)驗(yàn)的定性結(jié)果
Table 1 Quantitative Results of the Comparative Experiment on TNO Dataset表1 TNO 數(shù)據(jù)集上對比實(shí)驗(yàn)的定量結(jié)果
在MFNet 數(shù)據(jù)集上實(shí)施定性對比實(shí)驗(yàn),同樣提 供5 組代表性的結(jié)果來展示各種方法的性能,如圖8所示.可以看到,只有GTF,FusionGAN 以及本文方法能較好地維護(hù)紅外圖像中熱輻射目標(biāo)的顯著度,但相較于這2 種方法,本文方法能更好地保持熱目標(biāo)邊緣的銳利性,呈現(xiàn)良好的視覺效果.例如,在第3,4,5 組結(jié)果中,本文方法能較好地保持熱目標(biāo)行人的姿態(tài),而GTF,FusionGAN 均由于邊緣擴(kuò)散導(dǎo)致輪廓模糊.相 反,MDLatLRR,DenseFuse,U2Fusion 太過于 偏重于保留結(jié)構(gòu)紋理,而忽視了熱輻射目標(biāo)保留,這導(dǎo)致一些場景中目標(biāo)削弱或丟失.例如,在第2 組結(jié)果中,汽車旁邊的微小行人在這些方法的結(jié)果中被丟失.相較而言,本文方法能在熱目標(biāo)和結(jié)構(gòu)紋理的保留上取得較好的平衡.例如,第1 組結(jié)果中,所提方法既維持了窗戶的顯著性,又保留了墻壁的紋理細(xì)節(jié).總體而言,本文方法在MFNet 數(shù)據(jù)集的定性對比上比這些最新方法有優(yōu)勢.
Fig.8 Qualitative results of the comparative experiment on MFNet dataset圖8 MFNet 數(shù)據(jù)集上對比實(shí)驗(yàn)的定性結(jié)果
3.3.2 定量對比
在MFNet 數(shù)據(jù)集中的200 幅測試圖像上定量地對比這些最新方法以及本文所提方法,結(jié)果如表2所示.本文方法在EN,SCD,MI,SD這4 個指標(biāo)上排行第1,在指標(biāo)SF上排行第2,僅次于U2Fusion.這些客觀結(jié)果表明本文方法所得結(jié)果包含的信息量最豐富、引入的偽信息最少,與源圖像的相關(guān)性最大,以及具有最好的對比度,這些定量結(jié)果和圖8 展示的視覺結(jié)果相符合.總的來說,本文方法在MFNet 數(shù)據(jù)集上的定量對比上比其他方法性能更好.
本文所提方法能較好地遷移到其他數(shù)據(jù)集,也可以處理彩色可見光和紅外圖像融合.為了評估本文方法的泛化性,實(shí)施了泛化性實(shí)驗(yàn).具體來說,使用RoadScene 數(shù)據(jù)集中的圖像測試在TNO 數(shù)據(jù)集上訓(xùn)練得到的模型.由于RoadScene 數(shù)據(jù)集中的可見光圖像是彩色圖像,先將可見光圖像從RGB 轉(zhuǎn)換到Y(jié)CbCr 色彩空間,然后融合Y 通道與紅外圖像.最后,將融合結(jié)果與Cb 和Cr 通道拼接在一起,并重新轉(zhuǎn)換到RGB 色彩空間得到最終的融合結(jié)果.上述5 種對比方法在泛化性實(shí)驗(yàn)中仍然被采用,且評估仍然從定性和定量2 個方面來進(jìn)行.
Table 2 Quantitative Results of the Comparative Experiment on MFNet Dataset表2 MFNet 數(shù)據(jù)集上對比實(shí)驗(yàn)的定量結(jié)果
3.4.1 定性對比
5 組代表性的定性結(jié)果被挑選來展示各方法的泛化能力,如圖9 所示.可以看出,本文所提方法在RoadScene 數(shù)據(jù)集上仍具有良好性能,且相較于對比方法在紋理保持和顯著目標(biāo)保留2 個方面的優(yōu)勢仍十分明顯.首先,在顯著目標(biāo)保持上,本文所提方法表現(xiàn)最好,如第1 組圖像中的車輛、第2 組和第4 組中的騎行者,以及第3 組和第5 組中的行人.相反,在MDLatLRR,DenseFuse,U2Fusion 的融合結(jié)果中,這些顯著目標(biāo)被削弱.雖然GTF 和FusionGAN 相對這些方法能更好地保留顯著目標(biāo),但其在目標(biāo)邊緣保護(hù)上卻不如所提方法.其次,本文方法也能保證可見光圖像中的紋理細(xì)節(jié)被很好地傳輸?shù)饺诤蠄D像中,如第1 組和第4 組結(jié)果中的云朵、第2 組和第3 組結(jié)果中的樹木,以及第5 組結(jié)果中的廣告牌,而GTF 和FusionGAN 做不到這些.因此,這些定性結(jié)果可以說明本文方法具有良好的泛化性,其能被遷移到RoadScene 數(shù)據(jù)集,并得到高質(zhì)量的融合圖像.
3.4.2 定量對比
Fig.9 Qualitative results of the generalization experiment圖9 泛化實(shí)驗(yàn)的定性結(jié)果
定量實(shí)驗(yàn)被實(shí)施來進(jìn)一步驗(yàn)證所提方法的泛化性能,結(jié)果如表3 所示.本文方法在EN,SCD,MI,SD這4 個指標(biāo)上取得了最好的結(jié)果,在SF上取得了第2 好的結(jié)果.對于VIF和QAB/F,所提方法分別排行第4 和第3.總的來說,本文所提方法在RoadScene 數(shù)據(jù)集上的定量結(jié)果最好,這進(jìn)一步說明了所提方法優(yōu)良的泛化性.
Table 3 Quantitative Results of the Generalization Experiment表3 泛化實(shí)驗(yàn)的定量結(jié)果
運(yùn)行效率是評估方法性能的重要依據(jù)之一,為此,統(tǒng)計各方法在TNO,MFNet,RoadScene 數(shù)據(jù)集上的平均運(yùn)行時間來比較運(yùn)行效率,結(jié)果如表4 所示.本文所提方法在3 個數(shù)據(jù)集上都取得了最快的平均運(yùn)行速度,比對比方法快5 倍以上.
Table 4 Mean of Running Time of Each Method on Three Datasets表4 各方法在3 個數(shù)據(jù)集上的平均運(yùn)行時間 s
在所提方法中,最終實(shí)現(xiàn)紅外與可見光圖像融合的框架包括編碼器網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)以及譯碼器網(wǎng)絡(luò).為了驗(yàn)證它們的有效性,相應(yīng)的消融實(shí)驗(yàn)被實(shí)施.
3.6.1 特征融合網(wǎng)絡(luò)分析
特征融合網(wǎng)絡(luò)的作用是將中間特征的融合策略可學(xué)習(xí)化,從而使得融合特征同時符合紅外與可見光2 種模態(tài)特征的概率分布.相較于現(xiàn)存方法使用的傳統(tǒng)特征融合策略,所提的特征融合網(wǎng)絡(luò)具有更強(qiáng)的性能.為了驗(yàn)證這一點(diǎn),將本文提出的用于特征提取和特征重建的編碼器網(wǎng)絡(luò)和譯碼器網(wǎng)絡(luò)固定,中間特征融合規(guī)則分別用Mean 策略、Max 策略、Addition 策略、l1-norm 策略及所提特征融合網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如圖10 所示.
Fig.10 Ablation experiment results of feature fusion network圖10 特征融合網(wǎng)絡(luò)的消融實(shí)驗(yàn)結(jié)果
首先,由Mean 策略、Max 策略以及l(fā)1-norm 策略得到的結(jié)果的對比度都非常差,不僅顯著目標(biāo)被削弱,場景紋理結(jié)構(gòu)也不夠自然.Addition 策略雖然比這些策略的性能更好,但其無法自適應(yīng)地選擇性保留有益信息,以至于某些區(qū)域出現(xiàn)過度飽和或亮度中和的現(xiàn)象.比如,在第1 組結(jié)果中,由Addition 策略得到的結(jié)果沒有充分保留水面的亮度;在第2 組結(jié)果中,建筑物的亮度又是過度飽和的.相反,采用本文所提的特征融合網(wǎng)絡(luò)可以自適應(yīng)地保留紅外與可見光源圖像中的顯著特征,其不僅具有顯著的對比度,而且包含豐富的紋理細(xì)節(jié).這些結(jié)果可以說明所提特征融合網(wǎng)絡(luò)的有效性.
3.6.2 自編碼器網(wǎng)絡(luò)分析
自編碼器網(wǎng)絡(luò)的作用是實(shí)現(xiàn)特征提取和圖像重建,其性能對融合結(jié)果的質(zhì)量影響很大.為了驗(yàn)證本文設(shè)計的自編碼器網(wǎng)絡(luò)的優(yōu)勢,將其與經(jīng)典的DenseFuse[13]進(jìn)行對比.具體地,我們控制融合規(guī)則保持相同(Addition 策略以及l(fā)1-norm 策略),使用本文提出的自編碼器網(wǎng)絡(luò)或DenseFuse 中的自編碼器網(wǎng)絡(luò)來提取特征和重建圖像,實(shí)驗(yàn)結(jié)果如圖11 所示.
對于Addition 策略,DenseFuse 結(jié)果中的顯著目標(biāo)被嚴(yán)重削弱,而本文方法卻可以很好地保持它們.對于l1-norm 策略,DenseFuse 丟失了一些紋理結(jié)構(gòu),如云朵和椅子,而所提方法很好地保持了這些細(xì)節(jié).總的來說,本文設(shè)計的自編碼器網(wǎng)絡(luò)的性能比DenseFuse 中的更強(qiáng),其可以較好地實(shí)現(xiàn)特征提取和圖像重建.
綜上所述,本文提出的基于特征空間多分類對抗機(jī)制的紅外與可見光圖像融合網(wǎng)絡(luò)主要包括2 個部分:1)引入空間注意力機(jī)制,同時使用密集連接和殘差連接來構(gòu)建高性能編碼器網(wǎng)絡(luò)實(shí)現(xiàn)特征提??;引入通道注意力機(jī)制,同時使用多尺度卷積來構(gòu)建高性能譯碼器網(wǎng)絡(luò)實(shí)現(xiàn)圖像重建.2)將融合策略網(wǎng)絡(luò)化,引入多分類生成對抗機(jī)制使融合特征同時符合紅外與可見光2 種模態(tài)的概率分布,從而構(gòu)建高性能的深度融合策略.最終的紅外與可見光圖像融合網(wǎng)絡(luò)由訓(xùn)練好的編碼器、特征融合網(wǎng)絡(luò)以及譯碼器級聯(lián)而成,生成高質(zhì)量的融合結(jié)果.相較于現(xiàn)存方法,所提方法可解釋性好,能根據(jù)輸入圖像自適應(yīng)生成更合理的融合策略,從而在源圖像中同時保留豐富的紋理細(xì)節(jié)和顯著的對比度,有效避免融合過程中有益信息的削弱問題.廣泛的實(shí)驗(yàn)表明,所提方法與最新的融合方法GTF,MDLatLRR,DenseFuse,Fusion-GAN,U2Fusion 相比,融合性能更好.同時,本文方法的融合速度很快,較對比方法快5 倍以上.
Fig.11 Ablation experiment results of autoencoder圖11 自編碼器的消融實(shí)驗(yàn)結(jié)果
作者貢獻(xiàn)聲明:張浩提出方法思路,設(shè)計及實(shí)施實(shí)驗(yàn),分析結(jié)果并撰寫論文;馬佳義構(gòu)思和設(shè)計研究方向,對論文提出建設(shè)性的意見,并對手稿進(jìn)行修改;樊凡協(xié)助實(shí)施實(shí)驗(yàn),并分析實(shí)驗(yàn)結(jié)果;黃珺對論文提出建設(shè)性的意見,并對稿件進(jìn)行了修改;馬泳完善方法理論,并對稿件進(jìn)行了修改.