張冬冬,王春平,付 強
(陸軍工程大學(xué)石家莊校區(qū)電子與光學(xué)工程系,河北 石家莊 050003)
隨著信息技術(shù)的發(fā)展,人們對信息的需求量日益劇增,單一傳感器所獲取的圖像信息已經(jīng)不能滿足人們的需求,因此需要將不同類型傳感器獲取的圖像信息進行融合,以獲取更加全面的信息。圖像融合的目的是將不同傳感器所獲取的源圖像融合成一幅信息更加豐富的圖像,該圖像更利于圖像處理及人的視覺感知。相對于單一源圖像而言,融合圖像的圖像質(zhì)量和清晰度更高,并且可以更加清晰的反映出圖像中所包含的場景信息?;谌诤蠄D像的顯著優(yōu)勢,圖像融合被廣泛應(yīng)用于目標識別、軍事監(jiān)視、醫(yī)學(xué)觀察、損傷監(jiān)控等領(lǐng)域[1-2]。
紅外與可見光圖像融合是圖像融合領(lǐng)域的重要分支。紅外圖像主要是利用紅外傳感器接收物體的熱輻射信息進行成像,受天氣影響小,抗干擾能力強,并且能夠克服部分障礙物的遮蔽,實現(xiàn)對隱藏目標的探測,但圖像的對比度和分辨率較低。可見光圖像利用物體反射的可見光進行成像,其細節(jié)和邊緣信息[3]豐富,清晰度和分辨率較高,但易受天氣、光照條件、距離等因素的影響。紅外圖像與可見光圖像之間具有一定的互補性,將二者進行融合處理可以充分利用他們的優(yōu)勢。融合后的圖像既具備可見光圖像豐富的背景和細節(jié)信息,又具備紅外圖像良好的目標信息,并且融合圖像的魯棒性較好。
近年來,隨著深度學(xué)習(xí)被廣泛的應(yīng)用于圖像融合領(lǐng)域,學(xué)者們基于深度學(xué)習(xí)框架提出了多種紅外與可見光圖像融合算法。目前的圖像融合綜述中,大多數(shù)文獻是對整個圖像融合領(lǐng)域的相關(guān)算法進行綜述[4-6],只有小部分文獻是針對紅外與可見光圖像的融合算法;在紅外與可見光圖像融合的綜述中[7-8],缺乏對基于深度學(xué)習(xí)框架融合算法的詳細闡述。本文對基于深度學(xué)習(xí)框架的紅外與可見光圖像融合算法進行綜述,著重介紹了相關(guān)算法的發(fā)展情況。
傳統(tǒng)的融合算法大致可分為五類:空間域法、多尺度變換、稀疏表示、人工神經(jīng)網(wǎng)絡(luò)、混合算法,他們的整體框架相似,如圖1所示。盡管傳統(tǒng)的融合算法已經(jīng)取得了較好的融合效果,但仍存在缺陷:(1)特征提取受限。融合性能依賴于人工提取特征的能力[9-10],難以找到較為普適的特征提取方法;(2)魯棒性低。部分算法對源圖像要求較高,無法適用于多種類型的源圖像;(3)實時性差。算法速度慢,尤其是基于稀疏表示[11]和低秩表示[12-13]的算法,字典學(xué)習(xí)的過程非常耗時。為了克服傳統(tǒng)算法的局限性,通過引入深度學(xué)習(xí)的方法進行特征提取、融合及圖像重建。近年來,隨著深度學(xué)習(xí)的發(fā)展,紅外和可見光圖像融合領(lǐng)域出現(xiàn)了多種基于深度學(xué)習(xí)的融合算法,按照算法的特點和原理的不同,將基于深度學(xué)習(xí)的融合算法分為如下幾類:基于多尺度變換擴展的方法、基于生成對抗網(wǎng)絡(luò)的方法和基于自動編碼器的方法。表1按類別羅列了本節(jié)所涉及的主要融合算法。
表1 基于深度學(xué)習(xí)框架的紅外與可見光圖像融合
圖1 傳統(tǒng)融合算法的架構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在特征提取方面具有顯著優(yōu)勢,相較于傳統(tǒng)人工特征提取方法能提供更多的信息[14-15]。圖像融合的關(guān)鍵點是如何從源圖像中提取顯著特征并進行融合。多尺度變換擴展將多尺度變換與CNN相結(jié)合,利用CNN特征提取的優(yōu)勢,解決了傳統(tǒng)多尺度變換方法特征難提取的缺陷。Li等人[16]針對可見光和紅外融合,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的融合方法。先將源圖像分解成基礎(chǔ)部分和細節(jié)部分兩個分支,然后對各分支進行融合:對于基礎(chǔ)部分,直接采用加權(quán)的方式進行融合;對于細節(jié)部分,先利用VGG-19網(wǎng)絡(luò)[30]進行特征提取,構(gòu)建多尺度權(quán)重特征圖,然后通過最大選擇算子重構(gòu)細節(jié)融合特征,最后將基礎(chǔ)部分融合結(jié)果和細節(jié)部分融合結(jié)果直接相加得到最終的融合圖像。文獻[16]提出的算法具有很強的擴展性,可以用于其他類型的圖像融合,例如多聚焦圖像融合、多曝光圖像融合等。針對文獻[16]中VGG-19在特征提取時會丟失有用信息的問題,Li等人[17]提出了一種基于殘差網(wǎng)絡(luò)(ResNet)[31]和零相位分量分析(ZCA)[32]的新型融合框架。首先,利用ResNet從源圖像中提取深層特征,通過ZCA將深層特征映射到稀疏子空間中;然后,利用局部平均L1范數(shù)得到初始的權(quán)值映射,通過雙三次插值將初始權(quán)重映射圖的大小調(diào)整為源圖像的大小;最后,采用加權(quán)平均的策略,將權(quán)值映射與源圖像相結(jié)合,重構(gòu)融合圖像。
為充分利用不同源圖像的特征,Liu等人[18]設(shè)計了具有針對性的CNN。文獻[18]首先利用引導(dǎo)濾波法將源圖像分解為基礎(chǔ)部分和細節(jié)部分。其次,通過設(shè)計兩種不同的CNN分別對紅外和可見光細節(jié)部分的特征進行提取,利用基于離散余弦變換的多層特征融合策略對提取的細節(jié)特征進行融合。此外,通過加權(quán)法對基礎(chǔ)部分進行融合。最后,通過將細節(jié)部分和基礎(chǔ)部分直接相加重建融合圖像。與文獻[16]相比,文獻[18]的特征提取方式更具有針對性,該方法可以突出重要特征并增強細節(jié)。F.Lahoud等人[19]首次將視覺顯著性應(yīng)用于基礎(chǔ)部分的融合,提高了算法的魯棒性,并且可以快速生成高質(zhì)量的融合圖像。為克服噪聲干擾提高融合圖像特征的顯著性,S.Yu等人[20]將LatLRR[33]與NSST[34]相結(jié)合,提出了一種多級分解和融合的算法。
基于多尺度變化擴展的紅外與可見光圖像融合方法雖然能夠改善多尺度變換中特征提取不充分的問題,但其自身仍存在一些不足,主要體現(xiàn)在:(1)分解方法不夠完善?,F(xiàn)有的分解方法無法將微小細節(jié)完全分解成細節(jié)部分,這會導(dǎo)致融合圖像的紋理不均勻、可視性差。(2)存在特征丟失的現(xiàn)象。對于CNN網(wǎng)絡(luò),隨著網(wǎng)絡(luò)的加深,特征丟失的可能性也會增加。(3)融合策略不具有普適性。針對不同的分解方法需要設(shè)計不同的融合策略,增加了設(shè)計融合算法的難度。
Goodfellow等人[35]在2014年首次提出了生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的概念,隨后GAN在深度學(xué)習(xí)領(lǐng)域引起了廣泛關(guān)注。GAN主要由兩部分組成,即生成器和判別器。訓(xùn)練過程中,生成器盡可能的生成真實的圖片去欺騙判別器,判別器則是盡可能的區(qū)分真實圖片和生成器生成的圖片。通過不斷的博弈直到判別器難以判定生成器生成的圖片是否是真實的,這樣就可以用訓(xùn)練好的生成器去生成圖片。由于GAN具有強大的生成能力,因此可以將GAN應(yīng)用于紅外和可見光圖像融合領(lǐng)域。基于GAN的圖像融合過程如圖2所示,其中G表示生成器,D表示判別器。
圖2 基于GAN的圖像融合框架
2019年,Ma等人[21]首次將GAN用于紅外與可見光圖像融合,該方法先用生成器生成融合圖像,再將生成的融合圖像和原可見光圖像同時送入判別器進行判斷,當判別器無法區(qū)分時則生成的融合圖像最佳。該方法將可見光圖像送入判別器使融合后圖像可以保留更多的細節(jié)信息,從而使融合后圖像更加清晰。雖然文獻[21]通過引入GAN能夠避免人工設(shè)計融合策略,生成的融合圖像細節(jié)信息豐富,但仍面臨細節(jié)丟失和目標邊緣趨于模糊的問題。Ma等人[22]在文獻[21]方法上進行了優(yōu)化,主要貢獻有三點:(1)提出細節(jié)損失函數(shù),保留更多的細節(jié)信息,提高融合圖像的清晰度;(2)通過設(shè)計目標邊緣增強損失,解決了目標邊緣信息模糊問題;(3)對GAN網(wǎng)絡(luò)中的生成器和判別器進行了優(yōu)化,使深層次的網(wǎng)絡(luò)具有更強的特征表示能力,提高框架的融合性能。盡管[22]中提出的方法可以得到很好的融合效果,但僅設(shè)計了一個判別器,所保留的有用信息非常有限。Xu等人[23]通過構(gòu)建兩個判別器,并在生成器和判別器之間建立了一個極大極小的對抗博弈,使融合圖像盡可能多的保留紅外圖像中的熱輻射信息和可見光圖像中的紋理細節(jié)。雙判別器會增加網(wǎng)絡(luò)的復(fù)雜性,并且忽略了源圖像的高層語義信息。為了解決上述問題,Hou等人[24]提出了一種基于語義分割的紅外與可見光圖像融合對抗網(wǎng)絡(luò),該網(wǎng)絡(luò)可以同時關(guān)注源圖像的低層細節(jié)信息和高層語義信息。網(wǎng)絡(luò)的主要創(chuàng)新點可以概括為兩個方面:生成器采用雙編碼器單解碼器結(jié)構(gòu),可以通過不同的編碼方式提取前景和背景特征;將紅外圖像的前景和可見光圖像的背景相結(jié)合生成的圖像作為判別器的輸入圖像(作為真實圖像),使融合后的圖像既能保留紅外圖像中熱目標的顯著特征又能保留可見光圖像的紋理細節(jié)。
雖然基于GAN的紅外與可見光圖像融合方法可以避免人工設(shè)計復(fù)雜的度量方式和融合策略,但在對抗訓(xùn)練的過程中會丟失大量的細節(jié)信息,視覺信息的保真度有待提高。因此,在后續(xù)的工作中,研究人員需要進一步對GAN的網(wǎng)絡(luò)結(jié)構(gòu)以及損失函數(shù)進行優(yōu)化,提出更加適用于紅外與可見光圖像融合的GAN模型。
基于自動編碼器的紅外與可見光圖像融合方法一般包括以下幾個步驟,如圖3所示。首先,利用編碼器對源圖像進行特征提取;其次,再根據(jù)融合策略將不同源圖像的特征進行融合;最后,通過解碼器重構(gòu)融合圖像。
圖3 基于自動編碼器的圖像融合框架
在文獻[25]中,Prabhakar等人首次提出一種基于無監(jiān)督的深度學(xué)習(xí)圖像融合框架(DeepFuse),該框架包含兩個編碼網(wǎng)絡(luò)層和三個解碼網(wǎng)絡(luò)層。文中的方法雖然性能表現(xiàn)良好,但存在兩個缺點:(1)網(wǎng)絡(luò)結(jié)構(gòu)過于簡單,難以從源圖像中提取顯著特征;(2)僅使用編碼網(wǎng)絡(luò)的最后一層進行計算,中間層所提取的有用信息可能會丟失。Li等人在DeepFuse的基礎(chǔ)上進行了改進,將dense block[36]融入編碼器中,構(gòu)建了一種新的融合框架(DenseFuse)[26]。借助dense block的特性,DenseFuse能夠有效的提取源圖像的特征,可以從中間層保留更多有用信息,并且整個網(wǎng)絡(luò)易于訓(xùn)練。為了更好的從紅外和可見光圖像中提取顯著特征,Fu等人[27]設(shè)計了一種具有兩個分支的自動編碼器:一是細節(jié)分支,利用密集連接來提取淺層和邊緣信息;二是語義分支,利用快速下采樣提取語義和結(jié)構(gòu)信息。文中的試驗結(jié)果表明,這種有差別的特征提取方式適用于紅外和可見光圖像融合。
Li等人[28]通過建立嵌套連接網(wǎng)絡(luò)和空間/通道注意力模型,提出了一種新的圖像融合算法(NestFuse)。首先,利用多層卷積構(gòu)造編碼器,使編碼器可以提取深層的多尺度特征。其次,利用構(gòu)建的空間/通道注意力模型將相同尺度的深層特征進行融合。最后,將融合后的特征送入基于嵌套連接的解碼器中,生成融合圖像。盡管NestFuse在細節(jié)信息保留方面取得了良好的效果,但融合策略不可學(xué)習(xí)。Li等人[29]對NestFuse的融合策略、訓(xùn)練策略和損失函數(shù)進行了改進,提出了一種端到端的融合框架(RFN-Nest)。
雖然基于自動編碼器的融合算法解決了訓(xùn)練數(shù)據(jù)缺乏的問題,但仍存在三個方面的缺陷:(1)網(wǎng)絡(luò)缺少下采樣操作,深度特征沒有得到充分利用;(2)仍需要改進網(wǎng)絡(luò)架構(gòu)提高對多尺度特征的提取能力;(3)融合策略中缺少針對深層特征融合而設(shè)計的方案。
紅外與可見光圖像融合技術(shù)已被廣泛的應(yīng)用于目標識別、區(qū)域監(jiān)控和醫(yī)療衛(wèi)生等領(lǐng)域。然而,不同的融合方法得到的融合圖像存在較大的差異,如何評判融合圖像的質(zhì)量是目前的研究難點之一。目前,研究人員大多采用主觀評價和客觀評價兩種方法對融合圖像的質(zhì)量進行評估[37]。
主觀評價方法主要借助人眼的觀察能力,對融合圖像的清晰度、對比度、失真程度等方面進行評估。這種方法相對簡單,易于實現(xiàn),可用于融合圖像的定性分析。然而,每個人對同一幅圖像會有不同的感官體驗,因此主觀評價方法易受個人喜好、環(huán)境等因素的影響。由于該類方法評價標準不一,隨機性較大,在實際應(yīng)用中一般不單獨使用。
客觀評價方法主要是利用特定的算法模型(對像素元的灰度值進行相應(yīng)的計算),實現(xiàn)對融合圖像的定量分析。這類方法在一定程度上消除了人的主觀因素,評價的結(jié)果更加客觀[38]。然而,客觀評價方法不能完全取代主觀評價方法,因為圖像的噪點數(shù)量、明暗分布、模糊程度等會導(dǎo)致某些客觀評價指標異常上升,使評價結(jié)果與實際的感官效果不符。因此,通常情況下會將兩種評價方法結(jié)合使用,以保證評價結(jié)果更加科學(xué)、全面。典型的客觀評價指標如表2所示,“+”表示值越大性能越好,“-”表示值越小性能越好。
表2 客觀評價指標
3.2.1 標準差
標準差(Standard deviation,SD)用于衡量融合圖像中像素強度的變化,反映了圖像的對比度[39]。當SD值增大時,圖像的對比度增加,圖像更加清晰,融合效果更好。SD的表達式如下所示:
(1)
(2)
3.2.2 平均梯度
平均梯度(Average gradient,AG)用來衡量融合圖像的紋理和細節(jié)表征能力[40]。圖像的AG值越大,邊緣細節(jié)表達越精細,圖像也越清晰。AG的表達式如下:
(3)
其中,融合圖像的大小為M×N,F(x,y)表示(x,y)處的灰度值。
3.2.3 空間頻率
空間頻率(Spatial Frequency,SF)基于梯度來反映圖像在空間中的整體活躍程度[41]。SF可分為空間行頻率(RF)和空間列頻率(CF),其值越大表明圖像的整體水平越高,融合算法的成像質(zhì)量越高。SF的表達式如下:
(4)
(5)
(6)
其中,融合圖像的大小為M×N,F(x,y)表示(x,y)處的灰度值。
3.2.4 熵
熵(Entropy,EN)是用來衡量融合圖像包含信息量多少的指標[42]。EN值越大,融合圖像所包含的信息越豐富,圖像質(zhì)量越好。EN的表達式如下:
(7)
其中,n代表灰度等級;pn代表融合圖像中灰度值為n的像素點在所有像素點中出現(xiàn)的概率。
3.2.5 互信息
互信息(Mutual Information,MI)用來衡量融合圖像保留源圖像的信息量[43]。MI值越大,融合圖像保留的源圖像信息越多,融合圖像與源圖像的相似度越高,融合的效果也就越好。MI的表達式如下:
MI=MII1,F+MII2,F
(8)
(9)
(10)
其中,MII1,F和MII2,F分別表示融合圖像保留紅外和可見光圖像的信息量;PI1(x,y),PI2(x,y),PF(x,y)分別表示紅外圖像、可見光圖像、融合圖像在(x,y)處的灰度值;PI1,F表示紅外圖像和融合圖像的聯(lián)合灰度分布;PI2,F表示可見光圖像和融合圖像的聯(lián)合灰度分布。
3.2.6 邊緣信息量
邊緣信息量(Quality of edge,QE)用來評估融合圖像保留源圖像的邊緣信息量[44]。QE的值在[0,1]之間,其值越大表明融合效果越好。QE的表達式如下:
(11)
(12)
(13)
3.2.7 結(jié)構(gòu)相似性
結(jié)構(gòu)相似性(Structural similarity index measure,SSIM)通過比較融合圖像和源圖像在圖像亮度、對比度和結(jié)構(gòu)三個方面的相似性,對融合圖像的損失和失真程度進行評估[45]。SSIM的值在[-1,1]之間,值越大表示融合的效果越好。SSIM的表達式如下:
(14)
其中,μx,μf,σx,σf和σxf分別表示源圖像X和融合圖像F的平均值、方差和協(xié)方差,參數(shù)α,β和γ用于調(diào)整比例,參數(shù)c1,c2和c3的作用是避免分母為零,其值通常設(shè)為0。
3.2.8 均方誤差
均方誤差(Mean squared error,MSE)通過計算融合圖像和源圖像之間的誤差,衡量兩者之間的差異[46]。MSE的值越小說明融合圖像與源圖像之間的差異越小,融合效果越好。MSE的表達式如下:
(15)
(16)
(17)
其中,MSEI1F和MSEI2F分別表示融合圖像與源圖像I1和I2之間的差異。
3.2.9 峰值信噪比
峰值信噪比(Peak signal-to-noise ratio,PSNR)利用融合圖像中峰值功率和噪聲功率的比值,衡量融合過程中的失真程度[47]。PSNR的值越大,融合圖像與源圖像的相似程度越高,融合效果越好。PSNR的表達式如下:
(18)
其中,r表示融合圖像的峰值;MSE表示均方誤差。
3.2.10 視覺信息保真度指標
視覺信息保真度指標(Visual information fidelity of fusion,VIFF)用于衡量融合圖像的信息保真度[48]。VIFF的值越大說明融合圖像的保真度越高,融合效果越好。VIFF的計算過程可分為四步:首先,對源圖像和融合圖像進行濾波,并將其分成不同的塊;其次,評估每塊是否有失真的視覺信息;再對每塊的視覺信息的保真度進行計算;最后,計算基于視覺信息保真度的總體度量。VIFF的表達式如下:
(19)
(20)
其中,FVIND和FVID分別表示非失真視覺信息相似性和失真視覺信息相似性。
本文從三大類方法中各選取兩種典型融合算法,即深度學(xué)習(xí)框架(Deep Learning Framework,DLF)[16]、基于ResNet和zero-phase的融合框架(RZP)[17]、生成對抗網(wǎng)絡(luò)(FusionGAN)[21]、雙判別器網(wǎng)絡(luò)(DDcGAN)[23]、NestFuse[28]、RFN-Nest[29],分別對六種不同場景的紅外與可見光圖像進行融合試驗,使用六種評價指標對試驗結(jié)果進行定量對比。文中所用的融合算法均采用公開代碼,參數(shù)設(shè)置與原文保持一致。
圖4為不同融合方法在六種場景中的融合結(jié)果對比圖。通過觀察可知,NestFuse整體視覺效果較好,圖像的清晰度、對比度較高,但存在細節(jié)丟失的問題;RFN-Nest解決了NestFuse細節(jié)丟失的問題,但圖像的對比度低;FusionGAN和DDcGAN存在目標輪廓模糊的現(xiàn)象,視覺效果較差;DLF與RZP融合效果相近,圖像清晰度高,但對比度低,圖像亮度較低,不利于觀察。
圖4 六種算法在不同場景中的融合效果
圖5為六種算法生成的融合圖像在六種評價指標上的定量比較,圖例中的數(shù)值為對應(yīng)算法在該指標上的平均值。定量試驗結(jié)果表明,每種算法各有優(yōu)缺點,不同的算法在不同的方面展現(xiàn)出優(yōu)越性。單一的評價指標難以對算法的整體性能進行度量,需要通過多個不同的評價指標對融合圖像質(zhì)量進行綜合評價,在實際應(yīng)用中,應(yīng)根據(jù)不同的需求選擇對應(yīng)性能較好的融合算法。從圖中的數(shù)據(jù)可以看出,DLF和RZP的QE和SSIM較高,說明基于多尺度變換擴展方法有利于源圖像邊緣信息和結(jié)構(gòu)的保留,但圖像的對比度和清晰度較低;FusionGAN和DDcGAN在邊緣信息和結(jié)構(gòu)保留方面表現(xiàn)不佳,但其他指標相對較高,說明基于生成對抗網(wǎng)絡(luò)的方法能夠保留較多的背景信息和熱輻射信息,但邊緣細節(jié)的構(gòu)建不夠精細,存在模糊的現(xiàn)象;NestFuse和RFN-Nest在各指標上均相對較高,說明基于自動編碼器的方法可用于復(fù)雜場景圖像的融合。
(a)SD
本文綜述了近年來基于深度學(xué)習(xí)框架的紅外與可見光圖像融合算法,將這些算法主要分為三類:基于變換擴展的方法、基于GAN的方法和基于自動編碼器的方法,重點對這三類方法的核心思想、發(fā)展進程、優(yōu)缺點進行了闡述;對目前比較常用的圖像融合評價指標進行了簡要概述;最后選擇了六種具有代表性的融合算法進行試驗,利用六種評價指標對融合效果進行評價。
雖然深度學(xué)習(xí)在圖像融合領(lǐng)域已逐漸發(fā)展成熟,并使紅外與可見光圖像的融合效果有了很大的提升,但仍存在細節(jié)丟失、時效性差、評價系統(tǒng)不完善等問題。針對這些問題提出三方面的改進意見:
(1)提高卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,增強中間層網(wǎng)絡(luò)特征的流動性,以充分利用從每一層卷積中提取的細節(jié)特征,使源圖像的細節(jié)信息得到充分保留。
(2)為提高網(wǎng)絡(luò)的時效性,可以從以下幾個方面進行嘗試:①網(wǎng)絡(luò)中嵌入注意力、去噪等機制,去除源圖像中所包含的冗余信息;②調(diào)整網(wǎng)絡(luò)參數(shù)或者優(yōu)化損失函數(shù);③減小網(wǎng)絡(luò)的深度。
(3)通常利用將主觀評價與客觀評價相結(jié)合的方法,對融合圖像進行評價。然而,主觀評價的人為性太強,客觀評價指標太多難以選擇,且主觀評價與客觀評價結(jié)果之間存在差異性,這些導(dǎo)致評價的結(jié)果不夠客觀,因此,通過制定一個完善的衡量標準對融合算法的質(zhì)量進行評估是未來研究的一個重點。