羅 迪,王從慶,周勇軍
一種基于生成對(duì)抗網(wǎng)絡(luò)與注意力機(jī)制的可見(jiàn)光和紅外圖像融合方法
羅 迪1,2,王從慶1,2,周勇軍2
(1. 南京航空航天大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210016;2. 近地面探測(cè)技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無(wú)錫 214000)
針對(duì)低照度可見(jiàn)光圖像中目標(biāo)難以識(shí)別的問(wèn)題,提出了一種新的基于生成對(duì)抗網(wǎng)絡(luò)的可見(jiàn)光和紅外圖像的融合方法,該方法可直接用于RGB三通道的可見(jiàn)光圖像和單通道紅外圖像的融合。在生成對(duì)抗網(wǎng)絡(luò)中,生成器采用具有編碼層和解碼層的U-Net結(jié)構(gòu),判別器采用馬爾科夫判別器,并引入注意力機(jī)制模塊,使得融合圖像可以更關(guān)注紅外圖像上的高強(qiáng)度信息。實(shí)驗(yàn)結(jié)果表明,該方法在維持可見(jiàn)光圖像細(xì)節(jié)紋理信息的同時(shí),引入紅外圖像的主要目標(biāo)信息,生成視覺(jué)效果良好、目標(biāo)辨識(shí)度高的融合圖像,并在信息熵、結(jié)構(gòu)相似性等多項(xiàng)客觀指標(biāo)上表現(xiàn)良好。
圖像融合;可見(jiàn)光/紅外圖像;低照度圖像;生成對(duì)抗網(wǎng)絡(luò);注意力機(jī)制
可見(jiàn)光圖像具有豐富的紋理細(xì)節(jié)和空間分辨率,符合人類視覺(jué)感知方式。但在低照度條件下,圖像質(zhì)量會(huì)顯著下降,尤其是圖像中的有效目標(biāo)(比如人員目標(biāo))將會(huì)缺失,變得難以識(shí)別。而紅外圖像是通過(guò)目標(biāo)的熱輻射信息成像,可以較為鮮明地區(qū)分目標(biāo)與背景,在全天候條件下都能良好地工作,但圖像本身缺乏細(xì)節(jié),無(wú)法反映場(chǎng)景信息。
圖像融合作為一種圖像增強(qiáng)技術(shù),可以將由不同傳感器在同一場(chǎng)景下采集的不同圖像進(jìn)行組合,生成魯棒性更強(qiáng)和信息更為豐富的圖像,有助于后續(xù)處理和決策。圖像融合現(xiàn)在被廣泛應(yīng)用于醫(yī)療診斷、軍事目標(biāo)檢測(cè)、生物識(shí)別和遙感等領(lǐng)域。因此將可見(jiàn)光圖像和紅外圖像融合,可以在保留細(xì)節(jié)紋理信息的同時(shí),突出目標(biāo)信息,有利于人眼感知,提高目標(biāo)的檢測(cè)和識(shí)別率。
傳統(tǒng)圖像融合技術(shù)發(fā)展至今,根據(jù)其理論依據(jù)的不同,可以分為多尺度變換方法、稀疏表示方法、子空間方法和基于顯著性的方法,以及綜合以上各類方法的混合模型[1],其中多尺度變換方法因?yàn)槠浜?jiǎn)單與有效性,被廣泛用于可見(jiàn)光和紅外圖像融合中,該方法包括拉普拉斯金字塔變換(Laplace pyramid,LP)[2]、雙數(shù)復(fù)小波變換(the dual-tree complex wavelet transform, DTCWT)[3]、非下采樣輪廓波變換(nonsubsampled contourlet transform, NSCT)[4]和曲波變換(Curvelets, CVT)[5]。然而這些融合方法都依賴于特定的圖像變換,往往對(duì)可見(jiàn)光圖像和紅外圖像采用相同的特征提取與表示,此外,在融合階段,這些方法都需要手工設(shè)計(jì)對(duì)應(yīng)的融合規(guī)則,且越來(lái)越復(fù)雜。
隨著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)的發(fā)展,許多基于神經(jīng)網(wǎng)絡(luò)的圖像融合方法被提出。這些方法采用卷積神經(jīng)網(wǎng)絡(luò)以網(wǎng)絡(luò)學(xué)習(xí)的方式提取圖像的多維度特征,并結(jié)合傳統(tǒng)方法的融合規(guī)則進(jìn)行特征重組,或采用解碼網(wǎng)絡(luò)重構(gòu)融合圖像,比如Hui Li等人提出的DenseFuse[6]。Jiayi Ma等人將生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GANs)引入圖像融合任務(wù)中,該融合模型通過(guò)端到端的方式將輸入圖像直接轉(zhuǎn)換為融合圖像,避免了繁復(fù)的活動(dòng)水平測(cè)量和融合規(guī)則的手工設(shè)計(jì)[7]。但該模型因?yàn)槠漭^為簡(jiǎn)單的生成器網(wǎng)絡(luò)結(jié)構(gòu),在灰度級(jí)別的圖像融合中雖表現(xiàn)出一定的優(yōu)勢(shì),但在RGB圖像和紅外圖像的融合中就缺失了特征提取能力,無(wú)法泛化到其他圖像數(shù)據(jù)集和實(shí)際應(yīng)用中。
為了解決這些問(wèn)題,本文提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的可見(jiàn)光與紅外圖像融合方法,該方法基于生成器和判別器的極大極小博弈,達(dá)到兩者的納什平衡來(lái)融合可見(jiàn)光圖像和紅外圖像,實(shí)現(xiàn)往低照度圖像中引入紅外目標(biāo)信息。在生成對(duì)抗網(wǎng)絡(luò)中的生成器采用U-Net網(wǎng)絡(luò)結(jié)構(gòu)[8],其所具有的編碼層和解碼層結(jié)構(gòu)可以更好地提取圖像特征,且適用于RGB可見(jiàn)光圖像和單通道紅外圖像的融合。同時(shí),在生成對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上,引入了注意力機(jī)制模塊,使圖像的編碼解碼過(guò)程可以更關(guān)注于目標(biāo)信息,對(duì)于低照度圖像的融合,則可促使網(wǎng)絡(luò)訓(xùn)練更關(guān)注紅外圖像中高輻射的目標(biāo)信息。此外,設(shè)計(jì)了對(duì)應(yīng)的組合損失函數(shù),促使模型的生成圖像可以更好地維持可見(jiàn)光圖像中的細(xì)節(jié)和紋理信息。最后,使用公共的紅外和可見(jiàn)光圖像數(shù)據(jù)集[9]進(jìn)行模型訓(xùn)練和實(shí)驗(yàn)。
生成對(duì)抗網(wǎng)絡(luò)由Lan Goodfellow在2014年率先提出[10],引起了深度學(xué)習(xí)和圖像合成領(lǐng)域的極大關(guān)注。該網(wǎng)絡(luò)是一種通過(guò)對(duì)抗的方式,學(xué)習(xí)數(shù)據(jù)分布的生成式模型。其框架包含兩個(gè)對(duì)立的模型:生成器G和判別器D。生成器G的作用是盡可能生成符合訓(xùn)練數(shù)據(jù)分布的樣本,判別器D的作用是區(qū)分樣本來(lái)源。
為了解決傳統(tǒng)GANs出現(xiàn)的各種訓(xùn)練問(wèn)題,GANs也發(fā)展出了各類變體。Radford等人提出了深度卷積GANs(DCGANs),該方法將卷積神經(jīng)網(wǎng)絡(luò)(CNNs)引入GANs中[11],彌補(bǔ)了用于監(jiān)督學(xué)習(xí)的CNN與用于無(wú)監(jiān)督學(xué)習(xí)的GANs之間的差距。Mao等人提出了最小二乘GANs(LSGANs)[12],該方法使用最小二乘損失函數(shù)取代常規(guī)GANs使用的交叉熵?fù)p失函數(shù)。具體形式如下:
參數(shù),,的設(shè)置有兩種方式。一種是滿足條件-=1和-=2,常設(shè)置為=-1,=1,=0。另一種設(shè)置是滿足條件=,常設(shè)置為=0,=1,=1。本文采用第二種設(shè)置。
圖像翻譯通常是指將一張圖片通過(guò)相應(yīng)的映射轉(zhuǎn)化成另外一張圖片,比如灰度圖、梯度圖、彩色圖和語(yǔ)義標(biāo)簽圖之間的轉(zhuǎn)化。傳統(tǒng)方法是采用像素和像素之間的映射,并對(duì)不同的轉(zhuǎn)化任務(wù)設(shè)置不同的框架。而Isola等人提出了一種使用生成對(duì)抗網(wǎng)絡(luò)解決圖像翻譯問(wèn)題的通用解決方法pix2pix[13]。該方法在語(yǔ)義標(biāo)簽和城市街道圖像,黑白圖像和彩色圖像,線條草圖到實(shí)物圖像等轉(zhuǎn)化任務(wù)中都獲得了不錯(cuò)的效果。
為了實(shí)現(xiàn)可見(jiàn)光圖像和紅外圖像的融合,可以把圖像融合也看作一種圖像翻譯任務(wù),輸入圖像為在通道上進(jìn)行拼接的混合域可見(jiàn)光-紅外圖像對(duì),輸出圖像為含有紅外信息的可見(jiàn)光圖像。此外,用于圖像融合的可見(jiàn)光和紅外圖像數(shù)據(jù)集大多都是成對(duì)采集的圖像,所以本文的方法沿用pix2pix構(gòu)建網(wǎng)絡(luò)的思路,進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的搭建和損失函數(shù)的設(shè)計(jì),從而實(shí)現(xiàn)高質(zhì)量的圖像融合。
視覺(jué)注意力機(jī)制被廣泛用在分類網(wǎng)絡(luò)中。如Jaderberg等人提出的空間域轉(zhuǎn)換網(wǎng)絡(luò)(spatial transformer networks)[14]。Hu Jie等人提出的SENet[15],它通過(guò)學(xué)習(xí)通道之間的相關(guān)性,篩選出針對(duì)通道的注意力。而Woo等人提出的卷積塊注意模塊(convolutional block attention module,CBAM)[16],綜合了上述兩種注意力機(jī)制,通過(guò)依次使用通道和空間注意力模塊,分別推導(dǎo)出注意力圖,然后將注意力圖與輸入特征圖相乘,進(jìn)行自適應(yīng)特征細(xì)化。此外,CBAM模塊作為一個(gè)輕量級(jí)的通用模塊,可以無(wú)縫地集成到任何卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中,因此本文嘗試將該模塊添加到圖像融合框架中。
目前大多數(shù)融合方法所采用的數(shù)據(jù)集為T(mén)NO圖像融合數(shù)據(jù)集,并將其作為評(píng)價(jià)融合方法性能的基準(zhǔn)數(shù)據(jù)集。但該數(shù)據(jù)集中的可見(jiàn)光圖像多為單通道灰度圖,且圖像所拍攝的目標(biāo)種類繁雜。以及訓(xùn)練模型需要大量的數(shù)據(jù)圖像。因此,綜合多種考慮,本文選擇使用多光譜行人檢測(cè)數(shù)據(jù)集[9]。該數(shù)據(jù)集提供了由基于分束器的專用硬件捕捉到的一致的彩色可見(jiàn)光圖像和紅外圖像對(duì),且已經(jīng)進(jìn)行物理對(duì)齊。數(shù)據(jù)集大小與其余基于可見(jiàn)光的數(shù)據(jù)集一樣大。此外,該數(shù)據(jù)集不僅包含白天圖像對(duì),也包含夜間圖像對(duì)。
本文從該數(shù)據(jù)集中選取3000對(duì)可見(jiàn)光紅外圖像作為訓(xùn)練數(shù)據(jù)集,其中白天和夜晚場(chǎng)景對(duì)半,圖像對(duì)大小為480×640。在將原始圖像輸入到網(wǎng)絡(luò)前,首先將三通道可見(jiàn)光圖像和單通道紅外圖像在通道維度進(jìn)行拼接,生成四通道圖像作為輸入圖像。對(duì)輸入圖像采用隨機(jī)翻轉(zhuǎn)、變形、裁剪等預(yù)處理后,再將圖像縮放至480×640。這樣在每一個(gè)周期的訓(xùn)練過(guò)程中,網(wǎng)絡(luò)都會(huì)獲得不同的圖像對(duì)輸入,根據(jù)周期的設(shè)置可以成倍擴(kuò)充訓(xùn)練集的數(shù)量。
由于該數(shù)據(jù)集面向的任務(wù)是行人檢測(cè),因此圖像中(尤其是紅外圖像)的顯著目標(biāo)信息主要為行人。因此,本文的圖像融合任務(wù)與以往的融合任務(wù)略有不同,不是單純地將兩類圖像中的有用信息融合成信息量更全面的圖像,而是更關(guān)注于在目標(biāo)并不清晰明確的低照度圖像中,引入紅外圖像中的顯著目標(biāo)信息,即行人目標(biāo)信息,形成利于人眼感知的融合圖像。且該融合過(guò)程并沒(méi)有使用數(shù)據(jù)集中提供的標(biāo)簽,僅使用可見(jiàn)光和紅外圖像對(duì)。
2.2.1 生成器基本結(jié)構(gòu)
本文所采用的基于U-Net的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)采用編碼層和解碼層的對(duì)稱結(jié)構(gòu)(圖中en表示編碼層,de表示解碼層),并在對(duì)應(yīng)的解碼層和編碼層之間加上跳躍連接(skip connections),此外,不同于原始U-Net網(wǎng)絡(luò),該網(wǎng)絡(luò)取消了所有池化層和傳統(tǒng)的上采樣操作,取而代之的為卷積步長(zhǎng)為2的卷積層和反卷積層。
融合過(guò)程表述如下:首先將三通道的可見(jiàn)光圖像和單通道的紅外圖像在通道維度進(jìn)行拼接,形成四通道輸入圖像,通過(guò)第一層卷積層提取特征圖后,輸入到CBAM模塊中,經(jīng)過(guò)其中的通道注意力模塊和空間注意力模塊后,輸出同樣尺寸大小和通道數(shù)的特征圖。之后在經(jīng)過(guò)一系列的編碼層,不斷下采樣一直到達(dá)瓶頸層,然后進(jìn)行相對(duì)應(yīng)的反卷積操作,并在每次反卷積操作之前,將前一解碼層得到的特征圖與編號(hào)對(duì)應(yīng)的解碼層得到的特征圖進(jìn)行通道維度的拼接,然后輸入到下一解碼層。這種跳躍連接的操作相當(dāng)于起到了多尺度融合的目的,可以充分利用編碼層網(wǎng)絡(luò)提取的低層級(jí)特征。此外,由于我們?cè)诰幋a層采用了CBAM模塊,因此最后一層的解碼層所拼接的為CBAM模塊所輸出的特征圖。最后輸出的為與輸入圖像相同尺寸的三通道彩色融合圖像。由于需要處理的圖像大小為480×640,因此沒(méi)有完全采用文獻(xiàn)[13]所提出的框架所采用的網(wǎng)絡(luò)參數(shù)(原參數(shù)適用于256×256或512×512的輸入圖像)。具體網(wǎng)絡(luò)參數(shù)如表1所示。
此外,為了提高模型的收斂速度,并保持每個(gè)圖像實(shí)例之間的獨(dú)立性,在每層卷積層和反卷積層(除最后一層)的后面使用實(shí)例歸一化(instance normalization)對(duì)數(shù)據(jù)進(jìn)行歸一化。為了克服訓(xùn)練過(guò)程中梯度消失的問(wèn)題,編碼層使用斜率為0.2的LeakyReLU激活函數(shù),解碼層(除最后一層)使用ReLU激活函數(shù)和來(lái)提升網(wǎng)絡(luò)的非線性程度。解碼層中的最后一層則使用tanh激活函數(shù)。
2.2.2 CBAM模塊的網(wǎng)絡(luò)結(jié)構(gòu)
CBAM模塊作為一個(gè)輕量級(jí)的通用模塊,我們直接將其添加在第一層卷積層后面。它包含通道和空間注意力模塊,其具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
其操作過(guò)程如下:第一步首先將由卷積層得到的240×320×32的特征圖分別經(jīng)過(guò)最大池化層和平均池化層得到兩組1×1×32的特征圖,實(shí)現(xiàn)空間維度的壓縮,然后將兩組特征圖分別經(jīng)過(guò)一個(gè)共享參數(shù)的多層感知器(Multi Layer Perceptron,MLP)進(jìn)行特征整合,在通道維度上以逐像素求和的方式合并兩類輸出,并經(jīng)過(guò)sigmoid激活函數(shù)得到通道注意力特征圖c(),最后將c()與進(jìn)行元素點(diǎn)乘,即得到經(jīng)過(guò)通道注意力優(yōu)化的特征圖¢,其大小為240×320×32。
圖1 生成器的網(wǎng)絡(luò)結(jié)構(gòu)
表1 生成器網(wǎng)絡(luò)參數(shù)
圖2 CBAM的網(wǎng)絡(luò)結(jié)構(gòu)
第二步繼續(xù)使用最大池化層和平均池化層分別對(duì)¢進(jìn)行通道維度的壓縮,得到兩組240×320×1的特征圖,將它們進(jìn)行通道維度的拼接,經(jīng)過(guò)一層卷積核大小為7×7的卷積層和sigmoid激活函數(shù)后,即得到空間注意力特征圖c(¢),最后將其與¢進(jìn)行元素點(diǎn)乘,即得到CBAM模塊的最終輸出特征,其大小為240×320×32。
通道注意力模塊和空間注意力模塊的具體計(jì)算公式如式(3)和式(4)所示:
c()=[MLP(AvgPool())]+MLP(MaxPool())
=[1(0(avgc))]+1(0(maxc)) (3)
¢=c()?
S(¢)=(7×7([AvgPool(); MaxPool()]))
=(7×7([avg;max])) (4)
2=S(¢)?¢
本文所采用的判別器結(jié)構(gòu)為文獻(xiàn)[13]所提出的中提出的馬爾科夫判別器。這種判別器有效地將圖像建模為馬爾科夫隨機(jī)場(chǎng),并假設(shè)像素之間的獨(dú)立性大于補(bǔ)?。╬atch)的直徑。這種假設(shè)也常用于紋理和風(fēng)格模型。由于我們會(huì)通過(guò)添加額外的傳統(tǒng)損失函數(shù),比如L1/L2損失函數(shù)來(lái)保證圖像間的低頻正確性(具體見(jiàn)2.4),所以判別器的目的主要是用來(lái)約束圖像間高頻結(jié)構(gòu)信息,所以在補(bǔ)丁(patch)范圍內(nèi)對(duì)結(jié)構(gòu)進(jìn)行懲罰,被證明是可行的。
判別器的主要流程如下:首先輸入由生成器生成的融合圖像(或訓(xùn)練集中的可見(jiàn)光圖像),對(duì)于480×640×3的輸入,經(jīng)過(guò)6層卷積操作后,得到15×20×1的特征圖矩陣,其中每個(gè)像素對(duì)應(yīng)原圖像中的94×94的補(bǔ)丁,判別器對(duì)每個(gè)補(bǔ)丁進(jìn)行判斷,最終輸出所有結(jié)果的均值,用以進(jìn)行對(duì)抗損失的計(jì)算。
此外,不同于原文中使用的輸入成對(duì)圖像的條件判斷方式,為了讓判別器更符合我們的融合任務(wù),僅對(duì)判別器輸入融合圖像,和訓(xùn)練集中的并不與之對(duì)應(yīng)的可見(jiàn)光圖像,使得判別器的任務(wù)不是判別圖像是否相同(若目的為此,對(duì)于生成器所輸出的融合圖像,會(huì)減少其所對(duì)應(yīng)的紅外信息的引入),而是判別生成的融合圖像是否符合可見(jiàn)光圖像的特征,以此來(lái)保證我們的判別器性能。
判別器的結(jié)構(gòu)如圖3所示。具體參數(shù)如表2所示。歸一化方法采用Instance Normalization,激活函數(shù)采用斜率為0.2的LeakyReLU。
為了提高GANs生成圖像的真實(shí)性,許多研究嘗試將GANs的對(duì)抗損失和其他傳統(tǒng)損失結(jié)合起來(lái)。添加傳統(tǒng)損失后,判別器的目的不變,而生成器的目的不僅是為了生成可以混淆判別器的融合圖像,而且還負(fù)責(zé)約束融合圖像和源圖像內(nèi)容上的相似性,保證低頻正確性。我們把這部分損失稱為內(nèi)容損失。
圖3 判別器的網(wǎng)絡(luò)結(jié)構(gòu)
表2 判別器參數(shù)
因此生成器的損失函數(shù)由對(duì)抗損失函數(shù)GAN()(價(jià)值函數(shù))和內(nèi)容損失函數(shù)con兩部分組成,如式(5)所示:
L=GAN()+con(5)
對(duì)抗損失函數(shù)GAN()采用2.1中最小二乘損失函數(shù)的第二種形式:
對(duì)于可見(jiàn)光圖像和紅外圖像融合任務(wù),需要分別設(shè)計(jì)對(duì)應(yīng)的內(nèi)容損失函數(shù)。L1損失函數(shù)常被用于風(fēng)格遷移任務(wù)中,是一個(gè)合理的用于約束可見(jiàn)光圖像相似性的選擇。而紅外圖像的特征主要為像素強(qiáng)度,可以使用Frobenius范數(shù)來(lái)約束融合圖像的灰度圖和紅外圖像的像素強(qiáng)度相似性。
選擇內(nèi)容損失函數(shù)如式(7)所示:
在融合框架中判別器的目的是用來(lái)判斷生成的圖像是否符合可見(jiàn)光域的圖像,通過(guò)和生成器的對(duì)抗博弈,為融合圖像添加更多的高頻信息,例如紋理、細(xì)節(jié)和顏色信息。為了與生成器的對(duì)抗損失函數(shù)統(tǒng)一,判別器的損失函數(shù)如式(10)所示:
式中:[(,)]表示融合圖像的判別結(jié)果;()表示可見(jiàn)光圖像的判別結(jié)果。
實(shí)驗(yàn)所采用的計(jì)算機(jī)硬件配置為:Inter Core i9-9900k CPU,NVIDIA RTX 2080Ti 11GB GPU。本文所提出的基于生成對(duì)抗網(wǎng)絡(luò)的融合方法,采用PyTorch深度學(xué)習(xí)框架搭建。
訓(xùn)練圖像和測(cè)試圖像的大小為480×640×4,判別器的學(xué)習(xí)率設(shè)為0.004,生成器的學(xué)習(xí)率設(shè)置為0.001,這樣在訓(xùn)練過(guò)程中生成器和判別器可以使用1:1的更新間隔。優(yōu)化器選擇自適應(yīng)矩估計(jì)優(yōu)化器,紅外內(nèi)容損失權(quán)重1設(shè)置為0.33,可見(jiàn)光內(nèi)容損失權(quán)重2設(shè)置為100,批大小(Batch Size)設(shè)置為4,訓(xùn)練周期(epoch)設(shè)置為50。
為了驗(yàn)證本文融合方案的有效性,將其與7種先進(jìn)的圖像融合方法進(jìn)行了對(duì)比。其中3種為經(jīng)典的多尺度變換方法,包括拉普拉斯金字塔變換(LP)、雙數(shù)復(fù)小波變換(DTCWT)和非下采樣輪廓波變換(NSCT),以及將以上3種方法和稀疏表示相結(jié)合的混合方法,分別為L(zhǎng)P_SR,DTCWT_SR,NSCT_SR。最后一種為基于神經(jīng)網(wǎng)絡(luò)的融合方法DenseFuse。由于以上方法的設(shè)計(jì)都只局限于單通道灰度圖像的合成,因此,在使用上述方法進(jìn)行三通道可見(jiàn)光圖像和單通道紅外圖像融合時(shí),進(jìn)行了部分修改。我們將用于測(cè)試的可見(jiàn)光圖像分解為3個(gè)單通道圖,分別和對(duì)應(yīng)的單通道紅外圖像進(jìn)行融合,最后將3個(gè)通道融合圖進(jìn)行組合得到三通道彩色融合圖像。而本文提出的方法可以直接輸入可見(jiàn)光圖像和紅外圖像對(duì),無(wú)需進(jìn)行其他方法所需要的分解組合操作。
在圖4中給出了有代表性的6組融合圖像。觀察實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論:首先可以看到同樣是基于GANs的方法的FusionGAN,由于其網(wǎng)絡(luò)結(jié)構(gòu)的限制,在使用本文實(shí)驗(yàn)所采用的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),出現(xiàn)了模式崩塌,造成融合圖像大幅度失真,只能在一定程度上看到其有所突出紅外目標(biāo)。而其他方法都實(shí)現(xiàn)了將紅外目標(biāo)信息融合進(jìn)可見(jiàn)光圖像中,提高了目標(biāo)(行人)的辨識(shí)度,同時(shí)對(duì)于強(qiáng)光環(huán)境下無(wú)法在可見(jiàn)光圖像中辨識(shí)的車輛,在融合圖像中也能進(jìn)行辨識(shí),如第二張測(cè)試圖所示。但在細(xì)節(jié)和紋理上依然存在不同問(wèn)題。
由于紅外圖像的灰度值在低照度條件下,普遍高于可見(jiàn)光圖像,因此傳統(tǒng)方法的融合結(jié)果評(píng)價(jià)指標(biāo)比較局限于其固定的融合規(guī)則,除了保留目標(biāo)信息的高灰度值,同樣會(huì)將其余具有高灰度值的無(wú)效信息融合進(jìn)圖像中,從而產(chǎn)生肉眼可見(jiàn)的偽影。觀察第4張測(cè)試圖所對(duì)應(yīng)的融合圖像中的天空部分,除了我們的方法外,其余方法都出現(xiàn)明顯分界線。此外還可以觀察到,LP_SR、DTCWT_SR、NSCT_SR這些混合方法,比之LP、DTCWT、NSCT,雖然使圖像目標(biāo)信息更加突出,但其邊緣出現(xiàn)了明顯失真和大范圍模糊。DenseFuse的融合效果視覺(jué)上比傳統(tǒng)方法較好,但在背景部分依然存在少許偽影。本文提出的方法則有效規(guī)避以上問(wèn)題(本文方法稱為CBAM-GAN)。由于本文設(shè)計(jì)的網(wǎng)絡(luò)目的是往低照度圖像中引入紅外圖像中的顯著目標(biāo)信息,因此可以有效避免引入無(wú)效的紅外信息,從而減少偽影的產(chǎn)生。觀察本文算法的融合圖像可以發(fā)現(xiàn),其背景部分幾乎保留了可見(jiàn)光圖像中的背景,雖然這會(huì)使得其在整體亮度上低于其他融合圖像,但目標(biāo)信息是高亮顯示的,且相較于其余方法的高亮部分以灰色輸出,圖中的高亮部分帶有一定的紅色,也有助于視覺(jué)感知。因?yàn)槭褂蒙蓪?duì)抗網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),其引入的對(duì)抗損失會(huì)在原則上意識(shí)到灰色輸出是不現(xiàn)實(shí)的,并鼓勵(lì)匹配真實(shí)的顏色輸出。此外,為了驗(yàn)證注意力模塊的有效性,我們?nèi)サ袅松善髦械腃BAM模塊,其余結(jié)構(gòu)保持不變,重新進(jìn)行模型訓(xùn)練和實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果為圖4中NORM-GAN欄所對(duì)應(yīng)的6張圖像。可以觀察到,和CBAM-GAN相比,背景部分沒(méi)有明顯差異,但對(duì)于紅外目標(biāo)而言,其亮度、色彩鮮艷度、對(duì)比度都低于CBAM-GAN生成的融合圖像,說(shuō)明了注意力模塊在促使融合圖像引入顯著紅外信息時(shí)起到積極作用。
最后,為了客觀地評(píng)價(jià)圖像融合的性能,我們使用了6個(gè)融合指標(biāo)進(jìn)行了定量比較。6個(gè)融合指標(biāo)分別為信息熵(EN)、互信息(MI)、特征互信息(FMI)、結(jié)構(gòu)相似性(SSIM)、相關(guān)系數(shù)(CC)、峰值信噪比(PSNR)。7種融合方法得到的20幅融合圖像的6個(gè)指標(biāo)的平均值如表3所示。
表3 融合圖像客觀指標(biāo)值
需要指出的是,這些指標(biāo)在用于評(píng)價(jià)可見(jiàn)光和紅外圖像融合性能的時(shí)候,主要用于灰度圖像的,且是綜合融合圖像相對(duì)于可見(jiàn)光以及紅外圖像的相似性。因此,在進(jìn)行指標(biāo)計(jì)算時(shí),需要將彩色融合圖像以及對(duì)應(yīng)的可見(jiàn)光圖像轉(zhuǎn)化為灰度圖,進(jìn)行計(jì)算。由此過(guò)程可見(jiàn),這些指標(biāo)僅考慮了灰度層面的比較,而忽視了顏色層面的比較,對(duì)于本文實(shí)驗(yàn)的評(píng)價(jià)具有一定的片面性。此外,由于本文算法的融合圖像關(guān)注于融合紅外圖像中的顯著目標(biāo)信息,而盡可能減少融合紅外圖像中的無(wú)效信息,因此相對(duì)于其他平均融合兩類源圖像的融合方法,本文算法的融合圖像在和紅外圖像的相關(guān)度上是低于其他融合圖像的,造成指標(biāo)值只能處于平均水平。但也表明了我們的融合方法在灰度層面的指標(biāo)評(píng)價(jià)也能達(dá)到目前先進(jìn)融合方法的水準(zhǔn)。其中SSIM,CC,PSNR三項(xiàng)值都在平均值以上,說(shuō)明本文的融合圖像在保留源圖像的結(jié)構(gòu)信息方面性能良好,具有更少的失真。
本文提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的可見(jiàn)光和紅外圖像融合方法,該方法不局限于灰度層面的融合,可以直接用于RGB三通道的可見(jiàn)光圖像和單通道紅外圖像的融合,是一種端到端的圖像融合模型。此外,在網(wǎng)絡(luò)中引入注意力模塊,使得融合圖像在維持可見(jiàn)光圖像中的背景信息的同時(shí),可以突出目標(biāo)信息,這有助于對(duì)低照度條件下的源圖像進(jìn)行融合,生成整體更干凈,偽影更少的融合圖像。通過(guò)在6項(xiàng)指標(biāo)上和其他融合方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明了本文提出的方法得到的融合圖像具有良好的融合性能和視覺(jué)效果。
[1] MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]., 2019, 45: 153-178.
[2] Burt P J, Adelson E H. The Laplacian pyramid as a compact image code[J]., 1987, 31(4): 671-679.
[3] Selesnick I W, Baraniuk R G, Kingsbury N C. The dual-tree complex wavelet transform[J]., 2005, 22(6): 123-151.
[4] A L da Cunha, J Zhou, M N Do. Nonsubsampled contourilet transform: filter design and applications in denoising[C]//2005, 749: (doi: 10.1109/ ICIP.2005.1529859).
[5] Hariharan H, Koschan A, Abidi M.The direct use of curvelets in multifocus fusion[C]//16(ICIP), 2009: 2185-2188(doi: 10.1109/ICIP.2009.5413840).
[6] LI Hui. Dense fuse: a fusion approach to infrared and visible images[C]//, 2018, 28: 2614- 2623(doi: 0.1109/TIP.2018.2887342).
[7] MA J, YU W, LIANG P, et al. Fusion GAN: a generative adversarial network for infrared and visible image fusion[J]., 2019, 48: 11-26.
[8] Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[C]//, 2015: 234-241.
[9] Hwang S, Park J, Kim N, et al. Multispectral pedestrian detection: Benchmark dataset and baseline[C]//, 2015: 1037-1045.
[10] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//, 2014: 2672-2680.
[11] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[J/OL] [2015-11-07]. arXiv preprint arXiv:1511.06434, 2015: https:// arxiv.org/abs/1511.06434v1.
[12] MAO X, LI Q, XIE H, et al. Least squares generative adversarial networks[C]//2017(ICCV), 2017: 2813-2821(doi: 10.1109/ICCV.2017.304).
[13] Isola Phillip, ZHU Junyan, ZHOU Tinghui, et al. Image-to-image translation with conditional adversarial networks, 2017: 5967-5976 (doi:10.1109/CVPR.2017.632).
[14] Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks [C]//, 2015: 2017-2025.
[15] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//, 2018: 7132-7141.
[16] Woo S, Park J, Lee J Y, et al. Cbam: convolutional block attention module[C]//(), 2018: 3-19.
A Visible and Infrared Image Fusion Method based on Generative Adversarial Networks and Attention Mechanism
LUO Di1,2,WANG Congqing1,2,ZHOU Yongjun2
(1.,210016,;2.,214000,)
A new fusion method for visible and infrared images based on generative adversarial networks is proposed to solve the problem of recognizing targets in low-light images; the method can be directly applied to the fusion of RGB three-channel visible images and infrared images. In generative adversarial networks, the generator adopts a U-Net structure with encoding and decoding layers. The discriminator adopts a Markovian discriminator, and the attention mechanism is introduced to force the fused image to pay more attention to the high-intensity information on infrared images. The experimental results show that the proposed method not only maintains the detailed texture information of visible images but also introduces the main target information of infrared images to generate fusion images with good visual effects and high target identification, and it performs well in information entropy, structural similarity, and other objective indexes.
image fusion, visible and infrared image, low-lightimage, generative adversarial networks, attention mechanism
TN753
A
1001-8891(2021)06-0566-09
2020-09-08;
2020-10-12.
羅迪(1995-),男,碩士研究生,主要研究方向:深度學(xué)習(xí)與無(wú)人機(jī)目標(biāo)檢測(cè)。E-mail:1366701808@qq.com。
周勇軍(1972),男,高級(jí)工程師,主要研究方向:近地面目標(biāo)探測(cè)技術(shù)。E-mail:478992155@qq.com。
近地面探測(cè)技術(shù)重點(diǎn)實(shí)驗(yàn)室基金資助項(xiàng)目(TCGZ2019A006)。