馬得草,鮮勇,蘇娟,李少朋,李冰
(1 火箭軍工程大學(xué) 作戰(zhàn)保障學(xué)院, 西安 710025)
(2 火箭軍工程大學(xué) 核工程學(xué)院, 西安 710025)
利用可見光圖像得到對應(yīng)紅外圖像的方法,能夠有效解決紅外圖像在紅外制導(dǎo)、紅外對抗和紅外目標(biāo)識(shí)別任務(wù)中數(shù)據(jù)缺乏的問題。目前,采用紅外特性建模得到紅外仿真圖的方法,能夠有效仿真得到目標(biāo)的紅外輻射特性。但是,該方法的仿真過程需要進(jìn)行目標(biāo)材質(zhì)分類、分割等繁瑣的操作,并且仿真得到的紅外圖像缺乏紋理信息。因此,需要探索一種高效準(zhǔn)確的將可見光圖像轉(zhuǎn)換為對應(yīng)紅外圖像的新范式。
基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets, GAN)[1]的圖像生成技術(shù)為紅外圖像的生成提供了新的思路。特別地,Pix2Pix[2]和CycleGAN[3]為可見光圖像轉(zhuǎn)換為紅外圖像提供了通用網(wǎng)絡(luò)框架,在文獻(xiàn)[4-8]中均采用條件生成對抗網(wǎng)絡(luò)的方式生成了紅外圖像。其中,ThermalGAN[4]和LayerGAN[5]通過多模態(tài)數(shù)據(jù)生成紅外圖像。ThermalGAN 分兩步生成紅外圖像,首先用可見光圖像和溫度矢量生成目標(biāo)的平均溫度紅外圖像,然后用目標(biāo)的平均溫度紅外圖像和可見光圖像生成更加精細(xì)的紅外圖像。LayerGAN 包括兩種方式生成紅外圖像:一種方法是使用溫度矢量、語義分割圖像和熱分割圖像生成紅外圖像;另一種方法是使用可見光圖像、語義分割圖像和熱分割圖像生成紅外圖像。這兩種方法對數(shù)據(jù)要求高,需要多種模態(tài)的數(shù)據(jù),對于基于紅外圖像的行人重識(shí)別任務(wù)有著重要意義。文獻(xiàn)[6-8]算法僅將可見圖像作為輸入,輸出等效的紅外圖像。I-GANs[6]和Pix2pix-MRFFF[7]通過改進(jìn)生成網(wǎng)絡(luò)來改善紅外生成圖像的質(zhì)量,而InfraGAN[8]基于UNetGAN[9]的思路是通過改進(jìn)對抗網(wǎng)絡(luò)來提高紅外生成圖像的質(zhì)量。
本文針對現(xiàn)有方法生成的紅外圖像在不同程度上存在紋理不清晰、結(jié)構(gòu)缺失的問題,將可見圖像作為輸入,輸出等效的紅外圖像,通過改善生成網(wǎng)絡(luò)和對抗網(wǎng)絡(luò)來提高紅外生成圖像的質(zhì)量,基于ConvNext[10]設(shè)計(jì)生成網(wǎng)絡(luò)有效利用提取的可見光圖像的深層特征和淺層特征,對抗網(wǎng)絡(luò)通過對紅外生成圖像進(jìn)行特征統(tǒng)計(jì),對紅外生成圖像的灰度和結(jié)構(gòu)信息加以引導(dǎo),減弱對生成網(wǎng)絡(luò)的約束,從而釋放生成網(wǎng)絡(luò)更大的潛能。
本文提出的網(wǎng)絡(luò)是基于條件生成對抗網(wǎng)絡(luò)[11](Conditional Generative Adversarial Nets, CGAN)改進(jìn)而來的,由基于ConvNext 編碼解碼結(jié)構(gòu)的生成網(wǎng)絡(luò)和特征統(tǒng)計(jì)對抗網(wǎng)絡(luò)組成。其結(jié)構(gòu)如圖1 所示,生成網(wǎng)絡(luò)的解碼部分通過對編碼部分深層特征和底層特征的利用改善了紅外生成圖像的質(zhì)量,對抗網(wǎng)絡(luò)通過對圖像特征的一階特征統(tǒng)計(jì)量和二階特征統(tǒng)計(jì)量進(jìn)行損失計(jì)算得到GAN 損失,與L1 損失結(jié)合作為總的損失,最終生成了更為清晰的紅外圖像。
圖1 算法結(jié)構(gòu)Fig.1 Algorithm structure
生成網(wǎng)絡(luò)以256×256 大小的可見光圖像作為輸入,將其轉(zhuǎn)換為對應(yīng)的紅外圖像,結(jié)構(gòu)如圖2 所示。具體來講,生成網(wǎng)絡(luò)在編碼部分通過步長為4 和2 的卷積對可見光圖像進(jìn)行下采樣,通過卷積模塊提取可見光圖像的特征,如圖2(b)所示,最終使用在ImageNet 數(shù)據(jù)集上訓(xùn)練好的ConvNext_tiny 作為網(wǎng)絡(luò)的編碼器。在解碼部分,通過跳躍連接和殘差連接分別加強(qiáng)了對編碼部分提取的圖像底層特征和深層特征的利用。在上采樣過程中,通過上采樣模塊,如圖2(c)和(d)所示,重建出256×256 大小的紅外圖像。生成網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1 所示。
表1 生成網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1 Generative networks structure parameter
圖2 生成網(wǎng)絡(luò)Fig.2 Generative Networks
該生成網(wǎng)絡(luò)在編碼部分主要采用的卷積是7×7 的大卷積核,步長為1,填充為3,每個(gè)Stages 的卷積通道數(shù)借鑒Tranformer 的經(jīng)驗(yàn),如ConvNext_tiny 的通道數(shù)分別設(shè)為96、192、384 和768,且每個(gè)Stages 中堆疊的卷積模塊之比為3∶3∶9∶3。在解碼部分,主要采用具有相同結(jié)構(gòu)的上采用模塊,包括兩個(gè)1×1 卷積核的卷積和一個(gè)3×3 卷積核的反卷積。其中卷積主要用于對反卷積結(jié)果進(jìn)行微調(diào),反卷積主要用于擴(kuò)充圖像的尺寸,兩個(gè)殘差連接分別加強(qiáng)了編碼部分提取的特征和反卷積后結(jié)果的利用。
圖2(b)所示的卷積模塊采用了ConvNext 中的卷積模塊設(shè)計(jì),文獻(xiàn)[10]證明了這種模塊的設(shè)計(jì)方法在分類、檢測和分割方面的優(yōu)異表現(xiàn)。此外,文獻(xiàn)[12]表明ConvNext 可以像當(dāng)前最先進(jìn)的Transformer 一樣魯棒和可靠,甚至更加可靠。UNet 網(wǎng)絡(luò)及其變體主要關(guān)注于編碼部分和解碼部分之間的跳躍連接,注重對圖像底層特征的利用而缺少對圖像深層特征的關(guān)注。圖2(c)所示的上采樣模塊通過殘差連接加強(qiáng)了對編碼部分圖像深層特征的利用。具體過程如式(1)所示。此外,上采樣模塊融合了卷積模塊中一些有益的設(shè)計(jì),如采用更少的歸一化層,層歸一化(Layer Normalization, LN)替代批量歸一化(Batch Normalization,BN)等技巧。
式中,U(?)表示上采樣模塊操作,C(?)表示卷積模塊操作,D(?)表示采用轉(zhuǎn)置卷積進(jìn)行上采樣,F(xiàn)deep表示深層特征。最終上采樣的結(jié)果與編碼部分的底層特征進(jìn)行拼接,進(jìn)行下一步的上采樣。生成網(wǎng)絡(luò)一共進(jìn)行了5 次上采樣,最后一次上采樣采用圖2(d)所示的上采樣模塊,逐漸降低卷積的通道數(shù),平滑地生成圖像。
提出的對抗網(wǎng)絡(luò)稱為特征統(tǒng)計(jì)網(wǎng)絡(luò)(Statistical Feature Discriminator, SPatchGAN)是將一些常見的對抗網(wǎng)絡(luò)如PatchGAN[13]專注于圖像感受野特征的研究轉(zhuǎn)化為對圖像特征統(tǒng)計(jì)信息的研究,減小對生成網(wǎng)絡(luò)的約束,從而釋放生成網(wǎng)絡(luò)更大的潛能。統(tǒng)計(jì)特征網(wǎng)絡(luò)由特征提取層、特征計(jì)算部分和線性層組成,最后將圖像的特征統(tǒng)計(jì)量作為損失進(jìn)行監(jiān)督。結(jié)構(gòu)如圖3 所示。表2 中展示了對抗網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)。具體地,對抗網(wǎng)絡(luò)通過平均池化對圖像進(jìn)行降采樣,在圖像的三個(gè)不同尺度上通過相同結(jié)構(gòu)的卷積層進(jìn)行特征提取(表2 中Conv1~Conv5),然后進(jìn)行統(tǒng)計(jì)特征計(jì)算,最后通過線性層得出的損失相加得到總的損失。文獻(xiàn)[8]表明,L1 損失和基于結(jié)構(gòu)相似性(Structural Similarity Index Measure, SSIM)的損失結(jié)合可以有效地提高紅外生成圖像的質(zhì)量,其中評價(jià)指標(biāo)SSIM 由均值、標(biāo)準(zhǔn)差和協(xié)方差組成,即通過圖像一階信息和二階信息的結(jié)合構(gòu)建的。因此,選取圖像特征的一階統(tǒng)計(jì)量(均值)和二階統(tǒng)計(jì)量(標(biāo)準(zhǔn)差)作為損失監(jiān)督。
表2 對抗網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 2 Adversarial networks structure parameter
圖3 對抗網(wǎng)絡(luò)Fig.3 Adversarial networks
僅使用L1 損失和GAN 損失用于生成高質(zhì)量的紅外圖像,本文算法的損失函數(shù)表示為
式中,G?表示總的損失,?CGAN表示條件生成對抗網(wǎng)絡(luò)的損失,?L1表示L1 損失;E( ?)表示期望值,下標(biāo)x~Pdata表示x取自可見光圖像的數(shù)據(jù),下標(biāo)x,y~Pdata表示x取自可見光圖像及y取自x對應(yīng)的真實(shí)紅外圖像的數(shù)據(jù);λ表示L1 損失的權(quán)重,y表示標(biāo)簽信息(真實(shí)紅外圖像),D(x,y)表示判別器判斷真實(shí)數(shù)據(jù)是否真實(shí)的概率;G(x,z)表示生成器根據(jù)源域圖像x(可見光圖像)生成的目標(biāo)域圖像z(紅外圖像),D(x,G(x,z))表示判別器判斷生成數(shù)據(jù)G(x,z)是否真實(shí)的概率。
實(shí)驗(yàn)涉及3 個(gè)不同的數(shù)據(jù)集(VEDAI Dataset[14]、OSU Color-Thermal Dataset[15]和KAIST Dataset[16]),均由配準(zhǔn)好的可見光圖像和紅外圖像對組成。VEDAI 數(shù)據(jù)集采集的是2012年美國猶他州AGRC 衛(wèi)星的春季圖像,包含1 024×1 024(其中每個(gè)像素代表了12.5 cm×12.5 cm 的區(qū)域)和512×512(其中每個(gè)像素代表了25 cm×25 cm 的區(qū)域)兩種尺寸的圖像,紅外圖像為近紅外圖像。將VEDAI 數(shù)據(jù)集中512×512 尺寸的圖像裁剪為包含目標(biāo)的256×256 尺寸的圖像以適應(yīng)網(wǎng)絡(luò)輸入。其中,1 046 對用于訓(xùn)練,200 對用于測試。OSU 數(shù)據(jù)集常用于可見光圖像和紅外圖像的融合,其中紅外相機(jī)采用Raytheon PalmIR 250D,25 mm 的鏡頭,光學(xué)相機(jī)采用Sony TRV87 Handycam,采樣頻率為30 Hz,得到的圖像分辨率為320×240,最終拍攝得到的圖像采用單應(yīng)性矩陣和人工選點(diǎn)的方式進(jìn)行配準(zhǔn)。OSU 數(shù)據(jù)集的拍攝場景是美國俄亥俄州立大學(xué)校園內(nèi)繁忙的道路交叉口。OSU 數(shù)據(jù)集圖像被裁剪并放大為256×256 尺寸以適應(yīng)網(wǎng)絡(luò)輸入。因?yàn)樵摂?shù)據(jù)集得到的圖像場景單一,對該數(shù)據(jù)進(jìn)行了抽樣處理。最終,683 對圖像用于訓(xùn)練,170 對圖像用于測試。KAIST 數(shù)據(jù)集包含學(xué)校、街道和鄉(xiāng)村的各種日常交通場景,一般用于行人檢測,其中彩色相機(jī)是PointGrey Flea3,彩色圖像尺寸為640×480,紅外相機(jī)是FLIR-A35,紅外圖像尺寸為320×256,經(jīng)過相機(jī)標(biāo)定,最終得到640×512 尺寸的圖像對。實(shí)驗(yàn)中選擇KAIST 數(shù)據(jù)集中白天拍攝的圖像,并被縮放為256×256 尺寸以適應(yīng)網(wǎng)絡(luò)輸入。經(jīng)過抽樣處理,減少大量重復(fù)的圖像對,最終,5 008 對用于訓(xùn)練,1 239 對用于測試。
6 個(gè)客觀評價(jià)指標(biāo)用于評估生成圖像質(zhì)量,包括峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)[17]、結(jié)構(gòu)相似性(SSIM)、多尺度結(jié)構(gòu)相似性(Multi-scale Structural Similarity Index Measure, MS-SSIM)[18],學(xué)習(xí)感知圖像塊相似度 (Learned Perceptual Image Patch Similarity, LPIPS)[19]、 Fréhet Inception 距離(Fréchet Inception Distance, FID)[20]和灰度相似性。PSNR 和SSIM 通常一起用于評估圖像質(zhì)量。多尺度結(jié)構(gòu)相似性彌補(bǔ)了結(jié)構(gòu)相似性在圖像多尺度評價(jià)上的不足。LPIPS 測量兩個(gè)圖像特征向量之間的歐幾里得距離。為了計(jì)算指標(biāo),比較特征是從在ImageNet 上預(yù)訓(xùn)練的基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的主干中獲得的(實(shí)驗(yàn)中使用了AlexNet 網(wǎng)絡(luò)模型)。FID 是兩個(gè)圖像數(shù)據(jù)集之間相似性的度量,在本文被用于評估生成紅外圖像集和真實(shí)紅外圖像集的相似性,它被證明與人類對視覺質(zhì)量的判斷有很好的相關(guān)性,并且常用于評估生成對抗網(wǎng)絡(luò)樣本的質(zhì)量。灰度相關(guān)性是采用灰度相關(guān)匹配中常用的歸一化積相關(guān)算法中歸一化相關(guān)性(Normalized Cross Correlation,NCC)作為評價(jià)指標(biāo)。文獻(xiàn)[21]中證明了紅外圖像的灰度特征與溫度分布有著密切的關(guān)系,因而灰度相關(guān)性評價(jià)指標(biāo)可以在一定程度上表示溫度分布相關(guān)性。
所有實(shí)驗(yàn)均在Intel (R)Core (TM)i9-10980XE CPU 3GHz 和一塊NVIDIA RTX 3090 GPU 上運(yùn)行,采用的深度學(xué)習(xí)框架是Pytorch。提出的基于改進(jìn)的條件生成對抗網(wǎng)絡(luò)的紅外生成算法,使用了Adam 優(yōu)化器,其中β1和β2分別設(shè)置為0.5 和0.999。網(wǎng)絡(luò)訓(xùn)練共包含200 輪訓(xùn)練,以確保模型收斂。其中,生成網(wǎng)絡(luò)前100 輪訓(xùn)練的學(xué)習(xí)率固定在0.000 2,然后在剩余的100 輪訓(xùn)練中線性下降到0,對抗網(wǎng)絡(luò)前100 輪訓(xùn)練的學(xué)習(xí)率固定在0.000 002,然后在剩余的100 輪訓(xùn)練中線性下降到0。
在本文算法中,L1 損失和GAN 損失對于網(wǎng)絡(luò)的訓(xùn)練起著重要作用,設(shè)置λ 作為L1 損失的權(quán)重系數(shù)用于協(xié)調(diào)L1 損失和GAN 損失。L1 損失設(shè)置過大將導(dǎo)致對抗網(wǎng)絡(luò)不能有效工作,從而導(dǎo)致生成圖像缺乏紋理信息,不添加L1 損失或者L1 損失設(shè)置過小將導(dǎo)致網(wǎng)絡(luò)難以訓(xùn)練。圖4 表明當(dāng)λ取100 時(shí),SSIM、MSSSIM、PSNR、LPIPS、FID 和NCC 評價(jià)指標(biāo)均取得了最好值,因而將λ 設(shè)置為100。
圖4 評價(jià)指標(biāo)隨權(quán)重系數(shù)λ 的變化Fig.4 Change of evaluation metrics with the weight coefficient λ
為了驗(yàn)證本文方法的有效性,在VEDAI 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),Pix2Pix 作為基線模型分別驗(yàn)證了改進(jìn)的生成網(wǎng)絡(luò)和對抗網(wǎng)絡(luò)的效果,為了公平起見消融實(shí)驗(yàn)中生成網(wǎng)絡(luò)的編碼部分沒有加載預(yù)訓(xùn)練參數(shù),將特征統(tǒng)計(jì)對抗網(wǎng)絡(luò)(SPatchGAN)、無兩種殘差連接的上采樣模塊(Upsampling1)、僅有第2 種殘差連接的上采樣模塊(Upsampling2)、僅有第1 種殘差連接的上采樣模塊(Upsampling3)、有兩種殘差連接的上采樣模塊(Upsampling4)和Pix2Pix 模型生成結(jié)果進(jìn)行對比。主觀評價(jià)結(jié)果如圖5 所示,客觀評價(jià)結(jié)果如表3 所示。
表3 消融實(shí)驗(yàn)客觀對比結(jié)果Table 3 The objective comparison results of ablation experiment
圖5 消融實(shí)驗(yàn)主觀對比結(jié)果Fig.5 The subjective comparison results of ablation experiment
觀察圖5 的生成結(jié)果可以發(fā)現(xiàn),采用本文提出的統(tǒng)計(jì)特征對抗網(wǎng)絡(luò)生成的紅外圖像在圖像的灰度信息上保持較好(圖5(d)紅色框所示),原因在于本文對抗網(wǎng)絡(luò)中采用均值和標(biāo)準(zhǔn)差作為統(tǒng)計(jì)量,均值有助于引導(dǎo)圖像生成過程中灰度信息的保持,標(biāo)準(zhǔn)差有助于圖像生成過程中結(jié)構(gòu)的保持。這在文獻(xiàn)[22]中也得到了證明。圖5(e)~(h)中紅色框結(jié)果顯示了本文提出的上采樣模塊對于紅外圖像生成過程中的灰度真實(shí)性有較大的改善。
從表3 中的數(shù)據(jù)對比可以發(fā)現(xiàn),SPatchGAN 對MS-SSIM 的提升較大,這主要在于其相比PatchGAN 提取了生成圖像的多尺度特征,從不同尺度的角度分別約束了圖像的生成。從表3 中的第4 行至第7 行數(shù)據(jù)觀察可以發(fā)現(xiàn),提出的幾種上采樣模塊對5 種指標(biāo)的提升均有幫助,從4 種上采樣模塊的對比中可以看出上采樣模塊中第一種殘差連接的效果更加顯著(Upsampling3 的結(jié)果相比Upsampling2 的結(jié)果指標(biāo)提升更明顯),第一種殘差連接主要將編碼部分的深層特征傳入解碼部分,說明加強(qiáng)對生成網(wǎng)絡(luò)編碼部分提取圖像深層特征的利用有助于改善生成圖像的質(zhì)量。
為了驗(yàn)證本文方法的優(yōu)越性,在3 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,將本文方法與基于條件生成對抗網(wǎng)絡(luò)的紅外圖像生成算法Pix2Pix、ThermalGAN、I-GANs、InfraGAN 進(jìn)行對比實(shí)驗(yàn)。ThermalGAN 使用了可見光圖像和溫度矢量作為輸入,為了對比的公平,實(shí)驗(yàn)中的ThermalGAN 僅使用了可見光圖像作為輸入。InfraGAN 的輸入是512×512 大小的圖像,對InfraGAN 進(jìn)行了修改以適應(yīng)256×256 大小圖像的輸入。圖6展示了實(shí)驗(yàn)的主觀對比結(jié)果,表4 展示了客觀評價(jià)結(jié)果。
表4 不同算法的客觀實(shí)驗(yàn)結(jié)果對比Table 4 The objective experiment results comparison of different algorithms
圖6 不同算法的主觀實(shí)驗(yàn)結(jié)果對比Fig.6 The subjective experiment results comparison of different algorithms
圖6 中3 個(gè)數(shù)據(jù)集典型紅外圖像的生成結(jié)果表示5 種模型在VEDAI 數(shù)據(jù)集上的生成效果均較好,5 種模型在VEDAI 數(shù)據(jù)集上的生成結(jié)果主要體現(xiàn)在圖像的灰度信息差別上,從最終結(jié)果可以看出本文算法生成的紅外圖像灰度信息更加準(zhǔn)確。OSU 數(shù)據(jù)集場景較為單一,本文算法在OSU 數(shù)據(jù)集上對于微小物體有著更好的生成效果,細(xì)節(jié)更加分明。本文方法在KAIST 數(shù)據(jù)集上相比其他4 個(gè)模型,紅外生成圖像中的物體紋理更清晰,細(xì)節(jié)信息更豐富。
表4 數(shù)據(jù)表明本文方法在3 個(gè)不同數(shù)據(jù)集上有著最好的表現(xiàn),尤其在高分辨率的VEDAI 數(shù)據(jù)集上。從對比結(jié)果來看,隨著圖像分辨率的增加,算法的性能出現(xiàn)了下降,這將在下一步研究中進(jìn)行解決。綜合主觀和客觀對比結(jié)果,本文算法的紅外生成圖像質(zhì)量優(yōu)于其他算法的生成結(jié)果。
表5 中展示了5 種算法的不同結(jié)構(gòu),本文算法僅使用L1 損失和GAN 損失對生成網(wǎng)絡(luò)進(jìn)行指導(dǎo),便取得了較好的紅外圖像生成效果。算法設(shè)計(jì)時(shí)沒有考慮網(wǎng)絡(luò)規(guī)模和訓(xùn)練耗時(shí)的因素,下一步將在網(wǎng)絡(luò)輕量化和減少網(wǎng)絡(luò)訓(xùn)練耗時(shí)方面進(jìn)行改善。
為了驗(yàn)證本文算法在可見光圖像與紅外圖像異源匹配方面的應(yīng)用價(jià)值,采用3 種經(jīng)典的傳統(tǒng)匹配算法和3 種較為先進(jìn)的基于深度學(xué)習(xí)的匹配算法進(jìn)行實(shí)驗(yàn)驗(yàn)證。傳統(tǒng)匹配算法分別是尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)算法、SURF(Speeded Up Robust Features)算法和ORB(Oriented FAST and Rotated BRIEF)算法,基于深度學(xué)習(xí)的匹配算法分別是D2-Net 算法[23]、SuperGlue 算法[24]和LoFTR 算法[25]。匹配實(shí)驗(yàn)結(jié)果采用匹配終點(diǎn)誤差(Matching end Point Error,EPE)進(jìn)行評價(jià),表示為
式中,n代表匹配成功的點(diǎn)數(shù),(xi,yi)代表特征點(diǎn)在目標(biāo)圖像上的位置,代表相應(yīng)特征點(diǎn)經(jīng)過真實(shí)單應(yīng)性矩陣轉(zhuǎn)換后的位置。所使用的數(shù)據(jù)集均是配準(zhǔn)好的圖像對,因此單應(yīng)性矩陣實(shí)際上是一個(gè)單位矩陣。
SIFT 算法是通過求一幅圖中的特征點(diǎn)及其有關(guān)尺度和方向的描述子得到特征,并進(jìn)行圖像特征點(diǎn)匹配。SIFT 所查找到的關(guān)鍵點(diǎn)是一些十分突出,不會(huì)因光照、仿射變換和噪音等因素而變化的點(diǎn)。SURF 算法是一種穩(wěn)健的局部特征點(diǎn)檢測和描述算法。SURF 的出現(xiàn)很大程度是對SIFT 算法的改進(jìn),用一種更為高效的方式改進(jìn)了特征的提取和描述方式。ORB 算法是一種快速特征點(diǎn)提取和描述的算法,其特征檢測是將FAST 特征點(diǎn)的檢測方法與BRIEF 特征描述子結(jié)合起來,并在它們原來的基礎(chǔ)上做了改進(jìn)與優(yōu)化。采用不同的傳統(tǒng)匹配算法(SIFT 算法、SURF 算法和ORB 算法)進(jìn)行圖像特征提取,之后用K 近鄰算法匹配特征點(diǎn),并用隨機(jī)采樣一致性算法剔除錯(cuò)誤的匹配點(diǎn)得到最終的匹配結(jié)果。特別地,由于算法限制,其中部分圖像無法匹配,因此在評價(jià)生成紅外圖像的傳統(tǒng)匹配算法結(jié)果時(shí),只計(jì)算了成功匹配圖像對的匹配終點(diǎn)誤差。
D2-Net[23]直接從特征描述子進(jìn)行關(guān)鍵特征檢測,將檢測放在處理的后期階段,從而獲得更穩(wěn)定的關(guān)鍵點(diǎn),解決了在困難的成像條件下找到可靠像素級(jí)匹配的問題。SuperGlue[24]提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的特征匹配算法,采用SuperPoint 提取特征點(diǎn)及描述符,通過求解可微分最優(yōu)化轉(zhuǎn)移問題實(shí)現(xiàn)特征匹配。LoFTR[25]是一種不依賴關(guān)鍵點(diǎn)檢測的端到端特征匹配方法,利用卷積神經(jīng)網(wǎng)絡(luò)初步提取特征,再利用Transformer 的全局注意力加強(qiáng)特征,可以較好地對低紋理圖片和相似區(qū)域進(jìn)行匹配。使用這3 種匹配算法時(shí),均采用它們提供的預(yù)訓(xùn)練權(quán)重進(jìn)行匹配實(shí)驗(yàn)。
為了驗(yàn)證本文算法在可見光圖像和紅外圖像異源匹配任務(wù)中的應(yīng)用價(jià)值,在3 個(gè)數(shù)據(jù)集上對生成的結(jié)果進(jìn)行了匹配實(shí)驗(yàn),分別對比了Pix2Pix、ThermalGAN、I-GANs、InfraGAN 和本文算法生成的紅外圖像與真實(shí)紅外圖像之間的匹配結(jié)果。此外,還添加了可見光圖像和紅外圖像的匹配實(shí)驗(yàn)作為對照。圖7 展示了6 種匹配方法在可見光圖像與紅外圖像之間的匹配結(jié)果,圖8 展示了6 種匹配方法在相同紅外圖像之間的匹配結(jié)果。表6 展示了6 種匹配方法的匹配終點(diǎn)誤差。
表6 6 種匹配算法的匹配終點(diǎn)誤差Table 6 EPE of six matching algorithms
圖7 6 種匹配算法在異源匹配中的表現(xiàn)Fig.7 Performance of six matching algorithms in heterogeneous matching
圖8 6 種匹配算法在紅外圖像匹配上的表現(xiàn)Fig.8 Performance of six matching algorithms in infrared image matching
圖7 和圖8 每組匹配圖像對中左側(cè)圖像為真實(shí)紅外圖像作為基準(zhǔn)圖像,右側(cè)為待匹配圖像。對比發(fā)現(xiàn),6 種算法在同源圖像的匹配上相比異源圖像提取的特征點(diǎn)更多且錯(cuò)誤匹配的情況更少。從圖7 可以發(fā)現(xiàn)基于深度學(xué)習(xí)的匹配算法相比傳統(tǒng)匹配算法在異源圖像的匹配上提取的特征點(diǎn)更多且誤匹配現(xiàn)象更少。特別地,傳統(tǒng)圖像匹配算法在異源圖像匹配過程中可能會(huì)出現(xiàn)失敗的現(xiàn)象,如圖7(c)KAIST 數(shù)據(jù)集上的結(jié)果所示。
從表6 的結(jié)果可以發(fā)現(xiàn),LoFTR 匹配算法在3 個(gè)數(shù)據(jù)集上表現(xiàn)最好。相比采用可見光圖像進(jìn)行匹配,利用圖像轉(zhuǎn)換算法將可見光圖像轉(zhuǎn)換的對應(yīng)紅外圖像進(jìn)行匹配,可以有效降低匹配終點(diǎn)誤差。對比表4 和表6的數(shù)據(jù)可以發(fā)現(xiàn),匹配終點(diǎn)誤差和6 種客觀評價(jià)指標(biāo)并不成嚴(yán)格的正比關(guān)系,但是具有正相關(guān)關(guān)系,即一般客觀評價(jià)指標(biāo)表現(xiàn)越好,相應(yīng)的匹配終點(diǎn)誤差也越小。從表4 和表6 的結(jié)果中可以發(fā)現(xiàn),本文算法不僅主客觀上表現(xiàn)較好,而且在匹配任務(wù)中也有著較好的表現(xiàn)。
本文提出了一種基于改進(jìn)的條件生成對抗網(wǎng)絡(luò)的可見光紅外圖像轉(zhuǎn)換算法,用于解決當(dāng)前典型紅外生成算法中生成圖像紋理細(xì)節(jié)信息差和結(jié)構(gòu)信息差的問題。該算法提出的生成網(wǎng)絡(luò)不僅注重對圖像底層特征的利用,而且加強(qiáng)了對圖像深層特征的利用。對抗網(wǎng)絡(luò)通過圖像特征的一階統(tǒng)計(jì)量(均值)來引導(dǎo)紅外圖像在生成過程中產(chǎn)生更加真實(shí)的灰度信息,通過圖像特征的二階統(tǒng)計(jì)量(標(biāo)準(zhǔn)差)來引導(dǎo)紅外圖像在生成過程中保持結(jié)構(gòu)信息。實(shí)驗(yàn)結(jié)果表明,所提算法生成了紋理細(xì)膩、結(jié)構(gòu)清晰的紅外圖像,并且生成的紅外圖像在可見光圖像與紅外圖像匹配方面有較好的應(yīng)用價(jià)值,適用于室外溫度相對固定情況下的可見光圖像和對應(yīng)紅外圖像的轉(zhuǎn)換。