摘要:該文提出并優(yōu)化了一種基于深度神經(jīng)網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合算法,采用感知損失和對(duì)抗性訓(xùn)練兩種優(yōu)化策略。經(jīng)實(shí)驗(yàn)驗(yàn)證,優(yōu)化算法在圖像質(zhì)量上超越傳統(tǒng)方法。感知損失提高了融合圖像的清晰度和語(yǔ)義信息,對(duì)抗性訓(xùn)練增強(qiáng)了真實(shí)感和細(xì)節(jié)保留。這一研究為紅外與可見(jiàn)光圖像融合領(lǐng)域引入了先進(jìn)的深度學(xué)習(xí)方法,為相關(guān)領(lǐng)域的技術(shù)應(yīng)用提供了有力支持。
關(guān)鍵詞:圖像融合;深度神經(jīng)網(wǎng)絡(luò);感知損失;對(duì)抗性訓(xùn)練
doi:10.3969/J.ISSN.1672-7274.2024.10.012
中圖分類號(hào):TP 391.41 文獻(xiàn)標(biāo)志碼:B 文章編碼:1672-7274(2024)10-00-03
Research on Infrared and Visible Light Image Fusion Algorithm
Based on Deep Neural Networks
Abstract: This article proposes and optimizes an infrared and visible light image fusion algorithm based on deep neural networks, using two optimization strategies: perceptual loss and adversarial training. Through experimental verification, the optimization algorithm surpasses traditional methods in image quality. Perceived loss improves the clarity and semantic information of fused images, while adversarial training enhances realism and detail preservation. This study introduces advanced deep learning methods into the field of infrared and visible light image fusion, providing stxi4UZGpiK0aCgt4U9Fm82PlT0Xn27x8QSobKu1p8LQI=rong support for technical applications in related fields.
Keywords: image fusion; deep neural networks; perceived loss; adversarial training
1 研究背景
紅外與可見(jiàn)光圖像融合技術(shù)在軍事、醫(yī)療、環(huán)境監(jiān)測(cè)等領(lǐng)域有廣泛應(yīng)用。深度神經(jīng)網(wǎng)絡(luò)以其強(qiáng)大的特征學(xué)習(xí)能力和對(duì)復(fù)雜模式的高度抽象能力脫穎而出。在圖像融合中,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用有望提高圖像融合的準(zhǔn)確性和魯棒性[1]。
本文通過(guò)對(duì)融合算法進(jìn)行挑選,并且進(jìn)行針對(duì)性優(yōu)化,優(yōu)化方法涉及參數(shù)調(diào)整、數(shù)據(jù)增強(qiáng)、損失函數(shù)的改進(jìn)以及硬件加速的利用。通過(guò)實(shí)驗(yàn)與性能對(duì)比,本研究旨在驗(yàn)證優(yōu)化方法的有效性,并為深度神經(jīng)網(wǎng)絡(luò)在紅外與可見(jiàn)光圖像融合中的應(yīng)用提供實(shí)際指導(dǎo)。
2 圖像融合算法選擇與設(shè)計(jì)
過(guò)去的研究中,已經(jīng)提出了多種紅外與可見(jiàn)光圖像融合的算法,每種算法都有其獨(dú)特的優(yōu)缺點(diǎn)。深度神經(jīng)網(wǎng)絡(luò)在圖像融合領(lǐng)域的應(yīng)用呈現(xiàn)出日益增長(zhǎng)的趨勢(shì)[2]。一些典型的網(wǎng)絡(luò)結(jié)構(gòu)如UNet、FusionNet等,以其強(qiáng)大的特征提取和圖像重建能力成為研究熱點(diǎn)[3]。綜合考慮,本文選擇UNet作為基礎(chǔ)圖像融合算法的主要原因在于其卓越的性能在語(yǔ)義分割任務(wù)中得到了驗(yàn)證。
2.1 UNet網(wǎng)絡(luò)結(jié)構(gòu)
UNet的網(wǎng)絡(luò)架構(gòu)主要分為編碼器和解碼器兩個(gè)部分,組成U形結(jié)構(gòu),使其適用于圖像融合任務(wù)。
(1)編碼器(下采樣部分):在編碼器的每一層中的第i層的特征圖,首先對(duì)其進(jìn)行卷積操作(Convolution)以提取特征,然后進(jìn)行最大池化操作(Pooling)以降低分辨率。
式中,ReLU(Rectified Linear Unit)是一種激活函數(shù),用于神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元。ReLU激活函數(shù)的數(shù)學(xué)表達(dá)式簡(jiǎn)單來(lái)說(shuō),對(duì)于輸入x,如果x大于零,ReLU返回x;如果x小于或等于零,則返回零。從圖形上看,ReLU函數(shù)在x大于零時(shí)是一條直線,斜率為1;而在x小于等于零時(shí),函數(shù)值為零。
(2)解碼器(上采樣部分):解碼器的每一層包含上采樣、特征圖拼接和卷積操作。
式中,Concatenate表示將當(dāng)前解碼器層與對(duì)應(yīng)的編碼器層進(jìn)行通道拼接,通過(guò)卷積操作進(jìn)一步提取特征。上采樣通過(guò)插值方法將特征圖的分辨率提高,與低分辨率的編碼器特征進(jìn)行融合,從而保留更多的細(xì)節(jié)信息。通過(guò)層層堆疊和連接,UNet實(shí)現(xiàn)了對(duì)輸入圖像的逐層編碼和逐層解碼,保留了豐富的語(yǔ)義信息。
2.2 UNet在紅外與可見(jiàn)光圖像融合中的適應(yīng)性
2.2.1 通道融合機(jī)制
在通道融合階段,UNet通過(guò)通道拼接將編碼器和解碼器的特征圖結(jié)合起來(lái)。
式中,表示將編碼器和解碼器的特征圖進(jìn)行通道拼接;為權(quán)重矩陣;為偏置;為激活函數(shù)。通道融合機(jī)制有助于網(wǎng)絡(luò)更好地理解紅外與可見(jiàn)光圖像之間的相關(guān)性。
2.2.2 適應(yīng)性損失函數(shù)
適應(yīng)性損失函數(shù)是為了引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)編碼器和解碼器之間更適應(yīng)性的特征表示而設(shè)計(jì)的。在紅外與可見(jiàn)光圖像融合任務(wù)中,由于兩種圖像具有不同的傳感器特性和物理特性,學(xué)習(xí)如何適應(yīng)性地融合這兩者的信息是關(guān)鍵。
適應(yīng)性損失函數(shù)通過(guò)計(jì)算編碼器和解碼器各層特征圖之間的歐幾里得距離來(lái)量化它們之間的差異。設(shè)為編碼器的第i層特征圖,為解碼器的第i層特征圖,適應(yīng)性損失函數(shù)的表達(dá)式為
式中,表示歐幾里得距離,度量了編碼器和解碼器在第i層特征上的相似性。這個(gè)損失函數(shù)的目標(biāo)是最小化特征圖之間的差異,從而使網(wǎng)絡(luò)更好地適應(yīng)不同層次的信息。通過(guò)加入適應(yīng)性損失,網(wǎng)絡(luò)被迫學(xué)習(xí)更具適應(yīng)性的特征表示,有助于處理紅外與可見(jiàn)光圖像的差異,提升融合效果。
2.2.3 整體目標(biāo)函數(shù)
整體目標(biāo)函數(shù)綜合考慮了均方誤差損失和適應(yīng)性損失,以綜合性的方式引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)更好的圖像融合特征表示。
式中,為均方誤差損失函數(shù),該損失衡量了網(wǎng)絡(luò)生成圖像與真實(shí)圖像之間的差異,它促使網(wǎng)絡(luò)學(xué)習(xí)產(chǎn)生與真實(shí)圖像相似的融合結(jié)果。均方誤差損失的表達(dá)式為
式中,是真實(shí)的融合圖像;是網(wǎng)絡(luò)生成的融合圖像;和分別是圖像的高度和寬度。
整體目標(biāo)函數(shù)用于權(quán)衡均方誤差損失和適應(yīng)性損失,其中是一個(gè)用于平衡兩者重要性的超參數(shù)。整體目標(biāo)函數(shù)的最小化旨在使網(wǎng)絡(luò)在圖像融合任務(wù)中既能夠生成高質(zhì)量的融合圖像,又能夠?qū)W習(xí)適應(yīng)性更強(qiáng)的特征表示,以更好地處理紅外與可見(jiàn)光圖像的異質(zhì)性。
3 算法優(yōu)化方法
本文的主要優(yōu)化方法集中在改進(jìn)損失函數(shù)上。這一優(yōu)化方法同時(shí)服務(wù)于提高圖像融合質(zhì)量和減小計(jì)算復(fù)雜度的目標(biāo),通過(guò)更精細(xì)地約束網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程,提高算法的性能和實(shí)際應(yīng)用的效果。
3.1 引入感知損失
為了引入感知損失,本文在網(wǎng)絡(luò)中添加感知層,該層基于預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(如VGG16)中的中間層特征。感知損失衡量了生成圖像和真實(shí)圖像在感知層上的特征差zELX59TBc/Jy/zyE9G+/1w==異。具體而言,對(duì)于感知層上的每個(gè)位置,感知損失計(jì)算特征的歐幾里得距離表達(dá)式如下:
式中,和分別表示生成圖像和真實(shí)圖像在感知層上的特征表示。通過(guò)最小化感知損失,網(wǎng)絡(luò)被迫更加關(guān)注圖像的感知質(zhì)量,以更自然、真實(shí)地融合紅外與可見(jiàn)光圖像。
3.2 對(duì)抗性訓(xùn)練
對(duì)抗性訓(xùn)練引入了判別器網(wǎng)絡(luò),旨在使生成圖像和真實(shí)圖像在判別器層上難以區(qū)分。判別器的目標(biāo)是最小化真實(shí)圖像和生成圖像之間的差異,而生成器則追求最大程度地欺騙判別器。對(duì)抗性訓(xùn)練的損失函數(shù)表達(dá)式如下:
式中,表示判別器對(duì)真實(shí)圖像的判別概率;表示判別器對(duì)生成圖像的判別概率。通過(guò)最小化生成器和判別器之間的對(duì)抗性損失,網(wǎng)絡(luò)被迫學(xué)習(xí)生成更逼真、更真實(shí)的圖像,提高了生成圖像的質(zhì)量。這種對(duì)抗性訓(xùn)練機(jī)制有助于使生成圖像更符合真實(shí)圖像的分布,從而提升圖像融合效果。
4 算法實(shí)現(xiàn)及實(shí)驗(yàn)
4.1 優(yōu)化方法的引入
4.1.1 感知損失的引入
本文選擇一種主流深度學(xué)習(xí)框架TensorFlow,使用框架提供的API或自定義UNet網(wǎng)絡(luò)結(jié)構(gòu)。這段代碼實(shí)現(xiàn)了感知損失的引入,主要通過(guò)加載預(yù)訓(xùn)練的VGG16模型,選擇特定卷積層作為感知層,并計(jì)算生成圖像和真實(shí)圖像在這些感知層上的特征差異。
4.1.2 對(duì)抗性訓(xùn)練的引入
上述代碼段實(shí)現(xiàn)了對(duì)抗性訓(xùn)練中的對(duì)抗損失,其核心思想是通過(guò)訓(xùn)練生成器來(lái)生成更具迷惑性、更逼真的圖像,以欺騙判別器。
(1)構(gòu)建了一個(gè)判別器模型,其目標(biāo)是對(duì)輸入的圖像進(jìn)行二分類,將真實(shí)圖像判別為“真”(real)而將生成圖像判別為“假”(fake)。通過(guò)將判別器的可訓(xùn)練屬性設(shè)為不可訓(xùn)練,確保在對(duì)抗性訓(xùn)練中僅關(guān)注生成器的優(yōu)化。
(2)計(jì)算了生成圖像和真實(shí)圖像通過(guò)判別器后的預(yù)測(cè)結(jié)果,并使用二元交叉熵?fù)p失來(lái)量化生成圖像欺騙判別器的能力。生成圖像的對(duì)抗損失旨在使判別器更容易將其分類為“真”,而真實(shí)圖像的對(duì)抗損失則使判別器更容易將其分類為“真”。
(3)通過(guò)將兩者相加,形成了最終的對(duì)抗性訓(xùn)練損失,該損失用于生成器的訓(xùn)練過(guò)程,推動(dòng)生成器生成更逼真的圖像,以應(yīng)對(duì)判別器的分類挑戰(zhàn)。這一對(duì)抗性訓(xùn)練的機(jī)制有助于提升生成器的圖像生成能力。
4.2 對(duì)比實(shí)驗(yàn)
筆者進(jìn)行了四組對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)參數(shù)和數(shù)據(jù),如表1所示。
實(shí)驗(yàn)數(shù)據(jù)表明,引入感知損失和對(duì)抗性訓(xùn)練的算法配置相較于原算法在PSNR和SSIM上均表現(xiàn)更優(yōu)。同時(shí)引入這兩種優(yōu)化策略進(jìn)一步提高了圖像質(zhì)量,PSNR達(dá)到31.0 dB,SSIM達(dá)到0.95。
5 結(jié)束語(yǔ)
本文提出并優(yōu)化了一種紅外與可見(jiàn)光圖像融合算法,引入了感知損失和對(duì)抗性訓(xùn)練。實(shí)驗(yàn)證明,感知損失和對(duì)抗性訓(xùn)練的協(xié)同作用有效提高了融合圖像的清晰度、真實(shí)感和細(xì)節(jié)保留。該研究為紅外與可見(jiàn)光圖像融合領(lǐng)域提供了一種先進(jìn)的深度學(xué)習(xí)方法,可為相關(guān)應(yīng)用和技術(shù)的進(jìn)一步發(fā)展提供參考。
參考文獻(xiàn)
[1] 王欣雨,劉慧,朱積成,等.基于高低頻特征分解的深度多模態(tài)醫(yī)學(xué)圖像融合網(wǎng)絡(luò)[J].圖學(xué)學(xué)報(bào),2024(1):65-67.
[2] 徐慧琳,趙鑫,于波.一種基于梯度殘差網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合算法[J].寧夏師范學(xué)院學(xué)報(bào),2023,44(10):104-112.
[3] 王恩龍,李嘉偉,雷佳,等.基于深度學(xué)習(xí)的紅外可見(jiàn)光圖像融合綜述[J].計(jì)算機(jī)科學(xué)與探索2024,18(4):899-915.