国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于頻譜特征混合Transformer的紅外和可見光圖像融合

2024-11-04 00:00陳子昂黃珺樊凡
計算機應用研究 2024年9期

摘 要:為了解決傳統(tǒng)紅外與可見光圖像融合方法對細節(jié)與頻率信息表征能力不足、融合結果存在模糊偽影的問題,提出一種基于頻譜特征混合Transformer的紅外和可見光圖像融合算法。在Transformer的基礎上,利用傅里葉變換將圖像域特征映射到頻域,設計了一種新的復數(shù)Transformer來提取源圖像的深層頻域信息,并與圖像域特征進行混合,以此提高網(wǎng)絡對細節(jié)與頻率信息的表征能力。此外,在圖像重建前設計了一種新的令牌替換模塊,動態(tài)評估Transformer令牌的顯著性后對消除得分較低的令牌,防止融合圖像出現(xiàn)偽影。在MSRS數(shù)據(jù)集上進行的定性和定量實驗結果顯示,與九種最先進的算法相比,該算法具有較好的融合效果。

關鍵詞:圖像融合; Transformer; 頻譜特征; 紅外圖像; 可見光圖像

中圖分類號:TP391.41 文獻標志碼:A

文章編號:1001-3695(2024)09-043-2874-07

doi:10.19734/j.issn.1001-3695.2023.11.0599

Infrared and visible image fusion based on spectral feature hybrid Transformer

Chen Zi’ang, Huang Jun, Fan Fan

(Electronic Information School, Wuhan University, Wuhan 430072, China)

Abstract:Aiming at the problem of insufficient representation capability for details and frequency information in traditional infrared and visible image fusion methods, this paper proposed a fusion algorithm based on spectral feature hybrid Transformer. The algorithm utilized the Fourier transform to map image domain features to the frequency domain. Then the novel complex Transformer extracted deep-frequency information from the source images and mixed them with the features of the image domain to enhance the representation capability for edges and details. Additionally, the algorithm used a token replacement module to evaluate the saliency of Transformer tokens and eliminate the tokens with lower scores to prevent the presence of artifacts in the fused image. Qualitative and quantitative experiments conducted on the MSRS dataset demonstrated that the proposed algorithm exhibits superior fusion performance compared to nine state-of-the-art methods.

Key words:image fusion; Transformer; spectral feature; infrared image; visible image

0 引言

由于成像理論的限制,單一傳感器難以全面地捕獲場景信息,常需要多個模態(tài)的傳感器協(xié)同工作。紅外傳感器能捕捉場景中的熱輻射,可以輕易地檢測到場景中的熱目標,但其空間分辨率有限、受熱噪聲影響較大。可見光傳感器捕捉場景中的反射光,能記錄豐富的紋理和結構信息,但在低光條件下生成的圖像質量會顯著降低。它們的天然互補性質使得紅外與可見光雙模態(tài)傳感器在軍事偵察、安防監(jiān)控、自動駕駛等領域得到了廣泛應用[1]。紅外與可見光圖像融合的目標是整合兩種模態(tài)圖像的互補信息,生成一張紋理豐富、目標顯著的融合圖像,利于人眼觀察的同時,對目標檢測、語義分割等高級計算機視覺任務起到促進作用[2]。

在過去幾十年里已經出現(xiàn)了許多紅外和可見光圖像融合方法。它們可以被分為傳統(tǒng)方法[3,4]和基于深度學習的方法兩類。傳統(tǒng)方法利用傳統(tǒng)圖像處理技術或統(tǒng)計方法來建立融合框架。由于深度學習的快速發(fā)展,基于卷積神經網(wǎng)絡(con-volutional neural network,CNN)[5,6]、自編碼器(auto encoder,AE)[7,8]和生成對抗網(wǎng)絡(generative adversarial network,GAN)[9,10]的框架在圖像融合領域得到了廣泛的研究。近年來,Vision-Transformer[11]在計算機視覺領域取得了巨大的成功,一些學者也探索了其在圖像融合中的應用[12,13]?;贑NN的紅外與可見光融合算法大多采用CNN模塊替換傳統(tǒng)融合框架的一些部分。Xu等人[5]提出了一個名為U2Fusion的統(tǒng)一融合網(wǎng)絡,可以同時解決多種圖像融合任務。Zhang等人[6]設計了一個提取-分解網(wǎng)絡將梯度信息和亮度信息解耦并分別優(yōu)化。文獻[14]將特征編解碼和特征融合網(wǎng)絡分離開,采用兩階段方式進行訓練,充分發(fā)揮空間-通道注意力融合網(wǎng)絡的潛力。Wang等人[15]引入了一個多級配準網(wǎng)絡用于處理源圖像中的輕微誤匹配,并在此基礎上進行特征融合。由于圖像融合是一個無監(jiān)督任務,基于CNN的融合方法的性能強烈依賴于損失函數(shù)的特定設計。受傳統(tǒng)融合算法的啟發(fā),基于自編碼器的圖像融合方法使用編碼器和解碼器替代傳統(tǒng)的特征提取和重構函數(shù)。Li等人[16]探索了具有稠密連接的自編碼器[8]和多尺度嵌套連接的自編碼器,并嘗試使用可學習的融合網(wǎng)絡替換手工設計的融合規(guī)則來提高嵌套結構的性能[7]。Zhao等人[17]將圖像分解為背景和細節(jié)特征圖,然后通過自編碼器網(wǎng)絡將它們合并成一幅融合圖像。生成對抗網(wǎng)絡架構在無監(jiān)督視覺任務中也展現(xiàn)出了強大的潛力。Ma等人[9]首次將生成器和鑒別器之間的對抗訓練引入圖像融合領域。GANMcC[18]借助多類別鑒別器來維持兩種分布的平衡。Liu等人[10]提出了一種面向目標的對抗學習網(wǎng)絡TarDAL,可以在實現(xiàn)融合的同時促進目標檢測任務。

自2020年Dosovitskiy等人[11]成功將Transformer應用到計算機視覺領域以來,Transformer在目標檢測[19]、跟蹤[20]等視覺任務中都取得了巨大成功。由于Transformer具有強大的長程建模能力,近年來也已出現(xiàn)基于Transformer的圖像融合方法。Rao等人[12]將Transformer模塊與對抗學習相結合,設計了空間和通道Transformer以關注不同維度的依賴關系。Tang等人[13]設計了一個包含CNN和動態(tài)Transformer的Y型網(wǎng)絡,能同時融合局部特征和上下文信息。

雖然以上算法都實現(xiàn)了圖像融合的基本功能,但其中還存在兩個被忽視的問題。a)現(xiàn)有方法對細節(jié)與頻率信息的表征能力仍存在不足,在一些可見光紋理變化迅速的區(qū)域,融合結果會被紅外噪聲污染而導致失真。許多研究表明,自然圖像的特性可以很容易地用傅里葉頻譜來捕捉。圖像傅里葉變換后的幅度譜能描述各個方向上重復結構出現(xiàn)的強度,而局部相位能提供物體在形狀、邊緣和方向上的詳細信息[21]。但結合傅里葉變換的復數(shù)域Transformer在紅外與可見光圖像融合中的應用還尚未被探索。b)在特征融合階段,現(xiàn)有算法僅考慮了顯著特征的整合,卻忽略了源圖像中有害信息的去除。導致一些算法的融合結果中存在模糊或偽影。在圖1所示的場景下,由于光照不足,可見光圖像無法提供關于行人目標的任何有效信息,導致FusionGAN[9]、UMF-CMGR[15]和YDTR[13]的融合結果出現(xiàn)了熱目標模糊或暗淡的問題。除此之外,受紅外熱噪聲的影響,F(xiàn)usionGAN和UMF-CMGR的融合結果在綠色框所示區(qū)域出現(xiàn)了較嚴重的偽影。

為了解決上述問題,本文提出了一種基于頻譜特征混合Transformer的紅外和可見光圖像融合算法,稱為FTMNet。與傳統(tǒng)的Transformer架構不同,F(xiàn)TMNet在多頭自注意力結構的基礎上增加傅里葉變換及其反變換的復數(shù)通路,并將圖像域和頻域的令牌(token)進行混合。復數(shù)操作并不等同于簡單的雙維實值操作,而是通過實部和虛部之間的相互作用編碼了具有正則化效應的隱式連接。由于復數(shù)表征的冗余性,復數(shù)網(wǎng)絡具有更好的泛化能力和信息提取能力[22]。對于圖像融合任務來說,增強細節(jié)與頻率信息能讓融合圖像的邊緣與紋理清晰度提高,故可以通過給網(wǎng)絡補充復數(shù)頻譜信息的方式達到此目的。此外,在融合兩模態(tài)的深度特征之前,設計了令牌替換機制對兩個模態(tài)中顯著性較低的令牌進行替換,以消除源圖像中包含的潛在有害信息,提高融合圖像的信息量。從圖1可以看出,F(xiàn)TMNet生成的融合圖像紅外目標清晰,對比度高,且在背景區(qū)域克服了偽影的問題。本文貢獻可以總結如下:

a)提出了一種用于紅外和可見光圖像融合的頻譜特征混合Transformer,設計了復數(shù)通路將傅里葉頻譜信息引入特征提取網(wǎng)絡,有效地提高了方法對細節(jié)與頻率信息的表征能力。

b)設計令牌替換機制,動態(tài)評估令牌信息的顯著性得分并替換低分令牌,消除圖像源中包含的無效信息,減少融合結果中的噪聲和偽影。

c)主觀與客觀實驗證明了本文方法相對于先進的對比算法具有優(yōu)勢。目標檢測實驗驗證了本文方法能夠有效地促進高級計算機視覺任務。

1 視覺Transformer

2017年,Vaswani等人[23]首次提出了Transformer的概念,采用了多頭自注意力(multi-head self-attention, MSA)機制來捕捉自然語言處理(natural language processing, NLP)中的長距離依賴關系。自此,Transformer在NLP領域取得了廣泛的應用。Dosovitskiy等人[11]成功將Transformer應用到計算機視覺領域,稱為視覺Transformer(vision Transformer,ViT)。為了適應Transformer編碼器的輸入要求,ViT將圖像分割為16×16的小塊,經過線性變換和位置信息嵌入后形成一個圖像塊序列,再將這個圖像塊序列像NLP中的詞序列一樣輸入Transformer網(wǎng)絡執(zhí)行目標檢測。由于其強大的全局上下文特征探索能力,研究者對ViT進行了各種改進以適應其他計算機視覺任務。Wang等人[24]設計了金字塔結構的視覺Transformer(PVT)以增強特征提取能力,同時引入了空間歸約注意力機制以減少深度網(wǎng)絡引起的計算成本。除了網(wǎng)絡結構的探索,研究人員還致力于提高Transformer的計算效率。Xie等人[25]提出了一種具有輕量級MLP解碼器的分割框架。通過去除位置編碼,該方法避免了由于位置編碼的插值而引起的性能退化。在目標檢測領域,MSG-Transformer提出了一種信使令牌,用于提取本地窗口的信息并實現(xiàn)跨區(qū)域信息交換,從而滿足檢測跨越多個窗口的大型目標的需要[26]。Wang等人[27]提出了一種名為TokenFusion的多模態(tài)特征對齊和融合方法,該方法動態(tài)識別并替換不具信息的令牌,進而對跨模態(tài)特征進行聚合。

視覺Transformer的結構可以被分為編碼器和解碼器兩部分,編碼器和解碼器都由多個Transformer塊組成。編碼器中的Transformer塊通常執(zhí)行特征降維和提取,而解碼器中的Transformer塊通常執(zhí)行特征升維和恢復。在圖像輸入網(wǎng)絡之前,首先要通過分塊嵌入層將它切分為小塊,并通過線性變換轉換為特征令牌,記為X=linear(crop(I))。其中I為原始圖像,linear為線性變換。對于每個Transformer塊來說,輸入令牌通過三個可學習的線性變換被分解為query(Q)、key(K)和value(V)三個向量。隨后,為了捕獲像素間的長距離依賴,可通過式(1)計算自注意力權重。

3 實驗

3.1 實驗配置

3.1.1 數(shù)據(jù)集

實驗在MSRS數(shù)據(jù)集上進行。MSRS數(shù)據(jù)集[29]提供了1 444對已配準的紅外和可見光圖像。數(shù)據(jù)已經被創(chuàng)建者分為訓練集和測試集,分別包含1 083和361對圖像。其中的80個樣本還具有車輛和行人的檢測標簽。

3.1.2 訓練細節(jié)

在輸入端,本文將640×480×3的RGB可見光圖像轉換到YCbCr色彩空間,并將Y通道歸一化到[0,1]作為網(wǎng)絡的輸入。紅外圖像是單通道的灰度圖,所以無須進行色彩轉換,經歸一化后直接輸入網(wǎng)絡。在輸出端,本文再將單通道的融合結果與可見光的Cb、Cr色彩通道結合,反變換得到RGB彩色圖像。本文采用Python語言和PyTorch平臺對所提深度學習網(wǎng)絡進行實現(xiàn)。所有的實驗都在NVIDIA TITAN RTX GPU和3.50 GHz Intel Core i9-9920X CPU上進行,CUDA版本為10.1,PyTorch版本為1.7.1,圖像預處理和后處理采用OpenCV 3.4.2實現(xiàn)。訓練的batch size設為1,epoch設為160。參數(shù)由Adam優(yōu)化器進行更新,學習率為2×10-4。本文模型的超參數(shù)包括消除閾值θ以及損失函數(shù)中的平衡參數(shù)。實驗中λ=0.2,α=10,β=1,θ=0.02。

3.1.3 評估指標

為了客觀地評估融合性能,本文采用了熵(EN)、空間頻率(SF)、標準差(SD)、平均梯度(AG)、差異相關性和(SCD)和視覺信息保真度(VIF)六種指標[30]。EN源自信息論,用于衡量信息量, 屬于基于信息熵的指標。SD反映了像素分布的離散程度,SF和AG分別用于衡量圖像的頻率和梯度信息的豐富度,它們屬于基于圖像特征的指標。SCD是一種基于相關的指標,利用融合圖像與源圖像之間的差異來評估融合方法傳遞的互補信息量。VIF是一種基于自然場景統(tǒng)計理論的高級圖像融合質量指標,用于衡量視覺保真度,屬于基于人類感知的指標。這些指標在評估融合圖像質量時具有互補性,可以從多個方面提供有關融合圖像細節(jié)、對比度、視覺保真度等方面的信息,所有上述指標都是正向指標。

3.1.4 對比算法

本文選擇了近年來的9種方法進行定性和定量比較。其中GTF[3]是傳統(tǒng)方法;DenseFuse[8]、DIDFuse[17]、RFN-Nest[7]、SDNet[6]、U2Fusion[5] 和 UMF-CMGR[15] 基于CNN設計;FusionGAN[9]采用了GAN結構;YDTR[13]是基于Transformer的方法。對比實驗中的9種對比算法均通過開源的代碼和算法模型獲取它們的融合圖像。

3.2 MSRS數(shù)據(jù)集上的對比實驗

3.2.1 定性比較

為了直觀評估本文方法和對比算法的融合性能,本文展示各算法在四個典型場景下的融合結果,如圖6~9所示。

在每幅圖中,用紅色框突出顯示熱目標區(qū)域,用綠色框突出顯示包含豐富紋理的區(qū)域。在圖6中,只有DensFuse和本文方法能同時保留紅色框中的行人及其背后車輛的亮度。而在綠色框標記的密集地磚區(qū)域,只有本文方法能很好地保留該重復結構,其他算法則出現(xiàn)了不同程度的模糊。一方面,本文設計的頻譜特征混合網(wǎng)絡能提取頻率特征,對地磚的重復結構具備更強的表征能力。另一方面,紅外圖像在該區(qū)域信息量極低,本文的令牌替換模塊會丟棄這部分信息并用可見光的令牌將其替換,故FTMNet能提高融合圖像的信息量,進而取得更好的視覺效果。圖7 展示了一個白天的場景??梢园l(fā)現(xiàn),GTF、FusionGAN和RFN-Nest在紅外目標周圍出現(xiàn)了明顯的模糊和偽影。雖然SDNet的結果中的紅外目標亮度最為突出,但它在背景區(qū)域的色彩失真嚴重影響了視覺效果。FTMNet在保證紅外目標顯著性的同時能在綠色框標記的區(qū)域取得最強的對比度。由于細節(jié)與頻率信息的增強,對應融合圖像的邊緣與紋理清晰度的提高,所以在該場景下地面裂紋清晰可見,沒有受到紅外噪聲污染。在較黑暗的場景00726N中,F(xiàn)TMNet能更好地保持車輛區(qū)域的對比度。在圖9所展示的場景下,F(xiàn)TMNet融合結果中的行人目標不僅亮度最高,還具備自然的色彩,沒有出現(xiàn)模糊或失真。此外,在綠色框所標識的區(qū)域,背景樹木的紋理細節(jié)清晰,和可見光圖像的觀感一致。通過無效令牌的消除,本文模型可以動態(tài)評估兩種模態(tài)特征的重要性,進而消除源圖像中包含的潛在有害信息。因此,本文融合結果中不會出現(xiàn)顏色失真、熱目標暗淡和紋理模糊等常見問題。

3.2.2 定量比較

在MSRS數(shù)據(jù)集上的定量指標比較結果如表1所示,表中數(shù)值是在全部361張測試數(shù)據(jù)上的平均值。本文方法在EN、SF、SD、AG指標上獲得第一,在SCD指標上取得第二,在VIF指標上取得第三。EN的優(yōu)勢代表了本文方法的融合結果能保留最大的信息量。SD的優(yōu)勢表明融合結果的像素離散程度最高。最高的AG說明融合結果的梯度信息豐富,紋理清晰。值得一提的是,本文方法在SF上取得了較明顯的優(yōu)勢,超越第二名20%,相比最差的方法提升了252%。這與本文理論分析一致,因為本文方法引入了傅里葉變換并設計了復數(shù)通路來補充頻率信息,所以融合結果的空間頻率得到了大幅提高。在VIF指標上,本文方法落后第一名0.08。得益于DenseFuse和RFN-Nest在網(wǎng)絡中引入的稠密連接和多尺度嵌套連接,其方法的視覺保真度更高。在SCD指標上,本文方法以0.007的微弱優(yōu)勢落后于RFN-Nest,意味著本文方法從源數(shù)據(jù)中轉移的信息占比較高,對融合圖像的噪聲和偽影有一定抑制效果。總的來說,F(xiàn)TMNet的客觀指標具有較強的競爭力。

3.3 運行效率

圖像融合的后續(xù)計算機視覺應用對實時性能有很高的需求,例如目標檢測和目標跟蹤。運行效率是評估圖像融合方法優(yōu)劣的一個關鍵指標。本文從模型參數(shù)量、浮點運算次數(shù)(FLOPs)和運行時間三個角度評估算法的時間復雜度和空間復雜度。除了GTF是傳統(tǒng)算法以外,其他所有深度學習算法都經過GPU加速。

評估在MSRS數(shù)據(jù)集上進行,輸入圖像的尺寸為640×480。評估結果總結在表2中。本文方法具有最小的FLOPs,但在執(zhí)行速度方面僅排名第三。SDNet算法的運行速度最快,達到了實時應用的要求。由于本文方法設計了頻譜特征混合網(wǎng)絡,在復數(shù)運算相關的部分運算量都為原本的兩倍,所以實時性沒有達到最優(yōu)。此外,通過進一步探究發(fā)現(xiàn),式(8)(9)中與令牌替換策略相關的令牌索引尋址和令牌替換操作耗時較長。如果禁用替換過程,平均運行時間將減少到0.040。這表明與令牌替換的時間成本不容忽視,運行效率仍有優(yōu)化的空間。

3.4 目標檢測性能

本節(jié)探究FTMNet在高級計算機視覺任務中的積極作用。配合MSRS數(shù)據(jù)集中的目標檢測標簽,本文采用流行的檢測模型YOLOv7對不同圖像融合算法的紅外、可見光和融合圖像進行檢測。如圖10所示,該場景包含一個行人和兩輛汽車,其中有一輛汽車在圖像中較小且距離較遠。由于模態(tài)的限制,單憑紅外或可見光圖像都無法識別出全部目標。然而,DenseFuse、RFN-Nest、U2Fusion、YDTR和FTMNet的融合結果可以有效促進目標檢測任務,同時檢測出三個目標。圖11展示了一個白天的場景。可以看出,只有FTMNet能檢測出遠處的兩個小目標??偟膩碚f,大多數(shù)算法生成的融合圖像都能取得比單張紅外或可見光圖像更好的檢測效果,這證明了圖像融合是有意義的,且本文方法能對高級計算機視覺任務起到較好的促進作用。

3.5 消融實驗

本文方法的有效性主要依賴于頻譜特征混合網(wǎng)絡中的復數(shù)通路和令牌替換策略。本文進行了一系列消融實驗來驗證特定設計的有效性。定性結果展示在圖12中,定量評估結果報告在表3中。

3.5.1 復數(shù)通路的消融實驗

本文去除了頻譜特征混合網(wǎng)絡中的復數(shù)通路,不再執(zhí)行FFT和IFFT,同時將所有復數(shù)層用普通的層替換,只保留原始的多頭注意力和前饋網(wǎng)絡。如圖12(c)所示,融合結果在紅外目標附近出現(xiàn)了較明顯的模糊,這是因為去除了復數(shù)通路后頻率信息捕獲能力不足,導致梯度變化較大的位置無法重現(xiàn)紅外圖像的銳利邊緣。完整模型的SCD比去除復數(shù)通路后的模型略低,這是因為SCD衡量的是融合圖像與源圖像的差異,而復數(shù)通路為模型補充了額外的細節(jié)和頻率信息,導致融合圖像中的信息并不完全忠于源圖像。去除復數(shù)通路后模型的參數(shù)量降低約30%,浮點運算量大幅下降,這是因為本文在頻譜特征混合網(wǎng)絡中引入的復數(shù)運算計算量為普通運算的兩倍。綜合來看,完整模型犧牲了運行效率,但主觀和客觀表現(xiàn)都是最佳的。

3.5.2 令牌替換的消融實驗

本文關閉令牌替換過程,直接將Tlir和Tlvi的加和送入重建模塊。可以發(fā)現(xiàn),關閉令牌替換后有害信息無法被去除,融合結果中的紅外目標亮度不如完整的模型,同時可見光紋理也出現(xiàn)對比度降低的情況。關閉令牌替換后的模型VIF略高于完整模型,但絕對差距僅有0.012,相對差距為1.7%,可認為是訓練中的隨機性導致。令牌替換策略相關的令牌索引尋址和令牌替換操作耗時較長,但這些操作不屬于浮點運算,故size和FLOPs沒有變化。

3.5.3 損失函數(shù)的消融實驗

去除替換損失后的模型表現(xiàn)出更高的EN,這是因為去除替換損失后網(wǎng)絡執(zhí)行令牌交換的頻率降低,而令牌替換在執(zhí)行時會將網(wǎng)絡認為的無效信息用對立模態(tài)的信息覆蓋,該覆蓋操作會在一定程度上降低數(shù)據(jù)通路中的總信息量,導致信息熵EN略微下降。雖然去除替換損失后EN指標更高,但其余指標都低于完整模型。

4 結束語

本文提出了一種基于頻譜特征混合Transformer的紅外和可見光圖像融合方法,名為FTMNet。通過引入傅里葉變換及其反變換的復數(shù)通路,給網(wǎng)絡補充復數(shù)頻譜信息,提高了算法對細節(jié)和頻率信息的表征能力。此外設計了令牌替換機制對紅外與可見光模態(tài)中顯著性較低的令牌進行替換,從而消除圖像中包含的潛在有害信息,防止融合圖像中出現(xiàn)模糊和偽影。實驗證明了本文方法在視覺效果、客觀指標和運行效率上都具有一定的優(yōu)越性。此外,目標檢測實驗表明FTMNet的融合結果對高級視覺任務有促進作用。

參考文獻:

[1]Zhang Hao, Xu Han, Tian Xin, et al. Image fusion meets deep learning: a survey and perspective[J]. Information Fusion, 2021, 76: 323-336.

[2]Tang Linfeng, Yuan Jiteng, Ma Jiayi. Image fusion in the loop of high-level vision tasks: a semantic-aware real-time infrared and visible image fusion network[J]. Information Fusion, 2022, 82: 28-42.

[3]Ma Jiayi, Chen Chen, Li Chang, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]. Information Fusion, 2016, 31: 100-109.

[4]周怡, 馬佳義, 黃珺. 基于互導濾波和顯著性映射的紅外可見光圖像融合[J]. 遙感技術與應用, 2021, 35(6): 1404-1413. (Zhou Yi, Ma Jiayi, Huang Jun. Infrared and visible image fusion based on mutual conductivity filtering and saliency mapping[J]. Remote Sensing Technology and Application, 2021, 35(6): 1404-1413.)

[5]Xu Han, Ma Jiayi, Jiang Junjun, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2020, 44(1): 502-518.

[6]Zhang Hao, Ma Jiayi. SDNet: a versatile squeeze-and-decomposition network for real-time image fusion[J]. International Journal of Computer Vision, 2021, 129: 2761-2785.

[7]Li Hui, Wu Xiaojun, Kittler J. RFN-Nest: an end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86.

[8]Li Hui, Wu Xiaojun. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Trans on Image Processing, 2018, 28(5): 2614-2623.

[9]Ma Jiayi, Yu Wei, Liang Pengwei, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26.

[10]Liu Jinyuan, Fan Xin, Huang Zhanbo, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5792-5801.

[11]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.

[12]Rao Dongyu, Xu Tianyang, Wu X J. TGFuse: an infrared and visible image fusion approach based on transformer and generative adversarial network[J/OL]. IEEE Trans on Image Processing. (2023-05-10). http://doi.org/10.1109/tip.2023.3273451.

[13]Tang Wei, He Fazhi, Liu Yu. YDTR: infrared and visible image fusion via Y-shape dynamic Transformer[J]. IEEE Trans on Multimedia, 2023, 25: 5413-5428.

[14]陳伊涵, 鄭茜穎. 基于注意力機制的紅外與可見光圖像融合網(wǎng)絡[J]. 計算機應用研究, 2022,39(5): 1569-1572,1585. (Chen Yihan, Zheng Qianying. Infrared and visible image fusion network based on attention mechanism[J]. Application Research of Computers, 2022, 39(5): 1569-1572,1585.)

[15]Wang Di, Liu Jinyuan, Fan Xin, et al. Unsupervised misaligned infrared and visible image fusion via cross-modality image generation and registration[C]//Proc of the 31st International Joint Conference on Artificial Intelligence. 2022: 3508-3515.

[16]Li Hui, Wu Xiaojun, Durrani T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Trans on Instrumentation and Measurement, 2020, 69(12): 9645-9656.

[17]Zhao Zixiang, Xu Shuang, Zhang Chunxia, et al. DIDFuse: deep image decomposition for infrared and visible image fusion[C]//Proc of the 29th International Joint Conference on Artificial Intelligence. 2020: 970-976.

[18]Ma Jiayi, Zhang Hao, Shao Zhenfeng, et al. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Trans on Instrumentation and Measurement, 2021, 70: 1-14.

[19]Sun Zhiqing, Cao Shengcao, Yang Yiming, et al. Rethinking Transformer-based set prediction for object detection [C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 3591-3600.

[20]Lin Liting, Fan Heng, Zhang Zhipeng, et al. Swintrack: a simple and strong baseline for transformer tracking[J]. Advances in Neural Information Processing Systems, 2022, 35: 16743-16754.

[21]Oppenheim A V, Lim J S. The importance of phase in signals[J]. Proceedings of the IEEE, 1981, 69(5): 529-541.

[22]Danihelka I, Wayne G, Uria B, et al. Associative long short-term memory[C]//Proc of the 33rd International Conference on International Conference on Machine Learning.[S.l.]: JMLR.org, 2016: 1986-1994.

[23]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

[24]Wang Wenhai, Xie Enze, Li Xiang, et al. Pyramid vision Transfor-mer: a versatile backbone for dense prediction without convolutions[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 548-558.

[25]Xie Enze, Wang Wenhai, Yu Zhiding, et al. SegFormer: simple and efficient design for semantic segmentation with Transformers[C]//Proc of the 35th Conference on Neural Information Processing Systems. 2021: 12077-12090.

[26]Fang Jiemin, Xie Lingxi, Wang Xinggang, et al. MSG-Transformer: exchanging local spatial information by manipulating messenger tokens[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 12053-12062.

[27]Wang Yikai, Chen Xinghao, Cao Lele, et al. Multimodal token fusion for vision Transformers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 12176-12185.

[28]Quan Yuhui, Lin Peikang, Xu Yong, et al. Nonblind image deblurring via deep learning in complex field[J]. IEEE Trans on Neural Networks and Learning Systems, 2021, 33(10): 5387-5400.

[29]Tang Linfeng, Yuan Jiteng, Zhang Hao, et al. PIAFusion: a progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83: 79-92.

[30]唐霖峰, 張浩, 徐涵, 等. 基于深度學習的圖像融合方法綜述[J]. 中國圖象圖形學報, 2023, 28(1): 3-36. (Tang Linfeng, Zhang Hao, Xu Han, et al. Deep learning-based image fusion: a survey[J]. Journal of Image and Graphics, 2023, 28(1): 3-36.)

收稿日期:2023-11-24;修回日期:2024-01-17 基金項目:國家自然科學基金資助項目(62075169,62003247,62061160370);湖北省重點研發(fā)計劃項目(2021BBA235)

作者簡介:陳子昂(1999—),男,湖北武漢人,碩士,主要研究方向為圖像融合與計算機視覺;黃珺(1985—),男(通信作者),湖南祁陽人,教授,博士,主要研究方向為紅外圖像處理(junhwong@whu.edu.cn);樊凡(1989—),男,江西南昌人,副教授,博士,主要研究方向為紅外成像預處理與高光譜圖像預處理.