国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于殘差密集塊和自編碼網絡的紅外與可見光圖像融合

2021-11-09 10:34王建中徐浩楠王洪楓于子博
北京理工大學學報 2021年10期
關鍵詞:密集殘差紅外

王建中, 徐浩楠, 王洪楓, 于子博

(北京理工大學 機電學院,北京100081)

紅外圖像是紅外探測器通過捕捉物體的熱輻射信息生成的一種圖像,可在黑夜、煙霧、低照度、逆光、偽裝等復雜環(huán)境下使用,但紅外對目標的輪廓和紋理信息不敏感,其圖像分辨率低、對比度低、噪聲高. 可見光圖像能夠很好地保留輪廓和紋理信息,具有較高的清晰度和對比度,但容易受到環(huán)境因素的影響,不能全天候使用. 將二者進行融合是在復雜環(huán)境下獲得高質量圖像的一種有效手段,融合后的圖像魯棒性強,在目標檢測、目標跟蹤、圖像增強、遙感、醫(yī)療等領域有著廣泛的應用[1].

圖像融合經過了多年的發(fā)展,目前主要有多尺度變換[2]、稀疏表示[3]、神經網絡[4]、子空間[5]、混合模型[6]等融合方法. 近年來,隨著深度學習技術及其在目標檢測[7-8]、目標跟蹤、圖像分割等領域中的快速發(fā)展,基于深度學習的紅外與可見光圖像融合方法不斷被提出,因此有學者將現有方法分為傳統(tǒng)方法和基于深度學習的方法兩種類型[9]. 基于深度學習的端到端方法避免了傳統(tǒng)方法中需要手工設計融合算法和特征提取方法的問題,且在融合圖像的質量上相較于傳統(tǒng)算法也有所提升. 目前基于深度學習的紅外與可見光圖像融合方法主要包括基于生成對抗網絡的方法和基于自編碼網絡的方法,基于生成對抗網絡的方法利用生成器和鑒別器之間的不斷對抗來生成盡可能保留有更多原圖像信息的融合圖像,而基于自編碼網絡的方法則沿用了傳統(tǒng)方法中的分解、融合、重構的思想,通過設計和訓練由卷積神經網絡構成的編碼器和解碼器來得到融合圖像. 基于生成對抗網絡的代表性方法包括FusionGAN[10]、GANMcC[11]等. FusionGAN首次將生成對抗網絡引入到圖像融合中,是一種能夠較好地保留行人、車輛等目標信息的端到端模型,但它只將融合后的圖像與融合前的可見光圖像進行對比,丟失了紅外圖像中的一些信息. GANMcC采用了具有多分類的生成對抗網絡,相較于FusionGAN方法可以保留融合前圖像的更多信息. 基于自編碼網絡的代表性方法有Densefuse[12]、DIDFuse[13]等. Densefuse首次引入了自編碼網絡進行圖像分解和圖像重構,但它只是簡單地使用編碼器生成紅外圖像特征圖和可見光圖像特征圖,沒有做進一步的分解. DIDFuse則分別將紅外圖像和可見光圖像分解為背景特征圖和細節(jié)特征圖,但它的網絡結構相對簡單,不能有效地利用卷積神經網絡提取的特征信息,生成的融合圖像清晰度不高.

針對上述問題,本文提出一種基于殘差密集塊(residual dense block,RDB)和自編碼網絡的端到端融合方法,使用基于殘差密集塊設計的編碼器進行特征提取和圖像分解,并分別將紅外圖像和可見光圖像分解為包含環(huán)境信息的背景特征圖和包含目標信息的細節(jié)特征圖,然后將這兩種特征圖分別進行融合,輸入解碼器進行重構,得到最終的融合圖像. 實驗結果表明,與目前紅外與可見光圖像融合領域內具有代表性的FusionGAN、GANMcC、Densefuse、DIDFuse 4種方法相比,本文的方法在衡量紅外與可見光圖像融合質量的空間頻率(SF)、平均梯度(AG)、相關系數(CC)、差異相關和(SCD)、邊緣信息保留度(Qabf)、結構相似度(SSIM)6個評估指標上有不同程度的提升.

1 基于殘差密集塊的自編碼圖像融合網絡結構

在卷積神經網絡中,大多數卷積層的輸入都由上一層或上幾層的輸出構成,從而在上一層或上幾層的基礎上進行更深層次的卷積,提取出更深層次的特征. 然而,不同深度的卷積層提取出的特征圖所表征的信息并不相同,某一個卷積層的輸出并不能詳盡地描述圖像中各種尺度的特征,如果只是簡單地逐層連接,再使用最后一層輸出的特征圖來進行后續(xù)處理,就會丟失中間層的大多數特征信息. 目前大多數基于深度學習的圖像融合方法都只采用了幾個簡單的卷積層進行特征提取,過于簡單的網絡結構難以充分地提取圖像中的特征,并且大多數網絡選擇的逐層連接結構不利于特征信息的充分利用,難以避免中間層信息丟失的問題,而這個問題隨著網絡層數的增加會體現得越來越明顯.

ZHANG等[14]提出了圖1所示的殘差密集塊網絡,其每一層都與前面的所有卷積層相連接,使得每一層提取的特征信息都能得到充分利用,在輸入和輸出端采用了跳層連接的方式進行密集特征融合(dense feature fusion, DFF),加快了網絡在訓練中的收斂速度. 同時,密集連接和跳層連接的特點可以有效地改善網絡梯度彌散和梯度爆炸的問題,也有著減少過擬合的作用. 如果將多個殘差密集塊結構級聯(lián)起來,可以通過全局特征融合(global feature fusion, GFF)將各個殘差密集塊的輸入結合起來,使得網絡能夠更加充分、有效地提取特征.

圖1 殘差密集塊網絡結構Fig.1 Residual dense block network structure

本文基于上述殘差密集塊構建了一種自編碼圖像融合網絡結構,考慮到紅外圖像分辨率低、噪聲高,采用較深層的卷積容易引入噪聲,影響特征提取的效果,網絡中只采用了一個殘差密集塊. 網絡含有一個編碼器、一個解碼器以及一個融合層,如圖2所示. 其中,編碼器由一個包含4個卷積層的殘差密集塊,以及一個用于密集特征融合的1×1卷積層和2個用于將特征圖分解為背景特征圖和細節(jié)特征圖的卷積層組成,一共包含有7個卷積層;解碼器由4個卷積層組成. 所有卷積層的步長都為1,除了DFF層以外,其余所有卷積層的卷積核大小都為3×3、填充都為1,并且在每個卷積層后面會有一個BN層以優(yōu)化網絡梯度和防止過擬合. 每個卷積層中的卷積核大小、輸入、輸出通道數以及激活函數等參數如表1所示.

圖2 基于殘差密集塊的自編碼圖像融合網絡結構Fig.2 Self-encoding image fusion network structure based on residual dense block

表1 網絡結構參數

當紅外圖像I和可見光圖像V被輸入到網絡中,編碼器中的卷積層1到卷積層4會對它們進行一系列的密集特征提取,然后經由DFF層進行密集特征融合,融合后生成的特征圖會分別被卷積層5和卷積層6分解為含有環(huán)境信息的背景特征圖I1、V1和含有目標信息的細節(jié)特征圖I2、V2,之后再通過融合層將I1、V1和I2、V2進行融合. 融合后得到的特征圖F1和F2被輸入到編碼器中,先通過逐通道級聯(lián)的方式生成一個128通道的張量,再經過卷積層7到卷積層10的重構,生成最終的融合圖像F.

2 損失函數與網絡訓練

訓練的目的是讓編碼器擁有充分提取特征和分解圖像的能力、解碼器擁有盡可能完整地重構圖像的能力. 訓練過程中不采用融合層,融合層會在測試階段加入網絡,完成圖像融合. 訓練過程包括圖像分解和圖像重構兩個階段,圖像分解使用的損失函數為

L1=tanh(φ(V1-I1))-α1tanh(φ(V2-I2))

(1)

式中:I1,I2分別為紅外圖像的背景特征圖和細節(jié)特征圖;V1,V2分別為可見光圖像的背景特征圖和細節(jié)特征圖;φ為smoothL1函數;α1為自由參數. 使用tanh函數的目的是將輸出限制在-1到1之間,而smoothL1函數的作用是表征特征圖之間的差異.

圖像重構使用的損失函數為

(2)

融合層采用簡單有效、在自編碼網絡中能夠達到較好效果的相加策略[12],即

(3)

式中:F1,F2分別為融合后的背景特征圖和融合后的細節(jié)特征圖;⊕表示將2種特征圖逐元素相加.

采用RoadScene數據集[15]中的圖像進行訓練,該數據集從FLIR數據集中挑選了221對具有代表性的圖像進行了預處理和配準,包括道路、建筑、樹木、車輛、行人等目標和場景,訓練過程中所有圖像的尺寸都被調整到128×128[13],并且轉化為灰度圖,如圖3所示.

圖3 經過預處理和配準的圖像 Fig 3 Preprocessed and registered images

訓練在GeForce RTX 2080和Intel(R) Core(TM) i7-10700 CPU@2.90 GHz硬件上進行,軟件環(huán)境為pytorch1.8.1和CUDA11. 訓練中批尺寸設置為24,迭代次數設置為120,初始學習率為0.001,并分別在迭代的第41次和第81次開始調整為0.000 1和0 000 01. 損失函數中的α1設置為0.5,α2設置為2,α3設置為10. 從訓練得到的圖4

圖4 損失曲線Fig.4 Loss curve

所示損失曲線可以看出,損失函數的收斂比較平穩(wěn),在迭代40次之后損失已十分接近0,在之后下降幅度很小,說明網絡已經得到了充分訓練.

3 測試與結果分析

在圖像融合領域廣泛用于測試對比的TN0數據集和VOT2019-rgbtir數據集中挑選圖5所示的8對紅外和可見光圖像,利用已訓練好的網絡進行融合測試. 其中,1~4列為包含行人、車輛、建筑等正常場景的圖像,5~8列為模糊、遮擋、逆光和煙霧等特殊場景的圖像. 測試結果與Densefuse、DIDFuse、FusionGAN和GANMcC 4種方法對比,圖像融合效果如圖5所示,衡量融合質量的SF,AG,CC,SCD,Qabf,SSIM 6個評估指標如圖6所示.

圖5 圖像融合效果對比Fig.5 Comparison of image fusion effects

圖6 圖像融合質量評估指標對比Fig.6 Comparison of image fusion quality evaluation indicators

測試結果可以看出,本文方法得到的融合圖像清晰度和對比度較高,物體的輪廓較為明顯,對街道、建筑、車輛等目標能將紅外熱輻射信息和可見光的細節(jié)、紋理信息有效地融合起來,融合圖像有較高的清晰度和對比度. 對可見光圖像中不明顯的飛機、行人等目標也能有效地引入紅外信息,并且不會像其他算法那樣刻意地突出紅外目標,而是得到更加自然、符合人類視覺感受的融合圖像. 對于模糊、遮擋、逆光、煙霧等復雜環(huán)境圖像有良好的融合效果. 對于衡量融合質量的評估指標,SF和AG越高表示圖像的梯度、邊緣和紋理信息越多,圖像越清晰;CC和SCD越高表示融合圖像與原圖像的相關程度越高,即融合圖像引入了原圖像越多細節(jié)信息;Qabf越高表示融合圖像保留的原圖像中的邊緣信息越多;SSIM則是一個綜合指標,從圖像的亮度、對比度和與原圖像的相似度3個角度進行評價,SSIM越高意味著融合圖像的質量越高. 本文方法的融合質量評估指標均有不同程度的提升,具體表現為在SF、AG和Qabf 3個指標上明顯好于其他方法,在CC、SCD、SSIM 3個指標上略好于其他方法,特別是在表征圖像清晰度的SF、AG指標上都提升明顯,說明本文方法在融合圖像的清晰度上有著很大的優(yōu)勢.

4 結 論

提出了一種基于殘差密集塊和自編碼網絡的端到端的紅外與可見光圖像融合方法,將殘差密集塊引入自編碼網絡中的編碼器中,使得編碼器能夠充分地提取、利用特征信息,并按照圖像分解、特征融合、圖像重構的步驟來得到融合圖像,解決了傳統(tǒng)方法和目前大多數基于深度學習的圖像融合中存在的特征提取不充分、特征信息利用不完全和融合圖像清晰度低的問題. 在TNO和VOT2019-rgbtir公開數據集上的測試結果表明,本文方法能夠得到清晰度高、目標突出、輪廓明顯、符合人類視覺感受的融合圖像;與目前代表性融合方法相比,在SF、AG、CC、SCD、Qabf、SSIM 6個融合質量評估指標上均有不同程度的提升,特別是在融合圖像的清晰度上有明顯優(yōu)勢;對于模糊、遮擋、逆光、煙霧等復雜環(huán)境下的圖像均有良好的融合效果,具有較高的實用性.

猜你喜歡
密集殘差紅外
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
網紅外賣
用于處理不努力作答的標準化殘差系列方法和混合多層模型法的比較*
“資源一號”02衛(wèi)星可見近紅外相機、寬幅紅外相機在軌順利開機成像
融合上下文的殘差門卷積實體抽取
耕地保護政策密集出臺
密集恐懼癥
閃亮的中國紅外『芯』
基于殘差學習的自適應無人機目標跟蹤算法
湯定元:中國紅外事業(yè)奠基人
西乡县| 宝坻区| 武功县| 古丈县| 化隆| 汝城县| 武平县| 寿阳县| 晋宁县| 闻喜县| 夹江县| 阜宁县| 兴业县| 蒙自县| 霍城县| 沈阳市| 大石桥市| 永定县| 庄河市| 旬阳县| 平江县| 苍溪县| 石狮市| 阿瓦提县| 新和县| 曲靖市| 岱山县| 夏河县| 慈利县| 建昌县| 德阳市| 朝阳县| 无锡市| 通山县| 石嘴山市| 鄂托克前旗| 民丰县| 南开区| 仁怀市| 阜康市| 韶山市|