国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CNN-Transformer 雙模態(tài)特征融合的目標檢測算法

2024-04-15 03:17:12楊晨侯志強李新月馬素剛楊小寶
光子學報 2024年3期
關鍵詞:特征提取紅外模態(tài)

楊晨,侯志強,李新月,馬素剛,楊小寶

(1 西安郵電大學 計算機學院, 西安 710121) (2 陜西省網(wǎng)絡數(shù)據(jù)分析與智能處理重點實驗室, 西安 710121)

0 引言

目標檢測作為計算機視覺領域的重要分支,已廣泛應用于自動駕駛[1]、視頻監(jiān)控[2]、智能交通[3]等場景中。近年來,基于深度學習的目標檢測算法以其出色的檢測性能得到大力發(fā)展。在深度學習框架下,目標檢測方法通常分為兩大類:基于錨框的方法和無錨框的方法。基于錨框的方法為每一個位置設定多個矩形框,通過微調這些矩形框實現(xiàn)目標檢測,根據(jù)檢測流程的差異,可分為兩階段目標檢測和單階段目標檢測兩類。兩階段目標檢測首先提取候選框,再分類和回歸這些候選框以生成檢測結果,其中典型方法包括RCNN[4]、Fast R-CNN[5]和Faster R-CNN[6]等;而單階段目標檢測算法直接對預定義錨點框進行分類和回歸,如SSD[7]和YOLO[8-14]等系列算法。無錨框的目標檢測算法去除了錨框的使用,通過關鍵點的組合和定位來實現(xiàn)目標檢測,代表算法如CornerNet[15]、FCOS[16]和CenterNet[17]等。隨著Transformer 在計算機視覺領域的廣泛應用,基于Transformer 的目標檢測算法也得到了顯著進展,如DETR[18]、VIT-FRCNN[19]、Deformable DETR[20]等。然而,基于Transformer 的方法因其高計算成本,在實際任務中面臨部署難題。因此,許多研究者提出將卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)與Transformer 結合的目標檢測方法,典型如BotNet[21]和CMT[22]等。這些方法巧妙地結合了CNN 和Transformer 的優(yōu)勢,融合了局部特征與全局特征,增強了特征表達能力,有效提升了目標檢測性能,實現(xiàn)速度和精度的平衡。

目前,大多數(shù)目標檢測算法主要基于可見光圖像。在光照充足的情況下,可見光傳感器能夠有效地捕捉目標的顏色和紋理等信息。然而,實際應用中,由于各種環(huán)境因素的干擾,如遮擋、惡劣天氣(如雨霧)、光照不均等情況[23],可見光傳感器往往難以獲取完整的目標信息,從而無法滿足精確的檢測需求[24]。相反,紅外圖像主要基于熱輻射能量成像,受光照影響較少,在光線不足的條件下可以提供清晰的輪廓信息,但其也存在圖像對比度低、紋理信息匱乏等問題。針對上述問題,紅外與可見光圖像融合技術被提出,通過有效整合兩種模態(tài)的互補信息,不僅可以提升目標檢測性能,還能擴展其在真實場景中的應用。因此,構建基于雙模態(tài)特征融合的目標檢測技術逐漸成為當前的研究熱點。例如,ZHU Yaohui 等[25]在已有目標檢測特征金字塔結構的基礎上,引入基于Transformer 的多模態(tài)融合特征金字塔結構,從而提升了目標檢測性能;ZHANG Heng 等[26]在YOLO 架構中引入循環(huán)細化模塊,有效地實現(xiàn)了雙模態(tài)特征融合與目標檢測;ZHOU Kailai 等[27]提出模態(tài)平衡網(wǎng)絡并結合差分模態(tài)感知融合模塊,實現(xiàn)了模態(tài)間的互補,從而增強了行人檢測性能;趙明等[28]通過跨域融合網(wǎng)絡結構,將紅外域與偽可見光域的雙模態(tài)特征進行融合,提升了目標檢測的準確性;YANG Xiaoxiao 等[29]通過雙向自適應門控機制,高效地實現(xiàn)了跨模態(tài)特征融合;JIANG Qunyan 等[30]提出了一種適用于多光譜行人檢測的單機檢測器,利用跨模態(tài)互補模塊和基于注意力的特征增強模塊,實現(xiàn)了行人檢測;FANG Qingyun 等[31]運用Transformer 中的自注意力機制,實現(xiàn)了多光譜目標檢測中不同模態(tài)信息的高效融合,從而顯著提升了檢測性能;CHEN Yiting 等[32]采用了概率集成技術,將多模態(tài)檢測結果有機地融合在一起,為多光譜目標檢測領域帶來了創(chuàng)新;WANG Qingwang 等[33]提出了一種冗余信息抑制網(wǎng)絡,抑制了跨模態(tài)冗余信息,促進了紅外-可見光互補信息的融合;CAO Yue 等[34]采用了通道切換和空間注意力的有效融合策略,成功地整合了來自不同模態(tài)的輸入信息,顯著提升了多模態(tài)目標檢測的準確性。

雙模態(tài)目標檢測算法所采用的雙模態(tài)融合策略主要可分為早期融合、中期融合和后期融合三大類。早期融合一般是指像素級融合,通過逐像素地整合來自不同模態(tài)的圖像,生成融合圖像后輸入檢測網(wǎng)絡。例如,WANG Wensheng 等[35]通過提取與集成不同模態(tài)的高頻信息來實現(xiàn)顯著性目標檢測;ZHANG Xiaoye等[36]提出了一種基于局部邊緣保留濾波器的圖像分解和融合策略,獲得融合圖像來進行顯著性目標檢測。中期融合通常是指特征級融合,即在特征提取過程中將不同模態(tài)特征進行融合,從而獲得融合后的特征圖用于目標檢測。例如,ZHANG Heng 等[37]引入了一種新的多光譜特征融合方法,通過動態(tài)融合多光譜特征來提高檢測性能;AN Zijia 等[38]提出了跨模態(tài)信息共享網(wǎng)絡,通過共享不同模態(tài)的目標信息來增強特征提取能力。后期融合是指決策級融合,側重于將不同模態(tài)的檢測結果進行組合,以優(yōu)化最終決策方案。例如,LI Chengyang 等[39]利用光照信息對可見光和紅外預測結果進行加權融合;BAI Yu 等[40]通過對兩種模態(tài)檢測結果的決策來進行融合檢測。中期融合能夠有效利用兩種模態(tài)的不同特征,實現(xiàn)特征層次的信息交互。

本文提出了一種基于CNN-Transformer 雙模態(tài)特征融合的目標檢測算法CTDMDet(CNNTransformer Dual Modal feature fusion Object Detection)。搭建了一個雙分支網(wǎng)絡,使其能夠同時處理紅外和可見光圖像。采用基于CNN 的紅外特征提取模塊(CNN-based Feature Extraction,CFE)來獲取紅外圖像局部特征。選用基于Transformer 的可見光特征提取模塊(Transformer-based Feature Extraction,TFE),以更好地獲取可見光圖像全局上下文信息和細節(jié)特征。最后,設計了雙模態(tài)特征融合模塊(IR-RGB Fusion Module, IRF),通過模態(tài)間信息的交互,獲取跨模態(tài)互補信息。

1 本文算法

在YOLOv5-s 的基礎上進行擴展,構建了一個能夠同時輸入紅外和可見光圖像的雙模態(tài)融合目標檢測網(wǎng)絡。如圖1 所示,所提算法整體網(wǎng)絡結構由三個主要部分組成:雙模態(tài)特征提取主干網(wǎng)絡、特征融合頸部網(wǎng)絡和檢測頭。

圖1 整體網(wǎng)絡結構Fig.1 Overall network architecture

針對紅外和可見光圖像各自的特點,雙模態(tài)特征提取主干網(wǎng)絡包含兩個并行的網(wǎng)絡分支。紅外分支由基于CNN 的特征提取模塊CFE 及卷積層CBS(Conv-BN-SiLU)組合而成,可見光分支則由基于Transformer 的特征提取模塊TFE 和卷積層CBS 組合而成。首先,紅外圖像MIR和可見光圖像MRGB分別輸入到對應的分支中,經(jīng)過卷積CBS 操作后獲得特征信息FIR和FRGB。隨后,F(xiàn)IR和FRGB分別經(jīng)過四個連續(xù)的特征提取模塊CFE 和TFE,獲得不同尺度的紅外特征FiIR和可見光特征FiRGB(i∈1,2,3,4)。其次,采用中期融合方式,在網(wǎng)絡的后三層,將并行獲取的兩種模態(tài)特征輸入到紅外-可見光融合模塊IRF 中,以獲得融合特征信息FjIRF(j∈1,2,3)。融合后的特征與對應尺度的兩種模態(tài)特征相加后分兩路進行處理。一路送回原始紅外和可見光分支,繼續(xù)后續(xù)的特征提取和融合。另一路與另一種模態(tài)的特征相加,得到融合特征(j∈1,2,3),然后送入特征融合頸部網(wǎng)絡。特征融合頸部網(wǎng)絡是由包含卷積和殘差結構的C3 模塊以及上采樣操作構成,利用特征金字塔結構實現(xiàn)不同尺度的特征融合。最后,融合特征根據(jù)不同的尺度送入對應大小的檢測頭中進行目標檢測。

1.1 紅外特征提取網(wǎng)絡

紅外特征提取網(wǎng)絡主要由基于CNN 的紅外特征提取模塊CFE 構成,CFE 模塊具體結構如圖2 所示。

圖2 紅外特征提取模塊Fig.2 Infrared feature extraction module

由于紅外圖像中目標細節(jié)缺失,基準算法的特征提取模塊在特征提取時容易出現(xiàn)信息丟失的問題。然而,紅外圖像中具有清晰的輪廓信息,對目標的定位有指導作用,因此,設計了新的特征提取模塊CFE,使模型更加聚焦于關鍵特征,提升特征信息的表達能力。

以圖1 中的第一個CFE 模塊為例,對于輸入的紅外特征FIR,操作流程為:首先,經(jīng)過三次連續(xù)的標準卷積、歸一化和激活函數(shù)操作,捕獲圖像中不同層次的特征,得到經(jīng)過初步處理的特征FIRC。接著,通過全局平均池化操作獲取特征的全局信息,得到特征FIRG。此后,將特征FIRG分兩個分支進行處理。第一個分支經(jīng)過連續(xù)兩個1×1 卷積層和ReLU 激活函數(shù),以提取各通道上的關鍵信息,從而建立通道間的依賴關系。第二個分支采用3×3 深度可分離卷積層和1×1 逐點卷積層,獲取特征的空間信息。深度可分離卷積層能夠在確保所獲取特征的有效性的同時降低計算負擔。之后,兩個分支的特征信息融合,融合后的特征通過Sigmoid 函數(shù)進行權重映射,并與FIRG相乘。這樣操作后,特征信息在通道和空間維度上都得以強化,獲得增強后的特征信息FIRE,即

式中,δ表示Sigmoid激活函數(shù),Conv1×1表示1×1 卷積,?表示ReLU 激活函數(shù),PWConv1×1表示1×1 的逐點卷積,DWConv3×3表示3×3 的深度可分離卷積。

為了減少特征在提取過程中信息的丟失,實現(xiàn)特征復用,同時避免反向傳播過程中出現(xiàn)梯度消失、梯度爆炸等情況,引入殘差結構。將輸入的紅外特征FIR經(jīng)過連續(xù)兩個CBS 結構提取關鍵信息后,與增強后的特征信息FIRE沿著通道維度進行拼接,隨后再次經(jīng)過CBS 結構整理通道數(shù)并進行下采樣,最終得到輸出的紅外特征具體操作為

式中,Down 表示Downsample 下采樣操作,CBS 表示Conv-BatchNorm-SiLU 操作,Concat 表示逐通道拼接操作。

1.2 可見光特征提取網(wǎng)絡

可見光特征提取網(wǎng)絡主要基于Transformer 的可見光特征提取模塊TFE 構成,其中TFE 模塊具體結構如圖3 所示。

圖3 可見光特征提取模塊Fig.3 Visible feature extraction module

可見光圖像包含豐富的顏色、紋理等細節(jié),因此充分利用這些信息對于實現(xiàn)有效的可見光特征提取至關重要。然而,傳統(tǒng)卷積神經(jīng)網(wǎng)絡中的卷積層感受野通常較為有限,從而造成全局上下文信息捕獲不足。Transformer 作為一種具備全局建模能力的方法,在自然語言處理領域得到了廣泛應用,同時在計算機視覺任務中,如目標跟蹤和目標檢測中也展現(xiàn)出了優(yōu)越的性能。因此,本文提出了一種基于Transformer 的可見光特征提取模塊(TFE),將Transformer 的強大全局建模能力與卷積的局部建模能力相結合,既能夠捕獲長距離依賴關系,又能夠有效地利用局部特征信息,從而充分地提取可見光圖像中的關鍵特征。此外,由于Transformer 的核心機制是自注意力機制,傳統(tǒng)自注意力在處理高分辨率圖像時往往伴隨著計算開銷過大的問題。為了解決這一問題,采用卷積投影的方法,取代傳統(tǒng)自注意力機制中的線性映射,從而在保持訓練和推理效果的同時,降低計算成本。

以圖1 中第一個TFE 模塊為例,輸入的可見光特征FRGB首先經(jīng)過CBS 卷積操作,對特征進行重組,強化了特征的表達,獲得特征FRGBC。接著,將提取到的特征FRGBC通過卷積映射為查詢(Q)、鍵(K)和值(V)三個向量,以便在后續(xù)的注意力計算中針對不同方面的信息進行交互。其中,F(xiàn)RGBC經(jīng)過1×1 卷積得到的特征映射與FRGBC相乘所得的值,被用作值(V)的計算。對于鍵(K),利用3×3 的分組卷積來提取其上下文信息,以增強鍵(K)向量的表示能力,使其能夠更好地匹配查詢(Q)向量。隨后,將提取到的信息與查詢(Q)按通道維度拼接,并經(jīng)過兩個連續(xù)的1×1 卷積,生成注意力矩陣。此外,在注意力矩陣生成的過程中,引入了Softmax 函數(shù)進行加權,獲取加權后的信息,并與值(V)向量相乘,從而捕獲不同位置的關聯(lián)度,提升自注意力機制的學習能力,實現(xiàn)全局上下文的有效捕獲。之后,通過加法操作將全局上下文信息與原始鍵(K)相加,實現(xiàn)特征的復用,并通過reshape 函數(shù)將其重組為原始尺寸的特征,以確保特征的完整性和連貫性。具體操作為

式中,reshape表示重組函數(shù),σ表示Softmax 激活函數(shù),GConv3×3表示3×3 的分組卷積。

同時,為了避免信息丟失,引入殘差結構。將融合了局部信息和全局信息的FRGBT與原始特征經(jīng)過CBS卷積層后的結果按通道維度進行拼接,再次經(jīng)過CBS 卷積層,實現(xiàn)信息的跨層傳遞和特征的有效融合。最后,通過下采樣操作對特征進行處理,得到輸出的可見光特征具體操作為

1.3 紅外-可見光雙模態(tài)融合模塊

紅外圖像中包含著豐富的位置信息,可見光圖像中包含著豐富的紋理信息,兩種模態(tài)的融合能夠實現(xiàn)跨模態(tài)信息互補,豐富特征信息,提高檢測性能,因此設計了圖4 所示的紅外-可見光雙模態(tài)融合模塊IRF 來實現(xiàn)兩種模態(tài)的特征融合。

圖4 紅外-可見光雙模態(tài)融合模塊Fig.4 Infrared-visible dual modal fusion module

以圖1 中第一個IRF 融合模塊為例,首先將紅外和可見光兩種模態(tài)的特征和沿通道維度進行拼接,然后通過1×1 卷積實現(xiàn)跨通道特征組合,從而獲取初步的融合特征FRI。之后設計了對稱路徑,將FRI分別與和經(jīng)過交叉注意力Cross-Attention 模塊進一步融合,得到特征FIF和FRF,由此實現(xiàn)單模態(tài)信息的增強和模態(tài)間信息交互。獲得的融合特征FIF和FRF再與和按通道維度進行拼接,捕獲目標特征在每個通道間的關系,得到增強特征FIIF和FRRF,在豐富融合特征的同時實現(xiàn)特征復用。最后通過逐元素相加的方式,將兩種模態(tài)的融合信息相加,得到融合特征融合特征既保留了原始兩種模態(tài)的特征,又實現(xiàn)了模態(tài)間特征互補,提升了目標特征的表達能力。具體操作為

針對模態(tài)間特征融合和信息交互,提出了交叉注意力Cross-Attention 模塊來捕獲兩種模態(tài)間的信息相關性。以可見光模態(tài)為例進行說明,紅外模態(tài)同理。首先,對初步融合后的特征FRI經(jīng)過1×1 線性投影和全局平均池化編碼,分別獲得了查詢(QRI)、鍵(KRI)和值(VRI)三個向量。同樣地,可見光特征經(jīng)過上述相同操作,得到相應的查詢向量(QRGB)、鍵向量(KRGB)和值向量(VRGB)。這些向量在不同的模態(tài)中編碼了特征映射中的關系信息,以便后續(xù)的信息交互。之后,在特征融合過程中,保留了單一模態(tài)中的鍵(K)和值(V)信息,同時利用元素乘法,將一個模態(tài)的鍵(K)值與另一個模態(tài)的查詢(Q)值相乘。這一操作的意圖在于計算兩種模態(tài)間的匹配度,獲取兩種模態(tài)間的相似性。通過這種操作,引入了模態(tài)間的相互關聯(lián)信息,從而在特征融合過程中實現(xiàn)模態(tài)之間的有效交互。隨后,使用Softmax 函數(shù)進行權重加權,將融合后的關聯(lián)性信息與原始模態(tài)的值(V)相乘,在特征表示中引入模態(tài)間的全局關聯(lián)性,進一步提升交叉注意力模塊的信息傳遞和融合效果,并通過reshape 函數(shù),得到ZRI和ZRGB。具體操作為

為了充分利用多模態(tài)數(shù)據(jù)的互補性,將獲得的跨模態(tài)信息ZRGB和ZRI按照通道維度拼接,從而實現(xiàn)不同通道間的有效交互,得到融合特征。融合特征通過1×1 卷積整理通道數(shù)后,利用Sigmoid 函數(shù)獲取權重,并與兩種模態(tài)的特征分別經(jīng)過3×3 卷積后獲取的信息相乘,輸出具有全局信息的跨模態(tài)融合特征FRF,具體操作為

式中,Conv3×3表示3×3 卷積。

2 實驗結果及分析

2.1 實驗細節(jié)

實驗的操作系統(tǒng)為Ubuntu 16.04,CPU 為i5-8400,GPU 為TITAN Xp(顯存11GB),CUDA 以及CUDNN 的版本為11.1 和CUDNN8.0.5。提出的網(wǎng)絡基于PyTorch 實現(xiàn),訓練過程中使用隨機梯度下降(SGD)對網(wǎng)絡參數(shù)進行迭代更新,動量參數(shù)設為0.937,起始學習率設為0.01,BatchSize 設為8,共訓練150 個Epoch。在加載數(shù)據(jù)時將所有圖像的分辨率統(tǒng)一調整到640×640,再對整體網(wǎng)絡進行端到端訓練。

實驗的損失函數(shù)由三個主要組成部分構成,包括目標檢測損失(Objectness loss)、定位損失(Localization loss)以及分類損失(Classification loss)。目標檢測損失函數(shù)用于度量網(wǎng)絡在目標和背景之間的區(qū)分能力,實驗中采用了二進制交叉熵(Binary cross-entropy)損失函數(shù)來評估網(wǎng)絡是否能準確地預測目標的存在與否。定位損失函數(shù)用于評估網(wǎng)絡對目標位置的定位精度,實驗采用平滑的L1 損失(Smooth L1 loss)來計算,以衡量網(wǎng)絡對目標邊界框坐標的預測與實際目標位置之間的誤差。分類損失函數(shù)則關注網(wǎng)絡對目標類別的分類準確性,實驗使用交叉熵損失(Cross-entropy loss)來度量網(wǎng)絡對目標類別的預測與實際目標類別之間的一致性。這三個損失函數(shù)的綜合應用使得網(wǎng)絡能夠在檢測過程中有效地識別和定位物體??偟膿p失函數(shù)是這三個部分的線性組合,通過調整權重參數(shù)來平衡它們的相對重要性,以更好地指導網(wǎng)絡的訓練和性能提升。

實驗使用類別精度(Average Precision, AP)并選取了AP0.5、AP0.5:0.95兩個指標和每秒幀數(shù)(Frames Per Second, FPS)作為算法評價指標。其中AP0.5表示平均檢測精度,AP0.5:0.95指IoU(Intersection over Union)從0.5 到0.95 每隔0.05 計算的所有類別的AP 平均值。FPS 代表每秒檢測圖片的數(shù)量,能夠有效反映出算法的檢測速度。

2.2 數(shù)據(jù)集

實驗所用的三個數(shù)據(jù)集分別為KAIST 數(shù)據(jù)集[41]、FLIR ADAS 數(shù)據(jù)集[42]和GIR 數(shù)據(jù)集[43]。

KAIST 數(shù)據(jù)集是使用最廣泛的大規(guī)模多光譜行人檢測數(shù)據(jù)集之一。原始數(shù)據(jù)集共有95 328 對紅外可見光圖像對(640×512 分辨率),包括在白天和夜晚不同場景下拍攝的校園、街道和鄉(xiāng)村的各種常規(guī)交通場景。但由于原始數(shù)據(jù)集是取自視頻連續(xù)幀圖片,存在相鄰圖片相似度高的問題,故實驗選擇了Hou 等[44]清洗后的數(shù)據(jù)集,其中包括7 601 對用于訓練的紅外可見光圖像對和2 252 對用于測試的紅外可見光圖像對,并將標簽類別僅標注為“person”一類。

FILR ADAS 數(shù)據(jù)集是一個具有挑戰(zhàn)性多光譜目標檢測數(shù)據(jù)集。數(shù)據(jù)集包括的圖像有四個對象類別:“person”、“car”、“bicycle”和“dog”。實驗選擇最新對齊版本的FLIR ADAS 數(shù)據(jù)集,清洗后的數(shù)據(jù)集包含5 142 個對齊的可見光紅外圖像對(640×512 分辨率),其中4 129 對用于訓練,1 013 對用于測試。

GIR 數(shù)據(jù)集是本實驗自行創(chuàng)建的數(shù)據(jù)集,圖像來源于李成龍團隊[40]建立的RGBT210 數(shù)據(jù)集,每張圖片包含可見光彩色圖像和紅外圖像兩個版本,圖像尺寸為630×460。從該數(shù)據(jù)集中選取5 105 張圖片,劃分為訓練圖像4 084 張,測試圖像1 021 張。對圖片進行標注,確定5 類目標為“person”、“dog”、“car”、“bicycle”和“motorcycle”。

在三個數(shù)據(jù)集中,每張圖像均包含了紅外和可見光兩個光譜版本,從而形成了一個多模態(tài)圖像對。這些圖像對經(jīng)過了高度對齊的裁剪,這是通過對成像硬件設備所捕捉的圖像進行準確的空間位置匹配所實現(xiàn)的。每個圖像對都代表了已經(jīng)在幾何和空間上配準好的兩張圖像,確保了它們在視覺上相互對應。實驗中,針對這些多模態(tài)圖像,即紅外圖像、可見光圖像以及紅外-可見光圖像對,分別進行了訓練和測試。這樣的實驗設置保證了所有類型的圖像都共享同一套標簽,即所含目標的類別信息。通過這種設計,能夠在不同光譜模態(tài)下,針對單獨的紅外圖像、可見光圖像以及紅外-可見光圖像對,進行有針對性的訓練和測試,以探究算法在各種情況下的適用性和性能,確保了實驗的嚴謹性和可信度。

2.3 消融實驗

為了驗證雙模態(tài)特征提取網(wǎng)絡和雙模態(tài)特征融合模塊的有效性,在KAIST、FLIR 和GIR 三個數(shù)據(jù)集上進行了一系列消融實驗,以評估不同模態(tài)特征提取和融合策略的效果。

消融實驗的詳細設置為:

1) 將可見光和紅外圖像分別輸入YOLOv5-s 網(wǎng)絡,進行特征提取和目標檢測。

2) 分別用本文所提出的紅外特征提取網(wǎng)絡和可見光特征提取網(wǎng)絡,替代YOLOv5-s 的原始特征提取網(wǎng)絡,從而進行單模態(tài)目標檢測。

3) 將YOLOv5-s 改造為雙分支網(wǎng)絡,其中可見光分支仍使用YOLOv5-s 的特征提取網(wǎng)絡,而紅外分支則被本文所提出的紅外特征提取網(wǎng)絡所代替。同時,引入雙模態(tài)融合模塊IRF,以輸入可見光和紅外圖像進行雙模態(tài)目標檢測。

4) 在雙分支融合網(wǎng)絡基礎上,紅外分支保留YOLOv5-s 原始特征提取網(wǎng)絡,將可見光分支替換為本文提出的可見光特征提取網(wǎng)絡。

5) 在雙分支融合網(wǎng)絡基礎上,紅外分支設置為本文所提紅外特征提取網(wǎng)絡,可見光分支設置為本文所提可見光特征提取網(wǎng)絡。

表1 為在KAIST 數(shù)據(jù)集上得到的消融實驗結果,基準模型單獨檢測紅外和可見光圖像時,分別達到了71.5%和59.8%的檢測精度;通過單模態(tài)特征提取網(wǎng)絡的替換,分別獲得了72.2%和60.4%的檢測精度;在引入雙分支結構的基礎上,將紅外分支替換為由CFE 模塊組合成的主干網(wǎng)絡,并加入雙模態(tài)融合模塊IRF后,雙模態(tài)檢測精度達到了76.3%;此外,將可見光特征提取網(wǎng)絡更換為由TFE 模塊組合成的主干網(wǎng)絡,檢測精度提升至76.5%;當將紅外和可見光特征提取模塊同時替換為CFE 和TFE,并加入雙模態(tài)融合模塊IRF 后,檢測精度達到77.2%,較基準模型單獨檢測可見光和紅外圖像分別提升了17.4%和5.7%。

表1 在KAIST 數(shù)據(jù)集上的消融實驗Table 1 Ablation experiment on the KAIST dataset

在FLIR 數(shù)據(jù)集上的消融實驗結果如表2 所示。在YOLOv5 模型上僅輸入紅外圖像時,檢測精度為73.9%;使用CFE 特征提取模塊替換原始特征提取模塊后,檢測精度提升為82.4%;同樣地,單獨輸入可見光圖像時,檢測精度為67.8%;通過使用TFE 替換原始特征提取模塊,檢測精度達到80%;在引入雙分支結構的基礎上,將紅外分支替換為CFE 組合成的主干網(wǎng)絡,并引入雙模態(tài)融合模塊IRF,檢測精度顯著提升至85.3%;通過添加雙模態(tài)融合模塊IRF,并將可見光特征提取模塊替換為TFE 模塊,檢測精度提升至84.9%;同時將紅外和可見光特征提取模塊替換為CFE 和TFE,并引入雙模態(tài)融合模塊IRF 后,檢測精度達到85.5%,較基準模型單獨檢測可見光和紅外圖像分別提升了17.7%和11.6%。

表2 在FLIR 數(shù)據(jù)集上的消融實驗Table 2 Ablation experiment on the FLIR dataset

在GIR 數(shù)據(jù)集上的消融實驗結果如表3 所示。僅輸入紅外圖像時,基于YOLOv5 模型的檢測精度為76.8%;使用CFE 組成的特征提取網(wǎng)絡替換原始特征提取網(wǎng)絡后,檢測精度為84.4%;當在YOLOv5 模型僅輸入可見光圖像時,檢測精度為89.9%;將特征提取網(wǎng)絡替換為由TFE 組成的特征提取網(wǎng)絡后,檢測精度提升為91.1%;在同時輸入紅外和可見光圖像的情況下,將紅外分支替換為由CFE 組合成的特征提取網(wǎng)絡,并引入雙模態(tài)融合模塊IRF,檢測精度達到91.6%;添加雙模態(tài)融合模塊IRF 并將可見光特征提取網(wǎng)絡替換為TFE 組合成的特征提取網(wǎng)絡,檢測精度保持在91.3%;而將紅外特征提取模塊替換為CFE,可見光特征提取模塊替換為TFE,并添加雙模態(tài)融合模塊IRF 后,檢測精度達到91.7%。較基準模型單獨檢測可見光和紅外圖像分別提升了1.8%和14.9%。

表3 在GIR 數(shù)據(jù)集上的消融實驗Table 3 Ablation experiment on the GIR dataset

在三個數(shù)據(jù)集上的消融實驗結果證明了提出的雙模態(tài)特征提取網(wǎng)絡和融合模塊在雙模態(tài)目標檢測任務中具備顯著的性能優(yōu)勢,有效地提升了檢測精度,豐富了特征信息。

2.4 定性分析

為了更加直觀地對比基準算法與本文所提出方法在檢測任務中的表現(xiàn),在三個數(shù)據(jù)集上進行了定性分析,結果分別如圖5~7 所示。其中,圖(a)、(b)呈現(xiàn)了真實目標框(Ground Truth, GT)在兩種模態(tài)圖像上的位置信息,圖(c)、(d)分別展示了基準算法在可見光圖像和紅外圖像上的檢測結果,圖(e)、(f)分別展示了本文所提算法在可見光圖像和紅外圖像上的檢測結果。

圖5 在KAIST 數(shù)據(jù)集上的定性分析結果Fig. 5 Qualitative analysis results on the KAIST dataset

圖6 在FLIR 數(shù)據(jù)集上的定性分析結果Fig. 6 Qualitative analysis results on the FLIR dataset

圖7 在GIR 數(shù)據(jù)集上的定性分析結果Fig. 7 Qualitative analysis results on the GIR dataset

由定性分析結果可以看到,本文提出的算法在各種場景下均展現(xiàn)出優(yōu)越的檢測性能,涵蓋了強光、夜晚、遮擋等復雜環(huán)境,還成功地解決了基準算法中出現(xiàn)的漏檢和誤檢問題。例如,在圖5 中的第三行,夜間場景下基準算法在可見光圖像上漏檢了三個目標,在紅外圖像上漏檢了兩個目標,而本文算法能準確地檢測到所有目標;在圖6 中的第一行,白天光照強烈時,基準算法在兩種圖像上均未能檢測到小目標,而本文算法在可見光和紅外圖像上均實現(xiàn)了準確的檢測;在圖7 中的第三行,當目標被遮擋時,基準算法在紅外和可見光圖像上均未檢測到目標,而本文算法通過融合兩種模態(tài)的信息成功地檢測到所有目標。這些定性分析結果進一步驗證了所提算法在多種復雜場景下的優(yōu)越性能。

2.5 定量分析

為了全面評估所提算法的有效性,在KAIST、FLIR 和GIR 數(shù)據(jù)集上同當前主流的雙模態(tài)融合目標檢測算法進行了比較。同時,為了驗證所提出的單模態(tài)特征提取網(wǎng)絡的性能,分別在紅外和可見光單模態(tài)圖像上同部分主流單模態(tài)目標檢測算法也進行了比較。為確保實驗的公平公正,在相同的硬件和軟件環(huán)境下分別部署了本文所提算法和對比算法。對于對比算法,嚴格遵循了原始論文中的實驗設置和參數(shù)設定,以保持一致性。評估過程中統(tǒng)一采用目標檢測常用指標,如AP0.5、AP0.5:0.95等,確保實驗結果的可比性和科學性。比較結果如表4 所示。

表4 KAIST、FLIR、GIR 數(shù)據(jù)集上的定量分析結果Table 4 Quantitative analysis results on the KAIST, FLIR, and GIR datasets

從表4 的數(shù)據(jù)可以觀察到,在KAIST 數(shù)據(jù)集上,本文所提出的紅外、可見光特征提取網(wǎng)絡在單模態(tài)檢測中分別獲得了72.2%、60.4%的檢測精度。在FLIR 數(shù)據(jù)集上,其紅外、可見光單模態(tài)檢測精度分別達到了82.4%、80%。在GIR 數(shù)據(jù)集上,紅外、可見光單模態(tài)檢測精度分別達到了84.4%、91.1%。結果表明,提出的單模態(tài)特征提取網(wǎng)絡雖然在速度方面略有下降,但在檢測性能上均得到了顯著提升,超越了經(jīng)典的單模態(tài)檢測算法。此外,在雙模態(tài)融合方面,該算法在KAIST 數(shù)據(jù)集上實現(xiàn)了77.2%的檢測精度,在FLIR 數(shù)據(jù)集上達到了85.5%,在GIR 數(shù)據(jù)集上達到了91.7%。相比經(jīng)典的雙模態(tài)融合算法,如CFT、RISNet、CSAA等,該算法在檢測精度和速度上都展現(xiàn)出了明顯的提升。這些結果進一步突顯了本文算法在多種數(shù)據(jù)集和場景下的優(yōu)越性能,以及其在雙模態(tài)目標檢測領域的優(yōu)勢。

3 結論

本文提出了一種基于CNN-Transformer 雙模態(tài)特征融合的目標檢測算法(CTDMDet),通過構建雙流特征提取網(wǎng)絡,采用CNN 和Transformer 結構分別對紅外與可見光圖像進行特征提取,有效地提升了對不同模態(tài)圖像的信息獲取能力。并且,通過雙模態(tài)特征融合模塊,成功實現(xiàn)了不同尺度、不同模態(tài)的特征信息的有效融合,從而實現(xiàn)了跨模態(tài)信息的互補和目標檢測性能的顯著提升。

在KAIST、FLIR 數(shù)據(jù)集上,本算法在紅外和可見光圖像的檢測精度分別獲得了顯著的提升,為目標檢測的不同環(huán)境提供了更為準確的解決方案。同時,在自建的GIR 數(shù)據(jù)集上,本文算法也實現(xiàn)了明顯的檢測精度提升,從而進一步證明了其適用性和魯棒性。

未來的工作將集中在進一步優(yōu)化算法的運行速度,以滿足實際應用中的實時性要求。此外,計劃在更復雜和多樣化的場景中測試算法的魯棒性,進一步驗證其在不同應用領域的可靠性和穩(wěn)定性。隨著深度學習和計算機視覺領域的不斷發(fā)展,還將會繼續(xù)探索更先進的模型架構和融合策略,以進一步提升雙模態(tài)目標檢測的性能,并將其應用于更廣泛的實際場景中。

猜你喜歡
特征提取紅外模態(tài)
網(wǎng)紅外賣
閃亮的中國紅外『芯』
金橋(2021年4期)2021-05-21 08:19:20
TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應用
電子制作(2019年7期)2019-04-25 13:17:14
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
國內多模態(tài)教學研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
基于MED和循環(huán)域解調的多故障特征提取
由單個模態(tài)構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
松滋市| 二手房| 卢氏县| 乐山市| 鲁山县| 沁水县| 北海市| 调兵山市| 玛沁县| 双城市| 南华县| 鄂伦春自治旗| 商南县| 西青区| 新宾| 铁力市| 恩平市| 合川市| 同仁县| 盐池县| 宜君县| 龙川县| 都昌县| 芮城县| 读书| 潮州市| 海淀区| 改则县| 乐昌市| 响水县| 格尔木市| 丹棱县| 海林市| 筠连县| 托里县| 漠河县| 修水县| 茂名市| 定结县| 拉萨市| 龙胜|