段輝軍,王志剛,王 彥
(1.湖南財(cái)經(jīng)工業(yè)職業(yè)技術(shù)學(xué)院電子信息系,湖南 衡陽(yáng) 421002;2.電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,四川 成都 610054; 3.中國(guó)電子科技集團(tuán)公司第五十四所信息傳輸與分發(fā)技術(shù)重點(diǎn)實(shí)驗(yàn)室,河北 石家莊 050081)
隨著作戰(zhàn)模式由平臺(tái)中心戰(zhàn)向一體化聯(lián)合作戰(zhàn)轉(zhuǎn)變,地面裝甲突擊系統(tǒng)承擔(dān)的任務(wù)日益復(fù)雜,迫切需要通過智能化手段提高平臺(tái)作戰(zhàn)效能,以及多平臺(tái)協(xié)同作戰(zhàn)的能力。同時(shí),陸戰(zhàn)場(chǎng)環(huán)境比較復(fù)雜,敵方目標(biāo)善于偽裝且機(jī)動(dòng)性大,如何快速檢測(cè)、識(shí)別并鎖定目標(biāo)是戰(zhàn)場(chǎng)成敗與態(tài)勢(shì)感知的關(guān)鍵[1]。
圖像是自然景物的客觀反映,也是環(huán)境感知的關(guān)鍵數(shù)據(jù)[2]。大多數(shù)裝備都是利用采集的視頻序列實(shí)現(xiàn)對(duì)外環(huán)境探測(cè)、觀測(cè)與瞄準(zhǔn),最終由操作手完成目標(biāo)的鎖定與打擊,其識(shí)別、鎖定目標(biāo)精度的高低將直接影響打擊目標(biāo)的效果。為了降低操作手的捕獲誤差,國(guó)內(nèi)外的武器裝備集成了各種輔助功能。例如,坦克火控系統(tǒng)利用電子穩(wěn)像設(shè)備使炮長(zhǎng)瞄準(zhǔn)線的雙向穩(wěn)定,確保坦克瞄得更準(zhǔn)[3];目標(biāo)指示器具備動(dòng)目標(biāo)檢測(cè)功能,檢測(cè)出視場(chǎng)中的運(yùn)動(dòng)目標(biāo),并編號(hào),提升炮手的反應(yīng)時(shí)間[4];美軍的全球鷹無(wú)人機(jī)集成了基于機(jī)器學(xué)習(xí)的智能增強(qiáng)系統(tǒng),無(wú)需人在回路也能獲得高精度的識(shí)別效果,但最終也是需要操作手對(duì)結(jié)果進(jìn)行判別[5]。可以看出,這些輔助策略仍然需要人工輔助進(jìn)行決策,并沒有真正意義上實(shí)現(xiàn)智能識(shí)別。
隨著智能信號(hào)處理技術(shù)的發(fā)展,學(xué)術(shù)上也提出了大量的智能識(shí)別算法,但這些算法大都是針對(duì)單模態(tài)圖像進(jìn)行處理,其應(yīng)用環(huán)境局限性較大。例如,裝甲目標(biāo)在迷彩偽裝、夜晚、能見度低的情況下,可見光的目標(biāo)識(shí)別能力有限,而紅外圖像具有作用距離遠(yuǎn),穿透力強(qiáng),且不受光照影響,但其圖像模糊,空間分辨率較低[6]。眾所周知,現(xiàn)有的地面裝備光電設(shè)備大都集成了紅外熱像儀與電視攝像機(jī),并輸出兩路獨(dú)立的視頻信號(hào)。光電系統(tǒng)輸出的多路視頻信號(hào)存在大量互補(bǔ)信息和冗余信息,有利于提高目標(biāo)檢測(cè)與識(shí)別的精度。近年來,國(guó)內(nèi)外專家學(xué)者的研究方向大都集中在將不同類型圖像的互補(bǔ)信息結(jié)合起來,生成信息量更大的合成圖像,以此增強(qiáng)同一場(chǎng)景的圖像表征能力[7]。文獻(xiàn)[8]提出了基于多尺度變換的紅外與可見光融合算法,通過互信息配準(zhǔn)基礎(chǔ)上對(duì)不同尺度特征進(jìn)行融合,具有較高的融合精度,但易受抖動(dòng)、噪聲的影響。文獻(xiàn)[9]在多模融合的基礎(chǔ)上對(duì)目標(biāo)進(jìn)行識(shí)別,其識(shí)別性能嚴(yán)重依賴于配準(zhǔn)與融合的精度。劉佶鑫等人[10]利用類字典稀疏識(shí)別方法對(duì)融合后的可見光-近紅外HSV圖像進(jìn)行場(chǎng)景分類。由于該方法采用了搜索樹特征和分層梯度方向直方圖進(jìn)行特征提取,其場(chǎng)景分類性能僅僅適用簡(jiǎn)單場(chǎng)景下的典型目標(biāo)。
隨著智能硬件技術(shù)的突飛猛進(jìn)和大數(shù)據(jù)建模工具的利用,深度學(xué)習(xí)模型在圖像識(shí)別領(lǐng)域獲得極大的發(fā)展,涌現(xiàn)了許多優(yōu)秀的網(wǎng)絡(luò)模型,如Faster R-CNN[11],Mask R-CNN[12],YOLO-v3[13]等。江澤濤等人[14]使用加權(quán)融合算法對(duì)紅外和可見光圖像融合,然后利用改進(jìn)的深度絡(luò)提取融合圖像的有效特征向量,再進(jìn)行分類與識(shí)別。Sarfraz等人[15]提出了一種跨模態(tài)的深度識(shí)別算法,該算法使用多模態(tài)圖像的不同特征形式分別訓(xùn)練四個(gè)獨(dú)立的深度卷積神經(jīng)網(wǎng)絡(luò),分別學(xué)習(xí)出不同且互補(bǔ)的目標(biāo)特征信息,最終提高目標(biāo)的識(shí)別精度,其核心模塊是引用了特征對(duì)齊模塊與像素對(duì)齊模塊??梢钥闯?基于深度學(xué)習(xí)的紅外-可見光圖像的識(shí)別算法大都是在圖像配準(zhǔn)的基礎(chǔ)上進(jìn)行融合,然后采用深度學(xué)習(xí)算法進(jìn)行目標(biāo)識(shí)別。雖然深度模型提高了雙模態(tài)圖像的互補(bǔ)特征的表征能力,但現(xiàn)有的算法都是在已配準(zhǔn)圖像上進(jìn)行獨(dú)立網(wǎng)絡(luò)訓(xùn)練與識(shí)別,且資源消耗較大。然而,光電系統(tǒng)的紅外圖像與可見光圖像視場(chǎng)大小存在偏差,光軸也并不是完全重合,直接采用紅外與可見光圖像進(jìn)行深度識(shí)別,其效果不利于軍事裝備工程應(yīng)用。因此,本文提出一種基于改進(jìn)YOLO網(wǎng)絡(luò)的雙通道顯著性目標(biāo)識(shí)別算法,該算法首先結(jié)合雙通道網(wǎng)絡(luò)提取紅外與可見光圖像的融合特征進(jìn)行圖像融合,然后利用融合圖像目標(biāo)顯著性特性可以快速獲取疑似目標(biāo)區(qū)域,最后通過改進(jìn)的YOLO模型提高目標(biāo)識(shí)別精度。仿真結(jié)果表明,本文提出的模型可以有效地提高現(xiàn)有目標(biāo)檢測(cè)與識(shí)別的性能。
YOLO系列網(wǎng)絡(luò)是目標(biāo)檢測(cè)領(lǐng)域常用的一種端到端深度網(wǎng)絡(luò),該網(wǎng)絡(luò)將檢測(cè)問題轉(zhuǎn)化為回歸問題,可以預(yù)測(cè)邊界框坐標(biāo)的同時(shí),在端到端網(wǎng)絡(luò)中對(duì)目標(biāo)進(jìn)行分類,大大提高了檢測(cè)速度[13]。與R-CNN系列的兩級(jí)網(wǎng)絡(luò)相比,這種網(wǎng)絡(luò)結(jié)構(gòu)思路更明晰,并不需要窮舉疑似區(qū)域,網(wǎng)絡(luò)更簡(jiǎn)潔。
YOLO網(wǎng)絡(luò)衍生出許多高效率的改進(jìn)網(wǎng)絡(luò),如YOLO-v1,YOLO-v2,YOLO-v3,YOLO-v3-tiny等[16]。YOLO系列網(wǎng)絡(luò)的主干網(wǎng)絡(luò)模型如圖1所示。YOLO 目標(biāo)檢測(cè)方法將輸入圖像劃分為S×S個(gè)互補(bǔ)重疊的網(wǎng)格,其中每個(gè)網(wǎng)格最多預(yù)測(cè)K個(gè)邊界框。每個(gè)邊界框的特定類別置信分?jǐn)?shù)可以用如下等式表示:
(1)
xl=f(yl)=f(xl-1?wl+bl)
(2)
卷積神經(jīng)網(wǎng)絡(luò)中第l層的輸入表示為xl;激活函數(shù)為f(·)。中間變量表示為yl=xl-1?wl+bl,其中wl是卷積核的權(quán)重,bl是偏置參數(shù),?表示卷積。YOLO的網(wǎng)絡(luò)可以預(yù)測(cè)出多個(gè)邊界框及其類概率,最終選擇輸出具有最高IoU的檢測(cè)結(jié)果。為了防止輸出過多的虛假冗余邊界框,YOLO采用了閾值策略消除了大多數(shù)無(wú)用的邊界框。由于單個(gè)目標(biāo)的預(yù)測(cè)結(jié)果可能同時(shí)包含多個(gè)邊界框,從而導(dǎo)致不同邊界框?qū)?yīng)同一個(gè)目標(biāo)。YOLO采用非極大值抑制算法來組合多個(gè)預(yù)測(cè)邊界框,從而消除預(yù)測(cè)置信度較低的邊界框,并將具有較高置信度得分的預(yù)測(cè)邊界框選擇為目標(biāo)檢測(cè)框。最終,預(yù)測(cè)邊界框的損失函數(shù)由四部分組成,如下所示:
L=loss1+loss2+loss3+loss4
(3)
其中,loss1是預(yù)測(cè)中心坐標(biāo)的損失;loss2是預(yù)測(cè)邊界框的寬度和高度的損失;loss3是預(yù)測(cè)類別的損失;loss4是預(yù)測(cè)的置信度損失。隨著卷積網(wǎng)絡(luò)前向傳播,其損失函數(shù)L的梯度可以表示為:
(4)
以上分析可以看出,YOLO將圖像分成固定尺度的網(wǎng)絡(luò),雖然可以獲得較快的檢測(cè)速度,但其邊界框的定位不準(zhǔn)確,且對(duì)小目標(biāo)檢測(cè)精度不高。為了解決這個(gè)問題,YOLO-v2引入了錨框(anchor)機(jī)制的思想,并使用聚類方法生成合適的先驗(yàn)邊界框。隨著網(wǎng)絡(luò)的不斷加深,在訓(xùn)練過程中存在梯度消失或梯度爆炸問題,YOLO-v3引入了殘差結(jié)構(gòu),采用Darknet-53作為主干網(wǎng)絡(luò),主要由53個(gè)卷積層組成,并包含大量3×3、1×1卷積內(nèi)核。在進(jìn)入殘差模塊之前將特征與殘差模塊輸出的特征進(jìn)行組合可以提取更抽象的深度特征。
現(xiàn)有的光電系統(tǒng)大都如圖2所示,集成了電視攝像機(jī)和紅外熱像儀兩種探測(cè)設(shè)備。紅外圖像可以全天候全天時(shí)獲取場(chǎng)景圖像信息,但由于輻射成像原理的限制,紅外圖像存在對(duì)比度低、細(xì)節(jié)模糊,目標(biāo)檢測(cè)與識(shí)別精度低;而可見光圖像分辨率高,細(xì)節(jié)豐富,符合人眼視覺習(xí)慣,但容易遭受煙霧、光線、天氣的影響[17]。紅外圖像與可見光圖像間信息存在冗余和互補(bǔ),利用雙通道目標(biāo)融合識(shí)別,可提高目標(biāo)的識(shí)別精度。本文采用文獻(xiàn)[18]提出的圖像融合算法進(jìn)行紅外與可見光圖像融合,該算法在稀疏編碼和融合過程中,充分考慮了每個(gè)局部圖像塊的信息及其空間上下文信息,并利用魯棒稀疏表示確??臻g相鄰圖像塊之間的局部一致性。實(shí)驗(yàn)結(jié)果表明,該算法對(duì)未經(jīng)校正的多源圖像的融合效果也非常理想。
圖2 光電系統(tǒng)
為了定位到目標(biāo)的具體位置,大多數(shù)檢測(cè)算法通常會(huì)把圖像分成許多子塊,并提取子塊的特征進(jìn)行識(shí)別。目前存在兩類子塊劃分策略:滑動(dòng)窗口法與選擇性搜索法,前者通過窮舉整個(gè)區(qū)域獲得大量疑似區(qū)域,再進(jìn)行類別分類,但復(fù)雜度太高;后者則有效地去除冗余候多尺度選區(qū)域,使得計(jì)算量大大的減小,但需要先驗(yàn)信息進(jìn)行輔助。
為了有效地利用光電系統(tǒng)不同通道的互補(bǔ)數(shù)據(jù),提升目標(biāo)識(shí)別的精度與速度,本文提出了一種雙通道顯著性目標(biāo)識(shí)別算法,如圖3所示。首先利用融合策略獲取紅外圖像與電視圖像的融合結(jié)果,然后采用顯著性檢測(cè)獲取紅外圖像中的疑似目標(biāo)區(qū)域;最后在融合結(jié)果基礎(chǔ)上利用改進(jìn)YOLO網(wǎng)絡(luò)對(duì)疑似區(qū)域進(jìn)行多層次目標(biāo)識(shí)別。
圖3 雙通道顯著性目標(biāo)識(shí)別算法
由于視距內(nèi)的裝甲目標(biāo)紅外特征明顯,其目標(biāo)特征與背景存在一定的差異。即便是沙漠地帶,典型目標(biāo)仍然可以通過顯著性檢測(cè)進(jìn)行定位。為了實(shí)現(xiàn)目標(biāo)顯著性檢測(cè),本文采用了一種基于特征聚類的顯著性檢測(cè)算法,該方法逐點(diǎn)提取特征向量,并在先驗(yàn)信息未知情況下利用均值漂移算法進(jìn)行目標(biāo)聚類。本文選用的特征向量xi涵蓋區(qū)域的強(qiáng)度、對(duì)比度、空間屬性等多種特征,其可以有效地捕獲顯著性區(qū)域中的對(duì)比度和空間信息,便于后續(xù)特征聚類。
假定d維空間Rd中存在n個(gè)樣本點(diǎn)xi(i=1,…,n),在x點(diǎn)的核密度函數(shù)估計(jì)可以表示為如下等式:
(5)
其中,h是核密度估計(jì)函數(shù)的帶寬,一般設(shè)置為30;K(x)=ck(‖x‖2)是核函數(shù)。等式(5)的核密度梯度可以為:
(6)
其中,c=3。核函數(shù)表征了樣本密度分布估計(jì)情況,工程應(yīng)用中常采用高斯核函數(shù)作為核密度估計(jì)公式中的加權(quán)函數(shù)。假定G(x)是高斯核函數(shù);w(xi)(w(xi)≥0)是樣本xi所對(duì)應(yīng)的權(quán)值,因此均值偏移向量Mh(x)可以表示為如下等式:
(7)
因此,給定一個(gè)初始點(diǎn)x,核函數(shù)G(x),此過程可以通過交替迭代沿著梯度的方向不斷移動(dòng),并采用xt+1=xt+Mh(xt)進(jìn)行更新,最終獲得最優(yōu)的聚類結(jié)果。在聚類結(jié)果的基礎(chǔ)上對(duì)圖像進(jìn)行分塊,計(jì)算每個(gè)塊的質(zhì)心i。以質(zhì)心i為中心點(diǎn),計(jì)算特征向量xi。若與xi相鄰的圖像塊xj的歐式距離d(xi,xj)比其他任意的圖像塊都大時(shí),則該點(diǎn)的特征是顯著的。
由于基于特征聚類的顯著性粗分割結(jié)果中包含大量的虛假目標(biāo),大大提高了后續(xù)檢測(cè)的復(fù)雜度。因此,為同時(shí)均衡檢測(cè)效率與檢測(cè)精度,本文采用消除虛假目標(biāo),同時(shí)利用空間特征篩選出疑似目標(biāo)。
(8)
經(jīng)過多尺度融合的顯著性區(qū)域大大地消減了不必要的背景干擾,其覆蓋的區(qū)域最能代表目標(biāo)所在的位置、大小與尺度信息。然而,紅外場(chǎng)景內(nèi)的顯著性目標(biāo)類型多樣,且形態(tài)各異,僅僅靠多層次顯著性目標(biāo)差異,很難排除虛假目標(biāo)的干擾。由于裝甲目標(biāo)具有明顯的形狀特性,因此本文采用裝甲目標(biāo)的結(jié)構(gòu)性特征剔除虛假目標(biāo)區(qū)域。最直觀的策略就是采用幾何特性進(jìn)行判別。文獻(xiàn)[19]采用長(zhǎng)寬比對(duì)目標(biāo)的幾何特性進(jìn)行判斷,其車輛的長(zhǎng)寬比在2~3之間。文獻(xiàn)[20]采用SVM分類對(duì)顯著性區(qū)域的幾何特征進(jìn)行分類,其中幾何特征包括方向梯度、Hu不變矩等,然后采用SVM進(jìn)行訓(xùn)練與學(xué)習(xí),最終可以實(shí)現(xiàn)橋梁、車輛、建筑等典型目標(biāo)的識(shí)別。由于本章的目的僅僅是消除虛假區(qū)域,縮短后續(xù)深度學(xué)習(xí)的識(shí)別時(shí)間,并不需要獲得準(zhǔn)確的車輛顯著性目標(biāo)。因此,本章采用簡(jiǎn)單的幾何特征進(jìn)行判斷,不增加漏檢概率的情況下,盡可能的剔除虛假區(qū)域,為下一步目標(biāo)識(shí)別提供可靠的目標(biāo)位置,縮小識(shí)別的空間復(fù)雜度。
目前,依靠更深的網(wǎng)絡(luò)層提取目標(biāo)特征并增強(qiáng)卷積層的語(yǔ)義信息來提高識(shí)別精度是一種常見的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方法。然而,由于紅外與電視融合圖像的疑似目標(biāo)區(qū)域已經(jīng)明確,為了降低處理時(shí)間其識(shí)別網(wǎng)絡(luò)的深度也不宜太深,尤其是小目標(biāo)在多次卷積與池化后,其特征表征能力也在下降。因此,本文提出了一種基于改進(jìn)YOLO-v3的目標(biāo)識(shí)別網(wǎng)絡(luò),該網(wǎng)絡(luò)增加了一路輔助網(wǎng)絡(luò),改善整個(gè)特征提取網(wǎng)絡(luò)的性能;并采用注意機(jī)制對(duì)輔助網(wǎng)絡(luò)和骨干網(wǎng)絡(luò)的特征信息融合,增強(qiáng)有效信息通道,抑制無(wú)效信息通道,提高網(wǎng)絡(luò)識(shí)別效率。
與單一結(jié)構(gòu)的YOLO-v3網(wǎng)絡(luò)相比,本文增加了一個(gè)特征提取輔助網(wǎng)絡(luò),其規(guī)模比骨干網(wǎng)絡(luò)略小。主干網(wǎng)的原始?xì)埐钅K使用3×3卷積核提取特征,而輔助網(wǎng)絡(luò)中的殘差模塊使用兩個(gè)連續(xù)的3×3卷積核進(jìn)行殘差提取,獲得5×5的感受野,然后將提取的特征融合到骨干網(wǎng)中。輔助網(wǎng)絡(luò)中使用的感受野大小為5×5。特征圖上使用大的感受野進(jìn)行全局特征提取有助于得到目標(biāo)區(qū)域特征,因此輔助網(wǎng)絡(luò)將獲取的位置特征傳輸?shù)焦歉删W(wǎng)絡(luò)。骨干網(wǎng)絡(luò)結(jié)合使用3×3局部感受野和輔助網(wǎng)絡(luò)提供的目標(biāo)位置信息,可以更準(zhǔn)確地學(xué)習(xí)目標(biāo)詳細(xì)特征。因此,輔助網(wǎng)絡(luò)在一定程度上促進(jìn)了高級(jí)和低級(jí)語(yǔ)義特征的融合,從而大大提高了網(wǎng)絡(luò)的識(shí)別性能。YOLO-v3的原始網(wǎng)絡(luò)具有很深的深度。如果將輔助網(wǎng)絡(luò)添加到整個(gè)骨干網(wǎng)絡(luò),則會(huì)引入更多計(jì)算,從而導(dǎo)致運(yùn)行速度變慢?;谏鲜鲈?改進(jìn)的網(wǎng)絡(luò)僅將輔助網(wǎng)絡(luò)添加到Y(jié)OLO-v3的三個(gè)相應(yīng)尺度檢測(cè)的特征提取層中。
本文中輔助網(wǎng)絡(luò)和主干網(wǎng)的連接方式是在兩個(gè)網(wǎng)絡(luò)之間添加注意機(jī)制。當(dāng)網(wǎng)絡(luò)達(dá)到一定深度時(shí),特征越容易聚合成針對(duì)任務(wù)的更高級(jí)語(yǔ)義特征。本文增加的輔助模塊主要完成對(duì)有效特征的處理和傳輸,對(duì)無(wú)效特征進(jìn)行信道抑制。兩個(gè)網(wǎng)絡(luò)之間的注意機(jī)制的實(shí)現(xiàn)使用了SE模塊(Squeeze-and-Excitation模塊),該模塊結(jié)構(gòu)簡(jiǎn)單,易于部署。添加SE模塊的目的是重新校準(zhǔn)輔助模塊的輸出特性。首先對(duì)特征映射進(jìn)行壓縮,通過平均池化將二維特征通道轉(zhuǎn)化為一維。此時(shí),將特征圖的大小轉(zhuǎn)換為1×1×C,將二維特征圖合并成一維特征圖的目的是為了更好地顯示該層各通道特征值的分布情況。在特征圖壓縮完成后,將激發(fā)一維特征圖,其計(jì)算公式為:
Sc=Fex(Z,W)=σ(W2·ReLU(W1Z))
(9)
其中,Sc是激勵(lì)后的特征圖;σ是sigmoid激活函數(shù);Z表示壓縮后的輸入一維卷積層,其維度是1×1×C;W1Z表示全連接操作,W1的維數(shù)是C/r*C的全連接層; r是尺度例因子,其功能主要是壓縮通道數(shù)量以減少參數(shù)量;W2也是一個(gè)全連接層,其尺寸為C*C/r。W1Z輸出結(jié)果將通過W2連接后輸出1×1×C的特征圖,最后將其激活處理獲得特征圖Sc。Sc是連接模塊的核心,用于指示輔助模塊輸出的通道權(quán)重。通過將不同的信道值乘以不同的權(quán)重,可以增加對(duì)關(guān)鍵信道域的關(guān)注。最后,輔助殘差模塊通過SE模塊重定向,然后進(jìn)入骨干網(wǎng)絡(luò)以完成特征融合。
本文提出的雙通道顯著性目標(biāo)識(shí)別算法主要分為雙模圖像融合(double-model fusion,DMF)、顯著性檢測(cè)(Saliency Detection,SD)與目標(biāo)識(shí)別(Object Recognition,OR)三個(gè)模塊。為了驗(yàn)證所提出模型的性能,尤其是各種模塊之間的組合對(duì)目標(biāo)識(shí)別性能的影響,本實(shí)驗(yàn)主要從消融角度進(jìn)行分析。本文提出的算法采用Python 3.5進(jìn)行開發(fā),選用TensorFlow作為深度學(xué)習(xí)框架,所有實(shí)驗(yàn)均在均在戴爾服務(wù)器上進(jìn)行,其配置如下:Intel core i9-9900k @ 3.6 GHz(×8),16 GB×4(DDR4 3200 MHz),NVIDIA GeForce GTX1050TI 16G×4,Ubuntu 16.04,64位操作系統(tǒng)。值得注意的是,不加優(yōu)化的情況下,4個(gè)GPU對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行YOLO-v3訓(xùn)練大約需要一天的時(shí)間才能收斂。為了提高優(yōu)化效率,采用ADAM優(yōu)化算法,其參數(shù)設(shè)定為:alpha=0.001,beta1=0.9,beta2=0.999和epsilon=10-8。實(shí)際訓(xùn)練過程中每次調(diào)整參數(shù)前所選取的樣本數(shù)量,學(xué)習(xí)率的初始值,隨機(jī)梯度下降的動(dòng)量和衰減分別設(shè)置為16、0.01、0.9和10-6。圖像融合采用的西電張強(qiáng)教授提出的基于雙層次決策規(guī)則的圖像融合,其算法是開源的;目標(biāo)顯著性檢測(cè)采用本文第3節(jié)提出的方法,其c=3,h=30,長(zhǎng)寬比為3.1。
為了實(shí)現(xiàn)對(duì)所提模型進(jìn)行訓(xùn)練、測(cè)試與驗(yàn)證,并進(jìn)行定性定量分析,實(shí)驗(yàn)采用公開數(shù)據(jù)集與自建數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),其中公開數(shù)據(jù)集是國(guó)際公開配準(zhǔn)紅外與可見光圖像TNO數(shù)據(jù);自建數(shù)據(jù)集則是利用圖2所示的光電系統(tǒng)進(jìn)行采集的地面車輛數(shù)據(jù),所有數(shù)據(jù)都時(shí)間標(biāo)記,并根據(jù)靶板參數(shù)映射到相同的尺寸。實(shí)驗(yàn)最終收集了從8000對(duì)紅外與可見光數(shù)據(jù)對(duì),隨機(jī)選擇了4500個(gè)用于訓(xùn)練,2450個(gè)用于驗(yàn)證,1050個(gè)用于測(cè)試。為了便于性能對(duì)比,本文將地面裝甲車輛分為履帶式裝甲、輪式裝甲、貨車、面包車及其他車輛。
實(shí)驗(yàn)選擇了YOLO-v3[13],DenseNet[20],ResNet[22],EfficientDet[23],R-FCN-3000[24]和ATSS[25]作為對(duì)比算法,所有的對(duì)比算法都采用作者給出的源代碼或可執(zhí)行文件。由于對(duì)比算法是對(duì)自然影像的檢測(cè),為了便于公平的定性定量的對(duì)比,所有的深度算法模型都用相同的訓(xùn)練集進(jìn)行訓(xùn)練。本文采用已被廣泛應(yīng)用于目標(biāo)識(shí)別評(píng)估的平均精度均值(Mean Average Precision,mAP)和每秒幀率(Frames Per Second,FPS)作為衡量模型的標(biāo)準(zhǔn),其中 mAP是指多個(gè)類別精度均值(Average Precision,AP)的平均值,每個(gè)類別都可以根據(jù)準(zhǔn)確率(Precision)和召回率(recall)繪制一條PR曲線。
為了便于分析該模型的識(shí)別效果,本實(shí)驗(yàn)不使用顯著性檢測(cè)的結(jié)果進(jìn)行訓(xùn)練,而是直接采用YOLO-v3的選取錨點(diǎn)框的方法進(jìn)行區(qū)域選擇,然后進(jìn)行相關(guān)的訓(xùn)練。在訓(xùn)練過程中,可以通過繪制損失曲線來直觀地觀察訓(xùn)練的動(dòng)態(tài)過程。圖4顯示了本文算法訓(xùn)練期間的平均損失曲線的變換,其中橫坐標(biāo)表示訓(xùn)練迭代次數(shù),縱坐標(biāo)表示訓(xùn)練期間的損失值??梢钥闯?本文算法的訓(xùn)練與測(cè)試機(jī)上的精度與損失度類似,整個(gè)網(wǎng)絡(luò)迭代到3000次就實(shí)現(xiàn)了收斂,充分表明模型的泛化能力較好,適合復(fù)雜戰(zhàn)場(chǎng)環(huán)境下的工程應(yīng)用。
圖4 訓(xùn)練過程
本文提出的雙通道顯著性目標(biāo)識(shí)別算法主要應(yīng)用于光電系統(tǒng)下目標(biāo)指示與識(shí)別,其處理流程是首先對(duì)紅外與可見光圖像進(jìn)行多模態(tài)融合,然后采用顯著性檢測(cè)標(biāo)注出若干疑似顯著性區(qū)域,最后采用改進(jìn)的目標(biāo)識(shí)別算法進(jìn)行識(shí)別。為了對(duì)不同模塊的性能進(jìn)行消融分析,本章設(shè)計(jì)了如下對(duì)比算法:改進(jìn)的識(shí)別算法在可見光圖像上的識(shí)別效果(CCD-Reco),改進(jìn)的識(shí)別算法紅外圖像上的識(shí)別效果(IR-Reco),改進(jìn)的識(shí)別算法在融合圖像上的識(shí)別效果(Fusion-Reco),改進(jìn)識(shí)別算法在顯著性區(qū)域上的識(shí)別效果(Sal-reco),以及本文提出的模型,表1展示了不同模塊下的消融結(jié)果。實(shí)驗(yàn)數(shù)據(jù)可以看出,CCD-Reco與IR-Reco的識(shí)別準(zhǔn)確率僅僅相差2 %,檢測(cè)結(jié)果中紅外與CCD精度存在互補(bǔ)性。也就是說,紅外圖像目標(biāo)不明顯的區(qū)域,在電視下的比較明顯,最后導(dǎo)致CCD-Reco的精度優(yōu)于IR-Reco,反之亦然。經(jīng)過融合后的圖像具有二者的互補(bǔ)特性,最終在識(shí)別結(jié)果上達(dá)到了78.7 %的識(shí)別精度。以上三種對(duì)比算法主要是驗(yàn)證多模態(tài)影像融合對(duì)最終識(shí)別精度的影響,但其識(shí)別速度都在30幀左右。在實(shí)際應(yīng)用中,只有較高的識(shí)別速度,才能有助于工程應(yīng)用。從表1最后一列數(shù)據(jù)也可以看出,增加了顯著性目標(biāo)檢測(cè)的識(shí)別算法獲得了51幀的檢測(cè)速度,完全適合50 Hz的工程應(yīng)用。本文設(shè)計(jì)的顯著性目標(biāo)是提升識(shí)別速度的關(guān)鍵,通過顯著性檢測(cè)性能對(duì)比得知道,該算法能覆蓋大多數(shù)目標(biāo),其最小顯著性目標(biāo)可以檢測(cè)到15×15,但此時(shí)肉眼識(shí)別目標(biāo)也比較困難。即便識(shí)別算法不能識(shí)別出典型目標(biāo),但目標(biāo)指示器也會(huì)給出虛框指示,便于操作手判斷。若識(shí)別算法給出較高置信度,則可以自動(dòng)導(dǎo)引對(duì)準(zhǔn)目標(biāo)。因此,從消融角度分析可知,本文設(shè)計(jì)的三種模塊都是非常合適,且能提升精度與速度。
表1 不同模塊性能分析
本章的選用的對(duì)比算法都是具有源碼的深度網(wǎng)絡(luò)模型,主要應(yīng)用于自然圖像的目標(biāo)檢測(cè)與識(shí)別。針對(duì)本文主要應(yīng)用光電系統(tǒng)的多模態(tài)二維灰度圖像上的目標(biāo)識(shí)別,因此所有的網(wǎng)絡(luò)都是在融合后的圖數(shù)據(jù)集上進(jìn)行訓(xùn)練。表2展示了不同的深度模型對(duì)所有融合圖像的檢測(cè)識(shí)別結(jié)果。從定量測(cè)試結(jié)果來看,本文提出網(wǎng)絡(luò)的識(shí)別精度高于ATSS,和EfficientDet的識(shí)別率幾乎相同。YOLO-v3是單階段識(shí)別網(wǎng)絡(luò),但我們的算法的mAP僅僅比其略高0.2 %,但是檢測(cè)速度確高得多。也就是說,本文所提出的網(wǎng)絡(luò)在識(shí)別精度和識(shí)別速度方面具有良好的性能。圖5展示了本文模型與其他對(duì)比算法之間的PR曲線以便進(jìn)一步比較不同算法之間的性能差異。EfficientDet和ATSS都是CVPR2020中提出并開源的目標(biāo)檢測(cè)網(wǎng)絡(luò),前者從網(wǎng)絡(luò)在特征金字塔網(wǎng)絡(luò)的基礎(chǔ)上,提出一種高效的雙向多尺度的自適應(yīng)加權(quán)融合方法,后者則能夠利用目標(biāo)區(qū)域的相關(guān)統(tǒng)計(jì)自動(dòng)選擇合適的錨框作為正樣本,在不增加額外計(jì)算量和參數(shù)的情況下,大幅提升模型的泛化性能。這兩種網(wǎng)絡(luò)是目前最優(yōu)的深度學(xué)習(xí)網(wǎng)絡(luò),具有較高的精度與速度。
表2 不同方法的識(shí)別準(zhǔn)確率
圖5 不同檢測(cè)識(shí)別模型的PR曲線
圖6是YOLO-v3與本文算法的檢測(cè)識(shí)別定性對(duì)比,其中圖6(a)與圖6(b)分別是可見光探測(cè)器與紅外熱像儀獲得的CCD圖像與IR圖像,圖6(c)是紅外與可見光圖像融合結(jié)果,圖6(d)是YOLO-v3與本文算法對(duì)圖6(c)中融合圖像的識(shí)別結(jié)果??梢钥闯觯疚乃崮P蛯?duì)融合圖像的識(shí)別結(jié)果較好,而YOLO-v3雖然沒有出現(xiàn)漏檢,但結(jié)果存在定位誤差以及誤檢。改進(jìn)的識(shí)別模型能夠很好地識(shí)別目標(biāo),顯著性檢測(cè)模塊已經(jīng)大大消除了背景雜波的干擾。實(shí)際上,訓(xùn)練過程中未加框的區(qū)域?qū)⒛J(rèn)標(biāo)記為背景區(qū)域,改進(jìn)的識(shí)別算法只在顯著性區(qū)域進(jìn)行識(shí)別,即便顯著性區(qū)域存在目標(biāo)粘連,識(shí)別算法也進(jìn)行區(qū)分。顯著性檢測(cè)的目的就是大大降低背景干擾,縮小感興趣區(qū)域的范圍,進(jìn)一步降低復(fù)雜度。從這點(diǎn)可以看出,本文改進(jìn)的YOLO-v3可以提供較高的分類精度。
圖6 YOLO-v3(黑框)與本文算法(白框)的檢測(cè)識(shí)別定性對(duì)比
圖7是不同算法的識(shí)別結(jié)果對(duì)比??梢钥闯鎏砑虞o助網(wǎng)絡(luò)后,相比原始YOLO-v3網(wǎng)絡(luò)結(jié)果,本文模型提高了小目標(biāo)檢測(cè)的有效性和準(zhǔn)確性。例如,原始的YOLO-v3無(wú)法檢測(cè)到圖中的較小的裝甲車輛,但是經(jīng)過改進(jìn)的網(wǎng)絡(luò)可以有效地檢測(cè)目標(biāo),即使在廣域復(fù)雜戰(zhàn)場(chǎng)環(huán)境中,改進(jìn)的網(wǎng)絡(luò)仍然可以準(zhǔn)確地檢測(cè)和識(shí)別。除了常規(guī)的模型指標(biāo)測(cè)試外,本文還添加了干擾狀態(tài)的單個(gè)目標(biāo)測(cè)試。外場(chǎng)采集圖像時(shí),人為釋放了煙霧,干擾目標(biāo)的成像質(zhì)量。受限于篇幅,本文選用了一張圖像進(jìn)行對(duì)比分析。識(shí)別結(jié)果表明,本文改進(jìn)的識(shí)別算法也能才準(zhǔn)確識(shí)別出目標(biāo)。主要?dú)w咎于結(jié)果紅外與可見光的融合圖像有助于提升目標(biāo)的抗干擾能力,以及改進(jìn)網(wǎng)絡(luò)具有較高的泛化能力。以上分析表明,本文改進(jìn)網(wǎng)絡(luò)的邊界框位置與基準(zhǔn)目標(biāo)之間的擬合度也比對(duì)比算法更為準(zhǔn)確,充分驗(yàn)證了結(jié)合注意機(jī)制的輔助網(wǎng)絡(luò)有助于提高目標(biāo)的識(shí)別精度。
圖7 不同算法的識(shí)別結(jié)果對(duì)比
本文的算法首先對(duì)紅外圖像與可見光圖像進(jìn)行融合,然后進(jìn)行顯著性檢測(cè)快速鎖定疑似目標(biāo)區(qū)域;然后利用改進(jìn)的識(shí)別網(wǎng)絡(luò)對(duì)疑似區(qū)域進(jìn)行識(shí)別,大大降低了搜索范圍,提高了識(shí)別速度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)網(wǎng)絡(luò)其識(shí)別準(zhǔn)確率比現(xiàn)有最優(yōu)檢測(cè)網(wǎng)絡(luò)略有提升,但實(shí)時(shí)性得到了大大增強(qiáng)。
本文提出了一種基于改進(jìn)YOLO網(wǎng)絡(luò)的雙通道顯著性目標(biāo)識(shí)別算法,該算法利用紅外圖像與可見光互補(bǔ)特性進(jìn)行多尺度融合,并在融合圖像上采用顯著性檢測(cè)獲取疑似目標(biāo)區(qū)域,最后利用改進(jìn)的識(shí)別網(wǎng)絡(luò)對(duì)疑似區(qū)域進(jìn)行多層次目標(biāo)識(shí)別。改進(jìn)的YOLO識(shí)別網(wǎng)絡(luò)增加了一路輔助網(wǎng)絡(luò),改善整個(gè)特征提取網(wǎng)絡(luò)的性能,并采用注意機(jī)制對(duì)輔助網(wǎng)絡(luò)和骨干網(wǎng)絡(luò)的特征信息融合,增強(qiáng)有效信息通道,抑制無(wú)效信息通道,提高網(wǎng)絡(luò)識(shí)別效率。實(shí)驗(yàn)結(jié)果表明,本文提出的模型可以有效地提高現(xiàn)有網(wǎng)絡(luò)的性能。下一步,項(xiàng)目組將進(jìn)行工程化研制,全面提升裝備的智能化水平。