王全東, 常天慶, 張 雷, 戴文君
(陸軍裝甲兵學(xué)院兵器與控制系, 北京 100072)
圖像處理技術(shù)在軍事領(lǐng)域的典型應(yīng)用是目標(biāo)自動檢測和自動跟蹤系統(tǒng)。目前,坦克火控系統(tǒng)的目標(biāo)自動跟蹤技術(shù)已達(dá)到實(shí)用化水平,中、俄、以、日等國的部分3代坦克已安裝了具備目標(biāo)自動跟蹤功能的穩(wěn)相式火控系統(tǒng),能夠在坦克乘員發(fā)現(xiàn)和鎖定目標(biāo)后對其進(jìn)行自動跟蹤[1]。但由于戰(zhàn)場環(huán)境的復(fù)雜性,坦克火控系統(tǒng)的目標(biāo)自動檢測技術(shù)尚處于研究和試驗(yàn)階段,距離實(shí)戰(zhàn)應(yīng)用尚有差距。導(dǎo)致現(xiàn)有坦克火控系統(tǒng)的目標(biāo)檢測和選取,全部需要依靠乘員人工進(jìn)行搜索和選擇,系統(tǒng)的自動化、智能化水平和對戰(zhàn)場圖像信息的綜合處理能力有待進(jìn)一步提高。迫切需要發(fā)展一種同時具備目標(biāo)自動檢測與跟蹤功能的坦克火控系統(tǒng),實(shí)現(xiàn)對目標(biāo)搜索、檢測、跟蹤和火力打擊的一體化,從而使火控系統(tǒng)能夠從日益復(fù)雜的戰(zhàn)場環(huán)境中更迅速、準(zhǔn)確地發(fā)現(xiàn)、識別和跟蹤各類目標(biāo),更快地對各類戰(zhàn)場目標(biāo)做出反應(yīng)。
目標(biāo)檢測算法通常包含:建議區(qū)域提取、目標(biāo)特征建模和區(qū)域分類與回歸3部分[2],其中特征建模屬于算法的核心部分,其對目標(biāo)特征的表達(dá)能力直接影響分類器精度和算法整體性能。目前主流特征建模方法按照特征提取方式的不同,主要分為:基于人工設(shè)計的特征模型和基于自學(xué)習(xí)的特征模型(以下簡稱人工模型和自學(xué)習(xí)模型)。常用的人工模型,如尺度不變特征變換(scale invariant feature transform, SIFT)[3-4]、方向梯度直方圖(histogram of oriented gradient, HOG)[5-6]、Haar-like[7-8]等,具有結(jié)構(gòu)簡單、直觀的優(yōu)點(diǎn),并且具有良好的可擴(kuò)展性。采用多種特征組合的可變部件模型[9-11](deformable part-based model, DPM)算法,能夠彌補(bǔ)利用單一特征進(jìn)行目標(biāo)表示的不足,是近年來人工模型常用的檢測框架,被大量應(yīng)用于人臉及行人等目標(biāo)檢測任務(wù)并取得了較好的效果。然而由于人工模型只包含圖像原始的像素特征和紋理梯度等信息,并不具備高層語義上的抽象能力,對目標(biāo)的刻畫仍不夠本質(zhì),使得這種方法在處理復(fù)雜場景下目標(biāo)檢測任務(wù)時的效果并不理想。
2006年,文獻(xiàn)[12-13]首次提出了深度學(xué)習(xí)的概念和方法,指出包含多隱層的卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)具有極佳的特征學(xué)習(xí)和提取能力,與傳統(tǒng)人工模型相比,其通過逐層提取方式學(xué)習(xí)到的抽象特征對數(shù)據(jù)本質(zhì)的刻畫能力更強(qiáng),更適合于對數(shù)據(jù)的分類與識別,并且首次提出以“逐層初始化”的方式克服深度神經(jīng)網(wǎng)絡(luò)在參數(shù)訓(xùn)練上容易陷入局部最優(yōu)的問題,解決了困擾深度神經(jīng)網(wǎng)絡(luò)多年的參數(shù)訓(xùn)練難題,掀起了深度學(xué)習(xí)的熱潮,已成為目前最為有效的自學(xué)習(xí)模型方法。2012年,文獻(xiàn)[14]提出的R-CNN算法最早將CNN理論引入目標(biāo)檢測領(lǐng)域,并獲得了當(dāng)年P(guān)ASCAL視覺目標(biāo)圖像庫(visual object classes, VOC)國際目標(biāo)檢測競賽的冠軍,相比于之前采用傳統(tǒng)人工模型檢測算法的最佳結(jié)果,平均精度(mean average precision,MAP)提高了顯著提升。其后的SPP-Net[15]、Fast R-CNN[16]、Faster R-CNN[17-18]等改進(jìn)算法在檢測速度和精度上逐步提升,代表了目前該領(lǐng)域的最高水平。
當(dāng)前,深度學(xué)習(xí)模型已逐漸代替?zhèn)鹘y(tǒng)人工模型算法成為處理圖像檢測問題的主流算法[19-23],為解決復(fù)雜戰(zhàn)場背景環(huán)境下的目標(biāo)檢測提供了新的技術(shù)途徑。本文采用深度學(xué)習(xí)的方法對復(fù)雜戰(zhàn)場環(huán)境下的目標(biāo)檢測與跟蹤問題進(jìn)行了研究,選取坦克裝甲車輛這種典型的戰(zhàn)場目標(biāo)進(jìn)行識別,相關(guān)技術(shù)也適用于其他類型目標(biāo)。
常用的深度學(xué)習(xí)網(wǎng)絡(luò)模型包括自動編碼器、受限波爾茲曼機(jī)、深度置信網(wǎng)絡(luò)和CNN等,其中CNN及其改進(jìn)型網(wǎng)絡(luò)是目前深度學(xué)習(xí)領(lǐng)域采用的主流網(wǎng)絡(luò)模型。
R-CNN算法的原理框架如圖1所示,以對坦克裝甲目標(biāo)的檢測為例,實(shí)現(xiàn)流程是:首先采用選擇性搜索(selective search,SS)方法在整個輸入圖像中提取1 000~2 000個可能包含有目標(biāo)的矩形建議區(qū)域,并通過縮放操作將得到的矩形建議區(qū)域統(tǒng)一縮放到相同大小(227像素×227像素)后,用深度CNN提取其特征向量。然后用訓(xùn)練好的分類器,如Softmax、支持向量機(jī)(support vector machine,SVM)等,對各候選區(qū)域進(jìn)行分類。最后采用非極大值抑制的方法,在一個或多個臨近的判定為相同目標(biāo)的建議區(qū)域中,使用邊界回歸算法精細(xì)修正建議框位置,得到最終的目標(biāo)檢測、識別結(jié)果。
R-CNN算法的缺點(diǎn)在于:一是需要采用CNN提取近2 000個目標(biāo)建議區(qū)域的特征向量,計算量巨大,算法無法滿足實(shí)時性要求;二是由于網(wǎng)絡(luò)的全鏈接層需要固定大小的輸入,為固定輸入CNN前的建議區(qū)域大小而對所有目標(biāo)建議區(qū)域強(qiáng)制進(jìn)行的縮放操作,會導(dǎo)致部分建議區(qū)域圖像比例的失真和圖像信息的流失。SPP-Net[15]和Fast R-CNN[16]算法針對R-CNN算法存在的問題進(jìn)行了改進(jìn),只需對整幅待檢測圖像進(jìn)行1次CNN計算后,直接在整幅圖像的特征圖上找到與建議區(qū)域相應(yīng)的特征區(qū)域,并采用空間金字塔池化(spatial pyramid pooling,SPP)的方法,對不同大小的特征區(qū)域提取出相同固定大小的特征向量用于分類,不再限制輸入神經(jīng)網(wǎng)絡(luò)的建議區(qū)域的大小。與R-CNN算法相比,SPP-Net和Fast R-CNN算法既顯著減小了卷積運(yùn)算的計算量又有效避免了縮放操作帶來的圖像失真和信息流失,使得算法的檢測速度和MAP得到大幅提升。
通過對Fast R-CNN圖像檢測過程中各處理流程時間損耗的分析發(fā)現(xiàn),建議區(qū)域的提取占據(jù)了整個檢測流程的大部分時間,成為制約該算法速度繼續(xù)提高的主要瓶頸。為解決建議區(qū)域提取的速度問題,2015年,文獻(xiàn)[17]提出了Faster R-CNN算法,該算法通過采用和檢測網(wǎng)絡(luò)共享全圖卷積特征的區(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN)的方式,產(chǎn)生高質(zhì)量建議區(qū)域,使得建議區(qū)域的提取時間顯著減小,顯著提高了算法的檢測速度。R-CNN及其改進(jìn)算法在VGG-16網(wǎng)絡(luò)模型下的MAP及訓(xùn)練、檢測時間(GPU模式)對比如表1所示[14-18]。
表1 R-CNN及其改進(jìn)算法的MAP及速度對比
由表1可知,Fsater-RCNN算法的檢測速度和精度較之前的算法有了明顯提高。因此,本文首先采用遷移學(xué)習(xí)的方法將Faster R-CNN算法應(yīng)用解決復(fù)雜背景下的坦克裝甲目標(biāo)檢測問題。
(1) Faster R-CNN算法基本原理
Faster R-CNN算法的基本原理如圖2所示。
圖2 Faster R-CNN算法原理圖Fig.2 Schematic diagram of Faster R-CNN algorithm
其首先使用一組交替出現(xiàn)的Conv+Relu+Pooling網(wǎng)絡(luò)結(jié)構(gòu),在Conv5-3層(對于VGG網(wǎng)絡(luò)而言)得到輸入圖像的卷積特征圖。其次,通過RPN網(wǎng)絡(luò)在特征圖上以滑動窗口的方式產(chǎn)生許多個初始建議區(qū)域(anchor),并通過softmax分類器判斷該anchor屬于前景或背景的概率,再利用bounding box回歸對初始建議區(qū)域的位置進(jìn)行修正,得到精確的建議區(qū)域。最后,通過感興趣區(qū)域(region of interest, ROI)池化將PRN網(wǎng)絡(luò)產(chǎn)生的建議區(qū)域?qū)?yīng)的卷積特征池化為統(tǒng)一大小的特征矢量,并通過分類與回歸網(wǎng)絡(luò)對建議區(qū)域內(nèi)的目標(biāo)進(jìn)行分類和邊界回歸,得到最終的檢測結(jié)果。
(2) 遷移學(xué)習(xí)與模型訓(xùn)練
多層級的深度CNN通常具有海量(千萬級)的模型參數(shù)需要進(jìn)行訓(xùn)練和學(xué)習(xí),對訓(xùn)練樣本的數(shù)量和計算機(jī)的內(nèi)存、計算速度等硬件條件都有非常高的要求。而且現(xiàn)有大規(guī)模圖像數(shù)據(jù)庫,如ImageNet、VOC、CIFAR等,只包含行人、汽車、飛機(jī)等常見目標(biāo),通過此類型數(shù)據(jù)庫訓(xùn)練的深度網(wǎng)絡(luò)模型,只能檢測數(shù)據(jù)庫中所含有的特定類型的目標(biāo)(20類)。但經(jīng)大型數(shù)據(jù)庫訓(xùn)練完成的模型參數(shù)已具備較強(qiáng)的目標(biāo)提取能力,可作為遷移學(xué)習(xí)的初始化參數(shù),顯著提高遷移學(xué)習(xí)的訓(xùn)練效率。
遷移學(xué)習(xí)主要采用小規(guī)模的針對某新型目標(biāo)的數(shù)據(jù)集對在大規(guī)模的圖像數(shù)據(jù)集上預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型的模型參數(shù)進(jìn)行監(jiān)督訓(xùn)練和微調(diào)[24-26],使新訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型具備對該新型目標(biāo)的檢測能力。本文主要針對坦克裝甲目標(biāo)的檢測,由于本文數(shù)據(jù)集的樣本數(shù)量遠(yuǎn)小于ImageNet等圖像數(shù)據(jù)庫(百萬級),因此采用遷移學(xué)習(xí)的方法對模型進(jìn)行訓(xùn)練。常用的深度卷積網(wǎng)絡(luò)模型包括LeNet(5層)、ZF-Net(7層)、Alex-Net(8層)、VGG-Net(19層)和Google-Net(22層)等,較深的網(wǎng)絡(luò)層數(shù)通常意味著更高的檢測精度,但算法卷積計算量也越大,檢測速度也越慢。在綜合考慮檢測精度和算法速度的情況下,選擇層數(shù)適中的ZF-Net模型,本文遷移學(xué)習(xí)的模型訓(xùn)練流程如圖3所示。
圖3 基于遷移學(xué)習(xí)的目標(biāo)檢測模型訓(xùn)練過程Fig.3 Training process of target detection model based ontransfer learning
步驟1構(gòu)建訓(xùn)練與測試數(shù)據(jù)集。深度學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練和測試需要大量的樣本數(shù)據(jù),本文建立了由6 000張彩色圖像構(gòu)成的滿足PASCAL VOC標(biāo)準(zhǔn)數(shù)據(jù)集格式的坦克裝甲車輛圖像庫(訓(xùn)練集5 000張,測試集1 000張)。對訓(xùn)練集和測試集圖像中所有坦克裝甲目標(biāo)均進(jìn)行了標(biāo)注,分別包含12 476和2 317個目標(biāo)。
步驟2選用經(jīng)ImageNet數(shù)據(jù)集上訓(xùn)練好的ZF-Net作為初始化網(wǎng)絡(luò)模型(開源),對模型參數(shù)進(jìn)行有效初始化(區(qū)別于傳統(tǒng)訓(xùn)練模式下的隨機(jī)初始化)。
步驟3采用Fsater R-CNN算法框架,以有監(jiān)督訓(xùn)練的方式,采用由5 000張圖像構(gòu)成的訓(xùn)練數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,根據(jù)損失函數(shù)采用隨機(jī)梯度下降和反向回歸算法對網(wǎng)絡(luò)的模型參數(shù)進(jìn)行微調(diào)和更新,得到新的模型參數(shù)。
步驟4采用由1 000張圖像構(gòu)成的測試數(shù)據(jù)集,對新訓(xùn)練網(wǎng)絡(luò)模型的識別效果進(jìn)行測試,計算得到MAP。
步驟5根據(jù)測試結(jié)果,循環(huán)步驟3~步驟5,進(jìn)行多次的迭代訓(xùn)練,直至模型的MAP達(dá)到預(yù)期的檢測精度。
坦克裝甲目標(biāo)在相機(jī)視場中的成像尺度與其和相機(jī)之間的距離成反比。實(shí)際應(yīng)用中,目標(biāo)可能出現(xiàn)在距離坦克幾十米至數(shù)公里的范圍內(nèi),目標(biāo)成像尺度變化跨度很大。對于坦克圖像庫圖像中的任意目標(biāo),假設(shè)其高度和寬度的較大者為maxw&h像素,按照maxw&h的大小將目標(biāo)分為以下4種尺度類型的目標(biāo),具體的分類標(biāo)準(zhǔn)為
(1)
基于人工模型的典型傳統(tǒng)算法:可變部件模型(deformable part models,DPM)算法以及分別采用ZF和VGG網(wǎng)絡(luò)的Faster R-CNN算法對坦克裝甲車輛圖像庫的測試集中各種尺度裝甲目標(biāo)的檢測精度和速度如表2所示,各項(xiàng)指標(biāo)的最佳效果采用粗體進(jìn)行標(biāo)志。所有的測試均在CPU為E5-2650Lv3,GPU(顯卡)為GTX-TITIAN-X配置的圖像工作站上進(jìn)行。
表2 不同檢測算法在坦克裝甲車輛圖像庫測試集上的檢測精度和速度
由表2可知:
(1) Faster R-CNN算法的檢測精度明顯優(yōu)于傳統(tǒng)DPM算法。雖然Faster R-CNN算法的模型參數(shù)和計算量明顯大于DPM算法,但由于Faster R-CNN算法的絕大部分計算均在GPU上進(jìn)行,使其平均檢測速度可以達(dá)到甚至超過傳統(tǒng)算法(受網(wǎng)絡(luò)深度影響)。
(2) Faster R-CNN算法在采用VGG網(wǎng)絡(luò)時的平均檢測精度比ZF網(wǎng)絡(luò)提高大約7%,但由于VGG網(wǎng)絡(luò)的模型深度增加,導(dǎo)致卷積運(yùn)算量增大,算法檢測速度明顯降低。
(3) 對微型目標(biāo)的檢測精度明顯低于中型和大型目標(biāo),這是傳統(tǒng)DPM算法和Faster R-CNN算法均存在的問題。Faster R-CNN算法對微型目標(biāo)檢測精度不及大目標(biāo)的原因在于:算法采用的網(wǎng)絡(luò)結(jié)構(gòu)(ZF或VGG)中,相鄰兩個卷積網(wǎng)絡(luò)層之間存在一個池化層(作用近似于降采樣),導(dǎo)致深層卷基層輸出特征圖的尺度與原始輸入圖像相比會縮小很多,而算法的RPN和分類與回歸網(wǎng)絡(luò)均采用最后一個卷積層(Conv5-3)的輸出特征作為輸入,其尺度比原始輸入圖像縮小了16倍,對于微型目標(biāo)而言容易造成建議區(qū)域的提取不夠精確,同時也無法保留足夠的信息用于后續(xù)的分類和回歸。提高Faster R-CNN算法對微型目標(biāo)的檢測精度是一個值得繼續(xù)深入研究的問題。
本文訓(xùn)練的基于ZF網(wǎng)絡(luò)的Faster R-CNN算法對坦克裝甲目標(biāo)圖像的部分檢測效果如圖4所示,模型輸出目標(biāo)概率大于0.8即認(rèn)為是目標(biāo)。由檢測結(jié)果可知,本文經(jīng)過遷移學(xué)習(xí)和訓(xùn)練得到的深度網(wǎng)絡(luò)模型在復(fù)雜背景下對各種姿態(tài)和多種類型的坦克裝甲目標(biāo)均具備良好的檢測能力。這是由于深度學(xué)習(xí)算法通過大量的樣本訓(xùn)練使模型具備了較強(qiáng)的目標(biāo)提取能力,并且通過CNN的逐層提取方式得到了坦克裝甲目標(biāo)的深層次結(jié)構(gòu)性特征,與傳統(tǒng)人工規(guī)則構(gòu)造特征的方法相比,該特征更能夠刻畫目標(biāo)圖像數(shù)據(jù)的豐富內(nèi)在信息,對各型坦克均具有較強(qiáng)的泛化能力,而且對目標(biāo)姿態(tài)、顏色、大小和環(huán)境的變化具有很高的容忍度,可以較好的適應(yīng)各種戰(zhàn)場環(huán)境,在有限的煙霧及局部遮擋(此類情況在戰(zhàn)場環(huán)境中較為常見)情況下,仍能識別坦克目標(biāo),顯示出了良好的目標(biāo)檢測識別能力,實(shí)現(xiàn)了對復(fù)雜背景環(huán)境下坦克裝甲目標(biāo)的自動檢測。
圖4 復(fù)雜背景下的坦克裝甲目標(biāo)檢測結(jié)果Fig.4 Detection results of tank armored targets under complex background
部分錯誤檢測結(jié)果如圖5所示,主要表現(xiàn)在算法存在一定的過檢、誤檢、漏檢和檢測失敗的問題。圖5(a)過檢測的原因在于邊界回歸算法存在局限,檢測出的兩個相鄰目標(biāo)框的重疊度未能滿足將其歸于同一目標(biāo)的回歸規(guī)則。圖5(b)誤檢的原因在于CNN學(xué)習(xí)到的是目標(biāo)的深層次結(jié)構(gòu)特征,對于部分局部類似坦克的建議區(qū)域存在被誤檢為坦克目標(biāo)的可能。漏檢(見圖5(c))和檢測失敗(見圖5(d))的原因在于目標(biāo)較小或者遮擋、偽裝嚴(yán)重,CNN難以提取到有用的目標(biāo)特征用于分類,導(dǎo)致的檢測失敗。上述幾種失敗的檢測識別情形,說明深度學(xué)習(xí)算法仍有其不足之處。但其與傳統(tǒng)基于人工特征的檢測算法相比還是表現(xiàn)出了極大的優(yōu)越性,對一般難度的目標(biāo)圖像具有很高的檢測精度。另外本文算法的模型深度和訓(xùn)練樣本數(shù)量有限,對算法的目標(biāo)檢測精度也會有一定影響。
圖5 各種檢測失敗情形Fig.5 Various dection failures
某典型三代坦克目標(biāo)自動跟蹤火控系統(tǒng)采用的“相關(guān)跟蹤”[1]算法原理,如圖6所示。為保證跟蹤算法的實(shí)時性,圖像傳感器一般選用黑白相機(jī)。假設(shè)瞄準(zhǔn)鏡圖像大小為M×N像素,用F(x,y)代表瞄準(zhǔn)鏡圖像中某點(diǎn)(x,y)處的灰度值。在t0時刻,炮長采用大小為K×L的跟蹤框鎖定目標(biāo),產(chǎn)生一個K×L像素大小的目標(biāo)樣板圖像Q,用Q(i,j)代表目標(biāo)樣本圖像點(diǎn)(i,j)處的灰度值。
圖6 目標(biāo)樣板圖像與瞄準(zhǔn)鏡子圖像Fig.6 Target template image and sub-images of sight
用Suv代表左上角坐標(biāo)為(u,v)大小為K×L的一個瞄準(zhǔn)鏡圖像的子圖像,Suv(i,j)代表該子圖像中點(diǎn)(i,j)處的灰度值,則
Suv(i,j)=F(u+i,v+j)
(2)
相關(guān)跟蹤算法就是從當(dāng)前瞄準(zhǔn)鏡圖像中,找到與目標(biāo)樣板最相似的子圖像位置,作為跟蹤結(jié)果。這需要對瞄準(zhǔn)鏡子圖像和目標(biāo)樣板圖像的相似度進(jìn)行衡量,引入相似性測度的概念:
(i,j)-Q(i,j))2
(3)
Ruv越小,說明該子圖像與樣本圖像的相似度越高。為了減小Ruv對光線等環(huán)境因素導(dǎo)致的圖像灰度值變化的敏感程度,通常采用式(4)所示的歸一化后的Ruv作為瞄準(zhǔn)鏡子圖像和目標(biāo)樣板圖像相似度的評價指標(biāo)。
(4)
由式(4)可知,每次相關(guān)匹配操作均需要對樣板圖像和子圖像的K×L個像素灰度值進(jìn)行乘積求和開方運(yùn)算,計算量較大,影響算法實(shí)時性。對于上述問題,序貫相似性檢測算法(sequential similarity detection algorithm,SSDA)[27]方法是一種常用的改進(jìn)算法,其對于失配位置不需要計算所有點(diǎn)對應(yīng)的相關(guān)性,可以迅速得到該位置不是匹配點(diǎn)的結(jié)論。如圖7所示,設(shè)定一個閾值T0,對每一搜索位置,按照一定的對比順序比較該子圖像和目標(biāo)樣板圖像的差值,并累計其誤差Er,當(dāng)Er超過閾值T0則停止匹配計算。
圖7 SSDA算法示意圖Fig.7 Diagram of SSDA algorithm
SSDA算法的匹配精度隨閾值T0的增加而增加,但計算速度隨之降低,因此可以采用單調(diào)增加閾值Tn(或閾值自適應(yīng)算法)代替固定閾值T0,達(dá)到速度和匹配精度的最優(yōu)。
坦克火炮屬于直瞄型武器,從炮長發(fā)現(xiàn)目標(biāo)到火力打擊的過程,可在數(shù)秒內(nèi)完成,在目標(biāo)姿態(tài)和環(huán)境變化不大的情況下,“相關(guān)跟蹤”算法的跟蹤效果還是不錯的。但現(xiàn)有坦克火控系統(tǒng)的目標(biāo)跟蹤技術(shù)在實(shí)際運(yùn)用中也存在如下問題:
(1) 無法從大范圍戰(zhàn)場環(huán)境中快速實(shí)現(xiàn)目標(biāo)的自動檢測與識別,而且目標(biāo)的選取仍需炮長人工進(jìn)行選擇。
(2) 現(xiàn)有跟蹤算法對環(huán)境變化敏感,難以適應(yīng)目標(biāo)姿態(tài)和光照的劇烈變化,尤其是目標(biāo)的快速旋轉(zhuǎn)和遮擋。
為了彌補(bǔ)采用“相關(guān)跟蹤”算法的火控系統(tǒng)在面對環(huán)境或目標(biāo)姿態(tài)劇烈變化時的不穩(wěn)定性,現(xiàn)有坦克火控系統(tǒng)在跟蹤失敗時,允許炮長隨時退出自動跟蹤工況,切換為手動跟蹤工況,但并未從根本上解決上述問題。
為了彌補(bǔ)“相關(guān)跟蹤”算法在面對環(huán)境和目標(biāo)姿態(tài)變化時的不穩(wěn)定性,將基于深度學(xué)習(xí)的檢測算法與現(xiàn)有“相關(guān)跟蹤”算法相結(jié)合,提出了如圖8所示的基于跟蹤-學(xué)習(xí)-檢測(tracking-learning-detection,TLD)框架[28]的復(fù)合式目標(biāo)跟蹤算法,其中檢測器采用基于深度學(xué)習(xí)模型的Faster R-CNN算法,跟蹤器采用SSDA算法。視頻流首先輸入檢測器模塊,當(dāng)檢測出目標(biāo)后,再將目標(biāo)模板送入跟蹤器進(jìn)行跟蹤。之后檢測器模塊和跟蹤器模塊同時工作,并將檢測器與跟蹤器輸出的目標(biāo)位置框Dr和Tr的綜合結(jié)果,作為最終的目標(biāo)跟蹤結(jié)果,以此提高火控系統(tǒng)跟蹤的穩(wěn)定性。同時為保證跟蹤器也能夠適應(yīng)一定程度目標(biāo)的狀態(tài)變化,以檢測器的最新檢測結(jié)果對跟蹤器的跟蹤模板進(jìn)行在線持續(xù)更新。
圖8 基于TLD框架的復(fù)合式跟蹤算法結(jié)構(gòu)Fig.8 Composite tracking algorithm based on TLD framework
檢測器輸和跟蹤器輸出的目標(biāo)位置框Dr和Tr的融合規(guī)則如下:
(1) 若檢測器檢測失敗,跟蹤器跟蹤成功,則以Tr作為最終跟蹤結(jié)果;
(2) 若跟蹤器跟蹤失敗,檢測器檢測成功,則以Dr為最終跟蹤結(jié)果,并對跟蹤器模板進(jìn)行更新和初始化;
(3) 若檢測器、跟蹤器均成功,則計算Dr與Tr的重合度r。若r≥0.8,可認(rèn)為檢測器和跟蹤器的位置輸出結(jié)果基本一致,以Dr為準(zhǔn)。若r<0.8,則分別計算Dr、Tr內(nèi)圖像與上一幀目標(biāo)位置框內(nèi)圖像的相似度,以相似度大的作為最終跟蹤結(jié)果,相似度的計算參照式(4)。
Dr與Tr的重合度(intersection over union, IoU)定義為
(5)
式中,area( )代表求面積。
(4)如果跟蹤器和檢測器均失敗(目標(biāo)丟失),則采用檢測器持續(xù)對目標(biāo)進(jìn)行檢測,待檢測出目標(biāo)后立即對跟蹤器模板進(jìn)行更新和初始化,并重啟跟蹤器。
選取了如圖9所示的4段典型的坦克運(yùn)動視頻,對本文復(fù)合式跟蹤算法與SSDA算法以及TLD算法的跟蹤效果進(jìn)行了對比測試。4段測試視頻的特點(diǎn)為:1號視頻中目標(biāo)進(jìn)行直線運(yùn)動,沒有遮擋且目標(biāo)姿態(tài)和成像大小幾乎不變;2號視頻中目標(biāo)進(jìn)行快速S型機(jī)動,姿態(tài)持續(xù)變化,用于測試模型對目標(biāo)姿態(tài)變化的適應(yīng)能力;3號視頻目標(biāo)運(yùn)動過程中連續(xù)出現(xiàn)樹木遮擋,用于測試算法對目標(biāo)遮擋的適應(yīng)能力;4號視頻為目標(biāo)長時間運(yùn)動的視頻,運(yùn)動過程中目標(biāo)姿態(tài)和目標(biāo)成像大小均存在變化,部分幀中的目標(biāo)存在樹木遮擋,且目標(biāo)顏色與背景較為相似,用于測試跟蹤算法的持續(xù)穩(wěn)定跟蹤能力。測試前對所有測試視頻的目標(biāo)真實(shí)位置都進(jìn)行了標(biāo)注,以用于對算法的跟蹤效果進(jìn)行評估,實(shí)驗(yàn)中設(shè)定跟蹤框與標(biāo)注框的重合度大于0.5即視為跟蹤成功。
圖9 跟蹤算法測試視頻Fig.9 Videos for the test of tracking algorithm
采用目標(biāo)跟蹤測試基準(zhǔn)(object tracker benchmark,OTB)跟蹤算法測試基準(zhǔn)[29]中的成功率和精確率曲線評估本文算法的實(shí)際跟蹤效果,結(jié)果如圖10所示,圖10(a)~圖10(d)分別為1~4號視頻的成功率曲線,圖10(e)~圖10(h)分別為1~4號視頻的精度曲線。其中,A為SSDA跟蹤算法,B為TLD跟蹤算法,C、D均為本文提出的復(fù)合式跟蹤算法。區(qū)別在于:C算法的檢測模塊僅在第一幀及跟蹤器跟蹤失敗時才進(jìn)行檢測,其目的在于提升算法速度;D算法的檢測模塊采用逐幀檢測(檢測器始終處于工作狀態(tài))。各算法的目標(biāo)選取方式、成功跟蹤幀數(shù)以及平均跟蹤速度如表3所示,各項(xiàng)指標(biāo)的最佳效果均采用粗體進(jìn)行標(biāo)志。
圖10 不同跟蹤算法的成功率與精度曲線對比圖Fig.10 Comparison of success rate and accuracy curves of different tracking algorithms
測試視頻總幀數(shù)成功跟蹤幀數(shù)ABCD目標(biāo)選取(手動:×,自動:√)ABCD平均跟蹤速度/(幀/s)ABCD1297297297297297××√√21835286154183××√√33623562276349××√√41 8653821 1521 5341 865××√√40122711
成功率曲線主要反映算法的持續(xù)跟蹤能力即跟蹤算法的穩(wěn)定性,精確率曲線主要反映算法的跟蹤精度。由圖10及表3的測試結(jié)果可得如下結(jié)論。
(1) 跟蹤穩(wěn)定性
在處理目標(biāo)姿態(tài)無明顯變化的簡單跟蹤任務(wù)時(1號視頻),4種算法均能實(shí)現(xiàn)對目標(biāo)的連續(xù)穩(wěn)定跟蹤,但當(dāng)目標(biāo)姿態(tài)發(fā)生快速變化和被部分遮擋時(2、3、4號視頻),A、B算法均出現(xiàn)了不同程度的跟蹤失敗現(xiàn)象,C、D算法的成功跟蹤幀數(shù)明顯高于A、B。原因在于C、D算法的檢測器可以在跟蹤器跟蹤失敗時重新檢測出目標(biāo),并對跟蹤器模板進(jìn)行更新和初始化,使得算法在處理目標(biāo)姿態(tài)變化和遮擋等情況下的跟蹤效果更穩(wěn)定。B算法雖然也有檢測模塊,但其檢測模塊采用在線PN學(xué)習(xí)的方式,檢測效果嚴(yán)重依賴目標(biāo)樣版圖像,對目標(biāo)姿態(tài)變化和遮擋的容忍度有限。C算法的成功跟蹤幀數(shù)少于D算法的原因在于跟蹤失敗后檢測器重新檢測出目標(biāo)需要一定的時間,在此期間存在短暫的目標(biāo)丟失。
(2) 目標(biāo)選取
A、B算法需要手動選取跟蹤目標(biāo),C、D算法可以實(shí)現(xiàn)對跟蹤目標(biāo)的自動選取,自動化程度更高。
(3) 跟蹤精度
當(dāng)4種算法的成功跟蹤幀數(shù)大致相同時(1號視頻),采用跟蹤器和檢測器融合輸出目標(biāo)位置的方式(B、D)比只采用跟蹤器(A、C)的方法,對目標(biāo)的跟蹤精度更高。但當(dāng)目標(biāo)姿態(tài)發(fā)生快速變化和被部分遮擋導(dǎo)致跟蹤失敗時(2、3、4號視頻),跟蹤成功率較高算法(C、D)的跟蹤精度優(yōu)于成功低較低算法(A、B)。
(4) 跟蹤速度
復(fù)合式跟蹤算法(D)的跟蹤速度與現(xiàn)有SSDA(A)相比算法仍存在較大差距,比TLD算法(B)更快是因?yàn)闄z測模塊采用了GPU加速。與D算法相比,C算法是一種折衷的方式,在提高跟蹤速度的同時犧牲了部分跟蹤精度。
要從大范圍戰(zhàn)場環(huán)境中快速檢測和跟蹤目標(biāo),首先要求實(shí)驗(yàn)系統(tǒng)能夠快速、穩(wěn)定地獲得寬視場、高分辨率的戰(zhàn)場圖像。為使圖像具有足夠的像素點(diǎn)用于對目標(biāo)的描述,便于后期的目標(biāo)檢測與跟蹤,相機(jī)視場一般很小(坦克瞄準(zhǔn)鏡的視場為8°左右)。本文采用動態(tài)掃描凝視成像技術(shù),實(shí)現(xiàn)小視場探測器對大范圍戰(zhàn)場的快速成像。具體而言:將相機(jī)固定在轉(zhuǎn)臺上,通過轉(zhuǎn)臺的連續(xù)轉(zhuǎn)動對戰(zhàn)場區(qū)域進(jìn)行連續(xù)掃描,以彌補(bǔ)相機(jī)視場的不足。但相機(jī)隨著轉(zhuǎn)臺的旋轉(zhuǎn)會導(dǎo)致曝光時刻景物與探測器間存在相對運(yùn)動,從而產(chǎn)生像移問題,造成成像的模糊及拖尾效應(yīng)。本文通過在相機(jī)的光學(xué)系統(tǒng)前增加快速反射鏡,以控制快速反射鏡旋轉(zhuǎn)的方式實(shí)現(xiàn)對像移的補(bǔ)償。
為了在曝光時間保持景物與探測器之間的相對靜止,使探測器在運(yùn)動狀態(tài)下仍能保持對景物的凝視(達(dá)到靜止成像的效果),必須通過對快速反射鏡的反掃控制,實(shí)現(xiàn)對探測器(隨動于轉(zhuǎn)臺)轉(zhuǎn)動速度的補(bǔ)償。
系統(tǒng)連續(xù)成像的過程與反掃工作時序如圖11所示,其中,θM為探測器位置,θS為瞄準(zhǔn)線(視軸)位置,θFSM為反射鏡位置。當(dāng)探測器處于位置M,瞄準(zhǔn)線處于位置a時,瞄準(zhǔn)線處于視場#a的中心,此時要求反射鏡的轉(zhuǎn)動速度ωFSM和探測器的轉(zhuǎn)動速度ωM相匹配,使得瞄準(zhǔn)線在慣性空間“凝視”;同時必須保證“凝視”時間(反掃時間)大于探測器的積分時間,完成對視場#a的清晰成像。當(dāng)探測器完成積分成像后,反掃補(bǔ)償鏡快速回到反掃起始位置。當(dāng)系統(tǒng)判斷探測器位置位于M+1時,瞄準(zhǔn)線處于位置a+1,此時兩幅圖像剛好滿足設(shè)計的重疊角度,快速反射鏡再次進(jìn)行反掃,再次使瞄準(zhǔn)線在慣性空間“凝視”,完成對視場#a+1的清晰成像,隨后重復(fù)本過程(#a+2,…,#a+n),直至完成整個區(qū)域循掃或周視成像。
圖11 系統(tǒng)連續(xù)成像過程與反掃工作時序Fig.11 Continuous imaging process of the system
在圖11(b)所示的工作時序下,整個光學(xué)系統(tǒng)和探測器隨著轉(zhuǎn)臺進(jìn)行“勻速轉(zhuǎn)動”,反掃補(bǔ)償鏡以固定周期進(jìn)行“步進(jìn)”和“反掃”,2個運(yùn)動機(jī)構(gòu)(轉(zhuǎn)臺和反射鏡)共同運(yùn)動、精確配合,使瞄準(zhǔn)線周期性的“步進(jìn)”和“凝視”。在“凝視”期間,探測器位置隨轉(zhuǎn)臺的轉(zhuǎn)動不斷變化,但瞄準(zhǔn)線角度穩(wěn)定不變,從而實(shí)現(xiàn)探測器對戰(zhàn)場偵查區(qū)域的高效凝視成像。
目標(biāo)檢測與跟蹤實(shí)驗(yàn)系統(tǒng)的總體控制結(jié)構(gòu)如圖12所示。系統(tǒng)采用復(fù)合軸控制,主要包括轉(zhuǎn)臺位置控制回路和快速反射鏡位置控制回路。2個控制回路均采用由位置環(huán)和速度環(huán)構(gòu)成的雙環(huán)控制結(jié)構(gòu),其中轉(zhuǎn)臺位置控制回路以慣性角速率測量元件(陀螺)為反饋,隔離外界的力矩擾動,確保轉(zhuǎn)臺以給定的速度掃描成像。
實(shí)驗(yàn)系統(tǒng)主要有區(qū)域偵查、全景偵查和目標(biāo)跟蹤(手動/自動)3種工作模式。區(qū)域偵查模式下:首先通過調(diào)轉(zhuǎn)指令將轉(zhuǎn)臺旋轉(zhuǎn)至掃描起始位置,然后向掃描方向勻速旋轉(zhuǎn),同時通過反掃指令對反射鏡的速度進(jìn)行控制,實(shí)現(xiàn)對指定區(qū)域的掃描凝視成像,并通過目標(biāo)檢測算法快速發(fā)現(xiàn)其中的可疑目標(biāo)及其所處方位。全景偵查模式下:控制系統(tǒng)可無視轉(zhuǎn)臺實(shí)際位置,從轉(zhuǎn)臺現(xiàn)有位置為掃描起點(diǎn),在反掃指令的配合下,完成360°掃描凝視成像,并通過目標(biāo)檢測算法快速發(fā)現(xiàn)360°視場中的可疑目標(biāo)及其所處方位。目標(biāo)跟蹤模式下:系統(tǒng)在區(qū)域偵查或全景偵查發(fā)現(xiàn)可疑目標(biāo)后,將轉(zhuǎn)臺快速調(diào)轉(zhuǎn)至目標(biāo)所在區(qū)域,并采用復(fù)合式跟蹤算法實(shí)現(xiàn)對目標(biāo)的持續(xù)跟蹤。
實(shí)驗(yàn)系統(tǒng)的電氣關(guān)聯(lián)圖如圖13所示。其中,管理計算機(jī)接收來自信息處理計算機(jī)的各種操控指令,并傳輸給可見光相機(jī)、紅外相機(jī)、激光測距機(jī)、伺服控制計算機(jī)等組成單元,控制組成單元的功能和運(yùn)動,同時將光電系統(tǒng)的視頻圖像信息、瞄準(zhǔn)線角度信息等回饋給信息處理計算機(jī)。相機(jī)獲得的圖像數(shù)據(jù)通過兩路千兆網(wǎng)分別傳輸,首先由上位光纖收發(fā)器將兩路千兆網(wǎng)轉(zhuǎn)換為光信號,并通過光滑環(huán)傳輸?shù)较挛还饫w收發(fā)器,下位光纖收發(fā)器將接收到的光信號重新轉(zhuǎn)化為兩路千兆網(wǎng)信號并最終傳入信息處理計算機(jī)進(jìn)行目標(biāo)檢測和跟蹤的處理。
圖12 目標(biāo)檢測與跟蹤實(shí)驗(yàn)系統(tǒng)總體控制結(jié)構(gòu)Fig.12 Overall control structure of the target detection and tracking experiment system
圖13 實(shí)驗(yàn)系統(tǒng)電氣關(guān)聯(lián)圖Fig.13 Electrical connection diagram of experimental system
光相機(jī)與紅外相機(jī)的分辨率分別為:1 600×1 200和640×480,二者的視場一致且為同軸設(shè)計,水平向均為5.4°,垂直向均為7.2°,光軸一致性小于0.3 mrad。設(shè)計了如圖14(a)所示的光路結(jié)構(gòu),經(jīng)快速反射鏡反射的入射光線通過一個分光鏡,將入射光線分為可見光和紅外光兩部分,分別送入可見光與紅外相機(jī)進(jìn)行成像。由同一個快速反射鏡彌補(bǔ)轉(zhuǎn)臺運(yùn)動導(dǎo)致的像移問題,實(shí)現(xiàn)了可見光和紅外相機(jī)對快速反射鏡的共用。如圖14(b)所示,可見光相機(jī)由于分光鏡的遮擋,未能在實(shí)際結(jié)構(gòu)中顯示。
圖14 光路結(jié)構(gòu)設(shè)計Fig.14 Design of optical structure
最終設(shè)計的實(shí)驗(yàn)系統(tǒng)及系統(tǒng)終端界面如圖15所示,主要包含:伺服控制、目標(biāo)調(diào)轉(zhuǎn)、激光測距、軸角解算和目標(biāo)檢測與跟蹤等功能。通過對轉(zhuǎn)臺軸角的解算,可以實(shí)時獲得掃描圖像的方位信息。當(dāng)檢測到目標(biāo)后,通過調(diào)轉(zhuǎn)指令,可將相機(jī)視場快速移動到目標(biāo)所在區(qū)域。
系統(tǒng)主要存在區(qū)域偵查、全景偵查和目標(biāo)跟蹤(手動/自動)3種工作模式,為保證可見光相機(jī)和紅外相機(jī)曝光的一致性,二者均采用統(tǒng)一的外部曝光觸發(fā)脈沖。在GPU加速的情況下,本文采用ZF網(wǎng)絡(luò)的Faster R-CNN算法的檢測速度可以達(dá)到17幀/s。由于算法目前的檢測速度有限,在此我們設(shè)計全景偵查的周期為5 s:曝光脈沖頻率15 Hz,由75張掃描圖像構(gòu)成360°周視成像,相鄰兩幀圖像重疊0.6°。區(qū)域偵查的周期為2 s:曝光脈沖頻率12 Hz,由24張掃描圖像構(gòu)成120°區(qū)域成像,相鄰兩幀圖像重疊0.4°。對全景或區(qū)域偵查采集的戰(zhàn)場圖像進(jìn)行目標(biāo)檢測,根據(jù)檢測算法輸出的目標(biāo)概率大小,只顯示概率最高(≥0.8)的3幅可疑目標(biāo)圖像及其方位信息。操作人員可通過調(diào)轉(zhuǎn)指令將,將相機(jī)視場快速調(diào)轉(zhuǎn)至目標(biāo)所在區(qū)域,并對其進(jìn)行監(jiān)視和跟蹤。
圖15 目標(biāo)檢測與跟蹤實(shí)驗(yàn)系統(tǒng)Fig.15 Target detection and tracking experiment system
系統(tǒng)目前的目標(biāo)檢測和跟蹤功能只針對可見光圖像。由于紅外圖像的訓(xùn)練樣本十分有限,本文尚未進(jìn)行對紅外圖像目標(biāo)檢測和跟蹤的研究,目前紅外相機(jī)僅作為一種輔助成像方式,用來人工發(fā)現(xiàn)隱蔽目標(biāo)。對實(shí)驗(yàn)系統(tǒng)的成像以及本文目標(biāo)檢測和跟蹤算法的實(shí)際效果進(jìn)行了測試。
保證相機(jī)在快速掃描情況下的清晰成像是開展目標(biāo)檢測和跟蹤的基礎(chǔ),圖像清晰度對后續(xù)目標(biāo)檢測和跟蹤的結(jié)果具有重要影響。對實(shí)驗(yàn)系統(tǒng)在靜止成像、移動成像和移動反掃成像3種成像方式下可見光相機(jī)的成像效果進(jìn)行了測試,其中靜止成像指轉(zhuǎn)臺和反射鏡均靜止情況下的成像,移動成像指轉(zhuǎn)臺轉(zhuǎn)動而反射靜止情況下的成像,移動反掃成像指轉(zhuǎn)臺和反射鏡均轉(zhuǎn)動,即動態(tài)掃描凝視成像方式下的成像。測試結(jié)果如圖16所示,可以發(fā)現(xiàn)相機(jī)在移動成像方式下的成像結(jié)果存在嚴(yán)重的像移模糊現(xiàn)象,而移動反掃成像通過對反射鏡的控制,在“動平衡”中實(shí)現(xiàn)了對轉(zhuǎn)臺運(yùn)動造成的像移補(bǔ)償,使曝光時刻景物與探測器之間保持相對靜止,實(shí)現(xiàn)了對景物的穩(wěn)定清晰成像,成像效果與靜止曝光無明顯差異。
點(diǎn)銳度法是一種改進(jìn)的邊緣銳度算法,主要根據(jù)圖像邊緣灰度變化情況來判別圖像的清晰度,該方法易于實(shí)現(xiàn),適用于細(xì)節(jié)豐富、有紋理特征的圖像清晰度評價。為了對不同成像方式下的成像效果進(jìn)行定量分析,本文采用點(diǎn)銳度的方法對系統(tǒng)成像質(zhì)量進(jìn)行評價。
圖16 不同成像方式下可見光相機(jī)的成像序列對比Fig.16 Comparison of imaging sequences of visible light camera in different imaging modes
對于一幅m×n大小的彩色圖像,首先分別提取圖像三通道的RGB分量:Rm×n,Gm×n,Bm×n。則該彩色圖像最終的點(diǎn)銳度評價值為
PRGBm×n=0.30PRm×n+0.59PGm×n+0.11PBm×n
(6)
對圖16所示的3組不同成像方式下成像序列的點(diǎn)銳度進(jìn)行了計算,其結(jié)果如表4所示。
表4 可見光相機(jī)各種成像方式下的點(diǎn)銳度及歸一化點(diǎn)銳度值
表4中,PRGB(a)、PRGB(b)、PRGB(c)分別為靜止成像、移動成像和移動反掃成像方式下可見光相機(jī)成像序列的點(diǎn)銳度評價值。由于圖像的點(diǎn)銳度會受圖像內(nèi)容影響,為了彌補(bǔ)圖像內(nèi)容對點(diǎn)銳度的影響,以靜止成像時圖像的點(diǎn)銳度為參考,對移動成像和移動反掃成像時圖像的點(diǎn)銳度進(jìn)行歸了一化處理,其中
(7)
由表4可知,采用移動反掃成像方式下相機(jī)成像序列的相對點(diǎn)銳度值明顯高于移動成像方式,說明移動反掃成像方式下相機(jī)成像的清晰度明顯高于移動成像。而且移動反掃成像方式下相機(jī)成像序列的點(diǎn)銳度值均在靜止成像方式相機(jī)成像序列點(diǎn)銳度值的90%以上,說明兩者清晰度差別不大,系統(tǒng)動態(tài)掃描凝視成像效果良好。
120°區(qū)域偵查模式下的目標(biāo)檢測結(jié)果如圖17所示。轉(zhuǎn)臺掃描起點(diǎn)的軸角位置為(60°, 0°),以下均按照(方位角,俯仰角)的方式對軸角進(jìn)行表示。采用順時針掃描,整個120°掃描區(qū)域由24張圖像構(gòu)成,其中在第7幀和第16幀中發(fā)現(xiàn)可疑坦克裝甲目標(biāo),輸出的目標(biāo)概率分別為0.983和0.992,圖像所在軸角位置分別為(92.79°, 0.10°)和(137.58°, 0.08°),與目標(biāo)實(shí)際位置相符。2幅圖像的俯仰方向軸角不為零,是因?yàn)檗D(zhuǎn)臺轉(zhuǎn)動時系統(tǒng)存在輕微抖動,對陀螺儀輸出的角度值存在一定影響,但影響較小,基本可以忽略。操作人員可根據(jù)軸角解算得到的圖像方位信息,將相機(jī)視場快速調(diào)轉(zhuǎn)至目標(biāo)所在區(qū)域,在跟蹤模式下對其進(jìn)行后續(xù)監(jiān)視和跟蹤。
圖17 120°區(qū)域偵查模式下的目標(biāo)檢測結(jié)果Fig.17 Target detection results in 120° regional detection mode
選取了一段包含遮擋及目標(biāo)快速旋轉(zhuǎn)機(jī)動的場景視頻,對上述目標(biāo)檢測與跟蹤一體化算法(C、D)與現(xiàn)有SSDA(A)及TLD(B)算法進(jìn)行了對比測試,跟蹤結(jié)果如圖18所示。在第30幀附近,目標(biāo)與背景顏色相近且出現(xiàn)樹木遮擋,A算法由于跟蹤誤差的累積使跟蹤出現(xiàn)漂移,并逐漸導(dǎo)致跟蹤失敗。B、D算法由于檢測器的存在,其跟蹤并未受遮擋的影響,C算法在跟蹤器失敗后,在第34幀通過目標(biāo)檢測器重新檢測出了目標(biāo),并對跟蹤器進(jìn)行了初始化。目標(biāo)在第90~150幀進(jìn)行快速轉(zhuǎn)彎機(jī)動,在此期間目標(biāo)姿態(tài)發(fā)生持續(xù)快速變化。由于目標(biāo)機(jī)動速度較快,在第125幀附近,B、C算法均出現(xiàn)了目標(biāo)跟蹤丟失的情況,C算法跟蹤失敗是由于其跟蹤模塊采用SSDA算法,由于目標(biāo)姿態(tài)變化顯著超出模型了容忍度,導(dǎo)致跟蹤失敗(但隨后又通過檢測器模塊在130幀附近檢測出目標(biāo))。B算法采用線上PN學(xué)習(xí)的方式,由于其跟蹤模板更新速度跟不上目標(biāo)姿態(tài)變化或者目標(biāo)特征變化太大,超出模型容忍度,導(dǎo)致跟蹤失敗。本文復(fù)合式跟蹤算法(D)的檢測器模塊,采用深度學(xué)習(xí)(線下學(xué)習(xí))的方法,能夠適應(yīng)目標(biāo)的各種姿態(tài)變化,在跟蹤器跟蹤失敗的情況下,可以重新檢測出目標(biāo),并對跟蹤器模板進(jìn)行在線跟新,從而實(shí)現(xiàn)了對目標(biāo)的持續(xù)穩(wěn)定跟蹤,取得了較好的跟蹤效果。但基于深度學(xué)習(xí)的目標(biāo)檢測器的計算量巨大、速度較慢,導(dǎo)致復(fù)合式跟蹤算法的速度目前尚不能達(dá)到實(shí)時性的要求。
圖18 坦克裝甲目標(biāo)的檢測跟蹤結(jié)果Fig.18 Detection and tracking results of tank armored target
信息化戰(zhàn)爭中,坦克乘員往往要在較短時間內(nèi)處理大量的戰(zhàn)場信息,對整車反應(yīng)速度提出了更高要求,實(shí)現(xiàn)對目標(biāo)的自動檢測與跟蹤是坦克火控系統(tǒng)未來發(fā)展的重要方向,本文設(shè)計了一套面向坦克火控系統(tǒng)的目標(biāo)自動檢測與跟蹤實(shí)驗(yàn)系統(tǒng)。該系統(tǒng)采用動態(tài)掃描凝視成像技術(shù)實(shí)現(xiàn)了對大范圍戰(zhàn)場圖像的快速、清晰獲取,并采用遷移學(xué)習(xí)和基于深度學(xué)習(xí)模型的Faster R-CNN算法實(shí)現(xiàn)了對復(fù)雜背景下的坦克裝甲目標(biāo)的快速檢測,與基于人工模型的傳統(tǒng)算法相比達(dá)到了較高的檢測精度。通過將Faster R-CNN算法與現(xiàn)有跟蹤算法相結(jié)合,提出了復(fù)合式目標(biāo)跟蹤算法,實(shí)現(xiàn)了對坦克裝甲目標(biāo)的自動檢測與穩(wěn)定跟蹤。
本文實(shí)驗(yàn)結(jié)果表明:基于深度學(xué)習(xí)的目標(biāo)檢測算法通過多層CNN學(xué)習(xí)和提取坦克的目標(biāo)深層次結(jié)構(gòu)模型,能夠檢測出各種姿態(tài)下的坦克裝甲目標(biāo),對目標(biāo)的煙霧或局部遮擋以及目標(biāo)姿態(tài)、顏色、大小和環(huán)境、背景的變化具有較高的容忍度。同時,通過將其與傳統(tǒng)跟蹤算法相結(jié)合,可以實(shí)現(xiàn)目標(biāo)的自動檢測和持續(xù)穩(wěn)定跟蹤,為坦克火控系統(tǒng)實(shí)現(xiàn)對復(fù)雜背景條件下的目標(biāo)自動檢測與跟蹤,提供了一種穩(wěn)定、可行的技術(shù)方案。研究中發(fā)現(xiàn)目前深度學(xué)習(xí)算法在應(yīng)用于坦克火控系統(tǒng)的目標(biāo)檢測、跟蹤時仍然存在部分問題,主要表現(xiàn)在:
(1) 算法實(shí)時性有待提高
目前,F(xiàn)aster R-CNN等主流深度學(xué)習(xí)算法尚無法實(shí)現(xiàn)對連續(xù)視頻的實(shí)時檢測與跟蹤,但深度學(xué)習(xí)算法的發(fā)展速度很快,從R-CNN模型到Faster R-CNN僅用了不到兩年時間,檢測速率已經(jīng)提高了近百倍,最新的YOLO(you only look once)[30]、SSD(single shot detector)[31]等深度學(xué)習(xí)模型采用“單步檢測”的方式省略建議區(qū)域提取過程,直接利用CNN的全局特征預(yù)測每個目標(biāo)的可能位置,已經(jīng)可以實(shí)現(xiàn)視頻目標(biāo)的實(shí)時檢測,但模型精度有所降低。
(2) 模型復(fù)雜度高,計算量大,對系統(tǒng)軟硬件需求較高
現(xiàn)有深度學(xué)習(xí)算法基本未考慮計算機(jī)資源的限制,其對計算機(jī)軟硬件的需求遠(yuǎn)超目前火控計算機(jī)的資源配置,要實(shí)現(xiàn)此類技術(shù)在坦克火控系統(tǒng)中的工程應(yīng)用,需要繼續(xù)對模型進(jìn)行適當(dāng)簡化和優(yōu)化,降低對系統(tǒng)的軟硬件要求和設(shè)備成本。
(3) 對于小微目標(biāo)仍然存在部分漏檢問題
對于一般場景下的顯著目標(biāo),Faster R-CNN算法已經(jīng)可以達(dá)到很高的檢測精度(MAP>60)。但深度學(xué)習(xí)算法在在小微目標(biāo)檢測方面的精度與大尺度目標(biāo)相比仍有較大的提高空間。這是由于算法采用的網(wǎng)絡(luò)結(jié)構(gòu)中,相鄰2個卷積網(wǎng)絡(luò)層之間存在一個池化層,導(dǎo)致深層卷基層輸出特征圖的尺度與原始輸入圖像相比會縮小很多,對于小微目標(biāo)而言容易造成建議區(qū)域的提取不夠精確,同時也無法保留足夠的信息用于后續(xù)的分類和回歸。通過合理利用多個卷基層特征而不僅僅是最后一個卷基層的特征的方式來彌補(bǔ)小微目標(biāo)的特征在經(jīng)過多個池化層后在深層卷積特征圖上的信息損失,從而增強(qiáng)算法對小微目標(biāo)的檢測能力,是一種不錯的改進(jìn)思路。
未來要實(shí)現(xiàn)深度學(xué)習(xí)算法在坦克火控系統(tǒng)目標(biāo)自動檢測與跟蹤中的工程化應(yīng)用,后續(xù)應(yīng)主要圍繞上述3項(xiàng)問題開展相關(guān)研究工作。此外,目前尚未有標(biāo)準(zhǔn)的大規(guī)模戰(zhàn)場目標(biāo)圖像數(shù)據(jù)庫,導(dǎo)致模型訓(xùn)練樣本數(shù)量偏少。如何利用小樣本數(shù)據(jù)實(shí)現(xiàn)高效網(wǎng)絡(luò)的訓(xùn)練也是一項(xiàng)值得深入研究的問題。