劉克,潘廣煜,鄭大國,顧佼佼,孟春英
(1. 海軍航空大學(xué),山東 煙臺(tái) 264001;2. 中國人民解放軍92318 部隊(duì),北京 100000;3. 中國航天科工集團(tuán)有限公司 第二研究院,北京 100854)
在航空偵察取證場景中,雙方之間是會(huì)存在靠近與遠(yuǎn)離的過程,取證時(shí)需盡量獲取對方機(jī)型、編號、掛載裝備等信息,以開展事后分析或輿論管控等[1-2]。
為減少航空取證操作負(fù)擔(dān),提高偵察取證設(shè)備智能化水平,提出采用深度學(xué)習(xí)技術(shù)開展偵察取證目標(biāo)的自動(dòng)檢測。主要基于RetinaNet 與SE 模塊融合進(jìn)行航空取證目標(biāo)檢測,可以解決目標(biāo)尺寸變化幅 度 大[3]、樣 本 不 均 衡[4]的 問 題。另 外,Squeezeexcitation(SE)模塊引入的通道注意力機(jī)制加強(qiáng)通道特征針對性[5-6],在可控計(jì)算量前提下進(jìn)一步提高檢測模型的表征能力。
目標(biāo)檢測中存在多種不平衡現(xiàn)象,文獻(xiàn)[4]對目標(biāo)檢測中的不均衡問題進(jìn)行了分析與綜述,將之分為四類:類別不平衡、尺度不平衡、空間不平衡、多任務(wù)損失優(yōu)化之間的不平衡。對于本文來說,類別不平衡是最為突出的問題,主要由樣本數(shù)量上的差別引起。即訓(xùn)練使用的正例數(shù)量遠(yuǎn)遠(yuǎn)小于負(fù)例數(shù)量,影響最終的檢測精度,現(xiàn)有的許多研究可以歸結(jié)為解決這些不平衡的方法。
可將現(xiàn)有目標(biāo)檢測算法粗分為二階段與一階段算法:二階段算法典型代表是基于Region Proposal 的R-CNN(region-convoluntional neural network)系列算法(R-CNN,F(xiàn)ast R-CNN,F(xiàn)aster R-CNN[7]);一階段算法 典 型 代 表 是RetinaNet[8],YOLO(you only look once)系列[9],SSD(single shot multibox detector)[10]等。
在航空取證場景中,視景內(nèi)的目標(biāo)數(shù)量一般較少,F(xiàn)aster R-CNN 等二階段模型中,第1 階段的RPN(region proposal network)可以過濾掉很大一部分負(fù)樣本,第2 階段的檢測模塊只需處理少量的候選框,而且檢測模塊還采用正負(fù)樣本固定比例抽樣(比如1∶3)或者OHEM 方法[11]進(jìn)一步解決正負(fù)樣本不平衡問題。
單階段目標(biāo)檢測方法中,檢測部分要直接處理大量的候選位置,其中負(fù)樣本占據(jù)絕大部分,SSD 的策略是從大量的負(fù)樣本中選出損失最大的前k個(gè)負(fù)樣本以保證正負(fù)樣本比例為1:3。RPN 本質(zhì)上也是單階段檢測模型,訓(xùn)練時(shí)采取的策略也是抽樣,從一張圖像中抽取固定數(shù)量的樣本,正負(fù)樣本分開來隨機(jī)抽樣N/2,如果正樣本不足就用負(fù)樣本填充。
RetinaNet 與YOLO 和SSD 是單階段目標(biāo)檢測模型,主要特點(diǎn)是采用特征金字塔網(wǎng)絡(luò)FPN(feature pyramid networks)應(yīng)對目標(biāo)多尺度變化問題,以及采用Focal Loss 有效應(yīng)對正負(fù)樣本不均衡的問題。
SE[12]模塊是一個(gè)子結(jié)構(gòu),引入通道注意力機(jī)制重新校準(zhǔn)特征圖,學(xué)習(xí)每個(gè)特征通道的作用程度,讓網(wǎng)絡(luò)利用全局信息有選擇地增強(qiáng)有用特征通道并抑制對當(dāng)前任務(wù)作用不大的特征通道,使得有效特征圖權(quán)重大,無效或效用小的特征圖權(quán)重小,訓(xùn)練模型達(dá)到更好的結(jié)果。
經(jīng)實(shí)驗(yàn)驗(yàn)證,在綜合考慮準(zhǔn)確率與計(jì)算復(fù)雜度前提下,采用RetinaNet+SE 改進(jìn)方式進(jìn)一步提高了檢測準(zhǔn)確率,輔以目標(biāo)跟蹤可有效減少設(shè)備操控對飛行員操作帶來的壓力。
RetinaNet 目標(biāo)檢測模型主要特點(diǎn)是具有特征金字塔網(wǎng)絡(luò)FPN,F(xiàn)ocal Loss 處理,以及基于Anchor的檢測機(jī)制。
(1)特征金字塔網(wǎng)絡(luò)FPN
目標(biāo)檢測領(lǐng)域普遍存在目標(biāo)尺度變化大的難題,本場景如圖1 所示,雙方距離較近時(shí),對方軍機(jī)在取證設(shè)備中占據(jù)較大視野,在雙方距離較遠(yuǎn)時(shí)目標(biāo)飛機(jī)可能只占據(jù)少數(shù)像素。
圖1 目標(biāo)尺度(大與小)變化示意圖Fig.1 Schematic diagram of the change of target scale(large and small)
解決方式是生成多尺度特征,SSD,MSCNN(multi?scale convolutional neural network)[13]利 用 不同層的特征圖進(jìn)行不同尺寸的目標(biāo)預(yù)測,二階段目標(biāo)檢測模型中基于候選框的方法也參考這個(gè)思路在不同深度的特征層上預(yù)測不同尺寸的目標(biāo)。大尺寸的物體檢測效果已比較理想,小目標(biāo)在較低卷積層可見性強(qiáng),但較低卷積層語義信息較弱,對后續(xù)的分類性能弱,導(dǎo)致小目標(biāo)檢測性能較差。
由于CNN(convolutional neural network)通過前向傳播自然形成一個(gè)多尺度、多層級的特征金字塔結(jié)構(gòu),具有從低到高級的語義。FPN[14]改進(jìn)CNN 特征提取如圖2 所示,構(gòu)建橫向連接結(jié)構(gòu),在所有尺度充實(shí)特征圖的語義信息:把高層的特征傳下來,用高層語義補(bǔ)充低層的語義特征,把低分辨率、高語義信息的高層特征和高分辨率、低語義信息的低層特征進(jìn)行特征融合,使得所有尺度下都獲得高分辨率、強(qiáng)語義的特征,然后在不同特征層進(jìn)行檢測。既兼顧不同尺寸物體,又控制了計(jì)算量。
圖2 FPN 示意圖Fig.2 FPN schematic diagram
FPN 機(jī)制大幅提升了小像素目標(biāo)檢測的效果,在檢測具有多種尺度的目標(biāo)時(shí)效果明顯。
(2)Focal Loss
常用的損失函數(shù)如交叉熵在訓(xùn)練目標(biāo)檢測模型時(shí)存在問題,如果定義置信度值pt> 0.5 為容易樣本,容易樣本的損失值依然不低,而且這部分樣本占很大比例,將淹沒難樣本的損失。
Focal Loss 引入調(diào)制因子(1 -pt)γ與類別權(quán)重系數(shù)α 構(gòu)建損失函數(shù)為
式中:超參數(shù)γ表示更多關(guān)注難樣本的程度,用于調(diào)整簡單樣本的加權(quán)速率,當(dāng)γ增加時(shí),調(diào)制因子的影響同樣增加;α,1 -α為正例、負(fù)例的權(quán)重系數(shù)。被錯(cuò)分類的樣本pt一般很小,調(diào)制因子接近1;已經(jīng)能正確分類的簡單樣例的pt趨近于1,此時(shí)調(diào)節(jié)因子接近0,該部分損失的權(quán)重大大降低,其可視化如圖3所示。
圖3 調(diào)制因子示意圖Fig.3 Modulation factor diagram
Focal Loss 可根據(jù)置信度動(dòng)態(tài)調(diào)整交叉熵?fù)p失來解決樣本不平衡問題。當(dāng)預(yù)測正確的置信度增加時(shí),loss 的權(quán)重系數(shù)會(huì)衰減至接近0,大量容易樣本的損失貢獻(xiàn)很低,損失集中在難樣本上,模型訓(xùn)練損失更關(guān)注難例,從而提高預(yù)測精度。
SE 模塊引入一種通道注意力機(jī)制重新校準(zhǔn)特征圖,顯示地建模特征通道之間相關(guān)性,學(xué)習(xí)不同通道特征的重要程度,對每個(gè)輸出通道預(yù)測一個(gè)常數(shù)權(quán)重后進(jìn)行加權(quán)。
這個(gè)子結(jié)構(gòu)示意如圖4 所示,并未引入新的空間維度來進(jìn)行特征通道間的融合,而是采用了一種特征重標(biāo)定策略,利用全局信息對原特征圖重新校準(zhǔn),自適應(yīng)地重新校準(zhǔn)通道方向的特征響應(yīng)。具體就是學(xué)習(xí)獲得每個(gè)特征通道的作用程度,讓網(wǎng)絡(luò)利用全局信息有選擇地增強(qiáng)有用特征通道并抑制對當(dāng)前任務(wù)用處不大的特征通道。
圖4 加入SE 模塊前后的ResNet 示意圖Fig.4 Schematic diagram of SE-ResNet module
這會(huì)使得模型中各個(gè)通道的特征更有辨別能力,理論上對小目標(biāo)的檢測有促進(jìn)作用。此處不展開論述其數(shù)學(xué)理論。
SE-RetinaNet 結(jié) 構(gòu) 如 圖5 所 示,在SE-ResNet 結(jié)構(gòu)上構(gòu)建FPN 骨干網(wǎng)絡(luò),生成多尺度卷積特征金字塔FPN,最后附加2 個(gè)子網(wǎng)絡(luò),分別用于anchor 邊界框分類和用于anchor 邊界框回歸。
圖5 SE-RetinaNet 模型示意圖Fig.5 Schematic diagram of SE-RetinaNet model
此處使用的特征提取網(wǎng)絡(luò)中,SE-ResNet 用于提取特征,F(xiàn)PN 用于在SE-ResNet 上構(gòu)建多尺度特征金字塔,在所有尺度上語義都很強(qiáng),并且計(jì)算速度很快。以ResNet-50 和SE-ResNet-50 為例,其網(wǎng)絡(luò)結(jié)構(gòu)對比如表1 所示。
表1 ResNet-50 和SE-ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)對比Table 1 Comparison of ResNet-50 SE-ResNet-50
使用5 個(gè)尺度特征P3,P4,P5,P6,P7構(gòu)建特征金字塔,其stride分別為8,16,32,64,128。
此 處 每 級 anchor 尺 度 分 別 為322,642,1282,2562,5122;長 寬 比 的 設(shè) 定 為{1/2,1,21/3,2,22/3},這 樣 每 個(gè) 位 置 共 有9 個(gè)anchor,所有層中anchor size 的最小值是32 pt,最大值是813 pt。在訓(xùn)練過程中采用基于IoU(intersection over union)的雙閾值anchor 匹配策略,即計(jì)算anchor與所有真實(shí)目標(biāo)框的IoU。設(shè)定的閾值為0.5,0.4,閾值在0.5 以上就將anchor 分配給真實(shí)目標(biāo)框;如果IoU 在[0,0.4)之間則分配為背景;IoU 在[0.4,0.5)中則不參與訓(xùn)練。
每個(gè)anchor 最多分配一個(gè)目標(biāo)框,每個(gè)真實(shí)框可能與多個(gè)anchor 匹配,但可能某個(gè)真實(shí)框與所有anchor 的IoU 最大值小于0.5,盡管不滿足閾值條件,此時(shí)也應(yīng)該保證這個(gè)真實(shí)框被IoU 值最大的an?chor 匹配。最終得到anchor 數(shù)量個(gè)匹配,表示與每個(gè)anchor 匹配的真實(shí)框,計(jì)算loss 時(shí)就可以找到對應(yīng)的類別及其邊界框。
如圖5 中所示,檢測模塊主要包括分類子網(wǎng)絡(luò)(c)和box 回歸子網(wǎng)絡(luò)(d)。分類子網(wǎng)絡(luò)用來預(yù)測每個(gè)空間位置的各個(gè)anchor(數(shù)量為A)的類別概率(類別數(shù)為K)。這是一個(gè)FCN(fully convolutional networks),包括4 個(gè)3×3 的卷積層,每個(gè)層都有C個(gè)濾波器,(ReLU 激活函數(shù),channel 是256),最后是一個(gè)3×3 的卷積,輸出通道數(shù)為KA,得到各個(gè)anchor預(yù)測每個(gè)類別的概率。
框回歸子網(wǎng)絡(luò)用來預(yù)測每個(gè)位置各個(gè)anchor 和真實(shí)目標(biāo)框之間的偏移量,在每個(gè)金字塔級別展開的FCN 目的是將每個(gè)錨框的偏移量回歸到附近的真實(shí)對象。它與分類子網(wǎng)相同,只是最后輸出的是每個(gè)空間位置的4A個(gè)輸出,最后輸出通道是4A。這表明是一個(gè)類別無關(guān)的邊界框回歸器,使用更少的參數(shù),同樣有效。
SE 模塊嵌在原有的網(wǎng)絡(luò)結(jié)構(gòu)中不可避免地增加了一些參數(shù)和計(jì)算量,增加的參數(shù)主要來自2 個(gè)全連接層,維度都是C×C/r,2 個(gè)全連接層的參數(shù)量就是2 × C ×C/r。 SE-ResNet增加的參數(shù)量為C2s,r為降維系數(shù);S表示層數(shù);Cs為第s層的通道數(shù);Ns為第s層堆疊的殘差模塊數(shù)。
以ResNet-50 和SE-ResNet-50 為例對比如表2 所示,各方面相當(dāng),r=16 時(shí)只增加了約10%的參數(shù)量。推理時(shí)間上,GPU 訓(xùn)練時(shí)間多了5.26%,CPU 推理時(shí)間多了不到2%。
表2 ResNet-50 和SE-ResNet-50 指標(biāo)對比Table 2 ResNet-50 SE-ResNet-50 indicators
在航空偵察取證場景中,以50 000 樣本量構(gòu)建訓(xùn)練集,以SE-ResNet-50-FPN,SE-ResNet-101-FPN,SE-ResNet-1521-FPN 為SE-RetinaNet 骨干網(wǎng)絡(luò)開展訓(xùn)練,測得測試準(zhǔn)確性如表3 所示,各訓(xùn)練50 次迭代。其中,SE-ResNet-50 準(zhǔn)確率與原ResNet-101 相當(dāng),提升很大統(tǒng)計(jì)各機(jī)型AP(average precision)如表4 所示。
表3 SE 模塊對原模型的改進(jìn)效果Table 3 Improvement effect of the SE module on the original model
表4 各機(jī)型AP 統(tǒng)計(jì)Table 4 AP statistics of each model
在測試集測試各機(jī)型檢測平均準(zhǔn)確率AP如表,各機(jī)型測試數(shù)量不等(隨機(jī)劃分?jǐn)?shù)據(jù)集),均在200以上。
對以SE-ResNet-50-FPN 為骨干網(wǎng)絡(luò)的4 個(gè)指標(biāo)可視化如圖6 所示,迭代次數(shù)為50,總損失、分類損失與回歸損失基本呈現(xiàn)單調(diào)平穩(wěn)遞減的趨勢。mAP(mean average precision)是評估檢測效果的重要綜合指標(biāo)指標(biāo)[15],從圖6 中可見mAP 基本在0.97上震蕩,檢測效果較好。
圖6 4 個(gè)指標(biāo)可視化圖Fig.6 Visualization of 4 indicators
測試結(jié)果中可見,SE-RetinaNet 模型能夠應(yīng)對目標(biāo)尺度變化較大的情況如圖7 a)~d),并可從飛機(jī)局部特征中判斷機(jī)型。但若局部特征不夠明顯,盡管像素較多仍無法有效地檢測目標(biāo)如圖7 e)。在應(yīng)對極小目標(biāo)時(shí)仍存在分類錯(cuò)誤情況如圖7 f),圖像分辨率為1 280×720,目標(biāo)占據(jù)像素為12×8,檢測到目標(biāo)但分類錯(cuò)誤。
圖7 檢測結(jié)果分析Fig.7 Analysis of test results
可繼續(xù)改進(jìn)SE 等模塊提取有效特征,并嘗試引入細(xì)分類子網(wǎng)絡(luò)進(jìn)一步提高分類與檢測性能。
針對航空偵察取證,本文提出基于SERetinaNet 的目標(biāo)自動(dòng)檢測方法。該改進(jìn)算法中的特征金字塔網(wǎng)絡(luò)FPN 可有效應(yīng)對目標(biāo)尺寸變化較大問題,F(xiàn)ocal Loss 可有效應(yīng)對數(shù)據(jù)均衡性問題,SE模塊引入通道注意力機(jī)制對特征圖進(jìn)行加強(qiáng),可進(jìn)一步利用提取的通道間相關(guān)性增強(qiáng)有效特征并抑制無效特征。實(shí)驗(yàn)表明,該模塊能夠進(jìn)一步增強(qiáng)模型的表征能力,有效提高目標(biāo)檢測效率。后續(xù)可進(jìn)一步改進(jìn)模型結(jié)構(gòu)以提高識別與檢測準(zhǔn)確率。