趙春暉,肖舒勻,宿 南
(哈爾濱工程大學(xué) 信息與通信工程學(xué)院,哈爾濱 150001)
近年來,遙感圖像廣泛應(yīng)用于各個領(lǐng)域[1-2]。艦船遙感圖像的目標檢測是遙感圖像研究領(lǐng)域重要的內(nèi)容。實現(xiàn)艦船目標的精準檢測對保證海上安全、漁業(yè)管理以及海域監(jiān)管具有重要意義。艦船目標識別不僅要實現(xiàn)通常意義上的艦船檢測,還要實現(xiàn)對于艦船型號的細粒度級分類。由于海洋環(huán)境多變、海岸艦船排列緊密,艦船船型復(fù)雜、目標較小等多種因素,艦船的目標檢測中特征信息的提取以及利用受到復(fù)雜現(xiàn)象的抑制,容易導(dǎo)致漏檢以及錯檢等問題,因此艦船的定位及識別更加具有挑戰(zhàn)性。
傳統(tǒng)的艦船目標檢測算法通過先驗信息首先選擇海洋作為研究區(qū)域[3-4],然后利用模板匹配、監(jiān)督分類等方式在尋找感興趣區(qū)域進行目標檢測。但是,傳統(tǒng)方式對遙感圖像的質(zhì)量要求較高且方法魯棒性較差,難以滿足實際生產(chǎn)生活應(yīng)用的要求?;谏疃葘W(xué)習(xí)的艦船目標檢測算法更為高效,檢測算法主要分為雙階段和單階段兩種類型。單階段目標檢測算法以YOLO系列[5]作為代表,直接在圖像上對目標進行定位以及預(yù)測出類別置信度,該類算法速度更優(yōu);雙階段目標檢測算法以Faster R-CNN[6]系列作為代表,具有區(qū)域建議網(wǎng)絡(luò)結(jié)構(gòu),先預(yù)測一些可能存在目標的候選框,該類算法檢測準確率更具優(yōu)勢。
深度學(xué)習(xí)算法目標檢測中,特征信息的提取及利用決定了算法的檢測效果。特征金字塔(Feature Pyramid Networks,F(xiàn)PN)[7]的提出實現(xiàn)了對多尺度特征新的融合,更充分的保留和利用了不同特征層中語義信息和位置信息。注意力機制可增強網(wǎng)絡(luò)的表達能力。SENet(Squeeze-and-Excitation Networks)[8]網(wǎng)絡(luò)是最早提出的成型的基于注意力機制的網(wǎng)絡(luò),Hu等通過將SENet結(jié)構(gòu)插入到分類網(wǎng)絡(luò)中通過對特征通道信息進行加權(quán)提升了網(wǎng)絡(luò)的分類能力。CBAM(Convolutional Block Attention Module)[9]模塊是利用通道和空間的關(guān)系,增強特征層的空間信息。ECAM(Efficient Channel Attention Module)[10]在SENet網(wǎng)絡(luò)基礎(chǔ)上主要通過全局平均池化和全連接層對通道信息進行加權(quán),可以高效快速的改善網(wǎng)絡(luò)對不同通道的注意力。
FPN模塊是目標檢測算法中常用的特征融合模塊,見圖1,巧妙地融合了多尺度的特征信息[11],但其不足之處:①在FPN中,特征層以自上而下的方式進行融合,高層的特征信息可以對低層特征進行指導(dǎo),豐富低層的語義信息,最頂層的特征層缺乏其他層信息的補充以及1x1的卷積降維導(dǎo)致部分信息丟失;②FPN特征融合后,每個候選區(qū)域的特征是根據(jù)預(yù)測框的尺寸大小選擇的,即大目標選用高層特征層提取目標特征,小目標選用低層特征層提取目標特征[12],導(dǎo)致其它特征層對于某個目標的語義信息被忽略,不利于目標檢測的檢測精度。
圖1 FPN結(jié)構(gòu)
本文主要針對FPN存在的兩個特定性問題進行改進。基于注意力機制的特征增強架構(gòu)被提出來以改進FPN的不足,架構(gòu)中包含兩個改進模塊:頂層特征增強和自適應(yīng)ROI特征增強。頂層特征增強模塊是一個通道和空間信息雙重注意力網(wǎng)絡(luò),最頂層的特征層{C5}經(jīng)過通道注意力和空間注意力之后進行融合為一個新的特征層,以此保證頂層特征層的特征信息更完整的得到保留,將得到的新特征層與后續(xù)的特征層再進行融合。自適應(yīng)ROI特征增強模塊為每一個ROI匯集所有特征金字塔層的特征,從特征融合之后的特征金字塔{P2,P3,P4,P5}中的每一層學(xué)習(xí)生成更好的ROI特征,ROIFE為不同層的ROI特征生成不同的空間權(quán)重,將ROI特征加權(quán)相融合。
以深度學(xué)習(xí)目標檢測算法作為基礎(chǔ)網(wǎng)絡(luò)[13],對網(wǎng)絡(luò)中特征融合部分FPN進行改進,結(jié)構(gòu)見圖2。骨干網(wǎng)絡(luò)提取特征之后送入FPN進行特征融合,在特征融合的過程中,從最高層{C5}的語義信息保留不完整的角度出發(fā),設(shè)計增加TLFE模塊,{C5}通過并聯(lián)的通道注意力和空間注意力模塊,賦予其更多的語義和空間信息。在特征融合之后,從受ROI預(yù)測框的尺度限制僅從固定某一層獲取特征信息導(dǎo)致其他層語義信息遺漏這一角度出發(fā),設(shè)計增加ROIFE模塊,對于任意一個ROI預(yù)測,提取出該ROI在{P2,P3,P4,P5}上的所有對應(yīng)的特征,然后利用網(wǎng)絡(luò)本身學(xué)習(xí)權(quán)重參數(shù),將不同層的特征求和作為這個ROI最終的特征。
圖2 算法整體結(jié)構(gòu)
頂層特征圖具有較大的感受野[14],對圖像中目標的位置以及大目標的定位識別都具有重要的意義[15]。遙感圖像中的艦船目標由于排列緊密以及海洋背景復(fù)雜等原因,定位艦船目標的位置是一個難點[16],極易發(fā)生漏檢的現(xiàn)象。因此,設(shè)計頂層特征增強的注意力機制,更大程度的保留頂層特征圖的語義信息時十分有必要的。頂層特征增強模塊結(jié)構(gòu)見圖3,上半部分是空間注意力機制,操作原理見式(1)。C5特征層經(jīng)過一系列的卷積操作得到關(guān)于空間信息的權(quán)重信息,將該空間權(quán)重信息與原始C5特征圖相乘,突出C5特征圖中更具信息的部分。下半部分是通道注意力機制,機制過程見式(2)。為了有效計算通道注意力,需要對輸入特征圖的空間維度進行壓縮[17]。對于空間信息的聚合,本文利用的是全局平均池化。Global average pooling與average pooling的差別就在“global”是對整個feature map求平均值,編碼了全局的統(tǒng)計信息。從空間的角度來看,通道注意力是全局的,而空間注意力是局部的。通道注意力順著通道維度對C5進行全局平均池化壓縮,獲取全局感受野,經(jīng)過Sigmoid非線性處理,將輸出結(jié)果作為每個通道的權(quán)重值。最后將原始的C5與通道權(quán)重值相乘,使網(wǎng)絡(luò)對不同的通道信息施加不同的關(guān)注度,以此針對性的獲取更豐富的通道語義信息。
圖3 頂層特征增強模塊結(jié)構(gòu)
outputspatial=Sigmoid(Conv1×1(C5))
(1)
其中,Conv為卷積操作。
outputchannel=Sigmoid(GAP(C5))
(2)
其中,GAP為全局平均池化操作;Sigmoid為激活函數(shù)。
C5在得到空間注意力和通道注意力的權(quán)重,權(quán)重值與原始C5相乘得到2個有關(guān)注度的新特征層之后,將空間關(guān)注度與通道關(guān)注度的特征圖相融合構(gòu)成特征層P6:
P6=(C5?outputchannel)⊕(C5?outputspatial)
(3)
P6相比于C5保留了更豐富的頂層特征層信息。在特征融合過程中,將P6融入到P5中,以此可以保證后續(xù)ROI可以更充分的得到頂層的特征信息。
FPN中特征融合之后得到{P2,P3,P4,P5}4層特征層,然而在后續(xù)ROI進行特征選取,網(wǎng)絡(luò)根據(jù)ROI預(yù)測框的大小只選定某一層特征層進行特征提取,通常大目標會選擇頂層特征層,小目標會選擇低層特征層。這導(dǎo)致對于任意一個ROI來講,其他3層特征層上的特征信息無法被利用,提取到的特征缺乏多尺度信息及特定性的某些特征。因此,設(shè)計一個注意力模塊,可以讓任意一個ROI充分利用4層的特征信息,自適應(yīng)提取到4個特征層的特征信息,會最大程度的保證對目標有利的特征信息都被提取到。
自適應(yīng)ROI特征增強模塊原理見圖4,對于任意一個ROI目標,模塊聚集{P2,P3,P4,P5}4層的特征信息,4層特征信息進行concat操作,經(jīng)過全局最大池化保留通道信息,而后經(jīng)過一系列的卷積以及sigmoid激活函數(shù),得到關(guān)于4層特征的注意力權(quán)重,通過網(wǎng)絡(luò)不斷自適應(yīng)的更新權(quán)重信息。在網(wǎng)絡(luò)中第1次的1×1卷積,是為了縮放通道值,減少網(wǎng)絡(luò)計算量,對通道數(shù)合理的較少,可以兼顧網(wǎng)絡(luò)的計算效率和檢測性能[18]。第2次1×1卷積是為了恢復(fù)通道信息值。權(quán)重分別與原始4層特征圖相乘將注意力信息融入特征層中,ROI目標對應(yīng)的特征信息進行融合,得到最終ROI的目標特征信息:
圖4 自適應(yīng)ROI特征增強模塊內(nèi)部結(jié)構(gòu)
Pset=concat(P2+P3+P4+P5)
(4)
output=Sigmoid(Conv1×1(Conv1×1(Pset)))
(5)
在特征圖層次上,4層特征圖分別與注意力權(quán)重相乘得到含有注意力加權(quán)的特征圖,在ROI層次上,含有注意力加權(quán)的特征圖相加融合為ROI對應(yīng)的目標特征信息,F(xiàn)ROI為某個ROI目標最終提取到的特征信息,表示為
FROI=ROI⊕(Pset?output)
(6)
自適應(yīng)ROI特征增強模塊僅利用了幾層卷積操作即可實現(xiàn)對{P2,P3,P4,P5}的4層特征信息進行加權(quán)融合,既保證了ROI目標可聚合4層的特征信息,充分提取各個特征層的特征信息進行特征信息的學(xué)習(xí),又保證增加較小的網(wǎng)絡(luò)的計算量。
為驗證本文提出的基于注意力機制的特征增強架構(gòu)得有效性,將基于注意力機制的特征增強架構(gòu)插入FPN中,以Faster R-CNN作為基礎(chǔ)算法,以resnet50和resnext101 2種網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)。
HRSC2016作為艦船識別研究的數(shù)據(jù)集,圖像分辨率在0.4~2 m,圖像大小為300~1 500。該數(shù)據(jù)集包含兩級標簽,父級標簽全部艦船目標標記為ship類,子級標簽為對艦船型號的細分共含有24類。在子級標簽中,因在訓(xùn)練數(shù)據(jù)中沒有Kitty Hawk和Blue Ridge類別,選擇余下22類作為目標類別進行驗證實驗。數(shù)據(jù)集共有有436張訓(xùn)練圖片(1 197個樣本)和453個測試圖片(1 219個樣本),子級類別分布見圖5。利用父級標簽對基于注意力機制的特征增強架構(gòu)可以對艦船目標的位置及共性特征信息起到增強作用進行驗證,利用子級標簽對基于注意力機制的特征增強架構(gòu)可以對艦船型號間細粒度的差異特征起到增強作用進行驗證。
圖5 HRSC2016數(shù)據(jù)分布
精確召回曲線(PRC)和平均精確度(AP)被用作衡量船舶識別的指標[19]。Recall和precision的定義為
(7)
(8)
(9)
其中,TP為預(yù)測正確的真值;FP為預(yù)測錯誤;FN為未成功預(yù)測的真值;AP為PRC曲線下的面積;AP越高代表船舶識別效果越好。
對HRSC2016數(shù)據(jù)集中父級標簽(所有艦船標簽類別均為ship)進行實驗研究基于注意力機制的特征增強架構(gòu)的有效性。艦船不同型號之間包含某些部件的差異性,因此對于混合型ship數(shù)據(jù)集,提取艦船的共性特征信息、忽略部件差異特征信息是重點[20]。所有算法實驗環(huán)境、算法初始化參數(shù)設(shè)置相同。實驗結(jié)果見表1。
實驗利用FasterR-CNN、Cascade R-CNN、RetinaNet 3種算法,以及Resnet50和Reanext101 2種骨干網(wǎng)絡(luò)驗證FBAM的有效性。由表1可見,3種算法嵌入FBAM的實驗精度均高于嵌入FPN,F(xiàn)asterR-CNN(Resnet50)提高1.2%、Cascade R-CNN提高0.8%、RetinaNet提高0.5%。實驗驗證了FBAM無論是嵌入到雙階段目標檢測算法還是但階段目標檢測算法,都能夠提高對特征信息的利用率,增強目標的共性特征信息。當(dāng)Faster R-CNN分別使用resnet50和resnext101兩種骨干網(wǎng)絡(luò)提取艦船共性特征時,F(xiàn)BAM分別可以實現(xiàn)1.2%和1.8%的提高,都可以具有較明顯的優(yōu)勢。算法提取特征的骨干網(wǎng)絡(luò)可以通過連接FBAM實現(xiàn)特征信息更充分的利用。此外,嵌入FBAM模塊遠比網(wǎng)絡(luò)改變骨干網(wǎng)絡(luò)更方便,且不會造成訓(xùn)練計算量的大幅增多。與原始FPN相比,F(xiàn)BAM架構(gòu)的引入,有效的提高了FPN網(wǎng)絡(luò)對于特征信息的利用率,在艦船識別中,由于頂層信息的充分保留以及多尺度信息對ROI的充分指導(dǎo),可以提高對艦船的定位能力。
表1 艦船共性特征增強實驗結(jié)果
可視化結(jié)果見圖6和圖7。由圖6可見,對于艦船小目標的定位,F(xiàn)BAM也有所提高。由于目標尺寸過小的限制,小目標的特征信息較難被學(xué)習(xí)到[21],ROIFE模塊對于各層信息的融合,網(wǎng)絡(luò)對注意力參數(shù)的自適應(yīng)更新,使小目標與海洋背景的區(qū)別特征更加明顯。小目標艦船的邊緣信息更充分的被學(xué)習(xí)利用。對于緊密排列的艦船目標FBAM也可以提高檢測效果。頂層信息的充分保留可以提供豐富的上下文信息,對于艦船的邊緣特征都可以起到促進學(xué)習(xí)的作用。由圖7可見,艦船外在特征發(fā)生改變(艦船船身顏色、不同的集裝箱的裝卸)的情況下,本章所提出的特征提取模塊依然可提取艦船的共性特征,準確檢測艦船。
圖6 FPN和FBAM(本文)算法的艦船定位可視化結(jié)果(基于Faster R-CNN,Resnext101)
圖7 艦船外在顏色改變、艦船目標與背景相似情況下FBAM算法的檢測結(jié)果可視化(基于Faster R-CNN,Resnext101)
對HRSC2016數(shù)據(jù)集子級標簽(艦船標簽類別為型號級)進行實驗研究基于注意力機制的特征增強架構(gòu)的有效性。不同型號間的差異通常都體現(xiàn)在某些部件上的差異,實現(xiàn)艦船型號級的識別,更需要網(wǎng)絡(luò)在特征信息的提取及融合上能夠關(guān)注到細粒度級別的差距,網(wǎng)絡(luò)能夠?qū)Σ煌悇e間的差異特征施加更多的關(guān)注度。算法FPN作為對比算法,算法實驗環(huán)境、算法初始化參數(shù)設(shè)置相同。實驗結(jié)果見表2。
表2 艦船型號識別實驗結(jié)果
表2中共包含22種艦船型號,F(xiàn)BAM架構(gòu)對于多數(shù)艦船型號的識別準確率都有提高,例如Hovercraft和Santoantonio分別提高了10%左右。從整體mAP來看,F(xiàn)BAM比FPN在resnet50上提高3.2%,在resnext101上提高3.5%。FBAM在頂層信息得到充足的保留的條件下,一定程度上保證了艦船位置定位的準確率。另一方面,充足的頂層信息和自適應(yīng)學(xué)習(xí)的ROI特征,可以使網(wǎng)絡(luò)充分關(guān)注到細粒度級別的特征差異,不同型號的部件差異權(quán)重值被提高。FBAM中的注意力機制可以在網(wǎng)絡(luò)反向傳播過程中不斷更新權(quán)重參數(shù),針對性的增加差異性特征的重要性。
可視化結(jié)果見圖8。由圖8可見,某些艦船型號在對比算法中被誤檢,而在FBAM架構(gòu)中可以被正確識別,提高了艦船細粒度級別識別的準確率??梢暬Y(jié)果表明了當(dāng)不同類別的艦船較為相似(圖8(a)、圖8(b)),例如Perry、Arleigh Burke、Ticonderoga和WarshipA型號的艦船外在形狀較為相似;shipA和Car carrierA型號較為相似。經(jīng)典的網(wǎng)絡(luò)很容易將兩種型號誤檢為同一型號,特征增加架構(gòu)通過對差異特征信息的增強,一定程度上減少了誤檢概率,將較為相似的型號也可以更多的區(qū)分出型號間的不同點,正確進行型號分類。此外,由圖8(c)可見,在Car carrierB類別樣本數(shù)量相對來講較少的情況下,本章提出的基于注意力機制的特征增強架構(gòu)也可以增強差異特征,提高了對于型號的識別準確率。
圖8 基于艦船差異特征增強的艦船型號識別可視化結(jié)果(基于Faster R-CNN,Resnext101)
在遙感圖像艦船識別中,特征信息的充分利用是準確定位艦船的位置以及識別出艦船型號的關(guān)鍵。針對FPN網(wǎng)絡(luò)結(jié)構(gòu)頂層特征信息丟失以及各個特征層無法被ROI充分提取特征的問題,從注意力機制的角度出發(fā),提出了基于注意力機制的特征增強架構(gòu),該架構(gòu)對于艦船目標識別的兩大任務(wù),即艦船位置定位以及艦船型號細粒度級分類都具有提升效果。該架構(gòu)主要包含2個模塊:頂層特征增強模塊和自適應(yīng)的ROI特征增強。頂層特征增強模塊通過將通道注意力和空間注意力并聯(lián),充分將頂層特征圖的語義信息和位置信息得以保留;自適應(yīng)ROI特征增強模塊將融合后的特征金字塔中每層特征信息進行匯集,通過權(quán)重對不同的特征信息施加不同的關(guān)注度。利用HRSC2016艦船數(shù)據(jù)集,對本文提出的基于注意力機制的特征增強架構(gòu)進行驗證,實驗結(jié)果充分證明了基于注意力機制的特征增強架構(gòu)可以有效提高艦船識別的精度,既對艦船的共性特征起到增強作用,又對型號間的差異特征起到提高關(guān)注度的作用。