劉恩海,許佳音,李 妍,樊世燕
1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401
2.河北工業(yè)大學(xué) 河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室,天津 300401
隨著對(duì)地觀測技術(shù)的不斷發(fā)展,高質(zhì)量的遙感圖像日益增多,極大地促進(jìn)了遙感領(lǐng)域[1-2]的發(fā)展。目標(biāo)檢測作為遙感領(lǐng)域的應(yīng)用之一,旨在圖像中找出感興趣的區(qū)域,確定它們的類別和位置。它在人臉識(shí)別[3]、軍事偵察[4]、環(huán)境監(jiān)測[5]等各個(gè)領(lǐng)域中都起著至關(guān)重要的作用。然而,與自然場景不同,遙感圖像通常是在不同海拔高度俯視視角拍攝,其背景復(fù)雜、任意方向、密集排列的特點(diǎn)增大了檢測難度,導(dǎo)致難以實(shí)現(xiàn)準(zhǔn)確的預(yù)測。
近年來,深度學(xué)習(xí)算法在遙感圖像目標(biāo)檢測任務(wù)中展露出很好的表現(xiàn)。針對(duì)遙感圖像中目標(biāo)任意方向排列的問題,一些研究者[6-8]提出在常規(guī)水平邊界框表示基礎(chǔ)上添加額外的角度信息,設(shè)計(jì)旋轉(zhuǎn)框檢測模型。Zhang等[9]提出一種基于相交圓和可變形感興趣區(qū)域的新型定向艦船檢測方法。Liu等[10]提出一個(gè)近乎封閉的艦船旋轉(zhuǎn)包圍盒空間用于船舶檢測。Xiao 等[11]提出了一種新的長寬比感知定位中心方法來表示多方向目標(biāo)。Liu 等[12]迫使網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)的正確角度,有效定位旋轉(zhuǎn)目標(biāo)從而實(shí)現(xiàn)旋轉(zhuǎn)不變性。Jiang 等[13]專門設(shè)計(jì)的旋轉(zhuǎn)候選區(qū)域生成網(wǎng)絡(luò),生成任意方向的候選區(qū)域,從而有效檢測出旋轉(zhuǎn)目標(biāo)。王明陽等[14]在網(wǎng)絡(luò)結(jié)構(gòu)中加入旋轉(zhuǎn)因子為檢測框提供角度信息。但是上述方法表示旋轉(zhuǎn)矩形易受邊界問題的影響,CSL[15]通過將角度的回歸問題轉(zhuǎn)換成分類問題,限制預(yù)測結(jié)果的范圍來消除這一問題。CSL 過于厚重的預(yù)測層以及對(duì)類正方形目標(biāo)檢測的不友好,Yang等[16]對(duì)其做出改進(jìn)提出密集編碼標(biāo)簽,提高了模型檢測的效率。Ma 等[17]提出了一種傾斜候選框生成方式,將角度信息引入錨框,通過預(yù)先設(shè)置的帶角度的錨框生成任意方向的候選框,以此來檢測有向?qū)ο?。Ding等[18]提出了RoI Transformer,利用可學(xué)習(xí)的模塊將水平框轉(zhuǎn)化為旋轉(zhuǎn)框,避免了大量錨框的操作。朱煜等[19]提出一種積分與面積插值法相結(jié)合的感興趣區(qū)域特征提取辦法得到旋轉(zhuǎn)框,再精細(xì)調(diào)整旋轉(zhuǎn)框位置,得到更好的檢測結(jié)果。針對(duì)遙感圖像背景復(fù)雜,目標(biāo)尺度小的特點(diǎn),Yang等[20]提出了一種有監(jiān)督的多維注意網(wǎng)絡(luò)來突出物體特征。Zhang等[21]設(shè)計(jì)了一種語義提取網(wǎng)絡(luò),通過獲取全局語義和局部語義來增強(qiáng)場景與目標(biāo)之間的聯(lián)系。Guo等[22]提出凸包特征適應(yīng)算法,將目標(biāo)區(qū)域的點(diǎn)集定義為凸包,通過懲罰相鄰目標(biāo)間的凸包,改善網(wǎng)絡(luò)對(duì)感興趣目標(biāo)的檢測效果。劉萬濤等[23]提出在Faster RCNN基礎(chǔ)上加入圖像尺寸擴(kuò)張,提升目標(biāo)的空間特征。Pan 等[24]設(shè)計(jì)了一個(gè)特征選擇模塊,使網(wǎng)絡(luò)可以動(dòng)態(tài)地調(diào)整神經(jīng)元的感受野,從而提取更多目標(biāo)的細(xì)節(jié)特征。
盡管上述方法取得了一定的成功,但是還有很大的改進(jìn)空間。首先,多尺度特征金字塔只能提取目標(biāo)區(qū)域相對(duì)規(guī)則的特征,對(duì)于復(fù)雜背景下的目標(biāo),提取特征時(shí)更容易受到背景信息的干擾,缺乏細(xì)節(jié)噪聲較大,影響特征提取的表達(dá)能力。其次,遙感圖像中任意方向的物體較為常見,普通卷積是在固定位置均勻采樣,忽略了有向目標(biāo)與特征之間的空間相關(guān)性,造成有向目標(biāo)與特征之間的空間錯(cuò)位問題,尤其在密集排列的物體中更為突出。因此,本文考慮依靠卷積運(yùn)算的可疊加性來檢測有向目標(biāo),豐富特征空間并突出具有判別力的特征,增強(qiáng)骨干網(wǎng)的特征提取能力。根據(jù)物體形狀和方向自適應(yīng)調(diào)整特征采樣位置,加強(qiáng)有向目標(biāo)與特征之間的空間對(duì)齊。
為了解決上述問題,本文提出了一種基于自適應(yīng)特征細(xì)化的有向目標(biāo)檢測網(wǎng)絡(luò),旨在通過高質(zhì)量的有向候選框來提高檢測精度。網(wǎng)絡(luò)主要由三個(gè)模塊組成:特征增強(qiáng)模塊、自適應(yīng)特征對(duì)齊模塊和解耦檢測頭模塊。為了增強(qiáng)骨干網(wǎng)的特征提取能力,本文利用人類視覺感知系統(tǒng)的相關(guān)知識(shí),設(shè)計(jì)特征增強(qiáng)模塊,將非對(duì)稱卷積融合標(biāo)準(zhǔn)卷積,在不增加參數(shù)量的情況下增強(qiáng)特征表示。并在此基礎(chǔ)上引入了規(guī)范化的注意模塊,利用上下文信息抑制不重要的背景信息。其次,自適應(yīng)特征細(xì)化模塊引導(dǎo)錨點(diǎn)朝著物體方向采樣,實(shí)現(xiàn)不同物體與特征的外部對(duì)齊,同時(shí)考慮同一物體內(nèi)部的對(duì)齊,從而生成適應(yīng)于物體方向的細(xì)化候選框。解耦檢測頭模塊設(shè)計(jì)并行分支來解耦分類和定位任務(wù),使得每個(gè)分支都可以學(xué)習(xí)到更多特定任務(wù)的功能。
本文主要?jiǎng)?chuàng)新包括以下幾個(gè)方面:
(1)設(shè)計(jì)了特征增強(qiáng)模塊,豐富特征空間信息增強(qiáng)具有判別力的特征,提升網(wǎng)絡(luò)細(xì)節(jié)捕捉能力。
(2)提出了自適應(yīng)特征對(duì)齊模塊,根據(jù)物體形狀和方向自適應(yīng)調(diào)整特征采樣位置,加強(qiáng)有向目標(biāo)與特征之間的空間對(duì)齊。
(3)設(shè)計(jì)了一個(gè)端到端的網(wǎng)絡(luò)AFR-Net,并在DIOR-R和HRSC2016數(shù)據(jù)集上證明其有效性。
AFR-Net網(wǎng)絡(luò)的整體架構(gòu)如圖1所示。整個(gè)網(wǎng)絡(luò)由三部分組成:特征提取骨干網(wǎng)絡(luò)、自適應(yīng)特征對(duì)齊模塊AFM(adaptive feature alignment module)和解耦檢測頭模塊DHM(decoupling head module)。首先,本文采用ResNet50[25]作為整體架構(gòu)的主干,從原始圖像中提取多尺度特征,為抑制背景噪聲突出目標(biāo)特征,本文設(shè)計(jì)了特征增強(qiáng)模塊FEM(feature enhancement module)來對(duì)卷積層提取的淺層特征和深層特征進(jìn)行增強(qiáng),通過構(gòu)建更大的感受野塊來結(jié)合更具辨別力的特征表示,擴(kuò)大特征空間并懲罰不重要的通道特征。然后,自適應(yīng)特征對(duì)齊模塊在有向候選框指導(dǎo)下自適應(yīng)地調(diào)整不同物體卷積采樣的位置并考慮同一物體內(nèi)部采樣點(diǎn)的對(duì)齊,提取旋轉(zhuǎn)不變特征,減少有向候選框和真實(shí)物體之間的差距。最后,通過全連接層和卷積層結(jié)合的解耦檢測頭模塊細(xì)化目標(biāo)的分類和回歸。
圖1 AFR-Net整體架構(gòu)Fig.1 Overall architecture of AFR-Net
一些方法采用新穎的結(jié)構(gòu)來提取并豐富目標(biāo)的特征。例如,MSRN[26]使用具有不同內(nèi)核的卷積層。LPNet[27]沿著通道維度分割特征,然后分別通過不同數(shù)量的卷積層提取特征,MRSN與LPNet方法都可以獲取更多的特征表示。然而,這些方法的特征提取能力是低效的,卷積核生成大量參數(shù),分割操作會(huì)阻礙通道之間的信息交互,降低特征表示。本文提出的特征增強(qiáng)模塊可以很好地提取和利用這些特征,克服了金字塔結(jié)構(gòu)的不一致性,增強(qiáng)了淺層細(xì)粒度信息與深層語義信息之間的交流,簡單高效。如圖2所示。特征增強(qiáng)模塊被嵌入到金字塔結(jié)構(gòu)的每一層以充分提取特征并減少冗余特征。
圖2 特征增強(qiáng)模塊結(jié)構(gòu)示意圖Fig.2 Structure of feature enhancement module
具體而言,首先,本文利用人類視覺感知系統(tǒng)的相關(guān)知識(shí),通過構(gòu)建更大的感受野來結(jié)合更具判別力的特征表示,增加特征多樣性。引入一維非對(duì)稱卷積[28]擴(kuò)展了FPN中的3×3的卷積核,即在3×3的卷積核中加入并行的1×3和3×1的矩形卷積核,利用卷積可加性將不同形狀的卷積核進(jìn)行元素求和,可增強(qiáng)方形卷積內(nèi)核特征表達(dá)能力,同時(shí)獲取更大感受野處理不同對(duì)象的形狀,增強(qiáng)模型對(duì)旋轉(zhuǎn)扭曲的魯棒性,擴(kuò)充細(xì)節(jié)特征,豐富特征空間。
注意,各分支卷積的輸出特征圖大小一致才能拼接,所以本文在卷積后加入了BN層。總體流程如下:
其中,F(xiàn)i表示第i層輸出的特征圖,I表示輸入特征圖,K3×3表示3×3卷積,K1×3表示1×3卷積,K3×1表示3×1卷積。
引入1×3 的水平卷積核可以提升模型對(duì)圖像上下翻轉(zhuǎn)的魯棒性,但在水平方向上缺乏對(duì)稱性。引入3×1的豎直卷積核可以提升模型對(duì)圖像左右翻轉(zhuǎn)的魯棒性,但在豎直方向上缺乏對(duì)稱性。因此本文將三組不同卷積核和各自的批量歸一化參數(shù)進(jìn)行融合,增強(qiáng)特征表達(dá)能力。加入批處理歸一化層后,輸出通道變?yōu)椋?/p>
其中,μ是平均通道值,σ是批量歸一化的方差,γ和β是可學(xué)習(xí)的尺度和偏移。
其次,通過調(diào)節(jié)特征權(quán)重來增強(qiáng)目標(biāo)特征通道信息,突出網(wǎng)絡(luò)感興趣目標(biāo)的特征信息。
其次,在聚合不同感受野的特征基礎(chǔ)上引入基于規(guī)范化的注意力模塊NAM,如圖3 所示。對(duì)輸入特征圖進(jìn)行權(quán)重稀疏懲罰,根據(jù)BN中的縮放因子反應(yīng)各個(gè)通道的變化,突出網(wǎng)絡(luò)感興趣區(qū)域的特征通道,抑制背景信息。具體來說,輸入特征圖經(jīng)過BN層得到一組比例因子ri,在比例因子指導(dǎo)下計(jì)算權(quán)重Wr,經(jīng)過一個(gè)Sigmoid激活函數(shù)得到最終的權(quán)重系數(shù)Mc,最后和原來的特征相乘得到一組反應(yīng)通道信息重要程度的新特征。如公式(3)所示,使用批歸一化中的比例因子衡量通道方差并表明其重要性。
圖3 基于規(guī)范化的注意模塊結(jié)構(gòu)示意圖Fig.3 Structure of normalization-based attention module
其中,μB和分別是最小批次B 的均值和標(biāo)準(zhǔn)差;r和β是可訓(xùn)練的仿射變換參數(shù)(尺度和位移)。
基于規(guī)范化的注意力模塊公式如下:
其中,Mc是輸出特征,r是縮放因子,F(xiàn)1是輸入特征圖,權(quán)重Wr為
值得注意的是,F(xiàn)PN 不同特征圖的感受野是不同的,不適合使用共享權(quán)重來學(xué)習(xí)多尺度對(duì)象的定位信息。因此,本文采用獨(dú)立的特征增強(qiáng)模塊對(duì)多尺度特征的每一層進(jìn)行特征增強(qiáng)。
遙感圖像中有很多任意方向和密集排列的物體,但是通用的目標(biāo)檢測器都是采用一組預(yù)定義比例和寬高比的錨框均勻采樣,這會(huì)導(dǎo)致采樣的特征與任意方向的物體并不匹配。為了解決這個(gè)問題,本文設(shè)計(jì)了自適應(yīng)特征對(duì)齊模塊即AFM,在有向框指導(dǎo)下自適應(yīng)的引導(dǎo)錨點(diǎn)采樣,提取旋轉(zhuǎn)不變特征,緩解特征與物體的不對(duì)齊問題,從而生成高質(zhì)量的細(xì)化候選框。
圖4 詳細(xì)展示了自適應(yīng)特征對(duì)齊模塊的結(jié)構(gòu)。該模塊采用一個(gè)全卷積網(wǎng)絡(luò),輸入特征圖送入預(yù)測模塊,在特征圖的每個(gè)位置都會(huì)得到角度、分類得分、框的位置信息。根據(jù)預(yù)測的角度和位置信息學(xué)習(xí)有向物體錨點(diǎn)的偏移,然后在有向框指導(dǎo)下根據(jù)錨點(diǎn)形狀調(diào)整特征采樣點(diǎn)的位置,實(shí)現(xiàn)特征對(duì)齊。
圖4 自適應(yīng)特征對(duì)齊模塊結(jié)構(gòu)示意圖Fig.4 Structure of adaptive feature alignment module
其中,x,y是θ的坐標(biāo),k表示卷積核大小。
其次,對(duì)位置p對(duì)應(yīng)的錨框解碼為(x,y,w,h,θ),r為規(guī)則網(wǎng)格中的向量元素R={(-1,-1),(-1,0),…,(1,1)},對(duì)于每個(gè)位置r,使用調(diào)整后的角度計(jì)算采樣位置,定義如下:
其中,k表示卷積核大小,S表示特征圖的步長,RT(θ)是旋轉(zhuǎn)矩陣(cosθ,-sinθ;sinθ,cosθ)T,那么,當(dāng)前空間位置p的偏移量O(offset)為:
從預(yù)測分支的輸出中得到一組偏移量O,即基于預(yù)測錨框的采樣位置和規(guī)則的采樣位置之間的偏差。然后通過一個(gè)3×3的可變形卷積[29]在帶有偏移量的原始特征圖上進(jìn)行特征對(duì)齊。不同于從規(guī)則網(wǎng)格的特征圖上采樣的可變形卷積,本文是從有向邊界框中獲取偏移量(18 維)。對(duì)于每一個(gè)位置向量p∈{0,1,…,H-1}×{0,1,…,W-1},一個(gè)標(biāo)準(zhǔn)的3×3 可變形卷積運(yùn)算可以表示為:
其中,X、Y為輸入輸出特征,W為可變形卷積的核權(quán)值。
最后得到適應(yīng)于物體方向的旋轉(zhuǎn)卷積特征。特征對(duì)齊后采集到的特征缺乏角度信息,因此將預(yù)測模塊的角度經(jīng)過3×3 的卷積和對(duì)齊后框的特征信息生成細(xì)化后的有向邊界框。為了在預(yù)測模塊捕捉更多的信息,本文使用超參數(shù)將預(yù)測階段的角度損失和框損失進(jìn)行了縮小。
現(xiàn)有的兩階段目標(biāo)檢測器大多都共享一個(gè)檢測頭,對(duì)相同的輸出特征進(jìn)行分類和回歸預(yù)測。但是分類任務(wù)和回歸任務(wù)之間的沖突是一個(gè)眾所周知的問題,尤其是對(duì)于遙感圖像中密集排列的物體,目標(biāo)間的空間錯(cuò)位會(huì)嚴(yán)重影響訓(xùn)練過程。受Wu 等[30]啟發(fā),本文把分類和回歸進(jìn)行解耦。針對(duì)遙感圖像有向目標(biāo)的檢測,采用對(duì)空間敏感的全連接頭進(jìn)行分類任務(wù),它對(duì)候選框的不同部分賦予不同的參數(shù),可以更好地區(qū)分一個(gè)完整的對(duì)象和對(duì)象的一部分,便于進(jìn)行分類。而回歸問題對(duì)于邊界框是敏感的,卷積頭預(yù)測的邊界周圍的特征有利于定位精確的邊界盒以及邊界框的方向信息,因此采用卷積提取旋轉(zhuǎn)敏感特征。
解耦檢測頭DHM將特征圖P2~P5和一組有向候選框作為輸入,對(duì)于每個(gè)有向候選框,本文使用RRoIAlign從其對(duì)應(yīng)的特征圖中提取一個(gè)7×7×256 大小的特征向量。由解耦檢測頭模塊轉(zhuǎn)換成兩個(gè)特征向量(每個(gè)維度為1 024),分別用于分類和邊界框回歸。圖5 展示了解耦檢測頭的具體過程。包含并行分類分支和定位分支。分類分支使用兩個(gè)1 024的全連接層串行連接?;貧w分支采用四個(gè)3×3的卷積層,最后進(jìn)行全局平均池化。分類和回歸提取的特征是不同的,使用兩個(gè)分支有利于不同檢測頭更多的關(guān)注各自的任務(wù)。
圖5 解耦檢測頭模塊結(jié)構(gòu)示意圖Fig.5 Structure of decoupled detection head module
AFR-Net網(wǎng)絡(luò)損失是一個(gè)多任務(wù)損失,可以表述為:
Lcls與Lreg分別表示分類損失和回歸損失,本文使用交叉熵?fù)p失作為分類損失,Smooth L1 損失作為回歸損失。λi表示兩階段重要性權(quán)重,對(duì)預(yù)測階段的角度損失和框損失進(jìn)行縮小。通過在驗(yàn)證集上的實(shí)驗(yàn)將超參數(shù)λi設(shè)置為0.2。
此外,本文使用以下方法進(jìn)行邊界框的回歸,公式(10)表示真實(shí)框、公式(11)表示預(yù)測框:
其中x、xa、x*分別為真實(shí)框、錨框和預(yù)測框。y、w、h、θ也是一樣的。
為評(píng)估本文提出算法的有效性,本文分別在兩個(gè)遙感圖像公開檢測數(shù)據(jù)集HRSC2016[31]和DIOR-R[32]上進(jìn)行實(shí)驗(yàn)驗(yàn)證。
HRSC2016 是一個(gè)具有挑戰(zhàn)性的高分辨率船舶檢測數(shù)據(jù)集,包含任意方向大長寬比的船舶,標(biāo)注為有向邊界框,共有1 061 張圖像。圖像分辨率在0.4~2 m,圖像大小范圍從300×300到1 500×900。本文使用訓(xùn)練集(436 張圖像)和驗(yàn)證集(181 張圖像)進(jìn)行訓(xùn)練,測試集(444張圖像)用于測試。對(duì)于HRSC2016數(shù)據(jù)集上的檢測精度,本文采用平均精度mAP作為評(píng)價(jià)標(biāo)準(zhǔn),與PASCAL VOC07 和PASCAL VOC12 一致。在訓(xùn)練和測試時(shí)將圖片大小在不改變縱橫比條件下調(diào)整為800×1 333。
DIOR-R 是一個(gè)用于有向目標(biāo)檢測的遙感數(shù)據(jù)集,共有23 463張圖像,包含192 518個(gè)實(shí)例樣本,涵蓋廣泛的場景和20個(gè)類別,分別為飛機(jī)(APL)、機(jī)場(APO)、棒球場(BF)、籃球場(BC)、橋梁(BR)、煙囪(CH)、高速公路服務(wù)區(qū)(ESA)、高速公路收費(fèi)站(ETS)、水壩(DAM)、高爾夫球場(GF)、田徑場(GTF)、港口(HA)、立交橋(OP)、船舶(SH)、體育場(STA)、儲(chǔ)罐(STO)、網(wǎng)球場(TC)、火車站(TS)、車輛(VE)和風(fēng)車(WM)。圖像大小為800×800。其中訓(xùn)練集包括11 725 張圖像,測試集包括11 738張圖像。在訓(xùn)練和測試時(shí),保持原有圖像大小不變。
2.2.1 實(shí)驗(yàn)環(huán)境
本文采用ResNet50 作為骨干網(wǎng)絡(luò)。所有的實(shí)驗(yàn)都是在NVIDIA GeForce GTX 2080 Ti 上進(jìn)行的。利用在ImageNet[33]數(shù)據(jù)集預(yù)訓(xùn)練的模型參數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行初始化。本文的網(wǎng)絡(luò)是基于Pytorch 框架,實(shí)驗(yàn)平臺(tái)為mmdetection,版本號(hào)為2.2.0。選取SGD 作為網(wǎng)絡(luò)優(yōu)化器,動(dòng)量設(shè)為0.9,初始學(xué)習(xí)率設(shè)為0.005,衰減系數(shù)為0.000 1,Batch Size 為2。對(duì)于HRSC2016 數(shù)據(jù)集,將圖像的大小調(diào)整為(800,1 333),訓(xùn)練36 個(gè)epoch。對(duì)于DIOR-R數(shù)據(jù)集,本文保持圖像大小為原始大小為800×800,訓(xùn)練36個(gè)epoch。
2.2.2 評(píng)估指標(biāo)
本文采用廣泛使用的目標(biāo)檢測評(píng)估指標(biāo)平均精度(mean average precision,mAP)作為量化評(píng)估模型性能的標(biāo)準(zhǔn)。mAP 是指多個(gè)類別的平均精度(average precision,AP)的平均值,AP 指標(biāo)是用Precision-Recall曲線下的面積來衡量的,它綜合衡量某一類的準(zhǔn)確率和召回率。每個(gè)類別都可以根據(jù)準(zhǔn)確率(Precision)和召回率(Recall)繪制一條曲線,其在0到1區(qū)間內(nèi)繪制的曲線與坐標(biāo)軸所圍成的面積即為平均精度,表示為AP=。其中,準(zhǔn)確率和召回率的定義如公式(12)、(13)所示:
式中,TP代表真正例,F(xiàn)N代表假反例,F(xiàn)P代表假正例。精度Precision反映了檢測器預(yù)測的正樣本中TP的比例,召回率Recall反映了檢測器正確預(yù)測的正樣本占總的正樣本的比例。
本文在訓(xùn)練過程中保存訓(xùn)練日志同時(shí)更新權(quán)重,根據(jù)損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)參至最優(yōu),選擇loss收斂時(shí)的權(quán)重作為最終權(quán)重,進(jìn)行檢測。分類損失和回歸損失的加權(quán)的變化曲線如圖6所示。
圖6 Loss曲線圖Fig.6 Loss curve
其中,訓(xùn)練使用ResNet50作為骨干網(wǎng)絡(luò)在HRSC數(shù)據(jù)集上訓(xùn)練36 個(gè)批次共10 000 多次迭代。從圖6 中可以看出,模型經(jīng)過2 000 次迭代后loss 大幅下降,8 000次迭代左右loss 曲線趨于平滑,說明模型已較為收斂。因此選擇訓(xùn)練結(jié)束時(shí)的權(quán)重進(jìn)行實(shí)驗(yàn)。
為了更好地理解AFR-Net網(wǎng)絡(luò),本文分析了所提方法每個(gè)組成部分的貢獻(xiàn),包括FEM 和AFM。本文首先評(píng)估DIOR-R 數(shù)據(jù)集上的基線,然后逐步整合這些技術(shù)。表1 總結(jié)了實(shí)驗(yàn)結(jié)果,并展示了各個(gè)類別的AP 及mAP。如表1 所示,采用以下模型在消融研究中訓(xùn)練,基線+FEM:僅包含F(xiàn)EM 的基線網(wǎng)絡(luò);基線+AFM:僅包含AFM的基線網(wǎng)絡(luò)。
表1 本文算法在DIOR-R數(shù)據(jù)集的消融實(shí)驗(yàn)結(jié)果Table 1 Ablation studies on DIOR-R dataset
為驗(yàn)證特征增強(qiáng)模塊的有效性,本文在基準(zhǔn)上嵌入FEM 模塊。所有的消融實(shí)驗(yàn)均以ResNet50 為骨干網(wǎng)絡(luò),并在DIOR-R數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。實(shí)驗(yàn)結(jié)果如表1 所示,嵌入FEM 模塊,mAP 達(dá)到65.60%,相較于基線提高了1.19 個(gè)百分點(diǎn)。對(duì)于大多數(shù)物體,如棒球場、籃球場、煙囪、水壩、高速公路服務(wù)區(qū)、高爾夫球場、田徑場、港口、船舶、儲(chǔ)罐、網(wǎng)球場和風(fēng)車檢測結(jié)果都有所改善。基線+FEM 的船舶檢測精度相較于基線提升了7.49個(gè)百分點(diǎn),這是由于本文對(duì)低層特征和高層特征的感受野增強(qiáng),并強(qiáng)化感興趣目標(biāo)的特征,捕捉到更精細(xì)的船舶信息,減少了漏檢和誤檢。
為驗(yàn)證自適應(yīng)特征細(xì)化模塊的有效性,本文在基準(zhǔn)上嵌入AFM模塊。實(shí)驗(yàn)結(jié)果如表1所示,基準(zhǔn)+AFM的mAP 從64.41%提升到65.53%。對(duì)于大多數(shù)物體嵌入AFM 模塊精度都有一些提高,尤其是那些大型物體的類別(如儲(chǔ)罐、網(wǎng)球場)。最終在基線上同時(shí)嵌入本文提出的FEM 和AFM 模塊后,平均精度mAP 可以達(dá)到66.71%,相較于基線模型提高了2.3個(gè)百分點(diǎn)。
為進(jìn)一步證明AFR-Net的有效性,本文將其與目前幾種先進(jìn)的遙感圖像有向目標(biāo)檢測器進(jìn)行比較。在HRSC2016數(shù)據(jù)集上,比較了FasterRCNN-O[34]、RetinaNet-O[35]、Oriented RCNN[36]、FCOS[37]、S2ANet[38]、AOPG[39]、Gliding Vertex[40]、Double Head、Roi Transformer 等方法。其中Double Head 采用PASCAL VOC07 評(píng)價(jià)標(biāo)準(zhǔn),其余的采用PASCAL VOC07 和PASCAL VOC12 兩種評(píng)價(jià)標(biāo)準(zhǔn)。表2為本文在HRSC2016數(shù)據(jù)集上與目前先進(jìn)方法的對(duì)比實(shí)驗(yàn)。
表2 與HRSC2016數(shù)據(jù)集上先進(jìn)方法的比較Table 2 Comparison with state-of-the-art methods on HRSC2016 dataset 單位:%
與其他方法相比,本文方法檢測效果最優(yōu)。在VOC07指標(biāo)下,本文的方法達(dá)到了90.40%的mAP。在VOC12指標(biāo)下,本文的方法達(dá)到了97.12%的mAP。此外,本文還給出了FasterRCNN-O、RetinaNet-O、S2ANet、Gliding Vertex、Oriented RCNN、FCOS、Roi Transformer和AOPG的查準(zhǔn)率和查全率(Precision-Recall)曲線,如圖7所示。其中與x軸圍成的面積越大表明效果越好,即Precision在當(dāng)前點(diǎn)的值越大效果越好。圖中可以看出,在0.9 到1.0 之間,AFR-Net 的效果雖然效果要低于Oriented RCNN,但是整體性能來說要優(yōu)于Oriented RCNN與其他模型。本文進(jìn)一步可視化了HRSC2016 數(shù)據(jù)集上的檢測結(jié)果,如圖8所示。本文模型可以在復(fù)雜場景的遙感圖像中準(zhǔn)確地檢測遙感船舶。即使對(duì)于難以檢測的密集排列的狹長船舶,本文的方法仍具有良好的性能。
圖7 不同方法在HRSC2016數(shù)據(jù)集查準(zhǔn)率和查全率曲線Fig.7 Precision-Recall curves of different methods on HRSC2016 dataset
圖8 本文方法在HRSC2016數(shù)據(jù)集上的檢測結(jié)果樣例Fig.8 Some detection results of proposed method on HRSC2016 dataset
為了驗(yàn)證不同超參數(shù)所帶來的影響,在驗(yàn)證集中對(duì)損失函數(shù)中的兩階段重要性權(quán)重λi進(jìn)行對(duì)比實(shí)驗(yàn)。以AOPG 作為基礎(chǔ)模型,采用HRSC2016 數(shù)據(jù)集,在訓(xùn)練集上進(jìn)行訓(xùn)練,驗(yàn)證集上驗(yàn)證效果,訓(xùn)練過程中僅改變預(yù)測階段的超參數(shù)λi。表3為不同λi取值的效果對(duì)比,實(shí)驗(yàn)結(jié)果表明當(dāng)λi的值為0.2 時(shí),效果最好,因此本文將損失函數(shù)中的超參數(shù)λi設(shè)置為0.2。
表3 不同λi 取值的效果對(duì)比Table 3 Effect comparison among different λi values
本文將AFR-Net 與目前幾種先進(jìn)的遙感圖像有向目標(biāo)檢測器比較后,進(jìn)一步分析模型的參數(shù)量和計(jì)算量如表4所示。表4展示了每種算法參數(shù)量以及模型大小的對(duì)比,本文采用網(wǎng)絡(luò)模型固定輸入大小為3×1 280×800,以ResNet50 作為骨干網(wǎng)絡(luò),在相同實(shí)驗(yàn)環(huán)境下進(jìn)行實(shí)驗(yàn)。其中FCOS 參數(shù)量最少,Roi Transformer參數(shù)量最多,本文在AOPG 方法上增加了特征增強(qiáng)等模塊,相比于AOPG 方法在參數(shù)量上增加了9×105,浮點(diǎn)運(yùn)算次數(shù)增加了2.17 GFLOPs。雖然參數(shù)量和計(jì)算量有所增加,但是在準(zhǔn)確度上超過了其他算法。相比于其他模型,本文模型使用有限的參數(shù)量獲得了更好的效果。
表4 參數(shù)量與模型大小的比較Table 4 Comparison of parameters and model size
在DIOR-R 數(shù)據(jù)集上,比較了FasterRCNN-O、RetinaNet-O、Gliding Vertex、Roi Transformer、AOPG 等先進(jìn)方法。所有檢測器均采用ResNet50 作為骨干網(wǎng)絡(luò)。表5為本文在DIOR-R數(shù)據(jù)集上與目前先進(jìn)方法的對(duì)比實(shí)驗(yàn),其中展示了各個(gè)類別的AP及mAP。實(shí)驗(yàn)表明,AFR-Net在DIOR-R數(shù)據(jù)集上達(dá)到了66.71%的mAP,與其他網(wǎng)絡(luò)相比,AFR-Net具有最佳的實(shí)驗(yàn)性能。在分析DIOR-R數(shù)據(jù)集特定類別的AP時(shí),可以得出結(jié)論,其他方法的檢測結(jié)果對(duì)于車輛(例如RetinaNet-O 中的38.01%)、棒球場(例如AOPG 中的71.62%)和水壩(例如FasterRCNN-O 中的18.95%)而言并不理想,本文方法在這些具有挑戰(zhàn)性的類別上mAP 為52.21%、77.48%和31.20%。此外,與其他方法相比,本文方法在檢測飛機(jī)、棒球場、籃球場、煙囪、高速公路服務(wù)區(qū)等多數(shù)類別上獲得了最佳的實(shí)驗(yàn)結(jié)果??梢暬瘷z測結(jié)果如圖9 所示。從圖9中可以看出,本文方法對(duì)于大型物體的檢測效果優(yōu)異,例如田徑場和橋梁,這歸因于本文擴(kuò)大感受野增強(qiáng)了特征定位的能力。
圖9 本文方法在DIOR-R數(shù)據(jù)集上的檢測結(jié)果樣例Fig.9 Some detection results of proposed method on DIOR-R dataset
在本文中,針對(duì)遙感圖像存在復(fù)雜背景,任意方向的特點(diǎn),提出了一種新穎的自適應(yīng)特征細(xì)化網(wǎng)絡(luò)AFR-Net,其中包括特征增強(qiáng)模塊、自適應(yīng)特征對(duì)齊模塊和解耦檢測頭。特征增強(qiáng)模塊通過擴(kuò)大感受野,增強(qiáng)網(wǎng)絡(luò)感興趣目標(biāo)的特征信息提升復(fù)雜背景下的目標(biāo)提取能力。自適應(yīng)特征對(duì)齊模塊根據(jù)目標(biāo)的形狀和方向自適應(yīng)調(diào)整特征采樣的位置,得到適應(yīng)于任意方向物體的特征信息。最后采用全連接和卷積結(jié)合的解耦檢測頭,提取旋轉(zhuǎn)敏感特征,進(jìn)一步提升檢測精度。實(shí)驗(yàn)表明,與最近提出的深度學(xué)習(xí)目標(biāo)檢測算法相比,AFR-Net具有先進(jìn)的性能。在遙感圖像公開數(shù)據(jù)集DIOR-R和HRSC2016上也進(jìn)行了測試,相較于基準(zhǔn)模型,本文方法分別提高了0.9 個(gè)百分點(diǎn)和2.3 個(gè)百分點(diǎn),mAP 分別為97.12%和66.71%。