朱 煜 方觀壽 鄭兵兵 韓 飛
近年來,隨著遙感技術(shù)的發(fā)展,高質(zhì)量的遙感圖像日益增多,這為遙感領(lǐng)域的應(yīng)用奠定了基礎(chǔ).遙感圖像廣泛應(yīng)用于災(zāi)害監(jiān)測、資源調(diào)查、土地利用評價、農(nóng)業(yè)產(chǎn)值測算、城市建設(shè)規(guī)劃等領(lǐng)域[1],對于社會和經(jīng)濟(jì)發(fā)展具有重要的意義.而目標(biāo)檢測作為遙感圖像處理的應(yīng)用之一,獲得圖中特定目標(biāo)類別和位置.通常關(guān)注飛機(jī)、機(jī)場、船舶、橋梁和汽車等目標(biāo),因此對于民用和軍用領(lǐng)域有著十分重要的用途[2].在民用領(lǐng)域中,船舶的定位有利于海上救援行動,車輛的定位有利于車輛計數(shù)和分析道路的擁堵情況等.在軍事領(lǐng)域中,這些類別信息的檢測獲取,有利于快速且精準(zhǔn)地鎖定攻擊目標(biāo)位置、分析戰(zhàn)爭形勢以及制定軍事行動等.因此對于遙感圖像中的目標(biāo)進(jìn)行精準(zhǔn)檢測至關(guān)重要.
目標(biāo)檢測是計算機(jī)視覺領(lǐng)域中一個重要且具有挑戰(zhàn)性的研究熱點(diǎn).隨著深度學(xué)習(xí)的快速發(fā)展,目標(biāo)檢測器的性能取得了顯著進(jìn)步,已經(jīng)廣泛應(yīng)用于各個行業(yè).目前常用的目標(biāo)檢測器大致可以分為兩級檢測器和單級檢測器兩類[3].兩級檢測器是基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Regions with convolutional neural network,R-CNN)框架,檢測過程分為兩個階段.第1 階段從圖像中生成一系列候選框區(qū)域,第2 階段從候選框區(qū)域中提取特征,然后使用分類器和回歸器進(jìn)行預(yù)測.Faster R-CNN[4]作為兩級檢測器的經(jīng)典方法,提出候選區(qū)域生成網(wǎng)絡(luò)(Region proposal networks,RPN)用于候選框的產(chǎn)生,從而快速、準(zhǔn)確地實現(xiàn)端到端檢測.之后區(qū)域全卷積網(wǎng)絡(luò)(Region-based fully convolutional network,RFCN)[5]、Cascade R-CNN[6]等兩級檢測器的出現(xiàn)進(jìn)一步提高目標(biāo)檢測的精度.單級檢測器將檢測問題簡化為回歸問題,僅僅由一系列卷積層進(jìn)行分類回歸,而不需要產(chǎn)生候選框及特征提取階段.因此這類方法通常檢測速度較快.例如,Redmon 等[7]提出YOLO 檢測器,將圖像劃分為一系列網(wǎng)格區(qū)域,每個網(wǎng)格區(qū)域直接回歸得到邊界框.Liu 等[8]提出SSD檢測器,在多個不同尺度大小的特征圖上直接分類回歸.Lin 等[9]提出Focal Loss 分類損失函數(shù),解決單級檢測器的類別不平衡問題,進(jìn)一步提高檢測精度.這些先進(jìn)的目標(biāo)檢測技術(shù)往往用于水平邊界框的生成,然而在遙感圖像中,大多數(shù)檢測目標(biāo)呈現(xiàn)出任意方向排列,對于橫縱比大或者密集排列的目標(biāo),僅僅采用水平框檢測將包含過多的冗余信息,影響檢測效果.因此旋轉(zhuǎn)方向成為不可忽視的因素.
早期應(yīng)用于遙感領(lǐng)域的旋轉(zhuǎn)框檢測算法主要來源于文本檢測,例如R2CNN[10]和RPN[11]等.然而由于遙感圖像背景復(fù)雜且空間分辨率變化較大,相比于二分類的文本檢測具有更大困難,因此這些優(yōu)秀的文本檢測算法直接應(yīng)用于遙感領(lǐng)域中并不能取得較好的檢測效果.近年來,隨著目標(biāo)檢測算法的發(fā)展以及針對遙感圖像的深入研究,涌現(xiàn)出許多性能良好的旋轉(zhuǎn)框檢測算法.例如Ding 等[12]提出旋轉(zhuǎn)感興趣區(qū)域?qū)W習(xí)器(Region of interest transformer,RoI),將水平框轉(zhuǎn)換為旋轉(zhuǎn)框,并在學(xué)習(xí)器中執(zhí)行邊界框的回歸;Zhang 等[13]提出通過捕獲全局場景和局部特征的相關(guān)性增強(qiáng)特征;Azimi 等[14]提出基于多尺度卷積核的圖像級聯(lián)方法;Yang 等[15]提出像素注意力機(jī)制抑制圖像噪聲,突出目標(biāo)的特征,并且在SmoothL1損失[4]中引入IoU 常數(shù)因子解決旋轉(zhuǎn)框的邊界問題,使旋轉(zhuǎn)框預(yù)測更加精確.Yang 等[16]設(shè)計精細(xì)調(diào)整模塊,采用特征調(diào)整模塊,通過插值操作實現(xiàn)特征對齊.Xu 等[17]提出回歸4種長度比來表示對應(yīng)邊的相對偏移距離,并且引入了一個真實框與其水平邊界框面積比作為傾斜因子,用于對每個目標(biāo)水平或旋轉(zhuǎn)檢測的選擇.Wei等[18]提出利用預(yù)測內(nèi)部中線實現(xiàn)旋轉(zhuǎn)目標(biāo)檢測的方法.Li 等[19]提出利用預(yù)測的掩模獲取旋轉(zhuǎn)框的方法.Wang 等[20]提出了一種基于初始橫向連接的特征金字塔網(wǎng)絡(luò)(Feature pyramid networks,FPN)增強(qiáng)算法,同時利用語義注意力機(jī)制網(wǎng)絡(luò)提供語義特征,從復(fù)雜的背景中提取目標(biāo).
因此,目前在遙感圖像中用于旋轉(zhuǎn)框檢測的方法大致可以分為兩種.其中一種算法整體結(jié)構(gòu)仍然為水平框檢測,僅僅在回歸預(yù)測分支中增加一些變量的獲取,例如角度因子等.這種算法使得在網(wǎng)絡(luò)預(yù)測的像素中包含較多背景信息,容易出現(xiàn)圖1 所示的角度偏移以及漏檢較多等問題.另一種算法預(yù)設(shè)含有角度的錨點(diǎn)框,然后采用旋轉(zhuǎn)候選框內(nèi)的像素進(jìn)行預(yù)測.由于目標(biāo)的旋轉(zhuǎn)角度較多,因此這種算法需要預(yù)設(shè)大量的錨點(diǎn)框以保證召回率,這樣會極大地增加計算量.
圖1 遙感圖像目標(biāo)檢測問題可視化Fig.1 Visualization of remote sensing images object detection problem
針對上述不足,本文結(jié)合這兩種處理方法的優(yōu)勢,以Faster R-CNN[21]為基礎(chǔ),提出一種用于旋轉(zhuǎn)框檢測的網(wǎng)絡(luò)R2-FRCNN (Refined rotated faster R-CNN).該網(wǎng)絡(luò)依次采用上述兩種旋轉(zhuǎn)框處理方法,將前一種方法得到旋轉(zhuǎn)框的過程視為粗調(diào),這個階段產(chǎn)生的旋轉(zhuǎn)框作為后一種方法的預(yù)設(shè)框,然后對于旋轉(zhuǎn)框再次進(jìn)行調(diào)整,這個過程稱為細(xì)調(diào).兩階段調(diào)整使得網(wǎng)絡(luò)輸出更加精確的預(yù)測框.此外,針對遙感圖像存在較多小目標(biāo)的特點(diǎn),本文提出像素重組特征金字塔結(jié)構(gòu)(Pixel-recombination feature pyramid network,PFPN),相比于傳統(tǒng)的金字塔網(wǎng)絡(luò),本文的金字塔結(jié)構(gòu)使得特征局部信息與全局信息相結(jié)合,從而突出復(fù)雜背景下小目標(biāo)的特征響應(yīng).同時為了更好地提取表征目標(biāo)信息的特征,用于后續(xù)預(yù)測階段,本文在粗調(diào)階段設(shè)計積分感興趣區(qū)域池化方法(Integrate region of interest pool,IRoIPool),以及在精調(diào)階段設(shè)計旋轉(zhuǎn)感興趣區(qū)域池化方法(Rotated region of interest pool,RRoIPool),提升復(fù)雜背景下小目標(biāo)的檢測精度.最后,本文在粗調(diào)和細(xì)調(diào)階段均采用全連接層與卷積層結(jié)合的預(yù)測分支以及SmoothLn回歸損失函數(shù),進(jìn)一步提升算法性能.
本文結(jié)構(gòu)安排如下: 第1 節(jié)詳細(xì)闡述本文提出的旋轉(zhuǎn)框檢測網(wǎng)絡(luò)R2-FRCNN;第2 節(jié)通過與官方基準(zhǔn)方法和現(xiàn)有方法的實驗結(jié)果進(jìn)行對比,以及本文方法各模塊的分離實驗,評估本文方法的性能;第3 節(jié)總結(jié).
本節(jié)對提出的網(wǎng)絡(luò)R2-FRCNN 結(jié)構(gòu)以及各模塊進(jìn)行闡述.首先介紹R2-FRCNN 網(wǎng)絡(luò)的整體結(jié)構(gòu),然后詳細(xì)介紹各個模塊(像素重組金字塔結(jié)構(gòu)、感興趣區(qū)域特征提取和網(wǎng)絡(luò)預(yù)測分支結(jié)構(gòu)),最后介紹本文使用的損失函數(shù).
圖2 展示了R2-FRCNN 網(wǎng)絡(luò)的整體結(jié)構(gòu),可以分為基礎(chǔ)網(wǎng)絡(luò)、像素重組金字塔、候選區(qū)域生成網(wǎng)絡(luò)RPN、粗略調(diào)整階段和精細(xì)調(diào)整階段5 個部分.
圖2 R2-FRCNN 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 The structure of R2-FRCNN
本文采用ResNet[22]作為算法的基礎(chǔ)網(wǎng)絡(luò),將C3、C4、C5和C6特征層用于構(gòu)建特征金字塔結(jié)構(gòu),增強(qiáng)網(wǎng)絡(luò)對于小目標(biāo)的檢測能力.由金字塔產(chǎn)生的P3、P4、P5、P6和P75 個特征層上,每個像素點(diǎn)預(yù)設(shè)3 個錨點(diǎn)框,錨點(diǎn)框的長寬比為{1:1,1:2,2:1},尺寸大小為8,經(jīng)由RPN[4]調(diào)整錨點(diǎn)框的位置生成一系列候選框.然后選擇置信度較高的2 000 個候選框用于粗略調(diào)整階段,該模塊的回歸過程將水平框調(diào)整為旋轉(zhuǎn)框.最后這些候選框進(jìn)入精細(xì)調(diào)整階段,再次調(diào)整旋轉(zhuǎn)框的位置,得到更好的檢測效果.經(jīng)過兩階段調(diào)整后的框,選擇后一階段中最大分類數(shù)值作為置信度,同時采用旋轉(zhuǎn)非極大抑制算法處理,選取鄰域內(nèi)置信度較高的框,并且抑制低置信度的框,這些高置信度的候選框即為網(wǎng)絡(luò)輸出預(yù)測框.
特征金字塔結(jié)構(gòu)[23]被廣泛應(yīng)用于許多先進(jìn)的目標(biāo)檢測算法中,這個結(jié)構(gòu)的設(shè)計在于淺層的定位信息準(zhǔn)確,深層的語義信息豐富,通過融合深淺層特征圖,提升對于小目標(biāo)的檢測性能.如表1 所示,RoI-Transformer (RT)[12]、CADNet[13]、SCRDet[15]、R3Det[16]和GV R-CNN (GV)[17]均采用了深淺層融合特征,表現(xiàn)出優(yōu)異的檢測性能,而R2CNN[10]未使用特征融合,取得的檢測結(jié)果遠(yuǎn)低于其他方法.圖3為本文設(shè)計的像素重組金字塔結(jié)構(gòu).該結(jié)構(gòu)分為2個階段: 第1 階段為Ci→Mi,采用尺度轉(zhuǎn)化的方式,利用局部特征信息的同時,融合上下層構(gòu)建金字塔結(jié)構(gòu);第2 階段為Mi→Pi,采用非局部注意力[24]模塊,利用全局信息,突出目標(biāo)區(qū)域的特征.
圖3 像素重組金字塔結(jié)構(gòu)Fig.3 The structure of pixel-recombination pyramid
表1 不同方法在DOTA 數(shù)據(jù)集的檢測精度對比(%)Table 1 Comparison of detection accuracy of different methods in DOTA (%)
在第1 階段中,特征上采樣對于金字塔結(jié)構(gòu)是一個關(guān)鍵的操作.最常用的特征上采樣方式為插值和轉(zhuǎn)置卷積[25].插值法僅考慮相鄰像素,無法獲取密集預(yù)測任務(wù)所需的豐富語義信息.轉(zhuǎn)置卷積作為卷積的逆運(yùn)算,將其作為上采樣方式存在2 點(diǎn)不足[26]:1)對于整個特征圖都采用同樣的卷積核,而不考慮特征圖中的目標(biāo)信息,限制了上采樣過程對于局部變化的響應(yīng);2)若采用較大的卷積核將會增加大量參數(shù).本文引入尺度轉(zhuǎn)換作為特征上采樣方法.深淺層特征融合的操作過程如圖4 所示.該方法首先利用 “通道轉(zhuǎn)化”方法[27]壓縮通道數(shù)(本文壓縮系數(shù)r=0.5),增大特征圖尺寸,即:
圖4 特征融合結(jié)構(gòu)Fig.4 The structure of feature fusion
然后,采用 1×1 的卷積層用于調(diào)整通道數(shù),再由Softmax 函數(shù)[28]作用于每一通道的特征層.最后采用式(2)進(jìn)行加權(quán)求和,使得特征融合過程更好地利用局部信息.
式中,m、n分別表示像素的橫、縱位置,c表示C特征層當(dāng)前通道,k表示M特征層當(dāng)前通道.
第2 階段采用非局部注意力模塊,利用特征圖中目標(biāo)與全局特征的關(guān)系,突出目標(biāo)區(qū)域的響應(yīng).
根據(jù)非局部注意力模塊的定義,假設(shè)C為通道數(shù),s為尺度大小,G為特征圖尺度的乘積即s×s,x為輸入特征圖,q(x) 、k(x) 和v(x) 定義為采用不同線性轉(zhuǎn)換的結(jié)果:
q(xs)與k(xs) 矩 陣相乘,得二維矩陣os ∈RG×G;再運(yùn)用Softmax 將矩陣的每一行轉(zhuǎn)換為概率值,最后與v(xs) 矩陣相乘后再與輸入相加,得輸出量xs′:
在本文的特征金字塔結(jié)構(gòu)中,第1 階段輸出的M3和M4由于尺度較大,直接用于非局部注意力模塊計算量較大.因此為了保留這兩層的語義信息,同時再次融合不同層的特征,該結(jié)構(gòu)將M3和M4池化為M5的尺寸大小,然后計算這3 層的均值輸入非局部注意力模塊,再由插值操作輸出對應(yīng)相等尺寸的特征圖.M6和M7的特征圖直接應(yīng)用非局部注意力模塊得到P6和P7層.
感興趣區(qū)域特征提取模塊主要用于固定輸出尺寸大小,提取表征框內(nèi)區(qū)域的特征,便于后續(xù)的網(wǎng)絡(luò)預(yù)測.本文的RoI 特征提取模塊主要分為粗調(diào)階段的水平框和細(xì)調(diào)階段的旋轉(zhuǎn)框RoI 特征提取兩部分.
自然場景圖像中的目標(biāo)通常是固定方向呈現(xiàn),因此兩階段式目標(biāo)檢測算法采用水平框的RoI 特征提取.目前,應(yīng)用較為廣泛的RoI 特征提取是RoIPooling[4]和RoI Align[29].圖5(a)為RoI 池化原理圖,選擇量化后塊中最大像素值作為池化后的結(jié)果.然而量化的結(jié)果會導(dǎo)致提取的小目標(biāo)像素存在偏差,影響檢測效果.圖5(b)為RoI 對齊原理圖,取消量化操作,采用雙線性插值在塊中計算出N個浮點(diǎn)坐標(biāo)的像素值,均值作為塊的結(jié)果.然而這個操作存在兩點(diǎn)不足: 采樣點(diǎn)數(shù)量需要預(yù)先設(shè)置,不同大小候選框設(shè)置了相同數(shù)量的采樣點(diǎn).
圖5 常用RoI 特征提取示意圖Fig.5 The schematic diagram of common RoI feature extraction
因此,本文采用精確RoI (Precise RoI,Pr-RoI)池化方法[30]的特征提取操作,如圖6 所示,由插值操作將塊內(nèi)特征視為一個連續(xù)的過程,采用積分方
圖6 IRoIPool 特征提取示意圖Fig.6 The diagram of IRoIPool feature extraction
法獲得整個塊的像素和,其均值作為塊的結(jié)果,即:
式中,f(x,y) 為采用面積插值法[15]所得的像素值.
旋轉(zhuǎn)框RoI 特征提取直接采用積分操作較為復(fù)雜,因此本文將積分操作視為塊內(nèi)一定數(shù)量的像素之和,從而得到塊的均值,即:
式中,(x1,y1) 和 (x2,y2) 分別為旋轉(zhuǎn)框在水平位置處的左上角和右下角點(diǎn),lx和ly分別為水平方向和垂直方向的采樣距離,如圖7 所示.
圖7 旋轉(zhuǎn)RoI 特征提取示意圖Fig.7 The diagram of rotated RoI feature extraction
根據(jù)候選框的大小決定采樣點(diǎn)的數(shù)量.然而采樣距離太小會導(dǎo)致計算量大幅增加,因此為平衡檢測效率與精度,本文將采樣距離lx和ly設(shè)置為0.4.
旋轉(zhuǎn)框在水平位置處采樣點(diǎn)的坐標(biāo)為 (xh,yh),旋轉(zhuǎn)框w所對應(yīng)的邊與橫軸正方向的夾角為θ,旋轉(zhuǎn)框的中心點(diǎn)為 (cx,cy),由式(10)轉(zhuǎn)化為旋轉(zhuǎn)框中的坐標(biāo) (x,y),再由面積插值法得到該位置的像素值.
本文方法與R3Det 類似,都使用了精細(xì)調(diào)整旋轉(zhuǎn)框的定位.然而R3Det 每一次調(diào)整的預(yù)測分支直接采用卷積層操作,但是卷積操作為水平滑動,用于旋轉(zhuǎn)框回歸將會包含一些背景像素干擾預(yù)測結(jié)果,而本文方法采用旋轉(zhuǎn)框感興趣區(qū)域提取框內(nèi)的特征信息用于預(yù)測,更加有利于檢測性能的提升.
目標(biāo)檢測算法分為定位和分類兩個任務(wù).一般而言,兩級檢測器的預(yù)測分支采用全連接層,而單級檢測器的預(yù)測分支采用卷積層.Wu 等[31]發(fā)現(xiàn)這兩個任務(wù)適合于不同的預(yù)測分支結(jié)構(gòu),全連接層更適合用于分類任務(wù),卷積層更適合用于回歸任務(wù).因此,本文采用圖8 所示的預(yù)測分支結(jié)構(gòu).
圖8 預(yù)測分支結(jié)構(gòu)圖Fig.8 The diagram of prediction branch
在本文采用的預(yù)測分支中,分類結(jié)構(gòu)保持不變,仍然采用全連接層.而回歸分支采用一系列Res-Net 網(wǎng)絡(luò)中的ResBlock 結(jié)構(gòu)(本文使用2 個).
本文提出網(wǎng)絡(luò)的損失函數(shù)包含RPN 階段LRPN、粗略調(diào)整階段Lro和精細(xì)調(diào)整階段Lre,即:
每一階段的損失函數(shù)都包含分類損失和回歸損失.分類損失采用交叉熵?fù)p失函數(shù)[4].回歸損失采用SmoothLn損失函數(shù)[32],如式(12)所示,相比于SmoothL1損失函數(shù)[4],該損失函數(shù)的一階導(dǎo)數(shù)是連續(xù)存在的,具有良好的光滑性.
此外,式(11) 中RPN 階段為水平框的回歸,因此使用x、y、w、h4 個值代表水平框.粗調(diào)階段和細(xì)調(diào)階段為旋轉(zhuǎn)框的回歸,使用x、y、w、h、θ5 個值代表旋轉(zhuǎn)框,因此旋轉(zhuǎn)框的回歸轉(zhuǎn)換值定義為:
式中,x、y、w、h、θ分別為旋轉(zhuǎn)框中心點(diǎn)的橫、縱坐標(biāo),框的寬度、高度和旋轉(zhuǎn)角度.xt、xa分別表示真實框和候選框的值.
本文實驗設(shè)備使用英特爾E5-2 683 CPU,英偉達(dá)GTX 1080Ti 顯卡,64 GB 內(nèi)存的服務(wù)器,實驗環(huán)境為Ubuntu 16.04.4 操作系統(tǒng)、Cuda9.0、Cudnn7.4.2、Pytorch1.1.0、Python3.7.
本文實驗中采用3 個GPU 進(jìn)行訓(xùn)練,批處理大小為3 (GPU 顯存限制),輸入圖像統(tǒng)一為1 024×1 024 分辨率.訓(xùn)練的迭代次數(shù)為15 輪,同時使用衰減系數(shù)為0.0001、動量為0.9 的隨機(jī)梯度下降作為優(yōu)化器,初始的學(xué)習(xí)率設(shè)置為0.01,分別在第8、第11 輪和第14 輪將學(xué)習(xí)率降低10 倍.圖9 是在DOTA 數(shù)據(jù)集上訓(xùn)練過程的損失下降曲線圖(一輪訓(xùn)練有4 500 次迭代),在第8 輪(36 000 次迭代)出現(xiàn)明顯的損失下降.
圖9 在DOTA 上訓(xùn)練過程損失曲線圖Fig.9 Train loss on DOTA
本文使用DOTA[21]用于算法的評估.DOTA是由旋轉(zhuǎn)框標(biāo)注的大型公開數(shù)據(jù)集,主要用于遙感圖像目標(biāo)檢測任務(wù).該數(shù)據(jù)集包含由各個不同傳感器和平臺采集的2 806 張圖像,圖像的大小范圍從800 × 800 像素到4 000 × 4 000 像素,含有各種尺度、方向和形狀.專家選擇15 種常見類別對這些圖像進(jìn)行標(biāo)注,總共標(biāo)注188 282 個目標(biāo)對象,包括飛機(jī)、棒球場、橋梁、田徑場、小型車輛、大型車輛、船舶、網(wǎng)球場、籃球場、儲油罐、足球場、環(huán)形車道、港口、游泳池和直升機(jī).另外該數(shù)據(jù)集選取一半的圖像作為訓(xùn)練集,1/6 作為驗證集,1/3 作為測試集,其中測試集的標(biāo)注不公開.為降低高分辨率圖像由于壓縮對于小目標(biāo)的影響,本文將所有圖像統(tǒng)一裁剪為1 024 × 1 024 的子圖像,重疊為200 像素.
本文方法采用ResNet50 與可變形卷積[33]相結(jié)合作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行本節(jié)實驗.為了評估本文方法的性能,實驗數(shù)據(jù)均采用官方提供的訓(xùn)練集和測試集.實驗結(jié)果通過提交到DOTA 評估服務(wù)器上獲得,本文方法的評估結(jié)果平均準(zhǔn)確率為0.7602,超過目前官方提供的基準(zhǔn)方法[21].
除了與官方基準(zhǔn)方法進(jìn)行對比,本節(jié)實驗還與R2CNN[10]、RoI-Transformer[12]、CADNet[13]、SCRDet[15]、R3Det[16]和GV R-CNN[17]進(jìn)行對比分析,各方法的檢測結(jié)果如表1 所示.
由表1 中的檢測結(jié)果可以看出,本文方法的檢測結(jié)果優(yōu)于其他方法,達(dá)到76.02%的平均準(zhǔn)確率.其中橋梁、小型車輛、大型車輛、船舶和港口這些類別取得最高檢測精度.由圖10 可以看出,這些類別的目標(biāo)在遙感數(shù)據(jù)集中尺寸較小,并且往往呈現(xiàn)出密集排列,因此說明本文方法對于在這類場景的檢測更具有優(yōu)勢.此外,飛機(jī)、網(wǎng)球場、籃球場、儲水池、游泳池等類別在遙感數(shù)據(jù)集中尺寸較大,對于這些目標(biāo)本文方法仍取得與其他方法中最高檢測精度相差不大的結(jié)果.這些檢測結(jié)果說明本文方法能夠有效地用于檢測遙感圖像中的目標(biāo).
圖10 各類別檢測結(jié)果展示Fig.10 Visualization of each category detection
1)各模塊對于檢測精度的影響
為驗證本文方法各模塊的有效性,本節(jié)進(jìn)行了一系列對比實驗.表2 展示了網(wǎng)絡(luò)在DOTA 數(shù)據(jù)集上不同模塊設(shè)置的檢測結(jié)果.其中 “√”表示采用該項設(shè)置,ConvFc 表示采用第1.4 節(jié)設(shè)計的預(yù)測分支結(jié)構(gòu).對比實驗分析如下:
a)基準(zhǔn)設(shè)置.本節(jié)實驗將擴(kuò)展后的Faster RCNN OBB[21]用于旋轉(zhuǎn)框檢測任務(wù).其中,基礎(chǔ)網(wǎng)絡(luò)采用ResNet50[22],并且采用特征金字塔[23],RoI特征提取采用RoI Align[29],回歸分支采用SmoothL1損失函數(shù)[4].為了保證實驗的公平性和準(zhǔn)確性,后續(xù)實驗參數(shù)設(shè)置都是嚴(yán)格一致.
b)精細(xì)調(diào)整.在實驗的精細(xì)調(diào)整階段,初始候選區(qū)域特征提取選擇Rotated RoI Align (RRoI Align)方法,該方法為RoI Align[29]在旋轉(zhuǎn)框中的應(yīng)用.由表2 的結(jié)果顯示,精細(xì)調(diào)整階段的添加,使得檢測效果得到大幅提升,評估指標(biāo)平均準(zhǔn)確率增加4.10%.說明提取旋轉(zhuǎn)候選框內(nèi)像素進(jìn)一步調(diào)整是有必要的,這個階段避免了水平框特征提取包含過多背景像素的問題,從而提升對較大橫縱比目標(biāo)的檢測效果.然而在實驗中發(fā)現(xiàn),在精細(xì)調(diào)整結(jié)構(gòu)中多次調(diào)整提升效果并不明顯,從一次調(diào)整增加為兩次調(diào)整,平均準(zhǔn)確率為73.68%,僅僅增加0.06%,因此為了減少參數(shù)量,本文后續(xù)實驗的精細(xì)調(diào)整階段采用一次調(diào)整過程.
c) RoI 特征提取.實驗中,將第1.3 節(jié)提出的IRoIPool 和RRoIPool 用于替換初始兩階段調(diào)整模塊的RoI Align 和RRoI Align.由表2 的實驗結(jié)果顯示,相比于初始RoI 特征提取方法,IRoIPool 方法使得檢測精度平均準(zhǔn)確率提升0.37%,RRoIPool 方法使得檢測精度平均準(zhǔn)確率進(jìn)一步提升0.32%,說明本文設(shè)計的RoI 特征提取更為有效.本文后續(xù)將對這兩個特征提取方法的結(jié)構(gòu)做進(jìn)一步研究.
d) PFPN 結(jié)構(gòu).為了更好地驗證PFPN 的作用,本文對此設(shè)計了兩組實驗.第1 組,金字塔結(jié)構(gòu)的深淺層不進(jìn)行尺寸轉(zhuǎn)化和非局部注意力模塊,僅僅采用 1×1 的卷積將特征層的通道數(shù)轉(zhuǎn)化為256,網(wǎng)絡(luò)的其他結(jié)構(gòu)和訓(xùn)練超參數(shù)保持一致,平均準(zhǔn)確率僅為64.55%,由于DOTA 數(shù)據(jù)集中小目標(biāo)較多,因此說明PFPN 金字塔結(jié)構(gòu)對于小目標(biāo)的檢測效果顯著.第2 組實驗的結(jié)果見表2,相比于FPN,PFPN 使得平均準(zhǔn)確率提升0.66%,說明本文提出的PFPN 結(jié)構(gòu)對于遙感目標(biāo)的檢測更為有效.
表2 R2-FRCNN 模塊分離檢測結(jié)果Table 2 R2-FRCNN module separates detection results
e)網(wǎng)絡(luò)預(yù)測分支.本節(jié)針對預(yù)測分支進(jìn)行兩部分的實驗,即回歸損失函數(shù)和預(yù)測分支結(jié)構(gòu).由表2可以看出,相比于SmoothL1,回歸損失函數(shù)采用SmoothLn, 使得檢測精度平均準(zhǔn)確率提升0.16%.此外,采用第1.4 節(jié)所設(shè)計的預(yù)測分支結(jié)構(gòu),分類過程采用全連接層,回歸過程采用卷積層,僅增加2個ResBlock 模塊,使得平均準(zhǔn)確率提升0.83%.由此說明回歸過程采用SmoothLn函數(shù)和卷積層更加適合旋轉(zhuǎn)框目標(biāo)檢測.
2)感興趣區(qū)域特征提取模塊研究
本節(jié)研究不同RoI 特征提取結(jié)構(gòu)對于檢測精度的影響,實驗分為水平候選框特征提取方法和旋轉(zhuǎn)候選框特征提取方法兩部分.實驗結(jié)果分別見表3和表4 所示.
表4 不同旋轉(zhuǎn)框特征提取方法的實驗結(jié)果Table 4 Experimental results of different feature extraction methods of rotated boxes
表3 的實驗結(jié)果顯示,采用RoIPooling 方式的檢測精度相對較低,其量化操作降低了對于小目標(biāo)的檢測效果. 而RoI Align 方式取消量化操作, 采用插值方式使得平均準(zhǔn)確率提升2.41%, 說明提取連續(xù)的特征有利于目標(biāo)檢測. 本文方法在面積插值法的基礎(chǔ)上引入積分操作, 平均準(zhǔn)確率提升0.37%.相比于前一種方式選取固定數(shù)量的像素點(diǎn), 本文采用的積分操作類似于選取較多點(diǎn), 可以提取更多特征, 有利于檢測效果的提升.
表3 不同水平框特征提取方法的實驗結(jié)果Table 3 Experimental results of feature extraction methods of different horizontal boxes
表4 為采用不同旋轉(zhuǎn)框特征提取方法的檢測結(jié)果. 第1 種方法旋轉(zhuǎn)感興趣區(qū)域平均池化方法(Rotated region of interest average pooling, RRoI APooling)選取旋轉(zhuǎn)框內(nèi)的像素點(diǎn), 像素均值作為提取的特征. 第2 種方法采用類似RoI Align 的方式在旋轉(zhuǎn)框內(nèi)選擇浮點(diǎn)數(shù)坐標(biāo), 運(yùn)用雙線性插值獲得對應(yīng)的像素值, 平均準(zhǔn)確率提升0.61%. 本文采用方法RRoIPool 可以根據(jù)旋轉(zhuǎn)框大小選擇不同數(shù)量的像素點(diǎn)表示特征. 相比于第2 種方式提升0.32%,說明本文采用的旋轉(zhuǎn)框特征提取方式更適合于精細(xì)調(diào)整模塊.
基于深度學(xué)習(xí)的目標(biāo)檢測算法在自然場景圖像中取得了很大進(jìn)展. 然而遙感圖像存在背景復(fù)雜、小目標(biāo)較多、排列方向任意等難點(diǎn), 常見的目標(biāo)檢測算法并不滿足這類場景的應(yīng)用需求. 因此本文提出一種粗調(diào)與細(xì)調(diào)兩階段結(jié)合的旋轉(zhuǎn)框檢測網(wǎng)絡(luò)R2-FRCNN 用于遙感圖像檢測任務(wù). 并且設(shè)計像素重組金字塔結(jié)構(gòu), 提高復(fù)雜背景下小目標(biāo)的檢測性能. 同時在粗調(diào)階段設(shè)計一種水平框特征提取方法IRoIPool, 細(xì)調(diào)階段設(shè)計旋轉(zhuǎn)框特征提取方法RRoIPool. 此外, 本文還采用SmoothLn回歸損失函數(shù), 以及全連接層和卷積層結(jié)合的預(yù)測分支, 進(jìn)一步提升檢測精度. 實驗結(jié)果表明本文方法在大型公共數(shù)據(jù)集DOTA 上獲得了較好的檢測效果. 然而本文方法存在檢測速度較慢、GPU 資源消耗較大等缺點(diǎn), 因此在后續(xù)的工作中也將針對網(wǎng)絡(luò)的輕量化展開進(jìn)一步研究.