鄭凌云, 李佐勇, 蔡遠(yuǎn)征,4, 唐鄭熠
(1.福建工程學(xué)院計算機(jī)科學(xué)與數(shù)學(xué)學(xué)院, 福建 福州 350118;2.閩江學(xué)院計算機(jī)控制與工程學(xué)院, 福建 福州 350121;3.福建省信息處理與智能控制重點實驗室, 福建 福州 350121;4.四創(chuàng)科技有限公司, 福建 福州 350100)
近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)已成功應(yīng)用于計算機(jī)視覺領(lǐng)域的各種任務(wù)中[1-7]。得益于神經(jīng)網(wǎng)絡(luò)的蓬勃發(fā)展,當(dāng)前遙感圖像識別網(wǎng)絡(luò)主要圍繞經(jīng)典的檢測器構(gòu)建,從2017年的旋轉(zhuǎn)視網(wǎng)膜網(wǎng)絡(luò)(Rotated Retinanet)開始,遙感目標(biāo)檢測的研究逐漸受到關(guān)注[8-9]。遙感目標(biāo)檢測使用主干網(wǎng)絡(luò)的相同特征進(jìn)行學(xué)習(xí),但是分類分?jǐn)?shù)和定位精度一般不會匹配,對高分類分?jǐn)?shù)的目標(biāo)不利。目前的損失函數(shù)側(cè)重于沿用水平框的面積計算得出交并比(Intersection over Union,IoU),導(dǎo)致在大長寬比的旋轉(zhuǎn)框下,細(xì)微角度的偏差會導(dǎo)致IoU偏差巨大,容易讓網(wǎng)絡(luò)過擬合。為了克服上述問題,本文提出一種基于對齊卷積和橢圓損失函數(shù)的遙感圖像目標(biāo)檢測算法,該網(wǎng)絡(luò)引入對齊卷積,可以根據(jù)尺度、形狀和方向生成對齊特征,達(dá)到提升精度的目的;使用橢圓框,減少學(xué)習(xí)過程中IoU損失函數(shù)振蕩;使用均方誤差損失進(jìn)一步優(yōu)化回歸損失。
隨著深度學(xué)習(xí)的發(fā)展,目前的檢測器分為兩種類別,即單級檢測器和兩級檢測器。單級檢測器只需提取一次特征即可實現(xiàn)目標(biāo)檢測,其速度比兩級檢測器快,但總體精度略低。目前的單級檢測器例如YOLO(You Only Look Once)[10],能直接完成從特征到分類和回歸的預(yù)測,使用相同的完全連接層實現(xiàn)分類和回歸。SSD(Single Shot MultiBox Detector)[11]網(wǎng)絡(luò)是一個完全卷積網(wǎng)絡(luò),即通過VGG16進(jìn)行特征提取后,提取38×38、19×19、10×10、5×5、3×3和1×1六層不同尺度的特征,用于SSD分類和回歸。兩級檢測器需要提取多種特征,學(xué)習(xí)速度慢,但是精度高于單級檢測器。常見的兩級檢測器包括R-CNN[12]、Fast R-CNN[13]、Faster R-CNN[14]、Mask R-CNN[15]和Feature Pyramid Network(FPN)[16]。FPN網(wǎng)絡(luò)構(gòu)建了一個特征金字塔,可以學(xué)習(xí)不同尺度的特征和處理大規(guī)模的對象變化。綜上所述,上述檢測模型主要依賴兩階段網(wǎng)絡(luò)分別進(jìn)行特征提取和識別。
目前研究人員在遙感圖像識別領(lǐng)域取得了如下的研究成果。ReDet[17]用于提取旋轉(zhuǎn)等變特征,可以準(zhǔn)確預(yù)測方向并大幅度減小模型尺寸。滑動頂點(Gliding Vertex)[7]方法沒有回歸通常矩形的4個頂點,而是在每個矩形框上移動頂點形成旋轉(zhuǎn)框。旋轉(zhuǎn)不變CNN在現(xiàn)有CNN體系結(jié)構(gòu)的基礎(chǔ)上,引入和學(xué)習(xí)一個新的旋轉(zhuǎn)不變層[18]。LIU等[19]構(gòu)建了一個近似封閉的船舶旋轉(zhuǎn)框空間,WANG等[20]提出了一個中心地圖OBB(Oriented Bounding Boxes),通過減少OBB中背景因素進(jìn)而更好地表示OBB。通過在經(jīng)典的水平邊界框表示法中添加四個滑動偏移變量,可以獲得圖像的新表示法,檢測器也可以學(xué)習(xí)新的特征。YANG等[8]提出的RepPoints是一種新的對象檢測表示,它由一組表示對象空間范圍和語義重要局部區(qū)域的點組成。這種表示是通過弱定位監(jiān)督和矩形錨點隱式識別反饋實現(xiàn)學(xué)習(xí)的。ZHANG等[21]開發(fā)的CAD-net(Context-Aware Detection Network)由全局上下文網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)利用注意力調(diào)制特征以及聯(lián)系全局特征與局部特征檢測圖像。
圖1 單階段對齊檢測網(wǎng)絡(luò)框架Fig.1 Single-stage alignment detection network framework
標(biāo)準(zhǔn)的卷積可以用公式(1)表示:
(1)
其中:W表示卷積核的參數(shù),r為卷積像素相對于當(dāng)前位置的偏移,p表示當(dāng)前卷積的空間位置,R為常規(guī)的采樣位置。
本文研究的網(wǎng)絡(luò)中,在改進(jìn)視網(wǎng)膜網(wǎng)絡(luò)模塊中增加了對齊卷積模塊(Alignment Convolution Module),與標(biāo)準(zhǔn)卷積不同的是,對齊卷積增加了一個偏移量o:
(2)
其中:o為采樣到的錨框坐標(biāo)和真實值之間的偏差值,p中含有如下參數(shù)(x,y,h,θ)表示p位置的錨框,對于每個規(guī)則位置的r,基于錨框的采樣位置為
(3)
(4)
圖2為對齊卷積網(wǎng)絡(luò)模塊的圖例,通過在網(wǎng)絡(luò)中加入對齊卷積將W*H*KA錨框中預(yù)測的位置解碼成旋轉(zhuǎn)矩形(x,w,h,θ),K為分類的類別,在DOTA1.0數(shù)據(jù)集中的K為15,本次實驗采用9個不同的錨框,所以A為9。與輸入特征一起計算對齊卷積,提取對齊卷積的特征。對齊卷積網(wǎng)絡(luò)模塊由輸入通道和輸出通道都為256的5層可變形卷積組成,經(jīng)每個卷積層后使用ReLU作為激活函數(shù)。
圖2 對齊卷積網(wǎng)絡(luò)模塊Fig.2 Aligned convolutional network module
計算橢圓IoU的流程如圖3所示,首先將邊界框轉(zhuǎn)換為高斯分布,將邊界框的中心點重合,其次使用卡爾曼濾波獲得重疊區(qū)域的分布函數(shù),最后將得到的分布函數(shù)值和旋轉(zhuǎn)框計算IoU。
(a)將矩形框轉(zhuǎn)變?yōu)闄E圓框
2D旋轉(zhuǎn)框可轉(zhuǎn)換為高斯分布G(μ,Σ)形式表示:
Σ=RΛRT
(5)
μ=(x,y)T
(6)
其中,R表示旋轉(zhuǎn)矩陣,Λ表示特征值的對角矩陣。
對于2D目標(biāo)B2(x,y,h,w,θ):
(7)
(8)
此處,可基于方差公式計算出高斯分布旋轉(zhuǎn)框的面積VB,由于遙感圖像識別檢測的是二維平面,因此此處帶入n=2,并使用協(xié)方差累乘,可得面積VB公式如下:
(9)
進(jìn)一步引入高斯分布計算預(yù)測框與真實值之間的重疊部分的面積Gs,該過程可以通過由兩個高斯分布G1和G2的乘積得到:
αGs(μ,Σ)=G1(μ1,Σ1)G2(μ2,Σ2)
(10)
其中:α可以表示為
α=Gα(μ2,Σ1+Σ2)
(11)
μ、Σ可表示為
(12)
公式(12)中,K=Σ1(Σ1+Σ2)-1。需要注意的是,公式(12)計算后得到的高斯分布的協(xié)方差Σ,與協(xié)方差Σ1與Σ2有關(guān),該公式?jīng)]有體現(xiàn)出位置對于協(xié)方差的影響,其原因在于該計算過程中采用的高斯分布αGs(μ,Σ)并不是標(biāo)準(zhǔn)高斯分布,不能在不考慮中心點系數(shù)α的情況下,直接計算出重疊面積。在計算面積時,要同時把α考慮進(jìn)去。所以,引入中心點損失使得兩個分布同中心,這樣就不需要考慮中心點系數(shù)。橢圓損失函數(shù)如下:
(13)
接下來,我們就可以將軸對齊的框的特征轉(zhuǎn)換成任意方向上的特征。
在單階段圖像識別中,正樣本僅占很少的一部分,更多的負(fù)樣本對訓(xùn)練沒有幫助。本次實驗不使用傳統(tǒng)的交叉熵?fù)p失函數(shù),改為使用能解決正負(fù)樣本不平衡問題的Focal Loss損失函數(shù)。
Focal Loss損失函數(shù)定義如下:
LossF=-(1-pt)γlog(pt)
(14)
其中:γ是范圍在[0,5]的參數(shù),pt定義為
(15)
其中:p為模型屬于前景的概率,y的取值為1和-1,分別代表前景和背景。(1-pt)γ作為一個調(diào)制因子,當(dāng)背景容易分辨時,(1-pt)γ較低,說明對損失的貢獻(xiàn)較小,即降低了易區(qū)分樣本的損失比例。
由于SmoothL1損失函數(shù)對長寬比完全不敏感,所以本次實驗在回歸網(wǎng)絡(luò)中使用均方誤差損失,公式如下[24]:
(16)
其中:y為真實值,y0為預(yù)測值。
均方誤差損失的優(yōu)點在于函數(shù)曲線連續(xù)、光滑、處處可導(dǎo),適用于梯度下降算法,并且誤差減小時,損失也會減小,有利于收斂。即使使用固定的學(xué)習(xí)速率,也能很好地收斂到最小值。
在本文的SAN網(wǎng)絡(luò)中,不同的網(wǎng)絡(luò)模塊損失函數(shù)的計算方式不同,視網(wǎng)膜模塊損失函數(shù)的計算方法為
Losstotal=LossF+LossE
(17)
旋轉(zhuǎn)檢測模塊損失函數(shù)的計算方法為
(18)
DOTA[25]是一個用于定向目標(biāo)檢測的大型航空圖像數(shù)據(jù)集,目前一共有DOTA1.0、DOTA1.5、DOTA2.0三個版本。DOTA1.0包含2 806張800×800~4 000×4 000的圖像和188 282個實例,包含15個常見目標(biāo)類別:飛機(jī)(PL)、棒球場(BD)、橋梁(BR)、田徑場(GTF)、小型車輛(SV)、大型車輛(LV)、船舶(SH)、網(wǎng)球場(TC)、籃球場(BC)、儲罐(ST)、足球場(SBF)、環(huán)島(RA)、港口(HA)、游泳池(SP)和直升機(jī)(HC)。其中,數(shù)據(jù)集的1.5版本使用了和1.0版本相同的圖片,但是額外標(biāo)注了非常小的目標(biāo)(小于10個像素),并且多了一個類別(集裝箱起重機(jī),CC),而DOTA2.0包含了18個類別,并且有11 268張圖像和1 793 658個實例。與DOTA v1.5相比,DOTA2.0進(jìn)一步增加了新的圖像類別。
DOTA數(shù)據(jù)集提供了訓(xùn)練集、驗證集和測試集,其中測試集的數(shù)據(jù)不公開。將訓(xùn)練集和驗證集的數(shù)據(jù)都用于訓(xùn)練。在DOTA之后,從原始圖像中裁剪了一系列1 024×1 024的補(bǔ)丁,步幅為824。為了避免過擬合,沒有使用其他技巧。
HRSC2016是一個帶有旋轉(zhuǎn)框的船舶檢測數(shù)據(jù)集,包含1 061張船舶的遙感圖像,大小范圍為300×300~1 500×900。訓(xùn)練集、驗證集和測試集分別包含436、181和444張圖像。使用訓(xùn)練集、驗證集進(jìn)行訓(xùn)練,測試集用于測試。根據(jù)原網(wǎng)絡(luò)的設(shè)置不同,把所有圖像的大小改為800×512或者512×800,但不改變圖像的長寬比。訓(xùn)練過程采用隨機(jī)翻轉(zhuǎn)方式,隨機(jī)翻轉(zhuǎn)的方向包含水平和豎直方向。
本次實驗在兩張NVIDIA RTX A4000的環(huán)境下運(yùn)行,實驗都使用ResNet50初始化。所有網(wǎng)絡(luò)使用同樣的參數(shù)設(shè)置,學(xué)習(xí)率為0.002 5,動量和動量衰減分別為0.9和0.000 1,在DOTA數(shù)據(jù)集下,epoch為12,在HRSC2016數(shù)據(jù)集中,epoch為36。使用SGD梯度衰減。
在DOTA數(shù)據(jù)集中,本次實驗采用平均精度均值(mAP)作為評價指標(biāo),此評價指標(biāo)被PASCAL VOC、COCO、ImageNET、Google Open Image Challenge等圖像檢測比賽所使用。在mAP的計算中,涉及以下概念。
TP:實際為正樣本,同時被分類器劃分為正樣本的樣本數(shù)。
FP:實際為正樣本,但是被分類器劃分為負(fù)樣本的樣本數(shù)。
FN:實際為負(fù)樣本,但是被分類器劃分為正樣本的樣本數(shù)。
TN:實際為負(fù)樣本,同時被分類器劃分為負(fù)樣本的樣本數(shù)。
召回率Recall的計算方式為
(19)
準(zhǔn)確率Precision的計算方式為
(20)
P-R曲線是所有Precision-Recall點連成的曲線,用于計算AP值。通常,P在縱軸,R在橫軸,P值越高,R值越低。AP值就是P-R曲線圍成的面積,由于檢測精度需要IoU作為度量的邊界,使用不同IoU度量的P-R曲線的AP值也不同,mAP是使用不同IoU得出的AP值的均值。AP50是IoU閾值取0.5時得出的AP值,研究人員在HRSC2016數(shù)據(jù)集中使用此評判方法。
將典型的Rotate Retina Net(RR)作為基線,視網(wǎng)膜網(wǎng)絡(luò)作為單級檢測器檢測速度快,但也會因為添加了模塊而增加了計算量。視網(wǎng)膜網(wǎng)絡(luò)的焦點損失表現(xiàn)較好,在當(dāng)時精度超過了二級檢測器,計算速度超過了單級檢測器,是一個很好的挑戰(zhàn)目標(biāo)。
表1是本文方法與當(dāng)前的主流網(wǎng)絡(luò)的精度對比結(jié)果,表1中有些網(wǎng)絡(luò)的名稱使用縮寫,黑體數(shù)字下劃線表示類別中最高的精度,黑體數(shù)字表示次高的精度,可以看到,本文方法的mAP比基線方法提高了13.2%,比當(dāng)前主流網(wǎng)絡(luò)有了較大的提升,并且對難以識別的一些目標(biāo)(直升機(jī)、田徑場、大型汽車)也表現(xiàn)出最優(yōu)的檢測效果。在大長寬比的物體識別中,對比其他的網(wǎng)絡(luò)的mAP也有較大的提升,說明網(wǎng)絡(luò)改進(jìn)的方向是正確的。
表1 本文方法與各個主流網(wǎng)絡(luò)的精度比較
對網(wǎng)絡(luò)進(jìn)行消融實驗,分別對網(wǎng)絡(luò)是否添加了橢圓損失函數(shù)、對齊卷積和均方誤差損失做了對比,如表2所示,對齊卷積網(wǎng)絡(luò)模塊能讓網(wǎng)絡(luò)學(xué)習(xí)到角度信息、橢圓損失函數(shù)能夠更加精確地計算交并比、均方誤差損失函數(shù)能優(yōu)化梯度計算。從表2中可以看到,當(dāng)使用了更多的對齊卷積或者卷積函數(shù)時,精度會比沒使用或者使用更少的方法高,證明每個模塊的引用是有意義的。
表2 使用不同算法的結(jié)果
替換旋轉(zhuǎn)檢測網(wǎng)絡(luò)模塊中的回歸損失函數(shù),比較結(jié)果如表3所示,從表3中可以看到,在相同的網(wǎng)絡(luò)下,均方誤差損失在本文方法里發(fā)揮的最好,均方誤差損失便于梯度下降和利于收斂的性質(zhì)更契合本文網(wǎng)絡(luò),并且模塊的增多也會相應(yīng)地提升精確率。
表3 本文方法與其他損失函數(shù)的比較
表4是本文方法與其他主流方法在HRSC2016數(shù)據(jù)集上的結(jié)果。我們用AP50作為評判標(biāo)準(zhǔn)。在HRSC2016數(shù)據(jù)集上,本文所提網(wǎng)絡(luò)的精確率比基線提高了15.5%,并且優(yōu)于當(dāng)前的主流方法。HRSC2016數(shù)據(jù)集包含的船舶目標(biāo)都是任意方向和大長寬比的,表明本文所提網(wǎng)絡(luò)在遙感圖像識別領(lǐng)域的表現(xiàn)出色。
表4 各方法在HRSC2016數(shù)據(jù)集上的結(jié)果
圖4是DOTA實例的識別結(jié)果。對于相同的圖像,圖4(b)和圖4(d)是本文網(wǎng)絡(luò)的實驗結(jié)果,圖4(a)和圖4(c)是基線的實驗結(jié)果。基線網(wǎng)絡(luò)對于角度的回歸不是很穩(wěn)定,會出現(xiàn)檢測框大小正確,但方向有誤的情況。圖4(a)和圖4(b)展示了常見的遙感圖像,從中可以看出遙感圖像的目標(biāo)更加密集,本文方法對于每個目標(biāo)的置信度相對于基線方法更高,并且旋轉(zhuǎn)框的定位更加準(zhǔn)確,在圖像尺寸明顯增大的情況下,基線方法有較大的缺點:旋轉(zhuǎn)框的定位不精確,會出現(xiàn)明顯的角度偏差,并且由于圖像尺寸過大,導(dǎo)致某些目標(biāo)難以檢測。本網(wǎng)絡(luò)顯著提升了定位精度和置信度,也能檢測出基線網(wǎng)絡(luò)檢測不出來的實例。
(a)基線方法
本文研究了遙感目標(biāo)檢測技術(shù)的發(fā)展現(xiàn)狀以及目前存在的問題,提出了一種使用橢圓旋轉(zhuǎn)框和對齊卷積的單階段檢測網(wǎng)絡(luò)。使用高斯分布將矩形錨框轉(zhuǎn)變?yōu)闄E圓錨框,有效彌補(bǔ)了水平錨框因為角度偏差出現(xiàn)的IoU與實際精度不匹配的缺陷。同時,引入對齊卷積網(wǎng)絡(luò)模塊與協(xié)變性特征,解決定位精度和分類分?jǐn)?shù)不高的問題。本文方法和其他主流網(wǎng)絡(luò)比較,具有明顯的優(yōu)勢,在現(xiàn)階段流行的數(shù)據(jù)集中取得了優(yōu)于主流算法的精度。在將來的工作中,要進(jìn)一步考慮當(dāng)前算法對于小目標(biāo)實例召回率不高的問題,通過添加對小目標(biāo)友好的網(wǎng)絡(luò)模型子網(wǎng)絡(luò)分支與顯著性模塊增強(qiáng)等方式,逐步提升小目標(biāo)的召回率。