曹 旭, 鄒煥新, 成 飛, 李潤(rùn)林, 賀詩(shī)甜
(國(guó)防科技大學(xué)電子科學(xué)學(xué)院, 湖南 長(zhǎng)沙 410073)
在戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變的情況下,快速精確識(shí)別目標(biāo)是現(xiàn)代戰(zhàn)爭(zhēng)制勝的關(guān)鍵,因此開展光學(xué)遙感圖像上的飛機(jī)目標(biāo)檢測(cè)與識(shí)別,對(duì)國(guó)防事業(yè)具有極其重要的意義。該技術(shù)在偵查監(jiān)視對(duì)方機(jī)場(chǎng)軍力部署、有效打擊重點(diǎn)空戰(zhàn)目標(biāo)、提高防空預(yù)警能力等方面有著廣泛的應(yīng)用前景外[1]。此外,在民用領(lǐng)域中,如民航機(jī)場(chǎng)流量管控、航班識(shí)別等也具有重要作用。但是,因?yàn)闄C(jī)場(chǎng)背景復(fù)雜,利用光學(xué)衛(wèi)星遙感圖像對(duì)地面上的飛機(jī)目標(biāo)進(jìn)行自動(dòng)檢測(cè)與識(shí)別一直以來(lái)都是非常具有挑戰(zhàn)性的任務(wù)[2]。在光學(xué)遙感圖像中,飛機(jī)目標(biāo)檢測(cè)識(shí)別具有以下兩個(gè)主要難點(diǎn)。
(1) 方向檢測(cè)困難:飛機(jī)目標(biāo)尺度小、細(xì)節(jié)不清晰,在圖像中通常比較密集且方向多變,容易造成誤檢和漏檢;相比較于遙感圖像艦船方向檢測(cè),飛機(jī)目標(biāo)機(jī)長(zhǎng)、翼展尺寸比較接近,難以有效利用飛機(jī)的長(zhǎng)寬比信息準(zhǔn)確估計(jì)其主軸方向。
(2) 精細(xì)識(shí)別困難:不同型號(hào)飛機(jī)目標(biāo)之間尺寸接近、形狀類似,類間特征差別較小,難以精細(xì)識(shí)別;同型號(hào)飛機(jī)之間受可變掠翼張角不同、自身陰影等影響,容易產(chǎn)生錯(cuò)誤分類。
傳統(tǒng)飛機(jī)目標(biāo)檢測(cè)方法通?;谑止ぬ崛〉奶卣鞫O(shè)計(jì)。Zhang等人[3]提出了一種通過(guò)提取閉合輪廓來(lái)識(shí)別飛機(jī)的方法。Liu等人[4]提出了一種通過(guò)拐角特征識(shí)別飛機(jī)的方法。Qiu等人[5]在拐角特征基礎(chǔ)上,進(jìn)一步提出使用邊緣信息來(lái)檢測(cè)飛機(jī)。Zhang等人[6]提出將哈里斯-拉普拉斯拐角檢測(cè)器與仿射不變矩結(jié)合起來(lái)構(gòu)建特征以檢測(cè)飛機(jī)目標(biāo)。此外,還有很多傳統(tǒng)檢測(cè)方法[7-10]。然而,由于需要大量參數(shù)優(yōu)化,使得這些傳統(tǒng)飛機(jī)檢測(cè)方法泛化性能較差,在利用這些傳統(tǒng)方法處理新的數(shù)據(jù)集時(shí),需要人工經(jīng)驗(yàn)對(duì)參數(shù)進(jìn)行大量調(diào)整。
得益于深度學(xué)習(xí)和區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region convolutional neural network,RCNN)的發(fā)展,許多方法將目標(biāo)檢測(cè)視為根據(jù)深度特征提取的感興趣區(qū)域(region of interest,ROI)的分類問題,并在多個(gè)領(lǐng)域都表現(xiàn)出優(yōu)異的檢測(cè)性能[11-16]。上述方法都是為檢測(cè)自然場(chǎng)景或艦船目標(biāo)而設(shè)計(jì)的,針對(duì)遙感圖像中飛機(jī)多方向密集排布問題,通常無(wú)法獲得較好的檢測(cè)結(jié)果。此外,在利用深度學(xué)習(xí)進(jìn)行光學(xué)遙感圖像中飛機(jī)目標(biāo)檢測(cè)方面,近年來(lái)也涌現(xiàn)出較多方案。Yu等人[17]提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)的飛機(jī)檢測(cè)方法,通過(guò)最小化多任務(wù)損失直接定位飛機(jī)。Wang等人[18]進(jìn)一步提出了一種基于RCNN的飛機(jī)檢測(cè)方法,通過(guò)K-means對(duì)不同尺寸的目標(biāo)進(jìn)行聚類分析,以聚類中心作為候選錨框尺寸,提高了錨框生成質(zhì)量。其后,Li等人[19]提出了一種基于增強(qiáng)學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的飛機(jī)檢測(cè)框架,通過(guò)增強(qiáng)學(xué)習(xí)實(shí)現(xiàn)對(duì)候選區(qū)域的動(dòng)態(tài)約簡(jiǎn),并限制邊緣框范圍以提高候選框質(zhì)量。除此之外,還有很多其他優(yōu)秀的遙感飛機(jī)目標(biāo)檢測(cè)方法[20-24]。雖然上述方法在遙感圖像中飛機(jī)目標(biāo)定位方面取得了很大進(jìn)展,但當(dāng)飛機(jī)目標(biāo)方向檢測(cè)與精細(xì)識(shí)別任務(wù)同時(shí)進(jìn)行時(shí),飛機(jī)檢測(cè)與識(shí)別結(jié)果并不理想。
2019年,Chen等人[25]提出了混合任務(wù)級(jí)聯(lián)(hybrid task cascade, HTC)網(wǎng)絡(luò),用于自然圖像中的實(shí)例分割。HTC網(wǎng)絡(luò)包含3個(gè)結(jié)構(gòu)分支:目標(biāo)檢測(cè)分支、掩膜分支與分割分支,可以精準(zhǔn)定位、分類和分割目標(biāo)。受HTC網(wǎng)絡(luò)能夠同時(shí)完成多種任務(wù)的思路啟發(fā),本文提出了一種基于旋轉(zhuǎn)HTC(rotated HTC, RHTC)網(wǎng)絡(luò)的多方向飛機(jī)目標(biāo)檢測(cè)與精細(xì)識(shí)別方法。主要思路為:首先,在數(shù)據(jù)預(yù)處理階段,構(gòu)建每類型號(hào)飛機(jī)目標(biāo)的精細(xì)掩膜,以形成目標(biāo)的輪廓編碼作為網(wǎng)絡(luò)輸入;其次,RHTC將分割分支與包圍框分支多層級(jí)聯(lián),以不斷加強(qiáng)語(yǔ)義特征,并將語(yǔ)義特征與其他特征進(jìn)行融合,從而提高包圍框和掩膜預(yù)測(cè)精度;最后,在掩膜預(yù)測(cè)的最后一層,設(shè)計(jì)并增加一個(gè)方向損失函數(shù),同時(shí)引入一個(gè)新的斜框回歸器以便從掩膜預(yù)測(cè)結(jié)果中準(zhǔn)確預(yù)測(cè)目標(biāo)的機(jī)頭正方向。本文方法可以準(zhǔn)確快速地實(shí)現(xiàn)光學(xué)遙感圖像中飛機(jī)目標(biāo)的定位、分類和掩膜預(yù)測(cè),并回歸出飛機(jī)目標(biāo)的斜框和機(jī)頭正方向。利用DOTA數(shù)據(jù)集中的飛機(jī)目標(biāo)和自建的 Google 圖像典型軍用飛機(jī)目標(biāo)數(shù)據(jù)集開展了多組飛機(jī)目標(biāo)方向檢測(cè)和精細(xì)識(shí)別實(shí)驗(yàn),并將本文方法與其他多種先進(jìn)算法,包括帶有方向性邊框F-RCNN(faster RCNN oBB, FRO)[26]、ROI transformer[16]、旋轉(zhuǎn)區(qū)域建議網(wǎng)絡(luò)(rotated region proposal network,RRPN)[27]、旋轉(zhuǎn)RCNN(rotational RCNN, R2CNN)[28]、旋轉(zhuǎn)密集特征金字塔網(wǎng)絡(luò)(rotational dense feature pyramid networks,RDFPN)[29]進(jìn)行了算法性能比較和評(píng)估分析。實(shí)驗(yàn)結(jié)果表明,本文方法在飛機(jī)目標(biāo)檢測(cè)的方向精準(zhǔn)度和精細(xì)識(shí)別的類別平均精準(zhǔn)度上性能更優(yōu)。此外,為了評(píng)估本文方法中提出的斜框回歸器在作為一個(gè)單獨(dú)的模塊嵌入到其他分割網(wǎng)絡(luò)時(shí)的性能,將本文設(shè)計(jì)的斜框回歸器和方向損失函數(shù)應(yīng)用于掩膜RCNN(mask RCNN, M-RCNN)[30]和級(jí)聯(lián)M-RCNN(cascade M-RCNN, CM-RCNN)[31],并基于自建的Google圖像典型軍用飛機(jī)目標(biāo)數(shù)據(jù)集進(jìn)行了訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法設(shè)計(jì)的斜框回歸器和方向損失函數(shù)在嵌入到其他分割網(wǎng)絡(luò)時(shí)也具有良好的性能。
本文提出的算法框架主要包含3個(gè)部分:① 分割級(jí)聯(lián)結(jié)構(gòu):RHTC網(wǎng)絡(luò)通過(guò)分割分支與包圍框分支多層級(jí)聯(lián),增強(qiáng)語(yǔ)義特征,以實(shí)現(xiàn)更精確的目標(biāo)水平框定位、精細(xì)分類和掩膜預(yù)測(cè);② 在預(yù)處理階段,構(gòu)建每類型號(hào)飛機(jī)目標(biāo)精細(xì)掩膜和圖像的語(yǔ)義分割圖,以構(gòu)建完整的網(wǎng)絡(luò)訓(xùn)練輸入; ③ 在網(wǎng)絡(luò)掩膜預(yù)測(cè)最后一層(M3)后,設(shè)計(jì)并增加一個(gè)新的方向損失函數(shù),同時(shí)引入一個(gè)新的斜框回歸器,以優(yōu)化訓(xùn)練過(guò)程和實(shí)現(xiàn)飛機(jī)目標(biāo)的方向檢測(cè)。本文方法流程圖如圖1所示。
圖1 本文算法流程圖Fig.1 Flowchart of the proposed method
為了更好地理解本文RHTC網(wǎng)絡(luò)結(jié)構(gòu),下面首先對(duì)CM-RCNN的網(wǎng)絡(luò)結(jié)構(gòu)、無(wú)分割分支的HTC網(wǎng)絡(luò)結(jié)構(gòu)以及帶分割分支的HTC網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行簡(jiǎn)單的介紹。
1.1.1 CM-RCNN網(wǎng)絡(luò)
Cascade RCNN[32]開創(chuàng)了級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)的經(jīng)典結(jié)構(gòu),M-RCNN則是優(yōu)秀的通用實(shí)例分割架構(gòu),Cai等人[31]嘗試將Cascade RCNN和M-RCNN兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單組合為CM-RCNN應(yīng)用于實(shí)例分割任務(wù),通過(guò)不斷優(yōu)化預(yù)測(cè)框的回歸以獲得更好的檢測(cè)結(jié)果,但其掩膜分支與預(yù)測(cè)框分支在每個(gè)階段均獨(dú)立運(yùn)算,二者之間沒有信息流通,導(dǎo)致網(wǎng)絡(luò)分割能力整體較弱,這是因?yàn)檠谀ゎA(yù)測(cè)精度僅通過(guò)預(yù)測(cè)框精度的不斷提升而獲得少量提升。圖2展示了CM-RCNN的網(wǎng)絡(luò)結(jié)構(gòu),其中,代表掩膜預(yù)測(cè)部分,B代表包圍框(bounding box,bbox)預(yù)測(cè)部分,M和B后面的數(shù)字表示級(jí)聯(lián)網(wǎng)絡(luò)階段數(shù)。
圖2 CM-RCNN結(jié)構(gòu)Fig.2 Architecture of CM-RCNN
1.1.2 無(wú)分割分支的HTC網(wǎng)絡(luò)
HTC網(wǎng)絡(luò)是在Cascade RCNN和M-RCNN的基礎(chǔ)上進(jìn)行融合改進(jìn)的結(jié)果。為了加強(qiáng)掩膜與預(yù)測(cè)框之間、掩膜與掩膜之間的信息流通,HTC網(wǎng)絡(luò)取消了第一階段上的掩膜分支,使其與第一階段的預(yù)測(cè)框相關(guān)聯(lián),以提高第一階段的掩膜預(yù)測(cè)精度,同時(shí)套用級(jí)聯(lián)優(yōu)化思想,在掩膜分支之間添加信息流(見圖3中的紅色箭頭),實(shí)現(xiàn)掩膜級(jí)聯(lián),掩膜特征從前一階段流通到后一階段,大大提高了掩膜的預(yù)測(cè)精度。無(wú)分割分支的HTC網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 無(wú)分割分支的混合任務(wù)級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Architecture of hybrid task cascade (HTC) without segmentation branch
1.1.3 帶分割分支的HTC網(wǎng)絡(luò)
為增強(qiáng)網(wǎng)絡(luò)區(qū)分前景和背景的能力,HTC網(wǎng)絡(luò)額外使用了上下文信息,將語(yǔ)義特征與掩膜分支、包圍框分支特征進(jìn)行融合。其中,語(yǔ)義特征通過(guò)分割分支來(lái)提取。分割分支以特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)[33]輸出的組合特征作為輸入,通過(guò)全卷積結(jié)構(gòu)得到分割預(yù)測(cè)和語(yǔ)義特征。分割分支結(jié)構(gòu)如圖4所示,添加了分割分支的HTC網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖4 分割分支結(jié)構(gòu)Fig.4 Architecture of segmentation branch
圖5 帶分割分支的混合任務(wù)級(jí)聯(lián)網(wǎng)絡(luò)Fig.5 Architecture of HTC with segmentation branch
HTC網(wǎng)絡(luò)的語(yǔ)義特征僅由分割分支提取一次,且區(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN)及bbox預(yù)測(cè)分支未與分割分支形成有效連接,致使語(yǔ)義特征無(wú)法充分利用,且分割預(yù)測(cè)精度較低。
針對(duì)上述問題,本文在帶有分割分支的HTC網(wǎng)絡(luò)基礎(chǔ)上,充分級(jí)聯(lián)分割分支、RPN和bbox分支(見圖1),實(shí)現(xiàn)預(yù)測(cè)框信息與語(yǔ)義信息有效融合,級(jí)聯(lián)過(guò)程中不同分支相互促進(jìn),提高最終預(yù)測(cè)效果。此外,為實(shí)現(xiàn)斜框預(yù)測(cè)功能,本文在掩膜分支最后一層之后引入一個(gè)新的斜框回歸器,以回歸目標(biāo)斜框和機(jī)頭正方向。同時(shí),設(shè)計(jì)并增加一個(gè)方向損失函數(shù),提高方向預(yù)測(cè)精度,優(yōu)化整個(gè)訓(xùn)練過(guò)程。此外,在數(shù)據(jù)預(yù)處理過(guò)程中,構(gòu)建每類型號(hào)飛機(jī)目標(biāo)的精細(xì)掩膜,以增強(qiáng)目標(biāo)掩膜特征細(xì)節(jié),輔助提升精細(xì)識(shí)別精度。在本文中,改進(jìn)后的HTC網(wǎng)絡(luò)稱為RHTC網(wǎng)絡(luò)。
在引言中介紹的其他基于深度學(xué)習(xí)的飛機(jī)目標(biāo)檢測(cè)方法中,除了Zuo等人[23]提出的基于深度卷積神經(jīng)網(wǎng)絡(luò)分割結(jié)果的飛機(jī)型號(hào)識(shí)別方法利用掩膜信息提高了識(shí)別精度之外,其他方法均沒有考慮目標(biāo)掩膜信息和上下文信息的利用。實(shí)際上,精細(xì)的目標(biāo)掩膜含有豐富的目標(biāo)細(xì)節(jié)信息,這些特征信息有助于RHTC網(wǎng)絡(luò)中的斜框回歸器更準(zhǔn)確地預(yù)測(cè)目標(biāo)斜框及其方向,并輔助提升精細(xì)識(shí)別精度。同時(shí),含有上下文信息的語(yǔ)義分割圖可以幫助網(wǎng)絡(luò)更好地區(qū)分前景和背景。
RHTC網(wǎng)絡(luò)包含3個(gè)輸入,具體為:飛機(jī)目標(biāo)斜框標(biāo)注、飛機(jī)目標(biāo)掩膜信息和訓(xùn)練圖像的語(yǔ)義分割圖。本文基于公開的Google 圖像構(gòu)建了一個(gè)飛機(jī)目標(biāo)數(shù)據(jù)集,包含了27類型號(hào)飛機(jī)目標(biāo)的斜框標(biāo)注。此外,為了獲得飛機(jī)目標(biāo)的掩膜信息和語(yǔ)義分割圖,本文利用圖像形態(tài)學(xué)相關(guān)算法處理得到每類型號(hào)飛機(jī)目標(biāo)的精細(xì)掩膜和每幅訓(xùn)練圖像的語(yǔ)義分割圖。
1.2.1 飛機(jī)目標(biāo)精細(xì)掩膜生成
圖像形態(tài)學(xué)主要用于從圖像中提取對(duì)描述區(qū)域形狀有意義的圖像分量,使后續(xù)識(shí)別工作能夠抓住目標(biāo)對(duì)象最具有區(qū)分能力的形狀特征,如邊界、連通區(qū)域等,同時(shí)像細(xì)化、像素化、修剪毛刺等也常應(yīng)用于預(yù)處理和后處理中,成為深度學(xué)習(xí)中圖像增強(qiáng)新的選擇[34]。本文方法對(duì)真實(shí)收集的Google圖像中的每類型號(hào)飛機(jī)目標(biāo),采用灰度化、閾值分割、連通域處理、中值濾波、剪裁、輪廓提取等操作,獲得目標(biāo)輪廓和形狀特征,在此基礎(chǔ)上構(gòu)建每一類型號(hào)飛機(jī)目標(biāo)的精細(xì)掩膜。飛機(jī)目標(biāo)精細(xì)掩膜生成步驟如下。
步驟 1灰度化。將目標(biāo)切片圖像轉(zhuǎn)換為灰度圖像。
步驟 2閾值分割。利用OTSU方法[35]計(jì)算分割閾值,或根據(jù)灰度直方圖統(tǒng)計(jì),設(shè)計(jì)雙閾值分割。
步驟 3區(qū)域處理。查詢圖像中4連通區(qū)域,并對(duì)每個(gè)區(qū)域進(jìn)行標(biāo)記,計(jì)算每個(gè)區(qū)域面積,設(shè)置合適的閾值濾除小尺寸非目標(biāo)區(qū)域和孔洞。
步驟 4中值濾波。使用3×3濾波窗口對(duì)圖像進(jìn)行中值濾波,以去除目標(biāo)邊緣毛刺。
步驟 5剪裁和輪廓提取。以目標(biāo)邊緣為界剪裁圖像,得到目標(biāo)精細(xì)掩膜,并提取輪廓分割點(diǎn)集。
目標(biāo)精細(xì)掩膜的構(gòu)建過(guò)程如圖6所示。
圖6 精細(xì)掩膜構(gòu)建過(guò)程Fig.6 Construction process of fine mask
本文使用上述方法共構(gòu)建27類型號(hào)飛機(jī)目標(biāo)的精細(xì)掩膜,包含了戰(zhàn)斗機(jī)、轟炸機(jī)、加油機(jī)、偵察機(jī)、運(yùn)輸機(jī)等多個(gè)大類中的具體型號(hào)(包含“其他”型號(hào)),每類目標(biāo)型號(hào)的精細(xì)掩膜如圖7所示。為展示效果,圖7中部分型號(hào)飛機(jī)目標(biāo)的尺寸和長(zhǎng)寬比略有調(diào)整,而在RHTC網(wǎng)絡(luò)訓(xùn)練中均采用各類型號(hào)飛機(jī)目標(biāo)精細(xì)掩膜的真實(shí)尺寸和形狀。
圖7 不同型號(hào)飛機(jī)目標(biāo)的精細(xì)掩膜Fig.7 Fine masks for different types of aircraft target
1.2.2 飛機(jī)目標(biāo)語(yǔ)義分割圖生成
在已經(jīng)斜框標(biāo)注的訓(xùn)練圖像數(shù)據(jù)中,根據(jù)每個(gè)飛機(jī)目標(biāo)標(biāo)注好的型號(hào)和尺寸信息,將生成的精細(xì)掩膜自動(dòng)進(jìn)行旋轉(zhuǎn)和縮放以貼合相應(yīng)的飛機(jī)目標(biāo),從而生成該幅圖像的語(yǔ)義分割圖。圖8(a)展示了某幅機(jī)場(chǎng)圖像及其斜框標(biāo)注,包含了B-1B、KC-135、C-130這3種型號(hào)的飛機(jī)目標(biāo);圖8(b)展示了目標(biāo)精細(xì)掩膜與目標(biāo)的貼合結(jié)果;圖8(c)展示了該圖像的語(yǔ)義分割結(jié)果。
圖8 語(yǔ)義分割圖生成過(guò)程Fig.8 Semantic segmentation map generation process
RHTC網(wǎng)絡(luò),充分級(jí)聯(lián)分割分支、RPN和bbox分支,以實(shí)現(xiàn)預(yù)測(cè)框信息與語(yǔ)義信息的有效融合。級(jí)聯(lián)過(guò)程中不同分支相互促進(jìn),從而綜合提升bbox、掩膜和分割的預(yù)測(cè)效果。RHTC為實(shí)現(xiàn)斜框預(yù)測(cè)功能,在掩膜分支最后一層之后引入一個(gè)新的斜框回歸器,以回歸目標(biāo)斜框和機(jī)頭正方向,并設(shè)計(jì)和增加一個(gè)新的方向損失函數(shù),提高方向預(yù)測(cè)精度,優(yōu)化整個(gè)訓(xùn)練過(guò)程。
1.3.1 分割級(jí)聯(lián)結(jié)構(gòu)
與HTC僅利用分割分支S提取一次語(yǔ)義特征不同,RHTC將分割分支擴(kuò)展至4個(gè),S0、S1、S2、S3,逐級(jí)精煉語(yǔ)義特征,并輸出更準(zhǔn)確的分割預(yù)測(cè),具體步驟如下。
首先,訓(xùn)練輸入經(jīng)由骨干網(wǎng)絡(luò)和FPN提取原始特征,并輸入RPN進(jìn)行建議區(qū)域的生成。此時(shí)建議區(qū)域經(jīng)過(guò)分配標(biāo)簽和采樣后,已經(jīng)具備粗糙的目標(biāo)空間位置信息,將建議區(qū)域的所有正例(即目標(biāo)可能存在區(qū)域)按置信分?jǐn)?shù)排序,并挑選前50%保留,如圖9(a)所示。
然后,制作單個(gè)建議區(qū)域掩模(single proposal mask, SPM)。按訓(xùn)練圖像8倍下采樣的尺寸生成全0矩陣,以單個(gè)建議區(qū)域的坐標(biāo)中心為二維高斯函數(shù)的中心,建議區(qū)域的邊界作為取值邊界,在全0矩陣中,從中心開始以標(biāo)準(zhǔn)二維高斯分布向取值邊界賦值,生成SPM。
最后,將該訓(xùn)練圖像的全部SPM按像素位置加和,除以像素最大值進(jìn)行歸一化,乘以權(quán)重因子θ并加1,生成最終的建議區(qū)域掩膜(proposal mask,PM),該過(guò)程可表示為
(1)
PM結(jié)果如圖9(b)所示,亮度可反映出RPN認(rèn)為該區(qū)域的重要程度,亮度越高說(shuō)明該區(qū)域是目標(biāo)的幾率越大。θ可以控制語(yǔ)義特征權(quán)重,本文設(shè)置為0.5。
圖9 利用RPN提取的建議區(qū)域生成建議區(qū)域掩膜Fig.9 Use proposal extracted by RPN generate PM
PM制作完成后,與骨干網(wǎng)絡(luò)和FPN提取的原始特征相乘,得到包含目標(biāo)空間信息增強(qiáng)后的原始特征,輸入S0進(jìn)行分割預(yù)測(cè),并提取第一次語(yǔ)義特征。此時(shí),S0輸出的語(yǔ)義特征,與RPN提取的建議區(qū)域,和原始特征共同進(jìn)行ROI池化,并輸入B1生成第一次候選框預(yù)測(cè)。
同理,B1生成的PM會(huì)與S0輸出的語(yǔ)義特征進(jìn)行融合,作為S1的輸入。S1輸出的語(yǔ)義特征將與B1輸出的預(yù)測(cè)框和原始特征一同ROI池化,作為B2和M1的輸入。級(jí)聯(lián)過(guò)程中語(yǔ)義特征不斷加強(qiáng),并指導(dǎo)其他分支更精確地預(yù)測(cè),經(jīng)過(guò)三次級(jí)聯(lián)后,S3將輸出最終的分割預(yù)測(cè),M3將輸出最終的掩膜預(yù)測(cè),B3將輸出最終的水平框定位和分類。圖10和圖11展示了不同階段分割分支輸出的語(yǔ)義特征和分割預(yù)測(cè)對(duì)比,可以看出經(jīng)過(guò)逐級(jí)加強(qiáng)的語(yǔ)義特征具有更強(qiáng)的目標(biāo)位置信息,而圖11(a)難以區(qū)分前景背景,到圖11(e)分割預(yù)測(cè)比較精準(zhǔn)。
圖10 不同階段分割分支輸出的對(duì)比Fig.10 Comparison of semantic features of segmentation branch output at different stages
圖11 不同階段分割分支輸出的分割預(yù)測(cè)對(duì)比Fig.11 Comparison of segmentation prediction of segmentation branch output at different stages
1.3.2 斜框回歸器設(shè)計(jì)
斜框回歸器利用最小矩形框擬合方法,提取網(wǎng)絡(luò)最后一級(jí)掩膜預(yù)測(cè)M3結(jié)果中的目標(biāo),該矩形框即為目標(biāo)斜框預(yù)測(cè),且目標(biāo)斜框中包含了飛機(jī)目標(biāo)的掩膜,但此時(shí)斜框中飛機(jī)目標(biāo)的正方向是未知的。眾所周知,在光學(xué)遙感圖像中的飛機(jī)目標(biāo)具有明顯的關(guān)于主軸的左右對(duì)稱特性,估計(jì)目標(biāo)的斜框方向可以通過(guò)尋找飛機(jī)目標(biāo)主軸的方式來(lái)實(shí)現(xiàn)。本文中設(shè)計(jì)了一種簡(jiǎn)單有效的飛機(jī)目標(biāo)主軸提取方法,具體步驟如下。
首先,從圖像的分割結(jié)果(見圖12(a))中按照斜框方式(見圖12(a)中紅色矩形框)提取出每一個(gè)飛機(jī)目標(biāo)掩膜切片,如圖12(b)所示。
其次,假定飛機(jī)目標(biāo)包括水平和垂直兩個(gè)主軸方向,呈十字交叉排布,如圖12(c)所示;兩條主軸將切片平均劃分為4份,水平主軸1(紅色)將飛機(jī)目標(biāo)劃分為部分1和部分2,垂直主軸2(藍(lán)色)將飛機(jī)目標(biāo)劃分為部分3和部分4,如圖12(d)所示。
圖12 不同方向的主軸對(duì)飛機(jī)目標(biāo)掩膜的劃分示意圖Fig.12 Extract the main axis direction from the segmentation result
最后,令通過(guò)不同方向的主軸對(duì)飛機(jī)目標(biāo)掩膜進(jìn)行劃分得到的部分1、部分2、部分3和部分4的面積分別為S1、S2、S3和S4,根據(jù)飛機(jī)目標(biāo)物理結(jié)構(gòu)的左右對(duì)稱特性,定義S12=|S1-S2|,S34=|S3-S4|,若S12>S34,則可認(rèn)為部分3和部分4為目標(biāo)機(jī)翼兩側(cè)部分,確定垂直主軸2(藍(lán)色)為目標(biāo)的真實(shí)主軸;相反的,若S12 為了說(shuō)明本文設(shè)計(jì)的飛機(jī)目標(biāo)主軸提取方法的有效性,對(duì)本文考慮的所有27類型號(hào)飛機(jī)目標(biāo)精細(xì)掩膜均利用假定的水平和垂直主軸進(jìn)行了劃分。表1列出了所有27類型號(hào)飛機(jī)目標(biāo)精細(xì)掩膜的劃分結(jié)果。由表1可知,所有飛機(jī)目標(biāo)的S34皆遠(yuǎn)小于S12,驗(yàn)證了本文方法可以提取出正確的主軸。 表1 27類飛機(jī)目標(biāo)精細(xì)掩膜劃分結(jié)果 通過(guò)上述方法得到目標(biāo)主軸后,進(jìn)一步采用以下3個(gè)步驟判斷飛機(jī)機(jī)頭正方向:首先,按照如圖13(a)中所示的藍(lán)色箭頭方向,統(tǒng)計(jì)主軸(即藍(lán)色箭頭所在的線段)兩側(cè)目標(biāo)輪廓線上對(duì)應(yīng)的最外側(cè)兩個(gè)像素點(diǎn)(見圖13(a)中的pL和pR像素點(diǎn))與主軸之間的平均距離d=(dL+dR)/2(根據(jù)對(duì)稱特性),繪制出目標(biāo)凸輪廓剖面曲線,如圖13(b)所示;其次,根據(jù)飛機(jī)的飛行動(dòng)力學(xué)設(shè)計(jì)特點(diǎn),機(jī)頭通常呈現(xiàn)錐形,機(jī)尾則帶有尾翼結(jié)構(gòu)。因此,在判斷機(jī)頭正方向時(shí),只利用飛機(jī)目標(biāo)凸輪廓剖面曲線的前20%(大致對(duì)應(yīng)于機(jī)頭)和后20%(大致對(duì)應(yīng)于機(jī)尾),以消除機(jī)翼形狀、發(fā)動(dòng)機(jī)、機(jī)載雷達(dá)等對(duì)機(jī)頭正方向估計(jì)的影響;最后,定義NF20表示飛機(jī)目標(biāo)凸輪廓剖面曲線前20%對(duì)應(yīng)的值的和,NL20表示飛機(jī)目標(biāo)凸輪廓剖面曲線后20%對(duì)應(yīng)的值的和。若NF20 1.3.3 方向損失函數(shù)設(shè)計(jì) 損失函數(shù)的定義和設(shè)計(jì)通常與學(xué)習(xí)準(zhǔn)則、優(yōu)化問題等相關(guān),即通過(guò)最小化損失函數(shù)來(lái)求解和評(píng)估模型。本文方法通過(guò)斜框回歸器得到目標(biāo)方向預(yù)測(cè),通過(guò)設(shè)計(jì)并增加一個(gè)新的方向損失函數(shù),用于評(píng)估預(yù)測(cè)方向與真值方向的差值,以進(jìn)一步優(yōu)化網(wǎng)絡(luò)參數(shù),提升方向預(yù)測(cè)性能。因此,在本文中,RHTC網(wǎng)絡(luò)的損失函數(shù)如下: (2) (3) 掩膜損失構(gòu)成如下: (4) 掩膜損失采用二值交叉熵?fù)p失(binary cross entropy loss,BCELoss)的方式,BCE是交叉熵?fù)p失(cross entropy loss,CELoss)的一個(gè)特例,在數(shù)學(xué)中廣泛應(yīng)用于二分類問題。 分割損失構(gòu)成如下: (5) 分割損失采用CELoss的方式,其本質(zhì)上也是實(shí)例分割中的多分類問題。 方向損失函數(shù)構(gòu)成如下: (6) 方向損失本質(zhì)上是一個(gè)預(yù)測(cè)數(shù)值與一個(gè)真實(shí)數(shù)值之間差異性的度量。因此,在本文中,方向損失采用平滑L1(SmoothL1)損失函數(shù)的方式。平滑L1是L1損失的改進(jìn),相比于L1損失和L2損失,平滑L1損失更加穩(wěn)定,更有利于網(wǎng)絡(luò)訓(xùn)練。 (7) (8) (9) 平滑L1損失的計(jì)算如式(8)所示。當(dāng)方向偏離較大時(shí),即x>1,如式(9)所示,損失函數(shù)對(duì)x梯度恒為正負(fù)1,而不會(huì)像L2損失導(dǎo)數(shù)隨損失增大而增大,從而導(dǎo)致在前期訓(xùn)練時(shí)因?yàn)閾p失過(guò)大出現(xiàn)梯度爆炸問題。在訓(xùn)練后期,損失趨于平穩(wěn)且較小,損失函數(shù)對(duì)x的梯度隨x減小而減小,使用梯度下降法更新參數(shù)時(shí)更加平滑,而不會(huì)出現(xiàn)模型在穩(wěn)定值附近波動(dòng)的情況。 在實(shí)驗(yàn)部分,基于高分辨率Google圖像數(shù)據(jù)集評(píng)估、對(duì)比和分析本文所提方法的性能。實(shí)驗(yàn)采用的計(jì)算機(jī)配置如下:Intel Core i7 CPU, NVIDIA GTX-2080Ti GPU(12 GB顯存),32 GB內(nèi)存,操作系統(tǒng)Ubuntu18.04。 為了驗(yàn)證本文方法的有效性,從Google地球采集構(gòu)建了一個(gè)光學(xué)圖像飛機(jī)目標(biāo)數(shù)據(jù)集。數(shù)據(jù)集共包含287張大幅光學(xué)圖像,圖像分辨率大致分布在851像素×1 048像素~6 533像素×10 987像素之間,使用地圖分級(jí)為18級(jí)的遙感圖像,空間分辨率統(tǒng)一歸一化為0.5 m。數(shù)據(jù)集是從不同國(guó)家(美國(guó)、俄羅斯、日本等)的軍用機(jī)場(chǎng)采集所得,并將飛機(jī)類別細(xì)化到27個(gè)具體型號(hào)(包含一個(gè)“其他”型號(hào))。在實(shí)驗(yàn)過(guò)程中,從原始圖像數(shù)據(jù)集中隨機(jī)抽取250幅圖像作為訓(xùn)練集,剩余37幅圖像作為測(cè)試集。為了適應(yīng)訓(xùn)練模型的輸入,實(shí)驗(yàn)時(shí)將大幅圖像裁剪為1 000像素×600像素的圖像。同時(shí),為了盡可能避免不同類別中目標(biāo)樣本數(shù)量不均衡的問題,對(duì)圖像訓(xùn)練集按照不同類別采用鏡像對(duì)稱、旋轉(zhuǎn)、加噪、顏色抖動(dòng)等方法進(jìn)行了合理的擴(kuò)增。原始圖像數(shù)據(jù)集中共包含8 494個(gè)飛機(jī)目標(biāo),擴(kuò)增后為39 030個(gè)。表2中列出了原始數(shù)據(jù)集和擴(kuò)增數(shù)據(jù)集中每種型號(hào)飛機(jī)目標(biāo)的數(shù)量。 表2 27類飛機(jī)目標(biāo)在原始數(shù)據(jù)集和擴(kuò)增數(shù)據(jù)集中的數(shù)量 本文同樣在公共遙感數(shù)據(jù)集DOTA[26]中的飛機(jī)目標(biāo)數(shù)據(jù)進(jìn)行性能對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)前對(duì)數(shù)據(jù)集進(jìn)行了整理,為了便于在同一條件下將多種方法進(jìn)行公平比較,根據(jù)DOTA數(shù)據(jù)集自帶的地面采樣距離信息,將全部圖像的空間分辨率均重采樣為0.5 m。經(jīng)過(guò)篩選,共計(jì)有152幅飛機(jī)樣本圖像,其中用于訓(xùn)練的圖像為83幅(包含2 646個(gè)飛機(jī)目標(biāo)),用于測(cè)試的圖像為69幅(包含2 481個(gè)飛機(jī)目標(biāo));然后,將圖像裁剪為1 000像素×600像素大小,并對(duì)訓(xùn)練集進(jìn)行合理擴(kuò)增。需要說(shuō)明的是,由于DOTA數(shù)據(jù)集中的飛機(jī)目標(biāo)并沒有提供細(xì)粒度分類標(biāo)注,因此本文未對(duì)其進(jìn)行精細(xì)掩膜設(shè)計(jì),僅采用“其他”型號(hào)掩膜用于方向預(yù)測(cè)。 本節(jié)為了測(cè)試本文方法提出的斜框回歸器方向檢測(cè)性能,包括目標(biāo)檢測(cè)的平均精準(zhǔn)度和方向準(zhǔn)確率。對(duì)于自建數(shù)據(jù)集,首先采用真實(shí)的27個(gè)具體型號(hào)飛機(jī)目標(biāo)斜框標(biāo)注數(shù)據(jù)集對(duì)RHTC網(wǎng)絡(luò)進(jìn)行訓(xùn)練;在測(cè)試時(shí),所有27個(gè)飛機(jī)目標(biāo)型號(hào)均歸為同一類,以忽略不同型號(hào)的影響,只對(duì)比方向檢測(cè)結(jié)果;對(duì)于DOTA數(shù)據(jù)集的飛機(jī)目標(biāo),采用“其他”型號(hào)掩膜用于方向預(yù)測(cè)。為了公平地比較不同斜框檢測(cè)方法對(duì)方向檢測(cè)的優(yōu)劣,在對(duì)比實(shí)驗(yàn)中的以下3個(gè)部分使用了相同的設(shè)置。 (1) 骨干網(wǎng)絡(luò)均使用經(jīng)過(guò)ImageNet預(yù)訓(xùn)練之后ResNet50模型進(jìn)行遷移訓(xùn)練。 (2) 每次輸入的訓(xùn)練圖像的批數(shù)量均設(shè)置為2。 (3) 模型測(cè)試使用的交并比(intersection over union,IOU)閾值均設(shè)置為0.5。IOU定義如下: (10) 式中:A和B表示不同區(qū)域;area(·)表示區(qū)域之間交或并后的面積。 實(shí)驗(yàn)中,采用平均精準(zhǔn)度(average precision,AP),即準(zhǔn)確率在召回率上的積分作為評(píng)價(jià)指標(biāo)。定義如下: (11) 式中:r表示召回率,即所有真值標(biāo)注中被正確檢測(cè)的比例;p(·)表示準(zhǔn)確率,即檢測(cè)結(jié)果中正確的結(jié)果所占比例。 由于目前目標(biāo)斜框檢測(cè)中缺乏方向相關(guān)的評(píng)價(jià)標(biāo)準(zhǔn),本文設(shè)計(jì)了一種新的評(píng)價(jià)方式:方向精準(zhǔn)度(direction precision,DP)。DP主要用于評(píng)價(jià)方向檢測(cè)中方向的偏差大小,即在所有正確檢測(cè)(IOU滿足閾值要求)的目標(biāo)中,滿足方向精度要求的目標(biāo)所占的比例。定義如下: (12) (13) 式中:i代表被正確檢測(cè)的某個(gè)目標(biāo);θgt,i代表其真值框方向;θdet,i代表其檢測(cè)框方向。當(dāng)檢測(cè)方向與真值方向的絕對(duì)差值小于等于10°時(shí),認(rèn)為該目標(biāo)方向檢測(cè)達(dá)到精度要求,此時(shí)Count(i)=1;否則視為不滿足方向精度要求,Count(i)=0。在式(13)中,N代表正確檢測(cè)的目標(biāo)總數(shù),對(duì)所有滿足方向精度要求的目標(biāo)計(jì)數(shù)求和,其與目標(biāo)總數(shù)的比值即為方向精準(zhǔn)度DP。6種對(duì)比算法實(shí)驗(yàn)結(jié)果如表3所示。 表3 6種對(duì)比算法方向檢測(cè)評(píng)估 FRO算法根據(jù)ROI池化之后的正框與真值標(biāo)注中的斜框進(jìn)行比對(duì)以回歸出斜框坐標(biāo),但由于其基礎(chǔ)網(wǎng)絡(luò)F-RCNN的正框預(yù)測(cè)只包含4個(gè)參數(shù)表示,即R=(xmin,ymin,xmax,ymax),其中xmin和xmax分別表示正框的最小和最大橫坐標(biāo)x,ymin和ymax則分別表示正框的最小和最大縱坐標(biāo)y。然而,在用斜框進(jìn)行預(yù)測(cè)時(shí)需要回歸4個(gè)點(diǎn)共8個(gè)參數(shù)(即G={(gxi,gyi),i=1,2,3,4}),回歸參數(shù)的增加導(dǎo)致網(wǎng)絡(luò)性能下降。ROI transformer算法通過(guò)斜框標(biāo)注直接學(xué)習(xí)到8個(gè)參數(shù),在很大程度上提升了定位性能,但在面對(duì)高分辨率光學(xué)圖像中的飛機(jī)這類小目標(biāo)時(shí),由于缺乏掩膜特征中的尺寸和輪廓信息、語(yǔ)義分割信息等的輔助,其網(wǎng)絡(luò)檢測(cè)性能也表現(xiàn)不佳。此外,RRPN、R2CNN、RDFPN方法與ROI transformer算法類似,也缺失了語(yǔ)義特征,從而導(dǎo)致網(wǎng)絡(luò)定位性能無(wú)法繼續(xù)提升,且機(jī)頭正向預(yù)測(cè)性能也較差。 圖15展示了在自建數(shù)據(jù)集上,6種算法各隨機(jī)取100個(gè)預(yù)測(cè)目標(biāo),與其對(duì)應(yīng)的真實(shí)目標(biāo)標(biāo)注方向的角度絕對(duì)差值折線圖。在圖15中,縱軸數(shù)值的大小反映出在已經(jīng)正確檢測(cè)到目標(biāo)的基礎(chǔ)上,目標(biāo)預(yù)測(cè)方向與真實(shí)方向的偏離程度,角度絕對(duì)差值越小表示方向檢測(cè)越精準(zhǔn)。 圖15 6種不同算法的方向角度絕對(duì)差值Fig.15 Direction angle absolute differences of six different algorithms 表4展示了在自建數(shù)據(jù)集上,采用不同對(duì)比算法進(jìn)行目標(biāo)方向檢測(cè)精度的具體評(píng)價(jià)值,包括:最大的角度絕對(duì)差值Δθmax、角度絕對(duì)差值的中值Δθmedian、角度絕對(duì)差值的均值Δθmean、角度絕對(duì)差值的標(biāo)準(zhǔn)差Δθstd。其中,最大的角度絕對(duì)差值Δθmax反映了預(yù)測(cè)方向與其真實(shí)方向的最大偏離程度;角度絕對(duì)差值的中值Δθmedian和均值Δθmean反映了預(yù)測(cè)方向與其真實(shí)方向之間的平均偏離程度,其值越小,說(shuō)明方向預(yù)測(cè)越精準(zhǔn);角度絕對(duì)差值的標(biāo)準(zhǔn)差Δθstd反映了預(yù)測(cè)方向的穩(wěn)定性,其值越小,說(shuō)明方向預(yù)測(cè)越穩(wěn)定。 表4 6種對(duì)比算法方向檢測(cè)精度具體評(píng)價(jià) 在圖16和表4中,通過(guò)角度絕對(duì)差值的中值與均值可以看出,本文方法在大部分目標(biāo)上都有著較好的方向預(yù)測(cè),角度絕對(duì)差值的中值僅為3.13,說(shuō)明本文方法方向檢測(cè)的角度誤差基本滿足精度要求,即誤差小于10°。此外,本文方法的角度絕對(duì)差值的標(biāo)準(zhǔn)差更小,預(yù)測(cè)更加穩(wěn)定,預(yù)測(cè)結(jié)果置信度更高。由于本文方法利用了精細(xì)掩膜的信息輔助,且在網(wǎng)絡(luò)中增加了一個(gè)方向損失,這使得RHTC網(wǎng)絡(luò)在預(yù)測(cè)斜框時(shí),回歸器可以更有針對(duì)性地提取目標(biāo)主軸,估計(jì)飛機(jī)目標(biāo)機(jī)頭正方向,且方向預(yù)測(cè)也更加準(zhǔn)確。 為了測(cè)試本文方法的飛機(jī)目標(biāo)精細(xì)識(shí)別性能,在自建數(shù)據(jù)集中采用真實(shí)的27個(gè)具體型號(hào)飛機(jī)目標(biāo)斜框標(biāo)注數(shù)據(jù)集對(duì)RHTC網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并采用飛機(jī)目標(biāo)型號(hào)的真實(shí)標(biāo)注信息進(jìn)行測(cè)試。目標(biāo)精細(xì)識(shí)別性能采用類別平均精準(zhǔn)度(mean AP,mAP)作為評(píng)價(jià)標(biāo)準(zhǔn)。mAP的計(jì)算公式如下: (14) 式中:AP(i)表示第i個(gè)目標(biāo)型號(hào)的AP值。為了公平地比較不同識(shí)別方法目標(biāo)精細(xì)識(shí)別性能的優(yōu)劣,在對(duì)比實(shí)驗(yàn)中采用與第2.2節(jié)相同的網(wǎng)絡(luò)參數(shù)設(shè)置。表5展示了6種對(duì)比算法精細(xì)識(shí)別評(píng)估的結(jié)果。 表5 6種對(duì)比算法精細(xì)識(shí)別評(píng)估 圖16展示了通過(guò)不同的檢測(cè)方法獲得的定性結(jié)果,其中,第二行為區(qū)域A對(duì)比,第三行為區(qū)域B對(duì)比。從放大區(qū)域A可以觀察到,RHTC可以預(yù)測(cè)正確的目標(biāo)機(jī)頭正向,同時(shí)沒有漏檢情況,而算法ROI transformer、RRPN、FRO則將密集排布的兩個(gè)目標(biāo)錯(cuò)檢為一個(gè),算法R2CNN和RDFPN則預(yù)測(cè)的機(jī)頭正向與真實(shí)方向偏差較大。從放大區(qū)域B可以觀察到,RHTC分類全部正確,且檢測(cè)效果較好,而算法ROI transformer、R2CNN、RDFPN、FRO則出現(xiàn)分類錯(cuò)誤,且算法R2CNN、ROI transformer出現(xiàn)漏檢,算法RFO出現(xiàn)虛警。 圖16 不同檢測(cè)方法獲得的定性結(jié)果Fig.16 Qualitative results achieved by different detection methods 為了測(cè)試本文所提改進(jìn)思路對(duì)基礎(chǔ)HTC網(wǎng)絡(luò)的性能提升效果,在自建數(shù)據(jù)集上設(shè)計(jì)了多組消融實(shí)驗(yàn)。需要說(shuō)明的是,斜框回歸器作為功能模塊已添加進(jìn)基礎(chǔ)HTC網(wǎng)絡(luò)中。使用基礎(chǔ)HTC網(wǎng)絡(luò),以“其他”型號(hào)掩膜(27類目標(biāo)掩膜全部初始化為“其他”型號(hào)掩膜)為輸入,作為基線模型;消融實(shí)驗(yàn)1使用27類型號(hào)(包含了“其他”型號(hào))目標(biāo)精細(xì)掩膜作為輸入;消融實(shí)驗(yàn)2在基線模型中采用分割級(jí)聯(lián)結(jié)構(gòu);消融實(shí)驗(yàn)3在基線模型中添加方向損失函數(shù);消融實(shí)驗(yàn)4為實(shí)驗(yàn)1和實(shí)驗(yàn)3的組合;消融實(shí)驗(yàn)5為實(shí)驗(yàn)2和實(shí)驗(yàn)3的組合;消融實(shí)驗(yàn)6為實(shí)驗(yàn)1、實(shí)驗(yàn)2和實(shí)驗(yàn)3的組合,即本文提出的方法。實(shí)驗(yàn)采用DP和mAP作為評(píng)價(jià)標(biāo)準(zhǔn),以反映不同算法的方向檢測(cè)和精細(xì)識(shí)別性能,實(shí)驗(yàn)結(jié)果如表6所示,“√”表示網(wǎng)絡(luò)覺有該種結(jié)構(gòu)。 表6 消融實(shí)驗(yàn)結(jié)果 從表6可以看出,在消融實(shí)驗(yàn)1中,基礎(chǔ)HTC網(wǎng)絡(luò)使用精細(xì)掩膜作為輸入后,DP增長(zhǎng)了約6%,mAP增長(zhǎng)了約3%,精細(xì)掩膜信息可以增強(qiáng)目標(biāo)細(xì)節(jié),綜合提升斜框檢測(cè)和識(shí)別性能。在消融實(shí)驗(yàn)2中,基礎(chǔ)HTC網(wǎng)絡(luò)添加分割級(jí)聯(lián)結(jié)構(gòu)后,DP增長(zhǎng)了約20%,mAP增長(zhǎng)了約4%,經(jīng)過(guò)分割級(jí)聯(lián)結(jié)構(gòu)不斷加強(qiáng)的語(yǔ)義特征,使得網(wǎng)絡(luò)在bbox定位方面更加準(zhǔn)確,并有效提升掩膜預(yù)測(cè)精度,進(jìn)而提升方向預(yù)測(cè)性能。在消融實(shí)驗(yàn)3中,基礎(chǔ)HTC網(wǎng)絡(luò)添加方向損失函數(shù)后,DP增長(zhǎng)了約15%,mAP增長(zhǎng)了約1%,模型開始關(guān)注斜框方向并更新參數(shù),使得DP值有較大提升,同時(shí)更加準(zhǔn)確的方向預(yù)測(cè)也輔助提升了識(shí)別性能,但其增幅較小。消融實(shí)驗(yàn)4、5和6的結(jié)果表明,本文提出的3個(gè)改進(jìn)之處互不沖突,綜合使用可有效提升方向檢測(cè)和精細(xì)識(shí)別性能。 本文提出的斜框回歸器和方向損失函數(shù)是一種通用型的結(jié)構(gòu)。當(dāng)將本文提出的斜框回歸器和方向損失函數(shù)與其他分割網(wǎng)絡(luò)結(jié)合時(shí),可以使其同樣具有飛機(jī)目標(biāo)斜框檢測(cè)的能力,并提高其識(shí)別性能。為了說(shuō)明本文提出的斜框回歸器和方向損失函數(shù)的可嵌入性,在自建數(shù)據(jù)集上設(shè)計(jì)了4組評(píng)估實(shí)驗(yàn)。實(shí)驗(yàn)1使用M-RCNN作為基線模型1,實(shí)驗(yàn)2在M-RCNN中添加方向損失函數(shù)和斜框回歸器,并使用27類型號(hào)飛機(jī)目標(biāo)精細(xì)掩膜作為輸入。實(shí)驗(yàn)3使用CM-RCNN作為基線模型2。實(shí)驗(yàn)4在CM-RCNN中添加方向損失函數(shù)和斜框回歸器,并使用27類型號(hào)飛機(jī)目標(biāo)精細(xì)掩膜作為輸入。實(shí)驗(yàn)采用DP和mAP作為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表7所示。 表7 可嵌入性實(shí)驗(yàn)結(jié)果 從表7可以看出,在實(shí)驗(yàn)1中,M-RCNN模型在添加精細(xì)掩膜和方向損失后,DP增長(zhǎng)了約17%,mAP增長(zhǎng)了約8%。在實(shí)驗(yàn)2中,CM-RCNN模型添加精細(xì)掩膜和方向損失后,DP增長(zhǎng)了約17%,mAP增長(zhǎng)了約9%。同時(shí),上述兩種實(shí)例分割算法在使用本文所提的斜框回歸器后,也具有了斜框檢測(cè)能力。此外,通過(guò)在模型中添加精細(xì)掩膜和方向損失函數(shù),模型的方向檢測(cè)和精細(xì)識(shí)別性能再次得到提升。這說(shuō)明,本文所提出的斜框回歸器和方向損失函數(shù)可以嵌入到其他分割網(wǎng)絡(luò)以使其具備方向檢測(cè)和精細(xì)識(shí)別能力。 本文提出了一種基于RHTC網(wǎng)絡(luò)的多方向飛機(jī)檢測(cè)與精細(xì)識(shí)別方法,以解決高分辨率光學(xué)遙感圖像中的多方向密集排布、多種型號(hào)飛機(jī)目標(biāo)的方向檢測(cè)和識(shí)別困難問題。首先,通過(guò)構(gòu)建每類型號(hào)飛機(jī)目標(biāo)的精細(xì)掩膜,以增強(qiáng)目標(biāo)細(xì)節(jié),提升識(shí)別精度;其次,級(jí)聯(lián)分割分支與bbox分支,通過(guò)級(jí)聯(lián)方式增強(qiáng)語(yǔ)義特征,從而提升分割、掩膜預(yù)測(cè)精度;最后,在最后一層掩膜分支后,設(shè)計(jì)并增加一個(gè)方向損失函數(shù),同時(shí)引入一個(gè)新的斜框回歸器以便從掩膜預(yù)測(cè)結(jié)果中準(zhǔn)確預(yù)測(cè)飛機(jī)目標(biāo)機(jī)頭正方向。利用Google圖像構(gòu)建的飛機(jī)數(shù)據(jù)集和DOTA飛機(jī)單類數(shù)據(jù)集開展了多組方向檢測(cè)和精細(xì)識(shí)別對(duì)比評(píng)估實(shí)驗(yàn)。結(jié)果表明,與其他多種先進(jìn)的方法相比,本文方法在飛機(jī)檢測(cè)的準(zhǔn)確率、召回率、方向精準(zhǔn)度以及精細(xì)識(shí)別的類別平均精準(zhǔn)度上性能更優(yōu)。此外,將本文設(shè)計(jì)的斜框回歸器和方向損失函數(shù)應(yīng)用于M-RCNN模型和CM-RCNN模型,并基于自建的Google飛機(jī)目標(biāo)數(shù)據(jù)集進(jìn)行了可嵌入性評(píng)估。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法設(shè)計(jì)的斜框回歸器和方向損失函數(shù)在嵌入到其他分割網(wǎng)絡(luò)時(shí)也具有良好的性能。2 實(shí)驗(yàn)結(jié)果及分析
2.1 實(shí)驗(yàn)數(shù)據(jù)集
2.2 方向檢測(cè)性能評(píng)估
2.3 精細(xì)識(shí)別性能評(píng)估
2.4 消融實(shí)驗(yàn)
2.5 可嵌入性評(píng)估
3 結(jié) 論