佘浩東,趙良瑾
1.中國(guó)科學(xué)院空天信息創(chuàng)新研究院,北京 100190;2.中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院,北京 100049;3.中國(guó)科學(xué)院網(wǎng)絡(luò)信息體系技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100091
遙感圖像目標(biāo)檢測(cè)的主要任務(wù)是對(duì)輸入遙感圖像中的目標(biāo)進(jìn)行定位和分類(Chen 和Luo,2021),在對(duì)地觀測(cè)領(lǐng)域具有研究與應(yīng)用重要價(jià)值。雖然基于深度學(xué)習(xí)方法的目標(biāo)檢測(cè)已經(jīng)取得了重要的進(jìn)展(聶光濤和黃華,2021),但在遙感復(fù)雜場(chǎng)景中仍存在目標(biāo)排列緊密、目標(biāo)方向多樣等挑戰(zhàn)。因此,面向遙感影像的目標(biāo)檢測(cè)仍然是研究熱點(diǎn)之一。
根據(jù)是否預(yù)測(cè)設(shè)定錨框,目標(biāo)檢測(cè)算法可劃分為有錨框(anchor-base)目標(biāo)檢測(cè)算法和無(wú)錨框(anchor-free)目標(biāo)檢測(cè)算法。有錨框的目標(biāo)級(jí)檢測(cè)方法通過一系列預(yù)設(shè)的參考框提高目標(biāo)框的回歸精度,包括Liu 等人(2016)提出的SSD(single shot mul?tibox detector)、Girshick 等人(2014)提出的R-CNN(region-convolutional neural network)和 Girshick(2015)提出的Fast R-CNN(fast region-convolutional neural network)等。無(wú)錨框目標(biāo)檢測(cè)算法因無(wú)需大量的預(yù)設(shè)錨框,減少了大量錨框超參數(shù)的設(shè)置,可適應(yīng)更多長(zhǎng)寬比以及任意朝向的目標(biāo)類型。其中基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)方法是這類算法的重要代表,包括提出的CornerNet(corner network)、(Law 和Deng,2018)、CenterNet(center network)。在遙感領(lǐng)域,Guo等人(2021)提出的CenterNet++(center network plus plus)采用關(guān)鍵點(diǎn)的方法回歸關(guān)鍵點(diǎn)以及長(zhǎng)寬信息實(shí)現(xiàn)艦船的正矩形框回歸,基于域不變的USD(uni?versal ship detection)算法(Zhang 等,2022),龔聲蓉等人(2022)提出的融入混合注意力的可變性空洞卷積,郭偉等人(2022)提出的自適應(yīng)權(quán)重金字塔和分支強(qiáng)相關(guān),以及阮晨等人(2021)提出的新的雙向特征金字塔網(wǎng)絡(luò)能夠在不同的艦船數(shù)據(jù)集上取得不錯(cuò)的檢測(cè)效果。但是,這些研究都使用正框作為目標(biāo)的表示,在港口船舶緊密停靠場(chǎng)景、停車場(chǎng)密集車輛排列場(chǎng)景中,同一框中包含相鄰目標(biāo),無(wú)法準(zhǔn)確表達(dá)單一目標(biāo)實(shí)例。
針對(duì)正框表示方法的不足,基于旋轉(zhuǎn)目標(biāo)框的檢測(cè)方法得到廣泛研究,如Yang 等人(2019)提出的SCRDet(small,cluttered and rotated objects detector)、Cheng 等人(2021)提出的CSFF(cross-scale feature fusion)、R-Libra R-CNN(Guo 等,2020)、Qian 等人(2021)提出的RSDet(rotation sensitive detector)和Yang 等人(2023)提出的SCRDet++(small,cluttered and rotated objects detector plus plus)等。此類研究主要側(cè)重于關(guān)鍵點(diǎn)的提取匹配與目標(biāo)方向回歸,將目標(biāo)中心點(diǎn)或角點(diǎn)作為關(guān)鍵點(diǎn)進(jìn)行提取,并引入旋轉(zhuǎn)角度的五參數(shù)回歸(Yang 等,2019)、基于坐標(biāo)的八參數(shù)回歸(Qian 等,2021)、改進(jìn)的Smooth L1 損失函數(shù)(Yang 等,2023)等方式進(jìn)行目標(biāo)的有向檢測(cè)。此外還有直接回歸方向向量的研究成果,如Yi 等人(2021)提出的邊緣感知向量(box boundary-aware vector,BBA-vector)通過回歸4 個(gè)向量獲得旋轉(zhuǎn)邊界框。He 等人(2022)提出的HRPNet(high-resolution polar network)使用一個(gè)中心點(diǎn)和4 個(gè)矢量來(lái)精確定位飛機(jī)。但上述方法仍然面臨著兩個(gè)問題:1)關(guān)鍵點(diǎn)的回歸是通過熱力圖中二維高斯核作為正樣本,但在遙感圖像中目標(biāo)密集排列,相鄰目標(biāo)的二維高斯核會(huì)出現(xiàn)重疊的問題,進(jìn)而導(dǎo)致目標(biāo)的漏檢;2)向量的回歸仍然存在邊界連續(xù)性和回歸一致性問題(Yang 等,2021b),難以預(yù)測(cè)精確的方向向量,而復(fù)雜的回歸方式在提高預(yù)測(cè)精度的同時(shí)帶來(lái)模型復(fù)雜度高且效率較低等問題。
針對(duì)上述問題,本文提出了一種基于關(guān)鍵點(diǎn)和向量的無(wú)錨框目標(biāo)檢測(cè)方法。首先,針對(duì)遙感目標(biāo)長(zhǎng)寬比變化多樣的問題,對(duì)目標(biāo)檢測(cè)框的建模重點(diǎn)在于目標(biāo)的中心點(diǎn)和頭部頂點(diǎn)位置,以獲得包括物體位置、大小和方向在內(nèi)的主要信息,無(wú)需預(yù)設(shè)錨框超參數(shù)。其次,針對(duì)遙感目標(biāo)密集排列的問題,設(shè)計(jì)旋轉(zhuǎn)橢圓高斯核作為目標(biāo)中心和頭部頂點(diǎn)的表征方式,以避免與相鄰目標(biāo)重疊。此外,橢圓高斯核還具有引導(dǎo)預(yù)測(cè)點(diǎn)沿著誤差較小的方向偏移的作用,預(yù)測(cè)點(diǎn)沿著橢圓長(zhǎng)軸方向的誤差偏移比沿著橢圓短軸方向的誤差偏移帶來(lái)的損失量更小,這樣預(yù)測(cè)點(diǎn)更傾向于沿著目標(biāo)長(zhǎng)邊方向偏移,生成的檢測(cè)框更加精確。最后,針對(duì)目標(biāo)方向回歸不準(zhǔn)的問題,設(shè)計(jì)引導(dǎo)向量實(shí)現(xiàn)同一個(gè)目標(biāo)的中心點(diǎn)與頭部頂點(diǎn)的精確匹配,然后以配對(duì)的中心點(diǎn)和頭部頂點(diǎn)為核心生成檢測(cè)框,通過消融實(shí)驗(yàn)結(jié)果驗(yàn)證了向量引導(dǎo)的點(diǎn)對(duì)匹配模塊的有效性。
本文的主要?jiǎng)?chuàng)新點(diǎn)如下:1)針對(duì)遙感目標(biāo)長(zhǎng)寬比多變帶來(lái)的邊界框預(yù)測(cè)不準(zhǔn)的問題,提出一種改進(jìn)的無(wú)錨框遙感目標(biāo)檢測(cè)方法,通過對(duì)中心關(guān)鍵點(diǎn)、頭部關(guān)鍵點(diǎn)以及目標(biāo)寬度的回歸計(jì)算來(lái)確定旋轉(zhuǎn)目標(biāo)的邊界框,提升預(yù)測(cè)邊界框與目標(biāo)的貼合程度。2)針對(duì)密集排列目標(biāo)間預(yù)測(cè)的關(guān)鍵點(diǎn)易重疊導(dǎo)致目標(biāo)漏檢的問題,提出一種改進(jìn)后的旋轉(zhuǎn)橢圓高斯核。該橢圓高斯核擬合相應(yīng)的目標(biāo)形狀,且具有與目標(biāo)一致的角度方向,在增大關(guān)鍵點(diǎn)間距的同時(shí)實(shí)現(xiàn)更好的表征,提升對(duì)目標(biāo)的檢測(cè)精度。3)針對(duì)僅利用關(guān)鍵點(diǎn)信息導(dǎo)致的目標(biāo)方向預(yù)測(cè)不準(zhǔn)的問題,設(shè)計(jì)以中心點(diǎn)為起點(diǎn)的引導(dǎo)向量,通過約束中心點(diǎn)與頭部頂點(diǎn)間的匹配關(guān)系,改善中心點(diǎn)與頭部定點(diǎn)位置預(yù)測(cè)不準(zhǔn)確導(dǎo)致方向預(yù)測(cè)錯(cuò)誤的問題。
本文提出的目標(biāo)檢測(cè)算法模型結(jié)構(gòu)圖如圖1 所示。整個(gè)模型分成兩個(gè)部分:一個(gè)是骨干網(wǎng)絡(luò)模塊,另一個(gè)是檢測(cè)頭模塊。本文關(guān)于旋轉(zhuǎn)目標(biāo)的建模方式如圖2所示。
圖1 算法模型Fig.1 Model of the algorithm
圖2 目標(biāo)建模方式Fig.2 Modeling approach to the objects
本文模型需要高分辨率的熱力圖來(lái)進(jìn)行關(guān)鍵點(diǎn)的預(yù)測(cè),這要求骨干網(wǎng)絡(luò)模塊輸出大尺寸的特征圖。而一般的網(wǎng)絡(luò)模型,如Simonyan 和Zisserman(2015)提出的VGGNet(Visual Geometry Group network),通過多層卷積后輸出的特征圖尺寸較小,丟失了目標(biāo)的空間位置信息,導(dǎo)致無(wú)法將其用來(lái)準(zhǔn)確地定位關(guān)鍵點(diǎn)。采用Newell 等人(2016)提出的沙漏網(wǎng)絡(luò)(hour?glass)作為特征提取網(wǎng)絡(luò),保留豐富的高層語(yǔ)義信息與底層的細(xì)節(jié)特征,實(shí)現(xiàn)關(guān)鍵點(diǎn)的回歸定位。
從圖1 中可以看到,從骨干網(wǎng)絡(luò)輸出的特征圖連接4 個(gè)預(yù)測(cè)分支,分別對(duì)應(yīng)中心點(diǎn)、頭部頂點(diǎn)、引導(dǎo)向量以及目標(biāo)寬度。中心點(diǎn)和頭部頂點(diǎn)的預(yù)測(cè)分支分別生成一幅熱力圖,通過尋找熱力圖的局部極值點(diǎn)作為檢測(cè)出來(lái)的中心點(diǎn)和頭部頂點(diǎn),然后根據(jù)另一個(gè)引導(dǎo)向量預(yù)測(cè)分支生成的結(jié)果,為中心點(diǎn)匹配對(duì)應(yīng)的頭部頂點(diǎn),加上最后一個(gè)預(yù)測(cè)分支的目標(biāo)寬度,構(gòu)建有方向的旋轉(zhuǎn)矩形框。
1.2.1 旋轉(zhuǎn)橢圓高斯核
關(guān)鍵點(diǎn)預(yù)測(cè)是本文方法中的一個(gè)重要部分。如果將關(guān)鍵點(diǎn)所在位置作為熱力圖中的正樣本,其余部分作為負(fù)樣本,這樣會(huì)出現(xiàn)正負(fù)樣本數(shù)量的不平衡,導(dǎo)致網(wǎng)絡(luò)無(wú)法訓(xùn)練收斂。在CornerNet(Law 和Deng,2018)中提出了一種二維高斯核作為關(guān)鍵點(diǎn)在熱力圖中的正樣本,具體方法是以關(guān)鍵點(diǎn)位置為中心,生成一個(gè)圓形的高斯衰減區(qū)域。這個(gè)圓形區(qū)域中,中心點(diǎn)的值為1,其余位置是根據(jù)到中心點(diǎn)的距離產(chǎn)生的高斯衰減值。
在遙感圖像中,對(duì)于許多大長(zhǎng)寬比目標(biāo),使用二維高斯核作為關(guān)鍵點(diǎn)的熱力圖真值會(huì)對(duì)關(guān)鍵點(diǎn)的回歸預(yù)測(cè)產(chǎn)生許多不利的影響。首先是二維圓形高斯核半徑的不確定性。由于二維圓形高斯核的半徑是由目標(biāo)的正矩形框長(zhǎng)寬決定的,而在遙感目標(biāo)中,同一個(gè)目標(biāo)在不同方向上的正矩形框長(zhǎng)寬是不同的,如圖3 所示,這也意味著同一個(gè)目標(biāo)生成的二維高斯核大小是完全不同的。其次是相鄰高斯核的重疊。在遙感圖像中,目標(biāo)往往是密集排列的,其在熱力圖中的高斯核會(huì)出現(xiàn)重疊融合的現(xiàn)象,將會(huì)導(dǎo)致幾個(gè)相鄰目標(biāo)在檢測(cè)結(jié)果中只剩下一個(gè)。由于不同目標(biāo)的大小不同,上述問題也難以通過調(diào)整二維圓形高斯核半徑的超參數(shù)解決。最后是預(yù)測(cè)偏差的不確定性。關(guān)鍵點(diǎn)的預(yù)測(cè)難免出現(xiàn)誤差,對(duì)于大長(zhǎng)寬比目標(biāo)而言,預(yù)測(cè)點(diǎn)與真實(shí)點(diǎn)的偏移向量方向沿著長(zhǎng)邊與沿著短邊產(chǎn)生的檢測(cè)誤差是完全不同的,如圖4 所示。具體情況是同樣大小的偏移向量,沿著長(zhǎng)邊偏移產(chǎn)生的預(yù)測(cè)框與真實(shí)框的重疊面積會(huì)遠(yuǎn)大于沿著短邊方向。
圖3 相同目標(biāo)在不同方向上的正矩形框Fig.3 Positive rectangular boxes of the same target in different orientations
圖4 不同方向上的誤差偏移帶來(lái)的影響Fig.4 The effect of error offsets in different directions((a)the actual box;(b)the case where the centroid is offset along the short side;(c)the case where the centroid is offset along the long side)
考慮到二維圓形高斯核帶來(lái)的問題,本文提出了一種旋轉(zhuǎn)橢圓高斯核。橢圓高斯核長(zhǎng)軸的方向與目標(biāo)的角度方向一致,橢圓高斯核長(zhǎng)軸與短軸的產(chǎn)生公式為
式中,W與H分別代表目標(biāo)旋轉(zhuǎn)矩形框的短邊和長(zhǎng)邊長(zhǎng)度,而M是它們的幾何平均。函數(shù)Gr是Corner?Net(Law 和Deng,2018)提出的計(jì)算二維圓形高斯核半徑的函數(shù),該函數(shù)的自變量越大,函數(shù)值就越大。r1與r2分別是橢圓高斯核的長(zhǎng)軸與短軸。為了避免生成過于扁平的橢圓,在此使用幾何平均值計(jì)算橢圓的長(zhǎng)軸與短軸。
針對(duì)高斯核半徑的不確定性問題,不同方向的同一個(gè)目標(biāo)的旋轉(zhuǎn)矩形框尺寸是確定的,橢圓高斯核的長(zhǎng)軸與短軸長(zhǎng)度根據(jù)旋轉(zhuǎn)目標(biāo)檢測(cè)框的長(zhǎng)度與寬度唯一確定。而密集排列的相鄰目標(biāo)的旋轉(zhuǎn)橢圓高斯核擬合目標(biāo)的形狀與方向,從而避免了高斯核的重疊問題。在橢圓高斯核中同樣的預(yù)測(cè)點(diǎn)誤差偏移,沿著長(zhǎng)軸方向的損失函數(shù)值小于沿著短軸方向,從而引導(dǎo)預(yù)測(cè)點(diǎn)沿著長(zhǎng)軸而非短軸偏移,進(jìn)而生成與真實(shí)框重疊面積更大的檢測(cè)框。
對(duì)關(guān)鍵點(diǎn)熱力圖的回歸損失,本文采用改進(jìn)后的Focal Loss(Lin等,2017)函數(shù),具體為
式中,N表示輸入圖像中目標(biāo)的數(shù)量,實(shí)驗(yàn)中將參數(shù)α和β分別設(shè)置為2 和4,以平衡正樣本和負(fù)樣本的比例,yc,i,j代表目標(biāo)真值,pc,i,j代表位置(i,j)的關(guān)于第c類別的概率置信度。此外,(1-yi,j)減小了其他位置的損失值,使其更聚焦于中心點(diǎn)。
1.2.2 向量引導(dǎo)的點(diǎn)對(duì)匹配模塊
在遙感圖像的目標(biāo)檢測(cè)中,使用頭部頂點(diǎn)作為除中心點(diǎn)外的另一個(gè)關(guān)鍵點(diǎn)的原因在于:頭部是可移動(dòng)遙感目標(biāo)中最具有分辨度的區(qū)域之一,便于檢測(cè),也是不同遙感目標(biāo)之間最具有相似性的區(qū)域,具有泛用性。此外,頭部頂點(diǎn)與中心點(diǎn)的結(jié)合能夠確定目標(biāo)的長(zhǎng)度與朝向。使用引導(dǎo)向量與頭部頂點(diǎn)共同確定頭部的位置似乎是冗余的。事實(shí)上,在算法設(shè)計(jì)之初檢測(cè)模塊僅僅回歸中心點(diǎn),對(duì)于頭部頂點(diǎn)使用引導(dǎo)向量直接進(jìn)行預(yù)測(cè)。但結(jié)果證明,單純依靠引導(dǎo)向量的回歸在預(yù)測(cè)頭部頂點(diǎn)的效果不好,如圖5 所示。引導(dǎo)向量的預(yù)測(cè)不夠精確,即便誤差不大,這種不精確的引導(dǎo)向量導(dǎo)致生成的檢測(cè)框的效果比較差。
圖5 不精確向量在不同情況下生成的檢測(cè)框Fig.5 Detection boxes generated by inexact vectors in different cases
針對(duì)這個(gè)問題,如果使用更復(fù)雜的建模與回歸方式來(lái)更精確地預(yù)測(cè)引導(dǎo)向量,會(huì)導(dǎo)致模型的臃腫與低效??紤]到這種情況,本文提出了一種向量引導(dǎo)的點(diǎn)對(duì)匹配模塊:直接增加關(guān)鍵點(diǎn)預(yù)測(cè)分支來(lái)預(yù)測(cè)頭部頂點(diǎn)位置,使用引導(dǎo)向量引導(dǎo)中心點(diǎn)匹配對(duì)應(yīng)的目標(biāo)頭部頂點(diǎn),如圖6 所示。通過這個(gè)模塊,能夠在不更改向量回歸方式的情況下,基本不增加模型參數(shù)的同時(shí)獲得更加精確的頭部頂點(diǎn)位置。具體來(lái)說,通過兩個(gè)關(guān)鍵點(diǎn)預(yù)測(cè)分支分別獨(dú)立預(yù)測(cè)中心點(diǎn)與頭部頂點(diǎn),再利用引導(dǎo)向量將同一個(gè)目標(biāo)的中心點(diǎn)與頭部頂點(diǎn)進(jìn)行匹配。
圖6 向量引導(dǎo)的點(diǎn)對(duì)匹配模塊簡(jiǎn)圖Fig.6 Sketch of a vector-guided point-to-match module
向量預(yù)測(cè)分支會(huì)產(chǎn)生與關(guān)鍵點(diǎn)預(yù)測(cè)分支熱力圖相同尺寸的結(jié)果圖,該結(jié)果圖的每一個(gè)點(diǎn)與熱力圖中相同位置的點(diǎn)一一對(duì)應(yīng)。結(jié)果圖中的每個(gè)點(diǎn)都包含有指向頭部頂點(diǎn)坐標(biāo)的引導(dǎo)向量,但只有中心點(diǎn)對(duì)應(yīng)到結(jié)果圖中的點(diǎn)的引導(dǎo)向量才參與目標(biāo)檢測(cè),其余位置的向量并不發(fā)揮作用。通過這樣的方式,每個(gè)中心點(diǎn)都能利用結(jié)果圖中對(duì)應(yīng)位置的引導(dǎo)向量來(lái)尋找相應(yīng)的頭部頂點(diǎn)。
在中心點(diǎn)與頭部頂點(diǎn)的匹配過程中,遵循以下策略:每個(gè)中心點(diǎn)對(duì)應(yīng)引導(dǎo)向量,到達(dá)的位置稱為引導(dǎo)點(diǎn),即該中心點(diǎn)對(duì)應(yīng)目標(biāo)的頭部頂點(diǎn)理論位置,這樣每個(gè)中心點(diǎn)都對(duì)應(yīng)一個(gè)引導(dǎo)點(diǎn)。用歐氏距離來(lái)衡量引導(dǎo)點(diǎn)與頭部頂點(diǎn)的距離,最近的一對(duì)引導(dǎo)點(diǎn)與頭部頂點(diǎn)匹配為點(diǎn)對(duì),屬于同一個(gè)目標(biāo)。如果出現(xiàn)兩個(gè)及以上的引導(dǎo)點(diǎn)的最近距離是同一個(gè)頭部頂點(diǎn),那么該頭部頂點(diǎn)與距離其最近的引導(dǎo)點(diǎn)進(jìn)行匹配。在一個(gè)引導(dǎo)點(diǎn)的最近頭部頂點(diǎn)已經(jīng)與其他引導(dǎo)點(diǎn)匹配的情況下,考察與引導(dǎo)點(diǎn)最近和次近的預(yù)測(cè)頭部頂點(diǎn)的歐氏距離,設(shè)該引導(dǎo)點(diǎn)與其最近頭部頂點(diǎn)距離為d1,次近頭部頂點(diǎn)距離為d2,如果該引導(dǎo)點(diǎn)的最近頭部頂點(diǎn)已經(jīng)與其他引導(dǎo)點(diǎn)進(jìn)行配對(duì),且滿足如下不等式,那么該引導(dǎo)點(diǎn)將與其次近頭部頂點(diǎn)進(jìn)行匹配,否則該引導(dǎo)點(diǎn)直接與其最近頭部頂點(diǎn)匹配,即一個(gè)頭部頂點(diǎn)匹配多個(gè)引導(dǎo)點(diǎn)。具體為
式中,閾值threshold默認(rèn)設(shè)置為2。式(3)的意義在于判斷次近頭部頂點(diǎn)與最近頭部頂點(diǎn)距離的相對(duì)關(guān)系,在最近頭部頂點(diǎn)已經(jīng)進(jìn)行匹配的情況下,如果次近頭部頂點(diǎn)與引導(dǎo)點(diǎn)的距離遠(yuǎn)遠(yuǎn)大于最近頭部頂點(diǎn)距離,這意味著該引導(dǎo)點(diǎn)與次近頭部頂點(diǎn)的匹配會(huì)帶來(lái)較大的誤差,此時(shí)最近頭部頂點(diǎn)仍然是最合適的匹配對(duì)象。
引導(dǎo)點(diǎn)與頭部頂點(diǎn)的策略如圖7所示。
圖7 引導(dǎo)點(diǎn)與頭部頂點(diǎn)的策略Fig.7 Strategy for lead-in points and head vertices
上述流程能夠保證每個(gè)引導(dǎo)點(diǎn)在盡可能保持一一配對(duì)的情況下都能找到匹配的頭部頂點(diǎn),多余的未曾匹配的頭部頂點(diǎn)將被舍棄,這意味著每個(gè)中心點(diǎn)都會(huì)產(chǎn)生一個(gè)對(duì)應(yīng)的檢測(cè)框。在大多數(shù)情況下,每個(gè)引導(dǎo)點(diǎn)都能唯一配對(duì)頭部頂點(diǎn)。但在實(shí)際的檢測(cè)過程中,會(huì)出現(xiàn)頭部頂點(diǎn)數(shù)量少于中心點(diǎn)數(shù)量以及引導(dǎo)向量預(yù)測(cè)誤差較大等情況,最近距離與次近距離的判斷能夠?yàn)槊總€(gè)中心點(diǎn)盡可能匹配到最合適的頭部頂點(diǎn)。
實(shí)際場(chǎng)景中,密集排列目標(biāo)的頭部相鄰的時(shí)候可能會(huì)出現(xiàn)頭部頂點(diǎn)匹配混淆的情況。針對(duì)這個(gè)問題,算法損失函數(shù)中調(diào)整向量回歸的權(quán)重,并采用Smooth L1 損失函數(shù)(Law 和Deng,2018)來(lái)計(jì)算向量回歸的損失值。該損失函數(shù)還能在訓(xùn)練過程中提升引導(dǎo)向量的收斂速度并減少對(duì)離群點(diǎn)的敏感性,具體計(jì)算為
本文采用HRSC(high-resolution ship collections)和UCAS-AOD(UCAS-high resolution aerial object detection dataset)數(shù)據(jù)集驗(yàn)證所提出的算法。HRSC數(shù)據(jù)集是一個(gè)遙感場(chǎng)景下關(guān)于艦船的公開數(shù)據(jù)集,共436 幅訓(xùn)練圖像、181 幅驗(yàn)證圖像以及444 幅測(cè)試圖像,圖像尺寸從300 × 300像素到1 500 × 900像素不等。UCAS-AOD 數(shù)據(jù)集圖像為1 280 × 659 像素,有1 000 幅飛機(jī)圖像和510 幅車輛圖像,分別包括7 482 個(gè)飛機(jī)目標(biāo)和7 114 個(gè)車輛目標(biāo)。其中HRSC數(shù)據(jù)集中的標(biāo)注中含有頭部頂點(diǎn);UCAS-AOD 數(shù)據(jù)集中飛機(jī)類別的標(biāo)注含有目標(biāo)具體朝向角度,所以能夠計(jì)算得到飛機(jī)的頭部頂點(diǎn)。
在實(shí)驗(yàn)過程中,將各種尺寸大小的圖像裁剪放縮成分辨率為640 × 640 像素輸入網(wǎng)絡(luò)模型。實(shí)驗(yàn)一共使用了4 張英偉達(dá)RTX 2080Ti 顯卡,每張顯卡的批處理量為8 張,初始學(xué)習(xí)率設(shè)置為0.01。訓(xùn)練的優(yōu)化器采用SGD(stochastic gradient descent)方法,動(dòng)量因子設(shè)置為0.9。在訓(xùn)練之前,通過翻轉(zhuǎn)以及旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方式對(duì)數(shù)據(jù)集進(jìn)行增廣。
表1 對(duì)比了本文算法與各種目標(biāo)檢測(cè)算法在HRSC 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。其中,平均精度(07)和平均精度(12)分別代表使用2007 年和2012 年的評(píng)估指標(biāo)。本文提出的方法在HRSC 數(shù)據(jù)集上分別取得了90.78%的平均精度(07)和97.85%的平均精度(12),相較于Chen 等人(2020)的PIoU(pixels-IoU)、Jiang 等人(2018)提出的R2CNN(rotational region CNN)、Yang等人(2021a)提出的R3Det(refined rotation RetinaNet)、Ma 等人(2018)提出的Rotated RPN(region proposal network)、Xie等人(2021)提出的Oriented R-CNN(oriented regionconvolutional neural networks)、Ding 等人(2019)提出的RoI(region of interest)Transformer、Xu等人(2020)提出的Gliding Vertex 和Zhu等人(2022)提出 的GFA-Net(graph focusing aggregation network),都體現(xiàn)出更好的性能。
表1 在HRSC數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果Table 1 Results of comparison experiments on the HRSC dataset/%
圖8 是本文方法在HRSC 數(shù)據(jù)集上部分檢測(cè)結(jié)果的可視化圖。可以看到,不同尺寸、不同方向以及不同位置的目標(biāo)都能被精確檢測(cè)出來(lái)。在檢測(cè)結(jié)果中,各個(gè)目標(biāo)的中心點(diǎn)預(yù)測(cè)比較精準(zhǔn),中心點(diǎn)與頭部頂點(diǎn)也沒有出現(xiàn)誤匹配的情況。但也存在部分目標(biāo)的寬度預(yù)測(cè)不準(zhǔn)確的問題,導(dǎo)致可視化檢測(cè)框不能完好地貼合目標(biāo)邊界。
圖8 HRSC數(shù)據(jù)集部分檢測(cè)結(jié)果可視化Fig.8 Visualisation of some of the test results on the HRSC dataset
P-R 曲線是以召回率(recall,R)為橫坐標(biāo)、精確率(precision,P)為縱坐標(biāo)的曲線圖,反映了兩者的平衡關(guān)系。P-R 曲線中越靠近右上角的位置,反映模型的檢測(cè)結(jié)果中漏檢少的同時(shí)精確率高。判斷一個(gè)檢測(cè)結(jié)果是否正確的方式是計(jì)算檢測(cè)框與真實(shí)框的交并比(intersection over union,IoU)。與真實(shí)框的交并比超過閾值的檢測(cè)框?yàn)檎_的檢測(cè)結(jié)果,反之則為錯(cuò)誤檢測(cè)框。HRSC 數(shù)據(jù)集上不同算法的P-R 曲線如圖9 所示,從圖中可以看出,本文算法相較于其他檢測(cè)模型在該數(shù)據(jù)集中表現(xiàn)了更優(yōu)秀的結(jié)果。
圖9 P-R曲線圖Fig.9 P-R curve graph
為了獲得點(diǎn)對(duì)匹配模塊中的最佳閾值,即式(3)中的threshold參數(shù),在HRSC數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。表2 展示了不同threshold參數(shù)下的檢測(cè)結(jié)果。從表2 可以看出,當(dāng)threshold參數(shù)設(shè)置為2 時(shí),本文算法有最高的檢測(cè)精度。在后續(xù)實(shí)驗(yàn)中,threshold將默認(rèn)設(shè)置為2。
表2 參數(shù)threshold消融實(shí)驗(yàn)Table 2 Ablation experiments of threshold parameter
為了研究旋轉(zhuǎn)橢圓高斯核與向量引導(dǎo)的點(diǎn)對(duì)匹配模塊在本文算法中的影響,在HRSC 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。表3 展示了消融實(shí)驗(yàn)的結(jié)果,數(shù)據(jù)表明,旋轉(zhuǎn)橢圓高斯核與向量引導(dǎo)的點(diǎn)對(duì)匹配模塊都提高了本文算法的精度。具體來(lái)說,旋轉(zhuǎn)橢圓高斯核在HRSC 平均精度(07)、HRSC 平均精度(12)上分別帶來(lái)了1.42%和1.39%的提升;向量引導(dǎo)的點(diǎn)對(duì)匹配模塊在上述兩個(gè)指標(biāo)中則分別帶來(lái)了1.06%和1.20%的精度提升。從實(shí)驗(yàn)結(jié)果可以驗(yàn)證,無(wú)論是旋轉(zhuǎn)橢圓高斯核還是向量引導(dǎo)的點(diǎn)對(duì)匹配模塊,都在HRSC數(shù)據(jù)集上帶來(lái)了顯著的提升效果。
表3 在HRSC數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 3 Ablation experiments on the HRSC dataset/%
消融實(shí)驗(yàn)的可視化結(jié)果如圖10所示,圖10(a)—(d)分別是真實(shí)標(biāo)注框、本文算法在無(wú)旋轉(zhuǎn)橢圓高斯核、無(wú)點(diǎn)對(duì)匹配模塊和完整情況下的檢測(cè)結(jié)果??蓪?duì)比看出,旋轉(zhuǎn)橢圓高斯核和向量引導(dǎo)的點(diǎn)對(duì)匹配模塊得到的檢測(cè)框均有效地提升了對(duì)真實(shí)目標(biāo)框的貼合效果。
圖10 HRSC數(shù)據(jù)集消融實(shí)驗(yàn)檢測(cè)結(jié)果的可視化Fig.10 Visualization of the detection results of the ablation experiment on the HRSC dataset((a)the real labeled boxes;(b)without rotated elliptic Gaussian kernels;(c)without the point pair matching module;(d)in the complete case)
為了驗(yàn)證本文算法在長(zhǎng)寬比較小的目標(biāo)類型上的檢測(cè)性能,選用UCAS-AOD 數(shù)據(jù)集中的飛機(jī)類進(jìn)行實(shí)驗(yàn)。表4 對(duì)比了本文算法與其他算法在UCASAOD 飛機(jī)類別上的實(shí)驗(yàn)結(jié)果,本文方法在飛機(jī)類別上取得了98.81%的精度,相較Wei等人(2021)提出的X-LineNet(X-line networks)、Yang 等人(2018)提出的R-DFPN(multiscale rotation dense feature pyra?mid networks)、Li 等人(2019)提出的FADet(featureattentioned detector)以及R3Det(Yang 等,2021a),達(dá)到了更好的精度,表明本文算法針對(duì)不同目標(biāo)有一定的泛化能力。在UCAS-AOD飛機(jī)數(shù)據(jù)集部分檢測(cè)結(jié)果如圖11所示。
表4 在UCAS-AOD飛機(jī)類別上的對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Results of comparative experiments on the UCAS-AOD aircraft category
圖11 UCAS-AOD飛機(jī)數(shù)據(jù)集部分檢測(cè)結(jié)果Fig.11 Partial detection results of the UCAS-AOD aircraft dataset
在UCAS-AOD 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。表5 中的實(shí)驗(yàn)數(shù)據(jù)表明,旋轉(zhuǎn)橢圓高斯核和向量引導(dǎo)的點(diǎn)對(duì)匹配模塊在UCAS-AOD數(shù)據(jù)集的飛機(jī)目標(biāo)上分別帶來(lái)了0.26%和1.98%的精度提升。
表5 在UCAS-AOD飛機(jī)數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 5 Ablation experiments on the UCAS-AOD aircraft dataset
通過與在HRSC 數(shù)據(jù)集上的結(jié)果對(duì)比可發(fā)現(xiàn),旋轉(zhuǎn)橢圓高斯核在HRSC 數(shù)據(jù)集上產(chǎn)生的效果更好。其本質(zhì)在于旋轉(zhuǎn)橢圓高斯核的設(shè)計(jì)初衷主要是為了解決大長(zhǎng)寬比目標(biāo)帶來(lái)的不利因素,而這些因素對(duì)于類方形的飛機(jī)檢測(cè)不會(huì)帶來(lái)太大的負(fù)面影響。相比于直接回歸引導(dǎo)向量,使用向量引導(dǎo)的點(diǎn)對(duì)匹配模塊無(wú)論是在HRSC 數(shù)據(jù)集還是UCAS-AOD數(shù)據(jù)集上都帶來(lái)了明顯的提升效果。消融實(shí)驗(yàn)的結(jié)果如圖12 所示,圖12(a)—(d)分別是真實(shí)標(biāo)注框、本文算法在無(wú)旋轉(zhuǎn)橢圓高斯核、無(wú)點(diǎn)對(duì)匹配模塊和完整情況下的檢測(cè)結(jié)果。可以看出,旋轉(zhuǎn)橢圓高斯核對(duì)長(zhǎng)寬比較小的目標(biāo)的檢測(cè)精度沒有明顯的提升,但點(diǎn)對(duì)匹配模塊大大提升了頭部頂點(diǎn)的預(yù)測(cè)精度,從而對(duì)檢測(cè)結(jié)果帶來(lái)較好的提升,檢測(cè)框的方向更貼近目標(biāo)的真實(shí)方向。
圖12 UCAS-AOD消融實(shí)驗(yàn)檢測(cè)結(jié)果的可視化Fig.12 Visualization of the detection results of the UCAS-AOD ablation experiment((a)the real labeled boxes;(b)without rotating elliptic Gaussian kernels;(c)without the point pair matching module;(d)in the full case)
本文針對(duì)復(fù)雜遙感圖像背景下的目標(biāo)檢測(cè)任務(wù),提出了一種基于關(guān)鍵點(diǎn)與有效向量的無(wú)錨框目標(biāo)檢測(cè)方法,通過對(duì)中心點(diǎn)、目標(biāo)頭部點(diǎn)以及引導(dǎo)向量的位置回歸,實(shí)現(xiàn)對(duì)任意方向遙感目標(biāo)的外接矩形框準(zhǔn)確表征以及方向的判別。針對(duì)部分遙感目標(biāo)長(zhǎng)寬比較大的特點(diǎn),設(shè)計(jì)橢圓高斯核以更好地貼合目標(biāo)邊界以及區(qū)分密集排列的遙感目標(biāo)。針對(duì)邊界向量的回歸問題,使用引導(dǎo)向量指引中心點(diǎn)與頭部點(diǎn)的匹配,避免直接回歸邊界向量導(dǎo)致的不精確。通過實(shí)驗(yàn)與其他先進(jìn)算法進(jìn)行對(duì)比,本文算法在HRSC 數(shù)據(jù)集上取得了90.78%(VOC 2007)和97.85%(VOC 2012)的平均精度,在UCAS-AOD 數(shù)據(jù)集飛機(jī)類別上有著98.81%的平均精度,均取得了最好的檢測(cè)效果,從而證實(shí)了本文算法在遙感目標(biāo)檢測(cè)的有效性與魯棒性。由于本文算法的檢測(cè)需要數(shù)據(jù)集具有頭部頂點(diǎn)的標(biāo)注,而目前大部分的旋轉(zhuǎn)目標(biāo)數(shù)據(jù)集并沒有關(guān)于目標(biāo)頭部頂點(diǎn)的標(biāo)注,從而無(wú)法進(jìn)一步驗(yàn)證本文算法的有效性,也限制了本文算法的泛用性。因此,下一步將針對(duì)頭部頂點(diǎn)的標(biāo)注的建模方式進(jìn)一步改進(jìn),提高模型的泛用性,如在不區(qū)分頭部與尾部的情況下設(shè)計(jì)更合適的建模方式。