張 濤, 楊小岡, 盧瑞濤, 謝學立, 劉 闖
(火箭軍工程大學導彈工程學院, 陜西 西安 710025)
艦船目標定位和監(jiān)測在海洋環(huán)境感知、敵情偵察、海運管理等軍事和民用領域發(fā)揮著重要作用,是遙感圖像智能處理領域的研究熱點和重點[1]。在大范圍、高分辨率的光學遙感圖像中,艦船目標背景復雜多變,多種類的艦船目標常以任意方向密集排列,類內差異小,導致通常的檢測模型具有局限性,因此高分辨率可見光遙感圖像艦船目標檢測成為一項極大的挑戰(zhàn)[2]。
遙感圖像中艦船目標的排列方式不同于一般圖像目標,艦船目標在圖像中呈任意方向排列,復雜背景嚴重干擾目標識別。同時,遙感圖像中艦船目標長寬比大,影響著傳統(tǒng)檢測方法對艦船目標的識別和精確檢測[3]。通用的目標檢測算法中采用水平框標記目標,但艦船目標檢測采用水平框,會存在大面積背景干擾,導致不同目標框間的重疊區(qū)域過大,引起回歸不準確的情況,且在后處理非極大值抑制階段,因重疊過高會造成部分艦船目標漏檢[4]。針對艦船目標特性,本文采用目標最小外接矩形框(旋轉框)標記目標,有利于獲得艦船目標精確的邊界信息,還能反映出艦船尺度、長寬比等信息用于后續(xù)艦船目標方向和隊形識別。
隨著深度學習技術在目標檢測任務中廣泛應用,任意方向遙感圖像艦船目標的檢測越發(fā)受到關注。光學遙感圖像艦船目標的旋轉框檢測方法大多都是通過場景文本檢測以及通用目標檢測轉化而來。文獻[5]在單激發(fā)多框探測器(single shot multibox detector,SSD)基礎上添加反卷積和池化特征模塊融合深淺層信息,以增強目標特征之間的關聯(lián)實現(xiàn)艦船目標檢測。文獻[6]提出雙向特征融合機制,通過語義聚合模塊將高層信息融合到低層,再將低層特征圖平均處理作為高層注意力權重圖進行加權,實現(xiàn)特征融合提高檢測精度。文獻[7]針對遙感圖像中艦船目標的長寬比和排列方式,重新設置錨框的比例和數(shù)量,有效改善了艦船目標檢測的速度和精度,面對復雜背景魯棒性也較強。文獻[8]改進YOLOV3網絡,引入對艦船目標比例和形狀自適應的可形變卷積,優(yōu)化Resnet變體結構并采用ShuffleNetv2輕量化思想實現(xiàn)艦船目標檢測,提升目標檢測速度。這些方法都是直接將通用目標檢測方法遷移到艦船目標檢測,未考慮到艦船密集排列時,用水平框標記艦船會導致目標重疊造成漏檢,且任意方向的艦船目標存在較大長寬比,水平框會造成檢測精度受限。為了解決水平框標記艦船目標存在的問題,文獻[9]采用旋轉框對艦船目標進行定位,在旋轉興趣區(qū)域中引入特征金字塔池化模塊對不同尺度的特征進行提取和融合,實現(xiàn)感興趣區(qū)域的分類以及艦船目標的精確定位。文獻[10]提出了旋轉池化模塊用于提取旋轉目標特征,以及旋轉邊框回歸模塊用于回歸艦船目標的5個要素,并針對多類別提出多任務的非極大值抑制實現(xiàn)艦船檢測。文獻[11]提出了一種旋轉框檢測器(rotatable bounding box regression,DRBox),DRBox能夠正確輸出目標的方位角,可以準確識別任意方向的艦船目標,并且生成相應的旋轉框,對于多角度艦船目標的定位非常有效,與Faster R-CNN、SSD相比有較大的提升。文獻[12]將水平感興趣區(qū)域(region of interest,RoI)轉換為旋轉感興趣區(qū)域,有效地緩解了RoI與艦船目標間的偏差,還可以減少用于定向物體檢測的錨框數(shù)量,以促進后續(xù)分類和回歸。文獻[13]提出了旋轉區(qū)域建議網絡用于生成具有艦船方位角信息的建議,為使旋轉區(qū)域建議準確,回歸了邊界框的方位角,并在分類子網絡中加入旋轉感興趣池化層提取特征,進行有效的目標定位和分類。這些工作考慮到艦船目標特性,采用旋轉框檢測,同時為了提高檢測精度設置了不同比例的錨框,但遍歷錨框需要提前設置錨框的比例大小,存在超參數(shù)多、計算量大的問題。為了減少計算成本提高檢測速度,文獻[14]增加一條角度預測分支,基于深淺層融合的特征圖送到旋轉框大小及角度等預測分支,并采用旋轉非極大抑制適應目標旋轉框的檢測。文獻[14]避免了基于RCNN框架旋轉錨框成倍增加和旋轉非極大值抑制增加的計算復雜性,通過預測每個目標內部的一對中間線實現(xiàn)檢測,將目標線段定義為原始旋轉邊界框標記的兩條對應的中間線,無需額外手動標記。文獻[15]提出一種自底向上的單階段無錨檢測模型X-LineNet,將任務描述為檢測每個目標內部的兩條相交線段,并將其分組,而無需任何矩形區(qū)域分類。這幾種方法都是無錨框任意方向檢測的網絡,擺脫錨框遍歷機制,提高了檢測速度,但這些方法中使用的特征不具備旋轉不變性,性能仍落后于基于錨框的檢測。
基于以上方法中存在的局限性,受CenterNet模型[16]啟發(fā),考慮到任意方向排列的艦船中心點不受方向影響,提出一種單階段無錨框的關鍵點遙感圖像艦船目標檢測算法,通過估計中心點位置實現(xiàn)遙感圖像任意方向艦船目標檢測。算法擺脫錨框遍歷機制,并采用深度可分離卷積,減少參數(shù)量,提升模型檢測速度。此外,算法還結合方向不變模型和無參注意力機制,增強對特征的表達能力,提升模型檢測精度,最終達到檢測速度和精度平衡。
本文的主要貢獻包括:
(1) 提出了一種單階段無錨框的旋轉框艦船目標檢測框架,擺脫錨框遍歷機制,提升了模型計算速度;
(2) 為了緩解主干網絡生成的特征不具備旋轉不變性造成的不一致性,引入一種OIM用來生成方向不變特征圖;
(3) 引入SimAM無參注意力機制,并結合降低計算冗余的深度可分離卷積,增強對艦船目標的關注度;
(4) 采用可形變卷積來解決多種形式目標幾何變換問題;并將提取的特征圖輸入到檢測分支中,完成中心點、目標寬高和角度的回歸;最終設置組合損失函數(shù)對模型訓練優(yōu)化。
本文提出關鍵點的遙感圖像艦船目標檢測方法,是一種端到端的anchor free關鍵點估計算法,整體框架如圖1所示。首先使用嵌入OIM的主干網絡[17]生成特征圖,并引入深度可分離卷積,結合SimAM無參注意力機制[18]增強對目標的表征;然后在特征圖上估計艦船目標中心點;最后回歸出每個中心點對應特征圖上中心點處偏移量、目標大小及角度。
圖1 基于關鍵點的遙感圖像艦船目標檢測方法結構圖Fig.1 Structure diagram of key-point based method for ship detection in remote sensing images
令輸入圖像為I∈RW×H×3,經過特征提取網絡,最終得到的特征圖大小為F∈R(W/s)×(H/s)×N,其中W、H為圖片的寬和高,s為尺寸縮放比例,N為檢測目標數(shù)。受CenterNet網絡啟發(fā)[16],當前用于關鍵點估計的提取特征主干網絡有Resnet、特征聚合體系(deep layer aggregation,DLA)[19]以及Hourglass Network[20]。Resnet內部殘差塊跳躍連接,當增加網絡寬度和深度的時候能提升網絡的性能,以往的bottleneck、residual block等模塊從串聯(lián)形式到跳躍連接形式,但結構仍過于單一。DLA深度網絡特征融合的方法通過迭代聚合(iterative deep aggregation,IDA)和分層聚合(hierarchical deep aggregation,HAD)結構進一步擴展單一的跳躍結構,能夠在深層網絡終融合語義和空間信息。Hourglass是姿態(tài)估計專用網絡,由兩個連續(xù)的沙漏模塊組成,每個沙漏模塊包括5對具有跳躍連接的向下和向上卷積網絡,能夠捕捉關鍵點的空間位置信息。實驗證明,Hourglass產生更好的關鍵點估計性能,但Hourglass網絡參數(shù)量多,計算量大。
為兼顧網絡檢測過程的精度和速度平衡,本文采用DLASeg網絡為提取特征的主干網絡,DLASeg在DLA網絡的基礎上使用可形變卷積和Upsample層組合進行信息提取。DLASeg核心是DLAUP和IDAUP,這兩個類中都使用了Deformable Convolution可變形卷積以及ConvTranspose2d進行上采樣。同時,考慮遙感圖像艦船目標是任意方向密集排列的,但主干網絡生成的特征不具備旋轉不變性,因此在DLASeg網絡中引入OIM。為了進一步減少計算量,在DLASeg網絡中引入深度可分離卷積并插入SimAM無參注意力機制來提升對艦船目標的關注度。改進的特征提取網絡如圖2所示。
圖2 優(yōu)化的特征提取網絡Fig.2 The architecture of the feature extraction network
1.2.1 DLASeg網絡
不同于Resnet網絡融合方式僅限簡單的疊加,DLA結構采用DenseNet和特征金字塔思想,通過將不同stage、block的網絡結構迭代式融合語義信息和空間特征,提高檢測精度。將IDA和HAD組合,形成DLA結構如圖3所示。
圖3 DLASeg結構圖Fig.3 Structure diagram of DLASeg
1.2.2 SimAM注意力機制
注意力機制常被引入各種網絡中提升模型性能。通道注意力(squeeze-and-excite,SE)[21]通過激勵-擠壓操作,生成2維特征圖來構建通道的依賴性;輕量的注意力模塊(convolutional block attention module,CBAM)注意力機制進一步將大尺度核卷積引入空間信息進行編碼[22];但是SimAM不同于現(xiàn)有空間和通道注意力模塊,它不是簡單的將空域和通道注意力并聯(lián)或者串聯(lián)。3D注意力模塊SimAM受“人腦中兩種注意力同時工作”啟發(fā),設計了一種能量函數(shù)來發(fā)掘每個神經元的重要性,即計算注意力權值,相比于其他注意力模塊,沒有額外參數(shù),使用靈活有效,如圖4所示。
圖4 3D注意力權值圖Fig.4 Diagram of three dimenisonal attention weight
一般來說,人腦中激活神經元會抑制周圍神經元,即空域抑制,對于空域抑制的神經元應該賦予更高的權重,因此SimAM的能量函數(shù)為
(1)
式中:t,xi分別為單一通道中輸入特征的目標神經元和其他神經元;(wtxi+bt)和(wtt+bt)是在t,xi上的線性變換;M=H×W為通道上神經元的數(shù)量。通過計算出wt,bt的解析解,以及通道中所有神經元的均值和方差,得到最小能量公式為
(2)
由式(2)可知,能量越低,t神經元和其他神經元的區(qū)別越大,越重要。SimAM模塊最終優(yōu)化為
(3)
1.2.3 OIM模塊
遙感圖像艦船目標是任意方向的,組成DLASeg網絡的普通線性卷積本身不具備旋轉不變性,網絡的旋轉不變性僅來自于數(shù)據(jù)增強和多重池化操作,故網絡應對旋轉目標的檢測能力較弱。為提高主干網絡對于旋轉目標的適應能力,本文引入OIM來緩解不一致性。該模型由主動旋轉濾波器(active rotating filters, ARFs)和定向響應池化(oriented response pooling, ORPooling)模塊組成。ARFs能夠主動旋轉生成方向和位置編碼的特征圖,使用ARFs模塊的網絡能夠產生類內旋轉不變深度特征。ARFs是一個k×k×n的filter,在生成特征圖的卷積網絡中會旋轉N-1次。輸入I的第i個方向輸出為
(4)
(5)
最終得到旋轉不變的特征圖。此外,OIM只引入了一個卷積層和少量的參數(shù),幾乎不影響訓練和推理的速度。
(6)
高斯核函數(shù)f(x,y)將關鍵點(中心點)映射到特征圖C∈R(W/s)×(H/s)×N。
在訓練過程中,熱力圖上只有中心點是正樣本,而所有其他點均為負樣本,這可能導致正樣本和負樣本之間的巨大不平衡。為了緩解正負樣本不平衡問題,使用focal loss對網絡進行優(yōu)化訓練:
(7)
(8)
(9)
式中:Ock為預測中心點處偏移量;ck為中心點預測值;centerk/s-ck為中心點坐標偏移量;Sc k為回歸艦船目標大小角度;Sk為原圖目標的尺寸大小角度。
HRSC2016是遙感圖像中艦船目標變化范圍和尺度較大的數(shù)據(jù)集,包含Google Earth 上6個著名港口的圖像。分辨率從2 m到0.4 m不等,圖像大小大部分為1 000像素×600像素。訓練集、驗證集和測試集分別為436張、181張和444張,包含1 207、514、1 228個艦船目標樣本,含有3個級別任務(單類艦船目標的檢測、4類艦船目標類別識別和19類艦船型號識別)。
據(jù)統(tǒng)計,遙感圖像艦船目標數(shù)據(jù)集HRSC2016圖片中艦船目標變化尺度范圍較大,圖5(a)為訓練集艦船目標的寬高特性,其中艦船目標高為300~400像素的占所有寬高的33.56%,目標寬的像素在100內占83%左右。圖5(b)為訓練集中艦船目標占圖片面積的比例,有162張、122張圖像中艦船目標面積分別占圖片總面積的37%、28%左右,說明數(shù)據(jù)集中艦船目標相對較大。相比其他遙感數(shù)據(jù)集,HRSC2016數(shù)據(jù)集圖片本身的大小也很小,圖5(c)中圖片寬或高像素在1 200~1 300的圖片本身僅占訓練集的0.34%,且艦船寬或高像素不超過1 400。
圖5 HRSC2016數(shù)據(jù)集特性分析Fig.5 Analysis of HRSC2016 dataset characteristic
本文構建了一個新的遙感圖像艦船目標數(shù)據(jù)集RFUE2021,主要由Google Earth港口圖像、HRSC2016數(shù)據(jù)集部分圖像以及FGSD2021數(shù)據(jù)集[23]部分圖像共同組成,共10 296張數(shù)據(jù)集,其中訓練集9 261張、測試集1 035張,數(shù)據(jù)集包含航母、黃蜂級、提康德羅加級、阿利·伯克級、佩里級、獨立級、潛艇等20種類別,含有2個級別任務(單類艦船目標的檢測和19類艦船型號識別)。圖像大小的范圍在200~8 000左右,利用Labelimg2標注艦船邊框,標注信息有目標中心點坐標、寬、高以及弧度信息。本文使用RFUE2021數(shù)據(jù)集的單類艦船目標的檢測任務,數(shù)據(jù)集部分樣本如圖6所示。
圖6 RFUE2021數(shù)據(jù)集部分示例Fig.6 Partial sample of RFUE2021 dataset
水平框標注如圖7(a)所示,任意方向的船舶通常具有較大的長寬比和密集停泊,使用水平邊界框的NMS算法容易產生漏檢,因此使用水平邊界框不適用于任意方向的船舶檢測任務。為此,采用旋轉邊界框標注艦船,使用5元組(cx,cy,w,h,θ)參數(shù)化,其中(cx,cy)是旋轉邊界框中心的坐標,w,h是船舶的寬度和長度。如圖7(b)所示,采用旋轉框標注方式能夠更好地貼合艦船目標邊界,不會引入過多的背景噪聲。
圖7 任意方向艦船目標標注形式Fig.7 Different representations of arbitrary-oriented ship target
本文設置的組合損失函數(shù)Lloss主要由中心點預測損失Lc,中心點處偏移損失Lco以及艦船目標寬高角度損失Lsize組成:
Lloss=Lc+λcoLco+λsizeLsize
(10)
參照CenterNet網絡,設置中心點偏移損失權重λco=0.1,目標尺度損失權重λsize=0.1。
本文采用遙感領域專用工具箱DOTA_devkit計算旋轉IOU,進一步得到旋轉框的mAP。DOTA_devkit工具箱包含大面積圖像裁剪,檢測結果可視化和結果測評等功能。評價模型好壞,首先需要計算準確率(precision)和召回率(recall):
(11)
(12)
式中:TP為檢測正確的艦船數(shù);FN為漏檢的艦船數(shù)。
準確率和召回率是一對矛盾的度量,需要找到平衡點來度量模型好壞,對于二分類問題,F1度量是準確率和召回率的調和平均,即:
(13)
AP是準確率和召回率下的面積,AP綜合考慮準確率和召回率的影響,反映模型對某個類別識別的好壞,取所有類別AP的平均值為mAP,衡量的是在所有類別上的平均好壞程度。
(14)
評價模型的檢測速度指標為每秒幀數(shù)(frame per second, FPS)。FPS、F1度量、mAP值越大,表明檢測速度和精度越高。F1度量的大小反應了模型的穩(wěn)定性,數(shù)值越大越穩(wěn)定。
本文方法用Pytorch深度學習框架實現(xiàn),硬件環(huán)境為Intel Core i7 CPU、GEFORCE RTX 2080Ti。輸入圖像大小調整為512像素×512像素,使用Adam方法作為優(yōu)化器,在COCO數(shù)據(jù)集上測試的權重文件,遷移到本網絡進行230epoch訓練,學習率分別在第180epoch、第210epoch時下降為原來的十分之一。訓練過程中使用隨機旋轉、隨機翻轉和顏色抖動來增強數(shù)據(jù)。使用IoU閾值為0.15的旋轉非極大抑制來去除重復的檢測,其他具體參數(shù)如表1所示。
表1 實驗環(huán)境參數(shù)配置
本文按照CenterNet網絡設置,在Resnet、Resnet_dcn、DLASeg、Hourglass主干網絡以及本文方法(Ours)(輸入尺寸515×512)上進行實驗驗證,以便能更好地評估基于關鍵點的艦船目標檢測算法。在RFUE2021數(shù)據(jù)集上具體實驗結果如表2所示。
表2 實驗環(huán)境參數(shù)配置
由表2可知,基于關鍵點的艦船目標檢測方法在Res18_dcn、DLASeg、Hourglass以及Ours上驗證的mAP分別為62.34%、71.52%、73.18%、77.96%,在經過多次訓練后,發(fā)現(xiàn)使用Hourglass主干網絡的精度達到了73.18%,但是由于Hourglass的參數(shù)量大、計算緩慢,檢測速度僅為13.6FPS。本文為了兼顧檢測速度和精度的平衡,選擇DLASeg為主干網絡進行改進,輸入為512×512時本文方法(Ours)相比于其他網絡,檢測性能明顯提高,更加關注目標信息,mAP分別提升了15.62%、6.44%,4.82%,檢測速度也達到了41.2FPS。本文相繼插入SimAM模塊和OIM模塊,檢測速度相比簡單的DLASeg略有降低,但仍能滿足遙感圖像艦船目標的實時檢測。同時,本文方法(Ours)(輸入尺寸515×512)的F1度量為81.56%,說明了方法的穩(wěn)定性。
以上網絡在本次實驗中訓練優(yōu)化的損失函數(shù)曲線如圖8所示。圖中的loss值為組合損失函數(shù)Lloss值進行對比,Lloss值是由中心點預測損失、中心點處偏移及目標尺度角度損失,加上不同的權重得到的。實驗共有230 epoch,在第180和210 epoch時分別降低了學習率,圖8中在第180 epoch后所有網絡的損失函數(shù)逐漸基于穩(wěn)定。由于學習特征能力較弱,Res18_dcn 網絡損失函數(shù)初始值較大; Hourglass相比DLA網絡損失函數(shù)值更低,但是由于Hourglass參數(shù)量多,損失函數(shù)下降過程中略有小幅度的波動;Ours_loss損失函數(shù)值明顯的低于其他網絡,并且擬合過程平穩(wěn)、收斂效果較好。
圖8 艦船目標檢測損失函數(shù)曲線圖Fig.8 Loss function curve of ship target detection
圖9是在RFUE2021數(shù)據(jù)集上采用Res18_dcn、DLASeg、Hourglass主干網絡以及Ours方法對比得到的艦船目標實驗結果圖。其中,紅色點為檢測艦船目標的中心點。圖9(a)中以Res18_dcn為主干網絡的實驗結果圖,由于學習特征的能力較弱,導致部分艦船目標誤檢;圖9(c)以Hourglass主干網絡,網絡結構多次pooling、upsampling操作,檢測性能好,誤檢和漏檢相對較少;考慮Hourglass網絡的參數(shù)量多,在DLASeg結構上優(yōu)化得到本文方法,檢測結果如圖9(d)所示,能夠精準地定位中心點和目標框的位置,實現(xiàn)了艦船目標的有效檢測。
圖9 基于關鍵點的艦船目標檢測結果圖Fig.9 Result of key-point based method for ship target detection
為了進一步驗證本文方法的有效性,將本文方法與其他具有代表性的艦船目標檢測算法R2CNN、RetinaNet-Rbb、RoI-Trans等在RFUE2021和HRSC2016數(shù)據(jù)集上分別進行對比實驗。為了對比公平,使用DOTA數(shù)據(jù)集相同的默認參數(shù)設置,使用了相同的數(shù)據(jù)形變、擴充策略,并在實驗中設置相同的epoch多次訓練。在RFUE2021數(shù)據(jù)集上實驗結果如表3所示。
表3 各種算法性能對比
從表3可以看出,圖像輸入大小統(tǒng)一為512像素×512像素時,本文優(yōu)化算法(Ours)檢測精度達到77.96%,相比R2CNN、Retinanet-Rbb、SCRDet、CSL、DCL、R3Det、RSDet、S2A-Net、CenterNet-Rbb(DLA34)等其他經典算法,精度分別提升了2.87%、7.47%、5.06%、7.23%、7.62%、10.49%、7.22%、0.77%、6.14%。其中,S2A-Net將多層特征融合到有效的錨點采樣中,提高對小目標的靈敏度,通過抑制噪聲和突出物體特征,共同探索有監(jiān)督的像素注意力網絡和通道注意力網絡,對小而雜亂的艦船目標檢測良好,因此在RFUE2021數(shù)據(jù)集上檢測精度為77.19%。在RFUE2021數(shù)據(jù)集上各種算法實驗結果如圖10所示。
圖10(c)中,S2A-Net相比R3Det和R2CNN算法對雜亂的小艦船目標檢測效果較好;圖10(a)和圖10(b)中R3Det、R2CNN檢測會有部分目標漏檢和誤檢,且R2CNN方法對艦船小目標較差。本文方法不受密集場景的影響,能夠定位出中心點和目標框的精確位置,具有較好的魯棒性。
為了進一步驗證算法,在HRSC2016數(shù)據(jù)集上與其他艦船目標檢測算法對比實驗,檢測結果如表4所示。
表4 HRSC2016數(shù)據(jù)集上實驗結果
在HRSC2016數(shù)據(jù)集上對比不同艦船目標檢測算法,ROI-Trans將水平感興趣區(qū)域轉換為旋轉感興趣區(qū)域,減少旋轉錨框的設計,檢測精度由R2CNN網絡驗證獲取的73.1%提升至86.2%;RSDet引入4個角點坐標,避免角度參數(shù)引起的損失不連續(xù)性,檢測精度達到了86.5%;本文方法與以上幾種艦船目標檢測算法對比,擺脫錨框設計,輸入大小為1 024像素×1 024像素時,檢測精度達到了86.7%,表現(xiàn)最佳。
本文分別引入降低計算量的深度可分離卷積、增加目標關注度的SimAM無參注意力模塊,以及生成方向不變特征圖的OIM模型,來提升艦船目標檢測精度,在RFUE2021數(shù)據(jù)集設計消融實驗進行實驗驗證,實驗結果如表5所示。
表5 消融實驗結果
由表5可知,將普通卷積換成深度可分離卷積,降低了計算量,檢測速度從41.09FPS提升至43.56FPS;SimAM注意力模塊不引入額外參數(shù),對計算速度幾乎沒有影響,增加了對艦船目標的關注度,提高了1.56%檢測精度;當加入方向不變OIM模型時,艦船目標檢測精度進一步提升,并且不影響檢測速度,仍然可以較好的滿足實時檢測。消融實驗訓練過程損失函數(shù)曲線如圖11所示。
本文的損失函數(shù)主要由中心點估計損失,中心點處偏移和目標寬高角度回歸損失3部分組成。在圖11(a)baseline中損失函數(shù)曲線波動較大。加入SimAM模塊后,損失函數(shù)波動有所緩解,且略有下降。采用OIM模型進行訓練時,損失函數(shù)曲線如圖11(c),第180epoch時已經下降至0.5左右,且185epoch后波動緩和,曲線逐漸趨于穩(wěn)定。圖11(d)為本文算法損失曲線,擬合效果號,損失函數(shù)曲線逐漸趨于穩(wěn)定,多次實驗說明此網絡檢測性能好。
本文采用SimAM模塊來增強對艦船目標的關注度,同時SimAM模塊也不會引入額外參數(shù),對檢測速度不會造成影響。本文對SE、CBAM等注意力機制對比實驗,說明SimAM模塊的性能,實驗結果如表6所示。
表6 引入不同注意力機制實驗結果
由表6可知,SE以及CBAM注意力機制對網絡檢測性能都有所改善。SE機制關注通過之間的關系,學習不同通道特征的重要性,mAP達到了76.54%;CBAM機制在此基礎上增加了空間注意力,融合了兩種注意力機制,mAP達到了77.28%;本文采用SimAM模塊構建了能量函數(shù),避免過多結構調整,沒有引入額外參數(shù),在不影響檢測速度的前提下增強模型對艦船目標的關注度。
針對目前遙感圖像艦船目標檢測方法大多為遍歷錨框機制,導致參數(shù)量和計算量增大的問題;以及遙感圖像中的艦船目標任意方向分布,但主干網絡生成的特征不具備旋轉不變性造成的不一致性,本文提出了基于關鍵點的遙感圖像艦船目標檢測方法,實現(xiàn)艦船目標中心點的檢測,進而實現(xiàn)艦船目標的檢測與識別。
(1) 首先對現(xiàn)有遙感圖像艦船目標HRSC2016數(shù)據(jù)集中的艦船目標特性進行定量分析,針對部分艦船目標尺度過大,以及圖像本身尺寸較小的問題,本文構建了RFUE2021數(shù)據(jù)集,為了驗證本文方法的有效性,在設置相同參數(shù)下分別在以上兩種數(shù)據(jù)集上實驗驗證。
(2) 針對現(xiàn)有遙感圖像艦船目標檢測方法大多是錨框遍歷機制,本文提出利用一種端到端的anchor free檢測方法,提前設置錨框需要考慮到錨框的大小、比例以及數(shù)量等信息,會增大參數(shù)量,降低檢測速度。受CenterNet網絡啟發(fā),以及遙感圖像艦船目標任意方向密集排列,但艦船目標中心點不變的特點,直接預測目標的中心點,再回歸得到每個中心點處目標的偏移、尺度和角度,從而實現(xiàn)艦船目標的檢測。
(3) 艦船目標是以任意方向分布的,但直接利用Resnet、DLA、Hourglass等網絡生成的特征不具備旋轉不變性,為了緩解這種不一致性,引入一種方向不變模型OIM生成方向不變特征圖。
(4) 為提升網絡的計算速度,將部分普通卷積轉換為深度可分離卷積;為進一步增強對艦船目標的關注度、提高目標檢測精度,引入SimAM注意力機制,沒有產生額外參數(shù),對檢測速度也沒有造成影響,最終本文方法兼顧了目標檢測的速度和精度。
未來將進一步優(yōu)化檢測算法,針對特定場景如云霧遮擋、港口復雜背景等情況,改進算法,提升檢測速度和精度。