夏文輝, 萬劍華, 鄭紅霞, 許明明, 曲川萍
基于深度學(xué)習(xí)的光學(xué)遙感影像艦船檢測算法對比分析
夏文輝, 萬劍華, 鄭紅霞, 許明明, 曲川萍
(中國石油大學(xué)(華東) 海洋與空間信息學(xué)院, 山東 青島 266580)
艦船目標(biāo)檢測是進行海洋環(huán)境監(jiān)管, 保障海上權(quán)益的重要手段?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法能在復(fù)雜環(huán)境下保持良好性能, 為測試不同深度學(xué)習(xí)目標(biāo)檢測算法在艦船檢測中的效果, 構(gòu)建了一個包含3 893張圖像的數(shù)據(jù)集, 涵蓋了復(fù)雜背景下不同類型的艦船, 基于此數(shù)據(jù)集分別采用Faster RCNN、SSD、RetinaNet、YOLOv3、YOLOv4算法進行實驗, 結(jié)果表明, YOLOv4、YOLOv3、RetinaNet、Faster RCNN平均精度均在83%以上, 其中YOLOv4最高達到91.77%, Faster RCNN誤檢較多, 而SSD平均精度最低, 只有79.23%, 總的艦船檢測數(shù)目偏少。將5種模型訓(xùn)練結(jié)果在高分二號影像上進行測試, 得到較好的檢測效果, 對艦船檢測未來理論研究的開展具有一定的指導(dǎo)意義。
遙感; 目標(biāo)檢測; 艦船; 深度學(xué)習(xí)
艦船作為海上重要的運輸載體, 其自動檢測具有非常重要的現(xiàn)實意義[1]?,F(xiàn)有的艦船研究工作大部分都是基于SAR影像[2-3], 而光學(xué)遙感影像與SAR影像相比具有更高的分辨率和更直觀的圖像可讀性, 能夠提供更豐富的細節(jié)信息。因此, 基于光學(xué)遙感影像的艦船目標(biāo)檢測逐漸成為研究熱點[4]。
傳統(tǒng)艦船檢測方法主要包括海陸分割、艦船預(yù)檢與艦船識別3個流程, 其主要通過提取艦船目標(biāo)的灰度特征、形狀特征、紋理特征等進行多特征聯(lián)合檢測。Zhu等基于形狀和紋理特征并引入紋理算子局部多值模式(local multiple patterns, LMP)來增強特征集在特征提取中的表示能力[5]。彭敬濤等融合了艦船目標(biāo)的形狀、灰度、紋理和梯度等多特征信息[6]。王慧利等[7]提出一種新的表征艦船特性的邊緣?方向梯度直方圖特征對艦船目標(biāo)進行描述。然而傳統(tǒng)光學(xué)遙感手段無法對目標(biāo)特性準(zhǔn)確描述﹐檢測魯棒性差, 虛警率高, 受云霧、波浪、雜波等因素影響嚴重。
目前目標(biāo)檢測領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類, 即雙階段目標(biāo)檢測算法和單階段目標(biāo)檢測算法。作為雙階段檢測算法代表, Faster RCNN[8]在RCNN[9]、Fast RCNN[10]基礎(chǔ)上創(chuàng)造性地使用RPN網(wǎng)絡(luò)生成建議框, 速度跟精度都得到大幅改善, 并實現(xiàn)了端到端的檢測, 取得較高精度。相較于帶有候選區(qū)域提取的雙階段檢測方法, 基于回歸的單階段方法如YOLO[11]、SSD[12]等算法, 在檢測速度上具有更大的優(yōu)勢, 但準(zhǔn)確性偏低。RetinaNet[13]提出Focal loss改進交叉熵損失來提升單階段檢測的精度。YOLOv3[11]保持檢測速度的同時提高了該系列對小目標(biāo)檢測識別的準(zhǔn)確率, 2020年推出的YOLOv4[14]引用各種優(yōu)化策略, 形成一個高效而強大的模型。基于深度學(xué)習(xí)的目標(biāo)檢測算法, 能夠充分提取檢測目標(biāo)的底層特征, 模型的泛化能力很強, 能在復(fù)雜環(huán)境下保持很好的魯棒性?,F(xiàn)有光學(xué)遙感影像艦船的公開數(shù)據(jù)集較少, Liu等[15]制作的HRSC2016數(shù)據(jù)集在艦船識別領(lǐng)域應(yīng)用較廣, 該數(shù)據(jù)集主要包含軍艦、商船等大型艦船, 可以較好地應(yīng)用于大中型艦船的類型識別, 但該數(shù)據(jù)集缺乏小型艦船的截取標(biāo)定, 而小目標(biāo)的檢測是衡量深度學(xué)習(xí)目標(biāo)檢測性能的一個重要指標(biāo)。因此本文構(gòu)建了復(fù)雜背景下不同類型艦船的數(shù)據(jù)集, 基于此數(shù)據(jù)集對Faster RCNN、SSD、RetinaNet、YOLOv3、YOLOv4五種算法進行實驗對比分析, 并將模型訓(xùn)練結(jié)果在高分二號影像上進一步測試, 為艦船目標(biāo)的實際檢測應(yīng)用提供參考。
作為單階段檢測器的代表, 有明顯的速度優(yōu)勢。圖像輸入到VGG16骨干網(wǎng)絡(luò)獲取不同大小的特征圖,從中抽取6層特征圖用于檢測不同尺度的目標(biāo),特征圖經(jīng)過卷積感受野不斷增大,對不同尺度特征圖預(yù)測分類從而達到多尺度檢測的目的。
RetinaNet由特征提取網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)(FPN)、分類和邊框回歸網(wǎng)絡(luò)組成, 在特征提取殘差網(wǎng)絡(luò)ResNet基礎(chǔ)上利用FPN來構(gòu)成多尺度卷積特征金字塔, 同時提出了Focal loss來解決單階段檢測器存在的類別失衡問題, Focal loss計算方式如下:
YOLOv3基礎(chǔ)網(wǎng)絡(luò)采用Darknet-53, 網(wǎng)絡(luò)結(jié)構(gòu)層非常深入, 沒有使用池化層、全連接層, 在一些層之間設(shè)置了快捷鏈路, 可有效抑制算法的過擬合現(xiàn)象, 減少了計算量, 提高了速度, 利用多尺度特征結(jié)合不同大小的感受野對各種大小對象進行檢測。
YOLOv4在YOLOv3基礎(chǔ)上做出較大改進, 為了提升準(zhǔn)確度, 在主干網(wǎng)絡(luò)、激活函數(shù)、損失函數(shù)等多個方面進行優(yōu)化。核心主干網(wǎng)絡(luò)采用CSPDarknet53,借鑒CSPNet結(jié)構(gòu)簡潔準(zhǔn)確度高的經(jīng)驗, 在Darknet53殘差塊上加入CSP, 將基礎(chǔ)層的特征映射劃分為兩部分并通過跨階段結(jié)構(gòu)合并, 在減少計算量的同時保證準(zhǔn)確率。在骨干網(wǎng)絡(luò)上添加了SPP塊擴大感受野分離出最顯著的上下文特征, 在3個有效特征層上使用PANet作為參數(shù)聚合方法, 充分利用特征提取信息, 具體結(jié)構(gòu)如圖1所示。
圖1 YOLOv4結(jié)構(gòu)示意圖
本實驗采用的是64位Win10系統(tǒng), 計算機配置GPU為NVIDIA GeForce GTX 1080TI, 顯存為11 GB, 深度學(xué)習(xí)框架使用PyTorch和Keras。豐富樣本集的學(xué)習(xí)是支撐深度學(xué)習(xí)檢測算法發(fā)揮高性能的基礎(chǔ), 公開的HRSC2016樣本集艦船大部分處于海域港口, 船舶類型多為軍艦、大中型船只, 本文構(gòu)建的艦船數(shù)據(jù)集包含全球范圍內(nèi)各海域, 艦船目標(biāo)的場景、種類更加豐富。樣本集的3 893張影像來源于Arcgis online的world imagery, 分辨率達到0.3 m到1 m, 影像尺寸均為1 000×600, 涵蓋了各種復(fù)雜背景下不同類型的艦船, 樣本數(shù)據(jù)集整體情況如圖2所示。
圖2 樣本數(shù)據(jù)集影像示意圖
使用Labelimg工具進行標(biāo)注, 影像中包含艦船8 098只, 艦船大小對應(yīng)個數(shù)統(tǒng)計結(jié)果如圖3所示, 可以發(fā)現(xiàn)數(shù)據(jù)集包含艦船大小、種類豐富, 因此可以較好地對深度學(xué)習(xí)算法性能進行測試。
圖3 艦船大小統(tǒng)計示意圖
將數(shù)據(jù)集3 116張用于訓(xùn)練, 777張用于測試, 采用該數(shù)據(jù)集對Faster RCNN、SSD、RetinaNet、YOLOv3、YOLOv4進行測試, 為了準(zhǔn)確預(yù)估算法檢測效果, 取置信度為0.3對艦船檢測數(shù)目進行統(tǒng)計。不同置信度下獲得多組精確率(precision)和召回率(recall)繪制PR曲線, 計算平均精度mAP值進行精度評價[16-17]。
檢測結(jié)果統(tǒng)計如表1所示, YOLOv4平均精度達到91.77%, 遠高于其他算法, 能準(zhǔn)確檢測出大部分船只, 并且誤檢數(shù)較少。YOLOv3、RetinaNet、Faster RCNN平均精度接近, 均在83%以上, 其中Faster RCNN能檢測出更多的艦船, 但誤檢偏多。而SSD平均精度只有79.23%, 檢測性能較差, 總的檢測數(shù)目偏少。
選取了幾張復(fù)雜背景下包含多種尺寸艦船的影像進行測試, 從上到下依次為a、b、c、d 4個場景, 影像測試結(jié)果如圖4所示:
表1 各算法檢測結(jié)果統(tǒng)計表
圖4 復(fù)雜背景下不同算法檢測效果示意圖
注: a—d: 4個復(fù)雜背景下的影像; A: Faster RCNN; B: SSD; C: RetinaNet; D: YOLOv3; E: YOLOv4
SSD、YOLO作為單階段檢測器, 具有明顯的速度優(yōu)勢, 都采用多尺度結(jié)構(gòu), 但測試中YOLOv3、YOLOv4檢測性能明顯優(yōu)于SSD。這是由于SSD網(wǎng)絡(luò)層數(shù)較少, 不能對艦船特征信息進行有效提取, 同時訓(xùn)練時會受到負樣本影響, 導(dǎo)致訓(xùn)練時學(xué)習(xí)特征效果不好, 輸入尺寸較小也會影響到艦船特征的表達。相比之下, YOLO系列深層卷積網(wǎng)絡(luò)結(jié)合快捷鏈路能對特征信息有效提取, 背景信息及干擾因素較好區(qū)分出來, 多層次的結(jié)構(gòu)對小物體也能進行有效檢測。YOLOv4作為一個高效而強大的目標(biāo)檢測算法, 其在原有YOLOv3目標(biāo)檢測算法的基礎(chǔ)上采用多種優(yōu)化策略, 進一步提升了該系列的效果和精度, 因而取得不錯的效果, 圖4四個場景中的艦船均能準(zhǔn)確檢測。
Faster RCNN和RetinaNet平均精度較高, 檢測性能較好, 對于圖4b、4d場景的艦船檢測效果較好, 但在圖4a、4c場景測試中小型艦船的檢測效果一般。Faster RCNN由于其骨干提取網(wǎng)絡(luò)提取能力不足, RPN網(wǎng)絡(luò)采用的是多次卷積后形成的特征圖, 像素感受野較大, 對于面積較小的物體檢測效果不好。同時不同大小候選框池化到統(tǒng)一尺寸, 對目標(biāo)特征描述也會存在偏差。RetinaNet作為單階段檢測方法針對類別不均衡問題做出改進, 由于通過層層卷積與融合形成多層金字塔, 不同金字塔層錨框大小從32×32到512×512, 最小錨框?qū)?yīng)原影像32×32大小的窗口, 對于過小目標(biāo)不能進行有效檢測。同時RetinaNet測試中誤檢較少, 說明骨干網(wǎng)絡(luò)ResNet結(jié)合FPN網(wǎng)絡(luò)形成的多尺度卷積特征金字塔對影像特征能夠有效提取, 將復(fù)雜背景干擾因素很好的區(qū)分出來。
作為效果最優(yōu)的YOLOv4在各背景環(huán)境下均能準(zhǔn)確檢測出艦船, 然而對于并排艦船, 也未能取得理想的效果, 如圖5所示。
圖5 YOLOv4并排艦船檢測效果示意圖
注: a—c: 3個包含并排艦船的復(fù)雜背景影像
將5種模型訓(xùn)練結(jié)果對高分二號影像數(shù)據(jù)進行測試, 本文采用的是2020年7月25日高分二號衛(wèi)星拍攝青島沿海某區(qū)域的影像數(shù)據(jù), 空間分辨率為1 m, 影像情況如圖6所示。
圖6 高分二號影像示意圖
影像中包含艦船40只, 取置信度為0.3對艦船數(shù)目進行統(tǒng)計, 并使用品質(zhì)因數(shù)進行定量評價分析:
式中:N為正確檢測的艦船數(shù)目;N為虛警數(shù)目;N為測試集中真實艦船數(shù)目。能同時考慮到檢測率和虛警率, 對應(yīng)值越高表示檢測性能越好。測試結(jié)果如表2所示, 可以看出, YOLOv4品質(zhì)因數(shù)遠高于其他幾種算法, 達到90.48%, YOLOv3、RetinaNet、Faster RCNN品質(zhì)因數(shù)接近保持在80%以上, SSD品質(zhì)因數(shù)較低, 僅有70.45%。
表2 高分2號影像測試結(jié)果
圖7展示了該高分二號影像中各模型實際測試效果, 可以看出, YOLOv4幾種場景中均能準(zhǔn)確檢測到艦船, YOLOv3、RetinaNet、Faster RCNN能檢測到較多艦船, 但Faster RCNN誤檢偏多, SSD準(zhǔn)確檢測到艦船數(shù)較少。
圖7 高分二號影像不同算法檢測效果示意圖
注: a—c: 3個復(fù)雜背景下的影像; A: Faster RCNN; B: SSD; C: RetinaNet; D: YOLOv3; E: YOLOv4
本文構(gòu)建了復(fù)雜背景下不同類型艦船的數(shù)據(jù)集, 在對深度學(xué)習(xí)中的目標(biāo)檢測算法理論總結(jié)與分析基礎(chǔ)上, 分別采用Faster RCNN、SSD、YOLOv3、RetinaNet、YOLOv4五種算法在構(gòu)建數(shù)據(jù)集上進行實驗對比, 得出以下結(jié)論:
1) YOLOv4相比其他算法能達到較高的精度, 在YOLOv3基礎(chǔ)上采用多種優(yōu)化策略進一步提高了該系列精度。同時作為單階段檢測器具有速度優(yōu)勢, 魯棒性較好, 該系列深層卷積網(wǎng)絡(luò)結(jié)合快捷鏈路能對特征信息有效提取, 將背景信息及干擾因素較好區(qū)分出來, 多層次結(jié)構(gòu)能有效檢測小目標(biāo)。SSD效果較差, 淺層卷積網(wǎng)絡(luò)不能有效地提取目標(biāo)特征信息, 在復(fù)雜背景下對艦船不能有效地檢測。
2) 幾種算法都存在不同程度的誤檢, 復(fù)雜背景會對目標(biāo)檢測器效果產(chǎn)生影響, 通過優(yōu)化檢測器對特征信息有效提取可以減少誤檢。同時對于密集排列的艦船, 幾種目標(biāo)檢測算法都不能很好地解決, 效果不佳, 如何對并排艦船進行有效提取是一個重要研究方向。
[1] 王彥情, 馬雷, 田原. 光學(xué)遙感圖像艦船目標(biāo)檢測與識別綜述[J]. 自動化學(xué)報, 2011, 37(9): 1029-1039.
Wang Yanqing, Ma Lei, Tian Yuan. Overview of ship target detection and recognition in optical remote sensing images[J]. Acta Automatica Sinica, 2011, 37(9): 1029-1039.
[2] Eldhuset K. An automatic ship and ship wake detection system for spaceborne SAR images in coastal regions[J]. IEEE Transactions on Geoscience and Remote Sensing, 1996, 34(4): 1010-1019.
[3] Wang Y, Liu H. A hierarchical ship detection scheme for high-resolution SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(10): 4173-4184.
[4] 尹雅, 黃海, 張志祥, 等. 基于光學(xué)遙感圖像的艦船目標(biāo)檢測技術(shù)研究[J]. 計算機科學(xué), 2019, 46(3): 82-87.
Yin Ya, Huang Hai, Zhang Zhixiang, et al. Research on ship target detection technology based on optical remote sensing image[J]. Computer Science, 2019, 46(3): 82-87.
[5] Zhu Changren, Zhou Hui, Wang Runsheng, et al. A novel hierarchical method of ship detection from spaceborne optical image based on shape and texture features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 48(9): 3446-3456.
[6] 彭敬濤. 光學(xué)遙感圖像艦船目標(biāo)檢測技術(shù)的研究[D]. 上海: 東華大學(xué), 2017.
Peng Jingtao. Research on ship target detection technology in optical remote sensing image[D].Shang Hai: Donghua University, 2017.
[7] 王慧利, 朱明, 藺春波, 等. 光學(xué)遙感圖像中復(fù)雜海背景下的艦船檢測[J]. 光學(xué)精密工程, 2018, 26(3): 723-732.
Wang Huili, Zhu Ming, Lin Chunbo, et al. Ship detection in complex sea background in optical remote sensing image[J]. Optics and Precision Engineering, 2018, 26(3): 723-732.
[8] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with regionproposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[9] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//computer vision and pattern recognition, Columbus, 2014: 580-587.
[10] Girshick R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision(ICCV), Santiago Chile, December 7-13, 2015: 1440-1448.
[11] Redmon J, Farhadi A. YOLOv3: an incremental improvement[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2018. https://arxiv.org/ pdf/1804.02767.pdf.
[12] Liu W, Anguelov D, Erhan D, et al. SSD: single shot multiBox detector[C]//European Conference on Computer Vision, Amsterlam, Netherlans, 2016: 21-37.
[13] Lin T, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, Venice, 2017: 2999-3007.
[14] Bochkovskiy A, Wang C, Liao H. YOLOv4: Optimal Speed and Accuracy of Object Detection[C]//Internal-tional Conference on Computer Vision and Pattern Recogintion, 2020. https://arxiv.org/abs/2004. 10934.
[15] Liu Z, Yuan L, Weng L, et al. A high resolution Optical satellite image dataset for Ship recognition and some new baselines[C]//Proceedings of the 6thInternational Conference on Pattern Recognition Applications & Methods-ICPRAM, 324-331, Porto, Portugal, 2017.
[16] 余東行, 郭海濤, 張保明, 等. 級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的遙感影像飛機目標(biāo)檢測[J]. 測繪學(xué)報, 2019, 48(8): 1046-1058.
Yu Dongxing, Guo Haitao, Zhang Baoming, et al. Aircraft target detection in remote sensing image based on cascade convolution neural network[J]. Acta Geodae-tica et Cartographica Sinica, 2019, 48(8): 1046-1058.
[17] 李宸堯, 郭海濤, 馬東洋, 等. 深度學(xué)習(xí)遙感影像油罐檢測算法精度對比分析[J]. 海洋測繪, 2020, 40(2): 53-56.
Li Chenyao, Guo Haitao, Ma Dongyang, et al. Accuracy comparison and analysis of oil tank detection algorithm based on deep learning remote sensing image[J]. Hydrographic Surveyingand Charting, 2020, 40(2): 53-56.
Comparative analysis of ship detection algorithms based on deep learning in optical remote sensing images
Xia Wen-hui, WAN Jian-hua, ZHENG Hong-xia, Xu Ming-ming, Qu Chuan-ping
(China University of Petroleum, Qingdao 266580, China)
Ship target detection is an important means to supervize a marine environment and protect maritime rights and interests. A target detection algorithm based on deep learning can maintain good performance in a complex environment. This study describes the construction of a dataset containing 3, 893 images, covering different types of ships in a complex background. Based on this dataset, the performances of Faster RCNN, SSD, RetinaNet, YOLOv3, and YOLOv4 algorithms are examined. The results show that the mean average precision of YOLOv4, YOLOv3, RetinaNet, and Faster RCNN are above 83%. Furthermore, YOLOv4 reached 91.77%, Faster RCNN produced more false detections, and SSD achieved the lowest mean average precision, only 79.23%, with a low total number of ship detections. The training results of the five models are tested on a GF-2 image, with good detection results obtained; these results have certain guiding significance for the future theoretical research of ship detection.
remote sensing; target detection; ship; deep learning
Nov. 8, 2020
P237
A
1000-3096(2021)05-0096-07
10.11759/hykx20201108009
2020-11-08;
2020-12-02
國家重點研發(fā)計劃項目(2017YFC1405600)
[National Key Research and Development Program Plan, No. 2017YFC1405600]
夏文輝(1996—), 男, 山東青島人, 碩士研究生, 主要從事艦船檢測識別研究, E-mail: 1721760100@qq.com; 萬劍華(1966—),通信作者, 男, 山東單縣人, 教授, 主要從事3S技術(shù)應(yīng)用方面的研究, E-mail: wjh66310@163.com
(本文編輯: 趙衛(wèi)紅)