張 倩, 張友梅, 李曉磊, 宋 然, 張 偉
基于自監(jiān)督表征學(xué)習(xí)的海面目標檢測方法
張 倩1, 張友梅2, 李曉磊1, 宋 然1, 張 偉1
(1. 山東大學(xué) 控制科學(xué)與工程學(xué)院, 山東 濟南, 250061; 2. 齊魯工業(yè)大學(xué)(山東省科學(xué)院) 數(shù)學(xué)與統(tǒng)計學(xué)院, 山東 濟南, 250353)
為提升海上無人裝備對海洋的感知與監(jiān)測能力, 海面目標檢測準確度的提升至關(guān)重要。但受復(fù)雜海況影響和傳感器限制, 采集高質(zhì)量海面目標樣本困難, 導(dǎo)致大規(guī)模海面目標數(shù)據(jù)集缺乏, 使得基于深度學(xué)習(xí)的海面目標檢測發(fā)展緩慢。為此, 文中將自監(jiān)督表征學(xué)習(xí)引入海面目標檢測領(lǐng)域, 利用動量對比自監(jiān)督表征學(xué)習(xí)算法進行船舶特征學(xué)習(xí), 從大規(guī)模無標簽海面目標數(shù)據(jù)中挖掘船舶目標特征, 為后續(xù)進行基于更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的海面目標檢測提供先驗知識。實驗結(jié)果表明, 借助于大規(guī)模無標簽數(shù)據(jù)集, 文中提出的基于自監(jiān)督表征學(xué)習(xí)的海面目標檢測方法能夠取得與有監(jiān)督預(yù)訓(xùn)練方法相當?shù)臋z測效果, 突破了有標注海面目標樣本不足的限制。文中工作可為進一步研究基于深度學(xué)習(xí)的海洋智能感知問題提供參考。
海上無人裝備; 目標檢測; 自監(jiān)督表征學(xué)習(xí); 深度學(xué)習(xí)
作為海域遼闊的海洋大國, 提升海洋科技實力對建設(shè)海洋強國意義重大。借助于無人艇等海上無人裝備對海域進行實時監(jiān)測可以有效加強海域管控, 維護我國海洋安全, 因而如何提高海上無人裝備的智能感知能力便成為海洋科技領(lǐng)域的關(guān)鍵問題之一。在此背景下, 海面目標檢測成為海洋環(huán)境感知領(lǐng)域的熱點研究方向之一。
目標檢測作為計算機視覺領(lǐng)域最具挑戰(zhàn)性的任務(wù)之一, 包括定位和分類2個子任務(wù), 即確定所需檢測圖片中所包含目標的位置并對其進行準確分類。近年來, 隨著深度學(xué)習(xí)理論的快速發(fā)展, 基于深度學(xué)習(xí)的目標檢測算法成為主流, 在通用場景下取得了較好的檢測效果。但深度學(xué)習(xí)模型往往依賴于大規(guī)模數(shù)據(jù)集進行訓(xùn)練, 應(yīng)用較為廣泛的MS COCO(microsoft common objects in cont- ext)[1]、PASCAL(pattern analysis, statical modeling and computational learning)、VOC (visual object classes)[2]等標準數(shù)據(jù)集中海面目標較少, 因而將在這些數(shù)據(jù)集上訓(xùn)練的目標檢測模型直接應(yīng)用于海面目標檢測任務(wù)效果不佳。同時, 由于長期以來海面目標專用數(shù)據(jù)集較少, 且大多沒有模型訓(xùn)練所需的邊界框標注, 基于深度學(xué)習(xí)的海面目標檢測相關(guān)研究相對較少。
由于海洋環(huán)境不同于陸地和天空, 其環(huán)境更加復(fù)雜多變, 浪、涌、渦和流等海面波動均會對海面目標檢測造成影響, 相比于通用場景下的目標檢測任務(wù), 海面目標檢測難度更大, 傳統(tǒng)海面目標檢測方法具有諸多局限性。為在海面目標檢測過程中充分利用深度學(xué)習(xí)模型對視覺信息的感知能力, 并針對現(xiàn)有海面目標檢測數(shù)據(jù)集樣本量較小、難以滿足模型有監(jiān)督預(yù)訓(xùn)練需求的問題, 文中首次將自監(jiān)督表征學(xué)習(xí)引入海面目標檢測領(lǐng)域,提出了一種基于自監(jiān)督表征學(xué)習(xí)的海面目標檢測模型。
基于深度學(xué)習(xí)的目標檢測模型通常分為單階段檢測模型和兩階段檢測模型。前者根據(jù)輸入的圖像特征直接預(yù)測物體的邊界框坐標和類別, 代表算法包括YOLO (you only look once)[3]系列、單階段多框檢測器(signle shot multibox detector, SSD)[4]等, 此類算法由于只進行一次邊界框回歸, 因而檢測速度更快, 但檢測精度有待提升。而兩階段算法將目標檢測分為兩步進行:
1) 由候選區(qū)域生成網(wǎng)絡(luò)(region proposal net- work, RPN)生成一系列候選框, 該過程基于預(yù)設(shè)的錨點完成了第1次邊界框回歸;
2) 對候選框坐標進行調(diào)整, 即進行第2次邊界框回歸, 同時識別框內(nèi)物體, 檢測精度更高。雖然目前RetinaNet[5]等單階段算法在檢測精度方面已取得很大提升, 但基于兩階段式框架的更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster regions with convolutional neural network features, Faster R-CNN)[6]、包含掩膜分支的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(mask regions with convolutional neural network features, Mask R-CNN)[7]等依然是目標檢測領(lǐng)域表現(xiàn)優(yōu)異的主流方法。
海面目標檢測任務(wù)是指定位海洋場景圖片中的目標(主要是船舶), 并對其類別(如輪船、帆船及漁船等)進行細分。傳統(tǒng)的海面目標檢測通常包括海天線檢測、背景建模和背景去除3個步驟, 所得的前景區(qū)域被認為是包含目標的區(qū)域。雖然海天線檢測對提高海面目標檢測效果有所幫助, 但其對惡劣天氣、復(fù)雜海況等適應(yīng)性較差。
近年來, 基于深度學(xué)習(xí)的海面目標檢測研究不斷出現(xiàn)。Shin等[8]將YOLO v2模型分別在通用場景數(shù)據(jù)集和海洋場景數(shù)據(jù)集上訓(xùn)練, 證明利用海洋數(shù)據(jù)進行模型訓(xùn)練是非常有必要的。Moosbauer等[9]發(fā)現(xiàn)使用預(yù)訓(xùn)練的Mask R-CNN參數(shù)對模型進行初始化檢測效果更佳。但基于深度學(xué)習(xí)的海面目標檢測研究尚處于起步階段, 文中針對大規(guī)模海面目標數(shù)據(jù)集缺乏所導(dǎo)致的深度學(xué)習(xí)算法在海面目標檢測領(lǐng)域應(yīng)用受限的問題, 以充分利用無標簽海洋數(shù)據(jù)為出發(fā)點, 將自監(jiān)督表征學(xué)習(xí)引入海面目標檢測領(lǐng)域, 可實現(xiàn)在無需大規(guī)模有標注海面目標數(shù)據(jù)的情況下取得較好的檢測效果。
自監(jiān)督學(xué)習(xí)作為無監(jiān)督學(xué)習(xí)范式的一種, 通常從數(shù)據(jù)本身獲取監(jiān)督信息, 以此作為人工標注的替代, 模型借助于所獲取的監(jiān)督信息來學(xué)習(xí)數(shù)據(jù)的底層結(jié)構(gòu)特征。目前自監(jiān)督學(xué)習(xí)已廣泛應(yīng)用于自然語言處理領(lǐng)域[10-11], 而對于目標檢測[3-6]、目標跟蹤[12-14]等視覺感知任務(wù), 有監(jiān)督訓(xùn)練仍是主流方法。但對缺乏大規(guī)模數(shù)據(jù)標注的海洋感知任務(wù)而言, 模型通過采用自監(jiān)督的方式初步學(xué)習(xí)如何進行更具普適性的特征提取, 然后在有限的標注數(shù)據(jù)上結(jié)合任務(wù)需求對模型進行微調(diào)也不失為一種合適的選擇?,F(xiàn)有的自監(jiān)督學(xué)習(xí)主要包括以自編碼器及其變體[15-17]為代表的生成式方法和以動量對比(momentum contrast, MoCo)[18]、簡易式對比學(xué)習(xí)(simple framework for contrastive learning of visual representation, SimCLR)[19]為代表的對比式方法, 相比于前者, 對比式方法側(cè)重于從原始數(shù)據(jù)中獲取抽象化的語義信息, 因而更適合于視覺感知與理解任務(wù)。
受復(fù)雜海況影響和傳感器限制, 采集大規(guī)模、高質(zhì)量海洋環(huán)境及目標數(shù)據(jù)樣本比較困難, 導(dǎo)致可用于海洋感知研究的開源數(shù)據(jù)集較少, 且樣本量遠不及ImageNet[20]、MS COCO[1]等通用數(shù)據(jù)集。
Gundogdu等[21]于2017年公開了大規(guī)模海上船舶數(shù)據(jù)集(maritime vessels, MARVEL), 該數(shù)據(jù)集圖片均來自Shipspotting網(wǎng)站, 根據(jù)任務(wù)需求可分別下載14萬/40萬圖片用于相關(guān)研究, 其中的樣本如圖1所示。
圖1 MARVEL數(shù)據(jù)集樣本示例
MARVEL數(shù)據(jù)集是目前已知樣本量最大的海洋船舶數(shù)據(jù)集, 但由于缺乏目標檢測所需的邊界框標注, 無法直接將其用于海面目標檢測任務(wù)。文中利用該數(shù)據(jù)集對自監(jiān)督海洋船舶特征學(xué)習(xí)進行研究。
2017年P(guān)rasad等[22]開源的新加坡海上數(shù)據(jù)集(Singpore maritime dataset, SMD), 共包括81段視頻, 其中63段有標記, 共包含10類目標。該數(shù)據(jù)集包含可見光數(shù)據(jù)(visual, VIS)和紅外數(shù)據(jù)(near infrared, NIR)兩部分, 文中使用該數(shù)據(jù)集中的VIS部分(見圖2)進行海面目標檢測研究。
圖2 SMD數(shù)據(jù)集樣本示例
雖然SMD數(shù)據(jù)集樣本量不大, 但63段有標記視頻中的目標均有邊界框標注, 可直接用于海面目標檢測任務(wù)。文中將該數(shù)據(jù)集中的視頻數(shù)據(jù)轉(zhuǎn)換為圖片數(shù)據(jù)(每2幀取1幀), 然后進行基于圖像的海面目標檢測研究。
針對現(xiàn)有海面目標數(shù)據(jù)集樣本量不足的問題, 文中嘗試利用無標注的大規(guī)模海面目標數(shù)據(jù)集, 通過引入自監(jiān)督表征學(xué)習(xí)相關(guān)方法, 挖掘海面目標樣本的底層特征, 為海面目標檢測任務(wù)提供先驗知識, 提高基于深度學(xué)習(xí)的目標檢測模型在海面目標檢測任務(wù)上的表現(xiàn)。換言之, 即將海面目標檢測模型訓(xùn)練分為自監(jiān)督船舶特征學(xué)習(xí)和有監(jiān)督海面目標檢測2個階段進行, 以降低海洋數(shù)據(jù)樣本不足對檢測效果的影響。
海面目標以各類船、艇為主, 其間相似性較高, 在無類別標簽的情況下學(xué)習(xí)樣本特征難度較大, 而對比式學(xué)習(xí)方法能夠更好地挖掘相似樣本間的差異, 從而學(xué)習(xí)到更具樣本區(qū)分度的特征, 更有利于海面目標檢測、分類等下游任務(wù)。因此在自監(jiān)督船舶特征學(xué)習(xí)階段, 文中采用He等[18]提出的MoCo方法在無標注海面目標數(shù)據(jù)上訓(xùn)練特征提取模型(見圖3)。
圖3 MoCo自監(jiān)督表征學(xué)習(xí)方式
MoCo將對比學(xué)習(xí)看作字典查找過程, 并提供了一種構(gòu)建大且連續(xù)的動態(tài)字典的方式, 其核心思想為: 通過將字典作為一個樣本隊列進行維護來保證字典足夠大; 同時通過采用動量更新的方法更新鍵編碼器來避免其變化過快, 以提高隊列中鍵的表征一致性。
所謂動量更新即在訓(xùn)練過程中不通過反向傳播更新鍵編碼器參數(shù), 而是采用如下更新方式
為了驗證基于MoCo的船舶特征學(xué)習(xí)的有效性, 文中將學(xué)得的特征直接用于船舶分類任務(wù), 在MARVEL數(shù)據(jù)集上進行了實驗研究。
在海面目標檢測階段, 采用在通用場景的目標檢測任務(wù)上表現(xiàn)優(yōu)異的Faster R-CNN[6]模型, 如圖4所示, 該模型由用于特征提取的backbone (基礎(chǔ)網(wǎng)絡(luò))、用于生成感興趣區(qū)域(region of interest, ROI)的RPN、生成最終檢測結(jié)果的ROI -Head三部分組成, 其中ROI-Head包括分類和定位2個分支。
圖4 基于Faster R-CNN的海面目標檢測框架
backbone由深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成, 將輸入圖像映射為深層特征圖, 該部分通常在Image- Net[17]數(shù)據(jù)集上進行預(yù)訓(xùn)練, 但由于其中的海洋樣本較少, 直接用于海面目標檢測效果不佳。文中模型中的backbone部分采用第1階段自監(jiān)督船舶特征學(xué)習(xí)訓(xùn)練所得的特征提取網(wǎng)絡(luò)參數(shù)進行初始化, 為目標檢測模型盡可能多地提供海洋環(huán)境及船舶相關(guān)的先驗知識, 然后在訓(xùn)練模型其他部分的同時對backbone進行參數(shù)微調(diào)。
RPN網(wǎng)絡(luò)作用于特征圖之上, 以預(yù)設(shè)的錨點為基準, 輸出預(yù)測框相對于錨點的偏移量, 從而生成一系列候選框。通過整合特征圖與候選框信息, 即可獲取每個感興趣區(qū)域的特征, 文中采用ROI-Align(ROI對齊)方法代替ROI-Pooling(ROI池化)方法來實現(xiàn)該過程。此外, 在模型訓(xùn)練過程中, 對分類任務(wù)和定位任務(wù)分別采用交叉熵損失函數(shù)和Smooth L1損失函數(shù)。
此外, 考慮到SMD數(shù)據(jù)集中各類目標樣本分布嚴重不平衡, 為更好地驗證文中所提出的自監(jiān)督預(yù)訓(xùn)練方法的有效性, 進行了不區(qū)分類別的海面目標檢測, 即將圖片中的所有目標均歸類為“目標”。
為驗證提出的基于自監(jiān)督表征學(xué)習(xí)的海面目標檢測模型(MoCo+Faster R-CNN)的有效性, 文中借助于現(xiàn)有的海洋數(shù)據(jù)集MARVEL和SMD進行了大量實驗。
在自監(jiān)督船舶特征學(xué)習(xí)階段, 模型中的編碼器均采用ResNet-50網(wǎng)絡(luò), 利用MARVEL數(shù)據(jù)集中的圖片數(shù)據(jù)(不使用其對應(yīng)的標簽)進行模型訓(xùn)練。為明確樣本量對自監(jiān)督船舶特征學(xué)習(xí)效果的影響, 分別使用14萬樣本和40萬樣本進行實驗。為量化自監(jiān)督船舶特征學(xué)習(xí)效果, 在MARVEL數(shù)據(jù)集用于分類任務(wù)的14萬樣本上進行了船舶分類實驗, 將學(xué)習(xí)到的特征直接用于船舶分類, 即在固定特征提取網(wǎng)絡(luò)的情況下以有監(jiān)督的方式訓(xùn)練了一個線性分類層。
在海面目標檢測階段, 模型的backbone部分使用上一階段訓(xùn)練的ResNet-50進行模型初始化, 即采用ResNet-50+Faster R-CNN框架。在SMD數(shù)據(jù)集上進行目標檢測模型的訓(xùn)練與測試, 采用和Moosbauer等[9]相同的數(shù)據(jù)集劃分, 將數(shù)據(jù)集train和val部分視為訓(xùn)練集, 而后在test數(shù)據(jù)集上進行模型測試。在測試階段選擇平均準確率(average precision, AP)、平均召回率(average recall, AR)和f-分數(shù)(f-score)作為評分標準, 分別在交并比(intersection over union, IOU)閾值為0.3和0.5的條件下進行測試。
文中所有實驗均在Ubuntu 16.04.10系統(tǒng)中進行, 其中船舶特征學(xué)習(xí)和海面目標檢測部分均使用8塊Nvidia Tesla V100顯卡, 16個CPU; 船舶分類實驗部分使用4塊Nvidia GTX 1080Ti顯卡, 8個CPU。雖然在模型訓(xùn)練階段所需的計算資源較多, 但在模型測試階段, 在單塊Nvidia GTX 1080Ti 顯卡上僅需約10 ms即可完成單張圖片船舶分類, 200 ms內(nèi)可完成單張圖片海面目標檢測, 所需計算資源較少且耗時較短。
文中采用MoCo自監(jiān)督學(xué)習(xí)算法在MARVEL數(shù)據(jù)集上進行船舶特征學(xué)習(xí), 并在此基礎(chǔ)上訓(xùn)練線性分類器完成了對26類船舶的分類任務(wù)。表1為MARVEL數(shù)據(jù)集上船舶分類準確率(acc), 可以看出:
1) Res50_MoCo_14代表利用MARVEL數(shù)據(jù)集中14萬樣本進行自監(jiān)督特征學(xué)習(xí), 并將學(xué)到的特征用于船舶分類;
2) Res50_MoCo_40代表利用MARVEL數(shù)據(jù)集中40萬樣本進行自監(jiān)督特征學(xué)習(xí), 并將學(xué)到的特征用于船舶分類;
3) Res50_Sup代表利用MARVEL數(shù)據(jù)集中14萬樣本以有監(jiān)督的方式訓(xùn)練船舶分類模型。
實驗過程中自監(jiān)督船舶特征學(xué)習(xí)和有監(jiān)督船舶分類模型均訓(xùn)練50個epoch, 前者額外訓(xùn)練一個線性分類層。
表1中第2列數(shù)據(jù)表明, 利用自監(jiān)督特征學(xué)習(xí)學(xué)到的特征進行船舶分類, 可以達到60%左右的分類準確率, 雖然相比于有監(jiān)督船舶分類還有一定差距, 但足以說明借助于基于MoCo的自監(jiān)督學(xué)習(xí)算法可以實現(xiàn)對船舶目標的有效表征。表2是采用Res50_MoCo_40時MARVEL數(shù)據(jù)集船舶分類具體實驗結(jié)果。
表1 MARVEL數(shù)據(jù)集船舶分類結(jié)果
表2 MARVEL數(shù)據(jù)集船舶分類準確率
由表1數(shù)據(jù)可以看出, 在模型訓(xùn)練階段, 相比于有監(jiān)督方法, 在基于MoCo的船舶特征學(xué)習(xí)基礎(chǔ)上進行船舶分類需要更長的訓(xùn)練時間, 但遠低于人工標注大規(guī)模數(shù)據(jù)集所需的時間消耗; 而在測試階段, 由于二者采用相同的模型結(jié)構(gòu), 因而時間消耗基本一致, 因此在無標簽大規(guī)模數(shù)據(jù)集上進行船舶特征學(xué)習(xí)來服務(wù)于船舶分類、海面目標檢測等下游任務(wù)是可行的。
文中利用Faster R-CNN框架, 在SMD數(shù)據(jù)集上進行了不區(qū)分類別的目標檢測, backbone均采用ResNet-50, 但對其采取不同的預(yù)訓(xùn)練方式。
1) Res50_Sup_14_FRCNN: 利用MARVEL數(shù)據(jù)集中14萬樣本及其標簽對ResNet-50進行有監(jiān)督預(yù)訓(xùn)練。
2) Res50_MoCo_14_FRCNN: 采用MoCo特征學(xué)習(xí)方法, 利用MARVEL數(shù)據(jù)集中14萬樣本對ResNet-50進行自監(jiān)督預(yù)訓(xùn)練。
3) Res50_MoCo_40_FRCNN: 采用MoCo特征學(xué)習(xí)方法, 利用MARVEL數(shù)據(jù)集中40萬樣本對ResNet-50進行自監(jiān)督預(yù)訓(xùn)練。
表3和表4分別為IOU閾值設(shè)置為0.3和0.5時的實驗結(jié)果, 其中Res101_MRCNN和Res101_ FRCNN為Moosbauer等[9]采用有監(jiān)督backbone預(yù)訓(xùn)練方法進行海面目標檢測的實驗結(jié)果, DCT (discrete cosine transform)-based GMM(Gaussian mixture model)為Zhang等[23]采用傳統(tǒng)的海天線檢測-背景建模-背景去除方法的實驗結(jié)果。
表3和表4中的Res50_Sup_14_FRCNN和Res50_MoCo_14_FRCNN兩行數(shù)據(jù)可以說明, 無論IOU閾值的取值如何, MoCo+Faster R-CNN方法在海面目標檢測任務(wù)中的表現(xiàn)更好。具體來說, 在訓(xùn)練參數(shù)基本一致的情況下, 相比于有監(jiān)督backbone預(yù)訓(xùn)練的方法, 文中將自監(jiān)督表征學(xué)習(xí)用于backbone網(wǎng)絡(luò)預(yù)訓(xùn)練, 在代表檢測準確率的AP評分和代表檢測整體效果的f-score評分上均超過了Res50_Sup_14_FRCNN。
表3 SMD數(shù)據(jù)集目標檢測結(jié)果(IOU_thrs = 0.3)
表4 SMD數(shù)據(jù)集目標檢測結(jié)果(IOU_thrs = 0.5)
表3和表4中的Res50_MoCo_14_FRCNN與Res50_MoCo_40_FRCNN兩行數(shù)據(jù)表明, 隨著用于自監(jiān)督船舶特征學(xué)習(xí)樣本量的增加, 海面目標檢測效果全面提升, 尤其是在IOU閾值設(shè)為0.3時, 檢測效果超過了使用有監(jiān)督預(yù)訓(xùn)練ResNet- 101網(wǎng)絡(luò)作為backbone并引入特征金字塔(fe- ature pyramid network, FPN)[24]的Res101_ FRCNN方法(f-score分別為0.865和0.854)。由此可以說明, 當無標簽海洋數(shù)據(jù)樣本的樣本量足夠大時, MoCo+Faster R-CNN海面目標檢測方法可以取得與采用有監(jiān)督backbone預(yù)訓(xùn)練的方法相當或更好的檢測效果。
此外, 表4的實驗數(shù)據(jù)表明MoCo+FRCNN海面目標檢測方法的檢測效果優(yōu)于傳統(tǒng)的DCT- based GMM[20]方法, 也進一步證明了開展基于深度學(xué)習(xí)的海面目標檢測研究的必要性。
文中將自監(jiān)督表征學(xué)習(xí)引入海面目標檢測領(lǐng)域, 采用MoCo方法在大規(guī)模無標簽海洋數(shù)據(jù)上進行海面目標特征學(xué)習(xí), 而后將學(xué)習(xí)到的特征用于海面目標檢測任務(wù)。實驗結(jié)果表明, 該方法可以取得較好的海面目標檢測效果, 突破了大規(guī)模有標注海面目標數(shù)據(jù)集缺乏對開展基于深度學(xué)習(xí)的海洋智能感知研究的限制。但由于目前可用的海面目標檢測數(shù)據(jù)集樣本極度不平衡, 文中研究未能實現(xiàn)對海面目標的多分類, 如何克服樣本不平衡問題, 實現(xiàn)多分類海面目標檢測將是下一步的工作重點。
[1] Lin T Y, Maire M, Belongie S, et al. Microsoft Coco: Common Objects in Context[C]//European Conference on Computer Vision. Zurich: ETH, 2014: 740-755.
[2] Everingham M, Van G L, Williams C K I, et al. The Pascal Visual Object Classes(VOC) Challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[3] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-time Object Detection[C]//Procee- dings of The IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.
[4] Liu W, Anguelov D, Erhan D, et al. Ssd: Single Shot Multibox Detector[C]//European Conference on Computer Vision. Amsterdam: Springer, Cham, 2016: 21-37.
[5] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of The IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980-2988.
[6] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Net- works[C]//Advances in Neural Information Processing Sy- stems. Montreal. Montreal: NIPS, 2015: 91-99.
[7] He K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//Proc- eedings of The IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2961-2969.
[8] Shin H C, Lee K I, Lee C E. Data Augmentation Method of Object Detection for Deep Learning in Maritime Image[C]//2020 IEEE International Conference on Big Data and Smart Computing(BigComp). Busan: IEEE, 2020: 463-466.
[9] Moosbauer S, Konig D, Jakel J, et al. A Benchmark for Deep Learning Based Object Detection in Maritime En- vironments[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Long Beach: IEEE, 2019: 916-925.
[10] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of Deep Bidirectional Transformers for Language Under- standing[EB/OL]. ArXiv, (2019-05-25)[2020-09-07]. https: //arxiv.org/abs/1810.04805?context=cs.
[11] Wu J, Wang X, Wang W Y. Self-supervised Dialogue Le- arning[EB/OL]. ArXiv, (2019-06-30)[2020-09-07]. https: //arxiv.org/abs/1907.00448.
[12] Song K, Zhang W, Lu W, et al. Visual Object Tracking Via Guessing and Matching[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(11): 4182- 4191.
[13] Li P, Chen B, Ouyang W, et al. Gradnet: Gradient-guided Network for Visual Object Tracking[C]//Proceedings of the IEEE International Conference on Computer Vision. Seoul: IEEE, 2019: 6162-6171.
[14] Lan X, Zhang W, Zhang S, et al. Robust Multi-modality Anchor Graph-based Label Prediction for RGB-infrared Tracking[J]. IEEE Transactions on Industrial Informatics, 2019. DOI: 10.1109/TII.2019.2947293.
[15] Kingma D P, Welling M. Auto-encoding Variational Ba- yes[EB/OL]. ArXiv, (2014-05-01)[2020-09-07]. https:// arxiv.org/abs/1312.6114.
[16] Burda Y, Grosse R, Salakhutdinov R. Importance Weigh- ted Autoencoders[EB/OL]. ArXiv, (2015-11-07)[2020-09- 07].https://www.arxiv-vanity.com/papers/1509.00519/.
[17] Maal?e L, Fraccaro M, Liévin V, et al. Biva: A Very Deep Hierarchy of Latent Variables for Generative Modeling [C]//Advances in Neural Information Processing Systems. Vancouver: NIPS, 2019: 6551-6562.
[18] He K, Fan H, Wu Y, et al. Momentum Contrast for UnsuperVised Visual Representation Learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual: IEEE, 2020: 9729-9738.
[19] Chen T, Kornblith S, Norouzi M, et al. A Simple Fra- mework for Contrastive Learning of Visual Representations[EB/OL]. ArXiv, (2020-07-01)[2020-09-07]. https:// arxiv.org/abs/2002.05709
[20] Deng J, Dong W, Socher R, et al. Imagenet: A Large-scale Hierarchical Image Database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248-255.
[21] Gundogdu E, Solmaz B, Yücesoy V, et al. MARVEL: A Large-scale Image Dataset for Maritime Vessels[C]//Asian Conference on Computer Vision. Taipei: AFCV, 2016: 165-180.
[22] Prasad D K, Rajan D, Rachmawati L, et al. Video Processing from Electro-optical Sensors for Object Detection and Tracking in a Maritime Environment: a Survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(8): 1993-2016.
[23] Zhang Y, Li Q Z, Zang F N. Ship Detection for Visual Maritime Surveillance from Non-stationary Platforms[J]. Ocean Engineering, 2017, 141: 53-63.
[24] Lin T Y, Dollár P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]//Proceedings of The IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2117-2125.
Maritime Object Detection Method Based on Self-Supervised Representation Learning
ZHANG Qian1, ZHANG You-mei2, LI Xiao-lei1, SONG Ran1, ZHANG Wei1
(1. School of Control Science and Engineering, Shandong University, Jinan 250061, China; 2. School of Mathematics and Statistics, Qilu University of Technology (Shandong Academy of Sciences), Jinan 250353, China)
To improve the perception and monitoring ability of marine unmanned equipment, boosting the performance of maritime object detection is critical. However, complex sea environments and limited sensors make it difficult to collect high-quality samples for a large-scale maritime dataset. This results in a dearth of large-scale sea surface target datasets, which in turn hampers the development of maritime object detection based on deep earning. To address this problem, this study introduces self-supervised representation learning into the field of maritime object detection. Specifically, a momentum-contrast based algorithm is proposed to conduct representation learning of ships, where the characteristics of ship targets are learned from large-scale unlabeled maritime data. This provides prior knowledge for subsequent maritime object detection based on Faster R-CNN. Experimental results show that with the aid of model pre-training on a large-scale unlabeled dataset in a self-supervised manner, the proposed maritime object detection method through self-supervised representation learning has a performance comparable with those that employ supervised model pre-training. The proposed method can thus overcome the limitations caused by an inadequate number of labeled maritime samples.
marine unmanned equipment; target detection; self-supervised representation learning; deep learning
張倩, 張友梅, 李曉磊, 等. 基于自監(jiān)督表征學(xué)習(xí)的海面目標檢測方法[J]. 水下無人系統(tǒng)學(xué)報, 2020, 28(6): 597-603.
TJ630; TP391.4; TP181
A
2096-3920(2020)06-0597-07
10.11993/j.issn.2096-3920.2020.06.002
2020-09-07;
2020-11-12.
國家自然科學(xué)基金項目(61991411).
張 倩(1997-), 女, 在讀碩士, 主要研究方向為模式識別、計算機視覺.
(責(zé)任編輯: 楊力軍)