葉晨,逯天洋,肖潏灝,陸海,楊群慧
1.同濟大學(xué)電子與信息工程學(xué)院,上海 201804;2.同濟大學(xué)嵌入式系統(tǒng)與服務(wù)計算教育部重點實驗室,上海 201804;3.同濟大學(xué)國家海底科學(xué)觀測系統(tǒng)項目辦公室,上海 200092;4.同濟大學(xué)海洋地質(zhì)國家重點實驗室,上海 200092
人類進行海洋活動離不開艦船作為載體和工具,在特定環(huán)境中對艦船目標進行自動化檢測是港口流量統(tǒng)計、碰撞回避等領(lǐng)域的關(guān)鍵技術(shù)。隨著海洋探測技術(shù)的發(fā)展,人類對海洋的開發(fā)利用已經(jīng)從海面走向海底,特別是在21世紀初,海底長期觀測組網(wǎng)技術(shù)出現(xiàn)。海底觀測網(wǎng)可將一系列的海洋觀測儀器布放到海底,通過海底光電纜與陸基信息處理設(shè)備互聯(lián)而成為開放式的海洋綜合觀測系統(tǒng),具備水下大功率遠程供能、大規(guī)模數(shù)據(jù)采集和信息傳輸能力,可實現(xiàn)對海底地殼深部、海底界面到海水水體及海面的大范圍、全天候、綜合性、長期、連續(xù)和實時的高分辨率和高精度的觀測。海底觀測網(wǎng)是繼地面與海面觀測、空中遙測遙感之后,人類建立的第3種地球科學(xué)觀測平臺,將成為未來海洋探測與研究的主要方式。然而,大量儀器設(shè)備布放到海底面臨的首要問題是人類漁業(yè)活動對海底設(shè)施的破壞,尤其是在我國漁業(yè)活動頻繁的東海海域。據(jù)報道,我國國際海光纜故障的90%均是受到人類漁業(yè)活動破壞的影響(葉銀燦 等,2015)。海底光電纜、海底設(shè)備等一旦受損或斷裂,會造成系統(tǒng)整個工程電力、通信中斷,且維修周期長、維修難度大,會帶來巨大的損失。為避免艦船在海底設(shè)施附近進行拋錨、捕撈等活動,目前主要采取對海面艦船目標進行艦載自動識別系統(tǒng)(automatic identification system,AIS)位置監(jiān)控,但是這種監(jiān)控對那些刻意關(guān)閉AIS進行走私和偷捕的船舶無法起到監(jiān)控作用,并且難以對發(fā)生破壞活動的艦船進行取證和執(zhí)法。因此,在海底設(shè)施附近布設(shè)安裝視頻傳感攝像頭的浮標,并對視頻圖像開展及時的艦船目標識別,成為監(jiān)控周邊船舶、保護海底工程設(shè)施的一項非常有效的手段。
隨著我國海洋強國建設(shè)的推進,智慧航運和智慧海洋工程迅速發(fā)展,對通過海事監(jiān)控視頻開展有效的艦船目標檢測識別以確保航運和海洋工程安全的需求日益緊迫。本文針對基于海事監(jiān)控視頻的艦船目標檢測,回顧了檢測方法的國內(nèi)外研究現(xiàn)狀,闡明了艦船目標檢測任務(wù)中的技術(shù)難點,通過實驗證明了針對性的預(yù)處理和數(shù)據(jù)增廣的必要性,從適應(yīng)目標尺度的多樣性和提高模型的性能并降低模型對設(shè)備運算量的要求等方面展開調(diào)研,并對相應(yīng)模型進行了實驗評估,為促進艦船目標檢測技術(shù)的應(yīng)用提供了思路。
數(shù)據(jù)集在目標檢測等計算機視覺研究中扮演著重要角色,用于模型訓(xùn)練、過程評估和性能評價等環(huán)節(jié)。在基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法中,質(zhì)量高或者相關(guān)性高的數(shù)據(jù)集是訓(xùn)練高性能模型的先決條件。當(dāng)前,海面艦船目標圖像主要有兩種,一是基于機載、星載傳感器獲取的遙感圖像;二是基于陸基、船基和浮標安裝的傳感器獲取的監(jiān)控圖像。遙感圖像通常采用雷達和紅外線傳感器采集,其中合成孔徑雷達(synthetic aperture radar,SAR)在各種遙感系統(tǒng)中廣泛使用。監(jiān)控圖像多來源于可見光(visible spectrum,VI或VIS)或紅外線傳感器。紅外線傳感器又分為紅外線傳感器(infrared,IR)和近紅外傳感器(near-infrared,NI)。圖1為陸基可見光傳感器、船基近紅外傳感器、浮筒可見光傳感器和星載SAR傳感器采集的圖像,分別來自SeaShips數(shù)據(jù)集(Shao等,2018)、新加坡海事數(shù)據(jù)集(Singapore-marine-dataset,SMD)(Prasad等,2017)、Buoy數(shù)據(jù)集(Fefilatyev 等,2006;Kristan 等,2014;Patino 等,2016;Ribeiro 等,2019)和Sentinel-1數(shù)據(jù)集(Kang 等,2017)。
圖1 不同數(shù)據(jù)集中的海面艦船圖像Fig.1 Maritime images of different datasets((a)SeaShips;(b)SMD;(c)Buoy;(d)Sentinel-1)
海事目標檢測、分類與跟蹤數(shù)據(jù)集(maritime detection,classification and tracking data set,MarDCT)(Bloisi 等,2015)是2017年前艦船目標檢測領(lǐng)域的少數(shù)海事監(jiān)控視頻數(shù)據(jù)集之一,該數(shù)據(jù)集在包含目標檢測和目標跟蹤標注的MarDT數(shù)據(jù)集的基礎(chǔ)上補充了船只分類標簽,含有在威尼斯采集的可見光與遠紅外視頻,包括固定攝像頭和云臺全方位變焦鏡頭(pan/tilt/zoom cameras,PTZ Cameras)兩種視角的數(shù)據(jù)。MarDCT數(shù)據(jù)集在艦船目標檢測任務(wù)的研究初期起到了關(guān)鍵作用,其局限性在于缺少船只重疊、海岸線和陸地相互交叉的樣例。
為了提升對艦船目標檢測方法的性能評估,Prasad等人(2017)公開了SMD數(shù)據(jù)集。Moosbauer等人(2019)分析了SMD數(shù)據(jù)集的數(shù)據(jù)分布情況,并提出了一套較完善的訓(xùn)練集、驗證集與測試集劃分方法。SeaShips數(shù)據(jù)集(Shao等,2018)由珠海橫琴的海岸陸基攝像頭采集,包含6種船只類別的圖像數(shù)據(jù),在尺度、視角、光照、背景動態(tài)和目標相互遮擋等方面進行了分析和針對性的優(yōu)化。近年來,由應(yīng)用威脅檢測與啟發(fā)式對策技術(shù)的智能海盜回避項目(intelligent piracy avoidance using threat detection and countermeasure heuristics,IPATCH)收集的IPATCH(Patino等,2016)等數(shù)據(jù)集也應(yīng)用于面向海面目標的目標檢測、目標跟蹤和行為分析等領(lǐng)域的研究。
基于海面浮動攝像頭的公開數(shù)據(jù)集有Buoy(Fefilatyev等,2006;Kristan等,2014;Patino等,2016;Ribeiro等,2019)、多模海洋環(huán)境障礙物檢測數(shù)據(jù)集(multi-modal marine obstacle detection dataset,MODD)(Kristan等,2014,2016)和MODD2(Bovcon等,2018)等。其中,Buoy由固定在浮筒上的低成本可見光攝像頭采集,在圖像穩(wěn)定性、圖像質(zhì)量等方面對算法提出了挑戰(zhàn);MODD與MODD2由固定在無人艇(unmanned surface vehicle,USV)上的攝像頭采集,標注分為大型障礙和小型障礙兩類,可用于檢測效果的定性分析,也可對其進行進一步的分類標注作為其他數(shù)據(jù)集的補充。此外,SMD等數(shù)據(jù)集也有部分艦載攝像頭數(shù)據(jù)可供定量的模型評估使用。表1匯總了艦船檢測領(lǐng)域中部分公開數(shù)據(jù)集。
表1 艦船目標檢測領(lǐng)域部分公開數(shù)據(jù)集Table 1 Public datasets for ship target detection
目前,針對艦船目標檢測任務(wù)收集的數(shù)據(jù)集能夠基本滿足常用目標檢測方法的數(shù)據(jù)需求。然而,這一領(lǐng)域的部分數(shù)據(jù)集仍然存在一些不足。安那波利斯海事監(jiān)控(Annapolis)數(shù)據(jù)集(Morris等,2012;Bousetouane和Morris,2016)僅標注了前景中的艦船,但其背景中包含了許多船只,其中不乏與前景艦船十分相似的船只,且相應(yīng)模型將較多的屬于背景的船只檢測了出來(Bousetouane和Morris,2016)。MODD和MODD2數(shù)據(jù)集用于船只避障時,其目標僅分為小型障礙和大型障礙兩類,如果將其用于目標檢測任務(wù),可能需要重新進行類別標注。
SMD數(shù)據(jù)集在艦船目標相互遮擋時存在標注上的不一致,在某些視頻中只標注了遮擋艦船的可見部分,而另外一些視頻中標注了預(yù)測的全部船體,也沒有考慮在出現(xiàn)目標遮擋時將可見區(qū)域與估計的全部區(qū)域一同標注出來(Moosbauer等,2019);同時,一部分包圍框也沒有緊貼船體的輪廓線,導(dǎo)致模型的性能受到影響。SeaShips數(shù)據(jù)集雖然在艦船目標的尺度多樣性上有所考慮,但是其中按照微軟富環(huán)境常見目標(Microsoft common objects in context,MS COCO)數(shù)據(jù)集標準統(tǒng)計出的小尺度目標標注僅約占全部標注的0.13%。
本文實驗主要采用SMD和SeaShips數(shù)據(jù)集??紤]到SMD數(shù)據(jù)集標注上的不一致性和SeaShips數(shù)據(jù)集小尺度目標偏少的問題,本文使用SMD數(shù)據(jù)集對比各個模型在多尺度目標檢測任務(wù)中的性能,而使用SeaShips數(shù)據(jù)集對比模型的檢測精度和效率。
在目標檢測領(lǐng)域,對檢測結(jié)果精確性的評價指標分為包圍框和數(shù)據(jù)集兩個層面。
在包圍框?qū)用?,衡量檢測精確度最常用的指標為交并比(intersection over union,IoU),即結(jié)果包圍框D與標注包圍框G兩者的交集區(qū)域的面積與并集區(qū)域面積的比值,具體為
(1)
若為交并比設(shè)置一個閾值,高于此閾值的檢測結(jié)果視為真陽性(true-positive,TP),其集合記為TP;低于閾值的檢測結(jié)果視為假陽性(false-positive,F(xiàn)P),其集合記為FP;綜合標注包圍框數(shù)據(jù)計算出假陰性(false-negative,F(xiàn)N)結(jié)果,記其集合為FN,即可計算出模型的精確率P、召回率R以及F-score(用Fβ表示,其中β為權(quán)重參數(shù)),具體為
(2)
(3)
(4)
在數(shù)據(jù)集層面,衡量目標檢測模型精確度的常用指標是類別平均精確率mAP(mean average precision)。mAP在2007年模式分析、統(tǒng)計建模與計算學(xué)習(xí)視覺目標分類競賽(pattern analysis,statistical modeling and computational learning,visual object classes,PASCAL VOC)中提出,該方法按照置信度降序排列檢測結(jié)果,依次遍歷每個檢測結(jié)果,統(tǒng)計精確率和召回率,并基于固定的11個召回率采樣點對模型的精確率進行采樣(VOC 2007)(Everingham等,2010)或使用所有的精確率和召回率計算值(VOC 2010)(Everingham等,2015),繪制精確率—召回率曲線,計算該曲線與精確率和召回率兩條坐標軸圍成的面積,即平均精確率(average precision,AP)。mAP是不同目標類別的AP值的平均值。AP與mAP避免了不同模型中置信度的不等價性對評估產(chǎn)生的影響,可用于目標檢測領(lǐng)域絕大多數(shù)模型。
Prasad等人(2020)從艦船目標檢測領(lǐng)域的避撞等實際應(yīng)用需求出發(fā),認為在縱向位置和橫向跨度上,可以容忍低估船只的距離(即包圍框底邊偏低)、高估船只的橫向跨度(即可能將船航行產(chǎn)生的航跡也認為是船的一部分),即為檢測結(jié)果不同方向上的誤差賦予了一種權(quán)重,構(gòu)造了底邊與邊緣相似度(bottom edge proximity,BEP)評價指標。若設(shè)檢測結(jié)果包圍框與標注包圍框的高度分別為yDO與yGT,在水平方向上的重疊長度與左右兩端非重疊長度為xb和xa、xc,底邊的縱坐標差的絕對值為ΔyBE,定義BEP1=X1Y1,BEP2=X2Y2。其中
(5)
(6)
BEP1較BEP2更為嚴格(Prasad等,2020)。
基于視頻的目標檢測任務(wù)與基于圖像的目標檢測任務(wù)的最大區(qū)別在于視頻中的幀與幀之間在時域上的關(guān)聯(lián)性要比單幅圖像豐富。針對視頻的性能評價,如何從視頻片段中抽樣出參與評價指標計算的幀是一個重要問題,不同的抽樣方法將導(dǎo)致不同的性能偏好。Stiefelhagen等人(2007)在第一屆國際事件、活動和關(guān)系分類評價標準工作坊(first international evaluation workshop on classification of events,activities and relationships,CLEAR 2006)中提出多幀圖像多目標檢測精確率(n-multiple object detection precision,N-MODP)與多幀圖像多目標檢測正確率(n-multiple object detection accuracy,N-MODA)兩個指標。其中,多目標檢測精確率MODP是單幀圖像中每個檢測結(jié)果框IoU的平均值,N-MODP是一段序列中全部圖像的MODP的均值,即
(7)
(8)
N-MODA與N-MODP體現(xiàn)了模型在實際運行時的精確率和正確率,但與mAP相比,它依賴于算法中置信度閾值的選擇。
另外,基于實時視頻的目標檢測結(jié)果常用于距離估計和運動估計,因此視頻目標檢測在時域上的穩(wěn)定性也影響到?jīng)Q策和規(guī)劃的穩(wěn)定性。Zhang和Wang(2017)關(guān)注到視頻目標檢測任務(wù)中的相應(yīng)需求,提出了一種由分段誤差(在同一個目標出現(xiàn)的全程中,目標由檢出到漏檢,或重新檢出的狀態(tài)變化的次數(shù)與全程總幀數(shù)的比值)、中心點偏移和尺度與長寬比例誤差組合而成的對視頻目標檢測結(jié)果穩(wěn)定性的度量。總誤差計算為
Φ=EF+EC+ER
(9)
式中,EF、EC和ER分別表示分段誤差、中心點偏移損失和尺度與長寬比例誤差。
分段誤差EF計算為
(10)
式中,N為一段視頻中目標的總數(shù),k為目標的序號,sk與tk分別為編號為k的目標狀態(tài)改變的次數(shù)與其出現(xiàn)全程的總幀數(shù)。
(11)
尺度與長寬比例誤差ER計算為
(12)
計算機視覺領(lǐng)域的目標檢測方法主要分為傳統(tǒng)的目標檢測算法和基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的深度學(xué)習(xí)方法兩類。深度學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動的方法,為了發(fā)揮CNN的潛力,需要高質(zhì)量的數(shù)據(jù)集和運算量足夠的計算設(shè)備。由于深度學(xué)習(xí)方法相對于傳統(tǒng)方法無需進行人為的特征工程設(shè)計,且模型表現(xiàn)能力更強,近年來,在諸多領(lǐng)域中的性能表現(xiàn)都超過了傳統(tǒng)模型。但是,目前艦船目標檢測領(lǐng)域多使用傳統(tǒng)方法,深度學(xué)習(xí)的方法和模型尚處于初步適配的階段。
基于傳統(tǒng)機器學(xué)習(xí)和計算機視覺的艦船目標檢測方法大多采用地平線檢測—背景減除—前景分割的通用技術(shù)框架。其中,地平線檢測方法分為基于直線特征的檢測方法(Fefilatyev,2012;Fefilatyev 等,2012)、基于區(qū)域建模的方法(Chen等,2018b)以及上述兩種方法的混合方法(Prasad等,2016a)。背景減除的方法可分為3類:1)基于單幅圖像的統(tǒng)計信息判斷每個像素是否屬于前景的方法(Fefilatyev,2012;Fefilatyev等,2012;Wang 等,2017);2)基于高斯混合模型(Gaussian mixture model,GMM)等概率模型計算像素屬于前景和背景的概率的方法(Chen等,2018b);3)提取每個像素或小區(qū)域的圖像特征,計算它屬于前景或背景概率的方法(Zhang等,2017)。前景分割采用基于背景減除的結(jié)果利用形狀學(xué)方法生成檢測結(jié)果(Westall等,2008;Zhang等,2017)。
為了提高含有較多海浪等動態(tài)元素的背景建模效果,Chen等人(2018b)提出了一種使用自適應(yīng)調(diào)整的GMM進行艦船檢測的方法,在一個刻畫圖像背景的GMM中維護固定數(shù)量的子高斯分布,在檢測過程中對各個子高斯分布的參數(shù)和權(quán)重進行調(diào)整,若發(fā)現(xiàn)有不能符合上述GMM中任意一個子高斯分布的像素點,則構(gòu)造一個新的分布替換掉所有子高斯分布中權(quán)重最低的分布。
本文使用支持向量機(support vector machine,SVM)方法,基于方向梯度直方圖(histogram of oriented gradients,HOG)特征,并且結(jié)合多尺度交叉模態(tài)線性特征(multi-scale cross modal linear feature,MSCM-LiFe)地平線檢測算法(Prasad等,2016b)對檢測結(jié)果進行過濾,考慮到SeaShips數(shù)據(jù)集中沒有海天分界線,在SMD數(shù)據(jù)集中對上述方法進行了實驗測試。將與任一標注框相交面積超過自身面積30%的檢測結(jié)果作為真陽性,反之作為假陽性,并將與任一檢測結(jié)果框相交面積均小于自身面積30%的標注框作為假陰性,計算得到的準確率為74.1%,召回率為44.7%。
Girshick等人(2014)第一次實現(xiàn)了基于CNN的目標檢測,所提出的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(region convolutional neural network,R-CNN)采用選擇搜索的方法進行候選區(qū)域提議,再對這些候選區(qū)域逐個使用CNN進行分類,計算出屬于各個類別的置信度。此后,目標檢測領(lǐng)域中基于CNN的方法迅速發(fā)展,許多學(xué)者將其應(yīng)用到艦船目標檢測領(lǐng)域,評估了各類網(wǎng)絡(luò)模型在艦船目標檢測任務(wù)中的性能表現(xiàn),分析了它們在艦船目標檢測任務(wù)中的優(yōu)勢和缺點,并初步做出了一些針對性的改進。
Bousetouane和Morris(2015)將CNN用于艦船細粒度分類任務(wù),使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,再使用SVM對CNN提取的特征進行分類,在Annapolis數(shù)據(jù)集上對AlexNet、OverFeat、GoogLeNet和牛津大學(xué)視覺幾何小組(Visual Geometry Group,VGG)所提出的VGG等基礎(chǔ)網(wǎng)絡(luò)進行評估,OverFeat網(wǎng)絡(luò)的mAP成績最好,為70.21%。
Bousetouane和Morris(2016)基于Fast R-CNN的目標檢測網(wǎng)絡(luò)架構(gòu),對比了通過滑動窗口、選擇搜索、候選區(qū)域提議網(wǎng)絡(luò)(region-proposal network,RPN)以及使用HOG等傳統(tǒng)計算機視覺特征進行預(yù)檢測獲得候選區(qū)域的方法,分析結(jié)果認為,R-CNN與Fast R-CNN的候選區(qū)域提議方法并不完全適合于在寬幅圖像中檢測尺度較小的艦船目標,主要原因是選擇性搜索算法作為一種自底向上的區(qū)域提議算法,它的結(jié)果數(shù)量會隨著圖像尺度的變大呈指數(shù)級增長,在目標數(shù)量多且重疊嚴重的情況下表現(xiàn)不佳。
Cruz和Bernardino(2016)評估了滑動窗口和基于圖像顯著性進行候選區(qū)域提議再使用CNN對候選區(qū)域進行分類的目標檢測方法,證明了將滑動窗口替換為其他區(qū)域提議算法在減少運算量上的有效性。
Cane和Ferryman(2018)受到基于圖像語義分割的目標檢測模型的啟發(fā),解決了基于錨框的CNN目標檢測方法的過擬合和實時性等問題。作者基于全景分割數(shù)據(jù)集ADE20k(Adela 20000)中包含海事目標的圖像子集構(gòu)建了訓(xùn)練集,并使用MODD、SMD、IPATCH和海鷗數(shù)據(jù)集(SEAGULL)中的一部分視頻片段作為測試集,分別在接受所有非背景檢測結(jié)果和只接受感興趣類別的檢測結(jié)果的設(shè)置下,使用SegNet獲得了-1.520和0.207的N-MODA以及0.240和0.080的N-MODP;使用高效率空間金字塔網(wǎng)絡(luò)(efficient spatial pyramid net,ESPNet)獲得了-2.743和-0.624的N-MODA以及0.208和0.138的N-MODP;使用高效率神經(jīng)網(wǎng)絡(luò)(efficient neural network,ENet)獲得了-0.762和-0.115的N-MODA以及0.272和0.024的N-MODP。然而,語義分割模型引入了相互重疊的目標難以有效分開的問題。
Zou等人(2019)使用對艦船目標進行重新分類的SMD數(shù)據(jù)集,分別對Faster R-CNN和單階段多框預(yù)測目標檢測模型(single shot multibox detector,SSD)進行測試,獲得了84.35%和80.23%的mAP,并且使用ResNet替換了Faster R-CNN中的基礎(chǔ)網(wǎng)絡(luò)VGG,獲得了88.08%的mAP。Moosbauer等人(2019)使用Faster R-CNN與Mask R-CNN模型,在其提出的對SMD數(shù)據(jù)集的劃分上進行測試,其中帶特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)的Faster R-CNN模型獲得了0.773(IoU閾值為0.5)和0.854(IoU閾值為0.3)的F-score。Sch?ller等人(2019)基于長波長紅外圖像數(shù)據(jù)集,對Faster R-CNN、RetinaNet和YOLO(you only look once)系列網(wǎng)絡(luò)中的YOLOv3網(wǎng)絡(luò)進行評估,分別獲得了81%、86%和90%的mAP,并通過圖像上采樣的方法,使RetinaNet的mAP提升到90%。
Shao等人(2020)結(jié)合海岸線檢測、注意力機制與YOLOv2網(wǎng)絡(luò),將檢測范圍限制在海岸線向上平移30像素形成的分界線以下區(qū)域,并將YOLOv2網(wǎng)絡(luò)檢測的結(jié)果結(jié)合顯著性信息和海岸線特征進行了優(yōu)化。作者在SeaShips數(shù)據(jù)集上進行測試,結(jié)果較YOLOv2有了4.4% 的mAP提升(提升至87.4%),減小了與Faster R-CNN的差距。
上述研究表明,基于海事監(jiān)控圖像和視頻的艦船目標檢測與通用目標檢測相似,兩階段目標檢測網(wǎng)絡(luò)的檢測精確率高于一階段檢測網(wǎng)絡(luò),但檢測速度較慢。CNN模型表現(xiàn)出對目標尺度的敏感性,將區(qū)域提議網(wǎng)絡(luò)更換為其他尺度不敏感的區(qū)域提議方法后,性能有了較大提升。
表2是本文基于SMD數(shù)據(jù)集,使用GeForce GTX 1080Ti GPU對各種目標檢測經(jīng)典方法的評估結(jié)果。本文選擇了在目標檢測領(lǐng)域最具代表性的若干種CNN模型,包括兩階段目標檢測模型Faster R-CNN(Ren等,2015)及其通過FPN(Lin等,2017)在多個尺度的特征圖上分別計算區(qū)域提議的優(yōu)化模型,以及一階段目標檢測模型SSD(Liu等,2016)。同時,實驗選取了一階段目標檢測模型YOLOv4(Bochkovskiy等,2020)和無錨框目標檢測模型CenterNet(Zhou等,2019)作為最新目標檢測模型的代表。各模型均使用基于ImageNet(Faster R-CNN與SSD)或MS COCO(YOLOv4與CenterNet)預(yù)訓(xùn)練的模型進行fine-tune訓(xùn)練。
表2 CNN方法艦船目標檢測評估結(jié)果Table 2 Evaluation results of CNN ship detection methods
艦船目標檢測任務(wù)的應(yīng)用場景決定了一些通用目標檢測技術(shù)面臨的技術(shù)難點會放大。視野開闊、氣象情況較為復(fù)雜是海洋環(huán)境的典型特征。海面波浪、反射陽光,以及艦船航行留下的航跡等為水面帶來了更豐富的動態(tài)因素,從而對各種模型的表現(xiàn)力提出了更高要求。具體來講,艦船目標檢測面臨以下6個技術(shù)難點:
1)艦船目標尺度多樣性。在海事監(jiān)控圖像數(shù)據(jù)中,由近到遠,開闊的視野使得帆船、皮劃艇等小型船舶和油輪、集裝箱船等大型艦船均可以出現(xiàn)在同一幀圖像中,導(dǎo)致圖像數(shù)據(jù)中的目標具有極大的尺度多樣性。并且,遠處的大型艦船和近處的小型船舶可能具有相似的視覺尺度。在CNN模型中,較小尺度的目標會在卷積和池化過程中在特征圖上對應(yīng)越來越小的區(qū)域,甚至消失;在最深層,網(wǎng)絡(luò)的感受野如果大幅超過目標的尺度,目標將很難體現(xiàn)在特征圖上。在當(dāng)前的一些研究中,研究者注意到一部分CNN模型(如R-CNN)對占畫面比例較小的目標的檢測效果比起足夠大的目標來說有明顯的下降(Bousetouane和Morris,2016;Shao等,2020)。
2)艦船類別的多樣性。艦船目標有很多細分的類別,例如,在SeaShips數(shù)據(jù)集中,將艦船分為油輪、客船、集裝箱船、散裝貨船、普通貨船和漁船等6類(Shao等,2018)。不同細分類別目標的形狀、紋理等圖像特征有著較大的差異。艦船類別的多樣性要求在設(shè)計模型時仔細評估模型是否有足夠的能力刻畫相同目標類別內(nèi)部的多樣性,在構(gòu)建數(shù)據(jù)集時仔細考慮類別劃分的粒度;在CNN模型中,依據(jù)模型的特點提供分類粒度合適的標簽,有利于模型訓(xùn)練過程平穩(wěn)進行;分類標簽的粒度還在一定程度上決定了各個類別的樣本數(shù)量,從而影響了各個類別間的平衡性。
3)海洋氣象的復(fù)雜性。海洋氣象環(huán)境相較于陸地更加復(fù)雜,也更容易發(fā)生極端天氣。面對海事監(jiān)控系統(tǒng)持續(xù)性、高可靠性監(jiān)測的要求,數(shù)據(jù)集需要對各種天氣和光照條件進行充分覆蓋。同時,目標檢測算法中建立的背景模型需要具有對不同的天氣和光照條件的描述能力。基于時域上連續(xù)的視頻數(shù)據(jù),使用自適應(yīng)的背景建模算法(如Chen等人(2018b)的方法)不斷調(diào)整背景和前景的模型參數(shù),是無需事先精確確定GMM等由多個子分布或子模型構(gòu)成的一類模型中子模型的數(shù)量也可以對變化的背景進行描述的一種思路。
4)水面的動態(tài)特性。船只的尾流、水面的浪花和反射光斑等背景中的動態(tài)元素對背景建模和背景減除提出了挑戰(zhàn)。在背景減除階段,一些算法無法減除尾流、浪花等動態(tài)元素,致使誤檢產(chǎn)生。針對水面動態(tài)元素造成的誤檢,可以考慮對它們進行建模,以及對檢測結(jié)果進行事后的分類過濾。
5)相機的視角和運動。在同一或不同位置以不同角度固定的攝像頭拍攝同一個物體時,照片上物體的大小、位置和姿態(tài)都會有相應(yīng)的差別。在海洋環(huán)境中,浮標等平臺常常隨著波浪晃動,固定在可動平臺上的攝像頭會隨著平臺的顛簸、晃動出現(xiàn)物體位置的抖動,甚至傾斜;有時甚至?xí)霈F(xiàn)攝像頭淹沒的情況。因此,應(yīng)用于可動平臺上的艦船目標檢測模型應(yīng)具有一定的旋轉(zhuǎn)和平移的健壯性。
6)低質(zhì)量圖像。安裝在浮筒等位置上的攝像頭,由于成本限制,其圖像分辨率和質(zhì)量一般較受限;同時,拍攝和傳輸過程中的噪聲干擾也會使圖像質(zhì)量下降。在通信手段缺乏的遠洋海域,通信帶寬的限制造成了數(shù)據(jù)采集和傳輸?shù)睦щy,致使數(shù)據(jù)集難以構(gòu)造,使用服務(wù)器部署集中算力的方法也難以實現(xiàn)。
針對第3節(jié)所述艦船目標檢測的技術(shù)難點,以往的研究亦做出過很多改進。對傳統(tǒng)方法影響較大的技術(shù)難點是水面動態(tài)特性、氣象情況和晝夜變化以及艦船類別的多樣性3類,對基于傳統(tǒng)方法的艦船目標檢測技術(shù)框架中地平線檢測與背景減除兩個階段的影響最大,近年來的研究也大多基于提升背景減除健壯性和檢測效率(Zhang等,2017;Chen等,2018)的思路;CNN方法則開始關(guān)注艦船目標的尺度多樣性問題(Bousetouane和Morris,2016;Shao等,2020),同時嘗試了使用語義分割網(wǎng)絡(luò)(Cane和Ferryman,2018)、結(jié)合注意力機制和融合先驗信息(Shao等,2020)等改進。
本文關(guān)注到艦船目標檢測領(lǐng)域數(shù)據(jù)集數(shù)量和質(zhì)量較欠缺、小型目標檢測效果較差以及缺少CNN方法在嵌入式設(shè)備上的應(yīng)用研究的問題,在預(yù)處理與數(shù)據(jù)增廣、尺度多樣性兩個方面進行了實驗研究,針對實際應(yīng)用中嵌入式平臺的功率和算力受限等問題,開展了運算量優(yōu)化的模型研究,并評估了模型在較低運算量和功耗下的性能表現(xiàn)。
艦船目標檢測面臨圖像質(zhì)量低、傳感器運動以及天氣和光照條件的多樣性等技術(shù)難點,可以通過預(yù)處理和數(shù)據(jù)增廣的方式加以改善。但是,目前大多數(shù)基于CNN的艦船目標檢測仍缺少針對這些技術(shù)難點在數(shù)據(jù)預(yù)處理和數(shù)據(jù)增廣等方面的研究。
遠洋監(jiān)測平臺常常受到傳感器成本和傳輸帶寬的限制,難以獲得高質(zhì)量的圖像數(shù)據(jù),較低的分辨率和較大比例的噪聲是影響圖像質(zhì)量的主要問題。有代表性的圖像濾波方法包括均值濾波、中值濾波及高斯濾波等,其依據(jù)自身的特點適用于不同類型的噪聲,如中值濾波適合過濾脈沖噪聲,均值濾波適合過濾高斯噪聲。解決圖像分辨率低的問題則是圖像超分辨率技術(shù)的用武之地。圖像超分辨率方法(蘇衡 等,2013)分為基于插值的方法(如雙線性插值、最近鄰插值)、基于重建的方法(Stark和Oskoui,1989;Katsaggelos等,1993)和基于學(xué)習(xí)的方法(Stark和Oskoui,1989;Katsaggelos等,1993;沈明玉 等,2019)。
在艦船目標檢測任務(wù)中,固定在艦船和浮筒上的傳感器會隨著其附著平臺的俯仰、偏航、滾轉(zhuǎn)和平動以及PTZ攝像頭自身的視角和縮放的變化,在拍攝所得的圖像數(shù)據(jù)中產(chǎn)生視角和視距的變化。在數(shù)據(jù)增廣環(huán)節(jié),可以嘗試通過平移、傾斜和縮放等方式模擬這些變化,提高模型的健壯性。
本文基于SeaShips數(shù)據(jù)集嘗試了一些具有針對性的數(shù)據(jù)增廣方法,并對比了數(shù)據(jù)增廣前后模型的檢測性能。為了模擬艦船和浮筒的沉浮和擺動,為數(shù)據(jù)集增加[-15°,15°]的隨機旋轉(zhuǎn);為了模擬海面上時常出現(xiàn)的風(fēng)浪以及各種惡劣天氣導(dǎo)致的圖像模糊,添加部分高斯模糊后的圖像(噪聲系數(shù)范圍為[20,60]);為了模擬海面天氣變化造成的圖像亮度不一,在數(shù)據(jù)集中添加經(jīng)過隨機亮度處理后的圖像(亮度范圍為[0.5,1.25])。此外,為了消除艦船航行方向的影響,以及進一步擴充數(shù)據(jù)集的樣本量,本文添加了水平翻轉(zhuǎn)后的圖像。
表3為使用數(shù)據(jù)增廣前后的SeaShips數(shù)據(jù)集在1080Ti GPU上訓(xùn)練的Faster R-CNN模型(基于ResNet-50基礎(chǔ)網(wǎng)絡(luò))的性能表現(xiàn)。可以看出,使用增廣后的數(shù)據(jù)集訓(xùn)練的模型在各類別上的AP值均比使用未增廣數(shù)據(jù)集訓(xùn)練的模型要高,mAP值則高出了近5%,表明數(shù)據(jù)增廣能夠有效提高模型的健壯性。
表3 SeaShips數(shù)據(jù)集數(shù)據(jù)增廣前后性能比較Table 3 Performance comparison before and after data augmentation
目前處于研究熱點的生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)在圖像去噪、超分辨率和數(shù)據(jù)增廣任務(wù)中顯現(xiàn)出了潛力。將白天拍攝的圖像轉(zhuǎn)換為夜晚拍攝的圖像,或轉(zhuǎn)換為不同天氣條件下拍攝的圖像,這類任務(wù)屬于圖像的跨域轉(zhuǎn)換任務(wù)。Arruda等人(2019)使用CycleGAN網(wǎng)絡(luò)利用包含標注的源域圖像和不包含標注的目標域圖像生成包含標注的偽目標域圖像,實現(xiàn)了源域與目標域的轉(zhuǎn)換,并使用有標注的源域和偽目標域的數(shù)據(jù)訓(xùn)練目標檢測模型,檢測性能提高了10%。Katayama等人(2019)使用多項式損失函數(shù)訓(xùn)練CycleGAN,將水下攝像機拍攝的圖像色彩校正為常規(guī)圖像,并使用色彩校正后的圖像訓(xùn)練YOLO9000目標檢測模型,mAP為41.8%,相比原圖像提升了7.0%,相比使用原版CycleGAN(38.8%)進行色彩校正提高了3.0%。
在其他領(lǐng)域,GAN也用于跨域數(shù)據(jù)增廣,表現(xiàn)出緩解數(shù)據(jù)集類別不均衡問題的潛力(Frid-Adar等,2018;Mikoajczyk和Grochowski,2018)。
除了基于GAN的跨域數(shù)據(jù)增廣方式,通過對抗訓(xùn)練的方式也可得到域無關(guān)的目標檢測模型,從而提升單個模型在多個域上的檢測性能。
為了使目標檢測模型具有自適應(yīng)不同域的能力,Chen等人(2018a)在Faster R-CNN模型的尾部加入兩個域分類器網(wǎng)絡(luò),其中圖像級別的域分類器添加到最深層的特征圖之后,另一個實例級別的域分類器以基于感興趣區(qū)域(region of interest,ROI)的特征向量作為輸入,兩個域分類器之間通過一致性損失進行正則化。在訓(xùn)練Faster R-CNN模型時,使用一種對抗的方式學(xué)習(xí)域不變特征,使得域分類器無法通過網(wǎng)絡(luò)提取的特征判斷圖像來自哪一個域。一方面,對于域分類網(wǎng)絡(luò),需要最小化其分類損失,提升其分類性能;另一方面,F(xiàn)aster R-CNN網(wǎng)絡(luò)則需要使得域分類器的分類損失最大化。使用了一種梯度翻轉(zhuǎn)層(gradient reversal layer,GRL)(Ganin和Lempitsky,2014)實現(xiàn)對抗學(xué)習(xí)。
傳統(tǒng)計算機視覺方法是否受到尺度多樣性的影響取決于所用方法對目標尺度的敏感程度。CNN模型的不同特征層級具有不同的感受野,其適宜檢測的目標尺度也各不相同。在較深層次中,較大的感受野會使得尺度較小的目標在特征圖上對應(yīng)的區(qū)域縮小。在艦船目標檢測領(lǐng)域,已經(jīng)有學(xué)者關(guān)注到尺度多樣性問題,尤其是小尺度目標對于檢測性能的影響。Bousetouan和Morris(2016)使用傳統(tǒng)計算機視覺方法進行區(qū)域提議,但這樣的網(wǎng)絡(luò)無法進行端到端的訓(xùn)練。因此,本文提議參考通用目標檢測領(lǐng)域針對尺度多樣性進行優(yōu)化的方法對模型進行優(yōu)化設(shè)計。
通用目標檢測領(lǐng)域針對目標尺度多樣性進行優(yōu)化的主要方法是通過構(gòu)建多尺度的特征圖,在不同尺度的特征圖上分別對目標尺度與感受野相適合的目標進行檢測。圖像金字塔是這一思路的最樸素實現(xiàn)。它按照一個尺度比例逐級放大和縮小圖像,某一級別的模型只輸出尺度落在該級別的檢測結(jié)果。其最大問題在于需要將每一個尺度的圖像都使用目標檢測模型進行一次檢測,因此運算量很大。同時,多尺度的圖像造成了模型在訓(xùn)練階段與測試階段尺度上的不一致,易導(dǎo)致檢測精確性下降(Lin等,2017)。
特征金字塔方法則不再通過放縮圖像的方式構(gòu)建多尺度的特征,而是通過對特征圖進行逐步卷積、池化等操作產(chǎn)生特征的尺度多樣性。Lin等人(2017)認為淺層特征圖中過多的初級特征對目標檢測任務(wù)不利,然而高分辨率的特征圖又對小尺度目標的檢測十分重要,因而提出了一種自頂向下構(gòu)造的特征金字塔網(wǎng)絡(luò),即FPN。該網(wǎng)絡(luò)由特征提取網(wǎng)絡(luò)中最深層的特征圖開始,逐層使用上采樣后的特征圖與特征提取網(wǎng)絡(luò)中對應(yīng)層級的特征圖經(jīng)過1×1的卷積后所得的特征圖相加,構(gòu)造出多個層級的特征,供任務(wù)網(wǎng)絡(luò)使用。
Fu等人(2017)提出了反卷積單階段多框預(yù)測目標檢測模型(deconvolutional single shot multibox detector,DSSD),使用反卷積(轉(zhuǎn)置卷積)對深層次特征進行上采樣,并使用逐像素相乘的方法通過側(cè)連接與特征提取網(wǎng)絡(luò)中對應(yīng)層級的特征圖融合而構(gòu)造多尺度的特征圖。
姜文濤等人(2019)嘗試了不同的上采樣方法和不同層級之間特征融合的模式,簡化了DSSD網(wǎng)絡(luò)中特征融合網(wǎng)絡(luò)的結(jié)構(gòu),改用逐像素相加的方式進行特征融合,并在特征融合之后增加了一個3×3的卷積層用以減輕混疊效應(yīng),較DSSD模型降低了運算量,且取得了更高的mAP。張筱晗等人(2020)設(shè)計了先自深層次向淺層次構(gòu)造融合特征,再將低層特征用做注意力線索,自淺層次向深層次融合的雙向特征融合網(wǎng)絡(luò),在SAR圖像艦船檢測任務(wù)中取得了較SSD模型更好的AP。
但是,上述方法都沒有突破特征圖分辨率最大為原始圖像的1/4的限制。根據(jù)增高分辨率網(wǎng)絡(luò)(higher high-resolution network,HigherHRNet)(Cheng等,2020)的研究,1/2甚至更高分辨率的特征圖在檢測小尺度目標時是有較重要作用的。該研究針對特征金字塔方法在小尺度目標關(guān)鍵點熱力圖分辨率不高的問題,通過雙線性插值上采樣各個尺度下的熱力圖至原始圖像大小,并對所有尺度上采樣后的熱力圖進行平均,同時提高了熱力圖的分辨率和語義信息的載量。目前,還有將高分辨率熱力圖應(yīng)用于基于關(guān)鍵點估計的無錨框(anchor-free)方法(如CenterNet(Zhou等,2019)),也是值得進一步研究的方向。
本文基于Detectron平臺(Girshick等,2020)和mmdetection平臺(Chen等,2019),在Faster R-CNN架構(gòu)下,對ResNet基礎(chǔ)網(wǎng)絡(luò)以及針對多尺度目標進行優(yōu)化的高分辨率網(wǎng)絡(luò)(high-resolution network,HRNet)基礎(chǔ)網(wǎng)絡(luò),使用SMD數(shù)據(jù)集將目標分為船和背景兩類,在500×500像素和800×800像素兩個輸入分辨率上進行了性能測試。實驗使用GeForce GTX 1080Ti GPU,結(jié)果如表4所示。實驗中分別使用0.3和0.5作為IoU閾值統(tǒng)計mAP,對不同尺度目標的AP值統(tǒng)計的IoU閾值取值范圍為[0.30,0.95],每隔0.05取樣一次。實驗數(shù)據(jù)表明,訓(xùn)練和測試階段使用的圖像分辨率對于多尺度目標的檢測效果起到了決定性作用。同時,F(xiàn)PN方法在減少運算量的情況下縮小了不同分辨率、基礎(chǔ)網(wǎng)絡(luò)之間多尺度目標檢測效果的差距,HRNet基礎(chǔ)網(wǎng)絡(luò)則較大幅度地改善了小尺度目標的檢測效果。
表4 不同輸入分辨率及多尺度優(yōu)化模型的性能比較Table 4 Performance comparison of different input scales and multiscale-optimized models
艦船目標檢測方案多部署于船只、浮標等平臺上,這些平臺搭載的計算設(shè)備多數(shù)計算能力較弱,存儲資源有限,同時供電功率受到限制,因而在很大程度上限制了基于CNN的目標檢測模型的使用。對艦船目標檢測方案進行運算量與能耗方面的優(yōu)化是促進CNN模型實際應(yīng)用的重要條件之一,也是在海事智能設(shè)備上提高艦船目標檢測效果的關(guān)鍵。
在艦船目標檢測任務(wù)中,目標的位置受到地平線等語義條件的約束。因此,有研究通過結(jié)合語義約束對檢測區(qū)域進行限制,提高了模型的推理速度。Shao等人(2020)基于YOLOv2網(wǎng)絡(luò)建立了艦船目標檢測模型,通過過濾海岸線上移30像素之后的直線上方的所有單元格減小了模型的運算量。Fan和Chen(2019)使用一種類注意力機制的方法從圖像中提取出可能包含目標的子圖像塊,再使用Faster R-CNN進行目標檢測,將推理速度從13幀/s提高到18幀/s。
目前,艦船目標檢測領(lǐng)域的研究多使用標準的基礎(chǔ)網(wǎng)絡(luò),然而這些網(wǎng)絡(luò)存在著較高的計算量冗余。MobileNet系列基礎(chǔ)網(wǎng)絡(luò)(Howard等,2017,2019;Sandler等,2018)通過設(shè)計高效的網(wǎng)絡(luò)層、優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和神經(jīng)網(wǎng)絡(luò)搜索等方法,在保證模型的精確度不出現(xiàn)明顯下降的情況下,大幅度地優(yōu)化了模型所需的運算量和存儲空間。本文基于VGG16和不同版本MobileNet的SSD目標檢測模型搭建了艦船目標檢測網(wǎng)絡(luò)模型,計算了模型的參數(shù)量和運算量,并基于SeaShips數(shù)據(jù)集測試了mAP值,結(jié)果如表5所示。其中,浮點運算次數(shù)(floating point operations,F(xiàn)LOPs)表示對于每一個輸入樣本,模型推理需要執(zhí)行的浮點操作的數(shù)量。
表5 目標檢測模型的參數(shù)量和運算量Table 5 Parameter quantity and calculation quantity of object detection model
除減少模型的參數(shù)量和計算量外,針對不同計算平臺的特點進行優(yōu)化也是進一步提高模型推理速度的可行思路。針對存儲資源較充足但計算資源較集中的計算平臺,可以通過設(shè)計合理的訪存方式進行優(yōu)化。標準的卷積操作訪存不規(guī)則,不利于CPU進行計算,而使用Im2col等方法可以利用數(shù)據(jù)冗余減少卷積過程中不規(guī)則的內(nèi)存訪問,起到平衡空間與時間復(fù)雜度的作用。
基于海事監(jiān)控視頻的艦船目標檢測技術(shù)是目標檢測的一個細分領(lǐng)域。解決艦船目標檢測任務(wù)中的技術(shù)難點是推動其應(yīng)用的重要條件。在使用特征提取能力更強的深度神經(jīng)網(wǎng)絡(luò)模型時,研發(fā)人員主要面臨目標尺度多樣化、數(shù)據(jù)集質(zhì)量較低、樣本類型不均衡,以及邊緣計算設(shè)備的算力和功耗受限等問題。本文嘗試了一部分通用目標檢測領(lǐng)域的優(yōu)化方法,初步證明這些方法在艦船目標檢測領(lǐng)域同樣有效,可以納入到后續(xù)研究的考慮中。該領(lǐng)域可在以下方向展開進一步的研究:
1)數(shù)據(jù)集的進一步優(yōu)化。針對海事圖像和視頻數(shù)據(jù)集應(yīng)具有的特征進行優(yōu)化。首先,以適宜的粒度進行分類。提供較細粒度的標注,可以為模型提供更加充分的信息,使各個類別之間的樣本量趨于平衡,降低模型的訓(xùn)練難度。在推理階段有利于基于細分類別進行差異化的決策;其次,優(yōu)化標注的一致性與易用性。數(shù)據(jù)集的構(gòu)建應(yīng)該保證標注的一致性,參考目前使用最廣泛的目標檢測數(shù)據(jù)集的標注格式,并保證數(shù)據(jù)集的標注與之兼容,有利于相互轉(zhuǎn)換;最后,使數(shù)據(jù)集具有易擴充性能。由于數(shù)據(jù)收集的時間有限,單獨的數(shù)據(jù)集難以涵蓋所有的天氣變化和光照變化情況。對原有的數(shù)據(jù)集進行增補,或者與其他數(shù)據(jù)集集成是提升模型覆蓋范圍的方法之一。這就要求數(shù)據(jù)集遵循一定的規(guī)范,例如規(guī)范的艦船目標分類、易于讀取的標注結(jié)構(gòu)等。對已有數(shù)據(jù)集進行擴展標注和分析也有利于數(shù)據(jù)集質(zhì)量的進一步提升。研究者可以通過劃分數(shù)據(jù)集、細化類別標注和增加圖像分割標注等方法擴充可用的數(shù)據(jù)集,增加數(shù)據(jù)集的適用領(lǐng)域。MarDCT數(shù)據(jù)集的發(fā)展以及Moosbauer等人(2019)對SMD數(shù)據(jù)集的分析和劃分就是數(shù)據(jù)集擴展和分析的代表。
2)模型設(shè)計的進一步優(yōu)化。針對海事監(jiān)控視頻艦船目標檢測任務(wù)的難點,首先,應(yīng)進一步研究多尺度目標(尤其是小型目標)檢測的模型結(jié)構(gòu)。其次,應(yīng)考慮圖像信息與語義信息的融合方式。海事監(jiān)控數(shù)據(jù)的一個特點是地平線檢測較容易,同時所有待檢測的目標都集中在與地平線共面的同一個水平面上,因此地平線信息可以作為參考,起到限制檢測區(qū)域、過濾檢測結(jié)果的輔助作用;一部分數(shù)據(jù)增廣方法(如小尺度目標的隨機復(fù)制)也受到語義信息的約束。最后,考慮到海事監(jiān)控設(shè)備實際的計算能力和功耗限制,探索性能—計算量比以及性能—功率比更高的模型,是推動艦船目標檢測技術(shù)更大規(guī)模應(yīng)用部署的重要方向。
致 謝本文多項實驗使用新加坡南洋理工大學(xué)和勞斯萊斯—南洋理工大學(xué)合作實驗室的研究團隊采集的SMD數(shù)據(jù)集以及武漢大學(xué)研究團隊采集的SeaShips數(shù)據(jù)集等公開數(shù)據(jù)集,在此表示感謝。