段俊利
【摘 要】 隨著我國對外經(jīng)濟(jì)貿(mào)易的快速發(fā)展,航運(yùn)市場日益繁榮。為維護(hù)航運(yùn)交通秩序,提高港口營運(yùn)效率,并能夠根據(jù)不同船型的航運(yùn)市場現(xiàn)狀作出相應(yīng)調(diào)整,獲得船舶精準(zhǔn)類型就顯得尤為重要。但目前只能通過購買入級船舶文件來獲取船舶類型信息。本文提出一種基于AIS的靜態(tài)數(shù)據(jù)進(jìn)行船舶識別的算法,利用船長、船寬、左舷距、尾距以及吃水深度及其聯(lián)合特征,利用機(jī)器學(xué)習(xí)分類算法,將集裝箱船、散貨船、雜貨船從貨船中識別出來。經(jīng)過模型選擇、參數(shù)調(diào)優(yōu)之后的模型平均準(zhǔn)確率為95%。
【關(guān)鍵詞】 AIS靜態(tài)數(shù)據(jù) 機(jī)器學(xué)習(xí) 船舶分類
1.引言
隨著我國航運(yùn)業(yè)的快速發(fā)展,中國在船舶保有量和港口貨運(yùn)量方面躋身世界前列。船舶識別成為研究的重點(diǎn)之一。目前大多數(shù)船舶類型識別基于圖形識別。蔣少峰等提出基于結(jié)構(gòu)特征的SAR商用船舶分類算法[1],可對散貨船、集裝箱船和漁船進(jìn)行分類;梁錦雄用BP神經(jīng)網(wǎng)絡(luò)對六類船舶的紅外圖像進(jìn)行識別[2];趙亮等人利用卷積神經(jīng)網(wǎng)絡(luò)對數(shù)字船舶圖像提取特征,然后融合HOG和HSV特征構(gòu)建船舶圖像特征,再用支持向量機(jī)方法對集裝箱船、客船、漁船、軍艦、帆船進(jìn)行分類[3]。
本文創(chuàng)新性地提出了一種基于AIS靜態(tài)數(shù)據(jù)的船舶分類識別方法,利用AIS靜態(tài)數(shù)據(jù)中船長、船寬、左舷距、尾距、吃水深度以及長寬比、船寬與吃水深度比和船長與尾距比三個聯(lián)合特征,利用機(jī)器學(xué)習(xí)分類模型,將集裝箱船、散貨船、雜貨船從貨船中識別出來。
2. AIS靜態(tài)數(shù)據(jù)
2.1AIS靜態(tài)數(shù)據(jù)
本文使用的是AIS靜態(tài)數(shù)據(jù),靜態(tài)數(shù)據(jù)包括:MMSI(船舶唯一標(biāo)識符)、time(收到靜態(tài)數(shù)據(jù)包的時間)、shiptype(船舶類型)、length(船長)、width(船寬)、left(左舷距)、trail(尾距)、imo(船舶編號)、name(船名)、callsign(呼號)、draught(吃水)、destination(目的地)、eta(預(yù)抵港時間)。
2.2數(shù)據(jù)獲取與清洗
利用Python語言讀取AIS靜態(tài)數(shù)據(jù)數(shù)據(jù)庫文件,并將貨船篩選出來。使用AIS靜態(tài)數(shù)據(jù)中Name,IMO、MMSI三個字段與入籍船文件進(jìn)行匹配,來獲得船舶類型信息。并標(biāo)記集裝箱船為1,雜貨船為2,散貨船為3,其他船型為4。
3.機(jī)器學(xué)習(xí)分類算法
KNN是通過測量不同特征值之間的距離進(jìn)行分類。如果一個樣本在特征空間中K個最相似的樣本中大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。
支持向量機(jī)一般來說是二分類模型,其基本模型是特征空間上的間隔最大的線性分類器,在解決多分類問題時使用“一對一”或者“一對其余”的策略,在解決非線性分類時表現(xiàn)比較好。
決策樹是帶有特殊含義的樹結(jié)構(gòu),其每個根結(jié)點(diǎn)代表數(shù)據(jù)的特征標(biāo)簽,根據(jù)該特征不同的特征值將數(shù)據(jù)劃分成幾個子集,每個子集都是這個根結(jié)點(diǎn)的子樹,然后對每個子樹遞歸劃分下去,而決策樹的每個葉子結(jié)點(diǎn)則是數(shù)據(jù)的最終類別標(biāo)簽[4]。
隨機(jī)森林屬于集成學(xué)習(xí),其基分類器是CART分類樹,集成方法是Bagging。隨機(jī)森林將多個基分類器投出最多票數(shù)的類別或者類別之一作為最終類別。隨機(jī)森林可使用袋外分?jǐn)?shù)來評估泛化能力。
4.實(shí)驗(yàn)分析及結(jié)果
本實(shí)驗(yàn)基于2016年8月1日的AIS靜態(tài)數(shù)據(jù),有效數(shù)據(jù)為15644條。將整理好的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。缺失數(shù)據(jù)較少,直接將缺失數(shù)據(jù)剔除,并利用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法對數(shù)據(jù)進(jìn)行歸一化處理。
本文利用scikit-learn基于樹的特征提取進(jìn)行特征選擇,特征選擇后保留的特征為:width、length、trail、trail/length、length/width五個特征。
分別建立KNN、支持向量機(jī)、決策樹、邏輯回歸以及隨機(jī)森林五種分類模型。進(jìn)行五折交叉驗(yàn)證,并使用f1-socre作為評價指標(biāo),隨機(jī)森林分類效果最好,選擇隨機(jī)森林模型。
接下來使用網(wǎng)格搜索法對隨機(jī)森林參數(shù)進(jìn)行調(diào)優(yōu)。最終的模型結(jié)果如表3.1所示。
5.結(jié)語
本文利用機(jī)器學(xué)習(xí)分類算法將集裝箱船、散貨船、雜貨船從貨船中識別出來。所用數(shù)據(jù)為AIS靜態(tài)數(shù)據(jù)里面的五個原始靜態(tài)特征以及聯(lián)合特征,經(jīng)過特征選擇,模型選擇,最終選擇隨機(jī)森林算法。實(shí)驗(yàn)結(jié)果表明本文算法對貨船的精確分類具有很好的效果。
【參考文獻(xiàn)】
[1] 蔣少峰,王超,吳樊,等.基于結(jié)構(gòu)特征分析的COSMO-SkyMed圖像商用船舶分類算法[J].遙感技術(shù)與應(yīng)用,2014,29(4):607-615.DOI:10.11873/j.issn.1004-0323.2014.4.0607.
[2] 梁錦雄,王刻奇.基于BP神經(jīng)網(wǎng)絡(luò)的船艦?zāi)繕?biāo)識別分類[J].艦船科學(xué)技術(shù),2015,37(3):206-209.DOI:10.3404/j.issn.1672-7649.2015.03.046.
[3] 趙亮,王曉峰,袁逸濤.基于深度卷積神經(jīng)網(wǎng)絡(luò)的船舶識別方法研究[J].艦船科學(xué)技術(shù),2016,38(8):119-123.DOI:10.3404/j.issn.1672-7619.2016.08.025.
[4] 馬景義,吳喜之,謝邦昌.擬自適應(yīng)分類隨機(jī)森林算法[J].數(shù)理統(tǒng)計(jì)與管理,2010,29(5):805-811.