郭乃琨,馬壯壯,岳明橋
(1.中國人民解放軍92493 部隊(duì),遼寧 葫蘆島 125001;2.中船人因工程研究院(青島)有限公司,山東 青島 266000)
船舶軌跡數(shù)據(jù)因其多維、動(dòng)態(tài)等特征而區(qū)別于一般的導(dǎo)航大數(shù)據(jù),不僅數(shù)據(jù)規(guī)模巨大,而且具有明顯的時(shí)序特征。運(yùn)用簡單、常規(guī)的數(shù)據(jù)分析方法很難從中分析出隱含的信息[1]。因此,需要引入現(xiàn)代數(shù)據(jù)分析手段中的數(shù)據(jù)挖掘技術(shù)對(duì)船舶軌跡數(shù)據(jù)進(jìn)行挖掘,提取出其中的深層次潛在信息,然后針對(duì)分析和應(yīng)用需求,采用一定的可視化手段對(duì)其可視化,進(jìn)而為建立科學(xué)智能的海事監(jiān)管體系奠定理論與技術(shù)基礎(chǔ)。
在我國當(dāng)前“海上絲綢之路”“海洋強(qiáng)國戰(zhàn)略”等大背景下,國內(nèi)海事部門緊跟信息化浪潮,在海洋數(shù)字體系化基礎(chǔ)建設(shè)上不斷邁進(jìn),由此產(chǎn)生了大量的船舶軌跡數(shù)據(jù)[2]。然而,船舶軌跡數(shù)據(jù)因其多維、動(dòng)態(tài)等特征而區(qū)別于一般的地理空間數(shù)據(jù),不僅數(shù)據(jù)規(guī)模巨大,而且具有明顯的時(shí)序特征,運(yùn)用簡單、常規(guī)的數(shù)據(jù)分析方法很難從中分析出隱含的信息。因此,與船舶軌跡數(shù)據(jù)挖掘與可視化相關(guān)的技術(shù)應(yīng)運(yùn)而生,飛速發(fā)展[3]。數(shù)據(jù)可視化與數(shù)據(jù)挖掘技術(shù)有機(jī)結(jié)合,從而有效、深入地揭示海量船舶軌跡數(shù)據(jù)中的隱含規(guī)律與潛在價(jià)值,并將挖掘結(jié)果準(zhǔn)確、直觀地呈現(xiàn)給用戶,這更體現(xiàn)了衛(wèi)星導(dǎo)航信息服務(wù)的價(jià)值所在,同時(shí),也 將 對(duì) 我 國BDS(BeiDou Navigation Satellite System,北斗衛(wèi)星導(dǎo)航系統(tǒng))及相關(guān)產(chǎn)業(yè)應(yīng)用起到較為積極的推動(dòng)作用[4]。因此,需要引入現(xiàn)代數(shù)據(jù)分析手段中的數(shù)據(jù)挖掘技術(shù)對(duì)船舶軌跡數(shù)據(jù)進(jìn)行挖掘,提取出其中的深層次潛在信息,然后針對(duì)分析和應(yīng)用需求,采用一定的可視化手段對(duì)其可視化,進(jìn)而為解釋人類海洋移動(dòng)行為模式、建立科學(xué)智能的海事監(jiān)管體系奠定理論與技術(shù)基礎(chǔ)。
船舶數(shù)據(jù)和海上融合信息獲取階段主要是通過網(wǎng)絡(luò)爬蟲、直接下載、付費(fèi)購買等多種途徑,從互聯(lián)網(wǎng)上廣泛搜集船舶數(shù)據(jù)或融合信息;數(shù)據(jù)庫的建立階段主要是面向海量AIS 數(shù)據(jù)等船舶軌跡數(shù)據(jù)存儲(chǔ),將互聯(lián)網(wǎng)上采集的船舶軌跡數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫中,便于數(shù)據(jù)的集中管理與查詢分析;關(guān)鍵技術(shù)階段主要涉及數(shù)據(jù)預(yù)處理、特征點(diǎn)提取、軌跡相似性度量、軌跡聚類與可視化等多個(gè)關(guān)鍵技術(shù),數(shù)據(jù)預(yù)處理主要是由于來自互聯(lián)網(wǎng)的船舶軌跡數(shù)據(jù)通常存在錯(cuò)值、誤差、缺失、冗余、無效等情況,需要對(duì)其進(jìn)行過濾、刪除或差值補(bǔ)全等預(yù)處理工作;軌跡聚類主要依賴于特征點(diǎn)提取、相似性度量,包括顧及時(shí)空特征的聚類、顧及行為特征和時(shí)空特征的聚類[5]。在完成聚類的基礎(chǔ)上,通過搭建可視化平臺(tái)對(duì)聚類結(jié)果進(jìn)行直觀呈現(xiàn),最后為海上交通態(tài)勢(shì)感知、海上信息情報(bào)獲取、海洋生態(tài)環(huán)境保護(hù)、海上戰(zhàn)場(chǎng)環(huán)境輔助分析等實(shí)際應(yīng)用場(chǎng)景提供支持。
3.1.1 船舶軌跡數(shù)據(jù)采集
船舶軌跡數(shù)據(jù)一般是指基于AIS 的軌跡數(shù)據(jù),主要是從AIS 基站獲得。每艘船舶在安裝船載AIS 系統(tǒng)時(shí)都需要對(duì)其初始化,即輸入船舶名稱、呼號(hào)、海上移動(dòng)服務(wù)識(shí)別碼等信息[6]。在航行前,由船舶駕駛?cè)藛T輸入起始港、目的港、吃水深度、預(yù)計(jì)到達(dá)時(shí)間、貨物種類等航次信息;在航行過程中,一般直接接入全球定位系統(tǒng)(GPS)的位置、速度等信息,這些信息經(jīng)由船舶AIS 發(fā)射機(jī)編碼向外發(fā)射,并由附近船舶或岸基AIS 接收機(jī)接收。
3.1.2 船舶軌跡數(shù)據(jù)預(yù)處理
從船舶軌跡網(wǎng)站上獲取的AIS 原始數(shù)據(jù)通常存在噪聲和偏差問題,為了保證后續(xù)軌跡特征點(diǎn)選取的精度和速度,首先需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:刪除MMSI碼錯(cuò)誤的數(shù)據(jù);刪除船舶位置的經(jīng)緯度出現(xiàn)負(fù)值或是經(jīng)度大于180°、緯度大于90°的數(shù)據(jù);刪除航速為負(fù)值或大于60kn 的數(shù)據(jù);刪除超過研究水域范圍的數(shù)據(jù)等。此外,可能面臨的預(yù)處理情景還包括以下三個(gè)方面:①由于船舶軌跡中的船位點(diǎn)數(shù)量過少,生成的軌跡無法代表其航行軌跡;②由于船舶一直處于靜止或船舶只在一個(gè)很小范圍內(nèi)移動(dòng),這種軌跡也無法用于航道中心線的提取;③由于船舶航行中靜止報(bào)告會(huì)出現(xiàn)冗余點(diǎn),AIS 系統(tǒng)定位異常也會(huì)出現(xiàn)異常點(diǎn),若不對(duì)這些點(diǎn)剔除,會(huì)嚴(yán)重影響軌跡線聚類。
3.1.3 船舶軌跡數(shù)據(jù)挖掘及軌跡預(yù)測(cè)
船舶軌跡數(shù)據(jù)挖掘的目的是從海量的船舶航行歷史軌跡中發(fā)現(xiàn)船舶運(yùn)動(dòng)總體動(dòng)態(tài)演化的宏觀規(guī)律,進(jìn)而為揭示船舶運(yùn)動(dòng)模式和時(shí)空演變規(guī)律提供可靠依據(jù)。船舶軌跡數(shù)據(jù)具有時(shí)變、多維、動(dòng)態(tài)的特征,這既為提取船舶運(yùn)動(dòng)模式特征提供了豐富的信息,也增加了船舶軌跡信息挖掘的難度?,F(xiàn)有的軌跡聚類和其他挖掘技術(shù)難以解決船舶軌跡數(shù)據(jù)挖掘的實(shí)際情況,則需要探索新的船舶軌跡數(shù)據(jù)挖掘技術(shù),從不同時(shí)期的軌跡數(shù)據(jù)找到普遍的運(yùn)動(dòng)趨勢(shì)并檢測(cè)船舶的異常運(yùn)動(dòng)。當(dāng)前常用的船舶軌跡數(shù)據(jù)聚類方法主要分為基于距離的船舶軌跡聚類方法、基于密度的船舶軌跡聚類方法和基于統(tǒng)計(jì)學(xué)的船舶AIS 軌跡聚類方法,此外還有基于層次分析的聚類方法、基于圖論的聚類方法等[7]。
基于船舶軌跡數(shù)據(jù)的預(yù)測(cè)研究也是數(shù)據(jù)挖掘的重要組成部分,對(duì)于船舶未來的航行軌跡分析、運(yùn)動(dòng)模式分析等具有重要意義[8]。對(duì)于船舶軌跡的預(yù)測(cè)不僅可以對(duì)航線軌跡進(jìn)行異常檢測(cè),同時(shí)還可以預(yù)計(jì)航行時(shí)間、油耗等,所以對(duì)于船舶軌跡的未來行駛航線的研究,也是國內(nèi)外學(xué)者研究的熱點(diǎn)。
在完成船舶AIS 軌跡數(shù)據(jù)聚類的基礎(chǔ)上,需要采用適宜的船舶軌跡數(shù)據(jù)可視化算法對(duì)聚類結(jié)果進(jìn)行清晰、直觀地展示,并且提供一定的可視分析功能,因此需要研發(fā)原生的船舶軌跡數(shù)據(jù)可視化平臺(tái)[9-10]??梢暬脚_(tái)研制。通過底層開發(fā)或二次開發(fā)方式,研制面向海量船舶軌跡數(shù)據(jù)的二維可視化平臺(tái),通過總體設(shè)計(jì)、需求分析、功能架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫設(shè)計(jì)、可視化前端設(shè)計(jì)以及基于插件式開發(fā)的可視化平臺(tái)實(shí)現(xiàn),研制較為通用的船舶軌跡數(shù)據(jù)可視化平臺(tái),為海量船舶軌跡數(shù)據(jù)的集中呈現(xiàn)奠定平臺(tái)基礎(chǔ)。
在船舶軌跡數(shù)據(jù)挖掘與可視化研究領(lǐng)域,國內(nèi)外已經(jīng)積累起大量的研究成果。然而,船舶AIS 軌跡數(shù)據(jù)是多維時(shí)空數(shù)據(jù),并且數(shù)據(jù)量大,其聚類分析還存在一些技術(shù)上亟待解決的問題,例如船舶航行產(chǎn)生的軌跡數(shù)據(jù)具有典型的多維、時(shí)變和空間動(dòng)態(tài)特征,利用傳統(tǒng)的聚類分析方法無法達(dá)到理想的聚類分析效果。如何通過研究船舶軌跡數(shù)據(jù)特有的數(shù)據(jù)結(jié)構(gòu)與時(shí)空特征,研究面對(duì)復(fù)雜的船舶航行時(shí)空環(huán)境時(shí)的軌跡聚類方法,實(shí)現(xiàn)面向船舶軌跡數(shù)據(jù)挖掘的時(shí)空聚類方法,準(zhǔn)確地探測(cè)船舶航行的時(shí)空分布特征。