蘇俊杰,蘭培真
(1.集美大學海上交通安全研究所,福建 廈門 361021;2.交通安全應急信息技術國家工程實驗室,福建 廈門 361021)
目前,AIS是海事分析的主要數(shù)據(jù)源,但AIS設備由于性能缺陷、信號干擾和設備故障等因素的影響,導致岸基設施接收到的AIS報文在解碼后通常會存在部分異常數(shù)據(jù),而在數(shù)據(jù)挖掘分析的過程中,低質(zhì)量的數(shù)據(jù)往往會帶來巨大的安全隱患[1],因此,亟需開展數(shù)據(jù)清洗和數(shù)據(jù)修復工作來提高AIS數(shù)據(jù)的可用性。
傳統(tǒng)的船舶AIS數(shù)據(jù)修復主要通過插值法實現(xiàn),文獻[2]基于線性插值對船舶軌跡數(shù)據(jù)進行修復,但僅對近似直線運動的軌跡有較好的修復表現(xiàn),對曲線運動軌跡的修復則存在較大誤差。文獻[3-7]基于多項式插值、三次樣條插值或Hermite插值對船舶軌跡數(shù)據(jù)進行修復,能獲得較高的修復精度,但修復誤差與AIS數(shù)據(jù)缺失程度呈正相關。采用插值法修復AIS數(shù)據(jù),不同特征變量數(shù)據(jù)的修復過程是相互獨立的,沒有考慮船位、船速、航向數(shù)據(jù)之間存在的變化約束,丟失了船舶航行狀態(tài)特征數(shù)據(jù)間的關聯(lián)性。文獻[8-9]基于船舶運動學對船舶軌跡數(shù)據(jù)進行修復,理論上可根據(jù)模擬特征變量間的關聯(lián)性對船舶軌跡數(shù)據(jù)進行高精度的修復,但AIS數(shù)據(jù)不能提供足夠的參數(shù)輸入。文獻[10-13]基于最小二乘向量機、隨機森林、K近鄰等機器學習模型對AIS數(shù)據(jù)進行修復,這些模型雖然能自主學習相似軌跡數(shù)據(jù)的關聯(lián)性,在大量準確完整的船舶歷史航跡數(shù)據(jù)支撐下,對AIS數(shù)據(jù)有比較高的修復精度,但實際上很難獲取到準確完整的模型訓練樣本數(shù)據(jù)。文獻[14-15]基于卡爾曼濾波算法對實時連續(xù)變化的系統(tǒng)的動態(tài)觀測值進行修復,可穩(wěn)定有效消除傳感器獲取數(shù)據(jù)的誤差,但相關算法的實現(xiàn)依賴于完整的動態(tài)觀測數(shù)據(jù)和狀態(tài)相關性模型。
本文提出一種樣條卡爾曼算法(spline Kalman,SK),擬更準確地修復AIS數(shù)據(jù),并利用廈門港及附近水域的歷史AIS數(shù)據(jù)驗證算法的有效性。
卡爾曼濾波算法的基本框架如圖1所示。
給定ti-1時刻系統(tǒng)的真實值和ti時刻的系統(tǒng)狀態(tài)觀測值,即可得到ti時刻系統(tǒng)狀態(tài)的真實值,具體步驟描述如下。
步驟1 根據(jù)運動學模型,構建系統(tǒng)狀態(tài)轉移模型,該模型用于描述系統(tǒng)狀態(tài)ti-1時刻至ti時刻的變化趨勢。
可見,卡爾曼濾波算法的基本思路是通過融合當前時刻系統(tǒng)狀態(tài)的觀測值和預測值逼近系統(tǒng)的真實狀態(tài)值,僅需要系統(tǒng)前一時刻的真實狀態(tài)值,不需要其他的歷史數(shù)據(jù),占用內(nèi)存小,運行速度快,適合用于實時連續(xù)變化系統(tǒng)的建模,因此,本文基于卡爾曼濾波算法對AIS數(shù)據(jù)進行修復。
ti時刻的船舶航行狀態(tài)Yi可由經(jīng)度loni、緯度lati、航速vi、航向θi構成的4維特征向量表示,即Yi=(loni,lati,vi,θi),i=1,2,…,n。大多數(shù)據(jù)修復研究將問題數(shù)據(jù)集轉化為缺失數(shù)據(jù)集,再通過插值算法對缺失數(shù)據(jù)集進行填補,這類方法會導致船舶航行狀態(tài)的觀測值存在部分缺失。為方便卡爾曼濾波算法的應用,本文采用局部光滑性較好的分段三次樣條插值法[12]對狀態(tài)觀測值進行初步修復,以獲得較為準確的狀態(tài)觀測值。
(1)
S3(t)=-Mi[(t-ti+1)3/(6Δti)]+Mi+1[(t-ti)3/(6Δti)]+[xi-
(2)
為求未知數(shù)Mi,對S3(t)求導:
(xi+1-xi)/Δti-[(Mi+1-Mi)/6]Δti。
(3)
由此可得:
(4)
同理,在區(qū)間[ti-1,ti]可得:
S′(ti-0)=-(Δti-1/6)Mi-1+[(Δti-1)/3]Mi+(xi-xi-1)/Δti-1。
(5)
由式(4)和式(5)可得:μMi-1+2Mi+λiMi+1=di。
其中:μi=-Δti-1/(Δti-1+Δti);λi=Δti/(Δti-1+Δti);di=[6/(Δti-1+Δt)][(xi+1-xi)/Δti)-(xi-xi-1)/Δti-1]=6f[ti-1,ti,ti+1];f[ti-1,ti,ti+1]=[1/(Δti-1+Δti){[(xi+1-xi)/Δti]-[(xi-xi-1)]/Δti-1}。
令式(1)中i=1,式(2)中i=n,則端點方程為:
求得Mi后即可獲得該狀態(tài)特征變量x關于時間t的三次樣條擬合函數(shù)S3(t),從而可對AIS數(shù)據(jù)中缺失的狀態(tài)值進行初步修復,得到卡爾曼濾波算法的完整狀態(tài)觀測數(shù)據(jù)Zi。由于AIS數(shù)據(jù)的初步修復只考慮了單個狀態(tài)特征的變化趨勢,不足以反映船舶運動特性,因此,本文通過構建船舶航行的狀態(tài)轉移模型來模擬狀態(tài)特征變化的關聯(lián)性,對AIS數(shù)據(jù)進行二次修復,從而還原船舶的運動特性。為便于計算,將航速分解為經(jīng)度方向航速vlon=vi×cosθi和緯度方向航速vlati=vi×sinθi,則Yi=(loni,lati,vloni,vlati,θi)。由于AIS播發(fā)的時間間隔較短,因此,可認為船舶在經(jīng)緯度方向近似做勻加速運動,則用ti時刻的船舶航行狀態(tài)來預測ti+1時刻的狀態(tài),更新方程為:
其中:F、B、C、D表示相應的矩陣;hlon,hlat分別為單位經(jīng)度和緯度的實際距離;aloni=(vloni+1-vloni)/Δt;alati=(vlati+1-vlat)/Δt;ωi=(θi+1-θi)/Δt。
預測協(xié)方差矩陣為:Pi+1=FPiFT+Q。其中:Pi為ti時刻對應的協(xié)方差矩陣,衡量狀態(tài)特征間的關聯(lián)性,初始協(xié)方差矩陣P0設為對角陣,值取6;Q是用來衡量外界干擾的不確定性的過程噪聲,也設為對角陣,取值10-5。
卡爾曼增益矩陣為:Ki+1=Pi+1(Pi+1+R)-1。其中:R是觀測噪聲,用來衡量觀測值的不確定性。
為檢驗本文提出的AIS異常數(shù)據(jù)修復算法的有效性,對廈門港及其周邊水域船舶歷史AIS數(shù)據(jù)進行修復,修復步驟如圖2所示。選取航行軌跡較為準確完整的385條船舶的AIS數(shù)據(jù)作為驗證數(shù)據(jù),取AIS原始數(shù)據(jù)中的MMSI(maritime mobile service identify)、時間、經(jīng)度、緯度、航速、航向作為觀測數(shù)據(jù),以船舶的唯一標識MMSI為一級索引,用以區(qū)分不同的船舶軌跡數(shù)據(jù),并以時間為二級索引排序觀測數(shù)據(jù),對重復的AIS數(shù)據(jù),僅保留唯一記錄;根據(jù)經(jīng)驗剔除明顯錯誤數(shù)據(jù),保留缺失數(shù)據(jù),清洗后的AIS數(shù)據(jù)如圖3所示。
不同缺失率下5種數(shù)據(jù)修復算法的誤差如表1所示。數(shù)據(jù)修復用時如表2所示。
表1 數(shù)據(jù)缺失的修復誤差
表2 不同缺失率AIS數(shù)據(jù)修復用時
由表1~表2可知,在10%和20%的數(shù)據(jù)缺失率下,AIS數(shù)據(jù)修復以分段三次樣條插值的效果最優(yōu),綜合誤差分別為0.092%和0.229%,其次是樣條卡爾曼算法,綜合誤差分別為0.118%和0.243%,表明在低缺失率情況下,樣條卡爾曼算法對AIS數(shù)據(jù)的修復效果近似于三次樣條插值,優(yōu)于K近鄰法、隨機森林算法和支持向量機。而在30%、40%和50%的數(shù)據(jù)缺失率下,AIS數(shù)據(jù)修復以樣條卡爾曼算法的效果最優(yōu),綜合誤差分別為0.579%,1.086%和2.022%,而對比算法的最優(yōu)綜合誤差分別為0.687%,2.291%和3.425%。從整體上看,樣條卡爾曼算法在不同缺失率情況下對AIS數(shù)據(jù)的修復效果最好,表明系統(tǒng)狀態(tài)轉移方程對狀態(tài)變量起到了一定的約束作用。由表2可知,K近鄰法、隨機森林法、支持向量機、三次樣條插值和樣條卡爾曼算法修復不同缺失率情況下的AIS數(shù)據(jù)的平均用時分別為0.28、1.71、24.13、1.78、1.95 s,除支持向量機算法數(shù)據(jù)修復效率較低外,其他修復算法修復AIS數(shù)據(jù)耗時均較小,表明樣條卡爾曼算法能滿足AIS數(shù)據(jù)修復時效性和和準確性的要求。
不同缺失率下船舶特征數(shù)據(jù)修復誤差變化曲線如圖4所示。
在低數(shù)據(jù)缺失率的情況下,5種修復算法對AIS數(shù)據(jù)均具有較好的修復效果,隨著AIS數(shù)據(jù)缺失率的不斷增加,5種修復算法的不同狀態(tài)變量的修復誤差都呈現(xiàn)上升趨勢,其中,樣條卡爾曼算法的修復穩(wěn)定性最優(yōu),三次樣條插值算法次之,表明樣條卡爾曼算法適用于不同缺失率的AIS數(shù)據(jù)修復,而K近鄰、隨機森林、支持向量機等機器學習算法對不同狀態(tài)變量的修復誤差增長尤其明顯,可見機器學習算法對數(shù)據(jù)具有很大依賴性,在數(shù)據(jù)缺失較多的情況下對AIS數(shù)據(jù)的修復效果不佳。
針對AIS數(shù)據(jù)的修復提出樣條卡爾曼算法,該算法用分段三次樣條插值法得到的初步修復數(shù)據(jù),并將該數(shù)據(jù)作為卡爾曼濾波算法的觀測數(shù)據(jù),并考慮動力學原理和誤差干擾因素,建立系統(tǒng)離散狀態(tài)方程,約束船舶狀態(tài)變化。檢驗結果表明,算法能穩(wěn)定地對不同缺失率的AIS數(shù)據(jù)集進行修復,修復效率較高,能為基于AIS數(shù)據(jù)的相關研究提供相對可靠的數(shù)據(jù)基礎。由于卡爾曼算法會受到系統(tǒng)離散狀態(tài)方程和初次修復算法的影響,因此,在以后的研究中,需要進一步提高狀態(tài)觀測數(shù)據(jù)的修復精度,并建立更為準確的系統(tǒng)離散狀態(tài)轉移模型,使得AIS數(shù)據(jù)的修復更加完整準確。