吳欣蓬,湯新民,毛繼志,郭鴻濱,管祥民
(1.南京航空航天大學(xué)民航學(xué)院,南京 211106;2.中國航空無線電電子研究所航空電子系統(tǒng)綜合技術(shù)國防科技重點(diǎn)實(shí)驗(yàn)室,上海 200241;3.中國民航管理干部學(xué)院民航通用航空運(yùn)行重點(diǎn)實(shí)驗(yàn)室,北京 100102)
伴隨著航空運(yùn)輸全球化趨勢,中國民航運(yùn)輸快速發(fā)展。中國民航2019年完成旅客運(yùn)輸6.6 億人次,較上年增長7.9 %,其中國際航線完成的旅客運(yùn)輸量則高達(dá)7425.1 萬人次,增長16.6 %[1]。客運(yùn)量的大幅增長給原本緊張的空域資源分配和調(diào)度帶來了巨大壓力,使得管制員和飛行員的工作負(fù)荷倍增。歷年空管不安全事件報告顯示,在這樣的背景下,飛機(jī)的異常飛行行為日益頻發(fā),例如:因惡劣天氣、管制員指揮不當(dāng)、軍民航?jīng)_突和無線電干擾等原因?qū)е嘛w機(jī)在飛行過程中產(chǎn)生偏離既定航路,不滿足最小間隔標(biāo)準(zhǔn)等異常飛行行為。
空中交通管制的主要任務(wù)是避免異常飛行行為的發(fā)生,保障飛機(jī)的安全運(yùn)行。但是,目前在空管實(shí)踐環(huán)節(jié),自動化監(jiān)視設(shè)備只能夠在戰(zhàn)術(shù)階段對小于間隔的異常飛行行為進(jìn)行預(yù)警,不能夠發(fā)現(xiàn)上述多樣化異常飛行行為,難以分析其機(jī)理并制定相關(guān)針對性措施。而在理論研究環(huán)節(jié),隨著新航行系統(tǒng)的發(fā)展,廣播式自動相關(guān)監(jiān)視(Automatic dependent surveillance-broadcast,ADS-B)技術(shù)在民航領(lǐng)域廣泛推廣,每天都會產(chǎn)生大量的航跡運(yùn)行數(shù)據(jù)。許多學(xué)者采用航跡大數(shù)據(jù)對飛機(jī)異常飛行行進(jìn)行了探索性研究[2-7]。其中比較有代表性的是Ho等[8]基于ADS-B數(shù)據(jù)綜合回歸預(yù)測和鞅方法來辨識航跡空間位置不匹配數(shù)據(jù)的異常飛行行為,其異常偏航行為檢出率達(dá)81%,但是無法辨識其他類型的 異常飛行行為。Gariel等[9]以ADS-B數(shù)據(jù)中的飛行計劃航路點(diǎn)和航跡轉(zhuǎn)彎點(diǎn)來表征原始航跡,通過重采樣方法和主成分分析法獲取降維后的等長航跡序列,利用基于密度的有噪聲應(yīng)用中的空間聚 類(Density-based spatial clustering of applications with noise,DBSCAN)算法的噪聲辨識功能識別異常航跡,完成空域異常飛行行為的監(jiān)視。王超等[10]對航跡空間特征利用層次聚類算法來辨識航跡樣本類別,并進(jìn)一步通過偏差建模來量化異常飛行的嚴(yán)重程度。潘新龍等[11]基于定義的多因素定向Hausdorff距離,構(gòu)造航跡多維度局部異常因子來辨識異常飛行行為,實(shí)現(xiàn)航跡的異常行為檢測與挖掘,但是對多維特征采取歐氏距離度量存在誤差,同時在鄰居搜索時時間成本較高。Liu等[12]利用濾波算法剔除航跡數(shù)據(jù)的噪聲和離群點(diǎn),然后采用自然語言處理中的可變長度N-Grams算法來提取正常飛行行為特征向量,通過訓(xùn)練One-class SVM分類器來辨識異常飛行行為,但不適用于海量航跡的分析。
與上述研究方法不同的是,本文認(rèn)為航跡是航空器在飛行員、管制員和客觀環(huán)境因素影響下所表現(xiàn)出來的具有時空特性的行為軌跡。而航跡變化的形成機(jī)理主要是飛機(jī)速度、航向和高度調(diào)整的結(jié)果。同時,實(shí)際飛行航跡與航路存在偏差。因此,本文首先提出帶速度、航向和高度層約束的局部異常因子改進(jìn)的考慮速度、方向及高度的基于密度聚類方法(Density-based spatial clustering considering speed,direction and high level improved by local outlier factor,LOFDBSC-SDH),提取飛機(jī)正常航跡模式,并附加上相對時間特征;通過構(gòu)建海量ADS-B航跡數(shù)據(jù)的快速覆蓋樹[13]來提高算法的處理速度;然后本文引入4D航跡中的過點(diǎn)時間[14]概念和過點(diǎn)時間的偏移約束開展實(shí)際航跡與正常航跡模式地相似性匹配;最終實(shí)現(xiàn)對航空器異常飛行行為地辨識挖掘。
ADS-B接收機(jī)異步解析航跡數(shù)據(jù)存在數(shù)據(jù)缺失問題,采用中值濾波算法進(jìn)行填補(bǔ);而對于航跡點(diǎn)極少的航班,即ADS-B有效接受范圍邊界處的航班數(shù)據(jù),將視為無效數(shù)據(jù)進(jìn)行剔除。最終獲得包括飛機(jī)ICAO呼號-地址、時間、經(jīng)度、緯度、高度、速度和航向等航跡信息,部分示意如表1所示。由此可見,飛機(jī)的歷史航跡是一種時空大數(shù)據(jù)。
表1 ADS?B航跡數(shù)據(jù)Table1 ADS?B track data
本文定義飛機(jī)正常航跡模式是指在歷史無沖突表現(xiàn)的條件下,飛機(jī)在規(guī)定過點(diǎn)時間上位于既定的空間位置,并且速度、航向和高度特征與歷史上的正常航跡模式相一致的類簇。因此,對飛機(jī)的航跡進(jìn)行定義
式中:S為飛機(jī)航跡數(shù)據(jù)集,其中第j個飛機(jī)的航跡數(shù)據(jù)集為Tj,對于Tj中第i個航跡點(diǎn)有經(jīng)度、緯度、高度、對地速 度和真航向?qū)?yīng)過點(diǎn)時間。過點(diǎn)時間定義為相對于當(dāng)天凌晨0點(diǎn)的毫秒計數(shù),取值范圍為0~86400000ms,該數(shù)據(jù)需要對表1時間數(shù)據(jù)按協(xié)調(diào)世界時(Universal time coordinated,UTC)進(jìn)行轉(zhuǎn)換。故同一正常航跡模式類簇可由一個S來表示。
所謂異常飛行行為,定義為飛機(jī)在運(yùn)行過程中,表現(xiàn)出在過點(diǎn)時間、空間位置、速度、航向或高度層特征與歷史正常航跡模式相異的飛行行為,即飛行表現(xiàn)違反1.2 節(jié)正常航跡模式定義。因此,異常飛行行為與正常航跡模式是相反關(guān)系。
鑒于航跡需分段處理,進(jìn)一步給出異常飛行行為在航跡分段條件下的定義:若一飛機(jī)航跡的任意子軌跡符合上述異常飛行行為定義,則稱該飛機(jī)存在異常飛行行為。
2.2.1 約束的引入
異常飛行行為的形成過程主要表現(xiàn)為2種形式:(1)飛機(jī)之間在原本既定的高度層、航路上產(chǎn)生異常飛行行為,表現(xiàn)為同航路前后追趕、交叉航路相互接近。這主要是速度異常改變導(dǎo)致的。(2)飛機(jī)未在原本既定的高度層或航路上而產(chǎn)生異常飛行行為,表現(xiàn)為飛機(jī)偏航、穿越高度層而發(fā)生飛行沖突,這主要是航向和高度異常改變導(dǎo)致的。因此,正常航跡模式的提取應(yīng)當(dāng)將高度層、速度和航向作為必要特征。
傳統(tǒng)DBSCAN軌跡挖掘算法[15]通過計算航跡點(diǎn)與其他航跡點(diǎn)之間的距離,將位于鄰居半徑ε范圍內(nèi)的航跡點(diǎn)進(jìn)行歸并。如果歸并結(jié)束后類簇的元素個數(shù)大于密度μ則認(rèn)為聚類成功;反之,將該類簇視為噪聲剔除。該算法只考慮了航跡的空間位置關(guān)系。進(jìn)一步作圖1分析可知,虛線圓圈為ε所形成的的鄰居半徑范圍,即水平間隔安全區(qū)域,而高度層下界高h(yuǎn)k和hk+1刻畫了垂直間隔標(biāo)準(zhǔn)。當(dāng)航跡Ti穿越高度層hk+1后,其子軌跡Tsubi2將不再與Tj發(fā)生聚類關(guān)系。因此,通過高度層標(biāo)準(zhǔn)來劃分航跡可以規(guī)避不必要的聚類操作。目前,國內(nèi)僅有交叉航路,不存在平行航路,因此交叉航路匯聚點(diǎn)處會出現(xiàn)不同類航跡點(diǎn)ε鄰域的交疊,即Ti和Tj,這樣將會引起錯誤的聚類。但是通過引入速度和航向特征可以很好地區(qū)分這2種航跡,從而將其標(biāo)記為不同的類型。反之,對于同航路同航向且速度近似的航跡將被聚類為同一類簇,即Tm和Tn。
圖1 軌跡特征與正常航跡模式的聯(lián)系Fig.1 Relationship between track characteristics and normal track patterns
此外,DBSCAN基于歐氏距離判定航跡點(diǎn)之間的鄰居關(guān)系。如果將這3個特征納入歐氏距離計算會增加算法的運(yùn)算時間。因此,為了兼顧速度、航向和高度層特征而又不增加歐氏距離計算復(fù)雜度,本文將3個特征以約束形式(式(2~4))引入DBSCAN算法進(jìn)行改進(jìn),以使其適用于正常航跡模式的提取
式中{hk,hk+1}?H。
式中:H為高度層約束集合;hk為第k個飛行高度層的下邊界高度值,因此對于滿足高度層約束(2)的兩航空器航跡點(diǎn)和將位于同一高度層中,可近似投影為hk所在平面進(jìn)行DBSCAN聚類,而無須在三維空間進(jìn)行空間距離計算,節(jié)省計算時間。這即是“高度層劃分策略”。速度和航向約束為式(3,4),其中δv和δθ分別為速度閾值和航向閾值??梢砸罁?jù)飛機(jī)性能參數(shù)設(shè)定,從而辨識出相同飛行行為的航跡模式。此外,算法并未讓式(1)中的時間特征參與計算,而是將其作為附加屬性,置于提取的正常航跡模式中。這主要是考慮到時間和空間度量尺不具有相同物理量綱,以及ADS-B數(shù)據(jù)的時間點(diǎn)由于異步解析可能無法對齊。因此,同一正常航跡模式中將存在時間不同而在空間上相似的軌跡。
2.2.2 局部異常因子
雖然,在大部分時間下,飛機(jī)的航跡數(shù)據(jù)均屬于正常航跡模式。但是過濾掉一些隱藏的異常模式,對本文借助模式匹配來辨識異常飛行行為是有必要的。原始的DBSCAN的異常點(diǎn)剔除能力有限,依賴于參數(shù)ε和μ。為了獲得較為干凈的正常航跡模式,繼續(xù)在DBSCAN的鄰居判別過程中引入局部異常因子(Local outlier factor,LOF)[11]lrdμ(p)=
式 中:|neighborPts(p)|為p的 鄰 居 個 數(shù);reachDistμ(p,q)表示p和p的鄰居q之間在密度為μ條件下的可達(dá)距離;lrdμ(p)為航跡點(diǎn)p的局部可達(dá) 密 度;LOFμ(p)為p的 局 部 異 常 因 子。當(dāng)LOFμ(p)≤1時,則p的局部可達(dá)密度與其鄰居航跡點(diǎn)相接近,可視為屬于同一類簇;否則,p為離群的異常點(diǎn),進(jìn)行剔除。
2.2.3 快速覆蓋樹
除此之外,DBSCAN和LOF的計算均以蠻力算法來尋找鄰居對象,時間成本較高,不能滿足航跡大數(shù)據(jù)的快速分析要求。本文提出構(gòu)建ADS-B航跡數(shù)據(jù)集的快速覆蓋樹數(shù)據(jù)結(jié)構(gòu)[13]來降低鄰居查找過程的時間消耗。對一棵快速覆蓋樹而言,任意結(jié)點(diǎn)均包含一個單一的航跡點(diǎn)數(shù)據(jù),并且滿足3個不變量約束:
(1)層次不變量即結(jié)點(diǎn)a所對應(yīng)的一個關(guān)聯(lián)整數(shù)level(a)。并且對結(jié)點(diǎn)a的子結(jié)點(diǎn)b存在如下等式約束關(guān)系
(2)覆 蓋 不 變 量 定 義 為covdist(a)=2level(a)。結(jié)點(diǎn)a和其子結(jié)點(diǎn)b的距離滿足如下約束關(guān)系
(3)分離不變量定義為sepdist(a)=2level(a)-1。結(jié)點(diǎn)a的任意兩個子結(jié)點(diǎn)b1、b2的距離滿足如下約束關(guān)系
依據(jù)上述結(jié)點(diǎn)與子結(jié)點(diǎn)約束關(guān)系可知,從根結(jié)點(diǎn)出發(fā),每個父結(jié)點(diǎn)均向下覆蓋其子結(jié)點(diǎn),即子結(jié)點(diǎn)對應(yīng)航跡點(diǎn)為其父結(jié)點(diǎn)對應(yīng)航跡點(diǎn)的鄰居?;谏鲜黾s束規(guī)則可以構(gòu)建ADS-B航跡數(shù)據(jù)集對應(yīng)的一棵快速覆蓋樹。
為了在快速覆蓋樹中查找航跡點(diǎn)p的鄰居,設(shè)結(jié)點(diǎn)a的子結(jié)點(diǎn)集合為children(a),后代結(jié)點(diǎn)集合為descendant(a),定義結(jié)點(diǎn)a到其后代結(jié)點(diǎn)之間的最大距離為
從根結(jié)點(diǎn)出發(fā)查找p的鄰居。分別向下按層次尋找p所屬的覆蓋結(jié)點(diǎn)。對某層p所屬結(jié)點(diǎn)a,計算該航跡點(diǎn)與結(jié)點(diǎn)a的各子結(jié)點(diǎn)b之間的距離,并按距離從小到大排序考察結(jié)點(diǎn)a及其子結(jié)點(diǎn)b和航跡點(diǎn)p是否滿足如下約束
若滿足,則該子結(jié)點(diǎn)是p在快速覆蓋樹下一層次所屬的覆蓋結(jié)點(diǎn)。重復(fù)該步驟,直到所有子結(jié)點(diǎn)均不滿足式(11),則該父結(jié)點(diǎn)為p的鄰居。依據(jù)文獻(xiàn)[13]可知,n結(jié)點(diǎn)快速覆蓋樹的查找時間復(fù)雜度為O(c6logn),其中c為常量,一般取2。故相對于使用蠻力算法查找鄰居航跡點(diǎn)的冪級時間復(fù)雜度來說,使用快速覆蓋樹數(shù)據(jù)結(jié)構(gòu)降低了算法查找鄰居的時間成本。
2.2.4 LOFDBSC-SDH算法
將基于上述方案改進(jìn)DBSCAN提取正常航跡模式的算法稱為LOFDBSC-SDH,相關(guān)符號定義如表2所示,其偽代碼如算法1 所示。算法第2行首先基于ε鄰居半徑標(biāo)準(zhǔn),按2.2.3 節(jié)所述方法將輸入的航跡點(diǎn)逐步插入到快速覆蓋樹相應(yīng)結(jié)點(diǎn),形成ADS-B航跡數(shù)據(jù)集對應(yīng)的完整快速覆蓋樹,即建立算法的快速鄰居搜索空間。算法第7行和18~28行在鄰居搜索環(huán)節(jié)引入高度層約束[hk,hk+1]、速度約束δv和航向約束δθ,結(jié)合密度閾值μ完成同類航跡地辨識。算法8 ~11行基于上述鄰居結(jié)果計算該航跡點(diǎn)的LOF值,辨識異常點(diǎn)。將異常點(diǎn)及其鄰居一并剔除,節(jié)省算法聚類時間。待航跡數(shù)據(jù)中異常點(diǎn)剔除后,從第12~17行開始利用mergeClusters方法(34~41行)進(jìn)行正常航跡類簇地合并,最終提取得到正常航跡模式。
表2 符號定義表Table2 Symbol definition
算法1LOFDBSC-SDH算法
結(jié)合LOFDBSC-SDH算法的設(shè)計思路和航空器實(shí)際運(yùn)行場景,參數(shù)ε可取最小水平間隔,而參數(shù)密度閾值μ則一般依據(jù)經(jīng)驗(yàn)設(shè)定[16]。
異常飛行行為雖然有偏航和間隔縮小等具體形式,但是從宏觀角度來看就是不同于正常航跡的異常模式。因此,基于匹配算法辨識實(shí)際航跡是否歸屬于正常航跡模式,將未匹配上的航跡認(rèn)為存在異常飛行行為。
航跡中包含航路點(diǎn)、轉(zhuǎn)彎起始點(diǎn)、轉(zhuǎn)彎結(jié)束點(diǎn)等有效特征,常規(guī)對全航跡實(shí)施匹配的方法可能忽略掉這些局部特征。因此,基于航跡劃分對其子軌跡實(shí)施匹配以克服該問題,同時也可降低單次匹配的時間消耗。最小描述長度(Minimum description length,MDL)[17]能夠?yàn)槟撤N模式類中的所有成員尋找不可約、最小的特征表達(dá)方式。由于文獻(xiàn)[17]提出的MDL是用于二維軌跡劃分,因此本文首先采用2.2.1 節(jié)提出的高度層劃分策略提取同高度層子軌跡,然后將子軌跡投影至高度層平面按MDL算法進(jìn)行劃分,獲取該子軌跡的有效特征表達(dá)。
基于航跡匹配辨識異常飛行行為需要采用合適的相似性度量。由于歐式距離EucDistance對軌跡點(diǎn)的時間偏移敏感,動態(tài)時間規(guī)整距離時間復(fù)雜度高,最大公共子軌跡距離對稀疏軌跡度量效果較差,本文從軌跡差異度的角度進(jìn)行分析,采用Hausdorff距離[17]來實(shí)現(xiàn)軌跡距離度量,并引入時間、速度和航向因素對其進(jìn)行改進(jìn),以更好地判斷異常飛行行為。
進(jìn)而得到式(13~14)構(gòu)造兩航跡Hausdorff距離計算式(15)
依據(jù)相似性匹配算法,如算法2 所示,最終可分別在各高度層內(nèi)完成子軌跡的相似性匹配,辨識異常飛行行為。
本文選取華東地區(qū)某空域ADS-B接收機(jī)所獲取的2019-12-1至2019-12-30清洗后的1776207條有效航跡數(shù)據(jù)記錄作為訓(xùn)練數(shù)據(jù)集,2019-12-31清洗后56572條有效航跡數(shù)據(jù)作為測試數(shù)據(jù)集。首先基于LOFDBSC-SDH算法利用訓(xùn)練數(shù)據(jù)提取正常航跡模式,其中ε取最小水平間隔10km[18],μ取50,高度層約束H設(shè)置參考文獻(xiàn)[18],依據(jù)速度航向變化 值的 統(tǒng)計分析,δv取100m/s,δθ取10°。然后,基于δTD=2000ms運(yùn)用匹配算法辨識測試數(shù)據(jù)集中的異常飛行行為。
最后,為了驗(yàn)證本文提出異常飛行行為挖掘方案的準(zhǔn)確性,取清洗后的2019-11-31的63129條有效正常航跡(共2107個航班)數(shù)據(jù),對其中100個航班的高度數(shù)據(jù)進(jìn)行分段切分、混合后再拼接操作,構(gòu)造異常飛行行為航跡樣本數(shù)據(jù),并給定標(biāo)簽1;然后繼續(xù)各選取100個航班做速度、航向數(shù)據(jù)的相同處理,其中航向異常數(shù)據(jù),即空間位置的偏差異常,故其構(gòu)造需要將航向數(shù)據(jù)連同經(jīng)緯度數(shù)據(jù)一并更換,分別給定標(biāo)簽2和3,最終生成300個異常飛行行為的航班航跡數(shù)據(jù)。其余未處理數(shù)據(jù)給定標(biāo)簽0,視為正常飛行航跡樣。最終形成驗(yàn)證數(shù)據(jù)集。按照上述相同的異常飛行行為挖掘步驟處理驗(yàn)證數(shù)據(jù)集,分析本文方法的準(zhǔn)確率。
4.2.1 真實(shí)場景異常飛行行為挖掘
對4.1 節(jié)所述訓(xùn)練數(shù)據(jù)集,使用本文提出的LOFDBSC-SDH算法提取飛機(jī)正常航跡模式,共獲得124種正常航跡模式,其可視化結(jié)果如圖2(a)所示。從結(jié)果可知,LOFDBSC-SDH算法相較于基線算法DBSCAN,如圖2(b),所提取得到的正常航跡模式其輪廓更為清晰,離群點(diǎn)較少,方向性更強(qiáng);圖2(c)左下角的許多航跡模式在LOFDBSC-SDH算法作用下得到強(qiáng)化(紅色虛線區(qū)域),同時圖2(b)中心部分的橙色航跡表征出了該空域內(nèi)的交叉航路事實(shí),具有典型的代表性。綜上所述,本文提出的LOFDBSC-SDH算法通過引入局部異常因子提高了算法DBSCAN的離群點(diǎn)剔除能力,可以獲取較為干凈的正常航跡模式,降低離群點(diǎn)對航跡匹配的干擾。
進(jìn)一步采用3.2 節(jié)異常飛行行為辨識方法對華東地區(qū)某研究空域某日全天航跡進(jìn)行異常飛行行為挖掘,結(jié)果如圖2(c)所示。該航班直接從常熟市和張家港市上空飛躍,而查閱航圖數(shù)據(jù)發(fā)現(xiàn)并無此航路,可以肯定存在異常飛行行為。
4.2.2 實(shí)驗(yàn)結(jié)果分析
在正常航跡模式數(shù)據(jù)庫中,按時間節(jié)點(diǎn)和高度層約束進(jìn)行檢索,分析數(shù)據(jù),發(fā)現(xiàn)圖2(b)中的異常飛行行為主要與正常航跡模式66存在一定聯(lián)系,其所在時間、高度層、經(jīng)度與模式66基本一致,但是在緯度、航向和速度分布上存在較大差異,如圖3所示。該異常飛行行為的航班的飛行速度呈現(xiàn)加速狀態(tài),與正常模式66所顯示出的勻速變化狀態(tài)相異。此外,圖2(b)顯示器航跡不同于圖2(a)中的各典型正常航跡模式,即從常熟市上空直接匯入正常航跡所在航路,該事實(shí)與圖3所示與正常航跡模式存在顯著緯度差異、23200~23400ms時間區(qū)間內(nèi)存在顯著航向差異的實(shí)驗(yàn)結(jié)果相符。
圖2 華東地區(qū)某研究空域Fig.2 Research airspace in East China
圖3 異常飛行行為特征曲線Fig.3 Characteristic curves of abnormal flight behaviors
因此,本文所提出的方案挖掘出了實(shí)際ADSB數(shù)據(jù)中存在的違反速度和航向約束的異常飛行行為。
4.2.3 準(zhǔn)確率分析
在驗(yàn)證數(shù)據(jù)集上,按4.2.1 節(jié)相同實(shí)驗(yàn)步驟進(jìn)行異常飛行行為地挖掘辨識。對有效結(jié)果進(jìn)行統(tǒng)計分析,如表3所示。本文所提出的方案在驗(yàn)證數(shù)據(jù)集上能夠辨識出其中93.3 %的異常飛行行為,其中高度異常辨識準(zhǔn)確度為91%,速度異常辨識準(zhǔn)確度為96%,而航向異常辨識準(zhǔn)確度為93%。需要注意的是,位置異常是這3種異常的最終表現(xiàn),包含于總體準(zhǔn)確性表述中。
表3 異常飛行行為挖掘準(zhǔn)確性Table3 Mining accuracy of abnormal flight behaviors %
綜上所述,實(shí)驗(yàn)結(jié)果表明本文所提出的異常飛行行為挖掘方法對于實(shí)際飛機(jī)的異常飛行行為挖掘是有效的;并且,從異常飛行行為的產(chǎn)生機(jī)理出發(fā),挖掘辨識飛機(jī)的過點(diǎn)時間、高度、速度和航向特征來判定飛機(jī)的異常狀態(tài),相較于引言中相關(guān)文獻(xiàn)算法只通過空間位置特征偏差判定飛機(jī)異常飛行的做法,本文的方案更為合理。
4.3.1 聚類質(zhì)量分析
對于沒有基準(zhǔn)的數(shù)據(jù)集,一般采用內(nèi)在方法來評 估 聚 類 質(zhì) 量,DAVIES-BOULDIN指 標(biāo)[16],即DBI,就是一種有效的方法,其定義如下
表4 算法DBI比較Table4 Comparison of DBIs
從表4結(jié)果可知,LOFDBSC-SDH算法相較于傳統(tǒng)的DBSCAN算法具有更好的聚類效果,該評估結(jié)果與可視化結(jié)果圖2(a,b)一致。
4.3.2 算法運(yùn)行效率分析
本文對引言中多數(shù)文獻(xiàn)采用的基線算法DBSCAN、所提出的LOFDBSC-SDH算法以及引入快速覆蓋樹的FCT LOFDBSC-SDH進(jìn)行了運(yùn)行時間分析,其結(jié)果如圖4所示??梢?,LOFDBSC-SDH算法引入LOF后,雖然在正常航跡模式的提取上取得了較好的效果,但是增大了算法的時間復(fù)雜度,運(yùn)行時間有所增加。之后引入快速覆蓋樹數(shù)據(jù)結(jié)構(gòu),預(yù)先構(gòu)建ADS-B航跡數(shù)據(jù)的鄰居搜索空間,加快了算法鄰居計算速度,降低了算法的時間復(fù)雜度,運(yùn)行所需時間減少。因此,基于快速覆蓋樹的LOFDBSCSDH算法在實(shí)驗(yàn)結(jié)果的優(yōu)良性和算法的時間復(fù)雜度上做出一種良好地平衡,可以應(yīng)用于海量ADS-B航跡數(shù)據(jù)的正常航跡模式提取,輔助異常飛行行為的辨識,規(guī)避引言相關(guān)方案[8,11-12]的不足。
圖4 算法性能比較Fig.4 Comparison of algorithm performance
本文提出了一套LOFDBSC-SDH密度聚類算法和匹配算法相結(jié)合的異常飛行行為挖掘方案。首先,為了克服傳統(tǒng)方法只以飛機(jī)空間位置偏差作為異常飛行行為判定的不足,考慮異常飛行行為的產(chǎn)生原因,提出在位置異?;A(chǔ)上進(jìn)一步考慮速度、高度和航向異常特征來設(shè)計挖掘算法。其次,為了彌補(bǔ)傳統(tǒng)算法水平擴(kuò)展局限性,提出高度層劃分策略規(guī)避算法不必要聚類過程,并結(jié)合局部異常因子和快速覆蓋樹提出LOFDBSC-SDH算法,對海量ADS-B航跡數(shù)據(jù)進(jìn)行正常航跡模式的快速、有效提取。然后,考慮過點(diǎn)時間和高度、速度、航向3個異常特征,設(shè)計相似度匹配算法來挖掘辨識異常飛行模式。最后,算法的DBI指標(biāo)和運(yùn)行時間實(shí)驗(yàn)表明,本文提出的LOFDBSC-SDH算法克服了傳統(tǒng)DBSCAN的水平可擴(kuò)展局限性,并提高了聚類的精度;而仿真實(shí)驗(yàn)結(jié)果表明所述方案能夠有效辨識存在位置、速度、高度和航向異常的飛行行為,彌補(bǔ)了傳統(tǒng)方法只能辨識空間位置偏差異常的不足;采用實(shí)際ADS-B數(shù)據(jù)的實(shí)驗(yàn)表明本文的方案能夠挖掘真實(shí)運(yùn)行場景中的異常飛行行為,具有良好地應(yīng)用價值。
不過,本文方案還無法有效解決惡劣天氣等環(huán)境因素所帶來的影響等問題,需要在接下來的研究中引入多源數(shù)據(jù)進(jìn)行進(jìn)一步改進(jìn)。