翟俐民,張建偉,韓云祥
(1.四川大學(xué)視覺合成圖形圖像技術(shù)國防重點學(xué)科實驗室,成都 610065;2.四川大學(xué)計算機學(xué)院,成都 610065)
近年來,隨著國民生活水平的提高和民航運輸業(yè)智能化的發(fā)展,空中交通流量急劇增加。根據(jù)2019 年民航行業(yè)發(fā)展統(tǒng)計公報[1]顯示,全行業(yè)完成旅客周轉(zhuǎn)量11705.30 億人公里,比上年增長9.3%,國內(nèi)航線完成旅客周轉(zhuǎn)量8520.22 億人公里,比上年增長8.0%,全行業(yè)完成旅客運輸量65993.42 萬人次,比上年增長7.9%,國內(nèi)航線完成旅客運輸量58567.99 萬人次,比上年增長6.9%。在航空器進(jìn)港時終端區(qū)域空中交通嚴(yán)重?fù)頂D的形勢下,航班延誤量逐年增加,不僅造成了極大的經(jīng)濟損失,還對旅客的安全帶來一定的隱患。航空器接近終端區(qū)時,通過對航路點和到達(dá)時刻的精確預(yù)測,對航空器進(jìn)行合理調(diào)度,可以有效提高空中交通運行效率和進(jìn)一步提供安全保障。歐美各國在航空器進(jìn)港時預(yù)計到達(dá)時刻預(yù)測方面的研究較國內(nèi)更早、更成熟,歐洲單一天空計劃(SESAR)和2015 年歐洲ATM 總體規(guī)劃概述了到2050 年實現(xiàn)“歐洲航空界在可持續(xù)航空產(chǎn)品和服務(wù)方面居世界領(lǐng)先地位,并滿足歐盟公民和社會需求”的愿景,準(zhǔn)確、可靠的空中交通軌跡預(yù)測模型(TBO)的開發(fā)是下一代國家航空運輸系統(tǒng)(NextGen)的主要目標(biāo),同時也包括終端區(qū)進(jìn)港航空器預(yù)計到達(dá)時刻預(yù)測模型。
國內(nèi)外學(xué)者在航空器預(yù)計到達(dá)時刻的研究中主要基于航空器性能參數(shù)與運動學(xué)模型以及數(shù)據(jù)挖掘與混合機器學(xué)習(xí)的研究方法。Hwang 等人[2]提出基于交互式多模型算法;張軍峰等人[3]提出一種狀態(tài)相關(guān)模態(tài)切換的混合估計算法(SDTHE);湯新民等人[4]構(gòu)造航空器狀態(tài)連續(xù)變化的混雜系統(tǒng)模型;馬光輝等人[5]利用動態(tài)時間規(guī)整與層次聚類方法對歷史雷達(dá)軌跡進(jìn)行分析;Bai 等人[6]在預(yù)測航空器到達(dá)時間中通過設(shè)置單變量與多變量的對比實驗,實時更新預(yù)測結(jié)果,同時將結(jié)果作為輸入變量用于航空器間隔保持算法;Mueller 等人[7]構(gòu)建基于性能的預(yù)測模型,通過模擬航空器在空域中的飛行軌跡,分析不同航行階段預(yù)測誤差的主要影響因素,包括飛機重量、推力等。上述研究主要以建立運動學(xué)模型為主,對歷史雷達(dá)數(shù)據(jù)和氣象信息等影響因素考慮較少。陳強等人[8]基于歷史雷達(dá)軌跡分析,通過RBF 神經(jīng)網(wǎng)絡(luò)構(gòu)建進(jìn)場航空器進(jìn)港時的高度、速度、進(jìn)場飛行距離與進(jìn)場飛行時間的映射關(guān)系,利用正交最小二乘算法設(shè)計基于RBF 神經(jīng)網(wǎng)絡(luò)的進(jìn)場飛行時間預(yù)測模型,在考慮航空器機型的情況下,將航空器飛行時間預(yù)測的均方根誤差控制在50s 以內(nèi);鄭志祥等人[9]通過分析航班信息、天氣信息以及空中交通信息,基于隨機森林算法構(gòu)建航空器到達(dá)時刻預(yù)測模型;李陽等[10]通過建立支持向量機訓(xùn)練集,使用LS-SVM 方法建立航空器進(jìn)場過程中的位置、高度、進(jìn)場飛行速度及所需時間之間關(guān)系,預(yù)測航空器進(jìn)場飛行時間,將航空器進(jìn)場飛行時間預(yù)測的均方根誤差控制在11s。以上研究僅考慮單一方法在ETA 預(yù)測上的應(yīng)用,對航空器進(jìn)港時到達(dá)時刻的影響因素考慮不夠全面,在預(yù)測時有機型等限制條件。本文基于歷史航跡數(shù)據(jù)進(jìn)行分析,利用層次聚類算法對航跡進(jìn)行分類,通過構(gòu)建LSTM 網(wǎng)絡(luò)預(yù)測模型,實現(xiàn)終端區(qū)進(jìn)港航空器到達(dá)時刻的精確預(yù)測。
聚類算法在許多實際工程中應(yīng)用廣泛,由于聚類規(guī)則的差異有不同的算法,包括基于層次的、基于密度的、基于劃分的、基于模型的和基于網(wǎng)格的算法等。各種算法之間沒有明確優(yōu)劣之分,通常根據(jù)對聚類對象和聚類結(jié)果的要求不同,選擇合適的聚類算法??紤]到聚類結(jié)果的不確定性和對聚類對象的距離相似度定義,本文采用層次聚類算法。層次聚類算法中,凝聚層次聚類相對于分裂層次聚類使用更為廣泛。
凝聚層次聚類中,首先以單條航跡作為一個初始航跡簇,計算所有航跡簇之間的相似度,逐步聚合與其相近的簇,直到某個聚類終止條件被滿足。
假設(shè)聚類航跡數(shù)據(jù)集T中的航跡條數(shù)為nt,則其距離矩陣大小為nt×nt。初始化聚類參數(shù):聚類終止判定閾值Dstop,離群航跡簇判定閾值Ddrop。將每條航跡Ti作為一個初始航跡簇Ci,C為航跡簇聚類結(jié)果集合。
計算兩兩航跡簇之間的距離,得到初始距離矩陣D。其中,兩條航跡之間的距離使用動態(tài)時間規(guī)整(DTW)進(jìn)行衡量,航跡簇之間的距離為簇中每條航跡與另一個簇中每條航跡之間距離求和后取平均得到。航跡點數(shù)據(jù)為三維位置信息,計算其歐氏距離為航跡點之間的相似度。
定義當(dāng)前航跡簇Ci的最小航跡簇間距離為D{Ci,Cj},航跡簇Cj為距離當(dāng)前航跡簇距離最小的簇,每輪聚類過程將D{Ci,Cj} 相等的簇歸為新的航跡簇中,同時將大于Ddrop的簇歸為離群航跡簇。每輪聚類結(jié)束后,若C中任意航跡簇間距離D{Ci,Cj} 均大于Dstop,則聚類終止;否則,重新計算并更新距離矩陣,進(jìn)入下一輪聚類過程。
聚類性能評價指標(biāo)使用戴維森堡丁指數(shù)(DBI),計算的是任意兩個類的類內(nèi)平均距離之和與兩聚類中心距離的比值,其計算公式為:
長短期記憶網(wǎng)絡(luò)是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。傳統(tǒng)的RNN 訓(xùn)練困難,隱藏層只有一個狀態(tài),對短期輸入非常敏感,在實際應(yīng)用中很難處理長距離依賴,而LSTM 作為一種改進(jìn)的RNN,成功地解決了傳統(tǒng)RNN的缺陷,通過增加狀態(tài)來保存長期輸入信息,從而更擅長處理時間序列問題,成為當(dāng)下最流行的RNN 之一,在語音識別、自然語言處理等領(lǐng)域有眾多應(yīng)用。
航空器預(yù)計到達(dá)時刻受多種因素影響,搜集了2019 年8 月到10 月成都雙流國際機場所有進(jìn)港航班數(shù)據(jù),其中包含:航跡點數(shù)據(jù)(經(jīng)度、緯度、航向、高度、水平速度、垂直速度、到達(dá)時間等)、航空器基本信息(航班號、機型等)以及氣象數(shù)據(jù)(風(fēng)速、風(fēng)向等)。此外,還包括終端區(qū)空中交通流信息以及雙流機場終端區(qū)標(biāo)準(zhǔn)進(jìn)場程序圖等。據(jù)分析,航跡點的采樣間隔約為15 秒,每天進(jìn)港的航班數(shù)量大約有400 到500架次。
獲取到的航跡數(shù)據(jù)中,會出現(xiàn)航跡數(shù)據(jù)缺失、航跡點數(shù)目過于稀疏以及航跡點數(shù)據(jù)重復(fù)等現(xiàn)象,需要對初始航跡數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。通過分析每條航跡的航跡點數(shù)目及其分布情況,將航跡數(shù)據(jù)缺失和航跡點較為稀疏的航跡排除,刪除重復(fù)航跡點數(shù)據(jù),同時,對于航跡點數(shù)目相對較少的航跡,采用數(shù)據(jù)插值的方式進(jìn)行數(shù)據(jù)增強。
將經(jīng)緯度坐標(biāo)數(shù)據(jù),通過墨卡托投影變換將其轉(zhuǎn)換為以機場為坐標(biāo)原點的二維平面坐標(biāo)數(shù)據(jù)。利用墨卡托投影正解公式,將經(jīng)緯度坐標(biāo)(B,L)轉(zhuǎn)換為平面直角坐標(biāo)系(X,Y),標(biāo)準(zhǔn)緯度B0,標(biāo)準(zhǔn)經(jīng)度L0,e為第一偏心率,e'為第二偏心率,a為長半軸長,b為短半軸長,坐標(biāo)系轉(zhuǎn)換公式為:
將層次聚類結(jié)果作為航跡分類類別通過數(shù)值編碼添加到特征數(shù)據(jù)中。對于類別型特征數(shù)據(jù)(如機型),通過One-hot 編碼將其轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。對數(shù)值型特征數(shù)據(jù)需要進(jìn)行歸一化與標(biāo)準(zhǔn)化處理,以消除由于不同特征之間量綱不同帶來的負(fù)面影響。
歸一化函數(shù)式為:
標(biāo)準(zhǔn)化函數(shù)式為:
基于層次聚類和LSTM 的航空器到達(dá)時刻預(yù)測步驟如下:
(1)選取訓(xùn)練集、驗證集和測試集。將預(yù)處理后的航跡數(shù)據(jù)按照航跡條數(shù)進(jìn)行隨機打亂,選取總樣本的80%作為訓(xùn)練集以進(jìn)行模型訓(xùn)練,10%作為驗證集進(jìn)行超參數(shù)調(diào)整和模型能力的初步評估,10%作為測試集來評估預(yù)測模型的泛化能力。
(2)判定航跡類別模型。對于訓(xùn)練樣本,通過構(gòu)建傳統(tǒng)分類模型對航跡進(jìn)行分類,不同類別的航跡進(jìn)港時位置、速度等信息差異較大,對預(yù)測模型的精確度有至關(guān)重要的影響。
(3)使用BP 神經(jīng)網(wǎng)絡(luò)和LSTM 網(wǎng)絡(luò)進(jìn)行對比實驗。BP 神經(jīng)網(wǎng)絡(luò)使用Sequential 順序模型,包含輸入層、隱藏層和輸出層。LSTM 網(wǎng)絡(luò)由重復(fù)的鏈?zhǔn)缴窠?jīng)網(wǎng)絡(luò)模塊組成,每個單元包含輸入門、遺忘門和輸出門。使用修正線性單元(Rectified Liner Unit)為激活函數(shù),分別使用Adam 和SGD 為優(yōu)化算法,以加快模型收斂速度。
(4)模型評價指標(biāo)。實驗結(jié)果的評估主要使用兩個評價指標(biāo),分別為均方根誤差(RMSE)和平均絕對誤差(MAE),公式分別為:
航跡聚類結(jié)果不同、分類模型準(zhǔn)確度以及ETA 預(yù)測模型參數(shù)不同對ETA 預(yù)測均有較大影響,將從以上幾方面對最終預(yù)測結(jié)果進(jìn)行分析。
對航跡進(jìn)行聚類時,由于在計算距離矩陣中使用的位置數(shù)據(jù)維度存在差異,聚類后的航跡簇類別個數(shù)也不同。使用經(jīng)緯度二維信息進(jìn)行聚類,聚類結(jié)果為6類。使用經(jīng)緯度和高度三維信息進(jìn)行聚類,聚類結(jié)果為8 類。相對于二維信息,增加高度維度使得航跡聚類時的分類效果更加精確,最終ETA 預(yù)測精確率提高了25%。
由于分類任務(wù)的復(fù)雜度較低,傳統(tǒng)的分類模型即可達(dá)到較好的效果,使用邏輯回歸和卷積神經(jīng)網(wǎng)絡(luò)分別對航跡類別進(jìn)行預(yù)測,其預(yù)測準(zhǔn)確度分別為97.02%和98.22%。
對于LSTM 網(wǎng)絡(luò),滑動窗口的大小對模型預(yù)測結(jié)果影響較大,當(dāng)窗口較大時,預(yù)測ETA 所考慮的航跡信息越多,但窗口過大會導(dǎo)致過擬合現(xiàn)象,使得模型泛化能力降低。LSTM 網(wǎng)絡(luò)預(yù)測精確率相對于BP 神經(jīng)網(wǎng)絡(luò)提高了18%,預(yù)測結(jié)果如表1。
表1 預(yù)計到達(dá)時刻(ETA)誤差分析對比表
本文從航跡點中的二維和三維位置數(shù)據(jù)出發(fā),利用層次聚類算法建立二維航跡聚類模型和三維航跡聚類模型,通過構(gòu)建邏輯回歸和卷積網(wǎng)絡(luò)傳統(tǒng)分類模型對航跡類別進(jìn)行分類,同時考慮航跡點中的位置、航向、速度與航空器到達(dá)時刻之間的映射關(guān)系,利用BP神經(jīng)網(wǎng)絡(luò)和LSTM 網(wǎng)絡(luò)建立預(yù)測模型。通過對比實驗發(fā)現(xiàn)可以將ETA 預(yù)測的均方根誤差控制在6s,具有較高的準(zhǔn)確率。但在分析對航空器預(yù)計到達(dá)時刻的影響因素時,對于空域狀態(tài)的評估仍有不足,同時在聚類過程中出現(xiàn)的離群航跡未進(jìn)行深入分析,后續(xù)將對此類問題做出進(jìn)一步研究。