陳亞青,張可欣,李穎哲
(1.民航飛行技術與飛行安全重點實驗室,廣漢 618307;2.中國民用航空飛行學院民航飛行技術與飛行安全科研基地,廣漢 618307;3.中國民用航空飛行學院空中交通管理學院,廣漢 618307)
隨著世界經濟的發(fā)展,我國交通運輸行業(yè)尤其是民航業(yè)前進速度突出,隨之而來的運行壓力也與日俱增。在此背景下,提高我國民航的運行效率成為一個不可忽視的問題,提高跑道運行效率則是解決問題的一種重要手段。提高跑道運行效率最直接的方法是改擴建,但土地價格激增以及征地難度上升都造成了改擴建難以真正實現(xiàn)。行之有效的方法是研究并優(yōu)化跑道占用時間來提升跑道運行效率。研究跑道占用時間需要構建跑道占用時間預測模型,基于實際運行數據,分別利用人工神經網絡(ANN)、循環(huán)神經網絡(RNN)、極度梯度提升樹(XGBoost)、支持向量機(SVM)四種機器學習的方法構建跑道占用時間預測模型,對比分析預測模型運行結果。研究結果表明,基于RNN的跑道占用時間預測模型預測效果優(yōu)于其他三種模型,該結果可為后續(xù)研究跑道占用時間提供參考。
國外對跑道占用時間預測模型的相關研究可以追溯到1984 年,Weiss 等[1]研究了航空器的尾流類別和跑道表面條件對跑道占用時間的影響。1990 年,Ruhl[2]提出了一個根據航空器的不同類型參數來預測跑道占用時間的模型。2001 年,Martinez 等[3]利用人工采集數據,對跑道占用時間進行模擬,最后得出了不同機型的航空器著陸跑道占用時間存在明顯差距,輕型機的平均占用時間為45 s,中型機為50 s,這兩類機型占用時間標準偏差為10 s。重型機的平均占用時間則達到了55 s,且標準偏差為6 s。2008年,Capri等[4]研究出了一種新的仿真模型,該模型可以利用車輛來跟隨航空器,更加詳細地模擬了航空器的滑行運動軌跡,相比傳統(tǒng)的離散時間仿真模型來說研究精度得到了很大的提升。2013年,Tamsa 等[5]從四個不同機場利用ADS-B 等設備提取了相關運行數據,經過分析后得出了具有快速脫離道的跑道占用時間可以得到顯著的縮短,此外還證明了航空器的類型并不是著陸跑道占用時間的關鍵性影響因素。2017 年,歐控中心與代爾夫特理工大學基于法國戴高樂國際機場的航空器運行數據[6],研究出了一種基于復合機器學習方法的跑道占用時間預測模型,該模型可以預測選定跑道30 分鐘之內的航空器著陸次數以及每架航空器的跑道占用時間。
國內在這方面也有一些研究,2016 年康瑞等[7]學者將跑滑結構作為主要影響因素,通過建立跑道占用時間計算模型評估其對跑道容量的影響。2018 年高偉等[8]將跑道進出口布局、起飛等待點布局、占用時間及機型等因素的影響考慮在內利用蒙特卡洛方法仿真研究了起降航空器跑道運行效率。2019年金京等[9]以B-737機型為研究對象,建立了航空器著陸跑道占用時間統(tǒng)計模型,并以QAR 實際運行數據做對比驗證了模型計算準確性??傮w而言國內對跑道占用時間的研究相對較少并且研究的內容尚不夠全面,仍需進一步推進研究。為此擬基于機載QAR 數據采,建立四種基于機器學習的跑道占用時間預測模型并驗證了模型的精度,提出一種預測效果更好的跑道占用時間預測模型。
機器學習(machine learning,ML)是一種基于大量的歷史數據集,利用計算機對其進行分析學習并從中找到規(guī)律以便對未來的情況進行預測的過程。機器學習算法根據歷史數據生成模型,并通過學習對模型進行改進使其精度不斷提升,模型成熟后可以根據新輸入數據來進行預測結果的輸出。近些年,越來越多的成熟的機器學習改進算法被各國學者研發(fā)推廣,已經被廣泛應用于生產生活的各個領域。機器學習可以按照訓練數據集是否含標簽分為監(jiān)督學習和非監(jiān)督學習兩大類,本文采用的方法是監(jiān)督學習。監(jiān)督學習中包含神經網絡,極限學習機,極度梯度提升樹等,本文采用以上算法建立跑道占用時間預測模型。
2.1.1 人工神經網絡
人工神經網絡[10](artificial neural network,ANN)也是應用廣泛的神經網絡,其原理結構來自于生物神經網絡,人工神經網絡被廣泛運用在數值預測與計算估計。最基礎的人工神經網絡處理單元是單層神經網絡,也被稱為人工神經元,其模型如圖1所示。其中模型的輸入分別為元素X1、X2、X3,其對應的權重為W1、W2、W3,在處理單元中包含輸入的函數圖>,以及激活函數f,輸出單元則包括處理后輸出的結果函數f。
圖1 單層神經網絡
2.1.2 循環(huán)神經網絡
循環(huán)神經網絡[11](recurrent neural network,RNN)的基本來源是1982 年由Saratha Sathasivam提出的霍普菲爾德網絡。與一般的神經網絡不同,循環(huán)神經網絡的基本結構是多個基本組成相同的神經元,每個神經元直接互相影響,在循環(huán)神經網絡的內部存在很強的記憶性,每個神經元的輸入依賴于其前一個神經元的輸出,神經元之間的連接具有重復性。整體的循環(huán)神經網絡可以看作是一個單一的神經元的輸出不斷作為其輸出循環(huán)的進行運算并得出最終的結果,具有非常強的時序性。經典的循環(huán)神經網絡結構如圖2所示。
圖2 經典循環(huán)神經網絡結構
極度梯度提升樹算法[12](XGBoost算法)是梯度提升算法(Boost 算法)的一種實現(xiàn)方式。XGBoost 算法的基本思想就是不斷生成新的樹,后一棵樹基于前一棵樹的結果和實際值yi的差值來進行學習,從而降低模型的偏差。
最終模型結果的輸出如下:
支持向量機[13(]support vector machine,SVM)是由Vapnik 等學者在二十世紀九十年代提出的算法。支持向量機的原理依據來自于統(tǒng)計學習,尤其是其中的風險最小原理,其本質是二元分類器的一種。支持向量機的結構可以簡單描述為輸入層、核空間以及輸出層。一般情況下支持向量機被用來處理回歸(support vector regression,SVR)問題和分類(support vector classify,SVC)問題。在處理分類問題時,支持向量機采用核函數將數據從低維度映射高維度空間后尋找一個最優(yōu)的超平面將向量充分分割,使分割后的兩部分數據點離平面的距離最遠,降低了維度災難和計算復雜度。分類過程的關鍵是利用核函數把復雜的分類過程通過映射轉化成一個線性可分問題。利用核函數計算值K(xi,x)表達多維向量內積,計算t時間段內的前m數據(即數據時間窗口為m),輸出預測結果,其原理如圖3所示。
圖3 支持向量機原理
處理回歸問題時[14],支持向量機的訓練集的實數域記為yi。此時計算訓練數據與所建立的回歸函數之間的差值,若其差值小于等于ε,則認為算法成立,其數學模型可表示為
圖4 支持向量機回歸原理
基于歷史運行數據,將不同影響因素考慮在內,分別采用人工神經網絡、循環(huán)神經網絡、極度梯度提升樹以及支持向量機這四種不同種類機器學習方法,建立航空器跑道占用時間預測模型,比較不同預測模型預測精度。具體可以簡要描述為以下三個步驟:①數據收集以及數據處理;②跑道占用時間預測模型的建立;③預測結果對比分析。
基于收集到的武漢天河機場、北京首都機場、重慶江北機場、太原武宿機場、海口美蘭機場、廣州白云機場等六個機場的空客320飛機機載QAR 數據。選取氣溫、風速、風向、能見度、滑行距離、脫離道口角度、跑道入口速度、跑道出口速度、機場標高九種QAR 數據,作為參數構建跑道占用時間預測模型。
QAR 數據作為飛行分析常用數據源雖然有數據種類多、數據量大的優(yōu)點,但其原始數據也存在數據缺失,數據單位不統(tǒng)一等缺點,造成數據不可以直接使用。對數據進行清洗[15],補充缺失數據、刪除不可用數據。清洗后對數據分布進行分析,結果如圖5所示,可以看出各類數據的數值從十幾到上千差距很大,且數據分布不均。因此,在建立預測模型前,要對收集到的數據進行降維處理,以保證去除數值對模型的貢獻程度差異過大而造成的計算誤差。
圖5 數據分布
對各影響因素的相關性進行分析,結果見表1,發(fā)現(xiàn)各因素之間在0.01水平(雙側)上顯著相關,因此可以利用主成分分析法對數據進行降維。對數據進行總解釋方差分析發(fā)現(xiàn),九個影響因素可以轉換為四種主成分,其旋轉成分矩陣如表2所示。
表1 相關性
表2 成份矩陣
利用經預處理并降維后的包括溫度、風速、風向、能見度、滑行距離、脫離道口角度、跑道入口速度、跑道出口速度、機場標高在內的數據作為參數,分別采用人工神經網絡、循環(huán)神經網絡、極度梯度提升樹以及支持向量機四種機器學習方法建立預測模型,其流程如圖6所示。
圖6 模型構建流程
分別將建立的四種不同的預測模型所輸出的預測值與實際運行數據進行對比,對預測模型的準確性進行對比驗證,選出最適宜用于建立跑道占用時間預測模型的機器學習方法,其對比結果分別如圖7—圖10所示。
圖7 基于ANN的跑道占用時間預測模型
圖8 基于RNN的跑道占用時間預測模型
圖9 基于XGBoost的跑道占用時間預測模型
圖10 基于SVM的跑道占用時間預測模型
從以上四張預測結果對比圖形可以看出,XGBoost模型、RNN模型預測值與實際值重合度更高。為了更好地對四種模型的預測效果進行對比,本文進一步計算了四種預測模型預測值的均方誤差,平均絕對誤差以及平均絕對百分比誤差進行評價,其結果見表3。
表3 模型誤差對比
從表3數據對比可以看出四個模型中,RNN模型的三種誤差都是相對較小的,基于RNN 的跑道占用時間計算模型的預測效果在所建立的四種預測模型中是最好的。
研究基于實際運行數據,對數據進行處理分析后,分別利用四種不同機器學習方法建立了跑道占用時間預測模型。將建立的四種預測模型預測結果以及預測誤差進行對比分析后得出,RNN 模型的均方誤差、平均絕對誤差、平均絕對百分比誤差分別為21.5195、3.5130、0.0530,誤差相對較小,且其預測值與實際值的吻合度也相對較高;而基于SVM 的跑道占用時間預測模型的均方誤差達到了31.3156,由其預測值與實際值的對比圖也可以看出偏差較大,在建立的四種模型中精度最低。說明基于RNN的跑道占用時間預測模型具有一定的優(yōu)越性,RNN 方法更適用于預測跑道占用時間,該結論可以為后續(xù)跑道占用時間預測模型的研究提供一定參考。