石 晶,彭其淵,文 超,郭一唯,劉 嶺
(1.北京全路通信信號研究設計院集團有限公司 信號院,北京 100073;2.西南交通大學 交通運輸與物流學院,四川 成都 610031;3.西南交通大學 綜合交通運輸國家地方聯(lián)合工程實驗室,四川 成都610031;4.中國鐵道科學研究院集團有限公司 運輸及經濟研究所,北京 100081)
列車晚點是列車運行中由于受到干擾而發(fā)生的實際運行線偏離圖定運行線的現(xiàn)象。正常的列車運行秩序會因為列車晚點而受到擾亂,鐵路運輸產品的質量降低,影響旅客出行計劃安排,也不利于行車安全。由于列車運行線間的關聯(lián)性,列車晚點往往會向后傳播,干擾后續(xù)列車的準點運行[1]。為此,列車調度員需要根據(jù)列車運行位置、速度及與前后車的距離,實時調整列車運行圖,以控制和減小晚點傳播的影響[2]。列車晚點預測可以為調度員提供列車運行調整的依據(jù),以節(jié)省旅客的等待時間,優(yōu)化旅客出行體驗,提升綜合交通網(wǎng)絡總體運能和服務質量,對自動化調度指揮系統(tǒng)的實現(xiàn)和多方式交通方式協(xié)同發(fā)展至關重要。
國內外關于列車晚點預測的研究方法可以分為2 種。一種是假設晚點分布,基于列車運行沖突的機理和晚點傳播理論,運用計算機模擬等方法研究列車晚點相關問題[3-4];另一種是基于列車運行實績數(shù)據(jù),分析晚點概率分布及影響[5-10],并將模糊Petri 網(wǎng)絡模型[7]、神經網(wǎng)絡模型[8]、基于馬爾科夫鏈的模型及數(shù)據(jù)驅動方法[9]用于列車晚點預測。隨著神經網(wǎng)絡算法的發(fā)展和列車運行數(shù)據(jù)量增長,基于神經網(wǎng)絡的列車運行晚點時間預測可以提高晚點時間預測的準確性,但基于實績數(shù)據(jù)的多層神經網(wǎng)絡模型訓練過程復雜、體量龐大,推算實時列車晚點時間耗時相對較長,而基于實績數(shù)據(jù)的邏輯回歸模型在計算速度上表現(xiàn)更優(yōu)。為此,結合鐵路列車實績晚點分布情況,選取廣義線性模型對晚點時間預測問題進行研究。
最初的列車晚點由列車運行過程中受到的干擾產生。由于車輛故障、線路故障、異物侵入等干擾因素引起的列車晚點稱為初始晚點,由于晚點傳播導致的列車晚點稱為連帶晚點。干擾具有傳播特性,某一列車的干擾會影響其他列車的運行。列車運行晚點傳播按方向可分為橫向晚點傳播和縱向晚點傳播2 種。列車受到干擾后偏離圖定時刻,如果其后方列車也受到干擾(即由一列車傳播給多列車的干擾)稱為橫向晚點傳播;若某一列車在某一車站或區(qū)間不能按圖行車,干擾影響延伸至前方車站或區(qū)間,稱為縱向晚點傳播。干擾具有累積效應,隨著干擾的數(shù)量和時間的增加,列車受影響程度增大。列車實績運行數(shù)據(jù)是干擾累積、調度決策和列車運行狀態(tài)共同導致的結果。由于列車運行干擾的隨機性,僅分析單一干擾的影響不能充分反映實際情況。因此,基于列車運行實績數(shù)據(jù),分析挖掘列車運行晚點時間的預測方法是較為直接有效的方法之一。
假定列車在區(qū)間運行采用準移動自動閉塞方式,采用目標距離控制模式,根據(jù)目標距離、目標速度及列車性能確定列車制動曲線。準移動閉塞的追蹤目標點是前行列車所占用閉塞分區(qū)的始端。為保證前后2 列車安全運行,存在追蹤間隔時間的限制,以保證車站辦理2 列車到達、出發(fā)或通過作業(yè)安全。為此,車站前后行列車到達晚點時間和出發(fā)晚點時間之間存在制約關系。
列車運行晚點時間被動關系網(wǎng)如圖1所示。圖1中共有q個車站,通過因子間的被動關系形成關系網(wǎng)絡。將i- 1 站出發(fā)晚點時間DDi-1、i站前行列車到達晚點時間LADi、出發(fā)晚點時間LDDi看作i站列車到達晚點時間主要干擾因素,如圖1 中的紅色箭頭所示;將i站到達晚點時間ADi、前行列車i站出發(fā)晚點時間LDDi、i+ 1 站到達晚點時間LADi+1看作i站列車出發(fā)晚點時間主要干擾因素,如圖1 中的黑色箭頭所示。
圖1 列車運行晚點時間被動關系網(wǎng)Fig.1 Passive relation network of train delay time
以武廣高速鐵路(武漢—廣州南)列車運行數(shù)據(jù)為例,武廣高速鐵路長沙南—廣州北區(qū)段共有11 個車站,列車運行實績數(shù)據(jù)采集于CTC 系統(tǒng),包含途經各車站列車的圖定及實際到發(fā)時刻,可得到對應的到發(fā)晚點時間。由于車輛故障、線路故障、異物侵入等干擾因素導致的列車晚點[11]稱為初始晚點,具有較強的隨機性和不可預測性。因此,對原始數(shù)據(jù)進行預處理,剔除因初始干擾造成的初始晚點,剩余的數(shù)據(jù)是列車連帶晚點的數(shù)據(jù)。到達晚點時間頻數(shù)分布如圖2 所示,出發(fā)晚點時間頻數(shù)分布如圖3 所示
圖2 到達晚點時間頻數(shù)分布圖Fig.2 Arrival delay time distribution
圖3 出發(fā)晚點時間頻數(shù)分布圖Fig.3 Departure delay time distribution
由圖2、圖3 可知,列車晚點呈現(xiàn)明顯的正偏態(tài)分布,大部分晚點時間集中于10 min 之內。在連帶晚點的中,大晚點時間是影響旅客出行方式選擇、運輸方式銜接以及列車運行調度的重點,因此不能忽略大晚點時間因列車晚點傳播等因素對相關列車運行的影響。采用上述數(shù)據(jù),作為列車傳播晚點時間預測的數(shù)據(jù)。
由于晚點時間具有偏態(tài)分布的特性,為了保證大晚點預測的精確度,不宜采用基于概率的模型,而廣義回歸模型不需要關于變量分布的假設條件,包含非正態(tài)因變量的分析,拓展線性模型的框架,比較適合用于大晚點預測,為此選用廣義回歸模型作為預選模型。
對因變量Y和預測變量X1,X2,…,Xp間的關系進行建模。廣義回歸模型的擬合公式為
式中:g(μY)為條件均值函數(shù);g為連接函數(shù);μY為變量Y的條件均值;βj為未知參數(shù)。
設定連接函數(shù)和概率分布后,可以通過極大似然估計的多次迭代推導出各參數(shù)值。廣義回歸模型中,如果將連接函數(shù)設為logit 函數(shù),可以得到Logistic 回歸模型,如果將連接函數(shù)設置為log 函數(shù),可以得到Poisson 回歸模型。
依據(jù)《課程標準》,職業(yè)技術師范院校應在教師教育課程設置上體現(xiàn)育人為本、實踐取向和終身學習的基本理念,體現(xiàn)教育信念與責任、教育知識與能力、教育實踐與體驗這三個總體目標,滿足課程最低必修學分10學分、最低總學分14學分、最低教育實踐時間18周的要求,加強教育實踐環(huán)節(jié),提升教育實踐課程的管理水平和質量,大力推進課程改革,創(chuàng)新教師培養(yǎng)模式,探索合作培養(yǎng)師范生的新機制。
(1)Logistic 回歸模型。列車到達晚點時間作為因變量,可采用多分類Logistic 回歸用于列車到達晚點時間模型的建立,利用對數(shù)最大似然函數(shù)法求解多分類Logistic 回歸模型。記因變量y有n個取值,取值范圍為[0,n- 1],自變量Z有c類,Z= (z1,z2,…,zc),那么y的條件概率為
式中:p(y=k|z)表示y視作z類別標記為k的可能性。
相應Logistic 回歸模型的表達式為
式中:Yk為條件均值函數(shù);β1,k,β2,k,…,βc,k為偏回歸系數(shù)。
(2)Poisson 回歸模型。Poisson 回歸模型通過一系列連續(xù)型或類別型預測變量,預測計數(shù)型結果變量的有效工具。假設計數(shù)隨機變量Yi,其中i=1,2,…,n服從均值為λi的Poisson 分布,那么Yi的概率密度函數(shù)為
式中:P(Yi=yi)為n個獨立實驗中,該事件發(fā)生yi次的概率分布;λiyi為某事件總體的發(fā)生次數(shù)。
其對數(shù)似然函數(shù)方程為
將列車運行數(shù)據(jù)分為訓練集和測試集,運用訓練集訓練模型,測試集測試預測精度。在上述回歸模型中,確定較優(yōu)的列車晚點時間預測方法,比較分析預測精度和晚點分布。
從列車實績數(shù)據(jù)中可以提取晚點時間、區(qū)間運行時間、運行速度、間隔時間、停站時間、緩沖時間等因子,采用向后選擇法,構建回歸模型,根據(jù)F 統(tǒng)計量的P值確定哪個自變量對因變量有顯著影響。結果顯示,相關聯(lián)晚點時間對因變量具有顯著影響。因此,結合列車運行晚點時間相關關系,確定DDi-1,LADi,LDDi作為指定列車到達晚點時間ADi的預測因子;將ADi,LDDi,LADi+1作為指定列車出發(fā)晚點時間DDi的預測因子。經過數(shù)據(jù)初步處理,剩余列車到達晚點時間預測模型建模數(shù)據(jù)量59.91 萬,列車出發(fā)晚點時間預測模型建模數(shù)據(jù)量58.09 萬,相鄰到發(fā)晚點預測模型變量說明如表1 所示。
表1 相鄰到發(fā)晚點預測模型變量說明 minTab.1 Adjacent to the arrival and departure delay time prediction model of variable description
2.2.1 多重共線性檢測
預測因子間的線性相關性會影響回歸模型的參數(shù)估計并使得模型失真,需要通過構建多元線性規(guī)劃模型,并對預測因子做多重共線性檢驗,檢驗數(shù)據(jù)是否能夠達到構建回歸模型要求。晚點時間預測模型自變量的膨脹因子如表2 所示。表明存在多重共線性問題。由表2 可知,2 個模型的VIF值均有表明模型存在多重共線性問題,不能通過多重共線性檢測。因此,在構建預測模型之前,需要將預測因子進行主成分分析,通過降維的技術,將幾個預測因子化為少數(shù)主成分,消除因子間的高相關性。
表2 晚點時間預測模型自變量的膨脹因子Tab.2 VIF of independent variables in delay time prediction model
2.2.2 主成分分析
使用R 語言CARET 包中PREPROCESS 函數(shù),采用因子標準化和主成分分析方法,消除因子的高相關性。晚點預測模型因子方差貢獻率如表3 所示。
表3 晚點預測模型因子方差貢獻率 %Tab.3 Factor variance contribution rate of delay time prediction model
由表3 可知,保留PC1 和PC2 主成分,能夠達到累計方差貢獻率達到95%的要求,即能夠最大程度上保留因子的特征,因而保留主成分PC1和PC2 作為預測模型因子。
將建模數(shù)據(jù)中的70%作為訓練集,30%作為測試集。采用K 折交叉驗證方法(k= 5),使用預測模型精度、模型參數(shù)、真實值與預測值分布比較作為驗證指標。使用了R 語言中GLM 函數(shù)構建廣義回歸模型,預測列車晚點時間。以PC1,PC2為自變量,分別對到達晚點預測模型(因變量ADi)和出發(fā)晚點預測模型(因變量DDi)構建Logistic 回歸和Poisson 回歸模型。模型均可以通過顯著性檢驗(t 檢驗)。不同允許誤差下模型預測精度比較結果如表4 所示。由表4 可知,采用Logistic 回歸模型作為相鄰到發(fā)晚點時間預測模型預測效果更優(yōu)。
表4 不同允許誤差下模型預測精度比較結果Tab.4 Comparison of model prediction accuracy under different allowable errors
模型預測精度評估參數(shù)結果如表5所示。由表5可知,模型的MAE、RMSE值較小,擬合優(yōu)度分別為0.96 和0.99,說明模型能夠充分說明解釋模型變量并較準確預測列車晚點時間大小。
表5 模型預測精度評估參數(shù)結果Tab.5 Model parameter results
由于列車晚點時間具有明顯正偏態(tài)分布的特性,且晚點時間具有跨度范圍大、標準偏差較大等特征,因而比較分析預測值與真實值。到達晚點時間模型和出發(fā)晚點時間模型的預測值和真實值變化趨勢圖如圖4 和圖5 所示。由圖4 和圖5 可知,預測值與真實值大小、范圍和變化趨勢符合較好,預測效果較好。
根據(jù)列車運行關系和相鄰晚點時間預測結果,確定預測j站某列車到達晚點時間ADj和出發(fā)晚點時間DDj的預測因子為i站到達晚點時間ADi、前行列車i站出發(fā)晚點時間LDDi,i+ 1 站到達晚點時間LADi+1,i站出發(fā)晚點預測時間p_DDi。模型變量說明如表6 所示。其中,相間車站的數(shù)量為w(w= 1,2,…,5),有w=j-i。
圖4 到達晚點時間預測模型預測結果Fig.4 Prediction results of arrival delay time prediction model
圖5 出發(fā)晚點時間預測模型預測結果Fig.5 Prediction results of departure delay time prediction model
表6 模型變量說明Tab.6 Model variable description
由于采集數(shù)據(jù)量限制,預測晚點時間相間車站w不同,對應的有效建模數(shù)據(jù)量不同。模型有效數(shù)據(jù)量如表7 所示。
相間到發(fā)晚點預測模型建模數(shù)據(jù)初步處理和預處理過程與相鄰到發(fā)晚點預測建模過程相同。根據(jù)模型預測精度比選和預測結果,結合真實值對比分布、變化趨勢等,確定Logistic 回歸模型為相間到發(fā)晚點預測模型的最優(yōu)模型。相間站點數(shù)量w對應的相間到達晚點時間預測精度如下圖6 所示;相間出發(fā)晚點時間預測精度圖7 所示。
表7 模型有效數(shù)據(jù)量Tab.7 Number of valid data for the model
圖6 相間到達晚點時間預測結果Fig.6 Prediction result of arrival delay time of following train
圖7 相間出發(fā)晚點時間預測結果Fig.7 Prediction result of departure delay time of following train
由圖6 和圖7 可知,隨著預測相隔站點數(shù)量逐漸增加,預測精度隨之降低。當w= 4 時,在2 min 允許誤差下,預測精度為67.26%;在3 min允許誤差下,預測精度80%以上;僅通過列車運行關系和晚點時間傳播規(guī)律預測較遠車站晚點時間精度有待提高,但是可以通過不斷修正預測因子數(shù)值,以提高預測精度。因此,此方法具有粗預測性、易修正性和快速響應性,可以作為旅客行程規(guī)劃及乘務組織的預警及參考。
(1)對于呈現(xiàn)正偏態(tài)分布的列車晚點時間預測,采用Logistic 回歸方法預測精度較高,且預測值與真實值的大小、變化趨勢和范圍較符合。
(2)相間到發(fā)晚點時間預測精度隨預測間隔車站數(shù)量的增加而下降。預測方法計算速度較快、推廣適用范圍廣泛,其具有的粗預測性、易修正性和快速響應性可作為旅客行程規(guī)劃、旅客乘降組織、車站大客流及乘務組織的預警及輔助參考。
(3)將來需要研究列車晚點時間預測的已知信息內容,如初始晚點致因、到發(fā)線運用計劃、車底接續(xù)方式,以提高預測精準度和空間距離廣度。