陳建雄, 徐延軍,2
(1.上海船舶運輸科學研究所有限公司, 上海 200135;2.中遠海運科技股份有限公司, 上海 200135)
近年來,收費系統在我國高速公路運營管理系統中的應用不斷增多,電子不停車收費(Electronic Toll Collection,ETC)技術在汽車上的普及率不斷提高。高速公路收費站出入口作為交通路網的敏感點,經常出現擁堵現象,特別是在節(jié)假日期間,承受著巨大的車流壓力。與此同時,收費站出入口會產生大量交易數據,其中包含詳細的車輛信息,相比通過傳感器得到的數據,這些數據更加準確可靠,且獲取的成本較低,如何高效合理地利用這些數據已成為研究的熱點。目前國內外學者已針對收費站交通流量、通行能力等內容開展諸多研究。KOMADA等[1]證明了ETC和人工半自動收費(Manual Toll Collection,MTC)2類收費車道的基本圖與對應車輛的密度和比例有很強的相關性;孫德強[2]基于收費數據,從不同的時間維度(周、日、時)分析了高速公路的交通流特征,對收費人員排班模型進行了優(yōu)化。本文主要對收費站出入口交通流量進行研究,通過現有的數據挖掘和分析方法挖掘這些數據中隱藏的可靠信息,如相關性、周期性等;同時,對收費站出入口交通流量進行預測,幫助出行者規(guī)劃出行時間和路線,分散出入口的交通壓力,為交通管理者的管理決策提供參考。
本文以寧夏自治區(qū)銀川南收費站2021年的收費數據為研究對象進行分析。收費系統一般以1個工班日為單位統計收費站入口和出口全年的車流量,共有365條記錄,每條記錄中都包含時間、入口車流量和出口車流量等信息。
圖像觀測法的原理是直接繪制散點圖,其優(yōu)點是形象直觀,不足是缺少對相關參數的數據化度量。本文將收費站入口交通流量x作為自變量,將收費站出口交通流量y作為因變量,得到出入口交通流量散點圖見圖1。從圖1中可看出,收費站出入口交通流量之間存在明顯的正相關性,但對二者之間的相關度和相關可信度沒有數據化的度量。
圖1 出入口交通流量散點圖
科學計算法的原理是通過具體的數學計算方式揭示各變量之間的相關性[3],通過該方法可得到以下2個重要指標:
1) 皮爾森(Pearson)相關系數r,可準確地反映變量之間的相關程度,其值為[-1,1];
2) 顯著性水平p,用來衡量變量之間的關系,具體指不相關的概率,若相關系數為1,則p=0。
圖2 出入口交通流量皮爾森相關系數
在統計學中,一般當p>0.05時,數據之間的差異無顯著意義,這種結果可能是某種偶然因素導致的,不具有統計學意義[4]。
r的計算公式為
(1)
通過計算得到出入口交通流量皮爾森相關系數見圖2。從圖2中可看出,出入口交通流量之間的皮爾森相關系數為0.84。
通過T檢驗得到p=5.66×10-97,遠小于0.05,說明收費站出入口交通流量之間確實存在關系。一般用r的取值范圍判斷變量間的相關程度[5],收費站出入口交通流量之間的關系見表1。
表1 收費站出入口交通流量之間的關系
綜上所述,通過采用圖像觀測法和科學計算法進行驗證,可知銀川南收費站出入口交通流量之間存在著明顯的正相關關系。
根據全年365 d的收費站出入口交通流量數據得到出入口交通流量變化圖見圖3。選擇具有明顯規(guī)律性的部分作放大處理,觀察其變化是否存在規(guī)律。由圖3可知,出入口交通流量的變化存在周期性,周期為3~7 d。
a) 出口交通流量變化及部分放大圖
b) 入口交通流量變化及部分放大圖
將時序數據轉換為三角函數的線性組合,得到的各展開項的系數就是傅里葉系數。傅里葉系數越大,表明其對應的正弦波的周期越有可能是這份數據的周期。通過傅里葉變換得到傅里葉系數中最大的前10個值和對應的周期,分別對應出口交通流量數據和入口交通流量數據,見表2和表3。
表2 出口交通流量對應的傅里葉系數和可能的周期
表3 入口交通流量對應的傅里葉系數和可能的周期
為保證得到的周期性結果可靠、準確,需對上文得到的可能的周期進行自相關系數計算。自相關系數的計算公式為
(2)
通過計算得到出入口交通流量可能的周期對應的自相關系數,見表4和表5。由表4和表5可知:出口交通流量的周期為7 d、3 d和14 d時自相關程度較高,入口交通流量的周期為7 d、3 d和11 d時自相關程度較高。結合自相關系數的絕對值越大,相關程度越高,越有可能是交通流量周期的性質,得出銀川南收費站出入口交通流量周期均為7 d(1周),以周為單位呈現出重復性,這主要是受1周內的工作日和休息日的影響,特別是在周五和周日易出現出行高峰。
采用隨機森林方式對原始數據進行預處理之后,得到收費站出入口交通流量的完整數據,基于此對未來出入口7 d內的交通流量進行預測,采用長短期記憶(Long Short-Term Memory,LSTM)網絡模型[6]。在模型中加入一個判斷信息是否有用的“處理器”,稱為記憶單元(Memory Cell),其結構見圖4。
由于工作時間比較統一,相同收費站的出入口交通流量表現出周期性的通暢、擁擠等現象,周期為1周。
表5 入口交通流量的自相關系數和可能的周期
圖4 LSTM網絡模型記憶單元結構
例如,本周五的交通模式一般與上周五的交通模式相似,而與周末的交通模式差別較大,需將該現象添加到LSTM網絡模型中[7],以提升模型的預測精度。LSTM網絡模型在處理時間序列數據時,隨著數據長度的增加,周期性的影響會逐漸減弱,因此需對預測目標的相同時間進行建模(即周一對周一);同時,收費站出入口交通流量數據并非呈現嚴格的周期性,易受交通突發(fā)事件、交通擁堵和疫情防控等因素的影響,即出入口交通流量并非嚴格以7 d為周期變化,因此需通過注意力機制[7]解決該問題。
采用Z-score標準化方法對填補好的完整數據進行歸一化處理,使其符合標準正態(tài)分布,計算公式為
(3)
對數據集進行劃分:將數據集中80%的數據作為訓練集;將另外20%的數據作為測試集。創(chuàng)建LSTM網絡模型,采用前28 d的交通流量預測未來7 d的交通流量,訓練過程見圖5。
在訓練階段,使收費站出入口的實際交通流量與預測交通流量的偏差最小[8],模型的損失函數為
(4)
圖6 LSTM網絡模型預測值與實際值對比(出口)
1) 平均絕對誤差EMA,其表達式為
(5)
2) 均方根誤差ERMS,其表達式為
(6)
3) 對稱平均絕對百分比誤差ESMAP,其表達式為
(7)
4) 決定系數R2,其表達式為
(8)
式(5)~式(8)中:EMA的取值范圍為[0,+∞),其值越大,說明模型的預測誤差越大;ERMS的取值范圍為[0,+∞),其值越小,說明模型的預測精度越高;ESMAP的取值范圍為[0,+∞),其值為0表示模型為完美模型,其值大于100%表示模型為劣質模型[10];一般而言,當R2>0.4時,可認定模型的擬合效果較好。
出口交通流量評估結果見表6。由表6可知:R2在訓練集和測試集中均大于0.4,說明模型的擬合效果較好;EMA和ERMS相對較低,預測結果與真實值比較吻合[10];ESMAP在訓練集和測試集中均小于0.400 0,表明模型在收費站出口交通流量預測中效果良好。
表6 出口交通流量評估結果
按以上處理和訓練步驟對入口交通流量進行預測分析,同時利用以上指標對模型進行評估分析。通過LSTM網絡模型對入口交通流量進行預測,入口交通流量評估結果見表7,預測值與實際值對比見圖7。由表7和圖7可知:在訓練集和測試集中,R2均大于0.4,說明模型的擬合效果較好;EMA、ERMS和ESMAP等3個指標的值均處于理想狀態(tài),表明模型在收費站入口交通流量預測中效果良好,誤差在可接受范圍內。
表7 入口交通流量評估結果
為進一步驗證預測模型的可靠性,增加跨年度數據進行交通流量預測。仍以銀川南收費站的收費數據為研究對象,按以上研究思路和方法對2020年3月1日至2021年6月1日的收費站出入口交通流進行預測,得到損失函數值變化曲線見圖8。由圖8可知,損失函數值在訓練次數約為8次時達到低點,并一直保持收斂狀態(tài),誤差較小且穩(wěn)定。同樣采用上述4個指標對模型的預測效果進行評價,結果見表8。通過對比可知,4個評價指標的值均在合理范圍內,未出現異常值,基于跨年度數據的模型依然表現出良好的預測性能。綜上,將周期性現象融入LSTM網絡模型中,對未來7 d內的收費站出入口交通流量進行預測,不論是針對全年數據還是跨年度數據,模型的預測效果都良好,可準確預測未來7 d的交通流量。
圖7 LSTM網絡模型預測值與實際值對比(入口)
圖8 損失函數值變化曲線
表8 基于整年數據與跨年度數據的LSTM網絡模型出入口交通流量預測效果對比
本文以寧夏回族自治區(qū)銀川南收費站的收費數據為研究對象,對收費站出入口交通流量進行相關性分析、周期性分析和預測,主要得到以下結論:
1) 收費站出入口交通流量的Pearson相關系數為0.84,具有極強的相關性,出入口交通流量相互影響;
2) 收費站出口交通流量的變化周期為7 d,入口交通流量的變化周期為7 d,主要受上下班高峰時段的影響;
3) 融合交通流量的周期性特征建立LSTM網絡模型預測出入口交通流量,基于整年數據和跨年度數據,通過EMA、ESMAP、ERMS和R2等4個指標評價該模型的有效性,結果表明其能取得良好的預測效果。