徐云XU Yun
(航天科工廣信智能技術有限公司,杭州 310000)
基于浙江省高速公路溫州段上的傳感器(卡口與雷達)數據進行梳理,形成了一套數據相互補充,相互驗證的交通流短時預測算法。
整個高速路網交通狀態(tài)預測架構如圖1 所示。
圖1 高速路網交通狀態(tài)預測架構示意圖
首先將原始數據進行預處理,得到路網的交通狀態(tài)值,例如流量、速度等,之后把這些數據寫入數據庫中。從數據庫中取出預測算法需要的數據進行預測,然后把預測結果寫入數據庫中。最后把數據庫中的預測值取出來展現(xiàn)在前端頁面上即可。
高速公路上擁有卡口和雷達兩種類型的數據,通過對數據預處理,可以得到流量、速度等交通狀態(tài)參數。
2.2.1 高速公路卡口數據處理
卡口過車數據來源于高速公路攝像頭的拍攝,能夠確定車輛在哪一時刻經過了該卡口攝像頭,由此就可以得到在一段時間內,經過該卡口攝像頭的車輛數目,并且可以計算相鄰卡口對間的車輛行程速度。
首先從原始數據表中提取出需要的字段,如表1 所示。在提取過程中,需要去除掉未識別車牌的數據以及數據字段為空的數據。
表1 數據表中需要的字段
如果用數據庫來實現(xiàn)上述步驟可參考以下兩個sql腳本(以6 月的數據為例):
往新的數據庫表中寫入數據
獲取所需的數據字段后,對于流量的計算,只需要統(tǒng)計5 分鐘內有多少輛車經過特定的卡口;對于平均速度的獲取,要做的處理稍顯復雜,首先要進行車牌匹配,得到每一輛車的出行軌跡,之后得到車輛在兩個卡口對間的行程時間,從而再通過卡口對間的距離得到卡口對間的平均速度。在處理數據時,發(fā)現(xiàn)有些卡口點位數據量明顯過少,存在缺失的情況,這可能是因為點位剛安裝或者已經被移除。通過篩選可得到50 個歷史流量數據較全的卡口點位以及33 個歷史速度數據較全的卡口。
2.2.2 高速公路雷達數據處理
對于雷達數據的處理,由于原始數據中已經有每分鐘通過某個雷達點位的流量數據以及平均速度數據,因此可以通過聚合每分鐘的數據得到5 分鐘內通過某個雷達點位的車流量以及5 分鐘內的平均速度。
同卡口類似,在處理雷達數據的過程中,發(fā)現(xiàn)有些雷達點位數據量明顯過少,存在缺失的情況。因此篩選得到了41 個歷史流量數據與歷史速度數據較全的雷達點位。
2.2.3 高速公路混合卡口與雷達數據處理
處理高速公路混合卡口與雷達數據時,首先需要得到卡口和雷達分別測得的流量與速度信息,之后即可進行混合操作。
對于混合流量,取卡口點位與雷達點位的交集。對于重合的點位(既有卡口又有雷達),則取卡口測得的流量與雷達測得的流量的平均值。對于混合速度,首先基于卡口對關系切割路段,然后再融合單個時間窗內相應路段雷達瞬時速度數據。由于卡口測得的速度是路段速度,因此如果雷達點位落在某一個卡口對內,那么就把這些雷達點位與該卡口對測得的速度取平均值。
2.2.4 高速公路數據補全
預處理過程中,保留了存在部分缺失的卡口(或雷達)點位。對于這些缺失數據,采用歷史平均法(HA)進行補全。例如,如果缺失8 月10 日8:00-8:05 的雷達流量數據,就用8 月1 日至8 月9 日的8:00-8:05 的平均流量進行補全。具體而言,可使用sklearn 包中的SimpleImputer 函數實現(xiàn)該補全操作。例如,對于“G1513 溫麗往麗水方向0008KM+400M”卡口的速度數據,補全前和補全后的效果,見圖2 所示。
圖2 數據補全
2.3.1 短時交通狀態(tài)演化特性
道路交通是一個復雜系統(tǒng),短時交通流受到多種復雜因素的影響,會呈現(xiàn)出不穩(wěn)定、無規(guī)律、復雜多變的特性。與此同時,由于個人出行習慣和城市規(guī)劃布局的相對固定性,交通流也具備一定的周期性規(guī)律,最典型的規(guī)律性是由通勤引起的早晚高峰和周末娛樂場的交通流匯聚等。簡而言之,交通流具有以下幾方面主要特征:
①不確定性。短時交通流會受到各種不確定因素的影響,如天氣情況、駕駛員特征、交通管控等。同時也會有一些突發(fā)狀況,例如交通事故,導致交通流運行狀態(tài)突變。對此,研究所建立的交通流預測模型要能夠考慮交通流的不確定性,準確體現(xiàn)交通流演化態(tài)勢,即預測模型必須具有較高的準確性,這是衡量模型優(yōu)劣程度的顯著指標,同時也是模型進一步用于交通狀態(tài)識別、交通管控和路徑誘導的基本保證。如果預測結果無法達到較高的準確度,便不能為交通管理者和出行者提供精準的信息,他們就無法據此進行合理的交通管控措施、規(guī)劃適合的出行路線,相應的預測模型在現(xiàn)實中是缺乏應用價值的。
②周期性。由于人們的工作生活存在一定的規(guī)律性,城市各種配套設施的地理位置在較長時段內確定不變,因此交通流的高峰期通常都是固定的,即交通流會呈現(xiàn)出一定的周期性。例如在工作日早晚高峰,同一路段交通流特性通常是相似的。交通流的周期性為預測模型的校準提供了參考依據。在構建模型時,可以引入一定的交通流歷史信息,從而提高模型的預測精度。圖3 展示了溫州高速路網G1513 溫麗往麗水方向0009KM+800M 點位處28 天的交通流狀態(tài)演化過程,充分顯示了其周期性。
圖3 交通流演化示意圖
③相關性。短時交通流具有很強的相關性,可以細分為時間相關性與空間相關性。時間相關性是指對于一個給定路段的交通流,其狀態(tài)不僅由當前時段的交通情況決定,同時也會受到該路段之前一定時間段內的歷史交通流影響,這是因為交通擁堵通常存在一個較長的消散期,因此通過此前的交通流狀態(tài)可以有效判斷當前交通流應當處于什么狀態(tài)。由于交通流具有時間上的自相關性,因而可以將交通流數據看作時間序列,采用時間序列的處理方法對其處理。同時,道路網絡是一個復雜的聯(lián)通系統(tǒng),每一條道路的交通流都會受到其他路段的影響,最顯著的就是當某一路段發(fā)生擁堵時,由于交通波的影響,其上游道路也會逐漸發(fā)生擁堵,速度下降,而其下游路段的速度則會增加。因而,交通流也具有空間上的相關性,空間相關性是交通流與其他時間序列數據的最大區(qū)別。
④非線性。除了受到自身交通狀態(tài)的影響,交通流還會受到多種外界客觀因素的影響,例如天氣狀況、交通事故、臨時交通管制等。這些因素對交通流的作用方式、影響范圍、影響程度均有很大的差異,因而其影響效果并不是簡單的線性疊加,使得交通流具有非線性特性。這便要求在構建預測模型時,必須考慮交通流的非線性特征,設計能夠提取非線性數據特征的模型。
2.3.2 基于深度學習的交通狀態(tài)預測
深度學習是在傳統(tǒng)神經網絡的基礎上發(fā)展而來的一種新興的深層機器學習方法,與神經網絡相類似,深度學習模型也由眾多隱含層堆疊構成,其本質為通過大量數據學習獲得數據中蘊含的深層次特征和聯(lián)系。深度學習這一概念的普及與火熱始于2006 年,隨著Hinton 等的研究問世,神經網絡迎來了新的發(fā)展機遇,同時也將深度學習的研究推向高潮。深度學習模型主要分為兩大類:從RNN 發(fā)展而來的時間序列和語義處理模型,和以CNN 為基礎的圖像處理模型。
CNN 主要應用于圖像處理領域。通常情況下,卷積神經網絡主要由兩部分構成:①卷積層,通過卷積核對上一層的輸入值實現(xiàn)局部連接,從而對這個局部特征進行提取,再通過卷積核的游走實現(xiàn)對上一層輸入的整體特征映射,由于對于不同部位的卷積共享同一個卷積核參數,所以整個網絡的參數數量極大地降低;②池化層,其目的是進行局部平均和數據下采樣,能夠在一定程度上避免網絡過擬合,同時提升網絡的運行效率。CNN 作為深度學習的一個重要分支,已經獲得了深入發(fā)展和廣泛應用。考慮到交通流的時空相關性,僅使用時間序列模型(如RNN、LSTM 等)很難有效地刻畫交通流的空間相關性。本研究考慮采用CNN 方法,將交通流時空矩陣視為圖像,對其進行特征提取,進而進行交通流預測。
為充分考慮時間和空間相關性,更好地預測路網級別交通流,我們構建了一個三維深度張量,通過將不同路段堆疊在張量深度上,并結合CNN 神經網絡框架,提出了路網交通流時空深度張量預測模型框架(ST-DTNN),從而消除了不同點位時間序列隨機排列引起的潛在負面影響。
(3)低壓加熱器和軸封加熱器:與低加汽側相連的各管道法蘭、閥門及水位計測量筒;軸封加熱器汽側閥門;軸封加熱器疏水至凝汽器水封筒管路;
2.3.3 基于溫州高速路網的交通狀態(tài)預測結果
模型誤差評估采用平均絕對誤差(Mean Absolute Error, MAE) 和平均絕對百分比誤差(Mean Absolute Percentage Error ,MAPE)。其具體定義為:
其中N 代表路段數量,T 代表所預測的時間間隔。yit和表示速度和流量的真實值和預測值。
本實驗采用溫州高速路網2021 年5 月1 日至2021年6 月30 日卡口、雷達數據進行模型驗證,切分前80%數據為模型訓練集,后20%數據作為模型驗證集。路網交通狀態(tài)線下預測結果如表2 所示。因卡口與雷達點位不同,各點位交通狀態(tài)真實值基數不同,故預測絕對誤差相差較大,而相對誤差相似。離線預測結果顯示,模型在平均速度和交通流的預測中能較好地體現(xiàn)變化趨勢,在低谷和高峰時段都能順應其震蕩趨勢,具有較強的非線性擬合能力,能夠較為精確地反映溫州高速路網交通態(tài)勢演化規(guī)律。
表2 溫州高速路網交通狀態(tài)離線預測結果
據數據分析溫州高速路網交通狀態(tài)在線預測結果,采用路網2021 年7 月26 日至2021 年8 月2 日實時采集數據進行驗證。結果顯示,基于卡口數據的在線流量、速度預測誤差較離線預測誤差分別提升了10.1%、6.04%;基于雷達數據的在線流量、速度預測誤差較離線預測誤差分別提升了12.41%、6.9%。
在未來研究中現(xiàn)有模型還需進行以下改進與拓展:
①針對數據集時序分布漂移問題,研究自適應滾動平滑的優(yōu)化機制,可以基于回歸窗口中的歷史數據動態(tài)評估算法性能,通過構建模型預測控制框架進行自適應滾動平滑,并用于交通狀態(tài)估計和預測。②針對驗證集中檢測器隨機缺失問題,研究基于動態(tài)網絡拓撲結構的深度學習模型,使得神經網絡結構隨所需輸入輸出維度動態(tài)改變,實現(xiàn)空間維度的模型自適應滾動優(yōu)化,應用于現(xiàn)有模型改進。③針對非周期、非平穩(wěn)態(tài)時間序列演化模式識別問題,以集成學習方法,構建基于梯度提升回歸樹(Gradient Boosting Regression Tree ,GBRT) 和套索算法(Least Absolute Shrinkage and Selection Operator ,Lasso)的雙層不確定性集成模型,重點考慮模型結構不確定性和模型參數不確定性,用于提高異常事件下的交通流預測精度。
通過卡口與雷達數據的融合,構建了高精度、高效率的深度學習框架對短時交通流量的預測,離線預測精度達到90%以上,在線預測精度達到85%以上,很好地服務了交通管理的實戰(zhàn)。