桂棟 隗宇 王曉東
摘要 交通流變化過程是一個實時、非線性、高維的隨機過程,對其進行準確預測是智能交通領域的熱點和難點問題。采用最小二乘支持向量機方法來建立短時交通流預測的模型,在經驗風險和置信范圍之間尋求最佳折衷,并且通過實例研究來驗證其有效性。結果表明,該模型適應小樣本情況下對非線性動態(tài)系統(tǒng)的學習,對短時交通流有較好的預測效果。
關鍵詞 短時交通流預測;最小二乘支持向量機;結構風險最小化;核函數
中圖分類號 U491.1 文獻標識碼 A 文章編號 2096-8949(2022)07-0047-03
0 引言
短時交通流預測是交通控制與誘導的重要基礎,也一直是智能交通研究領域的熱點和難點問題[1]。目前,已有許多理論和方法應用于短時交通流預測的研究。基于解析數學的卡爾曼濾波模型、參數回歸模型等預測方法,在數理統(tǒng)計回歸和時間序列預測的基礎上,用解析數學方法來描述狀態(tài)變量的變化趨勢[2],但無法克服隨機因素對交通流的干擾;基于知識發(fā)現的神經網絡、混沌理論等預測方法,更重視對真實交通流現象的擬合效果,但很難建立能適用于所有路段交通流預測的模型[3],且模型參數選擇困難,推廣與泛化能力不足。
該文以最小二乘支持向量機(Least Squares Support Vector Machines,LSSVM)理論為基礎,利用其在小樣本學習方面的優(yōu)勢,在結構風險最小化原理基礎上 [4],克服過分依賴大樣本歷史數據的缺陷[5],建立短時交通流預測模型。然后利用來自交通信息采集設備的數據對模型進行訓練,并合理確定模型的參數,最終達到預測未來時段短時交通流的目的。
1 最小二乘支持向量機原理
支持向量機借助于最優(yōu)化方法解決機器學習問題,是數據挖掘中的一項新技術。對于線性回歸,用線性回歸函數來擬合樣本數據;對于非線性回歸,通過一個非線性映射,把輸入空間的數據映射到一個高維特征空間中去,然后在此空間中做線性回歸[6]。
LSSVM是由Suykens[7]等人提出的一種新型的支持向量機方法,采用最小二乘線性系統(tǒng)作為損失函數,利用等式約束來代替標準算法中的不等式約束,將求解二次規(guī)劃問題轉化為求解線性方程式,使得求解難度大為降低[8]。LSSVM在利用結構風險最小化原則時,其優(yōu)化問題為:
(1)
式中,——誤差項;——非線性映射;——懲罰系數。引入拉格朗日函數:
(2)
式中,,——拉格朗日乘子,根據優(yōu)化條件有:
(3)
可得下式:
(4)
式中,,為核函數。最終,LSSVM的目標函數為:
(5)
由于算法最終轉化為矩陣計算,所以LSSVM在計算速度上更具優(yōu)勢。
2 建模與仿真
利用LSSVM算法進行建模,過程如下:
2.1 訓練數據的選取與分類
交通流受時間、空間和其他隨機因素的影響,變化規(guī)律非常復雜,確定影響交通流的因素,對交通流數據進行分類訓練,有助于提升模型的預測效果。該文選取上海市南北高架快速路段2020年7月份交通流數據作為訓練數據。通過對數據的系統(tǒng)分析,可以發(fā)現城市交通流很明顯地受天氣以及工作日的影響,因此根據影響因素晴天/雨天對交通流數據進行分類訓練,建立相應的模型以達到對交通流較為準確的預測。
2.2 核函數的選取
引入核函數可以將高維空間的內積計算轉化為簡單的函數計算,從而降低計算的復雜度。由于高斯徑向基函數在非線性擬合方面具有較好的性能,因此選取高斯徑向基函數作為核函數,即:
(6)
2.3 參數的選取
2.3.1 回溯系數的選擇
交通流會受到前一個時刻或者多個時刻交通流的影響,故需要在訓練過程中選取合適的回溯系數。在選取回溯系數p之前,首先取定LSSVM目標函數中的和核函數中,使預測的結果僅受回溯系數影響。然后利用訓練數據和給定的參數來訓練LSSVM模型,通過分析對應的誤差指標,從而挑選出預測誤差最小的回溯系數。
2.3.2 LSSVM參數的選取
選取徑向基函數作為核函數以后,需要對LSSVM目標函數中的懲罰系數和核函數系數進行選取。懲罰系數主要影響模型的復雜度和訓練誤差,核函數系數主要影響模型的學習能力,這兩個系數如果選取不合理,則會導致模型出現“欠學習”或“過學習”現象[9]。該文利用訓練數據以及2.3.1中選取好的p來訓練LSSVM模型,通過誤差指標來不斷調節(jié)和,最終選取合適的參數。
2.4 模型的輸入與輸出
選取某x日采樣周期為10 min的交通流數據作為模型輸入1,該輸入作為訓練數據;選取與x日數據影響因素相同的某y日采樣時刻為t的交通流數據作為模型輸入2,該輸入作為訓練后模型的預測輸入值;經模型計算后的輸出為某y日采樣時刻為t+10 min的交通流預測值。
3 實例研究
3.1 誤差指標
采用MARE和MAXARE作為誤差指標來衡量算法的預測能力:
(1)平均絕對相對誤差:
(7)
(2)最大絕對相對誤差:
(8)
式中,——實際觀測值;——模型預測值。
3.2 仿真預測
采用MATLAB R2007a和Suykens J.A.K開發(fā)的LSSVM lab工具箱,根據晴天/雨天對交通流數據進行分類訓練,按10 min間隔對交通流進行短時預測。
3.2.1 晴天工作日模型
選取上海南北高架快速路段NBXX05(4車道)2020年7月1日星期五(工作日,晴)7:00—22:50數據為訓練數據,來預測2020年7月15日星期五(工作日,晴)7:00—22:50交通流,并計算出誤差指標,然后根據誤差指標來優(yōu)化參數。
首先通過實驗算法初步取定=50,=50來計算相應的p值的誤差指標,結果如表1所示。
從表1可以看出,當=50,=50時,隨著p從1到8逐漸增大,誤差值呈現逐漸增大趨勢,因而確定回溯系數為1。接下來確定p=1時的最合適的和。采用交叉驗證法,根據誤差指標的變化趨勢來取定和。計算結果如表2。
從表2中可以看到,當=100,=140和=400,=400時,誤差指標MARE出現兩個局部極小點,但后者更小,此時的平均相對絕對誤差為6.54%。相應的實測值與預測值對比如圖1。
從圖1中的擬合程度看,雖然個別突變點的預測值與實測值相差較大,但模型的預測值符合實測交通流量的整體變化趨勢。
3.2.2 雨天工作日模型
選取上海南北高架快速路段NBXX05(4車道)2020年7月7日星期四(工作日,雨)7:00—22:50數據為訓練數據,來預測2020年7月14日星期四(工作日,雨)7:00—22:50交通流,計算結果如表3。
從表3中可以看出,當=80,=10時,誤差指標MARE出現極小點,于是取=80,=10,此時的平均相對絕對誤差為5.18%。相應的實測值與預測值對比如圖2。
3.3 結果分析
經過上節(jié)的計算,選出的兩種模型參數及預測誤差結果如下:
(1)晴天工作日模型:回溯系數p=1,=400,=400。
(2)雨天工作日模型:回溯系數p=1,=80,=10。
在這些參數下,兩種模型的最小平均絕對相對誤差分別為:6.54%、5.18%,兩種模型的預測值均較好地吻合了實測值的整體變化趨勢,驗證了該預測方法對于t+10 min的短時交通流變化趨勢有較好的擬合效果。但在某些變化劇烈的點,預測值與實測值相差明顯,這也體現了影響交通流的偶然因素很多,也正是交通流預測的難點所在。
4 結語
該文深入研究總結了LSSVM的原理以及在尋求結構風險最小化、避免“過學習”方面的優(yōu)勢。通過對交通流數據的分類優(yōu)化,建立基于LSSVM算法的短時交通流預測模型,并通過數據訓練確定了模型中的參數,然后利用訓練好的模型對短時交通流進行了預測。預測結果表明,基于LSSVM的預測方法適合小樣本數據的訓練和學習,對短時交通流有較好的預測效果。
參考文獻
[1]吳晉武, 張海峰, 冉旭東. 基于數據約減和支持向量機的非參數回歸短時交通流預測算法[J].公路交通科技, 2020(7):129-134.
[2]胡潔. 基于混沌和神經網絡的短時交通流預測研究[D].武漢:武漢理工大學, 2007: 2-5.
[3]趙亞萍. 基于最小二乘支持向量機的交通流量預測模型[J].北京交通大學學報, 2011(2): 114-117.
[4]羅川. 基于最小二乘支持向量機的短時交通流預測方法研究[D].太原:太原理工大學, 2019: 13-19.
[5]張陽, 楊書敏, 辛東嶸. 改進小波包與長短時記憶組合模型的短時交通流預測 [J].交通運輸系統(tǒng)工程與信息, 2020(2): 204-209.
[6]姚智勝. 基于實時數據的道路網短時交通流預測理論與方法研究[D].北京:北京交通大學, 2007: 69-70.
[7]J.A.K. Suykens and J. Vandewalle. Recurrent Least Squares Support Vector Machines[J]. IEEE Transactions On Circuits And Systems—I:? Fundamental Theory And Applications, 2000(7): 1109-1114.
[8]姚智勝, 邵春福, 熊志華. 基于小波包和最小二乘支持向量機的短時交通流組合預測方法研究[J].中國管理科學, 2007(1): 64-68.
[9]李巧茹, 郝恩強, 陳亮, 等. 遺傳算法優(yōu)化支持向量機的城市交通狀態(tài)識別[J].重慶交通大學學報, 2020(8): 1-5.