梁乃興,閆 杰,楊文臣,曹源文,房 銳
(1. 重慶交通大學(xué) 土木工程學(xué)院,重慶400074;2. 云南省交通規(guī)劃設(shè)計研究院有限公司 陸地交通氣象災(zāi)害防治技術(shù)國家工程實驗室,云南 昆明 6502001;3. 重慶交通大學(xué) 交通裝備與系統(tǒng)集成重慶市重點實驗室,重慶400074)
全球每年大約有124萬人死于交通事故,超過2 000萬人因事故受傷,若以此趨勢,2030年道路交通事故或?qū)⒊蔀槿虻?大死亡原因[1]。此外,高速公路的百公里事故率、百公里傷、亡率與普通公路相比將增加2.0倍、2.8倍、4.0倍[2]。因此,探索高速公路交通事故在時間維度上的分布規(guī)律,并建立具備良好預(yù)測能力的高速公路交通事故預(yù)測模型,主動研判交通事故態(tài)勢及源頭治理對策,一直是宏觀道路交通安全管理的重要問題。
道路交通事故預(yù)測已經(jīng)從傳統(tǒng)的定性預(yù)測發(fā)展為定量預(yù)測,定量預(yù)測的模式又可分為基于因果關(guān)系和基于時空關(guān)系建模2種[3]。因果模型主要基于道路幾何特征、道路基礎(chǔ)設(shè)施、交通環(huán)境(交通量、大型車比例等)等影響因素與交通事故評價指標(biāo)之間的邏輯關(guān)系進(jìn)行建模,其代表性預(yù)測方法為邏輯回歸分析法。時空模型主要基于交通事故在時空維度上的分布規(guī)律進(jìn)行建模,通過捕捉歷史事故數(shù)據(jù)中的時空特征規(guī)律,進(jìn)行外延預(yù)測和安全調(diào)控。多數(shù)學(xué)者對交通事故因果關(guān)系模型進(jìn)行了大量的研究,而對于高速公路時序交通事故預(yù)測研究相對較少,其主要預(yù)測方法包括時間序列法、馬爾科夫法、神經(jīng)網(wǎng)絡(luò)法等。
經(jīng)典的時間序列統(tǒng)計回歸模型最早應(yīng)用于交通事故時空模型,J.KARTIKEYA等[4]對比分析了多種時間序列模型在印度交通工程中的應(yīng)用及其局限性;張杰等[5]基于1970—1997年全國交通事故10萬人口死亡率數(shù)據(jù)建立自回歸差分移動平均(ARIMA)模型,該模型能較好擬合交通事故數(shù)據(jù)并具備良好的短期預(yù)測能力;C.CHUKWUTOO等[1]基于ARIMA與ARIMAX(帶回歸項的ARIMA)模型對尼日利亞阿南布拉州的道路交通事故進(jìn)行了預(yù)測,表明引入外部變量的ARIMAX模型優(yōu)于ARIMA模型;黃宇等[6]通過建立向量自回歸(VAR)模型對交通事故與經(jīng)濟(jì)損失之間的關(guān)系進(jìn)行了研究。經(jīng)典時間序列模型大多建立在眾多前提與假設(shè)之上,實際應(yīng)用中很多目標(biāo)事件并不能完全滿足這些假設(shè),限制了經(jīng)典時序模型的預(yù)測效果。
近年來,系統(tǒng)工程和機(jī)器學(xué)習(xí)理論模型逐漸應(yīng)用于交通事故時間序列預(yù)測。吳盧榮[7]運用聚類分析與馬爾科夫鏈建立了宏觀交通安全預(yù)測模型,預(yù)測了未來31個地區(qū)的交通安全趨勢;陳玉飛等[8]基于交通事故數(shù)據(jù),建立了灰色關(guān)聯(lián)模型(GM),結(jié)果表明GM(1,5)模型優(yōu)于GM(1,8);蔣艷輝[9]建立了基于指數(shù)平滑和馬爾科夫鏈的交通事故預(yù)測模型,用以預(yù)測交通事故造成的死亡人數(shù);張志豪等[10]利用1997—2016年交通事故統(tǒng)計數(shù)據(jù),分別建立了多元線性回歸、BP及LSTM神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)LSTM模型預(yù)測結(jié)果最好。
為提高交通事故單一時序模型的預(yù)測精度,許多學(xué)者提出組合預(yù)測的方法。X.H.JIN等[11]建立了灰色馬爾科夫組合預(yù)測模型,其相對誤差低于灰色預(yù)測模型;G.REN等[12]等基于粒子群算法與SVR建立了事故預(yù)測模型,其結(jié)果優(yōu)于BP模型;謝學(xué)斌等[13]基于ARIMA及XGBoost算法建立了組合預(yù)測模型,用于擬合1973—2010年全國交通事故統(tǒng)計數(shù)據(jù);Z.H.ZHANG等[14]以1997—2016年全國交通事故死亡人數(shù)為基礎(chǔ),建立了基于LSTM和梯度提升回歸樹(GBRT)的事故組合模型。研究表明,與單一模型相比,組合模型的預(yù)測能力和魯棒性均有所提升,是目前時序交通事故預(yù)測的主要方向。
LSTM神經(jīng)網(wǎng)絡(luò)能夠有效逼近時序數(shù)據(jù)的不確定性和周期性,已在金融、交通流等多個領(lǐng)域取得好的應(yīng)用效果,但其對樣本數(shù)據(jù)量要求較高。ARIMA模型可以較好擬合線性時序特征,提供先驗知識,但對非線性特征的捕捉能力弱,目前鮮有將ARIMA和LSTM組合并應(yīng)用于交通事故預(yù)測方面的成果。因此,研究以重慶市11條高速公路交通事故數(shù)據(jù)為研究對象,分析交通事故總數(shù)和死亡人數(shù)的月分布規(guī)律,通過ARIMA時序統(tǒng)計模型和LSTM神經(jīng)網(wǎng)絡(luò)分別擬合時序交通事故數(shù)據(jù)的線性和非線性特征,構(gòu)建山區(qū)高速公路交通事故ARIMA-LSTM組合預(yù)測模型,可為高速公路主動交通安全管理和綜合治理提供參考。
ARIMA (p,d,q) 模型是應(yīng)用最為廣泛的一種時間序列預(yù)測方法[15],模型建立后可根據(jù)歷史值和當(dāng)前值來預(yù)測未來值?;窘A鞒虨?首先檢驗時間序列平穩(wěn)性,通過差分對非平穩(wěn)序列進(jìn)行平穩(wěn)化處理,確定差分參數(shù)(d);其次通過觀察偏自相關(guān)(PACF)和自相關(guān)圖(ACF)確定自回歸參數(shù)(p)和移動平均參數(shù)(q),以此建立模型,如式(1)[16]:
(1)
式中:Φ(·)、Θ(·)分別代表p階自回歸系數(shù)多項式、q階移動平均系數(shù)多項式;d=(1-B)d為差分計算;B為延遲算子,且Bnxt=xt-n;{εt}為隨機(jī)誤差序列;E(·)、Var(·)分別為·的期望與方差。
LSTM神經(jīng)網(wǎng)絡(luò)是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的一個變種,LSTM神經(jīng)元的獨特結(jié)構(gòu)很好的解決了長期依賴(時間步長很大)情況下,傳統(tǒng)RNN模型的梯度消失或爆炸等問題,使神經(jīng)網(wǎng)絡(luò)模型具備傳遞較遠(yuǎn)節(jié)點歷史信息的能力[17]。LSTM通過在遞歸神經(jīng)網(wǎng)絡(luò)神經(jīng)元結(jié)構(gòu)中增添遺忘門、輸入門以及輸出門,不斷調(diào)整自循環(huán)中的的權(quán)重,當(dāng)參數(shù)固定時,各時點的積分尺度可以動態(tài)浮動,從而規(guī)避梯度消失或爆炸問題,其示意如圖1[18]。
圖1 LSTM神經(jīng)網(wǎng)絡(luò)示意Fig.1 Schematic diagram of LSTM neural network
假定時間步長為T′,LSTM神經(jīng)網(wǎng)絡(luò)的輸入序列為X={x1,x2,…,xt,…,xT′}。圖1中xt為t時刻神經(jīng)元的輸入,ht-1為上一神經(jīng)元的輸出,ct-1為截止到上一時刻的神經(jīng)元狀態(tài)。LSTM神經(jīng)網(wǎng)絡(luò)基本公式如式(2)~式(6)[19]:
ft=σ(Wf×[ht-1,xt]+bf)
(2)
it=σ(Wi·[ht-1,xt]+bi)
(3)
(4)
ot=σ(Wo·[ht-1,xt]+bo)
(5)
ht=ot×tanh(Ct)
(6)
以t時刻為例,LSTM神經(jīng)網(wǎng)絡(luò)首先通過遺忘門處理傳入t時刻的神經(jīng)元狀態(tài)ct-1,舍棄無效信息,如式(2);然后通過式(3)、式(4)建立輸入門,根據(jù)上一時刻的輸出與當(dāng)前時刻的輸入將神經(jīng)元狀態(tài)更新為Ct。最后通過輸出門輸出Ct中的相關(guān)信息,此功能的實現(xiàn)如式(5)、式(6)。
道路交通事故數(shù)據(jù)沿時間維度的分布既包含線性特征又包含非線性特征。ARIMA模型隸屬線性模型,只能擬合時間序列數(shù)據(jù)中的線性特征, LSTM神經(jīng)網(wǎng)絡(luò)則可以彌補(bǔ)這一缺點[20]。先采用ARIMA模型對交通事故數(shù)據(jù)中的線形特征進(jìn)行擬合預(yù)測,然后采用LSTM神經(jīng)網(wǎng)絡(luò)模型對殘差序列中的非線性特征進(jìn)行擬合,最后將二者進(jìn)行線形組合得到組合模型最終值。具體建模步驟如下:
1) 整合、處理高速公路交通事故數(shù)據(jù),將事故數(shù)據(jù)延時間維度展開,以單位根(ADF)法檢驗各序列的平穩(wěn)性,采用差分、平滑等方法將非平穩(wěn)序列轉(zhuǎn)為平穩(wěn)序列。
(7)
(8)
將重慶市包茂高速等11條高速公路2011—2016年共計65 131起交通事故數(shù)據(jù)為研究對象,由于事故數(shù)據(jù)不完整,將不完整的高速事故記錄剔除后,共使用65 119起交通事故數(shù)據(jù)用于構(gòu)建交通事故月分布序列,事故統(tǒng)計信息如表1。將2016年8月1日前的序列數(shù)據(jù)作為模型的訓(xùn)練集,將2016年8月1日及之后時刻的序列數(shù)據(jù)作為模型的測試集,訓(xùn)練集樣本量約占全集的93%,測試集約占比7%。
表1 2011—2016年11條高速公路交通事故統(tǒng)計
道路交通事故的總量指標(biāo)主要包括事故數(shù)量、死亡人數(shù)、受傷人數(shù)和財產(chǎn)損失4項。由于數(shù)據(jù)原因僅采用事故數(shù)量和死亡人數(shù)2項指標(biāo),時間以“月”為單位,將高速公路交通事故數(shù)據(jù)按各指標(biāo)在時間維度展開,見圖2、圖3。
圖2 “事故數(shù)量”初始序列分布Fig.2 Initial sequence distribution of “number of accidents”
圖3 “死亡人數(shù)”初始序列分布Fig.3 Initial sequence distribution of “death toll”
此外,以均方根誤差(RMSE)以及平均絕對百分比誤差(MAPE)作為評價模型優(yōu)劣的衡量指標(biāo)。如式(9)、式(10):
(9)
(10)
式中:Ttotal為樣本總量,即總時間步長;ERMSE為均方根誤差;EMAPE為平均絕對百分比誤差。
ARIMA時間序列模型要求序列數(shù)據(jù)為平穩(wěn)序列,因此建模之前首先檢驗序列數(shù)據(jù)的平穩(wěn)性。采用ADF法分別檢驗“事故數(shù)量”與“死亡人數(shù)”初始序列,如表2。由表2可以看出“事故數(shù)量”初始序列的P值 >0.05且T值大于3個置信區(qū)間的臨界值,故“事故數(shù)量”序列為非平穩(wěn)序列,該序列需要進(jìn)一步平穩(wěn)化處理。而“死亡人數(shù)”初始序列P值 <0.05,為平穩(wěn)時間序列。
表2 初始序列ADF檢驗
由圖2可以看出“事故數(shù)量”初始序列振動幅度較大且呈“年”周期性變化。首先對該序列進(jìn)行對數(shù)轉(zhuǎn)換,以減小序列數(shù)據(jù)的振動幅度;之后運用滑動窗口為12的移動平均方法剔除序列中的周期性因素;最后采用差分法將序列處理成為平穩(wěn)時間序列,過程中分別采用ADF檢驗序列的平穩(wěn)性,結(jié)果如表3。
表3 “事故數(shù)量”序列ADF檢驗
通過處理后的平穩(wěn)時間序列生成的偏自相關(guān)圖(PACF)與自相關(guān)圖(ACF)對ARIMA模型進(jìn)行參數(shù)估計,如圖4、圖5,圖中灰色區(qū)域為置信區(qū)間。
圖4 “事故數(shù)量”序列的ACF與PACFFig.4 ACF and PACF diagrams of the “number of accidents” sequence
圖5 “死亡人數(shù)”序列的ACF與PACFFig.5 ACF and PACF diagrams of the “death toll” sequence
以“死亡人數(shù)”序列為例,其自相關(guān)系數(shù)為2階截尾,偏自相關(guān)圖呈拖尾狀況。故模型參數(shù)可以估計為ARIMA(0, 0, 2)、ARIMA(1, 0, 2)、ARIMA(1, 0, 1),3個模型進(jìn)行試算后求出AIC值,分別為465.38、461.85、462.17。依據(jù)最小信息量原則,“死亡人數(shù)”指標(biāo)的最佳模型為ARIMA(1, 0, 2)。同理,“事故數(shù)量”指標(biāo)的最佳模型為ARIMA(1, 3, 2)。
“事故數(shù)量”和“死亡人數(shù)”序列的ARIMA模型預(yù)測結(jié)果如圖6,圖中豎直虛線用以區(qū)分樣本集,虛線左側(cè)為訓(xùn)練集樣本,右側(cè)為測試集樣本。此外模型建立后還需要對模型的殘差序列進(jìn)行正態(tài)性和自相關(guān)性檢驗,以確保模型的有效性。由圖7的正態(tài)性檢驗可以看出,殘差序列基本服從正態(tài)分布;同時對殘差進(jìn)行D-W檢驗,“事故數(shù)量”模型的D-W檢驗值為2.31,“死亡人數(shù)”模型的D-W檢驗值為1.99。兩者的D-W檢驗值都接近2,模型滿足自相關(guān)檢驗。
圖6 “事故數(shù)量”和“死亡人數(shù)”ARIMA模型預(yù)測Fig.6 “Number of accidents” and “death toll” ARIMA model prediction
圖7 殘差QQ圖Fig.7 Residual QQ plot
由圖6可知,“事故數(shù)量”ARIMA模型的預(yù)測效果良好,比較接近初始序列數(shù)據(jù)的分布曲線,并能夠預(yù)測出該序列測試集數(shù)據(jù)的變化趨勢;“死亡人數(shù)”ARIMA模型對原始序列的擬合預(yù)測效果一般,存在一定的滯后性,并且隨著時間步長的增長,模型對于測試集的預(yù)測能力逐漸下降,無法準(zhǔn)確預(yù)測出測試集的變化趨勢。
基于Pytorch 1.7.1搭建LSTM神經(jīng)網(wǎng)絡(luò),分別根據(jù)“事故數(shù)量”和“死亡人數(shù)”ARIMA模型的殘差序列建立LSTM預(yù)測模型,旨在通過擬合訓(xùn)練集中殘差序列的非線性時序特征,對測試集中的殘差進(jìn)行預(yù)測,使組合模型獲得更優(yōu)的預(yù)測效果。殘差序列的訓(xùn)練集與測試集劃分同樣采用上述時間節(jié)點,以“死亡人數(shù)”LSTM模型為例,具體建模流程為:
1) 對序列進(jìn)行歸一化,將數(shù)據(jù)壓縮到 [-1,1] 范圍內(nèi),以確保LSTM模型能夠快速收斂;
2) 對模型進(jìn)行超參數(shù)選擇,經(jīng)過反復(fù)對比發(fā)現(xiàn),當(dāng)殘差序列的時間步長為4時模型能很好地捕捉殘差序列中的非線性因素。經(jīng)過反復(fù)調(diào)整,最終超參數(shù)選擇為:Adam優(yōu)化器、學(xué)習(xí)率為0.001、batch_size = 1、神經(jīng)網(wǎng)絡(luò)層數(shù)為1、神經(jīng)元個數(shù)為45、迭代次數(shù)為140;
3) 最終模型輸出結(jié)果需要反歸一化,對數(shù)據(jù)進(jìn)行還原。
模型預(yù)測結(jié)果如圖8,可以看出LSTM神經(jīng)網(wǎng)絡(luò)模型能夠從殘差序列中提取一定的有效時序信息。
圖8 “事故數(shù)量”和“死亡人數(shù)”LSTM殘差預(yù)測Fig.8 “Number of accidents” and “death toll” LSTM residual prediction
將ARIMA預(yù)測值與LSTM得到的殘差預(yù)測值依據(jù)式(8)進(jìn)行線性組合,得到最終的組合模型預(yù)測值?!笆鹿蕯?shù)量”和“死亡人數(shù)”指標(biāo)的初始序列、ARIMA模型預(yù)測值以及組合模型預(yù)測值對比分析(圖9)。圖9中兩個指標(biāo)的組合模型相較于單一的ARIMA模型都有很大的提升,更接近原始序列,并且組合模型能夠更好擬合預(yù)測出序列中的趨勢變化。然而,在每年2月和10月的事故數(shù)量和死亡人數(shù)峰值月份,組合模型的預(yù)測誤差仍較大,這是因為在春運和國慶節(jié)重大假日,這2個月的交通流量激增,交通事故的發(fā)生更為集中,加之研究節(jié)假日的樣本數(shù)量少,所構(gòu)建的組合模型尚不能有效逼近事故數(shù)據(jù)的非時序特征所致。
圖9 “事故數(shù)量”和“死亡人數(shù)”各模型預(yù)測結(jié)果對比Fig.9 Comparison of the predicted results between models of “Number of accidents” and “death toll”
采用RMSE以及MAPE來衡量模型的預(yù)測效果,如表4??梢钥闯鼋M合預(yù)測模型的各項指標(biāo)更優(yōu),以“死亡人數(shù)”組合預(yù)測模型改善最為顯著,其 ARIMA-LSTM組合模型與ARIMA模型相比,RMSE與MAPE分別降低了4.02與27.99%,即相較于單一模型,組合模型的RMSE和MAPE分別改善了55.83%和54.80%;“事故數(shù)量”的ARIMA-LSTM組合預(yù)測模型的RMSE和MAPE相較于ARIMA模型分別降低了51.91與3.71%,組合模型的RMSE和MAPE分別改善了23.15%、23.29%。
表4 模型評價Table 4 Model evaluation
1)選取事故數(shù)量和死亡人數(shù)兩項指標(biāo),建立了基于ARIMA-LSTM的高速公路交通安全時序組合預(yù)測模型,通過ARIMA模型可捕捉各項指標(biāo)時序數(shù)據(jù)中的線性因素,而LSTM神經(jīng)網(wǎng)絡(luò)模型可預(yù)測各指標(biāo)殘差序列中的非線性因素。
2)單一的ARIMA模型對“事故數(shù)量”序列的預(yù)測效果較好,平均絕對百分比誤差為15.93%;ARIMA模型對“死亡人數(shù)”原始序列的預(yù)測精度一般,但總體上能預(yù)測出死亡人數(shù)的變化趨勢。
3)ARIMA-LSTM組合預(yù)測模型相較于單一的ARIMA模型在預(yù)測能力上有一定程度的提升,能夠更好挖掘出時間序列中的有效信息。對于事故數(shù)量指標(biāo),組合預(yù)測模型的RMSE和MAPE相較于ARIMA模型分別改善了23.15%、23.29%;對于死亡人數(shù)指標(biāo)的改善更為顯著,與ARIMA模型相比,其組合模型的RMSE和MAPE分別改善了55.83%和54.80%。