田振中 樊麗花 董海隆 河南警察學(xué)院
隨著我國機動車數(shù)量的快速增長,社會機動化水平不斷提高,導(dǎo)致道路交通事故頻發(fā),交通安全形勢十分嚴峻。根據(jù)《中國統(tǒng)計年鑒2022》數(shù)據(jù)顯示,2021年全國共發(fā)生道路交通事故273098起,造成62218人死亡、281447人受傷、直接經(jīng)濟損失145035.9萬元。居高不下的交通事故不僅給人民群眾的生命財產(chǎn)造成了巨大的損失,也影響到社會治安穩(wěn)定,已經(jīng)成為一個突出的社會問題。定量研究交通事故的影響因素及變化趨勢,對進一步完善交通安全預(yù)防措施、推動道路交通安全治理體系和治理能力現(xiàn)代化建設(shè)具有重要意義。
目前,對于道路交通事故預(yù)測方法主要有三次指數(shù)平滑法、回歸預(yù)測模型法、灰色預(yù)測模型法等[1-3],其中灰色預(yù)測模型法是針對“小樣本、貧信息”的不確定系統(tǒng)進行分析和預(yù)測的有效方法。GM(1,1)模型是目前影響最大、應(yīng)用最為廣泛的灰色預(yù)測模型,其在醫(yī)學(xué)、工業(yè)、交通等領(lǐng)域都有廣泛的應(yīng)用[4-6]。但GM(1,1)預(yù)測模型僅適用于單一時間序列的數(shù)據(jù),未能考慮相關(guān)因素對系統(tǒng)變化趨勢的影響。近年來,國內(nèi)外學(xué)者開始探索使用多因素灰色GM(1,N)模型進行預(yù)測,該模型不僅利用歷史數(shù)據(jù)建立時間序列預(yù)測模型,也能考慮外界因素的影響[7-9]。但普通GM(1,N)模型在建模機理、模型結(jié)構(gòu)等方面存在一些缺陷,導(dǎo)致預(yù)測誤差較大、穩(wěn)定性不足[10-11]。
鑒于交通事故受到人、車輛、道路、環(huán)境等諸多因素的綜合影響,本文借鑒已有文獻的相關(guān)研究成果,采用隨機森林回歸模型篩選道路交通事故的主要影響因素,應(yīng)用優(yōu)化多維灰色預(yù)測模型OGM(1,N)對交通事故進行預(yù)測研究,旨在提高預(yù)測效果,以期為相關(guān)部門制定科學(xué)的應(yīng)對措施提供參考依據(jù)。
隨機森林(Random Forest,簡稱RF)是一種由多棵決策樹構(gòu)成的機器學(xué)習(xí)算法,已被廣泛應(yīng)用于各種分類與回歸問題。隨機森林回歸模型通過自助法(Bootstrap)重抽樣技術(shù),每次從原始訓(xùn)練樣本集S={s1,s2,…,sm}有回放地重復(fù)隨機抽取一個樣本,一共抽取m次,生成與原訓(xùn)練集具有相同容量的新訓(xùn)練樣本集合,然后對每個新訓(xùn)練樣本進行決策樹建模,隨機森林回歸模型的最終結(jié)果由m棵決策樹輸出結(jié)果的平均值決定。
隨機森林模型基于誤差和節(jié)點純度可對各輸入變量的重要性進行分析,具體計算公式為:
式中,VI(Variable Importance)是變量重要性得分,VI越大,表明相應(yīng)的變量越重要;ntree是決策樹數(shù)量;OOBE是OOB樣本得到袋外誤差;OOBE是對OOB樣本中的某個輸入變量加入噪聲干擾,保持其他變量值不變,輸入決策樹得到新的袋外誤差。
為GM(1,N)優(yōu)化模型,簡稱OGM(1,N)模型(Optimizing Grey Model),其中h1(k-1)和h2為模型的線性修正項及灰色作用量[11]。
模型(3)中的參數(shù)列p=[b2,b3,…,bN,a,h1,h2]T可以用最小二乘法估計求得[11],有:
模型(4)的近似時間響應(yīng)式為:
交通事故的影響因素眾多,本文根據(jù)已有文獻[2,4,12]和數(shù)據(jù)的可獲得性,以每年道路交通事故發(fā)生數(shù)X1(起)為系統(tǒng)特征序列,從人、車輛、道路、環(huán)境等方面初步篩選國內(nèi)生產(chǎn)總值X2(億元)、公路貨運量X3(萬噸)、公路客運量X4(萬人)、總?cè)丝跀?shù)X5(萬人)、民用汽車擁有量X6(萬輛)、公路通車里程X7(萬km)及機動車駕駛?cè)藬?shù)量X8(萬人)7個相關(guān)因素序列進行分析。本研究通過查閱2011~2021年《中國統(tǒng)計年鑒》,收集交通事故發(fā)生次數(shù)和影響因素變量的相關(guān)數(shù)據(jù)。
這里采用MATLAB2017a實現(xiàn)隨機森林TreeBagger參數(shù)優(yōu)化,最終選定決策樹棵數(shù)、決策深度的最優(yōu)超參組合為200和10,模型的PseudoR2為0.96,表明模型具有較高的擬合優(yōu)度。基于隨機森林特征重要性評估,計算各輸入因素變量的相對重要性,結(jié)果如圖1所示。由圖1可知,隨機森林回歸下影響交通事故因素的重要性排序為:機動車駕駛?cè)藬?shù)量>民用汽車擁有量>生產(chǎn)總值>貨運量>人口數(shù)>公路通車里程>客運量。其中,機動車駕駛?cè)藛T數(shù)(29.9%)和民用汽車擁有量(29.2%)呈現(xiàn)較高相對重要性,是造成交通事故的主要因素,在OGM(1,N)模型建模時需要作為自變量導(dǎo)入。
選取上述影響較大的因素作為主要因子,構(gòu)建道路交通事故發(fā)生數(shù)與機動車駕駛?cè)藬?shù)量和公路通車里程之間的OGM(1,3)模型,根據(jù)式(2)至式(5),使用MATLAB 2017a編程計算得到2011~2020年交通事故的模擬值及誤差,同時為了比較OGM(1,3)模型的模擬性能,這里也構(gòu)建了交通事故的GM(1,1)。OGM(1,3)模型與GM(1,1)模型的模擬值及誤差,見表1。
表2中GM(1,1)模型參數(shù)及符號ε(k)、△k及的含義如下:
根據(jù)表1可知,OGM(1,3)模型的模擬誤差為3.21%,而GM(1,1)模型的模擬誤差為5.79%,表明OGM(1,3)模型具有優(yōu)于GM(1,1)模型的模擬性能。為了直觀表示上述兩個模型對交通事故發(fā)生數(shù)的模擬效果,應(yīng)用EXCEL繪制了不同模型預(yù)測值及相對誤差,見圖2和圖3。根據(jù)圖2和圖3可以看出,OGM(1,3)模型模擬數(shù)據(jù)與真實值基本吻合,相對誤差值波動幅度相比于GM(1,1)模型較小,最大值為7.30%,這再次表明該模型模擬效果較好,可以很好地揭示我國交通事故的動態(tài)變化規(guī)律;而GM(1,1)模型本質(zhì)上是指數(shù)函數(shù),具有嚴格單調(diào)性,難以實現(xiàn)對隨機波動數(shù)據(jù)序列的有效模擬。
為了預(yù)測2021~2025年我國交通事故發(fā)生數(shù),首先使用GM(1,1)模型對輸入因子X6和X8的未來值進行預(yù)測,這里使用MATLAB對GM(1,1)模型進行參數(shù)估計及預(yù)測(見表2和表3),發(fā)展系數(shù)-a均小于0.3,模型精度等級均為一級(好)[13],這說明建立的GM(1,1)模型均可用于交通事故的中長期預(yù)測;然后將各輸入因子的預(yù)測值代入上述GM(1,3)模型對2021~2025年道路交通事故發(fā)生數(shù)進行預(yù)測,具體結(jié)果見表3最后一列。
由《中國統(tǒng)計年鑒2022》可知:2021年我國道路交通事故發(fā)生數(shù)為273098起,OGM(1,3)模型預(yù)測值為272365起,預(yù)測精度為:
而用GM(1,1)模型預(yù)測2021年我國道路交通事故發(fā)生數(shù)為244881起,預(yù)測精度為:
顯然,△OGM(1,3)> △GM(1,1),OGM(1,3)模型具有比GM(1,1)模型更好的預(yù)測性能,這表明融合隨機森林與OGM(1,N)的預(yù)測模型適合我國道路交通事故預(yù)測。另外,從表3可以看出,我國道路交通事故發(fā)生數(shù)在未來仍將維持增長態(tài)勢,到2025年交通事故發(fā)生數(shù)達到364575起,相比2021年的實際值要增加90000多起,因此道路交通安全管理和交通事故預(yù)防工作仍需進一步加強。為了推動全國道路交通安全工作高質(zhì)量發(fā)展,應(yīng)進一步加強道路交通安全宣傳教育工作,增強全民交通安全意識,特別是要加強行業(yè)培訓(xùn),提高駕駛員綜合素質(zhì);進一步加大車輛檢查、檢修力度,確保車輛轉(zhuǎn)向、制動、輪胎、線路等關(guān)鍵部件狀況良好,加快研發(fā)并推廣應(yīng)用新安全技術(shù),特別是要研究構(gòu)建車路協(xié)同安全體系,不斷提升車輛的智能化水平及安全性;進一步加大對道路交通基礎(chǔ)設(shè)施建設(shè)的財政投入力度,完善道路交通安全設(shè)施,努力打造良好交通出行環(huán)境,從而有效預(yù)防和減少道路交通事故發(fā)生,加快推進我國道路交通安全治理體系和治理能力現(xiàn)代化建設(shè)。
交通事故是一個嚴重的社會問題,受到人、車輛、道路、環(huán)境等多方面因素的影響,是各種因素綜合作用的結(jié)果。本文根據(jù)已有相關(guān)文獻,基于我國2010~2021年間道路交通事故發(fā)生數(shù)量及相關(guān)影響因素數(shù)據(jù),采用隨機森林算法分析道路交通事故發(fā)生數(shù)量的主要影響因素,建立了道路交通事故發(fā)生數(shù)量的多維灰色系統(tǒng)預(yù)測模型,在此基礎(chǔ)上對我國2011~2021年道路交通事故發(fā)生數(shù)量進行了模擬和預(yù)測,結(jié)果顯示模型預(yù)測誤差較小,且預(yù)測穩(wěn)定性得到提高,可以作為道路交通事故發(fā)展趨勢的有效預(yù)測模型。本文的研究成果為道路交通事故發(fā)生數(shù)量影響因素分析與預(yù)測模型構(gòu)建提供了一種有效的建模方法,這對于公安機關(guān)決策者制定交通管理政策、助力道路交通的安全性和運行效率提升、推動道路交通安全工作高質(zhì)量發(fā)展等方面,具有一定的積極意義。