魏凌峰,姜文龍
(中國人民公安大學(xué) 交通管理學(xué)院,北京 100038)
根據(jù)中國統(tǒng)計年鑒2020 年[1],2016—2019 年發(fā)生的機動車交通事故統(tǒng)計數(shù)據(jù)見表1。
表1 2016—2019 年事故統(tǒng)計
根據(jù)表1 中數(shù)據(jù)發(fā)現(xiàn),2016—2019 年交通事故發(fā)生數(shù)在2017 年有所下降,2018 年開始有較大增長,與電動自行車的快速發(fā)展和機動車保有量的大幅上升有關(guān)。此外,死亡人數(shù)整體相對較為穩(wěn)定且有小幅增減,受傷人數(shù)增長較多。非機動車的事故數(shù)從2016 年的17 747 起增加至2019 年的29 049 起,增幅約63.7%,表明電動自行車的事故也在不斷增多。事故的不斷增多會帶來傷亡和經(jīng)濟損失,為減少我國交通事故的發(fā)生,采取相應(yīng)措施進行針對性地預(yù)測與預(yù)防是十分必要的。
國內(nèi)專家學(xué)者早已對交通事故的影響因素進行分析,李世民等[2]對北京市某交叉口進行了為期 4 a的數(shù)據(jù)研究,通過累計logistic 回歸模型進行分析;鄧曉慶等[3]利用BP 神經(jīng)網(wǎng)絡(luò)對道路交通量和道路線形進行研究,且獲得較好的預(yù)測結(jié)果;姚琦和王林山[4]利用GA 和LM 的結(jié)合算法對BP 神經(jīng)網(wǎng)絡(luò)進行優(yōu)化,從而對交通事故模型進行預(yù)測;張廣泰等[5]利用多層次灰色與GA-BP 神經(jīng)網(wǎng)絡(luò)模型對烏魯木齊事故多發(fā)黑點路段進行預(yù)測,驗證其模型的可行性。
隨機森林模型其根源為決策樹模型,它是一種集成學(xué)習(xí)的組合分類算法。集成學(xué)習(xí)其核心在于把多個分類性能較弱的分類器組合起來,經(jīng)過演變得出一個具有較高分類性能的分類器。而隨機森林算法可以并行同時生成,這也為特征指標的選擇提供了依據(jù)。
隨機森林算法主要利用自主抽樣法,流程為從原始數(shù)據(jù)中有放回的抽取多個樣本,隨后利用分類性能較弱的分類器(決策樹)對先前抽取的樣本進行訓(xùn)練,再將這些并行演算的決策樹全部組合到一起,通過投票得出最終的結(jié)果即最后的分類。見圖1。
圖1 隨機森林流程
利用隨機森林的重要性評分功能,其原理是利用基尼系數(shù)(Gini),在隨機森林的每一棵樹的生成時,都是按照基尼系數(shù)在分裂前后的減少情況為分裂的依據(jù),對某個節(jié)點進行分類。因此,在隨機森林中可以按照特征N 進行分裂,隨后通過其基尼系數(shù)的減少的總量對特征N 進行分析判斷,確定其重要性。針對一般決策樹的基尼系數(shù):
式中:K—共有K 類;Pk—樣本屬于第K 類的概率。
基尼系數(shù)越大,則不確定性就越大;基尼系數(shù)越小,不確定性越小,數(shù)據(jù)分割越徹底,越干凈。
使用隨機森林選取特征重要性具有較多優(yōu)點,如在數(shù)據(jù)集上表現(xiàn)良好,在當(dāng)前很多數(shù)據(jù)集上,相對其他算法具有較大優(yōu)勢,兩個隨機性的引入使得隨機森林對于數(shù)據(jù)的缺失值、異常值等具有較低的敏感性;訓(xùn)練速度快,可以對多個變量的重要性進行排序;實現(xiàn)簡單等。但也有一定缺點,如在某些缺失大量數(shù)據(jù)或存在較多異常值樣本集上,RF 模型容易陷入過擬合;取值劃分比較多的特征容易對RF決策產(chǎn)生更大的影響,從而影響擬合模型效果。
針對交通事故原始數(shù)據(jù)集進行一個篩選,將不符合本次分析內(nèi)容的特征進行刪除,最后留下16 個特征指標,利用事故類型作為因變量共分為三類:財產(chǎn)損失(輕度)、傷人(中度)、死亡(重度)。針對16 個特征屬性747 條數(shù)據(jù)利用Matlab 進行數(shù)據(jù)預(yù)處理,再經(jīng)過數(shù)據(jù)篩選、補全缺失值等處理過程后得到完整的數(shù)據(jù)集。隨后利用隨機森林RF 對數(shù)據(jù)集的特征重要性進行計算,同時進行歸一化,其結(jié)果由高到底見表2。
表2 特征重要性占比
下一步對數(shù)據(jù)集進行RF 預(yù)測,利用原數(shù)據(jù)集與指標選取后的數(shù)據(jù)集進行準確度對比,找出準確度最高的數(shù)據(jù)指標集合。在此之前需要進行驗證來測試算法準確性,以防止過擬合的現(xiàn)象,在Matlab 中可以利用交叉驗證法與留出法進行驗證。采取十折交叉驗證法,其原理為將數(shù)據(jù)集分成10 份,依次將其中9 份作為訓(xùn)練數(shù)據(jù),1 份作為測試數(shù)據(jù)進行試驗。每次試驗都會得出相應(yīng)的正確率(或差錯率)。將10 次的結(jié)果取算術(shù)平均值,將平均值作為該算法的大致精度,同時10 次交叉驗證并不只做一次,往往是多次進行。10 次交叉驗證,將10 次的結(jié)果再次求其算術(shù)平均數(shù),這樣可以減少誤差提高算法準確性的精度。經(jīng)過計算得出RF 模型準確率見表3。
表3 RF 模型準確率
結(jié)果發(fā)現(xiàn)在刪除最后兩個的特征時,模型的準確率只有很小幅度地提升,在刪除第三個特征值的時候模型準確率有了較大地提高,若繼續(xù)刪除的話也只有小幅度地提升。為保證數(shù)據(jù)分析的多樣性,最終確定使用12 個特征值:事故類型(SGLX)、事故形態(tài)(SGXT)、車輛間事故(CLJSG)、直接財產(chǎn)損失(MONEY)、天氣(TQ)、事故認定原因(人員操作)(SGRDYY)、能見度(NJD)、照明條件(Light)、道路類型(DLLX)、路口路段類型(LKLULX)、道路物理隔離(DLWLGL)、路側(cè)防護設(shè)施(LCFHSS)、道路安全屬性(LDAQSX)。
確定數(shù)據(jù)特征后利用Matlab 進行模型分析,為確保最大準確率,在分析前利用Matlab 對所有的模型進行訓(xùn)練,得出最優(yōu)模型,其模型結(jié)果見表4。
表4 模型準確度
通過模型訓(xùn)練可知,準確度最高的為支持向量機(SVM)模型,因此本文擬采用SVM 對交通事故的嚴重程度影響因素進行分析。
高斯核函數(shù)[6]首先將原來的數(shù)據(jù)點映射成一種新的特征向量,然后得到新的特征向量點乘的結(jié)果。對高斯核函數(shù)來說,本質(zhì)就是將每一個樣本點映射到一個無窮維的特征空間,這就表明高斯核函數(shù)對于樣本數(shù)據(jù)的變形是非常復(fù)雜的,但是經(jīng)過變形,再去點乘,可以得到十分簡單明了的結(jié)果,表明了核函數(shù)的高效。
高斯函數(shù)公式:
因此,可以利用高斯核SVM 對本次交通事故影響因素進行分析。
SVM 模型主要采取混淆矩陣、F1 分數(shù)、ROC 曲線以及AUC 值進行評價。其中混淆矩陣的計算指標見表5。
表5 指標介紹
通過計算表5 中相應(yīng)指標結(jié)果,可推算出評價模型效果的指標:真正類率TPR、假真類率FPR、真負類率TNR=1-FPR、準確率ACC、精確率Precision、召回率Recall 以及調(diào)和平均值F1。
將計算的指標繪制ROC 曲線,ROC 曲線是由FPR 和TPR 的點連成。橫軸是FPR,縱軸是TPR。而AUC 即為ROC 曲線下方的面積,AUC 主要用于衡量二分類問題中機器學(xué)習(xí)算法性能或者泛化能力。
利用Matlab 實現(xiàn)高斯核函數(shù)SVM,獲得相應(yīng)的評價指標結(jié)果。
(1)混淆矩陣?;煜仃嚳梢妶D2,通過混淆矩陣可知原本是傷人事故的預(yù)測準確率最高,只有三個被誤分類未死亡事故,雖然財產(chǎn)損失誤分類的個數(shù)也只有三個,但由于其本身數(shù)量較少,其錯誤率達11.1%。同時也可以得出真正類率TPR 與真負類率TNR 等。
圖2 混淆矩陣
(2)ROC 曲線。ROC 曲線上r 任意一點都反映著對同一信號刺激的感受性。通過ROC 曲線可以計算出AUC 值,其計算方法通過Matlab 軟件實現(xiàn)。
為了驗證其最優(yōu)性,選取另外兩種模型決策樹與樸素貝葉斯神經(jīng)網(wǎng)絡(luò)進行ROC 曲線、AUC 值的對比分析,結(jié)果見圖3。
圖3 ROC 曲線
由圖3 分析可知,高斯核函數(shù)SVM 能較好地預(yù)測交通事故嚴重程度,故將數(shù)據(jù)集采用隨機抽取的方式抽取測試集進行預(yù)測,抽取樣本為所有樣本的20%即150 條數(shù)據(jù),預(yù)測結(jié)果見表6。為證明其最優(yōu)性,采取SVM、決策樹與樸素貝葉斯神經(jīng)網(wǎng)絡(luò)進行對比預(yù)測。
表6 模型預(yù)測準確度
通過對比發(fā)現(xiàn),對于交通事故嚴重程度的預(yù)測,高斯核函數(shù)SVM 具有較好的預(yù)測準確性,其準確率達95.72%。使用樸素貝葉斯神經(jīng)網(wǎng)絡(luò)[7]對事故嚴重程度進行預(yù)測[8]準確率只有63.72%,準確率較低。
通過隨機森林對事故數(shù)據(jù)的特征指標進行重要性計算可知,對于事故發(fā)生最重要的特征因素為人員操作不當(dāng)[9],主要存在三個方面:非機動車不按規(guī)定行駛、行人不按規(guī)定行駛和機動車不按規(guī)定行駛。因此,為減少道路交通事故的發(fā)生,需要對這三類人員進行交通安全教育。
基于交通事故數(shù)據(jù)分析,驗證高斯核函數(shù)具有95%的較高預(yù)測準確性,為未來事故預(yù)測提供一定的參考,同時為交通安全的改善提供方向。不足之處為數(shù)據(jù)量相對較少,只考慮了部分城市道路,涉及范圍較少,可能存在一定的偶然性,在今后的研究中將繼續(xù)逐步解決這些問題。