王 璐 朱 寧
(天津大學管理與經濟學部 天津 300072)
截至到2016年底,我國的高速公路已發(fā)展到13.10萬km[1]。隨著高速公路建設快速發(fā)展,其事故也不斷增多,因此,高速公路事故救援成為公路安全研究的重點,其中巡邏車對事故發(fā)現(xiàn)和救援起到至關重要的作用。研究表明,受傷人員的生存率隨救援時間的增加而逐漸降低,在接到報警的14 min之后,生存率即可降至75%以下[2]。實際工作中,由于高速公路的特殊性,報警人往往不能快速有效地確定自己的位置,降低了救援效率。為了提高高速公路事故救援效率,學者主要針對系統(tǒng)框架、資源分配策略,以及最小化救援時間等問題進行研究。然而,目前已有的巡邏車事件應急響應研究是基于先驗的靜態(tài)歷史事故數(shù)據(jù)或路網(wǎng)結構的,靈活性不足,救援效率在一定程度提升后達到瓶頸。筆者針對以上問題,將高速公路事故預測和巡邏車應急響應結合起來,以達到提高救援效率的目的。
影響高速公路交通事故發(fā)生的因素有外因和內因,其中內因為司機本身的狀況,例如,年齡、心里因素等,外界因素主要包括交通狀況、地理因素和天氣因素等。有很多學者對影響交通事故的因素進行分類總結,但是通過影響因素的分類無法對事故進行有效預防和及時救援,因此,自2000年以來,很多學者基于影響交通事故的外因對交通事故的實時預測進行了研究。高速公路事故風險預測的2個數(shù)據(jù)集主要來源于實時交通流數(shù)據(jù)和警方數(shù)據(jù),它們分別為事故發(fā)生前一段時間與交通狀態(tài)相關的數(shù)據(jù)集和同一路段的事故數(shù)據(jù)集。事故的數(shù)據(jù)主要包括事故發(fā)生的時間和地點,交通數(shù)據(jù)主要包括車輛速度、占有率和流量等。事故預測的指標主要包括提前時間、敏感度和誤判率。其中,敏感度表示預測發(fā)生事故并且真實發(fā)生的事故數(shù)占所有真實發(fā)生的事故比例,誤判率表示將無事故判為有事故占所有實際中無事故的比例。敏感度和誤判率往往相互制約,為了便于分析,常常以TPR(ture positive rate)為縱軸,F(xiàn)PR(false positive rate)為橫軸,根據(jù)模型的不同分類衡量指標繪制成為事故預測ROC曲線圖。事故預測主要是通過人工智能或機器學習方法或統(tǒng)計方法對交通狀態(tài)變量進行篩選,應用篩選出的交通變量訓練事故風險預測模型,從而達到對事故風險實時預測的目的。其中機器學習方法主要包括貝葉斯[3-5]和支持向量機[6-7]等,統(tǒng)計方法主要包括logistics等[8-9]。在影響因素方面,一些學者還研究了可見度[10-12]和地理狀況[13]與事故之間的實時關系,此外,Tanishita等[14]還考慮了平均速度的變化,研究了平均速度和平均速度的變化對交通事故的影響,應用一個二維累計泊松模型分析日本高速公路平均連續(xù)5 min車速監(jiān)測數(shù)據(jù),結果表明,平均速度和平均車速的變化都會影響每公里的交通事故率。
高速公路事件應急管理方面,學者主要研究了系統(tǒng)框架、資源分配策略,以及最小化救援時間等。Zografos等[15]研究了高速公路交通流恢復的最小化集成方法框架。該模型由3個基本模塊構成:①通過服務區(qū)域的數(shù)量決定交通流恢復需要車的數(shù)量;②估計總事故清除時間;③根據(jù)高速公路的總事故清除時間、高速公路幾何特性和交通特性對延誤時間進行了估計。研究表明該模型可以用來確定系統(tǒng)需要車的數(shù)量,制定調度策略。Lou Yingyan等[16]研究了在確定性和隨機性2種情況下檢測、響應和清除交通事件的巡邏服務部署問題,這2個情況的主要目標是盡量減少總的事件響應時間。Wu Weitiao等[17]開發(fā)了一個基于離散事件的仿真模型來模擬巡邏過程,來分析新的調度方法的有效性,研究表明將會減少9.2%的事故清除時間。然而,這些研究基于設定的場景,在應急響應上有很大的局限性,筆者應用最鄰近(KNN)方法對美國高速公路I-5s高速公路的一段路程進行事故預測,用python搭載仿真路網(wǎng),以實時預測的數(shù)據(jù)作為仿真參數(shù)輸入,從主動救援的角度減少事故響應時間。
基于高速公路是事故實時預測的主動應急救援問題可以描述如下:用無向圖G=(V,E)表示研究區(qū)域的交通網(wǎng)絡,頂點為V={v0,v1,v2,…,vn},邊緣為E={(vi,vj):vi,vj∈V,i 圖1 高速公路網(wǎng)絡結構Fig.1 Highway network 事故預測問題的本質是數(shù)據(jù)分類問題,包括學習階段和分類階段。學習階段如圖2 a)所示,用分類算法訓練交通狀態(tài)數(shù)據(jù),如流量、占有率、速度等。學習的模型和分類器以分類規(guī)則的形式給出,構建事故預測模型。分類階段如圖2 b)所示,檢驗數(shù)據(jù)用于評估分類規(guī)則的準確率,如果準確率較高,可以用這些規(guī)則對新的交通狀態(tài)數(shù)據(jù)進行判斷,預測事故是否發(fā)生。 圖2 交通狀態(tài)數(shù)據(jù)分類過程Fig.2 Classification of traffic 事故預測主要包括7個部分:確定目標、數(shù)據(jù)收集、數(shù)據(jù)處理、變量篩選、訓練預測模型、預測事故,以及預測結果分析。事故預測的目標主要是盡可能準確的預測事故是否發(fā)生。收集到數(shù)據(jù)后,要進行特征向量構建,歸一化,均衡數(shù)據(jù)處理,并對特征向量進行特征篩選,找出相關度比較大的交通狀態(tài)特征。 2.2.1基于過采樣的SMOTE算法 由于常見的隨機過采樣采取簡單復制事件集數(shù)據(jù)樣本的策略來增加少數(shù)類樣本,這樣容易產生模型過擬合的問題,人們對其進行了改進。SMOTE[18](synthetic minority oversampling techniques)是一種效果較好的合成采樣技術,它的基本思想是對少數(shù)類樣本進行分析,并根據(jù)少數(shù)類樣本人工合成新樣本添加到原始的數(shù)據(jù)集中,合成少數(shù)類樣本示意圖見圖3。通過SMOTE算法,事故和非事故數(shù)據(jù)集可以達到平衡。 圖3 合成少數(shù)類樣本示意圖Fig.3 The diagram of synthetic the minority sample SMOTE算法具體步驟如下。 1)對于事件類中每一個樣本αi,以歐氏距離為標準計算它到事件類樣本集Sacc中所有樣本的距離,得到其k近鄰。 2)根據(jù)事件與非是故不平衡比例設置一個采樣比例以確定采樣倍率N,對于每一個事件類樣本αi,從其k近鄰中隨機選擇若干個樣本,假設選擇的近鄰為 。 3)對于每一個隨機選出的近鄰e,分別與原樣本按照如下的公式構建新的樣本。 2.2.2基于Relief的特征變量篩選 Relief[19]算法最早由Kira提出,是一種特征權重算法,根據(jù)各個特征和類別的相關性賦予特征不同的權重,權重小于某個閾值的特征將被移除。Relief算法中特征和類別的相關性是基于特征對近距離樣本的區(qū)分能力,偽代碼見表1。 表1 Relief算法步驟Tab.1 The procedures of Relief method 2.2.3GBDT分類器 GBDT[20]是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論累加起來做最終答案。它在被提出之初就和SVM一起被認為是泛化能力較強的算法。其適用性較為廣泛,分類效果好,已經在各個領域得到廣泛的應用。 其步驟如下。 1)初始化,估計使損失函數(shù)極小化的常數(shù)值,它是只有1個根節(jié)點的樹,即γ是一個常數(shù)值。 2)(a)計算損失函數(shù)的負梯度在當前模型的值,將它作為殘差的估計。 (b)估計葉節(jié)點區(qū)域,以擬合殘差的近似值。 (c)利用線性搜索估計葉節(jié)點區(qū)域的值,使損失函數(shù)極小化。 3)得到更新的模型為 選取加利福尼亞I-5s高速公路上34 km長的路段為研究路段,該路段起于San Diego 86 km,止于Orange 120 km。 所使用的數(shù)據(jù)主要包括2個數(shù)據(jù)集:①加利福尼亞交通局測量系統(tǒng)采集的交通狀態(tài)數(shù)據(jù)集;②加利福尼亞交通管理部門統(tǒng)計整理的交通事件數(shù)據(jù)集。下面分別對2個數(shù)據(jù)集進行詳細介紹。交通狀態(tài)數(shù)據(jù)來自該路段上的13個檢測器,包括2013年1月1日-2014年1月1日間1年的數(shù)據(jù)。這些檢測器每30 s檢測1次交通數(shù)據(jù)并實時傳回控制中心,這些交通數(shù)據(jù)主要包括交通流量,占有率和車速。為了防止數(shù)據(jù)的偶然性,將每個檢測器在5 min的時間段的數(shù)據(jù)作為研究對象的最小單位,為了避免事件時間不準確帶來的誤差,提取交通事件時間之前在5~10 min的交通狀態(tài)變量。例如,如果一個事件發(fā)生在20:56,相應的交通數(shù)據(jù)是交通情況從20:46-20:51。所選數(shù)據(jù)集中,數(shù)據(jù)完整并且可以進行研究的共計138起。對于事件數(shù)據(jù)集中的每個事件,選取事件發(fā)生前至少1 h之前或至少1 h之后沒發(fā)生事件的案例作為對照組。應用收集的數(shù)據(jù)構建17個交通特征變量。 經過特征向量構建,SMOTE平衡數(shù)據(jù)集,Relief特征變量篩選后,應用GBDT分類器進行分類預測,得到GBDT模型對平橫數(shù)據(jù)和不平衡數(shù)據(jù)的預測結果對比,見圖4。 圖4 基于GBDT分類器的平衡與不平衡數(shù)據(jù)集對比Fig.4 Comparation of balanced and unbalanced datasets under GBDT 從圖中可以看出相比不平衡數(shù)據(jù),平衡數(shù)據(jù)下GBDT在f1_score和auc方面有一定提高,相比不平衡數(shù)據(jù),平衡數(shù)據(jù)下GBDT的accuracy指標略低,差值為0.02左右,說明整體預測能力略弱一些。 為了使研究問題簡化清晰,在結合巡邏車系統(tǒng)的實際情況下,對巡邏車系統(tǒng)模型進行如下假設。 1) 事故發(fā)生的間隔時間、地點是隨機的,并且是相互獨立的。 2) 對于不同的事故,巡邏隊的處理時間是不確定的,事件處理時間為1個隨機變量。 3) 預測的事故路段的排隊方式為損失制(正常的排隊是指雖然沒有車,但是可以把事故信息存儲下來,有空閑車輛時再處理巡邏事故信息。損失制是指在沒有空閑車的情況下,不對事故信息進行存儲)。 4) 預測的事故路段的應急響應方式是優(yōu)先權服務,即事故報警請求援助的情況下優(yōu)先級最高。 5) 路網(wǎng)的路阻已知且不隨時間變化,即路網(wǎng)是一個靜態(tài)系統(tǒng)。 巡邏車響應系統(tǒng)是1個離散事件系統(tǒng)[21],基于事故風險預測的巡邏系統(tǒng)的實體主要包括風險路段、巡邏車、路網(wǎng)路段和事故報警路段,各實體的屬性、活動及狀態(tài)見表2。 巡邏車響應的事故包括2種,即事故風險路段和事故報警路段。其中預測的風險路段又包括將會真實發(fā)生的或誤判的。定義巡邏車響應事故報警時的狀態(tài)是一級繁忙狀態(tài),巡邏車響應事故預警時的狀態(tài)是二級繁忙狀態(tài)。模型的事件主要包括事故預測事件、事故報警事件、巡邏車到達事件和巡邏車離開事件等幾種,分別介紹如下。 表2 系統(tǒng)要素屬性,活動與狀態(tài)Tab.2 System element properties, activities and status 1) 事故預測事件與事故報警事件。根據(jù)假設的事故預測分布情況,產生事故預測事件。當發(fā)生事故預測事件時,首先判斷巡邏車的狀態(tài),如果巡邏車處于“忙”狀態(tài),則巡邏車保持當前狀態(tài),此時不再響應事故預測事件或報警事件,按照最短路徑向事故預測路段行駛。 2) 巡邏車到達事件與離開事件。巡邏車到達目的路段后,路段的狀態(tài)由“等待巡邏”變?yōu)椤敖邮苎策墶?。巡邏車離開目的路段后,路段的狀態(tài)由“接受響應”變?yōu)椤伴e”狀態(tài)。 巡邏車仿真系統(tǒng)參數(shù)主要分為3大類,分別為路網(wǎng)參數(shù)、巡邏車仿真參數(shù)和事故預測參數(shù)。計算機仿真所采用的高速公路網(wǎng)絡結構如圖1所示,路網(wǎng)中有15個節(jié)點、32條邊,具體路段數(shù)據(jù)見表3。 巡邏車仿真參數(shù)包括巡邏車的數(shù)量、速度和常規(guī)巡邏路徑。設置1輛巡邏車,其速度為60 km/h,常規(guī)巡邏路徑為g-i-k-g。事故提前預測時間為5 min,頻率為5 min/次。 表3 計算機仿真高速公路路段Tab.3 Freeway road segment for computer simulation 事故預測仿真參數(shù)主要包括提前預測時間、敏感度和誤判率、事故預測的頻率、事故發(fā)生的時間和事故的處理時間。事故的發(fā)生地點是隨機的,事故的處理時間為0~20 min的隨機分布。事故的提前預測時間為5 min,根據(jù)GBDT算法,在高速公路美國加利福尼亞I-5s數(shù)據(jù)下得到交通事故預測數(shù)據(jù)如圖3所示,將圖3中的數(shù)據(jù)作為事故預測敏感度和誤判率。表4為California州I-5s高速公路平均每100 km非工作日事件發(fā)生時間分布,其中事件均值在0.11~1.30,最小值在各個不同時刻均為0,事件高峰在6:00,15:00和17:00左右達到。將表4作為交通事件頻率仿真參數(shù)。 表4 California I-5 s平均每100 km非工作日事故發(fā)生時間分布Tab.4 California I-5 s average 100 km weekend accident occurrence time distribution 事故平均響應時間用UBRT表示,平均無響應事件數(shù)目用NR表示。從表5可以看出,隨著TPR的增加,F(xiàn)PR也逐漸增加,事故平均響應時間變小,與此同時,無響應事故也逐漸增多,在工作日最低響應時間分別為17.2 min,節(jié)省了約6 min。但與此同時,無響應的事故數(shù)也增多,需要合理配置巡邏車輛。 表5 平均應急響應時間仿真結果Tab.5 Result of the average emergency response 1) 以往的研究基于先驗歷史事故數(shù)據(jù)或路網(wǎng)結構,其本質是靜態(tài)的且靈活性不足。針對這一問題,基于采集的高速公路事故數(shù)據(jù)和交通狀態(tài)數(shù)據(jù),對巡邏車主動式應急響應時間進行了研究。模型的有效性得到驗證。 2) 研究只考慮了1個巡邏車基于事故預測的事故應急響應,沒有研究多個巡邏車時,巡邏車該如何配置以及事故預測模型如何選擇。為了更加全面的研究基于事故預測的事故響應對救援時間的影響,下一步的研究將基于巡邏隊整體巡邏效率而展開。仿真具有隨機性,仿真實驗展現(xiàn)的是一定交通情況下模型的有效性,需要對可靠性進行驗證。 參考文獻References [1]國家統(tǒng)計局.中國統(tǒng)計年鑒[Z].北京:中國統(tǒng)計出版社,2016. National Bureau of Statistics. China Statistical Yearbook[Z]. Beijing: China Statistics Press, 2016. (in Chinese) [2]楊惠敏,陳雨人,方守恩,等.高速公路交通事故救援時間與生存率關系模型研究[J].交通信息與安全,2015,33(4):82-86. YANG Huimin, CHEN Yuren, FANG Shou′en, et al. Study on the Model of Relationship between Highway Traffic Accident Rescue Time and Survival Rate[J]. Journal of Transport Information and Safety, 2015,33(4):82-86.(in Chinese) [3]DEUBLEIN M, SCHUBERT M, ADEY B T, et al. Prediction of road accidents: A Bayesian hierarchical approach[J]. Accident Analysis & Prevention, 2013,51(4):274-291. [4]HOSSAIN M, MUROMACHI Y. A Bayesian network based framework for real-time crash prediction on the basic freeway segments of urban expressways[J]. Accident Analysis & Prevention, 2012,45(1):373. [5]SUN J, SUN J. A dynamic Bayesian network model for real-time crash prediction using traffic speed conditions data[J]. Transportation Research Part C: Emerging Technologies, 2015(54):176-186. [6]QU X, WANG W, WANG W, et al. Real-time freeway sideswipe crash prediction by support vector machine[J]. Intelligent Transport Systems Iet, 2013,7(4):445-453. [7]YU R, ABDELATY M. Utilizing support vector machine in real-time crash risk evaluation[J]. Accident Analysis & Prevention, 2013,51(2):252-259. [8]ANASTASOPOULOS P C, MANNERING F L. An empirical assessment of fixed and random parameter Logit models using crash- and non-crash-specific injury data[J]. Accident Analysis & Prevention, 2011,43(3):1140-1147. [9]LEE J, YASMIN S, ELURU N, et al. Analysis of crash proportion by vehicle type at traffic analysis zone level: A mixed fractional split multinomial Logit modeling approach with spatial effects[J]. Accident Analysis and Prevention, 2018,111:12-22. [10]ABDEL-ATY M A, HASSAN H M, AHMED M, et al. Real-time prediction of visibility related crashes[J]. Transportation Research Part C: Emerging Technologies, 2012,24(9):288-298. [11] ABDEL-ATY M A. Predicting reduced visibility related crashes on freeways using real-time traffic flow data[J]. Journal of Safety Research, 2013,45:29-36. [12]ABDEL-ATY M A, HASSAN H M, AHMED M. Real-time analysis of visibility related crashes: can loop detector and AVI data predict them equally?[C]. Transportation Research Board 91st Annual Meeting. Wangshington,D.C: TRB, 2012. [13]WANG L, ABDEL-ATY M, LEE J, SHI Q. Analysis of real-time crash risk for expressway ramps using traffic, geometric, trip generation, and socio-demographic predictors[J/OL].(2017-7)[2018-3-16] https://doi.org/10.1016/j.aap.2017.06.003. [14]TANISHITA M, VAN WEE B. Impact of vehicle speeds and changes in mean speeds on per vehicle-kilometer traffic accident rates in Japan[J]. IATSS Research, 2017,41(3):107-112. [15]ZOGRAFOS K G, NATHANAIL T, MICHALOPOULOS P. Analytical framework for minimizing freeway-incident response time[J]. Journal of Transportation Engineering, 1993,119(4):535-549. [16]LOU Y, YIN Y, LAWPHONGPANICH S. Freeway service patrol deployment planning for incident management and congestion mitigation[J]. Transportation Research Part C: Emerging Technologies, 2011,19(2):283-295. [17]CHEN H, CHENG T, WISE S. Developing an online cooperative police patrol routing strategy[J/OL].(2017-3)[2018-3-6] https://doi.org/10.1016/j.compenvurbsys.2016.10.013. [18]CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002,16(1):321-357. [19]KONONENKO I. Estimating attributes: analysis and extensions of RELIEF[C]. European Conference on Machine Learning, Catania, Italy: ECML-PKDD, 1994. [20]FRIEDMAN J H. Greedy function approximation: A gradient boosting machine[J]. Annals of Statistics, 2001,29(5):1189-1232. [21]CASSANDRAS C G, LAFORTUNE S. Introduction to Discrete Event Systems[M]. Boston: Springer US, 2008.2 事故預測模型
2.1 事故預測流程
2.2 基于SMOTE,Relief和GBDT的交通事故預測方法
2.3 事故預測結果
3 巡邏車應急響應仿真模型
3.1 模型假設
3.2 系統(tǒng)要素分析
4 仿真實驗
4.1 仿真實驗參數(shù)設置
4.2 結果統(tǒng)計與分析
5 結 論