陳豐,張婷,黃雅迪,陳慈河,張曙光,呂明
(1.同濟大學(xué),道路與交通工程教育部重點實驗室,上海 201804;2.中國城市規(guī)劃設(shè)計研究院,西部分院,重慶 400000;3.中交西南投資發(fā)展有限公司,成都 610213)
隨著交通需求的不斷增長,素有“交通咽喉”之稱的越江越海隧道事故多發(fā)。越江越海隧道入口周邊路網(wǎng)往往較為復(fù)雜,多為高速公路或城市快速路匯入?yún)^(qū),與匝道、服務(wù)區(qū)或立交相鄰,多股交通流相互交匯,交通流狀態(tài)復(fù)雜。越江越海隧道入口段為發(fā)生交通事故和引起嚴(yán)重擁塞的關(guān)鍵區(qū)域。同時,由于地形限制,越江越海隧道入口段一般會設(shè)置長大縱坡,以實現(xiàn)與兩岸路網(wǎng)的合理順接,而隧道內(nèi)外環(huán)境劇烈變化,易造成駕駛?cè)藢ν话l(fā)情況避讓不及時,導(dǎo)致越江越海隧道入口段追尾事故頻發(fā)。
智能交通系統(tǒng)的發(fā)展使得動態(tài)獲取交通信息成為可能,極大地提高了交通信息的豐富程度,基于相關(guān)交通信息,事故風(fēng)險實時預(yù)測模型應(yīng)運而生,用于預(yù)測交通事故發(fā)生的概率。Abdel Aty等[1]先是基于事故發(fā)生前30 min 內(nèi)事故點上下游斷面的交通流數(shù)據(jù)構(gòu)造事故樣本,用廣義估計方程(GEEs)研究交通流對高速公路行車安全的影響;然后利用配對案例對照邏輯回歸方法,建立了二元Logit 事故預(yù)測模型,事故分類準(zhǔn)確率可達69.4%。Ahmed 等[2]用AVI(Automatic Vehicle Identification)數(shù)據(jù)中的區(qū)間平均速度構(gòu)造事故點附近7個路段、發(fā)生前5個時段的3個速度變量(平均速度、速度標(biāo)準(zhǔn)差、速度方差系數(shù)的對數(shù)值)共105 個解釋變量,使用隨機森林方法構(gòu)建事故風(fēng)險預(yù)測模型,取得70%的預(yù)測準(zhǔn)確率。Zhang 等[3]基于弗羅里達州高速公路交通流數(shù)據(jù),以機器學(xué)習(xí)方法與統(tǒng)計方法預(yù)測事故嚴(yán)重程度,發(fā)現(xiàn)機器學(xué)習(xí)方法中隨機森林預(yù)測表現(xiàn)最佳。賈豐源等[4]基于上海市延安高架和南北高架線圈檢測器所采集的事故數(shù)據(jù)和相應(yīng)檢測器數(shù)據(jù),用隨機森林模型篩選事故發(fā)生前5~10 min的交通流特征變量,構(gòu)建基于貝葉斯網(wǎng)絡(luò)的實時交通流事故風(fēng)險預(yù)測模型,事故預(yù)測準(zhǔn)確率達到82.78%。游錦明等[5]基于某高速公路道級交通流數(shù)據(jù),采用配對案例對照的方法,建立追尾事故實時預(yù)測支持向量機模型,總體事故預(yù)測精度為84.85%。趙海濤等[6]提出一種采用激活函數(shù)Relu的卷積神經(jīng)網(wǎng)絡(luò)的交通事故預(yù)測算法,預(yù)測結(jié)果相比其他激活函數(shù)具有更高的準(zhǔn)確度和更低的損失。
目前,短時交通事故風(fēng)險預(yù)測研究依賴于高密度、高頻率的交通流數(shù)據(jù),過往研究中采用的交通數(shù)據(jù)主要是線圈檢測器數(shù)據(jù),國內(nèi)部分學(xué)者已經(jīng)開始探索基于其他交通數(shù)據(jù)源的事故風(fēng)險預(yù)測方法,包括AVI 數(shù)據(jù)、RTMS 數(shù)據(jù)和雷達檢測器數(shù)據(jù)等,但在交通風(fēng)險預(yù)測中,引入駕駛模擬器實驗數(shù)據(jù)配合實際數(shù)據(jù)進行驗證的研究較少,駕駛模擬器可較為真實的重現(xiàn)實際道路,重復(fù)性好、實驗成本低,能夠有效測評駕駛?cè)说鸟{駛感受。此外,現(xiàn)階段短時事故風(fēng)險預(yù)測模型大多基于高速公路場景,針對越江越海隧道的研究較少,而越江越海過江隧道行車環(huán)境和交通流特性等與其他隧道、公路存在較大差別,現(xiàn)有的短時事故風(fēng)險預(yù)測模型難以應(yīng)用于越江越海隧道場景,同時越江越海隧道多為交通咽喉節(jié)點,事故的影響范圍也會更大,因此本文依據(jù)越海越江隧道交通環(huán)境特性,選取上海長江隧道入口段作為典型越江越海隧道入口段,以小汽車為研究對象,基于駕駛模擬實驗,研究越江越海隧道入口段駕駛?cè)诵袨樘匦约白肺彩鹿曙L(fēng)險預(yù)測。
本文選取上海長江隧道入口段為例開展研究,為研究越江越海隧道入口段駕駛?cè)诵袨樘匦院蛯崿F(xiàn)追尾事故風(fēng)險預(yù)測,首先利用駕駛模擬器對駕駛?cè)嗽诮?jīng)過越江越海隧道入口路段的車輛操控數(shù)據(jù)進行采集。
本次實驗使用的仿真軟件是SCANeR studio 1.6,該軟件可以進行3D 道路路徑設(shè)計、道路景觀設(shè)計、車輛動力學(xué)模型構(gòu)建,同時可以通過軟件提供的API 接口編寫程序以調(diào)整能見度、風(fēng)速、路面附著系數(shù)、天氣狀況等實驗條件。此外,該軟件能夠根據(jù)時間和距離實時記錄實驗車輛及其他車輛的速度、加速度、橫向偏移等運行參數(shù),方向盤轉(zhuǎn)角、油門踏板、制動踏板操作等駕駛員操作參數(shù)等,為實驗設(shè)計及數(shù)據(jù)分析提供了全面的技術(shù)保障。
駕駛模擬器的硬件設(shè)備包括3塊LED顯示屏、駕駛座椅、油門剎車踏板、羅技G27方向盤、操縱桿等。此外,后視鏡和儀表盤內(nèi)置在顯示屏中。3 塊屏幕可提供約135°的視野,營造出更真實、立體的駕駛感受。
(1)道路場景
實驗依據(jù)上海長江隧橋入口段的實際線形進行場景設(shè)計,如圖1所示,上海長江隧橋南入口段場景模型以過渡直線段-匝道-隧道外直線段-隧道內(nèi)直線段為一個場景單元,參照上海長江隧橋南入口段設(shè)計資料,實驗場景匝道、主線設(shè)計車速80 km · h-1。根據(jù)設(shè)計的實驗場景,使用SCANeR StudioTM仿真軟件中的terrain 模塊建立場景的道路邏輯層。
圖1 實驗場景分段示意圖Fig.1 Section diagram of Experiment scene
(2)天氣場景
考慮到惡劣氣象條件對行車能見度、路面附著系數(shù)等方面的負面影響,有必要設(shè)置不同天氣環(huán)境及其對應(yīng)的路面附著系數(shù),來研究天氣-附著系數(shù)對駕駛?cè)笋{駛行為的影響規(guī)律。本實驗共設(shè)置3種天氣場景,分別為晴天、雨天、雪天。雨雪天氣下隧道外受氣象環(huán)境的影響,路面附著系數(shù)降低,而隧道內(nèi)路面相對干燥,附著系數(shù)變化不大,因此,隧道入口內(nèi)外的路面附著系數(shù)存在突變的情況,實驗中3 種氣象條件和隧道內(nèi)外路面附著系數(shù)參數(shù)設(shè)置如表1[7]所示。
表1 SCANeR StudioTM仿真軟件天氣參數(shù)設(shè)置Table 1 Weather parameters setting in SCANeR StudioTM
(3)交通流場景
交通場景設(shè)計中,設(shè)置自由流、擁擠流、擁堵流這3種交通流狀況,為反映隧道入口段的交通流狀態(tài),根據(jù)上海長江隧道入口內(nèi)50 m 處監(jiān)控視頻(如圖2所示),選取2018年10月1日高峰時段11:00-12:00 交通流調(diào)查數(shù)據(jù),統(tǒng)計隧道入口段內(nèi)側(cè)小客車車道共計1351 條車速數(shù)據(jù),使用K 均值聚類算法分別對擁堵流、擁擠流兩種狀態(tài)下的車速值進行劃分。車速聚類結(jié)果如表2所示。根據(jù)聚類結(jié)果,實驗中自由流、擁擠流、擁堵流情況下的前車速度分別為80,40,20 km·h-1。
表2 基于車速的交通流聚類結(jié)果Table 2 Results of traffic flow clustering based on speed
圖2 道路監(jiān)控視頻截圖Fig.2 Screen capture of monitor video
駕駛模擬實驗最終選取33 名實驗人員,年齡跨度在25~45歲,駕駛經(jīng)驗在2年以上,女性占比為30%,接近2020年中國駕駛?cè)酥信哉急?32%),矯正視力均在5.0 以上。通過預(yù)實驗,所有被試駕駛?cè)司鶡o不適,能夠完成實驗。
首先,被試駕駛?cè)诵枇私獗敬螌嶒炓?guī)則及駕駛模擬器操作方法,填寫基本信息調(diào)查表和多維駕駛風(fēng)格量表(MDSI-C)[8],完成實驗前的準(zhǔn)備工作。隨后被試駕駛?cè)嗽谥付A(yù)實驗場景進行啟動、加速、減速、變道、轉(zhuǎn)彎等適應(yīng)性操作。正式實驗中,每位駕駛?cè)诵柰瓿? 種天氣場景(晴天、雨天、雪天)中3種交通流狀態(tài)實驗,并在3種交通流狀態(tài)下分別設(shè)置了1 次前車急剎車事件,以研究駕駛員的應(yīng)急反應(yīng)情況,實驗事件腳本設(shè)計如圖3所示。
圖3 實驗事件腳本設(shè)計Fig.3 Plan of experiment
實驗數(shù)據(jù)主要包括駕駛?cè)嗽趯嶒炃疤顚懙膯柧頂?shù)據(jù),駕駛模擬器自動收集的車輛行駛狀況數(shù)據(jù)以及駕駛?cè)说鸟{駛數(shù)據(jù)等。具體采集的實驗數(shù)據(jù)類型如表3所示。
表3 實驗數(shù)據(jù)類型Table 3 Type of experimental data
由于本研究旨在建立事故風(fēng)險預(yù)測模型,對數(shù)據(jù)按事故是否發(fā)生進行分類。因此需使用駕駛員在正常跟馳中的行為數(shù)據(jù),初步選擇如表4所示的數(shù)據(jù)建立樣本集,涵蓋天氣、交通流、駕駛風(fēng)格、正常跟馳階段縱橫向駕駛行為等一系列數(shù)據(jù),具有較好的代表性。
表4 初選變量說明Table 4 Description of primary variable
變量初選時考慮到模型的全面性,除駕駛員編號外共選擇了19 個變量,但部分變量之間可能存在一定的相關(guān)性。為進一步提高模型的運行效率及簡潔性,對擬納入模型的變量進行相關(guān)性分析。利用Pearson相關(guān)系數(shù)反映兩個變量之間線性相關(guān)性的強弱水平,當(dāng) |r|≥0.6 時,認為兩變量間為強相關(guān)。計算結(jié)果如表5所示,可知,兩車速度差標(biāo)準(zhǔn)差和車頭間距標(biāo)準(zhǔn)差、車頭時距最小值和車頭間距最小值、擁堵流和車頭時距標(biāo)準(zhǔn)差這3對數(shù)據(jù)的相關(guān)系數(shù)大于0.6,可認為這3對變量之間存在強相關(guān)性,只保留每對其一,綜合考慮后去掉車頭間距標(biāo)準(zhǔn)差、車頭間距最小值、車頭時距標(biāo)準(zhǔn)差這3 種變量。
表5 變量相關(guān)性矩陣Table 5 Matrix of variable correlation
隨機森林(Random Forest)是一種包含多個決策樹的有效分類器,其輸出的最終分類取決于個別樹輸出分類的眾數(shù)。基于基尼系數(shù)降低的變量排序可以用來解釋變量對隨機森林模型數(shù)據(jù)異質(zhì)性的影響,有助于確定每個變量的重要性。
對變量進行相關(guān)性分析后,確定了存在強相關(guān)性的3 對變量,為防止重復(fù),剔除了每對中的一個變量。在模型建立時,為了保證模型的簡潔性和高效性,還需考慮變量對模型結(jié)果的重要性,因而有必要對擬采用的變量進行重要性排序。
利用隨機森林算法,經(jīng)過反復(fù)實驗,決策樹分類節(jié)點(mtry,可確定每次迭代的變量抽樣數(shù)值,用于二叉樹的變量個數(shù))設(shè)置為5,決策樹數(shù)目(ntree,指定隨機森林所包含的決策樹數(shù)目,默認為500)設(shè)置為500時,結(jié)果如圖4所示,模型的誤差趨于穩(wěn)定的最小值。
圖4 隨機森林模型誤差變化Fig.4 Error trend on random forest model
變量重要程度根據(jù)MDA(Mean Decrease Accuracy)和MDG(Mean Decrease Gini)兩個指標(biāo)判斷。由圖5可知,根據(jù)MDA 和MDG 指標(biāo)排序,車頭時距最小值、兩車速度差最大值、急躁、加速度標(biāo)準(zhǔn)差、擁堵流這5個變量對追尾事故風(fēng)險預(yù)測模型精度重要性最高,而天氣因素對于追尾事故預(yù)測模型影響甚微。為有效降低模型的復(fù)雜度,減少模型運算時間,提高預(yù)測精度,基于變量重要性分析將重要性較小的變量予以剔除,選取車頭時距最小值、兩車速度差最大值、急躁、加速度標(biāo)準(zhǔn)差、擁堵流這5個變量建立隨機森林模型。
圖5 初選變量重要性排序Fig.5 Sequence of importance of primary variables
隨機森林是一種基于決策樹理論構(gòu)建分類和回歸樹集成,引入隨機屬性進行訓(xùn)練的機器學(xué)習(xí)算法。該算法可有效避免過擬合和局部收斂問題,對異常值和噪聲有很強的容忍度,具有預(yù)測精度高、調(diào)節(jié)參數(shù)少等優(yōu)點。因而,本文選取隨機森林算法構(gòu)建越江越海隧道入口段追尾事故風(fēng)險預(yù)測模型。
隨機森林計算過程可以簡要描述如下:假設(shè)每個樣本具有N個特征,分配一個小于N的常數(shù)n,并從N個特征中隨機選擇n個特征子集。每次樹分支時,它都會從n中選擇最佳分支。隨機森林在生成時不考慮剪枝,每棵樹均以最大的程度生長。對每個樣本,計算它作為OOB樣本樹的分類情況,之后通過簡單多數(shù)投票作為該樣本的最終分類結(jié)果。隨機森林OOB錯誤率是錯誤分類的數(shù)量與總數(shù)的比率,隨機森林方法原理如圖6所示[9]。
圖6 隨機森林方法原理示意Fig.6 Principle of random forest
在駕駛模擬實驗采集的297條數(shù)據(jù)中,僅有22條數(shù)據(jù)為追尾事故數(shù)據(jù),不平衡系數(shù)R=13.5,是一個典型的不平衡樣本。隨機森林在處理不平衡數(shù)據(jù)集時,其Bootstrap重抽樣方法的隨機性和決策樹的局限性會加劇數(shù)據(jù)集的不平衡性,導(dǎo)致隨機森林算法的性能降低[9]。
針對不平衡數(shù)據(jù)集問題,引入數(shù)據(jù)平衡方法對隨機森林算法進行優(yōu)化,要求經(jīng)過預(yù)處理的訓(xùn)練樣本抽樣后得到訓(xùn)練子集不平衡系數(shù)R′低于2,降低訓(xùn)練樣本的不平衡系數(shù),將不平衡以適應(yīng)隨機森林算法,提高算法預(yù)測準(zhǔn)確度。不平衡系數(shù)計算公式為
式中:Smaj為原始樣本多數(shù)類數(shù)據(jù)數(shù)量;Smin為原始樣本少數(shù)類數(shù)據(jù)數(shù)量;S′maj為預(yù)處理抽樣后多數(shù)類數(shù)據(jù)數(shù)量;S′min為預(yù)處理抽樣后少數(shù)類數(shù)據(jù)數(shù)量。常用的樣本平衡方法有過采樣法和欠采樣法。隨機過采樣法通過增加少數(shù)類樣本的數(shù)量來提高誤分類該類樣本的代價,進而控制分類界面的偏移,可以改善分類器性能。而隨機欠采樣法通過隨機刪除大類的觀測直至數(shù)據(jù)集平衡,本文數(shù)據(jù)不平衡程度較大且樣本量較小,不適宜采用欠采樣算法,故采用隨機過采樣法對訓(xùn)練集進行平衡化處理,降低數(shù)據(jù)不平衡系數(shù),以提升算法性能。將原始數(shù)據(jù)隨機分為訓(xùn)練集(70%)和測試集(30%),通過隨機過采樣法進行平衡化處理后得到訓(xùn)練樣本,基于隨機過采樣策略的隨機森林算法流程如圖7所示。
圖7 隨機過采樣-隨機森林模型流程圖Fig.7 Flowchart of random oversampling-random forest model
在非平衡數(shù)據(jù)分類中,準(zhǔn)確率指標(biāo)難以衡量模型的有效性,混淆矩陣(表6)是非平衡數(shù)據(jù)分類中模型評價的常用方法[10],本文選取幾何均數(shù)和ROC曲線的AUC(Area Under Curve)作為模型評價指標(biāo),其中,幾何均數(shù)G為
表6 混淆矩陣Table 6 Mixed matrx
式中:Se為靈敏度;SP為特異度;F為誤報率;TP為真陽性;FP為假陽性;TN為真陰性,F(xiàn)N為假陰性。
綜合對比基于隨機過采樣策略的隨機森林模型和傳統(tǒng)隨機森林模型、XGBoost 模型、支持向量機模型在越江越海隧道入口段追尾事故風(fēng)險中的預(yù)測性能,以評估本文構(gòu)建的隨機過采樣-隨機森林模型的有效性。
為了更全面地分析和比較4種算法的優(yōu)劣,從理論角度出發(fā),比較4種算法的優(yōu)缺點,如表7所示。
表7 隨機森林、XGBoost和支持向量機算法優(yōu)缺點比較Table 7 Advantages and disadvantages of random forest,XGBoost and support vector machine
表8給出4 個模型在測試集上的靈敏度、特異度、誤報率、幾何均數(shù)和AUC 指標(biāo)??梢钥闯觯S機森林和XGBoost 模型的靈敏度達到100%,但非事故誤報為事故的比例較高;從幾何均數(shù)來看,隨機森林模型的綜合預(yù)測效果優(yōu)于XGBoost模型、支持向量機模型;相比原隨機森林模型,隨機過采樣法-隨機森林模型的靈敏度有所降低,但其幾何均數(shù)提高了1.8%,AUC指標(biāo)提高了6.8%,且誤報率控制在13.54%,表明在越江越海隧道入口段追尾事故風(fēng)險預(yù)測中,隨機過采樣法-隨機森林模型的整體預(yù)測性能最優(yōu)。
表8 預(yù)測模型效果對比Table 8 Comparison of prediction effect
圖8為基于隨機過采樣策略的隨機森林模型的變量重要性排序,可知,決定越江越海隧道入口段追尾事故發(fā)生與否的最主要因素是車頭間距、速度差、加速度標(biāo)準(zhǔn)差等車輛運行狀態(tài)數(shù)據(jù),這表明在事故發(fā)生前正常跟馳階段的車輛運行狀態(tài)是決定事故發(fā)生與否的最主要因素。對此,采取優(yōu)化限速控制措施及增設(shè)車距確認標(biāo)志、可變信息標(biāo)志等管控措施,增強駕駛?cè)烁兄獪?zhǔn)確性,有望降低隧道入口事故的發(fā)生率。
圖8 基于隨機過采樣法-隨機森林模型變量重要性排序Fig.8 Sequence of importance of variables on random oversampling-random forest model
(1)在越江越海隧道入口段追尾事故風(fēng)險預(yù)測中,隨機森林模型的整體預(yù)測效果優(yōu)于XGBoost和支持向量機模型。
(2)本文引入隨機過采樣對隨機森林模型進行不平衡數(shù)據(jù)處理,基于隨機過采樣策略的隨機森林模型AUC 提高了6.8%,達到0.807,這表明隨機過采樣-隨機森林模型在越江越海隧道入口段追尾事故風(fēng)險預(yù)測中具有較好的適用性。
(3)基于隨機過采樣策略的隨機森林模型變量重要性排序表明,車輛運行狀態(tài)是影響事故風(fēng)險的最主要因素,可通過采取優(yōu)化限速控制措施及增設(shè)車距確認標(biāo)志、可變信息標(biāo)志等管控措施,增強駕駛?cè)烁兄獪?zhǔn)確性,以期降低隧道入口事故的發(fā)生率。