越江越海隧道入口段追尾事故風(fēng)險預(yù)測模型研究

2021-12-31 03:52陳豐張婷黃雅迪陳慈河張曙光呂明

交通運輸系統(tǒng)工程與信息 2021年6期

陳豐，張婷，黃雅迪，陳慈河，張曙光，呂明

(1.同濟大學(xué)，道路與交通工程教育部重點實驗室，上海 201804；2.中國城市規(guī)劃設(shè)計研究院，西部分院，重慶 400000；3.中交西南投資發(fā)展有限公司，成都 610213)

0 引言

隨著交通需求的不斷增長，素有“交通咽喉”之稱的越江越海隧道事故多發(fā)。越江越海隧道入口周邊路網(wǎng)往往較為復(fù)雜，多為高速公路或城市快速路匯入?yún)^(qū)，與匝道、服務(wù)區(qū)或立交相鄰，多股交通流相互交匯，交通流狀態(tài)復(fù)雜。越江越海隧道入口段為發(fā)生交通事故和引起嚴(yán)重擁塞的關(guān)鍵區(qū)域。同時，由于地形限制，越江越海隧道入口段一般會設(shè)置長大縱坡，以實現(xiàn)與兩岸路網(wǎng)的合理順接，而隧道內(nèi)外環(huán)境劇烈變化，易造成駕駛?cè)藢ν话l(fā)情況避讓不及時，導(dǎo)致越江越海隧道入口段追尾事故頻發(fā)。

智能交通系統(tǒng)的發(fā)展使得動態(tài)獲取交通信息成為可能，極大地提高了交通信息的豐富程度，基于相關(guān)交通信息，事故風(fēng)險實時預(yù)測模型應(yīng)運而生，用于預(yù)測交通事故發(fā)生的概率。Abdel Aty等[1]先是基于事故發(fā)生前30 min 內(nèi)事故點上下游斷面的交通流數(shù)據(jù)構(gòu)造事故樣本，用廣義估計方程(GEEs)研究交通流對高速公路行車安全的影響；然后利用配對案例對照邏輯回歸方法，建立了二元Logit 事故預(yù)測模型，事故分類準(zhǔn)確率可達69.4%。Ahmed 等[2]用AVI(Automatic Vehicle Identification)數(shù)據(jù)中的區(qū)間平均速度構(gòu)造事故點附近7個路段、發(fā)生前5個時段的3個速度變量(平均速度、速度標(biāo)準(zhǔn)差、速度方差系數(shù)的對數(shù)值)共105 個解釋變量，使用隨機森林方法構(gòu)建事故風(fēng)險預(yù)測模型，取得70%的預(yù)測準(zhǔn)確率。Zhang 等[3]基于弗羅里達州高速公路交通流數(shù)據(jù)，以機器學(xué)習(xí)方法與統(tǒng)計方法預(yù)測事故嚴(yán)重程度，發(fā)現(xiàn)機器學(xué)習(xí)方法中隨機森林預(yù)測表現(xiàn)最佳。賈豐源等[4]基于上海市延安高架和南北高架線圈檢測器所采集的事故數(shù)據(jù)和相應(yīng)檢測器數(shù)據(jù)，用隨機森林模型篩選事故發(fā)生前5～10 min的交通流特征變量，構(gòu)建基于貝葉斯網(wǎng)絡(luò)的實時交通流事故風(fēng)險預(yù)測模型，事故預(yù)測準(zhǔn)確率達到82.78%。游錦明等[5]基于某高速公路道級交通流數(shù)據(jù)，采用配對案例對照的方法，建立追尾事故實時預(yù)測支持向量機模型，總體事故預(yù)測精度為84.85%。趙海濤等[6]提出一種采用激活函數(shù)Relu的卷積神經(jīng)網(wǎng)絡(luò)的交通事故預(yù)測算法，預(yù)測結(jié)果相比其他激活函數(shù)具有更高的準(zhǔn)確度和更低的損失。

目前，短時交通事故風(fēng)險預(yù)測研究依賴于高密度、高頻率的交通流數(shù)據(jù)，過往研究中采用的交通數(shù)據(jù)主要是線圈檢測器數(shù)據(jù)，國內(nèi)部分學(xué)者已經(jīng)開始探索基于其他交通數(shù)據(jù)源的事故風(fēng)險預(yù)測方法，包括AVI 數(shù)據(jù)、RTMS 數(shù)據(jù)和雷達檢測器數(shù)據(jù)等，但在交通風(fēng)險預(yù)測中，引入駕駛模擬器實驗數(shù)據(jù)配合實際數(shù)據(jù)進行驗證的研究較少，駕駛模擬器可較為真實的重現(xiàn)實際道路，重復(fù)性好、實驗成本低，能夠有效測評駕駛?cè)说鸟{駛感受。此外，現(xiàn)階段短時事故風(fēng)險預(yù)測模型大多基于高速公路場景，針對越江越海隧道的研究較少，而越江越海過江隧道行車環(huán)境和交通流特性等與其他隧道、公路存在較大差別，現(xiàn)有的短時事故風(fēng)險預(yù)測模型難以應(yīng)用于越江越海隧道場景，同時越江越海隧道多為交通咽喉節(jié)點，事故的影響范圍也會更大，因此本文依據(jù)越海越江隧道交通環(huán)境特性，選取上海長江隧道入口段作為典型越江越海隧道入口段，以小汽車為研究對象，基于駕駛模擬實驗，研究越江越海隧道入口段駕駛?cè)诵袨樘匦约白肺彩鹿曙L(fēng)險預(yù)測。

1 實驗與數(shù)據(jù)準(zhǔn)備

本文選取上海長江隧道入口段為例開展研究，為研究越江越海隧道入口段駕駛?cè)诵袨樘匦院蛯崿F(xiàn)追尾事故風(fēng)險預(yù)測，首先利用駕駛模擬器對駕駛?cè)嗽诮?jīng)過越江越海隧道入口路段的車輛操控數(shù)據(jù)進行采集。

1.1 實驗設(shè)備

本次實驗使用的仿真軟件是SCANeR studio 1.6，該軟件可以進行3D 道路路徑設(shè)計、道路景觀設(shè)計、車輛動力學(xué)模型構(gòu)建，同時可以通過軟件提供的API 接口編寫程序以調(diào)整能見度、風(fēng)速、路面附著系數(shù)、天氣狀況等實驗條件。此外，該軟件能夠根據(jù)時間和距離實時記錄實驗車輛及其他車輛的速度、加速度、橫向偏移等運行參數(shù)，方向盤轉(zhuǎn)角、油門踏板、制動踏板操作等駕駛員操作參數(shù)等，為實驗設(shè)計及數(shù)據(jù)分析提供了全面的技術(shù)保障。

駕駛模擬器的硬件設(shè)備包括3塊LED顯示屏、駕駛座椅、油門剎車踏板、羅技G27方向盤、操縱桿等。此外，后視鏡和儀表盤內(nèi)置在顯示屏中。3 塊屏幕可提供約135°的視野，營造出更真實、立體的駕駛感受。

1.2 實驗場景建立

(1)道路場景

實驗依據(jù)上海長江隧橋入口段的實際線形進行場景設(shè)計，如圖1所示，上海長江隧橋南入口段場景模型以過渡直線段-匝道-隧道外直線段-隧道內(nèi)直線段為一個場景單元，參照上海長江隧橋南入口段設(shè)計資料，實驗場景匝道、主線設(shè)計車速80 km · h-1。根據(jù)設(shè)計的實驗場景，使用SCANeR StudioTM仿真軟件中的terrain 模塊建立場景的道路邏輯層。

圖1 實驗場景分段示意圖Fig.1 Section diagram of Experiment scene

(2)天氣場景

考慮到惡劣氣象條件對行車能見度、路面附著系數(shù)等方面的負面影響，有必要設(shè)置不同天氣環(huán)境及其對應(yīng)的路面附著系數(shù)，來研究天氣-附著系數(shù)對駕駛?cè)笋{駛行為的影響規(guī)律。本實驗共設(shè)置3種天氣場景，分別為晴天、雨天、雪天。雨雪天氣下隧道外受氣象環(huán)境的影響，路面附著系數(shù)降低，而隧道內(nèi)路面相對干燥，附著系數(shù)變化不大，因此，隧道入口內(nèi)外的路面附著系數(shù)存在突變的情況，實驗中3 種氣象條件和隧道內(nèi)外路面附著系數(shù)參數(shù)設(shè)置如表1[7]所示。

表1 SCANeR StudioTM仿真軟件天氣參數(shù)設(shè)置Table 1 Weather parameters setting in SCANeR StudioTM

(3)交通流場景

交通場景設(shè)計中，設(shè)置自由流、擁擠流、擁堵流這3種交通流狀況，為反映隧道入口段的交通流狀態(tài)，根據(jù)上海長江隧道入口內(nèi)50 m 處監(jiān)控視頻(如圖2所示)，選取2018年10月1日高峰時段11:00-12:00 交通流調(diào)查數(shù)據(jù)，統(tǒng)計隧道入口段內(nèi)側(cè)小客車車道共計1351 條車速數(shù)據(jù)，使用K 均值聚類算法分別對擁堵流、擁擠流兩種狀態(tài)下的車速值進行劃分。車速聚類結(jié)果如表2所示。根據(jù)聚類結(jié)果，實驗中自由流、擁擠流、擁堵流情況下的前車速度分別為80，40，20 km·h-1。

表2 基于車速的交通流聚類結(jié)果Table 2 Results of traffic flow clustering based on speed

圖2 道路監(jiān)控視頻截圖Fig.2 Screen capture of monitor video

1.3 實驗人員選取

駕駛模擬實驗最終選取33 名實驗人員，年齡跨度在25～45歲，駕駛經(jīng)驗在2年以上，女性占比為30%，接近2020年中國駕駛?cè)酥信哉急?32%)，矯正視力均在5.0 以上。通過預(yù)實驗，所有被試駕駛?cè)司鶡o不適，能夠完成實驗。

1.4 實驗過程

首先，被試駕駛?cè)诵枇私獗敬螌嶒炓?guī)則及駕駛模擬器操作方法，填寫基本信息調(diào)查表和多維駕駛風(fēng)格量表(MDSI-C)[8]，完成實驗前的準(zhǔn)備工作。隨后被試駕駛?cè)嗽谥付A(yù)實驗場景進行啟動、加速、減速、變道、轉(zhuǎn)彎等適應(yīng)性操作。正式實驗中，每位駕駛?cè)诵柰瓿? 種天氣場景(晴天、雨天、雪天)中3種交通流狀態(tài)實驗，并在3種交通流狀態(tài)下分別設(shè)置了1 次前車急剎車事件，以研究駕駛員的應(yīng)急反應(yīng)情況，實驗事件腳本設(shè)計如圖3所示。

圖3 實驗事件腳本設(shè)計Fig.3 Plan of experiment

1.5 數(shù)據(jù)提取

實驗數(shù)據(jù)主要包括駕駛?cè)嗽趯嶒炃疤顚懙膯柧頂?shù)據(jù)，駕駛模擬器自動收集的車輛行駛狀況數(shù)據(jù)以及駕駛?cè)说鸟{駛數(shù)據(jù)等。具體采集的實驗數(shù)據(jù)類型如表3所示。

表3 實驗數(shù)據(jù)類型Table 3 Type of experimental data

2 變量選擇

2.1 變量初選

由于本研究旨在建立事故風(fēng)險預(yù)測模型，對數(shù)據(jù)按事故是否發(fā)生進行分類。因此需使用駕駛員在正常跟馳中的行為數(shù)據(jù)，初步選擇如表4所示的數(shù)據(jù)建立樣本集，涵蓋天氣、交通流、駕駛風(fēng)格、正常跟馳階段縱橫向駕駛行為等一系列數(shù)據(jù)，具有較好的代表性。

表4 初選變量說明Table 4 Description of primary variable

2.2 相關(guān)性分析

變量初選時考慮到模型的全面性，除駕駛員編號外共選擇了19 個變量，但部分變量之間可能存在一定的相關(guān)性。為進一步提高模型的運行效率及簡潔性，對擬納入模型的變量進行相關(guān)性分析。利用Pearson相關(guān)系數(shù)反映兩個變量之間線性相關(guān)性的強弱水平，當(dāng) |r|≥0.6 時，認為兩變量間為強相關(guān)。計算結(jié)果如表5所示，可知，兩車速度差標(biāo)準(zhǔn)差和車頭間距標(biāo)準(zhǔn)差、車頭時距最小值和車頭間距最小值、擁堵流和車頭時距標(biāo)準(zhǔn)差這3對數(shù)據(jù)的相關(guān)系數(shù)大于0.6，可認為這3對變量之間存在強相關(guān)性，只保留每對其一，綜合考慮后去掉車頭間距標(biāo)準(zhǔn)差、車頭間距最小值、車頭時距標(biāo)準(zhǔn)差這3 種變量。

表5 變量相關(guān)性矩陣Table 5 Matrix of variable correlation

2.3 基于隨機森林的變量選擇

隨機森林(Random Forest)是一種包含多個決策樹的有效分類器，其輸出的最終分類取決于個別樹輸出分類的眾數(shù)。基于基尼系數(shù)降低的變量排序可以用來解釋變量對隨機森林模型數(shù)據(jù)異質(zhì)性的影響，有助于確定每個變量的重要性。

對變量進行相關(guān)性分析后，確定了存在強相關(guān)性的3 對變量，為防止重復(fù)，剔除了每對中的一個變量。在模型建立時，為了保證模型的簡潔性和高效性，還需考慮變量對模型結(jié)果的重要性，因而有必要對擬采用的變量進行重要性排序。

利用隨機森林算法，經(jīng)過反復(fù)實驗，決策樹分類節(jié)點(mtry，可確定每次迭代的變量抽樣數(shù)值，用于二叉樹的變量個數(shù))設(shè)置為5，決策樹數(shù)目(ntree，指定隨機森林所包含的決策樹數(shù)目，默認為500)設(shè)置為500時，結(jié)果如圖4所示，模型的誤差趨于穩(wěn)定的最小值。

圖4 隨機森林模型誤差變化Fig.4 Error trend on random forest model

變量重要程度根據(jù)MDA(Mean Decrease Accuracy)和MDG(Mean Decrease Gini)兩個指標(biāo)判斷。由圖5可知，根據(jù)MDA 和MDG 指標(biāo)排序，車頭時距最小值、兩車速度差最大值、急躁、加速度標(biāo)準(zhǔn)差、擁堵流這5個變量對追尾事故風(fēng)險預(yù)測模型精度重要性最高，而天氣因素對于追尾事故預(yù)測模型影響甚微。為有效降低模型的復(fù)雜度，減少模型運算時間，提高預(yù)測精度，基于變量重要性分析將重要性較小的變量予以剔除，選取車頭時距最小值、兩車速度差最大值、急躁、加速度標(biāo)準(zhǔn)差、擁堵流這5個變量建立隨機森林模型。

圖5 初選變量重要性排序Fig.5 Sequence of importance of primary variables

3 模型建立與評價

隨機森林是一種基于決策樹理論構(gòu)建分類和回歸樹集成，引入隨機屬性進行訓(xùn)練的機器學(xué)習(xí)算法。該算法可有效避免過擬合和局部收斂問題，對異常值和噪聲有很強的容忍度，具有預(yù)測精度高、調(diào)節(jié)參數(shù)少等優(yōu)點。因而，本文選取隨機森林算法構(gòu)建越江越海隧道入口段追尾事故風(fēng)險預(yù)測模型。

3.1 隨機森林模型

隨機森林計算過程可以簡要描述如下：假設(shè)每個樣本具有N個特征，分配一個小于N的常數(shù)n，并從N個特征中隨機選擇n個特征子集。每次樹分支時，它都會從n中選擇最佳分支。隨機森林在生成時不考慮剪枝，每棵樹均以最大的程度生長。對每個樣本，計算它作為OOB樣本樹的分類情況，之后通過簡單多數(shù)投票作為該樣本的最終分類結(jié)果。隨機森林OOB錯誤率是錯誤分類的數(shù)量與總數(shù)的比率，隨機森林方法原理如圖6所示[9]。

圖6 隨機森林方法原理示意Fig.6 Principle of random forest

3.2 基于隨機過采樣策略的隨機森林預(yù)測模型

在駕駛模擬實驗采集的297條數(shù)據(jù)中，僅有22條數(shù)據(jù)為追尾事故數(shù)據(jù)，不平衡系數(shù)R=13.5，是一個典型的不平衡樣本。隨機森林在處理不平衡數(shù)據(jù)集時，其Bootstrap重抽樣方法的隨機性和決策樹的局限性會加劇數(shù)據(jù)集的不平衡性，導(dǎo)致隨機森林算法的性能降低[9]。

針對不平衡數(shù)據(jù)集問題，引入數(shù)據(jù)平衡方法對隨機森林算法進行優(yōu)化，要求經(jīng)過預(yù)處理的訓(xùn)練樣本抽樣后得到訓(xùn)練子集不平衡系數(shù)R′低于2，降低訓(xùn)練樣本的不平衡系數(shù)，將不平衡以適應(yīng)隨機森林算法，提高算法預(yù)測準(zhǔn)確度。不平衡系數(shù)計算公式為

式中：Smaj為原始樣本多數(shù)類數(shù)據(jù)數(shù)量；Smin為原始樣本少數(shù)類數(shù)據(jù)數(shù)量；S′maj為預(yù)處理抽樣后多數(shù)類數(shù)據(jù)數(shù)量；S′min為預(yù)處理抽樣后少數(shù)類數(shù)據(jù)數(shù)量。常用的樣本平衡方法有過采樣法和欠采樣法。隨機過采樣法通過增加少數(shù)類樣本的數(shù)量來提高誤分類該類樣本的代價，進而控制分類界面的偏移，可以改善分類器性能。而隨機欠采樣法通過隨機刪除大類的觀測直至數(shù)據(jù)集平衡，本文數(shù)據(jù)不平衡程度較大且樣本量較小，不適宜采用欠采樣算法，故采用隨機過采樣法對訓(xùn)練集進行平衡化處理，降低數(shù)據(jù)不平衡系數(shù)，以提升算法性能。將原始數(shù)據(jù)隨機分為訓(xùn)練集(70%)和測試集(30%)，通過隨機過采樣法進行平衡化處理后得到訓(xùn)練樣本，基于隨機過采樣策略的隨機森林算法流程如圖7所示。

圖7 隨機過采樣-隨機森林模型流程圖Fig.7 Flowchart of random oversampling-random forest model

3.3 模型評價指標(biāo)

在非平衡數(shù)據(jù)分類中，準(zhǔn)確率指標(biāo)難以衡量模型的有效性，混淆矩陣(表6)是非平衡數(shù)據(jù)分類中模型評價的常用方法[10]，本文選取幾何均數(shù)和ROC曲線的AUC(Area Under Curve)作為模型評價指標(biāo)，其中，幾何均數(shù)G為

表6 混淆矩陣Table 6 Mixed matrx

式中：Se為靈敏度；SP為特異度；F為誤報率；TP為真陽性；FP為假陽性；TN為真陰性，F(xiàn)N為假陰性。

4 模型結(jié)果與討論

綜合對比基于隨機過采樣策略的隨機森林模型和傳統(tǒng)隨機森林模型、XGBoost 模型、支持向量機模型在越江越海隧道入口段追尾事故風(fēng)險中的預(yù)測性能，以評估本文構(gòu)建的隨機過采樣-隨機森林模型的有效性。

4.1 模型優(yōu)缺點對比

為了更全面地分析和比較4種算法的優(yōu)劣，從理論角度出發(fā)，比較4種算法的優(yōu)缺點，如表7所示。

表7 隨機森林、XGBoost和支持向量機算法優(yōu)缺點比較Table 7 Advantages and disadvantages of random forest,XGBoost and support vector machine

4.2 模型預(yù)測性能對比

表8給出4 個模型在測試集上的靈敏度、特異度、誤報率、幾何均數(shù)和AUC 指標(biāo)?？梢钥闯觯S機森林和XGBoost 模型的靈敏度達到100%，但非事故誤報為事故的比例較高；從幾何均數(shù)來看，隨機森林模型的綜合預(yù)測效果優(yōu)于XGBoost模型、支持向量機模型；相比原隨機森林模型，隨機過采樣法-隨機森林模型的靈敏度有所降低，但其幾何均數(shù)提高了1.8%，AUC指標(biāo)提高了6.8%，且誤報率控制在13.54%，表明在越江越海隧道入口段追尾事故風(fēng)險預(yù)測中，隨機過采樣法-隨機森林模型的整體預(yù)測性能最優(yōu)。

表8 預(yù)測模型效果對比Table 8 Comparison of prediction effect

圖8為基于隨機過采樣策略的隨機森林模型的變量重要性排序，可知，決定越江越海隧道入口段追尾事故發(fā)生與否的最主要因素是車頭間距、速度差、加速度標(biāo)準(zhǔn)差等車輛運行狀態(tài)數(shù)據(jù)，這表明在事故發(fā)生前正常跟馳階段的車輛運行狀態(tài)是決定事故發(fā)生與否的最主要因素。對此，采取優(yōu)化限速控制措施及增設(shè)車距確認標(biāo)志、可變信息標(biāo)志等管控措施，增強駕駛?cè)烁兄獪?zhǔn)確性，有望降低隧道入口事故的發(fā)生率。

圖8 基于隨機過采樣法-隨機森林模型變量重要性排序Fig.8 Sequence of importance of variables on random oversampling-random forest model

5 結(jié)論

(1)在越江越海隧道入口段追尾事故風(fēng)險預(yù)測中，隨機森林模型的整體預(yù)測效果優(yōu)于XGBoost和支持向量機模型。

(2)本文引入隨機過采樣對隨機森林模型進行不平衡數(shù)據(jù)處理，基于隨機過采樣策略的隨機森林模型AUC 提高了6.8%，達到0.807，這表明隨機過采樣-隨機森林模型在越江越海隧道入口段追尾事故風(fēng)險預(yù)測中具有較好的適用性。

(3)基于隨機過采樣策略的隨機森林模型變量重要性排序表明，車輛運行狀態(tài)是影響事故風(fēng)險的最主要因素，可通過采取優(yōu)化限速控制措施及增設(shè)車距確認標(biāo)志、可變信息標(biāo)志等管控措施，增強駕駛?cè)烁兄獪?zhǔn)確性，以期降低隧道入口事故的發(fā)生率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡