揭文祺
(中國人民公安大學(xué),北京 100038)
高速公路運輸領(lǐng)域快速發(fā)展的同時,交通事故率也有所上升,加強高速公路行車安全研究有助于保障交通運輸?shù)陌踩?。以往交通安全研究大多以交通事故?shù)據(jù)為基礎(chǔ),其中交通事故模型技術(shù)是傳統(tǒng)交通安全研究的核心技術(shù)之一[1-4]。然而,受交通事故數(shù)據(jù)記錄體系不完善等條件制約,事故記錄數(shù)據(jù)一般與真實事故數(shù)據(jù)存在一定出入。此外,多數(shù)輕微事故數(shù)據(jù)通常不被記錄,而這部分事故影響程度往往更能反映道路的行車安全水平。相關(guān)影響因素制約了傳統(tǒng)交通安全研究的準確性及有效性[5]。
為解決這類問題,交通沖突技術(shù)在交通安全分析中得到廣泛應(yīng)用[6-11]。交通沖突數(shù)據(jù)具有大樣本、短周期、小區(qū)域、高信度的統(tǒng)計學(xué)優(yōu)點[5],并且基于交通沖突的交通安全研究能夠彌補事后安全研究的短板。此外,研究表明交通沖突與交通事故之間存在穩(wěn)定的相關(guān)性,可以有效反映所評價路段的行車安全水平[12-13]。由于交通沖突數(shù)據(jù)具有與交通事故數(shù)據(jù)相似的非負整數(shù)的性質(zhì),目前國內(nèi)外的交通沖突預(yù)測模型大多參照交通事故預(yù)測模型建立,諸如線性及非線性回歸模型[14-15]、廣義線性模型[10,16]、零膨脹分布模型[8,11]、泊松-對數(shù)正態(tài)模型[17]、神經(jīng)網(wǎng)絡(luò)模型[18]等。然而這些模型研究大多未區(qū)分交通沖突的嚴重程度,無法很好地反映交通安全影響因素對沖突頻率的影響。
隨著計算機視覺和圖像處理技術(shù)的發(fā)展,目前車輛自然軌跡數(shù)據(jù)集的獲取已有許多是通過監(jiān)控視頻、無人機航拍、路測雷達等相關(guān)技術(shù)手段,諸如NGSIM(Next Generation Simulation,下一代仿真)數(shù)據(jù)集[1]、HighD 數(shù)據(jù)集[19]和同濟道路軌跡數(shù)據(jù)平臺等。其中,HighD 數(shù)據(jù)集使用先進的計算機視覺算法,定位誤差通常<10 cm,可為研究人員提供準確的車輛軌跡、交通流指標(biāo)以及交通沖突指標(biāo)。
本研究基于HighD 數(shù)據(jù)集[19],根據(jù)TTC 的大小劃分不同嚴重程度沖突的閾值,利用皮爾遜相關(guān)性分析篩選用于建模的關(guān)鍵影響因素,分別采用泊松模型、負二項模型、零膨脹負二項模型及零膨脹泊松模型進行回歸分析,并根據(jù)評價指標(biāo)確定不同嚴重程度的沖突最優(yōu)模型,這有助于高速公路的主動安全防控,從而改善行車安全。
HighD 數(shù)據(jù)集[19]源于2017—2018 年無人機拍攝記錄的德國科隆附近6 個不同的地點數(shù)據(jù),采用先進的計算機視覺算法從拍攝記錄中提取車輛的行駛軌跡。這些軌跡數(shù)據(jù)及地點信息被分為60份,分別編號1~60。每份信息包含記錄地點的高空照片、記錄元信息、單車跟蹤信息以及逐幀軌跡信息。本研究選取HighD 數(shù)據(jù)集路段1 方向1 的軌跡數(shù)據(jù)進行研究,從視頻中共提取39 636 條小車數(shù)據(jù)以及7 640 條卡車數(shù)據(jù)。路段1 為雙向6 車道,路段1 示意如圖1 所示。其中車道6、車道7、車道8 的方向為方向1。HighD 數(shù)據(jù)集使用全球坐標(biāo)系,坐標(biāo)原點在圖像左上方,因此方向1 中記錄的車輛沿X軸速度為負,并且當(dāng)加速度>0 時代表減速。
圖1 路段1 示意
1.2.1 交通流特征指標(biāo)的提取
為便于分析,以1 min 為單位時間,將車輛軌跡信息分割為612 條數(shù)據(jù)。
通過每分鐘的車輛逐幀軌跡信息提取1 min 內(nèi)路段1 處的交通流參數(shù),包括平均車頭間距DHWm、平均行駛速度Vm、平均加速度am、車頭間距標(biāo)準差DHWs、行駛速度標(biāo)準差Vs和加速度標(biāo)準差as。值得注意的是,由于各車沿Y軸的速度與沿X軸的速度相比較小,可將沿X軸的車速近似看作車輛的行駛車速。其中,平均車頭間距均值為47.226 m,車頭間距標(biāo)準差為8.843 m;平均行駛速度均值為28.236 m/s,行駛速度標(biāo)準差為4.708 m/s;平均加速度均值為-0.135 m/s2,加速度標(biāo)準差為0.121 m/s2。
車頭間距計算指標(biāo)的計算公式如式(1)所示。
式中,xi(t) 為車輛i在時刻t的位置。
1.2.2 交通量、變道率及貨車率的提取
通過每5 min 的單車軌跡信息可得各時間段路段1 的流量以及貨車流量和車輛變道次數(shù),根據(jù)提取到的指標(biāo)可以計算每分鐘內(nèi)路段1 的車輛變道率Plc和貨車率Ptr,車輛變道率Plc計算公式如式(2)所示。
式中,numLanechangesi為每輛車軌跡信息所記錄的車道變換次數(shù);Qi為第i個1 min 內(nèi)方向1 的交通量。
貨車率Ptr計算公式如式(3)所示。
式中,numTrucksi為第i個1 min 內(nèi)路段1 的貨車交通量。
1.2.3 沖突事件的提取
為刻畫沖突的嚴重程度,進一步對交通沖突指標(biāo)進行劃分,建立不同嚴重程度的沖突預(yù)測模型。同時建立總體的沖突模型并與其進行比較,探究不同交通流參數(shù)對沖突嚴重程度的影響。根據(jù)研究[20],將沖突劃分為3 個程度:輕微沖突(3 s <TTC≤6 s)、一般沖突(1.5 s<TTC≤3 s)以及嚴重沖突(0 s<TTC≤1.5 s)。
行駛當(dāng)前時刻下,后車速度大于前車,若兩車保持原有的速度和行駛軌跡不變(即假定駕駛?cè)瞬徊扇”茈U行為),根據(jù)當(dāng)前速度和軌跡,將會在某個時刻發(fā)生碰撞,那么從沖突開始至碰撞發(fā)生的時間段即為TTC。TTCi的計算公式如式(4)所示,
式中,xi-1(t) 和xi(t) 分別為車輛i-1 與車輛i在t時刻的行車位置;vi-1(t) 和vi(t) 分別為車輛i-1 與車輛i在t時刻的瞬時車速;li-1為車輛i-1 的長度。TTC 為負值時代表當(dāng)前車速下無沖突風(fēng)險。
1.3.1 交通流特征指標(biāo)描述
根據(jù)提取的交通流信息進行數(shù)據(jù)匯總,變量描述性統(tǒng)計如表1 所示。
表1 變量描述性統(tǒng)計
1.3.2 交通流狀態(tài)描述
根據(jù)所提取的各時段交通量和平均車輛行駛速度可以得到路段的車流密度D,計算公式如式(5)所示。
根據(jù)獲得的密度和交通量可繪制路段1 的流量密度圖,路段1 流量密度關(guān)系如圖2 所示。分析可知,路段1 大多數(shù)時間段處于自由流狀態(tài),其處于不穩(wěn)定狀態(tài)(非飽和狀態(tài)過渡至飽和狀態(tài))和擁堵狀態(tài)下的時間段較少。
圖2 路段1 流量密度關(guān)系
研究旨在對路段上單位時間內(nèi)發(fā)生的交通沖突次數(shù)進行預(yù)測,而交通沖突次數(shù)屬于非負計數(shù)數(shù)據(jù),這類數(shù)據(jù)并不適用于線性回歸建模。在沖突預(yù)測方面,常用的計數(shù)模型有泊松模型、負二項模型、零膨脹負二項模型、零膨脹泊松模型等。
若yi為第i個樣本單位時間內(nèi)發(fā)生的沖突次數(shù),假設(shè)其服從參數(shù)為λ的泊松分布,則P(yi)的計算公式如式(6)所示。
式中,i=1,2,…,n(n為觀測樣本總數(shù));P(yi)為第i個觀測樣本在單位時間內(nèi)發(fā)生yi次沖突的概率;λi為第i個觀測樣本在單位時間內(nèi)交通沖突次數(shù)的期望值。
λ通過連接函數(shù)g(·)與預(yù)測變量聯(lián)系起來,對于服從泊松分布的因變量連接函數(shù)一般為自然對數(shù),相應(yīng)計算公式如式(7)所示。
式中,X1,X2,…,Xm為影響沖突個數(shù)的因素;β0,β1,…,βm為回歸系數(shù)。
泊松分布的基礎(chǔ)假設(shè)為服從泊松分布的計數(shù)變量的均值與方差相等,這導(dǎo)致泊松分布不能很好地解釋交通沖突的離散性,因此可考慮在負二項模型中引入誤差項εi,并對沖突數(shù)據(jù)的離散問題進行解釋,計算公式如式(8)所示。
式中,exp(εi) 服從gamma(θ,θ)分布且均值和方差分別為1 和α。此時泊松模型可以拓展為負二項模型
式中,yi為第i個樣本中方向1 上發(fā)生的交通沖突次數(shù),Г(·)為伽馬分布。
為處理計數(shù)數(shù)據(jù)中出現(xiàn)過多0 的情況,可以考慮引入零膨脹模型。零膨脹模型是二段式模型,由1 個二分類模型和1 個計數(shù)模型組成。零膨脹模型假設(shè)單位時間內(nèi)的沖突次數(shù)有2 種可能狀態(tài):狀態(tài)1 表示沖突次數(shù)為0,狀態(tài)2 表示沖突次數(shù)依據(jù)計數(shù)模型分布。其中狀態(tài)1 的概率假設(shè)為πi,那么狀態(tài)2 發(fā)生的概率為1-πi,則零膨脹模型中單位時間沖突次數(shù)yi的概率分布可表示為
式中,g(yi) 為計數(shù)模型分布概率,通常為泊松模型或者負二項模型。
沖突次數(shù)處于狀態(tài)1 和狀態(tài)2 的概率,利用二元Logit 模型確定:
式中,WT為協(xié)方差向量的轉(zhuǎn)置;γ為模型回歸系數(shù)的向量。
根據(jù)相關(guān)性回歸可以選擇共線性較弱的影響因素進行回歸分析,同時可以采用VIF(variance inflation factor,方差膨脹因子)檢驗法,一般認為VIF>10 時,該變量與其他變量之間存在較強的相關(guān)性。VIFi計算公式如式(12)所示。
式中,Ri為變量xi與其他因子xj(j=1,2,…,k;k≠j) 間的復(fù)相關(guān)系數(shù)。
本研究采用AIC(Akaike Information Criterion,赤池信息量準則)、BIC(Bayesian Information Criterion,貝葉斯信息準則)對模型的擬合結(jié)果進行判定,以選擇最合適的模型。AIC 和BIC 越小表示模型分析的效果越好,AIC 計算公式如式(13)所示,BIC 計算公式如式(14)所示。
式中,ln(L) 為似然函數(shù);α為可估計的自由參數(shù)個數(shù);n為樣本例數(shù)。
第一步,根據(jù)1.2.1 節(jié)中提取到的交通沖突信息繪制出不同嚴重程度沖突的頻率分布直方圖,3 種類型沖突次數(shù)的頻數(shù)分布如圖3 所示。
圖3 3 種類型沖突次數(shù)的頻數(shù)分布
分別計算3 種沖突程度的均值和方差,其中輕微沖突次數(shù)均值為2.603 次,方差為12.338,方差遠大于均值,不滿足Poisson 模型假設(shè)前提,單位時間內(nèi)無沖突樣本97 個,占總樣本數(shù)15.85%,可以優(yōu)先考慮NB 模型。一般沖突次數(shù)均值為0.606次,方差為0.976,均值與方差相差不大,單位時間內(nèi)無沖突樣本369 個,占總樣本數(shù)60.29%,可優(yōu)先考慮零膨脹結(jié)構(gòu)模型。嚴重沖突次數(shù)均值0.119 次,方差0.190,單位時間內(nèi)無沖突樣本554 個,占總樣本數(shù)90.52%,0 數(shù)據(jù)占比較大,可優(yōu)先考慮采用零膨脹結(jié)構(gòu)模型。
第二步,將提取到的交通流信息與3 種嚴重程度的交通沖突次數(shù)進行相關(guān)性分析,變量相關(guān)性矩陣如圖4 所示。
圖4 變量相關(guān)性矩陣
根據(jù)影響因素與因變量之間的相關(guān)性系數(shù)大小,可以選擇對因變量影響大的影響因素進行建模分析。同時,根據(jù)相關(guān)性系數(shù)可以選擇相互影響較小的變量,從而避免多重共線性。
3.2.1 輕微沖突次數(shù)模型
對路段1 的輕微沖突次數(shù)分別采用不同計數(shù)模型進行回歸分析,得到各模型的AIC 值、BIC 值、LL(log-likelihood,對數(shù)似然)值,輕微沖突次數(shù)各模型表現(xiàn)如表2 所示。其中NB 模型的AIC 值和BIC 值分別為2 143.07 和2 169.57,在4 種模型中相應(yīng)AIC值和BIC 值最小,該模型的擬合效果最好。
表2 輕微沖突次數(shù)各模型表現(xiàn)
剔除不顯著的影響因素,輕微沖突次數(shù)NB 模型參數(shù)如表3 所示,其中各影響因素的VIF 值均小于10,不存在共線性問題。此外,NB 模型的α估計值為0.095≠0,因此選用NB 模型進行回歸分析是正確的。
表3 輕微沖突次數(shù)NB 模型參數(shù)
由回歸結(jié)果可知,平均行駛速度和平均加速度與輕微沖突次數(shù)均呈負相關(guān),隨著平均行駛速度和平均加速度的增大,輕微沖突次數(shù)減少。在控制其他變量保持不變的情況下,平均行駛速度和平均加速度每增加1%,輕微沖突次數(shù)期望值分別減少0.91%和0.52%。兩個方向的輕微沖突次數(shù)與加速度標(biāo)準差、變道率呈正相關(guān)。加速度標(biāo)準差和變道率每增加1%,輕微沖突次數(shù)期望值分別增加4.35%和3.45%。
3.2.2 一般沖突次數(shù)模型
一般沖突次數(shù)各模型表現(xiàn)如表4 所示,由表4 可知,ZIP 模型的AIC 值為1 178.21、BIC 值為1 209.13,在4 種模型中相應(yīng)AIC 值和BIC 值最小,且LL 值較Poisson 模型和NB 模型較大,略小于ZINB 模型,ZIP 模型的綜合表現(xiàn)最好。
表4 一般沖突次數(shù)各模型表現(xiàn)
采用ZIP 模型對一般沖突次數(shù)進行回歸分析,一般沖突次數(shù)ZIP 模型參數(shù)如表5 所示,其中計數(shù)模型部分各影響因素的VIF 值均小于10,不存在共線性問題。
表5 一般沖突次數(shù)ZIP 模型參數(shù)
由計數(shù)模型參數(shù)可知,一般沖突次數(shù)與加速度標(biāo)準差呈正相關(guān),與平均行駛速度呈負相關(guān)。在控制其他因素不變的情況下,加速度標(biāo)準差每增加1%,一般沖突次數(shù)期望值增加3.27%;平均行駛速度每增加1%,一般沖突次數(shù)期望值減少0.81%。對于零膨脹模型部分,平均行駛速度和平均加速度與一般沖突次數(shù)均呈顯著正相關(guān),變道率呈顯著負相關(guān)。隨著平均行駛速度和平均加速度的增大,出現(xiàn)一般沖突的可能性提高;隨著變道率的增大,出現(xiàn)一般沖突的可能性降低。
3.2.3 嚴重沖突次數(shù)模型
嚴重沖突次數(shù)各模型表現(xiàn)如表6 所示,雖然嚴重沖突次數(shù)存在大量0 數(shù)據(jù),但Poisson 模型的AIC 值(360.94)略大于NB 模型的AIC 值(360.88),Poisson模型的BIC 值(374.191)在4 種模型的BIC 值中最小,因此考慮采用Poisson 模型對嚴重沖突次數(shù)進行回歸分析。
表6 嚴重沖突次數(shù)各模型表現(xiàn)
嚴重沖突次數(shù)Poisson 模型參數(shù)如表7 所示,其中VIF 值均小于10,不存在共線性問題。
表7 嚴重沖突次數(shù)Poisson 模型參數(shù)
值得注意的是,采用Poisson 模型時須考慮因變量是否存在過離散問題,在R 語言中采用“qcc”包對其進行檢驗得到P值為0(<0.05),因此存在過離散問題,可考慮采用Quasi-Poisson(類泊松)模型解決該問題。嚴重沖突次數(shù)Quasi-Poisson 模型參數(shù)如表8 所示。
表8 嚴重沖突次數(shù)Quasi-Poisson 模型參數(shù)
由表8 可知,嚴重沖突次數(shù)與加速度標(biāo)準差呈正相關(guān),與平均行駛速度呈負相關(guān)。在控制其他因素不變的情況下,加速度標(biāo)準差每增加1%,單位時間內(nèi)嚴重沖突次數(shù)的期望值增加36.93%;平均行駛速度每增加1%,單位時間內(nèi)嚴重沖突次數(shù)的期望值減少0.92%。
(1) 基于交通沖突技術(shù),利用HighD 數(shù)據(jù)集以1 min 為單位時間提取了路段1 的交通特征指標(biāo)以及沖突信息。根據(jù)TTC 的大小將輕微沖突、一般沖突以及嚴重沖突的閾值劃分為(3 s,6 s]、(1.5 s,3 s]和(0 s,1.5 s]。分別考慮3 種不同嚴重程度沖突次數(shù)的Poisson 模型、NB 模型、ZINB 模型以及ZIP 模型,并根據(jù)AIC 值、BIC 值以及LL 值確定表現(xiàn)最好的模型。輕微沖突次數(shù)、一般沖次突數(shù)和嚴重沖突次數(shù)的預(yù)測中表現(xiàn)最佳的模型分別為NB 模型、ZIP 模型以及Poisson 模型。
(2) 對不同嚴重程度沖突次數(shù)的影響因素進行量化分析。3 種模型中加速度標(biāo)準差和平均行駛速度都與沖突次數(shù)呈顯著相關(guān)性。若保持其他影響因素不變,加速度標(biāo)準差每增加1%,3 種嚴重程度的沖突次數(shù)期望值分別增加4.35%、3.27%和36.93%;平均行駛速度每增加1%,3 種嚴重程度的沖突次數(shù)期望值分別減少0.91%、0.81%和0.92%。
(3) 由于路段1 中處于擁堵狀態(tài)的交通流較少,本研究中未分狀態(tài)考慮交通流。對于處于不同交通流狀態(tài)的車流,其沖突影響因素是否存在不同效應(yīng),值得進一步研究。