胡 驥,閆章存,盧小釗,王 鵬,張敏捷,胡萬欣
(1.西南交通大學(xué) 交通運(yùn)輸與物流學(xué)院,四川 成都 610031; 2.建筑與交通工程學(xué)院 寧波工程學(xué)院,浙江 寧波 315211; 3.武漢鐵路職業(yè)技術(shù)學(xué)院,湖北 武漢 430205)
隨著我國社會(huì)經(jīng)濟(jì)的發(fā)展,生活質(zhì)量的改善,人們對小汽車的依賴度越來越高,交通事故卻頻頻發(fā)生。近年事故總量雖有所下降,但因事故所造成的損失仍居高不下。為了有效預(yù)防交通事故減少人員傷亡和財(cái)產(chǎn)損失,需要準(zhǔn)確的把握事故原因,從而因地制宜做好事故預(yù)防措施。因此,有必要對影響事故嚴(yán)重性的因素進(jìn)行科學(xué)的分析。
由于交通事故是在交通活動(dòng)中由人、車、路、環(huán)境等因素相互耦合失調(diào)導(dǎo)致的不幸事件,事故類型千變?nèi)f化,原因錯(cuò)綜復(fù)雜,很難用一個(gè)固定的模式或者方程來精確解釋,目前較為常用的是基于計(jì)量經(jīng)濟(jì)學(xué)模型、統(tǒng)計(jì)分析模型、事故樹法、因果分析法等分析手段。例如,F(xiàn). H. AMUNDSEN等[1]對挪威公路隧道交通事故進(jìn)行研究,利用因果分析法分析隧道長度、天氣、交通量以及公路條件等因素對事故嚴(yán)重性、事故發(fā)生位置的影響關(guān)系;M. W. KNUIMAN等[2]研究美國伊利諾斯州和猶他州道路中央隔離線與碰撞率之間的關(guān)系,并發(fā)現(xiàn)當(dāng)中央隔離線較寬時(shí)車輛正面碰撞、刮擦以及單車事故率都會(huì)下降;J. K. KIM等[3]依據(jù)事故死亡人數(shù)將交通事故嚴(yán)重程度分為4個(gè)級別,建立預(yù)測事故態(tài)勢的多項(xiàng)Logistic模型;C. LEE等[4]依據(jù)事故死亡人數(shù)將交通事故嚴(yán)重程度分為5個(gè)級別,建立了分析影響嚴(yán)重程度要素的有序響應(yīng)模型。國內(nèi)這方面的研究相對較少,宗芳等[5]應(yīng)用Ordered Probit模型分析受傷人數(shù)的影響因素,計(jì)算各影響因素的邊際貢獻(xiàn),并進(jìn)行了受傷人數(shù)的預(yù)測;馬壯林等[6]對京珠高速公路韶關(guān)段4個(gè)隧道的交通事故數(shù)據(jù),利用Logistic模型分析事故發(fā)生時(shí)段、碰撞類型、天氣等因素對事故嚴(yán)重性的影響,經(jīng)檢驗(yàn)表明Logistic模型在事故嚴(yán)重性影響因素分析中具有較好的適應(yīng)性和實(shí)用性;李世民等[7]調(diào)查北京周邊無信號(hào)三路交叉口交通事故數(shù)據(jù),并建立Logistic模型分析,得出交叉口轉(zhuǎn)彎車輛比例、控制方式和土地開發(fā)強(qiáng)度對無信號(hào)三路交叉口交通事故的嚴(yán)重性有顯著影響。
一般認(rèn)為交通事故的嚴(yán)重程度存在順序的內(nèi)涵特性,且嚴(yán)重程度與事故變量之間關(guān)系是非線性的,簡單的使用多項(xiàng)式Logit模型并不能準(zhǔn)確的分析交通嚴(yán)重程度的影響因素。對于存在一定次序的變量分析通常選用Ordinal Logistic和Ordinal Probit模型,它們是基于連續(xù)的、分類的變量的分析模型,且可以利用相關(guān)因素來預(yù)測可能性的模型。筆者選用Ordinal Logistic模型,建立翻車事故嚴(yán)重性順序值的回歸模型,分析各個(gè)因素對事故嚴(yán)重性影響的程度,力圖提高影響翻車事故嚴(yán)重程度的因素分析的準(zhǔn)確度。
(1)
式中:τ={γ0,γ1,…,γj,…,γJ}表示被解釋變量(嚴(yán)重程度)分界點(diǎn)的向量,且(γ0<γ1…<γj…<γJ,γ0=-∞,γJ=+∞)。
模型中被解釋變量(因變量)的觀測值y表示排序結(jié)果或分類的結(jié)果,解釋變量(自變量)X是影響解釋變量排序的各種因素,也可以是多個(gè)解釋變量的集合。Ordinal Logistic模型的一般形式為
(2)
B={β0,β1,…,βk,…,βK}
Logistic模型中假設(shè)εi的概率密度函數(shù)為f(εi),累積分布函數(shù)為F(εi),Eεi=0由式(1)和式(2)可得到第i個(gè)觀測對象的嚴(yán)重性為j的概率為
(3)
當(dāng)εi有一個(gè)標(biāo)準(zhǔn)的邏輯分布[i.e.,f(εi)=eεi/(1+eεi)2,F(xiàn)(εi)=eεi/(1+eεi),Var(εi)=π2/3] 時(shí),嚴(yán)重性“j(或者更低)”相對于“高于j”概率的比值可以表示為
(4)
從式(4)可以看出某一具體變量Xk改變一個(gè)單位對嚴(yán)重程度所產(chǎn)生的數(shù)量化影響,可以通過概率比exp(-βk)來表示。
(5)
這里是指標(biāo)函數(shù)δyi=jXi,B,Γ等于0或1,通過式(5)的最大化給參數(shù)估計(jì)值:
常用篩選變量的方法包括向后刪除變量法、向前刪除變量法和逐步回歸法3種,這3種方法在估計(jì)標(biāo)準(zhǔn)誤差和通過判定P值是否合理來刪除臨界變量方面有優(yōu)越性,更為重要的是在分析的過程中不用考慮變量的獨(dú)立性。一般要求選入變量的顯著性檢驗(yàn)水平αs小于或等于變量刪除的顯著性水平αe,實(shí)際應(yīng)用中常取αs=αe,αe常取值0.05。
相比這3種方法而言,K. P. BURNHAM等[8]提出一個(gè)更好的方法:通過使用統(tǒng)計(jì)學(xué)方法比較由相同數(shù)據(jù)所建立的不同模型的結(jié)果、合理性、擬合優(yōu)度來進(jìn)行模型擬合優(yōu)良性的衡量標(biāo)準(zhǔn)。常用的統(tǒng)計(jì)參數(shù)有赤池信息準(zhǔn)則[9]AIC(the Akaike information criterion)和貝葉斯信息準(zhǔn)則BIC(Bayesian information criterion)。AIC指標(biāo)在對數(shù)似然值的基礎(chǔ)上,考慮統(tǒng)計(jì)模型中的解釋變量個(gè)數(shù)。AIC的定義式為
AIC=2K-2lnL
(6)
式中:K為模型需要估計(jì)的總體參數(shù)(包括截距項(xiàng)和解釋變量)個(gè)數(shù);L為極大似然值。
由于K越小模型約簡潔,而且對數(shù)似然值越大模型約精確,因此模型的AIC越小越好。
BIC指標(biāo)也是建立在對數(shù)似然值的基礎(chǔ)之上,且與AIC指標(biāo)密切相關(guān),同時(shí)BIC對自由變量的懲罰效果更加明顯。BIC的定義式為
BIC=AIC+K·(lnN-2)
(7)
式中:N為樣本大??;其他參數(shù)同上。
BIC信息準(zhǔn)則對解釋模型有較好的簡約性,即當(dāng)其他參數(shù)相等時(shí),對于兩個(gè)似然估計(jì)值相等的模型,BIC較小的模型被認(rèn)為是更好的。
然而,在自由變量數(shù)量相對樣本的規(guī)模較多時(shí),信息準(zhǔn)則的懲罰效果不是很好。對這一問題N. SUGIURA[10]提出了一個(gè)被廣泛應(yīng)用于小樣本的精確指標(biāo)AICC,其表達(dá)式為
(8)
式中:參數(shù)同上。
因此模型中的AIC值、BIC值及AICC值越小表示模型越接近真實(shí)模型。
對于所建立模型優(yōu)劣的評估,需要對模型進(jìn)行平行線假設(shè)的檢驗(yàn)和似然比檢驗(yàn)。
1) Ordinal Logistic模型平行線假設(shè)檢驗(yàn)[11-13]:在累積概率的j-1個(gè)有序多分類的Logistic模型中僅有臨界點(diǎn)γj變化外,而回歸系數(shù)保持不變,稱之為平行線假設(shè)。同時(shí)不同等級的解釋變量的效應(yīng)始終一致,不會(huì)隨著等級的改變而不同,因此平行線假設(shè)又稱比例優(yōu)勢假設(shè)(proportional odds assumption)。例如一個(gè)4分類有序結(jié)果變量可以表示成如下的3個(gè)方程[11]:
(9)
假設(shè)只有一個(gè)解釋變量的情形,圖1表示其概率曲線。
圖1 累積概率曲線Fig. 1 Cumulative probability curve
由于平行線假設(shè)3個(gè)方程回歸系數(shù)保持不變,因此圖1中的3條曲線形狀相同,僅僅因?yàn)榕R界點(diǎn)yi的不同而導(dǎo)致了曲線向右或向左平行移動(dòng)。
2) Ordinal Logistic模型似然比檢驗(yàn)[15]。對事故的嚴(yán)重程度分類后,需要對Ordinal Logistic回歸模型的“比例性”假設(shè)條件進(jìn)行檢驗(yàn),通過該假設(shè)條件檢驗(yàn)建立模型的擬合是否可靠。
Ordinal Logistic模型“比例性”假設(shè)條件需通過構(gòu)造統(tǒng)計(jì)量G并采取χ2檢驗(yàn)計(jì)算公式為
G=-2(lnLP1-lnLP2)
(10)
式中:LP1為模型P1的對數(shù)似然值;LP2為模型P2的對數(shù)似然值,模型P1和模型P2是所得到的不同嚴(yán)重程度的Ordinal Logistic回歸模型。
通常顯著性水平低于0.05,說明χ2值統(tǒng)計(jì)性不夠顯著,表明Ordinal Logistic回歸模型是適用的,符合“比例性”的要求。
考慮到數(shù)據(jù)獲取的方便與質(zhì)量,筆者選用美國HSIS(Highway Safety Information System)中北卡羅萊納州2010—2014年的交通事故數(shù)據(jù),選擇鄉(xiāng)鎮(zhèn)兩車道公路上的翻車事故數(shù)據(jù)作為研究對象。參考相關(guān)翻車事故分析的文獻(xiàn)結(jié)合實(shí)際經(jīng)驗(yàn)選擇出13個(gè)變量作為討論變量,其中包括駕駛員、道路、環(huán)境3個(gè)類型的變量,具體如表1。根據(jù)所需變量的特征在數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)整合與篩選,最終選擇出385個(gè)滿足要求的完整事故樣本。
表1 翻車事故嚴(yán)重程度的影響因素和變量設(shè)置Table 1 Influence factors of rollover accident severity and variables setting
利用SAS軟件進(jìn)行Ordinal Logistic回歸處理,并得到相關(guān)的估計(jì)參數(shù)和檢驗(yàn)系數(shù),采用向后刪除變量法剔除影響相對較小的變量,逐步處理并得到最后的結(jié)果,如表2。
模型A-1包含是否使用安全帶這一變量的p值小于0.000 1,并且在后面的6個(gè)模型中一致,可以判斷駕駛員是否系安全帶這一因素對翻車事故的嚴(yán)重性具有重大影響。然而在該模型中駕駛員的身體狀況變量的p值(0.616 2)和變量駕駛員性別的p值(0.573 1)相對較大,且現(xiàn)實(shí)中兩者對交通事故的嚴(yán)重程度的影響也相對較小,因此在模型A-2中將其排除。在模型A-3中駕駛員酒精濃度、駕駛員年齡、安全帶、路面狀況、光照條件、道路線形、地形、限速等8個(gè)變量的置信度在90%的水平,只有AADT、路面寬度兩個(gè)變量的p值大于0.1。經(jīng)過進(jìn)一步的變量排除過程可以得到所有變量置信度均大于90%的模型A-4。且模型A-1到模型A-4,AIC、BIC和AICC值也在降低,這說明模型的簡約性在不斷地提高。
在模型A-5中的由于地形變量和道路線形變量具有一定的相關(guān)性,因此分別選擇其中一個(gè)進(jìn)入最終的模型。對比結(jié)果發(fā)現(xiàn)變量“地形”進(jìn)入模型時(shí),模型AIC值為690.838、BIC值為710.604,均大于變量“道路線形”進(jìn)入模型分析所得的結(jié)果,并且所得模型中所有變量的置信度均在95%水平。同時(shí)模型評估參數(shù)BIC值也在減小,因此確定A-6為最終模型。A-6的表達(dá)式如下:
(11)
(12)
式中:P1表示輕微事故,P2表示嚴(yán)重事故,P3表示惡性事故;x1表示安全措施,這里主要分析事故發(fā)生時(shí)是否系安全帶(系安全帶其值為0,未系安全帶其值為1);x2表示發(fā)生事故時(shí)的道路路面狀況(路面干燥其值為0,路面有結(jié)冰、雨水、碎石其值為1);x3表示事故地點(diǎn)的道路線形(直線線形其值為0,曲線線形其值為1)。
解方程得發(fā)生預(yù)測概率為
(13)
(14)
(15)
P1+P2+P3=1
(16)
對模型A-5的平行線假設(shè)進(jìn)行得分檢驗(yàn)得(p=0.115 1,df=3),驗(yàn)證了原假設(shè)累積Ordinal Logistic是平行的。由此可得:模型A-5非常適合這一數(shù)據(jù);同時(shí)似然比檢驗(yàn)得(p<0.0001,df=3),顯著性水平為0.000 1,遠(yuǎn)低于0.05水平,統(tǒng)計(jì)性顯著,原假設(shè)目標(biāo)是被拒絕的,說明模型A-5中的變量對翻車事故嚴(yán)重程度具有實(shí)質(zhì)性的影響。
根據(jù)顯著變量估計(jì)效應(yīng)檢驗(yàn)所得的結(jié)果可以看出,使用安全帶和不使用安全帶的比值比為exp(1.520 6)=4.575,這一結(jié)果說明相同的環(huán)境下駕駛員不使用安全帶的事故嚴(yán)重程度比使用安全帶的事故嚴(yán)重程度將會(huì)增加357.5%,即表明在翻車事故發(fā)生時(shí)不使用安全帶將會(huì)造成非常嚴(yán)重的后果。同理分析可得:發(fā)生翻車事故時(shí),良好的路面環(huán)境對事故的嚴(yán)重程度,相比惡劣的路面環(huán)境所產(chǎn)生的影響較少55%;不良道路線形對翻車事故的嚴(yán)重程度比良好的道路線形對翻車事故的嚴(yán)重程度的影響相比增加76.4%。
通過以上研究,形成以下主要結(jié)論:
1) 采用Ordinal Logistic模型對翻車事故的嚴(yán)重程度進(jìn)行分析,以事故的嚴(yán)重程度作為因變量,選取駕駛員特性、道路特性、環(huán)境特性3個(gè)方面的13個(gè)因素作為自變量。研究過程中采用美國一州的交通事故,篩選出385個(gè)滿足條件的樣本數(shù)據(jù),建立了影響翻車事故嚴(yán)重程度要素分析的邏輯模型。
2) 利用最大似然估計(jì)法對模型參數(shù)進(jìn)行估計(jì);運(yùn)用AIC、BIC、AICC以及對數(shù)似然估計(jì)進(jìn)行模型變量的精簡;同時(shí)運(yùn)用比例優(yōu)勢假設(shè)和似然比檢驗(yàn)以及比值比效應(yīng)檢驗(yàn)的方法對模型做了檢驗(yàn),得到符合檢驗(yàn)假設(shè)條件的最優(yōu)模型。該模型中包含3個(gè)顯著變量,且置信度水平為95%。
3) 通過筆者分析確定影響翻車事故嚴(yán)重程度的主要因素為安全帶的使用、路面狀況及道路線形,且3者中變量“安全帶”在模型簡化的過程中其p值一直小于0.000 1。其對翻車事故嚴(yán)重程度具有最為明顯的影響,很好的印證了安全帶的重要性。
總體而言,筆者提出的翻車事故分析模型能夠較為準(zhǔn)確的反映翻車事故嚴(yán)重程度,但對于模型中變量的獨(dú)立性尚未進(jìn)行完整的檢驗(yàn)。在將來有必要深入分析變量之間的獨(dú)立性檢驗(yàn),進(jìn)一步完善模型。
參考文獻(xiàn)(References):
[1]AMUNDSEN F H,RANES G.Studies on traffic accidents in Norwegian road tunnel[J].TunnellingandUndergroundSpaceTechnology,2000,15(1):3-11.
[2]KNUIMAN M W,COUNCIL F M,REINFURT D W.AssociationofMedianWidthandHighwayAccidentRates[R].Washington,D. C.:Transportation Research Record,1993.
[3]KIM J K,KIM S,ULFARSSON G F,et al.Bicyclist injury severities in bicycle motor vehicle accidents[J].AccidentAnalysis&Prevention,2007,39(2):238- 251.
[4]LEE C,ABDEL-ATY M.Comprehensive analysis of vehicle pedestrian crashes at intersections in Florida[J].AccidentAnalysisandPrevention,2005,37(4):775-786.
[5]宗芳,許洪國,張慧永.基于Ordered Probit模型的交通事故受傷人數(shù)預(yù)測[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,40(7):41-45.
ZONG Fang,XU Hongguo,ZHANG Huiyong.Forecast injury number due to traffic accident based on Ordered Probit model[J].SouthChinaUniversityofTechnology(NaturalScienceEdition),2012,40(7):41-45.
[6]馬壯林,邵春福,李霞.基于Logistic模型的公路隧道交通事故嚴(yán)重程度的影響因素[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2010,40(2):423-426.
MA Zhuanglin,SHAO Chunfu,LI Xia.Analysis of factors affecting accident severity in highway tunnelsbased on logistic model[J].JournalofJilinUniversity(EngineeringandTechnologyEdition),2010,40(2):423-426.
[7]李世民,孫明玲,關(guān)宏志.基于累積Logistic模型的交通事故嚴(yán)重程度預(yù)測模型[J].交通標(biāo)準(zhǔn)化,2009(3):168-171.
LI Shimin,SUN Mingling,GUAN Hongzhi.Prediction model cumulative logistic for severity of road traffic accident[J].TransportStandardization,2009(3):168-171.
[8]BURNHAM K P,ANDERSON D R.ModelSelectionandMultimodelInference[M].New York:Springer,2002.
[9]AKAIKE H.Information theory and an extension of the maximum likehood principle[J].InternationalSymposiumonInformationTheory,1973,1:610-624.
[10]SUGIURA N.Further analysis of the data by Akaike’s information criterion of model fitting[J].CommunicationinStatistics-TheoryandMethods,1978,7(1):13-26.
[11]趙晉芳,范月玲,曾平,等.多分類有序logit模型資料平行線假設(shè)及檢驗(yàn)方法[J].中國衛(wèi)生統(tǒng)計(jì),2009,26(1):11-13.
ZHAO Jinfang,F(xiàn)AN Yueling,ZENG Ping,et al.The parallel line assumption of ordinal logit regression model and its test the department of health statistics[J].ChineseHealthStatistics,2009,26(1):11-13.
[12]REES H.RegressionModelsforCategoricalandLimitedDependentVariables[M].3rd ed.Texas:StataCorp LP,2014.
[13]MCCULLAGH P.Regression models for ordinal data[J].JournaloftheRoyalStatisticalSociety,1980,42(2):109-142.
[14] WOLFE R,COULD W.AnApproximateLikelihood-RatioTestforOrdinalResponseModels[M].Texas:StataCorp LP,1998.
[15] 劉夢涵,于雷,張雪蓮,等.基于累積Logistic 回歸道路交通擁堵強(qiáng)度評價(jià)模型[J].北京交通大學(xué)學(xué)報(bào),2008,32(6):52-56.
LIU Menghan,YU Lei,ZHANG Xuelian,et al.Cumulative logistic regression-based measurement models of road traffic congestion intensity[J].JournalofBeijingJiaotongUniversity,2008,32(6):52-56.