陳妤婕,吳愛華
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
道路交通事故可表述為人、車、道路、環(huán)境等動靜態(tài)因素耦合失調(diào)而導(dǎo)致的人或物同時(shí)受到損失的過程[1]。影響交通事故的因素非常多,涉及到人、車、道路、環(huán)境等多個(gè)方面,這些因素使事故在發(fā)生時(shí)間、空間等方面呈現(xiàn)出偶然性。然而大量的事故研究證明,交通事故實(shí)際上是受其內(nèi)部規(guī)律所支配的,影響因素之間存在著聯(lián)系,決定著交通事故的發(fā)生和發(fā)展變化。
很多數(shù)據(jù)挖掘方法被用來分析不同因素對交通事故的影響。文獻(xiàn)[2]用泊松回歸模型分析了道路設(shè)計(jì)、交通量等因素對信號交叉口嚴(yán)重傷亡事故發(fā)生頻次的影響。文獻(xiàn)[3]運(yùn)用貝葉斯網(wǎng)絡(luò)對事故概率進(jìn)行定量計(jì)算,全面合理地解釋了事故發(fā)生的根本原因。文獻(xiàn)[4]將事故嚴(yán)重程度細(xì)分為八個(gè)等級分別建立神經(jīng)網(wǎng)絡(luò)模型,結(jié)果表明是否采用安全帶、是否酒駕和車輛用途等與事故嚴(yán)重程度直接相關(guān)。
由于大量影響因素的存在,交通事故表現(xiàn)出豐富的異構(gòu)性[5],不同類型的交通事故的影響因素不同,如果在分析過程中不考慮這一點(diǎn),一些導(dǎo)致交通事故發(fā)生的原因可能會被隱藏,聚類處理可以降低事故的異構(gòu)性。文獻(xiàn)[6]用K-modes聚類算法對道路類型、光照情況、時(shí)間等特征聚類分析后進(jìn)行致因分析,結(jié)果顯示總體數(shù)據(jù)集并不能體現(xiàn)單個(gè)類別的事故原因。文獻(xiàn)[7]用K-means方法來分析事故碰撞前后的模式特點(diǎn)。文獻(xiàn)[8]用潛類別分析對交通事故數(shù)據(jù)進(jìn)行聚類,作為致因分析的初步工作。
本文提出了一個(gè)基于潛類別分析和關(guān)聯(lián)規(guī)則挖掘的交通事故原因分析模型。在數(shù)據(jù)集中,存在一些出現(xiàn)次數(shù)較少但影響交通事故的嚴(yán)重程度的因素,而現(xiàn)有的關(guān)聯(lián)規(guī)則算法如Apriori[9]、FP-Growth[10]等受閾值設(shè)定的限制,往往會遺漏這些因素,因此本文在原有的關(guān)聯(lián)規(guī)則挖掘算法上增加了權(quán)重的設(shè)定,更有效地挖掘出影響交通事故嚴(yán)重程度的因素。
本文的算法模型主要分為三個(gè)部分:特征選擇、聚類分析、關(guān)聯(lián)規(guī)則挖掘,總體流程如圖1所示。
(1)特征選擇。特征集中有一部分無效特征,需要先用合適的特征選擇方法剔除。本文先用卡方檢驗(yàn)和Boruta算法初步選擇,然后用遞歸特征消除(RFE)算法保留預(yù)測效果最好時(shí)的特征集。
(2)聚類分析。交通事故的異構(gòu)性是分析過程中的一個(gè)主要問題,用潛類別分析對數(shù)據(jù)集進(jìn)行聚類分析可以找出相同類型的交通事故,有效降低異構(gòu)性。
(3)關(guān)聯(lián)規(guī)則挖掘。本文對Apriori算法進(jìn)行改進(jìn),每次掃描數(shù)據(jù)集生成頻繁項(xiàng)集時(shí),用關(guān)聯(lián)規(guī)則挖掘算法找出每個(gè)類別中影響交通事故嚴(yán)重程度的關(guān)聯(lián)規(guī)則。
最后使用關(guān)聯(lián)規(guī)則對新數(shù)據(jù)集中的事故按嚴(yán)重程度進(jìn)行分類,比較Apriori算法和帶權(quán)重的Apriori算法的分類效果。
圖1 算法總體流程示意圖
潛類別分析(Latent Class Analysis,LCA)是潛變量分析的一種,目的在于利用潛類別解釋多個(gè)外顯分類變量之間復(fù)雜的關(guān)聯(lián),并使各潛類別內(nèi)部的外顯變量之間滿足局部獨(dú)立性[11]。
下面給出潛類別模型的形式化定義:
(1)數(shù)據(jù)集中共有N條記錄,每條記錄都是一個(gè)觀察值 i,i=1…N。
(2)每個(gè)特征都是離散化的,又稱為多分類變量或外顯變量,每個(gè)多分類變量j(j=1…J)有Kj個(gè)取值。
例如,性別這個(gè)多分類變量,有男性或女性兩種取值,此時(shí) Kj的值為2。
(3)Yijk=1表示觀察值i(i=1…N)在第j(j=1…J)個(gè)變量的第k(k=1…Kj)個(gè)取值有應(yīng)答;否則,Yijk=0。
(4)潛類別分析通過擬合運(yùn)算把數(shù)據(jù)集聚類成R個(gè)潛類,πijk表示在第r(r=1…R)個(gè)潛類中,第j個(gè)外顯變量的第k個(gè)取值的條件概率。
(5)pr表示每個(gè)類別在數(shù)據(jù)集中的概率。
在潛類別分析模型中,上面定義的符號滿足下列條件:
在第r個(gè)潛類中,第j個(gè)外顯變量的每個(gè)取值的條件概率之和為1;每個(gè)潛類別在數(shù)據(jù)集中的概率之和為1:
根據(jù)局部獨(dú)立性假設(shè),獨(dú)立事件聯(lián)合發(fā)生的概率等于單獨(dú)發(fā)生概率之積,在每個(gè)類別r內(nèi)部,多個(gè)變量的聯(lián)合概率為:
其中,Yi是觀察值i各個(gè)變量的取值集合,表示一起具體的交通事故。
Yi在整個(gè)數(shù)據(jù)集中出現(xiàn)的概率如下,采用貝葉斯后驗(yàn)概率將個(gè)體歸入不同的潛類別。
關(guān)聯(lián)規(guī)則的形式化描述:設(shè)D是一個(gè)包含n個(gè)事務(wù)的數(shù)據(jù)庫,每個(gè)事務(wù)T∈D。令I(lǐng)={I1,I2,…,Im}是項(xiàng)的集合,每個(gè)事務(wù)T都是項(xiàng)的集合。關(guān)聯(lián)規(guī)則是形如A→B的蘊(yùn)涵表達(dá)式,其中A?I,B?I且A∩B=?。關(guān)聯(lián)規(guī)則的強(qiáng)度用支持度(support)和置信度(confi?dence)來度量[10]。支持度確定規(guī)則在數(shù)據(jù)集中的頻繁程度,而置信度確定B在包含于A的事務(wù)中的頻繁程度。
在現(xiàn)有關(guān)聯(lián)規(guī)則算法中,k-項(xiàng)集支持度的計(jì)算往往只考慮它在數(shù)據(jù)庫中出現(xiàn)的頻率,而沒有考慮不同的項(xiàng)集的重要程度不同。例如,某商店每月售出3000條毛巾,300臺吹風(fēng)機(jī),吹風(fēng)機(jī)由于達(dá)不到設(shè)定的最小支持度而被過濾掉,但吹風(fēng)機(jī)的銷售利潤比毛巾要高很多,可認(rèn)為吹風(fēng)機(jī)比毛巾更重要。
為了在計(jì)算支持度時(shí)考慮項(xiàng)集的重要程度,引入下面的公式,其中,P(X)表示項(xiàng)集X出現(xiàn)的頻繁程度,W(X)表示項(xiàng)集X的權(quán)重:
β=1時(shí),P(X)和 W(X)對支持度的計(jì)算具有相同的影響;β>1時(shí),W(X)具有更大影響;β<1時(shí),P(X)具有更大影響。
用Logistic回歸模型計(jì)算權(quán)重W,Logistic回歸模型具有計(jì)算代價(jià)不高,易于解釋和理解的優(yōu)點(diǎn)。Logis?tic回歸模型進(jìn)行訓(xùn)練后每個(gè)特征的系數(shù)即為權(quán)重W,項(xiàng)集 X(X={Ix1,Ix2,…,Ixm})的權(quán)重計(jì)算:
帶權(quán)重的Apriori算法偽代碼:
(1)頻繁項(xiàng)集的生成:
(2)對每一條頻繁項(xiàng)集,生成關(guān)聯(lián)規(guī)則:{頻繁項(xiàng)集X}→嚴(yán)重程度
T為一起交通事故,K為頻繁項(xiàng)集的最大長度。
關(guān)聯(lián)規(guī)則分類偽代碼:
實(shí)驗(yàn)數(shù)據(jù)來源于美國國家公路交通安全管理局(NHTSA),選取2015年美國境內(nèi)的共51686條交通事故數(shù)據(jù),交通事故的嚴(yán)重程度根據(jù)有無人員受傷分為嚴(yán)重和不嚴(yán)重。算法實(shí)現(xiàn)使用了Python和R語言。
在特征選擇階段,最終RFE的實(shí)驗(yàn)結(jié)果如圖2所示,在特征數(shù)量為19時(shí),算法效果最好。
圖2 不同特征數(shù)量下RFE算法的效果
保留的特征中,與人相關(guān)的是:SEX(性別)、AGE(年齡)、PCRASH1(事故前駕駛員行為)、REST_USE(防護(hù)設(shè)備影響)、PERALCH(酒精影響);與車相關(guān)的是:RELJCT2(與交叉路口的關(guān)系)、DEFORMED(汽車損傷程度)、ROLLOVER(是否翻車)、ACC_TYPE(碰撞類型)、PCRASH2(導(dǎo)致事故發(fā)生事件)、SPEEDREL(是否超速);與環(huán)境相關(guān)的是:HOUR(時(shí)間)、MONTH(季節(jié))、VTRAFCON(道路控制標(biāo)志)、LGTCON(光線情況)、WEATHR(天氣);與道路相關(guān)是:VSURCOND(路面情況)、VTRAFWAY(道路分成幾路)。
在潛類別分析階段,從潛類別數(shù)目為1的初始模型開始,擬合了15個(gè)模型。衡量模型的好壞用到了3種信息準(zhǔn)則:AIC、BIC、CAIC。隨著類別數(shù)目的增加,雖然統(tǒng)計(jì)擬合上有了一定的提升,但是聚類結(jié)構(gòu)會更加復(fù)雜,因此,作為統(tǒng)計(jì)擬合和聚類結(jié)構(gòu)復(fù)雜度之間的折中,選擇潛類別數(shù)目為7的模型。
圖3是每個(gè)類別中各個(gè)多分類變量的分布情況,這里只顯示了部分特征。
圖3 每個(gè)類別中各個(gè)多分類變量的分布情況
每個(gè)類別的具體描述如下:
類別1(C1):有85.77%的交通事故都發(fā)生在交叉路口,且碰撞類型為雙向碰撞,達(dá)到了46.93%,相比其他類別,該類中由于其他車輛駛?cè)氲缆芬l(fā)事故的比率是最高的,達(dá)到了30.92%,有75.32%的事故發(fā)生在沒有道路控制標(biāo)志的情況下,道路劃分最高的是雙向無分離道路(56.46%)。
類別 2(C2):多數(shù)事故都不發(fā)生在交叉路口(86.27%),相比其他類別,翻車率是最高的,達(dá)到了33.66%,超速率也是最高的,達(dá)到了37.92%,73.29%的車的碰撞類型都是單輛機(jī)動車從道路邊上駛離,事故發(fā)生的原因中車輛失控占比最高(48.35%),有55.86%道路為濕,絕大部分事故(92.01%)發(fā)生時(shí)沒有道路控制標(biāo)志,多數(shù)事故發(fā)生在雨天(41.5%)。
類別 3(C3):多數(shù)事故(68.67%)發(fā)生在晚上(18-23)點(diǎn),但有74.94%的事故發(fā)生在黑暗有人造光的情況下,發(fā)生在交叉口和其相關(guān)位置的比率都較高,達(dá)到了47.64%和39.84%,58.13%的事故發(fā)生在有交通信號燈的情況下,發(fā)生在秋冬季節(jié)的比率相對其他類別是最高的,達(dá)到了68.88%。
類別4(C4):有51.75%的事故中車輛都受到了一定程度的損傷,事故發(fā)生的原因中占比最高的是機(jī)動車與行人、物體等相撞(48.35%),事故發(fā)生前,較多(45.56%)駕駛員在變道,大部分事故(70.62%)發(fā)生時(shí)沒有道路控制標(biāo)志,有36.19%的駕駛員集中在45-60歲。
類別5(C5):多數(shù)事故都發(fā)生在晚上和凌晨,達(dá)到50.84%和39.87%,大部分事故都不發(fā)生在交叉路口(88.54%),事故前,69.13%的駕駛員都在直行,大部分事故(92.74%)發(fā)生時(shí)沒有道路控制標(biāo)志,受酒精影響的事故比其他類別多,達(dá)到了36.52%,63.18%的事故發(fā)生在黑暗無人造光的情況下,多數(shù)事故發(fā)生在雨天(53.18%)。
類別6(C6):有93.02%的事故都發(fā)生在交叉路口相關(guān)的路段上,超過半數(shù)(56.35%)的事故中車輛受到一定程度的損傷,事故發(fā)生前較多駕駛員在轉(zhuǎn)彎(57.66%),60歲以上的駕駛員在該類中的占比達(dá)到了30.51%,較其他類別高。
類別7(C7):超過半數(shù)(55.16%)的事故中車輛受到了一定程度的損傷,絕大多數(shù)事故的碰撞類型為雙車追尾(94.98%),事故發(fā)生前,67.25%的駕駛員都在直行,事故原因基本上是由路上的其他車輛造成的(96.97%),相比其他類別,有29.46%的事故駕駛員粗心駕駛,較其他類別高。
對每個(gè)類別進(jìn)行關(guān)聯(lián)規(guī)則挖掘,圖4和圖5都選取了C1、C2中置信度最高的5條規(guī)則,可以看出,Apriori算法和帶權(quán)重的Apriori算法挖掘出的關(guān)聯(lián)規(guī)則有所不同,而用帶權(quán)重的Apriori算法挖掘的關(guān)聯(lián)規(guī)則更貼近每個(gè)類別的特點(diǎn),說明帶權(quán)重的關(guān)聯(lián)規(guī)則算法能更有效地挖掘出影響交通事故嚴(yán)重程度的因素。這里公式(7)中的 β取1,認(rèn)為項(xiàng)集在數(shù)據(jù)庫中出現(xiàn)的頻率和它的權(quán)重對支持度具有相同的影響。
圖4 Apriori算法挖掘出的關(guān)聯(lián)規(guī)則
圖5 帶權(quán)重的Apriori算法挖掘出的關(guān)聯(lián)規(guī)則
利用挖掘出的關(guān)聯(lián)規(guī)則對美國境內(nèi)2012-2014年的各10000條交通事故進(jìn)行分類。圖6為分類的結(jié)果,從圖中可以看出,用帶權(quán)重的Apriori算法進(jìn)行分類的準(zhǔn)確率都要高于Apriori算法,進(jìn)一步說明帶權(quán)重的關(guān)聯(lián)規(guī)則算法能更有效。
圖6 2012-2014年不同關(guān)聯(lián)規(guī)則算法下的分類效果
本文提出了一個(gè)基于潛類別分析和關(guān)聯(lián)規(guī)則挖掘的交通事故原因分析模型,先后用聚類分析和帶權(quán)重的關(guān)聯(lián)規(guī)則算法,分析了各個(gè)事故類型的特點(diǎn),有效克服了影響因素被過濾的問題,并證明了本文算法要優(yōu)于Apriori算法。然而,本文在關(guān)聯(lián)規(guī)則算法權(quán)重和支持度的比較上偏經(jīng)驗(yàn)化,后續(xù)的研究中可做進(jìn)一步研究。
[1]裴玉龍,蔣賢才,程國柱等.道路交通事故分析與再現(xiàn)技術(shù)[M].北京:人民交通出版社,2010.
[2]Wong S C,Sze N N,Li Y C.Contributory Factors to Traffic Crashes at Signalized in Hongkong[J].Accident Analysis and Prevention,2007,39(6):1107-1113.
[3]龍科軍,劉勇.基于貝葉斯網(wǎng)絡(luò)的交通事故機(jī)理分析[J].安全與環(huán)境學(xué)報(bào),2010,10(1):150-153.
[4]Delen D,Sharda R,Bessonov M.Identifying Significant Predictors of Injury Severity in Traffic Accidents Using a Series of Artificial Neural Networks[J].Accident Analysis&Prevention,2006,38(3):434-444.
[5]Savolainen P,Mannering F,Lord D,Quddus M.The Statistical Analysis of Highway Crash-Injury Severities:a Review and Assessment of Methodological Alternatives[J].Accid Anal Prev.2011,43:1666-1676.
[6]S Kumar,D Toshniwal.A Data Mining Framework to Analyze Road Accident Data[J].Journal of Big Data,2015,2(1):26.
[7]R Mauro,MD Luca,G Dell'Acqua.Using a K-Means Clustering Algorithm to Examine Patterns of Vehicle Crashes in Before-After Analysis[J].Modern Applied Science,2013,7(10):11-19.
[8]de Ona J,Lopez G,Mujalli R,Calvo FJ.Analysis of Traffic Accidents on Rural Highways Using Latent Class Clustering and Bayesian Networks.Accid Anal Prev,2013,51:1-10.
[9]Agrawal R,Im ielinski T,Swami A.Mining Association Rules between Sets of Items in Large Databases[J].Acm Sigmod Record,1993,22(2):207-216.
[10]J Han,J Pei,Y Yin.Mining Frequent Patterns Without Candidate Generation[J].Acm Sigmod Record,1999,29(2):1-12.
[11]邱皓政.潛在類別模型的原理與技術(shù)[M].北京:教育科學(xué)出版社,2008.