張 坤,梅詩冬,景國勛,3,三上喜貴
(1.河南理工大學(xué)安全科學(xué)與工程學(xué)院,河南 焦作 454000;2.日本長岡技術(shù)科學(xué)大學(xué) 原子能系統(tǒng)安全工程系,日本 長岡 940-2188;3.安陽工學(xué)院,河南 安陽 455000)
早在20世紀70年代歐美等發(fā)達國家已經(jīng)建立了相對完善的交通事故信息系統(tǒng),現(xiàn)已成為交通事故數(shù)據(jù)收集和分析必不可少的一種工具[1-3]。近年來,我國國家安全生產(chǎn)監(jiān)督管理總局網(wǎng)站事故查詢系統(tǒng)作為分析道路交通事故的一個重要信息來源,已被國內(nèi)的一些學(xué)者重視并利用,除了利用該系統(tǒng)提供的關(guān)鍵詞進行檢索可得到簡單的統(tǒng)計數(shù)據(jù)外,系統(tǒng)中對道路交通事故進行描述的文本數(shù)據(jù)中也含有大量有價值的信息,但這些信息必須利用先進的數(shù)據(jù)挖掘技術(shù)才能提取出來。
面對數(shù)據(jù)庫中規(guī)模龐大的數(shù)據(jù),僅憑經(jīng)驗和專業(yè)知識有時已不能對其進行確切的分類,隨著計算機技術(shù)和多元統(tǒng)計技術(shù)的發(fā)展,利用數(shù)學(xué)方法進行更科學(xué)的分類不僅非常必要而且完全可能。聚類分析方法能根據(jù)樣本自身的屬性,用數(shù)學(xué)方法定量地確定樣本之間的親疏關(guān)系并對樣本進行聚類,已被一些學(xué)者應(yīng)用于道路交通事故數(shù)據(jù)的統(tǒng)計分析方面。如采用聚類分析法對道路交通事故發(fā)生的形態(tài)、地區(qū)等特點進行了分析,并對區(qū)域道路的交通安全情況進行了評價[4-9]。此外,道路交通事故的發(fā)生是多種因素綜合作用的結(jié)果,某種因素對事故影響程度的大小通??捎孟嚓P(guān)性分析法來進行評價。如一些學(xué)者利用相關(guān)性分析方法對道路交通事故、交通違章以及交通安全保護措施的使用情況等進行了分析和總結(jié)[10-11]。但綜合利用數(shù)據(jù)挖掘、聚類分析和相關(guān)性分析方法對道路交通安全狀況進行綜合評價的研究還比較少見。
本文基于我國國家安全生產(chǎn)監(jiān)督管理總局的事故查詢系統(tǒng),利用數(shù)據(jù)挖掘技術(shù)從中抽取重大交通事故的信息,以交通事故發(fā)生數(shù)量、死亡人數(shù)和受傷人數(shù)作為道路交通安全水平的評定指標,并依據(jù)我國社會經(jīng)濟發(fā)展水平、地勢階梯、人口密度等區(qū)域特征的劃分標準[12-14],將除了香港、澳門和臺灣之外的我國31個省級行政區(qū)進行分組,同時利用SPSS軟件的聚類分析功能對各省級行政區(qū)不同道路類型的道路交通安全水平進行等級劃分,利用SPSS軟件的相關(guān)性分析功能對各省級行政區(qū)域不同道路類型的道路交通安全水平等級與相應(yīng)的區(qū)域特征進行相關(guān)性分析,以為我國交通事故預(yù)防措施的制定提供客觀和直接的依據(jù),為降低交通事故的發(fā)生率發(fā)揮作用。
登陸中國國家安全生產(chǎn)監(jiān)督管理總局事故查詢系統(tǒng)[15],在2004年1月1日至2014年12月31日死亡人數(shù)為3人以上的“非煤”類型數(shù)據(jù)中(該系統(tǒng)事故類型選項分為“全部”、“非煤”、“煤礦”3類,交通事故包含于“非煤”事故類型中),以“道路交通事故”為關(guān)鍵詞進行檢索,提取到8 156件重大交通事故的數(shù)據(jù);再通過文本數(shù)據(jù)挖掘技術(shù)從事故簡況中篩選出具有行政道路類型(國道、省道、縣道和鄉(xiāng)村道路)和事故發(fā)生地點的數(shù)據(jù),作為樣本數(shù)據(jù)進行分析。通過上述方法收集到的我國交通事故發(fā)生數(shù)據(jù)為2 383件,按照省級行政區(qū)和道路類型進行統(tǒng)計后的結(jié)果,見表1。
表1 我國31個省級行政區(qū)在不同道路類型上的交通事故發(fā)生數(shù)、死亡人數(shù)和受傷人數(shù)統(tǒng)計結(jié)果
本文利用SPSS軟件聚類分析中的K-means算法進行數(shù)據(jù)處理,選取事故發(fā)生數(shù)量、死亡人數(shù)和受傷人數(shù)作為聚類分析時道路交通安全水平的評定指標,取聚類數(shù)K=5,對道路交通安全水平情況進行分析[6],將道路交通安全水平分為5個等級:高(A)、較高(B)、中等(C)、較低(D)和低(E)。
為了更加全面地評價我國各省級行政區(qū)域的道路交通安全狀況,進一步將各省級行政區(qū)域按照社會經(jīng)濟發(fā)展情況、地勢階梯、人口密度等進行了分類。對于社會經(jīng)濟發(fā)展情況的分類,依據(jù)國家統(tǒng)計局2011年公布的經(jīng)濟區(qū)域劃分方法,將省級區(qū)域歸類于東部、中部、西部和東北四大經(jīng)濟地區(qū);對于地勢階梯的分類,依照《中華人民共和國年鑒》中的描述,將各省級行政區(qū)域按海拔高度歸類于第一階梯、第二階梯和第三階梯;對于人口密度的分類,依據(jù)中國第六次人口普查結(jié)果,按照人口稠密的程度分為密集區(qū)、中等區(qū)和稀少區(qū)3類。
本文利用SPSS軟件將收集到的2 383件重大交通事故按道路類型進行聚類分析后,得到了如表2所示的聚類中心,表中各指標的值越低表示該道路交通安全水平越高。由表2可見,聚類中心的第2類,事故發(fā)生數(shù)量、死亡人數(shù)和受傷人數(shù)3個指標值均為最低,即道路交通安全水平最高(A等級);第4類(B等級)次之,之后依次是第5類(C等級)、第3類(D等級);第1類(E等級)的3個指標值均最高,即道路交通安全水平最不理想。
按照表2中的聚類中心,將我國31個省級行政區(qū)在不同道路類型上的道路交通安全水平按照A、B、C、D、E五個等級進行劃分,表3列出了我國31個省級行政區(qū)在不同道路類型上的道路交通安全水平等級。
表2 我國不同道路類型重大交通事故最終聚類中心
表3 我國31個省級行政區(qū)在不同道路類型上的道路 交通安全水平等級
由表3可見,北京、天津、河北、吉林、上海、海南、青海、寧夏、遼寧和江蘇10個省級行政區(qū)域的道路交通安全狀況最好,4種道路類型的行政交通安全水平都為A級;其余省級行政區(qū)域的道路交通安全水平在不同道路類型之間存在著差異,存在差異的省級區(qū)域占比約為68%;廣東、廣西、四川、云南和貴州等省級行政區(qū)域各種道路類型的道路交通安全水平等級基本屬于D級和E級,說明其道路交通安全狀況較差。從道路類型方面來看,國道、省道、縣道和鄉(xiāng)村道路上道路交通安全水平處于A級的比例分別為45%、58%、62%、52%,處于B級的比例分別為26%、3%、3%、6%,A級和B級之和分別為71%、61%、65%、58%;在鄉(xiāng)村道路上D級和E級所占比例分別達26%和13%,合計達39%。經(jīng)對比可以發(fā)現(xiàn),國道的道路交通安全水平為“高”和“較高”的占比較大,道路交通安全狀況相對較好,鄉(xiāng)村道路的道路交通安全水平最低,特別是安全水平為 “較低”和“低”的占比較大,與其他道路類型相比明顯偏多,可能是源于交通設(shè)施條件的不足。
由表3還可以看出,我國31個省級行政區(qū)域不同道路類型的道路交通安全水平存在著差異,這些差異與交通設(shè)施的完備程度、交通管理水平等存在一定的關(guān)系。同時,道路交通安全水平與區(qū)域性的社會經(jīng)濟發(fā)展?fàn)顩r、地勢階梯、人口分布等特征也有著一定的聯(lián)系,這種聯(lián)系的有無和聯(lián)系程度的大小可以通過相關(guān)性分析來驗證。
表4為我國31個省級行政區(qū)按社會經(jīng)濟發(fā)展情況、地勢階梯、人口密度進行分類后的區(qū)域特征,為了評價31個省級區(qū)域特征與道路交通安全水平之間的聯(lián)系,本文利用SPSS軟件對它們之間的相關(guān)性進行了分析,表5為道路交通安全水平與各種分類的區(qū)域特征進行相關(guān)性分析的結(jié)果。根據(jù)顯著性p值(p<0.05具有顯著性)和 Pearson相關(guān)系數(shù)r(|r|≤0.3為微弱相關(guān),0.3<|r|≤0.5為低度相關(guān),0.5<|r|≤0.8為中度相關(guān),|r|>0.8為高度相關(guān),|r|=1為完全相關(guān))的大小可以判斷不同道路類型道路交通安全水平與區(qū)域特征間的關(guān)聯(lián)程度。
由表5可見,我國4種道路類型的道路交通安全水平與第三階梯、東部經(jīng)濟區(qū)和人口密集區(qū)都呈現(xiàn)出顯著相關(guān)性(p<0.05),但隨著道路交通安全水平等級的降低其相關(guān)程度呈遞減趨勢;4種道路類型的道路交通安全水平與東北部經(jīng)濟區(qū)無顯著相關(guān)性(p>0.05);國道的道路交通安全水平與第二、三階梯、東西部經(jīng)濟區(qū)和人口密集區(qū)呈現(xiàn)出極顯著相關(guān)性(p<0.01);省道的道路交通安全水平與第三階梯、東部經(jīng)濟區(qū)和人口密集區(qū)呈現(xiàn)出極顯著相關(guān)性(p<0.017),與第二階梯和西部經(jīng)濟區(qū)呈現(xiàn)出顯著相關(guān)性(p<0.05);縣道的道路交通安全水平與東部經(jīng)濟區(qū)和人口密集區(qū)呈現(xiàn)出極顯著相關(guān)性(p<0.01),與第二、三階梯和西部經(jīng)濟區(qū)呈現(xiàn)出顯著相關(guān)性(p<0.05);鄉(xiāng)村道路的道路交通安全水平與第三階梯和人口密集區(qū)呈現(xiàn)出極顯著相關(guān)性(p<0.01),與東部經(jīng)濟區(qū)呈現(xiàn)出顯著相關(guān)性(p<0.05)。但是,國道的道路交通安全水平與人口稀少地區(qū)(0.991,0.084)、鄉(xiāng)村道路的道路交通安全水平與人口中等地區(qū)(0.982,0.121)有高度相關(guān)性但不顯著。
表4 我國31個省級行政區(qū)區(qū)域特征分類
注:經(jīng)濟區(qū)域劃分,I為東北部、Ⅱ為東部、Ⅲ為中部、Ⅳ為西部;地勢階梯劃分,I第一階梯與Ⅱ 第二階梯分界線為昆侖山脈—祁連山脈—橫斷山脈、Ⅱ第二階梯與Ⅲ 第三階梯分界線為大興安嶺—太行山脈—巫山—雪峰山;人口密度劃分,I為人口密集區(qū)(>100人/km2)、Ⅱ為人口中等區(qū)(25~100人/km2)、Ⅲ為人口稀少區(qū)(1~25人/km2)。
表5 我國不同道路類型交通安全水平等級與區(qū)域特征間的相關(guān)性分析結(jié)果
注:“**”表示相關(guān)性在 0.01水平(雙側(cè))上顯著相關(guān)(簡稱極顯著相關(guān));“*”表示相關(guān)性在 0.05水平(雙側(cè))上顯著相關(guān)(簡稱顯著相關(guān));“-”表示無相關(guān)性;N表示樣本量。
對于能提取到交通事故信息的我國31個省級行政區(qū)域,4種道路類型的道路交通安全水平進行聚類分析后的結(jié)果顯示:北京、天津、河北、吉林、上海、海南、青海、寧夏、遼寧和江蘇等省(市或自治區(qū))的道路交通安全水平整體較高;而廣東、廣西、四川、云南和貴州等省(或自治區(qū))的道路交通安全水平相對較低,這與呂衛(wèi)平等[8]在SPSS聚類分析應(yīng)用中得到的結(jié)果一致。通過對比發(fā)現(xiàn),我國68%的省級行政區(qū)域的道路交通安全水平在國道、省道、縣道和鄉(xiāng)村道路上存在著差異性,如黑龍江和重慶在國道上的道路交通安全水平是B級,在省道和縣道上是C級,在鄉(xiāng)村道路上分別是D級和C級。
基于經(jīng)濟區(qū)域、地勢階梯和人口密度3個區(qū)域特征對我國31個省級行政區(qū)域進行分組,各組與不同道路類型的道路交通安全水平等級間存在著一定的關(guān)系,尤其是地勢平坦的第三階梯和經(jīng)濟發(fā)達的東部地區(qū)與各種道路類型的道路交通安全水平呈現(xiàn)出顯著相關(guān)關(guān)系,人口密集地區(qū)與各種道路類型的道路交通安全水平呈現(xiàn)出極顯著相關(guān)性。結(jié)合表3和表4可以看出滿足這三個條件的省級行政區(qū)域道路交通安全水平較高(如北京、天津、上海、江蘇等),這也符合一些研究者[16-20]分別得到的分析結(jié)果。因為地勢對交通線路的分布密度和道路線形會產(chǎn)生一定的影響,我國第三階梯以平原為主,各類交通線路多且密度大,多呈走向平直的網(wǎng)狀分布,道路環(huán)境好;根據(jù)醫(yī)療衛(wèi)生和道路交通基礎(chǔ)設(shè)施狀況對交通事故百萬人口傷亡率的作用呈邊際遞減的規(guī)律[18]來看,我國東部地區(qū)經(jīng)濟條件較好,醫(yī)療衛(wèi)生和道路交通基礎(chǔ)設(shè)施都優(yōu)于西部地區(qū),因此西部經(jīng)濟欠發(fā)達地區(qū)的道路安全水平會比東部地區(qū)差。另外,第二、三階梯、東部和西部經(jīng)濟區(qū)以及人口密集區(qū)與各種道路類型的道路交通安全水平的顯著相關(guān)性隨著安全水平等級的降低而降低。這些信息可以幫助我們了解不同道路類型的道路交通安全水平情況的區(qū)域性特征,為更好地提高交通安全管理水平提供參考依據(jù)。
我國各省級行政區(qū)域在不同道路類型上的道路交通安全水平具有差異性,因此各部門應(yīng)該根據(jù)不同道路類型的道路交通安全水平情況的區(qū)域性特征,有針對性地制定交通事故預(yù)防措施[21-24]。Benot等[25]的研究表明聚類分析是分析同類交通事故的有效方法。本文采用聚類分析方法對我國31個省級行政區(qū)域的不同道路類型的道路交通安全水平進行等級劃分,分析結(jié)果具有一定的實際意義,驗明了聚類分析方法在道路交通安全分析方面的有效性;同時,通過相關(guān)性分析驗證了道路交通安全水平與區(qū)域特征間的關(guān)聯(lián)關(guān)系??梢?,聚類分析方法和相關(guān)性分析方法的結(jié)合應(yīng)用,能從原始數(shù)據(jù)中挖掘出更多有價值的信息。
本文通過對我國國家安全生產(chǎn)監(jiān)督管理總局事故查詢系統(tǒng)中的數(shù)據(jù)進行挖掘,從2004—2014年間發(fā)生的重大交通事故中篩選出具有道路類型信息的2 383件交通事故數(shù)據(jù),將該數(shù)據(jù)按照省級行政區(qū)和道路類型進行聚類分析,將道路交通安全水平等級劃分為5個等級,并將我國31個省級行政區(qū)域的道路交通安全水平進行了歸類,同時利用相關(guān)性分析方法分析了社會經(jīng)濟發(fā)展水平、地勢階梯和人口密度等三個區(qū)域特征與該區(qū)域道路交通安全水平之間的關(guān)系,得到了以下結(jié)論:
(1) 將數(shù)據(jù)挖掘技術(shù)應(yīng)用于事故查詢系統(tǒng)可以得到簡單統(tǒng)計數(shù)據(jù)之外的信息,為進一步提高道路交通安全水平提供了可靠的理論支持。
(2) 對大量交通事故信息進行處理時,可以利用聚類分析方法對道路交通安全水平進行分級。通過對我國31個省級行政區(qū)域在不同道路類型上的道路交通安全水平等級進行劃分的結(jié)果表明:68%的省級行政區(qū)域在不同道路類型上的道路交通安全水平存在差異,說明在進行交通事故預(yù)防和交通設(shè)施改善時,有必要按照道路類型進行考慮。
(3) 利用相關(guān)性分析發(fā)現(xiàn)道路交通安全水平與社會經(jīng)濟發(fā)展水平、地勢階梯、人口密度等區(qū)域特征有較強的相關(guān)性,我國東部地區(qū)、地理上的第三階梯以及人口密集地區(qū)道路交通的安全水平較高,而這種相關(guān)性隨著道路交通安全水平等級的降低呈現(xiàn)出降低的趨勢。
(4) 本研究過程中,用作數(shù)據(jù)挖掘分析的道路交通相關(guān)信息是從數(shù)據(jù)查詢系統(tǒng)中的交通事故文本信息中抽取出的,在人工提取信息時發(fā)現(xiàn),這些文本數(shù)據(jù)所包含的內(nèi)容具有一定的隨意性,信息的描述模式也不統(tǒng)一,導(dǎo)致了像路表情況、交通信號方式等相當(dāng)一部分項目的信息覆蓋率低于10%[26],而這些信息對于深入了解交通事故發(fā)生的環(huán)境和原因具有重要的意義。由于文本信息中有的信息存在缺失[26],這會影響抽取出的數(shù)據(jù)質(zhì)量,同時給進一步的數(shù)據(jù)挖掘分析帶來了困難,并影響分析結(jié)果。此外,由于文本信息結(jié)構(gòu)不統(tǒng)一、特征屬性不易清楚定義和界定,在對相關(guān)信息抽取時會出現(xiàn)遺漏現(xiàn)象甚至影響用于進一步挖掘分析的數(shù)據(jù)質(zhì)量和分析結(jié)果,因此對數(shù)據(jù)挖掘技術(shù)在道路交通安全評價中的應(yīng)用還需要進一步的完善。
[1] Liu X,Li L,Cui H,et al.Evaluation of an emergency department-based injury surveillance project in China using WHO guidelines[J].InjuryPrevention,2009,15(2):105-110.
[2] Ma S,Li Q,Zhou M,et al.Road traffic injury in China:A review of national data sources[J].TrafficInjuryPrevention,2012,13(S1):57-63.
[3] Luoma J,Sivak M.Characteristics and availability of fatal road-crash databases in 20 countries worldwide[J].JournalofSafetyResearch,2007,38(3):323-327.
[4] Zheng Y,Wang J,Li X,et al.Driving risk assessment using cluster analysis based on naturalistic driving data[C]//2014IEEE17thInternationalConferenceonIntelligentTransportationSystems,October 8-11,2014,Qingdao,China.New York:IEEE,2014:2584-2589.
[5] 馬社強,邵春福,左忠義,等.基于主成分和聚類分析的區(qū)域道路交通安全綜合評價[J].武漢理工大學(xué)學(xué)報(交通科學(xué)與工程版),2010,34(6):1090-1094.
[6] 許洪國,劉兆惠,王超.道路安全等級定權(quán)聚類評價模型及因素辨析[J].交通運輸工程學(xué)報,2007,7(2):94-98.
[7] Murat Y S,Sekerler A.Modelling traffic accident data by cluster analysis approach[J].TechnicalJournalofTurkishChamberofCivilEngineers,2009,20(3):4759-4777.
[8] 呂衛(wèi)平,張曉梅.基于SPSS的聚類分析應(yīng)用[J].福建電腦,2013,29(9):20-23.
[9] 陶剛,閆永剛,劉俊,等.基于主成分-聚類分析的事故熱點識別方法研究[J].交通標準化,2014,42(23):22-26.
[10]李生權(quán),羅慶,陳松靈,等.交通事故與高等級公路線形相關(guān)性研究[J].公路交通科技,2006(5):165-167.
[11]Zhu H,Zhang R H,Fan L J.Correlation analysis between transportation infrastructure and traffic accidents based on fuzzy evaluation[C]//15thCOTAInternationalConferenceofTransportationProfessionals,July 24-27,2015,Beijing,China.Reston,VA:American Society of Civil Engineers,2015:2926-2934.
[12]國家統(tǒng)計局.東西中部和東北地區(qū)劃分方法[EB/OL].(2011-06-13).http://www.stats.gov.cn/ztjc/zthd/sjtjr/dejtjkfr/tjkp/201106/t20110613_71947.htm.
[13]中華人民共和國年鑒.地形[EB/OL].[2017-09-02].http://www.gov.cn/test/2005-06/24/content_17362.htm.
[14]中華人民共和國國家統(tǒng)計局.2010年第六次全國人口普查主要數(shù)據(jù)公報[R].北京:中華人民共和國國家統(tǒng)計局,2011.
[15]國家安全生產(chǎn)監(jiān)督管理總局.事故查詢系統(tǒng)[DB/OL].[2017-09-02].http://media.chinasafety.gov.cn:8090/iSystem/shigumain.jsp.
[16]Milton J C,Shankar V N,Mannering F L.Highway accident severities and the mixed logit model:An exploratory empirical analysis[J].AccidentAnalysisandPrevention,2008,40(1):260-266.
[17]韓向方,李曉杰.道路交通事故分析及交通安全對策[J].中國地質(zhì)大學(xué)學(xué)報(社會科學(xué)版),2013(S1):30-32.
[18]任英,彭紅星.中國交通事故傷亡人數(shù)影響因素的實證分析[J].預(yù)測,2013,32(3):1-7.
[19]房曰榮,沈斐敏.道路交通事故發(fā)展趨勢分析與預(yù)測[J].中國安全生產(chǎn)科學(xué)技術(shù),2012,8(3):141-146.
[20]徐鑫.我國道路交通事故規(guī)律特點及預(yù)防對策分析[J].中國安全科學(xué)學(xué)報,2013,23(11):120-125.
[21]龍科軍,劉勇.基于貝葉斯網(wǎng)的交通事故機理分析[J].安全與環(huán)境學(xué)報,2010,10(1):150-154.
[22]趙學(xué)剛,魏朗.道路條件安全性分析[J].安全與環(huán)境學(xué)報,2008,8(3):140-144.
[23]柳坐宮,錢勇生,曾俊偉.不同道路特大交通事故特征分析及預(yù)防對策研究[J].中國公共安全(學(xué)術(shù)版),2015(3):71-75.
[24]孫平,宋瑞,王海霞.我國道路交通事故成因分析及預(yù)防對策[J].安全與環(huán)境工程,2007,14(2):97-100.
[25]Depaire B,Wets G,Vanhoof K.Traffic accident segmentation by means of latent class clustering[J].AccidentAnalysisandPrevention,2008,40(4):1257-1266.
[26]張坤,梅詩冬,景國勛,等.道路交通事故信息文本預(yù)處理技術(shù)研究與實踐[J].安全與環(huán)境工程,2017,24(4):112-116.