国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樸素貝葉斯的交通事故嚴(yán)重程度分析

2021-03-01 08:17馮天軍田秀娟
山東交通科技 2021年6期
關(guān)鍵詞:貝葉斯類別概率

馮天軍,高 坦,田秀娟

(吉林建筑大學(xué) 交通科學(xué)與工程學(xué)院,吉林 長(zhǎng)春 130118)

引言

目前,交管部門主要通過數(shù)理統(tǒng)計(jì)的方法統(tǒng)計(jì)事故發(fā)生的概率,分析事故發(fā)生的原因,在分析交通事故的嚴(yán)重性及其影響因素時(shí)會(huì)出現(xiàn)誤判。為了更好地進(jìn)行定量分析,國(guó)內(nèi)外學(xué)者在事故嚴(yán)重性分析方面進(jìn)行了大量的研究,馬柱等[1]以事故影響因素為自變量,嚴(yán)重程度為因變量,采用二項(xiàng)Logistic模型建立交通事故嚴(yán)重程度分析模型;孫軼軒等[2]基于C5.0決策樹方法建立了事故嚴(yán)重性分析模型,得出影響事故嚴(yán)重性分類的主要因素有碰撞類型、道路屬性、事故致因和駕駛?cè)祟愋偷?;MUJALLI等[3]基于不同的貝葉斯分類器發(fā)現(xiàn)涉及車輛數(shù)量、方向、照明以及路面狀況等變量可導(dǎo)致嚴(yán)重交通事故;陳昭明等[4]構(gòu)建了混合Logit模型,分析其與道路、環(huán)境、駕駛員及車輛等因素間關(guān)系,并提出了刻畫參數(shù)間相關(guān)性的方法;石懷雪等[5]采用stacking方式將CNN與XGBoost組合,生成道路交通事故嚴(yán)重性的分類模型并根據(jù)分類結(jié)果對(duì)特征進(jìn)行重要性排序,進(jìn)行特征相關(guān)性分析。

國(guó)內(nèi)外研究側(cè)重在道路、環(huán)境等客觀物理因素上,預(yù)測(cè)的是碰撞類別(正面、追尾、單車等)的概率,并不能直接反應(yīng)事故的嚴(yán)重程度。統(tǒng)籌人、車、路和環(huán)境方面的因素,運(yùn)用貝葉斯定理推理出單一因素造成傷亡或非傷亡事故的概率,更加直觀地反映各因素對(duì)事故嚴(yán)重程度的作用效果,對(duì)原有樸素貝葉斯進(jìn)行改進(jìn),生成基于加權(quán)樸素貝葉斯的事故類別預(yù)測(cè)模型,改進(jìn)后的模型具有更高的預(yù)測(cè)命中率。

1 數(shù)據(jù)來源分析

選取2016年內(nèi)華達(dá)州交通局公布的WASHOE CITY共計(jì)2 965條交通事故數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)包含了事故發(fā)生的時(shí)間、地點(diǎn)、傷亡人數(shù)以及人、車輛、道路、交通環(huán)境方面的因素,按嚴(yán)重程度將事故分為傷亡事故和非傷亡事故。從屬于交通參與人、車輛、道路、交通環(huán)境四方面的原始數(shù)據(jù)中,選取天氣、碰撞角度、車輛類型、駕駛員年齡、駕駛員狀態(tài)、道路狀況、車道數(shù)、有無行人、光線情況、違法行為以及事故地點(diǎn)與交叉口距離11種具有代表性的事故影響因素,并離散分類出子因素進(jìn)行 分析。

2 基于樸素貝葉斯的事故嚴(yán)重程度分析

2.1 樸素貝葉斯算法構(gòu)建

樸素貝葉斯算法的原理是根據(jù)特征的先驗(yàn)概率用貝葉斯模型計(jì)算出后驗(yàn)概率,然后選擇具有最大后驗(yàn)概率的類作為該特征所屬的類。樸素貝葉斯算法流程[6]:假設(shè)有m個(gè)類,分別用C1、…Cm表示,x1、…、xn是類的屬性變量。給定一個(gè)未知類的數(shù)據(jù)樣本S,分類法將預(yù)測(cè)S具有的最高后驗(yàn)概率的類,即滿足P(Ci | S)>P(Cj | S),1≤j≤m,j≠i的類Ci。根據(jù)貝葉斯定理,在樣本S的情況下Ci類的概率P(Ci | S)為:

式中:P(Ci)—類Ci的概率;P(S |Ci)—在類Ci的情況下S的概率;P(xn | Ci)—在類Ci下的屬性變量xn的概率(類條件概率);Li—類Ci在總的訓(xùn)練樣本數(shù)據(jù)集中的個(gè)數(shù);L—總訓(xùn)練樣本數(shù)。

2.2 事故數(shù)據(jù)離散分類

將內(nèi)華達(dá)州交通事故數(shù)據(jù)中事故類別作為樸素貝葉斯的分類變量,將事故影響因素作為樸素貝葉斯的屬性變量,由于建模需要,將所選的11種影響因素進(jìn)行離散處理,建立類的屬性變量集X:{x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11},變量設(shè)置見表1。部分訓(xùn)練數(shù)據(jù)集的離散處理結(jié)果,見表2。

表1 變量設(shè)置

表2 部分訓(xùn)練數(shù)據(jù)集的離散處理

從表2可知,事故序號(hào)1是統(tǒng)計(jì)的第一起交通事故,該事故發(fā)生在有照明情況下的路段上,43歲的大型載客汽車駕駛員在駕駛狀態(tài)正常的情況下因出現(xiàn)超越路權(quán)駕駛行為而導(dǎo)致追尾,造成人員傷亡。統(tǒng)計(jì)的事故數(shù)據(jù)共計(jì)2 965條。

2.3 單因素影響分析

單一因素對(duì)事故嚴(yán)重程度的影響分析是求出現(xiàn)單一特征時(shí)發(fā)生事故類別為Cj的概率,通過該概率可以直觀地分析不同因素對(duì)事故嚴(yán)重程度大小的影響。根據(jù)貝葉斯定理,構(gòu)建單因素對(duì)事故嚴(yán)重程度影響模型:

式中:xi—第i個(gè)屬性變量;Cj—事故類別,分為傷亡事故C1、非傷亡事故C2;P(Cj)—事故類別Cj的概率;P(xi | Cj)—事故類別為條件下各屬性變量的概率。

只需求得先驗(yàn)概率P(Cj)及類條件概率P(xi | Cj)便可得出所需后驗(yàn)概率。將一部分事故數(shù)據(jù)作為訓(xùn)練樣本集,借助Python軟件實(shí)現(xiàn)貝葉斯網(wǎng)絡(luò)的概率推理過程,得出P(C1)=0.436 8,P(C2)=0.563 2,類條件概率見表3、表4。

表3 各事故影響因素在類C1情況下的概率

表4 各事故影響因素在類C2情況下的概率

2.4 多因素影響下事故類別預(yù)測(cè)

單因素分析是基于貝葉斯定理計(jì)算單一因子的概率,它允許變量屬性間存在關(guān)聯(lián)關(guān)系,事故類別預(yù)測(cè)是預(yù)測(cè)多種影響因子組合情況下發(fā)生何種事故的概率,是基于樸素貝葉斯的預(yù)測(cè)算法。存在兩點(diǎn)假設(shè)前提:一是各屬性變量間相互獨(dú)立;二是假設(shè)屬性變量對(duì)類別變量影響一致[7]。

在實(shí)際交通事故數(shù)據(jù)中,屬性變量間難免存在關(guān)聯(lián),忽略這種關(guān)聯(lián)會(huì)使預(yù)測(cè)效果明顯降低。需先判斷兩因素間是否近似獨(dú)立,如“雨天”和“道路積水”明顯不獨(dú)立,在計(jì)算時(shí)兩因素取其一。樸素貝葉斯的另一假設(shè)前提是屬性變量對(duì)類別變量影響一致,實(shí)際中不同影響因素對(duì)事故類別的影響程度明顯存在差異。對(duì)屬性變量和類別變量之間的關(guān)系進(jìn)行量化,將此值作為加權(quán)系數(shù),提出了加權(quán)樸素貝葉斯事故類別預(yù)測(cè)算法:

式中:wi—第i個(gè)屬性對(duì)相應(yīng)分類的權(quán)重,屬性的影響程度越大相應(yīng)的權(quán)值就越大。

式中:R(xi | Cj)—類Cj下屬性變量xi的實(shí)例個(gè)數(shù)與總樣本中xi實(shí)例個(gè)數(shù)的比值。

由改進(jìn)后的預(yù)測(cè)算法可以看出,R(xi | Cj)越大,wi越大越小,又P(xi | Cj)介于0到1之間,最越大,這種改進(jìn)實(shí)際上是突出了對(duì)類別影響大的屬性,弱化了對(duì)類別影響小的屬性,從而更準(zhǔn)確地對(duì)多種影響因素組合作用下事故所屬類別做出預(yù)測(cè)。

3 應(yīng)用分析

訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)比接近73時(shí),算法準(zhǔn)確率較高,最終選取900組預(yù)測(cè)數(shù)據(jù),將剩下的2 065組數(shù)據(jù)作為訓(xùn)練樣本數(shù)據(jù)集。通過Python編程,將訓(xùn)練樣本數(shù)據(jù)集推導(dǎo)出的先驗(yàn)概率和類條件概率代入公式(2)可以推導(dǎo)出所求后驗(yàn)概率,單一因素造成傷亡事故的概率及占比見圖1。

圖1 單一因素下傷亡事故概率占比

由圖1可知,涉事包含行人及摩托車造成傷亡事故概率最大分別為0.906 0和0.888 9,這是由于行人和摩托車駕駛員保護(hù)措施不完善造成的;違反交通信號(hào)通行和酒駕是最危險(xiǎn)的兩種駕駛行為,造成傷亡事故的概率分別為0.813 7和0.648 3;從人、車、路、環(huán)境宏觀因素來看,車輛、道路、天氣等因素的危害性不及人為因素。這與道路交通安全實(shí)測(cè)等級(jí)表[9]中的駕駛員能力與素質(zhì)、氣象環(huán)境、道路狀況、車輛性能等高指標(biāo)等級(jí)基本吻合。

事故類別預(yù)測(cè)中,將測(cè)試樣本數(shù)據(jù)集中的各個(gè)屬性的概率代入公式(3)中,取較大值作為預(yù)測(cè)類別。部分事故類別預(yù)測(cè)結(jié)果與實(shí)際結(jié)果對(duì)比見圖2。

圖2 部分事故類別預(yù)測(cè)結(jié)果與實(shí)際結(jié)果對(duì)比

在測(cè)試的900組數(shù)據(jù)中,通過預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)的對(duì)比發(fā)現(xiàn),未改進(jìn)的預(yù)測(cè)算法有143組數(shù)據(jù)預(yù)測(cè)錯(cuò)誤,改進(jìn)后減少為105組,算法的預(yù)測(cè)準(zhǔn)確率由84.11%提高至88.33%。部分預(yù)測(cè)錯(cuò)誤見表5,兩種算法對(duì)比見表6。

表5 部分預(yù)測(cè)錯(cuò)誤結(jié)果

表6 改進(jìn)前后算法對(duì)比

將圖3的各屬性變量中傷亡率最高影響因子代入預(yù)測(cè)算法,預(yù)測(cè)它們同時(shí)發(fā)生時(shí)事故為傷亡事故的概率達(dá)到93.58%,傷亡率最低影響因子同時(shí)發(fā)生傷亡事故概率為12.69%,進(jìn)一步證實(shí)了單因素影響概率及預(yù)測(cè)算法的有效性。

圖3 各類別事故最高發(fā)生率及影響因素

4 結(jié)語

(1)基于貝葉斯定理進(jìn)行了道路交通事故單因素影響分析,量化單一因素造成傷亡和非傷亡事故的概率,得出高傷亡率因素及概率:碰撞行人0.906 0、涉事含摩托車0.888 9、事故路段施工0.835 4、違反交通信號(hào)通行0.813 7、夜晚無照明0.743 2、酒駕0.648 3 等,可為交管部門制定事故預(yù)防措施提供依據(jù)。(2)根據(jù)因素影響類別的程度賦權(quán)對(duì)事故類別預(yù)測(cè)算法進(jìn)行改進(jìn),分別用改進(jìn)前后的算法進(jìn)行預(yù)測(cè)并與實(shí)際數(shù)據(jù)對(duì)比,平均偏差由0.137 5降低到0.098 4,預(yù)測(cè)準(zhǔn)確率由84.11%提高到88.33%。還預(yù)測(cè)了所有高傷亡因素同時(shí)作用下傷亡事故率為93.58%,傷亡率最低的因素同時(shí)發(fā)生時(shí)傷亡事故率僅為12.69%,進(jìn)一步驗(yàn)證了算法的有效性。

猜你喜歡
貝葉斯類別概率
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
論陶瓷刻劃花藝術(shù)類別與特征
概率與統(tǒng)計(jì)(一)
概率與統(tǒng)計(jì)(二)
基于貝葉斯定理的證據(jù)推理研究
基于貝葉斯解釋回應(yīng)被告人講述的故事
一起去圖書館吧
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
苏州市| 大足县| 多伦县| 乌拉特后旗| 牙克石市| 吐鲁番市| 独山县| 沈阳市| 荔波县| 巴林左旗| 盐津县| 太谷县| 南岸区| 安平县| 五常市| 长宁县| 安西县| 武清区| 大同市| 肥乡县| 皋兰县| 奉节县| 桦川县| 林西县| 洛南县| 休宁县| 任丘市| 习水县| 太湖县| 高碑店市| 红原县| 偏关县| 商城县| 洛隆县| 南汇区| 普宁市| 阿合奇县| 颍上县| 临泉县| 肥东县| 广灵县|