張慶年,張 瑨,楊 杰,楊 嬌,葉夢(mèng)雯
(1. 武漢理工大學(xué) 交通學(xué)院,湖北 武漢 430063; 2. 武漢理工大學(xué) 信息工程學(xué)院,湖北 武漢 430070)
由于水路運(yùn)輸具有低成本、運(yùn)能大、節(jié)能環(huán)保、通用性強(qiáng)等優(yōu)點(diǎn),水路運(yùn)輸所需船舶總量日益增大,水上交通安全事故頻發(fā)。水上交通事故受自然環(huán)境、通航環(huán)境、船員、管理等諸多因素的影響,盡管海事部門通過(guò)實(shí)施一系列的公約和規(guī)則來(lái)降低和防范水上交通事故的發(fā)生,但事故仍時(shí)有發(fā)生[1]。由于水上交通遠(yuǎn)離陸地,一旦發(fā)生事故往往會(huì)造成很嚴(yán)重的后果。因此探究水上交通事故嚴(yán)重程度的主要影響因素,有利于減少重大事故的發(fā)生。
目前,國(guó)內(nèi)外學(xué)者運(yùn)用不同的方法從不同的角度對(duì)交通事故進(jìn)行了一系列廣泛而深入的研究。WENG Jinxian等[1-2]利用零膨脹負(fù)二項(xiàng)回歸模型,在全球水域和中國(guó)南海水域事故數(shù)據(jù)的基礎(chǔ)上,探究了事故嚴(yán)重度與天氣、事故位置、船型等因素之間的關(guān)系;W.K.TALLEY等[3]利用Tobit模型,識(shí)別了船舶漏油事故的主要影響因素;JIN Di等[4]利用Probit模型,探究了漁船事故嚴(yán)重度與天氣、風(fēng)速、船齡等因素之間的關(guān)系;陳興偉等[5]利用結(jié)構(gòu)方程模型探究了水上交通事故與事故等級(jí)之間的路徑關(guān)系;吳琴等[6]利用有序概率模型,識(shí)別了對(duì)海事事故嚴(yán)重性有影響的因素及其影響程度;汪飛翔等[7]利用基于支持向量分類模型,對(duì)水上交通事故的嚴(yán)重程度進(jìn)行了預(yù)測(cè);馮忠祥等[8]利用Logistic模型研究公路交通事故嚴(yán)重程度影響因素。
研究發(fā)現(xiàn),以上所有對(duì)于交通事故影響因素分析的方法,無(wú)法反映事故數(shù)據(jù)的異質(zhì)性,可能導(dǎo)致模型參數(shù)估計(jì)產(chǎn)生錯(cuò)誤。對(duì)此,XIE Yuanchang等[9]利用過(guò)程簡(jiǎn)單且無(wú)需假設(shè)參數(shù)分布的潛在類別模型,研究了公路單車事故的影響因素,并通過(guò)不同類別事故影響因素的差別反映了數(shù)據(jù)的異質(zhì)性。而潛在類別模型假定了自變量之間沒(méi)有相關(guān)性,與事故影響因素分析不相符,從而導(dǎo)致假設(shè)無(wú)法被滿足,可能造成分類時(shí)誤差增大,數(shù)目增加,且部分缺乏實(shí)際意義。同時(shí),當(dāng)前對(duì)于水上交通事故影響因素識(shí)別的研究已經(jīng)有很多,然而,目前國(guó)內(nèi)缺少針對(duì)水上交通事故嚴(yán)重程度影響因素的深入分析。
鑒于此,筆者同時(shí)考慮事故數(shù)據(jù)的異質(zhì)性及嚴(yán)重程度影響因素的相關(guān)性,采用因子分析與K均值聚類相結(jié)合的聚類方法對(duì)水上交通事故嚴(yán)重程度影響因素進(jìn)行分析。首先,利用因子分析法將多個(gè)自變量轉(zhuǎn)化為少數(shù)幾個(gè)相互獨(dú)立的因子,即將相互關(guān)聯(lián)的自變量消除相關(guān)性[10]。然后,依據(jù)因子得分,采用K均值聚類算法聚類事故數(shù)據(jù)[11],將事故數(shù)據(jù)分類。最后,采用Logistic模型對(duì)分類后的數(shù)據(jù)建立嚴(yán)重程度模型,識(shí)別影響水上交通事故嚴(yán)重程度的主要因素,并對(duì)不同類別下識(shí)別出的因素進(jìn)行對(duì)比。
因子分析是一種減少分析變量從而形成清晰的分析維度的統(tǒng)計(jì)方法。簡(jiǎn)單的削減變量一定會(huì)導(dǎo)致信息的丟失,而因子分析不是簡(jiǎn)單的削減,它是一種能有效降低變量維數(shù)的方法[12]。
假設(shè)存在n起水上交通事故,每起事故由p個(gè)自變量表示。首先,由于初始事故數(shù)據(jù)具有量綱差異,采用z-score法對(duì)事故數(shù)據(jù)進(jìn)行歸一化[13],該方法是利用均值和標(biāo)準(zhǔn)差進(jìn)行歸一化:
(1)
為了驗(yàn)證數(shù)據(jù)是否適宜進(jìn)行因子分析,通常采用KMO(kaiser meyer olkin)檢驗(yàn)和Bartlett球形檢驗(yàn)兩種方法[14]。KMO值較小,在0~1之間,一般大于0.5適宜進(jìn)行因子分析。Bartlett檢驗(yàn)是檢驗(yàn)各個(gè)變量是否具有相關(guān)性,當(dāng)統(tǒng)計(jì)量卡方值顯著性水平小于0.01時(shí),可認(rèn)為各變量之間相關(guān)性顯著,可以使用因子分析[14]。
然后,根據(jù)標(biāo)準(zhǔn)化后的事故數(shù)據(jù),將原有的變量用m個(gè)公共因子的線性組合來(lái)表示[10],其模型為:
(2)
式(2)也可用矩陣的形式表示為X=AF+ε,其中:F為公共因子矩陣;fl彼此不相關(guān);A為因子荷載矩陣;ajl為因子荷載,是第j個(gè)原有變量在第l個(gè)因子上的荷載;ε為特殊因子矩陣。
采用主成分法求解因子荷載矩陣A,求解其特征值λj和其特征向量uj,提取特征值大于1且個(gè)數(shù)為m的公共因子,得到矩陣A為:
(3)
然后,對(duì)荷載矩陣作方差最大化正交旋轉(zhuǎn),采用最小二乘意義上的回歸法估計(jì)因子值系數(shù)wjl[10,15]。第l個(gè)因子得分函數(shù)為:
Fl=w1lx1+w2lx2+…+w3lxj+…+wplxp
(4)
因此,第i起事故的得分向量可記為Fi=(Fi1,Fi2,…,Fil,…,Fim)。
K均值聚類[16](K-means)算法是一種非監(jiān)督分類方法,相對(duì)于分層聚類,其計(jì)算量少、占用內(nèi)存少且處理速度快。K均值聚類又稱逐步聚類法或快速聚類法,其先把聚類對(duì)象進(jìn)行粗糙的初始分類,然后再按最近距離原則修改初始分類中不合理的部分,直到合理為止。
依據(jù)1.1節(jié)所得到的n起事故的因子得分向量組成的數(shù)據(jù)集,繼續(xù)采用K均值聚類算法聚類水上交通事故數(shù)據(jù),具體流程如下[13,17]:
1)從n起事故中隨機(jī)選取k個(gè)樣本作為初始聚心(z1,z2,…,zk),根據(jù)實(shí)際情況選擇分類數(shù)和迭代次數(shù)。
2)利用式(5)計(jì)算任意Fi到第v(1≤v≤k)個(gè)聚心zv的歐式距離d(i,v),然后根據(jù)距離最近原則進(jìn)行分類。
(5)
3)利用平均數(shù)法,基于式(6)計(jì)算各類別新的聚心z′v:
(6)
式中:Cv為第v個(gè)聚心對(duì)應(yīng)的類別;Nv為類別Cv對(duì)應(yīng)的樣本量。
4)當(dāng)模型的迭代量等于指定次數(shù)或聚心的改變很小,則迭代結(jié)束。
對(duì)于聚類數(shù)目,采用聚類有效性評(píng)價(jià)指標(biāo)θ和二項(xiàng)Logistic回歸模型的最小樣本量來(lái)確定最佳的聚類數(shù)目,在滿足回歸模型最小樣本量的前提下,θ值越小,則聚類的效果越好[13,18]。
(7)
(8)
式中:s1為樣本與聚心的距離之和;s2(zi,zo)為聚心zi與聚心zo之間的距離;zo為類別o的聚心;hoi為樣本Fi屬于類別Co的隸屬度。
二項(xiàng)Logistic回歸是指因變量是二級(jí)評(píng)分或二級(jí)評(píng)定的回歸分析。該模型的相應(yīng)變量Y為二分類變量,通常取值為1或0,其中,1表示事件發(fā)生,0表示事件未發(fā)生[19]。
根據(jù)得到的各類別水上交通事故數(shù)據(jù),對(duì)事故數(shù)據(jù)建立二項(xiàng)Logistic分類模型[13,20]。當(dāng)事故為嚴(yán)重事故時(shí),因變量為1,則嚴(yán)重事故的發(fā)生概率為:
(9)
式中:xq(q=1,2,…,Q)為第q個(gè)自變量;βq為回歸系數(shù);β0為常數(shù)項(xiàng)。
文中水上交通事故數(shù)據(jù)的原始資料分別來(lái)自中國(guó)海事局和江蘇、上海、浙江海事局官網(wǎng),研究區(qū)域?yàn)榻銣K?。由?014年頒布了新的水上交通事故統(tǒng)計(jì)辦法,筆者使用2015年及以后的數(shù)據(jù),共搜集到2015—2019年公開發(fā)布的事故調(diào)查報(bào)告339份。
由于搜集到的事故調(diào)查報(bào)告內(nèi)容和格式不一致,為了得到完整一致的事故數(shù)據(jù),必須對(duì)事故調(diào)查報(bào)告進(jìn)行整理,并通過(guò)查詢相關(guān)的天氣、船舶、潮汐等,盡量補(bǔ)充缺失信息。
根據(jù)上訴數(shù)據(jù)處理,得到滿足研究要求的完備事故樣本403個(gè),其中完整事故為299起。由于碰撞會(huì)涉及兩艘船舶,將每艘船舶都作為一個(gè)事故樣本[21],則屬于小事故,一般事故、較大事故,重大事故,特別重大事故的樣本量分別為37、251、81、28、6個(gè)。
2015年頒布的《水上交通事故統(tǒng)計(jì)辦法》將水上交通事故劃分為5個(gè)等級(jí)。依據(jù)筆者搜集到的事故級(jí)別的數(shù)量及模型要求,將嚴(yán)重程度量化為兩個(gè)等級(jí):{小事故,一般事故}=“0”,{較大事故,重大事故,特別重大事故}=“1”。
同時(shí)由于搜集到的事故數(shù)據(jù)較少,且模型在樣本量一定的情況下對(duì)自變量有限制,筆者以先前關(guān)于水上交通事故影響因素的研究為基礎(chǔ),參照文獻(xiàn)[2,6,7],同時(shí)結(jié)合事故統(tǒng)計(jì)數(shù)據(jù)特征,剔除對(duì)事故影響相對(duì)較小的因素,最后從人、船舶、環(huán)境、事故自身等方面選取了對(duì)江浙滬近海水域事故有著顯著影響的10個(gè)自變量,各個(gè)變量的具體賦值及其含義如表1。
表1 各變量賦值及其含義Table 1 Assignment of each variable and its meaning
對(duì)標(biāo)準(zhǔn)化后的水上交通事故數(shù)據(jù)進(jìn)行KMO和Bartlett檢驗(yàn)。結(jié)果表明,KMO的值為0.534,Bartlett統(tǒng)計(jì)量的顯著值為0.000,說(shuō)明自變量之間無(wú)較強(qiáng)獨(dú)立性,適宜進(jìn)行因子分析。運(yùn)用方差貢獻(xiàn)法提取主因子,其中前5個(gè)因子特征值大于1,且累計(jì)貢獻(xiàn)率為66.874%,即用這5個(gè)公共因子代表10個(gè)自變量。主因子名稱為荷載大于0.5的重要自變量,如表2。表3為旋轉(zhuǎn)后的因子荷載矩陣,自變量中荷載值較大的主成分與變量的關(guān)系更為緊密[22]。
表2 主因子及其自變量Table 2 Main factors and their independent variables
表3 因子得分系數(shù)矩陣Table 3 Factor score coefficient matrix
根據(jù)因子分析得到的主因子得分,使用K均值聚類對(duì)事故數(shù)據(jù)進(jìn)行聚類。采用1.2節(jié)所提到的聚類有效性指標(biāo)θ值來(lái)確定聚類數(shù)目,如表4。由表4可知,k值越大,對(duì)應(yīng)的θ值越小。但由于k=4、5時(shí),樣本量不足100,不滿足二項(xiàng)Logistic回歸最小樣本量為自變量個(gè)數(shù)5~10倍以上的要求[13]。當(dāng)k=3時(shí),所有的類別樣本量均滿足最小要求。因此,事故數(shù)據(jù)最多可劃分為3個(gè)類別。
表4 聚類數(shù)目及其θ值Table 4 Number of clusters and their θ values
提取各類別中數(shù)量較高的自變量作為事故特征,如表5。
表5 事故類別特征及事故數(shù)Table 5 Characteristics of accident types and the number of accidents
對(duì)事故數(shù)據(jù)進(jìn)行二項(xiàng)Logistic回歸分析,將事故的嚴(yán)重程度作為因變量,其他因素作為自變量,設(shè)置剔除變量的顯著性水平α=0.05,則高于0.05顯著性水平的自變量會(huì)被剔除,最終分別鑒別出各類事故中對(duì)嚴(yán)重程度有顯著影響的因素。
同時(shí),為了比較筆者提出的聚類分析優(yōu)化二項(xiàng)Logistic模型和潛在類別下的二項(xiàng)Logistic模型的優(yōu)
劣,利用受試者工作特性曲線ROC(receiver operating characteristic)下的面積AUC(area under curve)來(lái)比較模型的準(zhǔn)確識(shí)別率。AUC越大,則模型的識(shí)別準(zhǔn)確性越高[23]。然后采用模型的預(yù)測(cè)正確率比較模型的預(yù)測(cè)精度[13],如表6。
表6 模型驗(yàn)證結(jié)果Table 6 Model verification results
由表6可知,聚類分析模型的AUC值大于潛在類別的AUC值,且前者的預(yù)測(cè)正確率也比后者要高。
筆者采用聚類分析模型對(duì)事故數(shù)據(jù)進(jìn)行分析(表7),進(jìn)而探究不同類別下影響水上交通事故嚴(yán)重程度的主要因素。
表7 聚類優(yōu)化回歸分析結(jié)果Table 7 Cluster optimization regression analysis results
由分析結(jié)果可知:
1)季節(jié)、事故致因、船舶歸屬、能見(jiàn)度、風(fēng)僅在某一類別中顯著。
季節(jié)僅在類別3中顯著,其中夏天發(fā)生嚴(yán)重事故的概率是冬天的425.947倍,且大于秋天的倍數(shù),表明夏天對(duì)事故嚴(yán)重程度的影響最為明顯,秋天次之。其主要原因是夏季和秋季容易遭遇大風(fēng)和濃霧,惡劣的天氣會(huì)影響搜救。
船舶歸屬僅在類別2中顯著,其中私營(yíng)企業(yè)發(fā)生嚴(yán)重事故的概率為個(gè)人的3.064倍,而中央企業(yè)發(fā)生嚴(yán)重事故的系數(shù)為負(fù)值,則個(gè)人和私營(yíng)企業(yè)均較容易發(fā)生嚴(yán)重事故,這是由于個(gè)人、私營(yíng)企業(yè)與國(guó)營(yíng)單位相比,其安全管理意識(shí)不足、管理措施較少。
事故致因僅在類別3中顯著。人為致因發(fā)生嚴(yán)重事故的概率為貨物致因的0.000倍,人為因素對(duì)嚴(yán)重事故的影響比非人為的貨物致因要小。
能見(jiàn)度僅在類別3中顯著。4~6級(jí)能見(jiàn)度發(fā)生嚴(yán)重事故的概率是能見(jiàn)度大于等于7級(jí)的58.342倍,能見(jiàn)度不良的情況下比能見(jiàn)度良好的情況更容易發(fā)生嚴(yán)重事故。
風(fēng)僅在類別1中顯著。風(fēng)力等級(jí)為6~7級(jí)發(fā)生嚴(yán)重事故的概率為大于等于10級(jí)的21.374倍,則風(fēng)力中等時(shí)發(fā)生嚴(yán)重事故的概率比風(fēng)力極大時(shí)發(fā)生嚴(yán)重事故的概率要大,可能原因是風(fēng)力極大時(shí),在航行狀態(tài)的船舶較少。
2)時(shí)間段、船舶類型、總噸、天氣在兩個(gè)及以上類別中顯著。
時(shí)間段0:00—4:00發(fā)生嚴(yán)重事故的概率是時(shí)間段20:00—24:00的2.032倍,而其他時(shí)間段的系數(shù)均為負(fù)值,表明夜間比白天更容易發(fā)生嚴(yán)重事故[24]。
船舶類型中,與其他船舶相比,漁船發(fā)生嚴(yán)重事故概率的倍數(shù)最大,散貨船、集裝船、油船、客渡船的系數(shù)也均為正值,表明漁船對(duì)嚴(yán)重事故的影響最為明顯,其原因可能是漁船安全技能不過(guò)關(guān)、安全意識(shí)淡薄、安全相關(guān)設(shè)施設(shè)備較差等。
總噸在類別1中和類別3中系數(shù)的正負(fù)值不一樣,在類別1中,500~2 000 t的系數(shù)為負(fù)值,表明在類別1中,不小于6 000 t的船舶更容易發(fā)生嚴(yán)重事故。相反,在類別3中噸數(shù)較小的船舶更容易發(fā)生嚴(yán)重事故。這是由于碰撞事故中,兩條船舶為兩個(gè)樣本,而船舶噸數(shù)大和小均容易發(fā)生嚴(yán)重事故。
天氣在3個(gè)類別中均為負(fù)值,則表明,與晴天相比,在非晴天更容易發(fā)生嚴(yán)重事故,原因是非晴天氣象條件較差,惡劣天氣更會(huì)顯著增加嚴(yán)重事故發(fā)生的概率。
根據(jù)模型分析結(jié)果,就江浙滬近海水域而言,環(huán)境因素對(duì)水上交通事故的影響顯著,夏季和秋季、能見(jiàn)度不良、大風(fēng)、非晴天等會(huì)增加嚴(yán)重事故的發(fā)生概率。建議建立惡劣氣候下的事故預(yù)防及響應(yīng)機(jī)制,通過(guò)實(shí)施極端天氣及時(shí)預(yù)報(bào)、安全監(jiān)管、迅速救援等措施來(lái)降低事故嚴(yán)重程度。
對(duì)于事故致因分析,人為致因是水上交通事故發(fā)生的主要原因,但貨物致因更容易導(dǎo)致嚴(yán)重事故的發(fā)生。建議加強(qiáng)船員綜合素質(zhì),全面提高其應(yīng)對(duì)突發(fā)事件的處理能力,包括其業(yè)務(wù)能力及心理能力,同時(shí)強(qiáng)化船舶裝載貨物監(jiān)管力度,重點(diǎn)監(jiān)控載運(yùn)重大件及卷鋼船舶。
船舶歸屬中,與國(guó)營(yíng)企業(yè)相比,個(gè)人船舶、私營(yíng)企業(yè)船舶更容易發(fā)生嚴(yán)重事故。船舶類型中,漁船比其他類型的船舶更容易發(fā)生嚴(yán)重事故。建議督促私營(yíng)企業(yè)健全安全配置與人員配置,加大海事執(zhí)法力度,同時(shí)加強(qiáng)漁業(yè)從業(yè)人員的技能培訓(xùn)及安全意識(shí),建立漁船與商船航行信息共享機(jī)制。
1)基于聚類分析的Logistic回歸模型與潛在類別的Logistic回歸模型相比,回歸結(jié)果更優(yōu),此模型可用于各種類型交通事故嚴(yán)重程度的分析。
2)水上交通事故數(shù)據(jù)分為3個(gè)類別。季節(jié)、事故致因、船舶歸屬、能見(jiàn)度、風(fēng)僅在某一類別中顯著;時(shí)間段、船舶類型、總噸、天氣在多個(gè)類別中顯著,其中總噸在多個(gè)類別中顯著但影響方向不同。結(jié)果表明,上述變量對(duì)水上交通事故嚴(yán)重程度的影響具有差異性。
3)文中數(shù)據(jù)樣本量較小,所以考慮的影響因素較少,同時(shí)有些因素在既有研究中顯著,但是在文中未通過(guò)顯著性檢驗(yàn)。下一步可擴(kuò)大數(shù)據(jù)量和影響因素,進(jìn)一步探究水上交通事故嚴(yán)重程度的影響因素。