張 兵,夏時(shí)雨,趙慶華,楊 揚(yáng)
(1. 揚(yáng)州大學(xué) 建筑科學(xué)與工程學(xué)院, 江蘇 揚(yáng)州 225127; 2. 上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院,上海 200030; 3. 香港理工大學(xué) 建設(shè)及環(huán)境學(xué)院, 香港 999077)
隨著地下工程向“深、大、近、緊”的方向發(fā)展[1],深基坑工程在施工過程中面臨著日益嚴(yán)峻的安全風(fēng)險(xiǎn)[2]。英國健康與安全管理局統(tǒng)計(jì)發(fā)現(xiàn)深基坑施工安全死亡事故占到了全部工程死亡事故的14%[3],美國勞工統(tǒng)計(jì)局指出每個(gè)月至少有3名施工人員死于深基坑坍塌[4,5],我國住建部的報(bào)告也顯示深基坑工程安全事故占到全國施工事故的30%以上,是占比最高的事故類型[6]。
目前,深基坑施工已成為危險(xiǎn)系數(shù)最高的項(xiàng)目類型[7],并且其安全事故發(fā)生率為一般工程項(xiàng)目的5倍,這直接導(dǎo)致了安全問題是深基坑施工過程中面臨的最大風(fēng)險(xiǎn)[8,9]。另外,由于深基坑施工是一項(xiàng)復(fù)雜的系統(tǒng)工程[10],以及深基坑施工安全事故的類型多樣、性質(zhì)各異等,這使得深基坑施工事故并非由單一因素引起,而是多種因素相互作用的結(jié)果[11]。然而,盡管學(xué)術(shù)界已經(jīng)重視深基坑施工安全問題,并且已經(jīng)收集了深基坑施工安全事故的諸多信息,但由于深基坑施工安全風(fēng)險(xiǎn)難以預(yù)測、現(xiàn)有的評估分析方法十分繁瑣等[12],當(dāng)前研究成果仍無法為精準(zhǔn)辨識深基坑施工安全事故發(fā)生規(guī)律提供支撐[10]。
為此,Tian等[1]明確指出如何剖析和厘清深基坑施工事故的表征信息,特別是結(jié)合施工事故自身,發(fā)現(xiàn)事故發(fā)生規(guī)律和類型已成為亟待解決的理論與現(xiàn)實(shí)難題。鑒于事故分類一般遵循最大表征事故信息原則,并且應(yīng)表征清晰,本研究基于我國典型深基坑施工安全事故,從深基坑項(xiàng)目屬性與事故特征等事故表征信息出發(fā),利用人工智能典型算法對深基坑施工安全事故進(jìn)行分類測度,確定深基坑施工安全事故發(fā)生規(guī)律,最終為深基坑施工安全風(fēng)險(xiǎn)防范和應(yīng)對提供理論指導(dǎo)。
Zhuang等[13]指出由于深基坑施工安全事故仍是當(dāng)前科學(xué)難題,這導(dǎo)致迄今仍缺乏一個(gè)統(tǒng)一的、被廣為認(rèn)可的事故評估標(biāo)準(zhǔn)和指標(biāo)體系[14]。為此本研究首先根據(jù)相關(guān)文獻(xiàn)、報(bào)告等構(gòu)建深基坑施工事故表征信息,在借鑒Deatherage等[15]將基坑安全事故影響因素劃分為物理和組織兩個(gè)方面以及Lew等[16]劃分為工程特征和事故特點(diǎn)的基礎(chǔ)上,根據(jù)收集和整理的深基坑施工安全事故案例資料,從項(xiàng)目屬性和事故特征兩個(gè)視角構(gòu)建事故影響指標(biāo)體系,進(jìn)而深層次地挖掘出深基坑施工安全事故發(fā)生規(guī)律。
在項(xiàng)目屬性方面,Lew等[16]指出這類屬性信息是深基坑施工安全事故影響因素的重要來源。具體地,Thwala等[17]指出基坑開挖深度、土壤特性等是深基坑施工安全事故的最重要影響因素,徐至鈞等[18]進(jìn)一步認(rèn)為深基坑施工安全具有一定的等級性,并且每個(gè)類型等級的要求投入不一,然而由于認(rèn)知不足,盡管其支護(hù)方式的選擇及其質(zhì)量在深基坑施工中是舉足輕重的大事,但往往由于技術(shù)的復(fù)雜性和其他原因誘發(fā)嚴(yán)重的施工風(fēng)險(xiǎn),如76%的基坑死亡事故沒有采取安全保護(hù)系統(tǒng)[19]。同時(shí),在項(xiàng)目組織層面,Lew等[16]指出深基坑工程事故發(fā)生與施工企業(yè)類型之間相關(guān),并發(fā)現(xiàn)68%的施工安全死亡事故發(fā)生在員工少于50人的公司,46%的死亡事故發(fā)生在只有10名或更少員工的小公司,而Ruttenberg等[5]則指出基坑安全事故與所在區(qū)域和城市的安全管理水平高度相關(guān)。
在事故特征方面,Wu和Wang[14]發(fā)現(xiàn)深基坑施工事故具有時(shí)空效應(yīng)[20],不同的施工時(shí)間段、不同的天氣均顯著影響著深基坑施工安全事故的發(fā)生,如Lew等[16]指出21%的基坑施工死亡事故發(fā)生在12月份,Ruttenberg等[5]統(tǒng)計(jì)發(fā)現(xiàn)周二中午(上午九點(diǎn)至下午三點(diǎn))是基坑坍塌造成死亡人數(shù)最多的時(shí)間段,美國俄亥俄州LTAP中心[4]則提出天氣和氣候也是誘發(fā)基坑傷亡事故的重要誘因。在行為及事故層面,Tian等[1]發(fā)現(xiàn)70%的施工事故是由管理不善和不安全行為造成的,這些主要表現(xiàn)在招投標(biāo)階段的施工單位不恰當(dāng)選擇、以及具體的違規(guī)行為,如不按設(shè)計(jì)要求施工、未編制專項(xiàng)施工方案等[11,21,22]。而對于工程事故本身,由于深基坑工程破壞形式類型多樣,袁振華[23]將事故類型劃分為整體失穩(wěn)、土體大變形、坑底突涌等10種類型。
在研究方法層面,由于案例數(shù)據(jù)具有客觀有效性,事故案例研究備受本領(lǐng)域的研究學(xué)者青睞[14]。徐至鈞等[18]根據(jù)522項(xiàng)深基坑支護(hù)事故的統(tǒng)計(jì)分析,發(fā)現(xiàn)設(shè)計(jì)缺陷、水的作用和施工質(zhì)量是影響最大的三個(gè)因素, 宋博[24]基于數(shù)據(jù)包絡(luò)分析和BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)方法評價(jià)深基坑的施工安全等級。在此基礎(chǔ)上,為了更為深入地探討事故案例發(fā)生規(guī)律,數(shù)值模擬、機(jī)器學(xué)習(xí)和人工智能方法已成為該領(lǐng)域最新的分析方法[10],特別是人工智能分析方法,由于該方法能夠通過概率論和條件依賴性將不確定性納入其中而備受關(guān)注。Zhou等[12]基于貝葉斯網(wǎng)絡(luò)(Bayesian network,BN)進(jìn)行深基坑施工方法模糊綜合評價(jià);Zhou等[10]根據(jù)支持向量機(jī)(Support Vector Machine,SVM)預(yù)測地鐵深基坑施工的安全風(fēng)險(xiǎn);另外Zhou等[25]特別指出決策樹(Classification and Regression Tree,CART)能夠通過二進(jìn)制遞歸分割技術(shù)對樣本進(jìn)行逐層劃分和分支,不需要事先的背景知識儲備,非常適用于處理深基坑施工的事故分類。
綜上,盡管大多數(shù)深基坑施工人員和研究者都極力“規(guī)避施工安全風(fēng)險(xiǎn)”,但當(dāng)前研究的巨大挑戰(zhàn)是如何從深基坑眾多安全事故表征信息中,篩選出有效的客觀評價(jià)指標(biāo)體系,并基于可靠的研究方法總結(jié)深基坑事故表征信息之間的關(guān)聯(lián)關(guān)系,進(jìn)而開展相應(yīng)的分類預(yù)測判斷,以適應(yīng)深基坑施工管理的實(shí)踐需要。為此本研究首先根據(jù)文獻(xiàn)分析初步構(gòu)建了深基坑施工安全事故的項(xiàng)目屬性和事故特征等事故表征信息的指標(biāo)體系(圖1),采用CART回歸樹構(gòu)建深基坑施工事故的分類模型,并通過給定的事故信息分析和預(yù)測事故分析,以期開展深基坑施工事故分類預(yù)測。
圖1 深基坑施工事故表征信息指標(biāo)體系
本研究選擇CART決策樹模型構(gòu)建深基坑施工事故的根節(jié)點(diǎn),基于二元切分法和Gini指數(shù)選擇最優(yōu)的數(shù)據(jù)分割特征,然后通過指標(biāo)逐層劃分,直到所有的特征都已清晰描述或者數(shù)據(jù)集只有一維度時(shí),所有深基坑施工事故分類完成。其中作為分類屬性選取準(zhǔn)則的Gini指數(shù)是指在分割節(jié)點(diǎn)中,如果選擇A特征的某個(gè)值將數(shù)據(jù)集D分為D1和D2兩個(gè)部分,那么數(shù)據(jù)集在A特征下的Gini指數(shù)表示為:
(1)
深基坑施工事故數(shù)據(jù)將首先根據(jù)各個(gè)事故表征信息的Gini指數(shù)選擇最佳的分裂屬性,進(jìn)而對相應(yīng)的節(jié)點(diǎn)進(jìn)行遞歸分裂,直至各個(gè)節(jié)點(diǎn)均包含同一級別事故表征信息。在決策樹生成完畢后,其具體的形式將從根節(jié)點(diǎn)到每個(gè)葉節(jié)點(diǎn),并可形式化地對應(yīng)表示為“IF-THEN”的決策規(guī)則。與此同時(shí),本研究擬根據(jù)極端梯度提升規(guī)則算法形成分類器,引入并行化和損失函數(shù)的二階偏導(dǎo)作為學(xué)習(xí)器進(jìn)行CART回歸樹計(jì)算。
本研究的重要目的是引入多個(gè)事故表征信息以規(guī)避單一刻畫指標(biāo)或維度帶來的類別識別不充分和非平穩(wěn)問題,但這又引發(fā)了分類器的性能評價(jià)問題,特別是分類精度,即反映預(yù)測分類結(jié)果與實(shí)際結(jié)果之間的接近程度??紤]到本研究重點(diǎn)關(guān)注造成較大影響的深基坑施工事故,根據(jù)相關(guān)法律規(guī)范制定了深基坑事故的二分類問題的混淆矩陣,具體如表1所示。其中TP和TN分別表示將實(shí)際正類和負(fù)類分別預(yù)測為相應(yīng)類的樣本數(shù)量;而FN和FP則表示將實(shí)際正類和負(fù)類分別預(yù)測為相反類的樣本數(shù)量。
表1 深基坑施工事故的二分類問題混淆矩陣
另外,本研究使用與二元分類器一同使用的受試者工作特征(Receiver Operating Characteristic,ROC)曲線衡量分類的精度,ROC曲線重點(diǎn)關(guān)注真正類率(True Positive Rate,TPR)和假正類率 (False Positive Rate,F(xiàn)PR),其中TPR也被稱為靈敏度(Sensitivity),表示為正類的樣本被正確預(yù)測為正類的樣本數(shù)量和所有實(shí)際為正類的樣本數(shù)量的比值,具體如式(2)所示;FPR指被錯(cuò)誤分為正類的負(fù)類實(shí)例比率,等于1減去真負(fù)類率(True Negative Rate,TNR),具體如式(3)所示。
(2)
(3)
ROC曲線分別將FPR和TPR定義為x軸和y軸,以反映真正類和假正類之間的關(guān)系,進(jìn)而每一個(gè)預(yù)測結(jié)果在ROC曲線中以一個(gè)點(diǎn)表示。若ROC曲線某點(diǎn)坐標(biāo)為(0,1),則代表分類完全正確,并將此命名為完美分類器,與此同時(shí),ROC曲線將空間劃分為兩個(gè)區(qū)域,在這條線上的點(diǎn)代表了一個(gè)好的分類結(jié)果,而在這條線以下的點(diǎn)代表了較差的分類結(jié)果。
相較于其他算法,CART模型的一大優(yōu)勢是,只需要較少的數(shù)據(jù)樣本即可開展較為復(fù)雜的分類預(yù)測,極端甚至可以少于10個(gè)樣本[26]。本研究通過搜索查閱安全生產(chǎn)監(jiān)督管理機(jī)構(gòu)(如應(yīng)急管理部、住房和城鄉(xiāng)建設(shè)部等)網(wǎng)站公布的深基坑施工事故調(diào)查報(bào)告和各類公開統(tǒng)計(jì)數(shù)據(jù),初步篩選出196個(gè)案例,后設(shè)置數(shù)據(jù)完整性以及近期發(fā)生等限制要求,最終篩選出125個(gè)具有一定代表性和典型性的深基坑施工事故案例,然后對照圖1的深基坑施工事故表征信息指標(biāo)體系,對深基坑施工事故進(jìn)行關(guān)鍵詞與關(guān)鍵信息提取,初步羅列了13種事故表征信息指標(biāo),并根據(jù)報(bào)告內(nèi)容進(jìn)行了量化處理,具體如表2所示。
表2 深基坑事故表征信息指標(biāo)體系構(gòu)建及量化
本研究首先對收集的深基坑施工事故的部分表征信息指標(biāo)進(jìn)行分析,進(jìn)而直觀刻畫出這些深基坑施工事故的典型表征特征。
(1)深基坑施工事故的嚴(yán)重程度
本部分根據(jù)公布的深基坑施工事故的傷亡人數(shù)進(jìn)行分析判斷,重點(diǎn)關(guān)注施工事故造成的死亡人數(shù)這一重要指標(biāo),描述這些事故的死亡人數(shù)分布情況,具體如圖2所示。
圖2 深基坑施工事故死亡人數(shù)分布
可以看出,深基坑施工事故造成的死亡人數(shù)之間存在著較大差異,但主要集中在1~3之間,其中3人以下死亡的一般事故占到了超過55%,而3人及以上死亡的較大事故占到了接近45%。盡管3人及以上死亡的較大事故在整個(gè)深基坑施工安全事故占比不足一半,但由于這些事故不僅造成了群死群傷和嚴(yán)重的經(jīng)濟(jì)損失,也在社會(huì)上造成了極壞的影響,本研究根據(jù)《生產(chǎn)安全事故報(bào)告和調(diào)查處理?xiàng)l例》的規(guī)定將深基坑事故劃分為一般事故和較大事故兩種類型,并分別定義為負(fù)類和正類。
(2)事故發(fā)生的時(shí)間段特征
圖3顯示了深基坑施工事故的時(shí)間段分布情況,可以看出這些事故發(fā)生的時(shí)間段主要集中在12~18時(shí)這一時(shí)間段,超過47%的深基坑施工安全事故發(fā)生在該時(shí)間段,反映了下午是該施工安全事故發(fā)生的高峰期。另外,約20%的深基坑施工安全事故發(fā)生在18~24時(shí),表明1/5的事故發(fā)生在夜晚加班時(shí)間,而發(fā)生在凌晨的事故僅為4次。
圖3 深基坑施工事故發(fā)生時(shí)間段分布
(3)深基坑施工事故類型分析
圖4顯示了深基坑施工事故類型分布情況,可以看出深基坑施工事故類型的分布存在著顯著的不均勻性,其中坍塌是最主要的事故類型,占比超過85%,這導(dǎo)致了該事故類型是最常見的深基坑施工事故,而其他的諸如高處墜落、物體打擊和車輛傷害等發(fā)生的頻次較低,其發(fā)生次數(shù)均在個(gè)位數(shù)。
圖4 深基坑施工事故類型分布
限于篇幅,其他表征信息指標(biāo)的分類情況不再一一羅列出來??傮w而言,深基坑施工事故的不同表征信息指標(biāo)在整個(gè)案例的分布中存在著不平衡的特點(diǎn),從直觀上看這些滿足CART模型分類預(yù)測的條件,可以進(jìn)行下一步分類預(yù)測分析。
本部分首先在深基坑施工事故的表征信息指標(biāo)進(jìn)行類別設(shè)定的基礎(chǔ)上,采用Python語言進(jìn)行分析處理,具體步驟為對深基坑施工事故表征信息指標(biāo)進(jìn)行one_hot編碼;采用pandas的內(nèi)置方法get_dummies()進(jìn)行編碼處理;最終得到深基坑施工事故表征信息指標(biāo)集維度為125×56;然后采用sklearn標(biāo)準(zhǔn)庫LabelEncoder()方法轉(zhuǎn)換編碼,并將其中的“一般事故”編碼為0,“較大事故”定為1;再次利用train_test_split()進(jìn)行分割測試,分割測試比例為0.33;最后將數(shù)據(jù)按照給定的比例劃分為訓(xùn)練集和測試集,并利用CART回歸分類模型對樣本數(shù)據(jù)進(jìn)行測試分析。
根據(jù)設(shè)定的分割測試比例,本研究將深基坑事故數(shù)據(jù)集按照0.67/0.33的比例劃分訓(xùn)練集和測試集,然后利用CART分類決策樹模型針對訓(xùn)練集構(gòu)造分類器,同時(shí)采用梯度提升算法進(jìn)行輸出。為了綜合判斷分類結(jié)果的準(zhǔn)確性,本研究采用F1分?jǐn)?shù)判定分類準(zhǔn)確程度,F(xiàn)1分?jǐn)?shù)是精度和召回率的諧波平均值,當(dāng)F1分?jǐn)?shù)值越高,則反映出CART模型的檢測分類性能越好。表3為訓(xùn)練集和測試集的測試訓(xùn)練結(jié)果及其相應(yīng)的F1分?jǐn)?shù)值。
表3 分類預(yù)測結(jié)果
分析結(jié)果表明,與分類決策樹模型對比,采用改良后的極端梯度提升決策樹算法在測試集的分類精度方面有明顯的上升,盡管這導(dǎo)致了訓(xùn)練集的精度有所降低,但由于測試集和訓(xùn)練集的分類精度差距明顯縮小,從原先的0.449快速收窄至0.102。另一方面,分類預(yù)測的F1分?jǐn)?shù)值也從原來的0.353提升至0.416,表明極端梯度提升方法是一種具有較強(qiáng)學(xué)習(xí)效應(yīng)的算法,能夠顯著地提升分類擬合的精度。與此同時(shí),為了對預(yù)測精度進(jìn)行進(jìn)一步判斷,本研究引入AUC(Area under Curve)面積,該指標(biāo)反映ROC曲線下覆蓋面積的大小,AUC值越大,說明該模型的性能越好。圖5表明相較于分類決策樹,極端梯度提升算法的AUC面積更大,并且處在分類決策樹的ROC曲線上方,說明極端梯度提升算法能夠提升分類預(yù)測精度,本研究選取該算法進(jìn)行分類預(yù)測分析。
圖5 不同分類器的ROC曲線
一般來說,決策樹生成是遞歸構(gòu)建二叉樹的過程,主要根據(jù)Gini指數(shù)最小化原則進(jìn)行特征選擇和生成相應(yīng)的二叉樹,然后采用代價(jià)復(fù)雜性剪枝法的后剪枝方式進(jìn)行決策樹的剪枝操作,進(jìn)而從上至下遞歸生成子節(jié)點(diǎn),直到數(shù)據(jù)集不可分則停止決策樹生長。本研究據(jù)此形成深基坑施工事故的交叉樹形結(jié)構(gòu),具體如圖6所示。
圖6 深基坑施工事故表征信息的決策樹分類結(jié)果
圖6表明深基坑施工事故表征信息指標(biāo)體系及其相應(yīng)的案例可以細(xì)化為決策樹深度為9的交叉樹形結(jié)構(gòu),并且在55個(gè)輸入因素中,不存在違法招投標(biāo)、基坑等級的一級、項(xiàng)目所在的西部區(qū)域、施工單位規(guī)模的一級、事故直接原因的不按設(shè)計(jì)要求施工、天氣情況為晴朗等6個(gè)因素集中在決策樹中的前3層,說明了這些因素對事故嚴(yán)重程度的分類影響較大。與此同時(shí),為了進(jìn)一步清晰地展示深基坑施工事故的具體分類預(yù)測情況,本研究根據(jù)圖6形成了深基坑施工事故分類規(guī)則及其樣本分布,表4為部分樣本數(shù)量較多的分類情況。
表4 深基坑施工事故分類規(guī)則及樣本分布情況
表4表明,為了明晰深基坑施工事故的分類預(yù)測結(jié)果具體情況,首先需要根據(jù)前文劃定的正類和負(fù)類進(jìn)行相應(yīng)的類型劃分,然后根據(jù)具體的分類規(guī)則確定各自分類的事故表征信息特征,最后統(tǒng)計(jì)出相應(yīng)的樣本數(shù)及其在全部案例中的占比情況。
根據(jù)對全部深基坑施工事故案例的統(tǒng)計(jì),本研究發(fā)現(xiàn)負(fù)類樣本占到了案例庫的71.04%,另外根據(jù)分類預(yù)測結(jié)果,選擇了其中6種分布較廣的預(yù)測類型,這些分類樣本量占到了全部負(fù)類案例總數(shù)的70%左右,具有一定的代表性。與此同時(shí)表4進(jìn)一步顯示這些事故分類主要是是否存在違法招投標(biāo),并且這些事故主要發(fā)生在第二季度,項(xiàng)目所在區(qū)域?yàn)橹胁康貐^(qū),項(xiàng)目所在城市為一線城市。而正類樣本占到了全部案例庫的22.36%,根據(jù)分類預(yù)測結(jié)果,本研究選擇了其中7種分布較為廣泛的預(yù)測類型,這些分類樣本量占到了全部正類案例總數(shù)的47.52%,這從另一側(cè)面反映了相較于正類,負(fù)類的分類更為充分和細(xì)致。與此同時(shí),表4表明這些深基坑施工事故主要發(fā)生在A類基坑土壤、工作日地質(zhì)環(huán)境中,而其他方面的事故表征信息更為分散,這都顯示相較于較大事故,一般事故的發(fā)生機(jī)理更為復(fù)雜,并且分類的形式更加多樣。
隨著我國城市建設(shè)工程規(guī)模不斷擴(kuò)大以及地下空間開發(fā)利用力度的加大,深基坑工程在我國越來越普遍,作為典型的“超危大工程”,深基坑施工事故頻繁發(fā)生,并在近年來呈現(xiàn)明顯的上升態(tài)勢,這導(dǎo)致了深基坑施工面臨著前所未有的安全壓力和挑戰(zhàn)。
為此,本研究基于深基坑施工事故的表征信息,從項(xiàng)目屬性和事故特征兩個(gè)視角構(gòu)建了深基坑施工事故表征信息指標(biāo)體系;然后根據(jù)CART決策樹模型構(gòu)建相應(yīng)的分類指標(biāo)評價(jià)標(biāo)準(zhǔn)及計(jì)算內(nèi)容,完成深基坑事故表征信息指標(biāo)體系的構(gòu)建和相應(yīng)的量化刻畫,在此基礎(chǔ)上采用Python語言和Sklearn模型庫進(jìn)行分類決策樹及其改良后的極端梯度提升算法對比分析。研究結(jié)果表明相較于一般的分類決策樹,采用極端梯度提升算法能夠提高分類預(yù)測結(jié)果的精度。最后本研究生成了相應(yīng)的深基坑施工事故的交叉樹形結(jié)構(gòu),并對正類和負(fù)類的具有代表意義的分類情況進(jìn)行了剖析,分析表明采用CART決策樹模型對深基坑施工事故進(jìn)行分析能夠跳出一般的一維視角事故類型劃分,從更高指標(biāo)維度捕捉深基坑施工事故的類型關(guān)系,進(jìn)而能夠根據(jù)一定的指標(biāo)模型形成一套完整的分類體系。這既可為深基坑事故分析提供分類標(biāo)準(zhǔn)和依據(jù),也可以為指導(dǎo)和提升深基坑施工安全提供理論參考。