曹放 李培駿 詹同安 孫徐 張鈺
摘要 公路工程在進(jìn)行崩塌落石處治設(shè)計(jì)時(shí),需要解決措施有效性與經(jīng)濟(jì)性之間的矛盾,如何在勘察設(shè)計(jì)工作中充分運(yùn)用機(jī)器學(xué)習(xí)工具,是一個(gè)前沿的領(lǐng)域。以省道S463改擴(kuò)建為國(guó)道G664的項(xiàng)目為契機(jī),充分利用項(xiàng)目勘察設(shè)計(jì)階段獲得的342組工點(diǎn)數(shù)據(jù)集,首先采用XGBoost算法構(gòu)建“XGB—崩塌”模型,利用改擴(kuò)建前的220組數(shù)據(jù)集構(gòu)建測(cè)試集進(jìn)行訓(xùn)練,然后對(duì)改擴(kuò)建后的數(shù)據(jù)集進(jìn)行測(cè)試,實(shí)現(xiàn)了對(duì)122段新增邊坡工點(diǎn)的崩塌、落石風(fēng)險(xiǎn)預(yù)測(cè)及評(píng)價(jià),最后與支持向量機(jī)(SVM)、隨機(jī)森林(RF)的預(yù)測(cè)結(jié)果進(jìn)行了對(duì)比。結(jié)果表明:“XGB—崩塌”模型較參照機(jī)器學(xué)習(xí)工具更具優(yōu)勢(shì),取得了91.04%~94.12%的準(zhǔn)確率。
關(guān)鍵詞 公路工程;崩塌;預(yù)測(cè);XGBoost;機(jī)器學(xué)習(xí);監(jiān)督學(xué)習(xí);SVM;RF
中圖分類(lèi)號(hào) P642.22文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 2096-8949(2024)12-0001-04
0 引言
崩塌、落石是山區(qū)公路修建時(shí)的常見(jiàn)地質(zhì)病害[1]。該文研究的依托項(xiàng)目位于四川省甘孜州稻城縣境內(nèi),為既有省道S463升級(jí)改擴(kuò)建為國(guó)道G664,路線全長(zhǎng)為164 km,沿線海拔在2 240~4 100 m,屬構(gòu)造剝蝕高山峽谷地貌。斷裂、褶皺發(fā)育,崩塌落石十分發(fā)育。
目前,針對(duì)崩塌、落石的工程防治措施主要為主、被動(dòng)網(wǎng),掛網(wǎng)噴混凝土,錨桿、錨索框架梁等。但此類(lèi)災(zāi)害分布十分廣泛,偶發(fā)性極強(qiáng),無(wú)法做到全線處治。因此,勘察設(shè)計(jì)階段需要做好風(fēng)險(xiǎn)分類(lèi),盡可能針對(duì)高風(fēng)險(xiǎn)段落進(jìn)行靶向防護(hù)[2-3]。
對(duì)于崩塌、落石的災(zāi)害的風(fēng)險(xiǎn)評(píng)估,主要基于InSAR、衛(wèi)星遙感、航空遙感等GIS技術(shù)手段,獲得大區(qū)域內(nèi)可能發(fā)生的時(shí)間、地點(diǎn)、成災(zāi)范圍和影響程度等信息。但受限于GIS手段僅能探測(cè)地球表面及探測(cè)精度不高,其效果無(wú)法達(dá)到直接指導(dǎo)設(shè)計(jì)的目的,加之缺乏高精度的地質(zhì)資料分析,無(wú)法進(jìn)行工程推廣[4]。
因此,充分挖掘工點(diǎn)的多尺度信息并構(gòu)建高精度預(yù)測(cè)模型,對(duì)崩塌落石的防護(hù)處治來(lái)說(shuō),有著顯著的現(xiàn)實(shí)意義。目前,支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)等算法已廣泛應(yīng)用于風(fēng)險(xiǎn)預(yù)測(cè)領(lǐng)域。近年來(lái),Bagging、Boosting等集成學(xué)習(xí)算法因速度快、精度高、魯棒性強(qiáng)等優(yōu)勢(shì),為公路邊坡崩塌、落石風(fēng)險(xiǎn)評(píng)價(jià)及預(yù)測(cè)提供了新思路。極端梯度提升樹(shù)(Extreme Gradient Boosting,XGBoost)是基于梯度提升改進(jìn)的算法,具有非線性數(shù)據(jù)處理、計(jì)算量小、運(yùn)算速度更快及能夠更好地防止過(guò)擬合等優(yōu)勢(shì)[5]。
該文結(jié)合機(jī)器學(xué)習(xí)理論,采用極端梯度提升樹(shù)(XGBoost)算法,通過(guò)網(wǎng)格搜索和曲線搜索調(diào)整內(nèi)部學(xué)習(xí)參數(shù),反復(fù)迭代后建立“XGB—崩塌”預(yù)測(cè)模型。此外,與SVM、RF兩種學(xué)習(xí)算法進(jìn)行對(duì)比,評(píng)價(jià)其效果。
1 XGBoost算法基本原理
XGBoost算法的基本原理,是建立多個(gè)弱學(xué)習(xí)器,將決策樹(shù)作為基學(xué)習(xí)器,采用梯度提升算法,通過(guò)計(jì)算模型負(fù)梯度,多次迭代訓(xùn)練,逐步提高模型的準(zhǔn)確性;損失函數(shù)用二階泰勒級(jí)數(shù)展開(kāi),并加入正則項(xiàng),可以有效地避免經(jīng)過(guò)高度擬合、多線程的并行處理問(wèn)題[5-10]。
樹(shù)模型預(yù)測(cè)結(jié)果通式為:
損失函數(shù)為:
二階泰勒級(jí)數(shù)展開(kāi)優(yōu)化后的目標(biāo)函數(shù)與Gain函數(shù)分別為:
式中,Gain——樹(shù)分裂后目標(biāo)函數(shù)損失量;Gj——損失函數(shù)一階導(dǎo)之和;Hj——損失函數(shù)二階導(dǎo)之和;γT——懲罰項(xiàng);GL、GR——左、右損失函數(shù)一階導(dǎo)和;HL、HR——左、右損失函數(shù)二階導(dǎo)之和;λ——懲罰系數(shù)。
2 “XGB—崩塌”預(yù)測(cè)模型的建立
2.1 崩塌預(yù)測(cè)指標(biāo)因子
充分利用公路工程勘察設(shè)計(jì)階段獲得的設(shè)計(jì)參數(shù)、地質(zhì)及水文指標(biāo),重點(diǎn)考察14組定量指標(biāo)因子,詳見(jiàn)表1所示。由于模型的創(chuàng)建及分析需要用到Python編程,為便于程序?qū)崿F(xiàn)和解釋?zhuān)瑢?duì)應(yīng)因子譯成英文,并作對(duì)照解釋。
2.2 數(shù)據(jù)準(zhǔn)備
為了檢驗(yàn)?zāi)P偷倪m用性、合理性和準(zhǔn)確度,數(shù)據(jù)集基于沿線長(zhǎng)期跟蹤的實(shí)際案例樣本。依托項(xiàng)目改造前共計(jì)220處的基巖邊坡工點(diǎn),結(jié)合發(fā)生頻率、發(fā)生次數(shù)、崩落塊石粒徑、坍塌方量等指標(biāo)進(jìn)行風(fēng)險(xiǎn)劃分:高風(fēng)險(xiǎn)46處,中風(fēng)險(xiǎn)34處,低風(fēng)險(xiǎn)140處,并分別賦予其風(fēng)險(xiǎn)特征值(高風(fēng)險(xiǎn)為3,中風(fēng)險(xiǎn)為2,低風(fēng)險(xiǎn)為1)。
既有道路改擴(kuò)建后,隨著邊坡的開(kāi)挖,路塹產(chǎn)生的新基巖邊坡共計(jì)122處,“新基巖邊坡+既有道路基巖邊坡”共計(jì)342處,數(shù)據(jù)集樣本總數(shù)為342組。
2.3 數(shù)據(jù)預(yù)處理
2.3.1 缺失值處理
在該文研究過(guò)程中,少量工程指標(biāo)未能采集齊全,缺失值共計(jì)28個(gè),缺失比例為0.67%,按照眾數(shù)填充進(jìn)行處理。
2.3.2 異常值處理
指標(biāo)因子較多,部分因子存在一定的換算關(guān)系。過(guò)多的輸入指標(biāo)會(huì)增加模型訓(xùn)練的時(shí)長(zhǎng)、指標(biāo)之間的強(qiáng)相關(guān)性,也會(huì)增加模型結(jié)構(gòu)的復(fù)雜性,降低模型的預(yù)測(cè)效果。該文模型考慮通過(guò)計(jì)算皮爾遜(Pearson)相關(guān)性系數(shù)對(duì)指標(biāo)進(jìn)行相關(guān)性分析,原理如下:
式中,x1i、x2i——指標(biāo)x1、x2的統(tǒng)計(jì)數(shù)據(jù);——指標(biāo)x1的平均值;——指標(biāo)x2的平均值;r——指標(biāo)x1和x2之間的皮爾遜相關(guān)性系數(shù)。
由表2及圖1可見(jiàn),坡長(zhǎng)、坡寬、坡高、坡率、面積之間的皮爾遜相關(guān)性系數(shù)絕對(duì)值大于0.6,具有強(qiáng)相關(guān)性;真、視傾角之間的皮爾遜相關(guān)性系數(shù)絕對(duì)值大于0.8,具有極強(qiáng)相關(guān)性。因此,需要將有關(guān)評(píng)價(jià)指標(biāo)之間的冗余信息進(jìn)行優(yōu)化或刪除。
該文利用Boruta算法進(jìn)行指標(biāo)篩選,其是一種基于包裝器的特征選擇技術(shù)。其基本思路是,將原始的訓(xùn)練集進(jìn)行數(shù)據(jù)拓展,初始數(shù)據(jù)與拓展數(shù)據(jù)經(jīng)水平連接后形成混洗副本,通過(guò)基于樹(shù)模型的監(jiān)督學(xué)習(xí)算法,進(jìn)行迭代擬合,最后逐步篩選出最優(yōu)解。
經(jīng)算法篩選,剔除坡高、真傾角這2項(xiàng)因子,保留坡長(zhǎng)、坡寬、坡率、面積、巖性強(qiáng)度、巖層厚度、完整性指數(shù)、巖層傾向、邊坡坡向、巖層傾向—邊坡坡向夾角、巖層視傾角、地下水出露這12項(xiàng)作為定量評(píng)價(jià)因子。
3 模型建立與處理
3.1 模型建立
將邊坡開(kāi)挖前的220組數(shù)據(jù)作為訓(xùn)練集,其中:高風(fēng)險(xiǎn)46組,占20.91%;中風(fēng)險(xiǎn)34組,占15.45%;低風(fēng)險(xiǎn)140組,占63.64%。此外,將122組改造后邊坡作為測(cè)試集,擬合目標(biāo)為回歸測(cè)算風(fēng)險(xiǎn)特征值,進(jìn)而判別分類(lèi)標(biāo)記。基于默認(rèn)參數(shù),分別采用AUC(Area Under Curve)、KS(Kolmogorov-Smirnov)、F1和Acc的分?jǐn)?shù)(Accuracy)這4項(xiàng)指標(biāo)對(duì)該模型進(jìn)行評(píng)價(jià)。“XGB—崩塌”模型初步建立后,得到了0.852 4的AUC和0.596 9的KS,分類(lèi)能力良好。同時(shí)F1值達(dá)到了0.886 8,Accuracy達(dá)到了0.899 8,預(yù)測(cè)準(zhǔn)確度很高。
3.2 參數(shù)調(diào)優(yōu)
為解決XGBoost過(guò)擬合降低運(yùn)算性能的問(wèn)題,同時(shí)獲得更優(yōu)的預(yù)測(cè)精度,需要進(jìn)行超參數(shù)調(diào)優(yōu),其核心部分包含3個(gè)方面:通用參數(shù)、Booster參數(shù)及目標(biāo)參數(shù)。該文主要針對(duì)Booster參數(shù)進(jìn)行調(diào)整。通過(guò)對(duì)Python程序xgboost庫(kù)中默認(rèn)參數(shù)進(jìn)行優(yōu)化調(diào)整,尋找到更優(yōu)的參數(shù)組合:learning_rate的優(yōu)化值為0.02、n_estimators的優(yōu)化值為150、gamma的優(yōu)化值為0.2、max_depth的優(yōu)化值為5,此時(shí)模型的預(yù)測(cè)效果有了明顯提高。
3.3 性能評(píng)價(jià)
由表3可以看到,在訓(xùn)練集上,經(jīng)調(diào)參優(yōu)化后,得到了0.887 6的AUC和0.658 8的KS,分類(lèi)能力提升明顯。同時(shí)F1值達(dá)到了0.933 4,Accuracy達(dá)到了0.931 5,預(yù)測(cè)準(zhǔn)確度進(jìn)一步提高。
3.4 模型對(duì)比評(píng)價(jià)
為了對(duì)比XGBoost模型與傳統(tǒng)機(jī)器學(xué)習(xí)方法的差異,繼續(xù)采用Python的Scikit-learn庫(kù),實(shí)現(xiàn)SVM、RF兩種模型對(duì)測(cè)試集的學(xué)習(xí)成果對(duì)比,同時(shí)針對(duì)精確度P、召回率R以及F1、Accuracy值進(jìn)行對(duì)比,各模型主要調(diào)整參數(shù)見(jiàn)表4所示、分析結(jié)果如表5所示。
由表5可以看到,XGBoost無(wú)論是性能還是準(zhǔn)確率,較其他參照模型都具有明顯優(yōu)勢(shì),能更好地服務(wù)于實(shí)踐應(yīng)用。
4 案例應(yīng)用
訓(xùn)練集完成后,利用“XGB—崩塌模型”對(duì)依托項(xiàng)目改造后新增的122處路塹邊坡作為測(cè)試集進(jìn)行了預(yù)測(cè)分析,得到該模型在實(shí)際使用中的預(yù)測(cè)結(jié)果。真實(shí)值綜合考察挖開(kāi)后邊坡的實(shí)際坍塌情況及專(zhuān)家評(píng)判成果如圖2所示。
如圖2混淆矩陣所示:低風(fēng)險(xiǎn)段落預(yù)測(cè)成功35段,成功率92.11%;中風(fēng)險(xiǎn)段預(yù)測(cè)成功61段,成功率91.04%;高風(fēng)險(xiǎn)段落預(yù)測(cè)成功16段,成功率94.12%。由此可見(jiàn),該模型在該項(xiàng)目中實(shí)際運(yùn)用的成功率較高,有較好的適應(yīng)性,基本滿足工程輔助手段的需求。針對(duì)評(píng)估預(yù)測(cè)的成果,應(yīng)加強(qiáng)較高風(fēng)險(xiǎn)段的防護(hù)措施,有助于降低對(duì)崩塌、落石病害的主觀認(rèn)識(shí)風(fēng)險(xiǎn)。
5 結(jié)論
該文將具體的工程實(shí)踐與當(dāng)前熱門(mén)的機(jī)器學(xué)習(xí)工具相結(jié)合,以中國(guó)西南高山峽谷地區(qū)勘察設(shè)計(jì)過(guò)程中獲得的342組崩塌落石數(shù)據(jù)為基礎(chǔ),初步建立了“XGB—崩塌”預(yù)測(cè)模型,并將此模型應(yīng)用到勘察設(shè)計(jì)工作中,作為輔助決策手段,獲得了較高的預(yù)測(cè)成果。
(1)機(jī)器學(xué)習(xí)算法是一種理性、客觀的技術(shù)手段,利用人工智能工具輔助公路工程的勘察設(shè)計(jì),有助于提高決策效率,拓寬了行業(yè)發(fā)展的新思路。
(2)XGBoost與SVM、RF模型對(duì)比,其準(zhǔn)確率、處理性能整體更高,該文在測(cè)試集上獲得了91.04%~94.12%的準(zhǔn)確率,有著更好的推廣優(yōu)勢(shì)。
(3)XGBoost模型也存在著制約瓶頸,為了進(jìn)一步改善模型的準(zhǔn)確率及運(yùn)行效率,需要對(duì)多元參數(shù)進(jìn)行調(diào)整,調(diào)參過(guò)程通常會(huì)非常繁復(fù);為了獲得最優(yōu)參數(shù),也需要探究更多的基于模型本身的伴生改良型算法。
(4)該文只是針對(duì)崩塌落石模型的初步探討,實(shí)際上,崩塌、落石形成和發(fā)生的隨機(jī)性較大,需要針對(duì)不同的致災(zāi)機(jī)制探究更合理的分類(lèi)方式,進(jìn)而形成更合理的評(píng)估判定標(biāo)準(zhǔn)。
參考文獻(xiàn)
[1]孟暉, 胡海濤. 我國(guó)主要人類(lèi)工程活動(dòng)引起的滑坡、崩塌和泥石流災(zāi)害[J]. 工程地質(zhì)學(xué)報(bào), 1996(4): 69-74.
[2]鐘立勛. 中國(guó)重大地質(zhì)災(zāi)害實(shí)例分析[J]. 中國(guó)地質(zhì)災(zāi)害與防治學(xué)報(bào), 1999(3): 2-7+11.
[3]吉隨旺, 唐永建, 胡德貴, 等. 四川省汶川地震災(zāi)區(qū)干線公路典型震害特征分析[J]. 巖石力學(xué)與工程學(xué)報(bào), 2009(6): 1250-1260.
[4]林報(bào)嘉, 劉曉東, 楊川, 等. XGBoost機(jī)器學(xué)習(xí)模型與GIS技術(shù)結(jié)合的公路崩塌災(zāi)害易發(fā)性研究[J]. 公路, 2020(7): 20-26.
[5]Chen T , Guestrin C . XGBoost: A Scalable Tree Boosting System. [J]. CoRR, 2016, abs/1603. 02754
[6]高永濤, 朱強(qiáng), 吳順川, 等. 基于AVOA-XGBoost模型的巖爆預(yù)測(cè)研究[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023(12): 151-157.
[7]齊石, 李墨瀟, 呂偉, 等. 基于L-XGB算法的巖爆傾向等級(jí)預(yù)測(cè)模型[J]. 中國(guó)安全生產(chǎn)科學(xué)技術(shù), 2023(9): 33-38.
[8]趙曉東, 徐振濤, 劉福, 等. 基于極端梯度提升算法的滑坡易發(fā)性評(píng)價(jià)模型[J]. 科學(xué)技術(shù)與工程, 2022(23): 10347-10354.
[9]胡旭東. 基于集成學(xué)習(xí)的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)研究[D]. 武漢:中國(guó)地質(zhì)大學(xué), 2019.
[10]李堯. 基于深度學(xué)習(xí)的滑坡檢測(cè)算法研究[D]. 成都:成都理工大學(xué), 2018.