王世寶 莊建琦 樊宏宇 牛鵬堯 賈珂程 王 杰
(長安大學(xué)地質(zhì)工程與測繪學(xué)院/西部礦產(chǎn)資源與地質(zhì)工程教育部重點實驗室,西安 710054,中國)
滑坡在世界范圍內(nèi)廣泛分布,尤其是在地質(zhì)活動較為活躍的區(qū)域,往往造成災(zāi)難性后果,是破壞性最大的地質(zhì)災(zāi)害之一,給不同國家的經(jīng)濟建設(shè)、社會發(fā)展及人民生活帶來了巨大的損失(黃潤秋,2007;Hu Q,2020; Hu X,2020)。近年來,隨著我國經(jīng)濟的快速發(fā)展,城鎮(zhèn)建設(shè)及交通運輸網(wǎng)絡(luò)建設(shè)的加快,土地利用的需求極大增加,大量的工程建設(shè)和資源開采造成滑坡災(zāi)害的多發(fā)、頻發(fā),嚴重影響了我國土地的利用與規(guī)劃。因此,如何有效地預(yù)測新滑坡的發(fā)生,已經(jīng)成為滑坡災(zāi)害研究的重點之一。然而,滑坡易發(fā)性評價是一種有效的解決方式,可以為地質(zhì)災(zāi)害的防災(zāi)減災(zāi)、城鎮(zhèn)規(guī)劃等工作提供科學(xué)依據(jù)。
滑坡易發(fā)性評價方法主要分為定性評價與定量評價(Aditian et al.,2018)。定性評價主要依據(jù)于專家的經(jīng)驗知識進行識別和判斷,其方法包括滑坡的編錄和知識驅(qū)動(Chen et al.,2016;Myronidis et al.,2016);定量評價是依據(jù)數(shù)學(xué)知識建立概率統(tǒng)計模型,該方法主要為數(shù)據(jù)驅(qū)動和物理驅(qū)動(Lari et al.,2014;Hu et al.,2019)。早期滑坡易發(fā)性評價方法主要以定性的評價為主,該方法需要豐富的經(jīng)驗知識,評價結(jié)果高度依賴于專家的主觀判斷,僅僅適用于小范圍的滑坡易發(fā)性評價(Myronidis et al.,2016)。隨著地理系統(tǒng)和計算機技術(shù)的快速發(fā)展,基于統(tǒng)計分析和機器學(xué)習(xí)的定量評價在滑坡易發(fā)性評價中得到廣泛的應(yīng)用(莊建琦等,2010;Conforti et al.,2014)。特別是機器學(xué)習(xí)以處理滑坡影響因子間非線性關(guān)系,在滑坡易發(fā)性評價中取得較好的效果,主要有多層感知器模型(Pham et al.,2017;Huang et al.,2020),BP神經(jīng)網(wǎng)絡(luò)模型(Pavel et al.,2011;郭子正等,2019),邏輯回歸模型(Chen et al.,2019;羅路廣等,2021),支持向量機模型(Kavzoglu et al.,2014;Oh et al.,2018),集成學(xué)習(xí)模型(Xuan et al.,2018)等。其中集成學(xué)習(xí)模型預(yù)測精度較高,在易發(fā)性評價中得到了成功的應(yīng)用(劉堅等,2018;Sun et al.,2020)。
集成學(xué)習(xí)是一種先進的機器學(xué)習(xí)算法,它是通過組合多個分類器構(gòu)建一個更加優(yōu)越的分類器,從而提高模型的精確度。由于集成學(xué)習(xí)具有較強的分類和預(yù)測性能,已經(jīng)在其他領(lǐng)域取得了較好的成果(Paisitkriangkrai et al.,2016;Li et al.,2020;Samat et al.,2020)。本文基于集成學(xué)習(xí)中著名的隨機森林(Random Forest)和梯度提升樹(Gradient Boost Tree)構(gòu)建滑坡易發(fā)性評價模型。為了對兩種集成學(xué)習(xí)算法模型進行訓(xùn)練和測試,需要選取與滑坡(正樣本)相同數(shù)量的非滑坡(負樣本),組合成訓(xùn)練集和測試集數(shù)據(jù)。本文采用頻率比模型預(yù)測的極低、低易發(fā)區(qū)隨機選取非滑坡樣本,以避免非滑坡選取的誤差,提高集成學(xué)習(xí)模型的預(yù)測精度。
金沙江上游巴塘—德格河段區(qū)域位于青藏高原東部的金沙江縫合帶,是一個多期變質(zhì)形成的斷裂和構(gòu)造塊體組成的復(fù)雜帶(鄧建輝等,2019)。該地區(qū)滑坡災(zāi)害發(fā)育較多,對金沙江流域附近人民的生命安全和城鎮(zhèn)基礎(chǔ)設(shè)施有著巨大的威脅。例如,2018年發(fā)生在江達縣白格村金沙江右岸的大規(guī)模高位滑坡,堵塞金沙江形成堰塞湖,導(dǎo)致上游幾個鄉(xiāng)鎮(zhèn)被淹,堰塞湖潰決后下游基礎(chǔ)設(shè)施及多座橋梁被沖毀,造成巨大的經(jīng)濟損失(許強等,2018;馮文凱等,2019;Zhang et al.,2019);由古滑坡堆積體復(fù)活形成的茶樹山滑坡,使滑坡前緣的村莊及318國道受到威脅(白永健等,2010)。
本文以滑坡災(zāi)害較發(fā)育的金沙江上游巴塘—德格河段作為研究區(qū),利用頻率比與集成學(xué)習(xí)算法中的隨機森林模型和梯度提升樹模型,開展區(qū)域滑坡易發(fā)性評價,為該區(qū)鐵路、公路、水電站等重大工程規(guī)劃建設(shè)和防災(zāi)減災(zāi)工作提供參考。
研究區(qū)位于四川和西藏交界的金沙江上游巴塘—德格河段,包含甘孜州巴塘縣、白玉縣、德格縣,以及昌都市的貢覺縣、芒康縣,面積約2150km2,其經(jīng)緯度介于東經(jīng)98°12′~99°28′,北緯29°16′~31°34′(圖1)。該區(qū)氣候?qū)儆诟呱礁咴瓪夂?,夏季氣溫高達35℃,冬季最低約-10℃,降雨主要集中在6~9月。研究區(qū)地處青藏高原東南緣,橫斷山脈中段,地形主要以高山峽谷為主,地勢起伏大,河流切割深,山高坡陡,高程范圍為2211~6049m;地層巖性主要為侏羅紀和三疊紀的巖漿巖和沉積巖,巖性以花崗巖、正長巖、閃長巖、灰?guī)r、砂巖、泥巖及松散堆積物為主;同時,區(qū)域內(nèi)地質(zhì)構(gòu)造復(fù)雜,新構(gòu)造運動強烈,褶皺斷裂發(fā)育,主要發(fā)育有巴塘斷裂、金沙江斷裂、定曲河斷裂、字噶寺—德欽斷裂。正是這些復(fù)雜的工程地質(zhì)條件使研究區(qū)滑坡地質(zhì)災(zāi)害十分發(fā)育,給當?shù)亟?jīng)濟建設(shè)和工程活動帶來嚴峻挑戰(zhàn)。
圖1 研究區(qū)地理位置及滑坡分布
通過野外地質(zhì)災(zāi)害調(diào)查及結(jié)合Google Earth影像解譯,構(gòu)建金沙江上游巴塘—德格河段區(qū)域滑坡災(zāi)害編錄數(shù)據(jù)庫。數(shù)據(jù)源主要為:(1)分辨率為30m的數(shù)字高程模型(DEM)(http:∥www.gscloud.cn),用來提取高程、坡度、地形起伏度等數(shù)據(jù);(2)全國1︰250萬的地質(zhì)圖,主要提取地層巖性、構(gòu)造等數(shù)據(jù);(3)全國道路網(wǎng)矢量圖;(4)野外地質(zhì)災(zāi)害調(diào)查資料及Google Earth影像,用于確定滑坡災(zāi)害點的識別與分布。研究區(qū)共確定滑坡地質(zhì)災(zāi)害164處,野外調(diào)查滑坡51處,影像解譯滑坡113處,分布如圖1所示。滑坡總面積約32.94km2,其中單體滑坡面積最小的為3279m2,最大面積為2.28km2。
集成學(xué)習(xí)是合并多個機器學(xué)習(xí)模型來構(gòu)建一個更加強大模型的方法。其一般結(jié)構(gòu)為:先按照一定的規(guī)則生成多個具有相互獨立決策能力的個體學(xué)習(xí)器,再采用某種集成策略聯(lián)合在一起去解決一個同樣的問題。本文選取的集成學(xué)習(xí)模型都是以決策樹為個體學(xué)習(xí)器的模型,分別為隨機森林和梯度提升樹模型。
頻率比-集成學(xué)習(xí)算法模型可分為5步:(1)滑坡數(shù)據(jù)編錄及影響因子相關(guān)性分析;(2)基于選取的影響因子和滑坡數(shù)據(jù),運用頻率比模型對金沙江上游巴塘—德格河段區(qū)域進行滑坡易發(fā)性評價,得到滑坡易發(fā)性分區(qū)圖,并在低易發(fā)區(qū)選取非滑坡樣本;(3)將已有的滑坡、選取的非滑坡樣本及影響因子分別輸入隨機森林模型和梯度提升決策樹模型中,進行模型訓(xùn)練;(4)將研究區(qū)23881968個柵格輸入訓(xùn)練好的模型中,進行滑坡災(zāi)害的易發(fā)性預(yù)測;(5)將預(yù)測結(jié)果用自然斷點法進行滑坡易發(fā)性分區(qū)。其具體流程如圖2所示。
圖2 頻率比與集成學(xué)習(xí)模型流程圖
頻率比法是計算每個影響因子在不同分級區(qū)間內(nèi)滑坡發(fā)生的概率,對滑坡的分布與各個影響因子分級之間的空間關(guān)系進行分析。頻率比表示的是影響因子在某一分級區(qū)間內(nèi)滑坡發(fā)生的面積和研究區(qū)總滑坡面積的比值以及與該分級下的面積和研究區(qū)總面積的比值之比。其頻率比公式及計算過程如下:
(1)
式中:FR為頻率比值;Nij為第i個影響因子中第j類發(fā)生滑坡的面積;Nr為研究區(qū)滑坡的總面積;Aij表示第i個影響因子中第j類所占的面積;Ar表示研究區(qū)內(nèi)總的面積。
隨機森林是Breiman于2001年首次提出(Breiman et al.,2001),是bagging集成策略中最實用的算法之一。隨機森林是一種組合分類器,是以決策樹為個體學(xué)習(xí)器組合而成,并且每一個決策樹都是用相互獨立的數(shù)據(jù)進行訓(xùn)練,然后通過投票或取平均值獲得最終的預(yù)測結(jié)果。
隨機森林是利用bootstrap自主法進行重采樣,從整個樣本集中有放回地隨機抽取n(占總樣本的2/3)個樣本組成新的訓(xùn)練集,通過訓(xùn)練新的樣本集構(gòu)建相互獨立的決策樹,將訓(xùn)練好的n個決策樹組合成森林。每一次未被抽取的(1/3)樣本被稱為袋外數(shù)據(jù)(out of bag,OOB),通過這些數(shù)據(jù)對每棵樹內(nèi)部進行誤差估計,將每棵樹的OOB誤差取平均值數(shù)作為隨機森林的OOB誤差,用來評估模型性能的高低以防止過度擬合。隨機森林的泛化誤差P*為:
(2)
式中:ρ為決策樹間的相關(guān)平均值;s為決策樹的平均強度。由式(2)可知,要增強隨機森林的泛化性能,需要降低決策樹的相關(guān)度或者增大決策樹的強度。為此可以通過對決策樹的特征變量選擇引入隨機性,使每棵樹的分裂節(jié)點可能是不同的,進而降低決策樹的相關(guān)性。本文通過迭代法計算不同隨機特征變量下隨機森林袋外誤差,以尋找最小的袋外誤差選取最優(yōu)的特征樹。
梯度提升樹是一種集成學(xué)習(xí)算法,于2001年由Friedman提出(Friedman,2001),通過合并多個決策樹來構(gòu)建一個更加強大的模型。該模型采用連續(xù)的方式構(gòu)造樹,每棵樹試圖糾正前一棵樹的錯誤,每次建立新的決策樹都是基于上一個決策樹損失函數(shù)的負梯度,通過多個弱學(xué)習(xí)器組合成一個強的學(xué)習(xí)器。模型中損失函數(shù)選取平方差損失函數(shù),如公式(3)所示。
L(y,F(xiàn)(x))=(y-F(x))2
(3)
(4)
滑坡的發(fā)育涉及到地貌、地質(zhì)、水文環(huán)境、人類工程活動等眾多因素,是內(nèi)動力地質(zhì)條件和外界環(huán)境因素共同作用的結(jié)果。前者主要包括地形地貌、地層巖性及地質(zhì)構(gòu)造等因素,為滑坡的孕育提供了基礎(chǔ)條件;后者主要有水文地質(zhì)環(huán)境和人類工程活動等因素,為滑坡的發(fā)生提供觸發(fā)條件?;谝巴獾幕聻?zāi)害調(diào)查、研究區(qū)地質(zhì)條件及前人的研究(付文博等,2017;Hu Q et al.,2020),選取高程、坡度、坡向、曲率、地形起伏度、地表切割度、地表粗糙度、地層巖性、距斷層距離、距水系距離和距道路距離11個影響因子對研究區(qū)滑坡的易發(fā)性進行建模評價?;掳l(fā)生的影響因子數(shù)據(jù)類型由連續(xù)型和離散型組成。其中高程、坡度、坡向、曲率、地形起伏度、地表切割度及地表粗糙度等因子為連續(xù)型數(shù)據(jù),地層巖性、距斷層距離、距水系距離及距道路距離等因子為離散型數(shù)據(jù)。將離散型數(shù)據(jù)的影響因子采用原有的自然分組進行分級,對于連續(xù)型數(shù)據(jù)的影響因子采用等步長的方法進行分級。根據(jù)工程地質(zhì)類比法可知,與過去發(fā)生過滑坡災(zāi)害相似的地質(zhì)環(huán)境更容易形成新的滑坡,頻率比是滑坡面密度與分級面密度的比值,因此用頻率比法分析研究區(qū)滑坡與其影響因子之間的關(guān)系,其統(tǒng)計結(jié)果如表1所示。
表1 各影響因子的頻率比值
本文的地形地貌因子都是基于分辨率為30m的DEM獲取,包括高程、坡度、坡向、曲率、地形起伏度、地表切割度、地表粗糙度。高程是滑坡發(fā)生的一個重要影響因素,主要表現(xiàn)在坡體應(yīng)力和臨空條件兩個方面。如圖3a和表1所示,研究區(qū)的高程范圍為2211~6049m,滑坡主要分布在2211~4000m范圍內(nèi),占滑坡總面積的86.91%,且2211~3500m和3500~6049m范圍內(nèi)高程因子的頻率比值大于1,表明在該高程范圍內(nèi),因子對滑坡的發(fā)生具有重要的影響作用,使滑坡相比其他高程范圍更易于發(fā)生。坡度對滑坡的發(fā)生主要影響作用是對斜坡應(yīng)力的分布,高陡的山坡有著高剪應(yīng)力,更容易促使滑坡的發(fā)生。坡度因子如圖3b和表1所示,坡度的范圍為0°~83°,坡度大于40°時頻率比值皆大于1,且隨著坡度的增大,頻率比值也越來越大,說明隨著坡度的增大,滑坡災(zāi)害發(fā)生的概率也將變大。不同坡向所接受的光照時間不同,會導(dǎo)致不同坡向的斜坡地表濕度、植被的覆蓋等存在差異,進而影響斜坡的孔隙水壓力分布和巖土體的物理力學(xué)特征。如圖3c和表1可知,坡向朝北(0°~22.5°)、南(157.5°~202.5°)及西(247.5°~292.5°)的頻率比值大于1,表明斜坡坡向北、南及西對滑坡的發(fā)生具有正向作用。曲率表示斜坡表面一點的扭曲變化程度,曲率值的正負分別表示斜坡為凸坡與凹坡,曲率為0或越接近于0,表明坡面越平坦。曲率的分布與統(tǒng)計數(shù)據(jù)如圖3d和表1所示,曲率值小于-3和在1~3范圍內(nèi)的頻率比都大于1,該曲率值范圍有利于滑坡的發(fā)生。地形起伏度是指定區(qū)域內(nèi)最大高程和最小高程之差,描述了地形表面的起伏特征。研究區(qū)地形起伏度如圖3e和表1所示,范圍為0~523m,等間距分為5個等級。地形起伏度大于40m后,其頻率比值都大于1,并且隨著地形起伏度的增大,頻率比值也增大,表明起伏度越大,更利于滑坡災(zāi)害的發(fā)生。地表粗糙度是用來反映地表的起伏和侵蝕程度的指標。由圖3f和表1所示,地表粗糙度大于1.3時,頻率比值都大于1,表明地表粗糙度越大,滑坡發(fā)生的概率越大。地表切割度是指地面某點的鄰域范圍的平均高程與該鄰域范圍內(nèi)的最小高程的差值,表示地表面的切割深度。如圖3g和表1所示,數(shù)據(jù)表明當切割深度大于30m時,其頻率比值均大于1,對滑坡的發(fā)生有著正向作用。
圖3 滑坡易發(fā)性評價因子分級圖
影響滑坡災(zāi)害發(fā)生的基礎(chǔ)地質(zhì)因子為地層巖性和斷層。地層巖性是滑坡災(zāi)害發(fā)育的物質(zhì)基礎(chǔ),不同地層巖性因巖石的堅硬程度及巖體結(jié)構(gòu)的差異,影響滑坡發(fā)生的概率、規(guī)模及形狀,是滑坡發(fā)育的控制性因素。研究區(qū)出露巖性主要為花崗巖、閃長巖、閃長玢巖、正長巖、砂巖、灰?guī)r、白云巖、泥巖、頁巖及松散堆積物,可以分為以下8類(A~G分別代表一類地層巖性),堅硬的正長巖、正長玢巖(A);堅硬的塊狀花崗巖、閃長巖(B);較堅硬的中厚層灰?guī)r、白云巖(C);較堅硬的厚層狀板巖、砂巖(D);軟硬相間的厚層狀砂巖、泥巖及泥質(zhì)灰?guī)r(E);軟硬相間的超基性巖(F);較軟的層狀泥巖、頁巖及煤層(G);軟弱的松散堆積物(H)。如圖3h和表1可知,堅硬的塊狀花崗巖、閃長巖和較堅硬的厚層狀板巖、砂巖的頻率比值大于1,表明研究區(qū)這兩大類巖石更容易發(fā)育滑坡災(zāi)害,而堅硬的正長巖、正長玢巖和較堅硬的中厚層灰?guī)r、白云巖頻率比值小于1,對研究區(qū)滑坡災(zāi)害發(fā)育影響較小。且研究區(qū)域內(nèi)地質(zhì)構(gòu)造復(fù)雜,新構(gòu)造運動強烈,褶皺斷裂發(fā)育,破壞了堅硬巖體結(jié)構(gòu)完整性,使斜坡穩(wěn)定性較差,滑坡災(zāi)害發(fā)育更易發(fā)生。斷層是影響滑坡災(zāi)害發(fā)生的一個重要影響因素,距離斷層越近,其巖體內(nèi)部結(jié)構(gòu)越破碎,且斷層帶附近巖土體裂隙十分發(fā)育,使滑坡災(zāi)害更容易發(fā)育。如圖3i和表1所示,距斷層距離小于500m時,頻率比值大于1,表明距離斷層越近,有利于滑坡的發(fā)育。
研究區(qū)的水文因素及人類工程活動主要為距水系距離和距道路距離。河流水系是誘發(fā)滑坡的一個重要影響因素,河流水系對兩岸及溝谷兩側(cè)存在不同程度的沖蝕及浸潤,沖蝕使斜坡產(chǎn)生高陡的臨空面,浸潤使巖土體含水率增大,兩者都會降低斜坡巖土體的穩(wěn)定性,增大滑坡發(fā)生的概率。本文所用的水系分布是由30m分辨率的DEM數(shù)據(jù)提取得到。由圖3j和表1可知,當距離水系200~1500m時,頻率比值大于1,表明有利于滑坡發(fā)育,距水系大于1500m時,其頻率比值小于1,不利于滑坡的發(fā)生,對滑坡的發(fā)育影響較小。人類工程活動對滑坡的影響主要是與道路的修建有關(guān),修路時對邊坡的開挖會形成臨空面,破壞了斜坡的自然坡腳形態(tài)及天然應(yīng)力結(jié)構(gòu),加劇了滑坡災(zāi)害的發(fā)生。由圖3k和表1可知,距道路距離小于1500m時,頻率比值都是大于1,說明該距離內(nèi)道路的修建會促進滑坡災(zāi)害的發(fā)生,更加容易發(fā)生滑坡,大于1500m時,其頻率比值小于1,表明這個范圍內(nèi)道路對滑坡災(zāi)害的發(fā)育影響較小。
在滑坡易發(fā)性評價中,影響滑坡的各個評價因子之間存在著一定的相關(guān)性,會影響模型評價的準確性。因此,需要對各個評價因子進行共線性分析,將相關(guān)性大的因子剔除,以保證各因子之間沒有太大的相關(guān)性。通過用SPSS Statistics 18.0計算各因子之間的皮爾森相關(guān)系數(shù)(表2),當其絕對值大于0.5時認為具有一定的相關(guān)性。根據(jù)表2可知,地表粗糙度與坡度、地形起伏度及地表切割度皮爾森相關(guān)系數(shù)大于0.5,且坡度等因子是斜坡穩(wěn)定性重要地質(zhì)參數(shù);道路與水系的皮爾森相關(guān)系數(shù)大于0.5(閆舉生等,2019),存在很大的相關(guān)性,從表1中統(tǒng)計的頻率比可知,水系的頻率比隨著距水系距離越遠,有著減小的趨勢,與水對斜坡穩(wěn)定的影響規(guī)律較符合,且研究區(qū)地處金沙江流域,通過前期野外滑坡災(zāi)害的調(diào)查,多數(shù)滑坡沿金沙江、支流、溝谷分布,水系對滑坡的發(fā)育具有一定的控制作用。因此,在進行滑坡易發(fā)性評價時,剔除地表粗糙度和道路影響因子,將剩余的9個影響因子帶入模型進行研究區(qū)的滑坡易發(fā)性評價。
表2 影響因子的共線性分析
通過對滑坡影響因子的相關(guān)性分析,頻率比模型易發(fā)性分區(qū)確定了9個影響因子,分別為高程、坡度、坡向、曲率、地形起伏度、地表切割度、地層巖性、距斷層距離和距水系距離。運用頻率比模型的計算方法計算出每個滑坡影響因子的頻率比值。由表1的頻率比值可知,在金沙江上游巴塘—德格河段區(qū)域,高程、坡度、地表起伏度及距水系距離對滑坡災(zāi)害的發(fā)生有著明顯的影響。利用Arcgis的柵格計算器工具將9個滑坡影響因子的頻率比值進行疊加,得到金沙江上游滑坡的易發(fā)性指數(shù),再運用自然斷點法進行易發(fā)性分區(qū),分為極高易發(fā)區(qū)(3.8%)、高易發(fā)區(qū)(12.7%)、中易發(fā)區(qū)(24.2%)、低易發(fā)區(qū)(35.6%)、極低易發(fā)區(qū)(23.7%)。其中極高和高易發(fā)區(qū)主要分布在金沙江及支流沿岸?;乱装l(fā)性分區(qū)及結(jié)果統(tǒng)計如圖4和表3所示,極高易發(fā)區(qū)和高易發(fā)區(qū)占研究區(qū)總面積的16.5%,分布在該區(qū)域的滑坡面積占研究區(qū)總滑坡的68%,且頻率比值最高。
圖4 頻率比模型的易發(fā)性分區(qū)圖
表3 基于頻率比模型的易發(fā)性評價等級的統(tǒng)計結(jié)果
采用頻率比-集成學(xué)習(xí)模型對金沙江上游巴塘—德格河段進行滑坡易發(fā)性分區(qū)時,首先要將所有影響因子歸一化為[0,1]之間。在進行集成學(xué)習(xí)算法建模時,需要選取負樣本(非滑坡),本文通過頻率比模型預(yù)測的極低、低易發(fā)區(qū)選取相等數(shù)量非滑坡樣本,同時每個非滑坡點之間保持大于1km的間隔。將選取的非滑坡數(shù)據(jù)與滑坡數(shù)據(jù)組成樣本集,隨機選取其中的70%用于模型的訓(xùn)練,剩余的30%樣本用于模型的檢驗。
隨機森林模型對金沙江上游巴塘—德格河段區(qū)域的滑坡易發(fā)性評價是基于Python平臺進行建模與滑坡的易發(fā)性預(yù)測。利用隨機森林選取滑坡與非滑坡樣本進行模型的訓(xùn)練與檢驗,建模過程中參數(shù)的選取決定了模型的準確性。因此,選取合適的參數(shù)對滑坡易發(fā)性的預(yù)測尤為重要。在隨機森林模型中需要調(diào)節(jié)的重要參數(shù)有決策樹棵樹和最大深度,本文運用網(wǎng)絡(luò)參數(shù)搜索對給定的參數(shù)進行最優(yōu)的選取。其中參數(shù)決策樹棵樹為[100,200,300,500,800,1000],最大深度為[5,10,15,25,30,50],通過網(wǎng)絡(luò)搜索及交叉驗證得到最優(yōu)參數(shù)為決策樹棵樹200,最大深度15。利用選取的最優(yōu)參數(shù)組合對金沙江上游區(qū)域進行滑坡易發(fā)性的建模和預(yù)測,得到滑坡的易發(fā)性指數(shù)。將金沙江上游巴塘—德格河段區(qū)域分為極高易發(fā)區(qū)(12.4%)、高易發(fā)區(qū)(18.5%)、中易發(fā)區(qū)(17.7%)、低易發(fā)區(qū)(21.4%)、極低易發(fā)區(qū)(30%),隨機森林模型的滑坡易發(fā)性分區(qū)與統(tǒng)計如圖5a和表4所示。由表4可知,極高易發(fā)區(qū)的頻率比為4.56,高易發(fā)區(qū)為1.407,其余分區(qū)的值都小于1;極高和高易發(fā)區(qū)約占研究區(qū)總面積的30%,但落入的滑坡面積占總滑坡面積的82%,表明隨機森林模型預(yù)測精度較高。
表4 基于集成學(xué)習(xí)的滑坡易發(fā)性評價等級的結(jié)果統(tǒng)計
圖5 滑坡易發(fā)性分區(qū)圖
梯度提升樹模型對金沙江上游巴塘—德格河段區(qū)域滑坡易發(fā)性評價也是基于Python平臺實現(xiàn)。利用與隨機森林模型同樣的數(shù)據(jù)集進行梯度提升樹的建模,對模型準確度影響較大的參數(shù)為決策樹棵樹、最大深度及學(xué)習(xí)速率。參數(shù)決策樹棵樹為[100,200,300,400,500,600,800],最大深度為[1,2,3,4,5],通過網(wǎng)絡(luò)搜索及交叉驗證得到最優(yōu)參數(shù)為600棵決策樹,最大深度3,其中學(xué)習(xí)速率參數(shù)設(shè)為0.01。
將選取的最優(yōu)參數(shù)進行建模和預(yù)測,獲得研究區(qū)滑坡的易發(fā)性指數(shù)。同樣,將研究區(qū)分為極高易發(fā)區(qū)(13.4%)、高易發(fā)區(qū)(16.2%)、中易發(fā)區(qū)(16.9%)、低易發(fā)區(qū)(19.5%)、極低易發(fā)區(qū)(33.9%),梯度提升樹模型的滑坡易發(fā)性分區(qū)與統(tǒng)計如圖5b和表4所示。從統(tǒng)計表4可知,極高和高易發(fā)區(qū)面積占比約30%,落入極高和高易發(fā)區(qū)的滑坡面積占研究區(qū)總滑坡面積的79.2%;在極低、低及中易發(fā)區(qū)中落入的滑坡面積約有20.8%,且頻率比值都小于1,表明該模型預(yù)測的結(jié)果合理。
模型準確性的評價是滑坡易發(fā)性建模重要的組成部分,為了更好地評價隨機森林模型和梯度提升樹模型的預(yù)測能力,本文利用常用的檢驗方法,受試者工作特征曲線對模型的精確性進行分析(Chung et al.,2008)。在滑坡易發(fā)性評價中,ROC曲線的橫軸為研究區(qū)易發(fā)性指數(shù)由高到低的累計面積比值,縱軸為從易發(fā)性指數(shù)由高到低的滑坡面積占研究區(qū)總滑坡面積的累積比例。曲線下的面積(AUC)代表了模型精確性的大小,AUC值越接近于1,表明模型的精確性越高。兩種評價模型的ROC曲線如圖6所示,隨機森林模型的AUC值為0.84,梯度提升樹模型的滑坡易發(fā)性評價的AUC值為0.79。結(jié)果表明,隨機森林模型的AUC值大于梯度提升樹模型,隨機森林模型的滑坡易發(fā)性評價精確度更高。
圖6 集成學(xué)習(xí)模型預(yù)測結(jié)果的ROC曲線
(1)本文以金沙江上游區(qū)域作為研究對象,選取了高程等11個影響因子建立了滑坡易發(fā)性的評價體系。運用頻率比與集成學(xué)習(xí)模型進行區(qū)域的滑坡易發(fā)性評價,得出了金沙江上游巴塘—德格河段區(qū)域滑坡易發(fā)性分區(qū)圖。
(2)利用自然間斷點法將集成學(xué)習(xí)算法的兩種模型進行易發(fā)性等級劃分。隨機森林模型易發(fā)區(qū)劃分為極高易發(fā)區(qū)(12.4%)、高易發(fā)區(qū)(18.5%)、中易發(fā)區(qū)(17.7%)、低易發(fā)區(qū)(21.4%)、極低易發(fā)區(qū)(30%);梯度提升樹模型易發(fā)區(qū)劃分為極高易發(fā)區(qū)(13.4%)、高易發(fā)區(qū)(16.2%)、中易發(fā)區(qū)(16.9%)、低易發(fā)區(qū)(19.5%)、極低易發(fā)區(qū)(33.9%)。兩個模型的高和極高易發(fā)區(qū)的分布主要為金沙江河流兩岸和溝谷地區(qū),滑坡易發(fā)性分區(qū)結(jié)果與野外滑坡災(zāi)害調(diào)查結(jié)果存在較好的一致性。
(3)運用隨機森林模型和梯度提升樹模型對金沙江上游巴塘—德格河段區(qū)域進行滑坡易發(fā)性預(yù)測。從ROC曲線和歷史災(zāi)害分布結(jié)果可知,隨機森林模型的AUC值(0.84)和歷史滑坡災(zāi)害位于高-極高易發(fā)區(qū)的災(zāi)害數(shù)占總滑坡數(shù)百分比(84.8%)都大于梯度提升樹模型,表明隨機森林模型的易于訓(xùn)練、參數(shù)少及隨機采樣使模型更具泛化能力等優(yōu)點,使得比梯度提升樹模型在研究區(qū)的滑坡易發(fā)性評價的預(yù)測結(jié)果更準確。