趙曉東 , 徐振濤 , 劉福 , 楊華 , 張?zhí)?/p>
(1.大連大學建筑工程學院, 大連 116622; 2.中國地質(zhì)調(diào)查局南京地質(zhì)調(diào)查中心, 南京 210016 )
中國幅員遼闊,地質(zhì)環(huán)境錯綜復雜,地質(zhì)災(zāi)害發(fā)生的頻度高、強度大,每年都會因此造成巨大損失[1-7]。目前,地質(zhì)災(zāi)害(滑坡、崩塌、泥石流)已成為除地震外的第二大自然災(zāi)害[2-4]。其中,滑坡是幾種破壞模式中危害最為突出、分布最為廣泛的一種,在山區(qū)中為主要的地質(zhì)災(zāi)害類型[5]?;乱装l(fā)性評價用于預測滑坡可能發(fā)生的高危險區(qū)域,并最終繪制出關(guān)于研究區(qū)的地質(zhì)災(zāi)害易發(fā)性分布圖[4,6-7]。其主要目的是幫助決策部門制定土地利用規(guī)劃,并為制訂防災(zāi)減災(zāi)政策提供基礎(chǔ)資料[6,8-9]。
現(xiàn)階段的滑坡易發(fā)性分析模型一般分為物理模型、知識驅(qū)動模型和數(shù)據(jù)驅(qū)動模型三類[8,10]。其中,基于物理的模型分析結(jié)果雖然較為客觀和準確,但是需要相當龐大的地質(zhì)和水文數(shù)據(jù),在特定邊坡的易發(fā)性評估中更易發(fā)揮其效能[11];基于知識驅(qū)動的模型往往更依賴專家自身的經(jīng)驗和知識儲備,容易受到主觀因素的影響[12];目前,針對大規(guī)模的滑坡易發(fā)性快速分析,大多采用數(shù)據(jù)驅(qū)動模型[13-23]。而機器學習模型作為數(shù)據(jù)驅(qū)動模型中的主要分類,隨著近年來人工智能的快速發(fā)展,已逐漸變成應(yīng)用最普遍的滑坡易發(fā)性分析模型[13]。常見的機器學習模型主要包括決策樹[14]、支持向量化[15-16]、隨機森林[17-18]、邏輯回歸[19]、人工神經(jīng)網(wǎng)絡(luò)[8,20]模型等。機器學習算法具有超強的自主學習能力,能充分挖掘出數(shù)據(jù)中各個特征屬性之間存在的內(nèi)在聯(lián)系,不嚴重依賴于專家知識,并且能夠重復執(zhí)行目標結(jié)果[21]。XGBoost 是一種基于梯度提升決策樹(gradient boosting decision tree,GBDT)的集成機器學習算法[24],已被逐漸應(yīng)用于金融[25]、醫(yī)學[26]和工業(yè)制造[27]等各個領(lǐng)域,且都取得了較好的效果。與傳統(tǒng)的機器學習模型相比,XGBoost 具有更快速的計算能力和更強大的泛化能力[22-24]。由于XGBoost 發(fā)展歷程較短,目前國內(nèi)外鮮有對其在地質(zhì)災(zāi)害領(lǐng)域的應(yīng)用研究,值得進一步探索。
現(xiàn)依托于浙江飛云江流域地質(zhì)災(zāi)害調(diào)查數(shù)據(jù),選取了地形地貌、氣象植被、巖土性質(zhì)等地理信息數(shù)據(jù),應(yīng)用空間分析、表面分析、插值分析等地理信息技術(shù)提取并整理出學習樣本數(shù)據(jù),基于XGBoost構(gòu)建滑坡易發(fā)模型,并與支持向量機(support vector machine,SVM) 模型進行對比,以期建立更為準確有效的地質(zhì)災(zāi)害易發(fā)性評價模型。
研究區(qū)玉壺流域位于浙江省溫州市文成縣境內(nèi),面積約99.5 km2,研究區(qū)位置及高程圖見圖1。文成縣地處浙江省的東南部,飛云江的上游區(qū)域,總范圍面積約1 296.44 km2,地理坐標為119°46′43″~120°15′09″E、27°34′01″~27°59′16″N。
該地區(qū)位于雁蕩山和洞宮山之間,域內(nèi)山嶺綿延,地勢自西北往東南呈梯形傾斜,地貌類型主要表現(xiàn)為丘陵和山地;區(qū)域山地植被覆蓋度高,水系發(fā)達,雨季多暴雨和持續(xù)降雨,屬于亞熱帶季風氣候。大部分河谷和緩坡都被開墾為農(nóng)業(yè)用地或住宅建設(shè)用地,山區(qū)分布人口較為分散;境內(nèi)人工活動密集,山體穩(wěn)定性較差,是地質(zhì)災(zāi)害發(fā)生的易發(fā)區(qū)和多發(fā)區(qū)。
本研究所使用的數(shù)據(jù)和數(shù)據(jù)來源見表1。地形數(shù)據(jù)采用美國國家航空航天局(National Aeronautics and Space Administration, NASA)全球數(shù)字高程數(shù)據(jù)中的30 m 數(shù)字高程模型(digital elevation model,DEM);巖土物理力學參數(shù),如內(nèi)摩擦角、黏聚力、風化層厚度,來自中國地質(zhì)調(diào)查局“浙江飛云江流域地質(zhì)災(zāi)害調(diào)查”項目。
圖1 研究區(qū)位置及高程圖Fig.1 The location and elevation map of the study area
表1 數(shù)據(jù)及數(shù)據(jù)來源Table 1 Data and source of data
對于斜坡坡體,無論是自然生成的還是人工活動產(chǎn)生的,都不會靜態(tài)不變。由于自然環(huán)境和人為干預,斜坡一直處于動態(tài)變化中。結(jié)合研究區(qū)域的特點以及相關(guān)數(shù)據(jù)的獲取情況,選取了坡度、坡向、坡形、地表覆蓋、極端小時降雨量、地形濕度指數(shù)、內(nèi)摩擦角、黏聚力、容重、風化層厚度10 個地理信息因子。其中坡度、坡向和坡形屬于地形地貌因子,極端小時降雨量、地表覆蓋和地形濕度指數(shù)屬于氣象植被因子,內(nèi)摩擦角、黏聚力、容重、風化層厚度屬于巖土性質(zhì)因子。影響因子的空間分布如圖2所示。
1.3.1 地形地貌
坡度是斜坡穩(wěn)定的先決要素,太低無法提供充足的下滑動力,太陡又不利于斜坡沉積物的堆積,兩者都無法為滑坡提供物質(zhì)基礎(chǔ)。使用ArcGIS 軟件Spatial Analyst Tools 下的表面分析工具計算出研究區(qū)的坡度,如圖2(a)所示。
坡向與降雨以及太陽輻射情況密切相關(guān),并對地表覆蓋、地形濕度指數(shù)(topographic wetness index, TWI)等因子產(chǎn)生影響。利用GIS 工具生成坡向圖,并依次劃分為9 個方向,如圖2(b)所示:平地(坡向值為-1,表示不具有下坡方向的平坦區(qū)域)、北(0°~22.5°,337.5°~360°)、東北(22.5°~67.5°)、東(67.5°~112.5°)、東南(112.5°~157.5°)、南(157.5°~202.5°)、西南(202.5°~247.5°)、西(247.5°~292.5°)、西北(292.5°~337.5°)。
圖2 影響因子的空間分布Fig.2 The spatial distribution of influence factors
坡形一般指剖面曲率,用于描述斜坡地形的復雜度,是沿最大坡降方向的斜率大小[28]。坡形數(shù)值越高,斜坡在垂直方向上的彎曲變化程度越高,地形越復雜。利用表面分析下的曲率工具計算出研究區(qū)坡形,如圖2(c)所示。
1.3.2 氣象植被
地表覆蓋是影響滑坡產(chǎn)生的一個關(guān)鍵因子,區(qū)域較高的植被覆蓋度,表明該區(qū)植被發(fā)育良好,對水土的保持能力強;區(qū)域較低的植被覆蓋度,說明該區(qū)植被發(fā)育得一般,對水土的保持能力弱。結(jié)合國情普查數(shù)據(jù),對不同地表覆蓋單元,分別劃分為建筑和其他、道路-草地、林地、人工堆掘地和耕地-園地五類,如圖2(d)所示。
TWI反映土壤水分含量和地下水的分布情況,滑坡常在土壤濕度高的地區(qū)發(fā)生。利用水文工具下的填洼、流向和流量工具進行柵格計算生成TWI,如圖2(e)所示。
極端降雨情況與滑坡的發(fā)生密切相關(guān),是誘發(fā)滑坡災(zāi)害發(fā)生的一個重要因子。極端降雨作用下會使斜坡體變形在短時間內(nèi)激增,造成坡體失穩(wěn),進而發(fā)生滑坡。根據(jù)溫州市范圍雨量站采集的數(shù)據(jù),插值生成研究區(qū)內(nèi)百年一遇小時降雨量作為極端小時降雨量數(shù)據(jù),如圖2(f)所示。
1.3.3 巖土性質(zhì)
內(nèi)摩擦角和黏聚力反映土或巖石內(nèi)部的作用力,兩者與坡體穩(wěn)定呈正比,值越大坡體越穩(wěn)定;容重表示土的壓實效果,容重越大,表示土的密度越大,坡體越穩(wěn)定;風化層越厚,地面下的疏松層越厚,坡體越不穩(wěn)定。利用克里金法插值生成內(nèi)摩擦角[圖2(g)]、黏聚力[圖2(h)]、容重[圖2(i)]和風化層厚度[圖2(j)]的柵格數(shù)據(jù)。
XGBoost 是一種基于樹的集成算法,它把具有偏好的弱評估器(決策樹)作為基學習器,并將其組合起來進行訓練學習,由此得到一個集成的強評估器。XGBoost 是GBDT 的高效實現(xiàn),不同于傳統(tǒng)的 GBDT,XGBoost 算法使用Taylor 二階展開式來優(yōu)化損失函數(shù),同時加入正則化項用于控制模型的復雜度。與其他機器學習算法相比,大大提高了其運算效力和泛化能力。
XGBoost 模型可以表示[22-25]為
(1)
其目標函數(shù)可表示為
(2)
(3)
(4)
進一步簡化得到
(5)
式中:Ij={i|q(xi)=j},表示ft(xi)這棵樹中第j個葉節(jié)點的樣本集合;γ和λ為預先設(shè)置的超參數(shù)。
(6)
(7)
利用ArcGIS 軟件從數(shù)據(jù)源中提取致災(zāi)因子,并將其轉(zhuǎn)為柵格數(shù)據(jù)(共110 894 個像元點)。在scikit-learn 機器學習框架下,基于Python 編程語言構(gòu)建多分類XGBoost 滑坡易發(fā)性評價模型,并選取70%的數(shù)據(jù)作為訓練集進行模型學習和訓練。將得出的結(jié)果與SVM 模型進行比對,通過計算多分類混淆矩陣的評估指標來對模型精度進行分析,模型構(gòu)建流程見圖3。
模型構(gòu)建完成后,使用混淆矩陣對模型的精度進行檢驗?;煜仃囀菣C器學習分類問題中應(yīng)用廣泛的評價指標體系,又名誤差矩陣,是將算法性能可視化的一種特殊矩陣。評估指標包括準確率、精確率、召回率和F1等。其中,如果一個樣本的真實類別和預測結(jié)果都為正,則為TP(true positive);如果真實類別和預測結(jié)果都為負,則為TN(true negative);如果負類樣本預測為正,則為FP(false positive);如果正類樣本預測為負,那么其為FN(false negative)。
精確率P表示預測值為正的樣本中,與真實值相符的比例,計算公式為
(8)
圖3 模型構(gòu)建流程圖Fig.3 Model building flow chart
召回率R表示預測為正的樣本在所有真實為正的樣本中所占的比例,計算公式為
(9)
F1同時兼顧精確率和召回率,將兩者的調(diào)和平均作為一個綜合性指標來考量兩者之間的平衡,計算公式為
(10)
對研究區(qū)的地質(zhì)災(zāi)害易發(fā)性指數(shù)進行計算,所得結(jié)果采用自然斷點分級法將其劃分為極低易發(fā)、低易發(fā)、中易發(fā)、高易發(fā)、極高易發(fā)5 個等級,繪制出分類標簽真值滑坡易發(fā)區(qū)劃圖[圖4(a) ]。數(shù)據(jù)集按照7∶3 的比例分為訓練數(shù)據(jù)和測試數(shù)據(jù),分別輸入XGBoost 、SVM 機器學習模型,對模型進行多次迭代的訓練、測試、參數(shù)優(yōu)化,最終根據(jù)全數(shù)據(jù)對模型進行驗證,驗證結(jié)果見表2。將驗證結(jié)果通過ArcGIS 可視化處理,效果對比如圖4所示。
從圖4 可以看出,極高易發(fā)和高易發(fā)分區(qū)主要分布在河谷、低山區(qū)和丘陵地帶。此區(qū)域內(nèi)飛云江支流發(fā)育、地質(zhì)環(huán)境較為脆弱,并且此區(qū)域多為人工堆掘地、耕地-園地,這間接反映了該地區(qū)頻繁的人類活動,以及植被和斜坡遭到嚴重的人為破壞。而低易發(fā)區(qū)和極低易發(fā)分區(qū),主要分布在海拔高于500 m以上的地區(qū)和人類住區(qū),一是高海拔的地區(qū)遠離水源河流,蓄水能力差,斜坡體的含水量較低,不利于滑坡發(fā)育;二是這些地區(qū)的人類活動較少,自然狀態(tài)下受到的人類干擾較少。此外,人類聚居區(qū)域雖然海拔不高,但區(qū)內(nèi)地勢平坦、建筑林立,不具備滑坡發(fā)育的條件。
表2 各易發(fā)區(qū)分布及模型驗證情況Table 2 Distribution of each susceptible area and model validation
利用XGBoost 建立滑坡易發(fā)分區(qū)識別模型,模型對測試集識別的多分類混淆矩陣如表3所示。對于整個研究區(qū),我們最為關(guān)注的是極高易發(fā)區(qū)的識別情況,3 661 組極高易發(fā)區(qū)數(shù)據(jù)中,被模型正確識別出來的柵格點有3 585 個,召回率為97.92%;模型識別的極高易發(fā)分區(qū)柵格點總數(shù)量為3 656 個,精確率為98.06%;F1為97.99%。
圖4 模型預測結(jié)果對比Fig.4 Comparison of model prediction results
SVM 是以統(tǒng)計學習理論為發(fā)展基礎(chǔ)的有監(jiān)督學習方法,它能較好地解決非線性、高維模式識別問題,廣泛應(yīng)用于滑坡易發(fā)性評價研究中。為了比較對比XGBoost 算法與SVM 算法在滑坡易發(fā)分區(qū)識別模型中的精度,建立了基于SVM 的滑坡易發(fā)分區(qū)識別模型,用于識別測試集的多分類混淆矩陣如表4所示。3 661 組極高易發(fā)區(qū)數(shù)據(jù)中,被模型正確識別出來的柵格點有3 571 個,召回率為97.54%;模型識別的極高易發(fā)分區(qū)柵格點總數(shù)量為3 649 個,精確率為97.86%;F1分別為97.70%。
由于評價滑坡易發(fā)最重要的是將高易發(fā)區(qū)域盡可能的都識別出來,因而相較于精確率,召回率的重要性尤為顯著。精度對比結(jié)果表明,基于XGBoost 的滑坡易發(fā)區(qū)識別模型在召回率和精確率評價指標上都略優(yōu)于SVM ,XGBoost 算法模型在滑坡易發(fā)區(qū)識別中可以獲得較高的精度。
表3 基于XGBoost 的滑坡易發(fā)區(qū)識別混淆矩陣Table 3 Confusion matrix for landslide prone area identification based on XGBoost
表4 基于SVM 的滑坡易發(fā)區(qū)識別混淆矩陣Table 4 Confusion matrix for landslide prone area identification based on SVM
以浙江省溫州市飛云江流域地質(zhì)災(zāi)害的調(diào)查數(shù)據(jù)為依托,選取坡度、坡向、坡形、起伏度、極端降雨、地表覆蓋、TWI 等地理信息因子,結(jié)合GIS 技術(shù),建立基于XGBoost 的滑坡地質(zhì)災(zāi)害易發(fā)性評價模型,對易發(fā)分區(qū)的多分類問題進行識別分析,得到以下結(jié)論。
(1)GIS 技術(shù)可以有效地對致災(zāi)因子進行提取、分析以及可視化展示,基于Python語言的機器學習模型有開源、模型庫廣泛,兩者結(jié)合能極大提高模型建模的效率。
(2)使用浙江省溫州市飛云江流域地質(zhì)災(zāi)害數(shù)據(jù),基于XGBoost 構(gòu)建了滑坡易發(fā)多分類評價模型,將5 類1 維分類數(shù)組映射到2 維空間,生成秩為5 的分類矩陣,通過多分類混淆矩陣對模型精度進行評價。模型極高易發(fā)區(qū)的召回率和精確率達到了97.92%和98.06%,F(xiàn)1為97.99%,均高于SVM算法。
(3)由于不同地質(zhì)和氣候條件的影響,文中模型僅對飛云江流域滑坡較為有效,將模型應(yīng)用于其他地區(qū)時,需要利用樣本訓練重新學習,以得到最優(yōu)參數(shù)和最優(yōu)模型。