李嘉靖,王 浩,王 睿
(1.福州大學 環(huán)境與安全工程學院,福建 福州 350116;2.福州大學 紫金地質與礦業(yè)學院,福建 福州 350116)
滑坡是一種常見的斜坡地質災害,由于其具有突發(fā)性強、危害大、治理難度高等特點[1],極易造成人類生命、財產(chǎn)安全的損失。福州地處東南沿海,地形以山地丘陵為主,地面表層廣泛分布第四紀沉積物和花崗巖風化殼,形成深厚的松散堆積體;巖石節(jié)理、裂隙和軟弱結構面發(fā)育。復雜且脆弱的地質環(huán)境導致福州市內滑坡地質災害頻發(fā)。為了科學性指導滑坡的防治工作,有必要利用相關數(shù)據(jù)并采取措施對福州地區(qū)進行滑坡易發(fā)性評價。
滑坡易發(fā)性評價意義在于研究一定區(qū)域內多個滑坡影響因子組合導致滑坡發(fā)生的可能性[2]。精確有效的易發(fā)性評價能為地區(qū)滑坡的防治工作提供關鍵性的技術指導。隨著地理信息系統(tǒng)和機器學習的不斷發(fā)展,國內外學者基于這些工具對滑坡易發(fā)性評價進行了大量的工作[3]。學者們對滑坡易發(fā)性評價的方法也從定性評價轉變?yōu)榘攵吭u價到現(xiàn)在的定量評價。半定量評價的方法有層次分析法[4]、模糊綜合評價法[5]和專家經(jīng)驗法[6]等。近年來伴隨機器學習的發(fā)展,迎來了邏輯回歸模型[7-8]、隨機森林模型[8]、支持向量機模型[9]、信息量模型[10]、神經(jīng)網(wǎng)絡模型[11]等全定量評價模型方法。
總結前人學者對各類滑坡易發(fā)性評價,暫無以福州市為研究區(qū)進行構建滑坡易發(fā)性評價模型。因此,本文以福州主要陸域區(qū)為研究區(qū),采用研究區(qū)植被覆蓋度、高程、坡度、坡向、巖性、距斷裂距離和距水系距離共7個影響因子進行綜合分析,分別選擇邏輯回歸模型和隨機森林模型對研究區(qū)進行滑坡易發(fā)性評價,定量統(tǒng)計分析模型易發(fā)性評價中的各項數(shù)據(jù),對比兩個模型在滑坡易發(fā)性評價結果。最后挑選研究區(qū)內表現(xiàn)更優(yōu)的模型深入分析,對各個影響因子進行排序并統(tǒng)計分析典型影響因子對研究區(qū)內滑坡易發(fā)性的影響特征,以為研究區(qū)的滑坡防治工作提供技術支撐。
福州市位于歐亞大陸東南邊緣,地處中國東南沿海、福建省中東部的閩江口,與臺灣省隔海相望。研究區(qū)為福州市主要陸域區(qū),剔除了福州市沿海平潭島及周圍零星島嶼(如圖1所示)。研究區(qū)地形地貌為群山環(huán)繞的河口盆地,山地和丘陵面積占約70%,地勢自西向東傾斜,海拔在-36 m~1 683 m之間。研究區(qū)屬亞熱帶季風氣候,氣候溫暖濕潤,年平均氣溫20℃~25℃,年平均降水量為900 mm~2 100 mm,降雨集中在4月—8月。
本文采用福建省某研究院提供的研究區(qū)內截至2021年7月7日共567個滑坡地質災害點數(shù)據(jù)及相關影響因子的數(shù)據(jù),數(shù)據(jù)來源如表1所示。
圖1 研究區(qū)地理位置及滑坡分布
表1 數(shù)據(jù)及數(shù)據(jù)源
本文以福州市主要陸域區(qū)為研究區(qū),搜集地質資料、地質災害點等基礎數(shù)據(jù)?;诘乩硇畔⑾到y(tǒng)和機器學習模型對研究區(qū)數(shù)據(jù)進行處理分析并對比,進行研究區(qū)的滑坡易發(fā)性評估。其技術路線如圖2所示:
(1) 收集并掌握研究區(qū)相關資料,獲取研究區(qū)DEM、遙感影像圖片、滑坡地質災害點、地質資料等信息。
(2) 基于地理信息系統(tǒng)對已有數(shù)據(jù)進行提取影響因子,并將影響因子進行不同的分級,獲取各個影響因子圖層并進行可視化處理。
(3) 對研究區(qū)各影響因子以30 m×30 m柵格形式進行制圖單元劃分,并對各個影響因子圖層進行合成獲取總圖層。
(4) 基于地理信息系統(tǒng)在滑坡點100 m范圍內隨機生成正樣本數(shù)據(jù),在滑坡點100 m范圍外的陸域區(qū)隨機生成負樣本數(shù)據(jù),形成總樣本集;從總樣本集中分別隨機選取3 000個正負樣本,并在隨機選取的正負樣本中再選取70%的樣本為訓練樣本,剩余30%的樣本為檢驗樣本。
(5) 選擇邏輯回歸模型、隨機森林模型作為評價模型,將影響因子總圖層和訓練樣本在Python軟件中訓練模型,針對訓練結果對研究區(qū)進行易發(fā)性評價;采取受試者工作特征曲線(Receiver Operation Characteristic, ROC)對模型結果進行驗證、比較并探討不同模型在研究區(qū)的應用性能。
圖2 滑坡易發(fā)性評價流程
邏輯回歸(Logistic Regression, LR)模型是處理一個自變量與多個不相關自變量間的多元回歸關系的模型。邏輯回歸模型中自變量不需要滿足正太分布,同時解決了滑坡是否發(fā)生的二分類問題。模型的結果告知滑坡發(fā)生的概率,其介于0到1之間(0代表滑坡不發(fā)生,1代表滑坡發(fā)生)。其數(shù)學函數(shù)表達式為:
式中:y=a+b1x1+b2x2+…+bnxn,a為函數(shù)截距,b為相關性系數(shù),x為影響因子自變量。
隨機森林(Random Forest, RF)模型是一種基于分類回歸樹的算法。隨機森林模型的主要思想(如圖3所示)是通過自助法(Bootstrap)抽樣從原始訓練集中抽取k個樣本,且每個樣本的樣本容量均與原始訓練集的大小一致;然后對每個樣本分布進行隨機選取特征并決策樹建模,得到k個建模結果;最后,利用所有決策樹的建模結果,通過投票表決其最終的分類結果[12]。在滑坡易發(fā)性評價中,隨機森林模型在復雜且包含噪音的數(shù)據(jù)集中表現(xiàn)出穩(wěn)定和精確的性能[13]。
本文采用受試者工作特征曲線(Receiver Operating Characteristic, ROC)及曲線下面積(Area Under Curve, AUC)對隨機森林模型和邏輯回歸模型的結果進行分析評價。AUC曲線也是在機器學習模型中最為常見模型性能優(yōu)劣的評價手段之一。AUC的數(shù)值介于0和1之間,通常大于0.5,其值越接近1,表明模型的效果更好,也就是說模型的準確性更高[14]。
圖3 隨機森林流程圖
在滑坡的易發(fā)性評價中,有前人的研究指出[15],一個優(yōu)秀的區(qū)域滑坡預測模型應滿足使得已有的滑坡災害點盡可能多的落在預測圖的高危險區(qū)中和預測圖的高危險區(qū)面積應盡可能的小。根據(jù)以上的要求,本文將研究區(qū)內模型預測圖以專家經(jīng)驗[16]對滑坡發(fā)生的概率(p)劃分為5個危險區(qū)等級:低危險區(qū)(p<0.41)、較低危險區(qū)(0.41≤p<0.51)、中危險區(qū)(0.51≤p<0.60)、較高危險區(qū)(0.60≤p<0.69)和高危險區(qū)(p≥0.69),得到研究區(qū)的滑坡易發(fā)性等級圖,統(tǒng)計易發(fā)性等級圖內的柵格數(shù)量和滑坡數(shù)量,并計算滑坡密度,因此對比評價分析模型預測的泛化能力。
滑坡機理復雜且多變,因此影響滑坡的因子具有多元化的特征。結合研究區(qū)的滑坡發(fā)育特點、空間分布等特征和數(shù)據(jù)集的易得性,本文選取了植被覆蓋度、高程、坡度、坡向、巖性、距斷裂距離和距水系距離共7個影響因子(見圖4)。
圖4 影響因子圖
本文將所獲得的數(shù)據(jù)進行處理。通過ArcGIS對DEM數(shù)據(jù)進行處理獲得研究區(qū)高程、坡形和坡度;通過ArcGIS和MapGIS對地質圖進行處理獲得研究區(qū)巖性、距斷裂距離和距水系距離;通過ENVI對Landsat 8 OLI遙感影像進行處理獲得研究區(qū)植被覆蓋度。本文選取的影響因子均為滑坡易發(fā)性評價的基礎影響因子,因此保留所有影響因子,不另作因子的多重共線性檢驗。將各個影響因子通過ENVI進行合成影像并將其代入模型進行滑坡易發(fā)性評價。
根據(jù)受試者工作特征曲線的計算,邏輯回歸模型構建的滑坡易發(fā)性模型的AUC值為62.88%,隨機森林模型構建的滑坡易發(fā)性模型的AUC值為84.68%,兩個模型在研究區(qū)的滑坡易發(fā)性評價中均具有一定的準確性與可靠性。但從受試者工作特征曲線的AUC中,隨機森林模型對研究區(qū)滑坡的預測精度較邏輯回歸模型高21.80%,其說明隨機森林模型對于研究區(qū)的滑坡易發(fā)性評價工作的泛化能力優(yōu)于邏輯回歸模型。在前人不同研究區(qū)的易發(fā)性評價中[12,17]同樣也驗證了隨機森林模型更適用于滑坡易發(fā)性評價。
將模型訓練完成后的邏輯回歸模型和隨機森林模型應用于研究區(qū)的地理空間數(shù)據(jù)庫,根據(jù)模型評價的危險區(qū)等級劃分得到邏輯回歸模型和隨機森林模型預測的滑坡易發(fā)性評價圖(如圖5所示)。在圖5中,兩個模型預測的滑坡易發(fā)性評價圖的危險區(qū)等級分布和已有滑坡點分布有一定的重合性。
為進一步對兩個模型進行對比,本文根據(jù)柵格數(shù)量、歷史滑坡點等數(shù)據(jù)對模型易發(fā)性評價結果進行定量統(tǒng)計(如表2和表3所示)。從表中可以明顯地看出,在隨機森林模型中,滑坡數(shù)量與危險區(qū)等級呈明顯的正比關系,隨著滑坡危險性等級的增加,其所對應的研究區(qū)面積比整體呈遞減趨勢,滑坡密度呈遞增趨勢;其較高、高危險區(qū)占有78.13%的滑坡比,但較高、高危險區(qū)面積比僅為16.02%,符合一個優(yōu)秀的區(qū)域滑坡預測模型。反觀邏輯回歸模型,較高、高危險區(qū)的面積為17.87%,與隨機森林模型相同危險區(qū)的面積比相似,但其滑坡比為28.57%,明顯低于隨機森林模型的滑坡預測結果。因此,可以判定研究區(qū)內隨機森林模型的可靠性和其泛化能力優(yōu)于邏輯回歸模型。
圖5 滑坡易發(fā)性評價圖
圖6 模型的ROC曲線
表2 邏輯回歸滑坡易發(fā)性等級圖統(tǒng)計表
表3 隨機森林滑坡易發(fā)性等級圖統(tǒng)計表
以易發(fā)性評價對比結果更優(yōu)的隨機森林模型深入分析。隨機森林模型預測的滑坡易發(fā)性評價圖5中,研究區(qū)內高危險區(qū)主要位于研究區(qū)西部和北部的羅源、永泰和閩清地區(qū)。低易發(fā)性滑坡主要位于研究區(qū)內沿海部位和福州中部的連江縣、閩侯縣、福清市和福州6個轄區(qū),與已有研究區(qū)內滑坡點的分布規(guī)律高度吻合,驗證易發(fā)性評價結果可為研究區(qū)滑坡的防治工作提供科學性依據(jù)。
不同影響因子對滑坡形成的重要性程度存在差異,認識并研究影響因子的重要性對研究區(qū)內區(qū)域滑坡災害風險評估的信息獲取具有重要的參考作用。本文針對綜合效果更優(yōu)的隨機森林模型,采用特征重要性排序(Permutation Importance, PI)對各個影響因子進行重要性評估。
特征重要性排序是通過在訓練好的機器學習模型中,不斷隨機打亂其中一列影響因子,觀察模型預測結果的變換程度,對模型中的各個影響因子進行排序。各個影響因子的重要性由大到小依次為:植被覆蓋度、高程、距水系距離、坡向、坡度、巖性、距斷裂距離(如圖7所示)。從圖中可以明顯得到植被覆蓋度、高程和坡向為研究中典型的影響因子,它們的PI值與其他影響因子的PI值呈倍數(shù)關系,其中植被覆蓋度和高程為高重要性影響因子,坡向為最低重要性影響因子。
結合研究區(qū)滑坡發(fā)生機理,深入研究典型影響因子。研究區(qū)滑坡多發(fā)生在強降雨造成的土體抗剪強度降低的情況,不同坡向對邊坡在降雨時對雨水影響抗剪強度的程度遠小于其他影響因子,因此坡向為最低重要性影響因子。類同模型易發(fā)性評價結果的定量統(tǒng)計,本文統(tǒng)計高重要性影響因子圖層中不同區(qū)劃的滑坡密度數(shù)據(jù)如圖8所示。
圖7 影響因子重要性排序
圖8 高重要性影響因子滑坡密度統(tǒng)計
統(tǒng)計表明,研究區(qū)內滑坡密度隨植被覆蓋度增大而減少,滑坡多發(fā)生在150 m~830 m的高程區(qū)間。其主要原因是研究區(qū)在150 m~830 m的高程范圍內地形地貌為山地、丘陵地形,提供了滑坡發(fā)生的必要條件;植被覆蓋度低的區(qū)域內人口密度大、工程活動強烈,邊坡的工程地質條件受人類不同工程活影響,同時減弱了邊坡中植被的固土效應,從而增大了滑坡發(fā)生的可能。
分析典型影響因子的特征與滑坡發(fā)生實際機理相吻合,再次證明了利用隨機森林模型在研究區(qū)內進行滑坡易發(fā)性評價的可靠性。同時在研究區(qū)內滑坡防治時可以根據(jù)這些特征進行著重防治,以達到科學有效地進行研究區(qū)內滑坡的防治工作。
本文以福州主要陸域區(qū)為研究區(qū),基于研究區(qū)植被覆蓋度、高程、坡度等7個影響因子并采用邏輯回歸模型和隨機森林模型分別對研究區(qū)進行滑坡易發(fā)性評價。現(xiàn)對此研究作結論與討論:
(1) 在研究區(qū)內,邏輯回歸模型和隨機森林模型在研究區(qū)的滑坡易發(fā)性評價中均有一定的預測能力,但受試者工作特征曲線和統(tǒng)計分析結果均表明研究區(qū)中隨機森林模型的預測精度高且泛化能力好;隨機森林模型較邏輯回歸模型更適用于研究區(qū)的滑坡易發(fā)性評價工作。
(2) 研究區(qū)內隨機森林模型滑坡易發(fā)性評價結果中植被覆蓋度、高程為高重要性評價因子,坡向為最低重要性影響因子。這3個影響因子在滑坡易發(fā)性評價中的重要性排序與滑坡發(fā)生機理吻合,且這些因子與其他因子對預測結果的影響成倍數(shù)關系,在區(qū)域滑坡災害風險評估的過程中可通過影響因子的重要性來決定信息獲取的精度。
(3) 本文驗證了基于機器學習算法的滑坡易發(fā)性評價在福州地區(qū)的可行性,可對福州地區(qū)的滑坡防治工作提供科學指導。福州地區(qū)的滑坡以降雨條件下的淺層滑坡為主,因數(shù)據(jù)收集過程的困難,在影響因子選擇中缺乏降雨量影響因子的完整數(shù)據(jù)。在將來的研究工作中,可與相關院所深入合作,以數(shù)據(jù)互通的形式,增加滑坡易發(fā)性評價因子數(shù)量,從而進行更為細致的研究區(qū)區(qū)域滑坡災害風險評估工作。