国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)均值化的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)

2023-06-14 12:41邵大江王金亮周京春角媛梅沙晉明
關(guān)鍵詞:信息量易發(fā)樣本

邵大江,葉 輝,王金亮**,周京春,角媛梅,沙晉明

(1.云南師范大學(xué) 地理學(xué)部,云南 昆明 650500;2.云南省高校資源與環(huán)境遙感重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3.云南省地理空間信息工程技術(shù)研究中心,云南 昆明 650500;4.云南大學(xué) 國(guó)際河流與生態(tài)安全研究院,云南 昆明 650500;5.福建師范大學(xué) 地理科學(xué)學(xué)院,福建 福州 350007)

地質(zhì)災(zāi)害是在自然因素、人文因素或者自然與人為因素共同作用下形成的對(duì)生態(tài)環(huán)境或人類生命財(cái)產(chǎn)造成破壞的地質(zhì)作用或現(xiàn)象[1].常見的如滑坡、泥石流等地質(zhì)災(zāi)害具有突發(fā)性、不可控性、破壞性的特征.頻發(fā)的地質(zhì)災(zāi)害給人類生命財(cái)產(chǎn)安全造成了極大地威脅,開展地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià),可以基于評(píng)價(jià)結(jié)果針對(duì)不同的易發(fā)性等級(jí)提出相應(yīng)的防災(zāi)減災(zāi)對(duì)策[2].

地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)是以地質(zhì)環(huán)境條件為基礎(chǔ),參考地質(zhì)災(zāi)害現(xiàn)狀的靜態(tài)因素,能夠預(yù)測(cè)一定區(qū)域內(nèi)發(fā)生地質(zhì)災(zāi)害的可能性[3].地質(zhì)災(zāi)害評(píng)價(jià)模型,可以籠統(tǒng)地分為非確定性模型以及確定性模型[4].更進(jìn)一步則可分為經(jīng)驗(yàn)?zāi)P?、力學(xué)模型、因子模型[5],其中的因子模型是目前地質(zhì)災(zāi)害評(píng)估的主流方法,是眾多學(xué)者的研究對(duì)象,如信息量法[6]、地理加權(quán)回歸模型等.當(dāng)機(jī)器學(xué)習(xí)在地質(zhì)災(zāi)害預(yù)測(cè)中發(fā)展時(shí),按新的分類法大致可分為以下5 類:機(jī)器學(xué)習(xí)模型、數(shù)理統(tǒng)計(jì)模型、確定性模型、啟發(fā)式模型、基于滑坡編錄的概率模型[7].機(jī)器學(xué)習(xí)在地質(zhì)災(zāi)害的預(yù)測(cè)中,存在處理大量數(shù)據(jù)且對(duì)數(shù)據(jù)相關(guān)性和環(huán)境因素等的關(guān)聯(lián)性沒有過多要求的特點(diǎn).隨著獲取數(shù)據(jù)的便利、計(jì)算能力的提升、模型評(píng)價(jià)算法的日趨完善,機(jī)器學(xué)習(xí)在地質(zhì)災(zāi)害易發(fā)性的評(píng)價(jià)上更加廣泛,如梯度提升樹、人工神經(jīng)網(wǎng)絡(luò)、決策樹、隨機(jī)森林等[8].劉艷輝等[8]利用多種機(jī)器學(xué)習(xí)算法構(gòu)建了青川縣的滑坡災(zāi)害預(yù)警模型,選取2018 年6 月26 日青川縣日常預(yù)警業(yè)務(wù)進(jìn)行實(shí)例校驗(yàn),結(jié)果表明當(dāng)日的17 處災(zāi)害點(diǎn)全部落入預(yù)警區(qū);屠水云等[9]基于確定性系數(shù)模型(Certain Factors,CF)與基于CF 的邏輯回歸模型(Logistic Regression,LR)對(duì)沿河縣進(jìn)行評(píng)價(jià),其評(píng)價(jià)結(jié)果表明CF-LR 耦合模型AUC 提高了0.096,具有更高的精度;李坤等[10]基于隨機(jī)森林模型(Random Forest,RF)和支持向量機(jī)模型(Support Vector Machine,SVM)對(duì)東川區(qū)泥石流易發(fā)性進(jìn)行評(píng)價(jià),發(fā)現(xiàn)2 種機(jī)器學(xué)習(xí)算法結(jié)合流域單元建立的山區(qū)泥石流易發(fā)性評(píng)價(jià)模型均具有很好的準(zhǔn)確性及穩(wěn)定性,其中RF 優(yōu)于SVM 模型;Jin 等[11]利用邏輯回歸模型從時(shí)空角度對(duì)西昌市火災(zāi)后泥石流的易發(fā)性進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果表明隨著時(shí)間變化高易發(fā)區(qū)逐漸減少,人工播種加速了土壤的自我修復(fù);Pal 等[12]基于貝葉斯和樹模型的集成框架評(píng)價(jià)泥石流和滑坡災(zāi)害,研究表明坡度的變量重要度最高,是泥石流、滑坡的主要誘因,并且RF 模型精度最高;Qiu 等[13]利用一種混合機(jī)器學(xué)習(xí)模型,繪制氣候變化下吉隆藏布江流域冰川相關(guān)泥石流易發(fā)性,通過研究發(fā)現(xiàn)研究區(qū)61%的面積具有較高易發(fā)性,同時(shí)確定性因子-遺傳算法(Genetic Algorithm,GA)-支持向量機(jī)(CF-GA-SVM)模型具有相對(duì)較高的魯棒性.

由于單一模型的局限性以及地質(zhì)災(zāi)害的復(fù)雜性,多模型結(jié)合的預(yù)測(cè)方法可以更好地對(duì)研究區(qū)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)做出較準(zhǔn)確的預(yù)測(cè).本文對(duì)南華縣地質(zhì)災(zāi)害易發(fā)性提出相應(yīng)預(yù)防對(duì)策,對(duì)高易發(fā)區(qū)實(shí)施重點(diǎn)防控,對(duì)中低易發(fā)區(qū)加強(qiáng)群測(cè)群防監(jiān)控.

1 研究區(qū)與方法

1.1 研究區(qū)概況南華縣,隸屬于云南省楚雄彝族自治州,位于100°43′27″~101°22′06″E,24°43′34″~25°22′24″N,其東鄰牟定、楚雄市,南接景東、楚雄市,西連彌渡,北毗姚安、祥云,是四川、云南的交通要道,享有“九府通衢”的美稱(圖1).同時(shí),南華縣內(nèi)道路河網(wǎng)交錯(cuò),其中320 國(guó)道、217 省道、楚大高速公路和廣大鐵路穿境而過[14].南華縣地處云南“山”字構(gòu)造的脊柱部分以及滇中高原西部,境內(nèi)最高點(diǎn)海拔2 861 m,最低點(diǎn)海拔963 m,地勢(shì)東南低、西北高,東北丘陵連綿,西南群山迭起,東部和中部地形起伏較為平緩,地形復(fù)雜,山河溝壑相間陳列.地質(zhì)構(gòu)造復(fù)雜,斷層交錯(cuò),其中以洱?!t河斷裂帶居大.全縣年均降水量約843.2 mm,年均溫約14.8 ℃.全縣總面積約為2 343 km2,山區(qū)面積居多,約占96%,森林覆蓋率高達(dá)63.73%,主要的土地利用類型有耕地、灌木林、林地、水域、城鎮(zhèn)用地及其他用地.4 條主要河流分別為龍川江、禮社江、兔街河、馬龍河.因地質(zhì)環(huán)境脆弱,地質(zhì)災(zāi)害頻發(fā),據(jù)南華縣地質(zhì)災(zāi)害詳細(xì)調(diào)查成果顯示,截止2015 年,南華縣共發(fā)育有地質(zhì)災(zāi)害點(diǎn)188 個(gè),單位面積災(zāi)害密度遠(yuǎn)高于其他縣(市).其中崩塌災(zāi)害點(diǎn)4 個(gè)、滑坡災(zāi)害點(diǎn)155 個(gè)、泥石流21 個(gè)、潛在不穩(wěn)定斜坡8 個(gè),其中滑坡占84.2%,為主要地質(zhì)災(zāi)害類型.

圖1 研究區(qū)地理位置及災(zāi)害分布Fig.1 Geographical location and disaster distribution of the study area

因此,本文選取道路、水系、斷層、巖體類型、高程、降雨、土地利用、坡度、坡向、土壤類型、植被覆蓋度共11 個(gè)影響因子作為自變量,采取梯度提升樹算法,主要包括LightGBM(Light Gradient Boosting Machine)、XGBoost(eXtreme Gradient Boosting)、CatBoost(Categorical Boosting)3 種算法,以及基于3S 的信息量模型與地理加權(quán)回歸模型對(duì)其進(jìn)行預(yù)測(cè)評(píng)價(jià),將機(jī)器學(xué)習(xí)輸出結(jié)果投射為發(fā)生概率,取3 種算法均值為其最終結(jié)果,并將信息量模型與地理加權(quán)模型輸出值歸一化,引入接收者操作特征曲線(Receiver Operating Characteristic Curve,ROC)與AUC(Area Under ROC Curve)值檢驗(yàn)各模型預(yù)測(cè)結(jié)果精度.通過各模型的對(duì)比以尋求精度上的提高,以期為提高區(qū)域地質(zhì)災(zāi)害預(yù)報(bào)預(yù)警精度提供參考.

1.2 研究方法

1.2.1 梯度提升樹算法 梯度提升樹算法是由Friedman 等提出的迭代決策樹算法的一種.其基本思想是由多棵決策樹共同決策,最終把所有的樹結(jié)論累加得到最終的答案.其中損失函數(shù)采用平方差來表示,每一棵樹通過學(xué)習(xí)之前的樹的結(jié)論和殘差擬合得到當(dāng)前的樹,其中殘差值為真實(shí)值與預(yù)測(cè)值之差,整個(gè)迭代過程所得到的累加樹即為提升樹[15].梯度提升樹算法可以分為回歸和分類,回歸與分類在思想上并沒有太大的區(qū)別,在研究中采用了分類算法中的二分類,如公式(1):

式中:FM(x)為強(qiáng)學(xué)習(xí)器,F(xiàn)0(x)為初始分類器,M為分類樹總數(shù)量,Jm為葉子節(jié)點(diǎn)個(gè)數(shù),Cm,˙j為最佳葉子節(jié)點(diǎn)擬合值,Rm,j為第m棵回歸樹下的葉子結(jié)點(diǎn).

1.2.1.1 基于梯度提升樹的算法實(shí)現(xiàn) LightGBM、XGBoost、CatBoost 作為基于梯度提升樹算法的3種代表性實(shí)現(xiàn),在各自的算法創(chuàng)新上都具有各自的優(yōu)勢(shì),也曾在各領(lǐng)域獲得過較高的榮譽(yù).

(1)與傳統(tǒng)的GBDT 模型不同,XGBoost 模型采用泰勒二階展開對(duì)損失函數(shù)進(jìn)行優(yōu)化,支持CPU 的多線程并行運(yùn)算,并在損失函數(shù)中加入了正則項(xiàng),使其運(yùn)算效率和泛化能力相比于其他機(jī)器學(xué)習(xí)算法大大提升[16].該算法具有可分布式處理、精度高、可適應(yīng)特征維度高、可移植性、可有效防止過擬合等優(yōu)點(diǎn)[17].

(2)LightGBM 算法的誕生是為了彌補(bǔ)XGBoost的缺陷,解決處理海量數(shù)據(jù)時(shí)存在的問題.其特點(diǎn)是將XGBoost 的level-wise 分裂策略替代為leafwise 分裂策略,使用基于直方圖的決策樹算法.具有優(yōu)化計(jì)算速度與內(nèi)存的使用、稀疏優(yōu)化、準(zhǔn)確率優(yōu)化、網(wǎng)絡(luò)通訊優(yōu)化等優(yōu)勢(shì),并且支持3 種模式并行:特征并行、數(shù)據(jù)并行、投票并行[18].

(3)CatBoost 算法是集成學(xué)習(xí)算法中一種較為新穎的算法,該算法具有獨(dú)特的對(duì)稱樹結(jié)構(gòu),在通過計(jì)算葉子結(jié)點(diǎn)的值構(gòu)造決策樹的過程中,對(duì)特征進(jìn)行了量化的度量[19].自動(dòng)采用特殊的方式處理類型特征;考慮到特征之間的聯(lián)系,采用了組合類別特征,極大地豐富了特征維度;CatBoost 算法的基模型采用了對(duì)稱樹,并且對(duì)于葉子結(jié)點(diǎn)值的計(jì)算方式和傳統(tǒng)的Boosting 算法也有區(qū)別,對(duì)其進(jìn)行優(yōu)化,以防止過擬合.

1.2.1.2 參數(shù)調(diào)節(jié)及評(píng)價(jià)系數(shù) 在Sacikit-learn的梯度提升樹類庫(kù)中,梯度提升樹算法分為回歸類和分類類,參數(shù)基本相同,大致可分為兩類:一類為Boosting 框架參數(shù);另一類是弱學(xué)習(xí)器參數(shù)即CART 回歸樹參數(shù).重要參數(shù)及取值見表1.

表1 重要參數(shù)取值Tab.1 Values of key parameters

判斷機(jī)器學(xué)習(xí)模型好壞的評(píng)價(jià)標(biāo)準(zhǔn),常用AUC 值衡量.接受者操作特征曲線(ROC)又稱為感受性曲線,廣泛應(yīng)用于各種模型精度的檢驗(yàn),通過ROC 曲線可以衡量模型對(duì)正負(fù)類樣本的預(yù)測(cè)能力及可分性,可以作為衡量一個(gè)模型好壞的標(biāo)準(zhǔn).但是ROC 不能說明哪個(gè)分類器的效果更好,而AUC 值定義為ROC 曲線去坐標(biāo)軸圍成的線下面積,該值介于0.5~1.0,AUC 值越高則表明該模型精度越高,預(yù)測(cè)能力越強(qiáng)[20].

在真實(shí)值和預(yù)測(cè)值的關(guān)系中,TP(True Positive)為正樣本分為正例,F(xiàn)N(False Negative)為正樣本分為負(fù)例,TN(True Negative)為負(fù)樣本分為負(fù)例,F(xiàn)P(False Positive)為負(fù)樣本分為正例.設(shè)置不同閾值,計(jì)算不同閾值的真假正類率TPR和FPR,然后以TPR和FPR分別為縱軸與橫軸,生成的曲線即為ROC 曲線[21],TPR與FPR計(jì)算公式如下:

1.2.2 均值運(yùn)算法 雖然梯度提升樹算法的3種實(shí)現(xiàn)有其獨(dú)特的優(yōu)勢(shì),但依然存在不同程度的缺陷.XGBoost 由于每一輪的迭代都需要反復(fù)遍歷讀取整個(gè)訓(xùn)練數(shù)據(jù)集,會(huì)消耗非常多的時(shí)間;其次,預(yù)排序方法對(duì)時(shí)間以及空間的消耗都十分巨大;CatBoost 在沒有包含分類變量時(shí),效果是最差的;LightGBM 容易導(dǎo)致過擬合.在分類的研究過程中,得出Catboost 對(duì)正樣本的預(yù)測(cè)效果最差,但是對(duì)負(fù)樣本的預(yù)測(cè)效果最好,而XGBoost 對(duì)正樣本的預(yù)測(cè)效果最好,對(duì)負(fù)樣本的預(yù)測(cè)效果最差.由于地質(zhì)災(zāi)害是一種多因素多影響力所引起的效應(yīng),單一的模型及算法難以達(dá)到完美的預(yù)測(cè)結(jié)果,因此,對(duì)于當(dāng)前的預(yù)測(cè)模型都有其所不足,應(yīng)結(jié)合各模型相對(duì)應(yīng)的優(yōu)點(diǎn)進(jìn)行預(yù)測(cè),結(jié)合各模型相對(duì)應(yīng)的優(yōu)點(diǎn)進(jìn)行預(yù)測(cè),以達(dá)到預(yù)測(cè)精度的提升.本文將機(jī)器學(xué)習(xí)的3 種算法預(yù)測(cè)結(jié)果轉(zhuǎn)化為概率,求其均值作為該研究區(qū)的地質(zhì)災(zāi)害的發(fā)生概率,以達(dá)到降低單一模型算法不足的問題.

2 數(shù)據(jù)及處理

2.1 數(shù)據(jù)源基于地質(zhì)災(zāi)害統(tǒng)計(jì)數(shù)據(jù)的可獲取性,選擇2015 年南華縣地質(zhì)災(zāi)害詳查數(shù)據(jù),并結(jié)合道路、水系、斷層、巖體類型分布、高程、降雨、土地利用、坡度、坡向、土壤類型和植被覆蓋度等數(shù)據(jù)對(duì)地質(zhì)災(zāi)害易發(fā)性進(jìn)行評(píng)價(jià)研究.行政區(qū)劃、水系、道路分布圖等矢量數(shù)據(jù)來源于全國(guó)地理信息資源目錄服務(wù)系統(tǒng)(https://www.webmap.cn/).災(zāi)害點(diǎn)分布圖(1∶5 萬)、斷層分布圖(1∶20 萬)、巖體類型分布圖(1∶20 萬)、土地利用數(shù)據(jù)(30 m)、NDVI數(shù)據(jù)(1 km)來源于中國(guó)科學(xué)院地理科學(xué)與資源研究所(https://www.igsnrr.ac.cn/).高程數(shù)據(jù)(30 m)從地理空間數(shù)據(jù)云(https://www.gscloud.cn/#page1)獲取,2015 年年降水量數(shù)據(jù)(1 km)從國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)中心(http:www.geodata.cn/)獲取,土壤類型數(shù)據(jù)(1 km)從世界土壤數(shù)據(jù)庫(kù)(http:www.ncdc.ac.cn/portal/metadata/a948627d-4671-4568-b1b6-fe02e302af09)獲取.坡度、坡向數(shù)據(jù)由高程數(shù)據(jù)計(jì)算得到,植被覆蓋度數(shù)據(jù)由NDVI 計(jì)算得到.

2.2 影響因子量化及處理本文基于數(shù)據(jù)可獲取性及前人研究基礎(chǔ),共選取11 個(gè)影響因子(圖2).由于數(shù)據(jù)類型包括連續(xù)型、離散型、以及文本類型,需要對(duì)數(shù)據(jù)進(jìn)行量化處理,便于接下來的模型學(xué)習(xí)計(jì)算.

圖2 南華縣地質(zhì)災(zāi)害的影響因子Fig.2 Impact factors of geological disasters in Nanhua County

如表2 所示,根據(jù)土地利用現(xiàn)狀分類準(zhǔn)則,將南華縣土地利用類型分為6 個(gè)類型;根據(jù)誘發(fā)地質(zhì)災(zāi)害的特點(diǎn)將降水量分為3 個(gè)區(qū)段,56.30%的地質(zhì)災(zāi)害點(diǎn)發(fā)生在900~960 mm 區(qū)段;根據(jù)南華縣巖體類型的物理力學(xué)屬性,將其分為3 種類型[22];根據(jù)美國(guó)農(nóng)業(yè)部所制作的土壤質(zhì)地三角圖,將土壤類型分為3 種類型;根據(jù)地質(zhì)災(zāi)害在不同高程的分布情況將高程設(shè)置為4 個(gè)等級(jí),其中89.30%的地質(zhì)災(zāi)害發(fā)生點(diǎn)發(fā)生在1 600~2 400 m 區(qū)段;利用像元二分法通過歸一化植被指數(shù)提取NDVI 植被覆蓋度數(shù)據(jù),并根據(jù)45%、60%、75%等3 個(gè)閾值將植被覆蓋度劃分為4 種覆蓋類型;利用ArcGIS 軟件處理DEM 獲取坡度及坡向數(shù)據(jù),坡向數(shù)據(jù)分為9個(gè)類型;根據(jù)地質(zhì)災(zāi)害的分布特點(diǎn)將坡度劃分為4個(gè)區(qū)段;利用緩沖區(qū)分析對(duì)道路、水系、斷層3 個(gè)影響因子制作多環(huán)緩沖區(qū),距離設(shè)為500、1 000 m和1 500 m[23].為方便模型計(jì)算,對(duì)數(shù)據(jù)進(jìn)行清洗,并將11 個(gè)已分類的影響因子的不同類映射為0~8 之間的代碼.對(duì)于位于裁剪邊緣而造成影響因子數(shù)據(jù)缺失的地質(zhì)災(zāi)害點(diǎn),在模型預(yù)測(cè)研究中作刪除處理,后續(xù)分析階段加入用做驗(yàn)證.

表2 評(píng)價(jià)因子代碼表Tab.2 Table of evaluation factor codes

3 分析與討論

3.1 訓(xùn)練結(jié)果對(duì)南華縣188 個(gè)地質(zhì)災(zāi)害點(diǎn)進(jìn)行機(jī)器學(xué)習(xí)數(shù)據(jù)集制作,根據(jù)前人研究按1∶2 的比例隨機(jī)選取非災(zāi)害點(diǎn),通過數(shù)據(jù)預(yù)處理剔除數(shù)據(jù)缺失點(diǎn),將數(shù)據(jù)集按照3∶7 的比例分為驗(yàn)證集與訓(xùn)練集,訓(xùn)練結(jié)果(表3)顯示XGBoost、LightGBM、CatBoost等3 種梯度提升樹算法準(zhǔn)確率分別為0.828、0.822、0.804,AUC 值分別為0.797、0.789、0.760.由表3可知,3 種算法均具有較高的準(zhǔn)確率,且3 種模型算法均具有較好的精度,適用于南華縣的地質(zhì)災(zāi)害易發(fā)性評(píng)估,其中XGBoost 在準(zhǔn)確性和模型精度上都略高于LightGBM 和CatBoost,但LIghtGBM運(yùn)算時(shí)長(zhǎng)遠(yuǎn)小于XGBoost 和CatBoost.

表3 機(jī)器學(xué)習(xí)訓(xùn)練集結(jié)果Tab.3 Results of machine learning training set

3.2 地質(zhì)災(zāi)害易發(fā)性預(yù)測(cè)結(jié)果本文將整理好的數(shù)據(jù)分別代入3 種機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,將訓(xùn)練好的模型保存并利用ArcGIS 軟件連接研究區(qū)內(nèi)的各個(gè)柵格數(shù)據(jù)點(diǎn)進(jìn)行地質(zhì)災(zāi)害評(píng)估.同時(shí),帶入信息量模型以及地理加權(quán)回歸模型進(jìn)行易發(fā)性評(píng)估,利用自然間斷法對(duì)預(yù)測(cè)結(jié)果劃分為易發(fā)區(qū)和非易發(fā)區(qū)(圖3).

圖3 南華縣地質(zhì)災(zāi)害易發(fā)性預(yù)測(cè)結(jié)果Fig.3 Prediction results of geological hazard susceptibility in Nanhua County

各種模型算法所計(jì)算得到的易發(fā)性評(píng)價(jià)專題圖有些許差異,但對(duì)于易發(fā)區(qū)的預(yù)測(cè)大致相同.總體上,地質(zhì)災(zāi)害易發(fā)區(qū)幾乎遍布南華縣全境,呈現(xiàn)2 種分布情況,即4 條由西北—東南走向的易發(fā)帶與南華縣西南部的易發(fā)區(qū).統(tǒng)計(jì)得到信息量模型預(yù)測(cè)易發(fā)區(qū)面積最大,為1 169.07 km2,占總面積的55.5%;地理加權(quán)回歸模型預(yù)測(cè)易發(fā)區(qū)面積最小,為801.97 km2,占總面積的37.3%.根據(jù)地質(zhì)災(zāi)害詳查數(shù)據(jù),得到各鄉(xiāng)鎮(zhèn)已發(fā)生的地質(zhì)災(zāi)害數(shù)量,如表4 所示地質(zhì)災(zāi)害多發(fā)鄉(xiāng)(鎮(zhèn))主要有一街鄉(xiāng)、馬街鎮(zhèn)、兔街鎮(zhèn),以上鄉(xiāng)(鎮(zhèn))均位于預(yù)測(cè)結(jié)果的易發(fā)區(qū).

表4 南華縣各鄉(xiāng)(鎮(zhèn))地質(zhì)災(zāi)害數(shù)量Tab.4 Number of geological disasters in each township(town) of Nanhua County

基于易發(fā)區(qū)對(duì)預(yù)測(cè)結(jié)果進(jìn)行二次劃分,地質(zhì)災(zāi)害分為非易發(fā)區(qū)、低易發(fā)區(qū)、中等易發(fā)區(qū)、高易發(fā)區(qū)4 個(gè)等級(jí)(圖4).通過二次劃分,可以更加突出機(jī)器學(xué)習(xí)模型與信息量模型在南華縣中部和北部的4 條地質(zhì)災(zāi)害易發(fā)帶以及該縣西南部的1 個(gè)易發(fā)區(qū).“四帶一區(qū)”主要由中等易發(fā)區(qū)和高易發(fā)區(qū)構(gòu)成,結(jié)合所在地理位置,由東北往西南4 條易發(fā)帶分別位于龍川江與杭瑞高速公路相交處、羊草河與南大線相交處、一街河與王湛莊至紅土坡公路相交處、永景線與兔街河相交處,西南易發(fā)區(qū)則位于彌河線、永景線、龍街河相交處,并且“四帶一區(qū)”所處地理位置均有斷層帶、其中“一區(qū)”所處地理位置有5 條斷層帶.根據(jù)圖4(d)所示,相比于機(jī)器學(xué)習(xí)與信息量模型,地理加權(quán)回歸模型對(duì)南華縣東北部的預(yù)測(cè)結(jié)果并沒有出現(xiàn)易發(fā)帶.其原因是詳查數(shù)據(jù)中,該區(qū)域地質(zhì)災(zāi)害發(fā)生點(diǎn)較少,地災(zāi)樣本點(diǎn)的空間分布相對(duì)稀疏,而地理加權(quán)回歸模型更傾向于反映樣本點(diǎn)之間的空間關(guān)系,其結(jié)果則相反:東北部大部分地區(qū)屬于非易發(fā)區(qū),西南部等地屬于地質(zhì)災(zāi)害高易發(fā)區(qū).根據(jù)圖4(f)所示,信息量模型預(yù)測(cè)結(jié)果相對(duì)于機(jī)器學(xué)習(xí)與地理加權(quán)回歸模型預(yù)測(cè)結(jié)果,在東北部出現(xiàn)較多由中等易發(fā)區(qū)和低易發(fā)區(qū)組成的易發(fā)帶,其原因是在西南部地質(zhì)災(zāi)害多發(fā)區(qū)存在多條道路與河流,在信息值的計(jì)算過程中河流與道路被賦予較大的信息熵,從而導(dǎo)致其他影響因子所占權(quán)重降低,因此在東北部形成圍繞道路與河流的易發(fā)帶.

圖4 南華縣地質(zhì)災(zāi)害易發(fā)性分級(jí)預(yù)測(cè)結(jié)果Fig.4 Classification prediction results of geological hazard susceptibility in Nanhua County

根據(jù)詳查地質(zhì)災(zāi)害數(shù)據(jù)統(tǒng)計(jì)得到不同易發(fā)區(qū)災(zāi)害頻數(shù)統(tǒng)計(jì)表(表5)與不同易發(fā)區(qū)面積及災(zāi)害密度統(tǒng)計(jì)圖(圖5).在不考慮自然間斷法的影響下(表5),地理加權(quán)回歸模型高易發(fā)區(qū)已發(fā)生地質(zhì)災(zāi)害數(shù)量最多,有118 個(gè),占南華縣總災(zāi)害數(shù)量62.7%.而信息量模型高易發(fā)區(qū)最少,有56 個(gè),占比29.8%.除信息量模型外,其他模型高易發(fā)區(qū)的災(zāi)害分布均達(dá)到45%以上,其中均值法模型以及地理加權(quán)模型預(yù)測(cè)結(jié)果達(dá)到了50%以上.在非易發(fā)區(qū)中,地理加權(quán)回歸模型已發(fā)生地質(zhì)災(zāi)害數(shù)量最少,有28 個(gè),占比14.9%.而CatBoost 模型非易發(fā)區(qū)地質(zhì)災(zāi)害數(shù)量最多,有41 個(gè),占比21.8%.如圖5 所示,在不同易發(fā)區(qū)的面積變化上,地理加權(quán)回歸模型高易發(fā)區(qū)與非易發(fā)區(qū)面積均高于其他模型,而信息量模型高易發(fā)區(qū)與非易發(fā)區(qū)面積則均低于其他模型.機(jī)器學(xué)習(xí)算法所預(yù)測(cè)的各易發(fā)區(qū)面積無明顯差異.不同模型各易發(fā)區(qū)的災(zāi)害密度變化在非易發(fā)區(qū)與低易發(fā)區(qū)無明顯差異,但在中等易發(fā)區(qū)與高易發(fā)區(qū)變化明顯.

表5 南華縣易發(fā)程度分級(jí)及災(zāi)害頻數(shù)表Tab.5 Classification of susceptibility and disaster frequency in Nanhua County

圖5 南華縣不同災(zāi)害易發(fā)性等級(jí)面積及密度統(tǒng)計(jì)圖Fig.5 Statistical map of area and density of different disaster susceptibility grades in Nanhua County

3.3 卡方檢驗(yàn)卡方檢驗(yàn)是一種用途很廣的計(jì)數(shù)資料的假設(shè)檢驗(yàn)方法[24].該方法主要是比較多個(gè)樣本及分類變量的相關(guān)性,其基本思想是提出一個(gè)無效假設(shè),即期望頻數(shù)與觀察頻數(shù)沒有差別.其計(jì)算結(jié)果稱為統(tǒng)計(jì)量,表示觀察值與理論值的偏離程度,統(tǒng)計(jì)量越小則不拒絕無效假設(shè),表明實(shí)際情況與期望值并無較大差別,統(tǒng)計(jì)量越大則表明比較資料之間具有顯著差異性.通過卡方檢驗(yàn)求得各影響因子統(tǒng)計(jì)量,統(tǒng)計(jì)量大的影響因子與地質(zhì)災(zāi)害的發(fā)生具有較強(qiáng)的相關(guān)性,即各因子對(duì)災(zāi)害發(fā)生的貢獻(xiàn)率(表6).通過統(tǒng)計(jì)量可知,道路、斷層、降水量、水系的數(shù)值遠(yuǎn)高于其他影響因子,說明上述因子與地質(zhì)災(zāi)害發(fā)生的相關(guān)性極大.

表6 影響因子統(tǒng)計(jì)量Tab.6 Statistics of influencing factors

3.4 核密度分析通過核密度(Kernel Density Estimation,KDE)分析可以得到研究對(duì)象的密度變化,客觀準(zhǔn)確地表達(dá)其空間分布狀況.通過卡方檢驗(yàn)得到道路、斷層、水系對(duì)地質(zhì)災(zāi)害的發(fā)生具有較高的相關(guān)性,對(duì)上述3 個(gè)影響因子進(jìn)行線狀要素的核密度分析,通過分析結(jié)果以達(dá)到對(duì)卡方檢驗(yàn)結(jié)果的側(cè)面支撐.本文將核密度估算結(jié)果劃分為低密度、中等密度、高密度3 個(gè)區(qū)段,得到核密度分布圖(圖6).根據(jù)分布結(jié)果可知,南華縣已發(fā)生的地質(zhì)災(zāi)害中,48 個(gè)位于低密度地區(qū)、96 個(gè)位于中密度地區(qū),44 個(gè)位于高密度地區(qū).圖6 結(jié)果顯示,74.5%的地質(zhì)災(zāi)害發(fā)生點(diǎn)位于中高密度地區(qū),其結(jié)果與卡方檢驗(yàn)具有一致性.

圖6 南華縣核密度分析圖Fig.6 Thematic map of kernel density estimation in Nanhua County

3.5 精度分析在剔除位于邊緣影響因子缺失的樣本后,對(duì)南華縣177 個(gè)地質(zhì)災(zāi)害樣本與375 個(gè)非地質(zhì)災(zāi)害樣本的預(yù)測(cè)中,Catboost 對(duì)地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果最差,但是對(duì)非地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果最好;XGBoost 對(duì)地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果最好,對(duì)非地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果僅高于信息量模型.基于3 種梯度算法的均值所預(yù)測(cè)的效果取得了較好的提升,對(duì)正負(fù)樣本的預(yù)測(cè)都得到了較好的增強(qiáng)效果,其預(yù)測(cè)結(jié)果見表7.

表7 分類預(yù)測(cè)結(jié)果Tab.7 Classification prediction results

ROC 曲線[25](圖7)可以作為衡量一個(gè)模型好壞的標(biāo)準(zhǔn),其線下面積定義為AUC 值,可以直觀地衡量模型精度.在南華縣地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)的研究中,各模型AUC 值從高至低依次是均值法、地理加權(quán)回歸模型、XGBoost、LightGBM、Catboost、信息量模型,分別為0.933 7、0.917 4、0.917 1、0.915 4、0.899 9、0.898 1,其中均值法精度較地理加權(quán)回歸模型、XGBoost、LightGBM、Catboost、信息量模型分別提高了1.7%、1.8%、2.0%、3.8%、4.0%.

圖7 ROC 曲線圖Fig.7 ROC curve

3.6 討論(1)在南華縣的地質(zhì)災(zāi)害易發(fā)性預(yù)測(cè)研究中,基于機(jī)器學(xué)習(xí)獲取海量數(shù)據(jù)的原則,未考慮各因子之間的相關(guān)性.6 種模型預(yù)測(cè)結(jié)果表明南華縣地質(zhì)災(zāi)害高易發(fā)區(qū)具有沿河性、沿路性、沿?cái)鄬有缘奶卣?基于這一特征,在研究中通過卡方檢驗(yàn)對(duì)各影響因子進(jìn)行統(tǒng)計(jì)量計(jì)算,結(jié)果顯示道路、斷層、降水量、水系的統(tǒng)計(jì)量遠(yuǎn)高于其他影響因子,即相對(duì)于其他因子,上述因子對(duì)災(zāi)害發(fā)生的貢獻(xiàn)率較大.同時(shí),在此基礎(chǔ)上對(duì)道路、河流、斷層做核密度分析.結(jié)果表明74.5%的地質(zhì)災(zāi)害發(fā)生在中高密度地區(qū),與卡方檢驗(yàn)結(jié)果具有一致性.

(2)通過不同模型預(yù)測(cè)結(jié)果對(duì)比分析,信息量模型在預(yù)測(cè)過程中具有負(fù)擬合現(xiàn)象.其易發(fā)區(qū)面積最大,但是高易發(fā)區(qū)卻面積小,因此高易發(fā)區(qū)地質(zhì)災(zāi)害數(shù)量遠(yuǎn)低于其他模型,并低于中等易發(fā)區(qū),不符合客觀事實(shí).同時(shí)信息量模型忽略了空間差異性,計(jì)算過程容易對(duì)單一因子賦予高熵值,導(dǎo)致高易發(fā)區(qū)較少且集中.在南華縣的研究中對(duì)研究區(qū)整體的河流、道路及斷層賦予了較高的信息熵值,導(dǎo)致東北部出現(xiàn)“假性易發(fā)帶”.

地理加權(quán)回歸模型在研究中傾向于反映樣本點(diǎn)的空間關(guān)系,導(dǎo)致過擬合現(xiàn)象的發(fā)生.其易發(fā)區(qū)面積最小,但是高易發(fā)區(qū)面積卻遠(yuǎn)高于其他模型預(yù)測(cè)結(jié)果,其易發(fā)區(qū)主要集中在高易發(fā)區(qū),所以導(dǎo)致低易發(fā)區(qū)與中等易發(fā)區(qū)面積較少,這也是高易發(fā)區(qū)地災(zāi)數(shù)量過多的原因.非易發(fā)區(qū)面積也明顯高于其他模型預(yù)測(cè)結(jié)果,這一現(xiàn)象說明地理加權(quán)回歸模型的過擬合現(xiàn)象容易造成預(yù)測(cè)結(jié)果兩極化.

基于梯度提升樹算法的3 種模型以及均值法預(yù)測(cè)結(jié)果并未出現(xiàn)明顯異?,F(xiàn)象.其預(yù)測(cè)算法基于各影響因子的綜合特征,進(jìn)行多次迭代計(jì)算,不單獨(dú)賦予其中任何一個(gè)影響因子較高的權(quán)重,從而較少出現(xiàn)單一因子權(quán)重過高的現(xiàn)象,同時(shí)沒有受到各樣本點(diǎn)空間關(guān)系的影響,因此各易發(fā)區(qū)面積及災(zāi)害數(shù)量分布合理.

(3)在以梯度提升樹為主的南華縣地質(zhì)災(zāi)害易發(fā)性對(duì)比分析中,均值法、地理加權(quán)回歸模型、XGBoost、LightGBM、CatBoost、信息量模型等6種模型對(duì)于研究區(qū)的易發(fā)性預(yù)測(cè)具有相似性,高易發(fā)區(qū)主要分布在南華縣南部、中部及北部部分地區(qū),其中一街鄉(xiāng)、兔街鎮(zhèn)、馬街鎮(zhèn)為地質(zhì)災(zāi)害多發(fā)鄉(xiāng)(鎮(zhèn)).但是,在精確程度上均值法的AUC 值達(dá)到最高,為0.933 7,精度較其他5 種模型分別提高了1.7%、1.8%、2.0%、3.8%、4.0%.關(guān)于地質(zhì)災(zāi)害的正負(fù)樣本預(yù)測(cè),Catboost 對(duì)地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果最差,但對(duì)非地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果最好,而XGBoost 對(duì)地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果最好,均值法則對(duì)正負(fù)樣本的預(yù)測(cè)效果都取得了較大的提升.

4 結(jié)論

(1)南華縣地質(zhì)災(zāi)害高易發(fā)區(qū)主要位于南華縣南部、中部及北部部分地區(qū),其空間分布呈現(xiàn)“四帶一區(qū)”現(xiàn)象,即4 條易發(fā)帶與1 個(gè)易發(fā)區(qū).其中一街鄉(xiāng)、兔街鎮(zhèn)、馬街鎮(zhèn)為地質(zhì)災(zāi)害多發(fā)鄉(xiāng)(鎮(zhèn)).

(2)6 種模型對(duì)于研究區(qū)的易發(fā)性預(yù)測(cè)具有相似性,但在精確程度上,均值法的AUC 值達(dá)到最高(0.933 7),精度較其他5 種模型分別提升了1.7%、1.8%、2.0%、3.8%、4.0%.地理加權(quán)回歸模型則容易出現(xiàn)過擬合現(xiàn)象,信息量模型則容易造成單一因子權(quán)重過高現(xiàn)象.在地質(zhì)災(zāi)害正負(fù)樣本的預(yù)測(cè)中,Catboost 對(duì)地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果最差,但對(duì)非地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果最好;XGBoost 對(duì)地質(zhì)災(zāi)害樣本的預(yù)測(cè)效果最好;均值法則對(duì)正負(fù)樣本預(yù)測(cè)精度都取得了較大的提升.

(3)通過卡方檢驗(yàn)以及核密度分析可知,道路、斷層、降水量、水系是南華縣地質(zhì)災(zāi)害發(fā)生的主要影響因子,其地質(zhì)災(zāi)害具有沿河性、沿道路性、沿?cái)鄬有缘奶卣?

猜你喜歡
信息量易發(fā)樣本
機(jī)用鎳鈦銼在乳磨牙根管治療中的應(yīng)用
貴州省地質(zhì)災(zāi)害易發(fā)分區(qū)圖
夏季羊易發(fā)疾病及防治方法
冬季雞腸炎易發(fā) 科學(xué)防治有方法
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
基于信息理論的交通信息量度量
推動(dòng)醫(yī)改的“直銷樣本”
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
如何增加地方電視臺(tái)時(shí)政新聞的信息量
村企共贏的樣本