国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器學習模型在滑坡易發(fā)性評價中的應用

2022-01-07 08:02:28劉福臻肖東升
關(guān)鍵詞:南江縣易發(fā)均值

劉福臻,王 靈,肖東升

(西南石油大學土木工程與測繪學院,四川 成都 610500)

0 引言

滑坡是我國西南地區(qū)最為常見的地質(zhì)災害,由于滑坡發(fā)育的復雜性和非線性,目前還沒有一套完全成熟的理論能對其進行有效的防治。而我國西南片區(qū)受地形地貌、地質(zhì)構(gòu)造等復雜環(huán)境的影響,更是為滑坡的發(fā)育提供了有利條件。為加強對西南片區(qū)滑坡的防治和管理,對該區(qū)域進行精確的滑坡易發(fā)性評價具有重要的現(xiàn)實意義。

滑坡易發(fā)性評價主要研究內(nèi)容是:在區(qū)域范圍內(nèi),某一確定位置在確定條件下發(fā)生滑坡的空間概率[1]。作為判斷滑坡危險性和風險性的基礎(chǔ),易發(fā)性評價是防災減災中不可缺少的工作[2]。國內(nèi)外學者對滑坡的易發(fā)性評價開展了一定程度的研究,這些研究大多集中在易發(fā)性模型的選擇以及量化方法上,而少有學者對其非滑坡樣本的選擇進行研究。對于回歸性和預測性模型而言,樣本的選擇通常決定了整個模型的精確性和穩(wěn)定性,若將一些高易發(fā)區(qū)的點位作為了非滑坡的樣本,模型的適用性會大打折扣。為了更加精準的表達滑坡的易發(fā)性分區(qū),有必要對樣本的選擇進行一定程度的研究。

一般認為,滑坡的易發(fā)性評價體系包含評價指標的量化和評價模型的選擇這兩個過程。常用的量化方法有專家打分法[3]、信息量法[4]、證據(jù)權(quán)法[5]、確定性系數(shù)法[6]和頻率比法[7]等。在評價模型上,常用的模型有層次分析法[8]、模糊綜合評判法[9]、灰色理論[10]、粗集理論[11]、分形理論[12]以及近年來發(fā)展迅速的機器學習法[13]。實驗選擇頻率比法作為滑坡易發(fā)性的指標量化方法,該方法從數(shù)據(jù)本身的結(jié)構(gòu)信息出發(fā),打破了人為主觀給分的限制,從而實現(xiàn)了滑坡因子二級屬性的客觀量化。評價模型上,由于機器學習能夠更為準確的反應滑坡易發(fā)性與各評價因子之間的非線性關(guān)系[14],實驗選擇了機器學習中的聚類模型和回歸模型,利用兩個模型的有機結(jié)合,不僅解決了回歸模型中訓練樣本的選擇問題,同時實現(xiàn)了滑坡易發(fā)性指數(shù)與各評價因子之間的非線性回歸。

1 研究區(qū)概況及數(shù)據(jù)源

1.1 研究區(qū)概況

南江縣位于我國四川省巴中市西北部,是巴中連接漢中市的重要交通樞紐。全縣幅員遼闊,總面積3 382.8 km2,是巴中市海拔最高的一個縣,巴中市海拔高度大于1 800 m 的山體90%以上分布在南江縣,且地形起伏大,最高地段海拔達2 493 m,而最低為332 m。復雜多變的地質(zhì)、地貌條件為南江縣帶來了豐富的礦產(chǎn)資源,同時也為地質(zhì)災害的孕育提供了有利條件,其中地質(zhì)災害以滑坡為主。南江縣在巴中市的地理位置及其1958—2009年的歷史滑坡點位置如圖1所示。

圖1 研究區(qū)地理位置及歷史滑坡點分布圖Fig.1 Geographical location of the study area and historical landslide distribution map

1.2 數(shù)據(jù)源

實驗用到的數(shù)據(jù)有南江縣1958—2009年地質(zhì)災害詳查匯總表、南江縣DEM、南江縣 1∶25 萬地質(zhì)圖(表1)。通過DEM 提取出坡度、坡向、坡型、水系和高程的初始狀態(tài)因子。將地質(zhì)圖矢量化后轉(zhuǎn)為柵格數(shù)據(jù),從而獲取地層巖組因子。以上因子全部投影到同一坐標系下,并重采樣為30 m×30 m 的柵格,全區(qū)共分為3 784 091 個柵格,其中滑坡占了359 個。

表1 數(shù)據(jù)源Table 1 Data source

2 模型介紹

2.1 頻率比法

評價因子的量化一直以來都是評價模型中最為重要的一環(huán),通常情況下因子的量化值都是采用專家經(jīng)驗打分,該方法雖然操作簡單快捷,但存在的主觀性太大。文章選擇頻率比法作為量化模型,該模型從統(tǒng)計學原理出發(fā),將歷史滑坡點數(shù)據(jù)和評價因子二級屬性進行疊加分析,從而實現(xiàn)了評價因子的客觀量化,見式(1)。

式中:Xi——因子X在二級屬性i下的頻率比值;

ni——因子X在二級屬性i下的滑坡個數(shù);

si——研究區(qū)內(nèi)因子X在二級屬性i下的柵格個數(shù);

N——研究區(qū)總滑坡個數(shù);

S——研究區(qū)總柵格數(shù)。

2.2 機器學習

機器學習的應用主要包含回歸、分類、聚類和數(shù)據(jù)降維四大領(lǐng)域。各模塊的相互結(jié)合更能突出機器學習的優(yōu)勢。本次實驗將聚類思想和回歸思想相結(jié)合,用于南江縣的滑坡易發(fā)性評價。實驗的算法和數(shù)據(jù)分析通過Python 編程平臺實現(xiàn),空間分析模型和出圖模塊由ArcGIS 平臺完成。通過Python 和ArcGIS 的結(jié)合,可以方便且快速的對地理空間數(shù)據(jù)進行分析。

2.2.1 k 均值聚類

k 均值聚類算法能在沒有先驗數(shù)據(jù)的情況下,對原始數(shù)據(jù)進行初步分類,分類結(jié)果通過后續(xù)的信息補充加以驗證。其思想是,隨機選擇k 個樣本數(shù)據(jù)作為聚類中心,計算出每個樣本與聚類中心的距離,并把相近的樣本作為一類。每分配一個樣本時,聚類中心會根據(jù)當前類中出現(xiàn)的樣本重新計算,反復迭代這一過程,直到聚類中心不再發(fā)生變化為止[15]。

2.2.2 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)算法通過模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能,創(chuàng)建出用于連接輸入端和輸出端的神經(jīng)元。每個神經(jīng)元節(jié)點作為一個激勵函數(shù),傳達不同數(shù)據(jù)之間的交流信息。節(jié)點之間的權(quán)重可類比于生物的記憶功能,通過不斷的學習進而不斷的更新,從而實現(xiàn)類似人一樣的判斷能力[16]。在樣本數(shù)據(jù)足夠完善的情況下,通過神經(jīng)網(wǎng)絡(luò)的訓練學習可以很好的表達出一些復雜的、非線性的模型,因此可將神經(jīng)網(wǎng)絡(luò)模型用于滑坡易發(fā)性指數(shù)的回歸。

2.2.3 支持向量機

支持向量機模型的思想是:將輸入向量根據(jù)一定的法則映射到更高維數(shù)的特征空間,并在該特征空間構(gòu)造一個最優(yōu)分類面,利用最優(yōu)分類面對數(shù)據(jù)進行分類或者回歸,從而實現(xiàn)學習和預測的功能[17]。將支持向量機模型作為神經(jīng)網(wǎng)絡(luò)的對照模型,對比兩個模型在相同訓練集情況下的學習效果,篩選出合適的模型并計算評價結(jié)果。

3 滑坡評價因子量化結(jié)果

滑坡是一個復雜且非線性的系統(tǒng),實驗從滑坡的易發(fā)性角度出發(fā)[1],結(jié)合研究區(qū)概況和專家建議,選擇了坡度、坡向、坡型、水系、巖組、高程和地形起伏共7 個因子。對于連續(xù)數(shù)據(jù),首先通過自然斷點法將數(shù)據(jù)分級,再利用頻率比實現(xiàn)量化,而對于分類數(shù)據(jù)則直接利用頻率比實現(xiàn)量化。量化結(jié)果如表2。

表2 因子量化結(jié)果Table 2 Results of factor quantification

考慮到各因子之間可能存在的相關(guān)性會對結(jié)果產(chǎn)生不利影響,在評價之前對量化的因子進行相關(guān)性分析,結(jié)果見表3。其中地形起伏因子和坡度、巖組、高程的相關(guān)性分別達到了0.61,0.25 和0.27,相關(guān)性過高。而剩余的六個因子之間相關(guān)性都低于0.2,所以實驗選擇剔除地形起伏因子,保留剩余的6 個因子作為南江縣滑坡易發(fā)性的評價因子。

表3 因子相關(guān)性分析結(jié)果Table 3 Results of factor correlation analysis

為方便ArcGIS 成圖,實驗將每個因子的量化值擴大1 000 倍后取整,為每個等級因子配上不同的顏色以區(qū)分,結(jié)果見圖2。

圖2 因子量化結(jié)果Fig.2 Results of factor quantification

4 機器學習的應用

4.1 數(shù)據(jù)預處理

為消除數(shù)據(jù)之間的量綱不一致性,利用標準化操作對數(shù)據(jù)進行特征縮放,使其值落在[0,1]之間。實踐證明,處理后的數(shù)據(jù)不僅能加快機器學習的收斂速度,同時還能提高模型整體精度,保障模型的穩(wěn)定性和可行性。標準化公式如式(2)。

式中:Ni——Xi標 準化后的值;

Xi——因子X在二級屬性i下的頻率比值;

Xmin——Xi量化的最小值;

Xmax——Xi量 化的最大值。

4.2 樣本選取

訓練樣本的質(zhì)量決定著模型整體的穩(wěn)定性,因此,在滑坡樣本的選取上,實驗將359 個滑坡點全部作為樣本數(shù)據(jù),以此來外推出符合滑坡性質(zhì)的柵格點。在非滑坡樣本的選取上,實驗通過隨機選擇和通過k 均值聚類兩種方法篩選非滑坡點。再將非滑坡點和滑坡點的數(shù)據(jù)整合到一起,以此獲得完整的樣本數(shù)據(jù)。

4.2.1 隨機選取非滑坡點

實驗通過隨機選擇研究區(qū)的點位作為非滑坡點,以此來和聚類的結(jié)果作為對照。將隨機選擇的1 000 個非滑坡點和359 個滑坡點整合,再打亂順序,按照7∶3的比例分配訓練集和測試集。

4.2.2 K 均值聚類選取非滑坡點

將因子標準化結(jié)果作為聚類的輸入數(shù)據(jù),采用k 均值聚類算法將原始數(shù)據(jù)分為五大類。為了挑選出非滑坡的樣本點,將聚類結(jié)果和歷史滑坡點進行疊加分析,結(jié)果如表4。統(tǒng)計聚類結(jié)果中滑坡所占的個數(shù)和滑坡所占的相對比例。選擇滑坡所占個數(shù)最少且滑坡所占相對比例最低的聚類結(jié)果作為非滑坡的樣本,由表中可知,聚類結(jié)果為2 的柵格滿足要求,因此從該類中隨機采樣1 000 個點作為非滑坡點。同樣將篩選出來的1 000個非滑坡樣本和359 個滑坡樣本整合,隨機打亂順序,按照7∶3 的比例分配訓練集和測試集。

表4 k 均值聚類統(tǒng)計分析結(jié)果Table 4 Results of k-means clustering statistical analysis

4.3 神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建

通過反復對比實驗,神經(jīng)網(wǎng)絡(luò)模型在構(gòu)建時選擇一個隱含層,且隱含層中設(shè)置13 個神經(jīng)節(jié)點的效果較好。每個神經(jīng)元的激活函數(shù)選擇Logistic 函數(shù),權(quán)重迭代器選擇了基于隨機梯度的優(yōu)化器。將隨機模型和k均值聚類模型生成的數(shù)據(jù)集分別作為神經(jīng)網(wǎng)絡(luò)模型的輸入,保存訓練好的兩個模型以及相應的訓練結(jié)果參數(shù)。

4.4 支持向量機模型的構(gòu)建

支持向量機在模型構(gòu)建時,在核函數(shù)上選擇了能處理非線性特征的多項式核函數(shù)。同時將誤差項的懲罰參數(shù)設(shè)置為1,通過驗證該值能很好的提高模型的預測能力和泛化能力。同理,將隨機模型和k 均值聚類模型生成的數(shù)據(jù)集分別作為支持向量機模型的輸入,保存訓練好的兩個模型以及相應的訓練結(jié)果參數(shù)。

4.5 模型精度驗證及模型選擇

上述的對照實驗,一共保存了4 個模型,對應4 組精度驗證曲線,分別為:(1)通過k 均值聚類算法篩選非滑坡點,以神經(jīng)網(wǎng)絡(luò)為訓練模型,訓練結(jié)果的ROC 曲線ANN_km。(2)通過k 均值聚類算法篩選非滑坡點,以支持向量機為訓練模型,訓練結(jié)果的ROC 曲線SVR_km。(3)通過隨機篩選非滑坡點,以神經(jīng)網(wǎng)絡(luò)為訓練模型,訓練結(jié)果的ROC 曲線ANN_sj。(4)通過隨機篩選非滑坡點,以支持向量為訓練機模型,訓練結(jié)果的ROC 曲線SVR_sj(圖3)。

圖3 訓練集ROCFig.3 Training set ROC

為檢驗模型的穩(wěn)定性和可靠性,將相應的測試集輸入到訓練好的4 個模型,同樣也獲得了對應的4 條ROC 曲線。分別為:ANN_km_t,SVR_km_t ,ANN_sj_t,SVR_sj_t(圖4)。

圖4 測試集ROCFig.4 Test set ROC

由結(jié)果可知,在隨機篩選非滑坡樣本的前提下,神經(jīng)網(wǎng)絡(luò)和支持向量機的訓練精度約為70%,表明兩個模型在一定程度上能反映滑坡的易發(fā)性指數(shù)。在k 均值聚類篩選非滑坡樣本的前提下,神經(jīng)網(wǎng)絡(luò)和支持向量機的訓練精度約為97%和96%,遠高于隨機模型下的訓練精度,由此可知,k 均值聚類和兩個回歸模型的結(jié)合能夠更好的反映滑坡的易發(fā)性指數(shù)。

對比訓練集和測試集的ROC 曲線面積,在相同前提和模型下,訓練集和測試集的精度基本相同,說明以上4 個模型都擁有穩(wěn)定的預測和外推能力。其中在k 均值聚類的前提下,神經(jīng)網(wǎng)絡(luò)及支持向量機的訓練集和測試集精度都高于95%,表明k 均值聚類和兩個回歸模型的結(jié)合不僅能很好的反映滑坡易發(fā)性指數(shù),而且模型具有很好的穩(wěn)定性、泛化性和外推性。實驗最終選擇了訓練精度和穩(wěn)定性都較高的k 均值聚類和神經(jīng)網(wǎng)絡(luò)的結(jié)合模型及k 均值聚類和支持向量機的結(jié)合模型作為評價的基礎(chǔ)。

4.6 易發(fā)性分區(qū)

將研究區(qū)的所有柵格點數(shù)據(jù)分別輸入到保存好的k 均值聚類—神經(jīng)網(wǎng)絡(luò)模型和k 均值聚類—支持向量機模型,以此獲取不同模型下的易發(fā)性指數(shù),再利用自然斷點法根據(jù)易發(fā)性指數(shù)將南江縣分為五個區(qū)域,分別為不易發(fā)、低易發(fā)、中易發(fā)、高易發(fā)和極高易發(fā)(圖5)。其中圖5(a)為在k 均值聚類結(jié)合神經(jīng)網(wǎng)絡(luò)模型得到的結(jié)果;圖5(b)為k 均值聚類結(jié)合支持向量機模型獲得的結(jié)果。兩個模型所得到的分區(qū)結(jié)果在大體上相似,其中不易發(fā)和低易發(fā)區(qū)域集中出現(xiàn)在南江縣北部區(qū)域。高易發(fā)和極高易發(fā)集中出現(xiàn)在南江縣中部。

圖5 易發(fā)性分區(qū)圖Fig.5 Susceptibility zone map

為驗證兩個模型在南江縣整個范圍內(nèi)的適用性,實驗將兩個模型得到的易發(fā)性分區(qū)圖與歷史災害點疊加分析,通過相對滑坡頻率比來驗證模型精度,計算公式如式(3)。

式中:Ai——易發(fā)性分區(qū)i的相對滑坡頻率比;

mi——易發(fā)性分區(qū)i下的滑坡個數(shù);

si——易發(fā)性分區(qū)i的柵格個數(shù);

N——研究區(qū)總滑坡個數(shù);

S——研究區(qū)總柵格數(shù)。

神經(jīng)網(wǎng)絡(luò)模型的精度驗證結(jié)果見表5,支持向量機模型的精度驗證結(jié)果見表6。從結(jié)果中我們可以看出,不管是神經(jīng)網(wǎng)絡(luò)還是支持向量機,兩個模型所得結(jié)果的滑坡點在不易發(fā)到極高易發(fā)的個數(shù)都是遞增的,相應的相對滑坡比也是遞增的。說明兩個模型在研究區(qū)范圍內(nèi)具有穩(wěn)定的適用性。其中神經(jīng)網(wǎng)絡(luò)在極高易發(fā)區(qū)的相對滑坡比高于支持向量機,在不易發(fā)的相對滑坡比低于支持向量機,這表明神經(jīng)網(wǎng)絡(luò)在全局上的精度高于支持向量機。

表5 神經(jīng)網(wǎng)絡(luò)分區(qū)統(tǒng)計結(jié)果Table 5 Partition statistics results of neural network

表6 支持向量機分區(qū)統(tǒng)計結(jié)果Table 6 Partition statistical results of support vector machines

從數(shù)據(jù)的直觀性上我們可初步判定神經(jīng)網(wǎng)絡(luò)的精度優(yōu)于支持向量機,為了更準確的反應兩個模型的精度,實驗用成功率驗證曲線[18]來量化兩個模型在全局的精度,其中橫軸為根據(jù)易發(fā)性指數(shù)從高到低的累計柵格百分比,縱軸為歷史滑坡累計發(fā)生頻率(圖6)。實驗表明神經(jīng)網(wǎng)絡(luò)在全局的精度約為76%,支持向量機的精度約為74%。這也驗證了上述由相對滑坡比所得到的結(jié)論。

圖6 模型全局精度驗證曲線Fig.6 Model's global accuracy verification curve

5 結(jié)論

(1)利用k 均值聚類篩選非滑坡樣本,得到的結(jié)果用于神經(jīng)網(wǎng)絡(luò)和支持向量機兩個模型的訓練,其訓練結(jié)果精度分別為97%和96%,遠高于利用隨機模型篩選滑坡時獲得的訓練精度。

(2)將k 均值聚類算法同神經(jīng)網(wǎng)絡(luò)結(jié)合,得到南江縣的易發(fā)性分區(qū)圖,其中從不易發(fā)到高易發(fā)分區(qū)所占的比例分別為35.24%、17.29%,19.51%,16.56%,11.39%。將k 均值聚類算法同支持向量機結(jié)合,得到了另一份南江縣易發(fā)性分區(qū)圖,其中從不易發(fā)到高易發(fā)分區(qū)所占的比例分別為29.74%,24.93%,21.96%,12.56%,11.11%。兩個模型所得到的分區(qū)結(jié)果在大體上相似,其中不易發(fā)和低易發(fā)區(qū)域集中出現(xiàn)在南江縣北部區(qū)域。高易發(fā)和極高易發(fā)集中出現(xiàn)在南江縣中部。

(3)利用相對滑坡比作為模型的評價指標,其中神經(jīng)網(wǎng)絡(luò)在極高易發(fā)區(qū)的相對滑坡比高于支持向量機,在不易發(fā)的相對滑坡比低于支持向量機,這表明神經(jīng)網(wǎng)絡(luò)在全局上的精度高于支持向量機。為了量化模型的全局精度,采用成功率驗證曲線,結(jié)果表明神經(jīng)網(wǎng)絡(luò)在全局的精度約為76%,支持向量機在全局的精度約為74%。

猜你喜歡
南江縣易發(fā)均值
機用鎳鈦銼在乳磨牙根管治療中的應用
貴州省地質(zhì)災害易發(fā)分區(qū)圖
大眾科學(2022年5期)2022-05-18 13:24:20
夏季羊易發(fā)疾病及防治方法
冬季雞腸炎易發(fā) 科學防治有方法
南江縣近50年(a)降水年變化特征分析
南江縣曼地亞紅豆杉扦插繁育技術(shù)探討
綠色科技(2017年15期)2017-09-01 05:59:00
對南江縣退耕還林工程的調(diào)查分析
均值不等式失效時的解決方法
均值與方差在生活中的應用
關(guān)于均值有界變差函數(shù)的重要不等式
合作市| 玉溪市| 昌黎县| 永宁县| 玉环县| 安溪县| 霍山县| 拉萨市| 松原市| 淮阳县| 台东县| 湾仔区| 苍梧县| 禄丰县| 特克斯县| 公安县| 东兴市| 陆丰市| 邓州市| 铜鼓县| 永丰县| 怀安县| 开鲁县| 当雄县| 荆州市| 德保县| 铁岭县| 南郑县| 上杭县| 格尔木市| 将乐县| 呈贡县| 绥芬河市| 石楼县| 电白县| 镇坪县| 中阳县| 宜阳县| 丰顺县| 林州市| 右玉县|