基于機(jī)器學(xué)習(xí)法的青藏高原沙魯里山系中段雪崩易發(fā)性評(píng)價(jià)研究

2022-02-12 08:31巫錫勇趙思遠(yuǎn)周桂宇孟少偉孫春衛(wèi)

冰川凍土 2022年6期

文洪，巫錫勇，趙思遠(yuǎn)，邊瑞，周桂宇，孟少偉，孫春衛(wèi)

（1.宜賓學(xué)院智能制造學(xué)部，四川宜賓 644007；2.西南交通大學(xué) 地球科學(xué)與環(huán)境工程學(xué)院，四川成都 611756；3.四川大學(xué) 水利水電學(xué)院水力學(xué)與山區(qū)河流開發(fā)保護(hù)國家重點(diǎn)實(shí)驗(yàn)室，四川成都 610065；4.中鐵二院工程集團(tuán)有限責(zé)任公司，四川成都 610031）

0 引言

雪崩是指多雪山區(qū)積雪在重力驅(qū)動(dòng)下快速向下崩落的現(xiàn)象［1］，由其引發(fā)的直接災(zāi)害或鏈生災(zāi)害對人類生命、建筑環(huán)境、交通、生態(tài)系統(tǒng)構(gòu)成嚴(yán)重威脅［2］。中生代中期以來，青藏高原經(jīng)歷了多次強(qiáng)烈的隆升和夷平作用，不僅為雪崩發(fā)育創(chuàng)造了有利的地形條件，也改變了周圍的大氣環(huán)流形勢和氣候緯向地帶性分布［3］，為雪崩發(fā)育提供了有利的氣象條件。自1960年以來，青藏高原以全球兩倍的升溫速率持續(xù)變暖，預(yù)計(jì)在本世紀(jì)末“亞洲水塔”氣溫將激增4 ℃［4］。持續(xù)的氣候變暖一方面使得極端降水事件更加頻繁、降水強(qiáng)度增大，另一方面使得冰雪融化速率加劇，導(dǎo)致雪崩事件顯著增加［5］。目前青藏高原周緣形成了喜馬拉雅南坡雪崩區(qū)、藏東南雪崩區(qū)、川西滇西北雪崩區(qū)等［6］，愈發(fā)頻繁的雪崩災(zāi)害引起了學(xué)界和公眾越來越多的關(guān)注［7-9］。快速、有效地獲得雪崩發(fā)育位置與雪崩易發(fā)區(qū)域，是后續(xù)進(jìn)行雪崩針對性防災(zāi)減災(zāi)的基礎(chǔ)性工作。因此，探索構(gòu)建一套科學(xué)合理、有效易行的雪崩易發(fā)性評(píng)價(jià)體系，是應(yīng)對雪崩災(zāi)害風(fēng)險(xiǎn)增加的必然需求，對青藏高原的城鄉(xiāng)規(guī)劃以及川藏鐵路等重大工程建設(shè)均具有十分重要的意義。

瑞士等多雪國家根據(jù)雪崩頻率和沖擊力建立雪崩風(fēng)險(xiǎn)分區(qū)和制圖標(biāo)準(zhǔn)［10］，并在此基礎(chǔ)上根據(jù)雪崩的風(fēng)險(xiǎn)程度對山區(qū)進(jìn)行土地利用規(guī)劃與管理。該標(biāo)準(zhǔn)已廣泛應(yīng)用于俄羅斯、加拿大、美國等歐美雪崩多發(fā)的國家［11-13］，并將雪崩風(fēng)險(xiǎn)降低到可接受水平。這種雪崩風(fēng)險(xiǎn)區(qū)劃和制圖標(biāo)準(zhǔn)依賴于長期觀測數(shù)據(jù)的積累。然而，青藏高原極端惡劣的工作條件為詳細(xì)的野外雪崩監(jiān)測造成了極大的制約和巨大的成本，無法有效支撐青藏高原雪崩災(zāi)害的大面積風(fēng)險(xiǎn)區(qū)劃工作，因此需要一套能在區(qū)域上快速對青藏高原進(jìn)行風(fēng)險(xiǎn)識(shí)別和區(qū)劃的方法，使重大雪崩災(zāi)害點(diǎn)的監(jiān)測布置以及災(zāi)害防治更具針對性。近年隨著人工智能的快速發(fā)展，機(jī)器學(xué)習(xí)算法已被許多研究者應(yīng)用于地震預(yù)測、地下水儲(chǔ)量變化預(yù)測、降水?dāng)?shù)據(jù)訂正、滑坡易發(fā)性制圖等領(lǐng)域［14-18］。機(jī)器學(xué)習(xí)算法在災(zāi)害易發(fā)性評(píng)價(jià)方面的引入，彌補(bǔ)了傳統(tǒng)二元統(tǒng)計(jì)方法工作量大、主觀性強(qiáng)、預(yù)測結(jié)果精度低等缺點(diǎn)，為災(zāi)害預(yù)測和預(yù)防提供了重要的理論方法［19-20］。而對于雪崩觀測記錄檔案短缺的地區(qū)，基于遙感解譯和野外調(diào)查所獲得的學(xué)習(xí)樣本數(shù)據(jù)庫，采用機(jī)器學(xué)習(xí)算法開展雪崩易發(fā)性評(píng)價(jià)和制圖，可為區(qū)域性的災(zāi)害風(fēng)險(xiǎn)預(yù)估提供重要參考。已有部分研究嘗試將機(jī)器學(xué)習(xí)算法應(yīng)用于區(qū)域雪崩的遙感自動(dòng)檢測［21］、雪崩搬運(yùn)物質(zhì)易發(fā)性評(píng)價(jià)［22］、雪崩易發(fā)性制圖［23-25］，但目前對青藏高原極端地形條件和氣象條件控制下的雪崩易發(fā)性認(rèn)識(shí)仍有不足，機(jī)器學(xué)習(xí)算法在青藏高原雪崩易發(fā)性評(píng)價(jià)的適用性，還有待深入研究。

本文通過遙感解譯和野外調(diào)查驗(yàn)證，識(shí)別了青藏高原沙魯里山系中段山區(qū)536 處雪崩，構(gòu)建了研究區(qū)的雪崩空間數(shù)據(jù)庫，在此基礎(chǔ)上根據(jù)雪崩發(fā)育對地形地貌、氣候氣象、積雪特性等各因素的響應(yīng)特征，采用GIS、遙感等定量化提取技術(shù)并通過方差膨脹因子（VIF）篩選出14個(gè)控制雪崩時(shí)空分異發(fā)育的評(píng)價(jià)因子，采用支持向量機(jī)（SVM）、決策樹（DT）、多層感知器（MLP）、K 最鄰近法（KNN）共4種機(jī)器學(xué)習(xí)方法獲取雪崩易發(fā)性指數(shù)圖，驗(yàn)證機(jī)器學(xué)習(xí)算法在青藏高原這類雪崩記錄檔案資料短缺的多雪山區(qū)的適用性，同時(shí)為當(dāng)?shù)匮┍罍p災(zāi)防災(zāi)指出重點(diǎn)設(shè)防區(qū)域。

1 研究區(qū)概況

1.1 自然地理環(huán)境概況

沙魯里山系位于四川省西部，屬青藏高原東部橫斷山區(qū)北端中部山脈，呈南北走向［圖1（a）］，海拔多在4 000 m 以上，為無數(shù)縱橫交錯(cuò)的峽谷、河谷所組成的巨大山原，主要高峰有雀兒山（6 168 m）、格聶山（6 204 m）、海子山夏塞峰（5 833 m）等。本文選取的研究區(qū)沙魯里山系中段西側(cè)以金沙江為界，東至理塘縣喇嘛埡鄉(xiāng)附近，北達(dá)白玉縣蓋玉鎮(zhèn)附近，南到巴塘縣波密鄉(xiāng)附近，總面積約7 124.46 km2。G318國道（川藏公路）、川藏鐵路自東向西橫穿研究區(qū)［圖1（b）］。

圖1 研究區(qū)地理位置圖Fig.1 Location of study area

研究區(qū)地貌大體上是以和緩起伏的高原夷平面作為基礎(chǔ)，這與構(gòu)造隆升強(qiáng)烈、河流不斷下切的喜馬拉雅山和念青唐古拉山的地貌格局顯著不同。夷平面海拔約4 500～4 700 m。夷平面以下河谷發(fā)育，多寬谷，山麓及斜坡上是茂密的高原森林，寬谷底部是彎曲的河道和密集的沼澤草甸。夷平面以上的古蝕殘余山海拔多在6 000 m 左右，峰頂終年積雪，是古代和現(xiàn)代冰川發(fā)育的中心，山脊呈刃狀，坡壁地形復(fù)雜，存在大量海拔較高的、基巖裸露的常年積雪或季節(jié)性積雪區(qū)域。這些夷平面上的山嶺相對高差多在500～1 500 m 之間，也是雪崩賴以發(fā)育的地形基礎(chǔ)。由于海拔高度、南北走向的山脈和大氣環(huán)流的影響，研究區(qū)屬高山高原氣候，太陽輻射強(qiáng)，日溫差大，降水季節(jié)分布不均，具有垂直分布明顯和區(qū)域性差異大的特點(diǎn)。據(jù)毗鄰的理塘縣氣象站（海拔3 948.9 m）監(jiān)測數(shù)據(jù)，平均氣溫3.0 ℃，極端最高氣溫25.6 ℃，最低氣溫-30.6 ℃，年平均地面溫度5.9 ℃，年降雨量為722.2 mm。研究區(qū)降水主要集中于6、7、8 三個(gè)月，季節(jié)性雪崩區(qū)固態(tài)降水量約300 mm 左右，積雪層中深霜較為發(fā)育［26］，為雪崩的發(fā)生提供了豐富的物質(zhì)條件。

1.2 雪崩編目數(shù)據(jù)庫

雪崩運(yùn)動(dòng)過程不僅使積雪受到擾動(dòng)、污染，在光譜上呈現(xiàn)明顯的變化，還影響植物群落的發(fā)育和分布，形成了區(qū)別于其他高海拔地區(qū)自然災(zāi)害的遙感解譯特征［27-29］。主要有雪崩溝槽、雪崩碎屑尾、雪崩巨礫舌等地貌標(biāo)志，植被缺失、植被群落改變等植被標(biāo)志，以及雪崩雪堆光譜變化等。通過遙感解譯，輔以野外調(diào)查驗(yàn)證［圖2（a）、2（b）］，可建立較為完整的雪崩編目數(shù)據(jù)庫。

圖2 雪崩遙感解譯與分布圖Fig.2 Snow avalanche distribution based on remote sensing interpretation

本文采用的遙感數(shù)據(jù)源主要有Landsat 5、7、8等。ALOS DSM（12.5 m 分辨率）用于雪崩地形地貌校驗(yàn)，冰川編目數(shù)據(jù)用于剔除高海拔區(qū)域的冰川這類在遙感影像上容易混淆的地物。筆者自2018年11 月以來，先后5 次到研究區(qū)開展現(xiàn)場調(diào)查。其中，前2次主要開展雪崩發(fā)育特征調(diào)查，結(jié)合文獻(xiàn)資料，梳理形成雪崩堆積體光譜變化標(biāo)志、雪崩地貌標(biāo)志、雪崩活動(dòng)區(qū)域植被分布特征等雪崩遙感解譯標(biāo)志；后3 次現(xiàn)場調(diào)查主要是開展遙感解譯結(jié)果的現(xiàn)場驗(yàn)證。在遙感解譯中獲得了562 個(gè)解譯結(jié)果，通過野外調(diào)查驗(yàn)證，剔除了26 個(gè)錯(cuò)誤樣本。這26個(gè)錯(cuò)誤樣本主要為巖崩，其地貌單元與雪崩有一定的相似之處，在積雪覆蓋時(shí)容易被錯(cuò)誤識(shí)別為雪崩。最終，獲得536 處雪崩樣本數(shù)據(jù)［圖2（c）］。通過GIS隨機(jī)生成與雪崩樣本同等數(shù)量的隨機(jī)點(diǎn)作為非雪崩樣本（536 個(gè)），組成共計(jì)1 072 個(gè)樣本的數(shù)據(jù)集。其中，隨機(jī)抽取846 個(gè)（80%）樣本用于機(jī)器學(xué)習(xí)建模，余下226 個(gè)（20%）樣本用于模型檢驗(yàn)，訓(xùn)練樣本和檢驗(yàn)樣本中的雪崩樣本和非雪崩樣本數(shù)量相同。

2 評(píng)價(jià)因子篩選與易發(fā)性評(píng)價(jià)模型

2.1 評(píng)價(jià)單元選擇

評(píng)價(jià)單元是雪崩易發(fā)性評(píng)價(jià)因子定量提取、易發(fā)性評(píng)價(jià)計(jì)算最基礎(chǔ)的單元。確定評(píng)價(jià)單元是區(qū)域雪崩易發(fā)性評(píng)價(jià)的一個(gè)重要步驟［30-31］。目前，易發(fā)性評(píng)價(jià)單元有柵格單元、斜坡單元、行政單元等。柵格單元?jiǎng)澐趾唵我仔?、客觀且準(zhǔn)確性高。因此，本文選取柵格單元作為評(píng)價(jià)分析單元。此外，柵格尺寸大小直接影響易發(fā)性評(píng)價(jià)結(jié)果的精度。考慮到研究區(qū)實(shí)際情況，選取100 m×100 m的柵格單元，共計(jì)713 033個(gè)柵格單元。

2.2 評(píng)價(jià)因子提取與篩選

雪崩形成的影響因素很多，包括積雪厚度、雪晶大小與形狀、含水率、密度、雪層結(jié)構(gòu)、硬度、雪溫與溫度梯度、海拔、相對高差、坡度、坡向、植被類型與覆蓋率、風(fēng)速、風(fēng)向、降雪等［1］。從總體上來說，這些影響因素可以歸納為地形地貌、氣候氣象、積雪特性及其他因素。評(píng)價(jià)因子的提取應(yīng)考慮到因子的代表性，及其能否較全面的反映雪崩形成條件、能否定量化表達(dá)等［30，32］。因此，選取了以下17 個(gè)可定量化提取因素，包含：海拔、坡度、坡向、地面曲率、地形起伏度、地面粗糙度、地表切割深度、高程變異系數(shù)、地形濕度指數(shù)、植被覆蓋指數(shù)、水系（距河流距離）、斷層（距斷層距離）、平均年降雪量、平均年降雪日數(shù)、1 月平均氣溫、年最大積雪深度、地表覆蓋類型。其數(shù)據(jù)源如表1所示。

表1 評(píng)價(jià)因子及數(shù)據(jù)源Table 1 Evaluate factors and data sources

易發(fā)性因子的篩選需要考慮到評(píng)價(jià)因子之間的多重共線性。多重共線性是指模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使結(jié)果不夠客觀準(zhǔn)確［33］。本文采用方差膨脹因子（VIF）檢驗(yàn)評(píng)價(jià)因子之間的多重共線性，篩選出更準(zhǔn)確的評(píng)價(jià)因子。VIF 的取值大于1，VIF 值越接近于1，多重共線性越輕，反之越重。通常以10作為判斷邊界。當(dāng)VIF＜10，不存在多重共線性；當(dāng)10≤VIF＜100，存在較強(qiáng)的多重共線性；當(dāng)VIF≥100，存在嚴(yán)重多重共線性［34］。通過提取訓(xùn)練數(shù)據(jù)集及各樣本的所有評(píng)價(jià)因子的值進(jìn)行共線性診斷，結(jié)果如圖3所示。依次剔除VIF值最大的因子（平均年降雪量、海拔、地形起伏度），最終篩選出因子為：坡度、坡向、地表曲率、地面粗糙度、地表切割深度、高程變異系數(shù)、地形濕度指數(shù)、植被覆蓋指數(shù)、水系、斷層、平均年降雪日數(shù)、1 月平均氣溫、最大積雪厚度、地表覆蓋類型，共計(jì)14個(gè)評(píng)價(jià)因子。在被剔除的因子中，平均年降雪量與海拔相關(guān)性較強(qiáng)，同時(shí)，又與最大積雪厚度存在較強(qiáng)的正相關(guān)關(guān)系，因而存在嚴(yán)重多重共線性；坡度、坡向、地表曲率、地形起伏度等地形地貌因子均為DSM 基礎(chǔ)數(shù)據(jù)通過GIS 空間分析獲得，因而檢驗(yàn)出海拔、地形起伏度兩個(gè)存在多重共線性的因子。最終選定的各評(píng)價(jià)因子VIF值均小于10，其中最大值為7.205，最小值為1.014，滿足多重共線性分析的要求。

圖3 雪崩評(píng)價(jià)因子選擇過程Fig.3 The Selection process of snow avalanche conditioning factors

2.3 評(píng)價(jià)模型

2.3.1 支持向量機(jī)（SVM）

SVM（Support Vector Machine）是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的重要監(jiān)督學(xué)習(xí)二值分類器模型，已被廣泛用于解決線性和非線性問題［35］。SVM的基本原理是通過預(yù)先選擇的非線性關(guān)系將輸入向量映射到高維特征空間，并在該空間中尋找最優(yōu)分類超平面，使兩類之間的分類區(qū)間最大化［36］，這個(gè)映射關(guān)系如下。

式中：ω是高維空間超平面的特征向量；φ是低維空間到高維空間變換的映射函數(shù)；b是閾值。

SVM 的關(guān)鍵是核函數(shù)的構(gòu)造。核函數(shù)主要用于度量相似性，包括Sigmoid 核函數(shù)、徑向基核函數(shù)（RBF）、多項(xiàng)式核函數(shù)、線性核函數(shù)等。通過RBF可以將樣本映射到高維空間，對非線性樣本的預(yù)測和分析有很好的效果［37］。雪崩易發(fā)性評(píng)價(jià)是一個(gè)典型的受多種因素影響的非線性問題。因此，本文選擇RBF 作為核函數(shù)。RBF 的表現(xiàn)主要受懲罰因子C和徑向基函數(shù)參數(shù)γ的影響。

2.3.2 決策樹（DT）

DT（Decision Tree）是一種用于分類和回歸的非參數(shù)有監(jiān)督學(xué)習(xí)方法，其目標(biāo)是創(chuàng)建一個(gè)模型，通過學(xué)習(xí)從數(shù)據(jù)特性中推斷出的簡單決策規(guī)則來預(yù)測目標(biāo)變量的值［38］。本文采用Python 調(diào)用“Scikit-learn”庫［39］中的決策樹算法。Scikit-learn 中的決策樹算法使用的是CART 算法的優(yōu)化版本，其特征選擇是基于信息熵或者基尼系數(shù)實(shí)現(xiàn)的。

信息熵反應(yīng)的是信息雜亂程度，信息越雜亂（越不純），則信息熵越大；反之，信息熵越小?；嵯禂?shù)在簡化模型的同時(shí)還保留了熵模型的優(yōu)點(diǎn)?；嵯禂?shù)代表了模型的不純度?；嵯禂?shù)越小，不純度越低，特征越好。這和信息增益（率）正好相反。此外，在不加限制的情況下，決策樹會(huì)生長到衡量不純度的指標(biāo)最優(yōu)，或者直到?jīng)]有更多的特征可用為止。這樣的決策樹往往會(huì)產(chǎn)生過擬合問題。為了讓決策樹有更好的泛化性，需對決策樹進(jìn)行剪枝，主要涉及到限制樹的最大深度、內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)、葉子節(jié)點(diǎn)最少樣本數(shù)等參數(shù)。

2.3.3 多層感知器（MLP）

MLP（Multilayer Perceptron）是一種前饋的人工神經(jīng)網(wǎng)絡(luò)模型，它將多個(gè)輸入數(shù)據(jù)集映射到單個(gè)輸出數(shù)據(jù)集（圖4）。單層感知器只能學(xué)習(xí)線性函數(shù)，而MLP也可以學(xué)習(xí)非線性函數(shù)［40］，適用于雪崩易發(fā)性評(píng)價(jià)這類非線性問題。MLP 的參數(shù)主要有隱藏層中的神經(jīng)元數(shù)量、激活函數(shù)類型等。激活函數(shù)的作用是將非線性引入神經(jīng)元的輸出。MLP 可使用任何形式的激活函數(shù)，但是為了使用反向傳播算法進(jìn)行有效學(xué)習(xí)，激活函數(shù)必須限制為可微函數(shù)。常用的激活函數(shù)有Sigmoid、Tanh和ReLU等函數(shù)。

圖4 MLP模型結(jié)構(gòu)示意圖Fig.4 Schematic diagram of MLP model structure

2.3.4 K最鄰近法（KNN）

KNN（K-nearest neighbor）是一種通過找到在距離上離待分類樣本最近的一些訓(xùn)練樣本，并從這些樣本中預(yù)測待分類樣本標(biāo)簽的方法［41］。在分類決策中，KNN 只根據(jù)最近的一個(gè)或多個(gè)訓(xùn)練樣本的類別來預(yù)測待分類樣本的類別。KNN 方法思路簡單，易于實(shí)現(xiàn)，不足之處是計(jì)算量較大，因?yàn)樾枰獙γ恳粋€(gè)待分類的樣本都要計(jì)算它到全體訓(xùn)練樣本的距離，才能求得它的k個(gè)最鄰近點(diǎn)。KNN 主要依賴于周圍有限的相鄰樣本，k值的最佳選擇是高度依賴于數(shù)據(jù)的。較大的k會(huì)抑制噪聲的影響，但使分類邊界不那么清晰。一般來說，KNN 分類算法包括以下四個(gè)步驟［41］：

①準(zhǔn)備數(shù)據(jù)并對數(shù)據(jù)進(jìn)行預(yù)處理；

②計(jì)算待分類點(diǎn)與其他訓(xùn)練樣本點(diǎn)之間的距離；

③對每個(gè)距離排序，然后選擇距離最小的k個(gè)點(diǎn)；

④根據(jù)少數(shù)服從多數(shù)的原則，將待分類點(diǎn)劃分為k個(gè)點(diǎn)中占比最高的類別。

2.4 模型精度檢驗(yàn)

2.4.1 Kappa系數(shù)

Kappa 系數(shù)檢驗(yàn)是一種用混淆矩陣檢驗(yàn)?zāi)Ｐ皖A(yù)測結(jié)果與實(shí)際值一致性的方法。Kappa 系數(shù)檢驗(yàn)是用混淆矩陣來計(jì)算Kappa 系數(shù)，將驗(yàn)證數(shù)據(jù)集中的雪崩樣本標(biāo)記為1，非雪崩樣本標(biāo)記為0，模型的預(yù)測值與實(shí)際值的關(guān)系如表2所示。

表2 實(shí)際值與預(yù)測值關(guān)系的二進(jìn)制表Table 2 Binary table of the relationship between actual and predicted values

Kappa系數(shù)的計(jì)算公式如下：

其中Pa為模型預(yù)測中正確劃分的樣本數(shù)與總樣本數(shù)之比，計(jì)算公式如下：

Pe為所有分類中預(yù)測樣本數(shù)與實(shí)際樣本數(shù)的乘積之和與總樣本數(shù)的平方之比，計(jì)算公式為：

Kappa 系數(shù)值域在-1 到1 之間，該值通常大于0。數(shù)值越大，說明評(píng)價(jià)模型的準(zhǔn)確性越高［42-43］。Kappa系數(shù)各數(shù)值區(qū)間以及意義詳見表3。

表3 Kappa系數(shù)和AUC值域區(qū)間及意義Table 3 The ranges of Kappa coefficient and AUC and their significance

2.4.2 ROC曲線

ROC 曲線（Receiver Operating Characteristic curve）是根據(jù)X軸上的真陽性率（敏感度）和Y軸上的假陽性（1-特異性）在不同閾值處生成的圖形來直觀表示模型評(píng)價(jià)精度。敏感度和特異性實(shí)質(zhì)上表示模型正確判斷雪崩和非雪崩的概率，但這兩個(gè)指標(biāo)并不能顯示模型性能的整體準(zhǔn)確性，所以一般采用AUC（Area Under Curve）值來檢驗(yàn)?zāi)Ｐ途?。AUC 值是指ROC 曲線與坐標(biāo)軸圍成的面積，是計(jì)算二值分類器性能的評(píng)價(jià)指標(biāo)。AUC 的值域?yàn)椋?，1］，當(dāng)AUC 值越接近1 表明模型預(yù)測準(zhǔn)確性越高［44-45］，其各數(shù)值區(qū)間及意義詳見表3。整個(gè)評(píng)價(jià)過程如圖5所示。

圖5 雪崩易發(fā)性評(píng)價(jià)流程圖Fig.5 Flow chart of snow avalanche susceptibility evaluation

3 雪崩易發(fā)性評(píng)價(jià)結(jié)果與討論

3.1 雪崩易發(fā)性指數(shù)

通過GIS 平臺(tái)將訓(xùn)練樣本和驗(yàn)證樣本的各評(píng)價(jià)因子的值提取出來，借助于Python 語言調(diào)用“Scikit-learn”庫［39］中的SVM、DT、MLP 和KNN 算法進(jìn)行運(yùn)算，同時(shí)調(diào)用網(wǎng)格搜索（Grid search）算法進(jìn)行參數(shù)尋優(yōu)。運(yùn)算結(jié)束后，將結(jié)果導(dǎo)入GIS 中輸出柵格。在SVM 模型中，通過網(wǎng)格搜索獲得了最優(yōu)超參數(shù)：C 為1，γ 為0.1。將研究區(qū)各柵格單元的評(píng)價(jià)因子引入評(píng)價(jià)模型，計(jì)算易發(fā)性指數(shù)。最后得到雪崩易發(fā)性指數(shù)圖如圖6（a）所示，其值域?yàn)椋?，0.964］。DT 模型對輸入樣本進(jìn)行訓(xùn)練之后自動(dòng)構(gòu)建分類規(guī)則，確定了不同分類特征及其閾值。經(jīng)過調(diào)參尋優(yōu)，形成了基于信息熵的分枝方法，最大深度為3 層、分割內(nèi)部節(jié)點(diǎn)所需的最小樣本數(shù)為25、葉子節(jié)點(diǎn)上的最小樣本數(shù)為17 的決策樹。該模型雪崩易發(fā)性指數(shù)圖如圖6（b）所示，其值域?yàn)椋?，815］。在MLP 模型中，通過調(diào)參尋優(yōu)，構(gòu)造了1個(gè)包含1 個(gè)輸入層、1 個(gè)隱含層和1 個(gè)輸出層的3 層網(wǎng)絡(luò)，形成30 個(gè)神經(jīng)元，激活函數(shù)為Tanh。該模型雪崩易發(fā)性指數(shù)如圖6（c）所示，其值域?yàn)椋?，995］。在KNN 模型中，通過網(wǎng)格搜索調(diào)參，獲得了最優(yōu)超參數(shù)：N_neighbors（KNN 中的“K”）為10，P 為1（曼哈頓距離），Weights（權(quán)重）為Distance（權(quán)重和距離成反比，距離預(yù)測目標(biāo)越近具有越高的權(quán)重）。該模型的雪崩易發(fā)性指數(shù)如圖6（d）所示，其值域?yàn)椋?，1］。

圖6 雪崩易發(fā)性指數(shù)圖Fig.6 Snow avalanche susceptibility index maps

3.2 雪崩評(píng)價(jià)因子重要性分析

通過機(jī)器學(xué)習(xí)算法對訓(xùn)練樣本的訓(xùn)練建模過程中，可以獲得變量的重要性，即評(píng)價(jià)因子的權(quán)重，如圖7 所示。由于不同算法的原理不同，其計(jì)算得出的評(píng)價(jià)因子權(quán)重也并不完全一致。除去KNN 模型中各個(gè)評(píng)價(jià)因子權(quán)重均相同外，其他3 個(gè)模型得到的各評(píng)價(jià)因子權(quán)重在總體上存在著不同程度的類似和差異之處。其中，這3 個(gè)模型中最重要的因子都是1 月平均氣溫。1 月平均氣溫表征了雪崩發(fā)育區(qū)域的冷儲(chǔ)條件，也是區(qū)別于雪崩不易發(fā)區(qū)域的重要特征。DT、MLP 和SVM 模型中重要性排序第2 的因子分別為植被覆蓋指數(shù)、植被覆蓋類型和高程變異系數(shù)，排序第3的因子分別是最大積雪厚度、高程變異系數(shù)和坡度。此外，超過平均數(shù)的因子還有平均降雪日數(shù)、水系。植被覆蓋指數(shù)和植被覆蓋類型涉及到雪崩形成的下墊面狀況，其中裸地、草地等有利于雪崩的形成，茂密的森林是雪崩形成和運(yùn)動(dòng)的主要阻礙。高程變異系數(shù)和坡度體現(xiàn)了局地地形變化，而高差懸殊和適宜的坡度區(qū)間正是積雪等斜坡物質(zhì)運(yùn)動(dòng)形成的必要的地形條件。最大積雪厚度表征了雪崩形成的物質(zhì)（積雪）條件。平均降雪日數(shù)是一年中降雪日數(shù)的總和，從側(cè)面表征了當(dāng)?shù)亟笛?qiáng)度及頻率等，體現(xiàn)了雪崩的物質(zhì)（積雪）來源。

圖7 評(píng)價(jià)因子權(quán)重條形圖Fig.7 Bar chart of evaluation factor weight

3.3 模型精度檢驗(yàn)結(jié)果與對比分析

驗(yàn)證數(shù)據(jù)集通過SVM、DT、MLP 和KNN 四種模型預(yù)測結(jié)果的相關(guān)值及Kappa 系數(shù)如表4 所示。SVM、DT、MLP 和KNN 模型的Kappa 系數(shù)分別為0.720、0.570、0.711 和0.672，除了DT 外，其余的Kappa 系數(shù)均大于0.6，表明SVM、MLP 和KNN 模型對驗(yàn)證數(shù)據(jù)集的預(yù)測結(jié)果與實(shí)際值存在高度的一致性，DT 對驗(yàn)證數(shù)據(jù)集的預(yù)測結(jié)果與實(shí)際值存在中等的一致性。ROC 曲線如圖8 所示。SVM、DT、MLP 和KNN 模型的AUC 值分別為0.912、0.801、0.891 和0.903，均大于0.8，表明SVM 和KNN 模型的預(yù)測精度高，DT 和MLP 模型的預(yù)測精度較高。綜合Kappa 系數(shù)和ROC 曲線檢驗(yàn)的結(jié)果，這4中機(jī)器學(xué)習(xí)算法在雪崩易發(fā)性評(píng)價(jià)上都具有較好或很好的預(yù)測能力，其中SVM 模型的Kappa系數(shù)和AUC值均為最高，為該項(xiàng)雪崩易發(fā)性評(píng)價(jià)精度最佳的模型。

圖8 驗(yàn)證數(shù)據(jù)集ROC曲線Fig.8 ROC curve of prediction rate for the four models with validation dataset

表4 各模型結(jié)果相關(guān)值及Kappa系數(shù)Table 4 Kappa coefficients and relevant values of the prediction results

此外，結(jié)合現(xiàn)場調(diào)查的認(rèn)識(shí)，這4種機(jī)器學(xué)習(xí)算法得到的易發(fā)性指數(shù)圖是合理的。易發(fā)性指數(shù)圖中易發(fā)性指數(shù)較高的區(qū)域主要分布在海拔較高的區(qū)域，在金沙江、巴曲等干熱河谷兩岸區(qū)域的易發(fā)性指數(shù)最低，這與野外調(diào)查中雪崩發(fā)育的區(qū)域基本一致。同時(shí)，易發(fā)性指數(shù)圖還指明了此前遙感解譯中未曾解譯到的部分區(qū)域，有助于研究區(qū)內(nèi)更多雪崩范圍的遙感解譯。機(jī)器學(xué)習(xí)算法在雪崩易發(fā)性建模過程中，對各評(píng)價(jià)因子的值域進(jìn)行解析，建立了基于學(xué)習(xí)樣本的雪崩分類函數(shù)或分類規(guī)則，然后對研究區(qū)內(nèi)各評(píng)價(jià)單元進(jìn)行分類計(jì)算，得到各評(píng)價(jià)單元雪崩易發(fā)分類的原始傾向評(píng)分。理論上，這些結(jié)果也與各評(píng)價(jià)因子的雪崩易發(fā)值域的空間分布疊加結(jié)果基本一致。模型精度結(jié)果也表明了這4種模型均具有較好的預(yù)測精度。因此，這4 種機(jī)器學(xué)習(xí)算法均適用于沙魯里山系雪崩易發(fā)性制圖。

3.4 雪崩易發(fā)性分區(qū)

采用自然間斷法將AUC 值最高的SVM 模型易發(fā)性指數(shù)圖劃分為極高、高、中、低和極低易發(fā)性區(qū)，得到雪崩易發(fā)性區(qū)劃圖（圖9）。其中，極高、高、中、低和極低易發(fā)性區(qū)分別占總面積的13.1%、12.9%、11.1%、17.6%和45.3%。易發(fā)性高的區(qū)域主要分布在格聶山、日拱山等地，多位于夷平面（海拔約4 500～4 700 m）以上，海拔較高。其中，極高易發(fā)區(qū)平均海拔約4 939 m，高易發(fā)區(qū)平均海拔約4 859 m。這些區(qū)域基巖裸露，在雪季多有積雪。研究區(qū)雖然遠(yuǎn)離大洋，但是研究區(qū)南側(cè)的三江并流區(qū)的怒江、瀾滄江、金沙江等深切河谷構(gòu)成了南來濕潤氣流北上的通道。該區(qū)域年均降雪量（300 mm）雖說沒有帕隆藏布流域（約1 000 mm）等地那么大，但是降雪量分布較集中，往往集中在每年降雪最大的2～3 次降雪過程中。特別是在每年春季，孟加拉海水汽順深切河谷北上進(jìn)入研究區(qū)，在高海拔地區(qū)降落大量濕雪，為雪崩的發(fā)生奠定了物質(zhì)基礎(chǔ)。夷平面上的蝕余山經(jīng)過長期的冰川作用、流水作用后，古冰斗和雪蝕洼地地貌發(fā)育，成為良好的儲(chǔ)雪場地。蝕余山的坡度條件為雪崩的運(yùn)動(dòng)提供了足夠的動(dòng)力條件。而在夷平面（海拔約4 500～4 700 m）以下，一方面年平均氣溫較高，年降雪相對較少，特別是在靠近金沙江一側(cè)，為典型的干熱河谷，據(jù)巴塘氣象站監(jiān)測數(shù)據(jù)，年極端最大積雪深度僅4 cm，出現(xiàn)時(shí)間為2006年12月13日；另一方面，山麓及斜坡上多是茂密的高原森林，茂密的森林在強(qiáng)降雪天氣時(shí)能夠在很大程度上阻礙新雪的沉降和再次分配，還能形成錨點(diǎn)，提供抗滑力鎖固積雪層。因而在夷平面高程以下區(qū)域，雪崩并不易發(fā)。

圖9 基于SVM的雪崩易發(fā)性分區(qū)圖Fig.9 Zoning map of snow avalanche susceptibility based on SVM

從雪崩易發(fā)性指數(shù)圖和區(qū)劃圖可以看出，雪崩對現(xiàn)G318 國道（川藏公路）、G215 國道影響較小。王彥龍?jiān)谄鋵Ｖ洞ú毓费┖ρ芯俊分杏涗浀拇ú毓泛Ｗ由綀嚎诙蔚难┖χ饕獮轱L(fēng)吹雪，并無雪崩記錄［26］。此外，川藏鐵路海子山越嶺段線路行走標(biāo)高略低于現(xiàn)G318 國道，且為隧道形式從毛埡草原西側(cè)穿越折多山至德達(dá)附近，其受雪崩影響相較于川藏公路更小。經(jīng)德達(dá)后北上，過茶洛鄉(xiāng)、沙馬鄉(xiāng)等地附近，直至金沙江邊，主要以隧道形式穿行于沙魯里山系中。這一段隧道進(jìn)出口選址高程均較低、周邊植被茂密，受雪崩影響較小。但是，研究區(qū)北部蓋玉鄉(xiāng)前往山巖鄉(xiāng)的越嶺路段、南部波密鄉(xiāng)至巴塘縣的越嶺路段，主要位于雪崩高易發(fā)區(qū)。由于這兩段公路均屬于鄉(xiāng)村公路，行車量較少，且較偏僻，現(xiàn)代通訊不一定覆蓋到，其雪崩活動(dòng)鮮見報(bào)道。不過，在研究區(qū)南部的格聶山主峰附近有2 次關(guān)于雪崩的報(bào)道。其中一次是在2006 年12 月，美國著名登山家查理·福勒（Charlie Fowler）和克里斯汀·博斯科夫（Christine Boskoff）嘗試從格聶東壁攀登的時(shí)候，在5 300 m 的冰川附近遭遇雪崩遇難［46］。另外一次是在2020 年5 月，一只徒步探險(xiǎn)隊(duì)在理塘縣章納鄉(xiāng)老冷古寺附近拍到格聶主峰東坡（99.6409° E，29.8108° N）正在流動(dòng)的溝槽型濕雪崩視頻［圖9（b）、9（c）為該次雪崩視頻截圖］［47］。這兩次雪崩事件均發(fā)生在研究區(qū)內(nèi)夷平面以上海拔較高的人跡罕至的區(qū)域。

4 結(jié)論

本文通過遙感解譯輔以野外調(diào)查驗(yàn)證，構(gòu)建了沙魯里山系中段雪崩編目數(shù)據(jù)庫，借助SVM 等4 種機(jī)器學(xué)習(xí)算法開展雪崩易發(fā)性評(píng)價(jià)，得出以下結(jié)論。

（1）通過遙感解譯識(shí)別雪崩562處，結(jié)合野外調(diào)查驗(yàn)證，剔除了26 個(gè)錯(cuò)誤樣本，共計(jì)獲得536 處雪崩樣本數(shù)據(jù)，建立了較為完整的雪崩編目數(shù)據(jù)庫。選取17個(gè)可定量化提取的評(píng)價(jià)因子，通過方差膨脹因子（VIF）檢驗(yàn)評(píng)價(jià)因子之間的多重共線性，篩選出坡度、坡向、地表曲率等共計(jì)14個(gè)評(píng)價(jià)因子。

（2）采用SVM、DT、MLP、KNN 機(jī)器學(xué)習(xí)算法訓(xùn)練模型，獲得的易發(fā)性指數(shù)分別在［0，0.964］、［0，815］、［0，0.995］、［0，1］范圍內(nèi)，其Kappa 系數(shù)分別為0.720、0.570、0.711 和0.672，AUC 值分別為0.912、0.801、0.891 和0.903。結(jié)果表明這4 種模型均具有較好或很好的預(yù)測精度，適用于沙魯里山系中段雪崩易發(fā)性評(píng)價(jià)，其中SVM 模型的Kappa系數(shù)和AUC 值均為最高，為該項(xiàng)雪崩易發(fā)性評(píng)價(jià)精度最佳的模型。機(jī)器學(xué)習(xí)算法建模過程中獲得的主要影響因子有1 月平均氣溫、植被覆蓋指數(shù)、植被覆蓋類型、高程變異系數(shù)、最大積雪厚度、坡度等。

（3）該區(qū)域雪崩極高、高、中、低和極低易發(fā)性區(qū)分別占總面積的13.1%、12.9%、11.1%、17.6%和45.3%。雪崩極高易發(fā)區(qū)和高易發(fā)區(qū)主要分布在格聶山、日拱山等地，多位于夷平面以上，極高易發(fā)區(qū)平均海拔約4 939 m，高易發(fā)區(qū)平均海拔約4 859 m。雪崩對現(xiàn)G318 國道（川藏公路）、G215 國道影響較小，對橫穿研究區(qū)內(nèi)的川藏鐵路的影響相較于川藏公路更小。但是，研究區(qū)北部蓋玉鄉(xiāng)前往山巖鄉(xiāng)的越嶺路段、南部波密鄉(xiāng)至巴塘縣的越嶺路段主要位于雪崩高易發(fā)區(qū)。該結(jié)果可為橫穿沙魯里山系的川藏鐵路等重大工程建設(shè)的雪崩防災(zāi)減災(zāi)工作提供科學(xué)依據(jù)和方法借鑒。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡