文 洪,巫錫勇,趙思遠(yuǎn),邊 瑞,周桂宇,孟少偉,孫春衛(wèi)
(1.宜賓學(xué)院 智能制造學(xué)部,四川 宜賓 644007;2.西南交通大學(xué) 地球科學(xué)與環(huán)境工程學(xué)院,四川 成都 611756;3.四川大學(xué) 水利水電學(xué)院 水力學(xué)與山區(qū)河流開發(fā)保護(hù)國家重點(diǎn)實(shí)驗(yàn)室,四川 成都 610065;4.中鐵二院工程集團(tuán)有限責(zé)任公司,四川 成都 610031)
雪崩是指多雪山區(qū)積雪在重力驅(qū)動(dòng)下快速向下崩落的現(xiàn)象[1],由其引發(fā)的直接災(zāi)害或鏈生災(zāi)害對人類生命、建筑環(huán)境、交通、生態(tài)系統(tǒng)構(gòu)成嚴(yán)重威脅[2]。中生代中期以來,青藏高原經(jīng)歷了多次強(qiáng)烈的隆升和夷平作用,不僅為雪崩發(fā)育創(chuàng)造了有利的地形條件,也改變了周圍的大氣環(huán)流形勢和氣候緯向地帶性分布[3],為雪崩發(fā)育提供了有利的氣象條件。自1960年以來,青藏高原以全球兩倍的升溫速率持續(xù)變暖,預(yù)計(jì)在本世紀(jì)末“亞洲水塔”氣溫將激增4 ℃[4]。持續(xù)的氣候變暖一方面使得極端降水事件更加頻繁、降水強(qiáng)度增大,另一方面使得冰雪融化速率加劇,導(dǎo)致雪崩事件顯著增加[5]。目前青藏高原周緣形成了喜馬拉雅南坡雪崩區(qū)、藏東南雪崩區(qū)、川西滇西北雪崩區(qū)等[6],愈發(fā)頻繁的雪崩災(zāi)害引起了學(xué)界和公眾越來越多的關(guān)注[7-9]。快速、有效地獲得雪崩發(fā)育位置與雪崩易發(fā)區(qū)域,是后續(xù)進(jìn)行雪崩針對性防災(zāi)減災(zāi)的基礎(chǔ)性工作。因此,探索構(gòu)建一套科學(xué)合理、有效易行的雪崩易發(fā)性評(píng)價(jià)體系,是應(yīng)對雪崩災(zāi)害風(fēng)險(xiǎn)增加的必然需求,對青藏高原的城鄉(xiāng)規(guī)劃以及川藏鐵路等重大工程建設(shè)均具有十分重要的意義。
瑞士等多雪國家根據(jù)雪崩頻率和沖擊力建立雪崩風(fēng)險(xiǎn)分區(qū)和制圖標(biāo)準(zhǔn)[10],并在此基礎(chǔ)上根據(jù)雪崩的風(fēng)險(xiǎn)程度對山區(qū)進(jìn)行土地利用規(guī)劃與管理。該標(biāo)準(zhǔn)已廣泛應(yīng)用于俄羅斯、加拿大、美國等歐美雪崩多發(fā)的國家[11-13],并將雪崩風(fēng)險(xiǎn)降低到可接受水平。這種雪崩風(fēng)險(xiǎn)區(qū)劃和制圖標(biāo)準(zhǔn)依賴于長期觀測數(shù)據(jù)的積累。然而,青藏高原極端惡劣的工作條件為詳細(xì)的野外雪崩監(jiān)測造成了極大的制約和巨大的成本,無法有效支撐青藏高原雪崩災(zāi)害的大面積風(fēng)險(xiǎn)區(qū)劃工作,因此需要一套能在區(qū)域上快速對青藏高原進(jìn)行風(fēng)險(xiǎn)識(shí)別和區(qū)劃的方法,使重大雪崩災(zāi)害點(diǎn)的監(jiān)測布置以及災(zāi)害防治更具針對性。近年隨著人工智能的快速發(fā)展,機(jī)器學(xué)習(xí)算法已被許多研究者應(yīng)用于地震預(yù)測、地下水儲(chǔ)量變化預(yù)測、降水?dāng)?shù)據(jù)訂正、滑坡易發(fā)性制圖等領(lǐng)域[14-18]。機(jī)器學(xué)習(xí)算法在災(zāi)害易發(fā)性評(píng)價(jià)方面的引入,彌補(bǔ)了傳統(tǒng)二元統(tǒng)計(jì)方法工作量大、主觀性強(qiáng)、預(yù)測結(jié)果精度低等缺點(diǎn),為災(zāi)害預(yù)測和預(yù)防提供了重要的理論方法[19-20]。而對于雪崩觀測記錄檔案短缺的地區(qū),基于遙感解譯和野外調(diào)查所獲得的學(xué)習(xí)樣本數(shù)據(jù)庫,采用機(jī)器學(xué)習(xí)算法開展雪崩易發(fā)性評(píng)價(jià)和制圖,可為區(qū)域性的災(zāi)害風(fēng)險(xiǎn)預(yù)估提供重要參考。已有部分研究嘗試將機(jī)器學(xué)習(xí)算法應(yīng)用于區(qū)域雪崩的遙感自動(dòng)檢測[21]、雪崩搬運(yùn)物質(zhì)易發(fā)性評(píng)價(jià)[22]、雪崩易發(fā)性制圖[23-25],但目前對青藏高原極端地形條件和氣象條件控制下的雪崩易發(fā)性認(rèn)識(shí)仍有不足,機(jī)器學(xué)習(xí)算法在青藏高原雪崩易發(fā)性評(píng)價(jià)的適用性,還有待深入研究。
本文通過遙感解譯和野外調(diào)查驗(yàn)證,識(shí)別了青藏高原沙魯里山系中段山區(qū)536 處雪崩,構(gòu)建了研究區(qū)的雪崩空間數(shù)據(jù)庫,在此基礎(chǔ)上根據(jù)雪崩發(fā)育對地形地貌、氣候氣象、積雪特性等各因素的響應(yīng)特征,采用GIS、遙感等定量化提取技術(shù)并通過方差膨脹因子(VIF)篩選出14個(gè)控制雪崩時(shí)空分異發(fā)育的評(píng)價(jià)因子,采用支持向量機(jī)(SVM)、決策樹(DT)、多層感知器(MLP)、K 最鄰近法(KNN)共4種機(jī)器學(xué)習(xí)方法獲取雪崩易發(fā)性指數(shù)圖,驗(yàn)證機(jī)器學(xué)習(xí)算法在青藏高原這類雪崩記錄檔案資料短缺的多雪山區(qū)的適用性,同時(shí)為當(dāng)?shù)匮┍罍p災(zāi)防災(zāi)指出重點(diǎn)設(shè)防區(qū)域。
沙魯里山系位于四川省西部,屬青藏高原東部橫斷山區(qū)北端中部山脈,呈南北走向[圖1(a)],海拔多在4 000 m 以上,為無數(shù)縱橫交錯(cuò)的峽谷、河谷所組成的巨大山原,主要高峰有雀兒山(6 168 m)、格聶山(6 204 m)、海子山夏塞峰(5 833 m)等。本文選取的研究區(qū)沙魯里山系中段西側(cè)以金沙江為界,東至理塘縣喇嘛埡鄉(xiāng)附近,北達(dá)白玉縣蓋玉鎮(zhèn)附近,南到巴塘縣波密鄉(xiāng)附近,總面積約7 124.46 km2。G318國道(川藏公路)、川藏鐵路自東向西橫穿研究區(qū)[圖1(b)]。
圖1 研究區(qū)地理位置圖Fig.1 Location of study area
研究區(qū)地貌大體上是以和緩起伏的高原夷平面作為基礎(chǔ),這與構(gòu)造隆升強(qiáng)烈、河流不斷下切的喜馬拉雅山和念青唐古拉山的地貌格局顯著不同。夷平面海拔約4 500~4 700 m。夷平面以下河谷發(fā)育,多寬谷,山麓及斜坡上是茂密的高原森林,寬谷底部是彎曲的河道和密集的沼澤草甸。夷平面以上的古蝕殘余山海拔多在6 000 m 左右,峰頂終年積雪,是古代和現(xiàn)代冰川發(fā)育的中心,山脊呈刃狀,坡壁地形復(fù)雜,存在大量海拔較高的、基巖裸露的常年積雪或季節(jié)性積雪區(qū)域。這些夷平面上的山嶺相對高差多在500~1 500 m 之間,也是雪崩賴以發(fā)育的地形基礎(chǔ)。由于海拔高度、南北走向的山脈和大氣環(huán)流的影響,研究區(qū)屬高山高原氣候,太陽輻射強(qiáng),日溫差大,降水季節(jié)分布不均,具有垂直分布明顯和區(qū)域性差異大的特點(diǎn)。據(jù)毗鄰的理塘縣氣象站(海拔3 948.9 m)監(jiān)測數(shù)據(jù),平均氣溫3.0 ℃,極端最高氣溫25.6 ℃,最低氣溫-30.6 ℃,年平均地面溫度5.9 ℃,年降雨量為722.2 mm。研究區(qū)降水主要集中于6、7、8 三個(gè)月,季節(jié)性雪崩區(qū)固態(tài)降水量約300 mm 左右,積雪層中深霜較為發(fā)育[26],為雪崩的發(fā)生提供了豐富的物質(zhì)條件。
雪崩運(yùn)動(dòng)過程不僅使積雪受到擾動(dòng)、污染,在光譜上呈現(xiàn)明顯的變化,還影響植物群落的發(fā)育和分布,形成了區(qū)別于其他高海拔地區(qū)自然災(zāi)害的遙感解譯特征[27-29]。主要有雪崩溝槽、雪崩碎屑尾、雪崩巨礫舌等地貌標(biāo)志,植被缺失、植被群落改變等植被標(biāo)志,以及雪崩雪堆光譜變化等。通過遙感解譯,輔以野外調(diào)查驗(yàn)證[圖2(a)、2(b)],可建立較為完整的雪崩編目數(shù)據(jù)庫。
圖2 雪崩遙感解譯與分布圖Fig.2 Snow avalanche distribution based on remote sensing interpretation
本文采用的遙感數(shù)據(jù)源主要有Landsat 5、7、8等。ALOS DSM(12.5 m 分辨率)用于雪崩地形地貌校驗(yàn),冰川編目數(shù)據(jù)用于剔除高海拔區(qū)域的冰川這類在遙感影像上容易混淆的地物。筆者自2018年11 月以來,先后5 次到研究區(qū)開展現(xiàn)場調(diào)查。其中,前2次主要開展雪崩發(fā)育特征調(diào)查,結(jié)合文獻(xiàn)資料,梳理形成雪崩堆積體光譜變化標(biāo)志、雪崩地貌標(biāo)志、雪崩活動(dòng)區(qū)域植被分布特征等雪崩遙感解譯標(biāo)志;后3 次現(xiàn)場調(diào)查主要是開展遙感解譯結(jié)果的現(xiàn)場驗(yàn)證。在遙感解譯中獲得了562 個(gè)解譯結(jié)果,通過野外調(diào)查驗(yàn)證,剔除了26 個(gè)錯(cuò)誤樣本。這26個(gè)錯(cuò)誤樣本主要為巖崩,其地貌單元與雪崩有一定的相似之處,在積雪覆蓋時(shí)容易被錯(cuò)誤識(shí)別為雪崩。最終,獲得536 處雪崩樣本數(shù)據(jù)[圖2(c)]。通過GIS隨機(jī)生成與雪崩樣本同等數(shù)量的隨機(jī)點(diǎn)作為非雪崩樣本(536 個(gè)),組成共計(jì)1 072 個(gè)樣本的數(shù)據(jù)集。其中,隨機(jī)抽取846 個(gè)(80%)樣本用于機(jī)器學(xué)習(xí)建模,余下226 個(gè)(20%)樣本用于模型檢驗(yàn),訓(xùn)練樣本和檢驗(yàn)樣本中的雪崩樣本和非雪崩樣本數(shù)量相同。
評(píng)價(jià)單元是雪崩易發(fā)性評(píng)價(jià)因子定量提取、易發(fā)性評(píng)價(jià)計(jì)算最基礎(chǔ)的單元。確定評(píng)價(jià)單元是區(qū)域雪崩易發(fā)性評(píng)價(jià)的一個(gè)重要步驟[30-31]。目前,易發(fā)性評(píng)價(jià)單元有柵格單元、斜坡單元、行政單元等。柵格單元?jiǎng)澐趾唵我仔?、客觀且準(zhǔn)確性高。因此,本文選取柵格單元作為評(píng)價(jià)分析單元。此外,柵格尺寸大小直接影響易發(fā)性評(píng)價(jià)結(jié)果的精度。考慮到研究區(qū)實(shí)際情況,選取100 m×100 m的柵格單元,共計(jì)713 033個(gè)柵格單元。
雪崩形成的影響因素很多,包括積雪厚度、雪晶大小與形狀、含水率、密度、雪層結(jié)構(gòu)、硬度、雪溫與溫度梯度、海拔、相對高差、坡度、坡向、植被類型與覆蓋率、風(fēng)速、風(fēng)向、降雪等[1]。從總體上來說,這些影響因素可以歸納為地形地貌、氣候氣象、積雪特性及其他因素。評(píng)價(jià)因子的提取應(yīng)考慮到因子的代表性,及其能否較全面的反映雪崩形成條件、能否定量化表達(dá)等[30,32]。因此,選取了以下17 個(gè)可定量化提取因素,包含:海拔、坡度、坡向、地面曲率、地形起伏度、地面粗糙度、地表切割深度、高程變異系數(shù)、地形濕度指數(shù)、植被覆蓋指數(shù)、水系(距河流距離)、斷層(距斷層距離)、平均年降雪量、平均年降雪日數(shù)、1 月平均氣溫、年最大積雪深度、地表覆蓋類型。其數(shù)據(jù)源如表1所示。
表1 評(píng)價(jià)因子及數(shù)據(jù)源Table 1 Evaluate factors and data sources
易發(fā)性因子的篩選需要考慮到評(píng)價(jià)因子之間的多重共線性。多重共線性是指模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使結(jié)果不夠客觀準(zhǔn)確[33]。本文采用方差膨脹因子(VIF)檢驗(yàn)評(píng)價(jià)因子之間的多重共線性,篩選出更準(zhǔn)確的評(píng)價(jià)因子。VIF 的取值大于1,VIF 值越接近于1,多重共線性越輕,反之越重。通常以10作為判斷邊界。當(dāng)VIF<10,不存在多重共線性;當(dāng)10≤VIF<100,存在較強(qiáng)的多重共線性;當(dāng)VIF≥100,存在嚴(yán)重多重共線性[34]。通過提取訓(xùn)練數(shù)據(jù)集及各樣本的所有評(píng)價(jià)因子的值進(jìn)行共線性診斷,結(jié)果如圖3所示。依次剔除VIF值最大的因子(平均年降雪量、海拔、地形起伏度),最終篩選出因子為:坡度、坡向、地表曲率、地面粗糙度、地表切割深度、高程變異系數(shù)、地形濕度指數(shù)、植被覆蓋指數(shù)、水系、斷層、平均年降雪日數(shù)、1 月平均氣溫、最大積雪厚度、地表覆蓋類型,共計(jì)14個(gè)評(píng)價(jià)因子。在被剔除的因子中,平均年降雪量與海拔相關(guān)性較強(qiáng),同時(shí),又與最大積雪厚度存在較強(qiáng)的正相關(guān)關(guān)系,因而存在嚴(yán)重多重共線性;坡度、坡向、地表曲率、地形起伏度等地形地貌因子均為DSM 基礎(chǔ)數(shù)據(jù)通過GIS 空間分析獲得,因而檢驗(yàn)出海拔、地形起伏度兩個(gè)存在多重共線性的因子。最終選定的各評(píng)價(jià)因子VIF值均小于10,其中最大值為7.205,最小值為1.014,滿足多重共線性分析的要求。
圖3 雪崩評(píng)價(jià)因子選擇過程Fig.3 The Selection process of snow avalanche conditioning factors
2.3.1 支持向量機(jī)(SVM)
SVM(Support Vector Machine)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的重要監(jiān)督學(xué)習(xí)二值分類器模型,已被廣泛用于解決線性和非線性問題[35]。SVM的基本原理是通過預(yù)先選擇的非線性關(guān)系將輸入向量映射到高維特征空間,并在該空間中尋找最優(yōu)分類超平面,使兩類之間的分類區(qū)間最大化[36],這個(gè)映射關(guān)系如下。
式中:ω是高維空間超平面的特征向量;φ是低維空間到高維空間變換的映射函數(shù);b是閾值。
SVM 的關(guān)鍵是核函數(shù)的構(gòu)造。核函數(shù)主要用于度量相似性,包括Sigmoid 核函數(shù)、徑向基核函數(shù)(RBF)、多項(xiàng)式核函數(shù)、線性核函數(shù)等。通過RBF可以將樣本映射到高維空間,對非線性樣本的預(yù)測和分析有很好的效果[37]。雪崩易發(fā)性評(píng)價(jià)是一個(gè)典型的受多種因素影響的非線性問題。因此,本文選擇RBF 作為核函數(shù)。RBF 的表現(xiàn)主要受懲罰因子C和徑向基函數(shù)參數(shù)γ的影響。
2.3.2 決策樹(DT)
DT(Decision Tree)是一種用于分類和回歸的非參數(shù)有監(jiān)督學(xué)習(xí)方法,其目標(biāo)是創(chuàng)建一個(gè)模型,通過學(xué)習(xí)從數(shù)據(jù)特性中推斷出的簡單決策規(guī)則來預(yù)測目標(biāo)變量的值[38]。本文采用Python 調(diào)用“Scikit-learn”庫[39]中的決策樹算法。Scikit-learn 中的決策樹算法使用的是CART 算法的優(yōu)化版本,其特征選擇是基于信息熵或者基尼系數(shù)實(shí)現(xiàn)的。
信息熵反應(yīng)的是信息雜亂程度,信息越雜亂(越不純),則信息熵越大;反之,信息熵越小?;嵯禂?shù)在簡化模型的同時(shí)還保留了熵模型的優(yōu)點(diǎn)?;嵯禂?shù)代表了模型的不純度?;嵯禂?shù)越小,不純度越低,特征越好。這和信息增益(率)正好相反。此外,在不加限制的情況下,決策樹會(huì)生長到衡量不純度的指標(biāo)最優(yōu),或者直到?jīng)]有更多的特征可用為止。這樣的決策樹往往會(huì)產(chǎn)生過擬合問題。為了讓決策樹有更好的泛化性,需對決策樹進(jìn)行剪枝,主要涉及到限制樹的最大深度、內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)、葉子節(jié)點(diǎn)最少樣本數(shù)等參數(shù)。
2.3.3 多層感知器(MLP)
MLP(Multilayer Perceptron)是一種前饋的人工神經(jīng)網(wǎng)絡(luò)模型,它將多個(gè)輸入數(shù)據(jù)集映射到單個(gè)輸出數(shù)據(jù)集(圖4)。單層感知器只能學(xué)習(xí)線性函數(shù),而MLP也可以學(xué)習(xí)非線性函數(shù)[40],適用于雪崩易發(fā)性評(píng)價(jià)這類非線性問題。MLP 的參數(shù)主要有隱藏層中的神經(jīng)元數(shù)量、激活函數(shù)類型等。激活函數(shù)的作用是將非線性引入神經(jīng)元的輸出。MLP 可使用任何形式的激活函數(shù),但是為了使用反向傳播算法進(jìn)行有效學(xué)習(xí),激活函數(shù)必須限制為可微函數(shù)。常用的激活函數(shù)有Sigmoid、Tanh和ReLU等函數(shù)。
圖4 MLP模型結(jié)構(gòu)示意圖Fig.4 Schematic diagram of MLP model structure
2.3.4 K最鄰近法(KNN)
KNN(K-nearest neighbor)是一種通過找到在距離上離待分類樣本最近的一些訓(xùn)練樣本,并從這些樣本中預(yù)測待分類樣本標(biāo)簽的方法[41]。在分類決策中,KNN 只根據(jù)最近的一個(gè)或多個(gè)訓(xùn)練樣本的類別來預(yù)測待分類樣本的類別。KNN 方法思路簡單,易于實(shí)現(xiàn),不足之處是計(jì)算量較大,因?yàn)樾枰獙γ恳粋€(gè)待分類的樣本都要計(jì)算它到全體訓(xùn)練樣本的距離,才能求得它的k個(gè)最鄰近點(diǎn)。KNN 主要依賴于周圍有限的相鄰樣本,k值的最佳選擇是高度依賴于數(shù)據(jù)的。較大的k會(huì)抑制噪聲的影響,但使分類邊界不那么清晰。一般來說,KNN 分類算法包括以下四個(gè)步驟[41]:
①準(zhǔn)備數(shù)據(jù)并對數(shù)據(jù)進(jìn)行預(yù)處理;
②計(jì)算待分類點(diǎn)與其他訓(xùn)練樣本點(diǎn)之間的距離;
③對每個(gè)距離排序,然后選擇距離最小的k個(gè)點(diǎn);
④根據(jù)少數(shù)服從多數(shù)的原則,將待分類點(diǎn)劃分為k個(gè)點(diǎn)中占比最高的類別。
2.4.1 Kappa系數(shù)
Kappa 系數(shù)檢驗(yàn)是一種用混淆矩陣檢驗(yàn)?zāi)P皖A(yù)測結(jié)果與實(shí)際值一致性的方法。Kappa 系數(shù)檢驗(yàn)是用混淆矩陣來計(jì)算Kappa 系數(shù),將驗(yàn)證數(shù)據(jù)集中的雪崩樣本標(biāo)記為1,非雪崩樣本標(biāo)記為0,模型的預(yù)測值與實(shí)際值的關(guān)系如表2所示。
表2 實(shí)際值與預(yù)測值關(guān)系的二進(jìn)制表Table 2 Binary table of the relationship between actual and predicted values
Kappa系數(shù)的計(jì)算公式如下:
其中Pa為模型預(yù)測中正確劃分的樣本數(shù)與總樣本數(shù)之比,計(jì)算公式如下:
Pe為所有分類中預(yù)測樣本數(shù)與實(shí)際樣本數(shù)的乘積之和與總樣本數(shù)的平方之比,計(jì)算公式為:
Kappa 系數(shù)值域在-1 到1 之間,該值通常大于0。數(shù)值越大,說明評(píng)價(jià)模型的準(zhǔn)確性越高[42-43]。Kappa系數(shù)各數(shù)值區(qū)間以及意義詳見表3。
表3 Kappa系數(shù)和AUC值域區(qū)間及意義Table 3 The ranges of Kappa coefficient and AUC and their significance
2.4.2 ROC曲線
ROC 曲 線(Receiver Operating Characteristic curve)是根據(jù)X軸上的真陽性率(敏感度)和Y軸上的假陽性(1-特異性)在不同閾值處生成的圖形來直觀表示模型評(píng)價(jià)精度。敏感度和特異性實(shí)質(zhì)上表示模型正確判斷雪崩和非雪崩的概率,但這兩個(gè)指標(biāo)并不能顯示模型性能的整體準(zhǔn)確性,所以一般采用AUC(Area Under Curve)值來檢驗(yàn)?zāi)P途?。AUC 值是指ROC 曲線與坐標(biāo)軸圍成的面積,是計(jì)算二值分類器性能的評(píng)價(jià)指標(biāo)。AUC 的值域?yàn)椋?,1],當(dāng)AUC 值越接近1 表明模型預(yù)測準(zhǔn)確性越高[44-45],其各數(shù)值區(qū)間及意義詳見表3。整個(gè)評(píng)價(jià)過程如圖5所示。
圖5 雪崩易發(fā)性評(píng)價(jià)流程圖Fig.5 Flow chart of snow avalanche susceptibility evaluation
通過GIS 平臺(tái)將訓(xùn)練樣本和驗(yàn)證樣本的各評(píng)價(jià)因子的值提取出來,借助于Python 語言調(diào)用“Scikit-learn”庫[39]中的SVM、DT、MLP 和KNN 算法進(jìn)行運(yùn)算,同時(shí)調(diào)用網(wǎng)格搜索(Grid search)算法進(jìn)行參數(shù)尋優(yōu)。運(yùn)算結(jié)束后,將結(jié)果導(dǎo)入GIS 中輸出柵格。在SVM 模型中,通過網(wǎng)格搜索獲得了最優(yōu)超參數(shù):C 為1,γ 為0.1。將研究區(qū)各柵格單元的評(píng)價(jià)因子引入評(píng)價(jià)模型,計(jì)算易發(fā)性指數(shù)。最后得到雪崩易發(fā)性指數(shù)圖如圖6(a)所示,其值域?yàn)椋?,0.964]。DT 模型對輸入樣本進(jìn)行訓(xùn)練之后自動(dòng)構(gòu)建分類規(guī)則,確定了不同分類特征及其閾值。經(jīng)過調(diào)參尋優(yōu),形成了基于信息熵的分枝方法,最大深度為3 層、分割內(nèi)部節(jié)點(diǎn)所需的最小樣本數(shù)為25、葉子節(jié)點(diǎn)上的最小樣本數(shù)為17 的決策樹。該模型雪崩易發(fā)性指數(shù)圖如圖6(b)所示,其值域?yàn)椋?,815]。在MLP 模型中,通過調(diào)參尋優(yōu),構(gòu)造了1個(gè)包含1 個(gè)輸入層、1 個(gè)隱含層和1 個(gè)輸出層的3 層網(wǎng)絡(luò),形成30 個(gè)神經(jīng)元,激活函數(shù)為Tanh。該模型雪崩易發(fā)性指數(shù)如圖6(c)所示,其值域?yàn)椋?,995]。在KNN 模型中,通過網(wǎng)格搜索調(diào)參,獲得了最優(yōu)超參數(shù):N_neighbors(KNN 中的“K”)為10,P 為1(曼哈頓距離),Weights(權(quán)重)為Distance(權(quán)重和距離成反比,距離預(yù)測目標(biāo)越近具有越高的權(quán)重)。該模型的雪崩易發(fā)性指數(shù)如圖6(d)所示,其值域?yàn)椋?,1]。
圖6 雪崩易發(fā)性指數(shù)圖Fig.6 Snow avalanche susceptibility index maps
通過機(jī)器學(xué)習(xí)算法對訓(xùn)練樣本的訓(xùn)練建模過程中,可以獲得變量的重要性,即評(píng)價(jià)因子的權(quán)重,如圖7 所示。由于不同算法的原理不同,其計(jì)算得出的評(píng)價(jià)因子權(quán)重也并不完全一致。除去KNN 模型中各個(gè)評(píng)價(jià)因子權(quán)重均相同外,其他3 個(gè)模型得到的各評(píng)價(jià)因子權(quán)重在總體上存在著不同程度的類似和差異之處。其中,這3 個(gè)模型中最重要的因子都是1 月平均氣溫。1 月平均氣溫表征了雪崩發(fā)育區(qū)域的冷儲(chǔ)條件,也是區(qū)別于雪崩不易發(fā)區(qū)域的重要特征。DT、MLP 和SVM 模型中重要性排序第2 的因子分別為植被覆蓋指數(shù)、植被覆蓋類型和高程變異系數(shù),排序第3的因子分別是最大積雪厚度、高程變異系數(shù)和坡度。此外,超過平均數(shù)的因子還有平均降雪日數(shù)、水系。植被覆蓋指數(shù)和植被覆蓋類型涉及到雪崩形成的下墊面狀況,其中裸地、草地等有利于雪崩的形成,茂密的森林是雪崩形成和運(yùn)動(dòng)的主要阻礙。高程變異系數(shù)和坡度體現(xiàn)了局地地形變化,而高差懸殊和適宜的坡度區(qū)間正是積雪等斜坡物質(zhì)運(yùn)動(dòng)形成的必要的地形條件。最大積雪厚度表征了雪崩形成的物質(zhì)(積雪)條件。平均降雪日數(shù)是一年中降雪日數(shù)的總和,從側(cè)面表征了當(dāng)?shù)亟笛?qiáng)度及頻率等,體現(xiàn)了雪崩的物質(zhì)(積雪)來源。
圖7 評(píng)價(jià)因子權(quán)重條形圖Fig.7 Bar chart of evaluation factor weight
驗(yàn)證數(shù)據(jù)集通過SVM、DT、MLP 和KNN 四種模型預(yù)測結(jié)果的相關(guān)值及Kappa 系數(shù)如表4 所示。SVM、DT、MLP 和KNN 模型的Kappa 系數(shù)分別為0.720、0.570、0.711 和0.672,除了DT 外,其余的Kappa 系數(shù)均大于0.6,表明SVM、MLP 和KNN 模型對驗(yàn)證數(shù)據(jù)集的預(yù)測結(jié)果與實(shí)際值存在高度的一致性,DT 對驗(yàn)證數(shù)據(jù)集的預(yù)測結(jié)果與實(shí)際值存在中等的一致性。ROC 曲線如圖8 所示。SVM、DT、MLP 和KNN 模型的AUC 值分別 為0.912、0.801、0.891 和0.903,均 大 于0.8,表 明SVM 和KNN 模型的預(yù)測精度高,DT 和MLP 模型的預(yù)測精度較高。綜合Kappa 系數(shù)和ROC 曲線檢驗(yàn)的結(jié)果,這4中機(jī)器學(xué)習(xí)算法在雪崩易發(fā)性評(píng)價(jià)上都具有較好或很好的預(yù)測能力,其中SVM 模型的Kappa系數(shù)和AUC值均為最高,為該項(xiàng)雪崩易發(fā)性評(píng)價(jià)精度最佳的模型。
圖8 驗(yàn)證數(shù)據(jù)集ROC曲線Fig.8 ROC curve of prediction rate for the four models with validation dataset
表4 各模型結(jié)果相關(guān)值及Kappa系數(shù)Table 4 Kappa coefficients and relevant values of the prediction results
此外,結(jié)合現(xiàn)場調(diào)查的認(rèn)識(shí),這4種機(jī)器學(xué)習(xí)算法得到的易發(fā)性指數(shù)圖是合理的。易發(fā)性指數(shù)圖中易發(fā)性指數(shù)較高的區(qū)域主要分布在海拔較高的區(qū)域,在金沙江、巴曲等干熱河谷兩岸區(qū)域的易發(fā)性指數(shù)最低,這與野外調(diào)查中雪崩發(fā)育的區(qū)域基本一致。同時(shí),易發(fā)性指數(shù)圖還指明了此前遙感解譯中未曾解譯到的部分區(qū)域,有助于研究區(qū)內(nèi)更多雪崩范圍的遙感解譯。機(jī)器學(xué)習(xí)算法在雪崩易發(fā)性建模過程中,對各評(píng)價(jià)因子的值域進(jìn)行解析,建立了基于學(xué)習(xí)樣本的雪崩分類函數(shù)或分類規(guī)則,然后對研究區(qū)內(nèi)各評(píng)價(jià)單元進(jìn)行分類計(jì)算,得到各評(píng)價(jià)單元雪崩易發(fā)分類的原始傾向評(píng)分。理論上,這些結(jié)果也與各評(píng)價(jià)因子的雪崩易發(fā)值域的空間分布疊加結(jié)果基本一致。模型精度結(jié)果也表明了這4種模型均具有較好的預(yù)測精度。因此,這4 種機(jī)器學(xué)習(xí)算法均適用于沙魯里山系雪崩易發(fā)性制圖。
采用自然間斷法將AUC 值最高的SVM 模型易發(fā)性指數(shù)圖劃分為極高、高、中、低和極低易發(fā)性區(qū),得到雪崩易發(fā)性區(qū)劃圖(圖9)。其中,極高、高、中、低和極低易發(fā)性區(qū)分別占總面積的13.1%、12.9%、11.1%、17.6%和45.3%。易發(fā)性高的區(qū)域主要分布在格聶山、日拱山等地,多位于夷平面(海拔約4 500~4 700 m)以上,海拔較高。其中,極高易發(fā)區(qū)平均海拔約4 939 m,高易發(fā)區(qū)平均海拔約4 859 m。這些區(qū)域基巖裸露,在雪季多有積雪。研究區(qū)雖然遠(yuǎn)離大洋,但是研究區(qū)南側(cè)的三江并流區(qū)的怒江、瀾滄江、金沙江等深切河谷構(gòu)成了南來濕潤氣流北上的通道。該區(qū)域年均降雪量(300 mm)雖說沒有帕隆藏布流域(約1 000 mm)等地那么大,但是降雪量分布較集中,往往集中在每年降雪最大的2~3 次降雪過程中。特別是在每年春季,孟加拉海水汽順深切河谷北上進(jìn)入研究區(qū),在高海拔地區(qū)降落大量濕雪,為雪崩的發(fā)生奠定了物質(zhì)基礎(chǔ)。夷平面上的蝕余山經(jīng)過長期的冰川作用、流水作用后,古冰斗和雪蝕洼地地貌發(fā)育,成為良好的儲(chǔ)雪場地。蝕余山的坡度條件為雪崩的運(yùn)動(dòng)提供了足夠的動(dòng)力條件。而在夷平面(海拔約4 500~4 700 m)以下,一方面年平均氣溫較高,年降雪相對較少,特別是在靠近金沙江一側(cè),為典型的干熱河谷,據(jù)巴塘氣象站監(jiān)測數(shù)據(jù),年極端最大積雪深度僅4 cm,出現(xiàn)時(shí)間為2006年12月13日;另一方面,山麓及斜坡上多是茂密的高原森林,茂密的森林在強(qiáng)降雪天氣時(shí)能夠在很大程度上阻礙新雪的沉降和再次分配,還能形成錨點(diǎn),提供抗滑力鎖固積雪層。因而在夷平面高程以下區(qū)域,雪崩并不易發(fā)。
圖9 基于SVM的雪崩易發(fā)性分區(qū)圖Fig.9 Zoning map of snow avalanche susceptibility based on SVM
從雪崩易發(fā)性指數(shù)圖和區(qū)劃圖可以看出,雪崩對現(xiàn)G318 國道(川藏公路)、G215 國道影響較小。王彥龍?jiān)谄鋵V洞ú毓费┖ρ芯俊分杏涗浀拇ú毓泛W由綀嚎诙蔚难┖χ饕獮轱L(fēng)吹雪,并無雪崩記錄[26]。此外,川藏鐵路海子山越嶺段線路行走標(biāo)高略低于現(xiàn)G318 國道,且為隧道形式從毛埡草原西側(cè)穿越折多山至德達(dá)附近,其受雪崩影響相較于川藏公路更小。經(jīng)德達(dá)后北上,過茶洛鄉(xiāng)、沙馬鄉(xiāng)等地附近,直至金沙江邊,主要以隧道形式穿行于沙魯里山系中。這一段隧道進(jìn)出口選址高程均較低、周邊植被茂密,受雪崩影響較小。但是,研究區(qū)北部蓋玉鄉(xiāng)前往山巖鄉(xiāng)的越嶺路段、南部波密鄉(xiāng)至巴塘縣的越嶺路段,主要位于雪崩高易發(fā)區(qū)。由于這兩段公路均屬于鄉(xiāng)村公路,行車量較少,且較偏僻,現(xiàn)代通訊不一定覆蓋到,其雪崩活動(dòng)鮮見報(bào)道。不過,在研究區(qū)南部的格聶山主峰附近有2 次關(guān)于雪崩的報(bào)道。其中一次是在2006 年12 月,美國著名登山家查理·福勒(Charlie Fowler)和克里斯汀·博斯科夫(Christine Boskoff)嘗試從格聶東壁攀登的時(shí)候,在5 300 m 的冰川附近遭遇雪崩遇難[46]。另外一次是在2020 年5 月,一只徒步探險(xiǎn)隊(duì)在理塘縣章納鄉(xiāng)老冷古寺附近拍到格聶主峰東坡(99.6409° E,29.8108° N)正在流動(dòng)的溝槽型濕雪崩視頻[圖9(b)、9(c)為該次雪崩視頻截圖][47]。這兩次雪崩事件均發(fā)生在研究區(qū)內(nèi)夷平面以上海拔較高的人跡罕至的區(qū)域。
本文通過遙感解譯輔以野外調(diào)查驗(yàn)證,構(gòu)建了沙魯里山系中段雪崩編目數(shù)據(jù)庫,借助SVM 等4 種機(jī)器學(xué)習(xí)算法開展雪崩易發(fā)性評(píng)價(jià),得出以下結(jié)論。
(1)通過遙感解譯識(shí)別雪崩562處,結(jié)合野外調(diào)查驗(yàn)證,剔除了26 個(gè)錯(cuò)誤樣本,共計(jì)獲得536 處雪崩樣本數(shù)據(jù),建立了較為完整的雪崩編目數(shù)據(jù)庫。選取17個(gè)可定量化提取的評(píng)價(jià)因子,通過方差膨脹因子(VIF)檢驗(yàn)評(píng)價(jià)因子之間的多重共線性,篩選出坡度、坡向、地表曲率等共計(jì)14個(gè)評(píng)價(jià)因子。
(2)采用SVM、DT、MLP、KNN 機(jī)器學(xué)習(xí)算法訓(xùn)練模型,獲得的易發(fā)性指數(shù)分別在[0,0.964]、[0,815]、[0,0.995]、[0,1]范圍內(nèi),其Kappa 系數(shù)分別為0.720、0.570、0.711 和0.672,AUC 值分別為0.912、0.801、0.891 和0.903。結(jié)果表明這4 種模型均具有較好或很好的預(yù)測精度,適用于沙魯里山系中段雪崩易發(fā)性評(píng)價(jià),其中SVM 模型的Kappa系數(shù)和AUC 值均為最高,為該項(xiàng)雪崩易發(fā)性評(píng)價(jià)精度最佳的模型。機(jī)器學(xué)習(xí)算法建模過程中獲得的主要影響因子有1 月平均氣溫、植被覆蓋指數(shù)、植被覆蓋類型、高程變異系數(shù)、最大積雪厚度、坡度等。
(3)該區(qū)域雪崩極高、高、中、低和極低易發(fā)性區(qū)分別占總面積的13.1%、12.9%、11.1%、17.6%和45.3%。雪崩極高易發(fā)區(qū)和高易發(fā)區(qū)主要分布在格聶山、日拱山等地,多位于夷平面以上,極高易發(fā)區(qū)平均海拔約4 939 m,高易發(fā)區(qū)平均海拔約4 859 m。雪崩對現(xiàn)G318 國道(川藏公路)、G215 國道影響較小,對橫穿研究區(qū)內(nèi)的川藏鐵路的影響相較于川藏公路更小。但是,研究區(qū)北部蓋玉鄉(xiāng)前往山巖鄉(xiāng)的越嶺路段、南部波密鄉(xiāng)至巴塘縣的越嶺路段主要位于雪崩高易發(fā)區(qū)。該結(jié)果可為橫穿沙魯里山系的川藏鐵路等重大工程建設(shè)的雪崩防災(zāi)減災(zāi)工作提供科學(xué)依據(jù)和方法借鑒。