徐浩文 譚永濱
(東華理工大學(xué) 測(cè)繪工程學(xué)院,江西 南昌 330013)
滑坡是一種易發(fā)生于山地且強(qiáng)突發(fā)性的地質(zhì)災(zāi)害。我國(guó)山地面積的比例較大[2],已成為受到滑坡危害最為嚴(yán)重的地區(qū)之一[3]。據(jù)國(guó)家統(tǒng)計(jì)局2021年公布的《中國(guó)統(tǒng)計(jì)年鑒》顯示,2005—2020年共計(jì)發(fā)生地質(zhì)災(zāi)害31.4萬(wàn)余起,造成傷亡1.4萬(wàn)余人,其中滑坡災(zāi)害發(fā)生22.6萬(wàn)起,約占地質(zhì)災(zāi)害總數(shù)的71.9%,如表1所示。對(duì)滑坡進(jìn)行危險(xiǎn)性預(yù)測(cè)與估計(jì)也是滑坡災(zāi)情評(píng)估工作的核心內(nèi)容之一,可在滑坡重點(diǎn)防治區(qū)域、滑坡災(zāi)害損失預(yù)評(píng)估和滑坡防治工程評(píng)價(jià)等方面發(fā)揮著重要的作用。滑坡危險(xiǎn)性是指綜合考慮滑坡誘發(fā)因素的影響下,在確定區(qū)域內(nèi)一定時(shí)期滑坡發(fā)生的強(qiáng)度及可能性,可包括滑坡易發(fā)性、時(shí)間頻率和滑坡強(qiáng)度三方面[5]。
表1 2005—2020年地質(zhì)災(zāi)害統(tǒng)計(jì)
本文從傳統(tǒng)滑坡危險(xiǎn)性預(yù)測(cè)方法出發(fā),探究機(jī)器學(xué)習(xí)中的預(yù)測(cè)方法,結(jié)合滑坡危險(xiǎn)性預(yù)測(cè)進(jìn)行深入分析。
傳統(tǒng)滑坡預(yù)測(cè)方法主要分為定性階段、半定量階段、統(tǒng)計(jì)預(yù)測(cè)階段和綜合預(yù)測(cè)階段這四個(gè)部分[6]。在定性階段中,人們主要憑借個(gè)人對(duì)自然現(xiàn)象的觀察和實(shí)踐經(jīng)驗(yàn)來(lái)預(yù)測(cè)潛在的滑坡,該方式滯后性較強(qiáng)且可用的應(yīng)急響應(yīng)時(shí)間有限;隨著滑坡位移-時(shí)間曲線與齋藤模型的提出,滑坡的預(yù)測(cè)逐步由定性分析發(fā)展為定量評(píng)價(jià);到了統(tǒng)計(jì)預(yù)測(cè)階段,研究人員融入了數(shù)學(xué)及統(tǒng)計(jì)學(xué)理論,加強(qiáng)了預(yù)測(cè)模型的合理性與科學(xué)性;在綜合預(yù)測(cè)階段,非線性理論與系統(tǒng)科學(xué)的提出將滑坡看作為一個(gè)開(kāi)放的復(fù)雜系統(tǒng),通過(guò)結(jié)合滑坡自身特性與定量預(yù)測(cè)方法,更加全面地對(duì)滑坡的預(yù)測(cè)研究進(jìn)行剖析。
在20世紀(jì)60年代之前,人類對(duì)于滑坡等自然災(zāi)害的預(yù)測(cè)主要通過(guò)對(duì)自然現(xiàn)象的觀察和實(shí)踐經(jīng)驗(yàn)來(lái)判斷。與諸如火山、地震、海嘯等其他自然災(zāi)害類似,滑坡災(zāi)害在發(fā)生前也會(huì)呈現(xiàn)各種先兆[7],例如,地下水水位異常上升或下降、地表巖石內(nèi)部和房屋裂縫處發(fā)生異響、動(dòng)物變得躁動(dòng)異常等。人們通過(guò)這些先兆總結(jié)出經(jīng)驗(yàn),并以此來(lái)判斷滑坡是否發(fā)生以及可能發(fā)生的危險(xiǎn)程度。我國(guó)在1963年利用這種定性的方法成功預(yù)報(bào)了寶成線須家河滑坡[8]。然而,定性的預(yù)測(cè)方法僅能觀測(cè)出具有明顯前兆的滑坡,且預(yù)測(cè)結(jié)果具有強(qiáng)滯后性、低精度的缺點(diǎn),在實(shí)際生產(chǎn)生活中實(shí)用性較低。
20世紀(jì)60年代,日本學(xué)者齋藤首次提出了較為科學(xué)的滑坡預(yù)測(cè)方法,標(biāo)志著滑坡預(yù)測(cè)從定性逐步進(jìn)入定量化階段[9]。齋藤通過(guò)大量的實(shí)驗(yàn)和研究,提出了滑坡位移與時(shí)間的預(yù)測(cè)模型,認(rèn)為滑坡從開(kāi)始變形到最終破壞結(jié)束需要經(jīng)歷一段蠕變過(guò)程(蠕變曲線如圖1)。蠕變過(guò)程可分為三個(gè)階段,第一階段為初始蠕變階段(a~b),蠕變速率逐漸變緩;第二階段為等速緩慢蠕變階段(b~c),蠕變速率保持不變;第三階段為加速蠕變階段(c~d),滑坡快速蠕變直至最終破壞結(jié)束[10]。
圖1 滑坡位移與時(shí)間蠕變曲線
其中,第二、三階段的滑坡形變速率都與最終滑坡的結(jié)束時(shí)間有關(guān),滑坡時(shí)間預(yù)測(cè)公式分別如式(1)、式(2)所示。
(1)
(2)
式中,tr為滑坡破壞的時(shí)間;ε為第二階段應(yīng)變速率;±0.59為包含95%測(cè)量值的范圍;Δt為距離滑坡破壞時(shí)間。
利用齋藤模型,日本在1970年對(duì)高湯山滑坡進(jìn)行了成功的預(yù)測(cè),證明了該模型的實(shí)用性[11]。但是,僅根據(jù)蠕變第三階段的位移時(shí)間信息只能進(jìn)行滑坡臨坡前短期預(yù)報(bào)且精度不足,眾多學(xué)者在齋藤模型基礎(chǔ)上進(jìn)行了諸多改進(jìn)工作。E.Hoek結(jié)合齋藤模型,針對(duì)智利的Chuquicamata礦滑坡監(jiān)測(cè)曲線提出了外延法。由于齋藤蠕變經(jīng)驗(yàn)公式的局限性和滑坡的復(fù)雜性,這些改進(jìn)模型方法仍無(wú)法進(jìn)行長(zhǎng)期預(yù)測(cè),但卻給未來(lái)逐步定量化科學(xué)化的滑坡預(yù)測(cè)做了一個(gè)良好的開(kāi)端。
20世紀(jì)80年代,隨著概率論、數(shù)理統(tǒng)計(jì)、模糊數(shù)學(xué)等數(shù)學(xué)理論方法的普及和計(jì)算機(jī)技術(shù)的發(fā)展,研究人員將這些理論與技術(shù)應(yīng)用于滑坡預(yù)測(cè),嘗試通過(guò)數(shù)學(xué)模型模擬滑坡的變化規(guī)律,提高了滑坡預(yù)測(cè)的精度與科學(xué)性。在此階段的研究中,具有代表性的是灰色模型GM(1,1)和Verhulst模型。
灰色系統(tǒng)理論分析最早于1982年由中國(guó)學(xué)者鄧聚龍教授提出,主要針對(duì)具有不確定性且信息數(shù)據(jù)不完整的模型,通過(guò)挖掘其中的深層信息來(lái)建立對(duì)應(yīng)的微分方程,進(jìn)而預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)[13]。在整個(gè)灰色預(yù)測(cè)理論中,GM(1,1)模型是最為核心的部分,應(yīng)用十分廣泛。陳明東等(1988年)首先將灰色系統(tǒng)理論中的GM(1,1)模型法引入滑坡位移—時(shí)間曲線的擬合外推,提出了濾波灰色分析法進(jìn)行滑坡的中期預(yù)報(bào)[14]。其優(yōu)點(diǎn)在于預(yù)測(cè)模型無(wú)須大量的數(shù)據(jù),可用于解決歷史滑坡數(shù)據(jù)量少、信息不完整等問(wèn)題。相應(yīng)地,由于數(shù)據(jù)量較少且不完整,灰色預(yù)測(cè)模型只適用于中長(zhǎng)期且成指數(shù)增長(zhǎng)的預(yù)測(cè),對(duì)波動(dòng)性較大的數(shù)據(jù)預(yù)測(cè)結(jié)果差。
Verhulst生物生長(zhǎng)模型也是灰色系統(tǒng)理論的組成部分之一,我國(guó)學(xué)者晏同珍認(rèn)為滑坡的發(fā)生、生長(zhǎng)、成熟與消亡過(guò)程與生物類似,將Verhulst模型融合進(jìn)滑坡預(yù)測(cè)中,探究滑坡孕育過(guò)程的內(nèi)在規(guī)律[15]。這種結(jié)合主要通過(guò)對(duì)原始地面位移監(jiān)測(cè)數(shù)據(jù)通過(guò)累加、逆累減并求解非線性微分方程,預(yù)測(cè)滑坡發(fā)生時(shí)間。以此模型為基礎(chǔ),在甘肅天水的黃龍西村滑坡、長(zhǎng)江西陵峽的新灘滑坡和意大利的Vaiont壩庫(kù)滑坡這三個(gè)實(shí)例的驗(yàn)證上取得了成功。殷坤龍等利用Verhulst模型對(duì)南京雞鳴寺滑坡進(jìn)行了成功預(yù)報(bào)檢驗(yàn)[16]。針對(duì)利用Verhulst模型進(jìn)行滑坡預(yù)測(cè)存在的理論量化依據(jù)不足、以速度最大值作為判別依據(jù)等問(wèn)題,李天斌等認(rèn)為使用Verhulst生物生長(zhǎng)模型的“S”型曲線來(lái)模擬滑坡形變的反“S”型曲線過(guò)程不合理,提出了使用Verhulst反函數(shù)來(lái)模擬滑坡的形變過(guò)程[17]。
總體上看,統(tǒng)計(jì)預(yù)測(cè)階段結(jié)合了數(shù)學(xué)、統(tǒng)計(jì)學(xué)的大量知識(shí),更傾向于從方法上入手,不斷改進(jìn)滑坡預(yù)測(cè)方法以求在精度上更進(jìn)一步,意味著滑坡預(yù)測(cè)走向了定量化發(fā)展階段。但是,這個(gè)階段的研究過(guò)于關(guān)注方法上的創(chuàng)新改進(jìn),較少地將滑坡的自身特性與各種預(yù)測(cè)模型更緊密地結(jié)合。雖然能較好地?cái)M合已經(jīng)發(fā)生的滑坡災(zāi)害,卻難以有效預(yù)測(cè)演化中的滑坡變形體。在分析篩選各類滑坡數(shù)據(jù)上、對(duì)各個(gè)滑坡影響因子的權(quán)重分配上、如何弱化和消除滑坡預(yù)測(cè)中的干擾信息等方面,還有待加強(qiáng)。
20世紀(jì)60年代以來(lái),隨著系統(tǒng)科學(xué)以及非線性理論的發(fā)展,滑坡預(yù)測(cè)進(jìn)入了綜合預(yù)測(cè)階段。在這期間,諸多相關(guān)領(lǐng)域的學(xué)者認(rèn)識(shí)到了滑坡是一個(gè)極其龐大開(kāi)放的復(fù)雜系統(tǒng)。它是一個(gè)充滿灰與白、確定性與隨機(jī)性、漸變性與突變性、平衡與非平衡、有序與無(wú)序的對(duì)立統(tǒng)一的體系[6]。在此階段,滑坡預(yù)測(cè)方面的研究發(fā)展迅速,許多學(xué)者將非線性系統(tǒng)的研究理論與滑坡預(yù)測(cè)相結(jié)合,創(chuàng)新性成果層出不窮。蘇愛(ài)軍等利用數(shù)值統(tǒng)計(jì)的解析與數(shù)值方法處理建立模型對(duì)滑坡進(jìn)行預(yù)報(bào)[18]。秦四清等運(yùn)用非線性動(dòng)力學(xué)的思路和方法并結(jié)合確定性與非確定性預(yù)測(cè),編制了滑坡時(shí)間預(yù)報(bào)綜合分析軟件[19]。在此階段,地理信息系統(tǒng)(geographic information system,GIS)與滑坡預(yù)測(cè)的結(jié)合也愈發(fā)緊密。文獻(xiàn)[20]從數(shù)字高程模型中得出了雨融雪事件引發(fā)的滑坡空間預(yù)測(cè)相關(guān)的環(huán)境屬性并將這些數(shù)據(jù)與統(tǒng)計(jì)和GIS相結(jié)合,為滑坡災(zāi)害的空間預(yù)測(cè)提供了詳細(xì)的依據(jù)。文獻(xiàn)[21]結(jié)合GIS,開(kāi)發(fā)了一種概率位移分析方法,利用偽靜態(tài)滑坡穩(wěn)定性模型對(duì)滑坡危險(xiǎn)性進(jìn)行評(píng)估。
在綜合預(yù)測(cè)階段,研究人員認(rèn)識(shí)到滑坡作為一個(gè)開(kāi)放的復(fù)雜系統(tǒng),滑坡的形成是其內(nèi)多種因素共同作用導(dǎo)致的結(jié)果。此外,GIS在滑坡預(yù)測(cè)方面的應(yīng)用,也給滑坡空間、時(shí)間數(shù)據(jù)的分析處理提供極大便利,在滑坡預(yù)測(cè)中起到了關(guān)鍵作用。針對(duì)非線性系統(tǒng)進(jìn)行預(yù)測(cè)的方法陸續(xù)被應(yīng)用于滑坡預(yù)測(cè)中,研究人員結(jié)合滑坡本身的特性,從一個(gè)完整系統(tǒng)的角度重新審視滑坡。
機(jī)器學(xué)習(xí)模型具有強(qiáng)大的學(xué)習(xí)與泛化能力,且能夠擬合非線性系統(tǒng),被廣泛地應(yīng)用于滑坡預(yù)測(cè)中,包括無(wú)監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)兩類。
無(wú)監(jiān)督學(xué)習(xí)是指在不使用標(biāo)簽的情況下對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí),從而發(fā)現(xiàn)數(shù)據(jù)內(nèi)部的模式和結(jié)構(gòu)。當(dāng)滑坡數(shù)據(jù)缺少標(biāo)簽或進(jìn)行人工標(biāo)注的成本過(guò)高時(shí),通常選擇無(wú)監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行處理。然而,一方面,由于無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)不具備標(biāo)簽,模型無(wú)法確定預(yù)測(cè)的準(zhǔn)確度;另一方面,無(wú)監(jiān)督學(xué)習(xí)對(duì)滑坡數(shù)據(jù)質(zhì)量要求較高,如果滑坡數(shù)據(jù)質(zhì)量不佳,容易得出錯(cuò)誤的結(jié)論。
因此,無(wú)監(jiān)督學(xué)習(xí)通常不能直接做預(yù)測(cè),主要用于學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和特征,調(diào)整模型的超參數(shù),以此來(lái)對(duì)數(shù)據(jù)進(jìn)一步分析,為監(jiān)督學(xué)習(xí)提供有價(jià)值的信息。無(wú)監(jiān)督學(xué)習(xí)算法包括兩類:降維和聚類,在滑坡危險(xiǎn)性預(yù)測(cè)中,常用的算法有核主成分分析、譜聚類、K-Means聚類等。
2.1.1降維算法
降維算法是一種將高維數(shù)據(jù)映射到低維空間的方法,可在保留重要數(shù)據(jù)信息的同時(shí)進(jìn)行降維,減少計(jì)算復(fù)雜度,還可以消除特征間的相關(guān)性,使得模型更加穩(wěn)定,但也有可能會(huì)丟失重要信息。
常見(jiàn)的降維算法有主成分分析、核主成分分析和線性判別分析。對(duì)于滑坡這一復(fù)雜的非線性系統(tǒng),通常選用核主成分分析來(lái)處理。核主成分分析是在主成分分析的基礎(chǔ)上加入了核函數(shù)的無(wú)監(jiān)督學(xué)習(xí)算法,使其能處理非線性數(shù)據(jù)。它的目的是將原本的多維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù),同時(shí)盡可能保留原數(shù)據(jù)的信息。在滑坡危險(xiǎn)性預(yù)測(cè)方面,可以認(rèn)為某些滑坡影響因子間有一定相關(guān)關(guān)系,通過(guò)核主成分分析將重復(fù)的滑坡影響因子變量去除,在保持原有信息的基礎(chǔ)上建立盡可能少的新變量,使得這些新變量?jī)蓛刹幌嚓P(guān),從而實(shí)現(xiàn)降維。文獻(xiàn)[22]基于核主成分分析,對(duì)變量進(jìn)行加權(quán),提取滑坡數(shù)據(jù)原始特征,再混合核函數(shù)最小二乘支持向量回歸模型預(yù)測(cè)滑坡。文獻(xiàn)[23]利用核主成分分析方法提取降雨、地下水等滑坡影響因素特征,構(gòu)建BP神經(jīng)網(wǎng)絡(luò)對(duì)白水河滑坡進(jìn)行預(yù)測(cè)。
2.1.2聚類算法
聚類算法是一種將數(shù)據(jù)劃分成多個(gè)類別的方法,其中每個(gè)類別中的數(shù)據(jù)具有相似性。常見(jiàn)的聚類算法有K-Means、層次聚類和密度聚類等。在滑坡危險(xiǎn)性預(yù)測(cè)中,聚類算法可將滑坡數(shù)據(jù)劃分成不同的簇,進(jìn)而發(fā)現(xiàn)滑坡的內(nèi)在結(jié)構(gòu)和規(guī)律。文獻(xiàn)[24]利用不確定DM-Chameleon聚類算法有效地處理了大規(guī)模降水?dāng)?shù)據(jù)集,并在延安市寶塔區(qū)的滑坡數(shù)據(jù)中驗(yàn)證了該滑坡危險(xiǎn)性預(yù)測(cè)模型的精度,并基于聚類結(jié)果提取出致災(zāi)因子與滑坡危險(xiǎn)性等級(jí)之間的關(guān)系。文獻(xiàn)[25]比較了K-Means、譜聚類和層次聚類三種模型,研究其在海底滑坡危險(xiǎn)性方面的性能,結(jié)果表明,譜聚類在海底滑坡危險(xiǎn)性預(yù)測(cè)中表現(xiàn)最佳。
與降維算法類似,聚類算法通常也需要與其他預(yù)測(cè)模型結(jié)合,將聚類的結(jié)果作為輸入特征放入預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。聚類算法不需要人為指定數(shù)據(jù)的類別,可自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的類別,但如果簇?cái)?shù)不合適,可能會(huì)導(dǎo)致結(jié)果不理想,而且聚類算法對(duì)數(shù)據(jù)的密度和分布敏感,對(duì)于數(shù)據(jù)的輸入有一定的要求。
監(jiān)督學(xué)習(xí)通過(guò)對(duì)大量帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),來(lái)預(yù)測(cè)未知數(shù)據(jù)的標(biāo)簽,在滑坡預(yù)測(cè)中,常用監(jiān)督學(xué)習(xí)來(lái)預(yù)測(cè)其危險(xiǎn)性。當(dāng)滑坡數(shù)據(jù)具備代表其危險(xiǎn)性的標(biāo)簽時(shí),通常選擇監(jiān)督學(xué)習(xí)方式,其具有以下優(yōu)點(diǎn):①通過(guò)對(duì)帶有標(biāo)簽的數(shù)據(jù)進(jìn)行學(xué)習(xí),能夠確定預(yù)測(cè)的準(zhǔn)確度。②在滑坡發(fā)生后,通過(guò)分析標(biāo)簽數(shù)據(jù),能夠分析發(fā)現(xiàn)滑坡發(fā)生的原因。③監(jiān)督學(xué)習(xí)能夠更好地利用數(shù)據(jù)信息,從而提高預(yù)測(cè)的準(zhǔn)確性。相應(yīng)地,由于監(jiān)督學(xué)習(xí)對(duì)于獲取標(biāo)簽數(shù)據(jù)的依賴性較大,如果標(biāo)簽數(shù)據(jù)獲取不全或不準(zhǔn)確,可能會(huì)影響預(yù)測(cè)的準(zhǔn)確性;同時(shí),監(jiān)督學(xué)習(xí)需要較大的訓(xùn)練數(shù)據(jù)集,以便模型能夠?qū)W習(xí)到足夠多的信息;并且監(jiān)督學(xué)習(xí)的計(jì)算復(fù)雜性較高,運(yùn)行所需硬件設(shè)備較高且所需時(shí)間較長(zhǎng)。
常見(jiàn)的用于滑坡預(yù)測(cè)的監(jiān)督學(xué)習(xí)算法有邏輯回歸、決策樹(shù)、隨機(jī)森林、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)這五種。
2.3.1邏輯回歸
邏輯回歸(logistic regression)是一種廣泛用于解決二分類問(wèn)題的機(jī)器學(xué)習(xí)模型,常用于預(yù)測(cè)一個(gè)樣本屬于某個(gè)類別的概率,其基本原理是利用一個(gè)線性回歸模型來(lái)預(yù)測(cè)概率值,然后將概率值轉(zhuǎn)化為類別預(yù)測(cè)。由于邏輯回歸模型簡(jiǎn)單高效且易于理解,也廣泛運(yùn)用于滑坡等地質(zhì)災(zāi)害的預(yù)測(cè)中。文獻(xiàn)[26]利用多元邏輯回歸和GIS技術(shù)來(lái)預(yù)測(cè)美國(guó)堪薩斯州東北部的山體滑坡災(zāi)害。文獻(xiàn)[27]采用Gumbel分布計(jì)算降雨概率,結(jié)合邏輯回歸模型對(duì)韓國(guó)仁濟(jì)地區(qū)進(jìn)行空間滑坡危險(xiǎn)性預(yù)測(cè)。文獻(xiàn)[28]利用邏輯回歸方法,考慮滑坡壩的形態(tài)特征和顆粒組成以及上游堰塞湖的水動(dòng)力條件,快速預(yù)測(cè)滑坡穩(wěn)定性,借此評(píng)估其危險(xiǎn)性。
邏輯回歸作為經(jīng)典的二分類機(jī)器學(xué)習(xí)算法,用于滑坡危險(xiǎn)性預(yù)測(cè)中較為理想。其優(yōu)勢(shì)在于:①簡(jiǎn)單易用。邏輯回歸模型結(jié)構(gòu)簡(jiǎn)單,容易理解和實(shí)現(xiàn)。②計(jì)算效率高。邏輯回歸模型在計(jì)算概率值時(shí)通常使用指數(shù)函數(shù),計(jì)算效率較高。③輸出結(jié)果易解釋。邏輯回歸模型輸出的結(jié)果是一個(gè)概率值,可以直接解釋為發(fā)生概率。
2.3.2決策樹(shù)
決策樹(shù)(decision tree)是一種基本的分類與回歸方法,通過(guò)將數(shù)據(jù)分成若干個(gè)簡(jiǎn)單的決策節(jié)點(diǎn),每個(gè)決策節(jié)點(diǎn)對(duì)應(yīng)一個(gè)特征值或者一個(gè)條件,從而形成一棵樹(shù)狀結(jié)構(gòu)。每次決策時(shí),模型會(huì)從根節(jié)點(diǎn)開(kāi)始,根據(jù)每個(gè)節(jié)點(diǎn)的條件和特征值指向下一個(gè)節(jié)點(diǎn),直到到達(dá)葉子節(jié)點(diǎn),并返回最終的結(jié)果。在滑坡危險(xiǎn)性預(yù)測(cè)方面,訓(xùn)練決策樹(shù)模型時(shí),使用大量的數(shù)據(jù)來(lái)學(xué)習(xí)滑坡危險(xiǎn)性的特征和條件,并通過(guò)交叉驗(yàn)證來(lái)評(píng)估模型的準(zhǔn)確性。在使用決策樹(shù)模型預(yù)測(cè)時(shí),輸入新的數(shù)據(jù)并跟隨決策樹(shù)的分支流程計(jì)算出最終的預(yù)測(cè)結(jié)果。文獻(xiàn)[29]利用遙感和GIS技術(shù)對(duì)滑坡、地形、地質(zhì)等空間數(shù)據(jù)進(jìn)行探測(cè)、采集和建庫(kù),使用卡方自動(dòng)交互檢測(cè)器和快速、無(wú)偏、高效地統(tǒng)計(jì)樹(shù)算法來(lái)構(gòu)建決策樹(shù)模型,對(duì)韓國(guó)平昌地區(qū)進(jìn)行滑坡危險(xiǎn)性空間預(yù)測(cè)。
研究人員還對(duì)基礎(chǔ)決策樹(shù)做了諸多改進(jìn),擴(kuò)展出表現(xiàn)更優(yōu)的模型??尚艣Q策樹(shù)是一種基于統(tǒng)計(jì)方法的決策樹(shù)改進(jìn)模型,它使用極大似然比和擬合度量來(lái)評(píng)估節(jié)點(diǎn)的信度。文獻(xiàn)[30]利用k折交叉驗(yàn)證和可信決策樹(shù)的方法,研究伊朗厄爾布爾士省塔里干盆地的滑坡危險(xiǎn)性程度。交替決策樹(shù)允許跳躍式?jīng)Q策并使用特征選擇和節(jié)點(diǎn)劃分的方式。文獻(xiàn)[31]運(yùn)用交替決策樹(shù)的方法,對(duì)中國(guó)宜黃地區(qū)的滑坡危險(xiǎn)性進(jìn)行空間預(yù)測(cè)。這些改進(jìn)模型均在決策樹(shù)的基礎(chǔ)上進(jìn)行了改進(jìn),從而使得模型更加靈活,能夠更好地適應(yīng)復(fù)雜的滑坡數(shù)據(jù)。
決策樹(shù)的優(yōu)點(diǎn)在于可以自動(dòng)從原始數(shù)據(jù)中提取特征,并且模型的決策過(guò)程是可解釋的。然而,模型可能過(guò)于簡(jiǎn)單而無(wú)法適應(yīng)復(fù)雜的數(shù)據(jù),或者可能會(huì)由于過(guò)擬合現(xiàn)象而在新的滑坡數(shù)據(jù)上表現(xiàn)不佳。
2.3.3隨機(jī)森林
隨機(jī)森林(random forest)是一種通過(guò)建立多棵決策樹(shù)來(lái)對(duì)樣本進(jìn)行訓(xùn)練及預(yù)測(cè)的模型。在機(jī)器學(xué)習(xí)中,隨機(jī)森林因其簡(jiǎn)單的結(jié)構(gòu)和強(qiáng)大的性能,應(yīng)用和影響非常廣,其在決策樹(shù)的基礎(chǔ)上做了如下改進(jìn):①通過(guò)隨機(jī)選擇數(shù)據(jù)的子集和特征的子集來(lái)訓(xùn)練每棵決策樹(shù),從而避免了決策樹(shù)過(guò)擬合的問(wèn)題。②通過(guò)對(duì)每棵決策樹(shù)的訓(xùn)練結(jié)果進(jìn)行投票,從而使得預(yù)測(cè)的結(jié)果更加穩(wěn)健。③通過(guò)計(jì)算決策樹(shù)的不純度來(lái)評(píng)估特征的重要性,從而進(jìn)行特征選擇。
在滑坡危險(xiǎn)性預(yù)測(cè)中,隨機(jī)森林的應(yīng)用非常廣泛。文獻(xiàn)[32]將隨機(jī)森林分類器與GIS數(shù)據(jù)相結(jié)合,針對(duì)山區(qū)公路上降雨誘發(fā)型滑坡進(jìn)行研究,預(yù)測(cè)其危險(xiǎn)程度。文獻(xiàn)[33]結(jié)合SBAS-InSAR和粒子群優(yōu)化的隨機(jī)森林算法,對(duì)魯?shù)榭h地震頻發(fā)、河谷深切、地形高差大的復(fù)雜山區(qū)的滑坡危險(xiǎn)性進(jìn)行研究。
與基礎(chǔ)的決策樹(shù)模型相比,隨機(jī)森林模型的泛化能力更強(qiáng),能夠處理高維數(shù)據(jù)且對(duì)缺失數(shù)據(jù)不敏感,不易產(chǎn)生過(guò)擬合現(xiàn)象。然而,由于隨機(jī)森林模型對(duì)噪聲數(shù)據(jù)不敏感,這樣就有可能導(dǎo)致模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)不好,無(wú)法擬合有意義的滑坡數(shù)據(jù)信息。
2.3.4支持向量機(jī)
支持向量機(jī)(support vector machine,SVM)是一種對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器。其主要思想是:建立一個(gè)最優(yōu)決策超平面,使得該平面兩側(cè)距離該平面最近的兩類樣本之間的距離最大化,從而對(duì)分類問(wèn)題提供良好的泛化能力。在滑坡危險(xiǎn)性預(yù)測(cè)方面,通常將大量滑坡數(shù)據(jù)分為有潛在危險(xiǎn)和無(wú)潛在危險(xiǎn)兩類,作為正負(fù)樣本來(lái)訓(xùn)練。文獻(xiàn)[34]基于最小二乘支持向量機(jī)和差分搜索算法,預(yù)測(cè)三峽水庫(kù)岸線上的白水河滑坡和譚家河滑坡的位移,進(jìn)而評(píng)判其危險(xiǎn)性。文獻(xiàn)[35]結(jié)合雙輸出最小二乘支持向量機(jī)和粒子群優(yōu)化算法,對(duì)滑坡位移進(jìn)行區(qū)間預(yù)測(cè)。
作為優(yōu)秀的二分類機(jī)器學(xué)習(xí)模型,在滑坡危險(xiǎn)性預(yù)測(cè)中,支持向量機(jī)具有以下優(yōu)點(diǎn):①在模型訓(xùn)練后能夠達(dá)到較高的精度,因此在滑坡危險(xiǎn)性預(yù)測(cè)中可以獲得較高的準(zhǔn)確度。②在高維空間中也能有效地進(jìn)行分類,因此在滑坡危險(xiǎn)性預(yù)測(cè)中能夠處理多維特征。③能夠使用核函數(shù)將數(shù)據(jù)映射到高維空間,從而解決線性不可分問(wèn)題,使得模型能夠?qū)Ψ蔷€性數(shù)據(jù)進(jìn)行分類。另一方面,支持向量機(jī)也存在一些缺點(diǎn):①若滑坡數(shù)據(jù)維度遠(yuǎn)大于樣本量,模型表現(xiàn)較差。②運(yùn)算復(fù)雜度較高且需要花費(fèi)一定的時(shí)間調(diào)整超參數(shù)來(lái)達(dá)到最佳性能。
2.3.5人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng)。它是在現(xiàn)代神經(jīng)科學(xué)研究成果的基礎(chǔ)上提出的,試圖通過(guò)模擬大腦神經(jīng)網(wǎng)絡(luò)處理、記憶信息的方式進(jìn)行信息處理。人工神經(jīng)網(wǎng)絡(luò)具有非線性、非局限性、非常定性和非凸性四大基本特性,在處理滑坡等非線性復(fù)雜系統(tǒng)中,可以充分逼近其中非線性關(guān)系,得到廣泛的應(yīng)用。文獻(xiàn)[36]結(jié)合灰色理論和神經(jīng)網(wǎng)絡(luò)理論的優(yōu)點(diǎn),提出了一種新的灰色神經(jīng)網(wǎng)絡(luò)非線性預(yù)測(cè)模型,對(duì)滑坡位移進(jìn)行預(yù)測(cè)。文獻(xiàn)[37]使用人工神經(jīng)網(wǎng)絡(luò)的反向傳播對(duì)1990年伊朗北部地震受災(zāi)地區(qū)的山體滑坡進(jìn)行風(fēng)險(xiǎn)研究,采用Newmark位移分析方法繪制了地震震中附近察哈爾-瑪哈爾和查爾卡薩爾區(qū)塊的地震誘發(fā)滑坡災(zāi)害圖,借此對(duì)地震誘發(fā)型滑坡進(jìn)行預(yù)測(cè)。文獻(xiàn)[38]利用GPS監(jiān)測(cè)三峽水庫(kù)的白水河滑坡,獲取其地表位移及誘發(fā)因素即庫(kù)水位、降雨量等,構(gòu)建BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)滑坡進(jìn)行預(yù)測(cè)。
人工神經(jīng)網(wǎng)絡(luò)是非線性的系統(tǒng),人工神經(jīng)元處于激活或抑制二種不同的狀態(tài),具有閾值的神經(jīng)元構(gòu)成的網(wǎng)絡(luò)具有更好的性能,可以提高容錯(cuò)性和存儲(chǔ)容量。其應(yīng)用于滑坡的優(yōu)勢(shì)在于:①?gòu)?qiáng)大的學(xué)習(xí)能力。人工神經(jīng)網(wǎng)絡(luò)能夠從龐大的滑坡數(shù)據(jù)中學(xué)習(xí)復(fù)雜的模式,并能夠在未見(jiàn)過(guò)的數(shù)據(jù)上進(jìn)行預(yù)測(cè),這使得它能夠適應(yīng)并識(shí)別各種滑坡特征。②強(qiáng)大的魯棒性和容錯(cuò)性。所有定量或定性的滑坡信息都等勢(shì)分布貯存于網(wǎng)絡(luò)內(nèi)的各神經(jīng)元,便于存儲(chǔ)且容錯(cuò)性較強(qiáng)。③效率高。人工神經(jīng)網(wǎng)絡(luò)多采用并行分布處理方法,能夠同時(shí)快速進(jìn)行大量運(yùn)算。同樣,由于人工神經(jīng)網(wǎng)絡(luò)會(huì)應(yīng)對(duì)龐大的訓(xùn)練數(shù)據(jù)集,也會(huì)產(chǎn)生過(guò)擬合、訓(xùn)練較長(zhǎng)等缺點(diǎn),這些缺點(diǎn)可以通過(guò)調(diào)整數(shù)據(jù)集和優(yōu)化模型來(lái)改善。
滑坡危險(xiǎn)性預(yù)測(cè)是滑坡災(zāi)情評(píng)估工作的核心內(nèi)容之一,傳統(tǒng)的滑坡危險(xiǎn)性預(yù)測(cè)或是具有強(qiáng)滯后性、局限性,或是未能將滑坡本身特性與預(yù)測(cè)模型相結(jié)合,導(dǎo)致預(yù)測(cè)精度不理想。機(jī)器學(xué)習(xí)的方法因其具有強(qiáng)大的擬合能力,能夠?qū)A康幕聰?shù)據(jù)處理,自動(dòng)提取特征,被廣泛應(yīng)用于滑坡危險(xiǎn)性預(yù)測(cè)中。
隨著滑坡數(shù)據(jù)的多樣性與復(fù)雜程度逐漸上升,使用機(jī)器學(xué)習(xí)預(yù)測(cè)滑坡的一些問(wèn)題逐漸顯露。在實(shí)際應(yīng)用中滑坡發(fā)生的頻率相對(duì)較低,因此通常會(huì)存在類別不平衡的問(wèn)題,這會(huì)導(dǎo)致模型在訓(xùn)練和評(píng)估過(guò)程中偏向于預(yù)測(cè)負(fù)例,從而影響模型的準(zhǔn)確性。此外,由于滑坡危險(xiǎn)性預(yù)測(cè)需要考慮多個(gè)因子的影響,實(shí)際數(shù)據(jù)中某些因子可能會(huì)存在缺失值和異常值,進(jìn)而影響模型效果。針對(duì)上述存在的問(wèn)題,可以通過(guò)欠采樣、過(guò)采樣等技術(shù)使得正負(fù)樣本數(shù)目接近,結(jié)合均值填充、中位數(shù)填充等方法降低缺失值對(duì)模型的影響,進(jìn)而提升模型整體水平。
盡管機(jī)器學(xué)習(xí)在滑坡危險(xiǎn)性預(yù)測(cè)中尚存在些許不足,但不可否認(rèn)的是,由于機(jī)器學(xué)習(xí)優(yōu)秀的性能和表現(xiàn),其仍是當(dāng)前的主流方法。隨著科學(xué)技術(shù)的進(jìn)步與發(fā)展,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)新技術(shù)的融入,大量高質(zhì)量的原始滑坡數(shù)據(jù)將被不斷挖掘以用于滑坡預(yù)測(cè)中,訓(xùn)練數(shù)據(jù)的質(zhì)量不斷提升。后續(xù)可利用這些高精度數(shù)據(jù),結(jié)合更強(qiáng)大的深度學(xué)習(xí)模型,挖掘出原始數(shù)據(jù)中更關(guān)鍵的特征并應(yīng)用至預(yù)測(cè)模型。針對(duì)滑坡這類非線性的復(fù)雜系統(tǒng)而言,對(duì)其危險(xiǎn)性的預(yù)測(cè)正朝著全方位多元化綜合發(fā)展。