摘? 要:基于R語(yǔ)言進(jìn)行統(tǒng)計(jì)分析、回歸建模,結(jié)合變量重要性排序、相關(guān)性分析等多種方法,分析了武漢市市內(nèi)流域(長(zhǎng)江、漢江)面積變化的影響因素,建立了流域面積監(jiān)測(cè)隨機(jī)森林回歸模型。與多元線性回歸模型、支持向量回歸模型的對(duì)比結(jié)果表明,隨機(jī)森林回歸模型擬合優(yōu)度更高,平均絕對(duì)誤差更低,這說(shuō)明隨機(jī)森林算法在流域面積監(jiān)測(cè)研究中具有較高的適用性。
關(guān)鍵詞:隨機(jī)森林;流域監(jiān)測(cè);多元線性回歸;支持向量機(jī)
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)12-0074-04
Research on the Applicability of Random Forest Algorithm to Watershed Area Monitoring
LIU Xiaoyu1,2
(1.Three Gorges Smart Water Technology Co., Ltd., Shanghai? 200335, China;
2.Shanghai Investigation, Design & Research Institute Co., Ltd., Shanghai? 200335, China)
Abstract: Statistical analysis and regression modeling is carried out based on R language, combined with variable importance ranking, correlation analysis and other methods, this paper analyzes the influencing factors of the area change of the urban watershed (Yangtze River, Hanjiang River) in Wuhan, and establishes a random forest regression model for watershed area monitoring. The comparison results with multiple linear regression model and support vector regression model show that the random forest regression model has higher Goodness of fit and lower average absolute error, which indicates that random forest algorithm has higher applicability in watershed area monitoring research.
Keywords: Random Forest; watershed monitoring; multiple linear regression; Support Vector Machine
0? 引? 言
近年來(lái),隨著3S技術(shù)的快速發(fā)展,3S動(dòng)態(tài)監(jiān)測(cè)流域變化為流域土地利用監(jiān)測(cè)工作提供了新的思路,國(guó)內(nèi)一些學(xué)者也進(jìn)行了相關(guān)的研究工作。鄭義、王發(fā)良等通過(guò)對(duì)不同分辨率的遙感影像依次抽樣,分別計(jì)算各樣本的河流面積調(diào)整系數(shù),探索不同月份河流覆蓋面積之間的關(guān)系,從而提出將不同時(shí)相影像中提取出的河流面積修正成統(tǒng)一時(shí)點(diǎn)的方法[1]。李石華、周峻松等以撫仙湖流域?yàn)槔?,通過(guò)遙感影像提取流域土地利用信息,結(jié)合社會(huì)經(jīng)濟(jì)數(shù)據(jù),采用多元回歸和主成分分析等方法探索流域土地利用時(shí)空變化的驅(qū)動(dòng)機(jī)制[2]。胡義濤、朱穎等以天目湖流域遙感、土地利用及DEM數(shù)據(jù)為基礎(chǔ),對(duì)天目湖流域林地的動(dòng)態(tài)變化進(jìn)行了定量分析[3]。
隨機(jī)森林算法是一種近些年逐漸被諸多學(xué)者關(guān)注的機(jī)器學(xué)習(xí)算法,因其準(zhǔn)確率較高,對(duì)誤差值有一定的包容性,在高光譜遙感訓(xùn)練學(xué)習(xí)方面表現(xiàn)優(yōu)異,所以常被研究人員應(yīng)用到地學(xué)相關(guān)領(lǐng)域的研究中。崔東文以萬(wàn)元GDP用水量及萬(wàn)元工業(yè)增加值用水量為自變量,建立了基于隨機(jī)內(nèi)插構(gòu)造樣本的隨機(jī)森林回歸年污水排放量預(yù)測(cè)模型[4]。梁慧玲、林玉蕊等以大興安嶺塔河地區(qū)森林火災(zāi)發(fā)生數(shù)據(jù)為基礎(chǔ),采用二項(xiàng)邏輯斯蒂回歸模型和隨機(jī)森林算法分析了塔河地區(qū)森林火災(zāi)與氣象因子之間的關(guān)系,證明了隨機(jī)森林算法在林火預(yù)測(cè)中具有更高的預(yù)測(cè)精度[5]。這說(shuō)明,隨機(jī)森林算法對(duì)變量共線性不敏感和預(yù)測(cè)精度高等優(yōu)勢(shì)讓它逐漸成為機(jī)器學(xué)習(xí)算法中的一種熱門算法。
總體而言,有關(guān)流域面積變化驅(qū)動(dòng)因素的研究比較少,隨機(jī)森林算法在同類研究中的適用性值得探討。因此,本研究對(duì)于流域大尺度監(jiān)測(cè)及機(jī)器學(xué)習(xí)算法在流域影響因素分析研究中的可行性判定具有一定的價(jià)值。
1? 研究方法
本研究以隨機(jī)森林算法為核心,以武漢市15年各項(xiàng)水文及經(jīng)濟(jì)數(shù)據(jù)為基礎(chǔ),通過(guò)相關(guān)性分析、隨機(jī)森林特征重要性檢測(cè)等方法探究武漢市內(nèi)長(zhǎng)江、漢江流域面積年際變化的影響因素,結(jié)合對(duì)各項(xiàng)因素的定量分析,建立具有普適性的隨機(jī)森林回歸流域面積預(yù)測(cè)模型,并通過(guò)與多元線性回歸模型和支持向量回歸模型的誤差比較,探究隨機(jī)森林算法在流域預(yù)測(cè)工作中的可行性,具體的技術(shù)路線如圖1所示。首先,通過(guò)監(jiān)督分類、緩沖區(qū)分析等方法獲取影響因素?cái)?shù)據(jù);其次,對(duì)影響因素?cái)?shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn)、相關(guān)分析、重要性排序和多重共線性檢查,從而確定回歸模型的輸入變量;最后,使用隨機(jī)森林算法建立預(yù)測(cè)模型,并與其他算法模型做以對(duì)比和驗(yàn)證,比較各算法的優(yōu)劣。
2? 研究過(guò)程
2.1? 數(shù)據(jù)收集
2.1.1? 流域面積數(shù)據(jù)
選取武漢市2002—2016年Landsat系列遙感影像(非汛期數(shù)據(jù)),通過(guò)矢量化方法從中提取長(zhǎng)江、漢江流域范圍,計(jì)算兩江為期15年的流域面積數(shù)據(jù)。
2.1.2? 影響因素?cái)?shù)據(jù)
影響流域變化的因素大致可以分為自然因素和人為因素兩類:自然因素是指地理、氣候等導(dǎo)致流域面積變化的因素;人為因素是指人類各項(xiàng)活動(dòng)間接導(dǎo)致流域面積變化的因素,包括社會(huì)經(jīng)濟(jì)、土地利用和水資源利用等。
本研究從《武漢水資源公報(bào)》以及《武漢市統(tǒng)計(jì)年鑒》中獲取武漢市15年來(lái)年降水量數(shù)據(jù),作為氣候影響因素參考;采用監(jiān)督分類和緩沖區(qū)分析兩種方法提取流域土地利用數(shù)據(jù),作為土地利用因素參考;選取綠地、居民用地、水域以及其他用地四類樣本,對(duì)影像數(shù)據(jù)進(jìn)行監(jiān)督分類,以長(zhǎng)江、漢江流域?yàn)橹行慕?級(jí)緩沖區(qū),統(tǒng)計(jì)每一級(jí)緩沖區(qū)范圍內(nèi)各類用地的面積總和;從社會(huì)經(jīng)濟(jì)、人口增長(zhǎng)、社會(huì)生產(chǎn)等多方面考慮,選取產(chǎn)值、人口、年末耕地面積等多種統(tǒng)計(jì)年鑒指標(biāo)作文影響經(jīng)濟(jì)的基礎(chǔ)數(shù)據(jù);選取年地表水資源量、總水資源量、總用水量、人均用水量、萬(wàn)元GDP用水量五個(gè)指標(biāo)來(lái)反映武漢市水資源總量和利用保護(hù)情況。
2.2? 流域面積預(yù)測(cè)模型構(gòu)建
2.2.1? 流域面積影響因素分析
首先,探討土地利用因素對(duì)流域面積的影響,計(jì)算各緩沖區(qū)級(jí)別土地利用面積變量和流域面積之間的相關(guān)性,如表1所示,從表1中可知水域面積與流域面積的相關(guān)性較強(qiáng),其中5級(jí)緩沖區(qū)水域面積與流域面積的相關(guān)性最大。從各類用地相關(guān)性的絕對(duì)值總和來(lái)看,同樣也是5級(jí)緩沖區(qū)(20 km)的絕對(duì)值總和最大,其次是1級(jí)、6級(jí)、7級(jí)緩沖區(qū)。
其次,分別使用隨機(jī)森林算法、多元線性回歸算法和支持向量機(jī)算法對(duì)數(shù)據(jù)進(jìn)行擬合,通過(guò)自變量對(duì)因變量的解釋度或模型的擬合優(yōu)度來(lái)篩選適宜的緩沖區(qū)數(shù)據(jù)級(jí)別,如表2所示。對(duì)于隨機(jī)森林回歸模型,5級(jí)緩沖區(qū)(25 km)范圍土地利用變量對(duì)因變量的解釋程度最高(72.11%);對(duì)于另外兩種模型,7級(jí)緩沖區(qū)(全區(qū))土地利用變量的擬合優(yōu)度均為最高,分別為91.82%和92.01%。因此,使用5級(jí)緩沖區(qū)數(shù)據(jù)作為隨機(jī)森林回歸的建模數(shù)據(jù),使用7級(jí)緩沖區(qū)土地利用數(shù)據(jù)作為多元線性回歸和支持向量回歸的建模數(shù)據(jù)。
再次,探討16個(gè)與社會(huì)經(jīng)濟(jì)和水資源利用相關(guān)的因素對(duì)流域面積的影響,采用Pearson相關(guān)系數(shù)分別計(jì)算各變量(土地利用變量除外)與流域面積的相關(guān)性,結(jié)果如表3所示。選取Pearson相關(guān)系數(shù)排名前七的變量作為回歸模型待選自變量(不含未通過(guò)正態(tài)性檢驗(yàn)的變量)。而總用水量、水產(chǎn)品產(chǎn)量、糧食產(chǎn)量和人均用水量四個(gè)變量與流域面積的相關(guān)性較小,在回歸模型構(gòu)建中可以不予考慮。
此外,隨機(jī)森林算法有其獨(dú)特的度量變量重要性的方法,參數(shù)“誤差增加比例/ %”越大說(shuō)明變量重要性越大,為0說(shuō)明沒(méi)有影響,為負(fù)說(shuō)明可能對(duì)因變量有誤導(dǎo);參數(shù)“節(jié)點(diǎn)純度增長(zhǎng)值”越大說(shuō)明變量重要性越大,為0說(shuō)明對(duì)因變量沒(méi)有影響。對(duì)所有變量進(jìn)行多次擬合并計(jì)算出兩種參數(shù)的平均值,部分?jǐn)?shù)值如表4所示。除排名前四位的變量以外,年降水量和人均生產(chǎn)總值的排名也比較靠前,其他變量排序差異較大,可能是由重要性計(jì)算結(jié)果相近導(dǎo)致的,說(shuō)明它們對(duì)模型的貢獻(xiàn)度相當(dāng)?shù)遣桓?,在后續(xù)建模中可不予考慮。
綜合以上分析,初步得出水域面積、其他用地面積、總水資源量、年地表水資源量、年降水量和人均生產(chǎn)總值為影響流域面積變化的主要因素,在隨機(jī)森林回歸分析時(shí)作為輸入變量參與建模。
2.2.2? 隨機(jī)森林回歸流域預(yù)測(cè)模型建立
隨機(jī)森林回歸模型的建立主要包括變量確定、參數(shù)確定、模型建立和模型檢驗(yàn)評(píng)價(jià)幾個(gè)部分。
隨機(jī)森林是由多棵決策樹(shù)組合而成的,通過(guò)每棵樹(shù)生成的結(jié)果投票表決得到最后結(jié)果。首先確定構(gòu)建決策樹(shù)時(shí)向下分支隨機(jī)抽樣的變量數(shù)目,通常選為建模輸入變量數(shù)目的1/3[6]。上文共選擇6個(gè)變量,則該參數(shù)為2。用前文選擇的輸入變量建立隨機(jī)森林回歸模型,得到模型誤差和決策樹(shù)數(shù)目的關(guān)系,發(fā)現(xiàn)當(dāng)決策樹(shù)數(shù)目大于600之后,模型的誤差開(kāi)始趨于穩(wěn)定,因此將決策樹(shù)數(shù)目參數(shù)確定為600。
再次檢測(cè)變量重要性,發(fā)現(xiàn)變量重要性排序基本保持在穩(wěn)定狀態(tài),此時(shí)得到的隨機(jī)森林回歸模型對(duì)因變量的解釋度約為62.94%,模型的擬合優(yōu)度為91.32%。為了進(jìn)一步優(yōu)化模型,去掉貢獻(xiàn)度最小的變量即人均生產(chǎn)總值重新建模,發(fā)現(xiàn)余下5個(gè)變量對(duì)因變量的解釋度為70.41%,模型擬合優(yōu)度為94.38%??紤]到隨機(jī)森林算法對(duì)于變量和數(shù)據(jù)量的基本要求,不再對(duì)模型做進(jìn)一步的變量刪除。
2.3? 對(duì)比驗(yàn)證
2.3.1? 多元線性回歸流域面積預(yù)測(cè)模型構(gòu)建
在多元線性回歸模型中,具有共線性的變量會(huì)影響模型的預(yù)測(cè)結(jié)果,需要對(duì)用于建模的自變量進(jìn)行共線性診斷。計(jì)算變量方差膨脹因子(VIF值)發(fā)現(xiàn),年地表水資源量和總水資源量均存在嚴(yán)重的多重共線性。因此后期在進(jìn)行回歸分析前必須先降低變量之間的共線性。
使用逐步回歸的方法對(duì)自變量進(jìn)行篩選,經(jīng)過(guò)多輪的逐步回歸及共線性檢查,發(fā)現(xiàn)在僅保留其他用地面積和水域面積兩個(gè)變量時(shí),模型和自變量的顯著性最佳,且不再存在多重共線性,如表5所示,模型在0.05的置信水平上具有顯著性,變量在0.05的置信水平上都通過(guò)了顯著性檢驗(yàn),且擬合優(yōu)度達(dá)到了91.53%。
2.3.2? 支持向量回歸流域面積預(yù)測(cè)模型構(gòu)建
在進(jìn)行支持向量回歸分析之前,須采用多次建模計(jì)算擬合優(yōu)度的方法來(lái)選擇回歸模型類別和核函數(shù)組合,發(fā)現(xiàn)當(dāng)參數(shù)組合為“nu-regression”和“l(fā)inear”時(shí),擬合優(yōu)度最高。
綜上,水域面積、總水資源量、年地表水資源量、年降水量和其他用地面積是排名最靠前的5個(gè)自變量。建模時(shí),逐漸去掉相關(guān)性最小的自變量,計(jì)算不同變量數(shù)目下模型的擬合優(yōu)度,結(jié)果如表6所示,從表7中可知使用水域面積、年地表水資源量和總水資源量建立回歸模型[7]時(shí),模型的誤差和擬合優(yōu)度達(dá)到最優(yōu),約為90.49%。
2.3.3? 模型對(duì)比分析
本研究使用全部數(shù)據(jù)來(lái)訓(xùn)練和驗(yàn)證模型,使模型最大限度地獲取數(shù)據(jù)變化信息,從而使模型擁有更高的精度和適應(yīng)性。為比較三種算法的優(yōu)劣,將三種模型的樣本擬合值與樣本觀測(cè)值(影像流域面積數(shù)值)進(jìn)行比較,如圖2、圖3所示。
在折線圖中,散點(diǎn)為樣本觀測(cè)值,擬合線上的點(diǎn)為模型預(yù)測(cè)值,三個(gè)模型的擬合度相當(dāng),擬合效果不好的點(diǎn)在數(shù)目和距離上相差不大。
在散點(diǎn)圖中,橫坐標(biāo)為樣本觀測(cè)值,縱坐標(biāo)為模型預(yù)測(cè)值,添加45度傾斜參考線比較,發(fā)現(xiàn)支持向量回歸模型偏離參考線的點(diǎn)在距離和數(shù)目上最大,其他兩種模型相差不大,說(shuō)明支持向量回歸模型的擬合效果最差,其他兩種模型的擬合效果相近。
使用四個(gè)指標(biāo)參數(shù)MAE(平均絕對(duì)誤差)、RMSE(均方根誤差)、RSE(相對(duì)平方誤差)和R2(擬合優(yōu)度)來(lái)評(píng)價(jià)回歸模型的預(yù)測(cè)能力。MAE、RSE、RMSE三個(gè)參數(shù)的值越小說(shuō)明模型的預(yù)測(cè)誤差越小,R2越大說(shuō)明模型擬合效果越好,計(jì)算結(jié)果如表7所示。
比較四個(gè)參數(shù)的大小可知,隨機(jī)森林回歸模型相比于多元線性回歸模型和支持向量回歸模型誤差更小,預(yù)測(cè)精度和擬合優(yōu)度更高。
綜合來(lái)看,三種回歸模型在流域面積預(yù)測(cè)問(wèn)題上表現(xiàn)出來(lái)的適用性都不錯(cuò),但隨機(jī)森林回歸模型略占優(yōu)勢(shì),更適用于流域面積預(yù)測(cè)及相關(guān)研究。
3? 結(jié)? 論
本文對(duì)影響武漢市主要流域(長(zhǎng)江、漢江)覆蓋面積的各項(xiàng)因素進(jìn)行了分析討論,選取了年地表水資源量、總水資源量、年降水量、水域面積等5個(gè)變量,作為隨機(jī)森林回歸模型的輸入變量,建立了最優(yōu)隨機(jī)森林回歸流域面積預(yù)測(cè)模型。主要結(jié)論為:
1)土地利用類型變化一定程度上影響了流域面積變化,其中水域面積和其他用地(耕地、未利用地等)面積變化對(duì)流域面積的影響最大;此外,與水資源密切相關(guān)的因素(年降水量、年地表水資源量、總水資源量等)對(duì)流域面積的影響較大。
2)使用隨機(jī)森林算法擬合輸入變量時(shí),可以得到準(zhǔn)確度較高的流域面積預(yù)測(cè)模型,說(shuō)明隨機(jī)森林算法在流域面積預(yù)測(cè)研究中具有可行性。
3)通過(guò)與多元線性回歸模型和支持向量回歸模型的比較分析,發(fā)現(xiàn)隨機(jī)森林回歸模型表現(xiàn)突出,誤差率最小,擬合度最高,說(shuō)明隨機(jī)森林算法相比于線性回歸算法和SVM算法更適用于流域面積預(yù)測(cè)。
上述結(jié)論充分說(shuō)明隨機(jī)森林算法在一定程度上適用于地學(xué)問(wèn)題,但仍存在局限性,值得我們做進(jìn)一步的研究和探討。其一,機(jī)器學(xué)習(xí)算法普遍需要大量數(shù)據(jù)來(lái)學(xué)習(xí)建模才能體現(xiàn)其最優(yōu)擬合效果,但本研究中數(shù)據(jù)量有限,即使已使用一些手段來(lái)降低誤差,但模型穩(wěn)定度仍待提升;其二,流域面積變化與河流汛期密切相關(guān),但遙感影像的采集時(shí)段并不統(tǒng)一,導(dǎo)致模型可信度有限。
參考文獻(xiàn):
[1] 鄭義,王發(fā)良,李廣泳,等.面向地理國(guó)情監(jiān)測(cè)的河流面積調(diào)整系數(shù)研究 [J].遙感信息,2014,29(4):26-30+36.
[2] 李石華,周峻松,王金亮.1974—2014年撫仙湖流域土地利用/覆蓋時(shí)空變化與驅(qū)動(dòng)力分析 [J].國(guó)土資源遙感,2017,29(4):132-139.
[3] 胡義濤,朱穎,趙越,等.基于DEM高程的天目湖流域林地動(dòng)態(tài)變化研究 [J].蘇州科技大學(xué)學(xué)報(bào):工程技術(shù)版,2017,30(4):57-61.
[4] 崔東文.隨機(jī)森林回歸模型及其在污水排放量預(yù)測(cè)中的應(yīng)用 [J].供水技術(shù),2014,8(1):31-36.
[5] 梁慧玲,林玉蕊,楊光,等.基于氣象因子的隨機(jī)森林算法在塔河地區(qū)林火預(yù)測(cè)中的應(yīng)用 [J].林業(yè)科學(xué),2016,52(1):89-98.
[6] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用 [J].應(yīng)用昆蟲(chóng)學(xué)報(bào),2013,50(4):1190-1197.
[7] 趙北庚.基于R語(yǔ)言randomForest包的隨機(jī)森林建模研究 [J].計(jì)算機(jī)光盤軟件與應(yīng)用,2015,18(2):152-153.
作者簡(jiǎn)介:劉曉宇(1996.05—),女,漢族,湖北天門人,助理工程師,工學(xué)碩士,研究方向:智慧水務(wù)GIS應(yīng)用。