巨文珍,韋龍斌,彭泊林,李常誠(chéng),潘 婷
(廣西壯族自治區(qū)林業(yè)勘測(cè)設(shè)計(jì)院,南寧 530011)
森林火災(zāi)是一項(xiàng)突發(fā)性強(qiáng)、破壞性大、處置較為困難的自然災(zāi)害。近年來(lái),隨著全球氣候變化,其發(fā)生次數(shù)和受災(zāi)面積均有增加趨勢(shì),給各國(guó)森林資源、人民生命安全和財(cái)產(chǎn)造成了巨大的威脅[1-2]。
利用驅(qū)動(dòng)因素對(duì)林火發(fā)生概率進(jìn)行預(yù)測(cè)是森林火災(zāi)的研究熱點(diǎn)[3]。隨著研究深入,從前期僅考慮單一的氣候因子逐漸發(fā)展為氣候、可燃物、地形、人類(lèi)活動(dòng)等多因素的綜合預(yù)測(cè)[4-7]。Logistic回歸模型是最常見(jiàn)的預(yù)測(cè)模型,在有較好預(yù)測(cè)精度的同時(shí)能夠通過(guò)模型參數(shù)明確解釋因子與林火之間的關(guān)系,但對(duì)數(shù)據(jù)的正態(tài)性和線(xiàn)性關(guān)系有較高的要求[8-10];機(jī)器學(xué)習(xí)模型對(duì)數(shù)據(jù)要求較為寬松,現(xiàn)已在林火預(yù)測(cè)中得到了廣泛應(yīng)用并取得了不錯(cuò)的效果[11-14],如潘登等[5]和李永和等[15]對(duì)湘中丘陵區(qū)和浙江省林火預(yù)測(cè)模型進(jìn)行了研究,對(duì)比均發(fā)現(xiàn)機(jī)器學(xué)習(xí)模型精度要優(yōu)于logistic回歸模型。
廣西森林資源豐富,地形復(fù)雜,林區(qū)經(jīng)營(yíng)活動(dòng)頻繁,近年來(lái)極端天氣日數(shù)逐漸增多,全區(qū)森林火災(zāi)管控難度逐漸增大。深入研究廣西森林火災(zāi)的主要驅(qū)動(dòng)因子并對(duì)其發(fā)生概率進(jìn)行預(yù)測(cè),對(duì)于優(yōu)化該區(qū)域防滅火資源的分配,更加有效地進(jìn)行森林火災(zāi)的預(yù)防與撲救具有重要意義。當(dāng)前對(duì)林火預(yù)測(cè)模型的研究主要集中在東北、東南和云貴川地區(qū)[16],缺乏對(duì)廣西大尺度下林火驅(qū)動(dòng)因素的深入分析。因此,本研究通過(guò)Logistic回歸模型和機(jī)器學(xué)習(xí)模型探索氣象、可燃物、地形、人類(lèi)活動(dòng)等四大類(lèi)驅(qū)動(dòng)因素對(duì)廣西林火發(fā)生的影響,旨在為廣西森林火災(zāi)監(jiān)測(cè)預(yù)警提供科學(xué)參考。
廣西壯族自治區(qū)(20°54′—26°23′N(xiāo),104°28′—112°04′ E)西靠云貴高原,北為南嶺山地,南臨熱帶海洋,地勢(shì)自西北向東南傾斜。全區(qū)為典型的亞熱帶季風(fēng)氣候,雨熱同期,年平均氣溫17~24 ℃,年降雨量750~2 200 mm。植被類(lèi)型主要有溝谷雨林、季雨林、常綠闊葉林、常綠落葉混交林、落葉闊葉林、針闊混交林等,人工林樹(shù)種主要有杉木(Cunninghamialanceolata)、馬尾松(Pinusmassoniana)和速生桉(Eucalyptusrobusta)等[17]。廣西90%以上的森林火災(zāi)由人為原因?qū)е?其中又以農(nóng)事用火和祭祀用火居多。每年9月到次年4月,尤其是清明、重陽(yáng)等重要祭祀節(jié)日前后是森林火災(zāi)最頻發(fā)的時(shí)段,這段時(shí)間是廣西重點(diǎn)防火期(1)廣西壯族自治區(qū).廣西森林火災(zāi)易發(fā)多發(fā)原因及對(duì)策調(diào)研報(bào)告.2023.。
1)森林火災(zāi)數(shù)據(jù)為廣西2011—2020年的火災(zāi)檔案資料,包括火災(zāi)發(fā)生點(diǎn)的經(jīng)緯度、日期等信息。在剔除經(jīng)緯度錯(cuò)誤的火災(zāi)數(shù)據(jù)后,共保留了6 495組數(shù)據(jù)。由于模型要求數(shù)據(jù)為二項(xiàng)分布的形式,本文采用ArcGIS 10.2在研究區(qū)域的林地內(nèi)按照森林火災(zāi)數(shù)量1∶1生成隨機(jī)點(diǎn)。生成時(shí),在林火發(fā)生點(diǎn)處創(chuàng)建了1 km的緩沖區(qū)以減小空間自相關(guān)性。隨機(jī)點(diǎn)的時(shí)間也是在研究期內(nèi)隨機(jī)生成。
2)選取氣象、地形、可燃物、人為活動(dòng)等四大類(lèi)因素作為建立林火預(yù)測(cè)模型的初始變量。氣象因素包括月平均降雨量、月平均相對(duì)濕度、月最高氣溫、月平均氣溫、月平均風(fēng)速、月大風(fēng)天數(shù)等6個(gè)因子,從全區(qū)2011—2020年的30弧秒氣象格網(wǎng)數(shù)據(jù)中,通過(guò)林火發(fā)生點(diǎn)與隨機(jī)點(diǎn)的時(shí)間和空間坐標(biāo)提取;地形因素包括海拔和坡度,從全區(qū)數(shù)字高程DEM與坡度柵格數(shù)據(jù)中提取;可燃物載量從廣西第一次森林火災(zāi)風(fēng)險(xiǎn)普查數(shù)據(jù)庫(kù)中提取;人類(lèi)活動(dòng)因素包括林區(qū)人口、經(jīng)濟(jì)、建筑物數(shù)量,從全區(qū)30弧秒林區(qū)人口、經(jīng)濟(jì)和建筑物格網(wǎng)數(shù)據(jù)提取(2)廣西壯族自治區(qū),廣西壯族自治區(qū)林業(yè)勘測(cè)設(shè)計(jì)院.廣西第一次森林火災(zāi)風(fēng)險(xiǎn)普查成果.2022.。
2.2.1Logistic回歸模型
設(shè)置因變量數(shù)據(jù)結(jié)構(gòu)為二項(xiàng)分布形式(林火發(fā)生為1,未發(fā)生為0),假設(shè)林火發(fā)生概率為P,林火不發(fā)生概率為(1-P),得到關(guān)系模型如式(1)所示。
(1)
經(jīng)過(guò)變換,可得如式(2)所示的林火發(fā)生概率評(píng)估公式。
(2)
式中:β0為常量;自變量x1,x2,…,xn為各林火驅(qū)動(dòng)因子;β1,β2,…,βn為各驅(qū)動(dòng)因子的系數(shù)。
2.2.2機(jī)器學(xué)習(xí)模型
隨機(jī)森林(Random Forest,RF)通過(guò)從原始訓(xùn)練樣本集中隨機(jī)有放回地抽取k個(gè)樣本生成新的訓(xùn)練樣本集合,生成大量的決策樹(shù),所有決策樹(shù)預(yù)測(cè)類(lèi)中的眾數(shù)類(lèi)別即為隨機(jī)森林所預(yù)測(cè)的這一樣本單元的類(lèi)別。RF模型有著對(duì)數(shù)據(jù)較強(qiáng)的適應(yīng)能力和抗噪聲能力,被廣泛用于林火預(yù)測(cè)[13]。
支持向量機(jī)(Support Vector Machine,SVM)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的通用學(xué)習(xí)算法,能夠有效地克服機(jī)器學(xué)習(xí)中多維度和過(guò)擬合的問(wèn)題[18]。它的基本思想是在樣本輸入空間或特征空間構(gòu)造出一個(gè)最優(yōu)超平面,使得超平面到2類(lèi)樣本集之間的距離達(dá)到最大,從而取得最好的一般化能力[14]。
反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò)[19],在輸入層與輸出層之間增加可設(shè)置層數(shù)的神經(jīng)元(隱藏層),輸入數(shù)據(jù)經(jīng)由神經(jīng)元通過(guò)激活函數(shù)進(jìn)行單向傳遞,通過(guò)不斷迭代調(diào)整權(quán)重與閾值,直到輸出結(jié)果與期望接近。
2.2.3因子選擇與模型檢驗(yàn)
通過(guò)標(biāo)準(zhǔn)化處理消除不同因子之間量綱的差異,利用方差膨脹因子VIF(Variance Inflation Factor,VIF)進(jìn)行多重共線(xiàn)性檢驗(yàn),剔除共線(xiàn)性較高的自變量。將全部樣本分為建模樣本(70%)和檢驗(yàn)樣本(30%),為減少由于樣本劃分帶來(lái)的隨機(jī)性對(duì)參數(shù)結(jié)果的干擾,隨機(jī)生成了5次建模樣本,通過(guò)Logistic回歸模型篩選出3次以上顯著的變量來(lái)構(gòu)建Logistic回歸模型和機(jī)器學(xué)習(xí)模型。
利用準(zhǔn)確率(Accuracy)、召回率(Recall)和受試者工作特征(Receiver Operating Characteristic,ROC)來(lái)評(píng)價(jià)各模型的擬合效果。準(zhǔn)確率和召回率越高分別代表模型的整體預(yù)測(cè)精度和對(duì)森林火災(zāi)的預(yù)測(cè)效果越好,ROC曲線(xiàn)不受分割閾值影響,能夠較好地評(píng)價(jià)模型的泛化能力[20]。ROC曲線(xiàn)下方面積為AUC(Area Under Curve,AUC),取值范圍為[0.5,1],AUC值越大表示模型的性能越優(yōu)秀[21-22]。
2.2.4數(shù)據(jù)分析與處理
使用Excel 2019對(duì)歷史森林火災(zāi)數(shù)據(jù)進(jìn)行初步處理,使用ArcGIS 10.2提取林火發(fā)生點(diǎn)和隨機(jī)點(diǎn)的各項(xiàng)屬性數(shù)據(jù),使用R軟件完成模型的構(gòu)建與檢驗(yàn)。
通過(guò)方差膨脹檢驗(yàn)得出月最高氣溫與其他因子之間存在多重共線(xiàn)性,剔除月最高氣溫后,隨機(jī)生成了5個(gè)訓(xùn)練樣本構(gòu)建了Logistic回歸模型。模型變量選擇結(jié)果如表1所示,在5次模型構(gòu)建中,除林區(qū)經(jīng)濟(jì)顯著1次外,其余變量均顯著3次以上,參數(shù)符號(hào)在5次建模結(jié)果中均保持一致。最終確定可燃物載量、林區(qū)建筑物數(shù)量、林區(qū)人口數(shù)量、海拔、坡度、月平均降雨量、月平均相對(duì)濕度,月平均氣溫、月大風(fēng)天數(shù)、月平均風(fēng)速等10個(gè)變量作為構(gòu)建Logistic回歸模型和機(jī)器學(xué)習(xí)模型的自變量。
表1 Logistic回歸模型變量選擇結(jié)果
確定最終建模因子后,重新構(gòu)建Logistic回歸模型(表2)。從表中參數(shù)的大小來(lái)看,對(duì)林火發(fā)生影響最大的前5位因素是林區(qū)建筑物數(shù)量、海拔、月平均相對(duì)濕度、月平均降雨量和月平均風(fēng)速;從參數(shù)符號(hào)來(lái)看,可燃物載量、林區(qū)建筑物數(shù)量、月平均風(fēng)速和林區(qū)人口數(shù)量與林火發(fā)生概率呈正相關(guān),而海拔、月平均相對(duì)濕度、月平均降雨量、坡度、月大風(fēng)天數(shù)、月平均氣溫與林火發(fā)生概率呈負(fù)相關(guān)。
表2 最優(yōu)Logistic回歸模型擬合統(tǒng)計(jì)結(jié)果
構(gòu)建機(jī)器學(xué)習(xí)模型后,將各模型中因子按重要性排序匯總(表3)。不同模型中因子重要程度結(jié)果略有差異:整體上,林區(qū)建筑物數(shù)量、月平均降雨量和月平均相對(duì)濕度是影響廣西森林火災(zāi)最主要的驅(qū)動(dòng)因素,月大風(fēng)天數(shù)相較于其它因子對(duì)廣西森林火災(zāi)影響最小;在Logistic回歸模型和RF模型中,海拔是影響林火發(fā)生主要的因子,但在SVM模型和BP神經(jīng)網(wǎng)絡(luò)模型排名中相對(duì)靠后;可燃物載量?jī)H在BP神經(jīng)網(wǎng)絡(luò)模型中排名較高。
表3 因子重要性排序
從表4可知,機(jī)器學(xué)習(xí)模型整體精度均優(yōu)于Logistic回歸模型,準(zhǔn)確率和召回率均在80%以上。各模型均有較好的泛化效果,驗(yàn)證樣本整體精度要優(yōu)于建模樣本。從召回率看,logistic回歸模型對(duì)林火發(fā)生點(diǎn)的預(yù)測(cè)效果更好,精度相比整體準(zhǔn)確率高5%左右;機(jī)器學(xué)習(xí)模型對(duì)非林火發(fā)生點(diǎn)和林火發(fā)生點(diǎn)的預(yù)測(cè)區(qū)別相差不大。從圖1可得知:各模型均具有較高的預(yù)測(cè)精度,SAUC>0.85;RF的預(yù)測(cè)效果最好,SAUC=0.92。
圖1 模型ROC曲線(xiàn)
表4 模型評(píng)價(jià)指標(biāo)對(duì)比
通過(guò)模型精度檢驗(yàn)得知RF模型擬合效果最佳,基于此模型對(duì)廣西全區(qū)各鄉(xiāng)鎮(zhèn)林火發(fā)生概率進(jìn)行預(yù)測(cè)。按市進(jìn)行統(tǒng)計(jì),結(jié)果如表5所示。林火發(fā)生概率僅表示該區(qū)域林分引發(fā)火災(zāi)的難易程度,并不代表林火發(fā)生的必然性。整體上,廣西全區(qū)林火發(fā)生概率處于較高水平,概率較低的地區(qū)主要為林地面積較少的城區(qū)街道。位于桂西的河池市、百色市、崇左市林火平均概率均在0.7以上,最高達(dá)0.972,森林火災(zāi)隱患最大;南部沿海的北海市林火發(fā)生概率最低。
表5 廣西林火發(fā)生概率分布
從模型結(jié)果可以看出,研究區(qū)域內(nèi)林火發(fā)生與可燃物載量、林區(qū)建筑物、林區(qū)人口數(shù)量呈正相關(guān),與海拔和坡度呈負(fù)相關(guān),這與大多數(shù)研究結(jié)論一致[23-26]。廣西可燃物載量較高的地區(qū)主要為松、杉、桉樹(shù)等人工林集中區(qū),這些地區(qū),林區(qū)人口與建筑物數(shù)量同樣較多,生產(chǎn)經(jīng)營(yíng)活動(dòng)頻繁,加之樹(shù)種本身易燃性高,引發(fā)森林火災(zāi)的風(fēng)險(xiǎn)大。隨著海拔的上升和坡度增大,人類(lèi)活動(dòng)逐漸減少;海拔的上升,氣溫降低、相對(duì)濕度與植被含水率上升;坡度的增大,水分滯留時(shí)間短,植被減少可燃物載量降低:這都大大降低了森林火災(zāi)發(fā)生的可能性[10,27-30]。部分研究表明林火的發(fā)生與經(jīng)濟(jì)呈正相關(guān)[16,31],本次建模結(jié)果顯示林區(qū)經(jīng)濟(jì)對(duì)林火發(fā)生的影響并不顯著,這與梁慧玲等[11]的研究結(jié)果一致,可能是由于經(jīng)濟(jì)發(fā)達(dá)地區(qū)基本為城區(qū),森林面積分布相對(duì)較少,同時(shí)森林火災(zāi)管控水平較高,引發(fā)的森林火災(zāi)數(shù)量較少。
模型結(jié)果顯示,森林火災(zāi)的發(fā)生與月平均降雨量和月平均相對(duì)濕度呈負(fù)相關(guān),與平均風(fēng)速呈正相關(guān)。這是因?yàn)榻涤炅颗c相對(duì)濕度的增加,能夠提高森林可燃物的含水率,而較高的風(fēng)速能夠加速可燃物的干燥,提高燃燒性[8,32]。當(dāng)前鮮有研究分析月大風(fēng)天數(shù)與森林火災(zāi)之間的關(guān)系。大多數(shù)研究顯示,氣溫的升高能夠促進(jìn)地表蒸騰作用,降低植被含水率,增加森林火災(zāi)發(fā)生的風(fēng)險(xiǎn)[16,27]。本研究結(jié)果顯示,月平均氣溫和月大風(fēng)天數(shù)與森林火災(zāi)概率均呈負(fù)相關(guān),這可能與廣西的氣候特點(diǎn)有關(guān)。廣西地處低緯,屬亞熱帶季風(fēng)氣候區(qū),大風(fēng)天氣主要由強(qiáng)對(duì)流天氣和臺(tái)風(fēng)過(guò)境導(dǎo)致,集中分布在夏秋兩季[32-33]。雖然夏秋兩季在全年里溫度較高,但由于是汛期,降雨量大,林火不易發(fā)生[8]。因此,模型結(jié)果顯示其與森林火災(zāi)概率呈負(fù)相關(guān)。
在模型精度上,Logistic回歸模型與機(jī)器學(xué)習(xí)模型對(duì)研究區(qū)域內(nèi)林火發(fā)生均有較好的預(yù)測(cè)效果(SAUC>0.85),機(jī)器學(xué)習(xí)的整體精度要高于Logistic回歸模型,其中RF模型的預(yù)測(cè)精度最高。從各因子與林火發(fā)生概率的相關(guān)關(guān)系來(lái)看,各因子之間相互影響,使得Logistic回歸模型并不能夠較好地揭示部分因子與森林火災(zāi)之間的獨(dú)立關(guān)系[30,34]。今后,可通過(guò)考慮空間自相關(guān)性和分季節(jié)建模來(lái)提高模型對(duì)各驅(qū)動(dòng)因子的解釋度及精度。
本研究結(jié)合氣象因子、地形因子、可燃物載量和人為活動(dòng)因子,構(gòu)建了Logistic回歸模型和機(jī)器學(xué)習(xí)模型對(duì)廣西林火發(fā)生概率進(jìn)行預(yù)測(cè)。結(jié)果表明:林區(qū)建筑物數(shù)量、月平均降雨量、月平均相對(duì)濕度是廣西林火發(fā)生的主要驅(qū)動(dòng)因子;logistic模型和機(jī)器學(xué)習(xí)模型均取得了較好的擬合效果(SAUC>0.85),RF模型的精度最高。對(duì)廣西各地區(qū)林火發(fā)生概率預(yù)測(cè)的結(jié)果顯示:廣西森林火災(zāi)高風(fēng)險(xiǎn)區(qū)在馬尾松、杉木、速生桉等易燃樹(shù)種集中分布區(qū);桂西北、桂西南地區(qū)由于降雨量相對(duì)較少,季節(jié)性干旱天氣頻繁,林火發(fā)生概率相比南部沿海地區(qū)高。整體上,預(yù)測(cè)結(jié)果符合廣西客觀實(shí)際,能為廣西林火預(yù)警預(yù)測(cè)提供參考。