摘 要:準(zhǔn)確有效地預(yù)測(cè)降水量有利于農(nóng)業(yè)生產(chǎn)發(fā)展的規(guī)劃、水資源管理以及自然災(zāi)害的預(yù)防等方面,對(duì)于干旱半干旱地區(qū)作用更為顯著。該文利用慶陽(yáng)市2023年1月至2024年1月的降水?dāng)?shù)據(jù),基于包裝法中的遞歸特征消除,迭代移除不重要的特征,后使用隨機(jī)森林模型對(duì)該數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。結(jié)果表明,通過(guò)對(duì)2種方法的整合使用,能夠使模型具有良好的預(yù)測(cè)性能,且對(duì)慶陽(yáng)市降水時(shí)刻與降水量作出較好的預(yù)測(cè)。該文研究?jī)?nèi)容對(duì)其他地市的降水量預(yù)測(cè)具有參考價(jià)值,也對(duì)當(dāng)?shù)氐乃Y源合理利用以及促進(jìn)當(dāng)?shù)厣鐣?huì)經(jīng)濟(jì)可持續(xù)發(fā)展具有十分重要的意義。
關(guān)鍵詞:包裝法;遞歸特征消除;特征選擇;隨機(jī)森林;降水預(yù)測(cè)
中圖分類號(hào):P457.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2096-9902(2024)19-0010-04
Abstract: Accurately and effectively predicting precipitation is conducive to the planning of agricultural production development, water resources management and prevention of natural disasters, and is more significant in arid and semi-arid areas. This paper uses the precipitation data of Qingyang City from January 2023 to January 2024, iteratively removes unimportant features based on recursive feature elimination in the packaging method, and then uses the random forest model to analyze and predict the data. The results show that by integrating the two methods, the model can have good prediction performance, and can make a good prediction for precipitation time and precipitation amount in Qingyang City. The research content in this paper also has reference value for precipitation prediction in other cities, and is also of great significance to the rational use of local water resources and the promotion of sustainable local social and economic development.
Keywords: packaging method; recursive feature elimination; feature selection; random forest; precipitation prediction
近年來(lái),隨著區(qū)域經(jīng)濟(jì)發(fā)展和流域開發(fā)在國(guó)民經(jīng)濟(jì)的地位日趨提高,對(duì)降水量預(yù)報(bào)提出了更高的要求。同時(shí),提高降水量的精細(xì)化預(yù)報(bào)水平是現(xiàn)如今很多行業(yè)共有的需求。慶陽(yáng)市作為我國(guó)西北地區(qū)的重要糧倉(cāng),農(nóng)業(yè)發(fā)達(dá),對(duì)降水預(yù)測(cè)的需求更高。隨著大數(shù)據(jù)時(shí)代的到來(lái),相比于傳統(tǒng)方法,機(jī)器學(xué)習(xí)算法可以更有效地提高降水量預(yù)測(cè)的精度。準(zhǔn)確地預(yù)測(cè)慶陽(yáng)市降水量對(duì)于該地區(qū)農(nóng)業(yè)生產(chǎn)[1]、社會(huì)經(jīng)濟(jì)發(fā)展[2]、水資源合理利用[3]及防災(zāi)減災(zāi)[4]等方面都有積極影響,并對(duì)促進(jìn)當(dāng)?shù)厣鐣?huì)經(jīng)濟(jì)的可持續(xù)發(fā)展、提高人民生活質(zhì)量具有十分重要的意義。
1 材料與方法
1.1 研究區(qū)域概況
慶陽(yáng)市位于中國(guó)西部地區(qū)的甘肅省東部,總面積27 119 km2,下轄1個(gè)區(qū)和7個(gè)縣,古稱慶州,常被稱為“隴東”,是中國(guó)“第一塊舊石器”的發(fā)現(xiàn)地,也是中醫(yī)鼻祖岐伯的出生地、中醫(yī)藥文化的發(fā)祥地。慶陽(yáng)還是甘肅的革命老區(qū),長(zhǎng)慶油田的發(fā)源地,因此被譽(yù)為“紅色圣地、岐黃故里、農(nóng)耕之源、能源新都”。慶陽(yáng)是中華民族早期農(nóng)耕文明的發(fā)祥地之一,素有“隴東糧倉(cāng)”的美稱。慶陽(yáng)市屬大陸性氣候,冬季常受西北風(fēng)影響,夏季多為東南風(fēng),冬季干冷而晴朗,夏季炎熱而多雨。降雨量南多北少,氣溫南部高于北部,年平均氣溫在9.5~10.7 ℃,無(wú)霜期約為140~180 d。年日照時(shí)數(shù)2 213.4~2 540.4 h,太陽(yáng)總輻射量125~145 kcal/m2,地面平均蒸發(fā)量為520 mm,總體上呈現(xiàn)出干旱、溫和、陽(yáng)光充足的特點(diǎn)。
1.2 數(shù)據(jù)來(lái)源及變量選取
本文所使用的數(shù)據(jù)均來(lái)自美國(guó)國(guó)家大氣研究中心、計(jì)算與信息系統(tǒng)實(shí)驗(yàn)室研究數(shù)據(jù)檔案ds094.0-NCEP氣候預(yù)報(bào)系統(tǒng)版本2(CFSv2)6小時(shí)產(chǎn)品(https://rda.ucar.edu/datasets/ds094-0/)。該數(shù)據(jù)檔案收錄的數(shù)據(jù)時(shí)間尺度為2011年1月至當(dāng)前日期,空間尺度為全球,空間分辨率為0.5°×0.5°的網(wǎng)格數(shù)據(jù),時(shí)間頻率為6 h。本文所使用的數(shù)據(jù)時(shí)間尺度為2023年1月至2024年1月,數(shù)據(jù)參數(shù)包括總降水量、溫度、相對(duì)濕度、蒸騰作用、冠層水分蒸發(fā)、裸土直接蒸發(fā)、臭氧總量、地?zé)嵬?、露點(diǎn)溫度、風(fēng)的u分量、晴空向下長(zhǎng)波通量和向下短波輻射通量等24個(gè)指標(biāo),每項(xiàng)指標(biāo)包含1 461個(gè)數(shù)據(jù)。
1.3 研究方法
1.3.1 包裝法
高維數(shù)據(jù)的特征選擇算法主要分為篩選法(Filter)、包裝法(Wrapper)、嵌入法(Embedded)以及集成法(Ensemble)4類。包裝法是一種基于機(jī)器學(xué)習(xí)模型性能評(píng)估的特征選擇方法,與其他3種不同,包裝法直接使用特定機(jī)器學(xué)習(xí)模型進(jìn)行特征選擇,以評(píng)估特征的貢獻(xiàn),并選擇最佳的特征子集。包裝法的基本思想是:對(duì)于給定的特征子集,使用一個(gè)特定的機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,并通過(guò)交叉驗(yàn)證或者留出法等方式評(píng)估模型的性能。根據(jù)模型的性能表現(xiàn),對(duì)特征子集進(jìn)行評(píng)分,然后選擇性能最佳的特征子集作為最終的特征集合。這個(gè)過(guò)程可以通過(guò)遞歸地添加或刪除特征來(lái)進(jìn)行,直到達(dá)到某個(gè)預(yù)設(shè)的停止條件。主要的包裝法有以下4種:遞歸特征消除(Recursive Feature Elimination)、前向選擇(Forward Selection)、后向選擇(Backward Elimination)以及遞歸特征加入(Recursive Feature are Added)。本文主要使用基于隨機(jī)森林的遞歸特征消除法來(lái)篩選特征,相較于其他算法,此算法具有較好的特征選擇準(zhǔn)確率,迭代次數(shù)少,且篩選出的特征子集有較好的一致性,對(duì)大數(shù)據(jù)集篩選也具有良好的效果[5]。
1.3.2 隨機(jī)森林算法
隨機(jī)森林是一種重要且有用的集成學(xué)習(xí)方法,具有靈活簡(jiǎn)單、適應(yīng)能力強(qiáng)、應(yīng)用范圍廣等特點(diǎn),在眾多領(lǐng)域都有良好的性質(zhì),是一種常見的機(jī)器學(xué)習(xí)方法[6]。決策樹作為隨機(jī)森林的基本單元,有著較好的泛化能力,既可以完成分類任務(wù)也適用于回歸問題。所以基于隨機(jī)森林算法對(duì)于分類和回歸問題的優(yōu)良性能,本文在特征選取及對(duì)降水量作回歸預(yù)測(cè)方面都選取了隨機(jī)森林這種算法。一棵決策樹的建立通常包含特征選擇、決策樹生成和剪枝3個(gè)部分。在決策樹生成過(guò)程中,考慮全部特征可能會(huì)帶來(lái)過(guò)擬合問題,決策樹的剪枝就是通過(guò)去掉部分細(xì)分的結(jié)點(diǎn)來(lái)提高決策樹泛化能力的過(guò)程。
1.3.3 回歸模型評(píng)價(jià)指標(biāo)
在本文的研究中,分別選擇均方根誤差(Root Mean Square Error,RMSE)和絕對(duì)平均誤差(Mean Absolute Error,MAE)作為回歸模型精度的評(píng)價(jià)指標(biāo)。RMSE和 MAE都是常用的評(píng)價(jià)模型的指標(biāo)。RMSE不僅考慮了預(yù)測(cè)模型的方差,也包含模型的偏差。而MAE通常用于衡量預(yù)測(cè)值與觀測(cè)值之間的緊密程度。這2個(gè)指標(biāo)的計(jì)算公式為
式中:fi表示模型得到的降水量預(yù)測(cè)值,yi為降水量真實(shí)值,n表示測(cè)試集樣本數(shù)量。
2 結(jié)果與分析
2.1 特征重要性的選擇分析
為了確定數(shù)據(jù)集中哪些自變量特征對(duì)因變量總降水量的預(yù)測(cè)最為關(guān)鍵,使用了基于隨機(jī)森林的遞歸特征消除(RFE)法。它利用機(jī)器學(xué)習(xí)模型來(lái)評(píng)估特征的重要性,并逐步剔除不重要的特征,直到達(dá)到指定的數(shù)量為止。
在研究中,首先訓(xùn)練了一個(gè)隨機(jī)森林模型,然后使用RFE對(duì)特征進(jìn)行遞歸消除,選取了重要性前12的特征作為最終的特征集合,這些特征被認(rèn)為對(duì)因變量總降水量的預(yù)測(cè)最具有影響力。為更明顯地顯示對(duì)于23個(gè)自變量的選擇,將所有自變量的特征重要性得分(特征重要性得分是隨機(jī)森林模型根據(jù)特征對(duì)目標(biāo)變量的預(yù)測(cè)貢獻(xiàn)度進(jìn)行計(jì)算的,得分越高表示該特征對(duì)目標(biāo)變量的影響越大)以可視圖的形式展示如圖1所示。
根據(jù)可視化圖中變量特征的重要性程度,最終選擇的12個(gè)變量:相對(duì)濕度、冠層水分蒸發(fā)、動(dòng)量通量u分量、溫度、磨擦速度、動(dòng)量通量v分量、向下長(zhǎng)波輻射通量、露點(diǎn)溫度、感熱通量、臭氧總量、蒸騰作用和裸土直接蒸發(fā)。
2.2 相關(guān)性分析與偏相關(guān)性分析
相關(guān)性分析和偏相關(guān)性分析是2種常見的統(tǒng)計(jì)方法。相關(guān)性分析是指對(duì)2個(gè)或多個(gè)具有相關(guān)性的變量元素進(jìn)行分析,以確定它們之間的線性關(guān)系,即當(dāng)一個(gè)變量的值發(fā)生變化時(shí),另一個(gè)變量的值是如何相應(yīng)地發(fā)生變化的。與此相反,偏相關(guān)性分析則旨在確定2個(gè)變量之間的關(guān)系,同時(shí)控制一個(gè)或多個(gè)其他變量的影響。它可以幫助研究者了解在控制其他因素的情況下,2個(gè)變量之間的獨(dú)立關(guān)系。相關(guān)系數(shù)與偏相關(guān)系數(shù)的取值范圍都在-1到1之間,通常它們的絕對(duì)值越接近于1,表示2個(gè)變量之間的關(guān)系越強(qiáng)。而P值用于判斷相關(guān)系數(shù)和偏相關(guān)系數(shù)的統(tǒng)計(jì)學(xué)意義,一般而言,如果P值小于0.05,則認(rèn)為它們?cè)诮y(tǒng)計(jì)學(xué)上有意義。
由表1可以看出,在5%顯著性水平下,篩選后保留的12個(gè)變量與總降水量的相關(guān)性均顯著,且偏相關(guān)性大多數(shù)也顯著,說(shuō)明通過(guò)基于隨機(jī)森林的遞歸特征消除法選擇后的特征可以用于降水預(yù)測(cè)。
2.3 模型回歸預(yù)測(cè)結(jié)果分析
由表2可得,隨機(jī)森林預(yù)測(cè)模型的RMSE=1.069 993,MAE=0.267 631,考慮到目標(biāo)變量的取值范圍比較大,且模型能夠在這種情況下預(yù)測(cè)得到比較準(zhǔn)確的結(jié)果,可以說(shuō)RMSE和MAE的值是可以接受的,并且反映了模型的預(yù)測(cè)誤差比較小,模型能夠很好地預(yù)測(cè)目標(biāo)變量的值,這也被視為一個(gè)良好的模型性能表現(xiàn)。
圖2展示了部分測(cè)試樣本的隨機(jī)森林預(yù)測(cè)模型的擬合效果。從圖中可以看出,該模型對(duì)于大多數(shù)降水時(shí)刻能夠準(zhǔn)確預(yù)測(cè),并且在定量數(shù)據(jù)方面表現(xiàn)良好。然而,當(dāng)總降水量顯著增加時(shí),模型的擬合程度仍有改進(jìn)的空間。
3 精確降水預(yù)測(cè)對(duì)農(nóng)業(yè)生產(chǎn)的影響
3.1 及時(shí)調(diào)整種植計(jì)劃
通過(guò)提前知道未來(lái)一段時(shí)間內(nèi)的降水量,農(nóng)民可以及時(shí)地調(diào)整種植計(jì)劃,選擇適宜的作物品種和種植時(shí)間。例如,如果預(yù)測(cè)到某一地區(qū)即將迎來(lái)干旱期,農(nóng)民可以選擇耐旱性較強(qiáng)的作物進(jìn)行種植;反之,如果預(yù)測(cè)到將有大量降雨,農(nóng)民則可以考慮種植一些對(duì)水分需求較大的作物。這不僅可以保證作物的正常生長(zhǎng),還能提高產(chǎn)量和質(zhì)量。
3.2 合理安排灌溉及排水
準(zhǔn)確的降水預(yù)測(cè)還有助于農(nóng)民合理安排灌溉和排水工作。在干旱期間,農(nóng)民可以通過(guò)灌溉為作物提供必要的水分,避免因缺水而導(dǎo)致減產(chǎn)甚至絕收;在多雨季節(jié),農(nóng)民則可以提前做好排水工作,防止農(nóng)田積水過(guò)多而引起作物根部腐爛或其他病害。
3.3 減少或避免自然災(zāi)害損失
準(zhǔn)確的降水預(yù)測(cè)還可以幫助農(nóng)民更好地應(yīng)對(duì)自然災(zāi)害。通過(guò)了解可能出現(xiàn)極端天氣事件的概率和時(shí)間,農(nóng)民可以及時(shí)采取相應(yīng)的防范和應(yīng)對(duì)措施,減少災(zāi)害造成的損失。同時(shí),這也為政府和社會(huì)組織制定救災(zāi)策略和規(guī)劃提供了科學(xué)依據(jù)。
4 結(jié)束語(yǔ)
降水的精確化預(yù)測(cè)對(duì)地方生產(chǎn)生活有著至關(guān)重要的作用。本文通過(guò)遞歸特征消除法和隨機(jī)森林算法對(duì)慶陽(yáng)市一年的降水?dāng)?shù)據(jù)進(jìn)行模型建立,得出以下結(jié)論:利用隨機(jī)森林的特征降維能力,引入包裝法中的遞歸特征消除法來(lái)提高特征選擇的穩(wěn)定性。通過(guò)綜合2種方法,提升了后續(xù)隨機(jī)森林算法中的特征子集的一致性,減少了特征選擇程序的迭代次數(shù),并在處理大數(shù)據(jù)集時(shí)取得了良好的效果。在實(shí)際數(shù)據(jù)分析中,選取慶陽(yáng)市降水?dāng)?shù)據(jù),以最終選擇的12個(gè)氣象要素建立了隨機(jī)森林預(yù)測(cè)模型,通過(guò)最終結(jié)果的分析表明,該模型在回歸預(yù)測(cè)方面表現(xiàn)出色。
未來(lái)的工作還可以從以下幾個(gè)角度展開,以提升預(yù)測(cè)的準(zhǔn)確度。
1)考慮更多的機(jī)器學(xué)習(xí)方法。在本文中僅僅考慮了最為常用的隨機(jī)森林算法,除此之外,還有許多機(jī)器學(xué)習(xí)方法如支持向量機(jī)、k-近鄰算法等[7],它們與遞歸特征消除算法的結(jié)合也可能取得更好的特征選擇效果。
2)考慮張量在預(yù)測(cè)中的作用。張量作為一種高階數(shù)據(jù)形式,其多維性與降水?dāng)?shù)據(jù)的類型不謀而合,合理地使用張量來(lái)處理降水?dāng)?shù)據(jù)中的多維要素可能會(huì)使預(yù)測(cè)結(jié)果更加準(zhǔn)確有效[8-10]。
3)考慮多種回歸預(yù)測(cè)模型。本文中的預(yù)測(cè)對(duì)于實(shí)際降水量過(guò)高的情況表現(xiàn)得不盡如人意,可以考慮其他回歸預(yù)測(cè)模型,如BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[11]等。
參考文獻(xiàn):
[1] 陳昌毓.甘肅干旱半干旱地區(qū)降水特征及其對(duì)農(nóng)業(yè)生產(chǎn)的影響[J].干旱區(qū)資源與環(huán)境,1995,9(1):25-33.
[2] 李佳偉,左其亭,馬軍霞.新疆水資源-經(jīng)濟(jì)社會(huì)-生態(tài)環(huán)境時(shí)空演變特征分析[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,56(4):591-599.
[3] 任博.基于旱澇指標(biāo)的遼寧省水資源應(yīng)急管理影響效應(yīng)研究[D].大連:遼寧師范大學(xué),2023.
[4] 詹德權(quán).新技術(shù)在氣象防災(zāi)減災(zāi)中的應(yīng)用進(jìn)展及成效[J].海峽科學(xué),2023(11):23-26.
[5] 馮曉榮,瞿國(guó)慶.基于深度學(xué)習(xí)與隨機(jī)森林的高維數(shù)據(jù)特征選擇[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(9):2494-2501.
[6] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].2版.北京:清華大學(xué)出版社,2019.
[7] 李智裕.基于機(jī)器學(xué)習(xí)的氣候降水預(yù)測(cè)模型[D].成都:成都理工大學(xué),2021.
[8] 楊兵.基于張量數(shù)據(jù)的機(jī)器學(xué)習(xí)方法研究與應(yīng)用[D].北京:中國(guó)農(nóng)業(yè)大學(xué),2014.
[9] 莫乃榕.張量分析[M].武漢:華中科技大學(xué)出版社,2023.
[10] 黃克智,薛明德,陸明萬(wàn).張量分析[M].3版.北京:清華大學(xué)出版社,2019.
[11] 智協(xié)飛,張珂珺,田燁,等.基于神經(jīng)網(wǎng)絡(luò)和地理信息的華東及華南地區(qū)降水概率預(yù)報(bào)[J].大氣科學(xué)學(xué)報(bào),2021,44(3):381-393.