吳金冉,李維德,孔德萌
(蘭州大學數(shù)學與統(tǒng)計學院,蘭州 730000)
淡水資源危機現(xiàn)已成為嚴重制約西北半旱區(qū)可持續(xù)發(fā)展的首要因素。而其中,半旱區(qū)降水作為該地區(qū)主要淡水來源,其的預測研究分析對半旱區(qū)的居民農(nóng)牧活動及野生物種生存等各方面具有重要指導意義。而本文以生態(tài)穩(wěn)定性較為脆弱的青海省海東地區(qū)和果洛州的月度降水為研究對象,通過構(gòu)造具有高精度的降水預報模型以對該地區(qū)的經(jīng)濟農(nóng)業(yè)生活提供有效的指引。
一般而言,依據(jù)不同的模型構(gòu)造原理,降水預報模型通??煞譃閮纱箢愋停簲?shù)據(jù)驅(qū)動模型(Data Driven Models)和物理過程模型(Physical Process Models)[1,2]。第一大類方法主要依據(jù)所獲得的各種氣象數(shù)據(jù)集,通過“黑箱”建立輸入和輸處變量間的數(shù)量關(guān)系,這里需要指明,該方法僅僅依賴一條序列信息也可以獲得較為突出預報效果;而第二大類方法,通常要求較高的空氣動力學系統(tǒng)基礎(chǔ),并依賴于大量的變量信息(濕度,日照,溫度等),通過極為復雜數(shù)學公式來有效的表示降水的物理過程,從而獲得較為準確的降水預報值[3,4]。而近些年來,以機器學習為代表的數(shù)據(jù)驅(qū)動模型,憑借其出色的獲取歷史經(jīng)驗數(shù)據(jù)集特征的能力,被廣泛運用于水文數(shù)據(jù)預報研究中,其中,又以支持向量機模型(Support Vector Machine, SVM)和人工神經(jīng)網(wǎng)絡(luò)模型(artificial neural network, ANN)最為常見[5-7]。雖然該類建模方法可以通過觀測點數(shù)據(jù)集來建立非線性系統(tǒng),但大量該方法研究僅僅局限于單點(觀測點)降水預報上,而并未將空間相關(guān)站(多觀測)點信息運用于模型構(gòu)造中。這里需要提及,機器學習學家Vapnik于1995年創(chuàng)立的支持向量機模型以其出色的非線性擬合能力和魯棒性,該模型現(xiàn)已廣泛的運用于河流徑流量、臺風降水、月度降水和地下水井深等水文變量預報中來[8-11];統(tǒng)計學家Engle和Granger為了解決多條時間序列的非平穩(wěn)性所導致的“偽回歸”現(xiàn)象的發(fā)生,提出了協(xié)整分析(Co-integration Analysis)[12];而當前,該方法已初步被應用于降水預報和空氣顆粒預報等環(huán)境工程研究中[13,14]。而本文以西北半旱區(qū)海東地區(qū)和果洛州月度降水為研究對象,將上述兩種方法進行結(jié)構(gòu)以構(gòu)建聯(lián)合降水預報模型。具體的來看,將協(xié)整分析運用于降水預報研究中,打破了傳統(tǒng)單一觀測點的降水預報建模方法,且以經(jīng)典的支持向量機模型作為主算法來獲得輸入變量(input variables)和目標(targets)之間的“黑箱”(非線性系統(tǒng))來對多觀測點降水進行同步降水預報。
本文主要介紹降水預報的意義、常用的建模技術(shù)以及文章所提出的方法技術(shù)的發(fā)展;本文采用的預報技術(shù)詳情,主要包括聯(lián)合預報模型所運用到的協(xié)整理論、支持向量機原理和聯(lián)合模型構(gòu)造的過程;主要包含驗證模型所運用的研究對象簡介、數(shù)據(jù)集、模型仿真結(jié)果以及相關(guān)對比模型的比較分析結(jié)果;總結(jié)所構(gòu)建的基于協(xié)整關(guān)系—支持向量機模型(CI-SVM)在半干旱區(qū)降水預報研究中的突出的效果,以及該預報模型的結(jié)果在海東地區(qū)和果洛州的降水資源管理規(guī)劃中的實際意義。
為了獲得高效的機器學習模型來解決分類和回歸問題,1997年Vapnik教授改進了支持向量機模型[14]。該方法主要是尋求模型的經(jīng)驗誤差與模型復雜度之間的最佳權(quán)衡關(guān)系,而此關(guān)系是將支持向量機回歸(SVR)的表達函數(shù)f(·)約束至分類的超平面所得到的。這里可以認為,f(·)只決定于減少的訓練集的支持向量(support vectors),但支持向量對于優(yōu)化問題的約束空間。具體的來說,存在m個樣本(sample)數(shù)據(jù)集(xi,yi)∈RN×R,其中N為輸入變量的維度,可以得到,支持向量回歸優(yōu)化問題的數(shù)學表達式為:
maxW(α,α*)=
(1)
(2)
表達式(2)中,C為模型的負責度懲罰參數(shù),α和α*是約束的二變量。需要說明的是,支持向量機回歸引入了核函數(shù)(kernel function)k(xi,x)來將非線性回歸問題轉(zhuǎn)化為線性回歸問題來解決,進一步,結(jié)合公式(1)可得到模型的最終模型為:
(3)
由于時間序列變量間的回歸容易導致“偽回歸”的發(fā)生;因此,為了描述非平穩(wěn)時間序列間的長期均衡關(guān)系的而提出了協(xié)整的概念。若存在某非平穩(wěn)時間序列經(jīng)過d次差分后為平穩(wěn)序列,則稱該序列為d階單整,也記為I(d)[12]。若存在Xt和Yt為同階單整序列,且其的線性組合ut=Yt-βXt為平穩(wěn)序列,即uy~I(d),則稱Xt和Yt為協(xié)整關(guān)系。這里需要重點指出,為了判斷兩條序列間存在顯著的因果關(guān)系,1987年Engle和Granger提出了E-G兩步檢驗法。該主要想法是,第一步,運用最小二乘法進行用Xt對Yt做回歸模型,得到殘差εt;第二步,檢驗殘差εt是否為平穩(wěn)序列,若是則認為二變量間為協(xié)整關(guān)系,若否則認為不存在協(xié)整關(guān)系。
本文所建立的聯(lián)合同步降水預報模型----協(xié)整關(guān)系的支持向量機模型(CI-SVM)的主要想法是,利用協(xié)整理論檢驗多個站點間的空間相關(guān)性,并以此來增加在構(gòu)建降水預報模型中可運用到的相關(guān)信息,然后,采用支持向量機模型來建立輸入和目標變量間的非線性系統(tǒng),進而得到多空間同步聯(lián)合降水預測結(jié)果。具體的模型流程如下:
Step 1:輸入兩地區(qū)降水時間序列信息,記為{Xt}和{Yt}。
Step 2: 對{Xt}和{Yt}的是否存在偽回歸進行協(xié)整檢驗。
Step 3: 用協(xié)整檢驗結(jié)果確定兩條序列間的輸入變量和目標之間的映射關(guān)系。
(4)
式中:p和q分別為{Xt}和{Yt}的滯后期數(shù);f為支持向量機所獲得的“黑箱”。
Step 4: 通過所建立的非線性映射系統(tǒng)進行多空間聯(lián)合降水預報。
為了驗證所提出的聯(lián)合降水預報模型的效果,本文選取了位于西北半干旱區(qū)的海東地區(qū)和果洛州的月度降水量為預報對象。海東地區(qū)是青海省重要的農(nóng)牧業(yè)生產(chǎn)基地和鄉(xiāng)鎮(zhèn)企業(yè)發(fā)達區(qū)域之一,而果洛州位于青藏高原的腹地,且二地區(qū)皆具有高寒、缺氧、低溫、干旱和日照較長等特征,二者的年平均降水量取值分別為319~531和400~760 mm。
本研究對象為青海省海東地區(qū)和果洛州的月度降水h,而本次試驗數(shù)據(jù)集主要源于青海省統(tǒng)計年鑒(http:∥www.qhtjj.gov.cn/tjData/qhtjnj/)。其具體月度降水量趨勢如圖1所示。
海東地區(qū)和果洛州的月度降水量如圖1 所示,可以得出,二地區(qū)的月度降水量存在明顯的周期性變化規(guī)律;具體的看,夏季(6-8月)的降水量遠遠高于其他三季,而冬季的降水量最低;并且,對比兩折線趨勢可發(fā)現(xiàn),海東地區(qū)和果洛州具有較高的同步性,而該特征將被運用于協(xié)整關(guān)系的建模分析中。通過SPSS軟件對兩地降水量進行描述統(tǒng)計分析得到表1。
表1 海東和果洛月度降水量描述分析 mm
圖1 海東和果洛月度降水量
這里需要說明,為了驗證所提出聯(lián)合預報模型的高效,本文所提到的模型所采用的訓練數(shù)據(jù)集和測試數(shù)據(jù)集分別為前96個月降水序列數(shù)據(jù)和后12個月度降水序列數(shù)據(jù)。
海東和果洛的月度降水量平穩(wěn)性和協(xié)整檢驗結(jié)果見表2。
表2 海東和果洛的協(xié)整檢驗
通過表2可得,序列平穩(wěn)性ADF單位根檢驗的原假設(shè)為存在單位根,通過計算得到海東和果洛的月度降水量序列的p值分別為0和0.083,在置信水平10%下,拒絕原假設(shè),則認為該兩條降水序列皆為0階單整的。然后,通過建立回歸模型得出對應的殘差序列,在置信水平1%下,該序列的平穩(wěn)性檢驗的p值為0,拒絕原假設(shè),則可認為其是平穩(wěn)的,進一步得到海東地區(qū)和果洛州的月降水量間存在顯著的協(xié)整關(guān)系。經(jīng)過多次試驗嘗試,本次仿真以海東地區(qū)和果洛州前36月降水量為預報模型的輸入變量,兩地下一月的降水量為預測模型的目標變量進行滾動預測。
在Matlab2018a版本下建立支持向量機回歸模型,結(jié)果見表3。
表3 CI-SVM 模型對海東和果洛月度降水測試指標
表3為提出的CI-SVM模型分別對海東地區(qū)和果洛州月度降水量的預報結(jié)果。① 從絕對水平上,二地區(qū)的所有平均絕對誤差MAE皆小于12.5;② 從相對水平上,標準化平均方差誤NMSE全都小于0.13;③從相關(guān)水平上,納什系數(shù)NS都大于0.86;可認為所提出的聯(lián)合模型CI-SVM對海東地區(qū)及果洛州的月降水量具有較好的預報效果。具體來看,海東地區(qū)和果洛州的月降水預報的三指標分別為7.97、0.1、0.89、12.37、0.12、0.87。其對海東地區(qū)和果洛州的月度降水預報的結(jié)果具體見圖2。
圖2 CI-SVM模型的海東和果洛聯(lián)合預報結(jié)果
在此構(gòu)建兩種模型(即SVM和CI-NN)作為參照模型,和CI-SVM模型就海東地區(qū)和果洛州月降水量的預測精確度進行對比分析。SVM即持向量回歸模型,不考慮序列相關(guān)性,除去CI-SVM的協(xié)整關(guān)系;CI-NN即BP神經(jīng)網(wǎng)絡(luò)模型,建立在協(xié)整關(guān)系基礎(chǔ)上,用ANN替換CI-SVM模型中的SVM。具體對比分析見表4。
參照表4,對比CI-SVM、CI-NN、SVM 3種模型預測結(jié)果可得,CI-SVM模型的預測精確度最好,該模型中平均MAE10.17、平均NMSE0.11、平均NS系數(shù)0.88,此三項指標優(yōu)于CI-NN模型的相應指標數(shù)據(jù)10.23、0.15、0.85和SVM模型的相應指標13.51、0.17、0.83。
表4 模型指標對比分析
由表4得出,CI-SVM模型優(yōu)于CI-NN模型,由此可得,在聯(lián)合模型中SVM貢獻值優(yōu)于ANN,即SVM作為主體算法所得的效果更好。從數(shù)據(jù)分析看來,CI-SVM指標優(yōu)于SVM,由此得出,多觀測點同步預報的精度優(yōu)于單觀測點預報的精度,即由協(xié)整理論引入的多觀測點信息提高了模型的精準性。綜上所述,相較于其他模型,經(jīng)由CI-SVM模型所得出的預測結(jié)果是非常精確、科學且合理的。
本文所構(gòu)建的二空間聯(lián)合同步降水預報模型CI-SVM在海東地區(qū)和果洛州月度降水數(shù)據(jù)集的驗證中獲得較為突出的效果,其的平均MAE、平均NMSE和平均NS系數(shù)分別為10.17、0.11和0.88。進一步可以得到,所提出的CI-SVM模型利用協(xié)整關(guān)系將傳統(tǒng)的單觀測點降水預報拓展到了多空間同步聯(lián)合預測,通過提高建模中所使用的相關(guān)空間信息,進而取得了更優(yōu)的預報精度。并且,通過其他對比模型,該聯(lián)合模型驗證了機器學習中的支持向量回歸模型可以提高月度降水預報的效果。最終,可以將該聯(lián)合模型的預報結(jié)果運用于半旱區(qū)的生態(tài)監(jiān)管和規(guī)劃中,且運用計算出來的結(jié)果給農(nóng)牧民的產(chǎn)品種植以及家畜養(yǎng)殖提供些指導意見,進而,促進海東地區(qū)和果洛州的可持續(xù)發(fā)展。