孫傲涵,李建柱,馮 平
(天津大學(xué) 水利工程仿真與安全國家重點實驗室,天津 300072)
統(tǒng)計降尺度方法[1-2]是目前研究氣候變化過程中提高全球氣候模式(global climate models, GCM)分辨率的常用方法,具有簡單、效果明顯、計算量少等優(yōu)點。目前常用的統(tǒng)計降尺度方法有隨機天氣發(fā)生器[3]、天氣分型方法[4]、回歸方法[5-7]等。也有一些耦合了不同類別技術(shù)的統(tǒng)計降尺度方法,例如SDSM(statistical downscaling model)模型[8]、ASD(automated statistical downscaling)模型[9]等。
支持向量機(support vector machine, SVM)回歸已在徑流預(yù)測[10-11]、降水-徑流模擬[12]等多個水文研究領(lǐng)域取得了良好的效果,也被廣泛應(yīng)用于統(tǒng)計降尺度的研究。姚藝[13]比較了SVM模型及SDSM模型對于香溪河流域降雨降尺度的模擬效果,發(fā)現(xiàn)SVM模型的R2、RMSE等評價指標(biāo)均優(yōu)于SDSM模型;段凱[14]采用SDSM、SVM及LARS-WG等3種模型對淮河流域降水進行降尺度,結(jié)果表明SVM模型對干旱及半干旱半濕潤站點的降水模擬具有優(yōu)勢??紤]到變量之間可能存在相關(guān)性,劉向培等[6]將主成分分析與支持向量機相結(jié)合,建立了江淮流域降水的統(tǒng)計降尺度模型,該模型對于降水在月、年尺度的變化有良好的描述能力。但支持向量機在極端降雨的模擬方面存在不足,會出現(xiàn)低估極端降雨量的情況。Anandhi等[15]應(yīng)用SVM模型對印度河流域進行降水降尺度,結(jié)果表明該模型無法模擬實測降水中95%及以上分位數(shù)的極端降水事件;Okkan等[16]利用SVM模型對愛琴海地區(qū)格尼茲河進行降雨降尺度時,也有類似的發(fā)現(xiàn)。使用基于降雨模式分類的混合統(tǒng)計降尺度方法可以較好地解決這一問題,即先將降雨分為不同的模式,再估計降雨。常見的降雨分類方式有干、濕分類[17]、極端/非極端降雨分類[18]、基于降雨量級的分類[19]等。Chen等[17]使用支持向量分類及線性判別分析將降雨狀態(tài)分為干、濕兩類,然后利用支持向量回歸預(yù)測降雨量,并比較了該降尺度模型與SDSM模型的效果。結(jié)果表明所提出的混合降尺度模型的標(biāo)準(zhǔn)差及偏態(tài)系數(shù)指標(biāo)均優(yōu)于SDSM模型,這意味著混合降尺度模型能更好地估計極端降水。Pham等[18]利用隨機森林算法將降雨狀態(tài)在分為干、濕兩類的基礎(chǔ)上,進一步分為極端降雨與非極端降雨,再利用最小二乘支持向量機算法估計降雨量,使得日降雨量大于50 mm的樣本的預(yù)測效果得到提高。Devak等[20]通過改變K-最近鄰算法的近鄰數(shù)獲得多組分類結(jié)果,將分類結(jié)果集成后利用SVM模型進行回歸,建立了混合降尺度模型應(yīng)用于印度瑪哈那迪盆地,發(fā)現(xiàn)其對極端降雨的模擬情況優(yōu)于SVM模型。
目前,對于灤河流域的未來降雨變化研究多集中在利用CMIP5模式數(shù)據(jù)分析未來降雨變化趨勢及月尺度上的平均降雨量[21-22],而對于日尺度上的極端降雨估計研究較少。本文將基于降雨模式分類的混合統(tǒng)計降尺度方法應(yīng)用于灤河流域的日降雨預(yù)測,以提高氣候變化下日極端降雨的估計精度,改善流域極端降雨的預(yù)測效果,為降低氣候變化帶來的災(zāi)害風(fēng)險提供科學(xué)的依據(jù)。
灤河流域地處中緯度歐亞大陸東岸,屬溫帶大陸性季風(fēng)型氣候。年降雨量約520 mm,降雨時空分布不均,冬季寒冷干燥,夏季炎熱多雨,年降雨量的80%左右集中在6-9月,受地形影響,降雨量自東南海岸向北遞減。灤河流域地理位置及水系、雨量站分布見圖1。
由于上游降雨資料不完整,本文僅以河北省境內(nèi)的10個雨量站(圖1)為例。
圖1 灤河流域地理位置及水系、雨量站分布
采用1961-2000年灤河流域10個雨量站的觀測日降雨資料,以及2.5°×2.5°的NCEP/NCAR再分析資料建立統(tǒng)計降尺度模型,并采用2001-2012年資料對該模型進行檢驗。NCEP數(shù)據(jù)來自灤河流域附近的12個格點,格點中心坐標(biāo)經(jīng)度分別為115.0°E、117.5°E、120.0°E,緯度坐標(biāo)分別為37.5°N、40.0°N,42.5°N、45.0°N。采用反距離插值法將NCEP數(shù)據(jù)插值到各雨量站坐標(biāo)。
降尺度方法主要由分類和回歸兩個步驟構(gòu)成:(1)使用雙樣本Kolmogorov-Smirnov檢驗,對NCEP/NCAR中的天氣因子進行篩選,選取相關(guān)因子用于分類。使用隨機森林算法建立干濕日分類的分類模型。干、濕日定義標(biāo)準(zhǔn)分別為日降雨量=0和日降雨量>0;對于被劃分為濕日的數(shù)據(jù),進一步使用隨機森林算法,建立極端降雨日和非極端降雨日的分類模型,分類標(biāo)準(zhǔn)分別為降雨量>10 mm/d和降雨量<10 mm/d。(2)使用主成分分析法,對所有天氣因子進行計算,選取累計貢獻率達到90%以上的因子用于回歸模型。最后,根據(jù)上一步的分類結(jié)果,采用支持向量機算法,分別建立極端降雨回歸預(yù)測模型和非極端降雨回歸預(yù)測模型。RF-SVR(random forest-support vector regression)降尺度模型流程如圖2所示。
圖2 RF-SVR降尺度模型流程圖
隨機森林算法是一種基于Bagging的集成學(xué)習(xí)方法[23]。對于分類問題,是根據(jù)所有決策樹的預(yù)測結(jié)果,采用投票的方式確定新樣本的類別。利用每次抽樣未被抽中的數(shù)據(jù)計算的模型內(nèi)部誤差則被稱為袋外誤差(EOOB),其計算原理如下:
(1)
式中:n為袋外數(shù)據(jù)樣本個數(shù);Y(Xi)為依據(jù)給定Xi隨機森林模型預(yù)測出的Y,Yi為實測數(shù)據(jù)。
支持向量機回歸(support vector regression, SVR)的根本思想是結(jié)構(gòu)風(fēng)險最小化原理[24]。其原理是給定樣本{(xi,yi),i=1,2,…,m}∈Rn,m為樣本個數(shù),n為樣本維度,回歸函數(shù)為:
f(x)=wTa(x)+b
(2)
式中:a(x)為Rn到高維特征空間的非線性映射;w為超平面的權(quán)值向量;wT為w的轉(zhuǎn)置;b為偏置。
根據(jù)結(jié)構(gòu)風(fēng)險最小化原則,原問題可轉(zhuǎn)化為約束條件下求得最小值,即:
(3)
(4)
可使用準(zhǔn)確率A來評估分類模型的精度,則干、濕日分類精度及極端、非極端降雨日分類精度如下:
(5)
(6)
式中:ADW為干濕日分類精度;ANE為極端/非極端降雨日分類精度;D為干日日數(shù);W為濕日日數(shù),D|D表示所有被正確劃分為干日的干日日數(shù);W|W表示所有被正確劃分為濕日的濕日日數(shù)。N為非極端降雨日日數(shù);E為極端降雨日日數(shù)。N|N表示所有被正確劃分為非極端降雨日的日數(shù);E|E表示所有被正確劃分為極端降雨日的日數(shù)。
為了確定有效的預(yù)報因子,首先依據(jù)降雨量是否為0將率定期數(shù)據(jù)(包括NCEP數(shù)據(jù)及實測降雨數(shù)據(jù))分為兩組,以下簡稱干日組和濕日組。然后使用雙樣本Kolmogorov-Smirnov檢驗,對兩組的NCEP再分析數(shù)據(jù)進行檢驗,兩組間有顯著性差異的因子(顯著性水平為0.05),被認為在干日和濕日具有明顯區(qū)別,可以作為分類模型的預(yù)報因子。結(jié)果發(fā)現(xiàn)絕大部分因子均在干日和濕日表現(xiàn)出顯著性差異,但考慮到隨機森林分類算法在處理高維度數(shù)據(jù)問題上的突出表現(xiàn),不再對天氣因子進行二次篩選,保留了全部能通過Kolmogorov-Smirnov檢驗的因子進行干濕日分類。然后,采用隨機森林算法建立干濕日分類模型。
同樣,對于干濕日分類中被分類為濕日的實測數(shù)據(jù)(包括NCEP數(shù)據(jù)及實測降雨數(shù)據(jù))進一步依據(jù)日降雨量是否大于10 mm分為極端降雨組和非極端降雨組。并使用雙樣本Kolmogorov-Smirnov檢驗,對兩組的NCEP再分析數(shù)據(jù)進行檢驗分類。最后,同樣采用隨機森林算法建立極端降雨與非極端降雨日分類模型。表1給出了用于建立兩種分類模型的NCEP預(yù)測因子。
表1 用于建立兩種分類模型的NCEP預(yù)測因子
利用1961-2000年的雨量站點數(shù)據(jù)對分類模型進行訓(xùn)練,再利用2001-2012年的雨量站點數(shù)據(jù)進行兩個分類模型的驗證并進行效果評價。表2給出了驗證期各雨量站點干濕日分類模型及極端降雨分類模型的率定精度。
由表2可見,在驗證期內(nèi),干濕日分類模型的分類精度均高于0.85,平均分類精度為0.87;極端降雨分類模型的分類精度均高于0.73,平均分類精度為0.76。證明所構(gòu)建的分類模型對于干濕日分類及極端降雨分類均有良好的判別能力。其中對于干濕日事件的分類精度高于對極端降雨事件的分類精度(平均約高11%),這可能是由于干日與濕日之間的大尺度氣候因子之間有明顯的差異,而極端降雨事件與非極端降雨事件之間的界限不夠明顯,其大尺度氣候因子較為相似,導(dǎo)致難以區(qū)分??傮w而言,兩種基于隨機森林算法的分類模型分別對極端降雨與非極端降雨和干濕日進行了準(zhǔn)確可靠的區(qū)分。
表2 干濕日分類模型及極端降雨分類模型的精度
在建立降雨回歸預(yù)測模型之前,使用主成分分析(principal component analysis, PCA),對表1給出的26個NCEP再分析因子進一步篩選。目的是在保存數(shù)據(jù)中有效信息的同時,消除數(shù)據(jù)間的共線性,降低數(shù)據(jù)維度。依據(jù)主成分分析結(jié)果可以選擇前9個主成分,其累計解釋方差達到90%以上。將前9個主成分作為回歸模型的預(yù)測因子,并將觀測數(shù)據(jù)依據(jù)分類結(jié)果分為極端降雨組及非極端降雨組,分別建立RF-SVR模型。
利用1961-2000年的雨量站點數(shù)據(jù)對回歸模型進行訓(xùn)練,再用驗證期(2001-2012年)的濕潤日降雨數(shù)據(jù)進行RF-SVR模型的模擬效果評價,并構(gòu)建了普通SVR模型作為對比。SVR模型對月或季度尺度的降水總量及長期分布特征的模擬效果較佳[14],在月降水總量等指標(biāo)上精度較高[6]。但本文側(cè)重于探討日尺度上降雨的模擬精度及極端降雨模擬效果,因此選取降雨量均值、標(biāo)準(zhǔn)差、降雨天數(shù)、極端降雨天數(shù)、日最大降雨量等作為統(tǒng)計指標(biāo)。表3和4分別列出了率定期及驗證期各雨量站點降雨的相關(guān)評價指標(biāo)。
由表3和表4可以發(fā)現(xiàn),無論是率定期還是驗證期,SVR模型估計出的日降雨量均值及標(biāo)準(zhǔn)差均嚴重偏小,而降雨日數(shù)嚴重偏大。這是因為SVR模型會預(yù)測出大量小于0.1 mm/d的“微型降雨”,這些微型降雨在增加了降雨日數(shù)的同時,減小了所有濕潤日的均值及方差。相比之下,RF-SVR模型由于加入了干濕日分類這一步驟,幾乎不會產(chǎn)生“微型降雨”,對于降雨日數(shù)的估計較為準(zhǔn)確,降雨量均值和標(biāo)準(zhǔn)差也更接近于實際值。對于極端降雨的估計方面,率定期RF-SVR模型對于極端降雨日數(shù)及日最大降雨量的估計值均等于或十分接近于真實值,但驗證期RF-SVR模型對于極端降雨日數(shù)及日最大降雨量的估計值均偏小。SVR模型在率定期及驗證期對于極端降雨日數(shù)及日最大降雨量的估計均嚴重偏小,整體來看RF-SVR模型對于極端降雨日數(shù)及日最大降雨量的估計也明顯優(yōu)于SVR模型。綜合上述分析,RF-SVR模型降尺度的效果優(yōu)于普通SVR模型。灤河流域干旱少雨,且30 mm/d以上的降雨量僅占濕潤日總降雨量的約4%,50 mm/d以上的降雨量僅占濕潤日總降雨量的約0.9%。樣本數(shù)量的有限影響了極端降雨的預(yù)測效果。
表3 率定期各雨量站點濕潤日的回歸統(tǒng)計指標(biāo)
表4 驗證期各雨量站點濕潤日的回歸統(tǒng)計指標(biāo)
本文評價了RF-SVR統(tǒng)計降尺度方法對灤河流域典型雨量站日降雨量預(yù)測的效果,發(fā)現(xiàn)建立的統(tǒng)計降尺度模型模擬的灤河流域日降雨量偏差與普通SVR模型相比顯著減小,更接近于實際值,并且在預(yù)測日極端降雨方面的表現(xiàn)也優(yōu)于SVR模型。這與其他學(xué)者對于先分類、后預(yù)測的混合統(tǒng)計降尺度模型的研究結(jié)果相一致[20]。
但本文驗證期內(nèi)RF-SVR模型對于極端降雨日數(shù)及日最大降雨量的估計均偏小。這是因為灤河流域干旱少雨且小雨居多,10 mm/d以上的降雨量僅占濕潤日總降雨量的10%左右,用于極端與非極端日降雨量分類的樣本正負均衡性較差,導(dǎo)致隨機森林分類模型訓(xùn)練過程中傾向于將更多數(shù)據(jù)分類為非極端降雨,這是導(dǎo)致驗證期模型效果不如率定期的主要原因之一。如何克服樣本正負均衡性差的局限性,實現(xiàn)極端降雨與非極端降雨的準(zhǔn)確分類,進而提高氣候變化下日極端降雨的估計精度,為降低氣候變化帶來的災(zāi)害風(fēng)險提供科學(xué)依據(jù),仍有待進一步研究。
利用RF-SVR統(tǒng)計降尺度方法預(yù)測了灤河流域典型雨量站的日降雨量。該統(tǒng)計降尺度模型由兩部分構(gòu)成:降雨狀態(tài)分類和降雨量預(yù)測回歸。選用1961-2000年的NCEP/NCAR再分析資料及灤河流域10個雨量站點的降雨觀測數(shù)據(jù)進行率定,并通過2001-2012年相應(yīng)數(shù)據(jù)進行了模型的驗證??梢缘玫饺缦陆Y(jié)論:
(1)采用隨機森林模型進行干濕日分類及極端降雨與非極端降雨的分類。結(jié)果證明驗證期內(nèi)干濕日分類模型分類精度均高于0.85,各雨量站點平均分類精度為0.87;極端降雨分類模型分類精度均高于0.73,各雨量站點平均分類精度為0.76。兩種分類模型對極端降雨與非極端降雨以及干濕日均能進行準(zhǔn)確可靠的區(qū)分。
(2)利用分類結(jié)果(極端降雨組及非極端降雨組)分別建立RF-SVR模型用于降雨量回歸模型,并將回歸結(jié)果與普通SVR模型進行對比。整體而言,RF-SVR模型的預(yù)測效果優(yōu)于SVR模型,在極端降雨日數(shù)、日最大降雨量等指標(biāo)上比SVR模型更接近于實測值。
(3)在建立極端降雨分類模型的過程中,閾值的選擇對于模型預(yù)測效果有明顯影響。本文嘗試了30 mm/d及50 mm/d的閾值,但均因極端降雨與非極端降雨的樣本量比例過于懸殊導(dǎo)致分類及后續(xù)的回歸結(jié)果不理想。極端降雨樣本數(shù)量的有限,影響了極端降雨預(yù)測效果的進一步改善。但模型對非極端降雨預(yù)測的效果比較理想。