孫鳳玲,李繼清,張驗(yàn)科
(華北電力大學(xué)水利與水電工程學(xué)院,北京102206)
徑流預(yù)報(bào)誤差分析研究主要根據(jù)其隨機(jī)特性進(jìn)行數(shù)理統(tǒng)計(jì)分析,包括[1]:一,誤差出現(xiàn)的不確定性與統(tǒng)計(jì)特性,對(duì)誤差的不確定度和置信概率給出合理的取值[2-5];二,徑流預(yù)報(bào)誤差的分布,從整體把握預(yù)報(bào)誤差的分布規(guī)律。徑流預(yù)報(bào)誤差的分布規(guī)律研究主要采用單一分布和混合分布模型。目前,大多數(shù)文獻(xiàn)仍主要集中于建立不同預(yù)見期徑流預(yù)報(bào)誤差的單一分布模型,單一分布模型在一定條件下呈現(xiàn)出比較滿意的效果。Chen等[6]提出了一種基于Copula函數(shù)的不確定性演化模型來描述流量預(yù)測不確定性的演化規(guī)律,生成的預(yù)測不確定度序列在均值、標(biāo)準(zhǔn)差和偏度方面與觀測序列吻合較好;刁艷芳等[7]發(fā)現(xiàn)中國濕潤地區(qū)、半濕潤地區(qū)典型水庫的洪水預(yù)報(bào)誤差近似服從正態(tài)分布;劉招等[8]分別采用正態(tài)分布、指數(shù)分布、Gamma分布等10余種分布對(duì)陜西省安康水庫的預(yù)報(bào)誤差進(jìn)行分析,發(fā)現(xiàn)預(yù)報(bào)誤差規(guī)律符合Logistic分布;左保河[9]采用實(shí)測預(yù)報(bào)序列誤差分析與譜分析相結(jié)合的方法研究水文預(yù)報(bào)中的誤差特性,結(jié)果發(fā)現(xiàn)對(duì)數(shù)正態(tài)分布模型能較好的描述徑流預(yù)報(bào)誤差;董前進(jìn)等[10]研究了三峽水庫汛期入庫流量預(yù)報(bào)誤差資料,并利用統(tǒng)計(jì)圖形對(duì)三峽水庫汛期入庫流量預(yù)報(bào)誤差資料進(jìn)行了Laplace和Logistic的分布擬合,結(jié)果發(fā)現(xiàn)Laplace分布更適合描述其分布規(guī)律。然而,單一分布難以描述不同預(yù)見期的徑流預(yù)報(bào)誤差的特征多樣性。因此,需要建立徑流預(yù)報(bào)誤差的混合分布模型,這是具有極大發(fā)展?jié)摿Φ难芯糠较?。王軍等[11]將混合分布應(yīng)用于淮河流域的非一致性水文頻率分析;紀(jì)昌明等[12]基于高斯混合模型良好的自適應(yīng)性和高維meta-student t Copula函數(shù)的耦合性,建立了徑流預(yù)報(bào)誤差的GMM-Copula隨機(jī)模型,并將模型應(yīng)用于雅礱江流域錦屏一級(jí)水電站水庫?;旌戏植寄P妥鳛槎鄠€(gè)單一分布模型的凸組合,具有形狀靈活、結(jié)構(gòu)簡單、物理意義明確、模擬性能好等優(yōu)點(diǎn)。為此,本文基于tLocation-Scale分布良好的自適應(yīng)性,建立了徑流預(yù)報(bào)誤差的混合tLocation-Scale分布模型,利用k均值聚類法進(jìn)行模型求解,挖掘數(shù)據(jù)隱含結(jié)構(gòu)獲取良好聚類效果,將模型應(yīng)用于雅礱江流域官地水庫,建立了預(yù)見期為6、12、18 h和24 h的區(qū)間徑流預(yù)報(bào)誤差混合tLocation-Scale分布模型,并與tLocation-Scale分布、Stable分布和混合t-Stable分布模型進(jìn)行比較;最后,利用馬爾科夫蒙特卡洛方法(MCMC)產(chǎn)生隨機(jī)區(qū)間徑流預(yù)報(bào)誤差序列,并與原徑流預(yù)報(bào)誤差序列進(jìn)行比較分析,驗(yàn)證模型的可行性與有效性。
針對(duì)單一分布模型對(duì)統(tǒng)計(jì)樣本分布特性依賴性強(qiáng)、分布形態(tài)單一[13],且一旦樣本本身的分布特性超出所采用的分布模型的描述范圍會(huì)對(duì)預(yù)測結(jié)果的精度產(chǎn)生較大的影響的缺陷,嘗試建立混合分布模型?;旌戏植寄P蚚14],即將多個(gè)高斯分布、瑞利分布或泊松分布等單一分布模型進(jìn)行線性組合,使其權(quán)重之和為1?;旌戏植寄P吞峁┝艘环N用簡單結(jié)構(gòu)模擬復(fù)雜密度的有效方法,是一個(gè)分析復(fù)雜現(xiàn)象靈活而強(qiáng)有力的工具,廣泛應(yīng)用于聚類分析問題[15]。結(jié)合tLocation-Scale分布良好的自適應(yīng)性,本文構(gòu)建了混合tLocation-Scale分布模型,主要包括模型的建立、求解、評(píng)價(jià)和應(yīng)用方法四個(gè)方面內(nèi)容,模型框架圖見圖1。
圖1 徑流預(yù)報(bào)誤差混合t Location-Scale分布模型框架
tLocation-Scale分布是含有位置參數(shù)和尺度參數(shù)的t分布,即若X~tLocation-Scale(μ,σ,ν),則(X-μ)/σ~t(ν)。其中,μ為位置參數(shù);σ為尺度參數(shù);ν為自由度。tLocation-Scale分布的概率密度函數(shù)為
(1)
單一tLocation-Scale分布模型常常用于描述呈正態(tài)分布的小樣本數(shù)據(jù),當(dāng)樣本數(shù)據(jù)較大或呈偏態(tài)分布時(shí),tLocation-Scale分布模型的擬合效果將會(huì)大大降低;不同預(yù)見期的徑流預(yù)報(bào)誤差序列,tLocation-Scale分布模型的擬合效果差異較大。徑流預(yù)報(bào)誤差單一分布模型只能描述特定分布形態(tài)的徑流預(yù)報(bào)誤差,且隨著預(yù)見期的不同,徑流預(yù)報(bào)誤差分布形態(tài)各不相同,擬合效果差異較大。混合tLocation-Scale分布模型較單一tLocation-Scale分布模型在結(jié)構(gòu)上相對(duì)復(fù)雜些,但混合tLocation-Scale分布模型具有靈活、適用性強(qiáng)等優(yōu)點(diǎn)。因此,適宜建立徑流預(yù)報(bào)誤差混合tLocation-Scale分布模型。
在滾動(dòng)預(yù)報(bào)方式下,設(shè)xs(j),t(i)為在作業(yè)預(yù)報(bào)時(shí)刻s(j)(1≤j≤N)預(yù)報(bào)未來時(shí)刻t(i)(1≤i≤n)來流所產(chǎn)生的誤差,采用相對(duì)誤差的形式表示徑流預(yù)報(bào)誤差,建立徑流預(yù)報(bào)誤差混合tLocation-Scale分布模型的概率密度函數(shù)。即
(2)
(3)
式中,q′s(j),t(i)、qs(j),t(i)分別為第t(i)時(shí)刻的預(yù)報(bào)徑流和實(shí)測徑流;wk為第k個(gè)tLocation-Scale分布權(quán)重;p[xs(j)t(i);μk,σk,νk]為第k個(gè)tLocation-Scale分布的概率密度函數(shù)。
模型求解主要是對(duì)混合分布的各參數(shù)進(jìn)行估計(jì),包括權(quán)重系數(shù)估計(jì)和概率密度函數(shù)估計(jì),權(quán)重系數(shù)的估計(jì)主要采用聚類分析方法。聚類分析是數(shù)據(jù)挖掘技術(shù)的組成部分,k均值聚類是最著名的劃分聚類算法,具有挖掘數(shù)據(jù)結(jié)構(gòu)隱含結(jié)構(gòu),簡便易實(shí)現(xiàn)、效率高,計(jì)算速度快等優(yōu)點(diǎn),可以對(duì)多種數(shù)據(jù)進(jìn)行聚類。k均值聚類基于距離相似度判定,在給定k的條件下找到使組內(nèi)誤差平方和最小的劃分界,以達(dá)到組內(nèi)相似度高,組間相異度高。k均值聚類的算法過程如下:
(1)從n個(gè)樣本中選取k個(gè)作為初始聚類中心。
(2)對(duì)于剩下的樣本點(diǎn),根據(jù)其與樣本中心的距離,分別分配給相應(yīng)類中心所在的類別。
(3)計(jì)算每個(gè)類別新的聚類中心。
(4)不斷重復(fù)步驟(2)、(3),直到聚類中心或所有樣本點(diǎn)的分類不再改變?yōu)橹埂?/p>
通過k均值聚類法確定k個(gè)聚類樣本后,采用tLocation-Scale分布分別擬合k類樣本,進(jìn)而采用極大似然法估計(jì)相應(yīng)的參數(shù)[14],k類樣本中樣本數(shù)占總樣本的比重即為混合分布中的權(quán)重,可求解徑流預(yù)報(bào)誤差的混合tLocation-Scale分布模型。
誤差分布模型評(píng)價(jià)主要進(jìn)行擬合優(yōu)度的統(tǒng)計(jì)假設(shè)檢驗(yàn),檢驗(yàn)觀測數(shù)據(jù)與依據(jù)某一假設(shè)或分布模型計(jì)算得到的理論數(shù)據(jù)之間的一致性[16]。徑流預(yù)報(bào)誤差分布模型的擬合優(yōu)度檢驗(yàn)常常采用均方根誤差和判定系數(shù)進(jìn)行評(píng)價(jià)[12,17]。均方根誤差εRMSE是反映真實(shí)值與預(yù)報(bào)值之間的偏差的函數(shù)。判定系數(shù)ηCOD是表示回歸平方和占總離差平方和的比例[18],即分布模型對(duì)因變量的解釋程度,其值的范圍為0-1。當(dāng)均方根誤差越小,判定系數(shù)越大時(shí),模型性能越好。均方根誤差、判定系數(shù)的計(jì)算公式分別為
(4)
(5)
基于建立的混合tLocation-Scale分布模型,采用馬爾科夫蒙特卡洛(Markov Chain Monte Carlo,MCMC)方法產(chǎn)生隨機(jī)數(shù),進(jìn)而模擬一系列的徑流預(yù)報(bào)誤差。其基本思路是首先建立一個(gè)馬爾科夫鏈,使目標(biāo)分布為其平穩(wěn)分布,得到一系列的樣本作為來自目標(biāo)分布的樣本,馬爾科夫鏈運(yùn)行比較穩(wěn)定時(shí)的目標(biāo)分布與平穩(wěn)分布比較接近。MCMC方法的抽樣方法[19]主要有Metropolis Hasting(MH)抽樣法和吉布斯(Gibbs)抽樣法。本文采用MH抽樣法[20],主要步驟為:①輸入任意選定的馬爾科夫鏈狀態(tài)轉(zhuǎn)移矩陣Q,平穩(wěn)分布π(x),需要的樣本個(gè)數(shù)n。②從任意簡單概率分布采樣得到初始狀態(tài)值x0,此時(shí)t=0。③從條件概率分布Q(x|xt)中采樣得到x*。④計(jì)算MH比率R(xt,x*)=π(x*)Q(x*,xt)/π(xt)Q(xt,x*),進(jìn)而計(jì)算接受概率α(xt,x*)=min{R(xt,x*),1}。⑤產(chǎn)生隨機(jī)數(shù)u~U(0,1),抽取xt+1=x*,u≤α(xt,x*);xt,u>α(xt,x*)。⑥令t=t+1;返回步驟③。
產(chǎn)生徑流預(yù)報(bào)誤差隨機(jī)數(shù)后,模擬誤差序列為X{xs(j)t(i)},對(duì)徑流預(yù)報(bào)進(jìn)行修正,得到修正后的徑流預(yù)報(bào)序列Q″{q″s(j)t(i)},其修正公式為
q″s(j),t(i)=q′s(j)t(i)/(1+xs(j)t(i))
(6)
本文選取官地水庫2013年1月~2014年6月的區(qū)間徑流預(yù)報(bào)誤差分析官地水庫的徑流預(yù)報(bào)誤差特性,分別建立預(yù)見期為6、12、18 h和24 h的官地水庫區(qū)間徑流預(yù)報(bào)誤差分布模型。官地水電站壩址位于四川省涼山彝族自治州西昌市、鹽源縣的交界處,是錦屏一級(jí)水電站的又一補(bǔ)償電站,是雅礱江水電基地的“錦官電源組”5個(gè)梯級(jí)電站之一,主要向川渝和華東供電[21-22]。官地水庫的位置見圖2。官地水庫的入庫徑流主要包括2部分:一,來自上游錦屏水庫的出庫流量;二,上游支流九龍河的區(qū)間徑流。而不確定性主要是由于上游支流九龍河的影響;因此,研究官地水庫的區(qū)間徑流預(yù)報(bào)誤差特性能有效提高“錦官電源組”梯級(jí)水電站的穩(wěn)定性。
圖2 官地水庫位置
針對(duì)官地水庫不同預(yù)見期的區(qū)間徑流預(yù)報(bào)誤差,應(yīng)用式(3)建立混合tLocation-Scale分布模型,并將tLocation-Scale分布、Stable分布、混合t-Stable分布作為比較模型。穩(wěn)定(Stable)分布是一類無窮可分分布,其特征函數(shù)一般由4個(gè)參數(shù)唯一確定[23]。混合t-Stable分布模型是tLocation-Scale分布和Stable分布線性組合的混合分布,其權(quán)重由熵權(quán)法確定。各分布模型的統(tǒng)計(jì)參數(shù)估計(jì)值見表1。
表1 區(qū)間徑流預(yù)報(bào)誤差分布參數(shù)估計(jì)值
應(yīng)用式(4)、(5)分別計(jì)算不同預(yù)見期徑流預(yù)報(bào)誤差各分布模型的均方根誤差εRMSE、判定系數(shù)ηCOD。不同預(yù)見期區(qū)間徑流預(yù)報(bào)誤差擬合曲線見圖3。
圖3 區(qū)間徑流預(yù)報(bào)誤差擬合曲線
由圖3可知,不同的預(yù)見期,徑流預(yù)報(bào)誤差序列均具有厚尾的特征,正誤差厚尾特征更加明顯。tLocation-Scale分布、Stable分布、混合t-Stable分布和混合tLocation-Scale分布對(duì)區(qū)間徑流預(yù)報(bào)誤差的峰部、尾部特征描述效果均較好。但仔細(xì)觀察發(fā)現(xiàn),對(duì)于不同的預(yù)見期,混合tLocation-Scale分布能更好地描述徑流預(yù)報(bào)誤差的尾部特征,特別是正誤差的尾部特征與誤差分布直方圖的擬合效果較好。
不同預(yù)見期tLocation-Scale分布、Stable分布、混合t-Stable分布和混合tLocation-Scale分布的均方根誤差與判定系數(shù)擬合指標(biāo)值見表2。
表2 區(qū)間徑流預(yù)報(bào)誤差擬合指標(biāo)值
由表2可知,對(duì)于不同的預(yù)見期,官地水庫區(qū)間徑流預(yù)報(bào)誤差tLocation-Scale分布、Stable分布、混合t-Stable分布和混合tLocation-Scale分布模型的判定系數(shù)均在0.99以上,且混合tLocation-Scale分布模型的判定系數(shù)均明顯高于單一分布模型、混合t-Stable分布模型;同時(shí),比較不同預(yù)見期的均方根誤差,發(fā)現(xiàn)對(duì)于預(yù)見期為6 h、12 h和18 h的區(qū)間徑流預(yù)報(bào)誤差分布模型,混合tLocation-Scale分布較tLocation-Scale分布、Stable分布、混合t-Stable分布的均方根誤差?。欢鴮?duì)于預(yù)見期為24h的區(qū)間徑流預(yù)報(bào)誤差分布模型,均方根誤差最小的是Stable分布模型,均方根誤差為0.016 9,體現(xiàn)了單一分布模型隨著預(yù)見期的不同擬合效果差異較大的特點(diǎn),而混合tLocation-Scale分布模型的均方根誤差為0.019 6,分析原因可能是預(yù)見期為24 h的區(qū)間徑流預(yù)報(bào)誤差不確定性較強(qiáng)導(dǎo)致的。結(jié)合不同預(yù)見期各分布模型的判定系數(shù)與均方根誤差,不難發(fā)現(xiàn)混合tLocation-Scale分布模型描述徑流預(yù)報(bào)誤差的效果較單一tLocation-Scale分布、Stable分布和混合t-Stable分布模型好。
對(duì)比不同預(yù)見期的官地水庫區(qū)間徑流預(yù)報(bào)誤差混合tLocation-Scale分布曲線見圖4由此發(fā)現(xiàn)不同預(yù)見期區(qū)間徑流預(yù)報(bào)誤差混合tLocation-Scale分布曲線均呈現(xiàn)出“高瘦型”,正誤差厚尾特征明顯的特征,且隨著預(yù)見期的增加,區(qū)間徑流預(yù)報(bào)誤差混合tLocation-Scale分布曲線的形狀雖整體上變化不大,但逐漸由“高瘦型”變?yōu)椤鞍中汀保€的最大概率密度值依次為0.013 3、0.012 8、0.012 6和0.012 4;隨著預(yù)見期的增加,零值附近的概率逐漸減小。這與隨著預(yù)見期的增加,不確定性增大的規(guī)律是一致的。
圖4 不同預(yù)見期區(qū)間徑流預(yù)報(bào)誤差混合t Location-Scale分布曲線
基于建立的徑流預(yù)報(bào)誤差混合tLocation-Scale分布模型,利用MCMC方法模擬3 000組區(qū)間徑流預(yù)報(bào)誤差。計(jì)算模擬區(qū)間徑流預(yù)報(bào)誤差序列與實(shí)際區(qū)間徑流預(yù)報(bào)誤差序列的均值、變差系數(shù)、偏態(tài)系數(shù)等特征值,結(jié)果見表3。
表3 模擬誤差與實(shí)際誤差特征值
由表3可知,對(duì)于不同的預(yù)見期,模擬誤差序列與實(shí)際誤差序列的集中趨勢相差不大,均值相對(duì)偏差絕對(duì)值不超過4%,模擬精度較高;模擬誤差序列與實(shí)際誤差序列的離散程度差異不大,變差系數(shù)的相對(duì)偏差絕對(duì)值不超過13%;模擬誤差序列與實(shí)際誤差序列的偏態(tài)系數(shù)均大于零,均為正偏,且相對(duì)偏差絕對(duì)值不超過29%。隨著預(yù)見期的增加,模擬誤差序列與實(shí)際誤差序列的均值逐漸減小,變差系數(shù)逐漸增大,變化規(guī)律一致。結(jié)合徑流預(yù)報(bào)過程,應(yīng)用式(6)對(duì)預(yù)報(bào)徑流進(jìn)行修正,便可得到更接近實(shí)際來水過程的徑流預(yù)報(bào)過程。
徑流預(yù)報(bào)是水庫制訂調(diào)度方案和實(shí)施優(yōu)化調(diào)度的重要理論依據(jù),為提高徑流預(yù)報(bào)的精度,減輕徑流預(yù)報(bào)不確定性的影響,本文建立了描述徑流預(yù)報(bào)誤差統(tǒng)計(jì)多樣性的混合tLocation-Scale分布模型,并將模型應(yīng)用于官地水庫的區(qū)間徑流預(yù)報(bào),主要得出以下結(jié)論:①對(duì)于不同預(yù)見期的官地水庫區(qū)間徑流預(yù)報(bào)誤差,混合tLocation-Scale分布模型較單一tLocation-Scale分布、Stable分布和混合t-Stable分布模型描述徑流預(yù)報(bào)誤差的峰部、尾部特征的效果均較好,擬合精度較高;②利用馬爾科夫蒙特卡洛(MCMC)方法產(chǎn)生的隨機(jī)區(qū)間徑流預(yù)報(bào)誤差序列與實(shí)際區(qū)間徑流預(yù)報(bào)誤差序列各特征值相差不大,且變化規(guī)律一致,說明了模型的可行性與有效性。通過疊加模擬的徑流預(yù)報(bào)誤差序列與徑流預(yù)報(bào),可進(jìn)一步得到比預(yù)報(bào)來水更接近實(shí)際來水的徑流過程,為水庫水電站的運(yùn)行管理提供更加豐富的參考信息。本文提出的混合tLocation-Scale分布模型較單一分布模型能更好地描述徑流預(yù)報(bào)誤差,還可根據(jù)不同分布模型的特性提出不同的混合分布模型描述徑流預(yù)報(bào)誤差的統(tǒng)計(jì)特性;另外,還可對(duì)水庫不同時(shí)期(汛期、枯水期和過渡期)不同預(yù)見期的徑流預(yù)報(bào)誤差建立不同的混合分布模型,為水庫的徑流預(yù)報(bào)和運(yùn)行管理提供理論依據(jù)。