邵 臻,王曉佳,高 飛,劉輝舟,楊 露
(合肥工業(yè)大學(xué)a.管理學(xué)院;b.過(guò)程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230009)
基于懲罰最小二乘估計(jì)的長(zhǎng)期用電量半?yún)?shù)預(yù)測(cè)模型
邵 臻,王曉佳,高 飛,劉輝舟,楊 露
(合肥工業(yè)大學(xué)a.管理學(xué)院;b.過(guò)程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230009)
文章針對(duì)懲罰最小二乘估計(jì)的高精度特性,構(gòu)建了基于懲罰最小二乘估計(jì)的半?yún)?shù)回歸模型。并將指數(shù)平滑思想融入模型,對(duì)模型的誤差序列進(jìn)行趨勢(shì)外推與大幅度外延預(yù)測(cè)。實(shí)證結(jié)果表明了所提方法的有效性。
半?yún)?shù)模型;懲罰最小二乘估計(jì);指數(shù)平滑;電量預(yù)測(cè)
目前,長(zhǎng)期負(fù)荷預(yù)測(cè)領(lǐng)域的研究方法主要包括參數(shù)理論與非參數(shù)理論等[1~3]。狀態(tài)空間、回歸分析、神經(jīng)網(wǎng)絡(luò)、灰色理論、支持向量機(jī)和最優(yōu)組合預(yù)測(cè)方法等,基本上都屬于參數(shù)統(tǒng)計(jì)法的范疇,因變量對(duì)自變量有較強(qiáng)的依賴(lài)關(guān)系,當(dāng)假設(shè)函數(shù)模型成立時(shí),預(yù)測(cè)精度較高,當(dāng)假設(shè)函數(shù)不成立時(shí),預(yù)測(cè)模型的擬合情況和預(yù)測(cè)精度都不理想。非參數(shù)理論降低了自變量對(duì)因變量的限制,有較大的適應(yīng)性,但也可能會(huì)失去歷史資料所提供的信息,降低模型的解釋能力。
傳統(tǒng)的參數(shù)回歸操作簡(jiǎn)便,可以外延,適于預(yù)測(cè),但難以精確擬合復(fù)雜的曲線(xiàn);非參數(shù)回歸形式靈活,可以精確擬合復(fù)雜曲線(xiàn)曲面,但難以進(jìn)行大幅度外延預(yù)測(cè)。半?yún)?shù)模型最早由Stone于1977年提出,它有線(xiàn)性主部,可以把握大勢(shì)走向,適于外延預(yù)測(cè);還有非參數(shù)部分,可以作局部調(diào)整,使數(shù)據(jù)較精確地?cái)M合。半?yún)?shù)模型引入了非參數(shù),克服了傳統(tǒng)偏差函數(shù)模型的局限性,使得數(shù)學(xué)模型與客觀實(shí)際更為接近,在數(shù)值上能夠分別求出參數(shù)、非參數(shù)(模型誤差)和偶然誤差,是一種非常理想的數(shù)據(jù)處理方法。本文擬對(duì)傳統(tǒng)半?yún)?shù)模型進(jìn)一步改進(jìn),改進(jìn)后的半?yún)?shù)模型將指數(shù)平滑法融入模型并結(jié)合懲罰最小二乘估計(jì)法進(jìn)行參數(shù)估計(jì),目前在電力負(fù)荷預(yù)測(cè)領(lǐng)域半?yún)?shù)模型的應(yīng)用尚不多見(jiàn),將其運(yùn)用于電力負(fù)荷預(yù)測(cè)領(lǐng)域,將改善傳統(tǒng)方法諸如無(wú)法適應(yīng)較大幅度外延預(yù)測(cè)要求、預(yù)測(cè)精度偏低等不足之處。
半?yún)?shù)模型一般形式為:
其中yi是因變量;xi是參數(shù)部分自變量;Tj是非參部分自變量;β是回歸系數(shù),即待求參數(shù);g為定義于實(shí)數(shù)集上的未知函數(shù);ε是隨機(jī)誤差,E(ε)=0,E(ε2)=σ2。xiβ反映了負(fù)荷預(yù)測(cè)可知的部分規(guī)律,把握因變量y變化的趨勢(shì)走向,為參數(shù)部分;g(Ti)+εi反映了負(fù)荷預(yù)測(cè)的不確定因素的影響,為非參數(shù)部分。
半?yún)?shù)回歸模型的估計(jì)方法很多,常見(jiàn)的有兩階段法、核函數(shù)法、樣條法、最近鄰法等等[4,5]。本文為了達(dá)到既可以排除隨機(jī)誤差項(xiàng)產(chǎn)生的噪音,同時(shí)又使得解具有一定的光滑性,從而有利于數(shù)據(jù)擬合以及外延預(yù)測(cè)的目的,采用基于懲罰最小二乘估計(jì)的半?yún)?shù)回歸模型。
懲罰最小二乘準(zhǔn)則函數(shù)為[6]:
當(dāng)λ→0時(shí),g(t)趨近于觀測(cè)量的三次樣條內(nèi)插。當(dāng)λ→∞時(shí),g(t)趨近于觀測(cè)量的線(xiàn)形回歸??勺C明懲罰最小二乘原理的懲罰項(xiàng)可以表達(dá)為(Fessler,1991):
其中,Q與T是 n×(n-2)和 (n-2)×(n-2)的矩陣。令 hi=ti+1-ti,i=1,2,…,n-1。
Q中元素滿(mǎn)足:
最終可以得到迭代求解方程,令
由式(6)、式(7)可計(jì)算 g?和 B?,觀測(cè)值的估計(jì)為:
對(duì)于模型(10)我們還無(wú)法直接進(jìn)行外推預(yù)測(cè),對(duì)于誤差時(shí)間序列項(xiàng)g?我們需要作進(jìn)一步處理。由函數(shù)逼近論可知,對(duì)于足夠光滑的函數(shù)我們可以用多項(xiàng)式函數(shù)去逼近。
設(shè)誤差序列項(xiàng){g?n}具有二次多項(xiàng)式趨勢(shì),在二次指數(shù)平滑序列的基礎(chǔ)上,再做三次指數(shù)平滑序列:
光滑參數(shù)λ的取值對(duì)參數(shù),特別是對(duì)懲罰項(xiàng)估值的影響很大,其取值好壞將直接影響到實(shí)際擬合效果。當(dāng)平滑參數(shù)值λ選取較大時(shí),λ的取值對(duì)數(shù)據(jù)平滑問(wèn)題來(lái)說(shuō)是十分關(guān)鍵的。
目前在平滑參數(shù)的選取準(zhǔn)則很多[7]。一些是基于再抽樣方法,例如CV,GCV準(zhǔn)則等等;而另一些是基于模型復(fù)雜度懲罰方法,例如基于AIC,BIC準(zhǔn)則的選擇方法。雖然幾類(lèi)方法的形式不同,本質(zhì)上都是為了尋找合適的參數(shù),使得模型具有較優(yōu)的預(yù)測(cè)性能和泛化性能。
(1)交叉核實(shí)準(zhǔn)則
交叉核實(shí)(cross-validation,CV),其基本思想是:選取λ所得的擬合曲線(xiàn),用此曲線(xiàn)進(jìn)行預(yù)測(cè),使所有預(yù)測(cè)點(diǎn)的均方誤差最小。在應(yīng)用時(shí),常常將(xi,yi)模擬為預(yù)測(cè)點(diǎn)(即去掉此點(diǎn)),而依據(jù)剩下的n-1個(gè)點(diǎn)進(jìn)行估計(jì),再將(xi,yi)代入所擬合的曲線(xiàn),得到此點(diǎn)的值,記為Y?i。于是我們定義交叉核為:
其中,hii(λ)為帽子矩陣 H(λ)中的元素,使 CV(λ)值最小的λ即為所求值。
(2)廣義交叉核實(shí)準(zhǔn)則
廣義交叉核實(shí)法(Generalized Cross-Validation,GCV)是Leave-one out cross-validation方法的近似,我們定義廣義交叉核為:
本文采用循環(huán)預(yù)測(cè)法進(jìn)行負(fù)荷預(yù)測(cè)[8,9],其基本思想是:對(duì)每一次的負(fù)荷預(yù)測(cè)值進(jìn)行循環(huán)使用。對(duì)于半?yún)?shù)回歸模型,當(dāng)預(yù)測(cè)yn+1時(shí),利用三次指數(shù)平滑預(yù)測(cè)技術(shù)對(duì)g?(n+1)進(jìn)行估計(jì),得到負(fù)荷預(yù)測(cè)值 y?n+1 ,將負(fù)荷預(yù)測(cè)值y?n+1添加到原負(fù)荷樣本(y1,y2,…,yn)中組成新負(fù)荷樣本(y1,y2,...,yn,y?n+1),再采用前述半?yún)?shù)估計(jì)方法進(jìn)行等間隔的下一步預(yù)測(cè),如此循環(huán)直至得到所需的p步預(yù)測(cè)值。
影響電力負(fù)荷消耗的因素很多,例如經(jīng)濟(jì)增長(zhǎng)水平、經(jīng)濟(jì)發(fā)展階段、經(jīng)濟(jì)結(jié)構(gòu)特性以及生產(chǎn)生活水平等等諸多影響和制約因素。具體選取了全社會(huì)固定資產(chǎn)投資總額、國(guó)內(nèi)生產(chǎn)總值、人均國(guó)內(nèi)生產(chǎn)總值、工業(yè)增加值、社會(huì)消費(fèi)品零售總額、人口數(shù)量、商品零售價(jià)格指數(shù)、工業(yè)總產(chǎn)值等因素。計(jì)算自變量、因變量之間的相關(guān)程度,并去除與因變量相關(guān)程度較小的影響因素。
表1 自變量、因變量間的相關(guān)系數(shù)
通過(guò)灰色關(guān)聯(lián)度理論,計(jì)算出諸多影響因素(自變量)與因變量之間的灰色關(guān)聯(lián)度,對(duì)于所選取的8個(gè)影響因素其灰色關(guān)聯(lián)度依次為:0.9088,0.7243,0.6201,0.8762 ,0.9298,0.6495,0.9418,0.6082。綜合相關(guān)系數(shù)和灰色關(guān)聯(lián)度理論選取全社會(huì)固定資產(chǎn)投資總額、工業(yè)增加值、社會(huì)消費(fèi)品零售總額3個(gè)影響因素并進(jìn)行單位根檢驗(yàn),自變量與3個(gè)影響因素在5%的置信水平下可以認(rèn)為不存在單位根,因此選取上述3個(gè)因素建模。
本文收集了1985~2009年江蘇省年度全社會(huì)用電量及其影響因素的資料。電量單位為億kWh,人口單位為萬(wàn)人,產(chǎn)業(yè)值單位為億元。影響年用電量(自變量)的因子有GDP,全社會(huì)固定資產(chǎn)投資總額,工業(yè)增加值,社會(huì)消費(fèi)品零售總額,總?cè)丝跀?shù)。用1985~1999年資料建模,2000~2009年資料進(jìn)行檢驗(yàn)。
對(duì)于光滑參數(shù)λ的選取,本文采用廣義交叉核實(shí)法(Generalized Cross-Validation,GCV)。通過(guò)GCV法迭代選取,最終選擇λ=0.43時(shí)達(dá)到較好的逼近精度和預(yù)測(cè)效果。
表2 擬合和檢驗(yàn)結(jié)果
表3 擬合和檢驗(yàn)結(jié)果
通過(guò)表2預(yù)測(cè)結(jié)果的對(duì)比不難發(fā)現(xiàn),基于懲罰最小二乘估計(jì)的半?yún)?shù)模型在參數(shù)擬合階段表現(xiàn)出了很高的精度。通過(guò)對(duì)原始數(shù)據(jù)良好的擬合,從而反映原始數(shù)據(jù)的變化趨勢(shì),同時(shí)結(jié)合三次指數(shù)平滑法進(jìn)行趨勢(shì)外推,從而進(jìn)行預(yù)測(cè)。由表3可知基于懲罰最小二乘估計(jì)法的誤差指標(biāo)是比較令人滿(mǎn)意的。基于懲罰最小二乘估計(jì)的半?yún)?shù)模型進(jìn)行用電負(fù)荷預(yù)測(cè)具有較高的預(yù)測(cè)精度和實(shí)用性,半?yún)?shù)模型相較于傳統(tǒng)用電負(fù)荷預(yù)測(cè)模型具有更高的預(yù)測(cè)精度。
比較計(jì)算結(jié)果可以看到:在進(jìn)行較大幅度全社會(huì)用電量需求外延預(yù)測(cè)時(shí),半?yún)?shù)回歸法估計(jì)的平均擬合誤差遠(yuǎn)遠(yuǎn)小于灰色GM(1,1)、多元線(xiàn)性回歸等傳統(tǒng)方法。說(shuō)明半?yún)?shù)模型對(duì)電力需求預(yù)測(cè)估計(jì)精度較高。通過(guò)數(shù)值的擬合計(jì)算結(jié)果顯示,擬合估計(jì)值也比較接近真實(shí)值。也再次證明半?yún)?shù)模型對(duì)電量需求預(yù)測(cè)估計(jì)的優(yōu)越性。
文中主要考慮經(jīng)濟(jì)增長(zhǎng)水平、經(jīng)濟(jì)發(fā)展階段、經(jīng)濟(jì)結(jié)構(gòu)特性以及生產(chǎn)生活水平等等諸多影響和制約因素,然而實(shí)際中用電負(fù)荷的需求還受到其它因素的影響,如自然因素等。在今后的研究中,應(yīng)進(jìn)一步分析各種因素對(duì)用電負(fù)荷的影響,建立更精確的預(yù)測(cè)模型。同時(shí)半?yún)?shù)預(yù)測(cè)模型的擬合步長(zhǎng)和預(yù)測(cè)步長(zhǎng)的選取也是值得進(jìn)一步研究的問(wèn)題。
[1]牛東曉,曹樹(shù)華等.電力負(fù)荷預(yù)測(cè)技術(shù)及其應(yīng)用[M].北京:中國(guó)電力出版社,2009.
[2]康重慶,夏清,張伯明.電力系統(tǒng)負(fù)荷預(yù)測(cè)研究綜述與發(fā)展方向的探討[J].電力系統(tǒng)自動(dòng)化,2004,28(7).
[3]邰能靈,侯志儉,李濤,蔣傳文,宋炯.基于小波分析的電力系統(tǒng)短期負(fù)荷預(yù)測(cè)方法[J].中國(guó)電機(jī)工程學(xué)報(bào),2003,23(1).
[4]葉阿忠.非參數(shù)計(jì)量經(jīng)濟(jì)學(xué)[M].天津:南開(kāi)大學(xué)出版社,2003.
[5]Jan G,De Gooijer,Daw it Zerom.Kernel-based Multistep-ahead Pre?dictions of the US Short-term Interest Rate[J].Journal of Forecasting,2000,19(4).
[6]高寧,高彩云,徐長(zhǎng)海.補(bǔ)償最小二乘估計(jì)在確定高程異常中的應(yīng)用[J].測(cè)繪科學(xué),2011,36(1).
[7]陳建東,李嫻,王小明.LS-SVM的GCV模型選擇方法與快速算法[J].模式識(shí)別與人工智能,2010,30(1).
[8]Stephanie M.Pickle,Timothy J.Robinson,Jeffrey B.Birch,Christine M.Anderson-Cook.A Semi-Parametric Approach to Robust Parame?ter Design[J].Journal of Statistical Planning and Inference,2008,138.
[9]Three-Stage Semi-Parametric Estimation of T-copulas:Asymptotics,Finite-sample Properties and Computational Aspects[Z].Computation?al Statistics and Data Analysis,2010.
F224
A
1002-6487(2012)24-0026-03
國(guó)家自然科學(xué)基金資助項(xiàng)目(71071045;70801024)
邵 臻(1986-),男,江蘇宿遷人,碩士研究生,研究方向:預(yù)測(cè)、決策科學(xué)與技術(shù)。
王曉佳(1982-),男,安徽蚌埠人,博士研究生,研究方向:預(yù)測(cè)、決策科學(xué)與技術(shù)。
高 飛(1986-),女,河北滄州人,碩士研究生,研究方向:決策科學(xué)與技術(shù)。
(責(zé)任編輯/亦 民)