顧 潔,孟 璐,鄭睿程,金之儉
(上海交通大學(xué)電子信息與電氣工程學(xué)院,上海市200240)
智能電網(wǎng)高級(jí)計(jì)量體系(advanced metering infrastructure,AMI)的廣泛應(yīng)用[1],為用戶行為特性分析等提供了海量、精細(xì)化的負(fù)荷數(shù)據(jù),有助于供電企業(yè)和綜合能源服務(wù)商等制定個(gè)性化的售電服務(wù)策略[2]。人工智能技術(shù)的蓬勃發(fā)展以及電力行業(yè)海量數(shù)據(jù)的累積,促進(jìn)了用電數(shù)據(jù)分析與預(yù)測中數(shù)據(jù)驅(qū)動(dòng)技術(shù)的研究,產(chǎn)生了豐富的理論研究與實(shí)際應(yīng)用成果[3]。
目前,國內(nèi)外學(xué)者對(duì)用戶用電模式的相關(guān)研究工作主要圍繞聚類特征提取及聚類算法的改進(jìn)開展。按輸入特征不同,聚類算法可分為直接聚類法和間接聚類法。文獻(xiàn)[4-5]直接以時(shí)間序列作為聚類算法的輸入特征,使用k-means聚類算法對(duì)用戶用電模式進(jìn)行直接聚類,具有收斂速度快等優(yōu)勢;文獻(xiàn)[6]使用主成分分析法、文獻(xiàn)[7]使用自編碼器對(duì)用電時(shí)間序列進(jìn)行降維處理,以實(shí)現(xiàn)間接聚類,改善聚類效果。在聚類算法改進(jìn)方面,文獻(xiàn)[8]針對(duì)智能用電行為最佳聚類數(shù)的選擇問題,提出聚類數(shù)優(yōu)選策略;文獻(xiàn)[9]對(duì)k-means聚類算法進(jìn)行了改進(jìn),遍歷所有可能聚類數(shù),可以有效提取出用戶用電模式,但計(jì)算效率低。上述聚類方法因缺少分布式與并行化的改良,應(yīng)用于海量用戶分析時(shí)存在計(jì)算效率較低和適應(yīng)性不高的問題。
單一用戶或小規(guī)模區(qū)域用戶的負(fù)荷變化具有較強(qiáng)的不確定性,為量化負(fù)荷預(yù)測結(jié)果的不確定性、降低預(yù)測風(fēng)險(xiǎn),近年來,負(fù)荷預(yù)測概率建模的方法成為研究熱點(diǎn)[10],預(yù)測結(jié)果一般以概率密度、分位點(diǎn)和置信區(qū)間等形式呈現(xiàn)[11-12]。文獻(xiàn)[13]使用極值預(yù)測法預(yù)測日最高負(fù)荷與日最低負(fù)荷,從而實(shí)現(xiàn)區(qū)間預(yù)測,但所反映的信息較為單??;文獻(xiàn)[14]基于小時(shí)的電力負(fù)荷數(shù)據(jù)建立線性回歸模型,并結(jié)合歷史溫度數(shù)據(jù)與未來生產(chǎn)總值規(guī)劃數(shù)據(jù),對(duì)美國某地區(qū)的系統(tǒng)負(fù)荷進(jìn)行分位數(shù)概率預(yù)測。針對(duì)用戶側(cè)負(fù)荷預(yù)測,基于長短期記憶(long short-term memory,LSTM)具有對(duì)歷史行為的記憶特性,文獻(xiàn)[15-16]使用LSTM進(jìn)行居民用戶負(fù)荷的超短期預(yù)測,但文獻(xiàn)[16]未考慮海量用戶的計(jì)算開銷問題。目前,針對(duì)用戶側(cè)短期負(fù)荷概率預(yù)測的研究主要是從用戶集合總體進(jìn)行概率建模,根據(jù)用戶個(gè)體用電特性的分析進(jìn)行分層預(yù)測研究成果較少,較為粗放式的預(yù)測策略在海量用戶場景下可能會(huì)導(dǎo)致預(yù)測精度降低。
目前,針對(duì)用戶側(cè)的負(fù)荷預(yù)測的研究主要集中在居民負(fù)荷預(yù)測,而工商業(yè)用戶一直是中國電力消費(fèi)的主力軍,且需求響應(yīng)潛力較大[17]。隨著中國電力市場改革的不斷推進(jìn),無論是售電企業(yè)還是電網(wǎng)調(diào)度運(yùn)營機(jī)構(gòu)等都需要對(duì)工商業(yè)負(fù)荷進(jìn)行高效且準(zhǔn)確的預(yù)測[18]。對(duì)于工商業(yè)負(fù)荷,一方面,由于用戶數(shù)據(jù)保密等原因,單個(gè)工商業(yè)用戶歷史負(fù)荷數(shù)據(jù)可能存在較多缺失,影響了完全基于歷史數(shù)據(jù)外推的預(yù)測模式的有效性;另一方面,不同種類工商業(yè)負(fù)荷變化存在相似性,發(fā)展規(guī)律可以參考借鑒[19]。因此,嘗試對(duì)工商業(yè)用戶進(jìn)行集群識(shí)別,同一集群統(tǒng)一建模,在相似用戶之間進(jìn)行數(shù)據(jù)互補(bǔ),從而提高工商業(yè)用戶的負(fù)荷預(yù)測精度。
針對(duì)上述研究現(xiàn)狀,本文對(duì)基本聚類模型進(jìn)行改進(jìn),使用用電模式分層聚類算法,并基于用電模式與畫像特征對(duì)海量用戶進(jìn)行了用戶集群辨識(shí),進(jìn)一步將用電模式分析與集群辨識(shí)融合建立了條件殘差模擬概率預(yù)測模型,對(duì)海量用戶進(jìn)行分層概率預(yù)測,并采用中國南方某地區(qū)的工商業(yè)用戶實(shí)際用電數(shù)據(jù)[20]進(jìn)行算例分析。
用電模式分析時(shí)可使用的用戶相關(guān)信息包括智能電表量測數(shù)據(jù)和對(duì)用戶的問卷調(diào)查結(jié)果,其中智能電表量測數(shù)據(jù)詳實(shí)地記錄了用戶每個(gè)固定時(shí)間間隔內(nèi)的用電情況,而用戶問卷調(diào)查結(jié)果則是對(duì)用戶特征信息的有力補(bǔ)充??紤]到實(shí)際應(yīng)用場景中對(duì)所有用戶都開展用戶調(diào)查問卷難以實(shí)施,因此,本文算例部分將以基于智能電表量測數(shù)據(jù)進(jìn)行用戶模式分析為例進(jìn)行驗(yàn)證討論。
對(duì)海量用戶進(jìn)行用電模式提取時(shí),將所有用戶的數(shù)據(jù)統(tǒng)一進(jìn)行全局聚類易產(chǎn)生巨大的計(jì)算時(shí)間開銷?;诜謱泳垲惖挠秒娔J椒治瞿芫C合全局聚類和局部聚類的優(yōu)勢[21],具有動(dòng)態(tài)改變聚類數(shù)目、收斂速度較快和大幅度降低計(jì)算時(shí)間開銷等優(yōu)點(diǎn),達(dá)到聚類質(zhì)量和計(jì)算復(fù)雜度的平衡。用電模式分層聚類算法流程圖如附錄A圖A1所示。
本文采用以下步驟實(shí)現(xiàn)海量用戶用電模式的分層聚類分析。
步驟1:為保障聚類的特征具有典型性,首先對(duì)所有用戶用電數(shù)據(jù)的總數(shù)據(jù)集進(jìn)行k-means聚類,將用戶分為L組,將各組的用戶用電數(shù)據(jù)作為局部數(shù)據(jù)集,并分別使用局部聚類模型對(duì)子數(shù)據(jù)集進(jìn)行局部聚類。當(dāng)聚類中心不再改變時(shí),輸出局部聚類結(jié)果。
步驟2:將L個(gè)局部聚類子模塊得到的局部聚類中心集合后使用全局聚類模型進(jìn)行全局的二次聚類。當(dāng)聚類中心不再改變時(shí),輸出全局聚類結(jié)果。
步驟3:根據(jù)全局聚類得到的聚類標(biāo)簽隸屬關(guān)系,更新局部數(shù)據(jù)模塊的局部聚類標(biāo)簽,即為用戶的用電模式標(biāo)簽。
構(gòu)建單用戶負(fù)荷與聚合負(fù)荷之間的層次結(jié)構(gòu),即辨識(shí)用戶集群需要綜合用戶典型用電模式和用戶用電模式行為信息熵這2類指標(biāo),構(gòu)成用戶特征向量,對(duì)用戶進(jìn)行綜合特征建模。其中,典型用電模式可以提取到具有代表性的用戶用電模式;用戶用電模式信息熵可以刻畫用戶用電的不確定性。
1)用戶典型用電模式
假設(shè)一段時(shí)間內(nèi)用戶共有d個(gè)歷史用電模式,其序列為mi,i=1,2,…,d,定義典型用電模式mcls為歷史用電模式序列中最大比例的用電模式標(biāo)簽,用戶典型用電模式是用戶特征向量的一部分。
2)用戶用電模式行為信息熵
基于每個(gè)用戶一段時(shí)間內(nèi)的歷史用電模式序列mi,以該序列的信息熵來表示用戶用電行為的不確定性。定義第n個(gè)用戶用電模式行為信息熵En為:
式中:S為用戶數(shù);pi,n為行為狀態(tài)i在第n個(gè)用戶中出現(xiàn)的概率,其表達(dá)式為
式中:I(x)為指示函數(shù),滿足條件x時(shí),值為1,否則為0;sj,n為第n個(gè)用戶的第j個(gè)用電模式。
行為信息熵能夠描述用戶用電行為的不確定性:若用戶的行為標(biāo)簽出現(xiàn)概率都等于1/d,用戶的用電行為多變,En最大;反之,當(dāng)某種行為標(biāo)簽一直出現(xiàn)時(shí),此時(shí)pi,n=1,剩余的行為標(biāo)簽出現(xiàn)概率為0,表示用戶用電行為最穩(wěn)定,En=0。
將用戶典型用電模式和用戶用電模式行為信息熵這2類指標(biāo)拼接形成用戶特征向量后,基于用戶特征向量對(duì)用戶進(jìn)行集群辨識(shí),以確定其所屬的用戶集群,為分層預(yù)測設(shè)計(jì)提供依據(jù)。用戶聚類與可視化模型的過程如圖1所示。
圖1 用戶集群辨識(shí)模型過程Fig.1 Process of identification model for user cluster
由于不同用戶的用電習(xí)慣和負(fù)荷特性存在差別,直接對(duì)聚合負(fù)荷進(jìn)行預(yù)測無法捕捉負(fù)荷的具體特征,而對(duì)每個(gè)用戶進(jìn)行逐一建模則會(huì)導(dǎo)致計(jì)算量過大,海量用戶的負(fù)荷預(yù)測需要實(shí)現(xiàn)預(yù)測準(zhǔn)確度與復(fù)雜度的平衡。
傳統(tǒng)的輸出側(cè)殘差模擬負(fù)荷概率預(yù)測模型一般基于歷史殘差構(gòu)建經(jīng)驗(yàn)分布,并依據(jù)經(jīng)驗(yàn)分布生成殘差的模擬結(jié)果。由于殘差并不一定滿足特定的分布形式,導(dǎo)致這種預(yù)測方法存在較強(qiáng)的主觀性,影響預(yù)測結(jié)果有效性。因此,可以考慮將模型側(cè)概率建模與輸出側(cè)概率建模進(jìn)行結(jié)合,建立條件殘差模擬負(fù)荷概率預(yù)測模型,提升模型對(duì)殘差的表達(dá)能力。
2.1.1 條件殘差模擬負(fù)荷概率預(yù)測的基本思路
用戶行為特性變化復(fù)雜,不確定性高,殘差與多種不同特征相關(guān)且形式復(fù)雜,條件殘差模擬預(yù)測模型計(jì)及天氣、日期和歷史負(fù)荷的影響,使用表達(dá)能力更強(qiáng)的機(jī)器學(xué)習(xí)模型對(duì)殘差進(jìn)行模擬,具有更強(qiáng)的預(yù)測能力。同時(shí),為了計(jì)及殘差模擬的不確定性,引入模型側(cè)概率預(yù)測中的分位數(shù)回歸模型。
2.1.2 條件殘差模擬負(fù)荷概率預(yù)測流程
條件殘差模擬負(fù)荷概率預(yù)測步驟如附錄A圖A2所示,包括訓(xùn)練階段和測試階段。訓(xùn)練階段又分為點(diǎn)預(yù)測訓(xùn)練和條件殘差概率預(yù)測訓(xùn)練,為避免“過擬合”,在按經(jīng)典的8∶2原則劃分訓(xùn)練集與測試集的基礎(chǔ)上,再將訓(xùn)練集數(shù)據(jù)平分,分別用于點(diǎn)預(yù)測與概率預(yù)測階段的模型訓(xùn)練,故總數(shù)據(jù)集按照4∶4∶2的比例被分割為訓(xùn)練數(shù)據(jù)集T1、訓(xùn)練數(shù)據(jù)集T2和測試數(shù)據(jù)集T3這3個(gè)部分。在點(diǎn)預(yù)測模型訓(xùn)練階段,考慮到工商業(yè)用戶用電與天氣、日期等因素密切相關(guān)[22],輸入特征包括氣溫等天氣情況、日歷變量和歷史負(fù)荷變量等,將數(shù)據(jù)集T1輸入到點(diǎn)預(yù)測函數(shù)f(?)進(jìn)行訓(xùn)練。點(diǎn)預(yù)測模型訓(xùn)練完畢后,計(jì)算出T2的點(diǎn)預(yù)測結(jié)果為:
式中:W和Xt分別為點(diǎn)預(yù)測函數(shù)的參數(shù)和時(shí)刻t的輸入特征;y′t為時(shí)刻t的點(diǎn)預(yù)測值。
時(shí)刻t的點(diǎn)預(yù)測殘差εt為:
式中:yt為時(shí)刻t的點(diǎn)實(shí)際值。
在條件殘差模擬概率預(yù)測訓(xùn)練階段,輸入特征包括點(diǎn)預(yù)測結(jié)果、天氣變量、日歷變量和歷史負(fù)荷變量等,將數(shù)據(jù)集T2輸入分位數(shù)回歸函數(shù)gq(?)進(jìn)行訓(xùn)練。待訓(xùn)練完畢后,可得在時(shí)刻t殘差的q分位數(shù)εq,t為:
式中:Wq為分位數(shù)回歸模型函數(shù)的參數(shù)。
點(diǎn)預(yù)測模型與殘差概率預(yù)測模型訓(xùn)練完成后,在測試階段基于測試數(shù)據(jù)集T3求得點(diǎn)預(yù)測結(jié)果與殘差預(yù)測結(jié)果,并將點(diǎn)預(yù)測結(jié)果減去殘差預(yù)測結(jié)果得到最終的概率預(yù)測結(jié)果。
實(shí)際系統(tǒng)中,負(fù)荷預(yù)測對(duì)象包括全部用戶形成的聚合負(fù)荷和單個(gè)用戶的負(fù)荷。由于用戶的用電習(xí)慣和負(fù)荷特性存在差別,若直接對(duì)所有用戶使用同樣的模型進(jìn)行訓(xùn)練與預(yù)測,即直接對(duì)聚合負(fù)荷總體進(jìn)行預(yù)測,將會(huì)導(dǎo)致無法捕捉負(fù)荷的具體特征,從而降低預(yù)測精度;反之,若對(duì)每個(gè)用戶都進(jìn)行單獨(dú)的模型訓(xùn)練與預(yù)測,則會(huì)導(dǎo)致計(jì)算量過大且模型泛化能力差,還可能因單個(gè)用戶的數(shù)據(jù)量過少而難以確保模型得到充分訓(xùn)練。
用戶集群辨識(shí)能夠?qū)⑻匦韵嗨频挠脩艟垲惿捎脩糇蛹?建立基于用戶集群劃分的用戶側(cè)分層預(yù)測模型。對(duì)各子集內(nèi)用戶采用統(tǒng)一模型進(jìn)行預(yù)測,實(shí)現(xiàn)子集間差異化和子集內(nèi)統(tǒng)一的預(yù)測模型,達(dá)到預(yù)測準(zhǔn)確性與預(yù)測復(fù)雜性的協(xié)調(diào)。
用戶負(fù)荷的層次結(jié)構(gòu)如圖2所示。第1層為聚合負(fù)荷,即全部用戶的負(fù)荷之和;第2層的子聚合負(fù)荷為基于用戶集群劃分的結(jié)果,假設(shè)共有V個(gè)子聚合負(fù)荷,每個(gè)子聚合負(fù)荷代表該集群所對(duì)應(yīng)的用戶的負(fù)荷之和;第3層為各個(gè)單一用戶的負(fù)荷。
圖2 聚合負(fù)荷的結(jié)構(gòu)Fig.2 Structure of aggregated load
為了避免上述直接對(duì)聚合負(fù)荷進(jìn)行預(yù)測和對(duì)單用戶負(fù)荷逐一進(jìn)行預(yù)測的弊端,對(duì)第2層即子聚合負(fù)荷進(jìn)行模型訓(xùn)練,即對(duì)每個(gè)用戶集群由該集群下的用戶的數(shù)據(jù)訓(xùn)練得到負(fù)荷預(yù)測模型。對(duì)單用戶負(fù)荷使用其所屬的用戶集群的模型進(jìn)行預(yù)測。
基于用戶集群Ak數(shù)據(jù)訓(xùn)練得到條件殘差模擬概率預(yù)測函數(shù)hk(?)。假設(shè)用戶u屬于用戶集群Ak,則用戶u負(fù)荷lu,k的預(yù)測結(jié)果為:
式中:Fu為用戶u的輸入特征。
聚合負(fù)荷ltotal的預(yù)測結(jié)果為:
這種分層預(yù)測方式,將具有相似特征的用戶聚合后進(jìn)行統(tǒng)一建模,既避免了對(duì)所有用戶采用統(tǒng)一模型導(dǎo)致的欠擬合問題,又避免了對(duì)每個(gè)用戶進(jìn)行精細(xì)化建模時(shí)由于數(shù)據(jù)量較小導(dǎo)致的過擬合問題。
基于用戶集群辨識(shí)的分層負(fù)荷概率預(yù)測步驟如下。
步驟1:對(duì)天氣、日歷等輸入特征以及負(fù)荷的原始數(shù)據(jù)進(jìn)行預(yù)處理。其中,天氣變量為溫度;日歷變量包括小時(shí)、日期類型、月份和節(jié)假日。同時(shí),考慮到工商業(yè)用戶自身生產(chǎn)習(xí)慣引起的用電行為較為規(guī)律,因此,輸入變量也包括用戶自身的歷史負(fù)荷數(shù)據(jù)。
步驟2:通過用電模式分層聚類算法提取用戶的用電模式標(biāo)簽,將用戶典型用電模式和用戶用電模式行為信息熵組成用戶特征向量,對(duì)用戶進(jìn)行集群識(shí)別。
步驟3:分別基于各集群負(fù)荷數(shù)據(jù)、天氣和日歷等數(shù)據(jù)進(jìn)行離線訓(xùn)練,建立該集群基于條件殘差模擬的概率預(yù)測模型。
步驟4:基于實(shí)時(shí)數(shù)據(jù)和已訓(xùn)練好的模型對(duì)聚合用戶或者單個(gè)用戶的負(fù)荷進(jìn)行預(yù)測。
基于用戶集群辨識(shí)的分層負(fù)荷概率預(yù)測流程圖如附錄A圖A3所示。
基于中國南方某地區(qū)的工商業(yè)用戶實(shí)測數(shù)據(jù),對(duì)所提出的用戶用電分析模型、用戶集群辨識(shí)和概率預(yù)測模型進(jìn)行計(jì)算分析,與對(duì)比預(yù)測模型進(jìn)行比較,驗(yàn)證本文模型的有效性。
該數(shù)據(jù)集是中國南方某地區(qū)共計(jì)約30 000個(gè)工商業(yè)用戶的實(shí)測數(shù)據(jù),屬于私有數(shù)據(jù)集。數(shù)據(jù)集時(shí)間范圍為2010年1月到2011年7月共計(jì)577 d,工商業(yè)用戶負(fù)荷數(shù)據(jù)的采樣周期為15 min,工商業(yè)用戶涵蓋了科研機(jī)構(gòu)、商業(yè)、輕工業(yè)及重工業(yè)等行業(yè),沒有用戶的問卷調(diào)查數(shù)據(jù)。
本文使用平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)對(duì)點(diǎn)預(yù)測精度進(jìn)行評(píng)價(jià),具體表達(dá)式為:
式中:εMAPE為MAPE的值;N為樣本數(shù)。
綜合評(píng)價(jià)概率預(yù)測的精度,需同時(shí)考慮概率預(yù)測的分辨率、銳度和可靠性,采用2014年全球能源預(yù) 測 競 賽(2014 Global Energy Forecasting Competition,GEFCom2014)[23]和GEFCom2017[24]提出的概率預(yù)測評(píng)估方法:分位數(shù)得分(quantile score,QS)作為衡量概率預(yù)測精度高低的指標(biāo)。QS的計(jì)算基于Pinball損失函數(shù)fpinball(?)實(shí)現(xiàn),具體為:
式中:q為分位點(diǎn);y′t,q為在時(shí)刻t分位點(diǎn)q的分位數(shù)回歸值。
QS的計(jì)算公式為:
式中:εQS為QS的值;M為分位點(diǎn)數(shù)。
利用前述中國南方某地區(qū)工商業(yè)用戶為期一年的訓(xùn)練集數(shù)據(jù),應(yīng)用用電模式分層聚類算法,提取出典型用電模式共20種,如附錄A圖A4所示。
由工商業(yè)用戶日用電模式聚類結(jié)果可看出,提取出的用電模式特征和不同用電模式間差異均較為明顯,具體如下。
1)大多數(shù)負(fù)荷曲線呈現(xiàn)單高峰的形態(tài)。其中一部分(例如用電模式2)高峰時(shí)間主要分布在工作時(shí)間(09:00—21:00),對(duì)應(yīng)一般商業(yè)、科研機(jī)構(gòu)和一部分工業(yè)用戶;另一部分負(fù)荷曲線(例如用電模式1)高峰時(shí)間分布在夜間,主要對(duì)應(yīng)金屬冶煉等重工業(yè)用戶,考慮到較大的用電成本,這些用戶往往選擇錯(cuò)峰用電。
2)部分負(fù)荷曲線(例如用電模式13)整體呈現(xiàn)出較好的連續(xù)性,負(fù)載率不高,白天的整體負(fù)荷高于夜間,對(duì)應(yīng)用電量不大的輕工業(yè)用戶。其中,在04:00和18:00,該類負(fù)荷曲線出現(xiàn)較大程度下降,可能是由于工人換班造成。
3)部分負(fù)荷曲線(例如用電模式17)呈現(xiàn)出很強(qiáng)的波動(dòng)性,且沒有在特定時(shí)間出現(xiàn)峰值,對(duì)應(yīng)工藝流程復(fù)雜、各設(shè)備用電差異較大的工業(yè)用戶,此類用戶進(jìn)行不同工序時(shí),負(fù)荷需求變化較大。
對(duì)用戶構(gòu)造基于用電模式與畫像特征的用戶特征向量,采用T分布隨機(jī)鄰域嵌入(T-stochastic neighbor embedding,T-SNE)算法[25]進(jìn)行用戶集群辨識(shí)結(jié)果可視化,結(jié)果如圖3所示。
由圖3可知,本文所建立的用戶集群辨識(shí)算法能較好地將用電模式相似的用戶聚集。
基于用戶集群辨識(shí)結(jié)果,工商業(yè)用戶各集群的用戶數(shù)量與部分特征平均值的標(biāo)幺值如表1所示。
由表1可知,用戶集群3的行為信息熵更小,這些用戶的負(fù)荷波動(dòng)性更弱,主要為科研機(jī)構(gòu)用戶。用戶集群2的典型用電模式均值最大,這些用戶的負(fù)荷需求平均水平較高,主要為重工業(yè)/建筑行業(yè)。用戶集群1、4和5具有較大的行為信息熵,同時(shí),負(fù)荷的需求水平一般,主要為商業(yè)用戶,由于溫度、季節(jié)等因素對(duì)商業(yè)用戶用電行為影響顯著,其負(fù)荷會(huì)呈現(xiàn)出較強(qiáng)的波動(dòng)性。
圖3 工商業(yè)用戶集群辨識(shí)可視化結(jié)果Fig.3 Visualized identification results of industrial and commercial user cluster
表1 工商業(yè)用戶各集群的用戶數(shù)量與部分特征均值Table 1 N umber of users in each industrial and commercial user cluster and average values of some features
3.4.1 條件殘差模擬負(fù)荷概率預(yù)測
以對(duì)聚合負(fù)荷的預(yù)測為例,對(duì)比本文提出的概率預(yù)測模型與其他概率預(yù)測生成方法的結(jié)果,對(duì)比模型如下。
1)對(duì)比模型1:單純使用本文提出的條件殘差模擬概率預(yù)測模型,不使用組合預(yù)測與變量選擇等進(jìn)行優(yōu)化。
2)對(duì)比模型2:不使用本文概率預(yù)測模型,使用基礎(chǔ)的基于分位數(shù)回歸的模型側(cè)負(fù)荷概率預(yù)測生成方法。
3)對(duì)比模型3:不使用本文概率預(yù)測模型,使用基礎(chǔ)的基于殘差模擬的輸出側(cè)負(fù)荷概率預(yù)測生成方法。
4)對(duì)比模型4:隨機(jī)森林分位數(shù)回歸模型。
5)對(duì)比模型5:梯度提升樹分位數(shù)回歸模型。
6)對(duì)比模型6:神經(jīng)網(wǎng)絡(luò)分位數(shù)回歸模型。
將數(shù)據(jù)集的順序隨機(jī)打亂后,取前80%的數(shù)據(jù)作為訓(xùn)練集,后20%的數(shù)據(jù)作為測試集。本文所提方法則將訓(xùn)練集分為同樣數(shù)據(jù)量的2個(gè)部分:一部分用于訓(xùn)練負(fù)荷預(yù)測模型;另一部分用于訓(xùn)練殘差預(yù)測模型。
本文模型與6個(gè)對(duì)比模型的預(yù)測精度與預(yù)測負(fù)荷曲線圖如表2、圖4和附錄A圖A5所示,主要結(jié)論如下。
1)本文模型的點(diǎn)預(yù)測精度與概率預(yù)測精度均為最優(yōu)。
2)對(duì)比模型1由于不使用組合預(yù)測或變量選擇等方法對(duì)點(diǎn)預(yù)測模型進(jìn)行優(yōu)化,使得點(diǎn)預(yù)測精度有所降低,但是由于概率預(yù)測時(shí)使用了本文提出的條件殘差模擬模型,概率預(yù)測精度相對(duì)于其他對(duì)比模型仍有一定優(yōu)勢。
3)對(duì)比模型2的點(diǎn)預(yù)測精度較本文模型有所降低,與對(duì)比模型1的點(diǎn)預(yù)測精度相近,但對(duì)比模型2使用分位數(shù)回歸模型造成概率預(yù)測精度不甚理想,從負(fù)荷曲線圖可看出,模型側(cè)概率預(yù)測模型的概率預(yù)測結(jié)果范圍較寬,可靠性較高但銳度不足。
4)對(duì)比模型3的點(diǎn)預(yù)測模型與對(duì)比模型1一樣,有著相同的點(diǎn)預(yù)測精度,但對(duì)比模型3的輸出側(cè)殘差分布概率預(yù)測生成方法的概率預(yù)測精度十分不理想。根據(jù)負(fù)荷曲線圖可看出,殘差分布趨向于負(fù)向,這是由于訓(xùn)練集與測試集的真實(shí)殘差分布不一致導(dǎo)致的。
5)對(duì)比模型4和5的點(diǎn)預(yù)測及概率預(yù)測精度都劣于本文模型。附錄A圖A5表明,對(duì)比模型5在不同分位點(diǎn)的預(yù)測結(jié)果較為均勻地分布在真實(shí)值兩側(cè),與對(duì)比模型3中不同分位點(diǎn)預(yù)測結(jié)果主要分布在真實(shí)值下方相比,對(duì)比模型5在概率預(yù)測方面有一定優(yōu)勢。
6)對(duì)比模型6在點(diǎn)預(yù)測方面優(yōu)勢顯著,預(yù)測精度明顯高于其他對(duì)比模型,接近本文模型的預(yù)測精度。但基于神經(jīng)網(wǎng)絡(luò)的預(yù)測模型結(jié)果受參數(shù)影響非常大,模型訓(xùn)練需要不斷嘗試,找到層數(shù)和神經(jīng)元數(shù)的最優(yōu)參數(shù),整個(gè)建模過程比較復(fù)雜。對(duì)比模型6的概率預(yù)測效果較差,雖然銳度較高,但可靠性不足,不能提供足夠的預(yù)測信息。
總體上,本文模型在點(diǎn)預(yù)測和概率預(yù)測方面均取得了更好的預(yù)測效果,通過組合預(yù)測、變量選擇和分層預(yù)測有效提升了精度。從概率預(yù)測評(píng)價(jià)指標(biāo)QS來看,本文模型通過分位數(shù)回歸有效提升了對(duì)殘差的表達(dá)能力,改進(jìn)了概率預(yù)測結(jié)果。
3.4.2 不同用戶分層策略的單用戶負(fù)荷預(yù)測結(jié)果分析
使用某地區(qū)實(shí)際負(fù)荷數(shù)據(jù)對(duì)比本文提出的基于用戶集群的用戶側(cè)分層概率預(yù)測模型與其他用戶分層策略對(duì)單用戶負(fù)荷預(yù)測的效果,對(duì)比模型如下。
1)對(duì)比模型A:統(tǒng)一使用一個(gè)模型對(duì)全部用戶進(jìn)行預(yù)測,“一視同仁”地進(jìn)行單用戶負(fù)荷預(yù)測。
表2 不同概率預(yù)測模型的預(yù)測精度Table 2 F orecasting accuracy with different probability forecasting models
圖4 本文模型的概率預(yù)測負(fù)荷曲線Fig.4 Probability forecasting load curve of proposed model
2)對(duì)比模型B:對(duì)每個(gè)用戶訓(xùn)練不同的模型進(jìn)行預(yù)測,“千人千面”進(jìn)行單用戶負(fù)荷預(yù)測。
隨機(jī)抽取集群5中的3個(gè)用戶(用戶176、用戶397和用戶811)進(jìn)行預(yù)測,并分析本文所提模型與2個(gè)對(duì)比模型對(duì)這3個(gè)用戶的點(diǎn)預(yù)測精度與概率預(yù)測精度,如表3所示。
表3 不同用戶分層策略的單用戶負(fù)荷預(yù)測精度Table 3 F orecasting accuracy of single user load with different user stratification strategies
由結(jié)果可以看出,本文所提方法的點(diǎn)預(yù)測精度和概率預(yù)測精度均為最高,而對(duì)比模型A與對(duì)比模型B的預(yù)測精度較低,其原因如下。
使用同一個(gè)模型對(duì)全部用戶進(jìn)行預(yù)測存在如下問題:①當(dāng)用戶數(shù)量較多時(shí),訓(xùn)練樣本數(shù)量過大,導(dǎo)致訓(xùn)練時(shí)間過長;②各個(gè)用戶的用電模式與特性各有不同,使用同一個(gè)模型訓(xùn)練將導(dǎo)致對(duì)單用戶的預(yù)測精度降低。對(duì)每個(gè)用戶訓(xùn)練不同的模型進(jìn)行預(yù)測存在訓(xùn)練樣本量過小和泛化能力不足等問題。本文所提方法將相同用戶集群的用戶數(shù)據(jù)進(jìn)行統(tǒng)一訓(xùn)練,這種分層策略能夠取得泛化能力與相關(guān)性的平衡。
此外,從點(diǎn)預(yù)測精度和概率預(yù)測精度的關(guān)系可看出,點(diǎn)預(yù)測精度和概率預(yù)測精度存在一定的正相關(guān)關(guān)系。這是由于概率預(yù)測的建模是基于點(diǎn)預(yù)測結(jié)果進(jìn)行的,其精度與點(diǎn)預(yù)測結(jié)果的準(zhǔn)確性密切相關(guān)。
海量用戶場景下的用戶用電特性分析與分層概率預(yù)測對(duì)用戶側(cè)用電精細(xì)化分析有重要意義,本文提出了一套針對(duì)海量用戶場景的用電數(shù)據(jù)分析與短期負(fù)荷預(yù)測的方案。
1)由用戶典型用電模式、用戶用電模式行為信息熵等組成的用戶特征向量充分考慮用戶負(fù)荷的用電特征,并通過可視化直觀清晰地傳達(dá)用戶特征信息。
2)基于集群辨識(shí)的用戶負(fù)荷分層概率預(yù)測方法,在模型方面,使用分位數(shù)回歸模型對(duì)殘差進(jìn)行模擬,建立的輸出側(cè)與模型側(cè)結(jié)合的概率預(yù)測模型有效提升了對(duì)殘差的表達(dá)能力;在預(yù)測結(jié)構(gòu)方面,本文提出的用戶側(cè)分層預(yù)測結(jié)構(gòu)達(dá)到預(yù)測準(zhǔn)確性與預(yù)測復(fù)雜性的協(xié)調(diào),提高了模型的泛化能力。
3)算例實(shí)驗(yàn)中,無論是聚合負(fù)荷還是單用戶負(fù)荷,考慮集群識(shí)別的海量用戶分層概率模型相對(duì)于其他方法在點(diǎn)預(yù)測和概率預(yù)測方面均有更高的預(yù)測精度。同時(shí),對(duì)于單用戶負(fù)荷預(yù)測,本文模型的將相同集群的用戶數(shù)據(jù)進(jìn)行統(tǒng)一訓(xùn)練的分層策略實(shí)現(xiàn)了泛化能力與計(jì)算效率的平衡。
4)與負(fù)荷預(yù)測領(lǐng)域常用的隨機(jī)森林、梯度提升決策樹和神經(jīng)網(wǎng)絡(luò)等模型相比,基于集群辨識(shí)的用戶負(fù)荷分層概率預(yù)測模型參數(shù)更易確定,建模過程簡單,通過分層策略兼顧了預(yù)測準(zhǔn)確度與復(fù)雜性,具有更高的實(shí)用價(jià)值。
海量用戶的用電數(shù)據(jù)分析與預(yù)測仍處于起步階段,未來仍可從以下2個(gè)方面進(jìn)行深入研究。
1)未來可應(yīng)用分布式并行計(jì)算、大數(shù)據(jù)存儲(chǔ)與運(yùn)算等技術(shù),不斷加快運(yùn)算效率,建立用戶側(cè)的電力大數(shù)據(jù)存儲(chǔ)與運(yùn)算平臺(tái)。
2)在有一定量級(jí)的數(shù)據(jù)量支撐的情況下,可以引入深度學(xué)習(xí)、遷移學(xué)習(xí)等人工智能技術(shù)。