馮志穎,唐文虎,吳青華,陸國俊,欒 樂
1. 華南理工大學(xué) 電力學(xué)院,廣東 廣州 510640;2. 廣州供電局有限公司,廣東 廣州 510000)
智能電網(wǎng)是能源與電力行業(yè)發(fā)展的必然趨勢[1]。隨著智能電網(wǎng)理論與實踐的推進,電網(wǎng)建設(shè)正朝著數(shù)字化、互動化和分布化的方向發(fā)展[2]。分布式可再生能源和電動汽車等多元化負荷的廣泛接入,加大了負荷預(yù)測和需求側(cè)管理等工作的難度,對電力用戶進行精細化分類成為了負荷預(yù)測、需求側(cè)管理、用電定價等方面的重要前提。對用戶進行合理精細的分類,掌握用戶的用電行為,對于各電力企業(yè)制定運維和營銷策略具有重要意義。用戶用電負荷具有較大的不確定性,日負荷曲線展現(xiàn)了用戶1 d中的用電行為,表現(xiàn)為負荷的橫向特性;而一段時期(如一周或一個月)中不同的日負荷曲線也會存在差異,表現(xiàn)為負荷的縱向特性。不同用戶的縱向差異程度具有明顯的區(qū)別。
國內(nèi)外已有不少學(xué)者對負荷聚類進行了研究。主要的研究方法大致可分為改進相似度度量方法[3-6]、改進數(shù)據(jù)預(yù)處理方法[7-9]和改進聚類算法[10-13]。在改進相似度度量方法方面,文獻[3]針對傳統(tǒng)歐氏距離度量負荷曲線形態(tài)的不足,提出以余弦相似度代替歐氏距離,能較好地度量負荷形態(tài)之間的差異;文獻[4]利用雙向夾逼的思想,結(jié)合層次聚類對同一用戶的不同負荷日進行聚類,該方法主要用于尋找相似日進而進行負荷預(yù)測,但不適用于聚類不同的電力用戶;文獻[5]提出以余弦相似度作為外層聚類根據(jù)、以歐氏距離作為內(nèi)層聚類根據(jù)的雙層聚類方法,其能夠識別不同的負荷形態(tài)和大、小負荷。在改進數(shù)據(jù)預(yù)處理方面,文獻[6]利用6個日負荷特性指標取代高維的時間序列進行聚類,提高了算法的運算速度和魯棒性,但在一定程度上會造成負荷數(shù)據(jù)失真;文獻[7]利用快速小波變換提取負荷時間序列的特性指標;文獻[8]通過多尺度分析解決電力負荷數(shù)據(jù)的數(shù)據(jù)量大、波動性和不確定性的問題;文獻[9]比較了多種降維方法的效果,指出主成分分析和Sammon映射的聚類效果最好。在改進聚類算法方面,用于負荷聚類的聚類算法主要有KernelK-means[10]、自組織映射神經(jīng)網(wǎng)絡(luò)[11]、密度空間聚類[12]、C-vine Copula混合模型[13]等算法。文獻[10]引入核函數(shù)改進傳統(tǒng)的K-means算法,將數(shù)據(jù)映射到高維空間,從而提高數(shù)據(jù)的可分性;文獻[11]利用自組織映射神經(jīng)網(wǎng)絡(luò),對原始數(shù)據(jù)進行低維映射,實現(xiàn)了聚類效果的可視化;文獻[12]結(jié)合引力搜索算法和密度空間聚類對居民用電數(shù)據(jù)進行聚類,并分析各類用戶的需求側(cè)響應(yīng)潛力;文獻[13]提出一種基于模型的C-vine Copula混合模型聚類算法,具有較好的聚類效果,但其計算過程復(fù)雜,計算時間較長。
已有的研究大多針對負荷的橫向特性,對于多日的日負荷曲線的預(yù)處理,只是簡單地取平均值,或者剔除異常值后選取其中的某天作為典型負荷日等,缺乏對負荷縱向特性的考慮,而且預(yù)處理過程會造成部分有用信息的丟失。在以下的場景中,對用戶進行聚類時應(yīng)該考慮負荷縱向波動性:用戶每天的負荷曲線變化很大,難以用一條典型負荷曲線表征其用電行為;異常用電行為分析;區(qū)間或概率性負荷預(yù)測等。針對這種不確定性,文獻[8]提出一種利用高斯混合模型來反映用戶的縱向隨機性的方法,取得了一定的效果,但算法計算過程復(fù)雜。
本文提出一種同時考慮負荷橫向與縱向特性的負荷聚類算法,并首次引入推土機距離(EMD)算法,以衡量在同一時刻不同用戶之間的負荷縱向距離;然后對所有時刻進行綜合,得到用戶之間的綜合距離;最后利用美國能源部提供的公開負荷數(shù)據(jù),與傳統(tǒng)的只考慮負荷橫向特性的層次聚類算法以及其他相似度度量方法進行比較,證明本文方法的合理性與準確性。
電力用戶的用電行為除了可用日負荷曲線描述之外,還應(yīng)包括負荷的縱向隨機性。負荷的縱向隨機性表現(xiàn)為用戶在一段時間的負荷波動性。某些用戶的用電負荷每天的差異較小,表現(xiàn)為較大的穩(wěn)定性;某些用戶的用電負荷受外界影響較大,表現(xiàn)為較大的波動性。此外,同一用戶在不同時刻表現(xiàn)出來的波動性也有所不同。
當用戶多日的日負荷曲線形成一個非凸集時,取平均值后的曲線將不包含于此集中,即該平均后的曲線并不能代表用戶的用電行為,這種取平均值的處理不僅會導(dǎo)致數(shù)據(jù)的丟失,還會導(dǎo)致錯誤的分類[9]。不同的負荷聚類方法關(guān)注的角度不同,適用于不同的領(lǐng)域。當用戶每天的負荷曲線差異較大,或者應(yīng)用于異常用電行為分析、區(qū)間或概率性負荷預(yù)測等場景時,對用戶進行聚類時應(yīng)該考慮負荷的縱向波動性。
相似度度量(距離度量)是衡量不同對象之間相互關(guān)系的方法[15]。定義相似度度量函數(shù)應(yīng)該滿足以下4個條件:非負性、自身距離為0、對稱性以及三角不等性,分別如式(1)—(4)所示。
d(x,y)≥0
(1)
d(x,x)=0
(2)
d(x,y)=d(y,x)
(3)
d(x,y)+d(y,z)≥d(x,z)
(4)
其中,d(x,y)為對象x和y之間的距離。
除了下文重點介紹的EMD之外,衡量2個概率分布之間差異的距離函數(shù)還有 Bhattacharyya 距離(巴氏距離)[15]、KL距離(相對熵)[16]和卡方系數(shù)[17],分別用DB、DKL和Dchi-sqr表示,其離散形式的具體計算公式分別如式(5)—(7)所示。
(5)
(6)
(7)
其中,P和Q為2個概率測度。
本文將在2.4節(jié)中分別利用包括EMD在內(nèi)的 4種相似度度量方法對用戶負荷進行聚類,比較各自的聚類效果。
Peleg等在文獻[18]中最早提出EMD,Rubner等在文獻[19]中提出將EMD 應(yīng)用于圖像識別中,自此EMD 被應(yīng)用于衡量2個概率分布之間的差異。文獻[20]證明了EMD滿足相似度度量函數(shù)的4個條件。 Earth Mover’s Distance被譯為推土機距離或者地球移動距離,顧名思義,其思想來源于一個生活問題:假設(shè)有若干數(shù)量的土堆,每個土堆的大小不相同且分布的位置不相同;同時存在若干數(shù)量的土坑,每個土坑的大小不相同且位置不相同;對于每個土堆-土坑對的運輸成本是給定的(以距離表示),任務(wù)是把土堆搬動并填到土坑里,通過規(guī)劃運輸方案,使運輸成本最低。
在直方圖中體現(xiàn)EMD的示意圖如附錄中圖A2所示,2個直方圖分別表示土堆和土坑。假定2個直方圖中分別存在m和n個直方,則2個直方圖可以被分別描述為P={(p1,wp1),(p2,wp2),…,(pm,wpm)}和Q={(q1,wq1),(q2,wq2),…,(qn,wqn)},其中pi和qj分別表示土堆和土坑直方的位置,wpi和wq j表示相對應(yīng)直方的高度(土堆和土坑的大小)。2個直方圖之間的EMD可以轉(zhuǎn)化為如式(8)所示的線性規(guī)劃問題[17]。
(8)
其中,fij為第i個直方到第j個直方的運輸數(shù)量。
(9)
對電力用戶的橫向和縱向特性進行聚類的思路如下:采集用戶負荷數(shù)據(jù)集,該數(shù)據(jù)集包含了一段時間(如一個月)的日負荷曲線數(shù)據(jù);歸一化原數(shù)據(jù);統(tǒng)計每個用戶每一時刻的負荷值分布特性,形成該用戶關(guān)于該時刻的分布直方圖;利用EMD衡量2個用戶在同一時刻之間的負荷差異;對所有時刻的距離值取均方根,得到2個用戶的距離值,依此類推得到其他所有2個用戶之間的距離值;利用所得到的距離信息,對所有用戶進行層次聚類;根據(jù)聚類有效性指標確定聚類數(shù),得到最終聚類結(jié)果。
1.4.1 數(shù)據(jù)歸一化
(10)
(11)
(12)
1.4.2 異常尖峰數(shù)據(jù)的識別和修正
由式(12)可知,負荷序列的最大負荷值出現(xiàn)異常,即出現(xiàn)異常尖峰,會對歸一化后的數(shù)據(jù)造成影響,惡化分布特性。因此在進行數(shù)據(jù)歸一化之前,須先進行異常尖峰數(shù)據(jù)的識別和修正,如式(13)—(15)所示。若Δlk>μ+3σ,則認為該天最大負荷值異常,對該天最大負荷值作如式(16)、(17)所示的修正,否則不作處理。
(13)
(14)
(15)
Δlk′=μ+3σ
(16)
(17)
問:那么您剛剛提到“理論商店”,我想很多研究者在研究的過程中都會不可避免地和理論產(chǎn)生交集,尤其是年輕研究者可能會苦于還沒有找到一個合適的解釋理論,或者在了解理論的基礎(chǔ)上苦于找尋不到自己明確的研究問題,那么您是如何定義研究中生成的理論呢?以及一個理論在研究中的作用呢?
1.4.3 負荷數(shù)據(jù)的縱向統(tǒng)計
對負荷數(shù)據(jù)進行歸一化后,每個用戶每天的負荷值將歸一化到區(qū)間[0,1]中,再將區(qū)間[0,1]精細劃分為20個區(qū)間,每個小區(qū)間長度為0.05。對負荷數(shù)據(jù)的縱向分布特性進行統(tǒng)計,將若干天同一時刻的負荷值分進上述20個區(qū)間中,得到某一用戶關(guān)于該時刻的分布直方圖。用戶i在時刻k的負荷分布情況如式(18)所示。
(18)
其中,pj為第j個直方(負荷區(qū)間)的中心位置;wj為第j個直方的高度,即位于該負荷區(qū)間的天數(shù)。
圖1為2個用戶在時刻08∶00 30 d的負荷分布情況,可見與用戶2相比,用戶1在該時刻的用電行為隨機性更大。從定量角度出發(fā),2個用戶在該時刻的負荷分布情況可以表示為:P18={(0.025,0),(0.075,0),…,(0.425,1),(0.475,8),…,(0.575,5),(0.625,12),(0.675,1),…,(0.925,0),(0.975,0)};P28={(0.025,0),(0.075,0),…,(0.575,1),(0.625,11),(0.675,16),(0.725,1),(0.775,1),…,(0.925,0),(0.975,0)}。
圖1 2個用戶在同一時刻的負荷分布直方圖Fig.1 Distribution histograms of two users’ power consumption at the same time
1.4.4 用戶用電行為差異性的衡量
利用1.3節(jié)介紹的EMD對2個用戶在同一時刻的負荷分布直方圖進行計算。由式(8)可以看出,利用EMD計算2個直方圖之間的差異時,并不要求二者的直方面積一致,因此對數(shù)據(jù)的完整性要求較低,即使1 d中某一時刻的數(shù)據(jù)缺失,甚至一整天的數(shù)據(jù)缺失,也不影響計算結(jié)果。對2個用戶所有時刻的距離值求取均方根,該結(jié)果即為2個用戶用電行為差異的度量值。具體的計算公式如式(19)、(20)所示。
(19)
(20)
1.4.5 聚類效果評價指標
由于目前對雙向負荷聚類的研究很少,尚缺乏綜合衡量此聚類效果的指標,故本文定義如下2個聚類評價指標:負荷橫向波動系數(shù)TLFC(Transverse Load Fluctuation Coefficient)和負荷縱向波動系數(shù)LLFC(Longitudinal Load Fluctuation Coefficient),分別用于衡量用戶橫向與縱向特性的一致性,以二者的乘積作為聚類效果的綜合指標。分別用fTLFC和fLLFC表示某類用戶的TLFC值和LLFC值,其計算公式分別如式(21)、(22)所示。
(21)
(22)
本文選取一組由美國能源部公開能源信息網(wǎng)站提供的居民用電負荷數(shù)據(jù)為研究對象,數(shù)據(jù)集包含936個居民用戶1 a的用電負荷數(shù)據(jù),每60 min采集一次,1 d共計24個測量點。
本文所選用的基于層次的聚類方法本質(zhì)上是無需預(yù)先確定聚類數(shù),可以在得到樹狀圖之后根據(jù)不同的需要確定聚類數(shù)目,并據(jù)此對樹狀圖進行分割,但這種處理方法對于聚類數(shù)的確定過于主觀。為了使聚類數(shù)的確定更具客觀性,本文利用3個有效性指標確定聚類數(shù),并選取其中2個聚類指標:HS(Homogeneity-Separation)指標和CH(Calinski-Harabasz)指標綜合確定最佳聚類數(shù)。2個指標值的具體計算公式分別如式(23)、(24)所示。
(23)
(24)
其中,a為聚類的數(shù)目;tr()表示矩陣的跡;SB(a)為聚類數(shù)a下的類間離差矩陣;SW(a)為聚類數(shù)a下的類內(nèi)離差矩陣;R(s,t)為樣本s和樣本t之間的距離;ni和nj分別為第i個聚類Ci和第j個聚類Cj的樣本數(shù)。
HS和CH指標均以曲線中的最大值點對應(yīng)的聚類數(shù)作為最佳聚類數(shù)。由附錄中圖A3可知,利用HS和CH指標得到的最佳聚類數(shù)均為4,故選取4作為本算例的聚類數(shù)。
選取聚類數(shù)為4進行層次聚類后,將每一類中所有用戶的負荷箱形圖進行綜合,垂直方向上矩形盒越長,表明該類用戶在這一時刻的縱向波動性較大。用戶的負荷橫向特性可由矩形箱的中位數(shù)點所連曲線表示。通過聚類得到的每一類用戶的綜合箱形圖如圖2所示,圖中負荷為標幺值。
圖2 基于EMD聚類算法的用電行為箱形圖Fig.2 Box diagram of power consumption behavior based on EMD clustering algorithm
為了進一步地從定量的角度證明本文所提方法的合理性,采用傳統(tǒng)方法,即利用相同的數(shù)據(jù)集,取相同的聚類數(shù),將一個用戶多日的負荷數(shù)據(jù)取平均值作為該用戶典型日負荷曲線,然后利用層次聚類算法聚類典型日負荷曲線。得到2種方法下的各類包含的用戶數(shù)如附錄中表A1所示。經(jīng)過對比分析可知,類別3和類別4的用戶標號一致,即聚類結(jié)果相同,類別1和類別2的聚類效果存在差異。
為了比較2種方法的聚類效果,附錄中表A2比較了本文方法和傳統(tǒng)方法以及未進行聚類時各個類別的綜合聚類指標(fTLFCfLLFC),表中數(shù)值越小,則表示同一類別中各個用戶在一個月內(nèi)的用電行為越相近。由此可知,相較于未進行聚類的指標值,2種方法中各個類別的綜合聚類指標值都有較大程度的降低。然后比較本文方法和傳統(tǒng)方法,在類別1和類別2中,本文方法的綜合聚類指標比傳統(tǒng)方法分別低4.1%和1.4%。結(jié)果表明本文方法相較于傳統(tǒng)方法具有更高的合理性。
卡方系數(shù)也能粗略地對用戶進行區(qū)分,但計算卡方系數(shù)所形成的4個類別的綜合聚類指標分別為0、0.004 1、3.551×10-4和1.355×10-5,與附錄中表A2結(jié)果相比,聚類效果明顯不如EMD。進一步地觀察利用卡方系數(shù)所形成的距離矩陣可知,矩陣內(nèi)存在大量完全相同的距離值,造成該現(xiàn)象的原因在于:當2個概率分布重合部分較小,甚至完全分離時,無論分離得多遠,計算得到的卡方系數(shù)都將保持不變。因此當樣本之間差異較大時,卡方系數(shù)并不十分可靠。由此可見,采用EMD度量2個概率分布的差異具有較廣的使用場合和更高的準確性。
本文同時考慮了電力用戶的負荷橫向特性和負荷縱向特性,首次提出了基于EMD算法的負荷聚類方法。EMD算法相較于其他度量方法能夠更好地度量2個分布之間的差異。比較了考慮和不考慮負荷縱向特性的聚類效果,結(jié)果表明本文方法能夠同時對負荷的橫向和縱向差異進行度量。在用戶的負荷橫向特性較為相似的情況下,通過對負荷縱向特性的有效反映,使得本文方法下的綜合聚類指標比傳統(tǒng)方法更低。由于EMD算法涉及較多的線性規(guī)劃運算,運行效率不高,下一步的研究方向在于如何提高算法的運行速度,以及如何結(jié)合氣象等因素進一步提高聚類的合理性。
附錄見本刊網(wǎng)絡(luò)版(http:∥www.epae.cn)。