彭顯剛1,賴家文1,陳 奕2
?
基于聚類分析的客戶用電模式智能識別方法
彭顯剛,賴家文,陳 奕
(1.廣東工業(yè)大學(xué)自動化學(xué)院,廣東 廣州 510006;2.廣東電網(wǎng)公司湛江供電局,廣東 湛江 524005)
結(jié)合k-means、k-medoids、SOM以及FCM等聚類算法,構(gòu)建了電力大客戶典型用電模式的聚類分析模型,提出了一種評估聚類效果的新方法。首先通過分析電力客戶用電指標(biāo)數(shù)據(jù)及其特點(diǎn),提出采用高斯濾波器對含“噪聲”曲線數(shù)據(jù)進(jìn)行平滑處理來獲取客戶用電數(shù)據(jù)。然后提出了聚類平均半徑、平均直徑和平均最小間距等3個評價指標(biāo),并以此為基礎(chǔ)設(shè)計出一種評估聚類得分的新方法。最后使用聚類分析模型對某地區(qū)電力大客戶日用電量曲線進(jìn)行聚類分析,實(shí)現(xiàn)了地區(qū)典型用電模式的自動識別功能。實(shí)際算例分析結(jié)果表明,該評估方法物理概念清晰、簡便、實(shí)用。
用電模式分析;高斯核函數(shù)平滑;聚類效果評估;聚類分析
挖掘與統(tǒng)計分析轄區(qū)內(nèi)電力大客戶的用電模式有利于供電部門掌控用電群體構(gòu)成及其用電特性,實(shí)現(xiàn)客戶的精細(xì)化管理,提供優(yōu)質(zhì)的用電服務(wù)。對電力市場營銷、客戶精益化管理和智能用電服務(wù)等方面具有重要意義。
在負(fù)荷模式識別領(lǐng)域中,研究者們普遍贊同4條標(biāo)準(zhǔn):1)每個用電模式代表一類相似的用電群體;2)各模式間應(yīng)能夠相互區(qū)別;3)模式判別的方法應(yīng)當(dāng)是易執(zhí)行的;4)聚類數(shù)應(yīng)適中,用電模式的數(shù)量不能太多。目前聚類分析在電力系統(tǒng)中的應(yīng)用研究已涌現(xiàn)出大量研究成果。然而,當(dāng)前所提出的各種方法難以滿足實(shí)際應(yīng)用中的要求,主要原因如下:首先,若以用電指標(biāo)區(qū)分客戶群體,轄區(qū)內(nèi)客戶群的種類未知;第二,用電數(shù)據(jù)一般為高維數(shù)據(jù),低維聚類分析中聚類效果評估方法在高維數(shù)據(jù)中顯得不再適用,缺乏確定群體數(shù)的有效方法;第三,客戶用電指標(biāo)數(shù)據(jù)中往往存在“噪聲”,而它對聚類質(zhì)量的影響是較嚴(yán)重的,應(yīng)采取有效措施進(jìn)行處理。
本文針對上述研究的不足,提出了一種評價高維曲線聚類的有效方法;以高斯濾波技術(shù)消除原始數(shù)據(jù)中的噪聲,結(jié)合k-means、k-medoids、SOM以及FCM等聚類算法構(gòu)建聚類分析模型;對大量電力大客戶的用電數(shù)據(jù)進(jìn)行分析統(tǒng)計,獲取隱藏在數(shù)據(jù)集中典型用電模式及其合適的聚類數(shù)目。
1.1用電指標(biāo)數(shù)據(jù)的特點(diǎn)
用電指標(biāo)數(shù)據(jù)來源于已建成的一系列和電能信息采集相關(guān)的系統(tǒng),其特點(diǎn)有以下幾方面:1)電力客戶的用電指標(biāo)數(shù)據(jù)類型較多,大量指標(biāo)數(shù)據(jù)組成′的高維數(shù)據(jù)矩陣,其結(jié)構(gòu)為對象-用電指標(biāo),為對象的個數(shù),為用電指標(biāo)的維度;2)客戶用電指標(biāo)數(shù)據(jù)有兩個重要特征:相似性與波動性,相似性與文獻(xiàn)[14]提出電力負(fù)荷曲線相似性定義是一致的,波動性是指客戶投入或切除大功耗用電設(shè)備時,用電曲線產(chǎn)生形狀變化;3)客戶用電數(shù)據(jù)是高維的且時序相關(guān),是反映客戶用電行為或用電習(xí)慣的指標(biāo)數(shù)據(jù);4)客戶用電數(shù)據(jù)中存在“噪聲”,導(dǎo)致用電曲線不平滑,影響聚類效果;5)客戶用電數(shù)據(jù)量較大,而在數(shù)據(jù)統(tǒng)計層面上典型用電模式的數(shù)量相對而言較少。
1.2 數(shù)據(jù)預(yù)處理
在數(shù)據(jù)分析前應(yīng)采取以下數(shù)據(jù)預(yù)處理步驟:
a)求取客戶多日同時刻數(shù)據(jù)均值組成用電特性曲線作為原始數(shù)據(jù),并采用高斯濾波對客戶用電特性曲線進(jìn)行曲線平滑處理。高斯濾波以高斯核函數(shù)曲線形狀選擇權(quán)值對曲線進(jìn)行線性平滑濾波,該方法對去除服從正態(tài)分布的噪聲頗具效果。設(shè)原始數(shù)據(jù)為個客戶的日平均用電指標(biāo)數(shù)據(jù)矩陣,平滑處理后,其中;方差與窗寬為可調(diào)參數(shù)。
高斯核函數(shù)表達(dá)式為
方差決定函數(shù)曲線的扁平程度。越小,曲線越陡峭;越大,曲線越扁平。窗寬決定參與平滑處理的原始數(shù)據(jù)個數(shù)。一般地,取值小于1;取單數(shù),小于等于5。
以下為高斯平滑的過程:
定義窗寬?,則
接著求取系數(shù)矩陣,其表達(dá)式為
對原始數(shù)據(jù)進(jìn)行補(bǔ)位操作組成新的數(shù)據(jù)矩陣¢,即將的1至?/2?列和-?/2?+1至列分別補(bǔ)到的最后和最前得到¢,¢中行向量d¢如式(4)所示,再¢中每一行向量d¢與進(jìn)行卷積,得=[¢,¢,,¢,,¢]?(+2/2+-1),截取中間的′矩陣作為,中第行第列數(shù)據(jù)d表達(dá)式為
(5)
(6)
其中:?[1,+2′?/2?+-1];?[1,],?/2?為向下取整。
高斯平滑處理效果如圖1所示。
圖1曲線的高斯平滑處理
b)數(shù)據(jù)標(biāo)準(zhǔn)化。用公式(7)對進(jìn)行標(biāo)準(zhǔn)化。
2.1聚類算法的選擇
聚類算法多種多樣,并非所有都適用于分析用電指標(biāo)數(shù)據(jù)。按算法設(shè)計思路可分為:劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和基于模型方法。基于密度方法在抵抗異常數(shù)據(jù)方面的能力較強(qiáng),并且能夠處理任意形狀和大小的類簇;但是,當(dāng)算法相關(guān)參數(shù)設(shè)置不當(dāng)或類簇密度變化明顯時,聚類會遇到問題;而且,難以定義與計算高維數(shù)據(jù)的密度?;诰W(wǎng)格方法的網(wǎng)格單元個數(shù)隨著數(shù)據(jù)維度增加而爆炸性增長,且網(wǎng)格單元包含單個對象的情況很容易發(fā)生,導(dǎo)致較差的分析效果。因此,本文不予考慮這兩種方法,選擇劃分方法中k-means、k-medoids和FCM以及基于模型方法中SOM作對比分析。另外,選用歐氏距離(Euclid Distance)作為對象間距的度量:
2.2 聚類效果評估
2.2.1基本評價指標(biāo)定義
在此先介紹本文提出的三個基本評價指標(biāo):
定義1聚類平均半徑是指當(dāng)前聚類結(jié)果中各個類簇內(nèi)對象與類簇中心的最大距離之和的平均值。聚類平均半徑定義為
定義2聚類平均直徑是指當(dāng)前聚類結(jié)果中各個類簇內(nèi)對象之間的最大距離之和的平均值。聚類平均直徑定義為
(10)
定義3聚類平均最小間距是指當(dāng)前聚類結(jié)果中各個類簇內(nèi)所有對象與其余對象之間最小距離之和的平均值;特別地,當(dāng)聚類數(shù)為1時,聚類平均最小間距為0。聚類平均最小間定義為
式(9)~式(11)中:為聚類數(shù);C為第個類簇;?[1,];r為第個類簇的聚類半徑;d為第個類簇的聚類直徑;b為第個類簇的聚類最小間距;`x為C類的類簇中心。
2.2.2 評估方法
聚類分析主要為了達(dá)到兩個指標(biāo):a)類簇內(nèi)盡可能緊湊,b)類簇間盡可能區(qū)分明顯。實(shí)現(xiàn)評估聚類效果的方法也將從這兩方面切入,以聚類平均半徑或聚類平均直徑評價類簇內(nèi)的緊湊性,以聚類平均最小間距評價類簇間差異。然而單獨(dú)以一個評價指標(biāo)難以從整體上評價聚類效果,必須有機(jī)地將兩個評價指標(biāo)結(jié)合對當(dāng)前聚類結(jié)果作出綜合評估,以確定當(dāng)前聚類數(shù)是否合適。本文提出以式(12)和以式(13)分別求取聚類效果評價得分1和得分2。
(13)
式中:為聚類個數(shù);為數(shù)據(jù)集中對象的個數(shù)。
2.2.3 有效性驗證
以IRIS數(shù)據(jù)集為例。該數(shù)據(jù)集是在數(shù)據(jù)挖掘、數(shù)據(jù)分類中常用的測試集、訓(xùn)練集,以鳶尾花的特征作為數(shù)據(jù)來源,每個數(shù)據(jù)對象包含4個屬性,總共150個數(shù)據(jù)對象,分為3類,每類50個數(shù)據(jù)對象,分別為setosa、versicolor和virginica。
現(xiàn)以k-means聚類算法對IRIS數(shù)據(jù)集進(jìn)行聚類,并計算對應(yīng)聚類數(shù)下的聚類平均半徑、聚類平均直徑和聚類平均最小間距,繪制成圖2(a)~2(c)。
圖2 IRIS數(shù)據(jù)集的均值聚類效果評估
Fig. 2 IRIS dataset clustering evaluation of k-means
在大于8時聚類平均半徑(直徑)將不會出現(xiàn)較大的變化;在2≤≤5時,聚類平均最小間距曲線上的尖峰狀脈沖表明在其出現(xiàn)的聚類數(shù)范圍內(nèi)的聚類結(jié)果區(qū)分度是最明顯的。各個值下的得分1與得分2評估結(jié)果繪制成圖2(d)和圖2(e),得分越高聚類效果越好。
表1列舉出2≤≤8內(nèi)k-means與k-medoids聚類算法的得分情況,表明不同的聚類結(jié)果、不同的聚類算法將得到不同的評價結(jié)果。數(shù)據(jù)顯示將IRIS數(shù)據(jù)集分2~4類較合適,符合實(shí)際情況。
表1評估聚類效果得分
Table 1 Scores of IRIS dataset clustering evaluation
2.3 聚類分析模型
評估聚類效果的關(guān)鍵在于計算聚類結(jié)果內(nèi)部的緊湊性和外部的區(qū)分度,本文在聚類分析中加入評價聚類效果的環(huán)節(jié),分析模型圖3所示。聚類過程未知對象集中群體的個數(shù),是一個無監(jiān)督的學(xué)習(xí)過程。在以往的聚類分析中,聚類數(shù)需分析人員根據(jù)一定的方法給出,但缺乏有效的聚類評估方法,難以準(zhǔn)確地定位最優(yōu)的聚類數(shù)。圖3模型中,從聚類分析的輸入變?yōu)檩敵?;為防止模型過度計算,分析過程外加限制條件:<。通常,最優(yōu)聚類數(shù)遠(yuǎn)遠(yuǎn)小于對象總數(shù),只要選擇合適的就能將最優(yōu)的聚類數(shù)涵蓋在分析過程里面。
圖3 聚類分析模型流程圖
下面使用上述聚類模型,結(jié)合k-means、k-medoids、SOM以及FCM等聚類算法分析2011年某地區(qū)2 629戶電力大客戶的24點(diǎn)日電量曲線數(shù)據(jù),以式(12)評估值為評估結(jié)果,結(jié)果如表2。
限于篇幅,本文只列出k-means與FCM兩個聚類模型的聚類簇,如圖4、圖5所示。
在此附上基于k-means模型聚類數(shù)從2到15的評估結(jié)果,如表3。
表2中結(jié)果表明FCM聚類模型是最穩(wěn)定的;表3中結(jié)果表明k-means模型分為6~9類是合適的;同理,筆者由實(shí)例結(jié)果得出k-medoids模型分為10~12類,SOM模型分為12~15類,F(xiàn)CM模型將數(shù)據(jù)集分為4類是最合適的。
另外,采用常用的MIA(mean index adequacy)指標(biāo)進(jìn)行聚類效果評估對比,MIA指標(biāo)表征類簇內(nèi)對象與類簇中心的平均距離,越小的MIA值表明聚類效果越好。如圖6所示,k-means、k-medoids和SOM模型的MIA值出現(xiàn)了與前文所述的相似評估效果,但在MIA曲線整體上難以準(zhǔn)確定位最優(yōu)的聚類數(shù)區(qū)間;對FCM模型來說MIA指標(biāo)失效,得出與前文實(shí)驗相反的結(jié)果。
表2聚類分析結(jié)果
Table 2 Results of several clustering algorithms
表3聚類數(shù)為2~15的k-means聚類評估結(jié)果
Table 3 Scores of 2~15 clusters based on k-means
圖4 k-means聚類簇
Fig. 4 Clusters of k-means
圖5 FCM聚類簇
圖6 MIA指標(biāo)評估結(jié)果
綜合上述分析結(jié)果,該地區(qū)的典型用電模式應(yīng)分為4~15類。從圖4、圖5聚類簇的形狀和數(shù)量分布方面上看,每種聚類算法得出的聚類結(jié)果都具有一定的合理性。如,k-means聚類模型分為7類時,每個類簇有著明顯的區(qū)別,用電量峰值、峰值出現(xiàn)時段以及基礎(chǔ)負(fù)荷等都不相同;FCM模型則更具歸納性地將數(shù)據(jù)分為4類,主要類型為雙峰型、高負(fù)荷率型以及避峰型等。
本文以數(shù)據(jù)挖掘的一般過程為技術(shù)線路,以聚類分析為基礎(chǔ),結(jié)合基于聚類平均半徑、聚類平均直徑和聚類平均最小間距的聚類評價指標(biāo),構(gòu)建了基于k-means、k-medoids、SOM以及FCM等聚類算法的聚類分析模型,實(shí)現(xiàn)了對數(shù)據(jù)集的智能化聚類的分析功能,具有較高的實(shí)用價值。基于本文方法開發(fā)的實(shí)際系統(tǒng)已經(jīng)應(yīng)用于客戶用電智能化分析系統(tǒng)之中。
[1] 廖志偉, 孫雅明. 數(shù)據(jù)挖掘技術(shù)及其在電力系統(tǒng)中的應(yīng)用[J]. 電力系統(tǒng)自動化, 2001, 25(11): 62-66.
LIAO Zhi-wei, SUN Ya-ming. Data mining technology and its application on power system[J]. Automation of Electric Power Systems, 2001, 25(11): 62-66.
[2] 黃宇騰, 侯芳, 周勤, 等. 一種面向需求側(cè)管理的用戶負(fù)荷形態(tài)組合分析方法[J]. 電力系統(tǒng)保護(hù)與控制, 2013, 41(13): 20-25.
HUANG Yu-teng, HOU Fang, ZHOU Qin, et al. A new combinational electrical load analysis method for demand side management[J]. Power System Protection and Control, 2013, 41(13): 20-25.
[3] 周開樂, 楊善林. 基于改進(jìn)模糊C均值算法的電力負(fù)荷特性分類[J]. 電力系統(tǒng)保護(hù)與控制, 2012, 40(22): 58-63.
ZHOU Kai-le, YANG Shan-lin. An improved fuzzy C-means algorithm for power load characteristics classification[J]. Power System Protection and Control, 2012, 40(22): 58-63.
[4] CHICCO G. Overview and performance assessment of the clustering methods for electrical load pattern grouping[J]. Energy, 2012, 42(1): 68-80.
[5] 黎祚, 周步祥, 林楠. 基于模糊聚類與改進(jìn)BP算法的日負(fù)荷特性曲線分類與短期負(fù)荷預(yù)測[J]. 電力系統(tǒng)保護(hù)與控制, 2012, 40(3): 56-60.
LI Zuo, ZHOU Bu-xiang, LIN Nan. Classification of daily load characteristics curve and forecasting of short-term load based on fuzzy clustering and improved BP algorithm[J]. Power System Protection and Control, 2012, 40(3): 56-60.
[6] BAILEY J. Load profiling for retail choice: examining a complex and crucial component of settlement[J]. The Electricity Journal, 2000, 13(10): 69-74.
[7] TSEKOURAS G J, KOTOULAS P B, TSIREKIS C D, et al. A pattern recognition methodology for evaluation of load profiles and typical days of large electricity customers[J]. Electric Power Systems Research, 2008, 78(9): 1494-1510.
[8] 張粒子, 蔡學(xué)文, 魯宇, 等. 面向錯峰潛力分析的典型用戶篩選[J]. 電力系統(tǒng)保護(hù)與控制, 2013, 41(11): 146-150.
ZHANG Li-zi, CAI Xue-wen, LU Yu, et al. Peak shifting potential analysis-oriented typical consumers screening[J]. Power System Protection and Control, 2013, 41(11): 146-150.
[9] ANUAR N, ZAKARIA Z. Electricity load profile determination by using fuzzy C-Means and probability neural network[J]. Energy Procedia, 2012, 14: 1861-1869.
[10] ZHOU K, YANG S, SHEN C. A review of electric load classification in smart grid environment[J]. Renewable and Sustainable Energy Reviews, 2013, 24: 103-110.
[11] 王志勇, 曹一家. 電力客戶負(fù)荷模式分析[J]. 電力系統(tǒng)及其自動化學(xué)報, 2007, 19(3): 62-65.
WANG Zhi-yong, CAO Yi-jia. Electric power system load profiles analysis[J]. Proceedings of the CSU-EPSA, 2007, 19(3): 62-65.
[12] 鄭曉雨, 馬進(jìn), 賀仁睦, 等. 基于模型激勵響應(yīng)的負(fù)荷分類及泛化能力[J]. 電工技術(shù)學(xué)報, 2009, 24(2): 132-138.
ZHENG Xiao-yu, MA Jin, HE Ren-mu, et al. Classification and generalization of the load model based on model dynamic responses[J]. Transactions of China Electrotechnical Society, 2009, 24(2): 132-138.
[13] R?S?NEN T, VOUKANTSIS D, NISKA H, et al. Data-based method for creating electricity use load profiles using large amount of customer-specific hourly measured electricity use data[J]. Applied Energy, 2010, 87(11): 3538-3545.
[14] 牛東曉, 曹樹華, 盧建昌, 等. 電力負(fù)荷預(yù)測技術(shù)及其應(yīng)用[M]. 北京: 中國電力出版社, 2009.
[15] HAN J, KAMBER M. Data mining: concepts and techniques[M]. Morgan Kaufmann Publisher, 2006.
[16] 李愛國. 數(shù)據(jù)挖掘原理、算法及應(yīng)用[M]. 西安: 西安電子科技大學(xué)出版社, 2012.
[17] TUNG A K H, XU X, OOI B C. CURLER: finding and visualizing nonlinear correlation clusters[C]. Baltimore, Maryland: ACM, 2005.
Application of clustering analysis in typical power consumption profile analysis
PENG Xian-gang, LAI Jia-wen, CHEN Yi
(1. School of Automation, Guangdong University of Technology, Guangzhou 510006, China; 2. Zhanjiang Power Supply Bureau of Guangdong Power Grid Corporation, Zhanjiang 524005, China)
In order to gain the large power customers’ typical power consumption profiles in a power supply area, a new clustering evaluation method is presented and a clustering analysis framework based on k-means, k-medoids, self-organized maps (SOM) and Fuzzy C-Means (FCM) is built. It analyzes the characteristic of the electricity consumption data and uses the Gaussiansmoothing method to reduce the noise in the data. Clusters average radius, clusters average diameter and clusters average minimum distance are proposed and used to design the clustering evaluation method. This framework is utilized to analyze the daily electricity consumption curves of the whole customers in a certain area, which can automatically recognize the number of clusters. The result shows this methodology is clear in physical conception, simple and practical. This work is supported by Natural Science Foundation of Guangdong Province (No. 10151009001000045).
power consumption profile analysis; Gaussiansmoothing; clustering evaluation; clustering analysis
TM714
A
1674-3415(2014)19-0068-06
2013-12-31;
2014-03-02
彭顯剛(1964-),男,副教授,研究方向為電力系統(tǒng)優(yōu)化運(yùn)行;E-mail: epxg@gdut.edu.cn
賴家文(1987-),男,碩士研究生,研究方向為電力系統(tǒng)運(yùn)行分析與控制。
廣東省自然科學(xué)基金(10151009001000045);南方電網(wǎng)科技項目(K-GD2012-214)