谷 濤, 劉大明
(上海電力學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090)
隨著智能電網(wǎng)建設(shè)的不斷推進(jìn),電網(wǎng)中接入了大量的智能電表,形成了數(shù)量龐大的用電數(shù)據(jù)。挖掘這些用電數(shù)據(jù)中的隱含信息,對電網(wǎng)規(guī)劃、分時電價制定、電力負(fù)荷預(yù)測等工作的開展具有重要現(xiàn)實(shí)意義。
智能電網(wǎng)中采集到的用戶用電數(shù)據(jù),不僅數(shù)量巨大,而且種類繁多,但數(shù)據(jù)的價值密度低,不便于對其進(jìn)行直觀的研究,所以對負(fù)荷側(cè)用戶進(jìn)行分類非常必要[1]。傳統(tǒng)的分類方式只是采用經(jīng)濟(jì)活動性質(zhì)來進(jìn)行粗略的劃分,如居民用戶、商業(yè)用戶、工業(yè)用戶。這樣的劃分并不能精確地描述用戶的用電行為。實(shí)際中,即使是經(jīng)濟(jì)活動性質(zhì)大致相同的用戶,其用電行為也千差萬別。因此,采用更加科學(xué)的方式對經(jīng)濟(jì)活動大致相同的用戶進(jìn)行精確分類,對了解多元化的用戶行為具有重要意義[2]。
本文采用模糊聚類算法對用戶用電數(shù)據(jù)進(jìn)行挖掘,對負(fù)荷側(cè)用戶的用電數(shù)據(jù)進(jìn)行特征劃分,并對用戶的用電行為進(jìn)行分析,以期為負(fù)荷側(cè)需求響應(yīng)以及負(fù)荷預(yù)測等工作提供參考。
模糊聚類算法是通過對目標(biāo)函數(shù)進(jìn)行優(yōu)化的一種聚類方法。其輸出形式是隸屬度。隸屬度代表某一個數(shù)據(jù)點(diǎn)與聚類中心的隸屬程度,可以用一個數(shù)值來表示。該算法是一種不需要進(jìn)行監(jiān)督的模糊聚類方法。
設(shè)置輸入數(shù)據(jù)集X={xj},j為輸入數(shù)據(jù)集中的樣本,xj={xji}為樣本j的特征向量[3],i為樣本特征。模糊聚類算法將全部的樣本通過一定的概率分為C個類別。V為聚類中心,V={vi},i=1,2,3,…,c。這些概率通過隸屬函數(shù)來獲得。U為隸屬度矩陣,U={uij},uij為在i類別中j樣本的隸屬度,約束條件為uij∈[0,1]。模糊聚類算法的目標(biāo)函數(shù)為
(1)
(2)
式中:n——用戶數(shù)目;
m——模糊加權(quán)參數(shù);
dij——聚類中心vi和用戶j之間的歐幾里得距離。
然后,通過反復(fù)迭代,可得到最優(yōu)的聚類中心矩陣和隸屬度矩陣。
迭代的算法步驟如下[4]。
步驟1 給定聚類數(shù)C和模糊加權(quán)參數(shù)m;
步驟2 給定初始聚類中心V;
步驟3 通過集合V求出Uij
(3)
步驟4 求出隸屬度函數(shù)后,再次求取新的聚類中心
(4)
步驟5 重復(fù)步驟3和步驟4。當(dāng)連續(xù)兩次計算結(jié)果vi或者Uij的值大致穩(wěn)定時,則算法結(jié)束。
模糊聚類算法的聚類數(shù)C是需要設(shè)定的。本文預(yù)設(shè)C分別為3,4,5,通過模擬仿真來得到3種不同的聚類結(jié)果,再結(jié)合平均指數(shù)充裕度(Mean Index Adequacy,MIA)和聚類分?jǐn)?shù)指示器(Clustering Dispersion Indicator,CDI)這兩個聚類有效性指標(biāo)來判斷最佳聚類數(shù)的設(shè)定[5]。
對負(fù)荷側(cè)的用戶用電數(shù)據(jù)進(jìn)行提取主要有兩方面的目的。一是降低數(shù)據(jù)維度。智能電表采集的原始數(shù)據(jù)是每天各個時段的耗電量,當(dāng)采樣的周期是1 h時,那么單個用戶一天就會產(chǎn)生24維度的用電數(shù)據(jù),高維數(shù)據(jù)并不容易劃分類別,而且效果也不太理想。所以從24維度用電數(shù)據(jù)中提取不超過5個特征量進(jìn)行分類。二是利用特征量反映用戶用電行為特點(diǎn),比單一的用電數(shù)據(jù)更加優(yōu)秀。用戶的分類是基于用戶用電特征提取的,將同一電網(wǎng)中所有用戶按照用電特征的相似性分類。本文從一天24維度的用電負(fù)荷中,提取出能更好更簡潔地代表用戶用電特點(diǎn)的5個特征量作為算法的輸入集。所選的5個特征量如下[6]。
(1)
(2)
(3)
(4)
日用電總量=一天全部的耗電度數(shù)
(5)
由上述5個公式可以算出第j個用戶的5個特征值構(gòu)成的特征向量,即xj={xj1,xj2,xj3,xj4,xj5}。
本試驗(yàn)數(shù)據(jù)集為一個小區(qū)中25個用戶一天的用電負(fù)荷數(shù)據(jù),采樣間隔為1 h,每個用戶共24個數(shù)據(jù),采樣的時間為某年2月17日。采用每個用戶17號工作日這一天作為分類的訓(xùn)練集,對用戶用電行為進(jìn)行分類研究。
已知輸入數(shù)據(jù)集X={xj},用戶數(shù)是25個,所以j=1,2,3,…,25,那么xj={xj1,xj2,xj3,xj4,xj5}為每個用戶5個特征值構(gòu)成的特征向量。將這25個用戶劃分為C類,V表示C個聚類中心,V={vi},i=1,2,3,…,c。
設(shè)聚類數(shù)C分別為3,4,5,按照模糊聚類算法流程完成對25個用戶的3次分類,并利用聚類有效指標(biāo)來評價C取何值時的分類效果最佳。圖1為聚類數(shù)C分別為3,4,5的聚類有效性指標(biāo)。
圖1 聚類數(shù)分別為3,4,5時的聚類有效性指標(biāo)
聚類有效性指標(biāo)MIA與CDI的值越小,聚類結(jié)果越優(yōu)秀。從圖1可以看出,當(dāng)C=5時聚類效果最佳。因此,對于本試驗(yàn)的25個用戶,分5類為最佳分類數(shù)。
上文已經(jīng)證明,當(dāng)聚類數(shù)C=5時,聚類效果最好。圖2為C=5時各類用戶一天的負(fù)荷曲線。由圖2可以看出,同一類用戶的用電數(shù)據(jù)在一天內(nèi)的走勢大致相同。
通過均值法求出C=5時各個類別一天的負(fù)荷曲線模型,如圖3所示。
圖2 C=5時各類用戶一天的負(fù)荷曲線
圖3 5類用戶擬合日負(fù)荷曲線
從圖3可以看出,每類用戶都有明顯的特征,第3類用戶的用電量明顯低于其他4類用戶。從用電量、負(fù)荷曲線波動性兩方面對各類別用戶行為特點(diǎn)進(jìn)行分析。
(1) 第1類用戶在20:00有明顯的用電高峰,且一天中僅有此用電峰值,最高用電量超過2 kWh。
(2) 第2類用戶從7:00至12:00為第1個用電高峰時段,平均用電量超過0.5 kWh,之后在21:00出現(xiàn)第2個用電高峰,峰值接近1 kWh。其余時段用電量很小,波動范圍僅限制在0.1~0.4 kWh,無明顯峰谷值。
(3) 第3類用戶用電量很小,全天用電量保持在0.1 kWh以下,波動性也很小,可能為空置房。
(4) 第4類用戶在8:00~14:00和18:00~23:00有兩個用電高峰時段,但平均用電量低于第1和第2類用戶。
(5) 第5類用戶與第4類用戶的晚間用電特征相似,但上午沒有用電高峰時段。
試驗(yàn)證明,模糊聚類算法結(jié)合聚類有效性指標(biāo)這一方法可以較好地解決負(fù)荷側(cè)不同用戶用電行為的分類問題,進(jìn)而挖掘出隱藏在各類用戶用電數(shù)據(jù)信息中的用戶行為特征,可以為電網(wǎng)建設(shè)、需求響應(yīng)、負(fù)荷預(yù)測等工作提供可靠的數(shù)據(jù)支撐。