張 凱,馮 劍,劉建華,白新雷,宮飛翔,劉祖東,朱 棟,高賜威,吳英俊
(1. 國網(wǎng)河北省電力有限公司,石家莊 050000;2. 中國電力科學(xué)研究院有限公司,北京100192;3. 河海大學(xué) 能源與電氣學(xué)院,南京 211100;4. 東南大學(xué) 電氣工程學(xué)院,南京210096)
隨著我國經(jīng)濟(jì)快速增長,用電負(fù)荷需求不斷攀升,電力供應(yīng)緊張成為常態(tài)。信息采集技術(shù)與數(shù)據(jù)處理技術(shù)的發(fā)展,使得基于負(fù)荷數(shù)據(jù)的電力用戶用電行為分析成為可能。采用合理的方法對電力用戶用電行為進(jìn)行歸類,以掌握電力用戶用電行為的特點,可以為負(fù)荷預(yù)測、需求響應(yīng)策略制定以及節(jié)能減排工作優(yōu)化等提供理論支撐[1—3]。針對具有不同用電行為的電力用戶制定有針對性的用電方案,有利于電網(wǎng)削峰填谷[4]、有序用電安排等工作的開展,也可以提升電網(wǎng)的運(yùn)行可靠性,促進(jìn)電網(wǎng)的精細(xì)化管理[5]。
電力負(fù)荷數(shù)據(jù)樣本量大且指標(biāo)繁多。目前電力用戶用電行為分類研究多采用聚類方法[6],包括Kmeans[7]、基于密度的噪聲應(yīng)用空間聚類(densitybased spatial clustering of applications with noise,DBSCAN)[8],模糊聚類[9]以及層次聚類法等其它聚類方法。文獻(xiàn)[7]提出了一種基于凝聚層次聚類與Kmeans聚類相結(jié)合的負(fù)荷曲線聚類方法,文獻(xiàn)[8]在空間密度聚類方法的基礎(chǔ)上,引入了用電時刻偏移量對異常數(shù)據(jù)域進(jìn)行修正。文獻(xiàn)[9]提出了一種基于不同用電行為的屬性特征進(jìn)行聚類。其中,模糊C均值聚類算法(fuzzy C-means clustering,F(xiàn)CM)以其原理簡單、易于實現(xiàn)且效率高的優(yōu)勢被廣泛應(yīng)用于用電行為辨識中。還有不少學(xué)者對聚類算法進(jìn)行了改進(jìn),主要有自組織映射神經(jīng)網(wǎng)絡(luò)算法[10]、密度空間聚類算法[11]、基于方差比較的曲線聚類算法[12]和Cvine Copula混合模型算法[13]等。
FCM 本質(zhì)上是一種初始化數(shù)據(jù)與聚類結(jié)果之間的映射方法。由于其采用了模糊技術(shù),具有對類別不確定性的描述能力,更能客觀反應(yīng)客觀世界的優(yōu)點。但是,當(dāng)初始化完成后,相應(yīng)的聚類結(jié)果就已經(jīng)確定了,所以模糊C 均值聚類算法有對初始聚類中心敏感、易陷入局部最優(yōu)和受噪聲影響大等問題,可能會導(dǎo)致對數(shù)據(jù)的分類結(jié)果與數(shù)據(jù)實際包含的類別相差甚遠(yuǎn)。針對這些問題,首先,本文采用最短距離法聚類為模糊C 聚類提供初始聚類中心,解決了算法對初始聚類中心敏感的問題;其次,利用有效性指標(biāo)對不同類別數(shù)聚類結(jié)果進(jìn)行選優(yōu),避免算法過早陷入局部最優(yōu)解;然后,通過數(shù)據(jù)密度識別并剔除噪聲點,避免了噪聲對聚類結(jié)果的影響。通過對比其他方法以及對某紡織企業(yè)負(fù)荷聚類分析,驗證了改進(jìn)算法的正確性與有效性。
受信號干擾、軟件故障、設(shè)備性能等因素影響,負(fù)荷數(shù)據(jù)可能出現(xiàn)采集不全面或失真現(xiàn)象。本文根據(jù)短時間內(nèi)數(shù)據(jù)在橫向上具有相似性的特點,即樣本日與附近時段同類曲線具有相似形狀,因此采用3σ 原理對非正常數(shù)據(jù)進(jìn)行判斷。
假設(shè)選取電力用戶N個觀察日的負(fù)荷數(shù)據(jù),N個觀察日所有第i個觀察時刻點的負(fù)荷數(shù)據(jù)平均值為
式中:N為觀察日總數(shù);xn,i為第n個觀察日第i個觀察時刻點的負(fù)荷數(shù)據(jù)。
用戶所有觀察日第i個觀察時刻點負(fù)荷數(shù)據(jù)方差為
基于3σ 原理,非正常數(shù)據(jù)判斷準(zhǔn)則為
式中:ε為閾值,通常取1.0~1.5。
若式(3)滿足,則可判定xn,i為非正常數(shù)據(jù)。對于非正常數(shù)據(jù),可利用式(4)進(jìn)行修正。
式中:α、β、γ為權(quán)重系數(shù),滿足α+β+γ=1;為第n天第i個觀察時刻點修正后的數(shù)據(jù);xn+1,i和xn-1,i為xn,i附近2 個橫向負(fù)荷點;和為距離xn,i最近的2個相似日負(fù)荷點。
實際上,電力負(fù)荷數(shù)據(jù)在采集與傳輸時都存在噪音,因此需要通過平滑處理的方式來減少噪音。本文使用移動平均法對負(fù)荷數(shù)據(jù)進(jìn)行平滑處理。
利用式(5)將所有負(fù)荷點附近連續(xù)ζ個數(shù)據(jù)平均化,即可形成平滑后負(fù)荷序列,這一過程可以去除采集數(shù)據(jù)時隨機(jī)性較強(qiáng)的毛刺數(shù)據(jù)。
模糊C均值聚類是模糊聚類領(lǐng)域的一種典型算法,具有算法設(shè)計簡單與解決問題范圍廣的特點,同時還適用于大數(shù)據(jù)量和實時性要求高的場合。
模糊劃分并非把每一個樣本點劃分到某一類,而是以一定的隸屬度認(rèn)為其屬于某一類。模糊C聚類可描述為
式中:U為隸屬度矩陣;P為聚類中心;μi,k為隸屬函數(shù),表示樣本與子集的隸屬關(guān)系,且μi,k∈[0,1],隸屬度矩陣U=[ ]μi,k c×k;di,k為第i類中的樣本xk與第i類典型樣本pi之間的距離;J(U,P)為各類中樣本與典型樣本的誤差平方和;m為加權(quán)指數(shù)。
隸屬度μi,k計算公式為
(1)當(dāng)Ik=φ時,
(2)當(dāng)Ik≠φ時,?i∈Iˉk,μi,k=0 且。因此,聚類中心為
模糊C 均值算法的聚類準(zhǔn)則為取Jm(U,P)的極小值,極值的約束條件為。
模糊C均值聚類算法實質(zhì)上就是通過迭代調(diào)整U和P,使得目標(biāo)函數(shù)Jm最小。
雖然模糊C均值算法具有許多優(yōu)點,應(yīng)用廣泛,但是模糊C 均值算法本身也存在許多缺陷,主要包括算法初始聚類中心隨機(jī)選取,會影響聚類結(jié)果的穩(wěn)定性;聚類數(shù)C需要手動輸入,C的隨機(jī)性可能使得聚類結(jié)果為局部最優(yōu);以及實際應(yīng)用中離群點和噪聲難以避免,會干擾到聚類中心的計算并影響聚類結(jié)果的正確性。
針對以上3 個問題,本節(jié)提出采用最短距離法對數(shù)據(jù)進(jìn)行聚類分析,并將得到的聚類中心作為模糊C聚類的初始聚類中心;選用有效性函數(shù),對不同C值所得到的聚類結(jié)果進(jìn)行比較,選用較好的結(jié)果;以及用樣本密度對噪聲點和孤立點進(jìn)行識別,減少噪聲影響等改進(jìn)措施。
用G來表示類,假定G中有m個元素,用列向量xi(i=1,2,...,m)來表示;di,j表示元素xi與xj間距離;DK,L表示類GK與類GL之間的距離。di,j使用歐式距離為
本節(jié)采用最短距離法進(jìn)行系統(tǒng)聚類得到聚類中心,并把該聚類中心作為下一步模糊C 均值聚類的原始聚類中心。最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即
若某一步類GK與類GL聚成一個新類,記為GM,類GM與任意已有類GJ之間的距離為最短距離法聚類的步驟如下:
(1)將初始的每個樣品各自作為一類,并規(guī)定樣品之間的距離,通常采用歐氏距離。計算n個樣品的距離矩陣D(0),它是一個對稱矩陣。
(2)尋找D(0)中最小元素,設(shè)為DK,L,將GK和GL聚成一個新類,記為GM,即GM={GK,GL}。
(3)計算新類GM與任一類GJ之間距離,計算的遞推公式為
然后對距離矩陣D(0)進(jìn)行更新,即將GK和GL所在行和列合并成一個新行新列,得到GM。新行與新列上的距離由式(7)計算得到,其余行列上的值不變,這樣得到的新距離矩陣記為D(1)。
(4)對D(1)重復(fù)上述D(0)更新中的2 個步驟操作,得到距離矩陣D(2);如此下去,直至所有元素合并成一類為止。
通過分析類內(nèi)樣本的相似程度和不同類之間的獨立程度,有效性指標(biāo)可以判斷聚類結(jié)果的優(yōu)劣。
類內(nèi)樣本的相似程度可用平均類中心距離來衡量,也就是各個樣本與其所屬聚類中心距離的平均值
式中:n為樣本總數(shù);c為聚類類別數(shù);ni為第i類中樣本數(shù);di,k為第i類中的樣本xk與第i類聚類中心pi之間的距離。
類之間的獨立程度可用平均類間距離來衡量,具體計算公式為
式中:pij為聚類中心pi與pj之間的距離。
基于式(13)與式(14),本節(jié)定義有效性指標(biāo)為
根據(jù)定義可知,當(dāng)類之間越獨立、類內(nèi)越緊密時,有效性指標(biāo)E的值越大。
噪音點可以根據(jù)樣本密度來識別,即一定區(qū)域內(nèi)樣本的數(shù)量,計算式為
式中:Si為以xi為中心;μ為半徑的領(lǐng)域內(nèi)樣本數(shù)量,且μ為選定的正數(shù)。
設(shè)定Smin為正常樣本數(shù)據(jù)附近一定區(qū)域應(yīng)該有的最少樣本數(shù)量值,則當(dāng)Si <Smin時,可以認(rèn)為xi是噪聲點。
(1)參數(shù)初始化。設(shè)定Smin、μ和m,最大類別數(shù)通常取cmax= n(取整),迭代步數(shù)T=0;
(2)用式(16)與式(17)識別樣本數(shù)據(jù)中的噪聲點,并刪除噪聲樣本數(shù)據(jù);
(3)用式(9)~式(12)中最短距離法,得到c個聚類中心P(0);
(4)用式(7)更新分類矩陣UT;
(5)用式(8)更新聚類中心PT+1;
(6)判斷是否滿足迭代條件。對給定的閥值η,如果滿足‖UL+1-UL‖<η,則輸出UT與PT+1;否則T=T+1,轉(zhuǎn)向步驟(4);
(7)計算有效性函數(shù),保存函數(shù)值;
(8)令c=c-1,若c>1,則T=0,然后轉(zhuǎn)向步驟(3);否則,轉(zhuǎn)向步驟(9);
(9)取有效性函數(shù)最好的最大值的結(jié)果為最佳結(jié)果。
本文選取加州大學(xué)歐文分校(University of California,Irvine,UCI)機(jī)器學(xué)習(xí)庫中數(shù)據(jù)驗證方法的有效性。UCI 機(jī)器學(xué)習(xí)庫主要是收集的機(jī)器學(xué)習(xí)領(lǐng)域的一些相關(guān)數(shù)據(jù)集和數(shù)據(jù)生成器,已被廣泛用于學(xué)生、教育工作者和其他研究機(jī)器學(xué)習(xí)。選取UCI 機(jī)器學(xué)習(xí)庫中的Iris、Wine、Labor、Zoo 數(shù)據(jù)集進(jìn)行算法性能測試,并與模糊C 均值聚類算法、加權(quán)模糊C 均值聚類算法(weighting fuzzy C-means clustering,WFCM)[15]進(jìn)行了比較。每個數(shù)據(jù)集采取多次仿真結(jié)果取平均值的方法。測試算法的數(shù)據(jù)集基本特征如表1 所示,表2 給出了各算法分類正確率的對比。圖1為分別在4個數(shù)據(jù)集中分別加入10%、20%、30%和40%的噪音數(shù)據(jù)后3 個算法的錯誤率趨勢圖。
表1 實驗數(shù)據(jù)集特征Table 1 Characteristics of experimental data set個
表2 FCM、WFCM與本文算法準(zhǔn)確率比較Table 2 Comparison of FCM,WFCM and algorithm accuracy in this paper%
圖1 抗噪音性能對比Fig.1 Comparison of anti-noise performance
從表2可以看出,本文算法的準(zhǔn)確率始終比傳統(tǒng)FCM和WFCM高,因此具有較為良好的準(zhǔn)確率。從圖1可以看出,隨著噪聲比例的增加,3個算法的錯誤率都隨之升高,但本文算法增幅明顯較小,甚至在Iris、Wine數(shù)據(jù)庫中有趨于平穩(wěn)的趨勢。另外,相比較于FCM和WFCM,本文的算法始終保持較低錯誤率。
紡織行業(yè)具有單個設(shè)備用電容量小、生產(chǎn)設(shè)備數(shù)量多、總體電力負(fù)荷容量大的特點。同時,其用電量中基本生產(chǎn)用電占比較大,部分生產(chǎn)設(shè)備可以中斷供電,可根據(jù)要求調(diào)整或者停運(yùn)部分生產(chǎn)線,具有較大調(diào)節(jié)潛力。以某紡織企業(yè)為例,選取其某年1月至12月全年的每日48點負(fù)荷數(shù)據(jù),使用本文聚類方法對其負(fù)荷數(shù)據(jù)進(jìn)行聚類分析。
(1)與其他聚類算法對比
該紡織企業(yè)360組原始數(shù)據(jù)經(jīng)剔除非正常數(shù)據(jù)處理后,剩余353 組正常負(fù)荷數(shù)據(jù)。對353 組正常負(fù)荷數(shù)據(jù)進(jìn)行不同的聚類分析。
為了說明本文方法的優(yōu)越性,將聚類結(jié)果與FCM和WFCM 2個方法的聚類結(jié)果進(jìn)行了對比。設(shè)置所有聚類算法聚類數(shù)均為6,各算法聚類的結(jié)果如表2所示。
表2 聚類效果對比Table 2 Comparison of clustering effect
在聚類類別數(shù)為6的情況下,相較于FCM和WFCM,本文算法平均類間距最大、平均類中心距離最小,因此聚類結(jié)果具有更好的幾何結(jié)構(gòu),說明聚類結(jié)果更好。
(2)聚類結(jié)果
采用本文方法,對該紡織企業(yè)的353 組正常負(fù)荷數(shù)據(jù)的聚類結(jié)果如圖2所示。
圖2 某紡織企業(yè)某年全年負(fù)荷聚類結(jié)果Fig.2 Annual load clustering results of a hemp spinning enterprise
對聚類結(jié)果進(jìn)行具體分析,可以得到該用戶的6種行為模式,如圖3所示。圖中橫坐標(biāo)和縱坐標(biāo)分別表示時間和負(fù)荷。
圖3 該紡織企業(yè)某年用電行為模式分類對比Fig.3 Classification and comparison of electricity consumption patterns in a certain year in a hemp textile enterprise
(3)定量分析
基于上面的聚類結(jié)果,以及原始負(fù)荷數(shù)據(jù)的所屬月份標(biāo)簽,可以得到該紡織企業(yè)負(fù)荷聚類結(jié)果的時間分布,如圖4所示。
圖4 負(fù)荷聚類分布情況Fig.4 Load clustering distribution
從圖2與圖3可以看出,該紡織企業(yè)一共包含6類用電模式:其中用電模式類6比較特殊,呈現(xiàn)出白天負(fù)荷低、夜晚負(fù)荷高的特點,即用電時段主要集中在夜晚,屬于白天停工而夜間生產(chǎn)的類型。結(jié)合圖4 的時間分布來看,用電模式類6 應(yīng)該不是由于限電導(dǎo)致的,很可能是由于生產(chǎn)設(shè)備輪休、運(yùn)維檢測,或者是員工集體放假等原因造成的?;趯τ秒娔J筋? 的分析,可以推測出該紡織企業(yè)在某些特定時段,是可以通過合理安排生產(chǎn)設(shè)備輪休或者運(yùn)維檢測來降低其用電負(fù)荷(可以降低3400 kW),以響應(yīng)電網(wǎng)削峰填谷需求。
對比分析用電模式類1~類5 的時間分布情況,可以發(fā)現(xiàn)該紡織企業(yè)的用電負(fù)荷和溫度季節(jié)有很大關(guān)系。用電模式類2 主要集中在夏季,負(fù)荷量在5900~6100 kW 之間;用電模式類4 主要集中在冬季,負(fù)荷在3300~3500 kW之間;用電模式類5主要集中在春秋季,負(fù)荷在3900~4100 kW之間;用電模式類1 比較特殊,可能是春節(jié)開工后為了趕訂單加班生產(chǎn)所致,最高負(fù)荷在5300~5500 kW 之間。該企業(yè)在夏季的平均用電負(fù)荷約6000 kW,而冬季的平均用電負(fù)荷約3400 kW,基于對用電模式類1 和類4 負(fù)荷變化對比,可以得出該紡織企業(yè)的季節(jié)敏感性負(fù)荷大概在2500 kW 左右。在電網(wǎng)出現(xiàn)供需平衡矛盾時,可以通過壓減部分季節(jié)敏感性負(fù)荷或者采用能量管理方法實現(xiàn)季節(jié)敏感性負(fù)荷輪控,來響應(yīng)需求響應(yīng)實施機(jī)構(gòu)發(fā)布的激勵型需求響應(yīng)計劃或事件。因此,從上述分析來看,該紡織企業(yè)適合激勵型需求響應(yīng)模式。
本文基于聚類方法研究了用戶用電行為模式分類方法??紤]模糊C均值聚類方法算法對初始聚類中心敏感、易陷入局部最優(yōu)和受噪聲影響大等問題,文章提出了采用最短距離法聚類為模糊C 聚類提供初始聚類中心,利用有效性分析類內(nèi)樣本相似程度和不同類之間獨立程度來判別聚類結(jié)果優(yōu)劣,以及通過數(shù)據(jù)密度識別并剔除噪聲點等改進(jìn)措施。通過對標(biāo)準(zhǔn)數(shù)據(jù)集和某紡織企業(yè)實際負(fù)荷數(shù)據(jù)的聚類分析,驗證本文所提方法的有效性。文章提出的聚類方法可以為用戶用電負(fù)荷預(yù)測、需求響應(yīng)策略制定和有序用電方案制定提供理論支撐。