彭 剛 唐松平 曾 力 肖 云
(廣東電網(wǎng)有限責任公司惠州供電局 惠州 516000)
電網(wǎng)系統(tǒng)是現(xiàn)代社會維持正常運轉(zhuǎn)的重要生命線。而分散的電網(wǎng)系統(tǒng)在各種動態(tài)的環(huán)境下,不可避免的受到設(shè)備故障、接觸動物,樹木,雷擊等各種影響造成停電事故[1~3]。如何快速地進行故障診斷和系統(tǒng)恢復,已成為確保電網(wǎng)系統(tǒng)可靠性研究的方向[4]。為了提高點完后系統(tǒng)的可靠性,電力管理系統(tǒng)需要對停電做出正確迅速的反應。然而,由于安全原因,許多電力公司在發(fā)現(xiàn)故障原因之前不能及時修復故障。整個修復過程可能需要幾十分鐘到數(shù)小時,維修人員往往需要沿輸電線路搜尋幾十公里,試圖找到故障的原因。例如,可能由雷擊造成的輸電線灼燒痕跡,死亡的動物尸體懸掛在輸電線上,更有倒下的樹木毀壞輸電線路等現(xiàn)象[5]。
現(xiàn)有文獻已經(jīng)研究了許多不同的方法來定位故障[6~8]。有效的故障原因識別也可以提供有價值的信息來縮小搜索區(qū)域,從而加快恢復和提高系統(tǒng)的可靠性。例如,調(diào)度中心可以告知救援車輛集中于某些類型的故障原因,甚至派遣相應人員早較早的恢復系統(tǒng)。電網(wǎng)系統(tǒng)故障原因識別可以看作是一個分類問題,在某種意義上,運營商試圖將已報告的故障分類為現(xiàn)有故障原因類中的一個,這些故障類已經(jīng)由專家精心設(shè)計。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,大量的研究已經(jīng)證明了數(shù)據(jù)挖掘方法在電力系統(tǒng)中應用的有效性[9],可利用歷史電網(wǎng)停電數(shù)據(jù)提取故障模式。然而許多停電數(shù)據(jù)不平衡,難以滿足供電部門及時根據(jù)停電數(shù)據(jù)挖掘出故障的真實原因。
本文首先介紹了基于數(shù)據(jù)挖掘的模糊分類E-算法,同時根據(jù)廣東省電網(wǎng)故障原因選取了7個地區(qū)作為研究對象,并給出了故障原因識別方案。最后驗證了算法在故障原因識別中的性能,并與人工神經(jīng)網(wǎng)絡(luò)(ANN)進行了比較。
模糊分類系統(tǒng)有兩個關(guān)鍵要素[10]:模糊集和模糊規(guī)則。模糊集可以通過其隸屬函數(shù)得到充分的定義;模糊規(guī)則提供了類的推理能力和推理機制。
假設(shè)一個含有K規(guī)則、m輸入和n輸出的模糊分類系統(tǒng),在本文中,只考慮單個輸出屬性的情況,即n=1,K規(guī)則表示為
其中,k=1,…,K,Am,k(i=1,…,m)是規(guī)則 Rk中輸入屬性xi的模糊集,Bk是規(guī)則Rk中輸出屬性y的模糊集,則模糊規(guī)則也可以用向量形式表示。
數(shù)據(jù)挖掘中的關(guān)聯(lián)分析[11]主要是探究關(guān)聯(lián)規(guī)則X=Y的屬性之間有意義的關(guān)系(本文只考慮一個結(jié)果屬性)。關(guān)聯(lián)規(guī)則與模糊規(guī)則具有相同的格式,并且它們滿足前部分X的數(shù)據(jù)也可能滿足結(jié)果部分Y。
支持度[12]是指前項屬性 Xk(k=1,…,K ,K是關(guān)聯(lián)規(guī)則的數(shù)量)與后項屬性Yk在一個數(shù)據(jù)集中同時出現(xiàn)的頻率。信任度[13]是指前項屬性Xk發(fā)生時,后項屬性Yk發(fā)生的概率。
其中,P(?)為概率算子。
基于規(guī)則的數(shù)據(jù)樣本相容性等級將這兩個度量運用到模糊規(guī)則中,即 Xl與第k個規(guī)則的相容性等級表示為[14]
其中,Xl=(x1,l,…,xm,l)表示第l個數(shù)據(jù)樣本,l=1,…,N,N表示數(shù)據(jù)樣本的總數(shù),m表示每個數(shù)據(jù)樣本中的屬性的數(shù)量,μA1,k(xi,l),l=1,…,m表示屬性xi,l相對于規(guī)則Rk模糊集Ai,k的隸屬關(guān)系。
支持度標準化[15]的模糊向量表示Bk類數(shù)據(jù)基于第k個規(guī)則的相容性等級標準和與數(shù)據(jù)樣本數(shù)之比:
置信度的標準化[16]的模糊向量表示Bk類數(shù)據(jù)基于第k個規(guī)則的相容等級標準和與基于第k個規(guī)則的所有數(shù)據(jù)樣本的相容等級之比:
由于每個屬性的模糊集合分類是未知的先驗假設(shè),E-算法同時為每個屬性使用四個模糊集合分類,如圖1所示。其結(jié)果是每個前項屬性首先與由這四個分類生成的14個模糊集以及一個特殊集(即總共15個)相關(guān)聯(lián)。
圖1 每個屬性隸屬函數(shù)的四個模糊劃分
E-算法首先枚舉前項模糊集的所有可能組合,然后將每個組合賦值給后項部分生成規(guī)則,所有這些規(guī)則形成初始規(guī)則種群。由于每一個前項屬性對應于15個可能的模糊集,屬性m的模糊集合的可能組合數(shù)為15m,即呈指數(shù)增長,為了減少計算需求,只生成小于或等于三個前項屬性的規(guī)則。如式(5)所示,兼容性級別是幾個數(shù)值的乘積。隸屬度值規(guī)則所包含的隸屬度值可以用規(guī)則計算數(shù)據(jù)樣本的相容性等級。因此,只有在邏輯上包含較短的規(guī)則才能降低計算需求,同時保持合理的性能。
每一個前項模糊集的組合對應一個模糊規(guī)則,一旦其結(jié)果被指定,其結(jié)果取決于式(8),即給定模糊集合組合的最大置信值的類被賦值為規(guī)則結(jié)果。
其中,M表示分類的總數(shù)。E-算法進一步將每個規(guī)則作為規(guī)則權(quán)重分配給確定的CFk等級。確定性等級是給定Ak的最大置信值和第二最大置信值csec之間的差值:
其中,csec=maxq∈{1,…,M};q≠pc(Ak? q)。通過初始規(guī)則種群的試驗和錯誤選擇每個類的用戶定義的數(shù)字規(guī)則(在本文中,Ns=30),使用 s(Ak?Bk)和c(Ak?Bk)的乘積作為度量。這些規(guī)則形成了從數(shù)據(jù)中提取出來的模糊分類規(guī)則庫,并負責分類任務(wù)的決策。
當在測試數(shù)據(jù)上實現(xiàn)模糊分類任務(wù)時,采用單一優(yōu)勝規(guī)則方法,對于任何測試數(shù)據(jù)Xr,從模糊分類規(guī)則庫中選擇一個規(guī)則,該規(guī)則將相容性等級的最大乘積與測試數(shù)據(jù)Xr和確定等級CFk劃分。
在本文中,廣東省電網(wǎng)故障數(shù)據(jù)用來說明故障原因識別。由于保護裝置(例如斷路器、熔斷器)的激活,檢測廣東省電網(wǎng)分布系統(tǒng)中的故障,則將相關(guān)信息記錄到數(shù)據(jù)收集系統(tǒng)中。每次停電記錄由33個信息域組成,其中六個信息域被認為是統(tǒng)計顯著性檢驗的建議中最重要的因素。這六個信息域是電路ID、天氣、季節(jié)、時間、相位影響和保護裝置激活。機組人員在恢復過程中輸入的屬性原因記錄了故障的實際根源,并用作類標簽。在本文中用于說明客觀故障原因分為三個主要方面:樹木,動物接觸和雷擊。
基于專家建議和不同地理特征的考慮,在廣東省的21個地級市選取7個地區(qū)作為研究對象:廣州(GZ)、深圳(SZ),珠海(ZH)、佛山(FS)、東莞(DG)、汕頭(ST)和惠州(HZ)。
所有選擇的分類變量分為六個因素,如表1所示。
表1 各影響因素的要素綜述
運用似然測度將分類變量轉(zhuǎn)換為數(shù)值變量,即需要將數(shù)值輸入確定到先前不同的模糊集屬性的模糊隸屬度中,以滿足變量可以使用E-算法進行計算。
式(10)所示的可能性度量代表在某個條件下,發(fā)生故障造成的停機的條件概率。
其中,i代表故障類型,j代表影響因素,Ni,j代表在條件 j下引起的故障i的停機次數(shù),Nj代表在條件 j下引起的停機次數(shù),Li,j代表在條件 j下引起的故障i的可能性度量。
似然測度可以為故障原因識別提供有用的信息,它在邏輯上可以用作E-算法的輸入值。然而,似然測度依賴于故障類型i和影響因素 j。相同的數(shù)據(jù)映射到不同故障原因得到不同似然測度集合,即使在相同影響因素下同樣適用。這意味著似然測度隨故障原因而變化。圖2所示的電網(wǎng)故障原因識別方案由三個相同的支路組成:樹木、動物和雷電。每個分支標識其指定的故障原因,也可以擴展以識別更多的故障原因。
圖2 配電故障原因識別原理圖
在每個分支中,故障數(shù)據(jù)首先由似然計算模塊進行轉(zhuǎn)換,然后將生成的似然測度傳遞給分類模塊,其中應用E-算法確定輸入故障的類。由于每個分支只負責指定的故障原因,所以它面臨一個二進制分類任務(wù)。由于故障原因造成的停電次數(shù)可能只占故障原因多樣性的一小部分(由樹木引起的故障、動物引起的故障和雷擊故障的比例)。
決策融合模塊將不同分支的結(jié)果組合成最終的分類決策。當不同的分支達到一致的故障原因估計時,決策融合模型可以做出簡單的決策。當沖突的結(jié)果偶爾發(fā)生時,該模塊將測試數(shù)據(jù)的相容等級與每個分支進行比較,以確定故障原因。
本文采用的是2004年至2012年廣東省電網(wǎng)故障數(shù)據(jù)。在每個代表地區(qū)數(shù)據(jù)按年劃分為訓練數(shù)據(jù)和測試數(shù)據(jù):從2004年到2009年的故障數(shù)據(jù)用作訓練集,其余數(shù)據(jù)作為測試集。表2顯示了各地區(qū)的數(shù)目、動物和雷電造成的電網(wǎng)故障率。
表2 不同地區(qū)的樹木、動物和雷電造成的電網(wǎng)故障
在訓練數(shù)據(jù)中,雷電引起的故障占9.97%,測試數(shù)據(jù)占4.36%。在其測試數(shù)據(jù)集中,ZH地區(qū)只有1.89%的電網(wǎng)故障是由雷電引起。動物造成的故障在訓練數(shù)據(jù)中占15.25%,在測試數(shù)據(jù)中占14.83%。樹木引起的故障是最大的故障類別。在訓練數(shù)據(jù)集中,樹木引起的平均故障率為25.52%,測試數(shù)據(jù)為28.88%。與雷電和動物引起的故障相比,樹木引起的故障和非樹故障造成的故障相對比較平衡。
當數(shù)據(jù)不平衡時,使用傳統(tǒng)測度對整體分類精度會產(chǎn)生影響。若考慮兩類不平衡數(shù)據(jù)集,假設(shè)95%的數(shù)據(jù)來自大多數(shù)的類,而只有5%的數(shù)據(jù)來自少數(shù)的類。那么分類器盲目地將每個數(shù)據(jù)歸類到各自的類中,在不處理數(shù)據(jù)的情況下可達到95%的整體精度。運用g-mean來評價數(shù)據(jù)集的分類性能可以有效避免不平衡數(shù)據(jù)帶來的分類結(jié)果誤差。g-mean是由混淆矩陣組成,假設(shè)由樹木、動物和雷電引起的故障是正類,對應的不由這些因素引起的故障為負類,如表3所示。
表3 混淆矩陣
正確率Acc+=TP/(TP+FN)表示正類的分類精度,而錯誤率Acc+=TN/(TN+FP)表示負類的分類精度。g-mean檢驗正負類的分類精度,并對兩者之間的巨大差異進行判斷,數(shù)學表達式為
運用基于g-mean的E-算法和ANN算法分別計算雷電、動物、樹木造成的故障測試數(shù)據(jù),結(jié)果如圖3~圖5。ANN算法的性能基于30個運行結(jié)果表明:在95%置信區(qū)間,豎條的高度表示平均值。由于E-算法的確定性結(jié)果為Nn,在模糊分類規(guī)則庫中包含的規(guī)則數(shù)量已經(jīng)確定。
圖3 雷擊引起的故障識別g-means
圖3 表明,在識別雷電引起的故障時,E-算法在g-means中具有顯著的優(yōu)勢。在ST地區(qū)中,E-算法平均的g-mean值超過ANN算法的271%。在表4中,所有7個地區(qū)的“雷電引起的故障”假設(shè)的單樣本檢驗的P值小于0.05。因此,零假設(shè)被拒絕,接受備選假設(shè)??梢缘贸鯡-算法的g-mean比ANN的平均g-mean大。盡管在所有七個選擇地區(qū)中,E-算法在雷電引起的故障中始終比ANN表現(xiàn)得更好,但對于其他兩個故障原因,不能得出類似的明確結(jié)論。
圖4 動物引起的故障識別g-means
圖4 表明,在5個地區(qū)內(nèi)由動物引起的故障,E-算法的g-mean值比平均g-mean值大,但在兩個地區(qū)中較小:SZ和FS。假設(shè)的單樣本檢驗也表明,在5個地區(qū)中,E-算法優(yōu)于ANN算法。而對于FS地區(qū),ANN算法比E-算法有更大的g-mean值。
圖5表明,在四個地區(qū)中由樹木引起的故障,E-算法有較大的 g-mean,而 CZ、SZ和 HZ的g-mean值較小。
圖5 樹木引起的故障識別g-means
在實驗數(shù)據(jù)中也對假設(shè)進行了單樣本檢驗,以比較E-算法和ANN算法的g-mean:
式(12)是基于測試P值進行的零假設(shè),可得到實驗數(shù)據(jù)的概率。當P值小時,則會拒絕零假設(shè)。本文選用顯著性水平0.95,則P值小于0.05,拒絕零假設(shè),選擇備擇假設(shè)。表4給出了E-算法和ANN算法所實現(xiàn)g-mean單樣本檢驗的P值。
表4 對假設(shè)檢驗的P值g-means采樣
表4中假設(shè)單樣本檢驗結(jié)果表明,E-算法在四個地區(qū)優(yōu)于ANN算法,在SZ和HZ中得到更小的g-mean值。
有效的電網(wǎng)故障原因識別有助于加快恢復電力供應,提高配電系統(tǒng)的可靠性。然而,許多現(xiàn)實數(shù)據(jù)不平衡問題常常影響到故障原因識別的性能,尤其是對少數(shù)類原因的識別。本文針對不平衡數(shù)據(jù),利用模糊分類E-算法計算電網(wǎng)故障數(shù)據(jù)并進行原因識別。為了驗證本研究所提出方法的有效性,將該算法與人工神經(jīng)網(wǎng)絡(luò)(ANN)進行對比。結(jié)果表明:當故障數(shù)據(jù)是不平衡時,本研究算法可以實現(xiàn)更好的性能。