楊超,張霖
(貴陽供電局,貴州 貴陽 550002)
?
數(shù)據(jù)挖掘技術在電力設備故障診斷中的應用
楊超,張霖
(貴陽供電局,貴州貴陽550002)
電力設備運行狀態(tài)信息具有海量、復雜性以及不完整的特點,給設備故障診斷帶來了不小的困難。本文提出一種將粗糙集理論與樸素貝葉斯相結合的數(shù)據(jù)挖掘方法,通過粗糙集求取故障診斷最小屬性約簡集,并在此基礎上利用樸素貝葉斯計算設備發(fā)生各種故障的概率,從而得出診斷結果。最后進行了變壓器故障實例分析,診斷結果證明該方法的正確性和有效性。
電力設備;數(shù)據(jù)挖掘;故障診斷;粗糙集;樸素貝葉斯
故障診斷是根據(jù)設備運行狀態(tài)信息查找故障源,并確定相應決策的一門綜合性的新興科學。電力設備故障診斷技術的應用,使設備維修由傳統(tǒng)的計劃維修逐步過渡到狀態(tài)維修,減少了事故停電損失,提高了電網(wǎng)供電可靠性,具有重要的經(jīng)濟和社會效益。隨著工業(yè)和科學技術的迅速發(fā)展,SCADA、生產(chǎn)管理系統(tǒng)以及設備在線監(jiān)測系統(tǒng)等的廣泛應用,與設備狀態(tài)相關的各種數(shù)據(jù)呈爆炸性增長態(tài)勢,數(shù)據(jù)之間的相互關系更加趨于復雜化,傳統(tǒng)的分析統(tǒng)計手段已難以滿足要求,需要運用新方法來挖掘更深層次的規(guī)律,確定設備是否存在異常或故障、故障的部位以及故障惡化的趨勢,以便給出更快、更有效的維修決策支持。數(shù)據(jù)挖掘的出現(xiàn)引起了電力工作者的廣泛關注[1]。
數(shù)據(jù)挖掘是從大量的、已有數(shù)據(jù)(數(shù)據(jù)庫或數(shù)據(jù)倉庫)中發(fā)現(xiàn)未知的、具有潛在應用價值的信息或模式,被廣泛地應用于金融、市場營銷、過程優(yōu)化控制、電力系統(tǒng)等各個領域[2]。在數(shù)據(jù)挖掘的分類過程中所使用的一些方法有貝葉斯分類器,神經(jīng)網(wǎng)絡分類方法,K-最臨近方法,遺傳算法,模糊集合還有粗糙集等方法。他們都有各自的特點,將各個方法相融合,取長補短,有機高效得整合在一起是當前探索的一個熱點。
本文從粗糙集和樸素貝葉斯兩種方法具有的優(yōu)勢互補性出發(fā),針對電力設備故障數(shù)據(jù)中通常存在信息不完整或錯誤等問題,提出了一種基于粗糙集和樸素貝葉斯的數(shù)據(jù)挖掘方法,用基于互信息的屬性約簡算法提取出最小屬性約簡集,最后根據(jù)約簡的決策表建立樸素貝葉斯模型,計算區(qū)域故障概率,得出診斷結果。
2.1基于粗糙集的屬性約簡
粗糙集理論是由波蘭的Z.Pawlak教授于1982年提出的一種處理模糊和不確定性問題的新型數(shù)學工具,它能有效地分析和處理不精確、不一致、不完整等不完備性數(shù)據(jù),通過發(fā)現(xiàn)數(shù)據(jù)間隱藏的關系,揭示潛在的規(guī)律,從而提取有用信息,簡化信息的處理[3]。
粗糙集把客觀世界抽象為一個信息系統(tǒng)S=(U,A,V,f),其中U為對象的非空有限集,稱為論域;A為屬性的非空有限集,V為屬性A的值域;f:U×A→V是信息函數(shù),即a∈A,x∈U,f(x,a)∈Va。若A可由條件屬性C和決策屬性D表示,即A=C∩D,C∩D=φ,則稱該知識表達系統(tǒng)為決策表。
根據(jù)信息論可以定義知識的熵與條件熵的概念,知識(屬性集合)P的熵H(p)定義為:
(1)
知識(屬性集合)Q(U|IND(Q))={Y1,Y2,…,Ym}相對于知識(屬性集合)P(U|IND(P))={X1,X2,…,Xm}的條件熵H(Q|P)定義為:
(2)
其中:p(Xj|Xi)=|Yj∩Xi|/|xi|,(i=1,2,…,n;j=1,2,…,m)
則知識P、H之間的互信息可定義為:
(3)
式中p表示求概率。
原始決策表中并非所有的條件屬性都是必要的,有些是多余的,去除這些屬性不會影響原有的表達效果。因此,采用粗糙集描述知識,通過去除冗余的條件屬性求取約簡可以實現(xiàn)知識的簡化,將一個復雜的決策表約簡為不含多余屬性并保證分類正確的最小條件屬性決策表?;诖植诩膶傩约s簡算法具體步驟如下:
步驟1 計算決策表T中條件屬性C和決策屬性D的互信息I(D,C)=H(D)-H(D|C);
步驟2 計算條件屬性的簡約即從決策表中刪去一些冗余的列;
步驟3 刪去重復的行即刪除重復對象;
步驟4消去每一決策規(guī)則中的冗余屬性。
約簡后的決策表是一個不完全的決策表,它僅包含那些在決策時所必需的條件屬性值,但它具有原始知識系統(tǒng)的所有知識。
2.2樸素貝葉斯分類原理
貝葉斯網(wǎng)絡,又稱因果網(wǎng)絡、信度網(wǎng)絡,是一種帶有概率注釋的有向無環(huán)圖(DAG)。它以有向圖的形式表示隨機變量間的因果關系,并通過條件概率將此關系量化。樸素的貝葉斯分類方法是貝葉斯方法中實用性很高的一種學習方法,以概率密度函數(shù)為基礎,描述分類系統(tǒng)中條件屬性和分類屬性之間的映射關系,相比于其他算法,具有出錯率最小的特點[4]。
樸素貝葉斯分類器假定屬性變量間相互類條件獨立,每個屬性節(jié)點Xi只與類節(jié)點C相關聯(lián)。令U={X1,X2,…,Xn,C}是離散隨機變量的有限集,其中X1,X2,…,Xn是屬性變量,類變量C的取值范圍為{c1,c2,…,cm} ,xi是屬性Xi的取值。假設給定一個故障樣本X={x1,x2,…,xn},此樣本屬于故障類ck的概率由貝葉斯定理表示為:
(4)
式中P(ck)為ck類的先驗概率,即根據(jù)以往的數(shù)據(jù)分析得到的類ck發(fā)生的概率;P(x1,x2,…,xn|ck)為類ck的后驗概率,即得到某些信息后重新修正的類ck發(fā)生的概率,后驗概率反映了樣本數(shù)據(jù)對類ck的影響。
由于P(X)對于所有故障類均為常數(shù),因此只需P(X|ck)P(ck)最大即可。其中先驗概率可通過式(5)求得:
P(ck)=Nck/N
(5)
上式中k=1,2,…,m;N為訓練樣本總數(shù);Nck為訓練樣本中故障區(qū)域類ck出現(xiàn)的樣本個數(shù)。樸素貝葉斯算法假定各個屬性x1,x2,…,xn之間互相獨立,只與故障類C相關,則后驗概率可由化簡公式(6)求得:
(6)
其中概率P(xi|ck)可由訓練樣本計算,即
(7)
(8)
通過以上公式可求得故障樣本屬于類變量C中某個故障類ck的概率P(ck|X),若屬于某個故障類的此概率值最大,則該故障樣本就屬于此故障類。
粗糙集理論的主要優(yōu)勢之一在于它不需要任何預備的或額外的有關數(shù)據(jù)信息,完全依據(jù)數(shù)據(jù)驅動進行知識發(fā)現(xiàn)。但其局限在于當把實時故障信息與規(guī)則庫中的規(guī)則進行匹配得出診斷結果時,若故障信息不完備,診斷結果極易出錯,且診斷耗時長。樸素貝葉斯可以利用概率理論處理故障信息與規(guī)則庫(訓練樣本)之間的這種不確定性,同時當規(guī)則庫較大時,概率的計算要比規(guī)則匹配搜索速度快。但是貝葉斯方法在使用過程中主要存在兩個方面的限制:一是先驗概率定義困難;二是條件屬性的獨立假設問題。
本文提出結合粗糙集與樸素貝葉斯的電力設備故障診斷方法。該方法通過粗糙集約簡參與分類的屬性個數(shù),得到相互獨立的核心屬性,然后基于最小屬性約簡集進行樸素貝葉斯方法的分類知識挖掘,使貝葉斯方法可以適用于更大的范圍。算法流程如圖1所示。
圖1 故障信息挖掘實現(xiàn)框圖
下面以變壓器故障診斷為例說明數(shù)據(jù)挖掘過程,其中定義條件屬性C為征兆集合,決策屬性D為故障集合。本文從變壓器運行情況和相關文獻中收集到100例變壓器故障樣本進行了分析研究[5-6],給出了征兆集合C(表1)和故障集合D(表2),并利用公式(5)計算出各故障的先驗概率。
表1 征兆集合C列表
表2 故障集合D列表
根據(jù)上文公式(1)~(3),計算得到故障集合與征兆集合的互信息I,如表3所示:
表3 故障集合與征兆集合的互信息I
從粗糙集的觀點,表3是一張決策表,條件屬性為征兆集合{c1,c2,…,c9},結論屬性為故障類型{d1,d2,…,d10}。但表中數(shù)據(jù)為連續(xù)值,即各屬性視為連續(xù)屬性,按粗糙集理論須將其離散化,因此本文以互信息大于0.5時量化為2,互信息小于0.5時量化為1,互信息等于0時量化為0這種規(guī)則將每個條件屬性離散化,直觀上可以理解為該征兆引起此類故障的概率較大、較小或幾乎沒有。經(jīng)上述加工處理后,得到表4所示的電力變壓器故障診斷決策表。
表4 故障診斷決策表
對故障決策表進行約簡,約簡時選擇互信息最小的條件屬性,約簡后的屬性是相互獨立的,滿足樸素貝葉斯算法的約束條件。這里選擇的最小屬性集分別為{c1,c2,c3,c5,c7},{c1,c3,c4,c5,c7},{c1,c3,c4,c7,c8},{c1,c4,c5,c7,c9}和{c1,c4,c7,c8,c9}。而其中的屬性集{c1,c3,c4,c5,c7}和{c1,c4,c5,c7,c9}中有一個決策屬性對應的條件屬性全為0,故刪除??紤]到征兆獲取的難易,選擇屬性集{c1,c3,c4,c7,c8}作為變壓器故障診斷決策最小約簡表,如表5所示。
某變壓器型號為SFSZ8-50000/110,運行中油色譜分析氣體組分如表6所示。
表5 最小故障診斷決策表
表6 變壓器各特征氣體濃度(μl/L)
分析各特征氣體的比值如下:φ(CH4)/φ(H2)=2.64,φ(C2H2)/φ(C2H4)=0.002,φ(C2H4)/φ(C2H6)=5.32,三比值編碼為022,屬高溫過熱性故障特征;鐵心接地電流為1.378A,屬性值存在異常;另外φ(CO)/φ(CO2)=0.32,變壓器油中含水量為17mg/L ,局部放電量均在正常范圍內。
對于上面給定的故障信息C={c1,c3,c4,c7,c8},應用公式(4)和(6)進行計算,得到各故障發(fā)生的概率結果如表7。
表7 各種故障發(fā)生的概率
由表7可知,故障類d1存在的概率最大,即鐵芯多點接地的可能性最大,且明顯大于其他故障原因,因此故障診斷結果為鐵芯多點接地故障。而本臺變壓器實際吊罩結果為:變壓器內部存在鐵屑殘渣,這些鐵屑殘渣在變壓器運行時,由于鐵芯磁場的影響吸附在鐵芯上,造成鐵芯環(huán)流過熱或鐵屑多點接地。對變壓器故障信息挖掘得到診斷結果,與實際情況相吻合。
本文將先進的數(shù)據(jù)挖掘技術應用于電力系統(tǒng),提出一種基于粗糙集與樸素貝葉斯的電力設備故障診斷方法。利用粗糙集信息表約簡技術來實現(xiàn)對專家知識的簡化與故障特征的壓縮,可以有效降低問題解決的復雜性與故障特征獲取的難度;同時利用樸素貝葉斯模型實現(xiàn)概率推理,便于描述故障特征的變化及對設備故障原因的快速分析。故障實例分析表明,文中所提出的方法可以有效進行不確定性推理,減少診斷信息的冗余性,診斷結果證明了本方法的有效性。
[1](美)韓家煒,等.數(shù)據(jù)挖掘:概念與技術[J].3版.機械工業(yè)出版社,2012.
[2]陳星鶯,張曉花,翟峰,等.數(shù)據(jù)挖掘在電力系統(tǒng)中的應用綜述[J].電力科學與技術學報,2007,22(3):51-56.
[3]張文修.粗糙集理論與方法[M].北京:科學出版社,2001.
[4]林士敏,田鳳占,陸玉昌.貝葉斯網(wǎng)絡的建造及其在數(shù)據(jù)采掘中的應用[J].清華大學學報(自然科學版),2001,41(1):49-52.
[5]楊莉,尚勇,周躍峰,等.基于概率推理和模糊數(shù)學的變壓器綜合故障診斷模型[J].中國電機工程學報,2000,20(7):19-23.
[6]王楠,律方成,劉云鵬,等.基于決策表約簡的變壓器故障診斷Petri網(wǎng)絡模型及其應用研究[J].電工技術學報,2003,18(6):88-93.
Application of Data Mining Technology in Power Equipment Fault Diagnosis
YANGChao,ZHANGLin
(Guiyang Power Supply Bureau,Guiyang 550002,China)
The data of the power equipment is massive,complex and incomplete,which creates no small difficulty for equipment fault diagnosis.This paper presents a data mining method which combines the rough set theory with the Naive Bayesian classification.The minimum attribute reduction set is first extracted by using the rough set method,then the probability of various faults can be calculated with the naive Bayesian classification method.Finally,the correctness and effectiveness of this method are validated by the result of practical fault diagnosis examples to the transformer.
power equipment;data mining;fault diagnosis;rough set theory;Naive Bayesian
1004-289X(2016)02-0083-04
TM76
B
2015-03-09
楊超(1981-),男,高級工程師,碩士,主要從事高壓絕緣監(jiān)督工作;
張霖(1976-),男,高級工程師,碩士,主要從事高壓絕緣監(jiān)督工作。