路光輝,姬 波,雍明超,周 鐘,牧繼清
(1.許繼集團(tuán)有限公司,河南 許昌461000;2.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州450001)
油中溶解氣體分析 (dissolved gas analysis,DGA)是變壓器故障診斷主要方法之一,可以對(duì)變壓器故障做出有效診斷[1,2]。目前,業(yè)界主流應(yīng)用的方法是基于規(guī)則的大衛(wèi)三 角 形 法[3,4],該 方 法 基 于3 種 油 中 溶 解 氣 體:甲 烷(CH4)、乙烯 (C2H4)和乙炔 (C2H2)的數(shù)量進(jìn)行運(yùn)算并根據(jù)結(jié)果點(diǎn)在大衛(wèi)三角形中的位置來判斷故障類型。該方法具有簡(jiǎn)單、高效且直觀地優(yōu)點(diǎn)。除了基于規(guī)則的診斷方法外,近年來模式識(shí)別方法被廣泛引入到變壓器故障診斷問 題 中,如 人 工 神 經(jīng) 網(wǎng) 絡(luò) (ANN)[5,6]、支 持 向 量 機(jī)(SVM)[7]、貝葉斯 (Bayes)方 法[8,9]和半 監(jiān) 督 分類方 法[10]等都取得了一定的效果。信息瓶頸方法 (information bottleneck,IB)[11-13]是一種基于信息論的模式識(shí)別方法,被廣泛應(yīng)用于文檔聚類[14]、圖像分析[15]、DNA 處理和視頻圖像檢索等領(lǐng)域,但是在變壓器故障診斷領(lǐng)域尚未見到信息瓶頸方法的相關(guān)應(yīng)用。其主要原因是信息瓶頸方法的主要研究對(duì)象是無監(jiān)督分類 (聚類)問題,而不是有監(jiān)督分類問題。因此,本文提出了一種基于信息瓶頸方法的變壓器故障診斷算法。為了解決有監(jiān)督分類的DGA 故障診斷問題,將基于信息瓶頸方法的DGA 故障診斷過程分為兩個(gè)階段。第一階段進(jìn)行無監(jiān)督分類,即采用信息瓶頸方法對(duì)樣本數(shù)據(jù) (樣本數(shù)據(jù)中含有訓(xùn)練樣本和待測(cè)樣本兩類數(shù)據(jù))進(jìn)行聚類并得到多個(gè)結(jié)果簇,其目標(biāo)是最小化簇內(nèi)距離的同時(shí)最大化簇間距離;第二階段進(jìn)行結(jié)果簇內(nèi)樣本投票,即通過各個(gè)簇中訓(xùn)練樣本的類標(biāo)簽進(jìn)行投票,以簡(jiǎn)單多數(shù)或加權(quán)投票結(jié)果來給定待測(cè)樣本的分類標(biāo)簽。在實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于信息瓶頸方法的變壓器故障診斷算法 (DGAsIB算法)是可行有效的,DGAsIB算法分類結(jié)果優(yōu)于大衛(wèi)三角形方法、BPNN 算法和Bayes方法。
變壓器運(yùn)行中油中溶解氣體主要包括氫氣 (H2)、甲烷 (CH4)、乙烷 (C2H6)、乙烯 (C2H4)、乙炔 (C2H2)、Z烴 (ZTING)、一氧化碳 (CO)和二氧化碳 (CO2)等。變壓器油中氣體的含量在變壓器老化及故障期會(huì)發(fā)生劇烈變化,各個(gè)氣體的組份也會(huì)出現(xiàn)明顯不同。因此,可以通過檢測(cè)變壓器油中溶解氣體的組分來分析變壓器運(yùn)行狀態(tài)并進(jìn)行提前的預(yù)警。
基于規(guī)則的DGA 方法包括大衛(wèi)三角形法、IEC 三比值法、立體圖示法等多種診斷方法。其中,大衛(wèi)三角形方法(Duval method)由于具有簡(jiǎn)單、高效且直觀的優(yōu)點(diǎn),成為了業(yè)界實(shí)際使用的主流方法。Duval法基于甲烷 (CH4),乙烯 (C2H4)和乙炔 (C2H2)的百分比進(jìn)行運(yùn)算,其值域范圍為一個(gè)等邊三角形。氣體比例計(jì)算公式見式 (1)
大衛(wèi)三角形圖示如圖1所示。
圖1 大衛(wèi)三角形
圖1中交叉的實(shí)線構(gòu)成了7個(gè)封閉區(qū)域。PD 區(qū)域代表局部放電;D1區(qū)域代表低能量放電;D2 區(qū)域代表高能量放電;T1區(qū)域代表低溫過熱 (T<300℃);T2區(qū)域代表中溫過熱 (300<℃T<700℃);T3區(qū)域代表高溫過熱 (T>700℃);DT 區(qū)域代表放電及過熱。Duval法通過對(duì)3種氣體百分比的計(jì)算并投影為圖中的坐標(biāo)點(diǎn),根據(jù)坐標(biāo)點(diǎn)在大衛(wèi)三角形中的區(qū)域不同來區(qū)分不同故障。
研究結(jié)果表明,針對(duì)變壓器故障DGA 識(shí)別問題,含有單個(gè)隱含層的BPNN 網(wǎng)絡(luò)可以良好的滿足診斷的要求。因?yàn)樵摼W(wǎng)絡(luò)已被證明可以逼近任意閉區(qū)間內(nèi)的連續(xù)函數(shù)。含隱含層的三層BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。
圖2 BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
令N,L,M 分別為輸入層、隱含層和輸出層節(jié)點(diǎn)數(shù)目,i,j,k 表示輸入層、隱含層和輸出層的節(jié)點(diǎn),ωji為輸入層到隱含層的權(quán)重,ωkj為隱含層到輸出層的權(quán)重,則隱含層節(jié)點(diǎn)輸出Oj和輸出層節(jié)點(diǎn)輸出Ok可見式 (2)
式中:f——激勵(lì)函數(shù),包括閾值型、分段線性型、Sigmoid函數(shù)和雙曲正切型等;θj和θk為隱含層和輸出層的閾值。
令輸出層神經(jīng)元的期望值為Ok′,則輸出層誤差函數(shù)E和權(quán)值的變化項(xiàng)Δωkj,Δωji見式 (3)
式中:η——學(xué)習(xí)速率。
貝葉斯方法根據(jù)已有樣本數(shù)據(jù)判定待測(cè)DGA 數(shù)據(jù)的類別,即利用訓(xùn)練樣本中的先驗(yàn)信息預(yù)測(cè)測(cè)試樣本的后驗(yàn)概率。貝葉斯分類器具有較強(qiáng)的自學(xué)習(xí)能力,可以持續(xù)將新數(shù)據(jù)樣本引入已知先驗(yàn)信息,從而提高事件后驗(yàn)概率預(yù)測(cè)的準(zhǔn)確性。貝葉斯后驗(yàn)概率計(jì)算見式 (4)
式中:P(C|X)為條件X 下C 的后驗(yàn)概率,P(C)為C的先驗(yàn)概率,P(X|C)為條件C 下的后驗(yàn)概率,P(X)為X 的先驗(yàn)概率。
令A(yù) 代表DGA 屬性變量集,C 代表DGA 故障類型變量。假設(shè)有n個(gè)條件屬性變量,Val(Ai)1<i<m 代表屬性取值范圍,Val(C)代表DGA 故障變量取值范圍,則A=<A1,A2,…,An>,Ai的取值ai∈Val(Ai),C 的取值c∈Val(C)。令t代表訓(xùn)練樣本,t=<a1,a2,…,an,cl>,1<l<m,x代表測(cè)試樣本,x=<a1,a2,…,aj,…,an>。
樣本x 歸屬于類cj的后驗(yàn)概率
式中:P(cj|a1,a2,…,an)——測(cè)試樣本為故障類型cj的后驗(yàn)概率;P(a1,a2,…,an|c(diǎn)j)——故障類型cj下條件概率;P(cj)——故障類型cj的先驗(yàn)概率;α =1/P(a1,a2,…,an),α為常量。
信息瓶頸方法起源于香農(nóng)信息論,基于聯(lián)合概率分布P(X,Y)對(duì)原變量X 進(jìn)行壓縮,在盡可能壓縮X 的同時(shí)最大化地保存相關(guān)變量Y 的信息。該方法主要的研究對(duì)象是無監(jiān)督分類 (聚類)問題,不要求預(yù)先獲取訓(xùn)練樣本中的先驗(yàn)知識(shí),也不要求訓(xùn)練樣本的存在。其目標(biāo)函數(shù)如下
其形式解如下
式中:Z(x,β)是歸一化函數(shù);DKL——KL距離。
序列化IB算法 (sIB算法)是一種廣泛使用的基于信息瓶頸的序列化聚類算法。sIB算法屬于劃分聚類算法,要求已知聚類簇?cái)?shù)目k,并初始隨機(jī)將數(shù)據(jù)劃分為k個(gè)簇。每一次迭代時(shí)從簇t中依次取出所有元素x,然后將x 重新分配到新簇tnew中,tnew=argmincostt∈T({x},t)。
其中,cost({x},t)表示將x 指派到t引起的互信息I(T;Y)值的減小量;π1、π2為權(quán)值。
當(dāng)所有元素x 均未被重新分配或達(dá)到指定迭代次數(shù)時(shí)sIB算法終止。
信息瓶頸方法是一種無監(jiān)督分類(聚類)方法,可以將數(shù)據(jù)按照相似性進(jìn)行區(qū)分和類別歸屬,從而將樣本數(shù)據(jù)集中的樣本劃分到若干個(gè)子簇中,使每個(gè)子簇代表一類樣本。為了解決有監(jiān)督分類的DGA模式識(shí)別問題,本文提出在將信息瓶頸方法應(yīng)用于DGA診斷時(shí),利用訓(xùn)練樣本知識(shí)對(duì)聚類結(jié)果進(jìn)行投票以獲得最終的待測(cè)樣本標(biāo)號(hào)。診斷算法主要分為兩個(gè)步驟:①采用IB方法對(duì)樣本數(shù)據(jù)集(包括訓(xùn)練樣本和待測(cè)樣本)進(jìn)行聚類,得到k個(gè)結(jié)果簇;②對(duì)于每一個(gè)待測(cè)樣本,通過各個(gè)簇中訓(xùn)練樣本的投票決定待測(cè)樣本的類標(biāo)號(hào)。
算法詳細(xì)流程如圖3所示。先取一個(gè)測(cè)試樣本x,并將其合并到訓(xùn)練集中;接下來采用IB方法聚類并得到k 個(gè)結(jié)果簇;如果x 屬于某個(gè)簇t,則使用該簇中所有訓(xùn)練樣本進(jìn)行投票。投票方式采用簡(jiǎn)單多數(shù)投票和加權(quán)投票兩種方式。簡(jiǎn)單多數(shù)投票為簡(jiǎn)單多數(shù)選舉方式,加權(quán)投票時(shí)以各個(gè)類別的先驗(yàn)概率為權(quán)來進(jìn)行加權(quán)投票。例如,假設(shè)目標(biāo)類c=(1,2,3),先驗(yàn)概率Pc= (1/4,1/2,1/4)。如果結(jié)果簇A 中包含10個(gè)訓(xùn)練樣本和1個(gè)待測(cè)樣本,而10個(gè)訓(xùn)練樣本的類標(biāo)號(hào)為 [1,3,2,1,1,2,1,2,2,1]。則該10個(gè)訓(xùn)練樣本的簡(jiǎn)單多數(shù)投票結(jié)果為類標(biāo)號(hào)1,即對(duì)待測(cè)樣本標(biāo)定為類屬1。而加權(quán)投票結(jié)果為類標(biāo)號(hào)2,即對(duì)待測(cè)樣本標(biāo)定為類屬2。從中可以得出,簡(jiǎn)單多數(shù)和加權(quán)投票可以產(chǎn)生不同的類標(biāo)號(hào),而加權(quán)投票的可靠程度依賴于先驗(yàn)知識(shí)。
在采用基于模式識(shí)別方法對(duì)DGA 數(shù)據(jù)進(jìn)行診斷時(shí),不同的算法有著不同的數(shù)據(jù)預(yù)處理要求。例如,神經(jīng)網(wǎng)絡(luò)算法要求對(duì)數(shù)據(jù)做歸一化處理,以避免具有較大值域的屬性左右算法結(jié)果;貝葉斯算法要求對(duì)連續(xù)數(shù)據(jù)進(jìn)行離散化以便進(jìn)行概率計(jì)算。對(duì)于IB 算法而言,要求數(shù)據(jù)為非負(fù)數(shù)據(jù),以便能計(jì)算信息熵和互信息值并以此判定樣本重新指派的代價(jià)。因此,本文算法實(shí)驗(yàn)中嘗試性采用了一些數(shù)據(jù)變換方法來對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。根據(jù)DGA 數(shù)據(jù)特征,本文選擇了Max-Min法、對(duì)數(shù)特征變換法和反正切函數(shù)法3種數(shù)據(jù)變換方法 (見式 (9))
式中:Max-Min法變換后的值域?yàn)?[0,1]區(qū)間;c是常數(shù)1.01,c常數(shù)的引入目的是為了將對(duì)數(shù)變換后的值域范圍從 (-∞,+∞)變化為 (0,+∞);反正切函數(shù)法變換后的值域?yàn)?[-π/2,π/2]。
圖3 基于信息瓶頸方法的DGA 診斷流程
?
實(shí)驗(yàn)數(shù)據(jù)取自于實(shí)際生產(chǎn)數(shù)據(jù),總共搜集到609 個(gè)樣本。每個(gè)樣本包括8 個(gè)屬性 (H2,CH4,C2H6,C2H4,C2H2,ZTING,CO,CO2)和專家標(biāo)定的數(shù)據(jù)類標(biāo)號(hào)。數(shù)據(jù)清洗和規(guī)整步驟如下:
(1)刪除沒有專家標(biāo)定的類別號(hào)的樣本;
(2)刪除重復(fù)樣本;
(3)刪除有缺失屬性的樣本;
(4)刪除屬性值為0的樣本。最終得到的有效數(shù)據(jù)樣本個(gè)數(shù)為350 個(gè)。數(shù)據(jù)樣本的故障類型分布見表1。
表1 數(shù)據(jù)樣本的故障類型分布
針對(duì)這350個(gè)數(shù)據(jù)樣本進(jìn)行訓(xùn)練集和測(cè)試集劃分后得到了10組實(shí)驗(yàn)數(shù)據(jù)集。劃分方法采用十折交叉驗(yàn)證法,即將數(shù)據(jù)集隨機(jī)分成十分,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù)。最終采用十次十折交叉驗(yàn)證正確率的平均值作為對(duì)本文算法精度的估計(jì)。
3.2.1 簡(jiǎn)單多數(shù)和加權(quán)投票結(jié)果比對(duì)
DGAsIB算法有3個(gè)參數(shù),實(shí)驗(yàn)中類別k 設(shè)定為DGA故障類型數(shù),即k=7;聚類循環(huán)次數(shù)l=10;平衡參數(shù)β=+∞。表2中給出了兩種投票方式下原始數(shù)據(jù)、Max-Min變換后、對(duì)數(shù)變換后和反正切變換后的分類正確率。從中可以觀察到:
(1)兩種投票方式的對(duì)比中,10次實(shí)驗(yàn)中簡(jiǎn)單多數(shù)5次占優(yōu),加權(quán)投票5次占優(yōu),簡(jiǎn)單多數(shù)的十次十折平均值為58.37%,加權(quán)投票的十次十折平均值為57.83%。這說明簡(jiǎn)單多數(shù)投票法略優(yōu)于加權(quán)投票法。我們認(rèn)為,其主要原因是由于從實(shí)際生產(chǎn)中能獲取的故障數(shù)據(jù)數(shù)目有限,導(dǎo)致各個(gè)故障類型的先驗(yàn)分布概率 (見表1)未能完全反映實(shí)際分布,因此加權(quán)投票法的權(quán)重值不夠理想。隨著數(shù)據(jù)的逐漸積累,應(yīng)能改善加權(quán)投票法的結(jié)果。
(2)各種數(shù)據(jù)變換形式的對(duì)比中,僅有一次對(duì)數(shù)變換的結(jié)果最優(yōu)。這說明對(duì)于IB方法而言,只需保證原始數(shù)據(jù)的非負(fù)性 (DGA 數(shù)據(jù)本身已具有非負(fù)的特性),而不需要其它模式識(shí)別算法要求的歸一化或變換過程。
表2 簡(jiǎn)單多數(shù)和加權(quán)投票結(jié)果比對(duì)
3.2.2 DGAsIB算法和其它診斷算法比對(duì)
為了驗(yàn)證本文方法和算法的有效性,我們與業(yè)界應(yīng)用的Duval法、以及基于模式識(shí)別的Bayes算法和BPNN 算法進(jìn)行了比較。表3給出了DGAsIB 算法和其它診斷算法對(duì)比結(jié)果。圖4中給出了各種算法的最優(yōu)結(jié)果對(duì)比柱狀圖。其中,DGAsIB算法結(jié)果采用的是基于原始數(shù)據(jù)的簡(jiǎn)單投票結(jié)果。貝葉斯算法的離散化采用等寬離散方法,表中列Bayes_2,Bayes_3,...,Bayes_5分別表示將各個(gè)屬性值離散化為2~5箱后的Bayes分類結(jié)果。BPNN 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為3層,輸入層8個(gè)節(jié)點(diǎn),隱含層20個(gè)節(jié)點(diǎn),輸出層7個(gè)節(jié)點(diǎn),激勵(lì)函數(shù)選用tansig和purelin,網(wǎng)絡(luò)訓(xùn)練函數(shù)選用traingdm。表中列BPNN_0.01表示學(xué)習(xí)速率η 為0.01時(shí)訓(xùn)練的網(wǎng)絡(luò)模型對(duì)測(cè)試集的分類結(jié)果,其它類似。從中可得如下結(jié)果。
表3 DGAsIB算法和其它診斷算法比對(duì)
在參與比較的10種算法中,DGAsIB算法在十次十折實(shí)驗(yàn)中均為最優(yōu)。DGAsIB 算法十次十折的總平均值為58.37%。比業(yè)界實(shí)際使用的Duval方法的43.72%提高了14.65%;比Bayes算法的最優(yōu)結(jié)果33.37%提高了25%;比BPNN 算法的最優(yōu)結(jié)果47.14%提高11.23%。這說明,基于信息瓶頸的DGA 診斷方法是可行的和有效的。
圖4 各種算法的最優(yōu)結(jié)果對(duì)比
本文提出了一種基于信息瓶頸方法的變壓器故障診斷算法。該算法采用對(duì)DGA 數(shù)據(jù)進(jìn)行聚類后的加權(quán)投票方式來判定待測(cè)樣本的故障類別。實(shí)驗(yàn)結(jié)果表明,該算法應(yīng)用到變壓器故障診斷中,可以有效提高診斷的正確率,對(duì)于保證變壓器的穩(wěn)定性和電網(wǎng)的可靠性有一定意義。DGAsIB算法還有一些待完善的地方,如運(yùn)算效率的提高和數(shù)據(jù)變換方法的改進(jìn)等。這些工作涉及到了計(jì)算復(fù)雜度分析、數(shù)理統(tǒng)計(jì)等領(lǐng)域,將在后續(xù)工作中進(jìn)一步改進(jìn)。
[1]Bakar N A,Abu-Siada A,Islam S.A review of dissolved gas analysis measurement and interpretation techniques [J].IEEE Electrical Insulation Magazine,2014,30 (3):39-49.
[2]HU Honghong,ZHENG Yajun,BAO Qitian.Analysis of online monitoring device of gases dissolved in transformer oil and its application [J].Transformer,2013,50 (4):75-77(in Chinese).[胡紅紅,鄭亞君,包淇天.淺析變壓器油中溶解氣體在線監(jiān)測(cè)裝置及其應(yīng)用 [J].變壓器,2013,50 (4):75-77.]
[3]YANG Zhenyong.Discussion on diagnosis of transformer fault based on“guide to the analysis and the diagnosis of gasses dissolved in transformer oil”[J].Transformer,2008,45 (10):24-26 (in Chinese).[楊振勇. 《變壓器油中溶解氣體分析和判斷導(dǎo)則》判斷變壓器故障的探討 [J].變壓器,2008,45(10):24-26.]
[4]Sukhbir Singh MN,Bandyopadhyay.Duval triangle:A noble technique for DGA in power transformers[J].International Journal of Electrical and Power Engineering,2010,4 (3):193-197.
[5]Zakaria F,Johari D,Musirin I.Optimized artificial neural network for the detection of incipient faults in power transformer[C]//IEEE 8th International Power Engineering and Optimization Conference,2014:635-640.
[6]ZHANG Juncai,QIAN Xu,ZHOU Yu.Application of extension neural network in transformer fault diagnosis[J].Computer Engineering and Applications,2011,47 (7):8-11(in Chinese).[張俊彩,錢旭,周玉.可拓神經(jīng)網(wǎng)絡(luò)在變壓器故障診斷中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2011,47 (7):8-11.]
[7]Wei C H,Tang W H,Wu Q H.A hybrid least-square support vector machine approach to incipient fault detection for oilimmersed power transformer [J].Electric Power Components and Systems,2014,42 (5):453-463.
[8]BAI Cuifen,GAO Wensheng,JIN Lei,et al.Integrated diagnosis of transformer faults based on three-layer Bayesian network [J].High Voltage Engineering,2013,39 (2):330-335 (in Chinese).[白翠粉,高文勝,金雷,等.基于3層貝葉斯網(wǎng)絡(luò)的變壓器綜合故障診斷 [J].高電壓技術(shù),2013,39(2):330-335.]
[9]Su H S.Transformer fault diagnosis method based on rough set and Bayesian optimal classifier[C]//Proceedings of the 3rd WSEAS International Conference on Circuits Systems,Signal and Telecommunications.Zhejiang.China:WSEAS,2009:183-188.
[10]GUO Xinchen,SONG Qiong,F(xiàn)AN Xiuling.Transformer fault diagnosis based on semi-supervised classifying method[J].High Voltage Engineering,2013,39 (5):1096-1097(in Chinese).[郭新辰,宋瓊,樊秀玲.基于半監(jiān)督分類方法的變壓器故障診斷 [J].高電壓技術(shù),2013,39 (5):1096-1097.]
[11]Fabrizio R,Nicola D M.Applying the information bottleneck to statistical relational learning [J]. Machine Learning,2012,86 (1):89-114.
[12]Gedeon T,Parker A E,Dimitrov A G.The mathematical structure of information bottleneck methods [J].Entropy,2012,14 (3):456-479.
[13]Slonim N.The information bottleneck:Theory and application[D].Israel:The Hebrew University of Jerusalem,2002.
[14]Ye Y D,Ren Y L,Li G.Using local density information to improve IB algorithms[J].Pattern Recogn Lett,2011,32:310-320.
[15]Dhanalakshmi S,Ravichandran T.A modified approach for image segmentation in information bottleneck method [J].International Journal of Advanced Research in Computer Engineering &Technology,2012,1 (7):59-63.