李中勝,劉林
(1. 福建水利電力職業(yè)技術(shù)學(xué)院 電氣工程系,福建 永安 366000;2. 廣東電網(wǎng)有限責(zé)任公司佛山供電局,廣東 佛山 528000)
一種改進高斯核度量的HEC算法在變壓器故障診斷中的應(yīng)用
李中勝1,劉林2
(1. 福建水利電力職業(yè)技術(shù)學(xué)院 電氣工程系,福建 永安 366000;2. 廣東電網(wǎng)有限責(zé)任公司佛山供電局,廣東 佛山 528000)
針對傳統(tǒng)超球型聚類算法難以解決變壓器故障診斷問題的特性,使用一種改進的高斯核的超橢球聚類 (hyper-ellipsoidal clustering,HEC)算法,并將其解釋為尋找體積和密度都緊湊的橢球分簇,該算法能夠有效地處理形狀為橢球、大小不同和密度不同的分簇。在模擬數(shù)據(jù)集上的仿真實驗表明所提算法在聚類結(jié)果和性能上優(yōu)于K-Means算法、模糊C-Means算法和混合高斯模型期望最大化算法,從而驗證了該提算法在處理橢球形或復(fù)雜形狀數(shù)據(jù)集聚類時的可行性和有效性;同時將該算法應(yīng)用在基于變壓器油中溶解氣體(dissolved gas-in-oil analysis,DGA)的變壓器故障診斷中,驗證了該方法更高的故障診斷準(zhǔn)確度。
數(shù)據(jù)聚類;超橢球聚類;高斯核度量;變壓器;油中溶解氣體;故障診斷
聚類算法在設(shè)備故障診斷等領(lǐng)域都有廣泛的應(yīng)用,但目前仍沒有一種能夠處理所有聚類問題的最優(yōu)算法。傳統(tǒng)的聚類算法如K-Means、混合高斯模型期望最大化(gaussian mixture model-expectation maximization,GMM-EM)、模糊C-Means等[1],都是基于最小化簇內(nèi)樣本點的歐氏距離和的通用聚類準(zhǔn)則。歐氏距離只考慮各類別樣本均值特征,得到的是超球型聚類結(jié)果,即在不同的方向上相似性尺度一致。而大多數(shù)情況下,同類樣本的分布是凸的,且為超橢球型分布[2]。若使用超球型的聚類往往不得不增加類別數(shù)來獲得更好的訓(xùn)練結(jié)果,但如此就會對學(xué)習(xí)的整體效果產(chǎn)生影響。為解決上述問題,學(xué)者提出了各種超橢球聚類(hyper-ellipsoidal clustering,HEC)[3-14]算法,這些算法通常使用馬氏距離作為距離度量來建立橢球分簇。
現(xiàn)有的HEC算法主要存在以下問題:過高的計算復(fù)雜度;當(dāng)分簇包含少量樣本點時,協(xié)方差矩陣可能是奇異的。為了解決上述問題,文獻[3-5]提出基于改進馬氏距離和偽協(xié)方差矩陣的HEC算法,但是這些算法的計算復(fù)雜度仍然很高。另一方面,文獻 [8-10] 通過近似分簇體積,即找到最小體積橢球(minimum-volume ellipsoids,MVE),取代了協(xié)方差矩陣的計算,部分克服了以上的不足。
本文根據(jù)一般數(shù)據(jù)聚類問題特性,將之描述為尋找體積和密度都緊湊的橢球分簇,據(jù)此提出的基于改進高斯核度量的HEC算法,旨在解決既有HEC算法的時間、空間復(fù)雜度過高,以及尋找MVE過程復(fù)雜的問題。改進算法通過Khachiyan的快速近似算法來尋找MVE,在聚類精度與算法的時間、空間復(fù)雜度上取得了良好折中,并對不同尺寸和密度的橢球有效處理?;谟椭腥芙鈿怏w(dissolved gas-in-oil analysis,DGA)的變壓器故障診斷技術(shù)一直是研究的熱點,主流的故障診斷方法包括模糊聚類算法[15]、最小二乘法[16]、支持向量機法[17]等。其中,聚類算法受本身特性的限制,存在一定的誤分類的可能,為解決該問題,從改良算法入手,本文提出了一類基于改進高斯核度量的HEC數(shù)據(jù)聚類方法,并用于解決變壓器DGA故障診斷問題。
P=arg(P)minEC(P).
(1)
(2)
式中:mk為第k個分簇的均值向量;D(xi,mk)為輸入模式與mk之間的距離度量。
為了構(gòu)造橢球分簇,HEC算法通常采用馬氏距離。但在該條件下劃分聚類的代價函數(shù)是常量[7],為了實現(xiàn)在實際聚類過程中,通用性較好的橢球聚類,使用式(3)改進高斯核作為距離度量:
(3)
式中:Qk為第k個分簇的協(xié)方差矩陣;變量α∈[0,1]控制式(3)的第1項和第2項的權(quán)重,其中第1項表示馬氏距離,第2項與Qk表示的第k個橢圓分簇的容積成正比。則聚類代價函數(shù)改寫為
(4)
代價函數(shù)EC(P)達到最優(yōu)的必要條件為?EC(P)/?mkT=0,通過最小化式(4)得到劃分的分簇中心
(5)
(6)
定義:如果改進高斯核式(3)作為式(2)的聚類代價函數(shù)的距離度量,則有
(7)
2.1 算法原理
改進高斯核度量的HEC算法開始于一個初始的聚類,最終將初始的聚類劃分為C個分簇,在此過程中算法迭代查找改進的劃分矩陣的分配,分簇體積的權(quán)重和不斷縮小,直到分簇結(jié)果沒有進一步可能的改進為止。
計算最小體積橢球(minimumvolumeellipsoid,MVE)(記作dMVE)法所包含樣本可以定義為求最大特征向量問題[9-11],以上問題難以通過直接求以下優(yōu)化問題解決:
(8)
式中:Q為所在橢球分簇的協(xié)方差矩陣;i=1,2,…,mk;xc為選擇的橢球樣本中心向量。
本文通過以下2個步驟來尋找MVE:
a) 通過式(9)近似計算包含矩陣Q特征向量和的目標(biāo)函數(shù)來求解式(8)所示凸優(yōu)化問題[8,11]:
(9)
b) 使用Khachiyan的快速近似算法[12]尋找dMVE:
(10)
2.2 改進高斯核度量的HEC算法步驟
步驟1:確定分簇數(shù)C,從樣本集中隨機選擇C個樣本,設(shè)定為分簇的中心,記作mk;
步驟2:使用樣本與分簇中心mk歐氏距離來確定劃分矩陣的初始分配
(11)
式中DEuc(xi,mk)為橢球中樣本xi與其他分簇中心mk的歐氏距離。
步驟3:計算新的分簇中心和屬于該分簇的樣本的數(shù)量,即
(12)
式中nk為以mk為中心的新分簇樣本數(shù)量。
步驟4:使用MVE法近似算法計算偽協(xié)方差矩陣Qk。
步驟5:使用式(3)的改進高斯核度量、mk和Qk確定劃分矩陣P的一個新的分配
(13)
式中DMGK為最小高斯核度量距離(minimal Gauss kernel,MGK)。
步驟6:如果劃分矩陣P沒有變化,則算法停止。否則重復(fù)步驟3至步驟5。
3.1 數(shù)值實驗描述
為驗證本文提出算法的有效性,在模擬數(shù)據(jù)集和基準(zhǔn)評測數(shù)據(jù)集上進行了仿真實驗。在性能評估時,使用誤分類率(misclassificationrate,MCR)(記作eMCR)和歸一化互信息度(normalizedmutualinformation,NMI)(記作eNMI)作為評價指標(biāo),分別定義如下
(14)
(15)
式(14)-(15)中:QE、QA分別為誤分類樣本數(shù)和總樣本數(shù);X、Y為兩個隨機變量;I(X,Y)為互信息;H(X)和H(Y)為X和Y的熵。
3.2 數(shù)值實驗結(jié)果與分析
3.2.1 模擬數(shù)據(jù)集
為了說明本文所提算法的有效性,在實驗中使用了2個模擬數(shù)據(jù)集。其中,模擬數(shù)據(jù)集1樣本維度2,初始分簇數(shù)2,包含一個球型與一橢球型分簇,樣本數(shù)分別為4、10個,用以驗證基于改進高斯核的HEC算法對于不同大小、不同密度和橢圓形分簇的聚類能力,該數(shù)據(jù)集包含一個圓形的分簇和一個細長橢圓形的分簇。在模擬數(shù)據(jù)集1上使用式(9)-(10)的2種不同的MVE近似方法所提到的聚類結(jié)果是一樣的,因此忽略式(9),而使用式(10)的HEC算法在數(shù)據(jù)集1上的聚類結(jié)果如圖1所示。
圖1 不同算法在模擬數(shù)據(jù)集1上的聚類結(jié)果
從圖1(b)可以看出,K-Means算法在模擬數(shù)據(jù)集1上不能得到正確的聚類;從圖1(c)可以看出,馬氏HEC算法雖然將樣本劃分為不同大小的兩個橢圓分簇,但當(dāng)兩個分簇距離較近時聚類結(jié)果也不準(zhǔn)確;圖1(d)表明本文提出的HEC算法通過調(diào)整α的值來控制改進高斯核的第1項和第2項的權(quán)重,從而最小化分簇體積權(quán)重和,使得聚類后分簇的緊湊性和密度達到最大。
模擬數(shù)據(jù)集2樣本維度2,初始分簇數(shù)2,包含一個高斯分布分簇和一個香蕉形分簇,高斯與香蕉型數(shù)據(jù)分別為100、28個,用于驗證提出的HEC算法的有效性,該算法專門設(shè)計用于復(fù)雜幾何形狀樣本集的聚類。K-Means算法、馬氏距離HEC算法、基于高斯核的HEC算法模擬數(shù)據(jù)集2上的聚類結(jié)果分別如圖2的(b)、(c)、(d)所示。
圖2 不同算法在模擬數(shù)據(jù)集2上的聚類結(jié)果
從圖2可以看出,K-Means算法、馬氏HEC算法以及本文提出的HEC算法有相似的聚類結(jié)果。可以注意到,雖然聚類結(jié)果相似,但是由每個算法所確定的聚類的決策邊界仍有很大的不同。與其他算法相比,馬氏HEC算法和本文提出的HEC算法有重疊的決策邊界。
3.2.2 基準(zhǔn)評測數(shù)據(jù)集
為了評估本文提出算法的性能,在來自UCI的3個基準(zhǔn)評測數(shù)據(jù)集(見表1)上與K-Means算法、模糊C-Means算法、GMM-EM算法和馬氏距離MVE-HEC算法進行了比較實驗。5種算法在eMCR和eNMI2個評判準(zhǔn)則上的比較結(jié)果如圖3所示,可以看出提出的HEC算法在eMCR和eNMI2個指標(biāo)上均優(yōu)于K-Means、模糊C-Means、GMM-EM和馬氏距離HEC算法。
表1 來自UCI的基準(zhǔn)評測數(shù)據(jù)集
數(shù)據(jù)集屬性數(shù)類別數(shù)記錄數(shù)IRIS43150WINE133178GLASS117214
注:IRIS、WINE、GLASS是來自UCI的基本評測數(shù)據(jù)集合。
圖3 基準(zhǔn)評測數(shù)據(jù)集上的聚類性能比較
3.3 變壓器故障診斷實例
本文收集了某省區(qū)域內(nèi),來自不同廠家,具有不同電壓等級與容量的運行變壓器DGA數(shù)據(jù),剔除明顯異常樣本與數(shù)據(jù)后,進行數(shù)據(jù)歸一化預(yù)處理,進一步減少數(shù)據(jù)自身因素對聚類的影響。根據(jù)IEC標(biāo)準(zhǔn),定義變壓器運行于正常狀態(tài)、低能放電、高能放電、低溫/中溫故障以及高溫故障等運行狀態(tài),選取了156組變壓器的不同故障類型數(shù)據(jù),并與K-Means,模糊C-Means,GMM-EM以及馬氏HEC算法進行對比,統(tǒng)計結(jié)果見表2。
表2 不同算法故障診斷率 %
由于上述數(shù)據(jù)均經(jīng)過了歸一化處理,算法對數(shù)據(jù)敏感因素被排除。本文所提出算法在低能放電、低溫/中溫?zé)峁收吓c高溫?zé)峁收?個狀態(tài)診斷中,效果明顯好于其他算法。分析樣本數(shù)據(jù)集的聚類過程可以發(fā)現(xiàn),按照MVE進行聚類,算法相對更為合理。但在正常狀態(tài)聚類中,與K-Means算法相比,聚類錯誤數(shù)增加了3.1%,以及在高能放電樣本中,診斷數(shù)據(jù)比C-Means算法錯誤率增加了3.4%,反查動態(tài)過程中,樣本被分類的情況可以發(fā)現(xiàn),本文所提算法的高斯核函數(shù)的設(shè)定,恰好將部分樣本排除在聚類外,表明高斯核函數(shù)的相關(guān)參數(shù)調(diào)整,可以提高聚類的相關(guān)精度。
由此可見,本文所提出的改進高斯核度量的HEC數(shù)據(jù)聚類方法,相比傳統(tǒng)的K-Means、模糊C-Means、GMM-EM以及馬氏HEC算法在較大范圍具有良好的適應(yīng)性,能較好的判斷變壓器運行狀態(tài),并給出具有較高可信度的診斷結(jié)果。
本文將基于MVE的HEC算法與改進的高斯核相結(jié)合,提出了基于改進的高斯核變量的HEC算法。該算法能夠處理不同大小、不同密度和橢球形狀的分簇。在模擬數(shù)據(jù)集和UCI基準(zhǔn)評測數(shù)據(jù)集上的仿真實驗,以及基于變壓器DGA數(shù)據(jù)的實例試驗表明,提出的算法能夠通過建立緊湊的分類邊界有效地分離各分簇,無論在聚類能力和性能方面均優(yōu)于K-Means、模糊C-Means、GMM-EM和馬氏距離HEC算法,說明本文所提出算法正確,且具有可行性和有效性。
[1] 金建國. 聚類方法綜述[J]. 計算機科學(xué),2014,41(增刊2): 288-293.
JIN Jianguo. Suvey on Clustering Methods [J]. Computer Science,2014,41(S2):288-293.
[2] 劉勇,趙斌,夏紹瑋. 模糊超橢球分類算法及其在無約束手寫體數(shù)字識別中的應(yīng)用[J]. 清華大學(xué)學(xué)報(自然科學(xué)版),2000,40(9):120-124.
LIU Yong,ZHAO Bin,XIA Shaowei. Self-organizing Network with Fuzzy Hyperellipsoidal Classifying and Its Application in Unconstrained Handwritten Numeral Recognition[J]. Journal of Tsinghua University (Science& Technology),2000,40(9):120-124.
[3] MAO J C,JAIN A K. A Self-organizing Network for Hyper-ellipsoidal Clustering(HEC)[J]. IEEE Transactions on Neural Networks,1996,7(1): 16-29.
[4] 秦玉平,王祎,倫淑嫻,等. 基于超橢球支持向量機的兼類文本分類算法[J]. 計算機科學(xué),2013,40(增刊2): 98-100.
QIN Yuping,WANG Yi,LUN Shuxian,et al. Multi-label Text Classification Algorithm Based on Hyper Ellipsoidal SVM[J]. Computer Science,2013,40(S2):98-100.
[5] 梁夷龍,王松,夏紹瑋,等. 基于超橢球模糊聚類的人腦磁共振圖象分割[J]. 軟件學(xué)報,1998,9(9):683-689.
LIANG Yilong,WANG Song,XIA Shaowei,et al. Human Brain Magnetic Resonance Image Segmentation Based on Hyperellipsoidal Fuzzy Clustering Algorithm [J]. Journal of Software,1998,9(9): 683-689.
[6] MOSHTAGHI M,RAJASEGARAR S,LECKIE C,et al. An Effient Hyperellipsoidal Clustering Algorithm forResource-constrained Environments[J]. Pattern Recognition,2011,44(9):2197-2209.
[7] 朱峰,宋余慶,陳健美. 基于橢球等高分布混合模型的聚類方法[J]. 江蘇大學(xué)學(xué)報(自然科學(xué)版),2011,32(6):701-705.
ZHU Feng,SONG Yuqing,CHEN Jianmei. Clustering Method Based on Elliptical Contoured Mixture Model[J]. Journal of Jiangsu University ( Natural Science Edition),2011,32(6):701-705.
[8] LEE H,PARK J,PARK D. Hyper-ellipsoidal ClusteringAlgorithm Using Linear Matrix Inequality[J]. Journal of Korea Institute Intelligent Systems,2002,12(4):300-305.
[9] MAHESH K O,JAMES B.Scale-invariant Clustering with Minimum Volume Ellipsoids[J]. Computer & Operations Research,2008,35(4): 1017-1029.
[10] SHIODA R,TUNCEL L. Clustering via Minimum Volume Ellipsoids[J]. Computational Optimization and Applications,2007,37(3):247-295.
[11] STEPHEN B,LIEVEN V. Convex Optimization[M]. Cambridge,UK: Cambridge University Press,2004.
[12] TODD M J,YILDIRIM E A. On Khachiyan’s Algorithm for the Computation of Minimum-volume Enclosing Ellipsoids[J]. Discrete Applied Mathematics,2007,155(13):1731-1744.
[13] CAO J Z,CHEN P,ZHENG Y,et al. A Max-flow-based Similarity Measure for Spectral[J]. Etri Journal,2013,35(2):311-320.
[14] JOHN S T,NELLO C. Kernel Methods for Pattern Analysis[M]. Cambridge,UK: Cambridge University Press,2004.
[15] 張冠軍,嚴(yán)璋,張仕君. 電力變壓器故障診斷中新方法的應(yīng)用[J]. 高壓電器,1998(4):32-34.
ZHANG Guanjun,YAN Zhang,ZHANG Shijun. Application of New Fault Diagnosis Method on Electric Power Transformers [J]. High Voltage Apparatus,1998(4):32-34.
[16] 鄭含博,王偉,李曉綱,等. 基于多分類最小二乘支持向量機和改進粒子群優(yōu)化算法的電力變壓器故障診斷方法[J]. 高電壓技術(shù),2014,40(11):3424-3429.
ZHENG Hanbo,WANG Wei,LI Xiaogang,et al. Fault Diagnosis Method of Power Transformers Using Multi-class LS-SVM and Improved PSO[J]. High Voltage Engineering,2014,40(11):3424-3429.
[17] 朱永利,尹金良. 組合核相關(guān)向量機在電力變壓器故障診斷中的應(yīng)用研究[J]. 中國電機工程學(xué)報,2013,33(22):68-75.
ZHU Yongli,YIN Jinliang. Study on Application of Multi-kernel Learning Relevance Vector Machines in Fault Diagnosis of Power Transformers[J]. Proceedings of the CSEE,2013,33(22):68-75.
(編輯 王朋)
Application of Hyper-ellipsoidal Clustering Algorithm Based on Improved Gaussian Kernel Metric in Transformer Fault Diagnosis
LI Zhongsheng1, LIU Lin2
(1.Department of Electric Power Engineering, Fujian College of Water Conservancy and Electric Power, Yong’an, Fujian 366000, China; 2.Foshan Power Supply Bureau of Guangdong Power Grid Co., Ltd., Foshan, Guangdong 528000, China)
In allusion to the problem of traditional hyper sphere clustering algorithm being unable to solve the problem of transformer fault diagnosis, a kind of hyper-ellipsoidal clustering (HEC) algorithm based on improved Gaussian kernel metric is used. This HEC algorithm is illustrated as searching for ellipsoid clusters with compact volume and density, which is proved to be effectively handle with clusters of ellipsoid shape with different sizes and densities. Experiment on simulating dataset indicates the proposed HEC algorithm is prior to K-Means algorithm, fuzzy C-Means algorithm and GMM-EM algorithm, which verifies feasibility and validity of HEC algorithm in processing problems of ellipsoid dataset or complex-shaped dataset. Application of HEC algorithm in transformer fault diagnosis based on dissolved gas-in-oil also proves higher fault diagnosis accuracy of this method.
data clustering; hyper-ellipsoidal clustering; Gaussian kernel metric; transformer; dissolved gas-in-oil; fault diagnosis
2016-09-02
福建省教育廳科技項目(JA15793)
10.3969/j.issn.1007-290X.2016.12.019
TM41
A
1007-290X(2016)12-0104-06
李中勝(1982),男,福建三明人。實驗師,工程師,工學(xué)學(xué)士,從事電力設(shè)備高壓試驗、狀態(tài)監(jiān)測與故障診斷方面的研究。
劉林(1986),女,湖南湘鄉(xiāng)人。工程師,工學(xué)碩士,主要從事電能計量、智能控制系統(tǒng)等方面研究。