齊曉軒, 紀(jì)建偉, 原忠虎
(1.沈陽(yáng)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,遼寧沈陽(yáng) 110161;2.沈陽(yáng)大學(xué)信息工程學(xué)院,遼寧沈陽(yáng) 110044)
故障診斷具有復(fù)雜性、多樣性、不確定性等特點(diǎn)[1]。為了提高故障診斷的可靠性,需要獲取大量的故障征兆參數(shù)來(lái)全面描述故障模式。故障診斷過(guò)程中,不同征兆參數(shù)的重要性有所不同,有些參數(shù)甚至是冗余的。另外,在參數(shù)信息獲取過(guò)程中,通信異常也可能導(dǎo)致故障信息的不一致或不完備。如果不加選擇地將全部參數(shù)信息直接用于診斷,必然會(huì)降低故障診斷的準(zhǔn)確性和實(shí)時(shí)性,因此,對(duì)故障診斷中的冗余征兆參數(shù)進(jìn)行約簡(jiǎn)是十分必要的。
粗糙集是波蘭學(xué)者Pwalak于1982年提出來(lái)的一種數(shù)學(xué)工具[2],能有效地分析不精確、不一致和不完整等不完備信息,從中發(fā)現(xiàn)隱含知識(shí),揭示潛在的規(guī)律。基于粗糙集的屬性約簡(jiǎn)方法被廣泛應(yīng)用于特征選擇過(guò)程中,可以在保證分辨能力的前提下,對(duì)輸入征兆信息進(jìn)行約簡(jiǎn),降低特征向量的維數(shù)[3]。文獻(xiàn)[4]提出了一種基于變相似度的模糊粗糙集模型,在保證分類準(zhǔn)確性的前提下獲得多層次的屬性約簡(jiǎn)集合,以增強(qiáng)對(duì)信息的靈活掌握;文獻(xiàn)[5]運(yùn)用差別矩陣元素項(xiàng)的特性,提出了一種新的啟發(fā)式約簡(jiǎn)完備算法,可有效地降低區(qū)分矩陣約簡(jiǎn)算法的空間復(fù)雜度;文獻(xiàn)[6]提出了一種基于概念格模型的完備約簡(jiǎn)算法,解決了區(qū)分矩陣算法的局限性以及啟發(fā)式算法的不完備性等問(wèn)題;文獻(xiàn)[7]提出了一種基于核值信息和吸收率的優(yōu)化算法,對(duì)分辨矩陣的構(gòu)造過(guò)程進(jìn)行了改進(jìn),簡(jiǎn)化運(yùn)算,提高了時(shí)間性能。
經(jīng)典的粗糙集理論只能處理離散化數(shù)據(jù),在屬性約簡(jiǎn)之前須對(duì)連續(xù)屬性進(jìn)行離散化處理,以減少屬性值的數(shù)目,降低問(wèn)題的復(fù)雜性、提高知識(shí)的適應(yīng)度。離散化處理的原則是:保持信息系統(tǒng)中所表達(dá)的樣本分辨關(guān)系,避免信息丟失或錯(cuò)誤。常用的離散化方法有:經(jīng)驗(yàn)分割法、等頻法、等距法、NaveScaler算法、貪心算法以及粗糙集與布爾邏輯結(jié)合法等,這些方法均有著各自的適用性,但同時(shí)也有其局限性。文獻(xiàn)[8]采用等距法對(duì)條件屬性進(jìn)行離散化處理,缺點(diǎn)是需要預(yù)先設(shè)定分割的區(qū)間數(shù),而合適的區(qū)間數(shù)通常需要經(jīng)過(guò)反復(fù)實(shí)驗(yàn)或憑借領(lǐng)域?qū)<医?jīng)驗(yàn)才能找到,適應(yīng)性較差;文獻(xiàn)[9]采用監(jiān)督式局部離散化方法,使得每個(gè)條件屬性都對(duì)決策規(guī)則產(chǎn)生作用,實(shí)際應(yīng)用結(jié)果表明,其識(shí)別準(zhǔn)確率要高于全局離散化方法,但由于其計(jì)算量較大,導(dǎo)致數(shù)據(jù)處理的實(shí)時(shí)性較差。
由于粗糙集理論對(duì)原始數(shù)據(jù)本身的模糊性和不確定性缺乏相應(yīng)的處理能力,與模糊數(shù)學(xué)和概率論等結(jié)合,則可在一定程度上減少由于離散化造成的信息損失問(wèn)題。本文將模糊集引入到粗糙集理論中,利用模糊c均值聚類算法(FCM)對(duì)故障征兆參數(shù)空間進(jìn)行劃分,實(shí)現(xiàn)屬性值的離散化處理,利用粗糙集理論實(shí)現(xiàn)屬性約簡(jiǎn),基于支持向量機(jī)(SVM)建立故障診斷模型,并應(yīng)用于汽輪機(jī)故障診斷系統(tǒng)中。
定義1 知識(shí)表達(dá)系統(tǒng)和決策表。粗糙集理論將故障診斷樣本數(shù)據(jù)描述為一個(gè)知識(shí)表達(dá)系統(tǒng)S,S可以表示為:
其中,U為論域,表示診斷對(duì)象;C∪D=R為屬性集合;子集C為條件屬性集,表示故障樣本的特征集合,對(duì)應(yīng)特征向量矩陣T;子集D為決策屬性集,表示各故障樣本對(duì)應(yīng)的故障類型;V為屬性值集;f:U×R→V,是一個(gè)信息函數(shù),指定U中每一個(gè)對(duì)象的屬性值。具有條件屬性和決策屬性的知識(shí)表達(dá)系統(tǒng)就是決策表。決策表為一張二維表格,表中每一行描述一個(gè)故障樣本,每一列表征樣本的一種故障特征屬性。
定義2 決策屬性D對(duì)條件屬性C的依賴度定義為:
依賴度k表示在條件屬性C下能夠確切劃入決策類U/D的對(duì)象與U上全體元素?cái)?shù)目的比率,表達(dá)了決策屬性對(duì)條件屬性的依賴程度,顯然,0≤k≤1。
定義3 任意屬性a∈(C-R)關(guān)于決策屬性D的重要性定義為:
對(duì)于屬性a∈C,如果γ(C,D)=γ(C-a,D),則稱屬性a相對(duì)于決策屬性D是冗余的,否則是不可缺少的。如果C中的任意屬性相對(duì)于D都是不可缺少的,那么C相對(duì)于D是獨(dú)立的。
1.2.1 離散化問(wèn)題描述
已知目標(biāo)信息系統(tǒng)S=(U,C,D,V,f),C∪D=R為屬性集合,論域U={x1,x2,…,xn}。設(shè)決策類別個(gè)數(shù)為r(d)。屬性a的值域Va上的一個(gè)斷點(diǎn)可記為(a,c),其中,a∈R,C為實(shí)數(shù)集。在值域Va=[la,ra]上的任意一個(gè)斷點(diǎn)集合{(a,}定義了Va上的一個(gè)分類Pa,即
對(duì)于x∈U,i∈{0,1,…,Ka}。離散化過(guò)程就是將相鄰斷點(diǎn)間的屬性值進(jìn)行合并的過(guò)程,通過(guò)合并屬性值來(lái)減少問(wèn)題的復(fù)雜度。
經(jīng)過(guò)離散化后,從原有的決策系統(tǒng)中產(chǎn)生了新的決策系統(tǒng),而不同的斷點(diǎn)集合又會(huì)構(gòu)造不同的決策系統(tǒng),顯然,離散化的過(guò)程伴隨著信息的丟失。
1.2.2 模糊c均值聚類分析
模糊聚類的基本思想是:在分類條件給定的情況下,利用FCM算法尋找出對(duì)事物的最佳分類方案。將有限樣本集 X={x1,x2,x3,x4,…,xn}分為C類,各樣本以一定的程度隸屬于C個(gè)不同的類域。用μij表示第j個(gè)樣本隸屬于第i類的隸屬度,μij滿足如下3個(gè)約束條件[10]:
則分類結(jié)果可以用一個(gè)c×n階矩陣U來(lái)表示,稱為模糊矩陣。模糊c均值聚類算法的出發(fā)點(diǎn)是基于對(duì)目標(biāo)函數(shù)的優(yōu)化,對(duì)平方誤差函數(shù)(4)式求最優(yōu)值,即
其中,C為聚類中心個(gè)數(shù);m為加權(quán)指數(shù),m∈[1,∞];dij=‖xj-vi‖為樣本到中心矢量的距離;xj為第j個(gè)樣本。
J(U,V)代表了各樣本到聚類中心的加權(quán)距離平方和,權(quán)重是樣本xi對(duì)第i類隸屬度的m次方,若m=1,則退化為硬c均值算法(HCM);若m>1,可用最小二乘法找出一個(gè)恰當(dāng)?shù)哪:齝組分類矩陣U和恰當(dāng)?shù)木垲愔行腣,使得J(U,V)達(dá)到最小。問(wèn)題可以歸結(jié)為在約束條件(2)下的條件極值問(wèn)題,用Lagrange乘子法使J(U,V)取極小值。
1.2.3 決策表的約簡(jiǎn)
在獲得離散化后的決策表后,可以對(duì)其實(shí)施有效的約簡(jiǎn)。屬性約簡(jiǎn)是指在保持系統(tǒng)分類或決策能力不變的情況下,刪除其中不重要和冗余的屬性。
定義4 設(shè)C和D分別是決策表的條件屬性集合和決策屬性集合,對(duì)于C的子集C′,若滿足:
從C′中刪除任何屬性a后都有γ′C-{a}(D)= γ′C(D),則稱C′是C相對(duì)于決策屬性D的一個(gè)約簡(jiǎn)。
一個(gè)決策表可能同時(shí)存在幾個(gè)約簡(jiǎn),這些約簡(jiǎn)的交集定義為決策表的核core(R)。在故障診斷應(yīng)用中,往往并不需要計(jì)算出知識(shí)表達(dá)系統(tǒng)中的所有約簡(jiǎn),而是結(jié)合領(lǐng)域特點(diǎn),選擇用戶感興趣的或經(jīng)濟(jì)可行的約簡(jiǎn)集。
由于設(shè)備結(jié)構(gòu)的復(fù)雜性和運(yùn)行環(huán)境的特殊性,汽輪機(jī)的故障率較高,故障危害性也很大。如何及時(shí)、準(zhǔn)確地診斷汽輪機(jī)設(shè)備故障,減少或避免事故的發(fā)生,已經(jīng)受到國(guó)內(nèi)外學(xué)者的普遍關(guān)注。汽輪機(jī)振動(dòng)是影響安全運(yùn)行的一個(gè)重要指標(biāo),當(dāng)設(shè)備運(yùn)行異常時(shí),通常會(huì)出現(xiàn)振動(dòng)增大、振動(dòng)性質(zhì)改變等現(xiàn)象[11],通過(guò)對(duì)振動(dòng)信號(hào)的分析,可以在不停機(jī)的情況下對(duì)故障進(jìn)行有效診斷,滿足實(shí)際生產(chǎn)需求。
汽輪機(jī)常見(jiàn)的振動(dòng)故障有不平衡、不對(duì)中、油膜振蕩、喘振、磨碰、軸承損害及松動(dòng)等故障,可以把汽輪機(jī)故障診斷看做一個(gè)模式分類問(wèn)題,每一類故障對(duì)應(yīng)一組特征集。以汽輪機(jī)振動(dòng)信號(hào)頻譜特征中(0.01~0.39)f、(0.40~0.49)f、0.50 f、(0.51~0.99)f、1 f、2 f、(3~5)f、odd×f、>5 f (f為工頻,odd×f為奇數(shù)倍f)9個(gè)不同頻段上的譜峰能量值作為故障征兆屬性,得到故障特征向量X={x1,x2,x3,x4,…,x9},對(duì)N個(gè)故障樣本進(jìn)行分析,形成初始特征向量矩陣T,即
無(wú)論從計(jì)算的復(fù)雜度還是分類器的性能來(lái)看都不適宜直接對(duì)T進(jìn)行處理,因此需要進(jìn)行進(jìn)一步的特征選擇;同時(shí),鑒于故障信息的模糊性和不確定性,本文采用FCM聚類算法分析汽輪機(jī)的振動(dòng)故障原因,實(shí)現(xiàn)對(duì)故障征兆空間的劃分,然后利用粗糙集理論對(duì)故障特征向量進(jìn)行約簡(jiǎn)。
本文利用模糊粗糙集在故障診斷之前對(duì)樣本進(jìn)行預(yù)處理,保留關(guān)鍵信息,去掉冗余屬性,剔除相同樣本,簡(jiǎn)化SVM故障分類器的訓(xùn)練難度,在保證分類精度的前提下,提高系統(tǒng)診斷的實(shí)時(shí)性,診斷模型如圖1所示。
每一條汽輪機(jī)故障樣本定義為論域U中的一個(gè)對(duì)象。每個(gè)故障特征信息定義為條件屬性C的一個(gè)元素,而各種故障類型則定義為決策屬性D的一個(gè)元素。根據(jù)以上定義對(duì)文獻(xiàn)[11]中的汽輪機(jī)故障數(shù)據(jù)進(jìn)行分析,并對(duì)故障樣本各頻段的頻譜特征向量做歸一化處理,得到一個(gè)信息表。隨機(jī)選取12條數(shù)據(jù)作為訓(xùn)練樣本集,見(jiàn)表1所列,其余的用作測(cè)試樣本集。汽輪機(jī)故障說(shuō)明見(jiàn)表2所列。
采用FCM對(duì)連續(xù)屬性數(shù)據(jù)進(jìn)行離散,建立知識(shí)表達(dá)系統(tǒng)。在聚類過(guò)程中,聚類數(shù)目的確定很關(guān)鍵,數(shù)目過(guò)少會(huì)導(dǎo)致不兼容信息的產(chǎn)生,聚類數(shù)目過(guò)多則會(huì)由于過(guò)度離散化而導(dǎo)致決策表復(fù)雜化,文獻(xiàn)[12]對(duì)所有的條件屬性采用統(tǒng)一的斷點(diǎn)指導(dǎo)方法,未考慮條件屬性個(gè)體之間的差異,本文所提出的方法充分考慮各連續(xù)屬性的特點(diǎn),通過(guò)對(duì)樣本集9個(gè)條件屬性做出的空間分布狀態(tài)圖確定屬性值的離散區(qū)間取值,因而對(duì)于故障信息的挖掘更充分,進(jìn)而獲得反映故障征兆本質(zhì)的約簡(jiǎn)屬性集,提高診斷的準(zhǔn)確性。離散化結(jié)果,見(jiàn)表3所列。
圖1 故障診斷模型
表1 汽輪機(jī)故障訓(xùn)練樣本集
表2 汽輪機(jī)故障說(shuō)明
對(duì)表3所列信息系統(tǒng)進(jìn)行屬性約簡(jiǎn)后得到約簡(jiǎn)屬性集{c1,c4,c8},根據(jù)所得到的約簡(jiǎn)屬性集和對(duì)應(yīng)的原始數(shù)據(jù),形成新的樣本集,實(shí)現(xiàn)基于SVM的故障分類器的訓(xùn)練和測(cè)試。在實(shí)驗(yàn)過(guò)程中,SVM分類器選用徑向基核函數(shù)K(x,xT)= exp(-γ‖xi-xj‖2),參數(shù)γ取值為10,采用交叉驗(yàn)證的方法。通過(guò)對(duì)測(cè)試樣本的診斷實(shí)驗(yàn),識(shí)別率可達(dá)100%。用約簡(jiǎn)屬性集訓(xùn)練的系統(tǒng)與用全部屬性訓(xùn)練的系統(tǒng)相比,在保證了識(shí)別率的同時(shí),降低了系統(tǒng)計(jì)算的復(fù)雜程度,從而可以提高診斷的實(shí)時(shí)性能。
表3 屬性離散化之后的決策表
本文基于FCM聚類算法對(duì)故障征兆參數(shù)空間進(jìn)行劃分,利用粗糙集理論進(jìn)行屬性約簡(jiǎn),基于SVM建立分類器,實(shí)現(xiàn)汽輪機(jī)系統(tǒng)的故障診斷。采用本文所提出的方法,可以有效解決征兆屬性離散化過(guò)程中存在的信息損失問(wèn)題,降低SVM訓(xùn)練難度并避免其應(yīng)用中的“維數(shù)災(zāi)難”問(wèn)題,克服SVM在故障診斷中的局限性,提高汽輪機(jī)故障診斷的準(zhǔn)確性和實(shí)時(shí)性,降低故障診斷成本。
本文初稿首次刊登于《計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展?2010》
[1] 陳長(zhǎng)征,劉 強(qiáng).概率因果網(wǎng)絡(luò)在汽輪機(jī)故障診斷中的應(yīng)用[J].中國(guó)電機(jī)工程學(xué)報(bào),2001,21(3):78-81.
[2] Paw lak Z.Rough set[J].International Jou rnal of Computer and Information Sciences,1982,(11):341-356.
[3] Dǜntsch I,Gediga G.Roughian:rough information analysis [J].International Jou rnal of Intelligent Sy stem s,2001,16 (1):121-147.
[4] 張慧哲,王 堅(jiān),梅宏標(biāo).一種變相似度的模糊粗糙集屬性約簡(jiǎn)[J].模式識(shí)別與人工智能,2009,22(6):393-399.
[5] 王加陽(yáng),高 燦.改進(jìn)的基于差別矩陣的屬性約簡(jiǎn)算法[J].計(jì)算機(jī)工程,2009,35(2):66-67,73.
[6] 胡學(xué)鋼,薛 峰,張玉紅,等.基于概念格的決策表屬性約簡(jiǎn)方法[J].模式識(shí)別與人工智能,2009,22(8):624-629.
[7] 史君華,胡學(xué)鋼.一種基于粗集的決策表屬性值約簡(jiǎn)改進(jìn)算法[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2008,31(1): 36-39.
[8] 梁武科,趙道利,馬 薇,等.基于粗糙集-RBF神經(jīng)網(wǎng)絡(luò)的水電機(jī)組故障診斷[J].儀器儀表學(xué)報(bào),2007,28(10): 1806-1810.
[9] 關(guān) 欣,衣 曉,何 友.一種新的粗糙集屬性約簡(jiǎn)方法及其應(yīng)用[J].控制與決策,2009,24(3):464-467.
[10] 王啟志,王曉霞.模糊聚類在機(jī)械故障診斷中的應(yīng)用[J].軸承,2008,(10):35-38.
[11] 何 青,杜冬梅,李 紅.汽輪發(fā)電機(jī)組遠(yuǎn)程智能故障診斷系統(tǒng)[J].熱能動(dòng)力工程,2006,21(5):532-536.
[12] 李 鵬.基于粗糙集和支持向量機(jī)的汽輪機(jī)振動(dòng)故障診斷研究[D].保定:華北電力大學(xué)自動(dòng)化系,2008.