梁 娜
本文研究了決策樹挖掘方法在故障診斷中的應(yīng)用,根據(jù)設(shè)備的歷史運(yùn)行記錄,對(duì)其可能的運(yùn)行狀態(tài)進(jìn)行分類,提取出故障特征。實(shí)例證明,利用決策樹挖掘技術(shù)進(jìn)行知識(shí)提取,有效克服了故障診斷系統(tǒng)知識(shí)獲取的瓶頸,具有實(shí)際的應(yīng)用價(jià)值。
1.引言
汽輪發(fā)電機(jī)組是電力工業(yè)中的關(guān)鍵設(shè)備,其結(jié)構(gòu)復(fù)雜,運(yùn)行環(huán)境特殊,因此故障率較高。隨著電廠信息化水平的不斷提高,越來越多的數(shù)據(jù)被DAS系統(tǒng)存儲(chǔ)到實(shí)時(shí)數(shù)據(jù)庫中,這些數(shù)據(jù)包含了機(jī)組運(yùn)行狀態(tài)的各種特征。怎樣從過去的數(shù)據(jù)中發(fā)現(xiàn)有用的信息,把所獲得的知識(shí)用于過程監(jiān)控,提高生產(chǎn)過程自動(dòng)化水平是值得研究的課題。數(shù)據(jù)挖掘就是從大量不完全、有噪聲、模糊的或者隨機(jī)的數(shù)據(jù)中提取出有價(jià)值的知識(shí)。本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用于汽輪機(jī)的故障診斷,具有實(shí)際的意義。
2.數(shù)據(jù)挖掘概述
2.1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘,也稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD),是指發(fā)掘隱藏在堆積如山的數(shù)據(jù)中的真知灼見。通過數(shù)據(jù)挖掘,有價(jià)值的知識(shí)、規(guī)則或高層次的信息就能從數(shù)據(jù)庫的相關(guān)集合中抽取出來,并從不同角度顯示,從而使大型數(shù)據(jù)庫作為一個(gè)豐富可靠的資源為知識(shí)歸納服務(wù)。
2.2 決策樹算法
決策樹是數(shù)據(jù)挖掘分類方法的一種。決策樹的表現(xiàn)形式類似于流程圖的樹結(jié)構(gòu),它的基本組成部分包括決策節(jié)點(diǎn)、分支和葉子。決策樹中最上面的節(jié)點(diǎn)稱為根節(jié)點(diǎn),是整個(gè)決策樹的開始。每個(gè)分支是一個(gè)新的決策節(jié)點(diǎn)。每一個(gè)決策節(jié)點(diǎn)代表一個(gè)問題或決策,通常對(duì)應(yīng)于分類對(duì)象的屬性。每一個(gè)葉節(jié)點(diǎn)代表一種可能的分類結(jié)果。Qulnlan設(shè)計(jì)的ID3方法是國際上最有影響和最為典型的決策樹學(xué)習(xí)算法。
設(shè)S是數(shù)據(jù)樣本的集合,集合中的樣本數(shù)用S來表示。假定故障類別具有m個(gè)不同值,它們將樣本分為m個(gè)類,用Mi(i=1,2,……m)來表示,Mi表示類Mi中的樣本數(shù)。則任意一個(gè)樣本屬于Mi的概率為pi=Mi/S,一個(gè)給定樣本分類的平均信息熵為 E(S)=-∑mi=1pilog2pi。
設(shè)屬性A具有n個(gè)不同的值,它們將樣本劃分為n個(gè)子集,每個(gè)子集Sk中的樣本在A上的取值相同。設(shè)Sik是子集Sk中類Mi的樣本數(shù)。則由A劃分的決策樹分類的條件熵為:E(S/A)=∑nk=1pk[-∑mi=1piklog2pik],其中,pk=SkS,pik=SikSk表示Sk中的樣本屬于類Mi的概率。熵的變化量稱為屬性A對(duì)分類的信息增益Gain(A),則Gain(A)=E(S)-E(S/A)
具體的操作是:
(1)計(jì)算每一個(gè)屬性的信息增益,選擇信息增益最大的屬性A作為根結(jié)點(diǎn);
(2)屬性A的不同取值將全體樣本分成若干個(gè)樣本子集,按照前面的方法在每一個(gè)新的樣本集合中選擇信息增益最大的屬性作為這一級(jí)的結(jié)點(diǎn);
(3)重復(fù)上面的步驟,直至所有的子集都屬于同一個(gè)類別。
3.實(shí)例分析
3.1 數(shù)據(jù)準(zhǔn)備與預(yù)處理
本文在現(xiàn)場(chǎng)調(diào)研和查閱文獻(xiàn)的基礎(chǔ)上收集整理了一個(gè)汽輪機(jī)振動(dòng)故障數(shù)據(jù)庫,該數(shù)據(jù)庫包含21組故障數(shù)據(jù),五種典型故障。我們定義幾個(gè)在故障診斷中常用的頻段作為測(cè)試屬性:
A1 0.01-0.49fA2 0.5fA3 0.51-0.99fA4 1f
A5 2f A6 3-5fA7 >5f
3.2 構(gòu)造決策樹
根據(jù)上一節(jié)介紹的構(gòu)造決策樹的方法,計(jì)算表31中每一個(gè)測(cè)試屬性的信息增益如表32所示。
表32 屬性對(duì)應(yīng)的信息增益
屬性信息增益屬性信息增益
A10.24A50.80
A20.95A60.19
A30.19A70.36
A41.88
從表32可以看出,屬性A4的信息增益最高,因此以A4為根結(jié)點(diǎn)構(gòu)造決策樹。對(duì)于根結(jié)點(diǎn)以下的各級(jí)子集按照同樣的方法計(jì)算信息增益。最后形成的決策樹如圖32所示。
圖32 汽輪機(jī)故障決策樹
3.3 結(jié)果評(píng)價(jià)
為了檢驗(yàn)規(guī)則的正確性,我們用五組實(shí)際的故障數(shù)據(jù)進(jìn)行驗(yàn)證。診斷出來的結(jié)果如表34所示。
表34 檢驗(yàn)樣本實(shí)際故障與診斷結(jié)果的比較
檢驗(yàn)樣本實(shí)際故障診出故障
1油膜振蕩油膜振蕩
2不對(duì)中+不平衡不對(duì)中
3不平衡+碰摩碰摩
4不對(duì)中+碰摩碰摩
5氣流激振氣流激振
從上面的結(jié)果可以看出:使用一個(gè)數(shù)量有限的故障樣本集得到的診斷規(guī)則還是令人滿意的。對(duì)于單一故障都?jí)蚰茉\斷出來,對(duì)于混合故障也能夠診斷出其中的一種故障,說明規(guī)則的正確率還是很高的。
4.結(jié)束語
決策樹方法是從樣本中學(xué)習(xí)規(guī)則,所以樣本集對(duì)決策樹的形成是至關(guān)重要的,但決策樹始終在尋找信息增益最大的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性,所以具有一定的抗噪聲能力,而且對(duì)于由噪聲產(chǎn)生的分枝,已經(jīng)有一些樹剪枝的方法,以提高決策樹獨(dú)立于測(cè)試數(shù)據(jù)正確分類的能力。通過訓(xùn)練所得出的規(guī)則可用于故障診斷,具有一定的實(shí)用價(jià)值。