王文歡,潘秉超,潘衛(wèi)國(guó)
(上海電力學(xué)院能源與機(jī)械工程學(xué)院,上海 200090)
電廠數(shù)據(jù)的傳統(tǒng)分析手段主要集中在計(jì)算機(jī)組的主要運(yùn)行特性指標(biāo)計(jì)算方面,如鍋爐熱效率、汽輪機(jī)熱耗率、發(fā)電煤耗率、供電煤耗率、高壓缸效率、中壓缸效率等.傳統(tǒng)的報(bào)表已經(jīng)不能滿足電力企業(yè)現(xiàn)代化生產(chǎn)的需要.隨著電力企業(yè)向大型化、自動(dòng)化、現(xiàn)代化方向的發(fā)展,以及適應(yīng)“廠網(wǎng)分開、競(jìng)價(jià)上網(wǎng)”的需要,提高發(fā)電機(jī)組的運(yùn)營(yíng)管理水平、節(jié)能降耗、增強(qiáng)企業(yè)競(jìng)爭(zhēng)力,已成為發(fā)電企業(yè)面臨的最為緊迫的問(wèn)題.
如果能充分利用數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘技術(shù),結(jié)合火電機(jī)組自身的特點(diǎn),對(duì)機(jī)組的安全經(jīng)濟(jì)運(yùn)行狀況進(jìn)行聯(lián)機(jī)分析和數(shù)據(jù)挖掘,多角度、全方位展現(xiàn)數(shù)據(jù),并發(fā)現(xiàn)隱藏在生產(chǎn)數(shù)據(jù)中有用的知識(shí),揭示電力企業(yè)歷年積累的數(shù)據(jù)背后所蘊(yùn)含的規(guī)律和規(guī)則,并據(jù)此來(lái)判定機(jī)組當(dāng)前的運(yùn)行情況,發(fā)現(xiàn)存在的隱患,就能指導(dǎo)機(jī)組的安全經(jīng)濟(jì)運(yùn)行,為決策提供更加有力的科學(xué)依據(jù),提高電廠的信息化水平、管理水平和市場(chǎng)競(jìng)爭(zhēng)力.
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪音的、模糊的、隨機(jī)的原始數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用、可信、新穎的信息和知識(shí)的過(guò)程.它是一門廣義的交叉學(xué)科,它的發(fā)展和應(yīng)用涉及不同領(lǐng)域,尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等.
數(shù)據(jù)挖掘也被稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),對(duì)它的研究主要基于3大技術(shù)支柱,包括數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì).圖1簡(jiǎn)要描述了數(shù)據(jù)挖掘技術(shù)的形成過(guò)程.
圖1 數(shù)據(jù)挖掘的形成過(guò)程
數(shù)據(jù)庫(kù)理論的發(fā)展促成了數(shù)據(jù)倉(cāng)庫(kù)的形成,人工智能的發(fā)展促進(jìn)了機(jī)器學(xué)習(xí)的進(jìn)步,同時(shí)這些技術(shù)與傳統(tǒng)的數(shù)理統(tǒng)計(jì)理論的結(jié)合,最終促成了數(shù)據(jù)挖掘技術(shù)的形成.
由此可見,數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持.在這種需求牽引下,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù),以及數(shù)理統(tǒng)計(jì)、可視化技術(shù)、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員,他們把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不需要自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問(wèn)題.
目前,最流行的幾種數(shù)據(jù)挖掘方法有決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法、近鄰算法和關(guān)聯(lián)規(guī)則等.本文重點(diǎn)介紹電廠優(yōu)化運(yùn)行的決策樹模型.
決策樹方法[1]是目前應(yīng)用最廣泛的歸納推理算法之一,也是一種逼近離散值函數(shù)的方法.它是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,通常用來(lái)形成分類器和預(yù)測(cè)模型,著眼于從一組無(wú)次序、無(wú)規(guī)則的事例中推理出用決策樹表示的分類規(guī)則.分類在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù),目前在商業(yè)中應(yīng)用最多.
所謂決策樹就是一個(gè)類似流程圖的樹型結(jié)構(gòu),其中樹的每個(gè)內(nèi)部結(jié)點(diǎn)代表對(duì)一個(gè)屬性(取值)的測(cè)試,其分支則代表測(cè)試的每個(gè)結(jié)果,而樹的每個(gè)葉結(jié)點(diǎn)就代表一個(gè)類別,樹的最高層結(jié)點(diǎn)就是根結(jié)點(diǎn).常用的決策樹方法有ID3,C4.5,CART,CHIAD,PUBLIC.最為典型的決策樹學(xué)習(xí)算法是ID3算法[2],它采用自頂向下不回溯策略,保證找到一個(gè)簡(jiǎn)單的樹.由于C4.5算法對(duì)ID3算法做出的較大改進(jìn)[3],并且憑借其獨(dú)特的特點(diǎn)和突出的優(yōu)勢(shì),已經(jīng)在金融、醫(yī)療等行業(yè)得到了成功的應(yīng)用.在文中筆者利用C4.5算法對(duì)鍋爐運(yùn)行的歷史數(shù)據(jù)進(jìn)行挖掘分析,并給出分析結(jié)果.
C4.5算法[4]除了擁有ID3算法的功能外,還引入了新的方法,增加了新的功能.例如:用信息增益率的概念;合并具有連續(xù)屬性的值;可以處理具有缺少屬性值的訓(xùn)練樣本;通過(guò)使用不同的修剪技術(shù)以避免樹的過(guò)度擬合;k交叉驗(yàn)證;規(guī)則的產(chǎn)生方式等.
C4.5在本質(zhì)上和我們前面給出的決策樹推導(dǎo)方法相同:在選擇測(cè)試屬性時(shí),通過(guò)信息熵公式計(jì)算出各屬性的信息增益.C4.5采用啟發(fā)式搜索來(lái)選擇導(dǎo)致最大信息增益率(GainRatio(A))的屬性A作為擴(kuò)展屬性進(jìn)行分枝,整個(gè)算法是個(gè)遞歸過(guò)程,直到無(wú)法分裂出新的結(jié)點(diǎn)為止.
GainRatio(A)方法認(rèn)為應(yīng)當(dāng)選擇信息增益好的屬性,一個(gè)屬性的信息增益率可用公式表示為:
可見,C4.5采用的信息增益率表示了由分枝產(chǎn)生的有用信息的比率,這個(gè)值越大,分枝包含的有用信息越多.
ID3算法最初假定屬性為離散值,但在實(shí)際環(huán)境中,很多屬性值是連續(xù)的.對(duì)于連續(xù)屬性,C4.5處理過(guò)程如下:
(1)根據(jù)屬性的值,對(duì)數(shù)據(jù)集排序;
(2)用不同的閾值將數(shù)據(jù)集進(jìn)行動(dòng)態(tài)劃分;
(3)當(dāng)輸出改變時(shí)確定一個(gè)閾值;
(4)取兩個(gè)實(shí)際值的中點(diǎn)作為一個(gè)閾值;
(5)取兩個(gè)劃分,所有樣本都在這兩個(gè)劃分中;
(6)得到所有可能的閾值、增益及增益率;
(7)每一個(gè)屬性會(huì)變?yōu)閮蓚€(gè)取值,即小于閾值或大于等于閾值.
C4.5算法與ID3算法比較,主要特點(diǎn)有以下幾點(diǎn):
(1)用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇屬性值多的屬性的缺陷;
(2)通過(guò)使用不同的修剪技術(shù)以避免樹的過(guò)度擬合;
(3)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理,即可以處理具有缺少屬性值的訓(xùn)練樣本;
(4)合并具有連續(xù)屬性的值,即能夠?qū)⑦B續(xù)值屬性轉(zhuǎn)換為離散的二值屬性,轉(zhuǎn)換的原則是對(duì)連續(xù)值屬性進(jìn)行分割,對(duì)各種可能的分割分別計(jì)算信息增益率,選擇具有最大信息增益率的分割.
電廠鍋爐效率的海量數(shù)據(jù)是一組連續(xù)性的屬性值,而且其中存在缺少屬性值的數(shù)據(jù).采用基于決策樹模型的C4.5算法完全符合電廠需求,可以有效處理電廠數(shù)據(jù).
本文主要通過(guò)基于Java平臺(tái)的Weka軟件作為數(shù)據(jù)挖掘工具,以決策樹分析中的C4.5算法為基礎(chǔ),以鍋爐效率為目標(biāo)屬性,選擇與鍋爐運(yùn)行相關(guān)的參數(shù)進(jìn)行分類,并提取有用的分類規(guī)則,指導(dǎo)鍋爐優(yōu)化運(yùn)行.
鍋爐運(yùn)行參數(shù)調(diào)整受機(jī)組負(fù)荷的影響較大,因此選擇某一負(fù)荷下的參數(shù)樣本數(shù)據(jù)進(jìn)行分析會(huì)更有意義,本文選取600 MW機(jī)組負(fù)荷燃燒狀況較優(yōu)時(shí)的運(yùn)行數(shù)據(jù),對(duì)經(jīng)過(guò)模糊粗糙集[5]預(yù)處理后約簡(jiǎn)的共1 533組數(shù)據(jù)7個(gè)屬性進(jìn)行決策樹分析.
鍋爐效率是表征鍋爐運(yùn)行經(jīng)濟(jì)性的指標(biāo),可作為決策樹算法中的決策屬性,本文將鍋爐效率離散化為3組,分別表示鍋爐效率偏低、正常和高效.離散化結(jié)果如表1所示.
表1 發(fā)電煤耗率離散化區(qū)間
利用Weka軟件選擇C4.5算法進(jìn)行決策樹分析(選取葉節(jié)點(diǎn)的最小實(shí)例數(shù)為50),得到的樹形圖如圖2所示.
圖2 決策樹樹形圖
決策樹樹形圖的基本組成部分包括決策節(jié)點(diǎn)、分支和葉子.決策樹最上面的根節(jié)點(diǎn)是整個(gè)決策樹的開始.決策樹以煙氣含氧量作為根節(jié)點(diǎn),說(shuō)明煙氣含氧量的大小是鍋爐效率高低的關(guān)鍵因素,一共產(chǎn)生了7個(gè)葉節(jié)點(diǎn),可以提取7+1條分類規(guī)則.
C4.5算法從樹的根節(jié)點(diǎn)處的所有訓(xùn)練樣本開始,選取一個(gè)屬性來(lái)區(qū)分這些樣本,對(duì)屬下的每個(gè)值產(chǎn)生一個(gè)分支,分支屬性值的相應(yīng)樣本子集被移到新生成的子節(jié)點(diǎn)上,這個(gè)算法遞歸地應(yīng)用于每個(gè)子節(jié)點(diǎn)上,直到節(jié)點(diǎn)的所有樣本都分區(qū)到某個(gè)類中,到達(dá)決策樹葉結(jié)點(diǎn)的每條路徑表示一個(gè)分類規(guī)則.這樣,對(duì)節(jié)點(diǎn)屬性值的選擇就成為自頂向下決策樹生成算法的關(guān)鍵性決策.
我們可以根據(jù)決策樹樹形圖的路徑生成8條規(guī)則,將部分規(guī)則列舉如下.
規(guī)則1 當(dāng)煙氣含氧量大于2.46%和飛灰含碳量大于2.31%時(shí),鍋爐效率偏低,即當(dāng)鍋爐效率低的時(shí)候先考慮飛灰含碳量是否過(guò)大,其原因可能是鍋爐爐膛燃燒不充分.操作人員可以調(diào)節(jié)相關(guān)參數(shù)來(lái)提高鍋爐效率.
規(guī)則2 當(dāng)煙氣含氧量小于2.46%和排煙溫度為137.59~152.92℃時(shí),鍋爐處于高效運(yùn)行,即排煙溫度直接影響鍋爐燃燒狀況的好壞.要使鍋爐運(yùn)行效率處于高水平狀態(tài)必須嚴(yán)格控制排煙溫度.
規(guī)則3 當(dāng)煙氣含氧量小于2.46%和排煙溫度大于152.92℃時(shí),鍋爐效率處于正常水平.此時(shí)可以不做調(diào)節(jié),但如果要提高鍋爐效率,操作人員可以根據(jù)規(guī)則2進(jìn)行調(diào)節(jié).
(1)C4.5算法由于易于轉(zhuǎn)化為圖像顯示的特點(diǎn),因而使用范圍很廣.通過(guò)數(shù)據(jù)預(yù)處理、構(gòu)造和修剪決策樹、進(jìn)行分析和評(píng)估、生成分類規(guī)則等步驟,完成了分類數(shù)據(jù)的挖掘.但由于選擇的屬性不同,模型的精度也會(huì)不同,因此在今后的實(shí)驗(yàn)過(guò)程中應(yīng)該盡可能全面顧及各個(gè)影響參數(shù),改善不足之處,以提高模型的精確度.
(2)根據(jù)電力行業(yè)的特點(diǎn)和火電廠運(yùn)行特性,運(yùn)用C4.5決策樹數(shù)據(jù)挖掘的方法,對(duì)電廠鍋爐運(yùn)行效率進(jìn)行分析,樹狀圖形象地反應(yīng)了鍋爐效率與煙氣含氧量、主蒸汽溫度和機(jī)組效率之間的關(guān)系.通過(guò)分類提取有用分類規(guī)則,根據(jù)預(yù)期鍋爐效率來(lái)控制煙氣含氧量、飛灰含碳量等參數(shù),為鍋爐的優(yōu)化運(yùn)行提供指導(dǎo).
[1]楊清,楊岳湘.基于決策樹的學(xué)習(xí)算法[J].湘潭師范學(xué)院學(xué)報(bào),1999,20(3):56-60.
[2]楊明,張載鴻.決策樹算法ID3的研究[J].微機(jī)發(fā)展,2002,12(5):6-9.
[3]吳楠,宋方敏.用C4.5算法對(duì)局域網(wǎng)數(shù)據(jù)包進(jìn)行行為分類[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006,16(7):1-3.
[4]QUINLAN J Ross.C4.5:Programs for machine learning[M].SanMate,CA:Morgan Kaufmann Publishers,1993:6-26.
[5]ANDREW Kusiak.Rough set theory:a data mining tool for semiconductor manufacturing[J].IEEE Transactionson Electronics Packaging Manufacturing,2001,24(1):44-50.