孫永平 王立峰 張震偉 楊勤
(1. 浙江浙能技術(shù)研究院有限公司, 杭州 311121;2. 山東魯能軟件技術(shù)有限公司, 濟(jì)南 250001)
隨著電力系統(tǒng)體制改革深化與電力市場(chǎng)交易機(jī)制的快速推進(jìn),發(fā)電企業(yè)之間的競(jìng)爭(zhēng)日益激烈[1],加之在政策影響和市場(chǎng)選擇的作用下,新能源發(fā)電擴(kuò)張迅猛,嚴(yán)重沖擊火電機(jī)組的整體容量和上網(wǎng)份額[2],火力發(fā)電企業(yè)生存環(huán)境日趨嚴(yán)峻。在此形勢(shì)下,挖掘和拓展發(fā)電企業(yè)自身的節(jié)能降耗潛力、降低發(fā)電成本已成為大勢(shì)所趨。供電煤耗作為衡量機(jī)組運(yùn)行經(jīng)濟(jì)性的重要指標(biāo),同樣也是發(fā)電變動(dòng)成本的重要構(gòu)成要素,把握機(jī)組運(yùn)行供電煤耗對(duì)于發(fā)電企業(yè)競(jìng)價(jià)上網(wǎng)的報(bào)價(jià)決策具有重要意義。
傳統(tǒng)供電煤耗的計(jì)算方法主要為正平衡煤耗和反平衡煤耗兩種[3],這兩種計(jì)算方法都有入爐煤化驗(yàn)數(shù)據(jù)參與計(jì)算,但在實(shí)際生產(chǎn)過(guò)程中,煤質(zhì)化驗(yàn)結(jié)果的得出與上報(bào)存在時(shí)間上的滯后性,在電廠的各類信息化系統(tǒng)中,實(shí)時(shí)供電煤耗的計(jì)算結(jié)果都會(huì)受到影響,出現(xiàn)不準(zhǔn)確的情況。電廠鍋爐制粉設(shè)備和燃燒設(shè)備的結(jié)構(gòu)、選型以及鍋爐受熱面的布置方式對(duì)煤質(zhì)都有一定的要求,入爐煤的全水分、收到基灰分、干燥基全硫、干燥無(wú)灰基揮發(fā)分、收到基低位發(fā)熱量以及灰熔融性等性質(zhì)都會(huì)有一定的限制性,所以一定程度上電廠的煤種又是相對(duì)穩(wěn)定的[4]。
20世紀(jì)90年代以來(lái),軟測(cè)量技術(shù)逐步成為工業(yè)領(lǐng)域重要的研究方向[5],從理論研究到實(shí)際生產(chǎn)應(yīng)用,軟測(cè)量技術(shù)在火電行業(yè)取得了長(zhǎng)足的發(fā)展。飛灰含碳量、煙氣氧量、入爐煤種、球磨機(jī)出力等取樣周期長(zhǎng)、結(jié)果過(guò)于滯后、難以直接測(cè)量等重要運(yùn)行指標(biāo),成為軟測(cè)量技術(shù)研究和應(yīng)用的主要對(duì)象。趙新木等[6]提出了一種基于誤差反向傳播(BP)神經(jīng)網(wǎng)絡(luò)的方法,建立了煤粉鍋爐的飛灰含碳量預(yù)測(cè)模型。文雯等[7]利用了隨機(jī)森林算法運(yùn)算速度快、調(diào)整參數(shù)少、抗噪聲能力強(qiáng)、不易出現(xiàn)過(guò)擬合等優(yōu)點(diǎn),結(jié)合供電煤耗作為機(jī)組整體經(jīng)濟(jì)性指標(biāo)受多維參數(shù)影響的特點(diǎn),提出了一種基于并行隨機(jī)森林算法的火電機(jī)組供電煤耗計(jì)算模型。國(guó)內(nèi)已有人基于支持向量機(jī)(SVM)在模式識(shí)別與機(jī)器學(xué)習(xí)中的良好的數(shù)學(xué)性質(zhì)提出了一種基于最小二乘支持向量機(jī)和PSO算法的電廠煙氣含氧量軟測(cè)量模型[8]。Jamshid Khorshidi利用遺傳算法可對(duì)多個(gè)自變量同時(shí)進(jìn)行尋優(yōu)的特點(diǎn),提出了一種以主汽壓力、給水溫度、真空、排煙溫度、排煙氧量、飛灰含碳量為自變量的煤耗率優(yōu)化模型[9]。以上文獻(xiàn)中,均是應(yīng)用軟測(cè)量技術(shù)對(duì)火電機(jī)組內(nèi)難以直接測(cè)量的重要運(yùn)行指標(biāo)進(jìn)行預(yù)測(cè)評(píng)估,只是應(yīng)用機(jī)器學(xué)習(xí)數(shù)學(xué)模型分析出該指標(biāo)與運(yùn)行控制參數(shù)之間的非線性關(guān)系,缺少基于機(jī)組實(shí)際運(yùn)行工況情況對(duì)軟測(cè)量指標(biāo)實(shí)時(shí)優(yōu)化應(yīng)用研究。因此,本文基于同工況種類的參數(shù)尋優(yōu)思想,應(yīng)用隨機(jī)森林回歸技術(shù),從火電機(jī)組歷史數(shù)據(jù)中挖掘供電煤耗與多種運(yùn)行控制參數(shù)間的非線性映射關(guān)系;然后,基于遺傳算法,提出工況距離就近匹配的優(yōu)化策略,用于實(shí)現(xiàn)以供電煤耗最少為目標(biāo)的運(yùn)行參數(shù)控制優(yōu)化。在工況匹配應(yīng)用中,本文采用凝聚層次聚類算法對(duì)機(jī)組數(shù)據(jù)進(jìn)行工況劃分,實(shí)現(xiàn)機(jī)組相似類型數(shù)據(jù)的高效特征分析,更有利于機(jī)組煤耗的實(shí)時(shí)優(yōu)化。
分類回歸樹(shù)(Classification And Regression Tree,CART)是一種典型的二叉決策樹(shù),依據(jù)待預(yù)測(cè)結(jié)果的數(shù)據(jù)類型可以實(shí)現(xiàn)數(shù)據(jù)的分類或者回歸功能。隨機(jī)森林回歸算法是2001年Breiman[10]采用集成算法的思想,在每個(gè)CART樹(shù)的構(gòu)建上采取隨機(jī)參數(shù)的選擇,使得隨機(jī)森林中每一棵樹(shù)都盡可能不相關(guān),然后組合多顆決策樹(shù)進(jìn)行預(yù)測(cè)。隨機(jī)森林回歸算法具有算法運(yùn)行速度快、調(diào)整參數(shù)少、穩(wěn)健性強(qiáng)且計(jì)算開(kāi)銷小的優(yōu)點(diǎn)。
Fernandez-Delgado[11]在對(duì)121個(gè)UCI數(shù)據(jù)集上進(jìn)行了179個(gè)分類算法的性能比較表明,隨機(jī)森林試驗(yàn)效果表現(xiàn)最為出色。而在隨機(jī)森林回歸算法中,則是將每一棵CART樹(shù)建立為回歸樹(shù)。然后,隨機(jī)森林中每個(gè)決策樹(shù)的預(yù)測(cè)值求平均,作為最終的隨機(jī)森林預(yù)測(cè)結(jié)果。下面將對(duì)CART樹(shù)的均方誤差最小準(zhǔn)則進(jìn)行介紹。
假設(shè)X與Y為數(shù)據(jù)的一組輸入變量與輸出變量,并且Y具有連續(xù)性,訓(xùn)練數(shù)據(jù)集D={x1,y1,x2,y2,……,xn,yn}。
這里使用均方誤差對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)結(jié)果進(jìn)行優(yōu)劣評(píng)估,從而得到每個(gè)節(jié)點(diǎn)的最優(yōu)選擇。
遺傳算法(Genetic Algorithm)由Holland建立[12],通過(guò)模擬自然界中優(yōu)勝劣汰的思想來(lái)尋找全局最優(yōu)解,具有良好的魯棒性、并行性和高效性的特點(diǎn)。近些年,遺傳算法正在不斷地與神經(jīng)網(wǎng)絡(luò)、模糊推理和混沌理論等其他智能算法相互滲透與結(jié)合,已應(yīng)用于電力系統(tǒng)的多個(gè)領(lǐng)域內(nèi),如電力負(fù)荷數(shù)據(jù)修正[13]、熱電機(jī)組儲(chǔ)熱罐[14]。本文中機(jī)組供電煤耗優(yōu)化的目的在于選取最優(yōu)機(jī)組運(yùn)行控制參數(shù),最小化機(jī)組供電煤耗。經(jīng)典遺傳算法已具有強(qiáng)大的全局尋優(yōu)能力,本文將應(yīng)用該算法進(jìn)行機(jī)組供電煤耗優(yōu)化。
本文中遺傳算法主要用于在建立煤耗值高準(zhǔn)確度預(yù)測(cè)后,在正??烧{(diào)參數(shù)范圍內(nèi)進(jìn)行多項(xiàng)參數(shù)值的調(diào)節(jié),尋找煤耗值的最小值,從而得到最優(yōu)煤耗值。
凝聚層次聚類(Hierarchical Agglomerative Clustering,HAC)屬于一種聚類算法,本質(zhì)是將每一個(gè)樣本點(diǎn)都當(dāng)成一個(gè)聚類,通過(guò)不斷合并臨近的兩個(gè)點(diǎn),直到滿足設(shè)置的迭代終止條件,最終得到的聚類中心可較高精度地代表每類數(shù)據(jù)的信息,HAC聚類算法的完整流程如下。
步驟1:將輸入樣本集{x1,x2,x3,x4……,xn}中的每個(gè)樣本都單獨(dú)的歸為一類,即Cn=xn。
步驟2:分別計(jì)算樣本與樣本的距離,Mn,m=dist(Cn,Cm)。
步驟3:找到距離最小的兩個(gè)樣本,合并聚類,Cn=Cn∪Cm,將Cm后的樣本聚類(簇)編號(hào)向前移動(dòng)一位。
步驟4:刪除Mn,m=dist(Cn,Cm)的第n行、m列,并重新更新Mn,m與樣本聚類(簇)數(shù)量。
步驟5:反復(fù)進(jìn)行步驟4,直到樣本聚類(簇)數(shù)量達(dá)到設(shè)定的目標(biāo)值。
在本文中,機(jī)組負(fù)荷、凝汽器真空、循環(huán)水平均進(jìn)水溫度3個(gè)參數(shù)作為工況劃分參數(shù),使用HAC聚類算法實(shí)現(xiàn)自動(dòng)工況劃分,聚類分析后,將同類別的3個(gè)參數(shù)數(shù)據(jù)集中在一定范圍內(nèi)。
以某電廠1000 MW機(jī)組為研究對(duì)象,依據(jù)機(jī)組的結(jié)構(gòu)設(shè)計(jì)以及機(jī)組供電煤耗的影響因素情況分析,確定以表1的47個(gè)測(cè)點(diǎn)作為模型測(cè)點(diǎn)表。應(yīng)用隨機(jī)森林回歸模型時(shí),模型的輸出變量為機(jī)組供電煤耗率,其他46個(gè)參數(shù)作為模型的輸入變量;應(yīng)用遺傳優(yōu)化模型時(shí),機(jī)組供電煤耗率作為模型優(yōu)化的目標(biāo)參數(shù),再熱蒸汽溫度、再熱器減溫水流量補(bǔ)償后、主蒸汽溫度、凝汽器真空、排煙平均溫度、空預(yù)器平均出口氧量6個(gè)參數(shù)作為模型優(yōu)化的優(yōu)化控制參數(shù);應(yīng)用凝聚層次聚類算法進(jìn)行工況劃分時(shí),實(shí)發(fā)功率、凝汽器真空及循環(huán)水平均進(jìn)水溫度3個(gè)參數(shù)作為工況識(shí)別參數(shù)。
表1 模型測(cè)點(diǎn)表
本文所采用數(shù)據(jù)中除供電煤耗率之外,其余參數(shù)全部取自電廠SIS系統(tǒng)存儲(chǔ)數(shù)據(jù)庫(kù)。采樣頻率為1 min,采樣時(shí)間為3年。通過(guò)傳統(tǒng)極差判斷方式剔除歷史機(jī)組數(shù)據(jù)中的非穩(wěn)態(tài)數(shù)據(jù),保留36 萬(wàn)組穩(wěn)態(tài)數(shù)據(jù),為檢測(cè)模型的魯棒性,隨機(jī)抽取26 萬(wàn)組數(shù)據(jù)作為模型訓(xùn)練樣本數(shù)據(jù),剩余10 萬(wàn)作為模型測(cè)試樣本數(shù)據(jù)。使用隨機(jī)森林算法對(duì)機(jī)組供電煤耗軟測(cè)量是在不具備實(shí)時(shí)化驗(yàn)數(shù)據(jù)的前提下,通過(guò)利用其他重要運(yùn)行參數(shù)對(duì)供電煤耗具有的潛在關(guān)系實(shí)現(xiàn)的,因此為保證訓(xùn)練模型的準(zhǔn)確性,需要對(duì)采集的歷史數(shù)據(jù)進(jìn)行預(yù)處理,包括去除離群數(shù)據(jù)、穩(wěn)態(tài)數(shù)據(jù)的篩選、供電煤耗的補(bǔ)算,從而獲取能夠滿足挖掘分析的樣本集合。
(1)去除離群數(shù)據(jù)。離群數(shù)據(jù)多屬于設(shè)備傳感器受影響、損壞、脫落等問(wèn)題導(dǎo)致的不正常數(shù)據(jù),因此這種數(shù)據(jù)不符合數(shù)據(jù)挖掘的要求,需要去除。本文采用箱線圖的方法進(jìn)行離群數(shù)據(jù)去除,具體包括:計(jì)算每個(gè)參數(shù)的數(shù)據(jù)四分位距iqr、上四分位數(shù)prctile75及下四分位數(shù)prctile25,則該參數(shù)的上限閾值為:threupper=prctile75+3×iqr,該參數(shù)的下限閾值為:threlower=prctile25-3×iqr,則每個(gè)參數(shù)的數(shù)據(jù)按照超過(guò)上限閾值threupper或者低于下限閾值threlower的判斷標(biāo)準(zhǔn)來(lái)剔除該參數(shù)存在的離群數(shù)據(jù)。
(2)穩(wěn)態(tài)數(shù)據(jù)的篩選。受系統(tǒng)整體的工質(zhì)和能量傳遞影響,機(jī)組在變工況過(guò)程中,各測(cè)點(diǎn)采集的數(shù)據(jù)在時(shí)間上存在不一致性,此時(shí)供電煤耗的機(jī)理計(jì)算結(jié)果存在一定的偏差,故為保證模型訓(xùn)練能夠達(dá)到預(yù)期精度,需要區(qū)分機(jī)組歷史數(shù)據(jù)是否穩(wěn)態(tài),訓(xùn)練階段只使用運(yùn)行穩(wěn)定的工況,穩(wěn)態(tài)數(shù)據(jù)的判斷標(biāo)準(zhǔn),這里使用時(shí)間窗口內(nèi)的數(shù)據(jù)極差小于總體訓(xùn)練數(shù)據(jù)極差的10%。例如,機(jī)組負(fù)荷數(shù)據(jù)在整個(gè)歷史時(shí)間段內(nèi)的極差為800,則以機(jī)組負(fù)荷判定穩(wěn)態(tài)數(shù)據(jù)時(shí),其時(shí)間窗口內(nèi)的數(shù)據(jù)極差值不能大于80。
(3)供電煤耗補(bǔ)算。由于供電煤耗數(shù)據(jù)不存在于歷史數(shù)據(jù)庫(kù)中,需要通過(guò)機(jī)理公式計(jì)算出來(lái),為挖掘歷史數(shù)據(jù)中關(guān)聯(lián)參數(shù)與供電煤耗的回歸關(guān)系模型,故需要通過(guò)機(jī)理公式計(jì)算供電煤耗。
如圖1所示,基于隨機(jī)森林回歸的供電煤耗遺傳優(yōu)化模型的模型流程主要分為以下步驟。
圖1 機(jī)組供電煤耗優(yōu)化模型流程
(1)穩(wěn)態(tài)數(shù)據(jù)識(shí)別:通過(guò)極差判斷方法從歷史數(shù)據(jù)中識(shí)別出穩(wěn)定運(yùn)行工況下的數(shù)據(jù)。
(2)隨機(jī)森林回歸:以全部訓(xùn)練樣本數(shù)據(jù)進(jìn)行隨機(jī)森林回歸模型擬合,挖掘出供電煤耗跟模型輸入?yún)?shù)的非線性關(guān)系模型。
(3)凝聚層次聚類:對(duì)工況識(shí)別參數(shù)的訓(xùn)練樣本數(shù)據(jù)進(jìn)行工況劃分,實(shí)現(xiàn)將相似工況的樣本數(shù)據(jù)作為同種工況數(shù)據(jù)。
(4)遺傳算法優(yōu)化:以煤耗參數(shù)最佳,通過(guò)尋優(yōu)方式挖掘在同種工況下的最佳優(yōu)化控制策略。
(5)遺傳優(yōu)化模型運(yùn)行:對(duì)穩(wěn)態(tài)類型的實(shí)時(shí)運(yùn)行數(shù)據(jù)進(jìn)行優(yōu)化控制策略搜尋,并輸出實(shí)時(shí)最優(yōu)煤耗值。
其中,Yactual為模型輸出參數(shù)的實(shí)際值,Ypredict為模型輸出參數(shù)的預(yù)測(cè)值,Ymean為模型輸出參數(shù)的實(shí)際值的平均值。根據(jù)GridSearchCV法得到的模型超參值對(duì)26 萬(wàn)條訓(xùn)練樣本數(shù)據(jù)訓(xùn)練隨機(jī)森林回歸模型,模型訓(xùn)練的整體擬合效果為決定系數(shù)R2為0.99,同時(shí)10 萬(wàn)條測(cè)試數(shù)據(jù)整體代入回歸模型的擬合效果為其決定系數(shù)R2為0.988。
分析3個(gè)工況識(shí)別參數(shù)的26 萬(wàn)條訓(xùn)練樣本數(shù)據(jù)可知,實(shí)發(fā)功率測(cè)點(diǎn)的數(shù)據(jù)分布范圍為400 MW~1050 MW,凝汽器真空平均值的數(shù)據(jù)分布范圍為-100 kpa~-87 kpa,循環(huán)水平均進(jìn)水溫度數(shù)據(jù)分布范圍為3℃~36℃。按照本文凝聚層次聚類法的步驟,對(duì)全部訓(xùn)練樣本進(jìn)行工況劃分,得到420 種工況類型,屬于同類工況全部數(shù)據(jù)的平均值將被作為工況類中心數(shù)據(jù)(見(jiàn)表2)。展示部分工況下的工況類中心數(shù)據(jù),可以看出不同工況類別下的類中心數(shù)值有明顯差別,說(shuō)明凝聚層次聚類法有較好的工況劃分效果。
表2 基于凝聚層次聚類的工況類中心數(shù)據(jù)
在模型運(yùn)行的工況匹配階段,3個(gè)工況識(shí)別參數(shù)的實(shí)時(shí)數(shù)據(jù)與每個(gè)工況的類中心數(shù)據(jù)計(jì)算距離,距離最小的類別將作為工況匹配結(jié)果。匹配工況中的優(yōu)化控制最佳參數(shù)將作為當(dāng)前的優(yōu)化控制策略。
在火電機(jī)組的運(yùn)行過(guò)程中,t時(shí)刻的供電煤耗值p(t)由多個(gè)優(yōu)化控制參數(shù)a,b,c,…,n與不可控制參數(shù)A,B,C,…N同時(shí)影響,具體公式為:pt=fat+fbt+fct+…+fnt+fAt+fBt+fCt+…+fNt。
優(yōu)化控制參數(shù)的取值范圍依據(jù)匹配工況下的每個(gè)優(yōu)化控制參數(shù)最高值與最低值?;陔S機(jī)森林遺傳優(yōu)化算法將在全部?jī)?yōu)化控制參數(shù)的取值范圍內(nèi)尋優(yōu)出一個(gè)優(yōu)化控制策略,其能保證在該工況下目標(biāo)參數(shù)最佳,即機(jī)組供電煤耗最低。
基于隨機(jī)森林遺傳優(yōu)化算法流程如圖2所示,在交叉/變異前將優(yōu)化控制參數(shù)數(shù)值轉(zhuǎn)換為二進(jìn)制編碼,交叉/變異結(jié)束后再解碼成十進(jìn)制常數(shù)并再次進(jìn)行隨機(jī)森林預(yù)測(cè),繼續(xù)從中選取表現(xiàn)效果好的種群個(gè)體編碼成二進(jìn)制再次進(jìn)行交叉/變異?;陔S機(jī)森林遺傳優(yōu)化算法在到達(dá)迭代次數(shù)設(shè)定值或者優(yōu)化煤耗值不再發(fā)生變化時(shí)遺傳算法停止,輸出的供電煤耗最小值作為最優(yōu)值輸出。
圖2 基于隨機(jī)森林的遺傳算法流程
通過(guò)歷史數(shù)據(jù)構(gòu)建機(jī)組供電煤耗與相關(guān)參數(shù)的隨機(jī)森林回歸模型、基于凝聚層次聚類的工況劃分模型,以及基于遺傳算法構(gòu)建每個(gè)工況的優(yōu)化控制策略數(shù)據(jù)庫(kù)。完整的流程如圖1所示,優(yōu)化控制策略數(shù)據(jù)庫(kù)結(jié)構(gòu)示例如表3所示,其中優(yōu)化控制參數(shù)a、b、c為遺傳算法對(duì)機(jī)組供電煤耗值優(yōu)化后得到的數(shù)值。
表3 最優(yōu)控制策略數(shù)據(jù)庫(kù)結(jié)構(gòu)示例
按照上述方式,將預(yù)先擬定的主蒸汽溫度、再熱蒸汽溫度、再熱器減溫水流量補(bǔ)償、凝汽器真空平均值、平均排煙溫度、空預(yù)器平均出口氧量等6個(gè)參數(shù)作為優(yōu)化控制參數(shù),機(jī)組供電煤耗作為目標(biāo)參數(shù),在同種工況下進(jìn)行優(yōu)化控制策略搜索,依據(jù)最優(yōu)優(yōu)化控制策略觀察歷史上4個(gè)時(shí)刻優(yōu)化機(jī)組供電煤耗的效果,可以看出4個(gè)時(shí)刻的機(jī)組供電煤耗的優(yōu)化值均小于實(shí)際值,按照搜索到的優(yōu)化控制策略進(jìn)行調(diào)整能起到減少機(jī)組供電煤耗的效果。
基于隨機(jī)森林回歸和遺傳算法,通過(guò)實(shí)際數(shù)據(jù)測(cè)試可知優(yōu)化得到的火電機(jī)組供電煤耗優(yōu)化策略能夠有效地降低機(jī)組供電煤耗,越低的機(jī)組供電煤耗意味著更高的煤炭利用率,對(duì)于提高電廠收益具有重要意義。通過(guò)凝聚層次聚類方法可高效實(shí)現(xiàn)歷史數(shù)據(jù)工況劃分與實(shí)時(shí)數(shù)據(jù)工況匹配,同時(shí)獲取每個(gè)工況類型下的最優(yōu)優(yōu)化控制策略。本文以47個(gè)關(guān)聯(lián)參數(shù)作為隨機(jī)森林回歸模型變量,得到的回歸模型對(duì)供電煤耗的預(yù)測(cè)平均誤差在2.4%以下,其預(yù)測(cè)精度較高,結(jié)合實(shí)際生產(chǎn)運(yùn)行經(jīng)驗(yàn)來(lái)優(yōu)化隨機(jī)森林預(yù)測(cè)模型的自變量參數(shù),隨機(jī)森林回歸算法預(yù)期效果會(huì)更佳?;陔S機(jī)森林回歸的火電機(jī)組供電煤耗遺傳優(yōu)化模型依賴于火電機(jī)組供電煤耗訓(xùn)練數(shù)據(jù)的準(zhǔn)確性,當(dāng)火電機(jī)組供電煤耗歷史數(shù)據(jù)計(jì)算不準(zhǔn)確時(shí),本方法將不能構(gòu)建準(zhǔn)確反映供電煤耗參數(shù)與其關(guān)聯(lián)參數(shù)的回歸模型。