唐振浩 吳笑妍 曹生現(xiàn)
摘要:針對電站鍋爐效率難以準確測定問題,依據(jù)機器學習理論,采用數(shù)據(jù)驅動建模方法建立鍋爐效率預測模型。分類回歸樹(CART)算法通過數(shù)據(jù)分析選取對鍋爐效率影響顯著的相關變量。然后,K最近鄰(KNN)分類器對相關變量的樣本進行分類,區(qū)分不同工況生產數(shù)據(jù)。根據(jù)不同工況數(shù)據(jù),設計了一種基于差分進化算法(DE)的最小二乘支持向量機(LSSVM)建立數(shù)據(jù)驅動模型(DDMMF)。DE動態(tài)優(yōu)化15SVM的參數(shù)以提高模型精度。最后,對預測模型進行動態(tài)修正進一步提高預測精度。基于實際生產數(shù)據(jù)的實驗結果表明,該模型能夠準確預測鍋爐燃燒效率,滿足鍋爐燃燒過程控制和優(yōu)化的需求。
關鍵詞:特征選取;K最近鄰分類器;數(shù)據(jù)驅動模型;模型修正;鍋爐燃燒效率
DOI:10.15938/j.jhust.2020.02.001
中圖分類號:TT274;TM621;TM31文獻標志碼:A文章編號:1007-2683(2020)02-0001-07
0 引言
燃煤鍋爐在實際運行過程中的鍋爐效率低于設計值,不僅降低生產效率,而且影響鍋爐的安全運行。鍋爐生產過程具有多參數(shù)、多工況、非線性等特點,難以準確建立鍋爐效率預測模型。因此,本文對鍋爐燃燒效率建模方法進行研究。
已有的鍋爐燃燒效率建模方法可以簡單概括為3類:機理、統(tǒng)計以及數(shù)據(jù)驅動方法。機理方法、統(tǒng)計方法在一定程度上不適合直接應用到鍋爐效率的控制與優(yōu)化過程中。因此,數(shù)學驅動方法被應用于鍋爐效率預測中。LSSVM算法具有計算效率高、需要樣本少等優(yōu)點,其參數(shù)對其建模精度具有顯著影響,因此,本文采用差分進化(DE)算法優(yōu)化LSSVM的參數(shù)提高模型預測精度。為了進一步提高預測模型的精度,本文設計一種動態(tài)誤差校正策略在線修正預測結果,取得良好效果。
在DE-LSSVM建模過程,由于輸入?yún)?shù)多,導致建模過程的規(guī)模和復雜性較大。解決這一問題的主要方法是在建模之前對輸入變量進行選取。由Breiman等提出的分類回歸樹(CART)方法可以獲取影響鍋爐效率重要因素,克服了其他特征選取方法的不足。另外,考慮到鍋爐生產過程受電網(wǎng)負荷影響,存在多工況運行的情況,本文采用KNN方法,對生產數(shù)據(jù)進行聚類分析,區(qū)分不同工況下生產數(shù)據(jù),分別進行建模,提高鍋爐效率預測精度。
在本文中,采用CART算法通過數(shù)據(jù)分析選取影響鍋爐燃燒效率的重要變量。并采用KNN分類器對樣本數(shù)據(jù)進行分類,區(qū)分不同工況下的生產數(shù)據(jù)。在此基礎上,設計了一種基于DE-LSSVM建立數(shù)據(jù)驅動模型。最后,本文對預測模型進行動態(tài)修正進一步提高預測精度。采用實際生產數(shù)據(jù)的實驗結果表明,與多層感知機(MLP)、BP神經(jīng)網(wǎng)絡(BPNN)、差異進化算法優(yōu)化的最小二乘支持向量機(DE-LSSVM)方法相比,本文提出的算法具有較好的泛化能力和預測精度。
1 基礎算法
1.1最小二乘支持向量機
LSSVM是在標準SVM基礎上,由Sukens等提出。相較于SVM,LSSVM求解問題的速度以及收斂精度有很大的提高。假設給定一個N個樣本的訓練集合{(xk,yk)|k=1,2,…,N},其中xk∈R表示第k個樣本輸入量;yk∈R表示第k個樣本輸出。由參考文可得到LSSVM非線性預測模型:
已有研究表明徑向基核函數(shù)(RBF)具有較強的泛化能力,因此本文選取RBF作為LSSVM的內核函數(shù),其表達為:
其中:x為新輸入樣本;xk為核函數(shù)中心;δ2是內核參數(shù)。
1.2 差分進化算法
差分進化(Differential Evolution,DE)是RStorn和K。Price在1995年所提出的。該算法基本原理是通過群體內個體間的合作與競爭產生的群體智能指導優(yōu)化搜索。在典型的DE算法中,每一代的種群演化是由變異,交叉和選擇3個主要步驟組成,如式(3-5)所示:
2 鍋爐燃燒效率建模
在數(shù)據(jù)準備階段中,本文首先采用CART從眾多變量中選取對鍋爐燃燒效率顯著相關的特征(2.1節(jié));然后KNN分類器將新的數(shù)據(jù)進行工況分類(2.2節(jié)),將分成兩類的工況數(shù)據(jù)分別采用DE動態(tài)優(yōu)化的LSSVM混合建模(2.3節(jié));并且在此基礎上進行模型修正(2.4節(jié)),提高預測精度。
2.1 特征選取
CART是基于基尼系數(shù)gini實現(xiàn),采用gini系數(shù)衡量數(shù)據(jù)集的劃分效果,將數(shù)據(jù)集依照評分標準進行分類。假設數(shù)據(jù)集T中的因變量存在n個類別,則數(shù)據(jù)集T的基尼系數(shù)如公式如(6)所示:
其中,T代表當前樣本集;n為類別數(shù);Pi為數(shù)據(jù)集樣本不同類別的概率。
對于變量應在式(7)基礎上,計算每個類別的加權和,如式(9)所示:
其中:N為訓練樣本集個數(shù);N1為第一類別樣本個數(shù);N2為第二類別樣本個數(shù);T為數(shù)據(jù)集;T1是第一數(shù)據(jù)集;T2是第二數(shù)據(jù)集。
當數(shù)據(jù)集樣本不同類別概率的平方p2很小時,說明按照gs(T)最小原則得到的分類條件和類別是獨立,此時節(jié)點停止分裂。則變量重要性得分(Dr)與數(shù)據(jù)集樣本不同類別概率Pj關系,如公式(8)所示:
其中:n為類別數(shù);pj為數(shù)據(jù)集樣本不同類別的概率。
2.2 工況分類
KNN分類器主要由k值選取、距離度量方式和分類決策規(guī)則三要素組成。首先,KNN通過交叉驗證對固定的樣本數(shù)據(jù)進行k值選取。其次針對不同工況進行距離測量函數(shù),與文類似,本文采用歐式距離計算工況相似度。Sim(d1,d2)表示兩組實際生產數(shù)據(jù)的相似度,如公式(9)所示。最后分類器依據(jù)工況分類將樣本數(shù)據(jù)分成兩類,并采用多數(shù)表決法將新數(shù)據(jù)進行歸類,即KNN分類器通過訓練集里的樣本數(shù)據(jù)將新的樣本數(shù)據(jù)進行歸類,并使用相應的模型進行預測。
其中:W1i和W2i表示為2個n維向量的實際生產數(shù)據(jù)值;d1和d2為n維向量中相應特征項的權重。
2.3 數(shù)學驅動建模
本文采用DE來優(yōu)化選取LSSVM中的核函數(shù)δ。以及懲罰因子C。在DE-LSSVM算法中,LS-SVM根據(jù)DE粒子信息和建模數(shù)據(jù)構建預測模型;DE算法根據(jù)LSSVM建立模型計算粒子適應度函數(shù)值,通過不斷迭代獲取最優(yōu)參數(shù)組合。根據(jù)采用2.2方法進行分類之后的數(shù)據(jù)分別進行建模,建模過程如圖1所示。
具體流程如下所示:
Step l:初始化DE參數(shù),種群規(guī)模Np;最大迭代數(shù)Gm;縮放因子λ;并初始化代數(shù)G;將個體最優(yōu)解pij設置為初始個體值;將全局最優(yōu)解Pgi設置為第一代最優(yōu)個體值;
Step 2:根據(jù)個體信息,采用歸一化后的訓練樣本構建LSSVM模型,并計算各個個體的適應度值。其適應度值如(10)所示
其中:N表示測試樣本的數(shù)量;Yi為預期鍋爐燃燒效率;Yi是預測鍋爐燃燒效率;
Step 3:判斷是否達到最大迭代數(shù),如果是,則停止算法,獲取最優(yōu)參數(shù)C,λ2,并輸出預測模型;否則,繼續(xù)執(zhí)行步驟4;
Step 4:對個體變異、交叉、選擇操作,產生新的個體,迭代數(shù)C=G+1;執(zhí)行步驟2.
2.4 模型修正
模型在建模過程中會存在系統(tǒng)性偏差,使得預測值低于設計值。為了減少系統(tǒng)誤差對預測精度的影響,本文對混合LSSVM模型采用了模型修正,使得預測精度更加準確,模型修正公式如(11)所示:其中:Yt是t時刻的模型校正值;Yt是t時刻的預測值;ω是0和1之間的常數(shù);△t是上一時刻的預測值與實際值的誤差值。Yt-1是t-1時刻的預測值;Yt-1是t-1時刻的實際值。
3 實驗結果及分析
為了驗證本文所提出算法的有效性,本節(jié)采用實際生產數(shù)據(jù)進行相關實驗,驗證本文提出的特征選取策略和工況分類策略的有效性;并且與MLP、BP神經(jīng)網(wǎng)絡等算法進行比較,最后,對實驗結果進行分析。本實驗仿真數(shù)據(jù)基于某電廠廠級監(jiān)控信息系統(tǒng)(SIS),每隔1min提取一組數(shù)據(jù),共收集35個變量(其中模型初始輸入變量34個,輸出變量1個),640組實驗數(shù)據(jù)(其中440組用來訓練模型,其余的200組作為模型測試樣本)。樣本數(shù)據(jù)全部采用極差歸一化映射到[0,1],極差歸一化公式為其中:yj為按照時間序列排列的元素絕對值;yR是極差歸一化后的映射值。
本文全部實驗在配備i5雙核Core(2.50GHz)處理器、內存2.0GB以及Windows764位操作系統(tǒng)的PC上進行,采有MA7LAB 2014a編程實現(xiàn)。
3.1 特征選取實驗結果
本文采用CART方法以主蒸汽壓力、給水量以及總風量等變量判斷輸入特征。根據(jù)式(8)求解的鍋爐燃燒效率相關重要性值得分,如圖2所示。最終選取15個特征變量,具體選取的輸入特征變量如表1所示。
3.2 評價指標
本文使用建模誤差的統(tǒng)計量對建模結果進行比較和評價,如均方根誤差(RMSE)、平均絕對誤差(MAE)、平均相對誤差(MRE)以及相關指數(shù)(R2)。RMSE是觀測值與真值偏差的平方,能夠很好地反映出測量的精密度,當RMSE值越小,測量數(shù)據(jù)偏離真實值的程度越小,精密度越高。MAE是所有單個觀測值與算術平均值的偏差的平均絕對值,能夠比較準確的反映預測誤差的大小,當MAE越小,預測誤差越小,預測精度越高。MRE是絕對誤差與測量值或多次測量的平均值的比值的平均值,它能更好地反映測量的可信程度,當值越小,預測可信度越高。R2表示預測值和原始值之間的匹配程度。當R2越接近1,預測性能越準確。
性能評判準則的計算公式如式(13)-(16)所示:
3.3 工況分類實驗結果
考慮到鍋爐生產過程存在多工況運行的情況,導致單一模型難以準確預測鍋爐燃燒效率,本文在CAR了算法篩選出相關變量后采用KNN方法,對生產數(shù)據(jù)進行工況分成2類,區(qū)分不同工況下生產數(shù)據(jù),分別進行建模,提高鍋爐效率預測精度,如圖3所示。圖3中(a)(b)分別為第一類的測試樣本和第二類測試樣本經(jīng)DE-LSSVM建模后所得的預測與實際對比圖。
從圖3可以看出該模型測試樣本中的實際值曲線與預測值曲線預測趨勢在允許誤差5%以內,這說明模型預測精度高。將新的樣本數(shù)據(jù)采用歐式距離計算每一類質心的距離,判斷新的樣本數(shù)據(jù)歸屬后,采用其相應的模型進行預測,運行后的相關性能如表2所示。從表2可以得出,采用KNN分類器作為樣本選取工具的相似系數(shù)較源模型提高了30%,運行后得到的MRE減少31%。實驗結果表明KNN算法的應用提高了鍋爐效率建模的精度和計算效率。
3.4 與其他常用算法性能比較
本文提出的DDMMF算法預測結果的相關指數(shù)為0.986,而沒對模型修正KDLSSVM模型相關指數(shù)是O。946.采用MLP模型和BPNN模型,與DE-LSSVM模型與本文所提出的模型進行預測性能比較。各個模型的對比結果如表2和圖4所示。從圖4可以看出,本文所提出DDMMF算法在預測鍋爐燃燒效率時,預測值曲線幾乎與實際值重合,表明模型能夠較好地預測鍋爐燃燒效率,從表2可看出,MLP模型在對測試樣本進行建模預測時,RMSE較DDMMF模型降低了5.979,但模型的相關指數(shù)僅為0.754.BPNN模型在預測鍋爐燃燒效率時,MRE、MAE以及RMSE都較所提出的DDMMF的性能指標小,但該模型的相關指數(shù)較本文所提出的DDMMF降低了1.4%。增加工況分類KDLSSVM建模方法在對測試樣本進行建模預測時,MRE、MAE、RMSE分別較未工況分類的DE-LSSVM建模方法降低了21%、29%、10%,但相關指數(shù)較DDMMF降低了4%,而本文所提出的DDMMF除BPNN模型,對測試樣本的性能指標都較其他所提及的模型小,且模型的相關指數(shù)達到了0.986,因此該模型較其他建模模型有著更好的擬合與預測能力。
為了進一步對比各個模型的建模精度,繪制各個算法按預測誤差絕對值的箱型圖,如圖5所示。從圖5中明顯地看出所提出的DDMMF預測誤差較為集中在零點附近,較其他幾個建模模型相比,具有更好的預測精度。
綜上所述,本文對鍋爐效率建模過程的參數(shù)選取、樣本預處理、數(shù)據(jù)驅動建模和模型校正4個環(huán)節(jié)進行研究,設計了一個完整的鍋爐效率建模算法框架,并且各個環(huán)節(jié)對提高算法的整體計算效率和計算精度都有幫助作用。這一設計思路和方法也可以推廣到其他建模過程當中。
4 結論
本文提出一種帶有特征選取的多工況數(shù)據(jù)驅動建模方法(DDMMF)建立鍋爐效率預測模型。本算法以現(xiàn)場生產數(shù)據(jù)為基礎,采用CART方法對輸入變量進行特征選取,并通過KNN算法對實驗數(shù)據(jù)進行工況分類,然后設計基于DE動態(tài)優(yōu)化的LSSVM算法進行建模,最后構造自適應模型修正算法進行提高模型精度。與常用建模算法相比具有泛化性能強、預測精度高、計算效率快等優(yōu)點。此外,基于實際生產數(shù)據(jù)的實驗結果表明,該算法更好的滿足實際生產過程的需要。下一步的研究將從算法在其他預測問題上的推廣和算法改進兩個方面開展。