劉延泉, 楊 堃,2, 王如蓓,2
(1. 華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院,河北 保定 071003; 2. 河北省發(fā)電過程仿真與優(yōu)化控制工程技術(shù)研究中心(華北電力大學(xué)),河北 保定 071003)
長(zhǎng)期以來,我國(guó)發(fā)電行業(yè)一直以煤炭為主要發(fā)電能源,燃煤過程中會(huì)產(chǎn)生大量的NOx氣體,其不但會(huì)危害到動(dòng)、植物的生長(zhǎng),更會(huì)對(duì)生態(tài)環(huán)境造成極大的危害。目前,火電行業(yè)運(yùn)行中排放的NOx已經(jīng)超過全國(guó)排放總量的1/2,大多數(shù)火電機(jī)組采用選擇性催化還原技術(shù)(Selective Catalytic Reduction, SCR)對(duì)煙氣進(jìn)行脫硝,以降低氮氧化物的排放量,同時(shí)使用煙氣自動(dòng)監(jiān)控系統(tǒng)(Continuous Emisson Monitoring System, CEMS)測(cè)量煙氣中NOx質(zhì)量濃度,但由于CEMS對(duì)NOx濃度的測(cè)量有較大的遲延,無法及時(shí)反映SCR反應(yīng)器入口NOx濃度的變化,因此得不到最佳的噴氨需求量。因此,建立有效的入口NOx濃度預(yù)測(cè)模型具有重要的意義[1~3]。
機(jī)組負(fù)荷、煤量、風(fēng)量、二次風(fēng)門開度、煙氣含氧量等眾多因素會(huì)同時(shí)影響NOx的生成,這些因素間相互耦合,單純地采用機(jī)理構(gòu)造反應(yīng)器入口NOx的預(yù)測(cè)模型有很大局限性。近年來,在NOx生成與排放的預(yù)測(cè)建模等大量非線性問題的處理中,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等人工智能技術(shù)得到了廣泛關(guān)注[4],其中,最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LSSVM)可以將二次規(guī)劃的問題轉(zhuǎn)化為線性方程組的求解,大大加快了運(yùn)算速度,因而在解決實(shí)際問題中得到了廣泛應(yīng)用,并且都取得了良好的預(yù)測(cè)效果[5-6]。LSSVM模型參數(shù)的選取對(duì)其泛化能力有很明顯的影響,主要參數(shù)包括懲罰因子C和核參數(shù)σ。在建立SCR脫硝反應(yīng)器入口NOx的LSSVM預(yù)測(cè)模型時(shí),出于降低模型復(fù)雜度、減少訓(xùn)練時(shí)間、避免“維數(shù)災(zāi)難”、易于工作者等方面考慮,需要選出相關(guān)性最強(qiáng)的特征作為此預(yù)測(cè)模型的輸入[7~9]。
本文通過對(duì)火電廠NOx生成機(jī)理及鍋爐運(yùn)行參數(shù)進(jìn)行分析,從統(tǒng)計(jì)學(xué)的角度出發(fā),基于過濾式評(píng)價(jià)準(zhǔn)則[10],采用互信息法,在同時(shí)考慮了輔助變量和主導(dǎo)變量之間的相關(guān)性及輔助變量間的冗余性后,對(duì)影響NOx生成的因素進(jìn)行了篩選,將其作為基于粒子群優(yōu)化參數(shù)的最小二乘支持向量機(jī)的輸入,建立了NOx生成的預(yù)測(cè)模型。
為使樣本數(shù)據(jù)集盡可能簡(jiǎn)單地包含原樣本中所有的信息,使用相似度來優(yōu)化訓(xùn)練樣本[11,12]。本文選取了以下相似度函數(shù):
(1)
式中:ω為歸一化參數(shù);xi、xj分別表示第i、j組樣本數(shù)據(jù);Rij表示計(jì)算所得xi與xj間的相似程度。
樣本優(yōu)化的原則:判斷兩組數(shù)據(jù)相似度Rij與閾值ε的關(guān)系,若相似度小于閾值,則保留全部這兩組數(shù)據(jù);若相似度大于閾值,則刪除兩組數(shù)據(jù)中的其中一組,從而達(dá)到優(yōu)化樣本集的目的。
本文主要采用互信息法對(duì)輔助變量進(jìn)行特征變量的篩選。熵H(X)代表平均信息量,即隨機(jī)變量X不確定性的度量,熵又稱為自信息,互信息I(X,Y)可以衡量隨機(jī)變量之間的相關(guān)性,用于評(píng)價(jià)自變量對(duì)因變量所貢獻(xiàn)的信息量,是衡量信息相關(guān)性的一種方法[13~16]?;バ畔⒌墓綖閇17]:
I(X,Y)=H(X)+H(Y)-H(X,Y)=
H(X)-H(X|Y)=H(Y)-H(Y|X)
(2)
式中:H(X)、H(Y)和H(X,Y)分別為X、Y的熵以及它們的聯(lián)合熵;H(X|Y)和H(Y|X)分別表示各自的條件熵。條件熵指知道X的情況下,Y的信息量。
(3)
(4)
(5)
式中:熵H(X)為X不確定性的度量,熵越大表示隨機(jī)變量的隨機(jī)性越大;px|y(xi,yi)為給定Y時(shí)X的條件概率;H(X|Y)則表示隨機(jī)變量Y給定的情況下隨機(jī)變量X的不確定性。
評(píng)價(jià)函數(shù)會(huì)直接影響到選擇算法的最終性能,在基于互信息特征選擇算法中起著重要作用。通常直接選取輸出變量Y與輸入變量Xi互信息值為評(píng)價(jià)指標(biāo),其中,BIF(Best Individual Feature)算法的評(píng)價(jià)函數(shù)如式(6)所示:
J(fi)=I(fi;c)
(6)
式中:fi表示待選變量;c為預(yù)測(cè)模型的主導(dǎo)變量。
該算法可以在待選變量中選出與主導(dǎo)變量具有最大相關(guān)性的輔助變量,但卻忽略了已選變量之間存在的信息冗余,而MIFS(Mutual Information Feature Selection)算法將懲罰項(xiàng)引入了評(píng)價(jià)函數(shù),降低了已選變量之間的信息冗余。MIFS算法的評(píng)價(jià)函數(shù)為:
(7)
式中:fi∈F為待選變量;c為主導(dǎo)變量;β為懲罰因子;Sj∈S為已選變量。
通過式(7)所示評(píng)價(jià)函數(shù),不僅可以選出與主導(dǎo)變量具有最大相關(guān)性的輔助變量,同時(shí)兼顧到了待選變量與已選變量之間的冗余性,做到最大可能地減少模型輔助變量的信息冗余。β越大,則表示評(píng)價(jià)指標(biāo)將更多地考慮候選變量與已選變量之間的信息冗余。
由于參數(shù)β的選擇對(duì)該算法的篩選效果具有很大的影響,而mRMR(Minimum Redundancy Maxiumum Relevance)算法解決了實(shí)際中β較難選擇的問題,該算法將可隨已選變量集大小變化的參數(shù)替代固定的β值,充分考慮了已選變量集對(duì)候選變量的影響。mRMR的評(píng)價(jià)函數(shù)為:
(8)
mRMR算法的具體流程如下:
步驟1. 初始化已選變量集合S(初始空集);初始化待選變量集合F(包含全部的n個(gè)變量)。
步驟2.選擇待選變量fi∈F,并分別計(jì)算fi與輸出變量c之間的互信息。
步驟3. 選擇首變量:選擇通過式(6)中計(jì)算出互信息數(shù)值最大的變量作為首變量,并將計(jì)算出的互信息值進(jìn)行排序。
步驟4. 貪心搜索:循環(huán)計(jì)算已選變量fs與待選變量fi之間的互信息,并且根據(jù)評(píng)價(jià)函數(shù)J最大的變量fi作為下一變量;與此同時(shí),F(xiàn)=F-{fi},S=S+{fi},直到所選變量個(gè)數(shù)達(dá)到預(yù)設(shè)變量數(shù)k。
實(shí)踐證明,使用這種變量選擇的方法篩選出的輔助變量可以建立更加精確的NOx預(yù)測(cè)模型。
y=f(x)=ωTx+b,i=1,2,…,n
(9)
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則,將回歸問題轉(zhuǎn)化為約束問題,并引入拉格朗日乘子:
L(ω,b,e,α)=J(ω,e)
(10)
式中:α為拉格朗日乘子。
分別對(duì)ω,b,e,α求偏微分,得到最優(yōu)值,進(jìn)而建立回歸函數(shù):
(11)
式中:K(x,xi)為核函數(shù)。本文選取徑向基函數(shù)作為核函數(shù),表示為:
(12)
PSO(Particle Swarm Optimization)算法是在1995年由Eberhart和Kennedy提出的一種源于對(duì)鳥群捕食行為的進(jìn)化計(jì)算技術(shù),PSO在收斂速度以及參數(shù)選擇等方面較其他優(yōu)化算法具有一定的優(yōu)勢(shì)。其基本思想是將優(yōu)化問題的所有解構(gòu)成一個(gè)粒子空間,粒子空間中的每個(gè)粒子都是優(yōu)化問題的一個(gè)解[18~20]。每個(gè)粒子都具有速度、位置及由目標(biāo)函數(shù)決定的適應(yīng)值,粒子在解空間中尋求最優(yōu)的適應(yīng)值。其算法如下所示:
vij(t+1)=ωvij(t)+c1rij(t)(pij(t)-
Xij(t))+c2r2j(t)(pgj(t)-Xij(t))
(13)
Xij(t+1)=Xij(t)+vij(t+1)
(14)
式中各參數(shù)的含義如下:
1)i表示第i個(gè)粒子,i=1,2,…,M,M是該群體粒子的總數(shù)。本文選取M=60。
2)j表示每個(gè)粒子中算法所優(yōu)化的第j個(gè)參數(shù)。
3)ω表示慣性權(quán)值因子,其大小影響整體的尋優(yōu)能力,為了保證其收斂到全局最優(yōu),避免出現(xiàn)早熟收斂的情況,一般采用權(quán)值ω在ωmax與ωmin之間線性遞減的方法。本文選取ωmax=0.9,ωmin=0.4。
4)t表示此時(shí)優(yōu)化的代數(shù)。
5)vij(t)表示粒子i在j維的空間速度。
6)c1和c2為加速因子。本文中選取c1=1.7,c1=1.5。
7)r1j和r2j表示相對(duì)獨(dú)立的2個(gè)隨機(jī)函數(shù),其值在[0~1]之間變化。
8)vij(t)表示粒子i的歷史最優(yōu)解的j維值。
9)pgj(t)=min{pij(t)}表示所有粒子在t時(shí)刻的歷史最好解的j維值,即所有粒子在所優(yōu)化的第j個(gè)參數(shù)中的歷史最優(yōu)解。
10)Xij(t)表示粒子i處于j維空間的位置。
根據(jù)式(13)和式(14)進(jìn)行迭代計(jì)算,對(duì)粒子位置和速度進(jìn)行動(dòng)態(tài)更新,計(jì)算粒子個(gè)體在搜索過程中適應(yīng)值最優(yōu)即為個(gè)體最優(yōu)值,其中,適應(yīng)值根據(jù)目標(biāo)函數(shù)來計(jì)算。整個(gè)種群在搜索過程中達(dá)到的最優(yōu)解則為全局最優(yōu)值。當(dāng)群體搜索到滿足最小適應(yīng)值的最優(yōu)位置或者達(dá)到迭代次數(shù)之后即可結(jié)束計(jì)算。
基于多函數(shù)優(yōu)化樣本,將優(yōu)化后的樣本數(shù)據(jù)使用互信息法篩選出主要的輔助變量,降低數(shù)據(jù)維度,再利用LSSVM對(duì)篩選出來的數(shù)據(jù)進(jìn)行訓(xùn)練,并采用PSO算法對(duì)LSSVM中的徑向基函數(shù)寬度參數(shù)σ與懲罰因子C進(jìn)行優(yōu)化,依此建立NOx濃度的預(yù)測(cè)模型。
火電機(jī)組鍋爐的燃燒過程是一個(gè)非常復(fù)雜的過程,其具有多變量、耦合性等特點(diǎn),由于同時(shí)會(huì)有幾十個(gè)因素影響NOx的生成,所以輔助變量的選擇會(huì)在很大程度上影響模型精度及其復(fù)雜度。本文的主要輔助變量是通過分析NOx的生成機(jī)理并結(jié)合文獻(xiàn)[6,7,13]選取,主要包括機(jī)組負(fù)荷、煤量、風(fēng)量、主蒸汽壓力、二次風(fēng)輔助風(fēng)門擋板開度、燃盡風(fēng)擋板開度等46個(gè)變量。選取的部分輔助變量如表1所示。
表1 部分初始變量數(shù)據(jù)展示
注:NOx濃度為A、B兩側(cè)數(shù)據(jù)和。
本文選取了46個(gè)輔助變量,每個(gè)變量對(duì)應(yīng) 1 527 個(gè)點(diǎn),以此作為數(shù)據(jù)樣本的集合,利用相似度函數(shù)進(jìn)行樣本優(yōu)選,剩余樣本數(shù)量隨閾值ε的變化而變化,如圖1所示。采用式(3)進(jìn)行優(yōu)選,當(dāng)兩組數(shù)據(jù)間的相似度Rij大于閾值ε時(shí),通過刪除其中的一組來減少樣本的冗余。
從圖1中可以看出,當(dāng)閾值ε位于[0.998,1]時(shí),樣本剩余的數(shù)量隨ε的變化最大,即表示選取此閾值時(shí),相似度函數(shù)對(duì)于樣本的優(yōu)化的效率最高,本文閾值取0.998 5時(shí),剩余382個(gè)樣本。
圖1 相似度閾值與剩余樣本個(gè)數(shù)之間的關(guān)系
使用mRMR算法對(duì)基于相似度函數(shù)優(yōu)化后的樣本進(jìn)行輔助變量的篩選,以預(yù)測(cè)模型輸出精度作為度量標(biāo)準(zhǔn)來篩選的輔助變量的個(gè)數(shù),建立對(duì)主導(dǎo)變量NOx濃度的LSSVM預(yù)測(cè)模型。篩選出的輔助變量有總風(fēng)量、后燃盡壓力、鍋爐蒸發(fā)量、總煤量、機(jī)組負(fù)荷、送風(fēng)機(jī)風(fēng)門開度、SCR脫硝反應(yīng)器入口B側(cè)煙溫、空預(yù)器B側(cè)出口煙溫、送風(fēng)機(jī)A側(cè)電流、SCR脫硝反應(yīng)器入口A側(cè)煙溫、主蒸汽溫度、空預(yù)器A側(cè)進(jìn)口煙溫、空預(yù)器A側(cè)出口煙溫、空預(yù)器B側(cè)進(jìn)口煙溫、送風(fēng)機(jī)B側(cè)電流、主蒸汽壓力、B層二次風(fēng)門2號(hào)輔助擋板共17個(gè)輔助變量。
利用上述方法篩選出的382組運(yùn)行數(shù)據(jù)、17個(gè)輔助變量,對(duì)基于PSO優(yōu)化參數(shù)的NOx生成LSSVM預(yù)測(cè)模型的可行性與精度進(jìn)行檢驗(yàn)。選取382組數(shù)據(jù)中的276組數(shù)據(jù)作為訓(xùn)練集,106組數(shù)據(jù)作為測(cè)試集對(duì)預(yù)測(cè)模型進(jìn)行測(cè)試。LSSVM核函數(shù)選擇徑向基核函數(shù),利用PSO算法對(duì)模型中的寬度參數(shù)σ與模型懲罰因子C范圍進(jìn)行尋優(yōu),經(jīng)優(yōu)化后懲罰系數(shù)C=235.829 5、核參數(shù)σ= 5.038 3,模型的預(yù)測(cè)結(jié)果如圖2所示。同時(shí),將未經(jīng)互信息法篩選的46個(gè)輔助變量、382組運(yùn)行數(shù)據(jù)作為PSO-LSSVM預(yù)測(cè)模型的輸入,PSO與上面的模型具有相同的初始參數(shù),用模型的輸入變量個(gè)數(shù)作為唯一的變量,仿真結(jié)果如圖3所示。可以看出,基于互信息對(duì)輔助變量進(jìn)行篩選的PSO-LSSVM模型的預(yù)測(cè)值更接近實(shí)際值。
圖2 mRMR-PSO-LSSVM預(yù)測(cè)值與實(shí)際值的比較
圖3 PSO-LSSVM預(yù)測(cè)值與實(shí)際值的比較
為了比較兩個(gè)模型的預(yù)測(cè)精度,使用平均相對(duì)誤差EMRE、均方根誤差ERMSE以及擬合度R2來對(duì)模型進(jìn)行評(píng)價(jià),其結(jié)果如表2所示,由圖2與圖3對(duì)比及表2可知,基于互信息篩選變量的PSO-LSSVM模型預(yù)測(cè)具有更高的精度。
表2 模型誤差
為了更加準(zhǔn)確地測(cè)量SCR脫硝反應(yīng)器入口NOx濃度,本文建立了基于互信息和PSO-LSSVM的預(yù)測(cè)模型。在建立模型過程中,使用相似度函數(shù)減少樣本數(shù)據(jù)之間的冗余性,同時(shí)利用互信息法對(duì)輔助變量進(jìn)行了篩選,解決了建模過程中變量選擇的問題,建立了mRMR-PSO-LSSVM的NOx生成預(yù)測(cè)模型,并進(jìn)行了MATLAB仿真。對(duì)比未經(jīng)互信息法進(jìn)行變量篩選的PSO-LSSVM模型,該模型降低了輔助變量的維數(shù)并減少了變量間冗余性。通過仿真結(jié)果可以看出,該模型可以較好地預(yù)測(cè)脫硝反應(yīng)器入口NOx濃度的變化,并且具有較高的擬合精度。