潘紅光,宋浩騫,蘇 濤,馬 彪
(1.西安科技大學(xué) 電氣與控制工程學(xué)院,陜西 西安 710054;2.鄂爾多斯市神東工程設(shè)計有限公司,內(nèi)蒙古 鄂爾多斯 017000)
煤炭作為中國的主要能源之一,煤炭質(zhì)量分析在煤炭的開發(fā)、利用過程中發(fā)揮著不可或缺的作用[1];而煤炭低位發(fā)熱量是煤炭質(zhì)量分析中最常用的評價指標(biāo)[2]。因此,煤炭低位發(fā)熱量的準(zhǔn)確、快速測量已成為實際生產(chǎn)的迫切要求。對煤炭低位發(fā)熱量的測量,常規(guī)方法為氧彈熱量法,該方法需要取樣離線分析,且操作復(fù)雜、分析周期長[3]。雖然工業(yè)應(yīng)用中還有其他硬件測量方法,但普遍存在測量設(shè)備笨重、昂貴、費用大等缺點,且不能較好地了解煤炭低位發(fā)熱量的影響因素。
相比較而言,軟測量方法解決了硬件測量的經(jīng)濟(jì)性等問題,且具有簡單、實用、反應(yīng)迅速的特點。軟測量的基本思想是在較為成熟的硬件傳感器基礎(chǔ)上獲得數(shù)據(jù),以計算機(jī)技術(shù)和算法為核心,利用相關(guān)變量建立模型對主導(dǎo)變量進(jìn)行間接測量[4]。 軟測量的建模方法有很多,一般可分為:機(jī)理建模、回歸分析、狀態(tài)估計、模式識別、人工神經(jīng)網(wǎng)絡(luò)、模糊推理、LSTM(long short term memory)網(wǎng)絡(luò)、基于支持向量機(jī)(support vector machine,SVM)和基于核函數(shù)的方法等[5]。其中,SVM可以不依賴訓(xùn)練樣本的數(shù)量和質(zhì)量,即對小樣本問題也能保證推廣性,且具有嚴(yán)格的數(shù)學(xué)基礎(chǔ)和理論推導(dǎo)、較強(qiáng)的逼近能力和泛化能力[6]。基于SVM軟測量模型的經(jīng)典研究有:YANG等基于支持向量機(jī)的軟測量模型,實現(xiàn)了不同煤種燃燒產(chǎn)生NOx濃度的測量[7];CHEN 等基于SVM的軟測量模型,利用實測氣象變量實現(xiàn)了三峽庫區(qū)月蒸發(fā)量的完美預(yù)測[8]。此外,軟測量應(yīng)用中具有代表性的BP神經(jīng)網(wǎng)絡(luò)和具有記憶能力的LSTM網(wǎng)絡(luò)也取得了一些顯著性的成果,如:吳采用BP神經(jīng)網(wǎng)絡(luò)通過分析電廠實際數(shù)據(jù),對燃煤電廠SO2的排放量進(jìn)行了監(jiān)測[9];陳等人基于LSTM網(wǎng)絡(luò),利用水輪機(jī)組的時間序列數(shù)據(jù)進(jìn)行建模,并成功應(yīng)用于某水電廠水輪機(jī)組運行狀態(tài)的檢測[10]。
目前對煤炭低位發(fā)熱量的測定,主要運用多元線性回歸式等從實驗和理論上對煤炭低位發(fā)熱量進(jìn)行預(yù)測和影響因素分析[11-13]。首先采用SVM進(jìn)行軟測量建模,并與具有代表性的BP神經(jīng)網(wǎng)絡(luò)模型和在時間序列變現(xiàn)突出且具有記憶功能的LSTM軟測量模型進(jìn)行性能比較;然后,采用均方誤差和均方相關(guān)系數(shù)對模型進(jìn)行分析比較,結(jié)果表明基于SVM的軟測量模型精度和穩(wěn)定性更好,進(jìn)一步在基于SVM的煤炭收到基低位發(fā)熱量的軟測量模型上從應(yīng)用的角度分析了煤炭低位發(fā)熱量的影響因素。
SVM是在統(tǒng)計學(xué)習(xí)理論上建立起來的一種機(jī)器學(xué)習(xí)方法[14],主要思想為:設(shè)有i個樣本(x1,y1),(x2,y2),…,(xl,yl),其中,xi為樣本輸入;yi為樣本輸出,且xi∈Rn,yi∈R,i=1,…,l,首先將樣本數(shù)據(jù)映射到高維空間Φ(xi,x),然后用函數(shù)f(x)進(jìn)行擬合回歸,并通過擬合期望風(fēng)險函數(shù)最小化來實現(xiàn)最優(yōu)估計[15]。
(1)
(2)
式(2)的解αi有一部分不等于零,對應(yīng)樣本數(shù)據(jù)被作為支持向量,得到回歸函數(shù)為
(3)
對于非線性問題時,首先需要將低維樣本空間的非線性問題映射成高維空間的線性問題,然后才可以利用式(2)和式(3)進(jìn)行計算[17]。由于空間映射后維數(shù)增加,計算量明顯增大,算法的復(fù)雜性提高??紤]到式(2),式(3)只用到內(nèi)積運算(xi·xj),根據(jù)泛函數(shù)的理論,映射高維空間的內(nèi)積運算可用原低維空間的核函數(shù)進(jìn)行代替,所以直接用核函數(shù)K(xi,xj)代替內(nèi)積運算(xi·xj)[18]。
(4)
相應(yīng)的回歸函數(shù)就變?yōu)?/p>
(5)
一般地,神經(jīng)網(wǎng)絡(luò)在進(jìn)行非線性建模時,需要預(yù)先設(shè)定網(wǎng)絡(luò)結(jié)構(gòu)及節(jié)點數(shù),然后通過修正算法對固定節(jié)點數(shù)的權(quán)重進(jìn)行迭代修正,且之后不隨新樣本的加入而改變。然而,支持向量機(jī)的建模技術(shù)不同于神經(jīng)網(wǎng)絡(luò)建模技術(shù)。利用支持向量機(jī)建模時,隨著新學(xué)習(xí)樣本的加入,不僅支持向量對應(yīng)的支持值會發(fā)生變化,而且支持向量的數(shù)量也會改變,進(jìn)而達(dá)到較好建模效果[19]。采用迭代方式對支持向量及其支持值進(jìn)行實時修正是SVM應(yīng)用于建模的關(guān)鍵,其取決于核函數(shù)的選擇和參數(shù)的調(diào)整。與其他建模方法類似,核函數(shù)的選擇和參數(shù)的調(diào)整取決于過程調(diào)整的經(jīng)驗[20]。
本研究數(shù)據(jù)為中國陜西省榆林市某電廠的實際生產(chǎn)數(shù)據(jù),數(shù)據(jù)采集時間為2019 年1 月1日到7月16日,采樣時間間隔為1 d,共197組數(shù)據(jù),且每組數(shù)據(jù)都由當(dāng)天多組數(shù)據(jù)經(jīng)過隨機(jī)誤差處理后得到;采集數(shù)據(jù)主要為煤質(zhì)的工業(yè)分析數(shù)據(jù),包括:全水(收到基水分)、空氣干燥基水分、空氣干燥基灰分、固定碳、空氣干燥基揮發(fā)分、彈筒發(fā)熱量、收到基低位發(fā)熱量(MJ/kg)、收到基灰分、干燥基硫、干燥無灰基揮發(fā)分、收到基硫、空氣干燥基硫和收到基低位發(fā)熱量(cal/g)。
實際生產(chǎn)數(shù)據(jù)除了需要進(jìn)行隨機(jī)誤差處理外,還需進(jìn)行粗大誤差處理和數(shù)據(jù)歸一化和反歸一化處理[21],其理論具體如下。
1)隨機(jī)誤差處理采用平均值濾波方法處理,取采樣時刻的前后相同短間隔時間數(shù)據(jù)平均值作為樣本數(shù)據(jù),則樣本數(shù)據(jù)xi為
(6)
式中xt為采樣前后時刻數(shù)據(jù);n為數(shù)據(jù)的個數(shù)。
2)粗大誤差處理采用統(tǒng)計判別法3δ準(zhǔn)則,設(shè)樣本數(shù)據(jù)為:x1,x2,…,xl,則δ計算公式為
(7)
3)數(shù)據(jù)歸一化和反歸一化。采用min-max法進(jìn)行數(shù)據(jù)歸一化,先找出最大值xmax和最小值xmin,再經(jīng)過下列公式算出歸一化后的樣本數(shù)據(jù)Xi
(8)
計算結(jié)果是在[0,1][22],為了使數(shù)據(jù)結(jié)果更直觀,還必須進(jìn)行反歸一化處理
[xi]=Xi(xmax-xmin)+xmin
(9)
式中 [xi]為反歸一化之后的數(shù)據(jù)。
2.2.1 初選
根據(jù)機(jī)理分析對數(shù)據(jù)進(jìn)行類似數(shù)據(jù)項和直接相關(guān)數(shù)據(jù)項進(jìn)行剔除和篩選,即只是在量綱單位上不同[23]。因此,樣本數(shù)據(jù)中的2個收到基低位發(fā)熱量項屬于類似數(shù)據(jù)項;固定碳的含量、收到基灰分含量,這幾項數(shù)據(jù)直接相關(guān)于其他數(shù)據(jù)項,不能選做輔助變量。剔除后,剩下的全水、空氣干燥基的水分、灰分、揮發(fā)分、硫,收到基硫、干燥基硫、干燥無灰基硫,彈筒發(fā)熱量之間的數(shù)據(jù)間都具有獨立性,均可作為模型建立的初選輔助變量。
2.2.2 精選
根據(jù)輔助變量和目標(biāo)變量之間的相關(guān)系數(shù)的大小,進(jìn)行相關(guān)性分析后進(jìn)一步精選輔助變量,其中相關(guān)系數(shù)采用皮爾遜函數(shù)計算
(10)
經(jīng)計算,各相關(guān)系數(shù)見表1。輔助變量相關(guān)系數(shù)排序后,由于輔助變量太多會影響模型靈活性和時效性,過少又難以充分輸入?yún)?shù)的特征信息[23],所以較小相關(guān)系數(shù)中選取其較大的2個。篩選后剩余6個輔助變量,維度已經(jīng)很小,降維處理作用不大。因此,精選的輔助變量為:全水、彈筒發(fā)熱量、空氣干燥基下的水分、灰分、揮發(fā)分、硫,目標(biāo)變量為收到基的低位發(fā)熱量。
表1 輔助變量與主導(dǎo)變量的相關(guān)性Table 1 Correlation between auxiliary and dominant variables
硬件環(huán)境:CPU為Intel(R)Core(TM)i7-9750H,內(nèi)存為DDR4 8G,顯卡為NVIDIA GeForce GTX 1650;軟件環(huán)境:LSTM 模型基于Python框架PyTorch 0.3.1,編輯環(huán)境為PyCharm 5.0.3;BP神經(jīng)網(wǎng)絡(luò)模型和SVM模型的環(huán)境為MATLAB 2015b。
由于軟測量建模需進(jìn)行模型訓(xùn)練和測試,所以,需將樣本分為訓(xùn)練集和測試集。此外,數(shù)據(jù)集間合適的數(shù)量比可使網(wǎng)絡(luò)學(xué)習(xí)得到的模型效果較好,且不存在過擬合[24]。因此,此處將樣本前144組數(shù)據(jù)作為訓(xùn)練集,后50組數(shù)據(jù)作為測試集。
軟測量模型的參數(shù)直接影響預(yù)測結(jié)果。在SVM的回歸建模時,通過徑向基RBF核函數(shù)的懲罰系數(shù)C和寬度系數(shù)σ進(jìn)一步?jīng)Q定SVM的建模性能[25]。C是對超出規(guī)定ε精度的懲罰力度,C越大,訓(xùn)練誤差會相應(yīng)變小,但增大到某一數(shù)值后這種趨勢會變小,甚至趨于零,其值一般在1~100;寬度系數(shù)與支持向量的緊密程度有關(guān),值越小,支持向量之間聯(lián)系越緊密,但過小容易造成過擬合,使泛化能力下降;反之越松弛,容易造成欠擬合,且一般在0.001~10[26],用Libsvm 3工具箱來尋找兩者最佳值,使其在上述范圍內(nèi)不斷尋找誤差最小的C和σ。
LSTM神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置,迭代次數(shù)不要太小,因為迭代次數(shù)與收斂性有關(guān),但也有上限,最大迭代次數(shù)為5 000。學(xué)習(xí)率在0.000 1~0.001,不能過大;隱含層個數(shù)與可見層相差不能太大[27]。BP神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置時,主要考慮影響網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù),包括隱含層的節(jié)點個數(shù)、學(xué)習(xí)率和訓(xùn)練精度要求[9]。隱含層的節(jié)點個數(shù)憑借經(jīng)驗決定,個數(shù)過少,影響網(wǎng)絡(luò)的有效性,過多會大幅度增加網(wǎng)絡(luò)的訓(xùn)練時間。學(xué)習(xí)率通常設(shè)置在0.01~0.09,學(xué)習(xí)率和訓(xùn)練次數(shù)有關(guān),一般來說,學(xué)習(xí)率越小,訓(xùn)練次數(shù)越多,但學(xué)習(xí)率過大,訓(xùn)練次數(shù)太少會影響網(wǎng)路結(jié)構(gòu)的穩(wěn)定性。訓(xùn)練精度的設(shè)定,需要根據(jù)輸出要求來定,值越低則代表輸出要求的精度越高[28]。3種模型參數(shù)選擇見表2。
表2 網(wǎng)絡(luò)模型參數(shù)Table 2 Network model parameters
實驗采用均方誤差(MSE)和均方相關(guān)系數(shù)(R2)作為模型的評定標(biāo)準(zhǔn),其中均方誤差(MSE)的函數(shù)方程為
(11)
R2為回歸平方和(SSR)與總離差平方和(SST)的比值。R2的值在(0,1),越接近1,回歸擬合度越高。其計算公式為
(12)
式中SSE為殘差平方和,SSE+SSR=SST;且SSR,SST,SSE計算為
(13)
表3為3種模型的性能比較,從表3可以清晰地看出LSTM網(wǎng)絡(luò)的2個評定參數(shù)值比BP網(wǎng)絡(luò)的要好,證明了LSTM網(wǎng)絡(luò)的測量精度要比BP網(wǎng)絡(luò)有所提高,但兩者的各個參數(shù)均和SVM模型存在明顯差距。
表3 3種方法結(jié)果比較Table 3 Results comparison by three methods
圖1(a)為BP網(wǎng)絡(luò)的預(yù)測結(jié)果,從測量效果看,BP網(wǎng)絡(luò)的預(yù)測值與真實值的誤差較大,而且存在部分點的趨勢沒有較好跟隨,整體效果不是很好。圖1(b)為BP的相對誤差,部分點的相對誤差接近3%,整體的相對誤差值偏大。
圖1 基于BP模型的仿真結(jié)果Fig.1 Simulation results of BP-based model
圖2(a)為LSTM的預(yù)測結(jié)果,從整體的趨勢來看,都可以與真實值跟隨;而且預(yù)測值與真實值相差不大,相比BP有所改善。圖2(b)為LSTM的相對誤差,相對誤差均在3%以下,且整體相對誤差比BP小,滿足工業(yè)生產(chǎn)要求。
圖3(a)為SVM的預(yù)測結(jié)果,可以看出大多數(shù)預(yù)測值與真實值的點基本上重合,它們之間幾乎不存在差異,所有點的趨勢也完全跟隨,整體效果最好且接近完美,滿足實際生產(chǎn)要求。圖3(b)為SVM的相對誤差,大部分點的相對誤差均在0.5%以下,主要集中在0.2%左右,完全滿足工業(yè)生產(chǎn)要求。
從圖1、圖2和圖3可以發(fā)現(xiàn),基于SVM的預(yù)測精度比LSTM網(wǎng)絡(luò)好,但兩者均在第44點處的誤差較大,基于BP網(wǎng)絡(luò)在此點并未表現(xiàn)異常,且LSTM網(wǎng)絡(luò)整體的相對誤差縮小為BP網(wǎng)絡(luò)的一半。由此說明對于神經(jīng)網(wǎng)絡(luò),LSTM網(wǎng)絡(luò)對這種時序性較強(qiáng)的數(shù)據(jù)比BP網(wǎng)絡(luò)有更好的學(xué)習(xí)能力,準(zhǔn)確度更好。對比三者的2個評定參數(shù),SVM模型更有優(yōu)勢,精確度較為穩(wěn)定,可信度更高,MSE比LSTM提升了80%,R2提升了3%。
圖2 基于LSTM模型的仿真結(jié)果Fig.2 Simulation results of LSTM-based model
圖3 基于SVM模型的仿真結(jié)果Fig.3 Simulation results of SVM-based model
因此,基于SVM的煤炭低位發(fā)熱量軟測量模型比BP和LSTM網(wǎng)絡(luò)更具有優(yōu)勢,且完全滿足實際生產(chǎn)要求。在這種時序較強(qiáng)的數(shù)據(jù)中,LSTM比BP網(wǎng)絡(luò)有更好的學(xué)習(xí)能力,預(yù)測精度更好。
基于SVM的煤炭低位發(fā)熱量軟測量模型精度最高,可信度更高,所以在此模型基礎(chǔ)上進(jìn)一步研究各個輔助變量對煤炭低位發(fā)熱量的影響。具體如下:在基于SVM軟測量模型基礎(chǔ)上,將各個輔助變量值依次置零,分析缺少本輔助變量后模型的測試結(jié)果,也采用上述MSE和R2來作為評定指標(biāo)。表4為置零各輔助變量的測試結(jié)果,其排序是按照MSE的大小。
表4 置零不同輔助變量的測試結(jié)果Table 4 Test results of zero-setting different auxiliary variables
從表4可以看出,置零前5個輔助變量后兩參數(shù)值均有所變差,其中置零彈筒發(fā)熱量后模型的測試效果最差,其次是全水,置零空氣干燥基水分后模型測試效果有所改變,但不明顯。由此說明,在這些變量中,彈筒發(fā)熱量對煤炭低位發(fā)熱量的影響最大,其次是全水,空氣干燥基水分有影響,但不明顯;其他變量對煤炭低位發(fā)熱量也有影響,但沒有前面三者影響大。置零空氣干燥基硫后,模型的MSE反而變小,R2變大,說明其對模型存在干擾作用,對煤炭低位發(fā)熱量并無影響。
1)通過對在線數(shù)據(jù)進(jìn)行軟測量建模和比較,發(fā)現(xiàn)基于SVM的煤炭低位發(fā)熱量軟測量模型精度更高,可滿足實際生產(chǎn)要求,能為生產(chǎn)提供可靠的參考數(shù)據(jù)。
2)從軟測量應(yīng)用的角度,分析了煤炭低位發(fā)熱量的影響因素,發(fā)現(xiàn)彈筒發(fā)熱量對煤炭低位發(fā)熱量的影響最大,其次是全水,空氣干燥基水分對煤炭低位發(fā)熱量有較小影響。
3)該研究可進(jìn)一步改進(jìn)以獲得更為穩(wěn)定的模型或研究更為細(xì)微的影響,如:利用其他方法對模型參數(shù)進(jìn)行動態(tài)跟隨,提高模型穩(wěn)定性,如粒子群算法等;在本研究的基礎(chǔ)上,進(jìn)一步研究其他變量對煤炭低位發(fā)熱量的細(xì)微影響;對輔助變量進(jìn)行組合置零,研究不同變量組合對煤炭低位發(fā)熱量的影響。