李芹芹,宋寶宇,龐克亮,王越
(鞍鋼集團(tuán)北京研究院有限公司,北京 102211)
在高爐煉鐵中,焦炭起著骨架的作用[1],且具有不可替代性,而焦炭的機(jī)械強(qiáng)度M40和M10以及反應(yīng)性CRI和反應(yīng)后強(qiáng)度CSR四項(xiàng)質(zhì)量指標(biāo)的好壞反映了焦炭作為骨架的能力高低[2-3],在高爐煉鐵過(guò)程中如何保證焦炭質(zhì)量的穩(wěn)定性是企業(yè)面臨的重要難題。
目前,常見的用于焦炭質(zhì)量預(yù)測(cè)的模型有線性回歸模型、支持向量機(jī)(Support Vector Manchine,SVM)模型、反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)模型和徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)模型。劉穎義等[4]基于工業(yè)焦?fàn)t生產(chǎn)數(shù)據(jù),建立了焦炭M40和M10與配合煤的煤化度和黏結(jié)性的二元線性關(guān)系模型;謝海深等[5]采用多元逐步回歸方法,成功建立了焦炭CRI和CSR的預(yù)測(cè)模型,具有較高的預(yù)測(cè)精度;崔慶安等[6]綜合考慮配合煤特性和焦?fàn)t加熱制度,基于SVM建立了焦炭質(zhì)量預(yù)測(cè)方法;Chen&Bai[7]利用 SVM 對(duì)傳統(tǒng)配煤與煤巖配煤方案進(jìn)行建模,預(yù)測(cè)了焦炭的M40、M10、CRI和 CSR;劉春梅[8]首次將 BP 神經(jīng)網(wǎng)絡(luò)應(yīng)用于焦炭質(zhì)量預(yù)測(cè),預(yù)測(cè)誤差在±5%左右;劉有勢(shì)等[9]利用BP神經(jīng)網(wǎng)絡(luò)和粒子群算法建立了焦炭質(zhì)量預(yù)測(cè)模型,改善了預(yù)測(cè)精度,滿足了焦化企業(yè)的生產(chǎn)需求。本文采用特征選擇算法和RBF神經(jīng)網(wǎng)絡(luò)建立了焦炭質(zhì)量預(yù)測(cè)模型,首先通過(guò)對(duì)實(shí)際生產(chǎn)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,并利用隨機(jī)森林(Random Forest,RF)和皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficients,PCCs)算法共同進(jìn)行特征選擇;之后通過(guò)試湊法確定RBF神經(jīng)網(wǎng)絡(luò)的中心數(shù)量,K-均值算法得出RBF神經(jīng)網(wǎng)絡(luò)的中心值;最后對(duì)模型的結(jié)果進(jìn)行對(duì)比分析。
RBF神經(jīng)網(wǎng)絡(luò)模型由三層網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成。其中,中間層(隱含層)的作用函數(shù)為高斯函數(shù)Gi,具體公式如下:
式中,X為訓(xùn)練樣本;xi為高斯函數(shù)的中心;δi為函數(shù)寬度參數(shù);I為隱含層節(jié)點(diǎn)數(shù)。
式(1)中,xi的值由K-均值算法確定。假設(shè)中心數(shù)量為 I個(gè),設(shè) xi(n)(i=1,2......I)為第 i個(gè)中心第n次迭代時(shí)的值,中心值確定方法如下:
(1)初始化中心取值,即隨機(jī)選取I個(gè)不同的樣本作為中心 xi(0)(i=1,2......I)。
(2)Xk為隨機(jī)選擇的訓(xùn)練樣本。
(3) Xk的最近距離中心 i(Xk)滿足
(4)調(diào)整函數(shù)的中心
式中,ε 為步長(zhǎng),且滿足 0<ε<1。
(5)如中心值不再發(fā)生太多變化,則結(jié)束迭代;否則 n=n+1,返回第(2)步。
函數(shù)中心確定后,每個(gè)高斯函數(shù)采用統(tǒng)一的寬度參數(shù)δ值,由如下公式確定:
式中,I為隱藏層節(jié)點(diǎn)數(shù);dmax為 xi(i=1,2......I)之間的最大距離。網(wǎng)絡(luò)輸出Y值由如下公式確定:
式中,W為輸出層神經(jīng)網(wǎng)絡(luò)的權(quán)值。
針對(duì)煉焦配煤生產(chǎn)過(guò)程中存在的人工計(jì)算強(qiáng)度大、配煤模型精度不佳、配煤效益難以提高等問(wèn)題,以某鋼廠煉焦部2018—2022年煉焦生產(chǎn)過(guò)程中配合煤到焦炭的300組數(shù)據(jù)為基礎(chǔ),進(jìn)行實(shí)驗(yàn)分析,具體見表1。
表1 部分實(shí)驗(yàn)數(shù)據(jù)Table 1 Some Experimental Data
配合煤性質(zhì)和煉焦工藝是影響焦炭質(zhì)量各個(gè)指標(biāo)的重要因素[10]。為此通過(guò)將數(shù)據(jù)進(jìn)行總體分析,查看數(shù)據(jù)的維度,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析;同時(shí),對(duì)數(shù)據(jù)的變化進(jìn)行可視化,查看數(shù)據(jù)的異常值、缺失值,并根據(jù)數(shù)據(jù)特點(diǎn)對(duì)相關(guān)異常值和缺失值進(jìn)行相應(yīng)處理,剔除特征值不變的特征。
另外,針對(duì)數(shù)據(jù)具有維度高、各個(gè)特征取值跨度大的特點(diǎn),將數(shù)據(jù)歸一化至0到1之間,歸一化公式如下:
圖1 數(shù)據(jù)預(yù)處理流程Fig.1 Data Processing Flow
為降低模型的復(fù)雜度,節(jié)省模型的訓(xùn)練時(shí)間,進(jìn)一步從現(xiàn)有模型特征中選擇重要特征。采用RF和PCCs兩種算法進(jìn)行特征的選擇。其中,RF是通過(guò)計(jì)算所有決策樹得到的平均不純度衰減,并以變量重要性評(píng)分VIM作為度量特征重要性指標(biāo)。由于基尼指數(shù)法計(jì)算相對(duì)快速簡(jiǎn)單,不采用對(duì)數(shù)計(jì)算,因此本文使用基尼指數(shù)值GI作為特征重要性的評(píng)價(jià)指標(biāo),GI值介于-1與1之間。第i棵決策樹中節(jié)點(diǎn)n的基尼指數(shù)值GIin可表示為:
式中,K代表節(jié)點(diǎn)n處的K個(gè)類別;Pnk代表隨機(jī)選中的樣本在節(jié)點(diǎn)n處屬于類別K的概率。
在第i棵決策樹中,若特征j出現(xiàn)的節(jié)點(diǎn)屬于集合Q,那么特征j在該決策樹的特征節(jié)點(diǎn)n處的重要性為:
式中,ΔVIM表示節(jié)點(diǎn)n分裂前后的基尼指數(shù)變換量;GIl表示節(jié)點(diǎn)分裂后新節(jié)點(diǎn)的基尼指數(shù)。
若隨機(jī)森林共有t棵樹,那么特征變量j在隨機(jī)森林中的重要性為:
另一方面,PCCs用于計(jì)算兩個(gè)連續(xù)變量的相關(guān)性,根據(jù)PCCs計(jì)算公式,兩個(gè)連續(xù)變量j與X之間的相關(guān)系數(shù) Pj,X為:
其中,cov(j,X)為變量 j和 X 的協(xié)方差;σj、σX分別為特征變量j和目標(biāo)變量X的標(biāo)準(zhǔn)差;μj、μX分別為變量j和X的期望值。Pj,X的值介于-1與1之間。
在使用RF計(jì)算特征的重要性基礎(chǔ)上,再利用PCCs進(jìn)行分析。由于特征的重要性與相關(guān)性取值都在-1與1之間,故將二者相加,得到配合煤指標(biāo)和煉焦過(guò)程參數(shù)對(duì)焦炭質(zhì)量的影響值,利用影響值對(duì)輸入特征進(jìn)行排序,保留排序靠前的特征,適當(dāng)舍棄排序靠后的特征,從而減少作用不大或無(wú)作用的特征數(shù)據(jù)。特征選擇分析結(jié)果見表2。
表2 特征選擇分析結(jié)果Table 2 Analysis Results of Feature Selection
由于排名越靠前,特征的重要性越強(qiáng),相關(guān)性也越強(qiáng)。 因此,選擇配合煤的 Ad、Vd、Sd、G 和 Y 作為模型的輸入,從而簡(jiǎn)化RBF神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu),提高模型的學(xué)習(xí)效率。
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和特征選擇之后,進(jìn)行模型訓(xùn)練。通過(guò)對(duì)配煤機(jī)理進(jìn)行研究,焦炭的M40和M10的相關(guān)性較強(qiáng),CRI和CSR的相關(guān)性也較強(qiáng),而M40和M10與CRI和CSR相關(guān)性卻相對(duì)較弱。為此,分別針對(duì)M40和M10與CRI和CSR建立兩個(gè)模型,如圖2所示,z1和z2分別為M40和M10或者CRI和CSR。
圖2 預(yù)測(cè)模型結(jié)構(gòu)圖Fig.2 Structure Diagram of Prediction Model
為了驗(yàn)證RBF神經(jīng)網(wǎng)絡(luò)的性能,將數(shù)據(jù)按照8:2的比例分割為訓(xùn)練集和測(cè)試集,對(duì)線性回歸、SVM、BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)模型分別進(jìn)行訓(xùn)練,并將訓(xùn)練樣本的平均絕對(duì)誤差MAE作為衡量各個(gè)模型預(yù)測(cè)準(zhǔn)確性的指標(biāo),具體計(jì)算公式如下:
式中,yi為真實(shí)值;fi為預(yù)測(cè)值。模型預(yù)測(cè)性能比較結(jié)果如表3所示。
表3 模型預(yù)測(cè)性能比較結(jié)果Table 3 Comparision Results of Prediction Performance by Model %
由表3可知,相較與另外3個(gè)模型,RBF神經(jīng)網(wǎng)絡(luò)模型中焦炭各質(zhì)量指標(biāo)的MAE值均為最小。這表明RBF模型的預(yù)測(cè)精度高,可以更好地應(yīng)用于焦炭質(zhì)量的預(yù)測(cè)。
線性回歸、SVM、BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)模型中,M40、M10、CRI、CSR 四項(xiàng)指標(biāo)的模型預(yù)測(cè)值與樣本真實(shí)值之間絕對(duì)誤差值的對(duì)比如圖3~6所示。
圖3 M40模型預(yù)測(cè)絕對(duì)誤差Fig.3 Absolute Errors by M40Model Prediction
圖4 M10模型預(yù)測(cè)絕對(duì)誤差Fig.4 Absolute Errors by M10Model Prediction
圖5 CRI模型預(yù)測(cè)絕對(duì)誤差Fig.5 Absolute Errors by CRI Model Prediction
圖6 CSR模型預(yù)測(cè)絕對(duì)誤差Fig.6 Absolute Errors by CSR Model Prediction
由圖3~6可以看出,與線性回歸、SVM、BP神經(jīng)網(wǎng)絡(luò)模型相比,RBF神經(jīng)網(wǎng)絡(luò)模型具有較小的絕對(duì)誤差值,預(yù)測(cè)更準(zhǔn)確。
在理論和數(shù)據(jù)表現(xiàn)上對(duì)焦炭質(zhì)量進(jìn)行了分析。在樣本數(shù)量有限的情況下,通過(guò)與傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比,基于RF-PCCs和RBF神經(jīng)網(wǎng)絡(luò)的焦炭質(zhì)量預(yù)測(cè)模型預(yù)測(cè)誤差更小,準(zhǔn)確率更高,可為煉焦生產(chǎn)提供一定的理論指導(dǎo)。由于煉焦過(guò)程復(fù)雜,影響因素較多,未來(lái)研究重點(diǎn)將結(jié)合專家經(jīng)驗(yàn)、煉焦機(jī)理、人工智能及大數(shù)據(jù)等技術(shù)建立更加準(zhǔn)確高效的焦炭質(zhì)量預(yù)測(cè)模型。