申平 田德生
[摘 要]針對精煉汽油辛烷值損失的問題,基于灰色關(guān)聯(lián)度分析方法與最大信息系數(shù)方法,給出變量分組降維的特征選擇方法,以有效選擇出具有獨立性代表的特征;與隨機森林算法相結(jié)合,提出一種辛烷值損失量預(yù)測模型。由于操作變量之間具有高度非線性和相互強耦聯(lián)的關(guān)系,采用變量分組降維,即考慮操作變量、性質(zhì)變量與產(chǎn)品硫含量、辛烷值損失的關(guān)系來篩選特征。利用灰色關(guān)聯(lián)度篩選出對辛烷值損失和產(chǎn)品硫含量的關(guān)聯(lián)程度較強的特征,排序后由最大信息系數(shù)篩選出28個獨立變量。收集研究生數(shù)學(xué)建模競賽試題數(shù)據(jù),采用隨機森林算法進行仿真預(yù)測計算。計算結(jié)果表明,基于變量分組的特征選擇和辛烷值損失預(yù)測模型得到的均方誤差為0.0086,擬合值R2為92.5%。
[關(guān)鍵詞]變量分組; 灰色關(guān)聯(lián)度; 最大信息系數(shù); 隨機森林; 辛烷值損失預(yù)測
[中圖分類號]TE62[文獻標(biāo)識碼]A
成品汽油是由原油經(jīng)過一系列的工藝加工而成,其中催化裂化就是將原油中40%~60%重油輕質(zhì)化的一個重要工序,經(jīng)過這一工序得到的催化裂化汽油具有高硫、高烯烴的缺點,為了達到可使用的汽油質(zhì)量要求,就必須進行脫硫和降烯烴的精制處理。在對催化裂化汽油進行脫硫和降烯烴的精制過程中,往往會導(dǎo)致汽油辛烷值下降。
高品質(zhì)的汽油具有較高的辛烷值和低的含硫量。影響辛烷值損失的因素包括原料性質(zhì)、待生吸附劑性質(zhì)、再生吸附劑性質(zhì)和產(chǎn)品性質(zhì)等變量以及300多個操作變量(控制變量)。辛烷值是反映汽油燃燒性能的重要指標(biāo),人們把它作為汽油的商品牌號(例如89#、92#、95#),它的高低直接與經(jīng)濟收益相聯(lián)系。為了經(jīng)濟效益的最大化,在減少環(huán)境污染(即控制硫含量)的基礎(chǔ)上,進行降低辛烷值損失研究就顯得尤為重要,權(quán)衡深度脫硫與辛烷值損失之間的關(guān)系,也成為人們關(guān)注的問題。很多學(xué)者在影響汽油辛烷值損失因素、優(yōu)化降低辛烷值損失的操作變量等方面進行廣泛研究。高潔等[1]為了降低辛烷值損失,制定了優(yōu)化操作條件的相關(guān)措施;齊萬松等[2]采用吸附劑低活性、降低氫油比、提高反應(yīng)溫度等操作條件去降低汽油脫硫的辛烷值損失;黃宏林等[3]在分析裝置辛烷值損失原因后制定了優(yōu)化調(diào)整措施,分階段進行優(yōu)化調(diào)整裝置的參數(shù),優(yōu)化調(diào)整后產(chǎn)品辛烷值損失得以降低;張玉瑞等[4]經(jīng)過調(diào)和實驗,建立了非線型回歸模型,調(diào)和辛烷值模型的預(yù)測模型。
學(xué)者大多側(cè)重于化工過程的建模研究,即在化工條件下降低辛烷值損失因素的研究。實際上,由于煉油工藝過程的復(fù)雜性以及設(shè)備的多樣性,操作變量(控制變量)之間具有高度非線性和相互強耦聯(lián)的關(guān)系,若是采用化工過程建模研究,僅僅通過數(shù)據(jù)關(guān)聯(lián)或機理建模的方法來實現(xiàn)優(yōu)化控制,往往達不到理想的效果。因此,筆者采用不同的方法建立辛烷值損失預(yù)測模型。這個問題涉及變量數(shù)量眾多,對于有大量變量的工程技術(shù)應(yīng)用問題經(jīng)常采取先降維后建模的方法。由于不同的變量相互耦聯(lián)關(guān)系強度不同,且它們對辛烷值損失的影響程度不一樣,因此本文在進行變量降維之前先對變量進行分組,對不同的組別分別進行降維,確定篩選出主要變量后,再建立辛烷值損失預(yù)測模型。
本文研究的是精煉汽油生產(chǎn)過程辛烷值損失量的預(yù)測問題,這也是一個涉及變量多的非線性問題,常用的統(tǒng)計方法解決這類問題都不奏效。為了達到良好的預(yù)測效果,采取變量分組降維思路結(jié)合灰色關(guān)聯(lián)度與最大信息系數(shù)方法,處理高維變量降維問題。文本數(shù)據(jù)集來源于2020年“華為杯”第十七屆中國研究生數(shù)學(xué)建模競賽B題。數(shù)據(jù)中有7個原料性質(zhì)變量、2個待生吸附劑性質(zhì)變量、2個再生吸附劑性質(zhì)變量和354個操作變量。先通過過濾型算法方差選擇法去掉方差小的變量;再根據(jù)對催化裂化汽油精制脫硫裝置的工藝操作特點,將變量分為操作變量組和性質(zhì)變量組。對不同組別分別計算變量與產(chǎn)品汽油的辛烷值和含硫量的灰色關(guān)聯(lián)度,得到一個排序(顯示這些變量對辛烷值損失和產(chǎn)品硫含量的關(guān)聯(lián)性程度);之后運用最大信息系數(shù)計算變量之間的信息系數(shù),確定篩選出具有代表性和獨立性的變量;最后采用隨機森林算法進行辛烷值損失量的預(yù)測。
1 主要原理和核心算法
針對變量數(shù)量多且不同的變量相互耦聯(lián)關(guān)系強度不同的情況,本文采取分組降維,采取的方法是灰色關(guān)聯(lián)度法和最大信息系數(shù)法?;疑P(guān)聯(lián)度法對于變量間相互耦聯(lián)關(guān)系強度不同的排序問題具有優(yōu)勢,最大信息系數(shù)方法更適合篩選出獨立特征(變量)。最大信息系數(shù)能夠?qū)⒆畲蟮奶卣魅コ?,得到相對獨立的特征去除相關(guān)性較大的特征,在保證特征關(guān)聯(lián)度的同時也考慮特征之間的獨立性,使選擇的特征盡可能具有獨立性和代表性。
在建立預(yù)測辛烷值損失模型時,本文選擇隨機森林預(yù)測算法。這種算法在很多數(shù)據(jù)集上建立隨機的樹,樹與樹之間(即特征子集之間)具有相互獨立的特點,因此以部分的特征數(shù)據(jù)進行預(yù)測,仍可以維持結(jié)果準(zhǔn)確度。
1.1 灰色關(guān)聯(lián)度分析
灰色關(guān)聯(lián)度(GRA)[5]可以通過對比參考數(shù)據(jù)列與比較數(shù)據(jù)列的相似程度去衡量兩者的關(guān)系是否具有關(guān)聯(lián)性。關(guān)聯(lián)系數(shù)
其中:Δ0i(k)表示第k點X0與Xi的絕對差;ρ為分辨系數(shù),其作用是減少因Δmax數(shù)值失真而導(dǎo)致的誤差,ρ一般取0.5。
1.2 最大信息系數(shù)
最大信息系數(shù)(MIC)[7]主要用于衡量兩個變量X和Y之間的線性或非線性耦合關(guān)聯(lián)強度。
設(shè)X,Y是取值于數(shù)據(jù)集D中的兩個隨機變量,兩個隨機變量(X,Y)聯(lián)合概率密度函數(shù)為p(x,y),邊緣概率密度函數(shù)為p(x)和p(y),定義兩個隨機變量取值x和y之間的互信息為
將數(shù)據(jù)集D 中兩個隨機變量的不同取值用網(wǎng)格分布的方式劃分,即將隨機變量X和Y的取值分別劃分為a個網(wǎng)格和b個網(wǎng)格,形成a×b個網(wǎng)格劃分。由于隨機變量X和Y取值的隨機性,它們在不同的網(wǎng)格劃分方法中的分布也不同,將不同網(wǎng)格劃分方法中的互信息MI(x;y)的最大值作為最大互信息值。經(jīng)過歸一化處理可得最大信息系數(shù)MIC的表達式[8]為
其中,B(n)=n0.6。最大信息系數(shù)的取值在[0,1]之間,取值越接近1,代表隨機變量X、Y之間的依賴關(guān)系越強;取值越接近0,代表隨機變量X、Y之間的依賴關(guān)系越弱。
1.3 隨機森林預(yù)測算法
隨機森林算法(RF)是一種有監(jiān)督學(xué)習(xí)算法,在處理分類和回歸問題方面具有優(yōu)越的性能。它通過構(gòu)建多棵相互獨立的決策樹組成的森林來完成決策、分類和回歸的任務(wù)[9]。經(jīng)過訓(xùn)練后,算法中設(shè)立森林的每一棵決策樹會分別對新輸入的樣本進行預(yù)測,由多顆樹預(yù)測值的均值決定最終預(yù)測結(jié)果。
構(gòu)造隨機森林算法的步驟為3步[15]:1)確定用于構(gòu)造的樹的個數(shù);2)對數(shù)據(jù)進行自助采樣;3)基于新數(shù)據(jù)集構(gòu)造決策樹。
2 結(jié)果
2.1 數(shù)據(jù)的收集
本文數(shù)據(jù)集來源于2020年“華為杯”第十七屆中國研究生數(shù)學(xué)建模競賽B題(https: //cpipc.chinadegrees.cn//cw/4924b7f01749981b29502e9)。該數(shù)據(jù)集是某石化企業(yè)的催化裂化汽油精制脫硫裝置積累的大量歷史數(shù)據(jù),包括從催化裂化汽油精制裝置采集的325個數(shù)據(jù)樣本,每個數(shù)據(jù)樣本中有7個原料性質(zhì)變量、2個待生吸附劑性質(zhì)變量、2個再生吸附劑性質(zhì)變量(以上被稱為性質(zhì)變量)和354個操作變量。這些數(shù)據(jù)采自于中石化高橋石化實時數(shù)據(jù)庫(霍尼韋爾PHD)及LIMS實驗數(shù)據(jù)庫。其中操作變量數(shù)據(jù)來自于實時數(shù)據(jù)庫。
2.2 計算結(jié)果及分析
2.2.1 數(shù)據(jù)預(yù)處理
1)去除異常值 去除異常值的根據(jù)是3σ原則處理,并采用3σ邊緣數(shù)值進行替換。對于超過操作變量取值范圍的變量,刪除異常比例為較高的操作變量,即刪除7個變量,它們是S.ZORB.TE_2005.PV,S.ZORB.PT_9403.PV,S.ZORB.LC_1201.PV,S.ZORB.FT_1004.TOTAL,S.ZORB.FT_9101.TOTAL,S.ZORB.TE_5007.DACA,S.ZORB.PT_2106.DACA.PV。處理后的數(shù)據(jù)包含11個性質(zhì)變量和347個操作變量。
2)線性過濾法預(yù)處理 線性過濾法預(yù)處理就是對數(shù)據(jù)進行相關(guān)性和共線性的度量處理,刪除數(shù)據(jù)中的方差較小變量。這一過程中,對于347個操作變量,去除強共線性>0.9的138個操作變量,剩下209個操作變量。10個性質(zhì)變量保持不變。
2.2.2 特征的選取
1)變量分組降維 考慮到數(shù)據(jù)性質(zhì)變量和操作變量與對辛烷值損失的不同影響程度,故將變量分為性質(zhì)變量組和操作變量組。通過Python語言計算灰色關(guān)聯(lián)度選出變量,將因變量辛烷值損失和產(chǎn)品硫含量分別作為參考序列,分組后的變量作為自變量序列,分開分析篩選變量。將變量進行歸一化處理(區(qū)間化),采用式(1)計算出關(guān)聯(lián)系數(shù),計算出10個性質(zhì)變量與209個操作變量分別對產(chǎn)品硫含量和辛烷值損失的灰色關(guān)聯(lián)度,計算結(jié)果如表1和表2。
根據(jù)表1和表2結(jié)果,將得到的灰色關(guān)聯(lián)度進行排序。為保證選取的變量在30個以內(nèi),在選取與產(chǎn)品硫含量較大關(guān)聯(lián)度的變量時,可選取GRA1>0.5644的前6個性質(zhì)變量、GRA2>0.8244的前20個操作變量,共26個變量;在選取與辛烷值損失較大關(guān)聯(lián)度的變量時,可選取GRA2>0.6990的前6個性質(zhì)變量、GRA4>0.7602的前24個操作變量。表3和表4分別表示選出的變量對于產(chǎn)品硫含量和辛烷值損失的灰色關(guān)聯(lián)度排序。
對表3和表4篩選出的變量進行匯總,去掉重復(fù)和關(guān)聯(lián)度相對較低的變量,最終選出8個性質(zhì)變量和39個操作變量,共計47個變量(表5)。
2)獨立性的判別 為了去除表5中具有較為復(fù)雜耦合關(guān)系的變量(獨立性較差),采用最大信息系數(shù)方法進行篩選。運用R軟件對式(2)計算出的47個變量之間的互信息進行編程,將其代入式(3),得到特征之間的最大信息系數(shù)。最大信息系數(shù)的圖像如圖1a所示。
在圖1中,橫縱坐標(biāo)表示不同的變量,中間的圓形色點色度代表兩個變量之間最大信息系數(shù)的強弱,偏向紅褐色表明兩個變量之間的相關(guān)性強度較強。色度變化范圍為0~1,其值越接近1,顏色越接近紅褐色。
為選出獨立性強的變量,首先剔除最大信息系數(shù)大于0.5的變量。通過對辛烷值的模擬計算和結(jié)果對比,選取28個變量,其中性質(zhì)變量6個,操作變量22個(表6)。
對選擇出28個變量(特征),計算28個重要特征的最大信息系數(shù),如圖1b所示。圖1b中色點顏色值均在0.5以下,這表明變量之間耦合關(guān)系不強,即所選變量具有較好的獨立性。
2.2.3 辛烷值損失預(yù)測結(jié)果與分析 對辛烷值損失預(yù)測計算,擬建立隨機森林算法[10]模型。Scikit-learn工具包是一個開源的基于Python編程語言的機器學(xué)習(xí)工具庫。
1)確定森林中樹的數(shù)目,即決策數(shù)樹數(shù)目[11]。在Scikit-learn工具包中RandomForestRegressor函數(shù),決策數(shù)樹目以參數(shù)n_estimators表示。理論上講n_estimators越大越好,但由于計算機資源的占用會導(dǎo)致訓(xùn)練和預(yù)測時間的增加[12]。在Scikit-learn中n_estimators默認(rèn)為10,本文通過設(shè)定為20,50,80測試,最終設(shè)定為50。
2)對數(shù)據(jù)進行自助采樣。從樣本集中有放回地重復(fù)隨機抽取一個樣本,共抽取n_sample次,組成新的數(shù)據(jù)集。新數(shù)據(jù)集的樣本容量與原數(shù)據(jù)集的相等,本文數(shù)據(jù)集的樣本容量為325。
3)基于新數(shù)據(jù)集來構(gòu)造決策樹。在每個結(jié)點處選取特征的一個子集,選取的特征子集中特征的個數(shù)通過max_features參數(shù)來控制,一般max_features參數(shù)的設(shè)置不宜過小。在Scikit-learn中,max_features有以下幾種設(shè)置:auto,sqrt,log2,None[12]。這里設(shè)置為None。
在計算中,產(chǎn)品辛烷值作為被解釋變量,變量數(shù)據(jù)進行歸一化處理后,將隨機選取的228個樣本數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),選取97個樣本數(shù)據(jù)作為測試集數(shù)據(jù),利用測試集數(shù)據(jù)對擬合好的模型進行辛烷值損失的預(yù)測。計算結(jié)果見圖2。
圖2中:紅色的曲線為真實值的波動情況;綠色為隨機森林模型[13]預(yù)測曲線,擬合值R2為92.5%;藍色的曲線為支持向量機回歸模型[14]預(yù)測曲線,擬合值R2為89.1%;淺綠色為決策數(shù)回歸模型[15]預(yù)測曲線,擬合值R2為86.6%。從圖2可知,基于隨機森林算法的預(yù)測值曲線與真實值曲線的重疊程度最高,說明所建立的預(yù)測模型預(yù)測效果較好。
比較不同的算法預(yù)測模型的預(yù)測性能。表7為預(yù)測性能評價指標(biāo)MSE值、MAE值、R2的值。
從表7結(jié)果可知,本文使用的隨機森林算法的均方誤差(MSE)為0.0086,平方絕對誤差(MAE)為0.0653,MSE和MAE值均比支持向量機回歸和決策樹回歸的小,這進一步說明隨機森林算法的預(yù)測精度優(yōu)于支持向量機回歸和決策樹回歸,而且基于變量分組降維的隨機森林算法的可決系數(shù)達到92%以上。在模型能力的解釋方面,該方法能解釋樣本數(shù)據(jù)中92%以上的信息,體現(xiàn)其具有合理性。
3 結(jié)束語
針對選取具有獨立性和代表性的重要特征,以及建立預(yù)測辛烷值損失預(yù)測模型的問題,提出了基于變量分組的特征選擇和辛烷值損失預(yù)測模型。通過變量分組,將性質(zhì)變量和操作變量分別處理,分析其與產(chǎn)品硫含量、辛烷值損失的關(guān)系;通過灰色關(guān)聯(lián)度方法得到關(guān)聯(lián)度強的特征,排序進行篩選;再利用最大信息系數(shù)篩選出獨立性特征,最終得到28個特征。在預(yù)測模型方面,采用隨機森林構(gòu)建辛烷值損失預(yù)測模型,與支持向量機回歸和決策樹回歸算法比較,構(gòu)建的隨機森林辛烷值損失預(yù)測模型得到的均方誤差為0.0086,R2為92.5%。通過將變量分組并采取融合灰色關(guān)聯(lián)度分析方法和最大信息系數(shù)方法,在選擇具有代表性特征的同時,更保證操作變量之間的獨立性。
[ 參 考 文 獻 ]
[1] 高潔,王莉娟,孫麗琳. 優(yōu)化操作條件降低汽油辛烷值損失[J]. 石油化工應(yīng)用,2011, 11(11):97-101.
[2] 齊萬松,姬曉軍,侯玉寶,等. SZorb裝置降低汽油辛烷值損失的探索與實踐[J].煉油技術(shù)與工程, 2014,44(11):5-10.
[3] 黃宏林,李燁,谷曉琳. 優(yōu)化操作條件降低汽油加氫裝置辛烷值損失[J]. 石油化工應(yīng)用, 2015, 34(12): 116-118.
[4] 張玉瑞,陳微微,周曉龍,等. 一種改進的調(diào)合辛烷值模型預(yù)測汽油研究法辛烷值[J]. 石油煉制與化工, 2011,1(03):14-28.
[5] 江世艷,王燕青,徐越峰,等. 基于灰色關(guān)聯(lián)分析的電網(wǎng)安全事故關(guān)鍵致因分析[J].中國電力,2020(10):56-59.
[6] 張曉娜. 我國服務(wù)業(yè)與城鎮(zhèn)化的灰色關(guān)聯(lián)度實證考察[J]. 統(tǒng)計與決策,2020(09):97-100.
[7] RESHEF D N, RESHEF Y A, FINUCANE H K, et al. Detecting Novel Associations in Large Data Sets[J].Science, 2011,334(6062): 1518-1524.
[8] 張瑩,杜井濤,吳懷崗. 基于最大信息系數(shù)的主成分分析貝葉斯分類算法[J]. 信息與電腦, 2020,32(11),63-66.
[9] TIN K H. The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 8(10): 832-844.
[10]YU F B, WEI C H, DENG P. Deep exploration of random forest model boosts the interpretability of machine learning studies of complicated immune responses and lung burden of nanoparticles[J]. Science Advances, 2021, 5(26): 7-22.
[11]盧維學(xué),吳和成,萬里洋. 基于融合隨機森林算法的PLS對降水量的預(yù)測[J]. 統(tǒng)計與決策.2020,8(18):27-31.
[12]暮雪成冰,隨機森林n_estimators參數(shù)max_features參數(shù)[EB/OL].[2019-06-19]https://blog.csdn.net/u012768474/article/details/92829985.
[13]BREIMAN L. Random forests[J]. Mach Learn,2001, (45): 5-32.
[14]周洲,焦文玲,任樂梅,田興浩. 蟻群算法分配權(quán)重的燃?xì)馊肇?fù)荷組合預(yù)測模型[J].哈爾濱工業(yè)大學(xué)學(xué)報,2021(06):177-183.
[15]王馬強. 數(shù)據(jù)挖掘方法在信用卡違約預(yù)測中的應(yīng)用[D]. 武漢:華中師范大學(xué).2020.
Feature Selection and Octane Number Loss Prediction
Model Based on Variable Grouping
SHEN Ping, TIAN Desheng
(School of Science, Hubei Univ. of Tech., Wuhan 430068,China)
Abstract:This paper studies the octane number loss of refined gasoline. In order to effectively select the features with independent representation, based on the grey relational analysis method and the maximum information coefficient method, the feature selection method of variable grouping dimension reduction is given. Combined with stochastic forest algorithm, a prediction model of octane number loss is proposed. In view of the highly nonlinear and strongly coupled relationship among operational variables, variable grouping is adopted to reduce dimension, that is, the relationship between operational variables and property variables and sulfur content and octane number loss of products is considered to screen features. The features with strong correlation between octane number loss and sulfur content of products were screened by grey correlation degree, and 28 independent variables were screened by maximum information coefficient after sorting. The data of postgraduate mathematical modeling contest are collected, and the random forest algorithm is used for simulation and prediction calculation. The calculation results show that the mean square error of feature selection and octane number loss prediction model based on variable grouping is 0.0086, and the fitting value R2is 92.5%.
Keywords:variable grouping; grey correlation degree; maximum information coefficient; random forest; octane number loss predict
[責(zé)任編校:張 眾]