国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林的汽油精制過程中辛烷值損失模型

2022-05-11 07:31
智能計算機與應(yīng)用 2022年2期
關(guān)鍵詞:適應(yīng)度變量曲線

薛 潔

(北京信息科技大學(xué) 經(jīng)濟管理學(xué)院, 北京 100192)

0 引 言

近年來,隨著汽車尾氣污染問題日趨嚴(yán)重,世界各國都制定了嚴(yán)格的汽油質(zhì)量標(biāo)準(zhǔn)。 為此,中國大力發(fā)展以催化裂化為核心的重油輕質(zhì)化工藝技術(shù),對汽油進行精制處理,以實現(xiàn)汽油清潔化。

經(jīng)研究發(fā)現(xiàn),辛烷值(RON)作為反映汽油燃燒性能最重要的指標(biāo),在實現(xiàn)汽油清潔化的過程中,卻不可避免地出現(xiàn)較大的損失值單位。 據(jù)統(tǒng)計,RON每降低1 個單位,相當(dāng)于每噸損失約150 元,這對于一個企業(yè)來說,無疑是增加了其生產(chǎn)成本,減少了收益。 以一個100 萬噸/年的催化裂化汽油精制裝置為例,若能降低0.3 個單位的RON 損失,其經(jīng)濟效益將達到4 500 萬元,因此,降低汽油RON 損失具有重要的意義。

本文以某石化企業(yè)為例,研究其RON 損失值的諸多問題。 經(jīng)廣泛收集各類相關(guān)數(shù)據(jù),并進行相應(yīng)處理,綜合運用隨機森林、遺傳算法等統(tǒng)計知識建立并優(yōu)化相關(guān)問題的損失預(yù)測模型,利用SPSS(Statistical Product and Service Solutions)、Matlab(Matrix&laboratory)等軟件對汽油精制過程中的RON 損失進行可視化展示及分析,力求降低其損失值15%以上,增加企業(yè)效益。

1 主要變量降維

1.1 建模變量命名

為了方便統(tǒng)計與計算,將所需的354 個操作變量以“M+變量編號”命名,如1 號位點氫油比命名為“M1”。 同樣,將13 個材料性質(zhì)以“A+變量編號”命名,如原料的RON 命名為“A2”,依次據(jù)此方式對366 個變量進行命名。

1.2 計算相關(guān)性矩陣

因樣本中存在許多特征相同的變量,冗余程度較高,而相關(guān)性較強的變量較多會影響隨機森林模型的準(zhǔn)確性,使得隨機森林的優(yōu)勢被削弱;同時,高相關(guān)度的屬性會擠占其他屬性被選擇的機會,導(dǎo)致其他具有不同特征信息的屬性無法得到評估,所以在使用隨機森林降維之前, 需對相關(guān)度較高的變量進行剔除,以此提高隨機森林的泛化能力。

計算366 個變量的相關(guān)性矩陣,按照相關(guān)度矩陣的值進行填色。 如圖1 所示, 亮黃色和深藍色表示變量間存在強相關(guān)性,本文定義為相關(guān)度大于0.8,對于強相關(guān)的變量,保留其一即可,刪除冗余變量后,剩余158 個變量,再進行隨機森林的構(gòu)造,進行再一次降維。

圖1 366 個變量的相關(guān)性矩陣Fig.1 Correlation matrix of 366 variables

1.3 隨機森林降維

使用隨機森林算法找出剩余158 個變量的統(tǒng)計結(jié)果中信息量最大的特征子集,從而進行降維,重復(fù)10 次實驗,對158 個變量的重要程度求平均值后進行排序,得出前30 個主要變量,如圖2 所示。

圖2 隨機森林算法計算出前30 個主要變量Fig.2 The first 30 main variables calculated by the random forest algorithm

對前30 個主要變量再次進行篩選,本文保留重要性程度在0.1 以上的主要變量,如圖2 中的2468, 共13 個變量,而后使用SPSS(Statistical Product and Service Solutions)軟件對前6 個變量進行相關(guān)性計算,得出表示相關(guān)關(guān)系強弱情況的皮爾遜相關(guān)性與顯著性(雙尾)計算結(jié)果,見表1。

表1 皮爾遜相關(guān)性與顯著性(雙尾)計算結(jié)果Tab.1 Pearson correlation and significance (two tailed) calculation results

2 基于隨機森林的損失預(yù)測模型

2.1 隨機森林預(yù)測

隨機森林是一種分類和預(yù)測集成的學(xué)習(xí)算法,其預(yù)測模型對部分變量壞值的容忍度較高,能夠更好地利用不同變量與預(yù)測值之間的特征信息進行預(yù)測。 預(yù)測步驟如下:

(1)劃分訓(xùn)練集與測試集:對原始樣本進行劃分,選出訓(xùn)練集與測試集。

(2)訓(xùn)練預(yù)測模型:使用帶有輸出的訓(xùn)練集訓(xùn)練隨機森林模型。

(3)對測試集進行測試:刪除測試集中的輸出結(jié)果,將測試集輸入模型,得到測試集樣本的預(yù)測值。

(4)模型評價:對模型預(yù)測的誤差進行計算,得到更接進于真實值的最佳測量結(jié)果。

2.2 建立RON 損失預(yù)測模型

首先對樣本的366 個變量進行處理,刪除冗余變量,保留主要的13 個變量;再將某石化企業(yè)的325 個數(shù)據(jù)樣本以6:4 的比例進行劃分,隨機選出訓(xùn)練集與測試集;構(gòu)建隨機森林模型,以訓(xùn)練集的RON 損失值作為標(biāo)簽,以13 個主要變量作為特征值輸入訓(xùn)練模型;最后,將測試集中的13 個變量輸入到訓(xùn)練好的模型中,得到測試集樣本的預(yù)測值,以測試集中預(yù)測值與真實值的均方對數(shù)誤差作為評價指標(biāo),對模型預(yù)測的誤差進行計算。 隨機森林模型預(yù)測值與真實值曲線對比,如圖3 所示。

圖3 隨機森林模型預(yù)測值與真實值曲線對比圖Fig.3 Comparison of predicted value and true value curve of random forest model

3 基于遺傳算法的優(yōu)化預(yù)測模型

3.1 主要變量操作方案的優(yōu)化

在13 個主要變量中,除原料的RON 是固定值以外,依次對其他12 個操作變量進行編碼,并在不同取值范圍內(nèi)進行限幅。 將最大迭代次數(shù)設(shè)置為100,將預(yù)測樣本RON 損失值的倒數(shù)作為個體的適應(yīng)度函數(shù),對325 個數(shù)據(jù)樣本逐一進行交叉、遺傳、變異、選擇等優(yōu)化操作;而后運用隨機森林預(yù)測模型進行封裝,但個別樣本的適應(yīng)度在100 次迭代內(nèi)出現(xiàn)了明顯提高,遺傳算法100 次迭代適應(yīng)度變化曲線如圖4 所示。 大部分?jǐn)?shù)據(jù)無法在迭代內(nèi)得到優(yōu)化,效果并不理想,沒有產(chǎn)生降幅大于15%的樣本。

圖4 遺傳算法100 次迭代適應(yīng)度變化曲線Fig.4 The fitness curve of 100 iterations of genetic algorithm

受計算速度和計算時間的限制,無法對全部數(shù)據(jù)增加優(yōu)化的迭代次數(shù),因此只能對小部分樣本進行再一次優(yōu)化。 如:對129 號樣本在500 次迭代內(nèi)先后進行2 次優(yōu)化,迭代適應(yīng)度變化曲線如圖5所示,其RON 損失值由0.9 降低至0.78,降幅為13.3%,依然沒有產(chǎn)生降幅超過15%的優(yōu)化數(shù)據(jù)。

圖5 129 號樣本500 次迭代適應(yīng)度變化曲線Fig.5 The fitness curve of sample No.129 during 500 iterations

對170 號樣本在1 000 次迭代內(nèi)先后進行3 次優(yōu)化,迭代適應(yīng)度變化曲線如圖6 所示,其RON 損失由0.98 降低至0.81,降幅為17.3%,實現(xiàn)了降幅超過15%的優(yōu)化目標(biāo)。

圖6 170 號樣本1 000 次迭代適應(yīng)度變化曲線Fig.6 The fitness curve of sample No.170 during 1 000 iterations

3.2 優(yōu)化預(yù)測模型的部分可視化展示

為了工業(yè)裝置穩(wěn)定高效運行,優(yōu)化后的主要變量只能逐步調(diào)整到位。 因此,若只改變一種變量,保持其他變量不變,便可得出該變量在優(yōu)化調(diào)整過程中所對應(yīng)的RON 損失變化軌跡。 以133 號樣本為例,其RON 損失變化曲線如圖7 所示。

圖7 133 號樣本的RON 損失變化曲線Fig.7 RON loss curve of sample No.133

4 結(jié)束語

本文通過對某石化企業(yè)原始數(shù)據(jù)進行處理,將得到預(yù)處理后的數(shù)據(jù)降維,建立基于隨機森林的RON 損失預(yù)測模型,對RON 損失及其指標(biāo)進行預(yù)測,通過預(yù)測值曲線與真實值曲線的對比,發(fā)現(xiàn)其預(yù)測結(jié)果接近于真實值,說明預(yù)測模型有效。

運用遺傳算法優(yōu)化主要變量,經(jīng)過多次迭代優(yōu)化后,最終完成了降幅超過15%的優(yōu)化目標(biāo)。 本文基于隨機森林的汽油精制過程中辛烷值損失模型為中國車用汽油質(zhì)量升級的關(guān)鍵技術(shù)及其深度開發(fā)提供了可靠依據(jù)。

猜你喜歡
適應(yīng)度變量曲線
未來訪談:出版的第二增長曲線在哪里?
啟發(fā)式搜索算法進行樂曲編輯的基本原理分析
基于改進演化算法的自適應(yīng)醫(yī)學(xué)圖像多模態(tài)校準(zhǔn)
夢寐以求的S曲線
基于人群搜索算法的上市公司的Z—Score模型財務(wù)預(yù)警研究
分離變量法:常見的通性通法
曲線的華麗贊美詩
不可忽視變量的離散與連續(xù)
輕松把握變量之間的關(guān)系
數(shù)學(xué)問答
隆林| 青川县| 兴和县| 泗洪县| 丰原市| 三原县| 嘉荫县| 盐源县| 肇源县| 台山市| 油尖旺区| 阜新市| 涟水县| 阳信县| 金堂县| 临高县| 岑巩县| 仲巴县| 宾川县| 保山市| 醴陵市| 永康市| 平乡县| 息烽县| 招远市| 潼关县| 隆昌县| 孝感市| 宽城| 雷波县| 昌图县| 清水县| 恩平市| 高碑店市| 沅陵县| 瑞丽市| 伽师县| 大石桥市| 佛学| 子长县| 绥宁县|