姬子恒,朱建偉,陳海江
(長(zhǎng)安大學(xué) 機(jī)械學(xué)院,西安 710064)
汽油是小型車輛的主要燃料,汽油燃燒產(chǎn)生的尾氣排放對(duì)大氣環(huán)境影響嚴(yán)重。汽油清潔化的重點(diǎn)是降低汽油中的硫、烯烴含量,同時(shí)保持其辛烷值。中國(guó)每年從國(guó)外進(jìn)口大量的含硫和高硫的原油,且其中的重油通常占比高達(dá)40%-60%。為了有效利用重油資源,中國(guó)開(kāi)發(fā)了一種以裂化催化為核心的重油輕質(zhì)化工藝技術(shù),將重油轉(zhuǎn)化為汽油、柴油和低碳烯烴。為了滿足對(duì)汽油質(zhì)量的要求,必須對(duì)催化裂化汽油進(jìn)行精制處理,降低其中的硫、烯烴含量。然而,現(xiàn)有的技術(shù)在對(duì)催化裂化汽油進(jìn)行脫硫和降烯烴處理過(guò)程中,普遍降低了汽油辛烷值,影響了汽油的燃燒性能。據(jù)研究結(jié)果表明,辛烷值每降低一個(gè)單位,相當(dāng)于每噸損失150元。因此,在汽油精制過(guò)程中盡量保持其辛烷值,是提高石化企業(yè)經(jīng)濟(jì)效益的關(guān)鍵。
為了控制汽油精制處理過(guò)程中辛烷值的含量,本文將通過(guò)數(shù)據(jù)挖掘技術(shù),建立汽油辛烷值(RON)損失的預(yù)測(cè)模型,并給出每個(gè)樣本的優(yōu)化操作條件。
某石化企業(yè)的催化裂化汽油精制脫硫裝置運(yùn)行4年,積累了大量歷史數(shù)據(jù),其中包括7個(gè)原料性質(zhì)、2個(gè)待生吸附劑性質(zhì)、2個(gè)再生吸附劑性質(zhì)、2個(gè)產(chǎn)品性質(zhì)以及354個(gè)操作變量,合計(jì)367個(gè)變量。如此龐大的樣本數(shù)據(jù),不利于建模過(guò)程的優(yōu)化。因此,需要通過(guò)降維的方法,從367個(gè)變量中篩選出建模主要變量,使得降維后的主要變量減少為30個(gè)以下,并使主要變量之間盡量具有代表性和獨(dú)立性。建模主要變量篩選流程如圖1所示。
圖1 建模主要變量篩選流程Fig.1 Flow chart of main variables screening in modeling
在對(duì)海量數(shù)據(jù)或大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí),通常會(huì)面臨“維度災(zāi)難”。其原因是數(shù)據(jù)集的維度可以不斷增加直至無(wú)窮多,但計(jì)算機(jī)的處理能力和速度卻是有限的。典型的數(shù)據(jù)降維思路,是基于特征選擇的降維。本文采用基于統(tǒng)計(jì)分析的方法,通過(guò)計(jì)算汽油精制過(guò)程中不同操作變量與汽油辛烷值之間的互信息量,對(duì)求出的互信息按大小進(jìn)行排序,篩選出其中排序靠前的若干個(gè)變量。
通常情況下,兩個(gè)離散變量和的互信息如圖2所示,可定義為:
其中,(,)是和的聯(lián)合概率分布函數(shù),而()和()分別是和的邊緣概率分布函數(shù)。
圖2 互信息示意圖Fig.2 Schematic diagram of mutual information
當(dāng)求解某個(gè)變量與辛烷值的聯(lián)合分布密度(,)時(shí),可根據(jù)隨機(jī)變量、的取值范圍,將整個(gè)區(qū)域等分為100個(gè)小網(wǎng)格,對(duì)于任意一個(gè)小網(wǎng)格xy,定義聯(lián)合分布密度(x,y)p,其值為落在該小網(wǎng)格上的樣本數(shù)據(jù)點(diǎn)數(shù)與樣本數(shù)據(jù)總點(diǎn)數(shù)之比。
當(dāng)分別求解某個(gè)變量與辛烷值的邊緣概率分布函數(shù)(x)和(y)時(shí),可分別對(duì)聯(lián)合分布列的第行和第列的聯(lián)合概率密度求和,即:
將其代入公式(1),即可求出第個(gè)變量與辛烷值的互信息(;),共計(jì)366個(gè)互信息值。將這些變量的互信息值按從大到小的順序排列,篩選出排序靠前的變量,即與辛烷值的相關(guān)性最高的若干變量。
mRMR算法主要是為了解決通過(guò)最大化特征與目標(biāo)變量的相關(guān)關(guān)系度,得到的最好的個(gè)特征中存在冗余特征的問(wèn)題。采用mRMR算法可以篩選出辛烷值的操作變量中相關(guān)性較小的變量,保證了可操作變量與辛烷值之間最大相關(guān)性的同時(shí),彼此之間又有最小的冗余性。
首先,利用互信息計(jì)算(;)((;)越大,其之間的關(guān)聯(lián)度就越大)。找出含有(x)個(gè)特征的特征子集,使得找出的個(gè)特征和類別的相關(guān)性最大,即找出與關(guān)系最密切的個(gè)特征。
特征集與類別的相關(guān)性由各個(gè)特征x和類之間的所有互信息值的平均值定義,由此選出個(gè)平均互信息最大的集合。之后,消除個(gè)特征之間的冗余:
最終,篩選出同時(shí)滿足與辛烷值之間具有最大相關(guān)性,且彼此之間又有最小冗余性的18個(gè)可操作變量。
通過(guò)比較每個(gè)自變量和因變量之間互信息的大小,把互信息值大的變量篩選出來(lái),最終得到了18個(gè)用于建模的主要變量。本文主要利用BP神經(jīng)網(wǎng)絡(luò),對(duì)辛烷值損失建立預(yù)測(cè)模型。
BP神經(jīng)網(wǎng)絡(luò)屬于前向神經(jīng)網(wǎng)絡(luò),強(qiáng)調(diào)網(wǎng)絡(luò)采用誤差反向傳播的學(xué)習(xí)算法。其中包括一個(gè)輸入層、若干隱含層和一個(gè)輸出層組成。其核心思想是通過(guò)樣本訓(xùn)練集,不斷修正神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,逐步逼近期望的輸出值。在訓(xùn)練開(kāi)始時(shí)沿著網(wǎng)絡(luò)正向傳播,然后根據(jù)網(wǎng)絡(luò)的輸出值與期望的輸出值之間的誤差,反向傳播調(diào)整權(quán)值和閾值。通過(guò)反復(fù)更新網(wǎng)絡(luò)權(quán)值和閾值實(shí)現(xiàn)誤差最小,即完成網(wǎng)絡(luò)訓(xùn)練。本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)示意如圖3所示,其實(shí)現(xiàn)步驟如下:
設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)層
(1)輸入輸出層:將提取的18個(gè)主要變量作為輸入,產(chǎn)品辛烷值損失量作為輸出。故輸入層神經(jīng)元個(gè)數(shù)18,輸出層神經(jīng)元個(gè)數(shù)1。
(2)隱含層:在網(wǎng)絡(luò)設(shè)計(jì)過(guò)程中,隱含層神經(jīng)元數(shù)的確定十分重要。隱含層神經(jīng)元個(gè)數(shù)過(guò)多,會(huì)加大網(wǎng)絡(luò)計(jì)算量,并容易產(chǎn)生過(guò)度擬合問(wèn)題;而神經(jīng)元個(gè)數(shù)過(guò)少,則會(huì)影響網(wǎng)絡(luò)性能,達(dá)不到預(yù)期效果。由于,涉及數(shù)據(jù)較少,本文設(shè)置迭代次數(shù)為1000,訓(xùn)練誤差目標(biāo)為0.000001,學(xué)習(xí)率為0.4。分別設(shè)定隱含層神經(jīng)元數(shù)為:45,60,90,120,在此基礎(chǔ)上討論不同隱含層神經(jīng)元數(shù)的測(cè)試誤差。誤差平均值見(jiàn)表1。
表1 不同隱含層神經(jīng)元數(shù)的誤差均值Tab.1 Error mean of neurons in different hidden layers
從表1可以看出,當(dāng)隱含層神經(jīng)元數(shù)為90時(shí),誤差均值最低。因此,設(shè)置隱含層神經(jīng)元數(shù)為90。
圖3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Structure diagram of neural network
確定訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)
通過(guò)前文的指標(biāo)篩選,得到325行18列的變量數(shù)據(jù),即神經(jīng)網(wǎng)絡(luò)的輸入層數(shù)據(jù),輸出層數(shù)據(jù)為325行1列的數(shù)據(jù)。本文設(shè)置前260行數(shù)據(jù)為訓(xùn)練數(shù)據(jù),后65行為測(cè)試數(shù)據(jù)?;诖耍瑪?shù)據(jù)標(biāo)準(zhǔn)化按照公式(6)進(jìn)行。
選取激勵(lì)函數(shù)
激勵(lì)函數(shù)的作用是提供規(guī)?;姆蔷€性化能力,使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù),模擬神經(jīng)元被激發(fā)的狀態(tài)變化。若不用激勵(lì)函數(shù),無(wú)論神經(jīng)網(wǎng)絡(luò)有多少層,輸出都是輸入的線性組合。
目前,常用的激勵(lì)函數(shù)有:Sigmoid、Thah和ReLU。ReLU使得SGD的收斂速度比Sigmoid和Thah快很多,使過(guò)程計(jì)算量減少,此外還解決了梯度消失問(wèn)題。出于此種考慮,本文選擇ReLU(Rectified Linear Uni)作為本神經(jīng)網(wǎng)絡(luò)的激勵(lì)函數(shù)。其形式如下:
上述算法流程如圖4所示。
對(duì)降維后篩選出18個(gè)主要變量的325個(gè)樣本數(shù)據(jù)進(jìn)行BP神經(jīng)網(wǎng)絡(luò)分析,經(jīng)過(guò)數(shù)據(jù)訓(xùn)練與學(xué)習(xí),產(chǎn)生辛烷值損失的預(yù)測(cè)結(jié)果。將測(cè)試集導(dǎo)入訓(xùn)練好的RON損失預(yù)測(cè)模型中,對(duì)預(yù)測(cè)得到的結(jié)果與其真實(shí)值進(jìn)行對(duì)比,其結(jié)果如圖5所示。
圖4 BP神經(jīng)網(wǎng)絡(luò)算法框圖Fig.4 Block diagram of BP neural network algorithm
圖5 BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果與真實(shí)值對(duì)比Fig.5 Comparison between BP neural network prediction results and real values
從圖5可以看出,預(yù)測(cè)值與真實(shí)值十分相近,說(shuō)明該模型具有較好的回歸結(jié)果,可較為真實(shí)的反應(yīng)辛烷值的損失。各樣本預(yù)測(cè)誤差百分比計(jì)算結(jié)果如圖6所示。
圖6 BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)誤差百分比Fig.6 Percentage of prediction error of BP neural network
從圖6可以看出,訓(xùn)練得到的BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果較為準(zhǔn)確,樣本中預(yù)測(cè)的誤差百分比最大只有0.25%。
經(jīng)查閱相關(guān)文獻(xiàn)可知,在S Zord吸附脫硫技術(shù)中,主要有烯烴加氫飽和反應(yīng)和烯烴異構(gòu)化反應(yīng)。而烯烴加氫飽和會(huì)形成烷烴,從而大大降低精制汽油的辛烷值,使辛烷值損失過(guò)大。因此,為了減少精制汽油的辛烷值損失,應(yīng)該抑制烯烴的加氫飽和反應(yīng),增強(qiáng)汽油在反應(yīng)器中的烯烴異構(gòu)化反應(yīng)。
在S Zord實(shí)際的生產(chǎn)過(guò)程中,主要通過(guò)再生吸附劑的含量來(lái)調(diào)整吸附劑的活性。由優(yōu)化分析可知,當(dāng)調(diào)整主要操作變量——再生吸附劑含量,該主要操作變量的含量越高,再生吸附劑的活性就越大,精制汽油的辛烷值損失就越小。因此,在保證精制汽油的硫含量不大于5μg/g的前提下,盡可能提高再生吸附劑含量,從而降低精制汽油中的辛烷值損失。
由于烯烴加氫飽和反應(yīng)是強(qiáng)放熱的過(guò)程,所以通過(guò)增加反應(yīng)溫度,可有效抑制此反應(yīng)的進(jìn)行。如果反應(yīng)器內(nèi)烯烴加氫飽和反應(yīng)大量發(fā)生,則反應(yīng)器的溫度將會(huì)大幅度提高,同時(shí)耗氫量也會(huì)增加。總而言之,烯烴加氫飽和反應(yīng)是S Zord裝置脫硫過(guò)程最不希望發(fā)生的反應(yīng),所以應(yīng)盡可能通過(guò)調(diào)節(jié)反應(yīng)溫度、反應(yīng)壓力、再生吸附劑含量等主要操作變量來(lái)抑制此反應(yīng)的發(fā)生。反應(yīng)溫度對(duì)辛烷值損失的影響曲線如圖7所示。
圖7 反應(yīng)溫度對(duì)辛烷值損失的影響Fig.7 Effect of reaction temperature on octane number loss
由于烯烴加氫飽和反應(yīng)是一個(gè)體積減少的過(guò)程,增加反應(yīng)壓力將促使氫分壓增加,使烯烴加氫的速率增加,從而加速了烷烴的形成,導(dǎo)致精制汽油中的烯烴含量的減少,增加辛烷值的損失。所以,合理有效地控制反吹氣體聚集器/補(bǔ)充氫差壓,降低反應(yīng)壓力則會(huì)減少辛烷值的損失。反應(yīng)壓力對(duì)辛烷值損失的影響曲線如圖8所示。
圖8 反應(yīng)壓力對(duì)辛烷值損失的影響Fig.8 Effect of reaction pressure on octane number loss
本文構(gòu)建了基于mRMR-BP算法的辛烷值損失預(yù)測(cè)模型,通過(guò)互信息和mRMR算法篩選出主要操作變量,解決了傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)模型中變量相對(duì)較少的問(wèn)題,使主要操作變量更具有代表性和獨(dú)立性。經(jīng)對(duì)模型驗(yàn)證,表明該模型在預(yù)測(cè)精度上有較好的表現(xiàn)。通過(guò)分析主要操作變量對(duì)辛烷值損失的影響,為企業(yè)汽油精制處理過(guò)程中的實(shí)際操作提供可靠參考,幫助企業(yè)實(shí)現(xiàn)經(jīng)濟(jì)效益最大化。