石翠翠,劉媛華
(上海理工大學(xué)管理學(xué)院,上海 200093)
目前,中國石化下屬煉油廠的催化裂化汽油脫硫主要采用S Zorb工藝[1]。由于S Zorb工藝裝置非常復(fù)雜,因而影響精制汽油研究法辛烷值(RON)的特征變量間存在高度非線性和相互強耦聯(lián)的關(guān)系。傳統(tǒng)關(guān)聯(lián)分析和機理模型對高維度數(shù)據(jù)集的分析效果不理想,會造成催化裂化汽油精制過程的參數(shù)優(yōu)化不及時,從而導(dǎo)致汽油產(chǎn)品辛烷值損失增大。因此,在對催化裂化汽油進行精制處理時,如何從S Zorb裝置的操作條件、原料性質(zhì)、待生吸附劑性質(zhì)與再生吸附劑性質(zhì)等方面精確預(yù)測汽油產(chǎn)品的辛烷值并進行影響因素分析,成為降低汽油辛烷值損失的難點問題。
隨著汽油辛烷值數(shù)據(jù)不斷向非線性、多模態(tài)等復(fù)雜系統(tǒng)方向發(fā)展,中國石化企業(yè)實驗室信息管理系統(tǒng)(LIMS)獲取的數(shù)據(jù)集轉(zhuǎn)向非正態(tài)分布[2-3],導(dǎo)致基于傳統(tǒng)特征變量選擇方法模型的預(yù)測效果變差。因此,如何有效剔除冗余特征變量,建立新的特征變量選擇方法是提高汽油辛烷值模型預(yù)測精度的關(guān)鍵[4]。為此,很多學(xué)者進行了有益的探索。Albahri[5]利用基團貢獻法預(yù)測汽油的RON和馬達法辛烷值(MON),發(fā)現(xiàn)基團貢獻法只考慮基團之間的線性組合,其預(yù)測模型的穩(wěn)定性差。Saldana等[6]研究發(fā)現(xiàn)定量結(jié)構(gòu)性質(zhì)關(guān)系(QSPR)模型在預(yù)測燃料十六烷值時的性能優(yōu)于其他模型。Mendes[7]和Bao Xin等[8]發(fā)現(xiàn)采用偏最小二乘回歸法預(yù)測汽油RON具有較好的穩(wěn)定性和預(yù)測精度。從上述研究結(jié)果可知,由于變量因子與汽油辛烷值間的函數(shù)關(guān)系非常復(fù)雜,一些學(xué)者把智能優(yōu)化算法與BP神經(jīng)網(wǎng)絡(luò)模型組合應(yīng)用于汽油辛烷值的預(yù)測。Sadighi等[9]采用混合人工神經(jīng)網(wǎng)絡(luò)(BPNN)和遺傳算法(GA)對汽油RON進行預(yù)測,提高了預(yù)測模型的穩(wěn)定性和精確性。Wang Shutao等[10]用天牛須搜索(BAS)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)(BASBP)來預(yù)測汽油辛烷值,發(fā)現(xiàn)BASBP模型在訓(xùn)練中具有較高穩(wěn)定性和收斂速率。
天牛須搜索算法雖然優(yōu)于其他算法,但在提高模型的預(yù)測精確度上仍有較大空間。本研究以催化裂化汽油精制脫硫裝置歷史數(shù)據(jù)集為基礎(chǔ),提出了一種基于偏最小二乘法(PLS)和互信息(MI)組合的改進天牛須搜索算法(RSBAS)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的模型(PLS-MI-RSBASBP)。該模型采用PLS和MI的組合降維法選取與汽油辛烷值強相關(guān)且弱冗余的特征變量,并用改進的天牛須搜索算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)。在此基礎(chǔ)上,用S Zorb工藝裝置數(shù)據(jù)集對該模型進行多次訓(xùn)練與測試,得到最優(yōu)的PLS-MI-RSBASBP模型;進而,采用該模型對精制汽油RON進行預(yù)測,為控制汽油辛烷值的關(guān)鍵變量因子提供依據(jù)。
天牛須搜索算法(BAS)是根據(jù)天牛覓食時的探測行為和搜索行為提出的一種仿生智能算法,具有只需單個個體即可完成尋優(yōu)的優(yōu)點,運算量小[11]。天牛在覓食時,利用觸須擺動接收空氣中食物信息的濃度,從而搜索行動方向。在BAS算法中,食物為待優(yōu)化的目標(biāo)函數(shù),某時刻(t)天牛質(zhì)心的位置為自變量(xt),其表達式見式(1)。
(1)
覓食過程中,天牛隨機搜索未知區(qū)域,其搜索方向見式(2)。
(2)
(3)
(4)
ht=rh×ht -1+0.01
(5)
stept=eta×stept -1
(6)
式中:rh為衰減系數(shù);eta為0~1的衰減系數(shù),一般取0.95。
BAS算法雖然在優(yōu)化性能方面優(yōu)于其他部分算法,但收斂速率小、預(yù)測精度低、易陷入局部最優(yōu)解,且對參數(shù)設(shè)置比較敏感,手動參數(shù)調(diào)節(jié)比較麻煩[12]。因此,國內(nèi)外學(xué)者對BAS算法的步長更新[13-15]、位置更新[16]等方面進行了改進。本研究提出了一種隨機更新步長的天牛須搜索算法(RSBAS),對BAS的參數(shù)與步長調(diào)節(jié)方面進行了改進,在自適應(yīng)步長更新中引入隨機數(shù)來提高BAS算法的優(yōu)化性能。首先,按式(7)對模型的變量維數(shù)(d)進行優(yōu)化。
d=Nin×Nhid+Nout×Nhid+Nhid+Nout
(7)
式中:Nin為輸入層節(jié)點個數(shù);Nhid為隱含層節(jié)點個數(shù);Nout為輸出層節(jié)點個數(shù)。
此外,考慮隨機時滯情況,加入部分個體自身經(jīng)驗信息,并保持個體的多樣性,在步長更新中引入一個隨機數(shù),增強算法的搜索能力。因此,步長更新算法由式(6)變?yōu)槭?8)。
stept=r1×h0+r2×eta×stept -1
(8)
式中:r1和r2均為0~1的隨機數(shù)。
在BP神經(jīng)網(wǎng)絡(luò)(BPNN)的結(jié)構(gòu)中,特征變量的權(quán)重、閾值,隱藏層的層數(shù)和每個層中神經(jīng)元的數(shù)量都會影響其預(yù)測性能[17]。BPNN結(jié)構(gòu)的復(fù)雜性取決于隱藏層的數(shù)量,隱藏層的層數(shù)由經(jīng)驗公式及試錯的方法確定;而輸入層和輸出層的神經(jīng)元數(shù)量由具體問題確定。BPNN的學(xué)習(xí)速率是固定的,收斂速率較小,訓(xùn)練時間較長,因而處理大樣本數(shù)據(jù)時訓(xùn)練能力差,預(yù)測能力也差,且有時會出現(xiàn)“過擬合”現(xiàn)象,即隨著訓(xùn)練能力的提高,預(yù)測能力會下降[18]。因此,采用RSBAS算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的特征變量權(quán)重和閾值,提升訓(xùn)練效率,避免“過擬合”現(xiàn)象,得到RSBASBP神經(jīng)網(wǎng)絡(luò)模型。其優(yōu)化過程如下:
(1)由式(7)確定RSBAS模型的變量維數(shù);利用MATLAB R2018a進行預(yù)測模型的多次調(diào)試,選擇出預(yù)測模型最優(yōu)的初始化參數(shù),RSBAS模型中天牛的位置、步長及迭代次數(shù)。
(2)用式(4)更新天牛的位置及搜索方向,由式(8)更新搜索步長,計算并比較適應(yīng)度函數(shù)fleft與fright的值,以選擇較好的位置。
(3)判斷適應(yīng)度函數(shù)值是否達到預(yù)設(shè)精度或迭代次數(shù),若滿足則停止迭代,進入下一步,若不滿足則返回第二步繼續(xù)迭代。
(4)結(jié)束迭代,跳出循環(huán),得到最優(yōu)解xbest和fbest,并把此最優(yōu)解作為BPNN模型特征變量的初始權(quán)值和閾值,構(gòu)建的RSBAS優(yōu)化BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型如圖1所示。
圖1 RSBAS優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的預(yù)測模型框圖
模型的原始數(shù)據(jù)集采自中國石化上海高橋石油化工有限公司實時數(shù)據(jù)庫(霍尼韋爾PHD)及LIMS實驗數(shù)據(jù)庫。其中,操作變量數(shù)據(jù)來自于實時數(shù)據(jù)庫,采集時間為2017年4月至2020年5月,采集樣本數(shù)為325個,選取60個特征變量。
采集汽油辛烷值數(shù)據(jù)時,由于受到主觀和客觀因素的影響,獲取的數(shù)據(jù)存在異常值,而且部分特征變量與目標(biāo)變量的相關(guān)性較弱。為了消除變量間的共線問題,排除系統(tǒng)噪聲的干擾,降低預(yù)測模型的復(fù)雜度,因此基于偏最小二乘法(PLS)和互信息(MI)組合方法,構(gòu)建PLS-MI-RSBASBP組合預(yù)測模型。
首先,利用拉伊達(3σ)準(zhǔn)則,以置信概率99.7%為標(biāo)準(zhǔn),以3倍的標(biāo)準(zhǔn)偏差為界限,對數(shù)據(jù)集中的異常值進行修正處理[19]。
其次,采用偏最小二乘法(PLS)[20-21]計算特征變量xi(i=1,2,…,60)和目標(biāo)變量y(汽油RON)的投影重要性值(VIP),提取VIP>1的特征變量,得到與y相關(guān)性較強的特征變量xi(i=1,2,…,24)數(shù)據(jù)集;然后,利用互信息(MI)[22-23]分析每個特征變量與目標(biāo)變量間的非線性關(guān)系,計算特征變量xi(i=1,2,…,24)與y的互信息值,選擇其中與RON強相關(guān)的特征變量xj(j=1,2,…,19)。
最后,把優(yōu)選的19個特征變量作為RSBASBP模型的輸入層,分別采用PLS-MI-RSBASBP網(wǎng)絡(luò)模型、PLS-MI-BP網(wǎng)絡(luò)模型、PLS-MI-GABP網(wǎng)絡(luò)模型、PLS-MI-BASBP網(wǎng)絡(luò)模型對汽油RON進行預(yù)測,并對比分析4種模型的預(yù)測結(jié)果。
(9)
首先,采用偏最小二乘法(PLS)的變量投影重要性(VIP)值分析特征變量xi(i=1,2,…,60)與目標(biāo)變量y之間的相關(guān)性。根據(jù)PLS的原理[24]計算出每個特征變量的VIP值,提取VIP>1的相關(guān)特征變量,結(jié)果如圖2所示。
圖2 變量投影重要性VIP值
由圖2可知,采用PLS的VIP值分析篩選雖然剔除了部分冗余的弱相關(guān)變量,降低了特征變量集的維數(shù),但在提取的特征變量中仍存在著弱相關(guān)變量,可解釋性較弱。采用互信息(MI)算法選擇特征變量,會在保留強相關(guān)特征的同時剔除冗余特征,但存在過度剔除現(xiàn)象,導(dǎo)致有用數(shù)據(jù)丟失。在采用PLS提取相關(guān)性較大特征變量的基礎(chǔ)上,再用MI算法計算選擇特征變量與汽油RON的MI值,可以避免有用信息的丟失,得到與汽油辛烷值相關(guān)性強且冗余度低的特征變量。具體優(yōu)選結(jié)果如表1所示。
表1 優(yōu)選的特征變量與汽油RON的VIP值和MI值
為了考察組合預(yù)測模型對汽油RON的預(yù)測效果,分別對比用BP,GABP,BASBP,RSBASBP模型直接預(yù)測,用PLS特征提取的組合模型PLS-BP,PLS-GABP,PLS-BASBP,PLS-RSBASBP,MI-BP,MI-GABP,MI-BASBP,MI-RSBASBP預(yù)測以及用特征提取和特征選擇的組合模型PLS-MI-BP,PLS-MI-GABP,PLS-MI-BASBP,PLS-MI-RSBASBP預(yù)測的結(jié)果。
在評價RON預(yù)測模型的性能時,選取平均絕對誤差(MAE)、均方誤差(MSE)和均方根誤差(RMSE)作為評價指標(biāo),其具體計算方法見式(10)~(12)。
(10)
(11)
(12)
采用模型預(yù)測汽油RON時,將325個樣本按4∶1的比例分為訓(xùn)練集和測試集,即前260組數(shù)據(jù)為訓(xùn)練集,后65組數(shù)據(jù)為測試集。模型直接預(yù)測、特征提取預(yù)測、特征提取與特征選擇組合預(yù)測的特征變量個數(shù)分別為60,24,19個,作為模型的輸入層神經(jīng)元;目標(biāo)變量為汽油RON,作為輸出層神經(jīng)元;隱含層的個數(shù)Nhid的確定,先由式(13)得到一個預(yù)估值,然后通過仿真計算,選取誤差較小結(jié)果對應(yīng)的層數(shù),優(yōu)化的隱含層個數(shù)為5。
(13)
式中:m與n分別為輸入層與輸出層神經(jīng)元個數(shù);a為1~10之間的常數(shù)。
采用BP,GABP,BASBP,RSBASBP模型對汽油辛烷值分別進行直接預(yù)測、特征提取預(yù)測、特征提取與特征選擇組合預(yù)測,結(jié)果如圖3所示。由圖3可知,經(jīng)PLS-MI方法降維處理后,各模型預(yù)測值與工業(yè)真實值的擬合度最高。
圖3 不同模型在未降維和不同降維方法上的預(yù)測結(jié)果 —工業(yè)裝置RON真實值; ○—RON直接預(yù)測值; 特征提取RON預(yù)測值; □—MI特征選擇RON預(yù)測值; ☆—PLS-MI特征提取+特征選擇RON預(yù)測值
不同模型預(yù)測值與工業(yè)真實值的誤差比較如表2~表5所示。由表2~表5可知:在用PLS特征提取模型預(yù)測結(jié)果中,PLS-BP模型預(yù)測的MAE值低于BP模型,其他PLS特征提取模型的預(yù)測結(jié)果均明顯優(yōu)于直接預(yù)測結(jié)果;而用MI特征選擇模型預(yù)測的結(jié)果不但沒有提高預(yù)測性能,反而大幅降低了模型的預(yù)測精度,尤其是MI-BP的MSE和RMSE的值均超過了1,說明只采用MI選擇特征變量,未評估特征子集的整體性能,導(dǎo)致大量有用信息丟失,模型預(yù)測性能降低。對比分析可知,PLS較MI方法能更有效提高模型預(yù)測性能,但二者都有一定的局限性;采用PLS-MI組合特征提取和特征選擇方法較PLS、MI單一特征變量選取方法效果更好,預(yù)測誤差更小、精度更高。
從表2~表5還可以看出,RSBASBP比GABP、BASBP模型的擬合效果更好,說明RSBAS算法可以避免BP神經(jīng)網(wǎng)絡(luò)的“過擬合”現(xiàn)象;對于非線性數(shù)據(jù)集,應(yīng)采用RSBASBP模型的進行預(yù)測。
表2 不同特征變量選擇方法的BP神經(jīng)網(wǎng)絡(luò)模型的仿真結(jié)果
將PLS-MI-BP,PLS-MI-GABP,PLS-MI-BASBP,PLS-MI-RSBASBP模型對汽油RON預(yù)測值和工業(yè)真實值進行擬合處理,如圖4所示。從圖4可以看出,4種組合模型都有較好的預(yù)測效果,但對一些突出值而言,PLS-MI-RSBASBP模型的擬合效果更好。因此,PLS-MI-RSBASBP模型的預(yù)測結(jié)果精度最高。
圖4 4種PLS-MI組合模型的預(yù)測結(jié)果 —工業(yè)裝置RON真實值; ☆—PLS-MI特征提取+特征選擇模型RON預(yù)測值
表3 不同特征變量選擇方法的GABP網(wǎng)絡(luò)模型的仿真結(jié)果
表4 不同特征變量選擇方法的BASBP網(wǎng)絡(luò)模型的仿真結(jié)果
綜合比較采用PLS-MI組合方法優(yōu)化后PLS-MI-BP,PLS-MI-GABP,PLS-MI-BASBP,PLS-MI-RSBASBP模型的預(yù)測值與工業(yè)真實值間的誤差,結(jié)果如表6所示。從表6可以看出,4種模型預(yù)測結(jié)果中,PLS-MI-RSBASBP模型預(yù)測值與工業(yè)真實值的MAE,MSE,RMSE都是最小的。因此,PLS-MI-RSBASBP模型對汽油RON的預(yù)測性能最好。
表5 不同特征變量選擇方法的RSBASBP網(wǎng)絡(luò)模型的仿真結(jié)果
表6 4種PLS-MI組合模型的預(yù)測誤差
對于催化裂化汽油精制脫硫S Zorb裝置,基于偏最小二乘法和互信息組合的改進天牛須搜索算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的模型(PLS-MI-RSBASBP)可以大幅降低特征變量維度,對汽油RON的預(yù)測性能好。
該模型通過計算特征變量與目標(biāo)變量投影重要性(VIP)和互信息(MI)值,篩選出與目標(biāo)變量汽油RON強相關(guān)、低冗余的19個變量作為模型的輸入特征變量,PLS-MI結(jié)合方法由于單一的PLS和MI方法,有效避免了模擬過程的“過擬合”現(xiàn)象,特征變量降維后的模型預(yù)測精確度提高。
與其他預(yù)測模型相比,PLS-MI-RABASBP模型對汽油辛烷值的預(yù)測值與裝置真實值間的擬合度最高,預(yù)測誤差最低,性能最好。