摘要:該文通過收集整理原油實(shí)驗(yàn)室積累的大量有價(jià)值的原油評(píng)價(jià)數(shù)據(jù),建立了原油數(shù)據(jù)庫。同時(shí),將數(shù)據(jù)庫中的原油性質(zhì)和反應(yīng)產(chǎn)品分布數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),結(jié)合化學(xué)計(jì)量學(xué)校正理論,建立了性質(zhì)與性質(zhì)、性質(zhì)與反應(yīng)產(chǎn)物分布的數(shù)學(xué)關(guān)聯(lián)模型。結(jié)果表明,利用各種校正理論方法建立的數(shù)學(xué)關(guān)聯(lián)模型都有很好的預(yù)測(cè)效果,能夠達(dá)到對(duì)性質(zhì)組成和反應(yīng)產(chǎn)物分布快速、準(zhǔn)確預(yù)測(cè)的目的。
關(guān)鍵詞:原油;化學(xué)計(jì)量學(xué);校正理論;粘度;催化裂化 R語言
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)28-6815-05
原油煉制技術(shù)研究,必須建立在系統(tǒng)深入認(rèn)識(shí)原油化學(xué)特性的基礎(chǔ)上,以石油化學(xué)為理論依據(jù),以提高汽柴油等液體產(chǎn)品收率為目標(biāo)。因此,實(shí)驗(yàn)室開展了對(duì)原油深入的化學(xué)評(píng)價(jià)分析。最終,利用分析數(shù)據(jù)建立了原油數(shù)據(jù)庫。目前,如何利用先進(jìn)數(shù)據(jù)分析方法對(duì)數(shù)據(jù)庫中的原油評(píng)價(jià)數(shù)據(jù)進(jìn)行有效地分析成為實(shí)驗(yàn)室面臨最主要的研究問題,通過此項(xiàng)研究,以便提出原油的性質(zhì)組成及反應(yīng)性能關(guān)聯(lián)預(yù)測(cè)模型,獲取更多關(guān)于原油的知識(shí),并為原油優(yōu)化加工技術(shù)開發(fā)提供技術(shù)基礎(chǔ)。為此,本文的研究重點(diǎn)是在前人大量對(duì)原油實(shí)驗(yàn)研究的基礎(chǔ)上,利用所收集的原油分析實(shí)驗(yàn)數(shù)據(jù),結(jié)合化學(xué)計(jì)量學(xué)校正理論,研究原油性質(zhì)組成和反應(yīng)產(chǎn)物分布的預(yù)測(cè)方法。
1 實(shí)驗(yàn)
1.1 原油性質(zhì)和反應(yīng)數(shù)據(jù)收集
分別測(cè)定原油原料的性質(zhì)組成,性質(zhì)組成包括密度、殘?zhí)?、粘度、平均分子量、元素含量(H,C,N,S)、H/C、金屬Ni和V的含量、飽和分、芳香分、膠質(zhì)和瀝青質(zhì)。同時(shí),還要對(duì)原油的原料進(jìn)行催化裂化反應(yīng)[1]和熱轉(zhuǎn)化反應(yīng)性能的研究。最終,將性質(zhì)組成和反應(yīng)數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫,為下一步數(shù)據(jù)分析提供數(shù)據(jù)基礎(chǔ)。部分原油催化裂化反應(yīng)數(shù)據(jù)見表1。
1.2 化學(xué)計(jì)量學(xué)校正理論
校正理論是化學(xué)計(jì)量學(xué)最重要的組成部分,所謂校正就是利用化學(xué)量測(cè)系統(tǒng)或數(shù)據(jù)和已有被研究體系的知識(shí)或信息,采用適當(dāng)?shù)慕y(tǒng)計(jì)學(xué)方法建立的一個(gè)模型,然后利用該模型定性或定量分析未知對(duì)象或樣品,并預(yù)測(cè)被分析對(duì)象各方面信息的過程[2]。原油的性質(zhì)和反應(yīng)數(shù)據(jù)經(jīng)測(cè)定收集后,利用校正理論方法,便可以建立性質(zhì)與性質(zhì)、性質(zhì)與反應(yīng)產(chǎn)物分布的定量數(shù)學(xué)模型,最后利用該模型定量預(yù)測(cè)未知原油樣的性質(zhì)和反應(yīng)產(chǎn)物分布數(shù)據(jù)。
本文選取了六種常用的校正理論建模方法建立定量數(shù)學(xué)預(yù)測(cè)模型,六種方法包括:
原油性質(zhì)組成數(shù)據(jù)和反應(yīng)數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù),利用多元線性回歸方法,求解回歸系數(shù)β,便可以建立性質(zhì)與性質(zhì)、性質(zhì)與反應(yīng)產(chǎn)物分布的數(shù)學(xué)關(guān)聯(lián)模型。最后,將未知原油的性質(zhì)數(shù)據(jù)輸入數(shù)學(xué)模型,就可以達(dá)到定量預(yù)測(cè)未知原油性質(zhì)和反應(yīng)產(chǎn)物分布的目的。
2)逐步線性回歸(Stepwise Regression,SR)
參加多元線性回歸(MLR)的n個(gè)原油的性質(zhì)特征量x1,x2,…,xn中,單獨(dú)觀察時(shí)有些性質(zhì)特征量x與因變量y(性質(zhì)或反應(yīng)產(chǎn)物分布)的相關(guān)程度很密切,有些性質(zhì)特征量x顯得不重要。若把這些不重要的特征量保存在回歸方程中,不僅增加計(jì)算工作量,而且會(huì)增加方程的不穩(wěn)定性[4]。因此,希望從n個(gè)性質(zhì)特征量中選出與預(yù)測(cè)值因變量y最密切,最具有代表性的性質(zhì)特征量x。為此,本文采用逐步線性回歸法,在原油的性質(zhì)中,分析選出與需要預(yù)測(cè)的原油的某個(gè)性質(zhì)或某個(gè)反應(yīng)產(chǎn)物分布關(guān)系最為密切的關(guān)鍵性質(zhì),作為線性回歸方程的自變量x。
3)主成分回歸(Principal Component Regression,PCR)
若原油性質(zhì)特征量相互間無“共線性”(原油性質(zhì)自變量呈線性、無干擾和無變量間的相互作用)問題,則利用多元線性回歸方法建立的數(shù)學(xué)模型可以達(dá)到很高的預(yù)測(cè)精度[5]。但原油分析中數(shù)據(jù)總是帶有誤差,此時(shí)將多元線性回歸建立在整體性質(zhì)數(shù)據(jù)矩陣的基礎(chǔ)上,就會(huì)造成模型失真,降低預(yù)測(cè)精度。為此需要采用主成分回歸法,首先對(duì)原油性質(zhì)做主成分分析,選取重要因子,然后采用常規(guī)多元回歸分析方法建立重要因子與待預(yù)測(cè)性質(zhì)或反應(yīng)產(chǎn)物分布的數(shù)學(xué)模型。可以看出主成分回歸實(shí)際上是主成分分析和多元線性回歸的組合。
4)偏最小二乘法(Partial Least Squares,PLS)
偏最小二乘法(PLS)是化學(xué)定量校正理論最常用的一種方法[6-7],PLS模型建立過程見圖1。在預(yù)測(cè)原油性質(zhì)或反應(yīng)產(chǎn)物分布過程中,利用訓(xùn)練數(shù)據(jù)(數(shù)據(jù)庫中的原油性質(zhì)、反應(yīng)產(chǎn)物分布數(shù)據(jù))和偏最小二乘法,首先求出系數(shù)矩陣b,建立多元線性模型,輸入未知原油的性質(zhì)組成數(shù)據(jù),便可以得到預(yù)測(cè)結(jié)果。
偏最小二乘法與主成分回歸有著相同的模型結(jié)構(gòu),主成分回歸(PCR)的主要目的是要提取隱藏在自變量矩陣X中的相關(guān)信息,然后用于預(yù)測(cè)變量Y的值,這種方法可以保證只使用那些獨(dú)立變量,噪音將被消除,從而達(dá)到改善預(yù)測(cè)模型質(zhì)量的目的。但是,主成分回歸仍然有一定的缺陷,當(dāng)一些有用變量的相關(guān)性很小時(shí),在選取主成分時(shí)就很容易把它們漏掉,使得最終的預(yù)測(cè)模型可靠性下降。偏最小二乘回歸可以解決這個(gè)問題,它采用對(duì)變量X和Y都進(jìn)行分解的方法,從變量X和Y中同時(shí)提取因子,再將因子按照它們之間的相關(guān)性從大到小排列,要建立一個(gè)模型,只要決定選擇幾個(gè)因子參與建模就可以了。
5)非線性回歸最小二乘法(Nonlinear Least Squares,NLS)
一般的非線性回歸模型可以表示為[8]:
本文中,X是原油性質(zhì)數(shù)據(jù)矩陣,β為待估計(jì)的參數(shù)向量,y是準(zhǔn)備預(yù)測(cè)的原油的性質(zhì)或反應(yīng)產(chǎn)物分布,ε為隨機(jī)誤差。函數(shù)形式f(·)是已知的。與多元線性回歸法類似,求取β,便可以建立非線性回歸數(shù)學(xué)預(yù)測(cè)模型。
6)支持向量機(jī)(Support Vector Machine,SVM)
支持向量機(jī)于1995年由Vapnik首先提出,它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中[9]。支持向量機(jī)的體系結(jié)構(gòu)如圖2所示。
本文中,X為原油性質(zhì)矩陣,K為支持向量機(jī)的核函數(shù),本文核函數(shù)選取為“radial basis”,b為偏置項(xiàng),a為權(quán)重向量,則預(yù)測(cè)的原油性質(zhì)或反應(yīng)產(chǎn)物分布結(jié)果為:
1.3 校正理論模型開發(fā)軟件
本文所有化學(xué)計(jì)量學(xué)方法都由R 2.13.0(http://www.r-project.org/)開發(fā),所用到的工具包(Packages)有:stats、e1071(LIBSVM)、ChemometricsWithR、MASS和chemometrics。
2 結(jié)果與討論
利用化學(xué)計(jì)量學(xué)校正理論的目的就是為了建立性質(zhì)與性質(zhì)、性質(zhì)與反應(yīng)產(chǎn)物分布之間的數(shù)學(xué)預(yù)測(cè)模型。本文采用了六種不同的方法建立數(shù)學(xué)模型,各種方法在實(shí)際應(yīng)用中存在不同(見表2)。例如:MLR、SR、PCR和PLS為線性方法,而NLS和SVM為非線性方法;在數(shù)據(jù)建模前,PCR、PLS和SVM需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除量綱和數(shù)量級(jí)不同引起的不引人注意的權(quán)重,而且這三種方法是將主成分分析后的因子作為自變量進(jìn)行數(shù)據(jù)建模的;在數(shù)據(jù)建模過程中,PCR和PLS需要對(duì)特征參數(shù)“ncomp(Number of Components,主成分因子數(shù))”進(jìn)行優(yōu)化,SVM需要對(duì)特征參數(shù)“gamma”和“cost”進(jìn)行優(yōu)化,達(dá)到對(duì)數(shù)據(jù)模型優(yōu)化的目的。
本文為了研究化學(xué)計(jì)量學(xué)校正理論在原油數(shù)據(jù)分析中的應(yīng)用,根據(jù)所收集的原油數(shù)據(jù),重點(diǎn)分析研究原油粘度的預(yù)測(cè),對(duì)原油反應(yīng)產(chǎn)物分布預(yù)測(cè)進(jìn)行探索性研究。
2.1 原油性質(zhì)預(yù)測(cè)
粘度是評(píng)定原油流動(dòng)性的重要指標(biāo),表征其分子間相對(duì)運(yùn)動(dòng)時(shí)因摩擦而產(chǎn)生的內(nèi)部阻力大小,是原油加工、過程模擬等設(shè)計(jì)必不可少的基礎(chǔ)物性數(shù)據(jù)。隨著原油餾分的變重、沸點(diǎn)升高,其粘度增大。但在粘度測(cè)定過程中,升高溫度會(huì)導(dǎo)致原油裂解,而且采用旋轉(zhuǎn)粘度計(jì)法測(cè)定粘度,誤差較大,因此有必要尋找新的預(yù)測(cè)粘度的方法。本文利用所收集的原油性質(zhì)數(shù)據(jù),結(jié)合化學(xué)計(jì)量學(xué)校正理論的六種方法,分別建立粘度的預(yù)測(cè)模型。
因?yàn)檎扯确植挤秶軐捛也痪鶆颍ㄒ妶D3),所以在關(guān)聯(lián)過程中一般取粘度的對(duì)數(shù)與其它性質(zhì)關(guān)聯(lián),取對(duì)數(shù)后的粘度箱線圖見圖4。
在數(shù)據(jù)建模過程中,粘度取對(duì)數(shù)后作為模型的因變量y,而其它的13個(gè)性質(zhì)(密度、殘?zhí)?、平均分子量、元素含量(H,C,N,S)、H/C、金屬Ni和V的含量、飽和分、芳香分和膠質(zhì))作為模型自變量x。
首先,經(jīng)多元線性回歸(MLR)建立預(yù)測(cè)數(shù)學(xué)模型,并對(duì)數(shù)學(xué)模型分別進(jìn)行方差分析與t檢驗(yàn)。t檢驗(yàn)結(jié)果給出了每個(gè)因變量的回歸參數(shù)、常數(shù)項(xiàng)值、標(biāo)準(zhǔn)差、t值和相應(yīng)的P值(見表3)。由方差分析可以得出模型的P = 2.2e-16 < 0.0001,故預(yù)測(cè)粘度的模型是有意義的。由t檢驗(yàn)結(jié)果可見:密度、殘?zhí)?、N含量、Ni含量和V含量回歸參數(shù)的P值小于0.05,可認(rèn)為這些自變量對(duì)粘度有顯著的影響;而平均分子量、C含量、S含量、H/C、飽和分和芳香分回歸參數(shù)的P值遠(yuǎn)遠(yuǎn)大于0.05,可認(rèn)為這些自變量對(duì)粘度沒有顯著的影響;其它幾個(gè)自變量,H含量和膠質(zhì)對(duì)粘度影響則不太顯著。
通過以上t檢測(cè)結(jié)果,可以看出有些自變量對(duì)粘度沒有顯著影響,出現(xiàn)這種結(jié)果可能的原因是自變量之間存在“共線性”。因此,可以利用逐步線性回歸法(SR),剔除一些變量,最終回歸模型中,自變量均為顯著的,也就是說最終用于建立粘度預(yù)測(cè)模型的原油性質(zhì)對(duì)粘度都有顯著的影響。利用逐步線性回歸建立數(shù)學(xué)模型,由方差分析可以得出模型的P = 2.2e-16 < 0.0001,故預(yù)測(cè)粘度的模型是有意義的。由t檢驗(yàn)結(jié)果可見(見表4),所有自變量P值都遠(yuǎn)遠(yuǎn)小于0.01,說明這些性質(zhì)都對(duì)原油粘度有顯著影響。
以上四種方法均為線性方法,本文還利用非線性回歸最小二乘法(NLS)和支持向量機(jī)(SVM)兩種非線性方法建立預(yù)測(cè)粘度的模型。其中SVM為人工神經(jīng)網(wǎng)絡(luò)技術(shù),具有較強(qiáng)的人工智能功能和模擬多元非線性體系的能力,與傳統(tǒng)的線性回歸技術(shù)相比,它不僅具有自適應(yīng)和自組織功能,可以很好的描述復(fù)雜關(guān)系的內(nèi)在特征。SVM利用訓(xùn)練數(shù)據(jù)(數(shù)據(jù)庫中的原油性質(zhì)、反應(yīng)產(chǎn)物分布數(shù)據(jù))和優(yōu)化算法分別得到特征參數(shù)“gamma”為0.4和“cost”為4,模型的核函數(shù)選取“radial basis”。另外一種非線性方法NLS通過優(yōu)化選取自變量x,建立粘度預(yù)測(cè)模型為:
數(shù)學(xué)模型中,Viscosity為原油的粘度,Carbon Residue為原油的殘?zhí)?,Molecular Weight為原油的平均分子量。
最終,利用數(shù)據(jù)庫中的原油性質(zhì)數(shù)據(jù)和上述六種校正理論方法,分別建立了數(shù)學(xué)模型,然后利用這些數(shù)學(xué)模型分別對(duì)20種原油油樣的粘度進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果比較見表5,通過表5中各種方法預(yù)測(cè)值與測(cè)量值的決定系數(shù)可以看出,人工神經(jīng)網(wǎng)絡(luò)方法支持向量機(jī)預(yù)測(cè)結(jié)果最好,其它方法也能夠達(dá)到較為準(zhǔn)確預(yù)測(cè)原油粘度的目的。
此外,通過圖7也可以看出支持向量機(jī)預(yù)測(cè)粘度值與實(shí)際測(cè)量值接近,達(dá)到較好的預(yù)測(cè)效果。
2.2 原油反應(yīng)產(chǎn)物分布預(yù)測(cè)
通過上述六種方法預(yù)測(cè)原油粘度的結(jié)果來看,都能較為準(zhǔn)確的預(yù)測(cè)原油的粘度,其中以人工神經(jīng)網(wǎng)絡(luò)方法支持向量機(jī)預(yù)測(cè)(SVM)結(jié)果最為準(zhǔn)確。因此,本文將支持向量機(jī)也利用于原油反應(yīng)產(chǎn)物分布的預(yù)測(cè),用于預(yù)測(cè)原油催化裂化汽油的分布。
同樣,在數(shù)據(jù)建模過程中,原油催化裂化汽油產(chǎn)物分布作為模型的因變量y, 13個(gè)原油關(guān)鍵性質(zhì)(密度、殘?zhí)?、平均分子量、元素含量(H,C,N,S)、H/C、金屬Ni和V的含量、飽和分、芳香分和膠質(zhì))作為模型自變量x。
SVM利用訓(xùn)練數(shù)據(jù)(數(shù)據(jù)庫中的原油性質(zhì)、反應(yīng)產(chǎn)物分布數(shù)據(jù))和優(yōu)化算法分別得到特征參數(shù)“gamma”為2和“cost”為4,模型的核函數(shù)選取“radial basis”,建立數(shù)學(xué)模型后,對(duì)32種原油的催化裂化汽油產(chǎn)物分布進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果與實(shí)際測(cè)量值的決定系數(shù)為0.96,兩者之間的關(guān)系見圖8。
從決定系數(shù)和圖8中可以看出,通過人工神經(jīng)網(wǎng)絡(luò)方法支持向量機(jī)(SVM)建立的數(shù)學(xué)預(yù)測(cè)模型同樣可以對(duì)原油反應(yīng)產(chǎn)物分布有很好的預(yù)測(cè)效果。
3 結(jié)束語
1)利用化學(xué)計(jì)量學(xué)校正理論六種常見方法,將數(shù)據(jù)庫中存儲(chǔ)的原油性質(zhì)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),建立原油粘度預(yù)測(cè)模型,經(jīng)過對(duì)六種預(yù)測(cè)模型的數(shù)學(xué)分析和比較,六種模型都可以對(duì)原油粘度進(jìn)行準(zhǔn)確的預(yù)測(cè),其中以人工神經(jīng)網(wǎng)絡(luò)方法支持向量機(jī)預(yù)測(cè)結(jié)果最為準(zhǔn)確。
2)利用人工神經(jīng)網(wǎng)絡(luò)方法支持向量機(jī)建立原油催化裂化汽油分布預(yù)測(cè),同樣可以達(dá)到很好的預(yù)測(cè)效果。從分析過程來看,如果要達(dá)到好的預(yù)測(cè)效果,要盡可能多的提供訓(xùn)練數(shù)據(jù),如果訓(xùn)練數(shù)據(jù)過少,會(huì)影響到人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果。
參考文獻(xiàn):
[1] Xu C,Gao J,Zhao S,et al.Correlation between feedstock SARA components and FCC product yields[J].Fuel,2005,84(6):74-669.
[2] 史永剛.化學(xué)計(jì)量學(xué)[M].北京:中國(guó)石化出版社,2010.
[3] Kapur G S,Ecker A.Meusinger R.Establishing Quantitative Structure?Property Relationships:(QSPR)of Diesel Samples by Proton-NMR & Multiple Linear Regression(MLR)Analysis[J].Energy & Fuels,2001,15(4):8-943.
[4] 梁朝林,沈本賢,劉紀(jì)昌,等.用延遲焦化逐步回歸法模型預(yù)測(cè)焦化產(chǎn)物的分布[J].華東理工大學(xué)學(xué)報(bào):自然科學(xué)版,2009(2):91-185.
[5] Varmuza K.Introduction to Multivariate Statistical Analysis in Chemometrics[M].CRC Press,2009.
[6] 褚小立,許育鵬,陸婉珍.偏最小二乘法方法在光譜定性分析中的應(yīng)用研究[J].現(xiàn)代儀器,2007(5).
[7] Molina,Uribe U N,Murgich J.Partial Least-Squares(PLS)Correlation between Refined Product Yields and Physicochemical Properties with the 1H Nuclear Magnetic Resonance(NMR)Spectra of Colombian Crude Oils[J].Energy & Fuels,2007,21(3):80-1674.
[8] 王斌會(huì).多元統(tǒng)計(jì)分析及R語言建模[M].廣州:暨南大學(xué)出版社,2010.
[9] Li H,Liang Y,Xu Q.Support vector machines and its applications in chemistry[J].Chemometrics and Intelligent Laboratory Systems, 2009,95(2):98-18