李敬巖,褚小立,田松柏
(中國石化 石油化工科學研究院,北京 100083)
?
基于核函數(shù)的非線性校正算法在原油快評中的應用
李敬巖,褚小立,田松柏
(中國石化 石油化工科學研究院,北京 100083)
為了快速準確地測量原油的密度、酸值和硫質(zhì)量分數(shù)等重要性質(zhì),采用紅外光譜技術(shù)結(jié)合非線性化學計量學定量校正算法建立校正模型。結(jié)果表明,分別使用最小二乘支持向量機算法(LSSVM)和核偏最小二乘(KPLS)兩種基于核函數(shù)的非線性校正算法建模預測原油密度、酸值和硫質(zhì)量分數(shù)的預測標準偏差分別為0.0065 g/cm3、0.19 mgKOH/g和0.38%以及0.0089 g/cm3、0.23 mgKOH/g和0.40%,預測結(jié)果的重復性與再現(xiàn)性等同或優(yōu)于標準方法。與經(jīng)典偏最小二乘(PLS)方法相比,KPLS算法準確性更高,而LSSVM具有更快的訓練速率、更小的測量偏差等優(yōu)點。
原油;最小二乘支持向量機(LSSVM);核偏最小二乘(KPLS);PLS;紅外光譜(MIR);快速評價
原油評價在原油開采、原油貿(mào)易和原油加工等方面發(fā)揮著十分重要的作用。在煉油廠,不同種類原油混合的情況比較普遍;此外,機會原油交易逐漸頻繁,油質(zhì)對油價影響巨大,快速檢測原油性質(zhì),對于優(yōu)化進料、調(diào)合,提高企業(yè)效率具有重要意義。針對以上情況,國內(nèi)外大型石化企業(yè)都采用多種現(xiàn)代儀器分析手段開發(fā)原油快評技術(shù)[1]?,F(xiàn)代儀器分析手段包括色譜、質(zhì)譜、核磁共振、紅外/近紅外光譜等。
紅外/近紅外光譜技術(shù)具有分析快、精密度高、操作簡單等優(yōu)點,與化學計量學[2]結(jié)合非常適合原油及油品的定量和定性分析[3]。國外已有采用近紅外光譜法進行原油評價[4-6]。BP Oil Lavara 煉油廠首先監(jiān)控原油的密度及實沸蒸餾數(shù)據(jù),根據(jù)進廠原油的性質(zhì)及時調(diào)整操作數(shù)據(jù),可以最大限度地發(fā)揮裝置的加工能力,帶來可觀的經(jīng)濟效益。中國石化石油化工科學研究院長期從事原油評價的基礎工作,已收到500多種不同原油樣本,其產(chǎn)地覆蓋了世界各地及我國各大油田,包括石蠟基原油、環(huán)烷基原油及中間基原油,且分布也較均勻;在此基礎上開展了一系列的原油快評研究,包括原油性質(zhì)的預測[7-8]與未知原油的識別等工作[9]。但這些快評技術(shù)基本上以實驗室用大型光譜儀為平臺,缺乏一種可用于現(xiàn)場的快速分析手段。
建立穩(wěn)健的定量校正模型是紅外/近紅外光譜分析的核心之一。經(jīng)典的線性校正算法有多元線性回歸[10](MLR)、偏最小二乘(PLS)[11]等,它們可以完美地回歸線性系統(tǒng),但不能很好地解釋非線性化學響應,并且計算時間較長。非線性校正算法有最小二乘支持向量機算法[12](LSSVM)、核偏最小二乘[13](KPLS)等,其中,LSSVM是基于核函數(shù)的學習方法,它將解決凸二次規(guī)劃(QP)問題轉(zhuǎn)變?yōu)榍蠼庖粋€線性方程組[14],可以避免局部最優(yōu)值的出現(xiàn)。
筆者采用中紅外光譜儀,以兩種非線性的化學計量學算法建立了原油的密度、酸值和硫質(zhì)量分數(shù)的預測模型,可及時獲得原油評價數(shù)據(jù),為確定原油加工方案和優(yōu)化生產(chǎn)決策提供快速、簡捷的方法,并與經(jīng)典的PLS算法建立模型的預測結(jié)果進行比較。
1.1原油樣本
國內(nèi)外具有代表性的原油樣本200種,基本覆蓋了世界主要原油產(chǎn)區(qū)的原油品種,密度分布范圍0.7687 ~1.009 g/cm3。其中,石蠟基原油50個、中間基原油82個、環(huán)烷基原油32個、環(huán)烷-中間基原油13個、石蠟-中間基9個、中間-石蠟基 14個。分別采用標準方法測定所收集原油的密度、酸值以及元素硫質(zhì)量分數(shù)。
1.2儀器與光譜采集
采用Nicolet6700紅外光譜儀,附件為ATR液體池。光譜采集范圍4000~650 cm-1,DTGS檢測器,累積掃描64次。
在常溫下采集所有樣本的紅外光譜,并實時扣除H2O和CO2的干擾。測量前,原油樣品需要鋪滿整個樣品池表面,對于黏度較大不易鋪展的原油可以用棉簽將其涂抹在晶體表面。測量結(jié)束后先用脫脂棉將樣品池中的原油大部抹去,然后再用石油醚清洗數(shù)次,直至通過背景測試。
1.3數(shù)據(jù)處理
采用“RIPP化學計量學光譜分析軟件3.0”將原油樣本的紅外光譜及其密度、酸值和硫質(zhì)量分數(shù)進行編輯,生成標準矩陣式數(shù)據(jù)庫。用K-S(Kennard-Stone)方法將原油樣品分為校正集和驗證集,其中校正集樣本150個,驗證集樣本50個。為保證實驗結(jié)果的可比性,LSSVM與KPLS以及PLS算法使用相同的校正集和預測集。程序運行平臺為ThinkPad T440p,i5(2.50 GHz),4 GB RAM。
1.4算法原理
LSSVM算法是由支持向量機(SVM)改進而來的一種非線性建模方法。該算法以線性系統(tǒng)降低了計算的復雜性,無局部最小值,預測可靠性高且泛化能力更強。
對于紅外光譜矩陣X={x1,x2,…,xn},對應的性質(zhì)矩陣Y={y1,y2,…,yn},其中xi∈Rd為輸入向量,yi∈R為目標向量,d為維數(shù),i=1,2,…,n。首先由一非線性映射φ(·)將原空間映射Rd到特征空間φ(xi),然后在高維特征空間內(nèi)構(gòu)造最優(yōu)決策函數(shù),并以結(jié)構(gòu)風險最小化原則構(gòu)建約束優(yōu)化問題。定義核函數(shù)k(xi,xj)=(φ(xi)φ(xj)),用以代替從低維到高維的映射。將優(yōu)化問題轉(zhuǎn)換為求解線性方程。當采用徑向基核函數(shù)時,需要調(diào)節(jié)核參數(shù)δ2和正規(guī)化參數(shù)C。這兩個參數(shù)對模型的計算復雜度和預測精確度都有很大的影響,本研究采用基于交互驗證的網(wǎng)格搜索法尋找最優(yōu)的參數(shù)組合。
傳統(tǒng)的各種可用內(nèi)積表達的線性方法經(jīng)過“核化”,進而成為非線性方法。例如,通過將核函數(shù)與經(jīng)典PLS算法結(jié)合可以解決非線性校正的問題[15]。
PLS算法的回歸系數(shù)b的表達式為式(1)。式(1)中,T和U分別為X和Y矩陣的得分矩陣。
b=XTU(TTXXTU)-1TTY
(1)
對于KPLS算法,是用一個非線性映射φ(·)將輸入變量映射到新的空間,本研究采用高斯核,未知樣本的預測值可通過式(2)得到。式(2)中,K*為未知樣本核矩陣,K為校正樣本核矩陣。
(2)
2.1原油樣本紅外光譜預處理及參數(shù)選擇
圖1為原油樣品的紅外光譜,其中1800~900 cm-1范圍為光譜指紋區(qū)。模型建立前,校正集樣本和驗證集樣本均需采集紅外光譜,并將紅外光譜進行微分處理,以消除樣品顏色、溫度及基線漂移等因素的影響;建立的模型通過校正標準偏差(SECV)和預測標準偏差(SEP)來評價,分別如式(3)、(4)所示。
圖1 原油樣本的紅外光譜
i=1,2,3…,n
(3)
j=1,2,3…,m
(4)
式(3)、(4)中,n為校正集的樣本總數(shù);yi,actual為通過標準方法得到的實測值;yi,predicted為交互驗證預測值;m為預測集的樣本數(shù);yj,actual為通過標準方法得到的實測值;yj,predicted為紅外光譜預測值。
2.2校正集樣本的訓練
原油成分極其復雜,在中紅外光譜范圍內(nèi)(4000~400 cm-1),尤其是指紋區(qū)內(nèi)信息非常豐富,但譜帶重疊嚴重,本研究通過優(yōu)選后的區(qū)域參與建立校正模型。
校正集樣本的選擇與分布對模型影響較大,校正集樣本需覆蓋預測集樣本的濃度范圍,同時分布盡量均勻。將經(jīng)過優(yōu)化后的光譜區(qū)間進行一階微分處理后的吸光度值形成吸光度矩陣(X),用標準方法測定相應樣品的密度、酸值和硫質(zhì)量分數(shù),并分別組成矩陣(Y),然后用最小二乘支持向量機法(LSSVM )和核偏最小二乘方法(KPLS)分別建立原油性質(zhì)的校正模型。
超參數(shù)是決定最小二乘支持向量機的學習精度和泛化能力的重要參數(shù)[16]。本研究采用徑向基核函數(shù),首先需要調(diào)節(jié)核參數(shù)δ2和正規(guī)化參數(shù)C。通過基于交互驗證的網(wǎng)格搜索法找到最優(yōu)的參數(shù)組合,結(jié)果列于表1。對校正集樣本進行訓練,密度、酸值和硫質(zhì)量分數(shù)模型對校正集樣本實際函數(shù)值逼近效果如圖2所示。從圖2可以看出,模型對原油的這3種性質(zhì)都有很高的預測精度和泛化能力,總體上不會出現(xiàn)較大偏差。
表1 預測原油性質(zhì)的LSSVM模型的參數(shù)組合
針對KPLS方法,需要通過交互驗證選取核寬度因子以及潛變量數(shù)(主因子數(shù))。圖3為校正集樣本的密度、酸值和硫質(zhì)量分數(shù)交互驗證的殘差面。X軸是潛變量數(shù)目,從1到20,Y軸是核寬度因子,Z軸是校正標準偏差(SECV)。從圖3(a)可以看出,潛變量在10以后,模型的SECV值沒有明顯減??;核寬度因子在0.8以后,模型的SECV值也沒有明顯變化。因此,選擇密度模型的潛變量數(shù)為10,核寬度因子為0.8。同理得到酸值和硫質(zhì)量分數(shù)模型的相應參數(shù),結(jié)果列于表2。
2.3原油樣本的預測分析
對LSSVM方法,使用留一法對校正集樣本進行交互驗證。通過網(wǎng)格搜索法確定模型的核參數(shù)δ2和正規(guī)化參數(shù)C最優(yōu)參數(shù)組合后,對驗證集的50個原油樣本的密度、酸值和硫質(zhì)量分數(shù)進行預測,結(jié)果示于圖4,其中紅色為校正集樣本,黑色為預測集樣本。從圖4可以看出,對模型外的樣本的密度依然有很好的預測能力,相關(guān)系數(shù)R2為0.9541,交互驗證得到的SECV為0.0093 g/cm3,SEP為0.0065 g/cm3,達到了標準方法的誤差要求;酸值預測的相關(guān)系數(shù)R2為0.9562,交互驗證得到的SECV為0.32 mgKOH/g,SEP為0.19 mgKOH/g;硫質(zhì)量分數(shù)預測的相關(guān)系數(shù)R2為0.9721,交互驗證得到的SECV為0.27%,SEP為0.38%。因此,使用LSSVM算法結(jié)合紅外光譜預測原油密度、酸值和硫質(zhì)量分數(shù)等主要性質(zhì)的校正模型完全可行,預測結(jié)果基本滿足了快速分析和過程分析的要求。
對KPLS方法,通過網(wǎng)格搜索法確定模型的核參數(shù)δ2和潛變量數(shù)的最優(yōu)參數(shù)組合后,對驗證集的50個原油樣本的密度、酸值和硫質(zhì)量分數(shù)進行預測,結(jié)果示于圖5,其中紅色為校正集樣本、黑色為預測集樣本。由圖5可知,密度的預測值與實測值有良好的相關(guān)性,交互驗證得到的SECV為0.0075 g/cm3,SEP為0.0089 g/cm3,達到了標準方法的誤差要求;酸值預測的SECV為0.20 mgKOH/g,SEP為0.23 mgKOH/g,建模效果稍優(yōu)于LSSVM方法;硫質(zhì)量分數(shù)交互驗證得到的SECV為0.17%,SEP為0.40%,預測結(jié)果與LSSVM方法相當。
圖2 校正集原油樣本的密度(ρ)、酸值(TAN)和硫質(zhì)量分數(shù)(w(S))的訓練逼近效果
圖3 原油樣本密度(ρ)、酸值(TAN)和硫質(zhì)量分數(shù)(w(S))的交互驗證殘差面
ParameterFactorδ2ρ100.8TAN101.0w(S)120.6
圖4 中紅外光譜方法與標準方法測定原油密度(ρ)、酸值(TAN)和硫質(zhì)量分數(shù)(w(S))的LSSVM預測值和實際值
圖5 中紅外光譜方法與標準方法測定原油密度、酸值和硫質(zhì)量分數(shù)的KPLS預測值與實際值
2.4非線性建模方法與PLS預測結(jié)果的對比
在確定光譜預處理方法和選定波長范圍后(同LSSVM、KPLS),采用偏最小二乘(PLS)通過交互驗證的預測殘差平方和與主因子數(shù)的關(guān)系分別確定密度、酸值和硫質(zhì)量分數(shù)模型的最佳主因子并建立校正模型。通過PLS建立密度、酸值和硫質(zhì)量分數(shù)校正模型的校正標準偏差(SECV)和預測標準偏差(SEP)列于表3。
表3 PLS模型預測原油性質(zhì)的校正標準偏差(SECV)和預測標準偏差(SEP)
圖6是LSSVM、KPLS和PLS算法對原油密度、酸值和硫質(zhì)量分數(shù)的訓練以及預測效果的對比。由圖6可知,對校正集密度、酸值和硫質(zhì)量分數(shù)的訓練效果由好到差的算法順序為KPLS、LSSVM、PLS。LSSVM算法對密度和酸值的訓練以及預測效果都要明顯優(yōu)于經(jīng)典PLS算法,而對于硫質(zhì)量分數(shù)的預測效果大致相當。KPLS算法對預測集的預測效果略差,因此LSSVM的泛化能力優(yōu)于KPLS方法。通常預測標準偏差(SEP)要大于校正標準偏差(SECV),但PLS和LSSVM算法對于密度和酸值的SEP小于SECV,而從實驗結(jié)果分析并無過擬合現(xiàn)象,這是因為預測集密度、酸值的范圍小于校正集并且無界外樣本,因此模型能夠完美擬合預測集。
圖7是LSSVM、KPLS和PLS算法對原油密度、酸值和硫質(zhì)量模型進行訓練以及預測的平均消耗時間。從圖7可以看出,KPLS方法計算時間略少于PLS方法,LSSVM算法所消耗的時間遠低于PLS,在大批量數(shù)據(jù)計算場合優(yōu)勢明顯。
(1)測定了200個原油的紅外光譜,并使用最小二乘支持向量機方法和核偏最小二乘方法分別建立了測定原油密度、酸值和硫質(zhì)量分數(shù)等重要性質(zhì)的非線性定量校正模型,并與PLS的建模效果進行了對比。
(2)對于原油特別是深色、黏稠的重質(zhì)原油紅外光譜的測量存在進樣和清洗的困難,而ATR液體池附件可以有效地解決,重復性好。
圖6 3種校正算法對原油密度(ρ)、酸值(TAN)和硫質(zhì)量分數(shù)(w(S))的訓練和預測效果
圖7 3種校正算法的平均訓練和預測時間
(3)LSSVM方法可以準確預測原油密度、酸值和硫質(zhì)量分數(shù),交互驗證標準偏差分別為0.0093 g/cm3、0.32 mgKOH/g和0.27%,預測標準差分別為0.0065 g/cm3、0.19 mgKOH/g和0.38%,均接近于標準方法的誤差要求。KPLS方法預測原油密度、酸值和硫質(zhì)量分數(shù)的交互驗證標準偏差分別為0.0075 g/cm3、0.20 mgKOH/g和0.17%,預測標準差分別為0.0089 g/cm3、0.23 mgKOH/g和0.40%,模型訓練效果最好。
(4)與經(jīng)典偏最小二乘方法相比,LSSVM訓練和模型預測的時間短,測量的精度更高。
[1]陳瀑,褚小立.原油及重油的快速分析技術(shù)進展[J].分析測試學報,2012,31(9):1191-1198.(CHEN Pu,CHU Xiaoli.Development of rapid analytical technologies in crude and heavy oil[J].Journal of Instrumental Analysis,2012,31(9):1191-1198.)
[2]KEMENY G J.Handbook of Near-Infrared Analysis[M].New York:Marcel Dekker,2001:1-6.
[3]褚小立,許育鵬,陸婉珍.用于近紅外光譜分析的化學計量學方法研究與應用進展[J].分析化學,2008,36(5):702-709.(CHU Xiaoli,XU Yupeng,LU Wanzhen.Research and application progress of chemometrics methods in near infrared spectroscopic analysis[J].Chinese Journal of Analytical Chemistry,2008,36(5):702-709.)
[4]PASQUINI C,BUENO A F.Characterization of petroleum using near-infrared spectroscopy:Quantitative modeling for the true boiling point curve and specific gravity[J].Fuel,2007,86(12):1927-1934.
[5]FALLA F S,LARINI C,LE ROUX G A C,et al.Characterization of crude petroleum by NIR[J].Journal of Petroleum Science and Engineering,2006,51(1):127-137.
[6]HIDAJAT K,CHONG S.Characterization of crude oils by partial least square calibration of NIR spectral profiles[J].Journal of Near Infrared Spectroscopy,2000,8(1):53-58.
[7]李敬巖,褚小立,田松柏.紅外光譜方法快速預測原油密度的研究[J].石油煉制與化工,2011,42(12):73-77.(LI Jingyan,CHU Xiaoli,TIAN Songbai.Research on determination of density of petroleum by mid-infrared spectroscopy[J].Petroleum Processing and Petrochemicals,2011,42(12):73-77.)
[8]LI Jingyan,CHU Xiaoli,TIAN Songbai.Research on determination of total acid number of petroleum using mid-infrared attenuated total reflection spectroscopy[J].Energy Fuels,2012,26(9):5633-5637.
[9]CHU Xiaoli,XU Yupeng,TIAN Songbai,et al.Rapid identification and assay of crude oils based on moving-window correlation coefficient and near infrared spectral library[J].Chemometrics and Intelligent Laboratory Systems,2011,107 (1):44-49.
[10]ANDREAS A K,NIKOS P.Autoregressive modeling of near-IR spectra and MLR to predict RON values of gasolines[J].Fuel,2010,89(1):158-161.
[11]MARCELO M S,RONEI J P.N-way PLS applied to simultaneous spectrophotometric determination of acetylsalicylic acid,paracetamol and caffeine[J].Journal of Pharmaceutical and Biomedical Analysis,2004,34(1):27-34.
[12]WU Di,HE Yong,FENG Shuijuan,et al.Study on infrared spectroscopy technique for fast measurement of protein content in milk powder based on LS-SVM[J].Journal of Food Engineering,2008,84(1):124-131.
[13]VAN DEN BROEK W H A M,DERKS E P P A,VAN DE VEN E W,et al.Plastic identification by remote sensing spectroscopic NIR imaging using kernel partial least squares (KPLS)[J].Chemometrics and Intelligent Laboratory Systems,1996,35(2):187-197.
[14]SUYKENS J A K,VANDEWALLE J.Least squares support vector machine classifiers[J].Neural Processing Letters,1999,9(3):293-300.
[15]ROSIPAL R,TREJO L J.Kernel partial least squares regression in reproducing kernel Hilbert space[J].Journal of Machine Learning Research,2001,(2):97-123.
[16]TRYBULA W J.Annual review of information science and technology(ARIST)[J].Data Mining and Knowledge Discovery,1997,32:197-229.
Application of Nonlinear Algorithm Based on Kernel Methods inFast-Evaluation of Crude Oil
LI Jingyan,CHU Xiaoli,TIAN Songbai
(Research Institute of Petroleum Processing,SINOPEC,Beijing 100083,China)
Fast and accurate measurement of density,acid value and sulfur mass fraction is necessary for petroleum characterization,which can be realized by the combined use of mid-infrared spectroscopy and nonlinear quantitative calibration algorithm based on kernel function.The calibration models of density,acid value and sulfur mass fraction were established by Least squares support vector machines (LSSVM)and Kernel partial least squares(KPLS)with the standard prediction errors (SEP)of crude oil density,and sulfur mass fraction were 0.0065 g/cm3,0.19 mgKOH/g and 0.38% on LSSVM and 0.0089 g/cm3,0.23 mgKOH/g and 0.39% on KPLS,respectively.The results predicted by the two methods were very close to those determined by standard methods.Compared with classic PLS algorithm,the KPLS showed high predictive accuracy,and LSSVM method provided the advantages such as high-speed,simplicity and high precision.
crude oil; Least squares support vector machines (LSSVM); Kernel partial least squares (KPLS); PLS; mid-infrared spectroscopy (MIR); fast-evaluation
2015-09-24
李敬巖,男,高級工程師,博士,從事紅外光譜分析與原油快速評價的研究;Tel:010-82368342;E-mail:lijy.ripp@sinopec.com
1001-8719(2016)05-0967-07
O657.33
Adoi:10.3969/j.issn.1001-8719.2016.05.014