張曉彤,石麗華,宋麗娟,孫兆林,孫 挺
(1.遼寧石油化工大學(xué) 遼寧省石油化工催化科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧 撫順 113001; 2.東北大學(xué)理學(xué)院)
?
燃料油中有機(jī)硫化物在不同色譜柱上的定量結(jié)構(gòu)保留關(guān)系(QSRR)的研究
張曉彤1,2,石麗華1,宋麗娟1,孫兆林1,孫 挺2
(1.遼寧石油化工大學(xué) 遼寧省石油化工催化科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧 撫順 113001; 2.東北大學(xué)理學(xué)院)
硫組分的含量是表征燃料油品質(zhì)的重要指標(biāo)。采用遺傳算法-多元線性回歸法(GA-MLR)、BP神經(jīng)網(wǎng)絡(luò)法、列文伯格-馬夸爾特人工神經(jīng)網(wǎng)絡(luò)算法(L-M ANN)對(duì)52種有機(jī)硫化物在4種不同極性固定相上的氣相色譜保留指數(shù)分別進(jìn)行了定量結(jié)構(gòu)-氣相色譜保留關(guān)系研究。采用GA-MLR方法選取模型的輸入?yún)?shù),并將篩選得到的描述符:一階分子連接性指數(shù)(1χ)、二階分子連接性指數(shù)(2χ)、電子能(EE)、Y軸偶極(Dy)用于BP神經(jīng)網(wǎng)絡(luò)、L-M ANN人工神經(jīng)網(wǎng)絡(luò)定量結(jié)構(gòu)保留(QSRR)模型的構(gòu)建。結(jié)果表明:3種方法所建立的定量模型均具有較強(qiáng)的穩(wěn)定性和良好的預(yù)測(cè)能力,其相關(guān)系數(shù)均在0.98以上,但L-M ANN模型的預(yù)測(cè)結(jié)果稍好于其它2種方法;L-M ANN算法首次被應(yīng)用于燃料油中有機(jī)硫化物定量結(jié)構(gòu)-氣相色譜保留關(guān)系的研究中,效果十分理想,表明L-M ANN算法可以作為一種替代性的建模方法用于物質(zhì)的定量結(jié)構(gòu)保留關(guān)系的研究中。
燃料油 有機(jī)硫化物 色譜保留行為 遺傳算法-多元線性回歸法 BP神經(jīng)網(wǎng)絡(luò) 列文伯格-馬夸爾特人工神經(jīng)網(wǎng)絡(luò)算法 氣相色譜-硫化學(xué)發(fā)光檢測(cè)法
燃料油是由原油加工過(guò)程中的渣油、催化裂化柴油等為原料調(diào)合而成,具有黏度適中、霧化性好、熱值高、腐蝕性相對(duì)較小等優(yōu)點(diǎn)[1]。在石油加工、交通運(yùn)輸、煉焦以及核燃料加工等行業(yè)均具有較廣泛的應(yīng)用。硫組分的含量是表征燃料油品質(zhì)的重要指標(biāo)。燃料油中含有多種硫化物,主要為硫醚、硫醇、二硫化物、噻吩類硫化物。美國(guó)石油公司對(duì)7種典型原油的分析結(jié)果表明,硫化物的含量相差較大,但硫化物的種類基本不變。其中,噻吩類硫化物約占原油中硫含量的50%~70%,主要為苯并噻吩(BT)和二苯并噻吩(DBT);其次為硫醚和硫醇類化合物[2]。隨著我國(guó)進(jìn)口高硫原油的增加以及環(huán)保法規(guī)要求日益嚴(yán)格,對(duì)燃料油中硫化物的分析已成為國(guó)內(nèi)煉油企業(yè)較為關(guān)注的問(wèn)題。氣相色譜法是目前較為常用的分析燃料油中硫化物的方法。但由于部分硫化物的氣相色譜標(biāo)準(zhǔn)樣品價(jià)格昂貴、難于購(gòu)置齊全,成為硫化物分析測(cè)試一大難題。對(duì)于分析人員而言,硫化物的毒性會(huì)造成諸多分析上的不便。色譜保留指數(shù)(RI)是研究燃料油中有機(jī)硫化物環(huán)境行為的重要參數(shù),這些數(shù)據(jù)如能從實(shí)驗(yàn)測(cè)定,固然是最有效的,但是對(duì)每一種硫化物分子都用實(shí)驗(yàn)測(cè)定其理化數(shù)據(jù),這在人力、物力和財(cái)力上都存在一定的局限性。
RI是進(jìn)行色譜分析的重要參數(shù)。而化合物在色譜柱中的保留行為又與其分子結(jié)構(gòu)密切相關(guān)。本研究通過(guò)對(duì)燃料油中有機(jī)硫化物的分子結(jié)構(gòu)與其色譜保留時(shí)間的相關(guān)性進(jìn)行分析,建立相應(yīng)的定量結(jié)構(gòu)保留(Quantative Structure Retention Relatinship,QSRR)模型,從而實(shí)現(xiàn)一系列有機(jī)硫化物的定性預(yù)測(cè),并對(duì)其在不同極性色譜中的保留行為進(jìn)行研究。
遺傳算法(GA)又稱為基因進(jìn)化算法,或進(jìn)化算法,屬于啟發(fā)式搜索算法的一種,通過(guò)模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳機(jī)制進(jìn)行復(fù)制、交換以及突變等遺傳操作,最終使優(yōu)勝個(gè)體繁殖,不良個(gè)體淘汰。1975年,Holland在其出版的著作中對(duì)遺傳算法的原理和方法進(jìn)行了詳細(xì)的闡述。其中,遺傳算法在解決最優(yōu)問(wèn)題時(shí)具有如下優(yōu)點(diǎn):①可應(yīng)用于連續(xù)優(yōu)化或離散變量,且不需要衍生信息;②可以實(shí)現(xiàn)同時(shí)搜索,而不是從幾個(gè)單點(diǎn)進(jìn)行[4]。目前遺傳算法已被廣泛應(yīng)用于機(jī)械智能系統(tǒng)、人工生命科學(xué)等領(lǐng)域。本研究將遺傳算法與多元線性回歸方法相結(jié)合,建立燃料油中52種有機(jī)硫化物的QSRR模型,并將通過(guò)GA-MLR篩選得到描述符作為BP神經(jīng)網(wǎng)絡(luò)、列文伯格-馬夸爾特人工神經(jīng)網(wǎng)絡(luò)(L-M ANN)的輸入?yún)?shù),進(jìn)行QSRR模型的構(gòu)建。
人工神經(jīng)網(wǎng)絡(luò)是目前較為常用的構(gòu)建定量校正模型的神經(jīng)網(wǎng)絡(luò)[5-7],具有容錯(cuò)能力強(qiáng)、部分神經(jīng)元受損不會(huì)影響整個(gè)網(wǎng)絡(luò)的活動(dòng)等優(yōu)點(diǎn)。目前,最為常用的人工神經(jīng)網(wǎng)絡(luò)是BP神經(jīng)網(wǎng)絡(luò)[8-9],其結(jié)構(gòu)如圖1所示。BP神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)簡(jiǎn)單、魯棒性好、非線性映射能力及容錯(cuò)能力強(qiáng)等優(yōu)點(diǎn),但BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間長(zhǎng)、收斂速度慢、容易陷入局部極小點(diǎn)。L-M ANN是一種新型的人工神經(jīng)網(wǎng)絡(luò)算法。列文伯格-馬夸爾特(Levenberg-Marquardt)法是高斯牛頓法的改進(jìn)形式,屬于最優(yōu)化算法中的一種[10]。它結(jié)合了梯度下降法與高斯牛頓法的優(yōu)點(diǎn),收斂速度快、且不易陷入局部極小點(diǎn)。因此,新型的神經(jīng)網(wǎng)絡(luò)算法——L-M ANN算法可以有效地解決BP神經(jīng)網(wǎng)絡(luò)存在的上述問(wèn)題。
圖1 BP神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)
2.1 數(shù)據(jù)來(lái)源
本研究以52種有機(jī)硫化物在4種不同極性的固定相(阿皮松M(Apiezon M)、苯基(50%)甲基聚硅氧烷(OV-17)、曲拉通X305(Triton X305)、聚乙二醇-1000(PEG-1000))上的RI[11]為研究體系。表1為體系中有機(jī)硫化物的名稱。將表1數(shù)據(jù)集隨機(jī)分為2組:訓(xùn)練集(含有36種化合物)用于模型的建立;檢測(cè)集(含有16種化合物)用于模型的校驗(yàn)。
表1 石油產(chǎn)品中有機(jī)硫化物的名稱
2.2 模型的建立
采用分子模擬技術(shù)構(gòu)建52種有機(jī)硫化物分子微觀結(jié)構(gòu)的可視化模型,并選用Materials Studio(MS)軟件(美國(guó)Accelrys公司產(chǎn)品)的DISCOVER模塊中的COMPASS力場(chǎng)優(yōu)化分子的幾何構(gòu)型,由QSAR模塊產(chǎn)生分子描述符。然后在MS軟件的模塊中完成分成分子描述符的計(jì)算。對(duì)計(jì)算得到的分子結(jié)構(gòu)描述符進(jìn)行分析與初步篩選:舍去數(shù)值為零或常數(shù)(或近似為常數(shù))的描述符;刪除部分共線性較高的描述符(R>0.95)。采用GA對(duì)上述計(jì)算得到的描述符進(jìn)行進(jìn)一步篩選:通過(guò)設(shè)置不同的初始GA程序,在程序運(yùn)行過(guò)程中選取最佳種群模型[12]。GA篩選出的描述符用于多元線性回歸(MLR)模型、BP模型和L-M ANN模型的建立。最終篩選得到的有效參數(shù)如表2所示。
表2 定量結(jié)構(gòu)色譜保留關(guān)系模型中應(yīng)用的分子描述符
3.1 遺傳算法-多元線性回歸法
多元線性回歸是目前QSRR研究中最常用的建模方法之一。多元線性回歸方法通過(guò)建立化合物分子描述符與RI間的相關(guān)性模型,用于預(yù)測(cè)未知化合物的色譜保留值。其中,分子描述符數(shù)據(jù)與RI之間的關(guān)系如式(1)所示:
y=α0+α1x1+α2x2+…+αnxn
(1)
式中:α0為回歸方程截距;αn為各項(xiàng)回歸系數(shù);x、y分別代表分子描述符數(shù)據(jù)及色譜保留值。通過(guò)GA-MLR方法篩選得到的描述符分別為拓?fù)渲笖?shù)和量子化學(xué)描述符兩類。這在一定程度上減少了使用單一類型描述符進(jìn)行QSRR建模所帶來(lái)的不足。通過(guò)GA-MLR方法所建的QSRR模型,化合物在4種不同極性固定相上的色譜保留指數(shù)的實(shí)驗(yàn)值與預(yù)測(cè)值如圖2所示。由圖2可見(jiàn),基于GA-MLR方法燃料油中52種有機(jī)硫化物在4種不同固定相上RI的預(yù)測(cè)值與實(shí)驗(yàn)值擬合效果良好,但體系在Apiezon M、OV-17固定相上仍存在幾個(gè)偏差值較大的點(diǎn),表明其模型的預(yù)測(cè)能力稍遜于體系在PEG-1000、Triton X305固定相上所建的QSRR模型。
圖2 基于GA-MLR方法的4種固定相上的RI預(yù)測(cè)值和實(shí)驗(yàn)值的關(guān)系■—訓(xùn)練集; ▲—檢驗(yàn)集。圖3、圖4同
3.2 BP神經(jīng)網(wǎng)絡(luò)
采用MATLAB建立燃料油中52種有機(jī)硫化物在4種不同固定相上的色譜保留指數(shù)與結(jié)構(gòu)描述符之間的BP神經(jīng)網(wǎng)絡(luò)模型。將GA-MLR方法篩選得到的描述符作為BP神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù)。其訓(xùn)練精度和學(xué)習(xí)效率分別設(shè)置為0.000 1和0.1;轉(zhuǎn)換函數(shù)為Sigmoid-Logsig。經(jīng)過(guò)多次神經(jīng)網(wǎng)絡(luò)訓(xùn)練,最終確立的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別為2×4×1(Apiezon M),2×5×1(OV-17),3×3×1(PEG-1000),3×5×1(Triton X305)。將BP神經(jīng)網(wǎng)絡(luò)法預(yù)測(cè)得到的色譜保留指數(shù)與其實(shí)驗(yàn)值進(jìn)行擬合分析,結(jié)果如圖3所示。通過(guò)對(duì)比可知,體系在Triton X305色譜柱中的預(yù)測(cè)效果稍好于體系在其它3項(xiàng)色譜柱中所建的QSRR模型。
3.3 L-M人工神經(jīng)網(wǎng)絡(luò)
通過(guò)L-M ANN方法所建的QSRR模型,化合物在4種不同極性固定相上的RI的實(shí)驗(yàn)值與預(yù)測(cè)值如圖4所示。
圖3 基于BP方法的4種固定相上的RI預(yù)測(cè)值和實(shí)驗(yàn)值的關(guān)系
圖4 基于L-M ANN方法的4種固定相上的RI預(yù)測(cè)值和實(shí)驗(yàn)值的關(guān)系
模型的預(yù)測(cè)性能及有效性通過(guò)復(fù)相關(guān)系數(shù)(R)、均方根誤差(RMSE)進(jìn)行評(píng)價(jià)。一個(gè)好的QSRR模型必定具有較高的R值和較低的RMSE值。表3為在4種固定相上用3種模型得到的詳細(xì)統(tǒng)計(jì)學(xué)參數(shù)。由表3可見(jiàn),L-M ANN神經(jīng)網(wǎng)絡(luò)的R值最高,RMSE值最低,即預(yù)測(cè)效果最為理想。
表3 不同極性固定相上GA-MLR、BP和L-M ANN模型的預(yù)測(cè)能力
采用L-M ANN方法所建立的QSRR模型可用于預(yù)測(cè)燃料油中有機(jī)硫化物的RI,根據(jù)已知分子的結(jié)構(gòu)信息對(duì)未知燃料油品中的硫醚、硫醇以及噻吩類硫化物的RI進(jìn)行估算以及定性分析,同時(shí)為研究氣相色譜中不同極性固定相上的分子保留行為提供一定的技術(shù)參考。
3.4 化合物色譜保留行為關(guān)系分析
物質(zhì)在色譜柱中的保留行為主要與化合物分子與固定相的相互作用有關(guān),兩者間作用力越大,保留時(shí)間越長(zhǎng)[13]。兩者的相互作用也受固定相極性的影響:當(dāng)固定相為非極性時(shí),物質(zhì)在固定相中的色譜保留主要與色散力有關(guān);當(dāng)固定相為極性時(shí),其色譜保留主要受色散力和誘導(dǎo)力兩者的影響。其中,色散力主要與空間位阻、分子的大小及分支情況有關(guān),而誘導(dǎo)力主要受分子偶極矩的影響。1χ提供了分子尺寸和分支情況的信息;2χ包含了分子極性方面的信息[14]。由此可知,通過(guò)GA-MLR方法最終篩選得到的描述符(1χ、2χ、EE、Dy)不僅具有明確的物理意義,而且包含了體系分子的大小、極性以及電性等多方面信息。因此,上述描述符能很好地表達(dá)燃料油中有機(jī)硫化物體系在不同極性固定相中的保留與分子結(jié)構(gòu)的關(guān)系。由表3可見(jiàn),有機(jī)硫化物體系在4種不同極性固定相上的GA-MLR模型的R在0.981~0.999區(qū)間內(nèi)。這進(jìn)一步說(shuō)明通過(guò)GA-MLR方法篩選得到的4個(gè)分子描述符1χ,2χ,EE,Dy,能較好地解釋燃料油中有機(jī)硫化物體系的保留行為。
通過(guò)GA-MLR方法篩選得到的描述符包含了分子大小、極性、電性等方面的信息,物理意義明確,能較好地解釋燃料油中有機(jī)硫化物體系在不同極性固定相上的色譜保留行為。采用上述描述符建立的QSRR模型相關(guān)性好、穩(wěn)定性強(qiáng),可用于預(yù)測(cè)燃料油中有機(jī)硫化物的RI,以及其色譜保留行為的分析,對(duì)色譜分離條件的優(yōu)化有很大的指導(dǎo)意義。
新型的L-M ANN算法結(jié)合了梯度下降法與高斯牛頓法的優(yōu)點(diǎn),收斂速度快、不易陷入局部極小點(diǎn),可將其作為一種替代性的建模方法廣泛應(yīng)用于物質(zhì)的定量結(jié)構(gòu)保留關(guān)系的研究中。
[1] 宋紅艷,何靜,李春喜.燃料油深度脫硫技術(shù)及進(jìn)展[J].石油化工,2015,44(3):279-285
[2] Martin G,Barroeta N.Gas-phase thermolysis of sulphur compounds.Part I.Di-t-butyl disulphide[J].J Chem Soc, Perkin Trans,1976(12):1421-1424
[3] Wang Ting,Wang Heng,Xie Haofei.Networked synchronization control method by the combination of RBF neural network and genetic algorithm[C]The 2nd International Conference on Computer and Automation Engineering(ICCAE),2010
[4] 陳慧琴.基于人工神經(jīng)網(wǎng)絡(luò)的遺傳算法理論及應(yīng)用[D].武漢:武漢理工大學(xué),2003
[5] Xu Huiying,Wang Wei,Xu Xiaolu,et al.A QSRR study on the chromatographic retention indices of hydroxylated polychlorinated bipheny[J].Chinese J Struct Che,2013,32(4):578-584
[6] Kaliszan R.Chromatography in studies of quantitative structure-activity relationships[J].Journal of Chromatography A,1981,220(1):71-84
[7] 董一芬.Levenberg-Marquardt神經(jīng)網(wǎng)絡(luò)算法研究[J].商場(chǎng)現(xiàn)代化,2009(3):385
[8] 王國(guó)清,杜志國(guó),張利軍,等.應(yīng)用BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)石腦油熱裂解產(chǎn)物收率[J].石油化工,2007,36(7):699-704
[9] 許祿.化學(xué)計(jì)量學(xué)方法[M].北京:科學(xué)出版社,1995:287-289
[10]D′Archivio A A,Incani A,Ruggieri F.Retention modelling of polychlorinated biphenyls in comprehensive two-dimensional gas chromatography[J].Anal Bioanal Chem,2011,399(2):903-913
[11]李浩春.分析化學(xué)手冊(cè)(第五分冊(cè))[M].北京:化學(xué)工業(yè)出版社,1999:469-482
[12]Riahi S,Pourbasheer E,Ganjali M R,et al.Investigation of different linear and nonlinear chemometric methods for modeling of retention index of essential oil components:Concerns to support vector machine[J].Journal of Hazardous Materials,2009,166(2):853-859
[13]Gassiot M M,F(xiàn)irpo P G.Relationships between gas chromatographic retention index and molecular structure[J].Journal of Chromatography A,1980,187(1):1-19
[14]堵錫華.PCDDs氣相色譜相對(duì)保留因子的QSRR研究[J].華中科技大學(xué)學(xué)報(bào),2006,34(10):111-112
QSRR MODELS TO PREDICT RETENTION INDICES OF ORGANIC SULFUR COMPOUNDS IN FUEL OIL ON DIFFERENT GC COLUMNS
Zhang Xiaotong1,2, Shi Lihua1, Song Lijuan1, Sun Zhaolin1, Sun Ting2
(1.LiaoningProvincialKeyLaboratoryofPetrochemicalCatalyticScienceandTechnology,LiaoningShihuaUniversity,F(xiàn)ushun,Liaoning113001; 2.CollegeofScience,NortheasternUniversity)
Sulfur content is indispensable to evaluate the quality of fuel oil.Quantitative Structure Retention Relationship(QSRR)studies were performed for predicting the gas chromatographic retention times of 52 organic sulfur compounds in fuel oil on four different GC columns.The input parameters were selected by Genetic algorithm and multiple linear regression(GA-MLR)method.The final selected parameters including molecular connectivity indexes1χand2χ,electron energy(EE)and Y dipole(Dy)were then used as inputs of Error-back Propagation Network(BP)and levenberg-marquardt artificial neural network(L-M ANN).The three QSRR models all have strong stability and good predictive ability,all of the correlation coefficients based on above methods are higher than 0.98.The predictive ability of L-M ANN model is superior to other two models and indicates that L-M ANN can be used as an alternative modeling tool for QSRR studies.
fuel oil; organic sulfur compound; GC retention behavior; GA-MLR; BP neural network; L-M ANN; GC-SCD
2017-02-20; 修改稿收到日期: 2017-04-26。
張曉彤,副教授,碩士生導(dǎo)師,主要研究方向包括現(xiàn)代分析測(cè)試技術(shù)、化學(xué)信息學(xué)、化學(xué)化工行業(yè)軟件開發(fā),先后在國(guó)內(nèi)外學(xué)術(shù)刊物及會(huì)議上公開發(fā)表論文70余篇,申報(bào)專利5項(xiàng)。
宋麗娟,E-mail:lsong56@263.net。
國(guó)家自然科學(xué)基金資助項(xiàng)目(21376114);遼寧省高等學(xué)校科學(xué)研究一般項(xiàng)目(L2014158)。