趙文星,李雪花,傅志強,陳景文
大連理工大學環(huán)境學院 工業(yè)生態(tài)與環(huán)境工程教育部重點實驗室,大連 116024
有機化學品不同溫度下(過冷)液體蒸氣壓預測模型的建立與評價
趙文星,李雪花*,傅志強,陳景文
大連理工大學環(huán)境學院 工業(yè)生態(tài)與環(huán)境工程教育部重點實驗室,大連 116024
有機化學品;(過冷)液體蒸氣壓(PL);溫度依附性;偏最小二乘法(PLS);支持向量機(SVM)
截至2014年10月,在美國化學文摘社(http://www.cas.org)登記的化學品已達9 019多萬種。其中,人類日常使用的有機化學品已超過14萬種[1]。這些化學品給人們生活帶來了極大便利,但是一些化學物質在生產和使用過程中避不可免的進入環(huán)境,對環(huán)境和人類健康造成了嚴重影響。因此,有必要對這些化學品進行生態(tài)風險評價,預防和控制其對環(huán)境的污染。歐盟于2007年6月出臺了“化學品注冊、評估、授權和限制法規(guī)(簡稱REACH法規(guī))”,提出了化學品監(jiān)管原則[2]。我國在2010年發(fā)布了《新化學物質環(huán)境管理辦法》,這標志著我國在新化學品物質環(huán)境管理上邁上了一個新臺階。
(過冷)液體蒸氣壓(PL)是一種表征化學品揮發(fā)性的參數(shù),可用來評價化學品的分配、遷移和歸趨行為。此外,PL還可用來預測有機化學品的其他理化性質,例如汽化焓、空氣-水分配系數(shù)、亨利常數(shù)等[3]。PL有較強的溫度依附性,不同地區(qū)的環(huán)境溫度不同,同一化學品的PL也不同。PL數(shù)據可通過實驗測定方法獲得[3],其對標準品及實驗儀器設備的要求較高,且耗時、費力。為了彌補實驗數(shù)據的缺失,有必要發(fā)展可靠的預測模型來獲取不同溫度下的PL數(shù)據,從而滿足化學品生態(tài)風險評價的需求。
定量結構-性質關系(QSPR)模型是實驗測試的有效替代方法,它是基于化合物的分子結構信息估算其理化性質。采用QSPR模型可高通量地預測不同溫度下的PL數(shù)據。然而,只有經驗證的QSPR模型才能用于化學品的風險評估以及優(yōu)先控制污染物的篩查。經濟合作與發(fā)展組織(OECD)于2007年確定了QSPR模型建立與應用導則:1) 具有明確的定義的環(huán)境指標;2) 具有明確的算法;3) 定義了模型的應用域;4) 具有適當?shù)臄M合度、穩(wěn)健性和預測能力;5) 盡可能地進行機理解釋。歐盟國家認為只有符合這5大導則的QSPR模型,才能用于化學品監(jiān)管的目的。目前已發(fā)表的化學品PL的QSPR預測模型存在一些問題。例如,預測單一溫度下(298 K)的PL模型[4-13]算法透明,但是大部分模型應用域表征信息欠缺[4-7, 9-13],部分模型未進行外部驗證[10-12]。Yaffe和Cohen[14]和Gharagheizi等[15]的模型可預測不同溫度下的PL模型。前者預測化合物種類單一,僅為烴類;后者應用域范圍較廣,但未表征外部預測能力。這2種模型均采用非線性算法建模,不利于機理解釋。
因此,本研究旨在選取合適的分子結構描述符,將溫度作為預測變量引入模型,建立可預測不同溫度下化合物的PL的QSPR模型。模型的算法應透明,應用域廣泛,且要對所建立的模型進行相應的外部驗證及應用域的表征。
1.1 實驗數(shù)據的收集與整理
本硏究收集與整理了661種化學品在不同溫度下的10 478個logPL實驗測定數(shù)據,溫度范圍為200~830 K,logPL的范圍為-1.40~6.80。數(shù)據的質量影響著模型的結果,為了保證質量,所有蒸氣壓數(shù)值均來自于已發(fā)表科技文獻中的實驗測定數(shù)據。這些化學品的選取原則是其碳鏈長度,取代基種類、位置和個數(shù)可以很好地代表不同的結構種類,包括脂肪族和芳香族2大類。
為了達到OECD的建模要求,所有PL數(shù)據按照大小排序后,以3:1的比例分成訓練集和驗證集,其具體統(tǒng)計學信息見表1。訓練集含有7 797個數(shù)據,用于模型的建立;驗證集含有2 681個,用于模型的外部驗證。
1.2 分子結構描述符的計算
建模中共考慮2大類分子結構描述符,分別是量子化學描述符和Dragon描述符。量子化學描述符是由MOPAC 2009中的PM6方法計算,優(yōu)化的關鍵詞是:EF,GNORM=0.100,MMOK,GEO-OK,PM6,MULLIK,GRAPH,ESR,HYPERFINE,POLAR。Dragon描述符是由Dragon軟件(Version 6)計算獲得。此外,考慮溫度對PL數(shù)據的影響,根據Clausius - Clapeyron方程,將1/T作為變量引入模型。
表1 訓練集、驗證集及總數(shù)據集的描述統(tǒng)計學信息Table 1 Descriptive statistics of training set, validation set and total dataset
注:m為化合物的個數(shù),n為logPL值的個數(shù),SD為logPL值的標準偏差。
Note: m, the number of compounds; n, the number of logPLvalues; SD, the standard deviation of logPLvalues.
1.3 線性PL-QSPR模型的建立
線性蒸氣壓預測模型建立的過程中,使用多元線性回歸方法(MLR)和偏最小二乘方法(PLS)分別來篩選描述符和建立模型。具體過程如下:
(1)
1.4 非線性PL-QSPR模型的建立
將PLS模型中的選出的描述符引入支持向量機(SVM)模型。非線性模型建立過程中,遺傳算法用于確定SVM模型的3個關鍵參數(shù),即C、γ和ε。其中,C是容量參數(shù),γ是可影響模型預測能力的參數(shù),ε是不敏感損失參數(shù)。SVM算法[21]用于建立預測模型。SVM模型構建中采用的核函數(shù)為徑向基函數(shù)RBF:K(u, v)=exp (-γ*|u-v|2)。
1.5 模型外部驗證及應用域表征
(2)
(3)
通過計算分子描述符的leverage值(hi)和標準化殘差(σ)作出Williamsplot表征模型的應用域[23]。hi及hi的警戒值(h*)的計算公式,見(4)和(5)。
hi=xiT(XTX)-1xi
(4)
h*= 3(k+1)/n
(5)
式中,xi是第i個化合物的分子結構描述符的變量,X是分子結構描述符所構成的矩陣,k為分子結構描述符的個數(shù)。對訓練集來說,如果hi>h*,說明化合物對模型是有影響的。對驗證集來說,如果hi>h*,說明化合物的預測結果為模型的外推結果,可能不可靠。如果σ的絕對值大于3倍的標準殘差,則認為該數(shù)據是離群點。
2.1 線性PL-QSPR模型
采用主成分分析表征了數(shù)據集的結構描述符空間,3個主成分共解釋了80%的方差。如圖1所示,訓練集和驗證集的數(shù)據點在主成分空間中分布均衡,表明訓練集化合物具有較好的代表性。
基于5個分子結構描述符和溫度變量,建立的最佳PLS模型為:
我國圖書館事業(yè)人才需求較為注重硬件條件,對硬件條件的規(guī)定主要涉及三大類。第一大類是工作年限及職稱,一般要求合同期限為3—5年,對非應屆生要求有2年以上工作經驗。之所以提出此類要求,一是為了能直接投入圖書館日常業(yè)務工作,二是為了圖書館人才隊伍的穩(wěn)定。第二大類是證書,一般為大學英語四六級、計算機、會計等證書,對前兩者的需求集中于本科院校圖書館,而公共圖書館由于開展獨立審計的需要對會計證要求增加。第三大類為戶籍限制,即非本省戶口或非常住居民無法報考。這主要存在于沿海省份的公共圖書館。
logPL= 13.33-2571(1/T)-0.5061nHDon-0.6896X1sol+0.8014GATS1v-0.1363μ-0.6094nROH
(6)
PLS模型共提取了2個主成分,6個預測變量。表2列出了每個描述符的含義和統(tǒng)計學參數(shù)。變量的投影重要性指標(VIP)值越大,說明該描述符在解釋因變量時是最相關的[18]。在篩選出的6個預測變量中,1/T具有最大的VIP,表明溫度是影響蒸氣壓的主要參數(shù)。溫度降低,logPL的值減小,這與Clausius-Clapeyron方程中溫度與蒸氣壓的關系是一
致的。本研究將1/T作為唯一的變量與logPL做回歸分析,統(tǒng)計結果顯示1/T與logPL間的線性相關系數(shù)R為0.630,具有較強的線性相關性。
PLS模型的應用域采用Williams plot方法表征,見圖3。圖中上下2條藍色點劃線為±3倍標準殘差,警戒值h*為0.00269。hi>h*且∣σ∣< 3的化合物,共計60個數(shù)據點(訓練集50個、驗證集10個),說明其與大部分化合物的結構不一致。但因標準殘差未超過±3,這些化合物可使所建模型穩(wěn)定,使模型具有一定的外推能力。∣σ∣> 3的化合物,視為模型的離群點,共計92個數(shù)據點(訓練集67個、驗證集25個),小于數(shù)據集總數(shù)的1%。其中,h
logPL= 13.39-2611(1/T)-0.5007nHDon-0.6744X1sol + 0.7652GATS1v-0.1277μ-0.5954nROH
(7)
表2 PLS模型中描述符的含義、VIP、系數(shù)和范圍Table 2 Meanings, VIP values, coefficients and ranges of the descriptors in the PLS model
圖1 數(shù)據集結構描述符的主成分分析圖Fig. 1 Principal components analysis of the structural descriptors for the data sets
分析應用域內化合物的結構特征發(fā)現(xiàn),該PLS模型可用來預測烷烴、烯烴、醇、酮、羧酸、苯、酚、聯(lián)苯、鹵代芳香烴、含N化合物及含S化合物等在不同溫度下的PL數(shù)據。
2.2 非線性PL-QSPR模型
圖2 PLS模型的logPL實驗值和預測值的擬合圖Fig. 2 Plot of predicted versus experimental logPL values for the training and validation sets in the PLS model
圖3 PLS模型的標準殘差分布圖Fig. 3 Plot of standardized residuals versus leverages
圖4 SVM模型的logPL實驗值和預測值的擬合圖Fig. 4 Plot of predicted versus experimental logPL values for the training and validation sets in the SVM model
3.1 機理解釋
除溫度以外,PLS模型描述符中X1sol的VIP值(大于1)顯著高于其他描述符,說明X1sol對logPL的影響較大(r=0.441, P<0.001)。X1sol是指溶劑連接性指數(shù),可用來描述化合物在溶劑中的色散作用[24]。變量X1sol與logPL呈負相關,分子的色散力越大,其相互作用就越強,蒸氣壓就越小。nHdon為氫鍵供體的數(shù)目,這一描述符可用來反映分子形成氫鍵的能力。nHdon的值越大,分子間形成氫鍵的能力越強,蒸氣壓越小,這與nHdon的系數(shù)為負是相符的。nROH表示分子中所含羥基的個數(shù)。分子中羥基的個數(shù)越多,越易形成氫鍵,分子間的作用力越強,蒸氣壓越小。μ為分子的偶極矩,表征分子極性。μ越大,分子的極性越大,分子間的相互作用越強,蒸氣壓越小。GATS1v是原子范德華體積加權的Geary自相關系數(shù),描述分子的結構特征。綜上,化合物的蒸氣壓主要與溫度、色散力、氫鍵個數(shù)、極性和分子構型有關。
SVM模型的統(tǒng)計學結果表明,分子結構描述符和logPL間存在一定的非線性關系。與PLS模型相比,SVM模型的擬合能力略好,但其模型形式為黑箱模式,即未給出具體的預測公式,所以在機理解釋上存在一定的困難。
3.2 模型比較
前人已發(fā)展了一些可預測蒸氣壓的QSPR模型,詳細信息見表3。預測單一溫度下(298 K)的PL模型,多數(shù)基于線性算法建模。Chen等[4]基于PLS建立了可預測多氯聯(lián)苯并二噁英/呋喃PL模型。Ying等[5-6]基于靜電描述符先后建立了22種多溴聯(lián)苯醚和107種多氯聯(lián)苯醚的PL模型。Goudarzi和Goodarzi[7]針對鹵代苯甲醚建立了MLR和最小二乘SVM模型。Gajewicz等[8]發(fā)展了可預測氯代和溴代化合物的蒸氣壓模型。上述這5個模型均為預測單一種類化合物的PL模型,且多數(shù)模型并未進行應用域表征[4-7]。
此外,此前的研究也發(fā)展了可預測單一溫度下多種類化合物的PL模型。Katritzky等[10]建立可預測烴類、鹵代烴和含O/N化合物的MLR模型。Liang和Gallagher[12]采用極化率和極性官能團共7個分子結構描述符,建立了可預測479種不同類型化合物的PL模型。Basak和Mills等[13]基于拓撲結構、拓撲化學、3D幾何學和量子化學描述符,發(fā)展了可預測469種化合物的蒸氣壓模型。Staikova等[11]基于分子極化率建立了可預測氯代苯、氯代萘、PCBs、氯代丙烷蒸氣壓的線性回歸模型。Katritzky等[9]發(fā)展了可預測645種有機化合物蒸氣壓的MLR模型。
表3 PL預測模型的性能比較Table 3 Comparison of statistical performances for different PL prediction models
由于不同地區(qū)的經緯度差異很大,環(huán)境溫度也不盡相同,蒸氣壓具有溫度依附性,建立可預測不同溫度下PL的QSPR模型具有重要意義。Yaffe和Cohen[14]基于神經網絡算法建立可預測274種烴類不同溫度下的蒸氣壓QSPR模型,模型未進行應用域表征。Gharagheizi等[15]建立了可預測多種類化合物在不同溫度下PL的人工神經網絡模型,并表征了模型的應用域。但這2個模型算法不透明,不利于機理解釋。因此,本研究基于10 478個logPL值,引入絕對溫度的倒數(shù)為預測變量,篩選了5個分子結構描述符,構建了可預測不同溫度下化學品的PL模型。本研究所建立的模型,便于機理解釋,同時對所建立的模型進行了外部驗證及應用域的表征,模型的應用域范圍廣泛。
綜上,本研究采用PLS和SVM方法,建立了PL的線性和非線性模型。這2個模型中均引入溫度作為預測變量,因此,所構建的模型可用于預測不同溫度下(200~830 K)的PL。SVM模型預測性能略高于PLS模型,表明分子結構描述符和logPL間存在一定的非線性關系。所建立的預測模型可用來快速獲取烷烴、烯烴、醇、酮、羧酸、苯、酚、聯(lián)苯、鹵代芳香烴、含氮化合物及含硫化合物在不同溫度下的PL數(shù)據。
致謝:感謝大連理工大學張翼飛對于支持向量機模型構建給予的幫助和建議。
[1] Ruden C, Hansson S O. Registration, evaluation, and authorization of chemicals (REACH) is but the first step-How far will it take us? Six further steps to improve the European Chemicals Legislation [J]. Environmental Health Perspectives, 2010, 118(1): 6-10
[2] Enterprise & Industry Directorate General and Environment Directorate General, European Commission. REACH-registration, evaluation, authorisation and restriction of chemicals [OL]. [2014-10-01]. http://ec.europa.eu/enterprise/sectors/chemicals/reach/index_en.htm
[3] DelleSite A. The vapor pressure of environmentally significant organic chemicals: A review of methods and data atambient temperature [J]. Journal of Physical and Chemical Reference Data, 1997, 26(1): 157-193
[4] Chen J W, Quan X, Yan Y, et al. Quantitative structure-property relationships for vapor pressure of PCDD/Fs [J]. Bulletin of Environmental Contamination and Toxicology, 2001, 66(3): 277-282
[5] Xu H Y, Zou H W, Yu Q S, et al. QSPR/QSAR models for prediction of the physicochemical properties and biological activity of polybrominated diphenyl ethers [J]. Chemosphere, 2007, 66(10): 1998-2010
[6] XuH Y, Zou J W, Hu G X, et al. QSPR/QSAR models for prediction of the physico-chemical properties and biological activity of polychlorinated diphenyl ethers (PCDEs) [J]. Chemosphere, 2010, 80(6): 665-670
[7] Goudarzi N, Goodarzi M.Prediction of the vapor pressure of some halogenated methyl-phenyl ether (anisole) compounds using linear and nonlinear QSPR methods [J]. Molecular Physics, 2009, 107(15): 1615-1620
[8] Gajewicz A, Haranczyk M, Puzyn T. Predicting logarithmic values of the subcooled liquid vapor pressure of halogenated persistent organic pollutants with QSPR: How different are chlorinated and brominated congeners [J]. Atmospheric Environment, 2010, 44(11): 1428-1436
[9] Katritzky A R, Slavov S H, Dobchev D A, et al. Rapid QSPR model development technique for prediction of vapor pressure of organic compounds [J]. Computers & Chemical Engineering, 2007, 31(9): 1123-1130
[10] Katritzky A R, Wang Y L, Sild S, et al. QSPR studies on vapor pressure, aqueous solubility, and the prediction of water-air partition coefficients [J]. Journal of Chemical Information and Computer Sciences, 1998, 38(4): 720-725
[11] Staikova M, Wania F, Donaldson D J. Molecular polarizability as a single-parameter predictor of vapour pressures and octanol-air partitioning coefficients of non-polar compounds: A priority approach and results [J]. Atmospheric Environment, 2004, 38(2): 213-225
[12] Liang C K, Gallagher D A. QSPR prediction of vapor pressure from solely theoretically-derived descriptors [J]. Journal of Chemical Information and Computer Sciences, 1998, 38(2): 321-324
[13] Basak S C, Mills D. Quantitative structure-property relationships (QSPRs) for the estimation of vapor pressure: A hierarchical approach using mathematical structural descriptors [J]. Journal of Chemical Information and Computer Sciences, 2001, 41(3): 692-701
[14] Yaffe D, Cohen Y. Neural network based temperature-dependent quantitative structure property relations (QSPRs) for predicting vapor pressure of hydrocarbons [J]. Journal of Chemical Information and Computer Sciences, 2001, 41(2): 463-477
[15] Gharagheizi F, Eslamimanesh A, Ilani-Kashkouli P, et al. Determination of vapor pressure of chemical compounds: A group contribution model for an extremely large database [J]. Industrial & Engineering Chemistry Research, 2012, 51(20): 7119-7125
[16] OECD. Guidance document on the validation of (Quantitative) Structure-Activity Relationships [(Q)SARs] models. (2007-03-30). [2014-10-01]. http://www.oecd.org/officialdocuments/publicdisplaydocumentpdf/?doclanguage=en&cote=env/jm/mono(2007)2
[17] Norusis M J. SPSS 7.5 Guide to Data Analysis [M]. New Jersey, Prentice Hall, Pap/Dsk, 1997: 458
[18] Wang Y N, Chen J W, Li X H, et al. Predicting rate constants of hydroxyl radical reactions with organic pollutants: Algorithm, validation, applicability domain, and mechanistic interpretation [J]. Atmospheric Environment, 2009, 43(5): 1131-1135
[19] Ding G H, Chen J W, Qiao X L, et al. Quantitative relationships between molecular structures, environmental temperatures and solid vapor pressures of PCDD/Fs [J]. Chemosphere, 2006, 62(7): 1057-1063
[20] Eriksson L, Jaworska J, Worth A P, et al. Methods for reliability and uncertainty assessment and for applicability evaluations of classification- and regression-based QSARs [J]. Environmental Health Perspectives, 2003, 111(10): 1361-1375
[21] Cortes C, Vapnik V. Support-Vector Networks [J]. Machine Learning, 1995, 20(3): 273-297
[22] Schuurmann G, Ebert R U, Chen J W, et al. External validation and prediction employing the predictive squared correlation coefficient - test set activity mean vs training set activity mean [J]. Journal of Chemical Information and Modeling, 2008, 48(11): 2140-2145
[23] Gramatica P. Principles of QSAR models validation:Internal and external [J]. QSAR & Combinatorial Science, 2007, 26(5): 694-701
[24] Zefirov N S, Palyulin V A. QSAR for boiling points of "small" sulfides. Are the "high-quality structure-property-activity regressions" the real high quality QSAR models [J]. Journal of Chemical Information and Computer Sciences, 2001, 41(4): 1022-1027
◆
Development and Evaluation for a Predictive Model of (Subcooled) Vapor Pressure of Organic Chemicals at Different Temperatures
Zhao Wenxing, Li Xuehua*, Fu Zhiqiang, Chen Jingwen
Key Laboratory of Industrial Ecology and Environmental Engineering of Ministry of Education, School of Environmental Science and Technology, Dalian University of Technology, Dalian 116024, China
24 November 2014 accepted 25 December 2014
organic chemicals; (subcooled) liquid vapor pressure (PL); temperature-dependence; partial least square (PLS) regression; support vector machine (SVM)
國家高技術研究發(fā)展計劃(2012AA06A301);中央高?;究蒲袠I(yè)務費專項(DUT14ZD213)
趙文星(1990-),女,碩士,研究方向為環(huán)境生態(tài)化學,E-mail: wxzhao@mail.dlut.edu.cn;
*通訊作者(Corresponding author), E-mail: lixuehua@dlut.edu.cn
10.7524/AJE.1673-5897.20141124001
2014-11-24 錄用日期:2014-12-25
1673-5897(2015)2-159-08
X171.5
A
李雪花(1980-),女,環(huán)境工程博士,副教授,主要研究方向為預測毒理學模型,發(fā)表學術論文30余篇。
趙文星, 李雪花, 傅志強, 等. 有機化學品不同溫度下(過冷)液體蒸氣壓預測模型的建立與評價[J]. 生態(tài)毒理學報, 2015, 10(2): 159-166
Zhao W X, Li X H, Fu Z Q, et al. Development and evaluation for a predictive model of (subcooled) vapor pressure of organic chemicals at different temperatures [J]. Asian Journal of Ecotoxicology, 2015, 10(2): 159-166 (in Chinese)