李美萍,張生萬,*,胡永鋼,王增巧
1.山西大學生命科學學院,太原030006
2.山西大學化學化工學院,太原030006
分子電性距離矢量用于多氯代二苯并呋喃光解半衰期的QSPR研究
李美萍1,張生萬1,*,胡永鋼2,王增巧2
1.山西大學生命科學學院,太原030006
2.山西大學化學化工學院,太原030006
多氯代二苯并呋喃(PCDFs)是一種典型的持久性有機污染物(POPs),光解是其在環(huán)境中轉化的主要途徑.以分子電性距離矢量(Molecular Electronegativity Distance Vector,MEDV)為參數,應用多元線性回歸(Multiple Linear Regression,MLR)和偏最小二乘回歸(PLSR)對48種PCDFs在云杉針葉和飛灰表面的光解半衰期(t1/2)進行模擬分析,均獲得由2個變量所建的定量結構-性質相關(QSPR)模型.多元線性回歸結果:建模相關系數(R)分別為0.860和0.836,標準偏差(SD)分別為0.052和0.053,交互檢驗復相關系數(Rcv)分別為0.839和0.807,外部檢驗相關系數(Qext)分別為0.939和0.853;偏最小二乘回歸結果:建模相關系數(R)分別為0.857和0.829,交互檢驗復相關系數(Rcv)分別為0.849和0.807.結果表明,MEDV能較好地表征該類分子的結構信息,所建QSPR模型具有良好的穩(wěn)定性和預測能力.
多氯代二苯并呋喃(PCDFs);分子電性距離矢量(MEDV);定量結構-性質相關(QSPR);光解半衰期
多氯代二苯并呋喃(polychlorinated dibenzofurans,PCDFs)與氯代二苯并-對-二噁英(PCDDs)一起合稱為氯代二噁英或二噁英類.因氯原子的取代數目及位置不同,PCDFs共有135種分子結構,是一種典型的持久性有機污染物(POPs),不僅具有生殖毒性、免疫毒性和內分泌毒性,而且還具有環(huán)境持久性、生物累積性和全球范圍的長距離遷移能力,因此目前PCDFs化合物已經成為全球環(huán)境問題關注的焦點.PCDFs是首批列入《斯德哥爾摩公約》的12種POPs之一,主要來源于木材、化石燃料和生活垃圾的燃燒,以及紙漿漂白、化工生產和金屬冶煉等過程,目前已廣泛存在于空氣、水、土壤、底泥等各種環(huán)境介質中.PCDFs具有較強的穩(wěn)定性,在自然條件下很難發(fā)生生物和化學降解,光降解是其在環(huán)境中轉化的主要途徑(張幸川等,2007;谷成剛等,2008;黃俊等,2002a;黃蕾等,2005).一些研究表明,植物表面光解過程對于有機污染物從大氣到食物鏈的遷移有重要的影響(Barber et al.,2004).PCDFs在植物表面上的光解主要發(fā)生在植物葉面角質層中(Barber et al.,2004;Chen et al.,2001a),其中,光解半衰期(t1/2)對于考察此類污染物的環(huán)境行為并進行環(huán)境風險評價有重要的作用.由于實驗測定PCDFs的光解半衰期需要特殊設備,消耗大量的時間和財力,因此發(fā)展PCDFs光解行為的定量結構-性質關系就顯得尤為必要(Chen et al.,2001b;Niu et al.,2003;陳景文,1999;牛軍峰等,2005;王蕾等,2007;林紅衛(wèi)等,2003;戴益民等,2006;安麗英等,2006;黃俊等,2002b).本研究以容易計算得到且具有明確物理-化學意義的分子電性距離矢量(MEDV)描述子為自變量,運用多元線性回歸(Multiple Linear Regression,MLR)和偏最小二乘回歸(PLSR)對模型中的變量進行篩選,建立了具有較強預測能力和穩(wěn)定性的QSPR模型,有助于對PCDFs光解機理的研究.
基于分子二維拓撲結構,以各種非氫原子電負性及各原子之間的相對距離為主要分子結構特征,提出按4種原子類型劃分的分子電性距離矢量,簡稱分子電距矢量(Molecular Electronegativity Distance Vector based on 4 atomic types,簡記為MEDV-4或MEDV).文獻(劉樹深等,2000;王遠強等,2005;仝建波和張生萬,2007;孫立力和李志良,2005)已對分子電性距離矢量有比較清楚的描述,本文在此將不再贅述.
2,3,7 ,8-PCDF的結構如圖1所示,當氯在不同的取代位時,就得到不同的PCDFs.云杉針葉表面和飛灰表面的48個PCDFs的光解半衰期(lgt1/2)值取自文獻(王蕾等,2007).
圖12 ,3,7,8-PCDF結構圖Fig.1The generic structure of 2,3,7,8-PCDF
其10個MEDV描述子按文獻介紹的方法進行計算,M14、M24、M34、M44均為零向量,剩余向量依次為:M11、M12、M13、M22、M23、M33,48個PCDFs的MEDV描述子及其光解半衰期(lgt1/2)見表1.
3.2.1 多元線性回歸
用MEDV對該類化合物進行表征時,為了觀察MEDV各矢量對QSPR建模過程的影響和對模型的貢獻大小,本文對PCDFs光解半衰期的參數采用多元線性回歸(Multiple Linear Regression,MLR)進行建模,MLR是一種經典的建模方法,它對自變量和因變量加以線性擬合以得到最小二乘(Least Square,LS)意義下的最佳結果.首先計算出48個化合物的MEDV值,結果見表1,將所有樣本的MEDV值與其光解半衰期(lgt1/2)相關聯建模.在多元線性回歸過程中,為了消除變量間偶然相關的影響,剔除影響模型穩(wěn)定性的自變量,使回歸方程始終顯著,需要在多元回歸分析中引入逐步回歸的方法.本文采用正向逐步回歸技術對模型進行逐步回歸,以便進行變量篩選.需要指出的
是,在逐步回歸的過程中,為了觀察模型對外部樣本的預測能力這一重要性能,我們通過設定適當的F臨界值,使每個變量按其重要性的大小順序逐步引入方程,觀察建模相關系數(R)、標準偏差(SD)、F檢驗值(F)、留一法(Leave-One-Out,LOO)交互檢驗相關系數(Rcv)、標準偏差(SDcv)、F檢驗值(Fcv)隨引入變量數的增加而變化的情況.逐步回歸及交互檢驗結果如表2、表3所示.
表1 48個PCDFs的MEDV描述子及其光解半衰期(lgt1/2)Table 1MEDV and photolysis half-lives(lgt1/2)of 48 PCDFs
表2 云杉針葉表面逐步回歸及交互檢驗結果Table 2Analysis of variables by stepwise multiple regression(SMR)on spruce needle surface
表3 飛灰表面逐步回歸及交互檢驗結果Table 3Analysis of variables by stepwise multiple regression(SMR)on fly ash surface
從表2所得結果可看出,在逐步回歸中,隨變量個數m增加,建模相關系數R逐漸增加,標準偏差SD逐漸減小,表明模型對內部樣本的估計能力在逐漸改善;另外,交互檢驗預測過程中,隨m增加,Rcv先增加后減小,SDcv隨變量個數m的增加先減小后增加,且當m=2時,Rcv出現最大值(0.839),SDcv有最小值(0.055),通過以上分析,可知選用2個變量建立模型最好.此時用42個化合物MEDV與其光解半衰期(lgt1/2)相關聯,建立如下QSPR方程:
n=42,m=2,R=0.860,SD=0.052,F=55.173;CV建模:Rcv=0.839,SDcv=0.055,Fcv=46.318.
由表3同樣可得到上述結論,且當m=2時,Rcv出現最大值(0.807),SDcv有最小值(0.056),可知選用2個變量建立方程最好.用47個化合物MEDV與其光解半衰期(lgt1/2)相關聯,建立如下QSPR方程:
n=47,m=2,R=0.836,SD=0.053,F=50.876;CV建模:Rcv=0.807,SDcv=0.056,Fcv=41.038.
3.2.2 偏最小二乘回歸(PLSR)
偏最小二乘回歸(PLSR)模型目前在定量構效關系建模中較為流行.為保證變量單位空間尺度一致,首先采用自定標法對原始變量(6個描述子)標準化處理,隨后用化學計量學軟件Simca-p 10.0對所有樣本建模,并以交叉檢驗最高值(交叉檢驗Y的解釋方差)所對應的主成分數作為模型的復雜程度.對于云杉針葉表面提取出2個主成分,這2個主成分包含原始變量矩陣X 98.8%信息量,解釋Y變量方差85.7%,交叉檢驗解釋Y方差為84.9%;對于飛灰表面同樣提取出2個主成分,這2個主成分包含原始變量矩陣X 97.2%信息量,解釋Y變量方差82.9%,交叉檢驗解釋Y方差為80.7%.可見PLS計算結果與多元線性回歸結果基本吻合,說明所選模型具有良好的穩(wěn)定性和預測能力.
定量構效關系中非常重要的一個部分是對所建模型的外部預測能力和真實有效性進行驗證,其中留一法(Leave-One-Out,LOO)交叉檢驗(Cross-Validation,CV)的復相關系數QLOO是目前較為廣泛使用的一種模型驗證方法,然而Tropsha等人(2003)研究結果表明:QLOO值的大小與模型預測能力并沒有明顯相關關系,對模型預測能力的評價只能通過外部樣本集,即測試集來進行.模型外部預測能力可以用Qext(external Q)來衡量:
式(3)中,yi為測試集中樣本的實驗值;i為測試集樣本的預測值tr為訓練集樣本實驗的平均值.鑒于此,本文將全部樣本分為兩組,云杉針葉表面37個樣本作訓練集(training set),飛灰表面42個樣本作訓練集(training set),兩者均選取5個相同的樣本作為測試集(test set),且測試集選取方法相同,即在全部樣本的每種取代物中隨機選取一個樣本作為測試集,選取的測試集在表1中用“*”號標出.它們的建模結果如下:
云杉針葉表面:
n=37,m=2,R=0.826,SD=0.052,F=36.458;CV建模:Rcv=0.797,SDcv=0.056,Fcv=29.544;Qext=0.939
圖2 云杉針葉表面(a)和飛灰表面(b)實驗值-預測值模型相關Fig.2Plot of experiment vs calculated on spruce needle surface(a)and fly ash surface(b)
飛灰表面:n=42,m=2,R=0.824,SD=0.046,F=41.255;CV建模:Rcv=0.778,SDcv=0.051,Fcv=29.947;Qext=0.853
圖2a和圖2b為所選模型的實驗值-預測值相關,從中可看出分子電性距離矢量與PCDFs光解半衰期(lgt1/2)呈明顯線性相關,具體表現為所有樣本都均勻分布于過原點45°直線周圍,無明顯異常點;使用方程(4)和方程(5)對訓練集估計值及測試集樣本預測值與實驗值的誤差分布情況繪于及圖3a和圖3b.在圖3a和圖3b中絕大多數點的誤差分布在2SD之間,且無異常點出現,進一步表明所建QSPR模型具有良好的穩(wěn)定性和預測能力.
圖3 云杉針葉表面(a)和飛灰表面(b)誤差分布Fig.3Plot of ErrESTvs.n on spruce needle surface(a)and fly ash surface(b)
本研究采用分子電性距離矢量(MEDV)表征多氯代二苯并呋喃的分子結構,運用多元線性回歸(MLR)和偏最小二乘回歸(PLSR)建立了PCDFs結構與其光解半衰期(lgt1/2)的定量結構-性質關系(QSPR)模型,同時采用內部及外部雙重驗證的辦法對所建模型穩(wěn)定性能進行分析和驗證,結果表明所建模型穩(wěn)定性和預測能力均很好.表4列出了本文建立的模型與一些文獻模型的比較.
表4 本工作與文獻的比較Table 4Comparison between the present models and some literature models
與文獻(王蕾等,2007)電性拓撲態(tài)指數方法相比,用分子電性距離矢量計算所得相關系數和交互檢驗復相關系數略低于該文獻,但MEDV計算簡便,結構參數的取值完全來自分子本身的結構,且所建模型變量少,同時本文又進行了外部驗證可進一步說明所建模型穩(wěn)定;另外對于云杉針葉表面,雖然相比文獻(牛軍峰等,2005)量子化學PM3算法,本文所取樣本數少,但所建模型相關系數、標準偏差和外部驗證相關系數均高(表4).從預測結果也可看出介質不同PCDFs的光解速率也不同,一般隨著氯原子數目的增加光解速率降低,這與文獻(王蕾等,2007)所得結果一致,可見MEDV對于預測PCDFs的光解半衰期是一種快捷而有效的估測方法,同時這也為PCDFs的檢測、評價等方法的建立,提供了有效的理論依據.
An L Y,Xiang Y H,Zhang Z Y,Hu W X.2006.The new advance and applications of quantitative structure-activity relationship[J].JournalofCapitalNormalUniversity(NaturalScience Edition),27(3):52-57(in Chinese)
BarberJL,ThomasGO,KerstiensG,JonesKC.2004.Current issues and uncertainties in the measurement and modelling of air-vegetation exchange and within-plant processing of POPs[J].Environmental Pollution,128(1-2):99-138
ChenJW,QuanX,PeijnenburgWJ,YangFL.2001a.Quantitativestructure-propertyrelationships(QSPRs)ondirect photolysis quantum yields of PCDDs[J].Chemosphere,43(2):235-241
Chen J W,Quan X,Yang F L,Peijnenburg W J.2001b.Quantitative structure-property relationships on photodegradation of PCDD/Fs in cuticular waxes of laurel cherry(Prunus laurocerasus)[J].Science of the Total Environment,269(1-3):163-170
Chen J W.1999.Quantitative Structure-Property Relationships andQuantitativeStructure-ActivityRelationshipsofOrganic Pollutants[M].Dalian:Dalian University of Technology Press(in Chinese)
Dai Y M,Deng X Q,Nie C M,Yang D W,Li Y C.2006.Predicting gas chromatographic retention indices of PCDFs with novel molecular descriptors[J].Journal of Nanhua University(Science and Technology),20(4):9-15(in Chinese)
Gu C X,Jiang X,Yan D Y,Bian Y R,Yu G F.2008.Study on the relationship between dioxin structures and n-octanol-water partition coefficients using density functional theory(DFT)[J].Acta Scientiae Circumstantiae,2(1):185-191(in Chinese)
Huang J,Yu G,Zhang P Y.2002a.Predicting the lgKowof PCDFs using single-phenyl-ring Cl-substitution pattern index[J].Research of Environmental Scienees,15(2):1-5(in Chinese)
Huang J,Yu G,Zhang P Y.2002b.Predicting the logKowusing moleculardistance-edgevectorcombinedwithartificialneural network(ANN)method[J].Computers and Applied Chemistry,19(1):103-107(in Chinese)
Huang L,Li X D,Lu S Y,Chen T,Yan J H,Cen K F.2005.PCDD/Fs control technologies in the municipal solid waste incineration processes[J].Power System Engineering,21(2):5-7(in Chinese)
LinHW.2003.PredictingthelgkowofPCDFsusingthe Molecular Electrongativity-Distance Vector(MEDV)[J].Jounal of Huaihua University,22(5):48-53(in Chinese)
Liu S S,Liu Y,Li Z L,Cai S X.2000.A novel molecular electronegativity-distancevector(MEDV)[J].ActaChinica Sinica,58(11):1353-1357(in Chinese)
Niu J F,Chen J W,Henkelmann B,Quan X,Yang F L,Kettrup A,Schramm K W.2003.Photodegradation of PCDD/Fs adsorbed on spruce(Picea abies(L.)Karst.)needles under sunlight irradiation[J].Chemosphere,50(9):1217-1225
Niu J F,Yu G,Han W Y.2005.Prediction of photolysis halflivesofPCDD/Fsadsorbedonspruceneedlesoptimizedby genetic algorithm[J].Environmental Science,26(2):28-33(in Chinese)
Sun L L,Li Z L.2005.Molecular electronegativity distance vector(MEDV)asappliedtostructuralcharacterizationand properties prediction of alcohols[J].Journal of Chemical Industry and Engineering(China),56(2):203-208(in Chinese)
TongJB,ZhangSW.2007.Molecularelectronegativitydistance vector for quantitative structure-retention relationship of organophosphates[J].Journal of Molecular Science,23(4):271-274(in Chinese)
Tropsha A,Gramatica P,Gombar V K.2003.The importance of being earnest:Validation is the absolute essential for successful application and interpretation of QSPR models[J].QSAR&Combinatorial Science,22(1):69-77
WangL,LiuXH,HouJ,CuiBS.2007.Predictionof photolysis half-lives of PCDFs with the electrotopological state indices[J].Acta Chimica Sinica,65(3):184-190(in Chinese)
Wang Y Q,Xiong Q,Ye N,Li Z L.2005.Molecular structure characterization and biological activity prediction for two sets of dipeptides with molecular electronegativity-distance vector(MEDVB)[J].Computers and Applied Chemistry,22(9):759-762(in Chinese)
Zhang X C,Yang G Y,Wang Z Y,Zeng X L,Wang L S.2007.Predicting lgKowof PCDD/Fs with density functional theory(DFT)[J].Acta Scientiae Circumstantiae,27(2):257-266(in Chinese)
中文參考文獻
安麗英,相玉紅,張卓勇,胡文祥.2006.定量構效關系的研究進展及其應用[J].首都師范大學學報,27(3):52-57
陳景文.1999.有機污染物定量結構-性質關系與定量結構-活性關系[M].大連:大連理工大學出版社
戴益民,鄧小清,聶長明,楊道武,李宇春.2006.用新型分子結構參數預測多氯代二苯并呋喃的色譜保留指數[J].南華大學學報,20(4):9-15
谷成剛,蔣新,顏冬云,卞永榮,余貴芬.2008.二噁英結構與正辛醇-水分配系數相關性的密度泛函理論[J].環(huán)境科學學報,28(1):185-191
黃俊,余剛,張彭義.2002a.單苯環(huán)氯取代指數法預測二噁英類化合物PCDFs的正辛醇/水分配系數[J].環(huán)境科學研究,15(2):1-5
黃俊,余剛,張彭義.2002b.分子距邊矢量結合神經網絡預測二噁英類化合物PCDFs的logKow值[J].計算機與應用化學,19(1):103-107
黃蕾,李曉東,陸勝勇,陳彤,嚴建華,岑可法.2005.城市生活垃圾焚燒產生的二噁英的防治措施[J].電站系統(tǒng)工程,21(2):5-7
林紅衛(wèi).2003.應用分子電性距離矢量預測二噁英類化合物PCDFs的正辛醇/水分配系數[J].懷化學院學報,22(5):48-53
劉樹深,劉堰,李志良,蔡紹皙.2000.一個新的分子電性距離矢量(MEDV)[J].化學學報,58(11):1353-1357
牛軍峰,余剛,韓文亞.2005.應用遺傳算法建立云杉針葉表面PCDD/Fs光解半衰期的預測模型[J].環(huán)境科學,26(2):28-33
孫立力,李志良.2005.分子電性距離矢量(MEDV)用于醇的分子結構表達和物理性質預測[J].化工學報,56(2):203-208
仝建波,張生萬.2007.有機磷酸酯類化合物氣相色譜定量結構保留關系研究[J].分子科學學報,23(4):271-274
王蕾,劉新會,侯娟,崔保山.2007.電性拓撲態(tài)指數預測PCDFs光解半衰期[J].化學學報,65(3):184-190
王遠強,熊清,葉楠,李志良.2005.分子電性距離矢量(MEDV-B)用于二肽分子結構表征與生物功能預測[J].計算機與應用化學,22(9):759-762
張幸川,楊郭英,王遵堯,曾小蘭,王連生.2007.密度泛函方法預測二噁英類化合物(PCDD/Fs)的正辛醇/水分配系數[J].環(huán)境科學學報,27(2):257-266◆
Molecular Electronegativity Distance Vector (MEDV)Applied to Quantitative Structure-Property Relationship Study on Photolysis Half-Lives of PCDFs
LI Mei-ping1,ZHANG Sheng-wan1,*,HU Yong-gang2,WANG Zeng-qiao2
1.School of Life Science,Shanxi University,Taiyuan 030006
2.College of Chemistry and Chemical Engineering,Shanxi University,Taiyuan 030006
Polychlorinated dibenzofurans(PCDFs)was regarded as aclass of persistent organic pollutants,and the photolysis was its predominant mechanism in thereal environment.TheMolecularElectronegativityDistanceVector(MEDV)was used to describe the chemical structure of PCDFs,with the help of Multiple Linear Regression(MLR)and Partial Least Square Regression(PLSR),quantitative structure-propertyrelationship models of two parameters on photolysis half-lives(t1/2)of PCDFs on spruce needle and fly ash surfaces were developed.The estimation stability and generalization ability of the models were strictly analyzed by both internal and external validation.The correlation coefficient R of established models,leave-one-out(LOO)cross-validation(CV),Qextof MLR were 0.860,0.839,0.939(spruce needle surface);0.836,0.807,0.853(fly ash surfaces);the result of PLSR was the following:R and Rcvwere 0.857,0.849(spruce needle surface);0.829,0.807(fly ash surfaces).The results show that the MEDV may be characteristic the structure information of PCDFs and the QSPR models have great robustness and good predictive abilities.
polychlorinated dibenzofurans(PCDFs);Molecular Electronegativity Distance Vector(MEDV);Quantitative Structure-Property Relationship(QSPR);photolysis half-lives
3 June 2009accepted3 August 2009
1673-5897(2010)2-208-07
X131,O621.2
A
2009-06-03錄用日期:2009-08-03
山西省攻關項目(No.20080311082)
李美萍(1977—),女,博士研究生,講師;*通訊作者(Corresponding author),E-mail:zswam@sxu.edu.cn
張生萬(1955—),男,山西大學教授,主要從事食品化學、應用波譜學、藥物合成及化學計量學等方面的研究.