李建鳳,廖立敏
內(nèi)江師范學(xué)院化學(xué)化工學(xué)院,內(nèi)江 641100
芳烴類化合物是重要的化工原料和中間體,用途廣泛,如在涂料、油墨和粘合劑中被用作溶劑。芳烴類化合物多數(shù)有毒,空氣中若含有芳烴類化合物,短時間呼吸便可引起頭痛、嘔吐和惡心等癥狀。長時間暴露在芳烴類化合物的環(huán)境中,可能會導(dǎo)致癌癥。評價該類化合物對生物的毒性效應(yīng)具有重要意義,通常以化合物對低等生物的毒性效應(yīng)來間接推斷其對高等動物的危害。實驗測定芳烴類化合物的毒性固然可靠,但面對種類多、數(shù)量大的芳烴類化合物,僅依靠實驗是難以完成數(shù)據(jù)測定的。隨著計算機技術(shù)的應(yīng)用,利用計算機對化合物的毒性效應(yīng)進行模擬是行之有效的手段,研究者們在這方面做過較多的工作[1-2]?;衔锓肿咏Y(jié)構(gòu)參數(shù)化是模擬化合物性質(zhì)過程中的重要一環(huán),目前已有較多化合物結(jié)構(gòu)描述法,例如基于化合物分子二維平面結(jié)構(gòu)計算的二維結(jié)構(gòu)表征法[3-5]和基于化合物分子三維立體結(jié)構(gòu)計算的三維結(jié)構(gòu)表征法等[6-7]。本文在化合物二維平面結(jié)構(gòu)的基礎(chǔ)上,構(gòu)建簡易的化合物二維結(jié)構(gòu)表征法并用于部分芳烴類化合物結(jié)構(gòu)表征,進而通過偏最小二乘回歸(PLS)建立化合物結(jié)構(gòu)與其對大型蚤急性毒性(-lgEC50)關(guān)系模型,模型質(zhì)量良好,可以用于該類化合物對大型蚤急性毒性(-lgEC50)的預(yù)測,為環(huán)境中的有機污染物結(jié)構(gòu)-毒性關(guān)系研究提供有益的參考。
24個芳烴類化合物及其對大型蚤急性毒性(-lgEC50)的實驗值取自文獻[8],按照急性毒性(-lgEC50)從小到大的順序列于表1中。
表1 芳烴類化合物及急性毒性(-lgEC50)Table 1 Aromatic compounds and their acute toxicity (-lgEC50)
1.2.1 分子結(jié)構(gòu)參數(shù)化表征
將化合物分子結(jié)構(gòu)轉(zhuǎn)變?yōu)橐唤M與結(jié)構(gòu)密切相關(guān)的數(shù)據(jù)是構(gòu)建化合物結(jié)構(gòu)與性質(zhì)關(guān)系的關(guān)鍵步驟之一,認為化合物中處于骨架地位的非氫原子及非氫原子之間的關(guān)系對有機化合物的急性毒性(-lgEC50)產(chǎn)生重要影響,而氫原子的影響通??梢院雎?。在有機化合物分子之中,非氫原子電子結(jié)構(gòu)、原子在分子中的連接情況的不同都會對有機化合物的急性毒性(-lgEC50)產(chǎn)生不同的影響,因而要對化合物中的非氫原子進行分類處理。把化合物中的非氫原子參照文獻[9-12]的方法分為4類,與k個非氫原子直接相連的非氫原子規(guī)定為第k類原子,如與2個其他非氫原子相連的仲碳原子為第2類非氫原子,以此類推。不同類非氫原子對化合物的急性毒性(-lgEC50)產(chǎn)生的影響可能不同,而同種類型的非氫原子對化合物的急性毒性(-lgEC50)產(chǎn)生的影響具有加和性。另外,不同類型的非氫原子之間產(chǎn)生的不同類型的關(guān)系對化合物的急性毒性(-lgEC50)產(chǎn)生的影響可能不同,而同種類型的非氫原子之間的關(guān)系對化合物的急性毒性(-lgEC50)產(chǎn)生的影響具有加和性。首先,在參閱文獻[13]的基礎(chǔ)上將化合物中的非氫原子根據(jù)其電子結(jié)構(gòu)和成鍵情況按式(1)進行參數(shù)化染色。
(1)
式中:Z為非氫原子參數(shù)化染色值,i為原子在分子中的編碼,v表示非氫原子i的價電子數(shù),n為非氫原子i的主量子數(shù),δσ+π為原子參與成σ鍵和π鍵的總電子數(shù),δσ為原子參與成σ鍵電子數(shù)。
不同類型非氫原子對化合物的急性毒性(-lgEC50)產(chǎn)生的影響可按式(2)分類累加。
(2)
式中:x表示結(jié)構(gòu)描述符,k表示非氫原子i的原子類型,Zi按式(1)計算。根據(jù)非氫原子的分類,一個有機化合物分子中最多含有4類非氫原子,因此,最終可得到4個非氫原子自身對化合物急性毒性(-lgEC50)的影響項,用x1、x2、x3和x4表示。
非氫原子之間的關(guān)系對化合物急性毒性(-lgEC50)產(chǎn)生影響。宇宙中的各種天體,它們之間的引力關(guān)系與天體自身質(zhì)量成正比,與它們之間的距離的二次方成反比。同樣化合物中的非氫原子之間的關(guān)系不是具體的某種作用,而是要反映出非氫原子之間的關(guān)系與非氫原子自身值變化趨勢相同,與非氫原子之間的距離變化趨勢相反,式(3)可以滿足這一要求。
(3)
式中:Z按式(1)計算;rij是非氫原子i、j之間的相對距離(即鍵長之和與碳碳單鍵鍵長的比值,如果i、j之間有多條路徑,則以最短的為準);n和l為原子所屬類型?;衔锓肿又?類非氫原子可以組合出以下10種關(guān)系項:m11,m12, …,m44,簡寫為x5,x6,…,x14。m11表示第一類非氫原子之間的關(guān)系,m12表示第一類非氫原子與第二類非氫原子之間的關(guān)系,以此類推。這樣一個含有各種類型非氫原子的有機化合物根據(jù)結(jié)構(gòu)可以轉(zhuǎn)化為14個變量(結(jié)構(gòu)描述符),這些變量與其結(jié)構(gòu)密切相關(guān)。
1.2.2 建模與評價
化合物經(jīng)分子結(jié)構(gòu)表征后得到14個變量,由于所有的樣本中均不含有第4類非氫原子,因而得到的5個與第4類非氫原子相關(guān)的變量全為“0”,其余9個非全“0”變量用于建模分析。
圖1 相關(guān)系數(shù)隨主成分數(shù)的變化情況注:r2為建模的相關(guān)系數(shù),為交叉檢驗的相關(guān)系數(shù)。Fig. 1 Correlation coefficient change with the number of principal componentsNote: r2 is the correlation coefficient for modeling, and is the correlation coefficient for cross-checking.
24個樣本在PLS前2個主成分得分的空間散點分布如圖2所示,由圖2可知,所研究的全部樣本得分點都落在95%置信度的橢圓置信圈內(nèi),沒有出現(xiàn)一個異常點,反映出構(gòu)建的結(jié)構(gòu)描述符能較好地反映芳烴類化合物的分子結(jié)構(gòu)特征,并在統(tǒng)計模型中得到正確的表現(xiàn)。各樣本點的位置反映出了在第一主成分與第二主成分的得分情況,同時也反映出化合物之間的相似程度。樣本點分布距離較近,說明它們之間具有一定的相似性。
圖2 樣本在前2個主成分得分分布Fig. 2 Distribution of the top 2 principal component scores of the sample
為進一步分析研究樣本在x空間的擬合情況,將樣本在x空間的規(guī)格化模型距離進行繪圖,結(jié)果如圖3所示,由圖3可知,絕大多數(shù)樣本的規(guī)格化模型距離都處于95%的置信范圍內(nèi),小于臨界值2.196,僅有一個化合物略微超出此范圍,反映出模型的質(zhì)量良好。
圖3 X向量規(guī)格化模型距離分析Fig. 3 X vector normalized model distance analysis
圖4 Y向量隨機排序驗證結(jié)果Fig. 4 Y vector random sorting verification results
變量重要性可以反映出變量與Y之間的相關(guān)程度,通常認為變量重要性投影(VIP)值>1的變量與芳烴類化合物對大型蚤急性毒性(-lgEC50)相關(guān)性大。
變量重要性投影如圖5所示,由圖5可知,變量x12、x3、x10和x6這4個變量的VIP值>1,說明了這4個變量與芳烴類化合物對大型蚤急性毒性(-lgEC50)相關(guān)性大。排在前三的x12、x3和x10均與第3類非氫原子相關(guān),而第3類原子的多少卻由苯環(huán)上的取代基數(shù)目決定的,反映出取代基數(shù)目越多急性毒性(-lgEC50)可能越強,這與表1中的數(shù)據(jù)特征是基本吻合的。對于本研究的樣本來說,苯環(huán)上的取代基越多,該化合物的疏水性就越強,越易通過生物脂質(zhì)膜而產(chǎn)生毒性效應(yīng)。
圖5 變量重要性投影圖Fig. 5 Projection of variable importance
為進一步研究各變量對化合物急性毒性(-lgEC50)的影響,將樣本在PLS中的載荷分布繪圖,結(jié)果如圖6所示,由圖6可知,x12、x3和x10處于圖的右上方,說明它們在第一主成分和第二主成分都與Y正相關(guān),并且它們離原點距離較大,反映出其與Y相關(guān)性較大,這與上述分析結(jié)論相吻合。x2和x9處于圖的左下方,說明它們在第一主成分和第二主成分都與Y負相關(guān)。x1、x5、x6和x7處于圖的右下方,說明它們在第一主成分與Y正相關(guān),在第二主成分與Y負相關(guān)。
圖6 樣本在偏最小二乘回歸(PLS)中的載荷分布Fig. 6 Load distribution of samples in partial least squares regression (PLS)
模型對化合物的急性毒性(-lgEC50)進行了預(yù)測,結(jié)果如表1所示。為便于觀察,將模型對化合物的急性毒性(-lgEC50)預(yù)測值與實驗值相關(guān)圖繪于圖7中,相應(yīng)的誤差如圖8所示。
圖7 模型預(yù)測值與實驗值的相關(guān)圖Fig. 7 Correlation diagram between model predicted values and experimental values
圖8 模型對樣本急性毒性預(yù)測誤差注:SD表示標準偏差。Fig. 8 Model prediction error of samples’ acute toxicityNote: SD is stands for standard deviation.
由圖7可知,絕大部分樣本點都落在45°對角線附近,說明了模型對化合物的急性毒性(-lgEC50)預(yù)測值與實驗值高度相關(guān),2個數(shù)值大小接近,模型對化合物急性毒性(-lgEC50)能較為準確地預(yù)測,再次顯示出模型良好的預(yù)測能力和優(yōu)良的預(yù)測結(jié)果。
優(yōu)良的預(yù)測模型通常要求絕大部分樣本的預(yù)測誤差不得超過正負2倍標準偏差(即±2SD),由圖8可知,絕大部分樣本的誤差都處于模型的±2SD以內(nèi)。僅有2個樣本(1號和14號)的預(yù)測誤差超出±2SD。
這說明,模型對化合物的急性毒性(-lgEC50)預(yù)測較為準確,預(yù)測誤差處于可以接受的范圍,模型可以用于含苯環(huán)類化合物的急性毒性(-lgEC50)的預(yù)測。同時,大誤差樣本的1號和14號化合物為樣本中唯一的苯胺和溴苯,因而具有一定的特殊性。同時大誤差的存在說明某些特殊的化合物結(jié)構(gòu)信息沒有得到充分表達,分子結(jié)構(gòu)表征方法還有待改進。
通過將化合物中骨架非氫原子進行分類、參數(shù)化轉(zhuǎn)換以及構(gòu)建非氫原子間的關(guān)系而得到新的結(jié)構(gòu)描述符,并且將其用于24個芳烴類化合物的結(jié)構(gòu)參數(shù)化表征。通過PLS建模發(fā)現(xiàn),芳烴類化合物對大型蚤急性毒性(-lgEC50)與化合物分子結(jié)構(gòu)密切相關(guān),構(gòu)建的化合物結(jié)構(gòu)-急性毒性(-lgEC50)關(guān)系模型可以用于芳烴類化合物對大型蚤急性毒性(-lgEC50)的預(yù)測。由于個別樣本預(yù)測誤差稍大,提示分子結(jié)構(gòu)表征方法還有較大的改進空間。
◆