張 丹,晁 聰,李玉坤,炊衣琦,楊凱峰
(1. 中原工學(xué)院 能源與環(huán)境學(xué)院,河南 鄭州 450007;2. 河南省食品安全檢測(cè)工程技術(shù)研究中心,河南 鄭州 450000)
隨著經(jīng)濟(jì)的快速發(fā)展,越來(lái)越多的有機(jī)物被合成、使用,并排放到水體、大氣、土壤、沉積物等環(huán)境介質(zhì)中,進(jìn)入人類賴以生存的生態(tài)系統(tǒng)。多數(shù)有機(jī)污染物具有毒性高、易生物富集等特點(diǎn),能直接或間接紊亂內(nèi)分泌系統(tǒng)、干擾免疫系統(tǒng)平衡,對(duì)人體健康和生態(tài)環(huán)境構(gòu)成威脅[1]。因此,對(duì)有機(jī)污染物降解過(guò)程的研究已引起廣泛關(guān)注。然而,由于有機(jī)污染物種類繁多,要逐一、全面地對(duì)其進(jìn)行降解實(shí)驗(yàn)并不現(xiàn)實(shí)。因此,基于已有的有機(jī)污染物降解過(guò)程的研究,建立多種有機(jī)污染物分子結(jié)構(gòu)與環(huán)境轉(zhuǎn)化性質(zhì)之間的定量構(gòu)效關(guān)系(quantitative structure-activity relationship,QSAR)十分必要[2-3],不僅可以節(jié)省實(shí)驗(yàn)所需的人力、物力資源,還能依據(jù)建立的模型對(duì)未知化合物的反應(yīng)活性、轉(zhuǎn)化機(jī)制進(jìn)行模擬預(yù)測(cè)。近年來(lái),越來(lái)越多的研究者將QSAR應(yīng)用于苯系物[4]、多環(huán)芳烴[5]、有機(jī)磷酸酯[6]、染料[7]等有機(jī)污染物的自由基氧化、微生物降解、超臨界水氧化、光降解等過(guò)程的研究。
本文介紹了QSAR的原理及建模方法,對(duì)QSAR應(yīng)用于水中有機(jī)污染物不同降解過(guò)程中反應(yīng)活性模擬預(yù)測(cè)及機(jī)理解釋的研究進(jìn)行了綜述,并對(duì)該領(lǐng)域的發(fā)展趨勢(shì)進(jìn)行了展望,以期為相關(guān)研究提供參考。
QSAR基于化合物分子結(jié)構(gòu)與理化性質(zhì)、環(huán)境遷移轉(zhuǎn)化行為及生態(tài)毒理學(xué)效應(yīng)之間的內(nèi)在聯(lián)系,以同系物或多種有機(jī)物的結(jié)構(gòu)參數(shù)或理化參數(shù)為自變量,反應(yīng)活性、毒理效應(yīng)等為擬預(yù)測(cè)變量即因變量,利用數(shù)理統(tǒng)計(jì)方法建立自變量與因變量之間的定量關(guān)系[8]。QSAR模型既可預(yù)測(cè)未知化合物的目標(biāo)性質(zhì),又能解釋分子結(jié)構(gòu)變化導(dǎo)致的性質(zhì)變化,推測(cè)可能的作用機(jī)理,還可指導(dǎo)化合物的改性[9]。
QSAR首先由HANSCH等[10-11]在20世紀(jì)60年代確立,隨著計(jì)算機(jī)技術(shù)、人工智能及機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,研究化合物分子結(jié)構(gòu)與其反應(yīng)活性/毒理效應(yīng)之間定量關(guān)系的手段得到了豐富[12]。目前二維QSAR主要有Hansch法、基團(tuán)貢獻(xiàn)法、分子連接性指數(shù)法等;近年來(lái)三維結(jié)構(gòu)信息的引入開(kāi)啟了三維QSAR,主要有分子形狀分析、距離幾何法、比較分子相似因子分析等[13]。在三維基礎(chǔ)上考慮分子多構(gòu)象計(jì)算的四維QSAR,進(jìn)而考慮受體對(duì)配體誘導(dǎo)契合的五維QSAR,以及考慮受體、配體相互作用時(shí)溶劑化作用的六維QSAR,使人們對(duì)QSAR理論及技術(shù)有了更深入的認(rèn)識(shí)[14]。雖然三維以上的方法考慮因素更多、更接近真實(shí)體系,但目前尚處于方法研究階段,應(yīng)用較少。
QSAR模型的建立流程如圖1所示,收集的數(shù)據(jù)分為擬預(yù)測(cè)變量數(shù)據(jù)和分子結(jié)構(gòu)描述符數(shù)據(jù),應(yīng)確保數(shù)據(jù)盡可能完整可靠,這是模型有效的前提。數(shù)據(jù)的來(lái)源通常有3種方式:1)實(shí)驗(yàn);2)文獻(xiàn),如學(xué)術(shù)期刊、報(bào)告、網(wǎng)站等;3)在線或離線的計(jì)算機(jī)程序、數(shù)據(jù)庫(kù)。分子結(jié)構(gòu)描述符是化合物理化性質(zhì)的量化表征,一種有機(jī)物包含大量的分子結(jié)構(gòu)描述符,如組分描述符、量子描述符、幾何參數(shù)、電子參數(shù)等,但并不是所有的描述符在QSAR建模中都有用,很多描述符表現(xiàn)出與擬預(yù)測(cè)變量較差的相關(guān)性或與其他描述符的共線性,因此,進(jìn)行分子結(jié)構(gòu)描述符的篩選十分必要,這有助于降低處理過(guò)多描述符的復(fù)雜性、降低過(guò)度訓(xùn)練的風(fēng)險(xiǎn)[15]。建立化合物結(jié)構(gòu)與反應(yīng)活性/毒理效應(yīng)關(guān)系模型的方法一般分為線性、非線性兩類,線性方法通常有回歸分析(多元線性回歸(multiple linear regression,MLR)、主成分回歸(principal component regression,PCR)等)、聚類分析、因子分析、模式識(shí)別等多元統(tǒng)計(jì)分析方法,非線性方法主要有支持向量機(jī)(support vector machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、遺傳算法等[16]。最后,對(duì)建立的模型進(jìn)行驗(yàn)證與評(píng)價(jià),多采用內(nèi)部驗(yàn)證評(píng)價(jià)模型的穩(wěn)健性和擬合度,采用外部驗(yàn)證評(píng)價(jià)模型的預(yù)測(cè)能力。
圖1 QSAR模型的建立流程
在完成數(shù)據(jù)收集、分子結(jié)構(gòu)描述符的篩選后,需要建立分子結(jié)構(gòu)描述符(自變量)與擬預(yù)測(cè)變量(因變量)之間的定量關(guān)系模型,此時(shí)建模方法的合理選擇對(duì)于構(gòu)建模型的有效性非常重要。下面將針對(duì)常用的QSAR建模方法進(jìn)行簡(jiǎn)要闡述。
作為經(jīng)典建模方法,MLR法被認(rèn)為是所有回歸方法中最具透明度的算法。MLR法基于多個(gè)獨(dú)立自變量,建立與因變量的線性回歸關(guān)系模型,進(jìn)而預(yù)測(cè)因變量的大小。一般要求自變量之間不存在明顯的自相關(guān)性,即多重共線性不顯著。MLR方程中獨(dú)立自變量與因變量的廣義數(shù)學(xué)表達(dá)式如式(1)所示。
式中:y為因變量,即定量構(gòu)效關(guān)系模型的擬預(yù)測(cè)變量;b0為常數(shù)項(xiàng);b1,b2,…,bn為各獨(dú)立自變量的回歸系數(shù);x1,x2,…,xn為獨(dú)立自變量,即使用的分子結(jié)構(gòu)描述符。
MLR法除了可得到自變量與因變量的關(guān)系,還可獲得自變量對(duì)因變量的影響程度信息,具有結(jié)構(gòu)簡(jiǎn)單、計(jì)算速度快等優(yōu)點(diǎn)。ZHANG等[7]通過(guò)逐步MLR法建立的QSAR模型研究了偶氮染料分子結(jié)構(gòu)與光降解活性之間的關(guān)系,結(jié)果表明:pH為9.0時(shí)的QSAR模型可對(duì)偶氮染料在紫外光照射下的光穩(wěn)定性做出較為準(zhǔn)確的預(yù)測(cè);柔軟度、碳原子上最正及最負(fù)部分的電荷是關(guān)鍵的描述符。MLR法在實(shí)際應(yīng)用中應(yīng)注意:1)自變量之間應(yīng)相互獨(dú)立,可通過(guò)方差膨脹因子診斷多重共線性;2)為了避免線性回歸過(guò)擬合,使用的自變量數(shù)量不宜超過(guò)樣本總數(shù)的1/5[16]。
PCR法首先將自變量集通過(guò)數(shù)據(jù)降維處理,排除重疊的部分,轉(zhuǎn)換為少數(shù)線性無(wú)關(guān)的新變量,即主成分,同時(shí)盡可能保留自變量的數(shù)據(jù)結(jié)構(gòu)特征;然后將主成分按貢獻(xiàn)率排序,進(jìn)行MLR。當(dāng)自變量集維度太高時(shí),降維提取貢獻(xiàn)率大的主成分能降低建模復(fù)雜性,可較好地解決多重共線性問(wèn)題。
與PCR法類似,因子分析通過(guò)研究自變量集的相關(guān)關(guān)系矩陣內(nèi)部結(jié)構(gòu),尋找起支配作用的主因子[17],用于確定顯著影響化合物反應(yīng)活性的結(jié)構(gòu)因素。模式識(shí)別將結(jié)構(gòu)參數(shù)作為數(shù)量化的模式向量,使結(jié)構(gòu)與活性聯(lián)系起來(lái)[18],在QSAR研究中對(duì)于合理選擇降解活性化合物具有指導(dǎo)作用。此外,偏最小二乘(partial least squares,PLS)法同樣基于成分提取,除了考慮自變量數(shù)據(jù)集外,還兼顧因變量數(shù)據(jù)集,是一種多因變量對(duì)多自變量的建模方法[16]。PLS法兼顧MLR法和PCR法的優(yōu)點(diǎn),適用于分子結(jié)構(gòu)描述符之間存在多重共線性或變量個(gè)數(shù)大于樣本容量的情況。
1.2.2 SVM法
不同于傳統(tǒng)統(tǒng)計(jì)學(xué)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,SVM法是一類基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的機(jī)器學(xué)習(xí)算法。SVM法結(jié)合最大化分類間隔思想和基于核函數(shù)的方法,致力于將非線性可分的數(shù)據(jù)通過(guò)核函數(shù)映射到高維特征空間,轉(zhuǎn)化成可線性分割的關(guān)系。建模過(guò)程中,通過(guò)對(duì)比不同核函數(shù),如線性核函數(shù)、徑向基核函數(shù)、多項(xiàng)式核函數(shù)等的性能,選擇合適的核函數(shù),建立全局最優(yōu)模型。徐鏡善等[19]采用SVM法對(duì)酚類化合物進(jìn)行QSAR研究,根據(jù)均方根誤差最小原則,確定徑向基核函數(shù)為最優(yōu)核函數(shù),所建立模型的預(yù)測(cè)精度(0.934)優(yōu)于MLR法(0.895)及PLS法(0.894),表現(xiàn)了較好的預(yù)測(cè)能力、泛化能力。SVM法具有魯棒性、精度高、自適應(yīng)能力強(qiáng)等特點(diǎn),在解決樣本容量小、非線性、高維等問(wèn)題方面具有獨(dú)特優(yōu)勢(shì)。
葛根是蘇伯維爾的君藥,而葛根素則是葛根的有效成分,研究表明其具有解熱〔4〕,鎮(zhèn)痛〔5〕,抗菌、抗感染〔6〕,降血壓〔7〕,降血糖、血脂〔8〕,抗氧化,抗腫瘤,解酒〔9〕等作用,與蘇伯維爾的功能主治一致,所以本實(shí)驗(yàn)選擇葛根素作為蘇伯維爾水提工藝的含量測(cè)定指標(biāo)。為考察提取情況,首先對(duì)葛根素含量進(jìn)行考察,其次對(duì)浸膏得率進(jìn)行考察,試驗(yàn)分析得出:葛根素含量比浸膏得率更好地反映藥材的提取情況,故設(shè)計(jì)葛根素含量與浸膏得率的權(quán)重系數(shù)為8:2。為確保水提工藝的合理性,本實(shí)驗(yàn)進(jìn)行了驗(yàn)證試驗(yàn),結(jié)果表明,正交試驗(yàn)優(yōu)選出的水提工藝合理可行。
1.2.3 ANN法
作為一種模擬人腦功能及神經(jīng)網(wǎng)絡(luò)工作的機(jī)器學(xué)習(xí)方法,ANN法以數(shù)學(xué)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)為理論基礎(chǔ),包括3層:輸入層、輸出層和位于它們之間的隱含層,其中隱含層數(shù)量至少為兩個(gè)的神經(jīng)網(wǎng)絡(luò)稱為深度神經(jīng)網(wǎng)絡(luò)。在前向傳遞中,變量由輸入層輸入,經(jīng)過(guò)隱含層處理轉(zhuǎn)換后,在輸出層得到結(jié)果。如果輸出層的輸出結(jié)果達(dá)不到期望,通常會(huì)轉(zhuǎn)入反向傳播算法,對(duì)神經(jīng)元的權(quán)值、偏差進(jìn)行調(diào)整更新,從而使建立的模型能更好地描述自變量與因變量的關(guān)系[20]。楊靜等[21]采用遺傳算法結(jié)合ANN法構(gòu)建了27種性質(zhì)參數(shù)與23種酚類化合物臭氧氧化速率的QSAR模型,模型表明,酚類化合物電子云分布、苯環(huán)取代基性質(zhì)、水溶液中溶劑化作用均會(huì)顯著影響臭氧氧化速率;模型的預(yù)測(cè)值與實(shí)測(cè)值相關(guān)性顯著(R2=0.95),預(yù)測(cè)能力較強(qiáng),與PLS算法建立的模型相比,ANN模型穩(wěn)健性更好。ANN法具有非線性、自適應(yīng)學(xué)習(xí)能力強(qiáng)等優(yōu)點(diǎn),在解決非線性問(wèn)題方面具有優(yōu)勢(shì)。
為研究有機(jī)污染物的環(huán)境歸趨、降解轉(zhuǎn)化,需要獲得反應(yīng)動(dòng)力學(xué)參數(shù),如降解速率、半衰期等。由于有機(jī)污染物種類繁多,逐一進(jìn)行實(shí)驗(yàn)測(cè)定耗費(fèi)大量人力、物力資源,難以適應(yīng)環(huán)境評(píng)價(jià)的需要,建立有機(jī)污染物降解過(guò)程反應(yīng)活性的QSAR模型具有重要意義。
2.1.1 光降解動(dòng)力學(xué)的模擬預(yù)測(cè)
有機(jī)污染物的光降解分為直接光解和間接光解,是環(huán)境降解轉(zhuǎn)化的重要途徑[22-23]。作為光降解反應(yīng)動(dòng)力學(xué)的重要參數(shù),光解速率是評(píng)估有機(jī)污染物光解過(guò)程、在環(huán)境中持久性的一項(xiàng)重要指標(biāo)。研究表明,通過(guò)構(gòu)建QSAR模型,可實(shí)現(xiàn)對(duì)偶氮染料、多環(huán)芳烴、溴化物等有機(jī)污染物光解速率的模擬預(yù)測(cè),詳見(jiàn)表1。
表1 有機(jī)污染物光降解反應(yīng)速率的QSAR預(yù)測(cè)模型
ZHANG等[27]研究鹵代消毒副產(chǎn)物的紫外光直接光解過(guò)程時(shí)發(fā)現(xiàn),鹵代基數(shù)目越多,光解速率越大;光解速率還受鹵代基類型的影響,碘代>溴代>氯代。采用MLR方法構(gòu)建的光解速率參數(shù)(logk)與分子結(jié)構(gòu)描述符的QSAR模型表明,最高占據(jù)分子軌道與最低未占據(jù)分子軌道之間的能隙(ELUMOEHOMO)、復(fù)合擴(kuò)展拓?fù)浠瘜W(xué)原子指數(shù)描述符與logk呈現(xiàn)較高的相關(guān)性,Williams圖驗(yàn)證該模型具有較好的魯棒性和可靠性。
CHEN等[28]研究了多氯聯(lián)苯硫醚的直接光解反應(yīng),發(fā)現(xiàn)光解過(guò)程遵循準(zhǔn)一級(jí)反應(yīng)動(dòng)力學(xué)方程,高氯化聯(lián)苯硫醚的降解速率通常比低氯的同類化合物快;構(gòu)建的光解速率QSAR模型表明,氯原子的取代模式、偶極矩和ELUMO-EHOMO是主要的描述符。王文清等[29]基于反向傳播算法的ANN,以反應(yīng)物濃度、H2O2投加量、光強(qiáng)度、pH、反應(yīng)時(shí)間5個(gè)因素作為輸入層,以反應(yīng)物剩余率的對(duì)數(shù)作為輸出層,利用94組數(shù)據(jù)構(gòu)建了UV-H2O2光降解微囊藻毒素過(guò)程的QSAR模型,模型可對(duì)多因素條件下的光解速率進(jìn)行仿真預(yù)測(cè)。
2.1.2 高級(jí)氧化過(guò)程反應(yīng)動(dòng)力學(xué)的模擬預(yù)測(cè)
高級(jí)氧化過(guò)程是指通過(guò)活化化學(xué)氧化劑產(chǎn)生的高活性物種(如羥基自由基·OH、硫酸根自由基SO4-·等),與有機(jī)污染物發(fā)生反應(yīng),將有機(jī)污染物氧化成小分子物質(zhì),甚至降解為H2O、CO2的過(guò)程[30]。高級(jí)氧化過(guò)程具有條件溫和、高效、環(huán)境友好等優(yōu)點(diǎn),在環(huán)境有機(jī)污染物去除、原位化學(xué)修復(fù)領(lǐng)域的應(yīng)用前景廣闊[31]。高級(jí)氧化過(guò)程產(chǎn)生的·OH、SO4-·與有機(jī)污染物發(fā)生降解反應(yīng)的速率常數(shù)(k)是表征污染物與活性物種反應(yīng)強(qiáng)度、能力的重要參數(shù),除了實(shí)驗(yàn)獲取外,QSAR模型也是預(yù)測(cè)k的一種重要手段[22,32]。目前文獻(xiàn)已構(gòu)建的一些代表性QSAR模型如表2所示。
表2 ·OH、SO4-·與有機(jī)污染物反應(yīng)速率常數(shù)的QSAR預(yù)測(cè)模型
LUO等[33]收集有機(jī)物分子與·OH的反應(yīng)速率常數(shù)(k·OH),采用MLR方法構(gòu)建了具有良好預(yù)測(cè)能力的QSAR模型,并發(fā)現(xiàn)最高占據(jù)分子軌道能(EHOMO)對(duì)模型的貢獻(xiàn)最大,是影響k·OH的最主要因素,EHOMO作為衡量分子給電子能力的參數(shù),其值越大越容易被親電試劑·OH攻擊發(fā)生降解反應(yīng)。此外,考慮到許多有機(jī)物含有可電離基團(tuán),可以分解為不同種類的陰離子/陽(yáng)離子,對(duì)·OH具有不同的反應(yīng)活性,LUO等[34]研究了9種氟喹諾酮(fluoroquinolones,F(xiàn)Qs)和11種磺胺類(sulfonamides,SAs)抗生素在3種解離形式(FQ±(兩性離子)/FQ+/FQ-,SA0(中性)/SA+/SA-)下與·OH的反應(yīng)速率常數(shù)(k·OH)的QSAR模型,發(fā)現(xiàn)CH2RX(X為電負(fù)性原子,如O、N、S、P、鹵素)片段數(shù)、C原子上最大正原子凈電荷和分子偶極矩是影響反應(yīng)活性的主要因素,其中CH2RX片段數(shù)、分子偶極矩的增加會(huì)導(dǎo)致logk·OH值增大,而C原子上最大正原子凈電荷的增加則導(dǎo)致logk·OH值的減小。模型預(yù)測(cè)了環(huán)境相關(guān)pH條件下不同解離形式FQs、SAs的k·OH,對(duì)可電離有機(jī)污染物的環(huán)境評(píng)估具有重要意義。
另外,YE等[41]在構(gòu)建SO4-·氧化有機(jī)污染物過(guò)程的反應(yīng)速率常數(shù)預(yù)測(cè)模型時(shí)發(fā)現(xiàn),多元MLR建立的模型對(duì)訓(xùn)練集化合物的擬合精度為0.88,對(duì)驗(yàn)證集化合物的預(yù)測(cè)正確率為62%;ANN法建立模型的擬合精度更好(0.99),但對(duì)驗(yàn)證集化合物的預(yù)測(cè)正確率較低(42%),這表明不同的建模方法影響模型的擬合精度和預(yù)測(cè)能力。CHENG等[42]研究了30種有機(jī)物在不同氧化體系(O2、H2O2、O3和·OH)中的降解過(guò)程,建立了有機(jī)物氧化還原電位(oxidation-reduction potentials,ORP)的QSAR模型,隨后基于反應(yīng)速率常數(shù)(k)、氧化劑與有機(jī)物的ORP差值之間的線性關(guān)系,提出斜率、截距兩個(gè)新的預(yù)測(cè)因子用于預(yù)測(cè)有機(jī)物的k值和最小氧化電位,建立了斜率、截距、ORP值的QSAR模型,這表明斜率、截距及相關(guān)量子化學(xué)參數(shù)可用于預(yù)測(cè)反應(yīng)活性,為氧化劑的選擇提供了新思路。
2.1.3 生物降解性的模擬預(yù)測(cè)
生物降解是指微生物通過(guò)氧化、還原、水解等作用使有機(jī)物分子發(fā)生礦化,轉(zhuǎn)化成小分子的過(guò)程,通常被認(rèn)為是有機(jī)污染物在環(huán)境中的一類重要降解轉(zhuǎn)化過(guò)程[43]。開(kāi)展有機(jī)污染物生物降解性的研究,有助于評(píng)估其在水體、土壤等環(huán)境介質(zhì)中的潛在降解能力[44]。目前獲取生物降解性數(shù)據(jù)的主要途徑是實(shí)驗(yàn)測(cè)定,但難以通過(guò)實(shí)驗(yàn)測(cè)定所有有機(jī)物的生物降解性,且實(shí)驗(yàn)需要經(jīng)過(guò)微生物菌株培養(yǎng)、篩選等過(guò)程。因此,開(kāi)展生物降解性的QSAR研究十分必要,可通過(guò)QSAR模型探尋生物降解性的影響因素,預(yù)測(cè)其他有機(jī)污染物的生物降解性。
ACHARYA等[45]根據(jù)分子結(jié)構(gòu)描述符將103種有機(jī)物分為3組(第1組,單環(huán)芳香類化合物,69種;第2組,多環(huán)芳香類化合物,34種;第3組,所有芳香類化合物,103種),采用MLR方法進(jìn)行QSAR建模。發(fā)現(xiàn)與第1組數(shù)據(jù)集QSAR模型相關(guān)的描述符是與疏水性、電子性、立體性、尺寸有關(guān)的化學(xué)性質(zhì),而第2、3組數(shù)據(jù)集的QSAR模型與相對(duì)抽象的描述符相關(guān),如分子幾何、立體化學(xué)、構(gòu)象指數(shù)、2D指紋等,因此單環(huán)芳香類化合物的QSAR模型比其他兩組的更容易解釋化合物分子結(jié)構(gòu)對(duì)生物降解性的影響。CHEN等[46]以825種有機(jī)物為大樣本,采用C4.5決策樹(shù)、函數(shù)內(nèi)回歸樹(shù)和邏輯回歸方法分別建立生物降解性的預(yù)測(cè)模型,發(fā)現(xiàn)函數(shù)內(nèi)回歸樹(shù)模型在訓(xùn)練集和驗(yàn)證集上的預(yù)測(cè)準(zhǔn)確率分別為81.5%和81.0%,穩(wěn)健性最好;C4.5決策樹(shù)和邏輯回歸模型形式相對(duì)簡(jiǎn)單,容易理解預(yù)測(cè)規(guī)則。此外,唐晨等[47]基于587種有機(jī)物的數(shù)據(jù),分別利用MLR法、SVM法建立QSAR模型,根據(jù)有機(jī)物各碎片基團(tuán)與生物降解性的相關(guān)系數(shù),發(fā)現(xiàn)芳香酸、醛、脂肪酸、脂肪醇等對(duì)生物降解性有明顯的促進(jìn)作用,而芳香碘、叔胺、芳香硝基、氨基甲酸酯等對(duì)生物降解性的消極影響較大。SVM模型的總體預(yù)測(cè)率(87.9%)和驗(yàn)證集正確率(86%)均高于MLR模型(81.4%和82%),具有較好的預(yù)測(cè)能力。
QSAR模型不僅在好氧生物降解性的模擬預(yù)測(cè)領(lǐng)域得到了成功應(yīng)用,在厭氧生物降解過(guò)程也同樣適用。馬益等[48]基于155種有機(jī)物的“血清瓶”厭氧生物降解篩選實(shí)驗(yàn)數(shù)據(jù),分別采用MLR法、反向傳播人工神經(jīng)網(wǎng)絡(luò)(BP-ANN)法構(gòu)建QSAR模型,發(fā)現(xiàn)積極影響厭氧生物降解性的碎片基團(tuán)有16種,其中磷酸酯、溴代脂肪烴、吡啶環(huán)等貢獻(xiàn)值較大;起到消極影響的碎片基團(tuán)有20種,叔胺、酰胺、甲基芳香烴等貢獻(xiàn)較大。模型評(píng)價(jià)結(jié)果表明,BP-ANN方法預(yù)測(cè)精度優(yōu)于MLR方法。
此外,QSAR在多環(huán)芳烴[5]、鄰苯二甲酸酯[49]、苯酚[50]、芳香類化合物[51-53]等有機(jī)污染物生物降解性預(yù)測(cè)的應(yīng)用均表明,QSAR模型可為有機(jī)污染物活性參數(shù)研究提供參考,有助于幫助合理預(yù)測(cè)結(jié)構(gòu)相似的未知有機(jī)污染物的環(huán)境轉(zhuǎn)化行為。
QSAR除了模擬預(yù)測(cè)不同降解過(guò)程的反應(yīng)活性外,所反映出的分子結(jié)構(gòu)描述符信息還有助于闡釋反應(yīng)機(jī)理[54],為有機(jī)污染物的去除提供理論指導(dǎo)。LUO等[4]構(gòu)建了·OH、SO4-·與76種芳香類有機(jī)污染物反應(yīng)活性的QSAR模型,發(fā)現(xiàn)EHOMO是對(duì)反應(yīng)活性影響程度最大的描述符。EHOMO越高的分子越容易受到強(qiáng)親電體的攻擊,有助于電子的轉(zhuǎn)移過(guò)程;與·OH相比,高EHOMO分子更易與SO4-·發(fā)生反應(yīng)。最高占據(jù)分子軌道分布依賴于官能團(tuán)類型,因此參考最高占據(jù)分子軌道分布可以區(qū)分不同官能團(tuán)有機(jī)物分子反應(yīng)的傾向性差異,QSAR模型反映出的EHOMO描述符可作為衡量自由基氧化反應(yīng)單電子轉(zhuǎn)移路徑的定量指標(biāo)。
LI等[55]分別以脂肪族、芳香化合物為數(shù)據(jù)集,采用MLR方法建立了水合電子反應(yīng)速率常數(shù)的QSAR模型,發(fā)現(xiàn)均包含最低未占據(jù)分子軌道能(ELUMO)、單電子還原電位(ERED)、極化率(α)3個(gè)描述符。與經(jīng)常出現(xiàn)在氧化反應(yīng)(如·OH反應(yīng))速率預(yù)測(cè)QSAR模型中的描述符EHOMO相比,ELUMO是還原反應(yīng)重要的預(yù)測(cè)變量,代表分子對(duì)親核體(如水合電子)攻擊的敏感性,對(duì)脂肪族和芳香化合物水合電子反應(yīng)速率常數(shù)的方差解釋率分別為60.1%和56.4%,低ELUMO分子更傾向于從其他來(lái)源獲得電子,并被還原。ERED描述了化合物的還原活性,α則與整體反應(yīng)活性有關(guān),α越高,電子分布越靈活,對(duì)親核體或親電體的反應(yīng)性越強(qiáng)。CVETNIC等[56]對(duì)17種新興污染物光氧化降解過(guò)程(UV-C/H2O2、UV-C/S2O82-)的系統(tǒng)行為進(jìn)行研究,采用遺傳算法結(jié)合MLR建立了QSAR模型,模型表明與新興污染物副產(chǎn)物降解動(dòng)力學(xué)的經(jīng)驗(yàn)參數(shù)u和s相關(guān)的描述符可較好地解釋降解機(jī)理,即降解過(guò)程為·OH、SO4-·氫取代路徑和電子轉(zhuǎn)移路徑;另外兩個(gè)描述慢、快礦化副產(chǎn)物比值的經(jīng)驗(yàn)參數(shù)w和q依賴于新興污染物母體的結(jié)構(gòu)特征,如緊湊/線性結(jié)構(gòu)、分子對(duì)稱性等,可用描述符和與分子大小、形狀相關(guān)的權(quán)重因子來(lái)解釋。QSAR模型在將反應(yīng)動(dòng)力學(xué)、降解機(jī)制與簡(jiǎn)化的反應(yīng)路徑相關(guān)聯(lián)方面提供了較高的準(zhǔn)確性。
QSAR將有機(jī)污染物分子結(jié)構(gòu)與降解活性、機(jī)理解釋聯(lián)系起來(lái),適合處理大量數(shù)據(jù)。QSAR模型能夠識(shí)別現(xiàn)有數(shù)據(jù)的趨勢(shì),模擬預(yù)測(cè)未經(jīng)測(cè)試化合物的反應(yīng)活性,為研究環(huán)境中種類繁多的有機(jī)污染物的降解過(guò)程、環(huán)境歸趨提供了一種可行的解決方案,但在實(shí)際應(yīng)用中仍需不斷探索。未來(lái)可對(duì)以下主要問(wèn)題進(jìn)行深入研究。
a)降解活性數(shù)據(jù)受實(shí)驗(yàn)條件、方法的影響,不同來(lái)源的數(shù)據(jù)可比性有限,直接用于構(gòu)建QSAR模型會(huì)影響模型的準(zhǔn)確性,需建立有機(jī)污染物降解活性數(shù)據(jù)篩選流程,確定統(tǒng)一、標(biāo)準(zhǔn)的篩選方法。
b)對(duì)于新興污染物降解過(guò)程研究,應(yīng)補(bǔ)充、擴(kuò)展QSAR模型降解活性數(shù)據(jù)集數(shù)據(jù)。
c)如何將QSAR模型應(yīng)用于實(shí)際環(huán)境介質(zhì),如水體、土壤、大氣等,還有待解決。QSAR模型直接外推到其他條件并不科學(xué),需建立可定量有機(jī)物分子中不同官能團(tuán)誘導(dǎo)效應(yīng)、共振效應(yīng)、立體效應(yīng)的相互作用因子,在QSAR模型中考慮復(fù)雜環(huán)境介質(zhì)中共存的有機(jī)污染物或介質(zhì)成分(如溶解性有機(jī)物、陰陽(yáng)離子、酸堿度等)對(duì)目標(biāo)污染物反應(yīng)活性的影響。