国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

除草劑對羊頭鰷魚急性毒性的QSTR研究

2024-01-01 00:00:00魏寵芝劉洋孫婷任月英
關(guān)鍵詞:隨機森林多元線性回歸除草劑

收稿日期:2023-12-12

作者簡介:魏寵芝(1999-),女,甘肅蘭州人,在讀碩士,研究方向為定量構(gòu)效關(guān)系在環(huán)境中的應(yīng)用.E-mail:377310610@qq.com

*通信簡介:任月英(1976-),女,甘肅蘭州人,副教授,博士,研究方向為環(huán)境污染物的構(gòu)效關(guān)系、機器學(xué)習(xí)、深度學(xué)習(xí)等.E-mail:renyueying@mail.lzjtu.cn.

文章編號:2095-6991(2024)04-0081-08

摘要:除草劑會對人類和環(huán)境中的非目標生物產(chǎn)生急性或慢性影響,因此對除草劑的使用越來越受到監(jiān)管機構(gòu)的關(guān)注.使用多元線性回歸(MLR)和3種非線性算法(SVM、PPR以及RF)建立定量結(jié)構(gòu)-毒性關(guān)系(QSTR)模型,預(yù)測除草劑對于羊頭鰷魚(sheepshead minnow)的急性毒性.結(jié)果表明,隨機森林(RF)模型在所有模型中表現(xiàn)最優(yōu)異,測試集有較高的R2值(0.901),且RMSE值(0.360)和MAE值(0.199)較低.此外,機理分析表明除草劑對羊頭鰷魚的急性毒性主要與分子的親脂性、極性和電荷分布等特征有關(guān).

關(guān)鍵詞:QSTR;除草劑;多元線性回歸;隨機森林

中圖分類號:X-131""" 文獻標志碼:A

QSTR Study for Acute Toxicity of Herbicides to Sheephead Minnows

WEI Chong-zhi, LIU Yang, SUN Ting, REN Yue-ying*

(School of Environmental and Municipal Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China)

Abstract:The use of herbicides, which can cause acute or chronic effects on non-target organisms in humans and the environment, is receiving increasing attention from regulatory agencies. In this study, quantitative structure-toxicity relationship (QSTR) models are established using multiple linear regression (MLR) and three nonlinear algorithms (SVM, PPR and RF) to predict the acute toxicity of herbicides to Sheepshead minnow. The results show that RF model gives a higher R2 value of 0.901, lower RMSE value of 0.360 and MAE value of 0.199, respectively. In addition, mechanistic analysis shows that the acute toxicity of herbicides to Sheepshead minnow is mainly affected by molecular lipophilicity, polarity and charge distribution characteristics of the molecules.

Key words:QSTR; herbicide; multiple linear regression; random forest

0" 引言

農(nóng)藥在全球糧食生產(chǎn)中發(fā)揮著至關(guān)重要的作用.同時,它們對人類和環(huán)境中的非目標物種都有急性或慢性影響.其中除草劑是保證種植環(huán)節(jié)量產(chǎn)和作物健康生長的重要工具[1].然而,大多數(shù)除草劑暴露在環(huán)境中并不斷沉積在水中[2],對水生生態(tài)系統(tǒng)的安全造成嚴重影響.一些除草劑由于對非目標水生動物具有毒性而受到限制,甚至被完全禁止[3].

有機化合物毒性效應(yīng)的評估已成為污染控制的一個關(guān)鍵組成部分.對其進行風險評價,既有助于理解化合物生態(tài)危害,又能為環(huán)境評價與治理提供科學(xué)依據(jù).毒性測試實驗通常非常耗時、耗力且成本昂貴,而計算機輔助的毒性定量構(gòu)效關(guān)系(quantitative structure-toxicity relationship,QSTR)模型在一定程度上能克服以上缺點,在近年來獲得了廣泛的關(guān)注,且不同的化學(xué)信息學(xué)方法和機器學(xué)習(xí)技術(shù)已經(jīng)成功用于多種化合物對不同生物毒性和生理毒性的預(yù)測[4-7].QSTR是在已有知識的基礎(chǔ)上結(jié)合數(shù)學(xué)手段或者計算機技術(shù),來預(yù)測化合物生物毒性的重要計量工具,其目的是將化學(xué)品的分子結(jié)構(gòu)與實驗可測量的毒性關(guān)聯(lián)起來[8-10].結(jié)構(gòu)類似的化學(xué)物質(zhì)對生物產(chǎn)生類似的毒性影響是QSTR方法最關(guān)鍵的原則.QSTR分析有助于理解化合物的毒性機理途徑,并在評價環(huán)境污染物的生物活性和生物毒性中發(fā)揮重要作用.

羊頭鰷魚(sheepshead minnow)是早期生命毒性研究中常用的河口/海洋魚類.由于其易于處理,對各種有毒物質(zhì)的敏感性已知,因此非常適合此類研究,且是美國國家環(huán)境保護局(Environmental Protection Agency,EPA)的推薦物種[11].目前YANG L等[12]建立了除草劑對羊頭鰷魚急性毒性(半數(shù)致死濃度,LC50)的QSAR (quantitative structure-activity relationship,QSAR )模型,基于Kenard-stone方法將107種除草劑劃分為訓(xùn)練集(含80種物質(zhì))和測試集(含27種物質(zhì)),并采用遺傳算法選擇了7個結(jié)構(gòu)描述符用于建立線性模型.該模型對于訓(xùn)練集的R2=0.772,測試集的Q2=0.811.

考慮到生物毒性與結(jié)構(gòu)之間的關(guān)系較為復(fù)雜,線性方法一般不足以對其進行準確的描述,因此本文根據(jù)經(jīng)濟合作與發(fā)展組織(Organization for Economic Co-operation and Development,OECD)的指導(dǎo)原則[13],針對除草劑對羊頭鰷魚的急性毒性重新開展QSTR建模研究.化合物的結(jié)構(gòu)信息使用Dragon描述符來表征;數(shù)據(jù)分組采用主成分分析(principal component analysis, PCA)方法輔助進行,使得訓(xùn)練集樣本對于測試集具有更廣泛的代表性.除采用多元線性回歸(multiple linear regression,MLR)外,還嘗試采用多種非線性方法如支持向量機(support vector machines,SVM)、投影尋蹤回歸(projection pursuit regression,PPR)以及隨機森林(random forest,RF)來建立模型.通過對所得模型結(jié)果進行對比,篩選出最佳模型,并對模型進行全面驗證與評估.本文建立了一個除草劑對羊頭鰷魚急性毒性預(yù)測的可靠模型,同時通過對模型的機理解釋,分析影響除草劑對羊頭鰷魚毒性的重要結(jié)構(gòu)因素,為保護羊頭鰷魚的健康發(fā)展以及農(nóng)藥的合理使用和有效管理提供一些參考.

1" 數(shù)據(jù)來源和方法

1.1" 數(shù)據(jù)來源

本文中除草劑的數(shù)據(jù)來源于文獻[12],具體見表1.數(shù)據(jù)選擇考慮的變量為:實驗介質(zhì)(鹽水)、暴露時間(96小時)和毒性測量(半數(shù)致死濃度,LC50).毒性采用pLC50表示,其值越高,化學(xué)品的毒性越大.

1.2" 主成分分析及數(shù)據(jù)集劃分

分子結(jié)構(gòu)用DRAGON描述符表征,初步計算得到4 871個結(jié)構(gòu)描述符[14].去掉缺失值、全零及接近零方差以及具有高度相關(guān)特征的分子描述符后,利用剩余的3 414個描述符對107個除草劑樣本進行PCA分析.其目的是找出可能存在的“異常點”,對數(shù)據(jù)集中可能的聚類進行分析,并借助PCA結(jié)果觀察訓(xùn)練集和測試集數(shù)據(jù)劃分的合理性[15].

根據(jù)主成分分析結(jié)果按3∶1比例劃分訓(xùn)練集及測試集,訓(xùn)練集用于模型構(gòu)建,測試集用于模型驗證[16].

1.3" QSTR模型

將篩選出的分子描述符作為自變量,pLC50值作為因變量,通過逐步線性回歸分析,得出含有不同數(shù)量分子描述符的QSTR模型.一般采用ΔR2<0.02作為確定模型的標準.從模型的擬合優(yōu)度、魯棒性和預(yù)測能力3個角度對模型性能進行考量,經(jīng)比較分析后,確定一個最優(yōu)MLR模型.

此外,基于MLR中同樣的結(jié)構(gòu)描述符進行非線性建模.本文選擇SVM、PPR和RF 3種方法,并利用內(nèi)外部驗證系數(shù)對模型進行評價.

1.4" 模型檢驗

通過判定系數(shù)(R2)評估該模型的擬合優(yōu)度.訓(xùn)練集通過留一法交叉驗證過程得出交叉驗證參數(shù)Q2Loo,采用該參數(shù)對模型的性能進行內(nèi)部驗證,以評估模型的穩(wěn)健性.將測試集用作外部驗證,利用外部驗證參數(shù)Q2F1、Q2F2、Q2F3和一致性相關(guān)系數(shù)(concordance correlation coefficient,CCC)進一步評估模型預(yù)測的準確性[17].對模型預(yù)測值與實驗值進行均方根誤差(root mean square error,RMSE)、平均絕對誤差(mean absolute error,MAE)分析,以衡量模型的精度.

1.5" 模型的應(yīng)用域

通過Williams 圖來評價QSTR模型的應(yīng)用范圍,并判定參與建模的樣本中是否存在異常點[18].

2" 結(jié)果和討論

2.1" 主成分分析

對107種物質(zhì)進行主成分分析,當本征值大于1時,前3個主成分的總貢獻率為51.23%,它們各自的方差貢獻率分別為38.07%,8.02%和5.14%.這3個主成分分析的載荷圖如圖1所示,樣本之間不存在明顯的聚類,1號化合物(六氯乙烷)位置離大多數(shù)化合物比較遠,但不能證明其屬于“異常點”,所以該化合物仍被保留在數(shù)據(jù)集中(在其他體系的分析中也有類似的情況,即含鹵原子較多的化合物表現(xiàn)與其余物質(zhì)差異較大).根據(jù)PCA結(jié)果,按照3∶1的比例劃分數(shù)據(jù)集,將其中80個樣本作為訓(xùn)練集用于建模,其余27個樣本作為測試集用來檢測模型的性能.從圖1可以清楚地看到,訓(xùn)練集樣本和測試集樣本的分布比較均勻,訓(xùn)練集樣本能代表測試集樣本的結(jié)構(gòu)特點和信息,這表明本研究中的數(shù)據(jù)集劃分是比較合理的.

2.2" MLR模型結(jié)果

利用逐步多元線性回歸得到了包含7個描述符的模型,見表2.各描述符的VIF值都低于5,表明變量之間不存在共線性[19],所以該MLR模型具有統(tǒng)計學(xué)意義.

該模型的統(tǒng)計參數(shù)如圖 2和表3所示.從圖2可知,MLR模型的R2>0.8,且擁有較低的MAE及RMSE值.從表3可得,其他驗證系數(shù)Q2Loo >0.5,Q2F1、Q2F2、Q2F3>0.5,CCC>0.85,表明所建模型具有較好的擬合優(yōu)度、魯棒性和預(yù)測性能,滿足QSTR建模標準[20].且模型的R2-Q2<0.3,說明模型沒有過擬合現(xiàn)象.

2.3" 模型機理解釋

本文中涉及到的除草劑結(jié)構(gòu)繁雜,因此其對

羊頭鰷魚的急性毒性與結(jié)構(gòu)參數(shù)之間的關(guān)系也比較復(fù)雜.表2中描述符的t值表明,在該最優(yōu)模型

中,描述符AlogP、P_VSA_MR_3對模型的貢獻最大,也是影響除草劑對羊頭鰷魚毒性強弱的主要因素.AlogP、P_VSA_MR_3、Mor20v、SpMax2_Bh(m) 4個分子描述符的t值與系數(shù)均為正值,表示其與pLC50值呈正相關(guān)關(guān)系.其余3個描述符CATS2D_01_LL、F04[O-Cl]、B06[O-O]則恰好相反,t值與系數(shù)均為負值,表示其與pLC50值呈負相關(guān)關(guān)系.AlogP指的是化合物脂水分配系數(shù)的對數(shù)值,用以評估化合物的親脂性.親脂性是指化合物在脂質(zhì)雙層中的親和力,通常用于描述化合物在生物體內(nèi)的代謝和轉(zhuǎn)運情況.AlogP值越高,說明化合物更容易在脂質(zhì)雙層中分布,從而更容易透過細胞膜進入細胞內(nèi)部.因此,具有較高親脂性的化合物更容易對羊頭鰷魚產(chǎn)生毒性.文獻[12]中描述親脂性的描述符CrippenLogP對該文所建模型影響最大且呈正相關(guān),該結(jié)論與本研究一致.P_VSA_MR_3為在一定范圍內(nèi)具有性質(zhì)P的范德華表面積(VSA)的量.Mor20v是3D-MoRSE描述符,剔除了氫原子,考慮其他原子對分子幾何結(jié)構(gòu)的影響.SpMax2_Bh(m)是負荷矩陣特征值,是負荷矩陣按原子質(zhì)量進行加權(quán)后得出的第二大特征值.具體而言,該值越大通常意味著分子中存在更多的雙鍵或者共軛結(jié)構(gòu),該值與pLC50值呈正相關(guān)關(guān)系,因此分子中雙鍵或共軛結(jié)構(gòu)越多,分子對羊頭鰷魚的毒性越強.CATS2D_01_LL是基于拓撲距離的CATS2D描述符,它表示每個分子結(jié)構(gòu)中拓撲距離01處的藥效團點對LL與CATS2D電子供體的關(guān)系,由于它與pLC50值呈負相關(guān)關(guān)系,所以隨著電子供體數(shù)量的增加,除草劑對羊頭鰷魚的毒性作用減弱.F04[O-Cl]、B06[O-O]都是基于拓撲距離的2維原子對類型描述符,F(xiàn)04[O-Cl]代表O-Cl原子對出現(xiàn)了4次,B06[O-O]表示拓撲距離6處存在O-O原子對.它們都與pLC50值呈負相關(guān)關(guān)系,因此除草劑分子結(jié)構(gòu)中應(yīng)盡量多地含有O-Cl原子對和O-O原子對.

2.4" 非線性模型結(jié)果

基于逐步多元線性回歸方法選取的7個描述符作為輸入變量,借助R軟件,分別建立了非線性SVM、PPR和RF模型.

采用留一法交互檢驗的結(jié)果,最終確定SVM模型的最優(yōu)參數(shù)為C=7,γ=0.01,ε=0.01,相應(yīng)的支持向量機個數(shù)為78.PPR模型中nterms=7,使用網(wǎng)格調(diào)參對參數(shù)(optlevel,span)進行搜尋,最終得到的最優(yōu)參數(shù)組合為:nterms=7,optlevel=1,span=0.66.當ntree=199,mtry=7時,得到最優(yōu)RF模型.

由圖2及表3可知,3個非線性模型均有良好的預(yù)測能力和穩(wěn)健性,且外部驗證結(jié)果說明3個模型均有良好的預(yù)測能力.R2-Q2<0.3,表示它們均未過擬合.模型擬合及預(yù)測能力RF>PPR>SVM,RF模型在3個非線性模型中各驗證參數(shù)均為最優(yōu),相對于其他兩個模型來說,RF有著訓(xùn)練過程簡單、容易實現(xiàn)、泛化能力強等多個優(yōu)勢.整個數(shù)據(jù)集的統(tǒng)計結(jié)果:RF(R2=0.922,RMSE=0.365,MAE=0.246)>PPR(R2=0.855,RMSE=0.416, MAE=0.331)>SVM(R2=0.816,RMSE=0.475,MAE=0.362).

SVM、PPR及RF預(yù)測模型擬合效果如圖3、圖4所示.由圖3、圖4也可看出,RF模型所預(yù)測的結(jié)果中絕大多數(shù)化合物的誤差較其他3個模型更小.以上結(jié)果說明,除草劑結(jié)構(gòu)與羊頭鰷魚急性毒性作用之間的關(guān)系較為復(fù)雜,應(yīng)用同樣的結(jié)構(gòu)描述符,非線性方法建模更能準確地描述結(jié)構(gòu)因素與毒性作用之間的關(guān)系.

2.5 應(yīng)用域分析

RF方法所建QSTR模型Williams應(yīng)用域的表征圖如圖5所示.該模型的適用范圍為hi<h*(h*=0.3)的區(qū)域,而模型中的大部分除草劑都處于適用范圍內(nèi),表明該QSTR模型具有一定的

預(yù)測能力及泛化能力.只有訓(xùn)練集中15號化合物辛酰溴苯腈大于杠桿警戒值h*=0.3,因本研究數(shù)據(jù)中苯甲腈類化合物僅此一個,其分子結(jié)構(gòu)較其他化合物差異較大,所以具有較高的杠桿值.但該化合物的δi仍在標準殘差的絕對值小于3的界定范圍內(nèi),說明本RF模型能對其進行較為準確的預(yù)測,一定程度上也表明該模型對苯甲腈類化合物有一定的外推能力.

3" 結(jié)論

基于Dragon分子結(jié)構(gòu)描述符,應(yīng)用MLR、SVM、PPR以及RF方法分別建立了107種除草劑對于羊頭鰷魚急性毒性的QSTR模型,所得結(jié)果令人滿意.各模型的R2、Q2及各指標均超過標準值,且大部分除草劑都在給出的應(yīng)用域范圍內(nèi).其中,非線性模型(SVM、PPR以及RF)結(jié)果均優(yōu)于線性模型(MLR)結(jié)果,且RF模型的擬合及預(yù)測能力最為優(yōu)異.這說明除草劑結(jié)構(gòu)與羊頭鰷魚急性毒性作用之間的關(guān)系較為復(fù)雜,而非線性方法建模更能準確地描述結(jié)構(gòu)因素與毒性作用之間的關(guān)系.在所選的7個描述符中,AlogP與P_VSA_MR_3這兩種描述符與pLC50之間存在著很強的聯(lián)系,表明具有較高親脂性的化合物對水生生物更容易產(chǎn)生毒性.因此,本文提出的模型可用于預(yù)先評估適用范圍內(nèi)化學(xué)品的急性毒性,并為未來設(shè)計新除草劑時提供毒性參考,以支持設(shè)計安全的概念.

參考文獻:

[1] 曹玲,劉沁雨,鄭豪杰,等.農(nóng)藥對兩棲動物的生態(tài)風險評估研究進展[J].農(nóng)藥學(xué)學(xué)報,2021,23(3):456-468.

[2] WANG M,LYU J P,DENG H W,et al.Occurrence and removal of triazine herbicides during wastewater treatment processes and their environmental impact on aquatic life[J].International Journal of Environmental Research and Public Health,2022,19(8):4557-4557.

[3] 趙晉,樊怡利,張瑞卿,等.典型酰胺類除草劑的水生生物水質(zhì)基準[J].生態(tài)毒理學(xué)報,2023,18(3):376-387.

[4] WANG L,XING P,WANG C,et al.Maximal information coefficient and support vector regression based nonlinear feature selection and QSAR modeling on toxicity of alcohol compounds to tadpoles of rana temporaria[J].Journal of the Brazilian Chemical Society ,2019,30:279-285.

[5] PURUSOTTAM B,JAGADISH S,ESTER P,et al.Aquatic toxicity prediction of diverse pesticides on two algal species using QSTR modeling approach[J].Environmental Science and Pollution Research International,2022,30(4):10599-10612.

[6] 滕躍發(fā),王曉晴,李斐,等.基于極限梯度提升算法和特征篩選方法的羊角月牙藻(Selenastrum capricor-nutum)急性毒性定量構(gòu)效關(guān)系(QSAR)模型的建立與應(yīng)用[J].生態(tài)毒理學(xué)報,2023,18(3):33-46.

[7] KAREL D,MESIAS M N,AMILKAR P,et al.Prediction of acute toxicity of pesticides for americamysis bahia using linear and nonlinear QSTR modelling approaches.[J].Environmental Research,2022,214:113984-113984.

[8] PURUSOTTAM B,JAGADISH S,PRATIM P R.Predictive classification-based QSTR models for toxicity study of diverse pesticides on multiple avian species[J].Environmental Science and Pollution Research,2021,28(14):17992-18003.

[9] HE L,XIAO K,ZHOU C,et al.Insights into pesticide toxicity against aquatic organism:QSTR models on Daphnia Magna[J].Ecotoxicology and Environmental Safety,2019,173:285-292.

[10] AALIZADEH R,VON DER OHE P C,THOMAIDIS N S.Prediction of acute toxicity of emerging contaminants on the water flea Daphnia magna by ant colony optimization-support vector machine QSTR models[J].Environmental Science:Processes amp; Impacts,2017,19(3):438-448.

[11] BRAIN R A,ANDERSON J C,HANSON M L.Acute and early life-stage toxicity of atrazine in sheepshead minnow (cyprinodon variegatus)[J].Ecotoxicology and Environmental Safety,2021,218:112303-112306.

[12] YANG L,WANG Y,HAO W,et al.Modeling pesticides toxicity to Sheepshead minnow using QSAR[J].Ecotoxicology and Environmental Safety,2020,193:110352-110355.

[13] LIU H,PAPA E,GRAMATICA P.QSAR prediction of estrogen activity for a large set of diverse chemicals under the guidance of OECD principles[J].Chemical Research in Toxicology,2006,19(11):1540-1548.

[14] TALETE.Dragon Professional Software Version 6.0[EB/OL].(2013).http://www.talete.mi.it.

[15] 任月英.QSPR/QSAR在藥物、分析化學(xué)和環(huán)境科學(xué)中的應(yīng)用[D].蘭州:蘭州大學(xué),2007.

[16] GRAMATICA P.Principles of QSAR models validation:internal and external[J].QSAR amp; Combinatorial Science,2007,26(5):694-701.

[17] 覃禮堂,劉樹深,肖乾芬,等.QSAR模型內(nèi)部和外部驗證方法綜述[J].環(huán)境化學(xué),2013,32(7):1205-1211.

[18] NETZEVA T I,WORTH A P,ALDENBERG T,et al.Current status of methods for defining the applicability domain of (quantitative) structure-activity relationships:the report and recommendations of ECVAM workshop 52[J].Alternatives to Laboratory Animals,2005,33(2):155-173.

[19] 劉黔川,焦俊剛.基于方差擴大因子法的城鎮(zhèn)就業(yè)需求擬合模型的構(gòu)建研究[J].工業(yè)技術(shù)經(jīng)濟,2010,29(7):130-133.

[20] CHIRICO N,GRAMATICA P.Real external predictivity of qsar models.part 2.new intercomparable thresholds for different validation criteria and the need for scatter plot inspection[J].Journal of Che-mical Information and Modeling,2012,52(8):2044-2058.

[責任編輯:紀彩虹]

猜你喜歡
隨機森林多元線性回歸除草劑
封閉式除草劑什么時間噴最合適
如何正確選擇使用農(nóng)藥及除草劑
隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
基于二次隨機森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
基于組合模型的卷煙市場需求預(yù)測研究
基于多元線性回歸分析的冬季鳥類生境選擇研究
我國上市商業(yè)銀行信貸資產(chǎn)證券化效應(yīng)實證研究
時代金融(2016年29期)2016-12-05 15:41:07
云學(xué)習(xí)平臺大學(xué)生學(xué)業(yè)成績預(yù)測與干預(yù)研究
基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
错那县| 南江县| 韩城市| 城口县| 惠安县| 南昌县| 延长县| 衡山县| 建湖县| 大宁县| 紫阳县| 淮北市| 榆中县| 乌什县| 通渭县| 伊吾县| 汾西县| 洪泽县| 滨海县| 伊金霍洛旗| 漯河市| 红原县| 龙山县| 新干县| 泉州市| 涿州市| 松滋市| 中阳县| 西盟| 余干县| 武川县| 汝城县| 交口县| 台山市| 华宁县| 海阳市| 屏山县| 榆中县| 临潭县| 若尔盖县| 罗城|