国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

碳酸酐酶XIV抑制劑的定量構(gòu)效關(guān)系研究

2010-09-25 02:27:32周燕平周先鋒譚詩淼
關(guān)鍵詞:碳酸酐酶描述符磺胺類

周燕平,焦 健,周先鋒,譚詩淼

(1.農(nóng)藥與化學(xué)生物學(xué)教育部重點實驗室,華中師范大學(xué)化學(xué)學(xué)院,武漢430079;2.衡陽泰豪通信車輛有限公司,湖南衡陽替換為 421001)

碳酸酐酶XIV抑制劑的定量構(gòu)效關(guān)系研究

周燕平1,焦 健1,周先鋒2,譚詩淼1

(1.農(nóng)藥與化學(xué)生物學(xué)教育部重點實驗室,華中師范大學(xué)化學(xué)學(xué)院,武漢430079;2.衡陽泰豪通信車輛有限公司,湖南衡陽替換為 421001)

基于神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換的非線性偏最小二乘回歸(ANN-NLPLS)連同偏最小二乘(PLS)和人工神經(jīng)網(wǎng)絡(luò)(ANN)方法,被用于磺胺類藥物作為碳酸酐酶XIV抑制劑的定量構(gòu)效關(guān)系研究.結(jié)果表明,ANN-NLPLS能很好地建立碳酸酐酶XIV抑制劑的定量構(gòu)效關(guān)系模型,其中,氫鍵受體數(shù)目(Hydrogen bond acceptor),鍵能(Bond energy),電子拓撲指數(shù)(S_do,S_aaCH),VAMP電子靜態(tài)描述符(Octupole xyz,Octupole xxy),偶極矩(Dipole moment X,Dipole x),最高占有軌道能(HOMO),總能量(Total energy),脂水分布系數(shù)(AlogP),信息含量(Information content)對磺胺類藥物對碳酸酐酶XIV的抑制活性起著非常重要的作用.

碳酸酐酶XIV抑制劑;基于神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換的非線性偏最小二乘回歸;定量構(gòu)效關(guān)系研究

碳酸酐酶(carbonic anhydrase,CA)是一類活性中心含有鋅的酶,二氧化碳是代謝過程中的主要廢物,碳酸酐酶能催化CO2的可逆水合反應(yīng)(H2O+CO2←→H2CO3←→H++HCO-3),產(chǎn)生在人體多種生理活動中發(fā)揮重要作用的質(zhì)子和 HCO-3,而 H+/HCO-3對體內(nèi)酸堿平衡、體液循環(huán)、生物合成反應(yīng)等起著重要的作用,因此,碳酸酐酶與人體的健康緊密相關(guān).目前,在哺乳動物中至少已經(jīng)發(fā)現(xiàn)16種碳酸酐酶,這16種酶以α-CAs或者是非催化形式相關(guān)的碳酸酐酶蛋白質(zhì)的形式存在.

CAⅠ~Ⅲ,CA Ⅶ及CA XIII為胞漿酶;CAⅣ,CAⅨ,CA Ⅻ和CA XIV為膜連接酶;CA Ⅴ為線粒體酶,存在于線粒體中;CA Ⅵ為分泌型酶,存在于唾液中;其它5種以非催化形式的碳酸酐酶相關(guān)蛋白形式存在.研究者們通過研究碳酸酐酶的抑制劑或者激動劑來探索他們在體內(nèi)的作用機制,取得了一定的成果,許多碳酸酐酶已成為新藥設(shè)計的靶點.近年來,一些芳環(huán)和雜環(huán)類磺胺藥物被設(shè)計合成作為CA抑制劑.由于通過實驗來評估抑制活性花費昂貴且費時,定量構(gòu)效關(guān)系(QSAR)常被用來預(yù)測碳酸酐酶抑制劑的活性,幫助設(shè)計新的碳酸酐酶抑制劑,至今為止,磺胺類藥物作為CA抑制劑的定量構(gòu)效關(guān)系的研究主要集中在CAⅠ和CA II中,而對CA XIV的定量構(gòu)效關(guān)系研究很少有文獻報道.

偏最小二乘法(PLS)[1]由于其能最大限度地表征自變量和因變量之間的線性關(guān)系,并可以避免自變量之間的信息重疊和共線性問題,而且在一定程度上能保證模型的外推預(yù)測能力等優(yōu)點,被廣泛地用于定量構(gòu)效關(guān)系研究中.然而,PLS法僅能提取數(shù)據(jù)中的線性成分,在實際的QSAR研究中,非線性成分是普遍存在的.克服PLS法難以擬合非線性的問題的一種方式為發(fā)展非線性版本的PLS,即通過引入非線性特征到線性的 PLS框架中發(fā)展非線性PLS.至今為止,已發(fā)展了多種非線性版本的PLS法,如二次多項式偏最小二乘[2],樣條偏最小二乘[3],神經(jīng)網(wǎng)絡(luò)偏最小二乘[4],核偏最小二乘[5],但是這些方法易產(chǎn)生過擬合或欠擬合的情況.另一種對非線性關(guān)系建模的思路為選擇非線性方法,如人工神經(jīng)網(wǎng)絡(luò)(ANN)[6].ANN是一種通用的非參數(shù)的擬合器,通過合適的線性組合多個sigmoid函數(shù),可在任意的精度下擬合任意復(fù)雜的非線性關(guān)系[7].因此ANN常被用來擬合非線性關(guān)系.但是ANN易產(chǎn)生過擬合現(xiàn)象.

在本研究中,采用了基于神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換的非線性版本的PLS法(ANN-NLPLS)來進行碳酸酐酶抑制劑的定量構(gòu)效關(guān)系研究[8].ANN-NLPLS首先采用ANN將原始的輸入變量從輸入層變換到隱含層,然后,采用PLS來關(guān)聯(lián)生物活性和隱含層的輸出.粒子群算法(PSO)被用于優(yōu)化ANN中涉及到的權(quán)重以實現(xiàn)自適應(yīng)調(diào)整原始描述符的非線性轉(zhuǎn)換,在權(quán)重優(yōu)化的過程中,F-統(tǒng)計被用來自動地確定PLS建模中所需的隱變量.同時,PLS和用反傳算法訓(xùn)練的ANN(BP-ANN)也被用于CA XIV抑制劑的定量構(gòu)效關(guān)系研究.結(jié)果表明,ANN-NLPLS要明顯優(yōu)于BP-ANN和 PLS,它不僅能有效地擬合數(shù)據(jù)中存在的非線性關(guān)系,而且能有效地克服過擬合問題.

1 理論

1.1 基于神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換的非線性偏最小二乘回歸(ANN-NLPLS)

在ANN-NLPLS中,ANN的功能是將原始描述符映射到隱含層輸出中,原始輸入變量經(jīng)過這樣一種映射產(chǎn)生了一系列新的特征變量,這些新的特征變量不僅富含了用于生物活性建模的信息,同時也包括了能導(dǎo)致過擬合問題的額外的可變性.為了克服特征變量中存在的過多的可變性,PLS被用來關(guān)聯(lián)這些特征變量和生物活性.ANN-NLPLS綜合了ANN能擬合非線性和PLS能克服過擬合這兩方面的優(yōu)點,因此,它能同時對非線性關(guān)系建模和避免過擬合問題的發(fā)生.

設(shè) X為原始描述符輸入矩陣(每行表示一個化合物),隱含層的輸出可通過下面的方程式得到:

其中,θ為隱含層的輸出矢量,f()代表ANN中的sigmoid函數(shù),W表示輸入層與隱含層之間的權(quán)重,1為列矢量,其元素均為1.隱含層的輸出 O可以看成是通過神經(jīng)網(wǎng)絡(luò)非線性轉(zhuǎn)換而得到的特征變量.最后,PLS回歸被用來構(gòu)建化合物的生物活性與特征變量O之間的關(guān)系.另外,粒子群優(yōu)化算法被用來優(yōu)化ANN-NLPLS中涉及到的權(quán)重,以方便ANN-NLPLS能靈活的近似任何的非線性關(guān)系,訓(xùn)練集的均方根誤差被用來作為優(yōu)化過程中的目標(biāo)函數(shù).

1.2 改進的粒子群優(yōu)化算法

粒子群優(yōu)化算法(particle swarm optimization,PSO)是一種源于對鳥群捕食行為研究的優(yōu)化工具,通過粒子間相互作用發(fā)現(xiàn)復(fù)雜搜索空間中的最優(yōu)區(qū)域.在PSO中,每個粒子代表了問題空間的一個解.算法先隨機初始化一代粒子,然后通過更新粒子而搜索最優(yōu)解.每個粒子具有一個速度決定它們的飛翔的方向和距離.然后粒子們根據(jù)自己和同伴的飛翔經(jīng)驗來調(diào)整速度.ANN-NLPLS中PSO用于優(yōu)化涉及到的權(quán)重,目標(biāo)函數(shù)為訓(xùn)練集的均方根誤差.PSO中所有粒子編碼成實數(shù)串,每個實數(shù)串代表一次神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換中涉及到的輸入層與隱含層之間的權(quán)重.在權(quán)重優(yōu)化過程中,PLS作為建模方法,其隱變量個數(shù)通過 F-統(tǒng)計來自動地確定.

2 碳酸酐酶XIV數(shù)據(jù)

49個磺胺類衍生物及其對CA XIV的抑制活性作為定量構(gòu)效關(guān)系分析的數(shù)據(jù)集,這些數(shù)據(jù)來自Laszlo Tarko等人的研究[9].圖1列出了這些化合物的母體結(jié)構(gòu),該系列化合物的詳細結(jié)構(gòu)和活性值見表1.活性用 A=log(c/K1)表示,其中 c設(shè)為11000,K1為平衡常數(shù).我們隨機地把這些化合物分為訓(xùn)練集(39個樣本)和預(yù)測集(10個樣本).

圖1 磺胺類衍生物母體結(jié)構(gòu)Fig.1 Structure details of sulfonamides

筆者用Material Studio 4.0軟件計算了一系列代表化合物化學(xué)結(jié)構(gòu)的描述符,作為原始變量.這些描述符包含了不同方面的分子結(jié)構(gòu)信息,它們包括拓撲描述符,結(jié)構(gòu)描述符,空間描述符,熱力學(xué)描述符和電子描述符等.選用逐步回歸法選出12個變量以用于ANN-NLPLS、ANN、PLS等多變量建模.

3 結(jié)果與討論

首先用PLS計算碳酸酐酶XIV數(shù)據(jù)集的生物活性,建模用到的自變量為逐步回歸法選出的12個變量,該算法所得到的結(jié)果被列于表2中,PLS對訓(xùn)練集和預(yù)測集的相關(guān)系數(shù)分別為0.9162和0.7258,磺胺類衍生物的活性的觀察值和計算值的相關(guān)圖顯示于圖2a中.從圖2a和表2中,可以看到用PLS建模得到的計算值和觀察值的相關(guān)性較差,而且模型誤差相當(dāng)大,這些現(xiàn)象說明,當(dāng)數(shù)據(jù)中存在未知而又嚴(yán)重的非線性關(guān)系時,PLS將難以獲得滿意的結(jié)果.

表1 磺胺類衍的詳細結(jié)構(gòu)及其對碳酸酐酶XIV的抑制活性Tab.1 Structure details of sulfonamides and their bioactivities

表2 ANN-NLPLS、PLS和BP-ANN對CA XIV抑制劑的QSAR分析結(jié)果比較Tab.2 Results of QSAR analysis of carbonic anhydrases XIV.Using ANN-NLPLS compared with those obtained by PLS and BP-ANN

針對數(shù)據(jù)集存在的非線性關(guān)系,采用BPANN來進一步考察分子結(jié)構(gòu)和活性的關(guān)系.在BP-ANN法中,使用了與PLS建模相同的12個變量.為減少BP-ANN算法產(chǎn)生過擬合的可能性,從訓(xùn)練集中隨機抽取了10個樣品作為監(jiān)控集以輔助訓(xùn)練BP-ANN.表2中列出了BP-ANN計算得到的統(tǒng)計結(jié)果,從表2可知,BP-ANN產(chǎn)生了明顯的過擬合現(xiàn)象.生物活性的計算值(由BP-ANN計算得到)和實驗值的相關(guān)圖見圖2b.正如圖2a,2b和表2所顯示的,PLS和BP-ANN難以對該數(shù)據(jù)集建立一個滿意的構(gòu)效關(guān)系模型.

為了改善碳酸酐酶XIV抑制劑的QSAR模型的性能,用ANN-NLPLS算法來預(yù)測該數(shù)據(jù)集的活性,該算法在建模過程中用的變量與 PLS和BP-ANN中相同,化合物的活性的計算值與實驗值的相關(guān)圖見圖2c,從表2中可以看到 PLS,BPANN和ANN-NLPLS計算得到的統(tǒng)計結(jié)果.其中,ANN-NLPLS對訓(xùn)練集的相關(guān)系數(shù)和均方根差(RMSE)分別為0.9260和0.3932,對預(yù)測集的相關(guān)系數(shù)和均方根差分別為0.9148和0.4366.跟PLS比較而言,ANN-NLPLS對訓(xùn)練集和預(yù)測集都能提供更優(yōu)的結(jié)果,表明ANN-NLPLS法能有效地擬合數(shù)據(jù)中存在的非線性關(guān)系.當(dāng)與BPANN法比較時,從表2中可以看出ANN-NLPLS盡管對訓(xùn)練集產(chǎn)生的相關(guān)系數(shù)低于BP-ANN法,但對測試集產(chǎn)生了明顯高于BP-ANN算法的相關(guān)系數(shù),這種情況說明了這種算法能有效地克服BPANN法中常常遇到的過擬合問題.從圖2a,b,c中可以發(fā)現(xiàn),相對于 PLS和BP-ANN法,ANN-NLPLS法顯示了相對較小的生物活性計算值與實驗值之間的偏差,這個現(xiàn)象進一步驗證了ANN-NLPLS法明顯優(yōu)于PLS法和BP-ANN法.這主要是由于ANN-NLPLS法吸收了PLS和ANN法的優(yōu)點而避免了兩種方法中的缺點,即:合適地組合多個sigmoid函數(shù)能有效擬合復(fù)雜而又未知的非線性關(guān)系和PLS能最大化提取信息而又能有效地克服共線性.

圖2 CA XIV抑制劑的活性實驗值與用PLS(a)、ANN(b)和ANN-NLPLS(c)法計算得到的計算值的相關(guān)圖Fig.2 a)Calculated and observed values of bioactivity of carbonic anhydrases XIV by PLS modeling.b)Calculated and observed values of bioactivity of carbonic anhydrases XIV by BP-ANN modeling.c)Calculated and observed values of bioactivity of carbonic anhydrases XIV by ANN-NLPLS modeling.

在本研究中,用于多變量QSAR建模的自變量為:氫鍵受體數(shù)目(Hydrogen bond acceptor),鍵能(Bond energy),電子拓撲指數(shù)(S_dO,S_aaCH),VAMP電子靜態(tài)描述符(Octupole xyz,Octupole xxy),偶極矩(Dipole moment X,Dipole x),最高占有軌道能(HOMO),總能量(Total energy),脂水分布系數(shù)(AlogP),信息含量(Information content).這些變量或多或少與磺胺類藥物對CA XIV的抑制活性相關(guān).這些選中的12個描述符中,有5個為電子描述符(Octupole xyz,Octupole xxy,Dipole x,Dipole moment X,HOMO),從而說明了電子描述符對磺胺類藥物的抑制活性起著非常重要的作用.其中,Dipole和 HOMO為常用的描述符用于關(guān)聯(lián)生物活性和化合物結(jié)構(gòu),Dipole為3維電子描述符,它指示了分子在電子靜態(tài)場領(lǐng)域中長度和方向,描述符 HOMO在控制分子反應(yīng)和性質(zhì)方面起到了非常重要的作用,具有高的HOMO的分子將更能捐贈它們的電子,因此這些分子將比具有低 HOMO的分子具有更強的反應(yīng)活性,因此,描述符 HOMO本質(zhì)上是分子親核性的一個量度.除了電子描述符,電子拓撲指數(shù)(S_dO,S_aaCH)也對磺胺類化合物的抑制活性起著一定的作用,原子的電子拓撲指數(shù)表示這種類型的原子的電子可接近程度.它表示這類原子是否存在,以及原子存在的個數(shù).例如,S_aaCH,S為原子的電子拓撲狀態(tài),a表示芳香環(huán).除了這些變量,AlogP,Information content和Hydrogen bond acceptor等也與磺胺類藥物的抑制活性緊密相關(guān).其中,AlogP為定量構(gòu)效關(guān)系模型構(gòu)建的常用參數(shù)之一,是與分子疏水性有關(guān)的描述符,Hydrogen bond acceptor反應(yīng)了取代基對反應(yīng)中心的效果.最后,Bond energy和 Total energy看起來都和CAXIV抑制劑的抑制活性有關(guān).總體說來,CA XIV抑制劑的作用是復(fù)雜的,包括了電子的,拓撲的和結(jié)構(gòu)的等方面的作用.

4 結(jié)論

在本研究中,PLS、BP-ANN,ANN-NLPLS被用于CA XIV抑制劑的定量構(gòu)效關(guān)系研究,數(shù)據(jù)結(jié)果表明:ANN-NLPLS能有效改善QSAR模型的性能,有效地擬合數(shù)據(jù)中存在非線性關(guān)系并能在一定程度上克服非線性建模過程中常常發(fā)生的過擬合問題.通過分析這三種算法的結(jié)果可以推斷出,電子的、拓撲的和結(jié)構(gòu)等描述符對于預(yù)測CA XIV抑制劑的抑制活性是非常重要的.

[1]Hoskuldsson A.PLS regression methods[J].Journal of Chemom,1988,2:211-228.

[2]Wold S,Kettaneh-Wold N,Skagerberg B.Nonlinear PLS modeling[J].Chemom Intell Lab Syst,1989,7:53-65.

[3]Wold S.Nonlinear partial least squares modeling II.Spline inner relation[J].Chemom Intell Lab Syst,1992,14:71-84.

[4]Qin S J,McAvoy T J.Nonlinear PLS modeling using neural networks[J].Comput Chem Eng,1992,16:379-391.

[5]Rosipal R,Trejo L J.Kernel partial least squares in reproducing kernel Hilbert space[J].J Mach Learn Res,2001,2:97-123.

[6]Zhang Y,Li H,Hou A,et al.Artificial neural networks based on genetic input selection for quantification in overlapped capillary electrophoresis peaks[J].Talanta,2005,65:118-128.

[7]Melssen W J,Buydens L M C.Aspects of multi-layer feedforward neural networks influencing the quality of the fit of univariate non-linear relationships[J].Anal Proc,1995,32:53-56.

[8]Zhou Y P,Jiang J H,Lin W Q,et al.Artificial neural network-based transformation for nonlinear partial least-square regression with application to QSAR studies[J].Talanta,2007,71:848-853.

[9]Laszlo T,Claudiu T S.QSAR studies for the inhibition of the transmembrane isozymes XII and XIV of human carbonic anhydrase with a series of sulfonamides[J].Bioorg Med Chem,2007,15:5666-5671.

Abstract:In the current work,we employed artificial neural network-based transformation for nonlinear partial least-square regression to QSAR studies of sulfonamides as the carbonic anhydrase XIV inhibitors.The results were compared with those obtained by artificial neural network(ANN)and partial least square(PLS).Experimental results clearly demonstrated that ANN-NLPLS is a well-performing technique in QSAR studies of CA XIV inhibitors,which compare favorably with PLS and ANN.

Key words:carbonic anhydrase XIV inhibitors;artificial neural network-based transformation for nonlinear partial least-square regression;quantitative structure-activity relationships study

QSAR studies of sulfonamides as the carbonic anhydrase XIV inhibitors by artificial neural network-based transformation for nonlinear partial least-square regression

ZHOU Yanping,J IAO Jian1,ZHOU Xianfeng2,TAN Shimiao1
(1.Key Laboratory of Pesticide and Chemical Biology of Ministry of Education,College of Chemistry,Central China Normal University,Wuhan 430079;2.Hengyang Taihao Communication Vehicle Limited Corporation,Hengyang,Hunan 421001)

1000-1190(2010)04-0618-06

2010-06-23.

中央高?;究蒲袠I(yè)務(wù)費專項資金科研項目博士基金(CCNU09A01012),湖南大學(xué)化學(xué)生物傳感與計量學(xué)國家重點實驗室開放基金(200910).

*E-mail:hgzyp2005@yahoo.com.cn.

R914.4

A

猜你喜歡
碳酸酐酶描述符磺胺類
基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
雞磺胺類藥物中毒的原因、臨床表現(xiàn)、診斷和防治措施
微生物碳酸酐酶特性研究
生物化工(2018年4期)2018-09-05 05:45:14
Linux單線程并發(fā)服務(wù)器探索
利用CNN的無人機遙感影像特征描述符學(xué)習(xí)
水化層影響酸酐酶內(nèi)CO2擴散行為的分子動力學(xué)模擬
碳酸酐酶Ⅲ、表皮生長因子受體在肺腺癌患者中的表達及其臨床意義
雛雞磺胺類藥物中毒的診治
碳酸酐酶的生理功能、多樣性及其在CO2捕集中的應(yīng)用
雞肉中磺胺類藥物的殘留及其積累性暴露評估
合肥市| 克什克腾旗| 肥乡县| 涟水县| 静安区| 平泉县| 安化县| 青田县| 青冈县| 囊谦县| 屯留县| 扶风县| 宣恩县| 内丘县| 洛宁县| 庆城县| 怀柔区| 烟台市| 驻马店市| 商丘市| 海林市| 普陀区| 奉节县| 砀山县| 辽阳县| 二手房| 金昌市| 石门县| 枣强县| 越西县| 平顺县| 堆龙德庆县| 察雅县| 瓦房店市| 河池市| 湟源县| 南投县| 葫芦岛市| 穆棱市| 阿鲁科尔沁旗| 招远市|