国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度信念網(wǎng)絡的CYP450 2C9抑制性分類

2019-04-01 13:12:00李自臣史新宇田生偉
計算機應用與軟件 2019年2期
關鍵詞:抑制性指紋準確率

李自臣 史新宇 禹 龍 田生偉 王 梅 李 莉

1(烏魯木齊職業(yè)大學信息工程學院 新疆 烏魯木齊 830002)2(新疆大學軟件學院 新疆 烏魯木齊 830008)3(新疆大學網(wǎng)絡中心 新疆 烏魯木齊 830046)4(新疆醫(yī)科大學藥學院 新疆 烏魯木齊 830011)

0 引 言

吸收、分布、代謝、排泄和毒性問題是造成臨床醫(yī)藥化合物失敗的主要因素,約有70%的藥物在臨床試驗中失敗或退出市場[1]。其中,新陳代謝決定一個化合物進入人體的命運,并最終控制該化合物是否具有毒副作用。細胞色素P450酶是藥物代謝酶中的一個家族,它是肝臟中藥物代謝的主要位點,負責人體90%以上的臨床藥物代謝[2]。在代謝第一階段,細胞色素P450酶的亞型主要通過氧化反應,修改各種各樣的基質,使他們有更強的水溶性且易于被消除[3]。

CYP2C9作為細胞色素P450第二亞家族中的一個重要成員,在人體肝臟中,約占全部的CYP450蛋白總量的20%,并且已存在于市場上的16%的臨床藥物由它負責代謝。例如抗驚厥類藥物、抗凝血類藥物、非甾體抗炎藥及其他種類的藥物等。它的抑制作用可能會導致藥物較低的代謝速率及等離子體濃度的增加,并進一步導致藥物產(chǎn)生毒性作用。因此,在早期的藥物篩選和安全評價中,區(qū)分CYP2C9的抑制性和非抑制性成為重要的研究課題。

近年來,基于機器學習的QSAR建模方法已廣泛應用于CYP450酶的抑制性分類。文獻[4]以Three-Point Pharmacophoric (3PP) 分子指紋特征作為SVM模型的輸入,對1 100個化合物訓練,在包含238個化合物的測試集上實現(xiàn)CYP2C9的抑制性分類。Cheng等[5]分別使用偏最小二乘判別分析法和SVM方法,結合兩種基于分子指紋的描述符實現(xiàn)對CYP2C9的抑制性分類。李蘭婷等[6]采用逐步判別分析法和K-均值聚類分析法(K-Means cluster analysis method)建立模型,對81個化合物進行訓練和測試,取得了較好的效果。然而,這些方法大多基于有監(jiān)督的淺層學習模型,其性能依賴分子特征的選擇,容易出現(xiàn)維數(shù)災難和局部最優(yōu)等問題。

本文利用深度學習思想,提出了基于DBN的CYP2C9抑制性分類模型。通過堆疊多層受限玻爾茲曼機(RMB),利用其組合低層數(shù)據(jù)特征并充分挖掘分布式特征的能力,對分子特征進行更本質的學習。采用反向傳播神經(jīng)網(wǎng)絡(BP)對多層RBM進行有監(jiān)督的微調,完成對CYP2C9的抑制性分類。通過與淺層學習模型SVM和ANN進行對比,本文所提模型克服了淺層模型容易出現(xiàn)維數(shù)災難和局部最優(yōu)等問題,驗證了深度信念網(wǎng)絡模型對CYP2C9抑制性分類的有效性。

1 相關工作

1.1 數(shù)據(jù)源

本文所獲取的數(shù)據(jù)集源于文獻[7],它從PubChem BioAssay數(shù)據(jù)庫中收集了13 908個結構多樣的化合物(PubMed ID:AID410),為避免樣本的重復和錯誤,所有化合物都經(jīng)過處理和檢驗。原始數(shù)據(jù)集中包含一些信息,例如分子ID、記錄ID、化合物的SIMLES結構,以及CYP2C9的抑制性和非抑制性標識。本文選取13 000條數(shù)據(jù),并以4∶1的比例將全部數(shù)據(jù)集分為訓練集和測試集。數(shù)據(jù)集的詳細類別分布見表1。全部實驗采用五折交叉驗證評估模型的性能,避免實驗的隨機性和偶然性。數(shù)據(jù)集可從Online Chemical Modeling Environment (OCMEM)中免費下載。

表1 訓練集和測試集的詳細類別分布

1.2 分子指紋

分子指紋技術是描述化合物結構屬性的一種方法,通過檢測分子結構中一些特定子結構(即分子結構片段)是否存在,從而把分子結構轉化為一系列二進制指紋序列[8]。目前,有多種不同形式分子指紋,如FP2、FP3、FP4指紋、MACCS指紋、Estate指紋、Pubchem指紋,以及Daylight指紋等。

1.3 分子指紋生成

本文采用新加坡國立大學Yap等[9]開發(fā)的PaDEL-Descriptor描述符計算軟件。該軟件當前可計算797個描述符(1維和2維663個,3維134個)及10種不同類型的分子指紋。該軟件免費且開源,有便于用戶使用的圖形用戶界面,可運行在多個平臺,接受多種類型的文件格式。利用該軟件生成了常用的PubChem和MACCS分子指紋,其中MACCS根據(jù)166位結構片段詞典進行編碼產(chǎn)生二進制字符串。這些結構特征包括原子類型、化學鍵類型、原子環(huán)境類型與結構性質等。用0和1來表示分子中相關結構特征信息的存在與缺失,即當分子中存在某一結構特征時,就在預定義結構特征位點構成的位串(詞典)中相應位置標記為1,否則標記為0[10]。

1.4 分子指紋預處理

分子指紋維度過高,會增加模型的計算量和運行時間。為避免分子特征冗余,本文按以下規(guī)則對分子指紋特征進行篩選:(1) 去除重復特征;(2) 去除全為零的特征;(3) 去除標準差等于零的特征。具體實現(xiàn)過程如下:

算法:分子指紋預處理

i為單個樣本,num為樣本數(shù)量,c為特征個數(shù)

1. foriindatas.num:

2. ifdata[i].std()==0:remove.append(i)

3.c=datas.feature.num

4. foriinrange(c)

5.v=datas[i]

6. forjinrange(i+1,c):

7. ifequal(v,datas[j]):remove.append(c[j])

2 模型介紹

2.1 深度信念網(wǎng)絡(DBN)

深度神經(jīng)網(wǎng)絡DNN利用多層神經(jīng)網(wǎng)絡訓練模型,不僅能克服一些淺層機器學習模型的局限性,盡可能使用較少參數(shù)實現(xiàn)復雜函數(shù)逼近,而且有很強的自學習能力。同時,它能從原始高維特征中抽取出多層分布表示。DBN作為DNN的一種,由Hinton于2006年提出,已被廣泛應用于多個領域[11]。DBN由多層RBM和BP網(wǎng)絡組成。DBN訓練過程分兩步:預訓練和微調。首先,采用無監(jiān)督學習方式對RBM每一層訓練,保證當特征向量被映射到不同特征空間時,特征信息能盡可能多的保留;然后利用最后一層BP網(wǎng)絡以有監(jiān)督訓練方式微調整個DBN網(wǎng)絡權重值。它以RBM輸出向量作為自身輸入向量訓練一個實體關系分類器。DBN結構如圖1所示。

圖1 DBN模型結構

2.2 受限玻爾茲曼機(RBM)

受限玻爾茲曼機是一個生成式隨機神經(jīng)網(wǎng)絡,由Hinton和Sejnowski于1986年提出[12]。它由可見單元和隱單元組成,這些單元是二值變量,狀態(tài)為0或1。全部神經(jīng)網(wǎng)絡是一個二部圖,可見層和隱藏層之間全連接,層內(nèi)之間無連接。RBM結構如圖2所示。

圖2 RBM的結構

圖2中,可以看到RBM包含4個可見單元(由v表示)和3個隱藏單元(由h表示),w是一個4×3矩陣,它表示可見層和隱藏層之間邊的權重。受統(tǒng)計學能量函數(shù)概念的啟發(fā), RBM引入能量函數(shù)的概念:“聯(lián)合配置(v,h)”,被定義為:

(1)

式中:θ是RBM的一個參數(shù),表示為{W,a,b};w表示可見層的基向量;b表示隱藏層的基向量。根據(jù)玻爾茲曼分布,可見單元和隱藏單元的聯(lián)合概率如下:

(2)

Z(θ)是一個歸一化因子(也稱為配分函數(shù)),采用sigmoid激活函數(shù),公式如下:

(3)

學習RBM的任務是求出參數(shù)θ的值,以擬合給定的訓練數(shù)據(jù),參數(shù)θ可以通過最大化RBM在訓練集上的對數(shù)似然函數(shù) (P(v))學習得到,P(v)可由式(4)得到。最大化P(v)等同于最大化log(P(v))=L(θ),如式(5)所示。

(4)

(5)

其中:可見層節(jié)點集合的邊緣分布為Pθ(v),然而計算Pθ(v)非常困難。因此,Hinton等提出了對比散度算法解決這一問題。

經(jīng)過這一步,RBM提取出的特征向量作為BP模型的輸入。BP網(wǎng)絡可以微調整個DBN網(wǎng)絡。它的訓練過程主要分為兩步:一是前向傳播,將輸入特征向量沿輸入端傳播至輸出端;二是反向傳播,將BP網(wǎng)絡的輸出結果與正確結果比較得到誤差,然后將誤差從輸出端反向傳播至輸入端。

2.3 DBN模型對CYP2C9的分類流程

基于DBN模型的CYP2C9抑制性和非抑制性分類包含三個部分:數(shù)據(jù)預處理、DBN訓練過程以及CYP2C9的分類過程。DBN的整個分類流程如圖3所示。首先,用分子計算軟件生成分子指紋特征并由SPSS19.0軟件進行特征預處理。然后,根據(jù)2.2節(jié)介紹的算法訓練DBN模型。它包括兩個階段:一是基于無標簽數(shù)據(jù)訓練多層RBM;二是采用BP網(wǎng)絡微調整個DBN模型的參數(shù)。最后使用測試集評估模型的分類性能。

圖3 DBN模型對CYP1A2的分類流程

3 實驗與分析

3.1 模型評估標準

對二分類模型,有很多公認指標判定模型的性能。本文采用特異性(式(6))、敏感度(式(7)),總的分類準確率(式(8))以及馬修斯相關系數(shù)(式(9))作為模型的評估標準。

SP=TN/(TN+FP)×100%

(6)

SE=TP/(TP+FN)×100%

(7)

(8)

(9)

其中,MCC常用于二分類檢測,為驗證測試實驗結果是否平衡,其值在-1~1之間,越接近1模型評價效果越好。這些評估標準通過統(tǒng)計TP、FN、FP和TN的個數(shù)計算得出。TP表示真實值為抑制性,預測結果也是抑制性;FN表示真實值為抑制性,預測結果是非抑制性;FP表示真實值為非抑制性,預測為抑制性;TN表示真實值為非抑制性,預測也為非抑制性。

3.2 DBN、SVM和ANN參數(shù)信息

本文模型運行在Windows7系統(tǒng)上,使用MATLAB完成仿真實驗。計算機的配置為:Intel i3處理器,4 GB內(nèi)存,主頻率為2.4 GHz。為得到模型最優(yōu)分類性能,采用不同參數(shù)組合做了大量實驗。表2列出了DBN和BP模型的詳細初始化參數(shù)信息。

表2 DBN和BP的初始化參數(shù)信息

表2中,hiddensize表示隱藏層神經(jīng)元個數(shù);numepochs表示訓練迭代次數(shù);momentum表示RBM初始化動量;alpha表示模型訓練過程中初始化學習率;batchsize表示每一次訓練批量處理樣本個數(shù)。對于SVM模型,采用LIBSVM (3.2版本,網(wǎng)址:http://www.csie.ntu.edu.tw/~cjlin/libs vm)實現(xiàn)仿真。為獲取SVM最優(yōu)分類性能,內(nèi)核函數(shù)和代價因子的選擇非常重要??蛇x內(nèi)核參數(shù)有:linear、polynomial、RBF和sigmoid function。因RBF參數(shù)具有高效性和較低復雜性,選擇RBF作為SVM內(nèi)核參數(shù),代價因子為5。對ANN模型,采用和BP相同參數(shù)。

3.3 DBN層數(shù)對分類結果的影響

在深度學習模型中,選擇合適的DBN網(wǎng)絡深度對CYP2C9的抑制性分類精度有一定影響。我們嘗試了不同DBN網(wǎng)絡結構(RMB的層數(shù)從1層到5層)。實驗結果如表3所示。

表3 不同DBN層數(shù)在測試集上的準確率

從表3可以看出,隨著DBN模型層數(shù)增加,當模型的層數(shù)從1層到3層時,模型總的分類準確率有所提升(準確率從76.5%增加到80.6%)。當模型的層數(shù)從3層到5層時,模型總的分類準確率均有不同程度的下降。而且,模型層數(shù)的增加會使得訓練過程更加復雜、計算時間也隨之增加。因此,在后續(xù)的實驗中,經(jīng)過多方面的考慮,我們設置DBN的隱藏層層數(shù)為3。

3.4 PubChem和MACCS描述符對實驗的影響

選擇不同的分子指紋作為模型輸入對CYP2C9的抑制性分類精度有一定影響。本文實驗采用僅使用PubChem特征,僅使用MACCS特征,以及兩者的特征組合分別作為模型的輸入驗證不同特征組合下模型的分類性能。實驗結果如圖4所示。

圖4 不同特征下的分類準確率

從圖4中可以看出,PubChem和MACCS分子指紋特征組合作為模型的輸入(模型分別為SVM、ANN和DBN),三個模型都獲得了最好的分類性能。它們各自總的分類精度分別為78.3%、78.0%、80.6%,高于僅使用MACCS特征所得到的準確率:74.6%、75.7%、76.1%,以及僅使用PubChem特征所得到的分類準確率:75.1%、76.6%、77.7%。實驗結果表明:PubChem和MACCS特征組合給模型帶來了新的信息,并且增加了模型的分類性能。同時將MACCS特征加入模型中提升了模型的分類性能,這一結果說明MACCS特征信息對CYP2C9的抑制性分類有積極影響。Michielan等[3]也得到了類似的結論:分子指紋特征對構建CYP2C9的抑制性分類模型具有重要貢獻。因此實驗證明了將PubChem和MACCS分子特征組合作為模型的輸入可以進一步提升其分類準確率。

3.5 模型對比試驗

為驗證DBN模型對CYP1A2抑制性和非抑制性分類的有效性,基于相同的數(shù)據(jù)集和特征,將它與ANN和SVM模型進行了比較。以準確率和馬修斯相關系數(shù)(MCC)作為衡量標準,結果分別如圖5和圖6所示。

圖5 DBN、ANN和SVM的分類準確率

圖6 DBN、ANN和SVM的MCC系數(shù)

從圖5和圖6能夠得出,隨著數(shù)據(jù)量的增加,DBN、SVM以及ANN模型的分類準確率和馬修斯相關系數(shù)均有所提升。實驗結果表明,模型在豐富和大量的樣本條件下能夠學習更加多樣的特征,進而提升了分類準確率。當數(shù)據(jù)量增加到13 000條時,相較于SVM和ANN,DBN模型獲得了最好的分類準確率。原因是:不同于ANN、DBN模型避免了權重值隨機分配,采用無監(jiān)督預訓練學習過程,可以提供一個更合適的初始值,從特征中抽取出多級的分布式表示,可以更好地挖掘分子結構的規(guī)律性。同時,DBN模型是一個深層網(wǎng)絡結構,當問題規(guī)模變得更加復雜時,它能克服一些淺層神經(jīng)網(wǎng)絡相對較弱的泛化能力及容易陷入過擬合的問題。

4 結 語

本文基于一個相對較大且結構多樣的數(shù)據(jù)集,采用深度信念網(wǎng)絡探討了分子結構與區(qū)分CYP2C9的抑制性判別關系,驗證了不同分子指紋特征對模型分類結果的影響。同時與ANN和SVM進行比較,驗證了DBN模型對CYP2C9抑制性分類的有效性。因此,本文的研究有助于在藥物研發(fā)階段對CYP1A2的抑制性進行快速評估,對新藥篩選具有一定的指導作用。

猜你喜歡
抑制性指紋準確率
抑制性建言影響因素研究評述與展望
基于抑制性自突觸的快慢對神經(jīng)元簇放電節(jié)律模式的研究
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質量檢驗分析
像偵探一樣提取指紋
為什么每個人的指紋都不一樣
論我國民間借貸法律規(guī)制的發(fā)展和完善——從抑制性規(guī)制到激勵性規(guī)制
法大研究生(2020年2期)2020-01-19 01:42:24
高速公路車牌識別標識站準確率驗證法
在神經(jīng)病理性疼痛大鼠中脊髓背角III層甘氨酸能神經(jīng)元投射至II層放射狀神經(jīng)元的抑制性環(huán)路發(fā)生功能障礙
连平县| 南川市| 平利县| 军事| 盱眙县| 商洛市| 兴国县| 石泉县| 安达市| 新邵县| 高雄县| 浦东新区| 松潘县| 保亭| 星座| 德令哈市| 穆棱市| 新干县| 兴国县| 鲁山县| 南平市| 静乐县| 富平县| 长沙市| 无为县| 肃南| 马山县| 浮梁县| 达孜县| 西丰县| 江达县| 鞍山市| 鹤山市| 兴隆县| 玉山县| 安康市| 尚义县| 石楼县| 延吉市| 敖汉旗| 东乡族自治县|