聶長(zhǎng)森,白 勇,柳賢德
(1.海南大學(xué) 信息科學(xué)技術(shù)學(xué)院,海南 ???570228;2.海南大學(xué) 農(nóng)學(xué)院,海南 ???570228)
基于機(jī)器學(xué)習(xí)的COX抑制劑預(yù)測(cè)模型研究
聶長(zhǎng)森1,白 勇1,柳賢德2
(1.海南大學(xué) 信息科學(xué)技術(shù)學(xué)院,海南 海口 570228;2.海南大學(xué) 農(nóng)學(xué)院,海南 ???570228)
針對(duì)目前COX(環(huán)氧合酶)抑制劑較少且抑制效果差的問(wèn)題,以及傳統(tǒng)的化學(xué)實(shí)驗(yàn)篩選COX抑制劑分子的方法中成本高且效率低的問(wèn)題,基于機(jī)器學(xué)習(xí)算法,提出并建立了一種COX抑制劑的預(yù)測(cè)模型。該模型可高效且準(zhǔn)確地找到COX抑制劑,通過(guò)大量搜集文獻(xiàn)中的數(shù)據(jù)建立數(shù)據(jù)集,使用Mold2軟件計(jì)算化合物分子描述符,利用自組織特征映射神經(jīng)網(wǎng)絡(luò)(SOM)劃分訓(xùn)練集和測(cè)試集,應(yīng)用隨機(jī)森林(RF)和支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)算法分別建立了COX抑制劑預(yù)測(cè)模型。實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),SOM結(jié)合RF算法較傳統(tǒng)化學(xué)實(shí)驗(yàn)方法具有更好的預(yù)測(cè)精度,且預(yù)測(cè)效率也有大幅提升。實(shí)驗(yàn)研究表明,基于自組織神經(jīng)網(wǎng)絡(luò)和隨機(jī)森立的機(jī)器學(xué)習(xí)方法建立的COX抑制劑預(yù)測(cè)模型,具有很好的分類預(yù)測(cè)效果,可以為COX抑制劑的分析與預(yù)測(cè)提供有力的研究工具。
COX抑制劑;機(jī)器學(xué)習(xí)方法;自組織特征神經(jīng)網(wǎng)絡(luò);隨機(jī)森林;支持向量機(jī)
如何高效地篩選具有高活性的COX抑制劑對(duì)于探索人體炎癥的治療具有非常重要的意義。環(huán)氧合酶是體內(nèi)花生四烯酸代謝過(guò)程中最主要的限速酶,存在兩種亞型:原生型(COX-1)和誘導(dǎo)型(COX-2)[1-3]。COX-1存在于血管、腎臟和胃,具有生理保護(hù)作用,如維持胃腸道黏膜的完整性,調(diào)節(jié)腎血流量和血小板功能;COX-2是一種誘導(dǎo)酶,在組織損傷、炎癥時(shí),細(xì)胞因子和其他炎性介質(zhì)誘導(dǎo)激活炎癥部位COX-2,由此產(chǎn)生PGG2/PGH2,從而出現(xiàn)炎癥反應(yīng)。人類對(duì)環(huán)氧合酶抑制劑的研究一直是藥物研究的熱點(diǎn),自1999年第一代特異性COX-2抑制劑,即昔布類藥物—塞來(lái)昔布和羅非昔布先后在國(guó)外和國(guó)內(nèi)上市以來(lái),專家學(xué)者們對(duì)COX抑制劑的研究從未停止?,F(xiàn)已證明,COX-1不僅參與炎癥并且有加重炎癥的作用,而COX-2似乎主要參與早期炎癥,而在慢性炎癥階段反而有抗炎作用。那么如何尋找一種COX抑制劑,對(duì)COX-1和COX-2都具有抑制作用,科學(xué)家們對(duì)此進(jìn)行了大量研究?;舅枷胧腔诜肿用枋龇蜋C(jī)器學(xué)習(xí)算法,對(duì)前人實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行分析,利用計(jì)算機(jī)高效提取COX抑制劑的特征,建立COX抑制劑的預(yù)測(cè)模型,并利用現(xiàn)有的COX抑制劑進(jìn)行驗(yàn)證。
設(shè)計(jì)一個(gè)高效的COX抑制劑預(yù)測(cè)模型的任務(wù)非常艱巨,雖然近年來(lái)科學(xué)家們對(duì)COX抑制劑的研究較多,但是已知的抑制劑化合物非常有限,所采用的化合物來(lái)源于文獻(xiàn)搜集,一共54個(gè),對(duì)COX-1和COX-2具有有效的抑制作用。由于COX抑制劑的數(shù)據(jù)庫(kù)非常有限,給預(yù)測(cè)模型的建立帶來(lái)了很大的挑戰(zhàn),但是機(jī)器學(xué)習(xí)算法憑借其優(yōu)良的數(shù)據(jù)篩選特性,一直以來(lái)在化和物結(jié)構(gòu)預(yù)測(cè)、藥代動(dòng)力學(xué)、藥效動(dòng)力學(xué)等方面均有非常好的效果。為此,在實(shí)驗(yàn)中分別建立了隨機(jī)森林模型和支持向量機(jī)的COX抑制劑預(yù)測(cè)模型,并將自組織神經(jīng)網(wǎng)絡(luò)(SOM)[4-8]分別與這兩種算法相結(jié)合,建立了四種預(yù)測(cè)模型,并進(jìn)行了對(duì)比驗(yàn)證。
分別采用SOM結(jié)合隨機(jī)森林(RF)及支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)算法建立了COX抑制劑的分析和預(yù)測(cè)模型。采用的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于文獻(xiàn)檢索的COX抑制劑,利用ChemBioDraw軟件繪制得到其二維(2D)結(jié)構(gòu),然后使用化合物分子格式轉(zhuǎn)換軟件openbabel將分子結(jié)構(gòu)轉(zhuǎn)換為sdf格式進(jìn)行保存,使用著名的Mold2軟件進(jìn)行分子描述符的計(jì)算[9-13]?;衔锪炕幚砗?,利用SOM進(jìn)行訓(xùn)練集和測(cè)試集的劃分,然后使用隨機(jī)森林算法對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),對(duì)測(cè)試集進(jìn)行預(yù)測(cè)分析,通過(guò)與SVM算法的預(yù)測(cè)結(jié)果對(duì)比后發(fā)現(xiàn),SOM結(jié)合RF算法的預(yù)測(cè)正確率較高。
1.1分子描述符
采用國(guó)家毒理學(xué)研究中心(NCTR)設(shè)計(jì)的Mold2軟件進(jìn)行分子描述符的計(jì)算。每個(gè)化合物的分子描述符有777個(gè)數(shù)據(jù),分別代表化合物的不同結(jié)構(gòu)和屬性,由于許多文獻(xiàn)和書籍中都有詳細(xì)的描述[14],故只做簡(jiǎn)單介紹?;衔锏姆肿用枋龇梢苑譃榻?jīng)驗(yàn)描述符和理論描述符。
經(jīng)驗(yàn)描述符來(lái)源于物質(zhì)的實(shí)驗(yàn)數(shù)據(jù),如溶點(diǎn)、沸點(diǎn)等,因此有其自身的缺點(diǎn),例如當(dāng)化合物缺少相應(yīng)的實(shí)驗(yàn)值時(shí),則不能進(jìn)行QSAR研究。為確保實(shí)驗(yàn)的有效性和預(yù)測(cè)的正確率,不采用經(jīng)驗(yàn)描述符。
1.2數(shù)據(jù)集
采用的數(shù)據(jù)集為54個(gè)COX抑制劑,全部從文獻(xiàn)中搜集,并且來(lái)源于同一個(gè)實(shí)驗(yàn)室。這些抑制劑的IC50值范圍從小于0.05 μM到大于50 μM。因?yàn)檫@是對(duì)化合物進(jìn)行分類預(yù)測(cè),所以根據(jù)IC50值將所有抑制劑劃分為兩類:8個(gè)高活性類(IC50值低于1 μM)和46個(gè)低活性類(IC50值高于1 μM)。圖1列出了兩個(gè)代表性COX抑制劑的母本結(jié)構(gòu)。
圖1 代表性COX抑制劑母本結(jié)構(gòu)
1.3訓(xùn)練集和測(cè)試集的劃分
利用計(jì)算機(jī)進(jìn)行化合物的特征提取,并進(jìn)行藥性預(yù)測(cè),一個(gè)重要任務(wù)是要進(jìn)行訓(xùn)練集和測(cè)試集的劃分。訓(xùn)練集作為輸入,由隨機(jī)森林等智能算法進(jìn)行特征提取[15],并建立訓(xùn)練模型。測(cè)試集利用建立好的模型進(jìn)行預(yù)測(cè),也就是進(jìn)行特征匹配,以期得到好的預(yù)測(cè)效果。測(cè)試集是檢驗(yàn)訓(xùn)練模型預(yù)測(cè)結(jié)果與實(shí)驗(yàn)結(jié)果是否一致的重要一步。所以訓(xùn)練集和測(cè)試集的劃分是否合理,直接決定實(shí)驗(yàn)結(jié)果的有效性。
訓(xùn)練集和測(cè)試集的劃分方法主要有以下幾種:
(1)隨機(jī)劃分方法。
該方法是最簡(jiǎn)單、最易實(shí)現(xiàn)也是使用最多的一種訓(xùn)練集和測(cè)試集的劃分方法。在實(shí)現(xiàn)該算法時(shí),只需利用編程語(yǔ)言中的隨機(jī)函數(shù)進(jìn)行分類即可,但值得注意的是,由于訓(xùn)練集和測(cè)試集的劃分,對(duì)實(shí)驗(yàn)結(jié)果至關(guān)重要。使用該方法一般需要對(duì)訓(xùn)練集和測(cè)試集進(jìn)行多次劃分,然后取平均結(jié)果作為劃分模型。
基于現(xiàn)實(shí)調(diào)查的數(shù)據(jù)分析,我們對(duì)中小學(xué)師生的創(chuàng)新現(xiàn)狀進(jìn)行調(diào)查,準(zhǔn)確把握實(shí)驗(yàn)起點(diǎn)。1998年9月,選取重慶42中、53中、沙坪壩區(qū)實(shí)驗(yàn)一小起始年級(jí)班進(jìn)行實(shí)驗(yàn)前測(cè)。2001年,對(duì)重慶、新疆、廣東及我國(guó)香港地區(qū)的實(shí)驗(yàn)學(xué)校進(jìn)行大樣本調(diào)查,收到有效問(wèn)卷47 548份,分析數(shù)據(jù)近1 000萬(wàn)條,寫出了報(bào)告,得到了專家的認(rèn)可。
(2)主成分分析(PCA)劃分方法。
主成分分析是用于數(shù)值分類研究的一種重要方法,目前的應(yīng)用也較為廣泛。其基本思想是實(shí)現(xiàn)多維問(wèn)題低維化,用二維或者三維歐氏空間的直觀散點(diǎn)圖來(lái)刻劃類群或作其他分析。但是實(shí)驗(yàn)最重要的是根據(jù)化合物的分子描述符提取特征,并根據(jù)數(shù)據(jù)分布,使訓(xùn)練集和測(cè)試集具有最相似的分布,以達(dá)到預(yù)期效果,所以對(duì)目前的實(shí)驗(yàn)并不十分合適。
(3)SOM劃分方法[16]。
該網(wǎng)絡(luò)是一個(gè)由全連接的神經(jīng)元陣列組成的無(wú)教師、自組織、自學(xué)習(xí)網(wǎng)絡(luò)。該網(wǎng)絡(luò)空間中不同區(qū)域的神經(jīng)元具有各自不同的分工,可以根據(jù)輸入空間中的輸入向量進(jìn)行學(xué)習(xí)和分類。SOM神經(jīng)網(wǎng)絡(luò)是一種發(fā)展較為成熟,經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的人工智能算法,對(duì)訓(xùn)練集和測(cè)試集的劃分取得了非常好的效果。
1.4機(jī)器學(xué)習(xí)方法
采用了兩種最新的機(jī)器學(xué)習(xí)算法—RF[17-22]和SVM[23-24],通過(guò)RF和SVM方法將COX抑制劑的預(yù)測(cè)轉(zhuǎn)化為一個(gè)二元的分類問(wèn)題,即通過(guò)訓(xùn)練集訓(xùn)練后預(yù)測(cè)一種化合物是COX抑制劑或者不是COX抑制劑。對(duì)于RF和SVM算法的具體實(shí)現(xiàn)原理,這里不做詳述,只對(duì)其思想做簡(jiǎn)單介紹。
RF是一種決策樹(shù)自然生長(zhǎng)且很多個(gè)決策樹(shù)預(yù)測(cè)器組合在一起的分類方法[25]。每棵決策樹(shù)依賴于對(duì)輸入向量進(jìn)行隨機(jī)獨(dú)立抽樣所獲得的數(shù)值,且森林中的所有決策樹(shù)都具有相同的分布。每棵樹(shù)都不受干涉地自然生長(zhǎng)到最大規(guī)模,然后對(duì)一個(gè)新的數(shù)據(jù)點(diǎn)給出自己的預(yù)測(cè)。也就是說(shuō),這顆樹(shù)投票決定這一新數(shù)據(jù)點(diǎn)的類別。當(dāng)大量的決策樹(shù)生成以后,整個(gè)森林就選擇最多數(shù)的投票結(jié)果作為對(duì)這個(gè)數(shù)據(jù)點(diǎn)類別的判定。
SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論中結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)原則的方法[26],而統(tǒng)計(jì)學(xué)習(xí)理論是一種著名的與核函數(shù)相關(guān)的機(jī)器學(xué)習(xí)方法。SVM方法通過(guò)使用核函數(shù),把輸入變量投射到高維特征空間,然后從輸入向量中選擇一個(gè)所謂支持向量的小的子集。在變換后的空間中,通過(guò)最大間隔的原則構(gòu)建一個(gè)最優(yōu)化的分類超平面,從而把這些輸入向量分成了兩種不同的類別。
1.5特征選擇方法與模型建立
采用SOM、RF、SVM三種算法建立模型。其中自組織特征映射神經(jīng)網(wǎng)絡(luò)是一種發(fā)展比較成熟的特征分類算法,主要作為訓(xùn)練集和測(cè)試集的劃分模型。因?yàn)橛?xùn)練集和測(cè)試集劃分的主要目的就是確保訓(xùn)練集的點(diǎn)占據(jù)整個(gè)數(shù)據(jù)集空間,測(cè)試集的點(diǎn)接近訓(xùn)練集的點(diǎn)。使用SOM神經(jīng)網(wǎng)絡(luò)的方法對(duì)于獨(dú)立預(yù)測(cè)集進(jìn)行選擇,這種方法是基于化合物的化學(xué)空間來(lái)選擇測(cè)試集分子。使用3×3的SOM神經(jīng)網(wǎng)絡(luò),把所有化合物映射到9個(gè)位置。相似的對(duì)象映射到相似的位置。在這個(gè)網(wǎng)絡(luò)中按照訓(xùn)練集和測(cè)試集3∶2的比例進(jìn)行選擇。訓(xùn)練集用來(lái)建立分類模型,而測(cè)試集用來(lái)評(píng)估模型的預(yù)測(cè)能力。其中,訓(xùn)練集包含33個(gè)分子(29個(gè)低活性,4個(gè)高活性),測(cè)試集包含21個(gè)分子(17個(gè)低活性,4個(gè)高活性)。然后分別建立隨機(jī)森林和支持向量機(jī)模型進(jìn)行訓(xùn)練和測(cè)試,并對(duì)兩個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。
2.1模型的預(yù)測(cè)性能
對(duì)COX抑制劑進(jìn)行預(yù)測(cè),根據(jù)劃分的訓(xùn)練集進(jìn)行訓(xùn)練,測(cè)試集的數(shù)據(jù)根據(jù)預(yù)測(cè)結(jié)果與實(shí)際化合物的活性是否相同,來(lái)對(duì)預(yù)測(cè)的正確率進(jìn)行判斷。將預(yù)測(cè)正確率記為P,測(cè)試集高活性化合物數(shù)量為M,低活性化合物數(shù)量為N,預(yù)測(cè)正確的高活性化合物數(shù)量為m,預(yù)測(cè)正確的低活性化合物數(shù)量為n。則總預(yù)測(cè)正確率為:
(1)
對(duì)高活性化合物的預(yù)測(cè)正確率為:
(2)
對(duì)低活性化合物的預(yù)測(cè)正確率為:
(3)
分別采用四種方法進(jìn)行預(yù)測(cè),正確率如表1所示。
表1 四種預(yù)測(cè)模型正確率
2.2模型的分析
通過(guò)表1發(fā)現(xiàn),訓(xùn)練集和測(cè)試集的劃分方法,對(duì)實(shí)驗(yàn)結(jié)果有著至關(guān)重要的作用。運(yùn)用隨機(jī)劃分的方法,明顯出現(xiàn)了預(yù)測(cè)結(jié)果不穩(wěn)定的現(xiàn)象,這主要是由于每次隨機(jī)劃分的訓(xùn)練集和測(cè)試集不能各自完整地代表整個(gè)數(shù)據(jù)集的特征,并且每次實(shí)驗(yàn)受劃分的高活性化合物和低活性化合物的數(shù)量影響較大,導(dǎo)致結(jié)果非常不穩(wěn)定,預(yù)測(cè)正確率波動(dòng)較大。而采用自組織特征映射神經(jīng)網(wǎng)絡(luò)方法劃分訓(xùn)練集和測(cè)試集,實(shí)驗(yàn)結(jié)果比較穩(wěn)定,而且SOM結(jié)合RF算法[27-29]的整體預(yù)測(cè)正確率在80.9%左右,SOM結(jié)合SVM算法的正確率穩(wěn)定在85.7%左右。
可以發(fā)現(xiàn),雖然SOM結(jié)合SVM算法的整體預(yù)測(cè)正確率較高[30-34],但是對(duì)于高活性化合物的預(yù)測(cè)正確率卻相當(dāng)?shù)?,所以?duì)于今后的研究幫助不是很大。SOM結(jié)合RF算法的預(yù)測(cè)正確率相對(duì)比較理想。
2.3模型的驗(yàn)證
通過(guò)文獻(xiàn)調(diào)研查詢了15個(gè)COX抑制劑藥物,對(duì)研究建立的COX抑制劑預(yù)測(cè)模型進(jìn)行驗(yàn)證。首先使用ChemBioDraw軟件繪制這15個(gè)藥物的二維結(jié)構(gòu),然后使用openbabel軟件進(jìn)行格式轉(zhuǎn)換,并使用Mold2軟件計(jì)算分子描述符。將這15個(gè)化合物的分子描述符輸入研究建立的基于SOM和隨機(jī)森林算法的預(yù)測(cè)模型進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如表2所示。其中,預(yù)測(cè)結(jié)果‘1’表示該藥物為高活性,預(yù)測(cè)結(jié)果‘2’表示該藥物為低活性。
表2 COX抑制劑藥物預(yù)測(cè)結(jié)果
由預(yù)測(cè)結(jié)果可知,該模型將這15個(gè)化合物預(yù)測(cè)為高活性COX抑制劑,由于這些藥物已經(jīng)上市并投入使用,多數(shù)是COX的高活性抑制劑。預(yù)測(cè)結(jié)果表明有73.3%的藥物為高活性,符合實(shí)際情況,表明該研究在COX抑制劑的預(yù)測(cè)方面具有重要的現(xiàn)實(shí)意義。
將分子描述符和機(jī)器學(xué)習(xí)方法應(yīng)用于COX抑制劑,提出并建立了COX抑制劑的分類和預(yù)測(cè)模型。研究結(jié)果表明,相對(duì)于SOM結(jié)合SVM算法、隨機(jī)劃分訓(xùn)練集結(jié)合RF算法、隨機(jī)劃分訓(xùn)練集結(jié)合SVM算法,SOM結(jié)合RF的機(jī)器學(xué)習(xí)算法預(yù)測(cè)準(zhǔn)確率高且效果好,同時(shí)還可節(jié)省大量時(shí)間和資源成本。
[1] Sakya S M,DeMello K M L,Minich M L,et al.5-heteroatom substituted pyrazoles as canine COX-2 inhibitors.Part 1:structure-activity relationship studies of 5-alkylamino py-razoles and discovery of a potent,selective,and orally active analog[J].Bioorganic & Medicinal Chemistry Letters,2006,16(2):288-292.
[2] Sakya S M,Cheng H,DeMello K M L,et al.5-heteroatom-substituted pyrazoles as canine COX-2 inhibitors. Part 2:structure-activity relationship studies of 5-alkylethers and 5-thioethers[J].Bioorganic & medicinal Chemistry Letters,2006,16(5):1202-1206.
[3] Sakya S M,Hou X,Minich M L,et al.5-heteroatom substituted pyrazoles as canine COX-2 inhibitors. Part III:molecular modeling studies on binding contribution of 1-(5-methylsulfonyl) pyrid-2-yl and 4-nitrile[J].Bioorganic & Medicinal Chemistry Letters,2007,17(4):1067-1072.
[4] Kobuchi Y, Tanoue M. Learning and forgetting-how they should be balanced in SOM algorithm[C]//IEEE international conference on neural networks.San Francisco,CA,USA:IEEE,2004:745-749.
[5] 姚登舉,楊 靜,詹曉娟.基于隨機(jī)森林的特征選擇算法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2014,44(1):137-141.
[6] 黃亞捷,葉回春,張世文,等.基于自組織特征映射神經(jīng)網(wǎng)絡(luò)的中國(guó)耕地生產(chǎn)力分區(qū)[J].中國(guó)農(nóng)業(yè)科學(xué),2015,48(6):1136-1150.
[7] 謝倩倩,李訂芳,章 文.基于集成學(xué)習(xí)的離子通道藥物靶點(diǎn)預(yù)測(cè)[J].計(jì)算機(jī)科學(xué),2015,42(4):177-180.
[8] 聶 斌,郝竹林,桂 寶,等.基于隨機(jī)森林的中藥寒、熱藥性代謝組學(xué)判別方法研究[J].江西中醫(yī)藥大學(xué)學(xué)報(bào),2015(2):82-86.
[9] 閆樹(shù)英,陳志宏,惠 娜,等.基于RF和KNN的三種肝炎分類模型的建立[J].寧夏醫(yī)學(xué)雜志,2015,37(6):496-498.
[10] 劉建偉,劉 媛,羅雄麟.半監(jiān)督學(xué)習(xí)方法[J].計(jì)算機(jī)學(xué)報(bào),2015,38(8):1592-1617.
[11] 何 冰,羅 勇,李秉軻,等.基于分子描述符和機(jī)器學(xué)習(xí)方法預(yù)測(cè)和虛擬篩選乳腺癌靶向蛋白HEC1抑制劑[J].物理化學(xué)學(xué)報(bào),2015,31(9):1795-1802.
[12] 任 偉,孔德信.定量構(gòu)效關(guān)系研究中分子描述符的相關(guān)性[J].計(jì)算機(jī)與應(yīng)用化學(xué),2009,26(11):1455-1458.
[13] 郝 明.基于化學(xué)信息學(xué)方法的藥物分子計(jì)算研究[D].大連:大連理工大學(xué),2012.
[14] 俞書浩.功能基因組學(xué)和化學(xué)信息學(xué)協(xié)同的藥物研發(fā)數(shù)據(jù)挖掘方法[D].上海:上海交通大學(xué),2013.
[15] 曹正鳳.隨機(jī)森林算法優(yōu)化研究[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2014.
[16] 白耀輝,陳 明.利用自組織特征映射神經(jīng)網(wǎng)絡(luò)進(jìn)行可視化聚類[J].計(jì)算機(jī)仿真,2006,23(1):180-183.
[17] 張華偉,王明文,甘麗新.基于隨機(jī)森林的文本分類模型研究[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2006,41(3):5-9.
[18] 袁芳娟.基于隨機(jī)森林的年齡估計(jì)[D].天津:河北工業(yè)大學(xué),2012.
[19] 雍 凱.隨機(jī)森林的特征選擇和模型優(yōu)化算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2008.
[20] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲(chóng)學(xué)報(bào),2013,50(4):1190-1197.
[21] 游 偉,李樹(shù)濤,譚明奎.基于SVM-RFE-SFS的基因選擇方法[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2010,29(1):93-99.
[22] 馬景義,謝邦昌.用于分類的隨機(jī)森林和Bagging分類樹(shù)比較[J].統(tǒng)計(jì)與信息論壇,2010,25(10):18-22.
[23] 董 婷.支持向量機(jī)分類算法在MATLAB環(huán)境下的實(shí)現(xiàn)[J].榆林學(xué)院學(xué)報(bào),2008,18(4):94-96.
[24] 曹東升.化學(xué)生物信息學(xué)新方法及其在醫(yī)藥研究中的應(yīng)用[D].長(zhǎng)沙:中南大學(xué),2013.
[25] 劉孝良.基于半監(jiān)督學(xué)習(xí)的隨機(jī)森林算法研究與應(yīng)用[D].青島:中國(guó)海洋大學(xué),2013.
[26] 廖明橋.基于支持向量機(jī)的半監(jiān)督式分類學(xué)習(xí)方法[D].哈爾濱:哈爾濱工程大學(xué),2013.
[27] 劉曉東.基于組合策略的隨機(jī)森林方法研究[D].大連:大連理工大學(xué),2013.
[28] 方匡南,吳見(jiàn)彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(3):32-38.
[29] 王愛(ài)平,萬(wàn)國(guó)偉,程志全,等.支持在線學(xué)習(xí)的增量式極端隨機(jī)森林分類器[J].軟件學(xué)報(bào),2011,22(9):2059-2074.
[30] 陳永健.半監(jiān)督支持向量機(jī)分類方法研究[D].西安:陜西師范大學(xué),2014.
[31] 張燦淋.基于支持向量機(jī)的半監(jiān)督式增量學(xué)習(xí)研究[D].杭州:浙江工業(yè)大學(xué),2014.
[32] 趙 瑩.半監(jiān)督支持向量機(jī)學(xué)習(xí)算法研究[D].哈爾濱:哈爾濱工程大學(xué),2010.
[33] 周志華.基于分歧的半監(jiān)督學(xué)習(xí)[J].自動(dòng)化學(xué)報(bào),2013,39(11):1871-1878.
[34] 楊南海,黃明明,赫 然,等.基于最大相關(guān)熵準(zhǔn)則的魯棒半監(jiān)督學(xué)習(xí)算法[J].軟件學(xué)報(bào),2012,23(2):279-288.
StudyonCOXInhibitorPredictionModelBasedonMachineLearning
NIE Chang-sen1,BAI Yong1,LIU Xian-de2
(1.College of Information Science & Technology,Hainan University,Haikou 570228,China;2.College of Agriculture,Hainan University,Haikou 570228,China)
In allusion of the lack in COX (Cyclooxygenase) inhibitor and its poor inhibition effect,moreover for the reason that the traditional COX inhibitor screening must be performed through chemical experiment in high cost and low efficiency,a forecast model of COX inhibitors based on machine learning algorithm is proposed and established.It can find COX inhibitor efficiently and accurately.In the establishing process the data set with huge collection of data in the literature has been built up and then the molecular descriptors with the software of Mold2 has been calculated and divided into training set and testing set with the method of SOM.However,two ML methods,Support Vector Machine (SVM) and Random Forest (RF),are employed to develop a prediction method for searching inhibitors and non-inhibitors of COX from the literature.The verification experiments show that the algorithm of SOM and RF has a better prediction accuracy,which also has a higher efficiency compared with the traditional chemical methods.The results of investigation demonstrate that the COX inhibitor prediction models based on SOM and RF has a good classification prediction effect and provides powerful instrument for analysis and prediction of COX inhibitor.
COX inhibitors;machine learning;SOM;random forests;support vector machines
TP301
A
1673-629X(2017)10-0074-04
2016-11-22
2017-03-13 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間
時(shí)間:2017-07-19
國(guó)家自然科學(xué)基金資助項(xiàng)目(31660733);海南省應(yīng)用技術(shù)研發(fā)與示范推廣專項(xiàng)(ZDXM2015065);海南省社會(huì)發(fā)展科技專項(xiàng)(SF201421)
聶長(zhǎng)森(1994-),男,碩士研究生,研究方向?yàn)橐苿?dòng)通信與智能信息處理;白 勇,教授,博士,研究方向?yàn)橐苿?dòng)通信與智能信息處理;柳賢德,副教授,博士,通訊作者,研究方向?yàn)楂F醫(yī)公共衛(wèi)生學(xué)。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170719.1113.082.html
10.3969/j.issn.1673-629X.2017.10.016