国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

HIV1蛋白酶切割位點(diǎn)預(yù)測(cè)研究

2018-09-10 07:22范光鵬孫仁誠(chéng)邵峰晶
關(guān)鍵詞:支持向量機(jī)氨基酸

范光鵬 孫仁誠(chéng) 邵峰晶

摘要: 為有效減緩艾滋病毒在人體內(nèi)的復(fù)制速度,本文利用長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò),對(duì)HIV1蛋白酶切割位點(diǎn)進(jìn)行分類(lèi)預(yù)測(cè)。使用長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)模型作為主要分類(lèi)模型,首先對(duì)氨基酸分別進(jìn)行標(biāo)準(zhǔn)正交編碼和TVD編碼,作為分類(lèi)模型的輸入,模型結(jié)果的輸出由1和-1表示,1表示可以被切割,-1表示不能被切割,最后對(duì)模型分別進(jìn)行十折交叉驗(yàn)證和AUC評(píng)估,并以支持向量機(jī)模型作為對(duì)比模型進(jìn)行分析。分析結(jié)果表明,在正交編碼的條件下,用sigmoid激活函數(shù)長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)的分類(lèi)正確率和AUC值均為最佳,徑向基函數(shù)支持向量機(jī)略高于線性支持向量機(jī),線性長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)分類(lèi)正確率最低,有助于HIV1蛋白酶抑制劑的研究。該研究具有一定的實(shí)際意義。

關(guān)鍵詞: 支持向量機(jī); 長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò); HIV1蛋白酶; 氨基酸

中圖分類(lèi)號(hào): TP391.4文獻(xiàn)標(biāo)識(shí)碼: A

艾滋病是一種危害極大的傳染病,由感染HIV病毒引起,雖然全世界眾多醫(yī)學(xué)研究人員付出了巨大的努力,但至今尚未研制出根治艾滋病的特效藥物,也沒(méi)有用于預(yù)防的有效疫苗。艾滋病已被我國(guó)列入乙類(lèi)法定傳染病,并被列為國(guó)境衛(wèi)生監(jiān)測(cè)傳染病之一??箵舭滩〉闹匾椒ㄖ皇亲柚拱滩《驹谌梭w內(nèi)復(fù)制,HIV1蛋白酶能裂解病毒顆粒的蛋白前體,使病毒成熟,形成病毒顆粒,這是艾滋病毒復(fù)制前的重要過(guò)程。因此,抑制HIV1蛋白酶對(duì)多聚蛋白的裂解能有效減緩艾滋病毒的復(fù)制速度,對(duì)艾滋病的治療有至關(guān)重要的作用。研究人員想通過(guò)HIV1蛋白酶抑制劑永久占據(jù)多聚蛋白的活性位點(diǎn),阻止HIV1蛋白酶的正常功能,然而HIV1蛋白酶切割氨基酸之間的肽鍵位點(diǎn)在很大程度上是未知的,這為HIV1蛋白酶抑制劑的研究造成了很大的困難。自然界中共有20種氨基酸,HIV1蛋白酶只對(duì)八聚蛋白(由8個(gè)氨基酸組成的蛋白質(zhì))起作用,對(duì)HIV1蛋白酶切割八聚蛋白的搜索空間是208,這需要計(jì)算機(jī)和數(shù)據(jù)分析方法對(duì)可能起作用的八聚蛋白進(jìn)行預(yù)測(cè),其中利用機(jī)器學(xué)習(xí)模型進(jìn)行分類(lèi)預(yù)測(cè)是近年來(lái)最常用的方法。T.Rgnvaldsson等人[12]討論了20多年以來(lái)解決上述問(wèn)題的多種方法,總結(jié)出解決上述問(wèn)題需要用非線性模型,并在更多實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上,利用線性支持向量機(jī)(line support vector machines,LSVM)對(duì)八聚蛋白進(jìn)行分類(lèi)預(yù)測(cè),證明線性支持向量機(jī)方法比線性方法要好,因此推測(cè)線性方法是解決HIV1切割位點(diǎn)預(yù)測(cè)的主要方法;S.Jaeger等人[3]提出了新的生物物理特征,并融合了神經(jīng)網(wǎng)絡(luò)[45]、支持向量機(jī)[67]、決策樹(shù)3種分類(lèi)模型對(duì)HIV1蛋白酶切割位點(diǎn)進(jìn)行預(yù)測(cè),經(jīng)交叉驗(yàn)證后,組合模型比單一分類(lèi)器的分類(lèi)效果更好;G.Kim等人[8]提出一種特征選擇方法,分別利用不同的特征數(shù)據(jù)輸入到已經(jīng)訓(xùn)練完成的多感知機(jī),分別進(jìn)行計(jì)算,從中選出最好的特征輸入。在小的數(shù)據(jù)集條件下,此方法可以使用較少的特征值,并得出精度較高的預(yù)測(cè)結(jié)果;Li X等人[9]將氨基酸序列映射到核函數(shù)當(dāng)中,并與線性支持向量機(jī)一起進(jìn)行降維處理,用交叉驗(yàn)證的方法證明此方法比其它方法要好;M.Gk等人[10]采用多種氨基酸編碼方案,并結(jié)合線性分類(lèi)器進(jìn)行預(yù)測(cè),建議利用基于氨基酸特征的正交與泰勒維恩圖結(jié)合編碼OETMAP方案,有助于提高分類(lèi)識(shí)別精度;Song J[11]提出了基于多特征的支持向量機(jī)回歸預(yù)測(cè)方法,這種方法對(duì)多種蛋白酶切割位點(diǎn)進(jìn)行預(yù)測(cè),其中的特征提取與選擇分別通過(guò)雙色貝葉斯方法和基尼得分決定,并證明此模型可行;Niu B等人[12]提出了基于相關(guān)特征的子集選擇方法,其結(jié)合遺傳算法可以從大量的特征中選擇最優(yōu)的特征子集,這種方法在交叉驗(yàn)證中的效果要好于其它方法;T.Rgnvaldsson等人[13]利用支持向量機(jī)對(duì)多八聚蛋白數(shù)據(jù)進(jìn)行預(yù)測(cè),指出數(shù)據(jù)的大小是影響預(yù)測(cè)模型預(yù)測(cè)精度的主要因素,對(duì)于利用正交編碼的氨基酸數(shù)據(jù),線性模型對(duì)其分類(lèi)效果較好,其中線性支持向量機(jī)的分類(lèi)效果最好,其它編碼方法與正交編碼相比并未產(chǎn)生更具優(yōu)勢(shì)的效果。綜上所述,HIV1蛋白酶的切割位點(diǎn)預(yù)測(cè)主要是通過(guò)特征提取和分類(lèi)模型進(jìn)行預(yù)測(cè),使用較多的是支持向量機(jī)模型,很少使用長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)(long shortterm memory,LSTM)[1418]進(jìn)行分類(lèi)識(shí)別。基于此,本文使用長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)對(duì)HIV1蛋白酶切割位點(diǎn)進(jìn)行預(yù)測(cè),進(jìn)一步探究長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)是否有助于提高HIV1蛋白酶切割位點(diǎn)預(yù)測(cè)的準(zhǔn)確率。

1HIV1蛋白酶切割位點(diǎn)預(yù)測(cè)分析

HIV1蛋白酶切割位點(diǎn)預(yù)測(cè)問(wèn)題為一種分類(lèi)問(wèn)題,分類(lèi)器從大量已知數(shù)據(jù)中學(xué)習(xí)特征變量與目標(biāo)變量之間的數(shù)學(xué)關(guān)系,未知結(jié)果的數(shù)據(jù)通過(guò)訓(xùn)練完成的分類(lèi)器來(lái)預(yù)測(cè)此數(shù)據(jù)的目標(biāo)值。分類(lèi)器的預(yù)測(cè)方式為

Pre=f(x1,x2,x3,…,x8)

式中,f()表示分類(lèi)器;x1,x2,…,x8表示8個(gè)氨基酸的數(shù)據(jù)編碼向量;Pre表示預(yù)測(cè)值,取值為1或-1,其中,1表示能被切割,-1表示不能被切割。

目前,使用最多的氨基酸編碼方式有如下2種:

1)標(biāo)準(zhǔn)正交編碼(orthonormal encoding,OE)。自然界共有20種氨基酸,每種氨基酸用20位二進(jìn)制數(shù)表示,其中只有一位有效,其值為1,其它位值為0。一個(gè)八聚蛋白由8個(gè)氨基酸組成,那么八聚蛋白的編碼便是160位的數(shù)據(jù)向量,所以標(biāo)準(zhǔn)正交編碼是氨基酸序列的排列組合數(shù)據(jù)。

2)泰勒維恩圖編碼(taylors venndiagram,TVD)。每一個(gè)氨基酸的編碼由氨基酸分子的物理化學(xué)特性組成,本文選取氨基酸的9種特性編碼,八聚蛋白每個(gè)氨基酸的TVD編碼如表1所示。其中,每列的大寫(xiě)字母表示各種氨基酸,每行代表氨基酸的不同性質(zhì)。

本文分別使用標(biāo)準(zhǔn)正交編碼和TVD編碼作為分類(lèi)器的輸入數(shù)據(jù),分類(lèi)器采用長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)模型。長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)模型如圖1所示,與普通神經(jīng)網(wǎng)絡(luò)模型不同的是,長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)的隱含層在第1次計(jì)算結(jié)束后,隱含層的輸出值會(huì)同下次計(jì)算的輸入層輸入值一起進(jìn)入隱含層繼續(xù)計(jì)算,直到整條序列的最后一個(gè)輸入向量計(jì)算結(jié)束后,隱含層的輸出值會(huì)進(jìn)入輸出層,計(jì)算輸出。按時(shí)間計(jì)算,長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)模型如圖2所示,x1,x2,…,x8分別表示八聚蛋白每個(gè)氨基酸的編碼向量,即x1表示第一個(gè)氨基酸的向量。x1由輸入層傳播到隱含層,t1時(shí)刻在隱含層計(jì)算完畢后,其輸出值與x2一起作為t1時(shí)刻計(jì)算的輸入值,再次在隱含層進(jìn)行計(jì)算,以此類(lèi)推,直到最后一個(gè)氨基酸編碼向量在隱含層計(jì)算完畢,傳播至輸出層進(jìn)行計(jì)算,最終輸出層輸出目標(biāo)值。為防止過(guò)擬合,本文在對(duì)長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算時(shí)使用了dropout算法[1920],即神經(jīng)網(wǎng)絡(luò)層與層各節(jié)點(diǎn)之間的連接以某種概率丟棄。

2評(píng)價(jià)指標(biāo)和結(jié)果分析

本文數(shù)據(jù)來(lái)自文獻(xiàn)[13]中的Schilling Data和Impens Data,將2個(gè)數(shù)據(jù)集進(jìn)行融合,對(duì)其中的氨基酸分別進(jìn)行標(biāo)準(zhǔn)正交編碼和TVD編碼,用長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器對(duì)HIV1蛋白酶切割位點(diǎn)進(jìn)行預(yù)測(cè)。將分類(lèi)的正確率和模型的接收機(jī)工作特性曲線下部面積(area under curve of ROC,AUC)作為評(píng)價(jià)指標(biāo),并與支持向量機(jī)模型進(jìn)行對(duì)比分析。

支持向量機(jī)模型分別采用線性核函數(shù)和徑向基核函數(shù),其中,線性核函數(shù)支持向量機(jī)懲罰因子的取值范圍為[2-5,25],徑向基核函數(shù)支持向量機(jī)懲罰因子的取值范圍為[1,27]。在懲罰因子取不同值的條件下,線性支持向量機(jī)十折交叉驗(yàn)證如圖3所示。當(dāng)數(shù)據(jù)采取標(biāo)準(zhǔn)正交編碼,且C=2-3時(shí),支持向量機(jī)正確率取得最優(yōu)值9289%;當(dāng)數(shù)據(jù)采用TVD編碼,且C=2-15時(shí),支持向量機(jī)分類(lèi)正確率取最優(yōu)值90423%。在懲罰因子取不同值的條件下,徑向基函數(shù)支持向量機(jī)十折交叉驗(yàn)證如圖4所示。當(dāng)數(shù)據(jù)采取標(biāo)準(zhǔn)正交編碼,且C=23時(shí),支持向量機(jī)正確率取最優(yōu)值92914%;當(dāng)數(shù)據(jù)采用TVD編碼,且C=235時(shí),支持向量機(jī)分類(lèi)正確率取最優(yōu)值91276%。

本文長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)采用隨機(jī)梯度下降的方法進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程中,為防止過(guò)擬合,采用droupout方法,即在每次訓(xùn)練過(guò)程中,神經(jīng)網(wǎng)絡(luò)的隱含層和輸出層之間各節(jié)點(diǎn)的連接以一定的概率被丟棄。本文對(duì)正交編碼的長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)設(shè)置隱含層與輸出層連接被丟棄的概率為25%,訓(xùn)練時(shí)的學(xué)習(xí)率為003。神經(jīng)網(wǎng)絡(luò)最終的預(yù)測(cè)識(shí)別率除了受訓(xùn)練迭代次數(shù)的影響,還受隱含層神經(jīng)元節(jié)點(diǎn)數(shù)量的影響,因此本文正交編碼長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)設(shè)置的迭代次數(shù)i的取值范圍為[200,800],其中增長(zhǎng)步長(zhǎng)為100,隱含層的節(jié)點(diǎn)數(shù)量n的取值范圍為[7,15]。長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)的隱含層外部激活函數(shù)分別取Sigmoid函數(shù)和線性函數(shù)。在正交編碼條件下,Sigmoid長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)十折交叉驗(yàn)證(OE)結(jié)果如表2所示。

達(dá)到最優(yōu)。在此對(duì)其訓(xùn)練數(shù)量進(jìn)行更為精確的訓(xùn)練,即在神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)量為13的條件下,訓(xùn)練迭代次數(shù)取值范圍為[360,440],增長(zhǎng)步長(zhǎng)為20。Sigmoid長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)交叉驗(yàn)證結(jié)果如表3所示,由表3可以看出,當(dāng)?shù)螖?shù)為420時(shí),長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)正確率為93197 5%,達(dá)到最優(yōu)。

正交編碼條件下,線性長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)十折交叉驗(yàn)證結(jié)果如表4所示。由表4可以看出,在神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)為11,訓(xùn)練迭代次數(shù)為300時(shí),長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)分類(lèi)正確率為91110 8%,達(dá)到最優(yōu)。

對(duì)于TVD編碼的長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)隱含層外部激活函數(shù)分別采用sigmoid函數(shù)和線性函數(shù)。Sigmoid函數(shù)長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)的數(shù)量取值范圍為[8,15],迭代次數(shù)取值范圍為[100,600],Dropout丟棄概率為02,訓(xùn)練學(xué)習(xí)率為005。Sigmoid長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)交叉驗(yàn)證結(jié)果如表5所示。在TVD編碼的條件下,Sigmoid長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)量為14,訓(xùn)練迭代次數(shù)為200時(shí),分類(lèi)正確率最高為91513 8%。

線性函數(shù)長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)的數(shù)量取值范圍為[8,15],迭代次數(shù)取值范圍為[100,500],dropout丟棄概率為02,訓(xùn)練學(xué)習(xí)率為002。線性長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)交叉驗(yàn)證結(jié)果如表6所示,在TVD編碼的條件下,線性長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)量為9,訓(xùn)練迭代次數(shù)為400時(shí),分類(lèi)正確率最高為89523 7%。

由表6可以看出,各分類(lèi)器在正交編碼條件下的分類(lèi)正確率均高于在TVD編碼條件下的分類(lèi)正確率,且在兩種編碼中,Sigmoid長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)的分類(lèi)正確率最高,徑向基函數(shù)支持向量機(jī)略高于線性支持向量機(jī),線性長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)分類(lèi)正確率最低。然而單憑分類(lèi)的識(shí)別率并不能反映分類(lèi)器的真實(shí)分類(lèi)能力,尤其在正負(fù)樣本分布不平衡的條件下。因此,本文選取AUC作為評(píng)價(jià)指標(biāo),AUC是接收機(jī)工作特性(receiver operating characteristic curve,ROC)[21]曲線下方的面積,是判斷二分類(lèi)預(yù)測(cè)模型優(yōu)劣的標(biāo)準(zhǔn),AUC的值越大越好。

編碼條件下,Sigmoid長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)的AUC值均最高,線性支持向量機(jī)高于徑向基函數(shù)支持向量機(jī),而線性長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)最低。

3結(jié)束語(yǔ)

本文通過(guò)長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)對(duì)HIV1蛋白酶切割位點(diǎn)進(jìn)行分類(lèi)預(yù)測(cè),與常用的支持向量機(jī)模型做對(duì)比,結(jié)果證明各分類(lèi)器在OE編碼的條件下分類(lèi)正確率要好于在TVD編碼條件下的分類(lèi)正確率,且在OE編碼條件下用Sigmoid長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)分類(lèi)的效果最佳,說(shuō)明Sigmoid長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)有助于提高對(duì)HIV1蛋白酶切割位點(diǎn)分類(lèi)預(yù)測(cè)的正確率,在HIV1蛋白酶抑制劑研究方面具有重要意義。但是分類(lèi)器的AUC值并沒(méi)有達(dá)到較高的數(shù)值,還需進(jìn)一步優(yōu)化分類(lèi)模型,提升分類(lèi)器的性能。

參考文獻(xiàn):

[1]Rognvaldsson T, You L, Garwicz D. Bioinformatic Approaches for Modeling the Substrate Specificity of HIV1 Protease:An Overview[J]. Expert Review of Molecular Diagnostics, 2007, 7(4): 435451.

[2]Rgnvaldsson T, Etchells T A, You L. How to Find Simple and Accurate Rules for Viral Protease Cleavage Specificities[J]. BMC Bioinformatics, 2009, 10(1): 149.

[3]Jaeger S, Chen S S. Information Fusion for Biological Prediction[J]. Journal of Data Science, 2010, 8(2): 269288.

[4]Simon Haykin. 神經(jīng)網(wǎng)絡(luò)原理[M]. 北京: 機(jī)械工業(yè)出版社, 2004.

[5]Ito Y. Representation of Functions by Superpositions of a Step or Sigmoid Function and Their Applications to Neural Network Theory[J]. Neural Networks, 1991, 4(3): 385394.

[6]Cortes C, Vpanik V. Support Vector Networks[J]. Machine Learning, 1995, 20(3): 273297.

[7]Williams C K I. Learning with Kernels: SupportVectorMachines, Regularization, Optimization, and Beyond[J]. Publications of the American Statistical Association, 2002, 98(462): 489.

[8]Kim G, Kim Y, Lim H, et al. An MLPBased Feature Subset Selection for HIV1 Protease Cleavage Site Analysis[J]. Artificial Intelligence in Medicine, 2010, 48(2/3): 83.

[9]Li X, Hu H, Shu L. Predicting Human Immunodeficiency Virus Protease Cleavage Sites in Nonlinear Projection Space[J]. Molecular and Cellular Biochemistry, 2010, 339(1/2): 127133.

[10]Gk M, zcerit A T. A New Feature Encoding Scheme for HIV1 Protease Cleavage Site Prediction[J]. Neural Computing and Applications, 2013, 22(7/8): 17571761.

[11]Song J, Tan H, Perry A J, et al. PROSPER: an integrated featurebased tool for predicting Protease Substrate Cleavage Sites[J]. Plos One, 2012, 7(11): e50300.

[12]Niu B, Yuan X C, Roeper P. HIV1 Protease Cleavage Site Prediction Based on Twostage Feature Selection Method[J]. Protein & Peptide Letters, 2013, 20(3): 290298.

[13]Rgnvaldsson T, You L, Garwicz D. State of the Art Prediction of HIV1 Protease Cleavage Sites[J]. Bioinformatics, 2015, 31(8): 12041210.

[14]Hochreiter S, Schmidhuber J. Long ShortTerm Memory[J]. Neural Computation, 1997, 9(8): 17351780.

[15]Gers F A, Schmidhuber J, Cummins F. Learning to Forget: Continual Prediction with LSTM[J]. Neural Computation, 2000, 12(10): 24512471.

[16]Graves A, Schmidhuber J. Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures[J]. Neural Networks, 2005, 18(5): 602610.

[17]Werbos P J. Backpropagation Through Time: What it does and How to do it[J]. Proceedings of the IEEE, 1990, 78(10): 15501560.

[18]Gers F A, Schraudolph N N. Learning Precise Timing with Lstm Recurrent Networks[J]. Journal of Machine Learning Research, 2003, 3(1): 115143.

[19]Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 19291958.

[20]Tobergte D R, Curtis S. Improving. Neural Networks with Dropout[J]. Chemical Information and Modeling, 2013, 9(53): 16891699.

[21]Spackman K A. Signal Detection Theory: Valuable Tools for Evaluating Inductive Learning[J]. International Workshop on Machine Learning, 1989, 283: 160163.

Research on Prediction of HIV1 Protease Cleavage Sites

FAN Guangpeng, SUN Rencheng, SHAO Fengjing

(College of Computer Science and Technology, Qingdao University, Qingdao 266071, China)

Abstract: To effectively reduce the rate of HIV replication in the human body, this article uses the Long ShortTerm Memory to classify HIV1 protease cleavage sites. Using the Long ShortTerm Memory neural network model as the main classification model, the standard orthogonal encoding and TVD encoding of the amino acids are respectively used as the input of the classification model. The output of the model result is represented by 1 and -1, where 1 means that it can be cut, and -1 means that it can not be cut. Long ShortTerm Memory model was subjected to ten fold cross validation and AUC evaluation, and the support vector machine model is used as a comparative model for analysis. The analysis results show that under the condition of orthogonal encoding, the classification accuracy and AUC value of the Long ShortTerm Memory neural network with sigmoid activation function are best. The radial basis function support vector machine is slightly higher than the linear support vector machine. Long ShortTerm Memory neural networks with linear activation function have the lowest classification accuracy, and they are useful for the research of HIV1 protease inhibitors. The research has a certain practical significance.

Key words: support vector machine; long shortterm memory; HIV1 protease; amino acids

猜你喜歡
支持向量機(jī)氨基酸
無(wú)土栽培水芹不同器官的氨基酸特征及其資源化利用潛力分析
飼料氨基酸釋放動(dòng)態(tài)對(duì)豬氮素利用影響的研究進(jìn)展
科學(xué)解讀食物中的蛋白質(zhì)如何分“優(yōu)劣”
補(bǔ)氨基酸不如吃雞蛋
基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
基于SVM的煙草銷(xiāo)售量預(yù)測(cè)
動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
长治市| 平凉市| 郎溪县| 衡阳市| 关岭| 汽车| 神农架林区| 安西县| 卫辉市| 宣化县| 许昌市| 凤冈县| 微山县| 托克逊县| 柳河县| 桐庐县| 阜新市| 临汾市| 涞源县| 额敏县| 伊吾县| 庄浪县| 华亭县| 白水县| 衡山县| 灌云县| 客服| 宁南县| 南京市| 壤塘县| 九江市| 会泽县| 鄂伦春自治旗| 长治县| 武宁县| 双柏县| 江城| 廊坊市| 额敏县| 荥经县| 沅江市|