国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)在抗菌肽藥物研究中的應(yīng)用進(jìn)展

2023-08-25 05:21:41朱尤卓劉紅玉游宇豪鄭珩
中國(guó)抗生素雜志 2023年4期
關(guān)鍵詞:抗菌肽特征向量深度學(xué)習(xí)

朱尤卓?劉紅玉?游宇豪?鄭珩

摘要:抗菌肽(AMP)作為未來最有希望解決病原微生物耐藥性的新型抗菌藥物之一,其研發(fā)備受關(guān)注??咕囊话爿^短,組成多樣,迄今人們已發(fā)現(xiàn)數(shù)千條天然抗菌肽,并建立了多個(gè)公開的抗菌肽數(shù)據(jù)庫,為新型抗菌肽的研發(fā)和設(shè)計(jì)奠定了基礎(chǔ)。另一方面,深度學(xué)習(xí)和人工智能作為信息處理的有力工具,已被大量應(yīng)用于醫(yī)學(xué)影像信息處理、疾病診斷、藥物設(shè)計(jì)等領(lǐng)域,在抗菌肽的設(shè)計(jì)和研發(fā)上也受到廣泛關(guān)注。在抗菌肽的信息描述方面,人們使用了偽氨基酸殘基組成、位置特異性評(píng)分矩陣、獨(dú)熱碼等多種特征向量;在深度學(xué)習(xí)方法上,研究人員應(yīng)用了循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、對(duì)抗生成網(wǎng)絡(luò)等多種算法,開發(fā)了ACEP、CLaSS等抗菌肽活性預(yù)測(cè)和序列生成模型。這些模型有望加速新型抗菌肽的發(fā)現(xiàn),為應(yīng)對(duì)耐藥菌感染,尤其是臨床上難以治療的耐藥性革蘭陰性菌感染,提供新的手段。

關(guān)鍵詞:深度學(xué)習(xí);抗菌肽;數(shù)據(jù)庫;特征向量

中圖分類號(hào):R978.1文獻(xiàn)標(biāo)志碼:A

Application progress of deep learning in antimicrobial peptide drug research

Zhu You-zhuo, Liu Hong-yu, You Yu-hao, and Zheng Heng

(School of Life Science and Technology, China Pharmaceutical University, Nanjing 211198)

Abstract As one of the most promising new antimicrobial therapy to solve the drug resistance of pathogenic microorganisms in the future, the research and development of antimicrobial peptides (AMP) has attracted much attention. Antimicrobial peptides generally have short sequences and diverse composition. By now, thousands of natural antimicrobial peptides have been discovered, and many public antimicrobial peptide databases have been established, which lays a foundation for the research and develop of new antimicrobial peptides. On the other hand, as powerful tools of information processing, deep learning and artificial intelligence have been widely used in medical image processing, disease diagnosis, drug design, and so on. They have also attracted extensive attention in the design and research of antimicrobial peptides. For the descriptors of antimicrobial peptides, people use a variety of feature vectors such as pseudo amino acid composition, position specific scoring matrix, and one-hot coding. In the deep learning method, researchers apply a variety of algorithms such as Recurrent Neural Network, convolutional neural network, and Generative Adversarial Networks, and develop the models of antimicrobial peptide activity prediction and sequence generation such as ACEP and CLaSS. These models are expected to accelerate the discovery of new antimicrobial peptides, and provide new means to deal with drug-resistant bacterial infection, especially drug-resistant Gram-negative bacterial infections that are difficult to treat clinically.

Key words Deep learning; Antimicrobial peptides; Database; Eigenvector

一份抗生素耐藥性的評(píng)估報(bào)告指出,2050年可能有1000萬人死于耐藥細(xì)菌感染[1]。雖然目前上市的抗生素對(duì)治療絕大多數(shù)感染仍有效[2],但由于人類長(zhǎng)期廣泛使用抗生素,越來越多的耐藥菌出現(xiàn),尤其令人擔(dān)憂的多重耐藥菌,包括屎腸球菌、金黃色葡萄球菌、肺炎克雷伯菌、鮑曼不動(dòng)桿菌、銅綠假單胞菌、腸桿菌屬等,它們?cè)斐闪酸t(yī)院中的許多嚴(yán)重感染[3]。目前作為治療耐藥菌的最后手段的碳青霉烯類抗生素和黏菌素也開始面臨耐藥性的問題[4],因此需要新的抗菌藥物來應(yīng)對(duì)這一問題。

抗菌肽(antimicrobial peptide, AMP)是最有希望解決耐藥菌問題的新型抗菌藥物之一,序列一般較短,組成變化多樣,但多為陽離子兩親性多肽分子,其抗菌作用具有多種可能機(jī)制,其中最常見的是通過與帶負(fù)電荷的脂多糖(革蘭陰性)或脂磷壁酸(革蘭陽性)的磷酸基團(tuán)的靜電相互作用到達(dá)細(xì)胞膜,以庫侖力吸附于細(xì)胞膜或進(jìn)入細(xì)胞,隨后膜破裂、細(xì)胞質(zhì)滲漏,導(dǎo)致細(xì)菌死亡[5]??咕耐ㄟ^靶向整個(gè)細(xì)胞成分,而不是特定的分子,具有廣譜的抗菌活性,同時(shí)避開了碳青霉烯類和替加環(huán)素等單一靶點(diǎn)藥物的耐藥性機(jī)制,該生化特性和藥效學(xué)性質(zhì)使其比傳統(tǒng)抗生素更難耐藥[6]??上У氖?,雖然迄今人們已發(fā)現(xiàn)成千上萬條天然抗菌肽,且已有多個(gè)抗菌肽數(shù)據(jù)庫被建立并公開,但是一方面由于抗生素新藥研發(fā)耗時(shí)、昂貴、失敗率高且盈利空間小,新抗菌藥物的研發(fā)進(jìn)入了冷門期,大型制藥公司已基本放棄該市場(chǎng)[2],另一方面因抗菌肽結(jié)構(gòu)不穩(wěn)定性、多肽易降解和非特異性膜裂解的體內(nèi)毒性等因素,限制了抗菌肽臨床使用[7]。目前只有極少數(shù)公開的AMP獲得美國(guó)食品和藥物管理局(Food and Drug Administration, FDA)的批準(zhǔn)[8]。

深度學(xué)習(xí)作為大數(shù)據(jù)處理的有力工具,已被大量應(yīng)用于醫(yī)學(xué)影像信息處理、疾病診斷、藥物設(shè)計(jì)等領(lǐng)域,其有著高效且準(zhǔn)確的判別能力,Stokes等[9]就利用深度神經(jīng)網(wǎng)絡(luò)從1.07億個(gè)分子發(fā)現(xiàn)了在小鼠體內(nèi)有廣譜抗菌活性的新抗生素halicin,使用這一方法可在4 d內(nèi)完成十多億化合物分子的虛擬篩選,其效率遠(yuǎn)超傳統(tǒng)的篩選手段。這是一種可以低成本、高效地發(fā)現(xiàn)活性高、毒性低以及結(jié)構(gòu)穩(wěn)定能臨床應(yīng)用的抗菌肽的新方法。

深度學(xué)習(xí)是根據(jù)經(jīng)驗(yàn)(數(shù)據(jù))自動(dòng)確定深層網(wǎng)絡(luò)參數(shù)的一門科學(xué),它主要利用包含多個(gè)隱藏層的深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)大量數(shù)據(jù)中的潛在規(guī)律以輸出可靠結(jié)果,常見有監(jiān)督和無監(jiān)督學(xué)習(xí)兩種方式。當(dāng)通過訓(xùn)練而最小化的損失是網(wǎng)絡(luò)輸出和預(yù)先指定的期望輸出(即訓(xùn)練集中的明確標(biāo)簽)之間的誤差的度量時(shí),訓(xùn)練被稱為有監(jiān)督的,如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)。當(dāng)通過訓(xùn)練而最小化的損失不涉及一組樣本輸入的預(yù)先指定的期望輸出時(shí),該訓(xùn)練被稱為無監(jiān)督,如對(duì)抗生成網(wǎng)絡(luò)(generative adversarial networks, GAN)、自動(dòng)編碼器(auto encoder, AE)[10]。深度學(xué)習(xí)方法雖然在大數(shù)據(jù)分析中具有普適性,但在不同應(yīng)用中每個(gè)節(jié)點(diǎn)的處理上又具有特殊性,圖1展示了深度學(xué)習(xí)處理抗菌肽數(shù)據(jù)的一般過程,前兩步中數(shù)據(jù)來源與數(shù)據(jù)處理方法是明顯區(qū)別于深度學(xué)習(xí)在其他方面的應(yīng)用,另外,不同的神經(jīng)網(wǎng)絡(luò)模型具有不同的用途,CNN和RNN常被用于抗菌肽的活性預(yù)測(cè)[11-14],而GAN和AE則多被用于抗菌肽序列生成[15-17],但RNN有時(shí)也會(huì)被用于序列生成[18],這些都是值得我們特別去關(guān)注的。

1 收集數(shù)據(jù)集

抗菌肽又稱宿主防御肽(host defensin peptide, HDP),廣泛存在于自然界生物中[19]。自1922年發(fā)現(xiàn)溶菌酶開始,到1950年代左右發(fā)現(xiàn)桿菌肽和萬古霉素,再到1980年代人們掀起一波對(duì)AMP的研究熱潮,每年發(fā)現(xiàn)的AMP數(shù)量從1990年代的約50個(gè)增加到2000年的約100個(gè)[20],2010—2015年更是平均每年發(fā)表12,000篇相關(guān)文章[21],各種抗菌肽的序列、結(jié)構(gòu)、活性以及修飾等信息越來越多被公開。研究者對(duì)這些信息進(jìn)行收集整理,構(gòu)建了許多抗菌肽數(shù)據(jù)庫。表1展示一些通用抗菌肽數(shù)據(jù)庫及其相關(guān)信息,更多特定的抗菌肽數(shù)據(jù)庫可以查看文獻(xiàn)[22]。

對(duì)于有監(jiān)督學(xué)習(xí),數(shù)據(jù)集中的每一個(gè)條目都有一個(gè)標(biāo)簽,作為期望輸出。在抗菌肽活性預(yù)測(cè)等二分類問題中,這一標(biāo)簽通常是有活性(陽性)或無活性(陰性),具有不同標(biāo)簽的數(shù)據(jù)組成不同的數(shù)據(jù)集,陽性數(shù)據(jù)集常在抗菌肽數(shù)據(jù)庫中收集,陰性數(shù)據(jù)集則多在其他蛋白質(zhì)多肽數(shù)據(jù)庫中收集,兩者作為訓(xùn)練集和測(cè)試集輸入神經(jīng)網(wǎng)絡(luò)。表2展示了一些常見的蛋白質(zhì)多肽數(shù)據(jù)庫,更多的多肽數(shù)據(jù)庫可以查看文獻(xiàn)[29]。而對(duì)于無監(jiān)督學(xué)習(xí),數(shù)據(jù)不需要標(biāo)注,Das等[17]就設(shè)計(jì)了可以在UniProt數(shù)據(jù)庫中報(bào)告的所有肽序列(可能無注釋)上訓(xùn)練的無監(jiān)督學(xué)習(xí)模型。

2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)的特征是決定神經(jīng)網(wǎng)絡(luò)訓(xùn)練上限的關(guān)鍵因素。對(duì)于收集到的抗菌肽和其他多肽數(shù)據(jù)集,往往需要預(yù)處理把它轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)可識(shí)別的數(shù)據(jù),即構(gòu)建抗菌肽的特征參數(shù)或特征描述符??咕奶卣鳂?gòu)建不僅借鑒計(jì)算機(jī)科學(xué)處理序列問題時(shí)使用的獨(dú)熱編碼(one-hot encoder)、特征張量嵌入(feature tensor embedding)和Word2vec詞嵌入等方式,同時(shí)還伴隨生物信息學(xué)和計(jì)算生物學(xué)的進(jìn)步產(chǎn)生更復(fù)雜和更具描述性的特征,這些特征不僅與理化性質(zhì)有關(guān),而且與微觀層面的順序結(jié)構(gòu)以及進(jìn)化信息等有關(guān),如氨基酸組成(amino acid composition, AAC),偽氨基酸組成(pseudo amino acid composition, PseAAC),位置特異性評(píng)分矩陣(position-specific scoring matrix, PSSM)等。

獨(dú)熱編碼是一種較為經(jīng)典的多肽序列編碼方式。它指的是分配20個(gè)輸入單元來描述一個(gè)蛋白質(zhì)殘基,在二十維空間中,如用向量[1, 0, 0, 0…0, 0, 0]表示丙氨酸,[0, 0, 0…0, 0, 0, 1]表示纈氨酸[34]。獨(dú)熱編碼作為一種多肽序列特征能在一定程度上反應(yīng)多肽的序列信息,但它數(shù)據(jù)過于離散,很難捕捉到氨基酸之間的相似之處和不同之處[35]。特征張量嵌入則能較好地解決這一點(diǎn),它利用概率生成的張量對(duì)氨基酸殘基編碼,該編碼成為模型可訓(xùn)練的一部分,將氨基酸映射到可訓(xùn)練的實(shí)數(shù)張量,使用反向傳播算法不斷更新這些實(shí)數(shù)張量,氨基酸之間的相似性和差異性便可通過張量之間的幾何距離來度量[11,35]。Word2vec詞嵌入是自然語言處理中的一種網(wǎng)絡(luò)模型,基于從大量文檔語料庫中收集鄰近的單詞數(shù)據(jù),通過訓(xùn)練數(shù)據(jù)所學(xué)得的參數(shù),即隱層的權(quán)重矩陣,生成該詞語具有上下文屬性的嵌入特征向量,其中類似向量往往分配給出現(xiàn)在類似上下文中的單詞。Hamid等[36]把多肽序列中的連續(xù)3個(gè)氨基酸作為一個(gè)“詞”,然后利用Word2vec中的skip-gram模型生成的詞嵌入向量,用于細(xì)菌素識(shí)別。

氨基酸組成是Nakashima和Nishikawa在1994年提出的,它現(xiàn)在一般指多肽序列中20種氨基酸分別出現(xiàn)的頻率,是一個(gè)有20個(gè)組分的向量[37-38]。在此基礎(chǔ)上,發(fā)展出了偽氨基酸組成,其利用位置間隔為λ的氨基酸的疏水性值、親水性值以及側(cè)鏈質(zhì)量等(都進(jìn)行歸一化處理)計(jì)算λ階相關(guān)系數(shù)(θλ),若以向量X表示多肽的偽氨基酸組成,那么X中的前20個(gè)組分是歸一化處理后第i種氨基酸出現(xiàn)頻率?i(i=20),反映了氨基酸組成的影響,后λ個(gè)元素是歸一化處理后有一定權(quán)重值ω的θλ,反映了氨基酸順序和理化性質(zhì)的影響[39]?,F(xiàn)人們可以通過網(wǎng)頁服務(wù)器http://chou.med.harvard.edu/bioinf/PseAA/生成所需的PseAAC[40]。在PseAAC的基礎(chǔ)上,還發(fā)展出了偽K-tuple減少氨基酸組成(pseudo K-tuple reduced amino acids composition, PseKRAAC)[41]等方法。

位置特異性評(píng)分矩陣(PSSM)是進(jìn)化信息的一種常見表示[42],一個(gè)長(zhǎng)為L(zhǎng)的多肽序列中,其每一個(gè)位置氨基酸突變?yōu)?0種氨基酸的概率就構(gòu)成了大小為L(zhǎng)×20的PSSM矩陣[43]。PSSM矩陣可以通過PSI-BLAST程序獲得,被Fu等[11]用于抗菌肽識(shí)別并獲得了不錯(cuò)的結(jié)果。

3 深度學(xué)習(xí)模型及應(yīng)用

深度學(xué)習(xí)是由多個(gè)處理層組成的計(jì)算模型,可學(xué)習(xí)具有多個(gè)抽象特征的數(shù)據(jù),并通過反向傳播算法來指示機(jī)器應(yīng)該如何更新內(nèi)部參數(shù),從而發(fā)現(xiàn)大數(shù)據(jù)集中的復(fù)雜結(jié)構(gòu),它已經(jīng)在預(yù)測(cè)潛在藥物分子的活性等方面擊敗了其他機(jī)器學(xué)習(xí)技術(shù)[44],同時(shí)它在抗菌肽抗菌活性預(yù)測(cè)以及序列生成等方面也有著不錯(cuò)的表現(xiàn)。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基本結(jié)構(gòu)由輸入層、卷積層(convolutional layer)、池化層(pooling layer,也稱為取樣層)、全連接層及輸出層構(gòu)成,可以有效地降低網(wǎng)絡(luò)的復(fù)雜度,減少訓(xùn)練參數(shù)的數(shù)目,使模型對(duì)平移、扭曲、縮放具有一定程度的不變性,并具有強(qiáng)魯棒性和容錯(cuò)能力,且也易于訓(xùn)練和優(yōu)化[45]。Yan等[12]利用PseKRAAC和卷積神經(jīng)網(wǎng)絡(luò)開發(fā)了一個(gè)基于序列的短AMP分類模型,稱為Deep-AmPEP30,該模型準(zhǔn)確率比現(xiàn)有的基于機(jī)器學(xué)習(xí)的方法提高了77%,并且發(fā)現(xiàn)了與氨芐青霉素活性相當(dāng)?shù)目咕腜3(FWELWKFLKSLWSIFPRRRP)。

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類非常強(qiáng)大的用于處理和預(yù)測(cè)序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型,通過隱藏層上的回路連接,使得前一時(shí)刻的網(wǎng)絡(luò)狀態(tài)能夠傳遞給當(dāng)前時(shí)刻,當(dāng)前時(shí)刻的狀態(tài)也可以傳遞給下一個(gè)時(shí)刻[46],使得序列中的元素相互關(guān)聯(lián),另外人們通過在RNN單元中引入輸入門,輸出門和遺忘門,構(gòu)建了長(zhǎng)短期記憶模型(long short-term memory, LSTM),不僅提高標(biāo)準(zhǔn)循環(huán)單元的記憶能力,同時(shí)也解決了長(zhǎng)期依賴的問題[47]。Wang等[18]搭建基于LSTM和雙向LSTM的模型成功地生成并篩選到可能具有抗大腸埃希菌活性的新型AMPs。

深度學(xué)習(xí)用于抗菌肽研究時(shí),往往不局限于用單一的神經(jīng)網(wǎng)絡(luò)分析抗菌肽數(shù)據(jù)集。Daniel等[13]就構(gòu)建了一個(gè)包含嵌入層(embedding layer),卷積層(convolutional layer),最大池化層(max pooling layer)和LSTM層的深層神經(jīng)網(wǎng)絡(luò)模型,可以正確識(shí)別超過 98% APD 3數(shù)據(jù)庫中的對(duì)革蘭陽性或革蘭陰性細(xì)菌具有活性的AMP。

另外深度生成模型也被用于抗菌肽序列的自動(dòng)生成。自動(dòng)編碼器(AE)可通過編碼器和解碼器學(xué)習(xí)輸入分子特征(及其屬性),然后在潛在數(shù)據(jù)空間進(jìn)行雙向映射來生成新的分子,已被用于設(shè)計(jì)一個(gè)完全自動(dòng)化的計(jì)算框架CLaSS。CLaSS使用自動(dòng)編碼器在多肽分子信息構(gòu)建的潛在數(shù)據(jù)空間上進(jìn)行訓(xùn)練,再利用線性插值的方法在空間中采樣生成新的多肽序列,然后使用深度學(xué)習(xí)分類器以及從高通量分子動(dòng)力學(xué)模擬得出的物理化學(xué)特征,來篩選生成的多肽分子,可用于廣譜的AMP序列的從頭設(shè)計(jì)與篩選。Das等[17]使用該方法獲得兩條對(duì)各種革蘭陽性和革蘭陰性病原菌(包括多重耐藥的肺炎克雷伯菌)具有較高效力的抗菌肽YI12(YLRLIRYMAKMI)和FK13(FPLTWLKWWKWKK),同時(shí)它們?cè)谛∈髮?shí)驗(yàn)中也顯示了較低的毒性。除了自動(dòng)編碼器,生成對(duì)抗網(wǎng)絡(luò)(GAN)也被用于產(chǎn)生新的抗菌肽,它通過生成模型和判別模型的相互博弈學(xué)習(xí),而產(chǎn)生較好的輸出結(jié)果。Tucs等[15]設(shè)計(jì)的PepGAN模型可以控制生成序列的概率分布,使之盡可能多地覆蓋活性肽,用該模型生成了一個(gè)最低抑菌濃度僅為氨芐西林一半的高活性抗菌肽AMP4 (GLKKLFSKIKIGSALKNLA) 。表3總結(jié)了一些用于抗菌肽研究的深度學(xué)習(xí)模型。

4 模型的評(píng)估及不足之處

對(duì)于深度學(xué)習(xí)模型的評(píng)估,通常包括計(jì)算和實(shí)驗(yàn)兩大類的方法,在計(jì)算上常使用靈敏度(sensitivity)、特異性(specificity)、準(zhǔn)確率(accuracy)以及馬修相關(guān)系數(shù)(matthews correlation coefficient,MCC)等作為評(píng)估指標(biāo),使用測(cè)試數(shù)據(jù)集來判斷模型的準(zhǔn)確性。但由于現(xiàn)有的抗菌肽特征表示方法,尚難以完整地描述抗菌肽特征,也缺乏可以模擬和描述AMP各種結(jié)構(gòu)及物理化學(xué)特性的堅(jiān)實(shí)理論[49],其生成和預(yù)測(cè)結(jié)果并不完全可信,因此常常需要與其他方法結(jié)合加以驗(yàn)證,比如Puentes等[50]提出了4種新興技術(shù)相結(jié)合的抗菌肽設(shè)計(jì)篩選流程,包括人工智能、分子動(dòng)力學(xué)、微生物表面展示(surface-display in microorganisms)和微流控(microfluidics),前兩個(gè)是篩選和設(shè)計(jì)的計(jì)算機(jī)策略,而后兩個(gè)對(duì)應(yīng)于實(shí)驗(yàn)方法的合成和測(cè)試。使用實(shí)驗(yàn)合成并測(cè)試設(shè)計(jì)篩選的新型抗菌肽的活性,可以更準(zhǔn)確地評(píng)估模型的效果,同時(shí)也可以發(fā)現(xiàn)一些有潛力的新抗菌肽。

另一方面,限制抗菌肽臨床應(yīng)用的一個(gè)問題是毒副作用相對(duì)較大,尤其是溶血性問題,但是深度神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)進(jìn)行學(xué)習(xí),目前可收集到抗菌肽相關(guān)溶血毒性實(shí)驗(yàn)數(shù)據(jù)較少,因此對(duì)于抗菌肽溶血毒性等深度學(xué)習(xí)預(yù)測(cè)模型也較少。在小分子藥物毒性預(yù)測(cè)方面,人們已經(jīng)開發(fā)了一些數(shù)據(jù)庫和算法,如ToxAlert[51]和商業(yè)軟件Discovery Stadio中的ADMET模塊,這些方法通過統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法,歸納出潛在的毒性結(jié)構(gòu)基團(tuán),用于化合物分子的毒性預(yù)測(cè)。但是對(duì)于多肽,尤其是天然氨基酸組成的多肽,在其組成成分上通常沒有明確的毒性基團(tuán),另一方面由于多肽結(jié)構(gòu)的欠缺,也使得基于結(jié)構(gòu)毒性基團(tuán)預(yù)測(cè)較為困難。因此,在該領(lǐng)域還需要加強(qiáng)相關(guān)的研究,以促進(jìn)抗菌肽的臨床應(yīng)用。

5 總結(jié)與展望

目前,深度學(xué)習(xí)和人工智能技術(shù)可以加速藥物發(fā)現(xiàn),在很大程度上為抗耐藥菌感染藥物的研發(fā)提供了新的化合物。對(duì)于只含天然氨基酸的抗菌肽序列,上述多種特征構(gòu)建方法可用于深度學(xué)習(xí),以預(yù)測(cè)抗菌活性或產(chǎn)生新的抗菌肽,但對(duì)于含復(fù)雜修飾且未知空間結(jié)構(gòu)的抗菌肽,如訂書肽(即在多肽結(jié)構(gòu)中加入一個(gè)碳?xì)鋫?cè)鏈或其他類型側(cè)鏈以穩(wěn)定其二級(jí)結(jié)構(gòu)的多肽)[52],尚缺乏合適的結(jié)構(gòu)表征方法,并且由于相應(yīng)非天然抗菌肽的數(shù)據(jù)量較少,難以構(gòu)建深度學(xué)習(xí)模型??上驳氖?,深度遷移學(xué)習(xí)以及圖神經(jīng)網(wǎng)絡(luò)等新的算法出現(xiàn),有希望解決這些難題,前者可以在小數(shù)據(jù)集數(shù)據(jù)不足的情況下,先在大數(shù)據(jù)集上預(yù)訓(xùn)練,然后在特定目標(biāo)數(shù)據(jù)集(即小數(shù)據(jù)集)上微調(diào)模型參數(shù)以實(shí)現(xiàn)模型在小數(shù)據(jù)集上的良好表現(xiàn)[53],后者則是能將多肽分子中原子和鍵轉(zhuǎn)變?yōu)楣?jié)點(diǎn)與邊的圖結(jié)構(gòu)進(jìn)行學(xué)習(xí),實(shí)現(xiàn)對(duì)多肽復(fù)雜結(jié)構(gòu)的表征,已被用于多肽毒性的預(yù)測(cè)[54]。同時(shí)抗菌肽等多肽以及蛋白質(zhì)的數(shù)據(jù)庫在不斷地完善和豐富,更大的數(shù)據(jù)源變得公開可用,這些數(shù)據(jù)可以被進(jìn)一步挖掘,并用于探索化學(xué)空間的新領(lǐng)域[55]。因此隨著計(jì)算方法的發(fā)展和抗菌肽數(shù)據(jù)的增加,以深度學(xué)習(xí)為代表的人工智能方法,有望成為應(yīng)對(duì)多重耐藥菌問題以及發(fā)現(xiàn)新型抗菌藥物的重要技術(shù)手段。

參 考 文 獻(xiàn)

ONiel J. Tackling drug-resistant infections globally: Final report and recommendations[R]. London: Government of the United Kingdom, 2016: 1.

Rdal C, Balasegaram M, Laxminarayan R, et al. Antibiotic development-economic, regulatory and societal challenges[J]. Nat Rev Microbiol, 2019, 18(5): 267-274.

Tommasi R, Brown D G, Walkup G K, et al. ESKAPEing the labyrinth of antibacterial discovery[J]. Nat Rev Drug Discov, 2015, 14(8): 529.

沙國(guó)萌, 陳冠軍, 王祿山. 抗生素耐藥性的研究進(jìn)展與控制策略[J]. 微生物學(xué)通報(bào), 2020, 47(10): 3369-3379.

Lazzaro B P, Zasloff M, Rolff J. Antimicrobial peptides: Application informed by evolution[J]. Science, 2020, 368(6490): eaau5480.

Nagarajan D, Roy N, Kulkarni O, et al. Ω76: A designed antimicrobial peptide to combat carbapenem- and tigecycline-resistant Acinetobacter baumannii[J]. Sci Adv, 2019, 5(7): eaax1946.

Mourtada R, Herce H D, Yin D J, et al. Design of stapled antimicrobial peptides that are stable, nontoxic and kill antibiotic-resistant bacteria in mice[J]. Nat Biotechnol, 2019, 37(10): 1186-1197.

Annunziato G, Costantino G. Antimicrobial peptides (AMPs): A patent review (2015-2020)[J]. Expert Opin Ther Patents, 2020, 30(12): 931-947.

Stokes J M, Yang K, Swanson K, et al. A deep learning approach to antibiotic discovery[J]. Cell, 2020, 180(4): 688-702.e13.

Kriegeskorte N, Golan T. Neural network models and deep learning[J]. Curr Biol, 2019, 29(7): R225-R240.

Fu H, Cao Z, Li M, et al. ACEP: Improving antimicrobial peptides recognition through automatic feature fusion and amino acid embedding[J]. BMC Genomics, 2020, 21(1): 597.

Yan J, Bhadra P, Li A, et al. Deep-AmPEP30: Improve short antimicrobial peptides prediction with deep learning[J]. Mol Ther-Nucl Acids, 2020, 20: 882-894.

Daniel V, Uday K, Amarda S. Deep learning improves antimicrobial peptide recognition[J]. Bioinformatics, 2018, 34(16): 2740-2747.

Müller A T, Hiss J A, Schneider G. Recurrent neural network model for constructive peptide design[J]. J Chem Inf Model, 2018, 58(2): 472-479.

Tucs A, Tran D P, Yumoto A, et al. Generating ampicillin-level antimicrobial peptides with activity-aware generative adversarial networks[J]. ACS Omega, 2020, 5(36): 22847-22851.

Dean S N, Walper S A. Variational autoencoder for generation of antimicrobial peptides[J]. ACS Omega, 2020, 5(33): 20746-20754.

Das P, Sercu T, Wadhawan K, et al. Accelerated antimicrobial discovery via deep generative models and molecular dynamics simulations[J]. Nat Biomed Eng, 2021, 5(6): 613-623.

Wang C, Garlick S, Zloh M. Deep learning for novel antimicrobial peptide design[J]. Biomolecules, 2021, 11(3): 471.

Boparai J K, Sharma P K. Mini review on antimicrobial peptides, sources, mechanism and recent applications[J]. Protein Pept Lett, 2020, 1(27): 4-16.

Wang G. The antimicrobial peptide database provides a platform for decoding the design principles of naturally occurring antimicrobial peptides[J]. Protein Sci, 2019, 29(1): 8-18.

Ageitos J M, Sánchez-Pérez A, Calo-Mata P, et al. Antimicrobial peptides (AMPs): Ancient compounds that represent novel weapons in the fight against bacteria[J]. Biochem Pharmacol, 2017, 133: 117-138.

Liu S, Fan L, Sun J, et al. Computational resources and tools for antimicrobial peptides[J]. J Pept Sci, 2017, 23(1): 4-12.

Wang G, Li X, Wang Z. APD3: The antimicrobial peptide database as a tool for research and education[J]. Nucleic Acids Res, 2016, 44(1): 1087-1093.

Hanif W F, Shankar B R, Pratima G, et al. CAMPR3: A database on sequences, structures and signatures of antimicrobial peptides[J]. Nucleic Acids Res, 2016, 44(1): 1094-1097.

Shi G B, Kang X Y, Dong, F Y, et al. DRAMP 3.0: An enhanced comprehensive data repository of antimicrobial peptides[J]. Nucleic Acids Res, 2021, 50(1): 488-496.

Malak P, Amstrong A A, Maia G, et al. DBAASP v3: Database of antimicrobial/cytotoxic activity and structure of peptides as a resource for development of new therapeutics[J]. Nucleic Acids Res, 2021, 49(1): 288-297.

Jhong J H,Chi Y H,Li W C, et al. dbAMP: An integrated resource for exploring antimicrobial peptides with functional activities and physicochemical properties on transcriptome and proteome data[J]. Nucleic Acids Res, 2018, 47(1): 285-297.

Ye G, Wu H, Huang J, et al. LAMP2: A major update of the database linking antimicrobial peptides[J]. Database, 2020, 2020: baaa061.

Dong F Y, Zhao G L, Tong H, et al. The prospect of bioactive peptide research: A review on databases and tools[J]. Curr Bioinform, 2020, 16(4): 494-504.

Duchrow T, Shtatland T, Guettler D, et al. Enhancing navigation in biomedical databases by community voting and database-driven text classification[J]. BMC Bioinformatics, 2009, 10(1): 317.

Das D, Jaiswal M, Khan F N, et al. PlantPepDB: A manually curated plant peptide database[J]. Sci Rep, 2020, 10(1): 2194.

Wang J, Yin T, Xiao X, et al. StraPep: a structure database of bioactive peptides[J]. Database, 2018, 2018: bay038.

Choo K H, Tan T W, Ranganathan S. SPdb-a signal peptide database[J]. BMC Bioinformatics, 2005, 6: 249.

Lin K, May A, Taylor W R. Amino acid encoding schemes from protein structure alignments: Multi-dimensional vectors to describe residue types[J]. J Theor Biol, 2002, 216(3): 361-365.

ElAbd H, Bromberg Y, Hoarfrost A. Amino acid encoding for deep learning applications[J]. BMC Bioinformatics, 2020, 21(10): 660-668.

Hamid M N, Friedberg I, Hancock J. Identifying antimicrobial peptides using word embedding with deep recurrent neural networks[J]. Bioinformatics, 2018, 35(12): 2009-2016.

Nakashima H, Nishikawa K. Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies[J]. J Mol Bio, 1994, 238(1): 54.

Guo Z, Yang S, Hu Q, et al. A transverse and longitudinal encoding of protein sequence and its application[J]. J Comput Theor Nanosci, 2013, 10(2): 271-275.

Chou K C. Prediction of protein cellular attributes using pseudo-amino acid composition[J]. Proteins, 2001, 43(3): 246-255.

Shen H B, Chou K C. PseAAC: A flexible web server for generating various kinds of protein pseudo amino acid composition[J]. Anal Biochem, 2008, 373(2): 386-388.

Zuo Y, Yuan L, Chen Y, et al. PseKRAAC: A flexible web server for generating pseudo K-tuple reduced amino acids composition[J]. Bioinformatics, 2016, 33(1): 122-124.

Liu Y, Gong W, Yang Z, et al. SNB-PSSM: A spatial neighbor-based PSSM used for protein-RNA binding site prediction[J]. J Mol Recognit, 2021, 34(6): e2887.

Ruan X, Zhou D, Nie R, et al. Predictions of apoptosis proteins by integrating different features based on improving pseudo-position-specific scoring matrix[J]. Biomed Res Int, 2020, 2020: 4071508.

Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436.

周飛燕, 金林鵬, 董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017, 40(6): 1229-1251.

楊麗, 吳雨茜, 王俊麗, 等. 循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(S2): 1-6, 26.

Yu Y, Si X, Hu C, et al. A review of recurrent neural networks: LSTM cells and network architectures[J]. Neural Comput, 2019, 31(7): 1235-1270.

Dean S N, Alvarez J, Dan Z, et al. PepVAE: Variational autoencoder framework for antimicrobial peptide generation and activity prediction[J]. Front Microbiol, 2021, 12: 725727.

Torres M, Fuente-Nunez C. Reprogramming biological peptides to combat infectious diseases[J]. Chem Commun, 2019, 55(100): 15020-15032.

Puentes P R, Henao M C, Torres C E, et al. Design, screening, and testing of non-rational peptide libraries with antimicrobial activity: In silico and experimental approaches[J]. Antibiotics-Basel, 2020, 9(12): 854.

Sushko I, Salmina E, Potemkin V A, et al. ToxAlerts: A web server of structural alerts for toxic chemicals and compounds with potential adverse reactions[J]. J Chem Inf Model, 2012, 52(8): 2310-2316.

Tan Y S, Lane D P, Verma C S. Stapled peptide design: Principles and roles of computation[J], Drug Discov Today, 2016, 21(10): 1642-1653.

Cai C, Wang S, Xu Y, et al. Transfer learning for drug discovery[J]. J Med Chem, 2020, 63(16): 8683-8694.

Wei L, Ye X, Xue Y, et al. ATSE: A peptide toxicity predictor by exploiting structural and evolutionary information based on graph neural network and attention mechanism[J]. Brief Bioinform, 2021, 22(5):? bbab041.

Melo M, Maasch J, De La Fuente-Nunez C. Accelerating antibiotic discovery through artificial intelligence[J]. Commun Biol, 2021, 4(1): 1050.

猜你喜歡
抗菌肽特征向量深度學(xué)習(xí)
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
抗菌肽的生物學(xué)特性及在畜禽養(yǎng)殖中的應(yīng)用
一類特殊矩陣特征向量的求法
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
新型抗菌肽菌絲霉素純化工藝研究
廣東飼料(2016年5期)2016-12-01 03:43:21
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
乐清市| 永和县| 镇江市| 射洪县| 扶绥县| 中宁县| 天柱县| 威海市| 江孜县| 明溪县| 壤塘县| 舟曲县| 吴桥县| 祁阳县| 五家渠市| 遂溪县| 玛沁县| 怀仁县| 页游| SHOW| 昌都县| 嘉义市| 永平县| 临沭县| 山西省| 柞水县| 方城县| 桓仁| 师宗县| 安仁县| 忻州市| 小金县| 塔河县| 盐边县| 和龙市| 双峰县| 阿瓦提县| 棋牌| 福泉市| 琼结县| 田林县|