国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能輔助的蛋白質(zhì)穩(wěn)定性優(yōu)化

2024-05-20 15:16李瑞趙陽(yáng)張晗楊廣宇
上海醫(yī)藥 2024年4期
關(guān)鍵詞:人工智能

李瑞 趙陽(yáng) 張晗 楊廣宇

摘 要 蛋白質(zhì)藥物具有作用機(jī)制清晰、作用特異性強(qiáng)、不良反應(yīng)少等優(yōu)勢(shì),臨床應(yīng)用前景巨大。蛋白質(zhì)的穩(wěn)定性是蛋白質(zhì)藥物的一項(xiàng)非常重要的指標(biāo),對(duì)于其成藥性、安全性和有效性都至關(guān)重要。近年來(lái),人工智能輔助的蛋白質(zhì)改造工程逐漸發(fā)展成為一種高效的蛋白質(zhì)分子設(shè)計(jì)新策略,并被廣泛應(yīng)用于蛋白質(zhì)穩(wěn)定性預(yù)測(cè)、藥物設(shè)計(jì)和抗體優(yōu)化等方面。本文介紹主要的人工智能輔助的蛋白質(zhì)穩(wěn)定性優(yōu)化方法,討論不同種類(lèi)優(yōu)化方法的優(yōu)劣及其在蛋白質(zhì)藥物設(shè)計(jì)和優(yōu)化中的應(yīng)用,探討人工智能在蛋白質(zhì)穩(wěn)定性設(shè)計(jì)中的挑戰(zhàn)和前景,以期為研究者們開(kāi)發(fā)更穩(wěn)定、更高效的蛋白質(zhì)藥物提供新的思路。

關(guān)鍵詞 人工智能 蛋白質(zhì)穩(wěn)定性 蛋白質(zhì)藥物

中圖分類(lèi)號(hào):TP399; Q819 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-1533(2024)07-0010-06

引用本文 李瑞, 趙陽(yáng), 張晗, 等. 人工智能輔助的蛋白質(zhì)穩(wěn)定性優(yōu)化[J]. 上海醫(yī)藥, 2024, 45(7): 10-15; 75.

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(32030063);國(guó)家自然科學(xué)基金青年科學(xué)基金資助項(xiàng)目(BC0800411);廣東省重點(diǎn)領(lǐng)域研發(fā)計(jì)劃資助項(xiàng)目(2022B1111050001)

Artificial intelligence-assisted protein stability optimization

LI Rui1, ZHAO Yang1, ZHANG Han1, YANG Guangyu1, 2

(1. State Key Laboratory of Microbial Metabolism, Shanghai Jiao Tong University School of Life Science and Biotechnology, Shanghai 200240, China; 2. Institute of Key Raw Materials, Shanghai Academy of Experimental Medicine, Shanghai 200240, China)

ABSTRACT Protein drugs have the advantages of strong targeting, clear mechanism of action and fewer adverse reactions, so they have great application prospects in clinic. The stability of protein is one of the most important properties of protein drugs, which is crucial for drugs efficacy, safety and stability. In recent years, protein engineering assisted by artificial intelligence (AI) has been developed into an efficient strategy for protein molecular design, and has been widely used in protein stability prediction, drug design and antibody optimization. In this paper, we introduce several major methods of AI-assisted protein stability optimization, discuss their advantages and disadvantages and their applications in protein drug design and optimization. We also discuss the challenges and prospects of AI in protein stability design. We hope this paper will provide new ideas for researchers to develop more stable and efficient protein drugs.

KEY WORDS artificial intelligence; protein stability; protein drugs

蛋白質(zhì)藥物是指以蛋白質(zhì)為活性成分的藥物,主要包括單克隆抗體、重組蛋白、抗體-藥物結(jié)合物、融合蛋白和重組蛋白疫苗等,具有高特異性、高有效性和較低毒副作用的特點(diǎn)。蛋白質(zhì)藥物已廣泛用于治療癌癥、自身免疫性疾病、心血管疾病、糖尿病、神經(jīng)系統(tǒng)疾病等,其市場(chǎng)規(guī)模在過(guò)去幾年中持續(xù)增長(zhǎng),2020年僅單克隆抗體藥品的全球銷(xiāo)售額就達(dá)到1 250億美元,占當(dāng)年全球藥品總銷(xiāo)售額的15%。蛋白質(zhì)的穩(wěn)定性是限制蛋白質(zhì)藥物發(fā)展的主要瓶頸之一。開(kāi)發(fā)具有高度穩(wěn)定性的蛋白質(zhì)藥物對(duì)于確保藥物的質(zhì)量、藥效、安全性和方便臨床使用都具有重要意義[1]。

傳統(tǒng)的蛋白質(zhì)穩(wěn)定性優(yōu)化方法主要包括定向進(jìn)化、半理性設(shè)計(jì)和理性設(shè)計(jì)等,它們都已廣泛應(yīng)用于蛋白質(zhì)的穩(wěn)定性工程[2-3]。隨著計(jì)算機(jī)技術(shù)和人工智能算法的不斷發(fā)展,人工智能方法也開(kāi)始應(yīng)用于蛋白質(zhì)工程,并逐漸發(fā)展成為一種新的蛋白質(zhì)穩(wěn)定性改造方法[4-6]。相較于傳統(tǒng)的蛋白質(zhì)穩(wěn)定性改造方法,人工智能輔助的蛋白質(zhì)穩(wěn)定性工程的優(yōu)點(diǎn)是不需要了解目標(biāo)蛋白質(zhì)分子的作用機(jī)制和三維結(jié)構(gòu)等信息,也不依賴(lài)對(duì)突變體文庫(kù)的高通量篩選方法,故可有效減輕實(shí)驗(yàn)篩選負(fù)擔(dān),提高蛋白質(zhì)分子改造效率[7-8]。此外,人工智能方法可以學(xué)習(xí)突變體的不同特征,從數(shù)據(jù)中學(xué)習(xí)整個(gè)蛋白質(zhì)適應(yīng)性景觀來(lái)避免陷入局部最優(yōu)陷阱[9-10]。因此,通過(guò)人工智能輔助的蛋白質(zhì)穩(wěn)定性優(yōu)化策略,有望基于有限數(shù)量的實(shí)驗(yàn)數(shù)據(jù)來(lái)有效設(shè)計(jì)最具穩(wěn)定性的突變體,此具有非常重要的科學(xué)和現(xiàn)實(shí)意義。目前,研究者們已開(kāi)發(fā)出多種人工智能模型,這些模型根據(jù)學(xué)習(xí)方式可分為監(jiān)督學(xué)習(xí)模型和無(wú)監(jiān)督學(xué)習(xí)模型,也可根據(jù)算法類(lèi)型分為回歸模型和分類(lèi)模型等。在面對(duì)如此繁多的模型時(shí),如何選擇適合特定任務(wù)的模型成為關(guān)鍵問(wèn)題。本文介紹不同人工智能模型在蛋白質(zhì)穩(wěn)定性優(yōu)化方面的應(yīng)用及其優(yōu)缺點(diǎn),總結(jié)人工智能模型在抗體藥物和藥物合成相關(guān)酶穩(wěn)定性優(yōu)化方面的應(yīng)用成果。

1 人工智能輔助的蛋白質(zhì)穩(wěn)定性優(yōu)化方法

人工智能是指通過(guò)計(jì)算機(jī)系統(tǒng)模擬人類(lèi)智能的能力,這種智能包括理解語(yǔ)言、學(xué)習(xí)、推理、感知、解決問(wèn)題和自適應(yīng)等方面的能力,目的是讓計(jì)算機(jī)系統(tǒng)能夠執(zhí)行需要人類(lèi)智能才能完成的任務(wù)。人工智能應(yīng)用于蛋白質(zhì)穩(wěn)定性優(yōu)化的方法主要依賴(lài)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法。機(jī)器學(xué)習(xí)是人工智能的分支領(lǐng)域,其目標(biāo)是通過(guò)使用算法和統(tǒng)計(jì)模型,讓計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)中學(xué)習(xí)并提高性能,主要算法包括偏最小二乘回歸、支持向量機(jī)、決策樹(shù)/隨機(jī)森林、貝葉斯優(yōu)化、變分自編碼器和神經(jīng)網(wǎng)絡(luò)等。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種特殊形式,其試圖模仿人類(lèi)大腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其工作原理,通過(guò)構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)復(fù)雜的特征和模式,常用算法包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、自編碼器、生成對(duì)抗網(wǎng)絡(luò)等。根據(jù)上述算法搭建的模型可以分為監(jiān)督學(xué)習(xí)模型和無(wú)監(jiān)督學(xué)習(xí)模型。監(jiān)督學(xué)習(xí)模型的特點(diǎn)是在訓(xùn)練階段使用帶有標(biāo)記的數(shù)據(jù)集進(jìn)行學(xué)習(xí),通過(guò)讓模型學(xué)習(xí)輸入數(shù)據(jù)和對(duì)應(yīng)的輸出標(biāo)記之間的關(guān)系,使模型能夠?qū)π碌摹⑽匆?jiàn)過(guò)的輸入數(shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測(cè)或分類(lèi)。無(wú)監(jiān)督學(xué)習(xí)模型的特點(diǎn)是在訓(xùn)練階段使用不帶標(biāo)記的數(shù)據(jù)集進(jìn)行學(xué)習(xí),讓模型自主在數(shù)據(jù)中發(fā)現(xiàn)內(nèi)在的結(jié)構(gòu)、模式或規(guī)律,而不依賴(lài)于預(yù)先標(biāo)記的輸出[11]?;诓煌瑱C(jī)器學(xué)習(xí)算法建立的人工智能模型,根據(jù)其在蛋白質(zhì)穩(wěn)定性優(yōu)化方面的應(yīng)用范圍不同,可主要分為如下4類(lèi)。

1.1 基于氨基酸物理化學(xué)特征的建模

基于氨基酸物理化學(xué)特征的建模是利用氨基酸的物理化學(xué)性質(zhì)來(lái)預(yù)測(cè)蛋白質(zhì)的性質(zhì)或行為,將氨基酸的物理化學(xué)特征(如氫鍵、疏水效應(yīng)等)作為輸入特征,通過(guò)機(jī)器學(xué)習(xí)模型學(xué)習(xí)這些特征與蛋白質(zhì)穩(wěn)定性之間的關(guān)系。例如,AAindex利用547個(gè)氨基酸物理化學(xué)指標(biāo)來(lái)表示氨基酸殘基[12];VHSE給出了20個(gè)氨基酸的總共50個(gè)物理化學(xué)變量,并使用主成分分析方法進(jìn)行降維,最終得到八維的氨基酸向量表示[13]。相似的還有z-Scales[14]、BLOSUM[15]等。將此類(lèi)表示與機(jī)器學(xué)習(xí)算法相結(jié)合,Chen等[16-17]開(kāi)發(fā)出2種用于核酸和蛋白質(zhì)序列分析、預(yù)測(cè)和可視化的綜合機(jī)器學(xué)習(xí)平臺(tái)iLearn和iLearnPlus,這2種平臺(tái)集成了12種分類(lèi)算法、2種集成學(xué)習(xí)框架和7種深度學(xué)習(xí)方法用于預(yù)測(cè)任務(wù),提供19種主要的編碼方案(生成147個(gè)特征描述符)用于全面的特征提取,并有能夠適用于具有不同計(jì)算機(jī)專(zhuān)業(yè)知識(shí)用戶的特點(diǎn)。

基于氨基酸物理化學(xué)性質(zhì)的模型能夠捕捉氨基酸分子間的物理化學(xué)相互作用及其特性,這種方法不需要復(fù)雜的實(shí)驗(yàn)數(shù)據(jù),容易上手,通常與生物化學(xué)和生物物理學(xué)的理論基礎(chǔ)相對(duì)應(yīng),使人更容易解釋和理解模型在蛋白質(zhì)研究中的作用和意義。但此類(lèi)模型通常會(huì)對(duì)氨基酸的性質(zhì)進(jìn)行簡(jiǎn)化處理,從而忽略更復(fù)雜的分子結(jié)構(gòu)及其相互作用,損失部分原始信息。

1.2 基于蛋白質(zhì)序列或結(jié)構(gòu)的建模

早期基于蛋白質(zhì)序列建模的主要原理是將20種氨基酸表示為不同維度的向量,通過(guò)不同氨基酸向量拼接組合來(lái)表示蛋白質(zhì)序列,再與機(jī)器學(xué)習(xí)算法相結(jié)合,用于預(yù)測(cè)蛋白質(zhì)的穩(wěn)定性,如One-hot[18]、Binary[19]和Identity[20]。隨著蛋白質(zhì)序列數(shù)據(jù)庫(kù)的不斷擴(kuò)大,機(jī)器學(xué)習(xí)模型能夠通過(guò)對(duì)大量蛋白質(zhì)序列進(jìn)行保守性分析來(lái)更全面地理解蛋白質(zhì)序列與穩(wěn)定性的關(guān)系。例如,Benevenuta和Pancotti等[21-22]基于CNN,將突變鄰近氨基酸的局部信息作為輸入,開(kāi)發(fā)出ACDC模型;Montanucci等[23]使用非線性回歸結(jié)合進(jìn)化信息和統(tǒng)計(jì)潛力預(yù)測(cè),開(kāi)發(fā)出DDGun模型。

隨著結(jié)構(gòu)生物學(xué)技術(shù)的進(jìn)步,基于蛋白質(zhì)序列的模型被廣泛應(yīng)用于蛋白質(zhì)工程。例如,Bagley等[24]在Feature方法的基礎(chǔ)上,將每個(gè)氨基酸的局部結(jié)構(gòu)先分解為氧、碳、氮和硫通道,然后再將由每種原子類(lèi)型通道得到的三維位置矩陣堆疊在一起,從而產(chǎn)生四維張量,以此作為模型的輸入[25]。Shroff等[26]優(yōu)化了三維CNN方法,增加了成對(duì)電子、氫鍵網(wǎng)絡(luò)、溶劑可及性等信息,開(kāi)發(fā)出網(wǎng)頁(yè)版的程序Mutcomputer。由于蛋白質(zhì)序列數(shù)據(jù)的獲取相對(duì)容易,這使得基于蛋白質(zhì)序列模型的開(kāi)發(fā)和應(yīng)用比較廣泛,模型也更加易被理解和解釋。蛋白質(zhì)晶體結(jié)構(gòu)包含了蛋白質(zhì)的空間信息、相互作用信息等。因此,基于蛋白質(zhì)結(jié)構(gòu)的模型在預(yù)測(cè)蛋白質(zhì)特性方面具有較高的準(zhǔn)確性。然而,基于蛋白質(zhì)序列或結(jié)構(gòu)的描述符往往具有高維性,而對(duì)于特定任務(wù),很難先驗(yàn)地知道哪種屬性可以預(yù)測(cè)特定的任務(wù)。

1.3 數(shù)據(jù)驅(qū)動(dòng)的方法

由于二代測(cè)序技術(shù)的高通量性和低成本性,蛋白質(zhì)序列數(shù)據(jù)庫(kù)中的數(shù)據(jù)已達(dá)上億條,這些數(shù)據(jù)中隱藏著蛋白質(zhì)氨基酸排列和進(jìn)化的規(guī)律[27]。AlphaFold2是一種深度學(xué)習(xí)模型,其能以極高的準(zhǔn)確度根據(jù)蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)三級(jí)結(jié)構(gòu)[28]。蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)的擴(kuò)展推動(dòng)了蛋白質(zhì)序列表示方法的發(fā)展和深度學(xué)習(xí)模型在蛋白質(zhì)工程中的應(yīng)用。

數(shù)據(jù)驅(qū)動(dòng)的方法利用大量已知的蛋白質(zhì)數(shù)據(jù)集,通過(guò)學(xué)習(xí)蛋白質(zhì)特征與穩(wěn)定性之間的關(guān)系,對(duì)未知蛋白質(zhì)的穩(wěn)定性進(jìn)行預(yù)測(cè)。例如,UniRep模型系在一個(gè)大型未標(biāo)記的蛋白質(zhì)序列數(shù)據(jù)集上訓(xùn)練,利用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提取蛋白質(zhì)的基本特征,包括生物物理、結(jié)構(gòu)和進(jìn)化信息,從而形成一個(gè)整體的統(tǒng)計(jì)表示[29]。通過(guò)學(xué)習(xí)特定任務(wù)的局部蛋白質(zhì)序列信息的eUniRep模型擁有能較UniRep模型更準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)穩(wěn)定性的能力[30]。DeepMind在Transformer架構(gòu)[31]的基礎(chǔ)上,開(kāi)發(fā)了TAPE模型用于處理蛋白質(zhì)序列數(shù)據(jù)[32],這個(gè)模型能夠同時(shí)考慮輸入序列的所有位置,而不需要像傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)或CNN那樣依次處理序列中的每個(gè)元素。相似的MSATransformer模型通過(guò)對(duì)編碼數(shù)據(jù)庫(kù)中2 600萬(wàn)條同源蛋白質(zhì)的多重序列比對(duì)來(lái)學(xué)習(xí)蛋白質(zhì)序列在進(jìn)化過(guò)程中的約束信息[33]。Facebook團(tuán)隊(duì)使用來(lái)自Uniref90數(shù)據(jù)集的0.98億條具有進(jìn)化多樣性的蛋白質(zhì)序列數(shù)據(jù)訓(xùn)練了一個(gè)具有6.5億個(gè)參數(shù)量的Transformer架構(gòu)ESM-1v模型,該模型在4個(gè)深度突變掃描數(shù)據(jù)集上進(jìn)行了zero-shot零樣本評(píng)估并達(dá)到了超過(guò)基線的水平[34]。類(lèi)似的還有EVmutation[35]、DeepSequence[36]、ECNet[10]、SESNet[37]等模型。

最近,基于大模型的蛋白質(zhì)從頭設(shè)計(jì)方法也被應(yīng)用于蛋白質(zhì)穩(wěn)定性優(yōu)化。這是一項(xiàng)涉及計(jì)算方法和實(shí)驗(yàn)驗(yàn)證的復(fù)雜任務(wù),它允許精確地定制蛋白質(zhì)的結(jié)構(gòu)和功能,以滿足特定的應(yīng)用需求,如藥物設(shè)計(jì)、生物催化等;也能拓展已知的蛋白質(zhì)結(jié)構(gòu)空間,創(chuàng)造出在自然界中不存在的新穎蛋白質(zhì)結(jié)構(gòu),從而提供新的功能。例如,F(xiàn)erruz等[38]開(kāi)發(fā)的ProtGPT2模型。Madani等[39]以包含2.8億條獨(dú)特的蛋白質(zhì)序列數(shù)據(jù)進(jìn)行訓(xùn)練,這些蛋白質(zhì)序列與生物過(guò)程、分子功能和分類(lèi)信息相關(guān)的10多個(gè)標(biāo)記相關(guān)聯(lián),開(kāi)發(fā)了ProGen模型。Baker團(tuán)隊(duì)使用trRosetta結(jié)構(gòu)[40]預(yù)測(cè)神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)出一種全新的熒光素酶,后者具有高活性和高特異性[41]。此外,ESMIF1[42]、ESMFold[43]、ProteinMPNN[44]等模型也被應(yīng)用于蛋白質(zhì)從頭設(shè)計(jì)以改善蛋白質(zhì)的穩(wěn)定性。

數(shù)據(jù)驅(qū)動(dòng)的方法能夠根據(jù)不同的數(shù)據(jù)集和任務(wù)自動(dòng)調(diào)整模型參數(shù)和結(jié)構(gòu),具有較強(qiáng)的靈活性和適應(yīng)性,通過(guò)以大規(guī)模數(shù)據(jù)集的訓(xùn)練、分析和學(xué)習(xí),數(shù)據(jù)驅(qū)動(dòng)的模型有可能發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的潛在模式和規(guī)律,從而提高模型的準(zhǔn)確性和泛化能力,最終提供更加準(zhǔn)確的預(yù)測(cè)和決策。但此類(lèi)模型往往需要經(jīng)過(guò)大規(guī)模數(shù)據(jù)集的訓(xùn)練,模型的性能很大程度上取決于訓(xùn)練數(shù)據(jù)的質(zhì)量和完整性,如果數(shù)據(jù)存在噪聲、缺失或偏差等問(wèn)題,模型的準(zhǔn)確性和穩(wěn)定性會(huì)受到很大影響,且模型在訓(xùn)練過(guò)程中很容易出現(xiàn)過(guò)度擬合,導(dǎo)致模型在新數(shù)據(jù)上的泛化能力較差,從而出現(xiàn)預(yù)測(cè)偏差的情況。

1.4 遷移學(xué)習(xí)

遷移學(xué)習(xí)旨在利用在一個(gè)任務(wù)上學(xué)到的知識(shí)來(lái)改善對(duì)新任務(wù)的學(xué)習(xí)性能。此類(lèi)模型利用已有的蛋白質(zhì)穩(wěn)定性數(shù)據(jù)集,將已學(xué)到的知識(shí)應(yīng)用到新的蛋白質(zhì)穩(wěn)定性預(yù)測(cè)任務(wù)中,以提高模型的泛化能力。通過(guò)遷移學(xué)習(xí),原有數(shù)據(jù)的先驗(yàn)知識(shí)被整合到當(dāng)前的建模任務(wù)中,進(jìn)一步的訓(xùn)練稱(chēng)為微調(diào),微調(diào)過(guò)程中原有模型的參數(shù)可保持不變,也可被進(jìn)一步更新(可看作是在源模型所提取的特征之上構(gòu)建了一個(gè)獨(dú)立的新模型)。與使用隨機(jī)初始化的參數(shù)從頭開(kāi)始訓(xùn)練的模型相比,遷移學(xué)習(xí)的訓(xùn)練過(guò)程能更快地收斂,且所需數(shù)據(jù)量更少[45]。例如,Chen等[46]提出了一種利用突變結(jié)構(gòu)和進(jìn)化背景的GVP-MSA模型,該模型通過(guò)學(xué)習(xí)不同蛋白質(zhì)的適應(yīng)度景觀,能有效評(píng)估目標(biāo)蛋白質(zhì)的突變穩(wěn)定性。Pandi等[47]先使用來(lái)自UniProt的約150萬(wàn)條多肽序列作為通用數(shù)據(jù)集對(duì)基于變分自編碼器算法的機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)訓(xùn)練,然后使用約有5 000個(gè)已知抗菌肽的數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,最后利用所得模型從頭設(shè)計(jì)了數(shù)千種抗菌肽,篩選出排名靠前的500種抗菌肽,再結(jié)合無(wú)細(xì)胞生物合成體系進(jìn)行篩選,鑒定出30種功能性多肽,并通過(guò)分子動(dòng)力學(xué)模擬、抗菌活性和毒性進(jìn)行了表征,最終鑒定出6種具有抗多藥耐藥病原體廣譜活性的新型抗菌肽。Bepler等[48]使用語(yǔ)言模型從大量蛋白質(zhì)序列數(shù)據(jù)庫(kù)中提取信息,并引入一種將蛋白質(zhì)結(jié)構(gòu)知識(shí)編碼到學(xué)習(xí)表征中的方法搭建了MTLSTM模型。該模型可根據(jù)提供的蛋白質(zhì)序列,解碼蛋白質(zhì)的每個(gè)位置是否存在跨膜區(qū)域。Bepler等[48]還證明了能夠通過(guò)遷移學(xué)習(xí)來(lái)準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)序列微小變化的功能含義,提高了對(duì)蛋白質(zhì)從序列到表型的預(yù)測(cè)能力。

遷移學(xué)習(xí)模型的數(shù)據(jù)效率高,尤其是在目標(biāo)領(lǐng)域數(shù)據(jù)稀缺或難以獲取的情況下表現(xiàn)突出,同時(shí)可以提高對(duì)目標(biāo)領(lǐng)域的泛化能力和學(xué)習(xí)效果,使模型更好地適應(yīng)新的任務(wù)或數(shù)據(jù)。相對(duì)于從零開(kāi)始訓(xùn)練的模型,遷移學(xué)習(xí)能夠大大減少訓(xùn)練時(shí)間和降低成本,提高模型的開(kāi)發(fā)效率。但遷移學(xué)習(xí)的有效性是建立在源領(lǐng)域和目標(biāo)領(lǐng)域存在相關(guān)性或相似性的假設(shè)上的,如果這兩領(lǐng)域間的差異較大,遷移學(xué)習(xí)就可能失效。在某些情況下,遷移學(xué)習(xí)還可能導(dǎo)致負(fù)遷移問(wèn)題,即源領(lǐng)域的知識(shí)對(duì)目標(biāo)領(lǐng)域的學(xué)習(xí)效果產(chǎn)生負(fù)面影響,從而降低模型的性能。綜合來(lái)看,遷移學(xué)習(xí)模型在數(shù)據(jù)稀缺、數(shù)據(jù)效率低的情況下具有明顯優(yōu)勢(shì),但也需要注意領(lǐng)域假設(shè)、負(fù)遷移問(wèn)題和領(lǐng)域適應(yīng)困難等挑戰(zhàn),應(yīng)合理選擇遷移學(xué)習(xí)方法并結(jié)合具體情況進(jìn)行調(diào)優(yōu)和改進(jìn)。

2 人工智能在蛋白質(zhì)穩(wěn)定性工程上的應(yīng)用

人工智能在蛋白質(zhì)穩(wěn)定性工程上的應(yīng)用日益受到關(guān)注。研究發(fā)現(xiàn),某些單克隆抗體藥物雖然在體外試驗(yàn)中表現(xiàn)出有良好的活性,但在臨床試驗(yàn)階段卻發(fā)現(xiàn)存在體內(nèi)活性降低的問(wèn)題[49]。因此,在藥物研發(fā)的初期就要兼顧藥效學(xué)問(wèn)題,而抗體藥物的穩(wěn)定性是影響抗體藥效學(xué)的關(guān)鍵因素之一:首先,抗體的高親和力和高特異性都需要以穩(wěn)定的結(jié)構(gòu)為基礎(chǔ),這是其產(chǎn)生預(yù)期生物學(xué)功能的根本保障;其次,抗體的穩(wěn)定性越高,其新生肽鏈在細(xì)胞內(nèi)裝配時(shí)產(chǎn)生錯(cuò)誤折疊的概率就越低,可溶性表達(dá)量也越高[50-51]。

雖然旨在提高蛋白質(zhì)藥物穩(wěn)定性的新技術(shù)或手段較多,但目前仍以物理和化學(xué)兩種策略為主。其中,物理策略主要通過(guò)改變劑型或調(diào)整緩沖液組分來(lái)達(dá)到提高蛋白質(zhì)穩(wěn)定性的目的,化學(xué)策略則主要是通過(guò)對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行修飾來(lái)達(dá)到蛋白質(zhì)穩(wěn)定的目的。最近,有研究者通過(guò)結(jié)合不同的深度學(xué)習(xí)方法來(lái)設(shè)計(jì)抗體高度可變的互補(bǔ)決定區(qū)的序列和結(jié)構(gòu),以增強(qiáng)抗體的功能或某些特性,包括溶解度、聚集傾向、穩(wěn)定性和免疫原性等,這些性能對(duì)確保抗體能夠制造和臨床應(yīng)用至關(guān)重要。例如,Villegas-Morcillo等[52]開(kāi)發(fā)的DiffAb模型允許在考慮抗體溶解度和折疊穩(wěn)定性等關(guān)鍵屬性的同時(shí),根據(jù)抗原結(jié)構(gòu)條件化地設(shè)計(jì)抗體的互補(bǔ)決定區(qū),從而增強(qiáng)抗體的穩(wěn)定性。Mason等[53]基于CNN開(kāi)發(fā)了一種深度學(xué)習(xí)方法,利用已獲準(zhǔn)上市的曲妥珠單抗作為對(duì)照,搜索了包含7 200萬(wàn)條潛在抗體DNA序列的數(shù)據(jù)庫(kù),對(duì)經(jīng)過(guò)計(jì)算優(yōu)化的候選抗體變體序列進(jìn)行實(shí)驗(yàn)表征,確定了高親和力、高表達(dá)力、高熱穩(wěn)定性和去免疫化的抗體變體,并分析了前10種具有最高親和力的抗體變體的可表達(dá)性、熱穩(wěn)定性和免疫潛力,發(fā)現(xiàn)這些抗體變體的熱穩(wěn)定性都與曲妥珠單抗相當(dāng)或更好,而穩(wěn)定的抗體變體可大大降低免疫原性的風(fēng)險(xiǎn)。Hie等[54]報(bào)告了一種能夠利用通用蛋白質(zhì)語(yǔ)言模型高效演化人類(lèi)抗體的方法,該方法通過(guò)提出在進(jìn)化上是合理的突變來(lái)改進(jìn)抗體性能,結(jié)果將4種臨床相關(guān)的高度成熟抗體的結(jié)合親和力提高了7倍,將3種未成熟抗體的結(jié)合親和力提高了160倍,且許多設(shè)計(jì)還展現(xiàn)出有良好的熱穩(wěn)定性和活性。

人工智能模型也已應(yīng)用于酶的熱穩(wěn)定性優(yōu)化。酶是一類(lèi)重要的生物催化劑,許多酶在藥物合成中也有著廣泛的應(yīng)用。熱穩(wěn)定性高的酶不僅可以擴(kuò)展其在醫(yī)藥領(lǐng)域的應(yīng)用范圍,而且還有助于提高生產(chǎn)效率、降低生產(chǎn)成本。例如,谷氨酰胺轉(zhuǎn)氨酶可以催化氨基酸和α-酮酸之間的轉(zhuǎn)氨反應(yīng),從而合成手性胺類(lèi)化合物。谷氨酰胺轉(zhuǎn)氨酶也可用于合成一系列具有生物活性的分子,包括藥物候選化合物、生物標(biāo)志物等。Wang等[55]開(kāi)發(fā)了一種自動(dòng)化腳本,結(jié)合分子動(dòng)力學(xué)模擬,使谷氨酰胺轉(zhuǎn)氨酶的熱穩(wěn)定性和催化活性得到顯著提高,其中熱穩(wěn)定性較已報(bào)告的最高水平提高4.8倍。羰基還原酶是一類(lèi)在生物體內(nèi)廣泛存在的酶,其可作為生物催化合成過(guò)程中的催化劑,參與對(duì)手性底物的還原反應(yīng);也能將藥物結(jié)構(gòu)中的酮基、羰基等官能團(tuán)還原為羥基官能團(tuán),形成藥物的代謝產(chǎn)物。Xu等[56]使用計(jì)算工具FoldX、I-Mutant 3.0和DeepDDG成功預(yù)測(cè)了羰基還原酶LsCRM4柔性位點(diǎn)突變引起的穩(wěn)定性變化,并證實(shí)12種虛擬篩選的突變體具有熱穩(wěn)定性,其中11種突變體具有高熱穩(wěn)定性。乳酸脫氫酶可以催化酒石酸鹽與煙酰胺腺嘌呤二核苷酸之間的氧化還原反應(yīng),將酒石酸鹽還原為對(duì)映異構(gòu)體的乳酸,這種反應(yīng)是手性醇合成的關(guān)鍵步驟之一,在藥物合成中應(yīng)用廣泛。Zhou等[57]使用基于蛋白質(zhì)晶體結(jié)構(gòu)的人工智能方法提高了乳酸脫氫酶的熱穩(wěn)定性。

3 結(jié)語(yǔ)與展望

蛋白質(zhì)穩(wěn)定性優(yōu)化是生物藥物研發(fā)中的一項(xiàng)關(guān)鍵工作,直接關(guān)系到藥物的有效性、安全性和市場(chǎng)競(jìng)爭(zhēng)力。近年來(lái),人工智能輔助的蛋白質(zhì)穩(wěn)定性改造工程逐漸發(fā)展成為一種高效的蛋白質(zhì)分子設(shè)計(jì)新策略,并在蛋白質(zhì)藥物設(shè)計(jì)及其優(yōu)化中得到廣泛應(yīng)用。使用人工智能的方法,能在大規(guī)模樣本中快速識(shí)別出具有高穩(wěn)定性的蛋白質(zhì)藥物候選物,從而加速研發(fā)進(jìn)程;也可更有針對(duì)性地測(cè)試最有希望的變體,降低試錯(cuò)成本,提高研發(fā)效率。

然而,人工智能模型的應(yīng)用也存在一些缺點(diǎn),如模型往往需要大量高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練,遷移學(xué)習(xí)方法并不一定適用于所有小規(guī)模數(shù)據(jù)集預(yù)測(cè)模型的構(gòu)建等。目前已見(jiàn)報(bào)告的模型一般是基于數(shù)據(jù)庫(kù)中已有的數(shù)據(jù)進(jìn)行訓(xùn)練和評(píng)估,而并未在特定的蛋白質(zhì)穩(wěn)定性優(yōu)化任務(wù)中進(jìn)一步驗(yàn)證現(xiàn)有模型的魯棒性。另外,當(dāng)前蛋白質(zhì)熱穩(wěn)定性數(shù)據(jù)庫(kù)還存在數(shù)據(jù)量有限、實(shí)驗(yàn)條件不統(tǒng)一、數(shù)據(jù)不平衡和缺少多點(diǎn)突變數(shù)據(jù)等問(wèn)題。預(yù)期不久的將來(lái)可能會(huì)有更精確和更高效的計(jì)算方法應(yīng)用于蛋白質(zhì)穩(wěn)定性優(yōu)化及藥物篩選,由此出現(xiàn)更準(zhǔn)確的預(yù)測(cè)模型,且其能夠基于有限的實(shí)驗(yàn)數(shù)據(jù)有效探尋蛋白質(zhì)的適應(yīng)性景觀,從而準(zhǔn)確預(yù)測(cè)全局最優(yōu)突變體,推動(dòng)蛋白質(zhì)穩(wěn)定性改造及藥物研發(fā)技術(shù)的發(fā)展。

參考文獻(xiàn)

[1] 張曉騰, 韓建軍, 白燕. 蛋白類(lèi)藥物強(qiáng)制降解研究進(jìn)展[J].生物技術(shù)進(jìn)展, 2022, 12(2): 236-242.

[2] Magliery TJ. Protein stability: computation, sequence statistics, and new experimental methods [J]. Curr Opin Struct Biol, 2015, 33: 161-168.

[3] Socha RD, Tokuriki N. Modulating protein stability—directed evolution strategies for improved protein function [J]. FEBS J, 2013, 280(22): 5582-5595.

[4] Siedhoff NE, Schwaneberg U, Davari MD. Machine learningassisted enzyme engineering [J]. Methods Enzymol, 2020, 643: 281-315.

[5] Wang J, Cao H, Zhang JZH, et al. Computational protein design with deep learning neural networks [J]. Sci Rep, 2018, 8(1): 6349.

[6] Wu Z, Kan SBJ, Lewis RD, et al. Machine learning-assisted directed protein evolution with combinatorial libraries[J]. Proc Natl Acad Sci U S A, 2019, 116(18): 8852-8858. Erratum in: Proc Natl Acad Sci U S A, 2020, 117(1): 788-789.

[7] Singh N, Malik S, Gupta A, et al. Revolutionizing enzyme engineering through artificial intelligence and machine learning [J]. Emerg Top Life Sci, 2021, 5(1): 113-125.

[8] Thean DGL, Chu HY, Fong JHC, et al. Machine learningcoupled combinatorial mutagenesis enables resource-efficient engineering of CRISPR-Cas9 genome editor activities [J]. Nat Commun, 2022, 13(1): 2219.

[9] Yang KK, Wu Z, Arnold FH. Machine-learning-guided directed evolution for protein engineering [J]. Nat Methods, 2019, 16(8): 687-694.

[10] Luo Y, Jiang G, Yu T, et al. ECNet is an evolutionary contextintegrated deep learning framework for protein engineering[J]. Nat Commun, 2021, 12(1): 5743.

[11] Song H, Bremer BJ, Hinds EC, et al. Inferring protein sequence-function relationships with large-scale positiveunlabeled learning [J]. Cell Syst, 2021, 12(1): 92-101.e8.

[12] Kawashima S, Pokarowski P, Pokarowska M, et al. AAindex: amino acid index database, progress report 2008 [J]. Nucleic Acids Res, 2008, 36(Database issue): D202-D205.

[13] Mei H, Liao ZH, Zhou Y, et al. A new set of amino acid descriptors and its application in peptide QSARs [J]. Biopolymers, 2005, 80(6): 775-786.

[14] Sandberg M, Eriksson L, Jonsson J, et al. New chemical descriptors relevant for the design of biologically active peptides. A multivariate characterization of 87 amino acids [J]. J Med Chem, 1998, 41(14): 2481-2491.

[15] van Westen GJ, Swier RF, Wegner JK, et al. Benchmarking of protein descriptor sets in proteochemometric modeling (part 1): comparative study of 13 amino acid descriptor sets [J]. J Cheminform, 2013, 5(1): 41.

[16] Chen Z, Zhao P, Li F, et al. iLearn: an integrated platform and meta-learner for feature engineering, machine-learning analysis and modeling of DNA, RNA and protein sequence data [J]. Brief Bioinform, 2020, 21(3): 1047-1057.

[17] Chen Z, Zhao P, Li C, et al. iLearnPlus: a comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis, prediction and visualization [J]. Nucleic Acids Res, 2021, 49(10): e60.

[18] Yoo PD, Zhou BB, Zomaya AY. Machine learning techniques for protein secondary structure prediction: an overview and evaluation [J]. Curr Bioinform, 2008, 3: 74-86.

[19] White G, Seffens W. Using a neural network to backtranslate amino acid sequences [J]. Electron J Biotechnol, 1998, 1(2):17-18.

[20] Xu Y, Verma D, Sheridan RP, et al. A deep dive into machine learning models for protein engineering [J]. Chem Inf Model, 2020, 60(6): 2773-2790.

[21] Benevenuta S, Pancotti C, Fariselli P, et al. An antisymmetric neural network to predict free energy changes in protein variants [J]. J Phys D Appl Phys, 2021, 54(24): 245403.

[22] Pancotti C, Benevenuta S, Repetto V, et al. A deep-learning sequence-based method to predict protein stability changes upon genetic variations [J]. Genes (Basel), 2021, 12(6): 911.

[23] Montanucci L, Capriotti E, Frank Y, et al. DDGun: an untrained method for the prediction of protein stability changes upon single and multiple point variations [J]. BMC Bioinformatics, 2019, 20(Suppl 14): 335.

[24] Bagley SC, Altman RB. Characterizing the microenvironment surrounding protein sites [J]. Protein Sci, 1995, 4(4): 622-635.

[25] Torng W, Altman RB. 3D deep convolutional neural networks for amino acid environment similarity analysis [J]. BMC Bioinformatics, 2017, 18(1): 302.

[26] Shroff R, Cole AW, Diaz DJ, et al. Discovery of novel gainof-function mutations guided by structure-based deep learning[J]. ACS Synth Biol, 2020, 9(11): 2927-2935.

[27] UniProt Consortium. UniProt: the Universal Protein Knowledgebase in 2023 [J]. Nucleic Acids Res, 2023, 51(D1): D523-D531.

[28] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold [J]. Nature, 2021, 596(7873): 583-589.

[29] Alley EC, Khimulya G, Biswas S, et al. Unified rational protein engineering with sequence-based deep representation learning [J]. Nat Methods, 2019, 16(12): 1315-1322.

[30] Biswas S, Khimulya G, Alley EC, et al. Low-N protein engineering with data-efficient deep learning [J]. Nat Methods, 2021, 18(4): 389-396.

[31] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Adv Neural Inf Process Syst, 2017, 30: 5998-6008.

[32] Rao R, Bhattacharya N, Thomas N, et al. Evaluating protein transfer learning with TAPE [J]. Adv Neural Inf Process Syst, 2019, 32: 9689-9701.

[33] Rao R, Liu J, Verkuil R, et al. MSA transformer [EB/OL].[2024-01-27]. https://doi.org/10.1101/2021.02.12.430858.

[34] Meier J, Rao R, Verkuil R, et al. Language models enable zero-shot prediction of the effects of mutations on protein function [EB/OL]. [2024-01-27]. https://doi. org/10.1101/2021.07.09.450648.

[35] Hopf TA, Ingraham JB, Poelwijk FJ, et al. Mutation effects predicted from sequence co-variation [J]. Nat Biotechnol, 2017, 35(2): 128-135.

[36] Riesselman AJ, Ingraham JB, Marks DS. Deep generative models of genetic variation capture the effects of mutations [J]. Nat Methods, 2018, 15(10): 816-822.

[37] Li M, Kang L, Xiong Y, et al. SESNet: sequence-structure feature-integrated deep learning method for data-efficient protein engineering [J]. J Cheminform, 2023, 15(1): 12.

[38] Ferruz N, Schmidt S, H?cker B. ProtGPT2 is a deep unsupervised language model for protein design [J]. Nat Commun, 2022, 13(1): 4348.

[39] Madani A, Krause B, Greene ER, et al. Large language models generate functional protein sequences across diverse families [J]. Nat Biotechnol, 2023, 41(8): 1099-1106.

[40] Yang J, Anishchenko I, Park H, et al. Improved protein structure prediction using predicted interresidue orientations[J]. Proc Natl Acad Sci U S A, 2020, 117(3): 1496-1503.

[41] Yeh AH, Norn C, Kipnis Y, et al. De novo design of luciferases using deep learning [J]. Nature, 2023, 614(7949): 774-780.

[42] Hsu C, Verkuil R, Liu J, et al. Learning inverse folding from millions of predicted structures [EB/OL]. [2024-01-27]. https://doi.org/10.1101/2022.04.10.487779.

[43] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model [J]. Science, 2023, 379(6637): 1123-1130.

[44] Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning-based protein sequence design using ProteinMPNN[J]. Science, 2022, 378(6615): 49-56.

[45] 夏彬彬, 王軍. 基于深度學(xué)習(xí)的蛋白質(zhì)建模與設(shè)計(jì)[J]. 生物工程學(xué)報(bào), 2021, 37(11): 3863-3879.

[46] Chen L, Zhang Z, Li Z, et al. Learning protein fitness landscapes with deep mutational scanning data from multiple sources [J]. Cell Syst, 2023, 14(8): 706-721.e5.

[47] Pandi A, Adam D, Zare A, et al. Cell-free biosynthesis combined with deep learning accelerates de novodevelopment of antimicrobial peptides [J]. Nat Commun, 2023, 14(1): 7197.

[48] Bepler T, Berger B. Learning the protein language: evolution, structure, and function [J]. Cell Syst, 2021, 12(6): 654-669.e3.

[49] Grawe RW, Knotts TA 4th. The effects of tether placement on antibody stability on surfaces [J]. J Chem Phys, 2017, 146(21): 215102.

[50] Wu SJ, Luo J, ONeil KT, et al. Structure-based engineering of a monoclonal antibody for improved solubility [J]. Protein Eng Des Sel, 2010, 23(8): 643-651.

[51] 王傳杰, 馮健男, 王晶. 單克隆抗體藥物穩(wěn)定性影響因素及優(yōu)化策略[J]. 中國(guó)免疫學(xué)雜志, 2021, 37(17): 2154-2160.

[52] Villegas-Morcillo A, Weber JM, Reinders MJT. Guiding diffusion models for antibody sequence and structure codesign with developability properties [EB/OL]. [2024-01-27]. https://doi.org/10.1101/2023.11.22.568230.

[53] Mason DM, Friedensohn S, Weber CR, et al. Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning [J]. Nat Biomed Eng, 2021, 5(6): 600-612.

[54] Hie BL, Shanker VR, Xu D, et al. Efficient evolution of human antibodies from general protein language models [J/ OL]. Nat Biotechnol, 2023 Apr 24. [2024-01-27]. https://doi. org/10.1038/s41587-023-01763-2.

[55] Wang X, Du J, Zhao B, et al. Significantly improving the thermostability and catalytic efficiency of Streptomyces mobaraenesis transglutaminase through combined rational design [J]. J Agric Food Chem, 2021, 69(50): 15268-15278.

[56] Xu SY, Chu RL, Liu HT, et al. Computer-directed rational design enhanced the thermostability of carbonyl reductase LsCR for the synthesis of ticagrelor precursor [J/OL]. Biotechnol Bioeng, 2024 Jan 24. [2024-01-27]. https://doi. org/10.1002/bit.28662.

[57] Zhou Y, Sun X, Hu J, et al. Enhanced catalytic activity and stability of lactate dehydrogenase for cascade catalysis of D-PLA by rational design [J]. J Biotechnol, 2024, 382: 1-7.

猜你喜歡
人工智能
我校新增“人工智能”本科專(zhuān)業(yè)
用“小AI”解決人工智能的“大”煩惱
當(dāng)人工智能遇見(jiàn)再制造
2019:人工智能
AI人工智能解疑答問(wèn)
人工智能與就業(yè)
基于人工智能的電力系統(tǒng)自動(dòng)化控制
人工智能,來(lái)了
數(shù)讀人工智能
人工智能來(lái)了