張?zhí)锟?/p>
7月15日,《自然》和《科學(xué)》兩本國際頂尖學(xué)術(shù)雜志同時刊發(fā)研究結(jié)果證明:人工智能軟件對蛋白質(zhì)結(jié)構(gòu)進(jìn)行測序既快又精確。其中,英國“深度思維”公司研發(fā)的阿爾法折疊(Alpha Fold)在2020年就有驚人成就,現(xiàn)在又升級到阿爾法折疊2,按理說應(yīng)當(dāng)足以讓人類為之歡呼鼓舞,然而,遺憾的是,絕大多數(shù)人并不知道阿爾法折疊為何物。
簡單地說,把阿爾法折疊看成阿爾法狗(Alpha Go)的升級版,及其在生命科學(xué)中的應(yīng)用,或者稱其為阿爾法狗的“后浪”,也許讓人更容易理解。阿爾法狗暴得大名是因為2016年戰(zhàn)勝了韓國頂尖職業(yè)圍棋手李世石,以及在2017年戰(zhàn)勝了世界第一圍棋手中國的柯潔。但是,阿爾法折疊的成就可能要假以時日才能為世人所知。
阿爾法折疊也是一個人工智能(AI)軟件,其最大的作用是,既快又準(zhǔn)確地測定蛋白質(zhì)的形狀,尤其是3D形狀。
生命的本質(zhì)是蛋白質(zhì),蛋白質(zhì)又是由氨基酸按一定順序結(jié)合而成的多肽鏈組成,而且,它們的結(jié)構(gòu)從一維(氨基酸序列)、二維(距離),再到三維(坐標(biāo)),以無數(shù)方式,折疊成各種精致的形狀,才能完成各種功能和發(fā)揮重要作用。
大量的疾病與蛋白質(zhì)的折疊形狀有千絲萬屢的聯(lián)系。例如,新冠病毒的棘突蛋白(S蛋白)的折疊形式,決定了它入侵人體細(xì)胞的速度和致病能力。類似地,普里昂蛋白的折疊形式,也決定了對包括人在內(nèi)的哺乳動物的傳染性海綿狀腦病的致病力和致命性。
從理論上看,一個蛋白質(zhì)從一維到三維,有無數(shù)的折疊方式。早在1969年,美國分子生物學(xué)家利文索爾就指出,由于蛋白質(zhì)在未折疊的多肽鏈中有極大的自由度,任何蛋白分子都具有天文數(shù)量的可能構(gòu)象,其數(shù)量是3的300次方到10的143次方個構(gòu)型。再加上變異,一些蛋白的構(gòu)型就更多,如新冠病毒S蛋白的變異。
認(rèn)識和精確測定蛋白質(zhì)的構(gòu)型,既要耗費大量的時間和精力,同時也不一定能測得準(zhǔn),這也造成了藥物、疫苗的研發(fā)和疾病治療總要付出艱苦的努力。例如,現(xiàn)在新冠肺炎盡管有了疫苗,但病毒蛋白質(zhì)變異頻繁,如果不能準(zhǔn)確認(rèn)知蛋白的變異結(jié)構(gòu),就難以再研發(fā)新的疫苗,也很難獲得有效的藥物。迄今,還沒有有效治療新冠肺炎的藥物,原因也在于對病毒蛋白結(jié)構(gòu)認(rèn)知不清。
既然如此,讓AI來幫助人們認(rèn)識和精確測定蛋白質(zhì)的結(jié)構(gòu),就具有重大意義,而且非常實用。雖然人類已經(jīng)測算出人和其他物種的數(shù)10億計的蛋白質(zhì)的氨基酸序列,但截至目前,僅有其中的約10萬個蛋白質(zhì)的結(jié)構(gòu)已經(jīng)用實驗方法得到了解析。
在2020年的5月至7月舉行的第14屆“蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估”(CASP14)大賽上,阿爾法折疊2就大放異彩。該比賽要求參賽團(tuán)隊根據(jù)蛋白質(zhì)的氨基酸序列解析其結(jié)構(gòu)。比賽用的蛋白質(zhì)會先用實驗方法解析出來,具體結(jié)果不公開——這聽起來有點兒像阿爾法狗與李世石或柯潔的比賽。
結(jié)果,阿爾法折疊2測定的大部分蛋白質(zhì)的結(jié)構(gòu)非常準(zhǔn)確,不僅與實驗方法測得的蛋白質(zhì)結(jié)構(gòu)的精確度相同,而且遠(yuǎn)超解析新蛋白質(zhì)結(jié)構(gòu)的其他方法。阿爾法折疊2測定的組成蛋白質(zhì)主鏈骨架的疊加原子之間的距離中位數(shù)(95%的覆蓋率)為0.96埃(0.096納米),而成績排第二的方法只能達(dá)到2.8埃的準(zhǔn)確度。
這意味著,阿爾法折疊2戰(zhàn)勝了所有其他的測定蛋白質(zhì)結(jié)構(gòu)的方式。而且,阿爾法折疊2的神經(jīng)網(wǎng)絡(luò),能在幾分鐘內(nèi)預(yù)測出一個典型蛋白質(zhì)的結(jié)構(gòu),并能夠在幾天內(nèi)生成高精度的結(jié)構(gòu)。
阿爾法折疊2準(zhǔn)確測定蛋白質(zhì)結(jié)構(gòu)當(dāng)然來源于訓(xùn)練和深度學(xué)習(xí)。訓(xùn)練數(shù)據(jù)來自大約17萬個蛋白質(zhì)結(jié)構(gòu),以及包含未知結(jié)構(gòu)的蛋白質(zhì)序列的大型數(shù)據(jù)庫和神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。其中,模型對蛋白質(zhì)序列以及氨基酸殘基對進(jìn)行操作,在兩種表征之間迭代傳遞信息以生成結(jié)構(gòu)。因此,阿爾法折疊2如同阿爾法狗一樣,需要深度學(xué)習(xí),才能準(zhǔn)確測定蛋白質(zhì)結(jié)構(gòu)。
不過,阿爾法折疊2比阿爾法狗更有優(yōu)勢的是,這類AI軟件已經(jīng)形成了集團(tuán)作戰(zhàn),有更多新技術(shù)品種。例如,美國華盛頓大學(xué)醫(yī)學(xué)院研發(fā)的玫瑰折疊。正如本文開頭所提到的,阿爾法折疊2近期首先在《自然》雜志發(fā)表其成果;同時,玫瑰折疊則在《科學(xué)》雜志上發(fā)表。
玫瑰折疊利用深度學(xué)習(xí),僅憑有限的信息就能在普通游戲軟件上快速而準(zhǔn)確地預(yù)測蛋白質(zhì)結(jié)構(gòu),在短時間內(nèi)就能構(gòu)建出復(fù)雜的生物組建模型。玫瑰折疊是一個“三軌”神經(jīng)網(wǎng)絡(luò),能夠兼顧蛋白質(zhì)序列模式、氨基酸如何相互作用以及蛋白質(zhì)三維結(jié)構(gòu)的可能性。在這種模板中,蛋白質(zhì)的信息在一維、二維和三維之間來回流動,從而推斷蛋白質(zhì)化學(xué)部分與折疊結(jié)構(gòu)之間的關(guān)系。
比較起來,玫瑰折疊預(yù)測蛋白質(zhì)3D結(jié)構(gòu)與阿爾法折疊2的水平幾乎相當(dāng),而且速度更快、所需計算機(jī)處理能力更低,因此可能更實用。華盛頓大學(xué)的研究團(tuán)隊已經(jīng)用玫瑰折疊計算出了數(shù)百種新的蛋白質(zhì)結(jié)構(gòu),其中包括許多鮮為人知的人類基因組蛋白,如與脂質(zhì)代謝問題、炎癥紊亂和癌細(xì)胞生長相關(guān)的蛋白質(zhì)結(jié)構(gòu)。
人體蛋白質(zhì)有成千上萬種,其他物種的蛋白質(zhì)更是多達(dá)幾十億種,包括細(xì)菌和病毒的蛋白質(zhì)。過去,人類只能用冷凍電鏡(CryoEM)、磁共振(MR)和X射線晶體學(xué)等手段,來測定蛋白質(zhì)結(jié)構(gòu),而且要經(jīng)過大量試錯,才能最終確定蛋白質(zhì)的結(jié)構(gòu)。有些蛋白質(zhì)結(jié)構(gòu)還測不出來,如在蛋白質(zhì)數(shù)據(jù)庫(PDB)中,有4種蛋白質(zhì)無法用磁共振測定結(jié)構(gòu),包括牛屬甘氨酸N-?;D(zhuǎn)移酶、細(xì)菌氧化還原酶、細(xì)菌表面層蛋白(SLP)和來自真菌平革菌屬金孢子菌屬的分泌蛋白。
現(xiàn)在,有了阿爾法折疊2和玫瑰折疊,測定蛋白質(zhì)結(jié)構(gòu)就輕松多了。這也為揭開生命現(xiàn)象和本質(zhì),以及研發(fā)無數(shù)戰(zhàn)勝疾病的藥物、疫苗和療法,提供了尖端武器。隨著時間的推移,阿爾法折疊2和玫瑰折疊將比阿爾法狗對人類有更大的貢獻(xiàn),讓我們有更強(qiáng)大的手段去了解生命的本質(zhì)。