阿爾法折疊：用人工智能理解生命

2021-08-23 02:15張?zhí)锟?/span>

中國新聞周刊 2021年30期

張?zhí)锟?/p>

7月15日，《自然》和《科學(xué)》兩本國際頂尖學(xué)術(shù)雜志同時刊發(fā)研究結(jié)果證明：人工智能軟件對蛋白質(zhì)結(jié)構(gòu)進(jìn)行測序既快又精確。其中，英國“深度思維”公司研發(fā)的阿爾法折疊（Alpha Fold）在2020年就有驚人成就，現(xiàn)在又升級到阿爾法折疊2，按理說應(yīng)當(dāng)足以讓人類為之歡呼鼓舞，然而，遺憾的是，絕大多數(shù)人并不知道阿爾法折疊為何物。

簡單地說，把阿爾法折疊看成阿爾法狗（Alpha Go）的升級版，及其在生命科學(xué)中的應(yīng)用，或者稱其為阿爾法狗的“后浪”，也許讓人更容易理解。阿爾法狗暴得大名是因為2016年戰(zhàn)勝了韓國頂尖職業(yè)圍棋手李世石，以及在2017年戰(zhàn)勝了世界第一圍棋手中國的柯潔。但是，阿爾法折疊的成就可能要假以時日才能為世人所知。

測定蛋白質(zhì)結(jié)構(gòu)為何重要

阿爾法折疊也是一個人工智能（AI）軟件，其最大的作用是，既快又準(zhǔn)確地測定蛋白質(zhì)的形狀，尤其是3D形狀。

生命的本質(zhì)是蛋白質(zhì)，蛋白質(zhì)又是由氨基酸按一定順序結(jié)合而成的多肽鏈組成，而且，它們的結(jié)構(gòu)從一維（氨基酸序列）、二維（距離），再到三維（坐標(biāo)），以無數(shù)方式，折疊成各種精致的形狀，才能完成各種功能和發(fā)揮重要作用。

大量的疾病與蛋白質(zhì)的折疊形狀有千絲萬屢的聯(lián)系。例如，新冠病毒的棘突蛋白（S蛋白）的折疊形式，決定了它入侵人體細(xì)胞的速度和致病能力。類似地，普里昂蛋白的折疊形式，也決定了對包括人在內(nèi)的哺乳動物的傳染性海綿狀腦病的致病力和致命性。

從理論上看，一個蛋白質(zhì)從一維到三維，有無數(shù)的折疊方式。早在1969年，美國分子生物學(xué)家利文索爾就指出，由于蛋白質(zhì)在未折疊的多肽鏈中有極大的自由度，任何蛋白分子都具有天文數(shù)量的可能構(gòu)象，其數(shù)量是3的300次方到10的143次方個構(gòu)型。再加上變異，一些蛋白的構(gòu)型就更多，如新冠病毒S蛋白的變異。

認(rèn)識和精確測定蛋白質(zhì)的構(gòu)型，既要耗費大量的時間和精力，同時也不一定能測得準(zhǔn)，這也造成了藥物、疫苗的研發(fā)和疾病治療總要付出艱苦的努力。例如，現(xiàn)在新冠肺炎盡管有了疫苗，但病毒蛋白質(zhì)變異頻繁，如果不能準(zhǔn)確認(rèn)知蛋白的變異結(jié)構(gòu)，就難以再研發(fā)新的疫苗，也很難獲得有效的藥物。迄今，還沒有有效治療新冠肺炎的藥物，原因也在于對病毒蛋白結(jié)構(gòu)認(rèn)知不清。

既然如此，讓AI來幫助人們認(rèn)識和精確測定蛋白質(zhì)的結(jié)構(gòu)，就具有重大意義，而且非常實用。雖然人類已經(jīng)測算出人和其他物種的數(shù)10億計的蛋白質(zhì)的氨基酸序列，但截至目前，僅有其中的約10萬個蛋白質(zhì)的結(jié)構(gòu)已經(jīng)用實驗方法得到了解析。

在2020年的5月至7月舉行的第14屆“蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估”（CASP14）大賽上，阿爾法折疊2就大放異彩。該比賽要求參賽團(tuán)隊根據(jù)蛋白質(zhì)的氨基酸序列解析其結(jié)構(gòu)。比賽用的蛋白質(zhì)會先用實驗方法解析出來，具體結(jié)果不公開——這聽起來有點兒像阿爾法狗與李世石或柯潔的比賽。

結(jié)果，阿爾法折疊2測定的大部分蛋白質(zhì)的結(jié)構(gòu)非常準(zhǔn)確，不僅與實驗方法測得的蛋白質(zhì)結(jié)構(gòu)的精確度相同，而且遠(yuǎn)超解析新蛋白質(zhì)結(jié)構(gòu)的其他方法。阿爾法折疊2測定的組成蛋白質(zhì)主鏈骨架的疊加原子之間的距離中位數(shù)（95%的覆蓋率）為0.96埃（0.096納米），而成績排第二的方法只能達(dá)到2.8埃的準(zhǔn)確度。

這意味著，阿爾法折疊2戰(zhàn)勝了所有其他的測定蛋白質(zhì)結(jié)構(gòu)的方式。而且，阿爾法折疊2的神經(jīng)網(wǎng)絡(luò)，能在幾分鐘內(nèi)預(yù)測出一個典型蛋白質(zhì)的結(jié)構(gòu)，并能夠在幾天內(nèi)生成高精度的結(jié)構(gòu)。

從阿爾法折疊到玫瑰折疊

阿爾法折疊2準(zhǔn)確測定蛋白質(zhì)結(jié)構(gòu)當(dāng)然來源于訓(xùn)練和深度學(xué)習(xí)。訓(xùn)練數(shù)據(jù)來自大約17萬個蛋白質(zhì)結(jié)構(gòu)，以及包含未知結(jié)構(gòu)的蛋白質(zhì)序列的大型數(shù)據(jù)庫和神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。其中，模型對蛋白質(zhì)序列以及氨基酸殘基對進(jìn)行操作，在兩種表征之間迭代傳遞信息以生成結(jié)構(gòu)。因此，阿爾法折疊2如同阿爾法狗一樣，需要深度學(xué)習(xí)，才能準(zhǔn)確測定蛋白質(zhì)結(jié)構(gòu)。

不過，阿爾法折疊2比阿爾法狗更有優(yōu)勢的是，這類AI軟件已經(jīng)形成了集團(tuán)作戰(zhàn)，有更多新技術(shù)品種。例如，美國華盛頓大學(xué)醫(yī)學(xué)院研發(fā)的玫瑰折疊。正如本文開頭所提到的，阿爾法折疊2近期首先在《自然》雜志發(fā)表其成果;同時，玫瑰折疊則在《科學(xué)》雜志上發(fā)表。

玫瑰折疊利用深度學(xué)習(xí)，僅憑有限的信息就能在普通游戲軟件上快速而準(zhǔn)確地預(yù)測蛋白質(zhì)結(jié)構(gòu)，在短時間內(nèi)就能構(gòu)建出復(fù)雜的生物組建模型。玫瑰折疊是一個“三軌”神經(jīng)網(wǎng)絡(luò)，能夠兼顧蛋白質(zhì)序列模式、氨基酸如何相互作用以及蛋白質(zhì)三維結(jié)構(gòu)的可能性。在這種模板中，蛋白質(zhì)的信息在一維、二維和三維之間來回流動，從而推斷蛋白質(zhì)化學(xué)部分與折疊結(jié)構(gòu)之間的關(guān)系。

比較起來，玫瑰折疊預(yù)測蛋白質(zhì)3D結(jié)構(gòu)與阿爾法折疊2的水平幾乎相當(dāng)，而且速度更快、所需計算機(jī)處理能力更低，因此可能更實用。華盛頓大學(xué)的研究團(tuán)隊已經(jīng)用玫瑰折疊計算出了數(shù)百種新的蛋白質(zhì)結(jié)構(gòu)，其中包括許多鮮為人知的人類基因組蛋白，如與脂質(zhì)代謝問題、炎癥紊亂和癌細(xì)胞生長相關(guān)的蛋白質(zhì)結(jié)構(gòu)。

人體蛋白質(zhì)有成千上萬種，其他物種的蛋白質(zhì)更是多達(dá)幾十億種，包括細(xì)菌和病毒的蛋白質(zhì)。過去，人類只能用冷凍電鏡（CryoEM）、磁共振（MR）和X射線晶體學(xué)等手段，來測定蛋白質(zhì)結(jié)構(gòu)，而且要經(jīng)過大量試錯，才能最終確定蛋白質(zhì)的結(jié)構(gòu)。有些蛋白質(zhì)結(jié)構(gòu)還測不出來，如在蛋白質(zhì)數(shù)據(jù)庫（PDB）中，有4種蛋白質(zhì)無法用磁共振測定結(jié)構(gòu)，包括牛屬甘氨酸N-?；D(zhuǎn)移酶、細(xì)菌氧化還原酶、細(xì)菌表面層蛋白（SLP）和來自真菌平革菌屬金孢子菌屬的分泌蛋白。

現(xiàn)在，有了阿爾法折疊2和玫瑰折疊，測定蛋白質(zhì)結(jié)構(gòu)就輕松多了。這也為揭開生命現(xiàn)象和本質(zhì)，以及研發(fā)無數(shù)戰(zhàn)勝疾病的藥物、疫苗和療法，提供了尖端武器。隨著時間的推移，阿爾法折疊2和玫瑰折疊將比阿爾法狗對人類有更大的貢獻(xiàn)，讓我們有更強(qiáng)大的手段去了解生命的本質(zhì)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

阿爾法折疊：用人工智能理解生命

測定蛋白質(zhì)結(jié)構(gòu)為何重要

從阿爾法折疊到玫瑰折疊