近日,加拿大蒙特利爾學(xué)習(xí)算法研究所(MILA)唐建教授團(tuán)隊(duì)開源了一個(gè)通用型藥物發(fā)現(xiàn)和設(shè)計(jì)的機(jī)器學(xué)習(xí)平臺一一TorchDrug,涵蓋了圖機(jī)器學(xué)習(xí)(包括圖神經(jīng)網(wǎng)絡(luò)、幾何深度學(xué)習(xí)和知識圖譜)、深度生成模型以及強(qiáng)化學(xué)習(xí)等技術(shù)。
TorchDrug是一個(gè)建立在開源機(jī)器學(xué)習(xí)庫上的深度圖表示學(xué)習(xí)工具箱,整合了分子性質(zhì)預(yù)測、分子從頭設(shè)計(jì)和優(yōu)化、反應(yīng)預(yù)測、逆合成以及分子重定向等多個(gè)任務(wù)集?!霸撈脚_在通用性、應(yīng)用性以及可擴(kuò)展性等方面具有明顯的優(yōu)勢。”唐建表示。
此項(xiàng)工作還得到了“原創(chuàng)AI教父”、“深度學(xué)習(xí)三巨頭”之一的Yoshua Bengio的指導(dǎo)。
Yoshua Bengio于1993年創(chuàng)辦了MILA,這是目前全球?qū)W術(shù)界從事深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)最大的研究中心。2017年,唐建加入MILA并擔(dān)任助理教授,他的主要研發(fā)方向是圖表示學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)、深度生成模型、知識圖譜和新藥研發(fā),尤其是圖表示學(xué)習(xí)在新藥研發(fā)中的應(yīng)用。
MILA助理教授唐建
“2017年以來,我一直在思考圖表示學(xué)習(xí)未來的發(fā)展方向,最終發(fā)現(xiàn)圖表示學(xué)習(xí)‘殺手級的應(yīng)用方向在生物醫(yī)藥領(lǐng)域,尤其是藥物研發(fā)。生物醫(yī)藥領(lǐng)域絕大部分的數(shù)據(jù)是圖結(jié)構(gòu)數(shù)據(jù),包括分子結(jié)構(gòu)數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)、知識圖譜等,圖表示學(xué)習(xí)在該領(lǐng)域有巨大的應(yīng)用價(jià)值。通過開源TorchDrug,我們計(jì)劃建立一個(gè)開源人工智能藥物發(fā)現(xiàn)社區(qū),科研人員和制藥公司都可以共享這個(gè)成果?!碧平ㄕf。
讀博最后一年,唐建開始嘗試將深度學(xué)習(xí)應(yīng)用于圖結(jié)構(gòu)數(shù)據(jù)分析中。自2017年入職MILA以來,他一直聚焦圖表示學(xué)習(xí)在新藥研發(fā)的研究和應(yīng)用。
今年是他任教MILA研究中心的第四個(gè)年頭,上文提到的開源平臺TorchDrug則是唐建團(tuán)隊(duì)過去近4年來在圖表示學(xué)習(xí)和圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域研究成果的積累。
據(jù)唐建介紹,TorchDrug主要解決兩大類的問題,一是從頭設(shè)計(jì)和優(yōu)化分子,二是藥物重定向,也就是常說的老藥新用。
具體來講,如果要從頭發(fā)現(xiàn)和設(shè)計(jì)分子,發(fā)現(xiàn)新分子結(jié)構(gòu),需要完成多個(gè)模塊任務(wù)。首先需要預(yù)測分子性質(zhì),分子活性、毒性、水溶性等ADMET參數(shù);緊接著需要進(jìn)行分子優(yōu)化、搜索、設(shè)計(jì),在這一過程中通過深度學(xué)習(xí)模型或者是強(qiáng)化學(xué)習(xí)模型設(shè)計(jì)和優(yōu)化分子,尋找到性質(zhì)最佳的分子;然后需要考慮如何合成分子,需要找到分子的逆合成路徑,合成自然界不存在的新分子。
要發(fā)現(xiàn)一種療效更佳的全新藥物分子并非易事,所以老藥新用也是一種常見的一種藥物分子篩選思路。以COVID-19為例,老藥新用就是當(dāng)下尋找潛在治療藥物的主流思路,比如吉利德通過老藥新用的方式發(fā)現(xiàn)廣譜抗病毒藥瑞德西韋對COVID-19具有一定的治療效果。
從機(jī)器學(xué)習(xí)和數(shù)據(jù)建模角度講,老藥新用的核心在于圖結(jié)構(gòu)數(shù)據(jù),也就是知識圖譜的構(gòu)建,在知識圖譜中挖掘藥、疾病、蛋白質(zhì)之間的相互關(guān)系。
唐建告訴生輝,評估藥物發(fā)現(xiàn)平臺的關(guān)鍵點(diǎn)包括通用性、應(yīng)用性和可擴(kuò)展性,他還從這幾個(gè)方面講解了TorchDrug的特點(diǎn)。
一是通用性,TorchDrug是通用型的機(jī)器學(xué)習(xí)模型,適用于不同疾病,針對不同疾病的建模過程本質(zhì)上相同;
二是應(yīng)用性,TorchDrug整合了多個(gè)任務(wù)模塊,同時(shí)盡可能減少醫(yī)藥行業(yè)的專業(yè)知識,比如說對不同的任務(wù)模塊提供了標(biāo)準(zhǔn)的數(shù)據(jù)集和評測方法。目前,多個(gè)藥物發(fā)現(xiàn)任務(wù)模塊已經(jīng)開通運(yùn)行。
三是可擴(kuò)展性,能夠加速多個(gè)CPU或者GPU的訓(xùn)練和推理,只需一行代碼,用戶即可在CPU、GPU等設(shè)置之間切換。
此外,該團(tuán)隊(duì)還計(jì)劃進(jìn)一步將該平臺擴(kuò)展多種功能,包括三維結(jié)構(gòu)建模和幾何深度學(xué)習(xí)方法。
現(xiàn)階段,AI之于新藥研發(fā),已不再是可有可無的角色。從資本市場再到制藥工業(yè),各界對AI的態(tài)度變得日益明朗。
AI制藥公司的數(shù)目也在增加,據(jù)統(tǒng)計(jì),美國也有超100家AI制藥初創(chuàng)公司,在國內(nèi)也有近50家初創(chuàng)公司。AI制藥公司數(shù)目增長的同時(shí),吸金能力、認(rèn)可程度也隨之提升。
2020年,AI制藥“老兵”薛定諤、AI制藥明星初創(chuàng)Relay相繼登陸納斯達(dá)克,受到資本市場的熱捧。未上市AI制藥新銳的吸金能力也在高漲,自2020年3月以來,全球共有超11家AI制藥公司完成了1億美元以上的融資,instro、晶泰相繼完成4億美元單筆融資。
現(xiàn)在,AI制藥也開始贏得制藥工業(yè)的接受,真正應(yīng)用于產(chǎn)業(yè)界中。從英國AI制藥領(lǐng)跑者Exscientia與GSK、賽諾菲、BMS、拜耳等簽單,薛定諤與藥明康德、BMS、再鼎攜手,再到晶泰一月之內(nèi)與制藥公司達(dá)成約5項(xiàng)合作?!拔艺J(rèn)為,整體而言,無論是資本市場還是學(xué)術(shù)界、產(chǎn)業(yè)界都已經(jīng)開始認(rèn)可AI在藥物研發(fā)中的潛力?,F(xiàn)在看來,AI制藥正處于早期發(fā)展過程中的快速增長階段,未來仍將蓬勃發(fā)展?!碧平ㄕf。
近年來,AI在制藥產(chǎn)業(yè)界的進(jìn)展頻頻。高嘁多年的AI制藥終于不再束之高閣,而是開始接受臨床驗(yàn)證。2020年,Exscientia宣布全球首個(gè)完全由AI設(shè)計(jì)的藥物分子進(jìn)入臨床試驗(yàn)階段,隨后又公布了第2個(gè)藥物分子進(jìn)入臨床。2021年,Insilico宣布利用AI發(fā)現(xiàn)了兩款臨床前候選分子,其中針對肺纖維化的分子有望年內(nèi)進(jìn)臨床。“預(yù)計(jì)未來5年左右,AI研發(fā)的新藥可能將會開始真正獲批上市。”唐建預(yù)測道。
根據(jù)市場調(diào)研機(jī)構(gòu)Facts and Factors數(shù)據(jù)顯示,到2026年,人工智能在制藥領(lǐng)域的全球市場預(yù)計(jì)將達(dá)到82億美元,年復(fù)合增長率為47%。AI制藥領(lǐng)域市場發(fā)展勢頭強(qiáng)勁的同時(shí),對新型AI技術(shù)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)模型的需求也將不斷增長。
在圖表示學(xué)習(xí)應(yīng)用于新藥研發(fā)領(lǐng)域積淀多年后,唐建團(tuán)隊(duì)也有志于將科研成果落地轉(zhuǎn)化,他們希望與在生物醫(yī)藥研發(fā)領(lǐng)域經(jīng)驗(yàn)豐富的專家合作共同推進(jìn)產(chǎn)業(yè)落地。(摘自美《深科技>)(編輯/萊西)