肖貞林 黃雪霜
進入21世紀,多組學技術和生物治療等醫(yī)學前沿技術突飛猛進,人類社會進入一個前所未有的歷史性變化中??墒前l(fā)明了那么多新技術,積累了那么多新知識,發(fā)表了那么多高水平論文,為什么人類面臨的很多健康問題依然得不到有效改善?
要回答這個問題,不得不提起20世紀90年代興起的轉化醫(yī)學。轉化醫(yī)學的初衷是要把臨床提出的問題快速轉化為基礎研究項目,而后再將研究項目的成果通過研究型病床有效地轉化為針對臨床患者疾病的準確預防、診斷、治療及預后評估等一系列方案,從而讓新技術更快,也更有的放矢地用于增進人民群眾健康福祉。
近30年來,我國在基因組測序技術、臨床疾病分子分型與診治標志物、藥物設計靶點、臨床隊列與生物醫(yī)學大數(shù)據(jù)等方面積累了大量的數(shù)據(jù),但這些數(shù)據(jù)并沒有有效地服務于臨床患者。為了有效地將它們轉化成解決臨床問題的信息,切實造福人民健康,迫切需要科研人員加強突破慢病防控、精準醫(yī)學等關鍵技術。響應國家在轉化醫(yī)學領域的號召,方海從牛津大學全職回國,回到上海交通大學醫(yī)學院附屬瑞金醫(yī)院,組建并負責轉化醫(yī)學國家重大科技基礎設施(上海)瑞金基地的生物信息(以下簡稱“生信”)大數(shù)據(jù)平臺,聚焦復雜慢性疾病,開展遺傳靶點“計算醫(yī)學”研究工作。
方海作報告
“我一直想要開創(chuàng)一個新的轉化醫(yī)學研究范式,利用現(xiàn)有的組學大數(shù)據(jù),挖掘支持治療靶點選擇的遺傳證據(jù)。”方海認為,在個體化治療中,必須挖掘個體的遺傳變異信息,而在各種相關的組學數(shù)據(jù)里,真正有助于患者受益的是找到潛在的治療靶點。這是一個新的遺傳靶點計算醫(yī)學研究模式。這些年,他專注于領域的前沿算法的研究,相關工作多次在國際學術會議作口頭報告及特邀報告,獲得2017年度牛津大學卓越獎,并先后入選上海高校特聘教授、上海市高層次特聘專家、國家高層次引進人才(青年)等。
在醫(yī)學研究中,如何將大量的數(shù)據(jù)轉化為解決臨床問題的有用信息一直是個難題。這個難題的破解需要生命科學、統(tǒng)計學、計算機科學和醫(yī)學領域專家的有效合作與交叉研究。
方海恰恰具備多學科的學術背景。早年在中國科學院上海生命科學研究院碩博連讀時,他的專業(yè)領域是遺傳學與生物信息學,而2010年前往英國布里斯托大學深造時,他決定加入計算科學系。從傳統(tǒng)的生物醫(yī)學轉向計算科學,是一個大膽的本能決定,卻為之后的研究打下了堅實的基礎。
在布里斯托大學,方海除了維護數(shù)據(jù)庫之外并沒有固定的課題?!霸谶@種‘自由放養(yǎng)’式堅守本職工作的環(huán)境中,他逐漸發(fā)現(xiàn)事務性工作反而賦予他更多的遐想和對原創(chuàng)思維的重視。”工作半年間,他完全憑借自己的興趣和創(chuàng)新動力,自主研發(fā)了新算法,為之后蛋白結構域語義注解數(shù)據(jù)庫的建立奠定了基礎。該數(shù)據(jù)庫在連續(xù)3次國際蛋白質(zhì)功能預測競賽中的預測成績均名列前茅,直到10年后的今天,仍被使用并收錄于維基百科全書中,對后續(xù)的研究工作產(chǎn)生著深遠的影響。
2015年,方?;貧w生物醫(yī)學領域,在牛津大學威康人類遺傳學中心從事醫(yī)學基因組大數(shù)據(jù)與計算醫(yī)學研究。“我已經(jīng)積累了多學科的技能,出于本能決定再回到生物醫(yī)學領域。”對方海來說,這是一種必然的回歸。
在牛津大學,方海主要是在歐盟創(chuàng)新藥物計劃(IMI)資助下的協(xié)會中工作,參與多國合作的創(chuàng)新藥物研究。針對復雜疾病治療研究瓶頸共性(即非編碼區(qū)遺傳變異位點加大了潛在靶點的選擇難度),以及遺傳靶點重要性(即遺傳靶點支持加倍提高藥物研發(fā)的成功率),他率先提出并開展“復雜疾病遺傳靶點計算醫(yī)學”研究。這一前沿研究具有鮮明的多學科交叉特征,涉及多門基礎學科,包括醫(yī)學(復雜疾?。?、基因組學(多層次遺傳調(diào)控組學)、計算科學(蛋白結構)、人工智能(非監(jiān)督式自組織學習)等。方海的多學科背景正好為他在這些領域的探索和突破提供了施展的空間。
幾年后,方海領銜團隊取得了具有重要國際影響力的標志性原創(chuàng)成果。2019年6月,方海在《自然·遺傳學》(Nature Genetics)發(fā)表文章,介紹了他負責創(chuàng)建的“優(yōu)先指數(shù)”(Priority index)。“優(yōu)先指數(shù)”是計算醫(yī)學轉化系統(tǒng),可以預測遺傳靶點以期指導藥物研發(fā),實現(xiàn)組學大數(shù)據(jù)向治療遺傳靶點計算轉化的概念。相關成果一經(jīng)發(fā)表,便引起制藥行業(yè)各大企業(yè)的關注。
全基因組關聯(lián)研究(GWAS)產(chǎn)生了海量遺傳組學大數(shù)據(jù),其中蘊含潛在的疾病易感遺傳位點,是研究復雜疾病的有效手段。但GWAS所揭示的遺傳位點絕大多數(shù)位于基因組的非編碼區(qū),其生物學意義(如潛在的調(diào)控基因)難以解釋,進而加大了對潛在治療靶點選擇的難度?!皟?yōu)先指數(shù)”攻克了這一難題,針對復雜免疫疾病GWAS匯總數(shù)據(jù),利用功能基因組數(shù)據(jù)(產(chǎn)自于基因表達數(shù)量性狀定位分析技術與染色體構象捕獲技術)預測疾病潛在致病調(diào)控基因,并整合基因互作網(wǎng)絡信息將潛在調(diào)控基因擴展至網(wǎng)絡關鍵節(jié)點,從而實現(xiàn)了對治療靶點“五星等級式”量化推薦。
“‘優(yōu)先指數(shù)’最大的優(yōu)勢是針對復雜疾病非編碼區(qū)遺傳信息,通過‘生物與信息融合’理念指導推測治療靶點?!狈胶5倪@一成果被認為“是一個重大的突破”,因為復雜疾病靶點選擇痛點是非編碼區(qū)遺傳變異位點,而“優(yōu)先指數(shù)”實現(xiàn)了從非編碼區(qū)的信息到臨床應用治療靶點的量化利用。為此,《自然·遺傳學》發(fā)表2019年度編輯評論“遺傳學年度回顧(A year in genetics)”,提及方海的工作“在藥物基因組學上具有前瞻性”?;谠撗芯砍晒?020年,方海受邀在醫(yī)學權威雜志《柳葉刀·風濕病學》(Lancet Rheumatology)上撰寫綜述,系統(tǒng)性闡述以遺傳學為導向治療靶點計算醫(yī)學研究的理論基礎,并指明該領域的前沿方向。
近5年,方海在計算醫(yī)學領域取得的標志性原創(chuàng)成果有Priority index、OpenXGR與dcGO,均發(fā)表在《自然·遺傳學》《柳葉刀·風濕病學》《核酸研究》《血液》等國際雜志上
“遺傳靶點是指遺傳證據(jù)支持的候選治療靶點?!?021年,方海明確定義了遺傳靶點的概念,這也是計算醫(yī)學的核心目標。藥物研發(fā)回顧性分析表明:若I期臨床候選藥物具有遺傳靶點支持,其研發(fā)成功率將提高兩倍;若具有與疾病存在因果關系的靶點支持,藥物研發(fā)成功率還將進一步提高。“優(yōu)先指數(shù)”可以預測高通量細胞篩選平臺測量的靶點活性,這些平臺包括L1000技術、CRISPR篩選技術、隨機突變技術及基于病人樣本的細胞篩選技術,因此對于藥物的研發(fā)具有實用性,若合理利用,可以大大節(jié)省研發(fā)時間與人力成本?!敖?jīng)典的藥物研發(fā)是在傳統(tǒng)的實驗室里根據(jù)自己的興趣來研究某一條具體通路,有時候失敗是因為沒有基于臨床資源的遺傳靶點的支持。精準醫(yī)學或新藥研發(fā)的核心是治療靶點的篩選。”這是方海從過去近20年的研發(fā)歷程中總結出的樸素經(jīng)驗。
針對某一疾病,“優(yōu)先指數(shù)”可以發(fā)現(xiàn)已知藥物治療靶點并刻畫遺傳信息支持治療的潛能,進而構建基于治療遺傳靶點的疾病間關系全圖。專家對此給予了高度評價,認為“優(yōu)先指數(shù)”核心算法提供了一個新思路,即將組學數(shù)據(jù)向靶基因和靶通路的計算轉化,開啟了復雜慢病遺傳靶點轉化研究的新模式:非編碼遺傳位點—調(diào)控基因—靶基因量化推薦—通路交匯干預靶點。
值得一提的是,方海創(chuàng)建的“優(yōu)先指數(shù)”不僅包括方法學,還提供了開源軟件與數(shù)據(jù)庫。用戶可以通過開源工具包,針對自己的數(shù)據(jù)開展計算醫(yī)學研究。
“從人類基因組的遺傳信息中發(fā)現(xiàn)潛在的治療靶點,指導藥物的研發(fā)。這在當時一直停留在概念階段且比較受質(zhì)疑,具體實現(xiàn)并不被大家看好?!钡S著方海的研究成果陸續(xù)刊登發(fā)表,各大藥企逐漸表現(xiàn)出了極大興趣。一些媒體預測,隨著制藥行業(yè)加大對醫(yī)學組學大數(shù)據(jù)研究的投入,計算醫(yī)學時代即將到來。
隨著“優(yōu)先指數(shù)”的問世,這一算法體系在國外的計算醫(yī)學領域備受關注。此時,方海決定將它帶回國并進一步拓展,希望在祖國大地上深耕推廣。
生信大數(shù)據(jù)平臺成員合影
2020年,方?;氐缴虾=煌ù髮W醫(yī)學院附屬瑞金醫(yī)院,組建生信大數(shù)據(jù)平臺,通過生物與信息融合的理念,挖掘基因組數(shù)據(jù),找到潛在的遺傳證據(jù)支持的靶點,旨在助力后續(xù)原創(chuàng)藥物研發(fā)效率的提高。
近年來,關于遺傳靶點的研究成果主要集中于劍橋大學的“開源靶點(Open Targets)”與牛津大學的“優(yōu)先指數(shù)(Priority index)”。然而,無論是“優(yōu)先指數(shù)”還是“開源靶點”,都僅提供預先計算并存儲于關系數(shù)據(jù)庫中的遺傳靶點。為打破這一瓶頸,在瑞金醫(yī)院,方海于2022年上半年在國際期刊《核酸研究》(Nucleic Acids Research)上連續(xù)發(fā)表最新研究成果,并借助該期刊的“2022年度數(shù)據(jù)庫??睂ν獍l(fā)布了同名數(shù)據(jù)庫“優(yōu)先指數(shù)”,以及“2022年度在線工具??卑l(fā)布了“優(yōu)先指數(shù)”在線服務工具PiER(翻譯為“碼頭”)。不同于以往的資源工具,PiER以“從頭實時”整合量化推薦的優(yōu)勢,致力于“用戶至上”的宗旨支持用戶輸入自己的數(shù)據(jù),3分鐘內(nèi)一鍵式實現(xiàn)遺傳靶點的計算轉化。
“目前,‘優(yōu)先指數(shù)’已成功地應用于30余種免疫介導相關復雜疾病的遺傳靶點計算轉化?!狈胶=榻B?!皟?yōu)先指數(shù)”系列專門的數(shù)據(jù)庫和在線網(wǎng)站可支持數(shù)字化挖掘,助力計算醫(yī)學研究。該數(shù)據(jù)庫專門網(wǎng)站提供便捷的疾病、靶基因及其蛋白結構查詢。查詢結果除了靶點量化排序信息及背后遺傳證據(jù)外,還提供可靶向性模式信息,尤其是基于已知蛋白PDB結構的可成藥性口袋預測信息,并支持其3D互動可視化展示。網(wǎng)站還支持高級使用,用戶可以開展跨疾病比較分析。
現(xiàn)在,“優(yōu)先指數(shù)”計算醫(yī)學系列工具資源已經(jīng)基本涵蓋所有免疫介導的復雜疾病,并成功將靶點計算醫(yī)學研究模式擴展至其他復雜系統(tǒng)性疾病,無償?shù)刂С值谌接脩糸_展多種疾病的遺傳靶點發(fā)現(xiàn)工作,如1型糖尿病、阿爾茨海默病、心血管疾病、纖維增生性疾病等,這些工作均發(fā)表在國際學術期刊上。
“這不僅停留在算法和理論基礎上,還是一個有數(shù)據(jù)庫的支撐工具,供大家免費方便使用?!痹凇敖M學大數(shù)據(jù)——蛋白結構計算預測”大科學與大健康的背景下,“優(yōu)先指數(shù)”系列的算法工具數(shù)據(jù)庫有望賦能我國計算醫(yī)學研究最底層基礎設施的建立,在不久的將來實現(xiàn)治療靶點選擇的自動化、智能化與平臺化。
創(chuàng)建“優(yōu)先指數(shù)”并研發(fā)數(shù)據(jù)庫和用戶服務網(wǎng)站,對方海來說,既是原創(chuàng)性的本職工作,也是對服務性工具的一種堅持。他認為好的科研工作不僅要有原創(chuàng),更要有服務意識,兩者相輔相成,原創(chuàng)工作終將服務于大眾。
方海將自己“原創(chuàng)與服務”的理念延續(xù)到生信大數(shù)據(jù)平臺。在平臺創(chuàng)建初期,他就明確了其定位:一方面是服務,即服務臨床多組學數(shù)據(jù)的解讀;另一方面是研發(fā),即自主研發(fā)核心算法與新工具。原創(chuàng)工具增加平臺的實用性及服務水平。除了前述的“優(yōu)先指數(shù)”與dcGO,方海還是非監(jiān)督式自組織學習工具(supraHex)與組學匯總數(shù)據(jù)在線解析工具(OpenXGR)的研發(fā)者與維護者。OpenXGR收錄于《核酸研究》“2023年度在線工具??保С指鱾€層面組學匯總數(shù)據(jù)解讀,并將進一步改善用戶使用體驗感,類似于OpenAI現(xiàn)象級產(chǎn)品ChatGPT,實時響應自然語言請求。
生信大數(shù)據(jù)平臺成員合影
“在瑞金醫(yī)院,我們不僅是為臨床醫(yī)生解讀臨床數(shù)據(jù),更多的是推廣一種新的研究模式?!狈胶?谥兴f的這種模式就是從臨床樣本中挖掘有用信息加以利用,產(chǎn)生新的知識再加以論證,進而指導臨床實踐。方海希望他的工作不僅服務于瑞金醫(yī)院,還能服務于自己不直接參與的項目,讓更多人便利地使用算法工具數(shù)據(jù)庫,為我國計算醫(yī)學的發(fā)展添磚加瓦。
方海的團隊秉持“原創(chuàng)與服務齊頭并進”的理念。雖然他回國工作時間不長,僅招收了第一批研究生,但他希望培養(yǎng)的學生能支持合作項目的數(shù)據(jù)分析,同時也能自主研發(fā)一些公益數(shù)據(jù)庫?!安粏柕檬?,但求極致?!庇辛嗽瓌?chuàng)性研究就相當于擁有了“有源之水”和“有本之木”,而懷揣為“它”之心,才能讓水潤萬物,大樹枝繁葉茂。
方海近期的目標很清晰——建設一個重大疾病治療靶點發(fā)現(xiàn)與論證的生信大數(shù)據(jù)平臺?!俺四[瘤研究,我們的特色或者重心也應放在復雜慢性疾病及其病前亞健康上?!迸c諸多同道前輩想法一致,隨著我國老齡化加劇,復雜慢性疾病呈現(xiàn)顯著增長趨勢,因此他和團隊的目標是繼續(xù)創(chuàng)新計算醫(yī)學,全面提升其在轉化醫(yī)學與精準醫(yī)學研究領域中的引領作用,以滿足人們對慢病及其病前亞健康防控需求的增長,主動應對人口老齡化,改善老齡健康。
方海希望加速轉化利用自然人群隊列與專病人群隊列中蘊含的臨床資源與組學數(shù)據(jù),高效準確地識別并論證全新的分子標志物和治療靶點。他還希望在研發(fā)新算法與建立新范式的基礎上,開發(fā)運行高效、結果可靠、用戶友好的應用軟件功能性產(chǎn)品,實現(xiàn)一鍵式快速挖掘數(shù)據(jù)背后的臨床轉化知識,預測個體化藥物靶向作用組合,指導個性化臨床防治實踐。最終,方海的目標是通過計算醫(yī)學研究工作,助力“健康中國”國家戰(zhàn)略,提高國民的健康水平和幸福感,這也是他畢生所追求的“最幸福的事業(yè)”。