統(tǒng)計(jì),是一道能寫出大文章的數(shù)學(xué)題。每一個(gè)分合整析背后,不僅僅是數(shù)字、符號(hào)的精密運(yùn)算,更是對(duì)經(jīng)濟(jì)、民生、醫(yī)療等行業(yè)現(xiàn)狀的深刻洞察;每一個(gè)數(shù)據(jù)模型的建立也并不簡(jiǎn)單,既有相關(guān)研究人員十?dāng)?shù)年學(xué)術(shù)知識(shí)的沉淀,也飽含他們想要以學(xué)報(bào)國(guó)的深刻情感。而這道令人著迷的數(shù)學(xué)題,東北師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院教授李子林已經(jīng)解了近20年,直到今天,關(guān)于高維數(shù)據(jù)的統(tǒng)計(jì)分析方法和統(tǒng)計(jì)遺傳學(xué)的疑難點(diǎn)仍然是他職業(yè)生涯的主旋律,“我希望可以用自身的研究成果助力中國(guó)人群大隊(duì)列研究,推進(jìn)國(guó)家在精準(zhǔn)預(yù)防和精準(zhǔn)治療方向的發(fā)展,為實(shí)施健康中國(guó)戰(zhàn)略作出自己的貢獻(xiàn),在百年未有之大變局中為中華民族的偉大復(fù)興貢獻(xiàn)自己微薄的力量,以數(shù)字筑架,述國(guó)民基因之貌”,這是心愿,更是行動(dòng)。
梁園雖好非吾鄉(xiāng)
春華秋實(shí),歲物豐成。2023年,在李子林決定離開美國(guó)時(shí),他正在印第安納大學(xué)醫(yī)學(xué)院擔(dān)任助理教授,在這之前,他一度在世界頂級(jí)學(xué)府之一的哈佛大學(xué)深耕了6年,師從國(guó)際知名統(tǒng)計(jì)學(xué)家、美國(guó)國(guó)家科學(xué)院和美國(guó)國(guó)家醫(yī)學(xué)院兩院院士林希虹院士;在國(guó)際遺傳學(xué)知名期刊《自然·遺傳學(xué)》(Nature Genetics)和《自然·方法》(Nature Methods)上陸續(xù)發(fā)表學(xué)術(shù)論文……這樣的職業(yè)發(fā)展軌跡任誰(shuí)來(lái)看都是熠熠生輝的,他卻在一切都走上正軌的時(shí)刻毅然選擇更換賽道,循著身體中流淌的中華血脈、抱著逐夢(mèng)圓夢(mèng)的如磐初心重歸祖國(guó)熱土,在眾多一線城市高校拋出的橄欖枝中選擇了回報(bào)桑梓——加入東北師范大學(xué)?!傲簣@雖好,實(shí)非吾鄉(xiāng)”,對(duì)于自己誠(chéng)摯、熱烈也帶些沖動(dòng)的選擇,他的回應(yīng)始終只有這樣云淡風(fēng)輕卻擲地有聲的一句話。
而教會(huì)李子林這句話的,正是我國(guó)馳名世界的頂尖學(xué)府之一——清華大學(xué)。作為享譽(yù)國(guó)際的高等院校之一,清華大學(xué)在科研和教育上的成就本無(wú)須多言,但如果一定要用文字來(lái)描述它,則可以用無(wú)數(shù)種方法,可以是寥寥數(shù)字,也可以是長(zhǎng)篇巨幅。不過(guò)無(wú)論如何試圖去描述,結(jié)果都一樣:對(duì)任何人來(lái)說(shuō),它都是個(gè)神秘的宮殿,里面藏著數(shù)不清的、挖不完的寶藏,或可見或不可見,浮光躍金、流動(dòng)不止。而李子林從小就在心中種下過(guò)這樣一顆種子。
少時(shí)的李子林在數(shù)學(xué)學(xué)科上就是有天賦且足夠努力的,憑借著對(duì)奧數(shù)的興趣一路“闖入”清華大學(xué)赫赫有名的“數(shù)理基礎(chǔ)科學(xué)班”,但他始終保持謙遜,“小時(shí)候我身邊有一群固定的伙伴一起學(xué)習(xí)奧數(shù),他們后來(lái)也都各自考入了清華北大、復(fù)旦、上海交通大學(xué)等學(xué)校,并在各自領(lǐng)域都發(fā)展得很好,跟他們比起來(lái)我真的談不上‘優(yōu)秀’二字”。雖然擇校后無(wú)法常聚,但無(wú)論是對(duì)于李子林還是他的伙伴,抑或是所有數(shù)學(xué)從業(yè)者而言,他們之間始終都存在著一種無(wú)言的默契,即數(shù)學(xué)從來(lái)都是助人“開眼看世界”的一個(gè)視角,是打造良好邏輯思維的鍛造工具,而不是成績(jī)單上令人矚目的數(shù)字,更不是掛在嘴邊逢人炫耀的“學(xué)習(xí)功績(jī)”。也正是這樣“兼容并蓄”的認(rèn)知和胸懷,才讓李子林在接觸統(tǒng)計(jì)世界的風(fēng)景之后,堅(jiān)定地選擇這一方向,為畢生事業(yè)打下地基。
大學(xué)三年級(jí)對(duì)于李子林而言像是一道分水嶺,既結(jié)束了入校前兩年數(shù)理共培的課程模式,讓基礎(chǔ)科學(xué)班的同學(xué)得以自主選擇專業(yè);也分隔了李子林所有的懵懂不定和彷徨不決,因?yàn)榱窒:缭菏繉⑦z傳統(tǒng)計(jì)學(xué)帶入了他的視野?!拔疫€記得那應(yīng)該是一次暑期活動(dòng),學(xué)校特意邀請(qǐng)了許多海外名師來(lái)做分享,林希虹院士就是其中之一,她深入淺出的講解和成熟穩(wěn)健的性格特征都給我留下了非常深刻的印象”,這成為李子林此后遠(yuǎn)赴美國(guó)跟隨林希虹院士深造的伏筆。不過(guò)那時(shí),他還只顧沉迷在相對(duì)基礎(chǔ)的統(tǒng)計(jì)學(xué)理論知識(shí)點(diǎn)中,因?yàn)榍迦A大學(xué)數(shù)學(xué)系在當(dāng)時(shí)還沒有設(shè)立專門的統(tǒng)計(jì)培養(yǎng)方向?!拔疫x擇和其他兩名同學(xué)一起探索,到處旁聽我們認(rèn)為適合的課程,互相鼓勵(lì)、有商有量,那是一段非常純粹的學(xué)習(xí)時(shí)光。”直到今天,他們?nèi)允抢钭恿址浅V匾颐芮械呐笥?,雖然彼此分別于本科畢業(yè)的2011年,但幸運(yùn)的是此間友誼既長(zhǎng)且堅(jiān),適時(shí)的聯(lián)絡(luò)讓李子林得知他們均在各自的人生坐標(biāo)上精耕細(xì)作、閃閃發(fā)亮。
如果說(shuō),清華博士二年級(jí)發(fā)表第一篇第一作者的學(xué)術(shù)文章標(biāo)志著李子林在學(xué)術(shù)理論上的初步成熟,那么自2013年起在美國(guó)磨礪的十年就是李子林邁向?qū)嵺`之路的象征。其導(dǎo)師林希虹院士以將統(tǒng)計(jì)學(xué)方法和理論應(yīng)用于醫(yī)學(xué)和公共健康問(wèn)題的相關(guān)研究聞名學(xué)界,不僅在2005年受聘為哈佛大學(xué)生物統(tǒng)計(jì)系終身正教授;還作為首位華人女性獲獎(jiǎng)?wù)哂?006年,將統(tǒng)計(jì)學(xué)界的“諾貝爾獎(jiǎng)”——考普斯總統(tǒng)獎(jiǎng)收入囊中,同時(shí)于2018年當(dāng)選美國(guó)醫(yī)學(xué)院院士,2023年當(dāng)選美國(guó)科學(xué)院院士?!澳軌蚋S這樣的導(dǎo)師進(jìn)行學(xué)習(xí),我非常榮幸?!崩钭恿终\(chéng)懇地說(shuō)道。
跟隨林院士,李子林深刻了解到生物統(tǒng)計(jì)學(xué)的研究領(lǐng)域涉及關(guān)系醫(yī)學(xué)、公共健康和生物醫(yī)學(xué)問(wèn)題的很多方面,其研究方法也包括假設(shè)建立,實(shí)驗(yàn)設(shè)計(jì)、取樣、數(shù)據(jù)收集和整理,數(shù)據(jù)分析,模型建立,結(jié)論推斷等諸多環(huán)節(jié),是一門研究對(duì)象復(fù)雜、研究方法多樣的學(xué)科。更重要的是,這一研究與人類健康事業(yè)關(guān)系密切。李子林深感自己重任在肩,因此反復(fù)實(shí)踐摸索7年,直到2019年才發(fā)表了自己的第二篇第一作者學(xué)術(shù)論文?!捌溟g如果說(shuō)完全沒有焦慮與擔(dān)憂肯定是假的,但也正是這段臥薪嘗膽般的日子讓我明確了堅(jiān)持的意義和重量?!笔昴K成鋒,在不斷試錯(cuò)、挑戰(zhàn)全新數(shù)據(jù)結(jié)構(gòu)的奮行之下,STAAR系列方法和工具順勢(shì)而生。
躬耕不輟付春華
“人類基因組由約30億個(gè)堿基對(duì)構(gòu)成,這是人類遺傳學(xué)研究的核心,也是我所有工作的起源?!崩钭恿纸榻B道。
近年來(lái),隨著測(cè)序成本的大幅下降,大規(guī)模的全基因組測(cè)序研究和生物樣本庫(kù)研究正在快速向前發(fā)展,例如美國(guó)國(guó)家心肺血液研究所20萬(wàn)人的精準(zhǔn)化醫(yī)學(xué)研究計(jì)劃,美國(guó)國(guó)家人類基因組研究所的35萬(wàn)人的基因組測(cè)序計(jì)劃,以及50萬(wàn)人的英國(guó)生物樣本庫(kù)。這些研究已經(jīng)對(duì)上百萬(wàn)個(gè)全基因組進(jìn)行了測(cè)序,并發(fā)現(xiàn)了近十億個(gè)變異位點(diǎn),其中罕見變異占比率超過(guò)了99%,也就是說(shuō),罕見變異正在成為復(fù)雜性狀和疾病遺傳力缺失的主要來(lái)源。而學(xué)界為了“偵破”罕見變異所帶來(lái)的其他隱性改變,其相關(guān)研究與測(cè)序數(shù)據(jù)驟增至海量。若要輕松面對(duì)如此浩如煙海的數(shù)字架構(gòu),一個(gè)關(guān)鍵挑戰(zhàn)就是缺乏全面、自動(dòng)化、可擴(kuò)展和高效的分析軟件和工具;另一個(gè)挑戰(zhàn)則是超過(guò)98%的遺傳變異位于非編碼基因組。也就是說(shuō),盡管在評(píng)估編碼罕見變異對(duì)復(fù)雜性狀的影響方面取得了一定的進(jìn)展,但是非編碼罕見變異分析仍存在較大的空白。因此,亟需針對(duì)基因組大數(shù)據(jù)中非編碼罕見變異的統(tǒng)計(jì)分析方法和軟件,以發(fā)現(xiàn)人類疾病和表型的遺傳構(gòu)架,找到導(dǎo)致疾病的遺傳變異位點(diǎn),開發(fā)新的藥物靶標(biāo)。
針對(duì)這一難題,在林希虹院士的指導(dǎo)及親自帶隊(duì)參與下,李子林協(xié)同背后團(tuán)隊(duì)開發(fā)了大規(guī)模全基因組測(cè)序數(shù)據(jù)非編碼罕見變異關(guān)聯(lián)分析工具——STAAR pipeline。這是一款一體化關(guān)聯(lián)分析流程,可自動(dòng)化進(jìn)行基因型數(shù)據(jù)與功能注釋集成、關(guān)聯(lián)分析及結(jié)果匯總和可視化。
“首先,STAAR pipeline應(yīng)用FAVOR數(shù)據(jù)庫(kù)和FAVOR annotator工具對(duì)全基因組數(shù)據(jù)進(jìn)行功能注釋。其次,STAAR pipeline自動(dòng)定義罕見變體集進(jìn)行分析,包括基于功能性分類的以基因?yàn)橹行牡姆治觯╣ene-centric analysis)和基于變異位置的非以基因?yàn)橹行牡姆治觯╪on-gene-centric analysis)。對(duì)于以基因?yàn)橹行牡姆治觯琒TAAR pipeline可提供基于8種非編碼功能類別集的罕見變異分析;對(duì)于非以基因?yàn)橹行牡姆治?,STAAR pipeline則提供了滑動(dòng)窗口分析和動(dòng)態(tài)窗口分析。相比于經(jīng)典的固定長(zhǎng)度滑動(dòng)窗口分析,動(dòng)態(tài)窗口分析通過(guò)采用數(shù)據(jù)自適應(yīng)長(zhǎng)度提升了檢驗(yàn)功效。再次,STAAR pipeline通過(guò)STAAR方法引入并整合了多組學(xué)功能注釋數(shù)據(jù),進(jìn)一步提高了檢驗(yàn)功效。最后,STAAR pipeline利用廣義線性混合模型控制人群結(jié)構(gòu)和家系結(jié)構(gòu)的混雜影響,適用于包括連續(xù)型和離散型表型在內(nèi)多種類型的表型數(shù)據(jù),同時(shí)提供針對(duì)常見和低頻變異的單體分析,并針對(duì)編碼基因組提供基于5種功能類別集的罕見變異分析?!泵棵刻峒白约航承莫?dú)運(yùn)的得意作品,李子林總是滔滔不絕,因其雖是統(tǒng)計(jì)學(xué)世界中走出的一小步,但卻是他個(gè)人邁向更深遠(yuǎn)科學(xué)疆域的一大步。正如林希虹院士所一貫要求他們的那樣:既要在統(tǒng)計(jì)學(xué)上嚴(yán)格,又要在遺傳應(yīng)用上好用。
而李子林在美國(guó)時(shí)的數(shù)據(jù)分析進(jìn)一步證明了這一點(diǎn)。據(jù)悉,研究團(tuán)隊(duì)已將STAAR pipeline應(yīng)用于精準(zhǔn)醫(yī)學(xué)跨組學(xué)(TOPMed)全基因組測(cè)序數(shù)據(jù)中,高效地分析了4萬(wàn)人的9種表型。值得注意的是,STAAR pipeline在以基因?yàn)橹行牡姆蔷幋a分析中發(fā)現(xiàn)了49個(gè)顯著性關(guān)聯(lián),其中35個(gè)(71.4%)屬于6個(gè)新的非編碼功能類別集。動(dòng)態(tài)窗口分析在非編碼基因組中檢測(cè)到43個(gè)非重疊的顯著關(guān)聯(lián),比滑動(dòng)窗口分析多了19.4%。這些結(jié)果都在向世人表明,STAAR pipeline是一個(gè)強(qiáng)大、資源高效且穩(wěn)健的非編碼罕見變異關(guān)聯(lián)分析工具,應(yīng)用于大規(guī)模全基因組數(shù)據(jù)和生物庫(kù)樣本庫(kù)數(shù)據(jù)。
回國(guó)之前,李子林還陸續(xù)構(gòu)建了首個(gè)全面的非編碼基因組分析框架,突破了全基因組測(cè)序數(shù)據(jù)罕見變異分析的運(yùn)算瓶頸;發(fā)展了全基因組測(cè)序數(shù)據(jù)罕見變異薈萃分析方法MetaSTAAR,突破了測(cè)序數(shù)據(jù)罕見變異匯總統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)瓶頸,實(shí)現(xiàn)了隱私保護(hù)下多個(gè)大規(guī)模全基因組測(cè)序研究的整合分析。雖然取得了一定的成績(jī),但他的目光卻隨著人生計(jì)劃的逐步推進(jìn)、回歸祖國(guó)而投向了更遠(yuǎn)方,即面向世界科技前沿、面向國(guó)家重大需求、面向人民生命健康,為廣大民眾的健康福祉作出貢獻(xiàn),在躬耕不輟的“春日”中,將熱愛的種子澆灌成花朵。
抱樸之心守秋實(shí)
眼下,雖然李子林加入東北師范大學(xué)僅有短短半年時(shí)間,但他已瞄準(zhǔn)“未來(lái)賽道”,積極與各大高校和醫(yī)院展開合作,旨在推廣應(yīng)用STAAR系列方法和工具分析中國(guó)人群的基因組大數(shù)據(jù),構(gòu)建疾病和復(fù)雜表型的遺傳圖譜。
“這是一個(gè)雙向增長(zhǎng)的共贏過(guò)程。醫(yī)學(xué)研究人員僅需提供基因型和表型數(shù)據(jù),STAAR工具便能自動(dòng)完成全基因組分析,得到匯總后和可視化的結(jié)果。而通過(guò)不斷更新的數(shù)據(jù),我們也能盡快盡好地了解國(guó)人基因結(jié)構(gòu),為以后的迭代更新打下基礎(chǔ)?!崩钭恿謴?qiáng)調(diào)。
有怎樣的眼界,就能看到怎樣的遠(yuǎn)方;有多大的胸襟,就能包容多大的世界。走在推廣路上,李子林從不吝嗇將STAAR系列的使用方法及配套技術(shù)廣泛播撒。“授人以魚不如授人以漁,對(duì)使用者來(lái)說(shuō),令人安心的‘售后’工作也是重要一環(huán),我一個(gè)人或者說(shuō)我的團(tuán)隊(duì)力量終歸有限,因此不如沿途培養(yǎng),當(dāng)熟知的人足夠多、口碑建立得足夠穩(wěn)固,也就意味著產(chǎn)品本身的成功,我的工作才有價(jià)值?!彼f(shuō)。
時(shí)間尚短,路程尚遠(yuǎn),今天的李子林無(wú)法豪言通過(guò)統(tǒng)計(jì)學(xué)這根“金扁擔(dān)”挑起國(guó)民健康發(fā)展。但天長(zhǎng)日久,其心仍堅(jiān),慢性病易感基因的識(shí)別工作仍在開展,“精準(zhǔn)健康”,即根據(jù)患者的遺傳特征制定個(gè)性化診療方案的探索仍在醞釀,眾多藍(lán)海藥物的新靶標(biāo)也正在完善……基因組大數(shù)據(jù)研究在未來(lái)疾病預(yù)防、診斷和治療方面發(fā)揮的關(guān)鍵作用毋庸置疑,而李子林相信,只要抱定一顆質(zhì)樸之心,終能收獲秋實(shí)。