王輝
1854年,倫敦發(fā)生了大規(guī)模的霍亂,很長時(shí)間沒辦法控制。一位醫(yī)師用標(biāo)點(diǎn)地圖的方法研究了當(dāng)?shù)厮植己突魜y患者分布之間的關(guān)系,發(fā)現(xiàn)一口水井位于霍亂病例地理分布的中心,借此找到了霍亂暴發(fā)的原因:一口被污染的水井。在關(guān)閉這口水井之后,霍亂的發(fā)病率明顯地下降了。這是一個(gè)簡單的故事,卻展示了統(tǒng)計(jì)學(xué)的力量,
目前,大數(shù)據(jù)時(shí)代拉開帷幕,作為數(shù)據(jù)分析的“靈魂”,統(tǒng)計(jì)學(xué)的重要性愈發(fā)凸顯。“統(tǒng)計(jì)學(xué)的發(fā)展不僅可以極大地促進(jìn)其它相關(guān)學(xué)科的研究,更可以為政府決策提供科學(xué)依據(jù),促進(jìn)整個(gè)社會(huì)的全面進(jìn)步!”鄧柯說。
求“實(shí)用”踏上統(tǒng)計(jì)之路
頤和園路5號(hào),北京大學(xué)的所在地,2003年,鄧柯以直博生的身份,在這里踏上了“統(tǒng)計(jì)”之路。“在北大讀本科的4年,我意識(shí)到相對(duì)于純理論研究,自己更希望能貼近實(shí)踐,解決實(shí)際生活中的一些問題。而統(tǒng)計(jì)學(xué)在很多領(lǐng)域都有廣泛的應(yīng)用,所以我選擇了它?!?/p>
鄧柯是個(gè)講求“實(shí)用”的人,統(tǒng)計(jì)學(xué)是一門面向應(yīng)用的學(xué)科。他們“脾性相投”,在北京大學(xué)一起度過了5年的直博時(shí)光?;貞浧疬@段日子,鄧柯說了一個(gè)詞——幸運(yùn),“那時(shí),國家開始大力引進(jìn)國外人才,享譽(yù)國際的著名統(tǒng)計(jì)學(xué)家、哈佛大學(xué)教授劉軍以長江講座教授的身份被北大引進(jìn),與我的博士生導(dǎo)師——北大數(shù)理統(tǒng)計(jì)研究所所長耿直教授一同指導(dǎo)我做研究,這讓我受益匪淺?!?/p>
2008年博士畢業(yè)后,為了進(jìn)一步深造,他漂洋過海來到美國哈佛大學(xué)統(tǒng)計(jì)系繼續(xù)博士后研究,并于出站后留在哈佛大學(xué)工作。一路走來鄧柯在統(tǒng)計(jì)學(xué)方面已頗有建樹。
“序貫蒙特卡羅”是用來解決在高維復(fù)雜系統(tǒng)中進(jìn)行統(tǒng)計(jì)抽樣的一種蒙特卡羅方法,在以“Particle Filter”為代表的一大類重要實(shí)際問題中有著非常重要的應(yīng)用。但是傳統(tǒng)的“序貫蒙特卡羅”方法主要針對(duì)連續(xù)型分布,應(yīng)用到離散型分布時(shí),抽樣效率會(huì)大幅降低。為了破解這一難題,鄧柯針對(duì)離散型分布的特點(diǎn),對(duì)原有的“序貫蒙特卡羅”方法進(jìn)行了創(chuàng)新性改進(jìn),提出了“序貫拒絕控制抽樣”的新方法,大幅提高了對(duì)離散分布的抽樣效率,在許多實(shí)際問題中有重要應(yīng)用。這項(xiàng)研究成果發(fā)表在統(tǒng)計(jì)學(xué)頂級(jí)雜志Journal of the RoyalStatistical Society;Series B
當(dāng)然,解決實(shí)際問題才是鄧柯的出發(fā)點(diǎn)和落腳點(diǎn)。在這方面,生物領(lǐng)域的“Hi-C”數(shù)據(jù)分析就是他的關(guān)注點(diǎn)之一?!癏i-C”是一項(xiàng)能夠系統(tǒng)測量基因組中大量位點(diǎn)間相互作用的新技術(shù),是近年來生物學(xué)和生物信息學(xué)研究中的一個(gè)熱點(diǎn)問題。該技術(shù)可以在很高的解析度下間接測量染色體中任意兩個(gè)位點(diǎn)之間的近似空間距離,從而為系統(tǒng)分析染色體的空間結(jié)構(gòu)提供了基本信息。“然而,由于生物試驗(yàn)的復(fù)雜性,Hi-C數(shù)據(jù)中包含著許多測量偏差和不確定性,為數(shù)據(jù)分析帶來很大挑戰(zhàn)?!编嚳掠y而上,與合作者通過對(duì)“Hi-C”數(shù)據(jù)的深入分析,提出了一套通過統(tǒng)計(jì)推斷來預(yù)測染色體三維結(jié)構(gòu)的新方法,該方法能夠很好地矯正數(shù)據(jù)中的測量偏差并系統(tǒng)性地處理其中的不確定性,使得生物學(xué)家能夠在40KB的精細(xì)尺度下觀察和分析染色體的三維結(jié)構(gòu),并從一個(gè)新的角度來研究遺傳物質(zhì)對(duì)生命系統(tǒng)的影響。論述這一新方法的系列論文發(fā)表在生物信息學(xué)的頂級(jí)期刊Bioinformatics和PloS Computational Biology上,獲得廣泛關(guān)注。
在這同時(shí),鄧柯還在計(jì)算機(jī)網(wǎng)絡(luò)通訊、醫(yī)學(xué)數(shù)據(jù)分析、社會(huì)學(xué)中的統(tǒng)計(jì)問題等方面有了新的突破。
回故土開啟新征程
2013年,鄧柯作為青年千人回國到清華大學(xué)任職,“在當(dāng)時(shí),清華的統(tǒng)計(jì)學(xué)科基礎(chǔ)相對(duì)薄弱。只有清華、北大、中科院的統(tǒng)計(jì)學(xué)都強(qiáng)大起來,中國之統(tǒng)計(jì)才能強(qiáng)起來。所以,我愿意投入到清華的統(tǒng)計(jì)學(xué)科建設(shè)中來?!?/p>
隨著統(tǒng)計(jì)學(xué)成為“一級(jí)學(xué)科”,國內(nèi)許多高校都加大了統(tǒng)計(jì)學(xué)科建設(shè)的力度。2014年,清華大學(xué)決定組建“統(tǒng)計(jì)學(xué)研究中心”,并聘請鄧柯的博士后導(dǎo)師劉軍教授擔(dān)任中心主任,哈佛大學(xué)生物統(tǒng)計(jì)系林希虹教授擔(dān)任共同主任,領(lǐng)導(dǎo)中心的發(fā)展建設(shè)。而鄧柯也作為副主任,加入到了中心的建設(shè)工作中?!斑@個(gè)過程非常艱辛,要找辦公場地,跑手續(xù)、搞裝修、招聘秘書、引進(jìn)人才、做人事制度改革等許多其他工作。但是,我們最終還是成功地在短短的一年之內(nèi)把中心建立了起來,并推動(dòng)其迅速步入了快速發(fā)展的軌道?!?015年6月27日,清華大學(xué)統(tǒng)計(jì)學(xué)研究中心成立大會(huì)隆重召開,海內(nèi)外150余名專家齊聚清華,鄧柯與他們共同見證了這個(gè)歷史性時(shí)刻。目前,清華大學(xué)統(tǒng)計(jì)學(xué)研究中心已經(jīng)組建了一只由6位全職教員、3位兼職教員構(gòu)成的師資隊(duì)伍,他們正帶領(lǐng)著2位博士后、十余位博士生向統(tǒng)計(jì)學(xué)的高峰不斷攀登。
回到清華工作的3年中,鄧柯在學(xué)術(shù)的道路上不斷前行,取得了豐碩的成果。他首創(chuàng)了排序數(shù)據(jù)集成的貝葉斯方法,大幅提高了排序集成結(jié)果的準(zhǔn)確性,這項(xiàng)研究成果發(fā)表在統(tǒng)計(jì)學(xué)頂級(jí)雜志Journal of American StatisticsAssociation。他還與合作者一起提出了運(yùn)用統(tǒng)計(jì)學(xué)原理整合多種生物組學(xué)數(shù)據(jù)的新方法,相關(guān)研究成果發(fā)表在NatureCommunications。
基于統(tǒng)計(jì)學(xué)的文本分析是鄧柯的另一個(gè)關(guān)注點(diǎn)。盡管作為計(jì)算機(jī)科學(xué)的一個(gè)傳統(tǒng)研究領(lǐng)域,文本分析的理論和方法研究倍受關(guān)注,并已取得諸多成果。但是,目前仍然缺乏一種有效的方法可以將文本分析中的諸多環(huán)節(jié)進(jìn)行整合。以中文分析為例:新詞發(fā)現(xiàn)、分詞和命名實(shí)體識(shí)別這三個(gè)關(guān)鍵問題大都被分別處理。“更為重要的是,現(xiàn)有的主流方法大多依賴高質(zhì)量的訓(xùn)練樣本。但是,在許多重要的實(shí)際問題中,由于所涉及的文本規(guī)模龐大且風(fēng)格多樣,幾乎沒有可能低成本地獲取有廣泛代表性的高質(zhì)量訓(xùn)練樣本。”鄧柯補(bǔ)充道。這一事實(shí)極大地限制了許多文本分析方法的應(yīng)用范圍。
為了克服這種缺陷,鄧柯劍走偏鋒,提出了一種基于“詞典模型”的統(tǒng)計(jì)方法。該方法將新詞發(fā)現(xiàn)、分詞和命名實(shí)體識(shí)別作為一個(gè)整體來通盤處理,既不需要傳統(tǒng)意義上的訓(xùn)練樣本,又能充分利用文本中的信息,有重要的學(xué)術(shù)價(jià)值和廣闊的應(yīng)用前景。這一研究成果發(fā)表在頂級(jí)綜合性期刊《美國科學(xué)院院刊》(Proceedings of the NationalAcademy of Sciences of USA),引起了國內(nèi)外中文處理學(xué)界的廣泛關(guān)注。
為了支持日益增長的醫(yī)療大數(shù)據(jù)研究和產(chǎn)業(yè)需求,清華大學(xué)統(tǒng)計(jì)學(xué)研究中心于2015年10月成立了“醫(yī)療大數(shù)據(jù)中心”,與國內(nèi)外醫(yī)學(xué)界和產(chǎn)業(yè)界建立深入合作,共同推動(dòng)與醫(yī)療大數(shù)據(jù)相關(guān)的理論和應(yīng)用研究。在這個(gè)研究平臺(tái)上,鄧柯開展了一系列新的探索。“我國巨大的人口基數(shù)和醫(yī)療資源分配不均衡的現(xiàn)狀使得我國自然形成了多個(gè)全國性和區(qū)域性的醫(yī)療中心,它們積累了大量寶貴的醫(yī)療數(shù)據(jù)。如果能夠?qū)@些醫(yī)療大數(shù)據(jù)進(jìn)行有效的分析,并從中提取出與疾病診斷、疾病治療、療效評(píng)價(jià)、效費(fèi)分析相關(guān)的重要模式和信息,必將對(duì)提升我國醫(yī)療系統(tǒng)的整體效率產(chǎn)生重大推動(dòng)作用,并有可能催化出重大的新發(fā)現(xiàn)?!编嚳抡f。
“要實(shí)現(xiàn)這一目標(biāo),不僅要收集大量的醫(yī)學(xué)臨床數(shù)據(jù),更要對(duì)這些數(shù)據(jù)進(jìn)行深度清洗和整理從而將其轉(zhuǎn)換為能夠進(jìn)行分析的形式,并需要設(shè)計(jì)出有針對(duì)性的分析方法來對(duì)這些數(shù)據(jù)進(jìn)行分析。統(tǒng)計(jì)學(xué)在這其中的任何一步都發(fā)揮著不可替代的作用。”鄧柯補(bǔ)充道。目前,鄧柯帶領(lǐng)的課題組正在醫(yī)學(xué)自然語言處理和標(biāo)準(zhǔn)化、醫(yī)學(xué)知識(shí)圖譜構(gòu)建、醫(yī)學(xué)大數(shù)據(jù)模式識(shí)別等領(lǐng)域展開卓有成效的尖端研究?!拔覀兤谕诓痪玫膶頃?huì)在這一領(lǐng)域做出一系列重要成果!”鄧柯對(duì)未來充滿信心。
鄧柯的“野心”不止如此,他還力圖運(yùn)用統(tǒng)計(jì)學(xué)的方法和原理為政府決策提供有力支持。2015年,鄧柯作為數(shù)據(jù)科學(xué)家參與到國家質(zhì)檢總局“進(jìn)出口食品安全監(jiān)管改革”方案的制定工作中,和總局的專家一道對(duì)我國進(jìn)口食品口岸檢驗(yàn)歷史數(shù)據(jù)進(jìn)行了深入分析,并依據(jù)數(shù)據(jù)分析的結(jié)果設(shè)計(jì)了一套全新的監(jiān)管體系和口岸抽檢方案。這從根本上改變了我國進(jìn)口食品檢驗(yàn)實(shí)踐中長期依賴人為經(jīng)驗(yàn)的粗曠式做法。目前,這套方案已經(jīng)作為“國家抽檢計(jì)劃”在全國質(zhì)檢系統(tǒng)得到了實(shí)際運(yùn)用?!斑@項(xiàng)工作可能因?yàn)楸C苄远荒馨l(fā)表文章,但是食品安全和人民群眾的生活息息相關(guān),所以要是做好的話還是非常有意義的。”鄧柯說。
科學(xué)中國人2017年1期