朱聯(lián)輝,李京京,曹誠
軍事醫(yī)學(xué)研究院 生物工程研究所,北京 100071
隨著基因組測序技術(shù)的迅猛發(fā)展,我們目前所面臨的最緊迫問題已經(jīng)不再是測序技術(shù)本身,而是面對基于高通量測序技術(shù)產(chǎn)出的海量數(shù)據(jù),如何進行儲存、管理和分析挖掘。按照現(xiàn)在的測序能力,一個星期產(chǎn)生的數(shù)據(jù)量即相當(dāng)于幾年前一個大型基因組測序中心一年的產(chǎn)出量。如何面對這種兆兆級字節(jié)(terabyte)的數(shù)據(jù)量,已經(jīng)成為各個從事基因組研究工作的實驗室必須解決的問題。面對海量的基因組大數(shù)據(jù),如何應(yīng)用其來創(chuàng)新探索未來的生命科學(xué)和醫(yī)學(xué)科學(xué),乃至其他科學(xué)和產(chǎn)業(yè)領(lǐng)域,以及如何在龐大的數(shù)據(jù)資源中快速獲取信息以提升人類生物安全能力,是亟待探討的現(xiàn)實問題[1]。
近幾年來,隨著科研工作者和相關(guān)產(chǎn)業(yè)人士的共同努力,使得基因組大數(shù)據(jù)的應(yīng)用對生命科學(xué)、醫(yī)學(xué)和相關(guān)產(chǎn)業(yè)的推動效應(yīng)已初見端倪,并成功地助力病原體進化溯源分析、微生物領(lǐng)域科學(xué)突破、精準(zhǔn)醫(yī)學(xué)新檢測方法和治療藥物開發(fā)等方面,為提高生物安全防護能力研究提供了重要的基礎(chǔ)。
2013年3月底,一種新型H7N9流感在中國暴發(fā),隨后疫情迅速擴散到華東與華北地區(qū)的多個省市。因為其較高的感染性,引發(fā)了社會各界的高度關(guān)注。Gao等[2]依據(jù)最早獲得的流感病毒序列構(gòu)建系統(tǒng)發(fā)育樹,發(fā)現(xiàn)其HA節(jié)段與我國2011年在浙江分離的H7N3鴨流感病毒HA節(jié)段在進化上具有共同起源;NA節(jié)段與2011年在韓國野鳥中發(fā)現(xiàn)的H7N9流感病毒NA片段具有共同起源;其他6個片段與國內(nèi)禽類中廣泛流行的H9N2流感病毒具有共同起源,因而提出該流感病毒為“三重重組”病毒。
中國科學(xué)院和國家流感中心等單位一起勾勒出了病毒形成與演化的路徑,指出它經(jīng)歷了復(fù)雜的重配和突變過程。研究表明[3],2013年暴發(fā)的H7N9禽流感病毒是一株多重重組病毒,經(jīng)歷了多次重組事件,形成了由禽到人的跨宿主傳播,即由野鳥到家鴨,由家鴨到家雞,最后由家雞感染人的過程。通過對H7N9禽流感病毒的溯源工作,發(fā)現(xiàn)加強對家禽和野鳥中不同亞型流感病毒的監(jiān)控,可有效判斷病毒的來源,切斷病毒的重配與傳播途徑。通過家禽可能是其傳播中間宿主的結(jié)論,及時關(guān)閉了一些地區(qū)的家禽交易市場,從而實現(xiàn)了對疫情的有效控制。同時通過監(jiān)控數(shù)據(jù)的分析,能夠提前預(yù)知禽流感暴發(fā)的潛在風(fēng)險,從而做出有效預(yù)警。
2014年初在西非暴發(fā)的埃博拉疫情造成了數(shù)以萬計的感染和死亡病例。最初的報道指出此次疫情源自幾內(nèi)亞南部一個叫Gueckedou的森林地區(qū)[4],隨后病毒擴散到幾內(nèi)亞首都科納克里(Conakry)以及鄰近國家,包括塞拉利昂、利比里亞、尼日利亞、馬里等。關(guān)于此次2014西非埃博拉疫情早期的分子進化研究[5]主要由美國的研究團隊完成,他們在塞拉利昂地區(qū)的78個病人身上分離了99株病毒并完成了其完整基因組的測序,分析結(jié)果提示病毒大約在2014年5月由幾內(nèi)亞傳播到塞拉利昂,同時指出此次流行的埃博拉病毒的進化速率是以往疫情病毒進化速率的近2倍,需要加強對病毒進化的持續(xù)監(jiān)測。
國內(nèi)原軍事醫(yī)學(xué)科學(xué)院等多家單位也開展了針對塞拉利昂175個陽性樣本的新測序結(jié)果的研究分析,分析結(jié)果表明此次埃博拉病毒的突變速率約為1.23×10-3,較以往的突變速率略有增加,但遠沒有達到之前報道的以往進化速率的2倍之多。研究共發(fā)現(xiàn)了440個2014年新產(chǎn)生的突變位點,這些位點將為埃博拉相關(guān)疫苗和藥物研發(fā)提供重要的參考價值。同時確定了此次埃博拉疫情在塞拉里昂西部地區(qū)傳播的3個重要傳播節(jié)點,分別是首都弗里敦(Freetown)和塞拉里昂西部的2個重要交通樞紐Waterloo和Maforki Chief?dom。研究顯示在此次疫情的傳播網(wǎng)絡(luò)中,這3個地區(qū)充當(dāng)了關(guān)鍵的路由節(jié)點,為病毒的突變和譜系發(fā)生提供了重要場所。相關(guān)研究結(jié)果發(fā)表在《Nature》上[6],有文章以“最新數(shù)據(jù)排除埃博拉快速突變”為題對我國的研究成果進行評論[7]。
科學(xué)家們通過對在幾內(nèi)亞流行的埃博拉病毒株進行基因組測序,追蹤了病毒的傳播,并監(jiān)測了這一國家的病毒進化情況。研究揭示出有3種不同的病毒變種在幾內(nèi)亞,尤其是首都的城市區(qū)域和附近的市鎮(zhèn)同時傳播[8]。
來自英國牛津大學(xué)和巴西Evandro Chagas研究所等機構(gòu)的研究人員對巴西暴發(fā)的寨卡病毒進行首個基因組分析,從而提供了關(guān)于這種病毒如何和何時可能進入美洲方面的新信息?;蚪M測序研究已對巴西的寨卡病毒傳播有了更加清晰的了解。然而,仍然迫切需要更多的基因組數(shù)據(jù)來理解這種病毒在美洲和巴西的起源、空間擴散和進化[9]。
人類發(fā)展、遷移與擴張進化歷史就是人類不斷適應(yīng)環(huán)境的歷史。世界各地的地理位置、環(huán)境氣候、疾病流行情況不同,不同人群文化發(fā)展如飲食習(xí)慣、農(nóng)業(yè)形式、人口密度等風(fēng)格迥異,人類在適應(yīng)各自不同的地理、文化環(huán)境過程中必然導(dǎo)致不同人群所特有的遺傳變異即適應(yīng)性突變和相應(yīng)的特征性表型如膚色、發(fā)質(zhì)、體型等的出現(xiàn),因此適應(yīng)性突變通常具有明顯的人群特異性。
適應(yīng)性突變或不同人群特有遺傳變異的研究,對于揭示人類進化歷史、不同人群對疾?。ㄟz傳性,感染性)的易感性及相關(guān)防治特別是群體特異性、甚至個體化醫(yī)學(xué)的發(fā)展,意義重大。此外,在生物安全與反恐方面更具有非常重要的現(xiàn)實意義。人群特異性遺傳、表觀遺傳標(biāo)記的存在及其相繼被系統(tǒng)生物學(xué)的不同層面所揭示,為生物安全的研究提出了更大的挑戰(zhàn)。
人類微生物組計劃旨在揭示與健康改變相關(guān)的微生物組變化。人類微生物組計劃聯(lián)盟的200多名科學(xué)家歷時5年,對來自300名健康成人18個不同部位(包括口腔、鼻子、腸、耳背后以及手肘內(nèi)側(cè)等)的樣本進行了分析。密歇根大學(xué)的研究人員發(fā)表在《Nature》上的研究結(jié)果[10]從新的角度證實了健康人體微生物群落的廣泛差異,每個人都擁有一套獨特的菌群,這是由個人生活經(jīng)歷以及菌群與環(huán)境、飲食和用藥相互影響的結(jié)果。例如一個人的性別、教育水平,甚至是否曾接受母乳喂養(yǎng)都與他們的一些身體部位的菌群種類有關(guān)。
華南理工大學(xué)、深圳華大基因研究院和丹麥哥本哈根大學(xué)等單位合作完成了人類腸道微生物組最高質(zhì)量的參考基因集[11]。該研究基于249個新的人體腸道宏基因組和之前已公布的1018個被測序樣本,加上511株與人腸道密切相關(guān)的基因組已測序的細菌與古細菌信息,構(gòu)建了一個高質(zhì)量、近乎完整的人類腸道微生物組數(shù)據(jù)集,共包含9 879 896個基因,是更具代表性和高質(zhì)量的人類腸道微生物組參考基因集,有利于我們通過宏基因組、宏轉(zhuǎn)錄組以及宏蛋白組等方法,量化腸道微生物菌群在不同人群中的差異情況,從而理解它們在人類健康和疾病中的重要作用。
自2005年以來,國際科學(xué)界開展了至少8項人體微生物組計劃,如美國人類微生物組項目、加拿大微生物組研究項目及日本人體元基因組項目。中國科學(xué)家近年也積極參與或牽頭實施了中法腸道元基因組研究、十萬食源性病原微生物基因組計劃、萬種微生物基因組計劃等。
美國2016年5月13日宣布啟動“國家微生物組計劃”,這是奧巴馬政府繼腦計劃、精確醫(yī)學(xué)、抗癌“登月”之后推出的又一個重大國家科研計劃。最近10年來,人們逐漸認識到,從肥胖、糖尿病、哮喘等人類健康問題到海洋“死區(qū)”等環(huán)境問題,從農(nóng)業(yè)生產(chǎn)到氣候變化,或多或少都與微生物組相關(guān)聯(lián)。腸道微生物組甚至被稱為人體的“第二基因組”。2016年,《Science》和《Nature》兩大頂級學(xué)術(shù)刊物相繼以??男问浇榻B腸道菌群的最新研究進展。
美國能源部聯(lián)合基因組研究院的研究人員利用來自世界各地最大規(guī)模采集的組裝宏基因組數(shù)據(jù)集,揭示了125 000個部分及完整的病毒基因組,其中大多數(shù)病毒感染微生物。這一研究努力將已知的病毒基因數(shù)量提高了16倍,構(gòu)建出第一個全球病毒分布圖,為研究人員提供了獨特的病毒序列信息資源[12]。
比利時魯汶大學(xué)和荷蘭格林寧根大學(xué)的2個研究團隊分別在《Science》發(fā)表論文,通過2項大型研究計劃找出了腸道核心微生物群,為進一步建立生物標(biāo)記體系,評估腸道菌群是否正常提供了線索。結(jié)合2項研究的數(shù)據(jù)庫及其他英美國家的研究,確定了包含664個屬的人類核心微生物群,即95%的人腸道都有這些菌屬[13-14]。
一篇發(fā)表在《Ecosphere》上的研究論文中,來自北卡羅來納州立大學(xué)的研究人員首次繪制了引發(fā)人類疾病的病原菌圖譜[15]。研究者發(fā)現(xiàn)依據(jù)傳播媒介相關(guān)的人類疾病,世界可以被分為7大區(qū)域,這些疾病媒介都包括通過害蟲進行的傳播,比如蚊子傳播的瘧疾;而依據(jù)非病原媒介相關(guān)疾?。ㄈ缁魜y)來劃分的話,世界可以被分為5大區(qū)域。同時圖譜顯示,并不是所有區(qū)域都是連續(xù)的,諸如不列顛群島及其以前的殖民地,由于這些地區(qū)存在相似的疾病,因此被劃分為相同的病原媒介及非病原媒介傳播區(qū)域。但是在非洲及亞洲的英國前殖民地卻包含著不同類型的疾病,因此其就被劃分為不同的區(qū)域,這就表明殖民地化只是多種因素中的一個,就好比氣候和政治狀態(tài)一樣,影響著特殊區(qū)域疾病的流行。該研究表明不僅僅是人類的運動,氣候、歷史以及地理都是影響疾病發(fā)生、發(fā)展及擴散的因素,理解這眾多因素同病原菌之間的相互影響和作用,對于全球的公眾健康具有非常重要的意義。
人類基因組計劃取得的巨大成果,催生了一項新的項目,即精準(zhǔn)醫(yī)學(xué)。精準(zhǔn)醫(yī)學(xué)就是以個體化醫(yī)療為基礎(chǔ),隨著基因組測序技術(shù)快速進步以及生物信息與大數(shù)據(jù)科學(xué)的交叉應(yīng)用而發(fā)展起來的新型醫(yī)學(xué)概念與醫(yī)療模式,最終將實現(xiàn)對特定疾病和特定患者的個性化精準(zhǔn)治療的目的,提高疾病診療與預(yù)防的效益。即使在所有基因功能清楚之前,也可以通過連鎖分析確定基因組的哪一部分與人類遺傳特性及疾病有關(guān),隨后的深入研究就會發(fā)現(xiàn)與疾病有關(guān)的特定基因。突變分析以及基因多態(tài)性和等位頻率的確定將有助于了解疾病的易感性,掌握外源物質(zhì)(如藥物、環(huán)境、病原等)對基因表達的調(diào)控機理會促進藥物研發(fā)與疾病治療。目前最主要的應(yīng)用就是在疾病的新檢測方法和新治療藥物的研發(fā)上,也取得了一定的進展。
2014年,Broad研究所和麻省總醫(yī)院的研究人員在ExAC數(shù)據(jù)庫(Exome Aggregation Consor?tium,外顯子組整合數(shù)據(jù)庫)中公布了約1000萬個遺傳變異。近期,研究人員基于該數(shù)據(jù)庫中的60 702個歐洲人、非裔美國人、東亞人、南亞人和拉美人的外顯子組測序數(shù)據(jù),鑒定出3200個可能與人類遺傳病發(fā)展相關(guān)的基因[16]。
美國賓夕法尼亞大學(xué)的研究人員開發(fā)了一個Canopy軟件,將采集的同一腫瘤組織不同位置、不同時間的多份樣本進行全外顯子測序分析后的數(shù)據(jù)輸入Canopy軟件,可獲取腫瘤的“進化樹”。借助Canopy軟件,腫瘤學(xué)家能夠更好地了解腫瘤的發(fā)展趨勢,篩選出腫瘤樣本中不同癌細胞的潛在生物標(biāo)志物。這些生物標(biāo)志物與耐藥性、侵襲性惡性腫瘤等有關(guān)聯(lián),從而有助于早期患者得到準(zhǔn)確的診斷和預(yù)后[17]。
大數(shù)據(jù)分析推動乳腺癌的精準(zhǔn)治療。來自葡萄牙里斯本Champalimaud臨床研究中心的Car?doso和她的同事們用乳腺癌高通量基因檢測系統(tǒng)MammaPrint對6693位早期乳腺癌患者的70個乳腺癌標(biāo)志基因進行了檢測,初步研究結(jié)果顯示6693位乳腺癌患者中有1550位具有較高的臨床惡化風(fēng)險,而基因表達譜分析結(jié)果卻顯示這些患者的臨床惡化風(fēng)險較低,這一數(shù)字占總?cè)藬?shù)的23.2%。研究結(jié)果表明通過MammaPrint可以鑒別不需要化療的高臨床風(fēng)險早期乳腺癌患者[18]。來自英國劍橋大學(xué)的一項包含120 000名女性的國際研究確定了影響乳腺癌風(fēng)險的5個基因變異,這些突變被認為影響乳腺癌細胞對雌激素的反應(yīng)。這一發(fā)現(xiàn)將有助于乳腺癌風(fēng)險的預(yù)測以及特定類型乳腺癌風(fēng)險的確定[19]。
科學(xué)家們系統(tǒng)分析了620萬丹麥人在14.9年中的電子健康數(shù)據(jù),跟蹤了丹麥全國的疾病發(fā)展情況。他們將這些海量數(shù)據(jù)歸類為1171個主要的疾病進程模式,涵蓋了糖尿病、慢性阻塞性肺病、癌癥、關(guān)節(jié)炎、心血管疾病等多種疾病。在此基礎(chǔ)上,醫(yī)生們能夠預(yù)測某個個體是否正在醞釀著某種疾病,是否需要采取醫(yī)療手段進行干涉[20]。
來自布朗大學(xué)的研究人員開發(fā)了一種新型計算機程序HotNet2,可用于分析癌癥基因組圖譜計劃(TCGA)中12種不同類型癌癥的遺傳數(shù)據(jù)。此次研究人員聚焦的是體細胞突變,也就是我們會攜帶一生的非父母遺傳的突變。他們在3281個樣品中發(fā)現(xiàn)了16個關(guān)鍵基因網(wǎng)絡(luò),其中幾個在之前的研究中并未發(fā)現(xiàn)其與癌癥的重要關(guān)聯(lián)[21]。
美國華盛頓大學(xué)的研究人員提出了一種新的計算工具——HotSpot3D,可通過蛋白質(zhì)三維結(jié)構(gòu)來識別突變-突變和突變-藥物的聚類關(guān)系,并找出這些聚類與功能突變、結(jié)構(gòu)域及蛋白之間的對應(yīng)關(guān)系。研究人員通過檢測癌癥基因圖譜中19種癌癥的4000個腫瘤組織,確定了6000多種聚類的相互作用,而大多數(shù)相互作用是無法通過常規(guī)方法檢測到的。此外,通過藥物與變異之間的多維相互關(guān)系確定了800種具有前景的可藥化的突變點,對未來癌癥療法有很大意義[22]。
加州大學(xué)舊金山分校的科學(xué)家們開發(fā)了數(shù)據(jù)分析軟件ClusterFinder,依據(jù)土壤和海洋微生物的生物合成基因簇(BGC),系統(tǒng)分析了人類微生物組計劃數(shù)據(jù)庫,發(fā)現(xiàn)我們體內(nèi)生活的細菌可以生產(chǎn)大量藥用分子,為新藥開發(fā)提供了異常豐富的資源[23]。
開發(fā)基于新一代測序數(shù)據(jù)的病原體及抗生素耐藥性的快速鑒定算法,對于選擇正確的治療方案非常重要,也有助于預(yù)防醫(yī)院獲得性感染疾病的暴發(fā),并確定新出現(xiàn)的感染[24];不同藥物會偏好不同受體的中間態(tài),模擬受體3D結(jié)構(gòu)變化的新方法能指導(dǎo)科學(xué)家設(shè)計出針對受體的強效藥物[25]。通過開發(fā)藥物,阻止衣殼組裝或去組裝,從而導(dǎo)致衣殼功能障礙,或許可以阻止病毒增殖,編程模擬DNA分子可以植入病人體內(nèi)用于傳輸藥物和診斷疾病[26]。Drugable在線平臺可以使藥物研究人員在藥物化學(xué)結(jié)構(gòu)的基礎(chǔ)上預(yù)測新藥如何在人體內(nèi)發(fā)揮作用以及在何處發(fā)揮作用,為藥物研發(fā)提供捷徑[27]。
大數(shù)據(jù)分析推動前列腺癌精準(zhǔn)治療。來自美國加利福尼亞大學(xué)洛杉磯分校的癌癥研究人員開發(fā)了一組復(fù)雜的分析工具,對患有轉(zhuǎn)移性前列腺癌的病例進行分析,繪制了幫助前列腺癌細胞增殖和抵抗治療的復(fù)雜基因和蛋白質(zhì)網(wǎng)絡(luò)的詳細圖譜(基因組、轉(zhuǎn)錄組和磷酸化蛋白質(zhì)組學(xué)數(shù)據(jù))。研究人員還開發(fā)了一種計算方法來分析病人個體化數(shù)據(jù),幫助每位病人選擇最有效的治療藥物[28]。
上海交通大學(xué)Bio-X研究院聯(lián)合美國IBM沃森研究院、哈佛大學(xué)、加州大學(xué)伯克利分校等醫(yī)藥大數(shù)據(jù)前沿機構(gòu)的研究人員通力協(xié)作,共同構(gòu)建了基于醫(yī)藥大數(shù)據(jù)的藥物互相作用搜索引擎,進而在個體化用藥研究方面取得重要進展[29]。
基因組領(lǐng)域的大數(shù)據(jù)時代已然到來。據(jù)相關(guān)統(tǒng)計,全球每年生物數(shù)據(jù)總量已經(jīng)達到EB量級(260Bytes)。完整的人體基因組有約30億個堿基對,個體化基因組差異達6百萬堿基,基于個性化的遺傳背景產(chǎn)生了巨大數(shù)據(jù)。高效利用這些大數(shù)據(jù)無疑將為生命科學(xué)行業(yè)帶來無限機遇。生命科學(xué)正面臨從實驗驅(qū)動向數(shù)據(jù)驅(qū)動轉(zhuǎn)型,而加快生物大數(shù)據(jù)應(yīng)用必將進一步促力生命科學(xué)、醫(yī)療臨床、公共衛(wèi)生、農(nóng)業(yè)、環(huán)境和食品安全等更多領(lǐng)域更快更好的發(fā)展,也將成為國防事業(yè)和生物安全領(lǐng)域的研究重點。
值得注意的是,人類基因組數(shù)據(jù)涉及許多問題,如數(shù)據(jù)安全、個人隱私、數(shù)據(jù)使用時的知情同意問題等?;蚪M數(shù)據(jù)從根本上來說都是非常容易辨認的,所以還需要制定其他安全保障措施。在沒有入侵任何數(shù)據(jù)庫,不須破解任何特殊密碼的情況下,通過搜索公開數(shù)據(jù)庫即可確定捐贈DNA的匿名志愿者的研究,將個人與其基因組遺傳信息關(guān)聯(lián),是生物安全的一項新挑戰(zhàn)[30]。所以應(yīng)制定一系列法律法規(guī)保障基因組信息的安全,防止這些數(shù)據(jù)被濫用。目前中國開展的各種大規(guī)模測序項目,應(yīng)更加注意特有遺傳信息的安全性問題,從而有效防范將來的“基因組黑客”。
[1] Kahn S D.On the future of genomic data[J].Science,2011,331:728-729.
[2] Gao R,Cao B,Hu Y,et al.Human infection with a novel avian-origin influenza A(H7N9)virus[J].N Engl J Med,2013,368(20):1888-1897.
[3] Lam T Y,Wang J,Shen Y,et al.The genesis and source of the H7N9 influenza viruses causing human infections in China[J].Nature,2013,502(7470):241-244.
[4] Baize S,Pannetier D,Oestereich L,et al.Emergence of Zaire Ebola virus disease in Guinea[J].N Engl J Med,2014,371(15):1418-1425.
[5] Gire S K,Goba A,Andersen K G,et al.Genomic sur?veillance elucidates Ebola virus origin and transmis?sion during the 2014 outbreak[J].Science,2014,345:1369-1372.
[6] Tong Y G,Shi W F,Liu D,et al.Genetic diversity and evolutionary dynamics of Ebola virus in Sierra Le?one[J].Nature,2015,524(7563):93-96.
[7] Hayden E C.Latest Ebola data rule out rapid mutation[EB/OL].http://www.nature.com/news/latest-ebola-datarule-out-rapid-mutation-1.17554.
[8] Simon-Loriere E,Faye O,Faye O,et al.Distinct lin?eages of Ebola virus in Guinea during the 2014 West African epidemic[J].Nature,2015,524:102-104.
[9] Faria N R,Azevedo R D S D S,Kraemer M U G,et al.Zika virus in the Americas:early epidemiological and genetic findings[J].Science,2016,352:345-349.
[10]Ding T,Schloss P D.Dynamics and associations of mi?crobial community types across the human body[J].Na?ture,2014,509:357-360.
[11]Li J,Jia H,Cai X,et al.An integrated catalog of ref?erence genes in the human gut microbiome[J].Nat Bio?technol,2014,32:834-841.
[12]Paez-Espino D,Eloe-Fadrosh E A,Pavlopoulos G A,et al.Uncovering earth′s virome[J].Nature,2015,536:425-430.
[13]Zhernakova A,Kurilshikov A,Bonder M J,et al.Pop?ulation-based metagenomics analysis reveals markers for gut microbiome composition and diversity[J].Sci?ence,2015,352:565-569.
[14]Falony G,Joossens M,Vieira-Silva S,et al.Popula?tion-level analysis of gut microbiome variation[J].Sci?ence,2015,352:560-564.
[15]Just M G,Norton J F,Traud A L,et al.Global bio?geographic regions in a human-dominated world:the case of human diseases[J].Ecosphere,2014,5:art143.
[16]Lek M,Karczewski K J,Minikel E V,et al.Analysis of protein-coding genetic variation in 60706 humans[J].Nature,2015,536:285-291.
[17]Jiang Yuchao,Qiu Yu,Minn A J,et al.Assessing in?tratumorheterogeneity and tracking longitudinaland spatial clonal evolutionary history by next-generation sequencing[J].Proc Natl Acad Sci USA,2016,113(37):E5528-E5537.
[18]Cardoso F,van′t Veer L J,Bogaerts J,et al.70-Gene signature as an aid to treatment decisions in early-stage breast cancer[J].N Engl J Med,2016,375(8):717-729.
[19]Dunning A M,Michailidou K,Kuchenbaecker K B,et al.Breast cancer risk variants at 6q25 display differ?ent phenotype associations and regulate ESR1,RMND1 and CCDC170[J].Nat Genet,2016,48(4):374-386.
[20]Jensen A B,Moseley P L,Oprea T I,et al.Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients[J].Nat Com?mun,2014,5:4022.
[21]Leiserson M D,Vandin F,Wu H T,et al.Pan-can?cer network analysis identifies combinations of rare so?matic mutations across pathways and protein complexes[J].Nat Genet,2014,47:106-114.
[22]Niu Beifang,Scott A D,Sengupta S,et al.Proteinstructure-guided discovery of functional mutations across 19 cancer types[J].Nat Genet,2016,48(8):827-837.
[23]Donia M S,Cimermancic P,Schulze C J,et al.A sys?tematic analysis of biosynthetic gene clusters in the human microbiome reveals a common family of antibi?otics[J].Cell,2014,158:1402-1414.
[24]Hasman H,Saputra D,Sicheritz-Ponten T,et al.Rap?id whole-genome sequencing for detection and charac?terization of microorganisms directly from clinical sam?ples[J].J Clin Microbiol,2013,52:139-146.
[25]Battich N,Stoeger T,Pelkmans L.Image-based tran?scriptomics for thousands of single human cells at sin?gle-molecule resolution[J].Nat Methods,2013,10:1127-1133.
[26]Goldman N,Bertone P,Chen S,et al.Towards practi?cal,high-capacity,low-maintenance information stor?age in synthesized DNA[J].Nature,2013,494:77-80.
[27]Reardon S.Project ranks billions of drug interactions[J].Nature,2013.503:449-450.
[28]Drake J M,Paull E O,Graham N A,et al.Phospho?proteome integration reveals patient-specific networks in prostate cancer[J].Cell,2016,166:1041-1054.
[29]Luo H,Zhang P,Huang H,et al.DDI-CPI,a server that predicts drug-drug interactions through implement?ing the chemical-protein interactome[J].Nucleic Acids Res,2014,42:W46-52.
[30]Gymrek M,McGurie A L,Golan D,et al.Identifying personalgenomes by surname inference[J].Science,2013,339:321-324.