向俊,劉朦
1.德陽(yáng)市人民醫(yī)院 信息網(wǎng)絡(luò)科,四川 德陽(yáng) 618000;2.德陽(yáng)市第二人民醫(yī)院 藥劑科,四川 德陽(yáng) 618000
基于大數(shù)據(jù)分析法的精準(zhǔn)醫(yī)療前景
向俊1,劉朦2
1.德陽(yáng)市人民醫(yī)院 信息網(wǎng)絡(luò)科,四川 德陽(yáng) 618000;2.德陽(yáng)市第二人民醫(yī)院 藥劑科,四川 德陽(yáng) 618000
隨著捕捉分子和醫(yī)療數(shù)據(jù)技術(shù)的發(fā)展,生物學(xué)和醫(yī)學(xué)開始進(jìn)入了大數(shù)據(jù)時(shí)代,從而推動(dòng)了精準(zhǔn)醫(yī)療的發(fā)展。精準(zhǔn)醫(yī)療是利用高性能計(jì)算、大數(shù)據(jù)分析和云計(jì)算技術(shù)等方法,對(duì)基于個(gè)體基因、分子、細(xì)胞、行為等差異獲取的生物信息學(xué)數(shù)據(jù)進(jìn)行精準(zhǔn)分析,提供疾病的精確診斷結(jié)果,并在此基礎(chǔ)上提供個(gè)性化治療服務(wù)。本文簡(jiǎn)述了大數(shù)據(jù)分析法下精準(zhǔn)醫(yī)療和生物信息學(xué)的發(fā)展情況,并闡述了精準(zhǔn)醫(yī)療發(fā)展面臨的主要挑戰(zhàn)以及大數(shù)據(jù)產(chǎn)生個(gè)性化信息的各種分組學(xué)研究。同時(shí),鑒于大數(shù)據(jù)日益增長(zhǎng)的性質(zhì),本文也將精準(zhǔn)醫(yī)療面臨大數(shù)據(jù)集成的一系列關(guān)鍵問題進(jìn)行了分析。
大數(shù)據(jù);生物信息;精準(zhǔn)醫(yī)療;基因測(cè)序;生物標(biāo)志物
精準(zhǔn)醫(yī)療,也稱為個(gè)性化的、預(yù)測(cè)性的、預(yù)防性的、參與式的4P醫(yī)療方式,也是一種新型的個(gè)性化醫(yī)療實(shí)踐方法[1]。根據(jù)個(gè)體差異實(shí)施不同的預(yù)防和治療策略并不新鮮,血型分類用于指導(dǎo)輸血已經(jīng)應(yīng)用了一個(gè)多世紀(jì),目前國(guó)際社會(huì)廣泛認(rèn)可的血型細(xì)分為35種[2]。同樣,增加對(duì)性別、種族、缺血時(shí)間和血清類型等因素的考慮,減少了器官移植排異的風(fēng)險(xiǎn)。然而,精準(zhǔn)醫(yī)療概念應(yīng)用于患者臨床大數(shù)據(jù)面臨一些挑戰(zhàn),由于數(shù)據(jù)量巨大而且結(jié)構(gòu)復(fù)雜,醫(yī)務(wù)人員無法直接從中獲取有用的信息。
大數(shù)據(jù)分析為精準(zhǔn)醫(yī)療提供了有力的技術(shù)支持,實(shí)現(xiàn)了計(jì)算機(jī)-醫(yī)療跨界協(xié)同發(fā)展。生物大數(shù)據(jù)由患者病歷、診斷信息、生活習(xí)慣等多維度生物學(xué)數(shù)據(jù)組成,數(shù)據(jù)量大、異構(gòu)性強(qiáng)、價(jià)值高是生物大數(shù)據(jù)的特點(diǎn)[3]。精準(zhǔn)醫(yī)療是基于大規(guī)模人群的基因數(shù)據(jù)、生物樣本(蛋白質(zhì)、細(xì)胞數(shù)量、代謝物、DNA和RNA以及全基因組測(cè)序)、日常生活信息等數(shù)據(jù)的整合而發(fā)展起來的,大量的數(shù)據(jù)集合在一起,需要工具發(fā)掘其中的有利價(jià)值。大數(shù)據(jù)分析方法能對(duì)生物信息大數(shù)據(jù)進(jìn)行有效的分析和挖掘,有利于對(duì)疾病的發(fā)病機(jī)制進(jìn)行深入的研究,推動(dòng)預(yù)防和治療方法的發(fā)展[4]。
在本文中,我們提出了可用的方法分析多樣的生物醫(yī)學(xué)大數(shù)據(jù),介紹數(shù)據(jù)集成的概念和分類,并且詳細(xì)說明了大數(shù)據(jù)分析方法在精準(zhǔn)醫(yī)學(xué)的成果以及局限性。
2015年1月30日,美國(guó)總統(tǒng)奧巴馬在國(guó)情咨文演講中宣布將啟動(dòng)“精準(zhǔn)醫(yī)療計(jì)劃”,“精準(zhǔn)醫(yī)療”開始逐漸步入了大眾的視野[5]。由于成本大幅下降,而且測(cè)序時(shí)間也大幅縮短,基因測(cè)序在醫(yī)療中逐漸占據(jù)了一席之地。第二代測(cè)序技術(shù)在近幾年取得了重大突破,原本測(cè)定一個(gè)人基因數(shù)據(jù)的需要上億美元的成本,現(xiàn)在下降到了1000美元左右,測(cè)序所需時(shí)間也縮短至3 d[6]。在測(cè)序技術(shù)的驅(qū)動(dòng)下,針對(duì)一些疾病已經(jīng)開始應(yīng)用基因測(cè)序技術(shù)開展治療,從而拉開了精準(zhǔn)醫(yī)療的序幕。預(yù)計(jì)到2020年,第三代測(cè)序技術(shù)大規(guī)模應(yīng)用后,完成一次測(cè)序的成本可能降至10美元,測(cè)序時(shí)間有望縮短為10~15 min[7]。
精準(zhǔn)醫(yī)療發(fā)展的最終目標(biāo)是精準(zhǔn)醫(yī)療產(chǎn)業(yè)鏈,環(huán)節(jié)包括上游的醫(yī)療儀器(設(shè)備)研發(fā)生產(chǎn)、醫(yī)用耗材制造、生物樣本數(shù)據(jù)庫(kù)建立與維護(hù)、前沿醫(yī)療技術(shù)和相關(guān)技術(shù)研發(fā);中游的生物樣本數(shù)據(jù)的檢測(cè)、測(cè)量和分析診斷;下游的精準(zhǔn)醫(yī)療和健康管理[8]。
同患者分類一樣,子類型化的任務(wù)是識(shí)別亞型的患者,同一類疾病的亞型患者存在相似的潛在疾病相關(guān)機(jī)制,從而指導(dǎo)特定個(gè)體適用的治療流程,同時(shí)也能預(yù)測(cè)治療效果。盡管有不同的定義,子類型化在分類任務(wù)和機(jī)器學(xué)習(xí)研究領(lǐng)域中占據(jù)越來越重要的地位。例如癌癥、自閉癥、自身免疫性疾病、心血管疾病、帕金森病等疾病,都通過子類型化的方法進(jìn)行了研究。
根據(jù)美國(guó)食品及藥物管理局定義,生物標(biāo)志物是指任何可測(cè)量的診斷指標(biāo),用于評(píng)估風(fēng)險(xiǎn)或檢測(cè)疾病。生物標(biāo)志物主要應(yīng)用在發(fā)現(xiàn)患者的特點(diǎn),區(qū)分患者的亞型,這樣就能通過生物標(biāo)志物來決定他/她是否屬于一個(gè)特定患者的亞型。目前,生物標(biāo)志物被認(rèn)為是提升精準(zhǔn)醫(yī)療和降低醫(yī)療成本的關(guān)鍵[9]。
隨著信息化的持續(xù)發(fā)展,生物醫(yī)學(xué)數(shù)據(jù)正在迅速的增加。例如,人類可用的基因組與外顯子組的數(shù)量在過去10年幾乎按指數(shù)級(jí)增長(zhǎng)。2012年,已經(jīng)確認(rèn)的人類基因組已經(jīng)達(dá)到了1092個(gè)[10]。2003年,第一個(gè)外顯子組被發(fā)現(xiàn),目前,人類已經(jīng)發(fā)現(xiàn)了60706個(gè)獨(dú)立的人類基因外顯子。最近英國(guó)政府宣布,到2017年,繪制100000個(gè)人類基因組項(xiàng)目[11],同時(shí),美國(guó)也計(jì)劃繪制100萬(wàn)個(gè)人類基因組用于精準(zhǔn)醫(yī)療[12]。在數(shù)量持續(xù)增長(zhǎng)的同時(shí),也需要保證和提升基因組數(shù)據(jù)的采集質(zhì)量,基因組數(shù)據(jù)的質(zhì)量取決于短序列長(zhǎng)度總和占目標(biāo)基因序列的長(zhǎng)度比例[13]。在實(shí)際情況中,我們通過不同的組織樣本,可以從中獲取更多的基因組數(shù)據(jù)。此外,隨著技術(shù)的發(fā)展,樣本可以更長(zhǎng)時(shí)間保持其有效性,我們甚至可以評(píng)估隨著時(shí)間推移,藥物效果與基因組的關(guān)聯(lián)性。
各種不同生物實(shí)體(染色體、蛋白質(zhì)、代謝產(chǎn)物等)中可收集的數(shù)據(jù)在持續(xù)增加,數(shù)據(jù)總量變得越來越大,這對(duì)存儲(chǔ)和管理數(shù)據(jù)提出了新的要求。2011年,美國(guó)已經(jīng)收集了1018字節(jié)的醫(yī)療數(shù)據(jù),預(yù)計(jì)到不久的將來,數(shù)據(jù)量將會(huì)迅速提升到1024字節(jié)[14]。這些醫(yī)療數(shù)據(jù)具有高度異構(gòu)的特性,就算是同一個(gè)數(shù)據(jù)元,通過不同的技術(shù)手段獲取,也存在范圍、精度、時(shí)間等差異。此外,由于缺乏統(tǒng)一的標(biāo)準(zhǔn),許多廠商和研究機(jī)構(gòu)都按照自己的方式存儲(chǔ)收集到的數(shù)據(jù)集,造成了大數(shù)據(jù)提取面臨的一系列問題[15]。
醫(yī)療大數(shù)據(jù)具有大規(guī)模、多樣性、復(fù)雜性等特性,因此需要高效的算法對(duì)醫(yī)療大數(shù)據(jù)進(jìn)行分類和挖掘。機(jī)器語(yǔ)言或基于網(wǎng)絡(luò)的計(jì)算機(jī)技術(shù)開始應(yīng)用于大數(shù)據(jù)的分析與統(tǒng)計(jì),這些方法已經(jīng)在大數(shù)據(jù)與精準(zhǔn)醫(yī)療之間展現(xiàn)出了巨大的潛力,且仍有很大的改進(jìn)空間[16-17]。基于機(jī)器語(yǔ)言方法在分析大規(guī)模、多樣化、異構(gòu)性的生物醫(yī)學(xué)數(shù)據(jù)類型具有明顯的優(yōu)勢(shì),而這是精準(zhǔn)醫(yī)療和生物信息學(xué)之前面臨最大的問題[18]。因此,下面我們將介紹處理大數(shù)據(jù)的方法。
疾病子類型化是指根據(jù)基因組與臨床數(shù)據(jù)將病人分成具有一定共性的子組。子類型化的主要目標(biāo)是實(shí)現(xiàn)對(duì)患者更加精準(zhǔn)的治療方案,也可以對(duì)治療效果進(jìn)行更加準(zhǔn)確的預(yù)測(cè)。目前有許多疾病的治療方案得益于子類型化的實(shí)施,比如帕金森、心血管疾病、自身免疫綜合征、癌癥等。
癌癥是子類型化研究最多的疾病之一,癌癥的誘因是一個(gè)疾病基因畸變的積累,最終導(dǎo)致細(xì)胞系統(tǒng)的失調(diào)[19]。就算是同一部位的癌癥,也會(huì)因?yàn)榛蚪M的差異而表現(xiàn)出不同的臨床行為。許多癌癥的類型已經(jīng)被大數(shù)據(jù)集分組技術(shù)細(xì)分出來,包括結(jié)腸癌、直腸癌、乳腺癌和卵巢癌。
無監(jiān)督的機(jī)器學(xué)習(xí)方法,例如層次聚類算法,K-means聚類算法,非負(fù)矩陣分解等,可以應(yīng)用于基因表達(dá)數(shù)據(jù)。通過比較不同基因?qū)膊〉挠绊?,從而劃分出有意義的基因表達(dá)子組。最近有研究人員通過對(duì)腫瘤組織樣本基因表達(dá)差異性的對(duì)比,將患者劃分為不同的子類型,進(jìn)行針對(duì)型的治療方案。基于所選擇基因組表達(dá)的差異,差異越大的基因組在數(shù)據(jù)中的距離越遠(yuǎn),從而對(duì)其進(jìn)行聚類,達(dá)到分組的目的[20],K-means方法下的基因分組,見圖1。
圖1 K-means方法下的基因分組
目前我們能夠通過各種渠道和方法整合不同數(shù)據(jù)類型的信息,如藥理、化學(xué)、遺傳和臨床資料。同時(shí),由于許多疾病存在許多性質(zhì)不同的子類,同種藥物對(duì)于它們不一定有同樣的治療效果。因此,精準(zhǔn)醫(yī)療的整體目標(biāo)是考慮疾病與患者信息多樣性與關(guān)聯(lián)性,有針對(duì)性的將藥物分類用于每個(gè)患者,而大數(shù)據(jù)分析提供了解決這個(gè)問題的方法[21-22]。
首先,從多個(gè)不同的藥物和疾病采集數(shù)據(jù)源,用于分別計(jì)算它們之間的相似性,分別構(gòu)造成不同的疾病數(shù)據(jù)集與藥物數(shù)據(jù)集,疾病數(shù)據(jù)集與藥物數(shù)據(jù)集,見圖2。
圖2 疾病數(shù)據(jù)集與藥物數(shù)據(jù)集
然后,分別選取相似性較高的疾病數(shù)據(jù)集A與藥物數(shù)據(jù)集B,構(gòu)建一個(gè)疾病-藥物整體對(duì)應(yīng)集,構(gòu)成新的數(shù)據(jù)集C,構(gòu)造方法,見圖3。
預(yù)計(jì)該廠將在2018年完成工業(yè)調(diào)試。從2019年開始,該廠將擁有7500噸的年產(chǎn)能。到2021年全面建成投運(yùn)后,年產(chǎn)能將達(dá)1.5萬(wàn)噸,占全球總產(chǎn)能的1/4。該廠將成為全球成本最低的鈾轉(zhuǎn)化廠。
圖3 疾病-藥物對(duì)應(yīng)集構(gòu)造過程
最后,基于疾病-藥物對(duì)應(yīng)集中疾病-藥物元素的相似性,可以通過邏輯回歸訓(xùn)練樣本加以分類,得到預(yù)期的結(jié)果[23]。在大量數(shù)據(jù)樣本的支持下,經(jīng)過多次訓(xùn)練,可以提升疾病-藥物組的有效性。通常疾病-藥物對(duì)應(yīng)集中的元素存在一對(duì)多甚至多對(duì)多的關(guān)系,因此在分組和樣本訓(xùn)練其實(shí)要復(fù)雜得多,圖3只是列舉了其中一種情況。此外,這種方法實(shí)用性較強(qiáng),可以用于未來的個(gè)性化藥物治療,通過整合患者的基因組數(shù)據(jù)和疾病信息做出相似性和關(guān)聯(lián)性分析。
在現(xiàn)有的研究中,通過對(duì)醫(yī)療大數(shù)據(jù)的分析與利用,可以逐步實(shí)施個(gè)性化醫(yī)療方案[24-25]。比較著名的是德國(guó)默克公司正與Regenstrief研究院一起實(shí)施的個(gè)性化醫(yī)療項(xiàng)目,通過研究對(duì)特定疾病的易感性、遺傳變異和對(duì)特殊藥物的反應(yīng)這3者之間的聯(lián)系,使得在藥物的研發(fā)和使用中,充分考慮到基因和遺傳變異的因素[26]。通過醫(yī)療大數(shù)據(jù)的支持,針對(duì)不同特質(zhì)的患者可以采取相對(duì)優(yōu)化的治療方案,甚至可以使用更加合理的藥物劑量,達(dá)到提升治療效果,減少副作用的目的。就目前來說,個(gè)性化醫(yī)療主要是通過個(gè)人基因測(cè)序、基于基因的新藥研發(fā)、個(gè)人健康信息管理這3個(gè)方面實(shí)施的。
復(fù)旦大學(xué)的智能信息處理實(shí)驗(yàn)室開發(fā)了一種多協(xié)作矩陣分解方法(Many-Sided Coordinate Matrix Factorization,MSCMF)的框架用于藥物預(yù)測(cè)[27]。在這個(gè)框架中,代表藥物相互作用的矩陣作為輸入值,那么多個(gè)矩陣就代表不同類型的相似藥物,共同構(gòu)成了一個(gè)數(shù)據(jù)庫(kù)。MSCMF項(xiàng)目中,藥物和靶標(biāo)矩陣在一個(gè)共同的低維特征空間分解成兩個(gè)低維矩陣,分別表示藥物和靶標(biāo)的低維特征向量,低維矩陣中藥物和靶標(biāo)值的計(jì)算通過半監(jiān)督學(xué)習(xí)的方式完成。這種情況下,兩種藥物或者靶標(biāo)之間的相似性是近似對(duì)應(yīng)了它們特征向量的內(nèi)積。作者在數(shù)學(xué)上制定分解條件約束在同一目標(biāo)函數(shù),它們通過應(yīng)用交替最小二乘算法最小化。收斂之后,從獲得的低維矩陣重建藥物-靶標(biāo)矩陣,以前的記錄則代表預(yù)測(cè)藥物-靶標(biāo)的相互作用。MSCMF表現(xiàn)出比以前更好的執(zhí)行藥物-靶標(biāo)預(yù)測(cè)方法,此外,MSCMF很大的優(yōu)勢(shì)是,它可以集成來自多個(gè)數(shù)據(jù)源中相同的藥物-靶標(biāo)組,評(píng)估其對(duì)藥物-靶標(biāo)預(yù)測(cè)的質(zhì)量。
在基于基因的新藥研發(fā)過程中,大部分藥品都是與其目標(biāo)蛋白質(zhì)相互作用并調(diào)節(jié)蛋白質(zhì)生物功能的小化合物。因此,分析蛋白質(zhì)與小化合物之間的相互作用機(jī)制是新藥研發(fā)的關(guān)鍵步驟。這使得分子大數(shù)據(jù)庫(kù)能夠幫助人們分析大量復(fù)合蛋白相互作用的信息,加快新藥研發(fā)的效率[28]。研究人員提出了多種計(jì)算方法為藥物再利用,可以根據(jù)不同的標(biāo)準(zhǔn)將藥物分類。從數(shù)據(jù)出發(fā)的觀點(diǎn)中,Dudley[29]提出了基于藥品和疾病的分類方法。第一組使用一些效果相似或者副作用相似的藥物(如化學(xué)相似性,藥物引起的相似基因表達(dá)式),并利用一種新穎的候選藥物組與其他藥物執(zhí)行相同的動(dòng)作。將相似藥物作用到目標(biāo)蛋白質(zhì)中,根據(jù)靶向性相似,即蛋白質(zhì)序列相似,或3D結(jié)構(gòu)相似推斷出新的藥物,也可以同時(shí)使用上述3種計(jì)算相似性的方法用于分類。他們通常使用機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)來推斷藥物分類的過程。
通過分析某種疾病患者人群的組學(xué)數(shù)據(jù),能夠迅速識(shí)別疾病發(fā)生和疾病治愈的生物標(biāo)志物。在藥物研發(fā)方面,大數(shù)據(jù)促進(jìn)人們對(duì)病因和疾病發(fā)生機(jī)制的理解更加深入,從而有助于識(shí)別生物靶點(diǎn)和研發(fā)藥物。同時(shí),充分利用海量組學(xué)數(shù)據(jù)、已有藥物的研究數(shù)據(jù)和高通量藥物篩選,能加速藥物篩選過程[30]。
基于基因檢測(cè)技術(shù)的發(fā)展,疾病診斷的準(zhǔn)確率在逐步提升,致病機(jī)理的認(rèn)識(shí)也逐漸深入,即使在這種情況下,想要短期內(nèi)研究出針對(duì)性的精準(zhǔn)治療方法仍然比較困難,在實(shí)際的醫(yī)療環(huán)境中,藥物的臨床副作用仍然不可忽視,需要進(jìn)行大量的臨床試驗(yàn)。此外,由基因組突變、缺失引發(fā)的罕見病,由于發(fā)病率低,長(zhǎng)期的治療費(fèi)用極高,且許多患者支付能力較低,無法為相應(yīng)的治療方法提供經(jīng)濟(jì)的市場(chǎng)回報(bào),導(dǎo)致基于基因測(cè)序的精準(zhǔn)醫(yī)療僅僅停留在研究階段,無法吸引醫(yī)藥公司投入?yún)⑴c。
最后,精準(zhǔn)醫(yī)療大數(shù)據(jù)的復(fù)雜度遠(yuǎn)高于傳統(tǒng)互聯(lián)網(wǎng)大數(shù)據(jù),醫(yī)療數(shù)據(jù)的收集和處理也是一大難題,并且由于數(shù)據(jù)格式并未完全統(tǒng)一,收集的數(shù)據(jù)可用性并不高。腫瘤臨床數(shù)據(jù)需要采集的類型不僅包括傳統(tǒng)的生化指標(biāo)、影像報(bào)告、傳統(tǒng)病理和治療信息,還有通過新的臨床檢測(cè)手段產(chǎn)生的基因組信息[35]。對(duì)基因突變的正確解析、標(biāo)記做出臨床意義的注釋,不僅涉及數(shù)百個(gè)軟件包的開發(fā)和運(yùn)用,還依賴于生命科學(xué)、臨床醫(yī)學(xué)、臨床藥理和生物信息學(xué)的科學(xué)理解和解讀。
[1] Hood L,Friend SH.Predictive, personalized, preventive, participatory (p4) cancer medicine[J].Nat Rev Clin Oncol, 2011,8(3):184-187.
[2] Mirnezami R,Nicholson J,Darzi A.Preparing for precision medicine[J].N Engl J Med,2012,366:489-491.
[3] McDermott JE,Wang J,Mitchell H,et al.Challenges in biomarker discovery: combining expert insights with statistical analysis of complex omics data[J].Expert Opin Med Diagn, 2013,7(1):37-51.
[4] 邵學(xué)杰.醫(yī)療革命:醫(yī)學(xué)數(shù)據(jù)挖掘的理論與實(shí)踐[M].北京:電子工業(yè)出版社,2016.
[5] The "Precision Medicine" initiative[EB/OL].https://www. whitehouse.gov/precision-medicine.
[6] 于廣軍,楊佳泓.醫(yī)療大數(shù)據(jù)[M].上海:上??茖W(xué)技術(shù)出版社,2015.
[7] 鞠躬,陳志南.生命之窗:生命科學(xué)前沿縱覽[M].西安:第四軍醫(yī)大學(xué)出版社,2014.
[8] 江藝泉,馬晉平.奧巴馬推出精準(zhǔn)醫(yī)療計(jì)劃倡議[J].世界科學(xué),2015,37(3):4.
[9] 許琛,王麗殊,徐碧華,等.AKI生物學(xué)標(biāo)志物新進(jìn)展[J].中國(guó)醫(yī)學(xué)創(chuàng)新,2013,10(28):162-164.
[10] Davis JC,Furstenthal L,Desai A,et al.The microeconomics of personalized medicine: today's chal-lenge and tomorrow's promise[J].Nat Rev Drug Discov,2009,8(1):279-286.
[11] The 1000 Genomes Project Consortium.An integrated map of genetic variation from 1,092 human genomes[J]. Nature,2012,491(7422):56-65.
[12] The project to map 100 000 human genomes by 2017[EB/OL]. https://www.gov.uk/government/news/ human -genome-uk-tobecome-world-number-1-in-dna-testing.
[13] 人類基因組大數(shù)據(jù)[EB/OL].http://ihealthtran.com/big-data-inhealthcare.
[14] Gligorijevi? V,Malod-Dognin N,Pr?ulj N.Integrative methods for analyzing big data in precision medicine[J].Proteomics, 2016,16(5):741-758.
[15] Jagadish HV,Gehrke J,Labrinidis A,et al.Big data and its technical challenges[J].Commun ACM,2014,57(7):86-94.
[16] 朱小兵.醫(yī)療大數(shù)據(jù):從偶然走向必然[J].中國(guó)醫(yī)療設(shè)備, 2014,29(3):204-206.
[17] 王甜宇,孫艷秋,燕燕.大數(shù)據(jù)時(shí)代云計(jì)算在區(qū)域醫(yī)療信息化中的應(yīng)用[J].中國(guó)醫(yī)療設(shè)備,2015,30(6):72-74.
[18] 董馨憶.數(shù)據(jù)挖掘在生物醫(yī)學(xué)數(shù)據(jù)分析中的應(yīng)用[J].醫(yī)藥衛(wèi)生,2016,(5):226-227.
[19] 謝玲,陳劼,孫怡,等.中國(guó)結(jié)直腸癌、肺癌和胃癌患者KRAS基因突變情況分析[J].臨床與實(shí)驗(yàn)病理學(xué)雜志,2016,32(2): 210-213.
[20] 李文超,周勇,夏士雄.一種新的基于層次和K-means方法的聚類算法[A].第26屆中國(guó)控制會(huì)議論文集[C].北京:北京航空航天大學(xué)出版社.2007.
[21] 孫可欣,詹思延,胡永華.醫(yī)學(xué)大數(shù)據(jù)在藥物基因組學(xué)領(lǐng)域中的應(yīng)用與發(fā)展[J].藥物流行病學(xué)雜志,2017,26(1):68-73.
[22] 任慧朋.醫(yī)療大數(shù)據(jù)環(huán)境下的健康信息分析方法[J].中國(guó)醫(yī)療設(shè)備,2016,31(5):173-177.
[23] 欒曾惠,胡欣,孫雪林.藥物基因組學(xué)在藥物劑量調(diào)整中的應(yīng)用[J].中國(guó)合理用藥探索,2017,14(1).
[24] 胡燦,鄧官華,藍(lán)茂英,等.混合模態(tài)人體個(gè)性化組織介電特性電磁模型的建立與應(yīng)用研究[J].中國(guó)醫(yī)療設(shè)備,2016,31(5):23-29.
[25] 柯艷,王忠慶.個(gè)性化臨床科研隨訪閉環(huán)管理[J].中國(guó)醫(yī)療設(shè)備,2016,31(6):152-153.
[26] Duke JD,Morea J,Mamlin B,et al.Regenstrief institute's medical gopher: A next-generation homegrown electronic medical record system[J].Int J Med Inform,2014,83(3):170-179.
[27] Zheng X,Ding H,Mamitsuka.Collaborative matrix factorization with multiple similarities for predicting drug-target interactions[A].Acm Sigkdd International Conference on Knowledge Discovery & Data Mining[C].New York:ACM, 2013:1025-1033.
[28] Dimmer EC,Huntley RP,Alam-Faruque Y,et al.The UniProt-Go annotation database in 2011[J].Nucleic Acids Res,2012,40(2): 565-570.
[29] Dudly JT,Deshpande T,Butte AJ.Exploiting drug-disease relationships computational drug repositioning[J].Brief Bioinform,2011,4:303-311.
[30] Cheng L,Schneider BP,Li L,et al.A bioinformatics approach for precision medicine off-label drug drug selection among triple negative breast cancer patients[J].J Am Med Inform Assoc,2016,23(4):741-749.
[31] 羅麗娜.中國(guó)居民EHR系統(tǒng)構(gòu)建研究[J].蘭臺(tái)世界,2015,(11):6-7.
[32] 盧云,王丹,翟紅,等.基于電子健康檔案的區(qū)域醫(yī)療實(shí)現(xiàn)方式[J].中國(guó)醫(yī)療設(shè)備,2012,27(3):54-56.
[33] 王嬰,姚志洪,劉雷.電子健康檔案標(biāo)準(zhǔn)-CDA與openEHR[J].中國(guó)醫(yī)療設(shè)備,2010,25(3):11-14.
[34] 王惠來,雷寒,汪洋,等.基于大數(shù)據(jù)的智能健康管理信息模型研究[J].重慶醫(yī)學(xué),2017,46(10):1422-1424.
[35] 段小蕾.健康數(shù)據(jù)計(jì)劃催生醫(yī)療創(chuàng)新[J].中國(guó)社會(huì)組織, 2015,(8):30-31.
本文編輯 王婷
Prospects of Precision Medical Based on Big Data Analysis
XIANG Jun1, LIU Meng2
1.Department of Information Network, People’s Hospital of Deyang City, Deyang Sichuan 618000, China;
2.Department of Pharmacy, the Second People’s Hospital of Deyang City, Deyang Sichuan 618000, China
With the advance in technologies capturing molecular and medical data, we enter the area of "Big Data" in biology and medicine, which offers many opportunities to advance precision medicine. The precise medical treatment can accurately analyze the bioinformatics data that obtained based on individual genes, molecules, cells and behavior differences, provide accurate diagnosis of the disease and personalized treatment services on this basis. In this process, the high performance computing, large data analysis, cloud computing technology and other methods are used. This paper gave a brief account of the development of precision medical and bioinformatics under the big data analysis method. Meanwhile, we outlined the key challenges of precision medicine and the present recent advances in data integration-based methods to uncover personalized information from big data produced by various omics studies. Moreover, in view of the growing nature of big data, a series of key problems, such as big data integration, that precise medical would face in the future were analyzed.
big data; bioinformatics; precision medicine; gene sequencing; biomarker
TP393
A
10.3969/j.issn.1674-1633.2017.08.030
1674-1633(2017)08-0112-04
2017-02-24
2017-05-23
作者郵箱:280620806@qq.com