羅志輝 吳 民 趙逸青
(美國威斯康辛大學(xué)密爾沃基分校 密爾沃基 53201)
?
大數(shù)據(jù)在生物醫(yī)學(xué)信息學(xué)中的應(yīng)用
羅志輝 吳 民 趙逸青
(美國威斯康辛大學(xué)密爾沃基分校 密爾沃基 53201)
大數(shù)據(jù)在生物醫(yī)學(xué)信息學(xué)研究中的作用日益重要,介紹大數(shù)據(jù)在生物信息學(xué)、臨床醫(yī)學(xué)信息學(xué)、影像信息學(xué)和公共衛(wèi)生信息學(xué)4個領(lǐng)域的應(yīng)用,列舉并總結(jié)一些最近的工作進(jìn)展,對未來大數(shù)據(jù)在生物醫(yī)療領(lǐng)域的發(fā)展進(jìn)行展望。
大數(shù)據(jù); 生物醫(yī)學(xué)信息學(xué);應(yīng)用
隨著信息技術(shù)在醫(yī)學(xué)臨床和科研中的應(yīng)用,臨床醫(yī)學(xué)、生物學(xué)、信息學(xué)發(fā)生了一次交叉融合,形成了生物醫(yī)學(xué)信息學(xué)(Biomedical Informatics)。醫(yī)院信息化的建設(shè)、醫(yī)療診斷手段的進(jìn)步和高通量實驗設(shè)備的利用,使得醫(yī)學(xué)數(shù)據(jù)呈現(xiàn)幾何級數(shù)的增長,表現(xiàn)出“大數(shù)據(jù)”的特征。開展大數(shù)據(jù)相關(guān)研究工作,能更好地發(fā)現(xiàn)新知識、提高醫(yī)療服務(wù)的效率和質(zhì)量。這種研究技術(shù)的應(yīng)用必將成為生物醫(yī)藥科學(xué)技術(shù)發(fā)展的趨勢,也必將是未來生物信息研究領(lǐng)域的核心技術(shù)。
2.1 大數(shù)據(jù)
大數(shù)據(jù)是一種新的研究模式和應(yīng)用生態(tài)系統(tǒng),它改變了之前以個別案例為基礎(chǔ)的研究方式,更多地使用大規(guī)模的數(shù)據(jù)作為研究驅(qū)動。大數(shù)據(jù)量,這是大數(shù)據(jù)的第1個特點。隨著高通量檢測技術(shù)的發(fā)展,現(xiàn)在已進(jìn)入一個生物信息學(xué)數(shù)據(jù)量呈指數(shù)級增長的時代。例如,ProteomicsDB覆蓋了Swiss-Prot數(shù)據(jù)庫中注明已知的人類基因的92%(19 629中的18 097,具有5.17 TB的數(shù)據(jù)量[1])。在臨床方面,美國醫(yī)療信息技術(shù)經(jīng)濟與臨床健康法案(Health Information Techndogy for Econmic and chinical Health Act,HITECH)的出臺并實施提高了電子病歷在醫(yī)院的采用率,2009-2012年增加了3倍[2],數(shù)以千百萬計的患者數(shù)據(jù)以電子格式被收集并存儲,而電子病歷產(chǎn)生的大型數(shù)據(jù)集創(chuàng)造了利用病人數(shù)據(jù)進(jìn)行醫(yī)學(xué)研究的寶貴機會[3]。醫(yī)療影像(如MRI、CT掃描)同樣產(chǎn)生了巨大的數(shù)據(jù)集,其中包含復(fù)雜結(jié)構(gòu)特征和多維度的成像信息。又如可視人(Visible Human Project)計劃已獲得了39 GB的女性數(shù)據(jù)集[4],在公共衛(wèi)生領(lǐng)域,大數(shù)據(jù)被證明可以用于預(yù)測健康水平[5]。數(shù)據(jù)類型和結(jié)構(gòu)的多樣性,這是大數(shù)據(jù)的第2個特點。例如,基因測序技術(shù)幾乎在細(xì)胞領(lǐng)域的所有層面都形成了各類“組學(xué)”數(shù)據(jù)系統(tǒng),從基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué),到蛋白相互作用組學(xué)[6]層出不窮。此外,很多數(shù)據(jù)都是非結(jié)構(gòu)化的[7],如電子病歷記錄[8]、臨床實驗研究結(jié)果[9-10]、醫(yī)學(xué)影像[11]以及醫(yī)療傳感器數(shù)據(jù)流,它既是一個挑戰(zhàn),也給醫(yī)療信息化發(fā)展留下了巨大的空間。大數(shù)據(jù)的第3個特點是其產(chǎn)生速度快。大數(shù)據(jù)的速度有兩方面:產(chǎn)生數(shù)據(jù)的速度和處理數(shù)據(jù)的速度。新一代基因測序技術(shù)能夠以相對較低的成本,每天生產(chǎn)數(shù)10億DNA序列,據(jù)預(yù)計其增長速度還會顯著增加[12]。在臨床領(lǐng)域,據(jù)估計醫(yī)師電子病歷的采用率在美國將在2019年增加至90%[13],這意味著所收集的患者數(shù)據(jù)可在未來幾年增加1倍。如今人們生活在社會化媒體的時代,當(dāng)每秒數(shù)百萬計的信息、照片和帖子發(fā)布,公共健康研究人員就可以利用這些大的社交媒體數(shù)據(jù),探索不同人群的社會新交往模式[14-15]。
2.2 大數(shù)據(jù)技術(shù)
基于大數(shù)據(jù)的特點,需要強大的新技術(shù)用以提取各類有用的信息,從而得出醫(yī)療保健解決方案。現(xiàn)在,已經(jīng)有幾種技術(shù)被用于解決生物醫(yī)學(xué)與健康信息學(xué)領(lǐng)域的大數(shù)據(jù)問題。在許多情況下是多種技術(shù)被一起使用,如人工智能(Artificial Intelligence)與并行計算平臺(Hadoop和MapReduce)的聯(lián)合使用,或與一些大數(shù)據(jù)挖掘(Big Data Mining)技術(shù)聯(lián)合使用。并行計算是用于處理大數(shù)據(jù)的基礎(chǔ)架構(gòu)之一,該技術(shù)使得計算機集群能夠同時執(zhí)行并行的算法任務(wù)。最近幾年,不斷有新的計算模型被提出,例如MapReduce,以協(xié)助并行計算機集群的計算和運行。并行計算模型需要分布式數(shù)據(jù)管理系統(tǒng)。 Hadoop使用Hadoop分布式文件系統(tǒng)的數(shù)據(jù)存儲系統(tǒng),支持群集計算機同時訪問數(shù)據(jù)。云計算主要用于共享使用集中的數(shù)據(jù)存儲和網(wǎng)絡(luò)計算服務(wù)或資源,從而利用規(guī)模效應(yīng)使得工作效率和經(jīng)濟效益最大化。云計算一般分為公有云計算(Public Cloud)、私有云計算(Private Cloud)和混合云計算(Hybrid Cloud)。使用云計算免除了用戶單獨購買和配置硬件和系統(tǒng)軟件平臺的需求,可以使用戶更加專注于應(yīng)用和開發(fā)。另一方面,云計算也促進(jìn)了移動應(yīng)用的發(fā)展。使用云計算平臺,公司和機構(gòu)能夠搭建被廣泛訪問的網(wǎng)絡(luò)應(yīng)用。因此云計算市場有著快速、靈敏、靈活的特性,并且以每年接近50%的速度增長。
3.1 生物信息學(xué)應(yīng)用
生物信息學(xué)(Bioinformatics)研究專注于分析生物系統(tǒng)在分子水平上的差異和變化。目前,朝著個性化藥物方向發(fā)展[16],產(chǎn)生存儲分析大量個體基因組數(shù)據(jù)的需求,因而導(dǎo)致數(shù)據(jù)的爆炸性增長。新基因測序技術(shù)和新的微測序技術(shù)發(fā)展大大減少了獲取人類生物譜所需的時間和成本。在這個數(shù)據(jù)生產(chǎn)速度呈幾何級數(shù)增長的時代,大數(shù)據(jù)應(yīng)用在生物信息學(xué)方面的重點將是建立有效的計算基礎(chǔ)設(shè)施和分析平臺,以支持生物大數(shù)據(jù)存儲和分析。Hadoop和MapReduce系統(tǒng)平臺的大數(shù)據(jù)技術(shù)已經(jīng)在生物信息學(xué)領(lǐng)域有了重大應(yīng)用[17]。在本節(jié)中,把大數(shù)據(jù)技術(shù)和工具在基因組學(xué)中的應(yīng)用分為4類,包括數(shù)據(jù)讀寫和檢索、數(shù)據(jù)查錯、數(shù)據(jù)分析和集成工具。這4類應(yīng)用互有重疊。
3.1.1 數(shù)據(jù)讀寫和檢索 在通常情況下,測序儀能夠產(chǎn)生數(shù)以百萬計的短DNA序列信息,它們需要被映射到特定的參考基因組才能進(jìn)行進(jìn)一步的數(shù)據(jù)研究和分析,如基因分型和表達(dá)變異分析等。CloudBurst是一個開放源代碼的并行讀取算法大數(shù)據(jù)模型(使用MapReduce)[18],用多個核心集群讀取并映射序列數(shù)據(jù)到人類基因組數(shù)據(jù)的速度大大提高。DistMap是在Hadoop集群上進(jìn)行分布式序列片段讀取映射的一個工具包[19],旨在增加對不同數(shù)據(jù)格式的支持,覆蓋更廣泛的測序應(yīng)用。目前支持的9種數(shù)據(jù)格式包括BWA、Bowtie、Bowtie2、GSNAP、SOAP、STAR、Bismark、BSMAP和TopHat。SeqWare是一個基于云計算的大規(guī)模數(shù)據(jù)存儲和查詢引擎,以幫助生物信息學(xué)研究人員獲取大規(guī)模全基因組數(shù)據(jù)集[20]。SeqWare團隊創(chuàng)建了一個交互界面,用以整合各種基因組瀏覽器和工具。DDBJ數(shù)據(jù)讀取注釋流水線(DDBJ Read Annotation Pipeline)是日本DNA數(shù)據(jù)庫項目(DDBJ)發(fā)起的基于云計算的流水線[21],用于新一代測序數(shù)據(jù)的高通量讀取分析。Hydra是利用Hadoop的分布式計算框架搭建的可擴展的蛋白質(zhì)組學(xué)搜索引擎,可用于處理大規(guī)模的肽和光譜數(shù)據(jù)的軟件包,該系統(tǒng)的重點在于搭建一個分布式計算環(huán)境,支持海量光譜數(shù)據(jù)的可擴展搜索[22]。
3.1.2 數(shù)據(jù)查錯 對于識別序列數(shù)據(jù)中的錯誤,現(xiàn)在也有相應(yīng)的大數(shù)據(jù)處理技術(shù)。SAMQA旨在幫助識別序列數(shù)據(jù)中的錯誤,以確保大規(guī)模的基因組數(shù)據(jù)符合最低標(biāo)準(zhǔn)的質(zhì)量要求[23]。SMAQA最初是為癌癥基因組圖譜項目(The Cancer Genome Atlas)的數(shù)據(jù)而設(shè)計的,能自動識別并報告錯誤,它包含了數(shù)據(jù)異常性的技術(shù)測試,如格式錯誤、無效值、空數(shù)據(jù)讀取等。對于生物實驗數(shù)據(jù),研究人員可以通過設(shè)置閾值來過濾可能是錯誤的數(shù)據(jù),而這些可能的錯誤將被報告給專家手動評估。ART系統(tǒng)也提供模擬數(shù)據(jù)序列分析[24]。ART系統(tǒng)最初是為支持千人基因組項目的數(shù)據(jù)模擬實現(xiàn)而開發(fā)的,現(xiàn)在該系統(tǒng)已被廣泛使用,它支持3種測序錯誤,包括堿基的取代、插入或缺失錯誤。CloudRS是基于可擴展框架的、高通量測序的數(shù)據(jù)糾錯算法[25]。旨在為高通量測序的數(shù)據(jù)校正提供一種并行框架。
3.1.3 數(shù)據(jù)分析 在基因組學(xué)方面,研究人員已經(jīng)開發(fā)了幾個被廣泛使用的大數(shù)據(jù)計算框架和工具包,例如Genome Analysis Toolkit (GATK)、CloudBurst等。這些工具通過使用諸如并行計算、云計算和MapReduce的大數(shù)據(jù)技術(shù)等方法來分析基因序列信息分析。GATK是一個基于MapReduce的編程框架,它支持大規(guī)模的DNA序列分析[26],已經(jīng)應(yīng)用于癌癥基因圖譜計劃(The Cancer Genome Atlas)和千人基因組項目(1 000 Genomes Project)。ArrayExpress功能基因組學(xué)數(shù)據(jù)存儲庫歸檔是一個國際合作項目,用以整合高通量的基因組數(shù)據(jù)[27],存儲庫包含30 000多個實驗數(shù)據(jù)和超過100萬的檢測數(shù)據(jù),約80%的數(shù)據(jù)是從基因表達(dá)綜合數(shù)據(jù)庫(Gene Expression Omnibus Database)中提取的,而20%是直接由ArrayExpress用戶遞交。BlueSNP則是一個開發(fā)于統(tǒng)計學(xué)平臺R上面的工具包,主要用于GWAS分析[28]。這一工具包側(cè)重于統(tǒng)計檢驗,如計算p值,以尋找大型基因型-表型數(shù)據(jù)集之間的關(guān)聯(lián)關(guān)系。Myrna系統(tǒng)是一個用于分析計算大型RNA測序數(shù)據(jù)集的基因表達(dá)差異數(shù)據(jù)云計算流水線[29]。RNA-SEQ數(shù)據(jù)是從mRNA分子得到的m個序列讀取。Myrna支持多種功能,可支持RNA序列分析,包括在綜合數(shù)據(jù)流水線中進(jìn)行統(tǒng)計建模。Eoulsan分析工具包植入了分析轉(zhuǎn)錄表達(dá)的差異的數(shù)據(jù)分析流水線,包括測序機數(shù)據(jù)的導(dǎo)入,將數(shù)據(jù)映射到基因組索引、排列過濾器、轉(zhuǎn)錄表達(dá)的計算,表達(dá)差異檢測[30]。SparkSeq是一種快速的可擴展的云計算工具,用于支持交互性的基因組數(shù)據(jù)分析[31]。SparkSeq的軟件包旨在為RNA / DNA研究提供互動的查詢和分析工具,因為使用Apache Spark并行計算平臺,SparkSeq提供了使用機器學(xué)習(xí)方法分析數(shù)據(jù)的可能。
3.1.4 平臺集成工具 使用大數(shù)據(jù)計算平臺往往需要很深的分布計算和系統(tǒng)知識。為了減少生物信息學(xué)研究的大數(shù)據(jù)應(yīng)用的障礙,一些項目專注于集成現(xiàn)有的大數(shù)據(jù)系統(tǒng)和工具,開發(fā)易用的平臺為研究人員提供分析和系統(tǒng)集成支持。SeqPig 運算包在Hadoop分布計算平臺上集成了一系列便捷工具,用于大規(guī)模的操作、分析和訪問續(xù)寫數(shù)據(jù)[32]。虛擬機技術(shù)也被應(yīng)用到工具集成中。CloVR是一個虛擬機基因測序分析包[33],該系統(tǒng)同時支持在本地桌面和云系統(tǒng)運行,以實現(xiàn)高吞吐量的數(shù)據(jù)處理。生物信息學(xué)的工作流/數(shù)據(jù)流水線被集成在虛擬機中,因此CloVR降低了測序分析大型數(shù)據(jù)集的技術(shù)壁壘。CloVR包括了幾個自動化數(shù)據(jù)流水線,如全基因組、宏基因組和16S rRNA基因測序分析等。同樣,Cloud BioLinux 也是一個虛擬機解決方案[34],它為研究人員提供超過135個生物信息工具進(jìn)行測序分析。部署Hadoop的云平臺,對于沒有計算機科學(xué)專業(yè)知識的科學(xué)家來說是個不小的挑戰(zhàn),而CloudDOE是一個軟件包,旨在提供一個友好的用戶界面來部署Hadoop云平臺[35]。CloudDOE可將復(fù)雜的生物信息學(xué)Hadoop云計算程序配置過程封裝起來,幾個包被集成在一個包中,包括CloudBurst、CloudBrush和CloudRS,而操作過程由圖形界面為向?qū)А?/p>
3.2 臨床醫(yī)學(xué)信息學(xué)應(yīng)用
臨床醫(yī)學(xué)信息學(xué)(Clinical Informatics)研究涉及信息技術(shù)在臨床醫(yī)療領(lǐng)域的應(yīng)用,范圍包括基礎(chǔ)醫(yī)學(xué)研究、病人診斷和死亡原因研究、電子病歷數(shù)據(jù)研究和各種其他臨床數(shù)據(jù)等。
3.2.1 大數(shù)據(jù)電子病歷存儲優(yōu)化 大數(shù)據(jù)技術(shù)在電子健康記錄存儲方面有許多應(yīng)用,如用Hadoop HDFS和HBase存儲電子健康記錄[36]。大數(shù)據(jù)可以幫助實時監(jiān)測臨床數(shù)據(jù)流,為此研究人員開發(fā)了針對臨床信號數(shù)據(jù)儲存的大數(shù)據(jù)系統(tǒng)[37]。臨床傳感器的時間序列數(shù)據(jù)將被存儲在HBase中,行變量是單一值的時間戳,列變量則是相應(yīng)時間戳對應(yīng)下的病人生理值,例如,使用Hadoop和HBase的數(shù)據(jù)倉庫存儲腦電圖數(shù)據(jù)[38]。Cloudwave系統(tǒng)采用Hadoop的數(shù)據(jù)處理模塊來存儲和查詢大型電生理數(shù)據(jù)(EEG)[39],該系統(tǒng)處理77GB的EEG信號數(shù)據(jù)集用1分鐘,而傳統(tǒng)的獨立系統(tǒng)則需用20分鐘。Cloudwave利用Hadoop的處理能力,提供了一個基于網(wǎng)絡(luò)的實時數(shù)據(jù)的可視化和檢索界面。針對實時監(jiān)測數(shù)據(jù),近年來越來越多的研究人員認(rèn)為,新型NoSQL數(shù)據(jù)庫比起傳統(tǒng)數(shù)據(jù)庫將有更大的發(fā)展空間。新的研究方向是要使傳統(tǒng)的關(guān)系型、多維數(shù)據(jù)庫能夠和NoSQL數(shù)據(jù)庫聯(lián)系起來[40]。
3.2.2 大數(shù)據(jù)電子病歷新型訪問方式 隨時間增長的龐大數(shù)據(jù)量有可能使醫(yī)療保健領(lǐng)域的挑戰(zhàn)變成大數(shù)據(jù)的機會,而大數(shù)據(jù)技術(shù)的進(jìn)步使人們更易操作龐大的數(shù)據(jù)量,可交互操作的電子健康記錄也會成為可能[41]。為保證用戶數(shù)據(jù)安全,MedCloud模型設(shè)計可在符合HIPAA的條例下訪問病人數(shù)據(jù)[42]。Home-Diagnosis是一個基于云框架的病歷檢索系統(tǒng),解決了在病人自我護理環(huán)境下現(xiàn)有電子病歷系統(tǒng)處理大規(guī)模并發(fā)數(shù)據(jù)讀取和分析時產(chǎn)生的各種問題,包括病人信息安全問題[43]。該系統(tǒng)主要基于Lucene檢索引擎工具包,并且使用Hadoop加速系統(tǒng)處理時間。
健康信息的交互讀取,在醫(yī)療知識共享傳遞方面也有很大的應(yīng)用前景,如用于交互式電子健康記錄[44]。研究人員提出了一個3層架構(gòu)的生態(tài)系統(tǒng),以改善電子健康在云社交網(wǎng)絡(luò)方面的不足之處[45]。基于云技術(shù)的應(yīng)用程序體系架構(gòu),也可以加強研究人員在多站點臨床實驗之間的互動[46],讓人們更多地參與到云技術(shù)在交叉學(xué)科信息學(xué)中的現(xiàn)今使用狀況和未來發(fā)展空間的討論[47]。有人嘗試建立一個私有云平臺,用來處理大量的醫(yī)療服務(wù)需求[48]。在中國,有人設(shè)計了一個網(wǎng)上心臟疾病數(shù)據(jù)分析系統(tǒng),采用了混合XML數(shù)據(jù)庫和Hadoop / HBase基礎(chǔ)架構(gòu)[49]。
3.2.3 基于大數(shù)據(jù)的病歷分析 醫(yī)學(xué)數(shù)據(jù)分析對整個醫(yī)療行業(yè)具有很大的影響,而且這一領(lǐng)域也有很好的發(fā)展前景?;贛apReduce技術(shù),對大量醫(yī)療數(shù)據(jù)分析可以在合理的時間內(nèi)完成,使得大量基于醫(yī)療數(shù)據(jù)的科學(xué)研究得以開展。MapReduce能使訪問10 000個真實病例數(shù)據(jù)集的整體運行時間從9小時減少到幾分鐘,這對該技術(shù)的大規(guī)模應(yīng)用有很大的意義。PARAMO是一個預(yù)測性建模平臺,它可用于分析電子健康數(shù)據(jù),預(yù)測疾病風(fēng)險和進(jìn)展,在臨床決策支持方面將會有重要作用[50]。該系統(tǒng)支持MapReduce高效處理并行任務(wù),而醫(yī)療術(shù)語,如ICD、UMLS等也被集成到該系統(tǒng)中。在電子健康檔案(EHRs)以及醫(yī)學(xué)影像存儲與傳輸系統(tǒng)(PACS)等龐大的數(shù)據(jù)庫的基礎(chǔ)上,泌尿科醫(yī)生可以使用大數(shù)據(jù)分析結(jié)果作為決策支持,如預(yù)測病人膀胱切除后何時重新到醫(yī)院就診[51]。此外,大數(shù)據(jù)也可以用于確定一個75歲的前列腺病人是應(yīng)該使用放療還是切除術(shù),以避免直接的前列腺癌風(fēng)險[51]。有人基于MapReduce進(jìn)行數(shù)據(jù)分析,以提高肥厚型心肌病的診斷率[52]。大數(shù)據(jù)在提高臨床醫(yī)療質(zhì)量和病人護理方面有著積極的意義,例如,可以探究病人病癥與疾病的因果關(guān)系,發(fā)現(xiàn)疾病復(fù)發(fā)的潛在危險因素[53]。大數(shù)據(jù)還可以應(yīng)用于男性健康問題研究[54]和腸胃病研究[55],通過搭建病人為中心的數(shù)據(jù)架構(gòu)來實現(xiàn)個性化藥物治療[56]。大數(shù)據(jù)也可以加強藥品安全[57]。研究人員還提出了使用大數(shù)據(jù)技術(shù)評估充血性心臟衰竭病人30天風(fēng)險的解決方案[58]。有人認(rèn)為,利用大數(shù)據(jù)可以在新生兒重癥監(jiān)護早期階段發(fā)現(xiàn)致死性醫(yī)學(xué)表征,這將是臨床上的一大突破[59]。如今人們已經(jīng)越來越多地把大數(shù)據(jù)分析應(yīng)用到智能化的醫(yī)療決策之中[60]。
3.3 影像信息學(xué)應(yīng)用
影像信息學(xué)(Image Informatics)被定義為用于產(chǎn)生、處理、管理、提取、呈現(xiàn)成像(影像)信息,在許多生物和醫(yī)學(xué)應(yīng)用中集成圖像的研究方法。
3.3.1 醫(yī)學(xué)影像數(shù)據(jù)存儲和檢索 醫(yī)學(xué)影像數(shù)據(jù)的迅速增加需要更高效的影像檢索系統(tǒng),以減少存儲和檢索所需的時間。研究人員開發(fā)了一個基于Hadoop的大規(guī)模醫(yī)學(xué)影像檢索系統(tǒng)[61]。Hadoop分布式文件系統(tǒng)(HDFS)被用于存儲影像特征,實驗結(jié)果表明該影像檢索系統(tǒng)的速度非??欤蠓葴p少了存儲和檢索時間。研究人員還使用Hadoop開發(fā)了基于影像內(nèi)容檢索的影像系統(tǒng)(Content-based Image Retrieval)[62],對數(shù)據(jù)庫中大量的圖片進(jìn)行更快的影像檢索。人們使用乳腺X光影像數(shù)據(jù)庫中的影像來驗證開發(fā)的影像檢索系統(tǒng)[63]。
3.3.2 大規(guī)模醫(yī)學(xué)影像分析 Hadoop-GIS系統(tǒng)使用自主研發(fā)的實時空間查詢引擎(RESQUE),并且利用MapReduce進(jìn)行空間信息查詢,通過Hive進(jìn)行影像特征查詢[64]。這個研究的主要目的是未來大規(guī)模(TB或者PB級)的病理學(xué)影像信息的儲存、分析和管理。針對心臟影像,研究人員開發(fā)了大數(shù)據(jù)影像系統(tǒng)、集成人工智能(Artificial Intelligence)技術(shù)、大規(guī)模并行計算(Parallel Computing)平臺和大數(shù)據(jù)挖掘(Big Data Mining)技術(shù)[65]。大數(shù)據(jù)挖掘技術(shù)結(jié)合下一代人工智能可以進(jìn)行復(fù)雜的醫(yī)學(xué)影像分析,如病人是否有心肌梗塞等,能為醫(yī)生提供多個候選診斷。大數(shù)據(jù)技術(shù)使得醫(yī)學(xué)影像分析在更短的時間內(nèi)完成,提高了效率。研究人員探索使用計算機節(jié)點集群進(jìn)行影像處理,例如,使用支持向量機(SVM)對肺紋理進(jìn)行分類、基于內(nèi)容的醫(yī)學(xué)影像索引和三維定向小波分析、固體紋理分類參數(shù)優(yōu)化[66]。
3.4 公共衛(wèi)生信息學(xué)應(yīng)用
大數(shù)據(jù)能加強公眾衛(wèi)生的3個核心功能,即健康評估、政策制定和疾病預(yù)防。
3.4.1 監(jiān)控全球傳染病 大數(shù)據(jù)技術(shù)在全球傳染病監(jiān)測方面有著巨大的應(yīng)用潛力。研究人員開發(fā)了一個大數(shù)據(jù)系統(tǒng),提供一個時間靜態(tài)的持續(xù)風(fēng)險地圖[67]。未來有望將社交網(wǎng)絡(luò)信息和流行病學(xué)相關(guān)信息,在空間地圖上“實時”更新。人們收集了5.5億條推特信息(Tweets),通過超過9 800條有地理定位的推特微博信息的分析,發(fā)現(xiàn)HIV有關(guān)的推特微博信息和HIV病例之間呈現(xiàn)顯著的正相關(guān)關(guān)系[68]。這說明社交媒體如Twitter提供的在線數(shù)據(jù)對疾病預(yù)防有潛在的重要應(yīng)用。
3.4.2 高效的疾病管理和預(yù)測 研究人員設(shè)計了一個使用Hadoop進(jìn)行文本挖掘的疾病管理系統(tǒng)[69],它包括醫(yī)療數(shù)據(jù)采集模塊、Hadoop文本挖掘模塊、疾病規(guī)則創(chuàng)建模塊和疾病管理和預(yù)測模塊。醫(yī)療數(shù)據(jù)采集模塊獲取并儲存的是原始的沒有數(shù)據(jù)結(jié)構(gòu)的醫(yī)療數(shù)據(jù),Hadoop文本挖掘模塊則是將這些原始數(shù)據(jù)轉(zhuǎn)換成有一定結(jié)構(gòu)的數(shù)據(jù)。疾病規(guī)則創(chuàng)建模塊建立在條件概率群論的理論基礎(chǔ)上,通過比較疾病規(guī)則創(chuàng)建模塊產(chǎn)生的病人信息、病人健康現(xiàn)狀、家族病史,疾病管理和預(yù)測模塊能夠為病人提供個性化醫(yī)療服務(wù),并且通過病人健康現(xiàn)狀預(yù)測未來患病的可能性。人們用大量的醫(yī)療保險數(shù)據(jù)來分析病人的主要診斷和死亡原因的獨立關(guān)聯(lián),研究社會人口特征和醫(yī)療行政分布對此的影響[70],結(jié)果證明了大規(guī)模的數(shù)據(jù)分析可以被用來有效地分析醫(yī)療事件的關(guān)聯(lián)。
目前已經(jīng)步入大數(shù)據(jù)時代,大數(shù)據(jù)技術(shù)正在被快速地應(yīng)用到生物信息和醫(yī)療保健領(lǐng)域之中。因為生物信息學(xué)數(shù)據(jù)存在著數(shù)量大、分析難的特性,大數(shù)據(jù)的分析方法最早被應(yīng)用于生物信息學(xué)領(lǐng)域,所以在此領(lǐng)域發(fā)展得比較成熟,已有成型的平臺和工具來幫助分析生物序列數(shù)據(jù)。在其他生物醫(yī)學(xué)領(lǐng)域,大數(shù)據(jù)的應(yīng)用還有巨大的潛力未被開發(fā)。本文列舉并總結(jié)了一些最近的工作進(jìn)展,如存儲分析病人電子病歷、分析社交傳媒得以監(jiān)控疾病風(fēng)險等。目前,在臨床信息學(xué)、醫(yī)學(xué)影像信息學(xué)和公共衛(wèi)生信息學(xué)方面,大數(shù)據(jù)的應(yīng)用還處在萌芽階段,未來發(fā)展的前景廣闊,例如麥肯錫公司在最新的產(chǎn)業(yè)分析報告中預(yù)測,應(yīng)用大數(shù)據(jù)分析將為美國節(jié)省3 000億到4 500億美元的醫(yī)療費用。未來大數(shù)據(jù)在生物醫(yī)療領(lǐng)域的發(fā)展,將依賴于數(shù)據(jù)標(biāo)準(zhǔn)的制定、研究和技術(shù)的進(jìn)步,研究機構(gòu)及企業(yè)的合作,以及政府方面的強力推動。
1 Wilhelm M, Schlegl J,Hahne H, et al.Mass-spectrometry-based Draft of the Human Proteome[J]. Nature,2014, 509(7502): 582-587.
2 Blumenthal D, Tavenner M. The “Meaningful Use” Regulation for Electronic Health Records[J]. New England Journal of Medicine,2010, 363(6): 501-504.
3 Rea S. Pathak J,Savova G, et al. Building a Robust, Scalable and Standards-driven Infrastructure for Secondary Use of EHR Data: the SHARPn project[J]. Journal of Biomedical Informatics,2012, 45(4): 763-771.
4 Ackerman M J. The Visible Human Project: a resource for education[J]. Academic Medicine,1999, 74(6): 667-670.
5 Lohr S. The Age of Big Data[N]. New York Times,2012-2-11(1).
6 Joyce A R, Palsson B O. The Model Organism as a System: integrating 'omics' data sets[J]. Nat Rev Mol Cell Biol,2006, 7(3): 198-210.
7 Feldman R, Sanger J. The Text Mining Handbook: advanced approaches in analyzing unstructured data[J]. London:Cambridge University Press,2007.
8 Rosenbloom S T, Denny J C, Xu H, et al. Data from Clinical Notes: a Perspective on the ension between structure and flexible documentation[J]. Journal of the American Medical Informatics Association, 2011, 18(2): 181-186.
9 Luo Z, Duffy R,Johnson S, et al. Corpus-based Approach to Creating a Semantic Lexicon for Clinical Research Eligibility Criteria from UMLS[C]. San Francisco:AMIA Joint Summit of Translational Informatics, 2010: 26-31.
10 Weng C, Wu X, Luo Z, et al. EliXR: an approach to eligibility criteria extraction and representation[J]. Journal of the American Medical Informatics Association,2011,(18): 116-124.
11 Reiner B I. Medical Imaging Data Reconciliation, Part 3: reconciliation of historical and current radiology report data Banks[J]. Journal of the American College of Radiology, 2011, 8(11): 768-771.
12 McKenna A, Hanna M,Banks E, et al. The Genome Analysis Toolkit: a mapReduce framework for analyzing next-generation DNA sequencing data[J].Genome Research, 2010, 20(9): 1297-1303.
13 Blavin F E, Buntin M B. Forecasting the Use of Electronic Health Records: an expert opinion approach [EB/OL].[2015-06-01]. http://www.cms.gov/mmrr/Downloads/MMRR2013_003_02_A02.pdf.
14 Carneiro H A, Mylonakis E. Google trends: a web-based tool for real-time surveillance of disease outbreaks[J]. Clinical Infectious Diseases,2009, 49(10): 1557-1564.
15 Chou W Y S, Hunt Y M, Beckjord E B, et al. Social media use in the United States: implications for health communication[J]. Journal of Medical Lnternet Research,2009,11(4):e48.
16 吳民, 羅志輝,翁春華. 個性化醫(yī)學(xué)探究[J]. 醫(yī)學(xué)信息學(xué)雜志,2013, 34(10): 2-7.
17 Taylor R. An Overview of the Hadoop/MapReduce/HBase Framework and Its Current Applications in Bioinformatics[J]. BMC Bioinformatics,2013, 11(Suppl 12): S1.
18 Schatz M C. CloudBurst: highly sensitive read mapping with MapReduce[J].Bioinformatics, 2009, 25(11): 1363-1369.
19 Pandey R V, C Schl?tterer. DistMap: a toolkit for distributed short read mapping on a Hadoop cluster[J]. PLoS ONE, 2013, 8(8): e72614.
20 D O’Connor B, B Merriman, et al. SeqWare Query Engine: storing and searching sequence data in the cloud[J]. BMC Bioinformatics,2010, 11(Suppl 12): S2.
21 Nagasaki H, T Mochizuki, et al. DDBJ Read Annotation Pipeline: a cloud computing-based pipeline for high-throughput analysis of next-generation sequencing data[J]. DNA Research,2013, 20(4): 383-390.
22 Lewis S, A Csordas, et al. Hydra: a scalable proteomic search engine which utilizes the Hadoop distributed computing framework[J]. BMC Bioinformatics, 2012, 13(1): 324.
23 Robinson T, S Killcoyne, et al. SAMQA: error classification and validation of high-throughput sequenced read data[J]. BMC Genomics, 2011, 12(1): 419.
24 Huang W, L Li, et al. ART: a next-generation sequencing read simulator[J]. Bioinformatics,2012, 28(4): 593-594.
25 Chen C-C, Y-J Chang, et al. CloudRS: an error correction algorithm of high-throughput sequencing data based on scalable framework[C]. Santa Clara, CA, US: IEEE International Conference on Big Data, 2013: 717-722.
26 McKenna A, M Hanna, et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data[J]. Genome Research, 2010, 20(9): 1297-1303.
27 Brazma A, H Parkinson, et al. ArrayExpress-a public repository for microarray gene expression data at the EBI[J]. Nucleic Acids Research,2003, 31(1): 68-71.
28 Huang H, S Tata, et al. BlueSNP: R package for highly scalable genome-wide association studies using Hadoop clusters[J]. Bioinformatics, 2013, 29(1): 135-136.
29 Langmead B, K D Hansen, et al. Cloud-scale RNA-sequencing differential expression analysis with Myrna[J]. Genome Biol, 2010, 11(8): R83.
30 Jourdren L, M Bernard, et al. Eoulsan: a cloud computing-based framework facilitating high throughput sequencing analyses[J]. Bioinformatics, 2012, 28(11): 1542-1543.
31 Wiewiórka M S, A Messina, et al. SparkSeq: fast, scalable, cloud-ready tool for the interactive genomic data analysis with nucleotide precision[J]. Bioinformatics, 2014, 30(18):2652-2653.
32 Schumacher A, L Pireddu, et al. SeqPig: simple and scalable scripting for large sequencing data sets in Hadoop[J]. Bioinformatics, 2014, 30(1): 119-120.
33 Angiuoli S V, M Matalka, et al. CloVR: a virtual machine for automated and portable sequence analysis from the desktop using cloud computing[J]. BMC Bioinformatics, 2011, 12(1): 356.
34 Krampis K, T Booth, et al. Cloud BioLinux: pre-configured and on-demand bioinformatics computing for the genomics community[J]. BMC Bioinformatics, 2012, 13(1): 42.
35 Chung W-C, C-C Chen, et al. CloudDOE: a user-friendly tool for deploying hadoop clouds and analyzing high-throughput sequencing data with mapReduce[J]. PLoS ONE,2014, 9(6): e98146.
36 Jin Y, T Deyu, et al. A Distributed Storage Model for EHR Based on HBase[C].Hong Kong, China: IEEE International Conference on Information Management, Innovation Management and Industrial Engineering (ICIII), 2011:26-27.
37 Nguyen A V, R Wynden, et al. HBase, MapReduce, and Integrated Data Visualization for Processing Clinical Signal Data[C]. Standford University: AAAI Spring Symposium: Computational Physiology, 2011.
38 Dutta H, A Kamil, et al. Grid and Cloud Database Management[M]. Springer, 2011: 331-347.
39 Sahoo S S, C Jayapandian, et al. Heart Beats in the Cloud: distributed analysis of electrophysiological ‘big data’using cloud computing for epilepsy clinical research[J]. Journal of the American Medical Informatics Association, 2014, 21(2): 263-271.
40 Mazurek M. Beyond Databases, Architectures, and Structures[M]. Springer, 2014: 527-536.
41 Schultz T. Turning Healthcare Challenges into Big Data Opportunities: a use‐case review across the pharmaceutical development lifecycle[J]. Bulletin of the American Society for Information Science and Technology, 2013, 39(5): 34-40.
42 Sobhy D, Y El-Sonbaty, et al. MedCloud: healthcare cloud computing system[C]. London, UK: Proceedings of the 7th International Conference for Internet Technology and Secured Transactions, 2012:161-166.
43 Lin W, W Dou, et al. A Cloud-based Framework for Home-diagnosis Service over Big Medical Data[J]. Journal of Systems and Software, 2014,(102):192-206.
44 Bahga A, V K Madisetti. A Cloud-based Approach for Interoperable Electronic Health Records (EHRs) [J]. IEEE Journal of Biomedical and Health Informatics, 2013 17(5): 894-906.
45 Deb B, S N Srirama. Social Networks for eHealth Solutions on Cloud[J]. Frontiers in Genetics, 2013, (4):171.
46 Sharp J. An Application Architecture to Facilitate Multi-site Clinical Trial Collaboration in the Cloud[C].New York, US: Proceedings of the 2nd International Workshop on Software Engineering for Cloud Computing, ACM, 2011: 64-68.
47 Chen J, F Qian, et al. Translational Biomedical Informatics in the Cloud: present and Future[EB/OL].[2015-06-01]. http://dx.doi.org/10.1155/2013/658925.
48 He C, X Fan, et al. Toward Ubiquitous Healthcare Services with a Novel Efficient Cloud Platform[J]. IEEE Transactions on Biomedical Engineering, 2013, 60(1): 230-234.
49 Wang Y, L Wang, et al. Frontier and Future Development of Information Technology in Medicine and Education[M]. Springer, 2014: 1575-1583.
50 Ng K, A Ghoting, et al. PARAMO: a parallel predictive modeling platform for healthcare analytic research using electronic health records[J]. Journal of Biomedical Informatics, 2014, (48): 160-170.
51 Ghani K R, K Zheng, et al. Harnessing Big Data for Health Care and Research: are urologists ready?[J]. European Urology, 2014,(66):975-977.
52 Deligiannis P, H-W Loidl, et al. Improving the Diagnosis of Mild Hypertrophic Cardiomyopathy with Mapreduce[C].New York, US: Proceedings of Third International Workshop on MapReduce and Its Applications Date, 2012:41-48.
53 Wang W, E Krishnan. Big Data and Clinicians: a review on the state of the science[J]. JMIR Medical Informatics, 2014, 2(1): e1.
54 Porche D J. Men's Health Big Data[J]. American Journal of Men's Health,2014, 8(3): 189.
55 Genta R M, A Sonnenberg. Big Data in Gastroenterology Research[J]. Nat Rev Gastroenterol Hepatol,2014, 11(6): 386-390.
56 Chawla N V, D A Davis. Bringing Big Data to Personalized Healthcare: a patient-centered framework[J]. Journal of General Internal Medicine,2013, 28(3): 660-665.
57 Abbott R. Big Data and Pharmacovigilance: using health information exchanges to revolutionize drug safety[J]. Iowa L Rev, 2013, (99): 225.
58 Zolfaghar K, N Meadem, et al. Big Data Solutions for Predicting Risk-of-readmission for Congestive Heart Failure Patients[C]. Santa Clara, CA, USA: Proc IEEE International Conference on Big Data, 2013:64-71.
59 McGregor C. Big Data in Neonatal Intensive Care[J]. Computer,2013, 46(6): 54-59.
60 Raghupathi W, V Raghupathi. Big Data Analytics in Healthcare: promise and potential[J]. Health Information Science and Systems,2014, 2(1): 3.
61 Yao Q-A, H Zheng, et al. Massive Medical Images Retrieval System Based on Hadoop[J]. Journal of Multimedia, 2014, 9(2): 216-222.
62 Grace R K, R Manimegalai, et al. Medical Image Retrieval System in Grid Using Hadoop Framework[C]. Las Vegas, Nevada, USA:International Conference on Computational Science and Computational Intelligence(CSCI), 2014: 144-148.
63 Jai-Andaloussi S, A Elabdouli, et al. Medical Content Based Image Retrieval by Using the Hadoop Framework[C]. Finland: 20th International Conference on Telecommunications (ICT), 2013:1-5.
64 Wang F, R Lee, et al. Hadoop-gis: a high performance query system for analytical medical imaging with mapreduce[D]. Altlanta,USA: Emory University,2011.
65 Dilsizian S E, E L Siegel. Artificial Intelligence in Medicine and Cardiac Imaging: harnessing big data and advanced computing to provide personalized medical diagnosis and treatment[J]. Current Cardiology Reports,2014, 16(1): 1-8.
66 Markonis D, R Schaer, et al. Using MapReduce for Large-Scale Medical Image Analysis[C]. La Jolla, CA, USA:IEEE Second International Conference on Healthcare Informatics, Imaging and Systems Biology, 2012:1.
67 Hay S I, D B George, et al. Big Data Opportunities for Global Infectious Disease Surveillance[J]. PLoS Medicine, 2103, 10(4): e1001413.
68 Young S D, C Rivers, et al. Methods of Using Real-time Social Media Technologies for Detection and Remote Monitoring of HIV Outcomes[J]. Preventive Medicine,2014, (63): 112-115.
69 Lee B, E Jeong. A Design of a Patient-customized Healthcare System based on the Hadoop with Text Mining (PHSHT) for an Efficient Disease Management and Prediction[J]. International Journal of Software Engineering & Its Applications,2014, 8(8):131-150.
70 Lamarche-Vadel A, G Pavillon, et al. Automated Comparison of Last Hospital Main Diagnosis and Underlying Cause of Death ICD10 Codes, France, 2008-2009[J]. BMC Medical Informatics and Decision Making,2014, 14(1): 44.
Big Data Application in Biomedical Informatics
LUOZhi-hui,WUMin,ZHAOYi-qing,
UniversityofWisconsin-Milwaukee,Milwaukee53201,USA
Big data is becoming increasingly important for biomedical informatics research. The paper introduces big data applications in four areas: bioinformatics, clinical informatics, image informatics, and public health informatics,summarizes latest progress and prospects the future development.
Big data; Biomedical informatics; Application
2015-04-01
羅志輝,博士,助理教授,發(fā)表論文多篇。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.05.001