王力天
隨著信息化建設的不斷推進,給醫(yī)院管理、醫(yī)療工作、科研發(fā)展、醫(yī)患互動、患者健康帶來了高效便捷的服務,同時也產(chǎn)生了大量記錄醫(yī)院日常管理和醫(yī)療工作的數(shù)據(jù),這些數(shù)據(jù)隨著時間的積累構成了龐大的數(shù)據(jù)資源。這些資源具有很高的價值卻沒有得以充分利用,如何讓這些數(shù)據(jù)發(fā)揮價值,為醫(yī)院各項工作提供服務,是值得每一個醫(yī)院思考的課題。
醫(yī)院大數(shù)據(jù)分析平臺的構建
醫(yī)院信息應用系統(tǒng)在日常醫(yī)療和管理中積累了大量歷史數(shù)據(jù),但各部門人員在日常數(shù)據(jù)錄入和維護中,只是通過統(tǒng)計和排序對數(shù)據(jù)進行簡單的功能操作,獲得一些表面、淺顯、價值不高的結果,這些數(shù)據(jù)并沒有得到有效的分析和利用。構建一個大數(shù)據(jù)分析平臺,從醫(yī)院其他應用平臺中抽取海量數(shù)據(jù)進行管理、整合、分析和利用,并從中發(fā)現(xiàn)潛在問題和有價值的規(guī)律,通過可視化的方式進行展示,能夠為醫(yī)院管理層提供科學決策的支持,并滿足醫(yī)生、病患的個性化需求,從而提高醫(yī)院信息化服務的質量。
醫(yī)院大數(shù)據(jù)分析平臺的構建目標
第一,實現(xiàn)數(shù)據(jù)的共享和交換。將醫(yī)院各應用系統(tǒng)的數(shù)據(jù)進行集成和整合,使來源各異、種類不一的各類數(shù)據(jù)可以相互使用,豐富數(shù)據(jù)的來源,打破系統(tǒng)間的信息孤島,實現(xiàn)數(shù)據(jù)的共享和應用。
第二,大數(shù)據(jù)的采集和存儲。研制數(shù)據(jù)適配接口,對接院內各應用系統(tǒng)獲取各類異構數(shù)據(jù),并采用大數(shù)據(jù)主流的框架和系統(tǒng)對數(shù)據(jù)進行統(tǒng)一存儲,為數(shù)據(jù)的挖掘和分析打好基礎。
第三,大數(shù)據(jù)分析與決策。采用數(shù)據(jù)挖掘、數(shù)理統(tǒng)計等相關技術,構建大數(shù)據(jù)分析框架,提取數(shù)據(jù)中隱含的、未知的、極具潛在應用價值的信息和規(guī)律,為醫(yī)療管理、病患管理、科研管理、后勤管理等各項工作提供決策和指導。
醫(yī)院大數(shù)據(jù)分析平臺的構建原則
首先要保障安全性。醫(yī)院信息化工作中有許多保密性內容,大數(shù)據(jù)分析平臺應采取安全性高的訪問認證機制,同時在平臺建設中要充分重視系統(tǒng)自身的安全性以及其他應用系統(tǒng)的安全性。
其次具有可擴展性。對醫(yī)療大數(shù)據(jù)的分析和應用是一項長期持久的工作,隨著醫(yī)院管理工作的重點、醫(yī)院信息化工作的變化推進,對于信息平臺的規(guī)模和要求也會不斷變化。因此,要求平臺的設計和實施要具有良好的擴展性,以滿足不斷發(fā)展變化的要求。
最后要有靈活性。在平臺的設計和實施中要考慮到與其他應用系統(tǒng)的整合,開發(fā)出多個類型的接口,能夠靈活接入其他系統(tǒng)、拓展服務類型。
醫(yī)院大數(shù)據(jù)分析平臺的總體框架
平臺應適應于大數(shù)據(jù)處理要求,能支持PB級數(shù)據(jù)管理。系統(tǒng)架構應高安全性、易擴展性,能夠支持各類主流開發(fā)語言,并提供豐富的接口。同時能夠支持結構化和非結構化數(shù)據(jù)的存儲和應用。Hadoop作為開源的大數(shù)據(jù)處理平臺和工具,其提供的HDFS分布式文件系統(tǒng)和MapReduce模型能夠很好地滿足以上的要求。
基于Hadoop技術的醫(yī)院大數(shù)據(jù)分析平臺自下而上分為三個部分,分別為:數(shù)據(jù)層、大數(shù)據(jù)采集與存儲、數(shù)據(jù)分析與展示。
數(shù)據(jù)層針對不同系統(tǒng)進行分析,制定系統(tǒng)數(shù)據(jù)采集范圍與目標,收集醫(yī)院在日常管理和醫(yī)療工作中產(chǎn)生的各類數(shù)據(jù),將各種結構化和非結構化數(shù)據(jù)進行整合,為大數(shù)據(jù)的分析提供支撐。
大數(shù)據(jù)采集與存儲旨在為各類異構數(shù)據(jù)研制適配接口,與院內其他各系統(tǒng)對接,并為數(shù)據(jù)提供適配、轉換、存儲等基本管理功能,基本步驟包括數(shù)據(jù)抽取、數(shù)據(jù)預處理和數(shù)據(jù)存儲。
數(shù)據(jù)抽取是針對大數(shù)據(jù)分析平臺需要采集的各類數(shù)據(jù),分別有針對性地研制適配接口。對于已有的信息系統(tǒng),研發(fā)對應的接口模塊與各信息系統(tǒng)對接,不能實現(xiàn)數(shù)據(jù)共享接口的系統(tǒng)通過ETL工具進行數(shù)據(jù)采集,支持多種類型數(shù)據(jù)庫,如SQL SERVER、ORACLE、ACCESS等醫(yī)院系統(tǒng)數(shù)據(jù)庫,按照相應規(guī)范對數(shù)據(jù)進行清洗轉換,從而實現(xiàn)數(shù)據(jù)的統(tǒng)一存儲管理。對于其他數(shù)據(jù),需要具體根據(jù)數(shù)據(jù)情況實現(xiàn)相關接口,利用對應接口獲取相關數(shù)據(jù)信息,進而完成數(shù)據(jù)的抽取。
數(shù)據(jù)預處理是為了使大數(shù)據(jù)分析平臺的MapReduce算法能更方便對數(shù)據(jù)進行處理,同時為了使得數(shù)據(jù)的存儲機制擴展性、容錯性更好,需要把通過數(shù)據(jù)按照相應關聯(lián)性進行組合,并將數(shù)據(jù)轉化為文本格式,作為文件存儲下來。
數(shù)據(jù)存儲用于提升數(shù)據(jù)存儲的擴展性和容錯性,采用主流的大數(shù)據(jù)框架Hadoop的HDFS文件系統(tǒng)對醫(yī)院的各類數(shù)據(jù)統(tǒng)一進行文本化存儲,數(shù)據(jù)按相應規(guī)則存儲,實現(xiàn)每日保存一套完整數(shù)據(jù)文件集,形成數(shù)據(jù)倉庫。
數(shù)據(jù)分析和展示是核心業(yè)務層,通過數(shù)據(jù)報表工具,根據(jù)需求制定多樣的、針對性的數(shù)據(jù)報表。通過基于的Hadoop的MapReduce編程模型實現(xiàn)的數(shù)據(jù)分析系統(tǒng),針對存儲的數(shù)據(jù)進行數(shù)據(jù)處理、算法運行、結果轉換操作,將結果保存為報表文件,每日形成的報表文件集。報表展現(xiàn)系統(tǒng)將生成的報表文件以可視化方式進行展現(xiàn)。
大數(shù)據(jù)分析平臺中的關鍵技術
大數(shù)據(jù)平臺的構建借鑒了開源系統(tǒng)的先進理念,采用了Hadoop開源系統(tǒng),充分利用HDFS的可靠性,MapReduce的引入大大加強了平臺在數(shù)據(jù)分析方面的彈性,使平臺在可擴展性、可靠性、易用性和性能方面都有良好的表現(xiàn)。
Hadoop技術
Hadoop框架是一個開源的大規(guī)模數(shù)據(jù)處理平臺和工具,主要來源于Google公司提出的MapReduce編程框架、GFS文件系統(tǒng)以及BigTable存儲系統(tǒng)等技術。Hadoop具有龐大的家族體系,本平臺的構建主要涉及Hadoop框架的分布式文件系統(tǒng)HDFS和MapReduce模型。分布式文件系統(tǒng)作為Hadoop框架的底層,主要負責分析數(shù)據(jù)的分布式存儲和管理,MapReduce模型主要是負責對大規(guī)模數(shù)據(jù)集進行計算處理。Hadoop采用HDFS文件系統(tǒng)子框架來實現(xiàn)其所具有的存儲能力,用MapReduce編程模型框架來實現(xiàn)其計算能力,二者的巧妙結合使得Hadoop擁有高效的存儲和計算能力。
HDFS技術
HDFS分布式文件系統(tǒng)是對大規(guī)模數(shù)據(jù)實現(xiàn)分布式存儲和管理的有效工具,也是分布式計算的存儲基礎,具有很高的容錯性和擴展性,并且對數(shù)據(jù)讀寫提供了的高吞吐率。HDFS實現(xiàn)了數(shù)據(jù)的分布式存儲,使得應用程序能夠更加靈活地訪問大規(guī)模的數(shù)據(jù)集,同時也為后續(xù)對大規(guī)模數(shù)據(jù)的分析提供了數(shù)據(jù)平臺。HDFS分布式文件系統(tǒng)釆用的是典型的主/從結構,這種結構極大地簡化了系統(tǒng)的架構,使得系統(tǒng)更加簡潔,方便系統(tǒng)的管理。Hadoop的分布式文件系統(tǒng)HDFS主要由主控制器和數(shù)據(jù)節(jié)點組成,主控制器管理名字空間和數(shù)據(jù)節(jié)點,同時管理數(shù)據(jù)塊到數(shù)據(jù)節(jié)點DataNode的映射等。
文件系統(tǒng)中的DataNode作為數(shù)據(jù)節(jié)點,主要存儲實際的數(shù)據(jù),主要負責所在的物理節(jié)點上的存儲管理,執(zhí)行主控制器下達的命令。數(shù)據(jù)節(jié)點能夠及時接收客戶發(fā)送的讀寫請求,并針對這些請求完成相應的操作。從分布式文件系統(tǒng)的結構內部來看,數(shù)據(jù)文件被存儲分割成多個數(shù)據(jù)塊存儲在每個數(shù)據(jù)節(jié)點上,每個數(shù)據(jù)節(jié)點存儲著來自多個文件的數(shù)據(jù)塊,同時每個數(shù)據(jù)節(jié)點上也會存儲這些數(shù)據(jù)塊的多份副本,保證后續(xù)數(shù)據(jù)操作的準確性。
MapReduce技術
MapReduce技術基于分布式文件系統(tǒng),通過編寫相應的處理過程能夠實現(xiàn)對大規(guī)模數(shù)據(jù)集進行并行計算和處理,通過對不同分析模塊編寫相關的MapReduce處理函數(shù)能夠實現(xiàn)對大規(guī)模數(shù)據(jù)的精確分析,同時能夠控制各個節(jié)點之間完成高效的任務調度。MapReduce通過將操作分發(fā)給網(wǎng)絡上的各個節(jié)點,每個節(jié)點會周期性地返回它所完成的工作和最新的狀態(tài),從而實現(xiàn)對大規(guī)模數(shù)據(jù)集的操作,這種處理方式保證了操作的可靠性。
MapReduce技術處理的方式是,首先將一個具體的任務分解成為若干個很小的任務,然后將分解后的任務分配到各個分節(jié)點,通過主節(jié)點來對分節(jié)點的任務進行管理和調度,然后得到分節(jié)點處理后的結果,再將結果整合,得到最終結果,通過多個節(jié)點之間的相互合作和調度,從而實現(xiàn)對大規(guī)模數(shù)據(jù)集的計算和處理??偟恼f來,MapReduce就是基于“分而治之”的思想實現(xiàn)“任務的分解與結果的匯總”。
大數(shù)據(jù)全面創(chuàng)新醫(yī)療管理
構建醫(yī)院大數(shù)據(jù)分析平臺是以醫(yī)院戰(zhàn)略發(fā)展規(guī)劃為藍本、以醫(yī)院信息化建設綱要為依據(jù)而進行的創(chuàng)新性探索。以大數(shù)據(jù)建設頂層設計為基礎,收集整合醫(yī)院工作各方面所產(chǎn)生的數(shù)據(jù),從數(shù)據(jù)中提取出有價值的信息和模型,推動醫(yī)院工作的全面創(chuàng)新。
開展大數(shù)據(jù)頂層設計,以大數(shù)據(jù)應用全面推進醫(yī)院發(fā)展
大數(shù)據(jù)將成為推進醫(yī)院發(fā)展的新動力,通過開展大數(shù)據(jù)頂層設計,對大數(shù)據(jù)獲取、收集、整理、利用進行全面規(guī)劃,從應用需求出發(fā),明確建設目的和路徑,明確要做什么,不要做什么;應該先做什么,后做什么;用什么模式做,做到什么程度;達到什么效果,以指導醫(yī)院未來3—5年的大數(shù)據(jù)建設。
快速推進醫(yī)療和管理工作的信息化,建立豐富的數(shù)據(jù)來源
用大數(shù)據(jù)方法全面分析現(xiàn)有醫(yī)療和管理工作,新建或升級信息系統(tǒng),對醫(yī)療和管理實現(xiàn)全過程記錄,建立豐富的數(shù)據(jù)收集渠道。
如通過對現(xiàn)有遠程醫(yī)療系統(tǒng)進行全面升級,跳出遠程醫(yī)療的概念,實現(xiàn)對醫(yī)療過程的全面支持,詳細記錄每個病患的檢查和診療相關數(shù)據(jù),包括健康基本數(shù)據(jù)、影像數(shù)據(jù)、檢驗數(shù)據(jù)、手術數(shù)據(jù)、用藥數(shù)據(jù)、康復數(shù)據(jù)、出院隨訪數(shù)據(jù)等,將數(shù)據(jù)細分到每個行為細節(jié),以提供超越傳統(tǒng)系統(tǒng)的數(shù)據(jù)精細度,客觀地反映出醫(yī)療的實際狀況。
通過建立物聯(lián)網(wǎng)應用,實現(xiàn)對物品、人員、安全等各方面管理的強大支撐,提升管理質量的同時積累大量管理數(shù)據(jù)和行為數(shù)據(jù)。
基于個性化服務需求,建立大數(shù)據(jù)分析模型
提供優(yōu)秀的個性化服務是醫(yī)療和管理的重要目標之一,大數(shù)據(jù)應用則是提供規(guī)模化、個性化服務的必要條件,而大數(shù)據(jù)分析模型的質量決定了數(shù)據(jù)的價值。一個平時被忽略的數(shù)據(jù)在好的模型中,會產(chǎn)生難以想象的作用。
通過對醫(yī)療行為數(shù)據(jù)的分析,我們可以了解病患的治療方案和治療效果,研究哪些治療方式是最容易被接受的,哪些治療方案的設計是最受歡迎的,或具體到某個治療過程的正確率以及橫向和縱向的比較,并深層次地展現(xiàn)出其中的原因。這些數(shù)據(jù)被提供給醫(yī)生,將對醫(yī)療創(chuàng)新提供最為直接的支撐。
通過對病患基本生活習慣和健康數(shù)據(jù)的分析,可以了解病患的日常生活規(guī)律和行為規(guī)律,了解病患行為與疾病產(chǎn)生之間的關聯(lián)關系,提供病患健康生活的指導依據(jù)。
綜合應用大數(shù)據(jù)成果,推動醫(yī)院全面創(chuàng)新
通過大數(shù)據(jù)的綜合應用,可以建立對各項醫(yī)療和管理工作的分析和判斷,應用到實際工作中,從各個方面推動醫(yī)院全面創(chuàng)新。
通過對健康基本數(shù)據(jù)、影像數(shù)據(jù)、檢驗數(shù)據(jù)、手術數(shù)據(jù)、用藥數(shù)據(jù)、康復數(shù)據(jù)、出院隨訪數(shù)據(jù)等綜合分析,建立醫(yī)療畫像、病患畫像、各專業(yè)畫像,直觀了解優(yōu)勢和不足,預測發(fā)展狀況。
通過對病患人數(shù)、床位分配、醫(yī)療設備使用、能源消耗、低值易耗品消耗、食堂消費、無菌物品利用等進行綜合分析,建立各資源利用率指數(shù),實現(xiàn)數(shù)據(jù)可視化,引導管理工作的精細化和管理的扁平化。
通過對病患基本生活習慣和行為數(shù)據(jù)的分析,可以了解病患行為與疾病產(chǎn)生之間的關聯(lián)關系等,發(fā)現(xiàn)具有某些特征的特殊群體及其獨有的行為方式,并利用相關性數(shù)據(jù)進行挖掘,從中發(fā)現(xiàn)規(guī)律。
通過對醫(yī)療數(shù)據(jù)、醫(yī)治成效、考勤記錄、科研數(shù)據(jù)等相關數(shù)據(jù)進行綜合分析,建立科學的、真實客觀的醫(yī)生績效評價體系,改變傳統(tǒng)人為評價的主觀性,讓大數(shù)據(jù)選出真正優(yōu)秀的醫(yī)生。
總的來講,醫(yī)院大數(shù)據(jù)分析平臺的構建是充分利用醫(yī)院運營中的大量實際數(shù)據(jù),進行科學的統(tǒng)計與分析,為醫(yī)院各項工作提供精確可靠的指導性方案,并以多種形式實現(xiàn)人們個性化的需要,為醫(yī)院發(fā)展創(chuàng)新指明真實而又具體的方向,還能實現(xiàn)具體目標的持續(xù)發(fā)展,是今后醫(yī)院管理的必然趨勢。
(作者單位:諸暨市人民醫(yī)院醫(yī)共體計算中心)