吳許俊,丁 勇,姜 楓,曹紅根,毛 平,解定東
(南京理工大學(xué) 泰州科技學(xué)院 移動(dòng)互聯(lián)網(wǎng)學(xué)院,江蘇 泰州 225300)
2016 年6 月,國(guó)務(wù)院辦公廳發(fā)布《關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》,將健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展納入國(guó)家大數(shù)據(jù)戰(zhàn)略布局[1]。同年底,國(guó)家衛(wèi)生計(jì)生委啟動(dòng)健康醫(yī)療大數(shù)據(jù)中心與產(chǎn)業(yè)園建設(shè)國(guó)家試點(diǎn)工程[2],全面推動(dòng)大數(shù)據(jù)應(yīng)用與健康醫(yī)療行業(yè)的深度融合。我校是教育部數(shù)據(jù)中國(guó)“百校工程”產(chǎn)教融合創(chuàng)新項(xiàng)目首批試點(diǎn)院校之一,與中科曙光公司合作共建大數(shù)據(jù)應(yīng)用創(chuàng)新中心并成立大數(shù)據(jù)行業(yè)學(xué)院。為了建立政產(chǎn)學(xué)研長(zhǎng)效合作機(jī)制,為政府與企業(yè)大數(shù)據(jù)項(xiàng)目提供科技創(chuàng)新服務(wù),以大數(shù)據(jù)驅(qū)動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),我校與擁有數(shù)量大、種類豐富的生物醫(yī)藥數(shù)據(jù)資源的泰州中國(guó)醫(yī)藥城合作共建健康醫(yī)療大數(shù)據(jù)開放實(shí)驗(yàn)室。同時(shí),構(gòu)建以項(xiàng)目任務(wù)驅(qū)動(dòng)的實(shí)訓(xùn)教學(xué)體系,探索新工科背景下大數(shù)據(jù)人才培養(yǎng)模式[3],為社會(huì)輸送高素質(zhì)應(yīng)用型人才。
健康醫(yī)療大數(shù)據(jù)(簡(jiǎn)稱醫(yī)療大數(shù)據(jù))是指與健康醫(yī)療相關(guān),滿足大數(shù)據(jù)基本特征的數(shù)據(jù)集合,是國(guó)家重要的基礎(chǔ)性戰(zhàn)略資源[4]。從廣義上講,醫(yī)療大數(shù)據(jù)泛指存儲(chǔ)在醫(yī)療衛(wèi)生領(lǐng)域內(nèi)各種管理信息系統(tǒng)中的數(shù)據(jù),包括醫(yī)保政務(wù)、醫(yī)療機(jī)構(gòu)、公共衛(wèi)生、藥品銷售、保險(xiǎn)等不同系統(tǒng)內(nèi)的信息。從狹義上講,醫(yī)療大數(shù)據(jù)是指醫(yī)生為患者治療過程中產(chǎn)生的各種數(shù)據(jù),包括患者基本信息、檢驗(yàn)信息、醫(yī)學(xué)影像信息、臨床信息、電子病歷和費(fèi)用信息等。
醫(yī)療大數(shù)據(jù)不僅具有大數(shù)據(jù)的5V 特性,即數(shù)據(jù)體量巨大(volume)、增長(zhǎng)與處理速度快(velocity)、數(shù)據(jù)結(jié)構(gòu)多樣(variety)、價(jià)值密度低應(yīng)用價(jià)值高(value)與真實(shí)性(veracity)[5],而且具有醫(yī)療衛(wèi)生領(lǐng)域獨(dú)有的一些特征包括多態(tài)性、不完整性、時(shí)間性和冗余性。例如醫(yī)療數(shù)據(jù)的多態(tài)性表現(xiàn)為文字描述、檢驗(yàn)數(shù)據(jù)、電磁信號(hào)、影像、音視頻、動(dòng)畫等不同形態(tài),成為醫(yī)療大數(shù)據(jù)的最顯著特征。
健康醫(yī)療大數(shù)據(jù)資源主要分布在醫(yī)學(xué)、學(xué)科研究、行業(yè)相關(guān)、互聯(lián)網(wǎng)等領(lǐng)域,其數(shù)據(jù)資源體系見圖1。
圖1 健康醫(yī)療大數(shù)據(jù)資源體系
對(duì)區(qū)域健康醫(yī)療大數(shù)據(jù)資源進(jìn)行調(diào)查和梳理,制定大數(shù)據(jù)資源體系分類目錄的結(jié)構(gòu)和內(nèi)容屬于前瞻性基礎(chǔ)工作[6],可以為健康醫(yī)療大數(shù)據(jù)發(fā)展與應(yīng)用提供理論支撐和參考依據(jù)。當(dāng)前重要任務(wù)是依據(jù)國(guó)家標(biāo)準(zhǔn)分類目錄編制符合區(qū)域要求的基礎(chǔ)資源目錄、業(yè)務(wù)資源目錄、主題資源目錄等。
隨著數(shù)據(jù)規(guī)??焖贁U(kuò)大和數(shù)據(jù)應(yīng)用愈發(fā)復(fù)雜,理解大數(shù)據(jù)的生命周期有利于科學(xué)制定大數(shù)據(jù)戰(zhàn)略,及時(shí)調(diào)整大數(shù)據(jù)分析策略。數(shù)據(jù)管理組織DAMA(The Data Management Association)認(rèn)為,數(shù)據(jù)生命周期是數(shù)據(jù)從創(chuàng)建、采集、使用到消亡的全過程。大數(shù)據(jù)生命周期包括大數(shù)據(jù)組織、評(píng)估現(xiàn)狀、制定戰(zhàn)略、數(shù)據(jù)定義、數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)治理、持續(xù)改進(jìn)等9 個(gè)階段[7],見圖2。
圖2 大數(shù)據(jù)生命周期的9 個(gè)階段
根據(jù)健康醫(yī)療大數(shù)據(jù)資源的類型及其特征,結(jié)合大數(shù)據(jù)技術(shù)對(duì)醫(yī)療行業(yè)信息化所帶來的變革,文獻(xiàn)[8]提出了一種醫(yī)療大數(shù)據(jù)生命周期管理模型(medical data lifecycle management,MDLM),如圖3 所示。
圖3 醫(yī)療大數(shù)據(jù)生命周期管理模型
健康醫(yī)療大數(shù)據(jù)系統(tǒng)功能模塊多、結(jié)構(gòu)復(fù)雜,設(shè)計(jì)時(shí)應(yīng)盡量減少功能模塊之間的耦合,增加模塊的內(nèi)聚。為了保證系統(tǒng)的性能,充分考慮醫(yī)療大數(shù)據(jù)和系統(tǒng)訪問量持續(xù)增加的情況下所需要的擴(kuò)展能力,該系統(tǒng)的設(shè)計(jì)采用基于并行計(jì)算的分布式數(shù)據(jù)處理技術(shù)。健康醫(yī)療大數(shù)據(jù)系統(tǒng)的體系結(jié)構(gòu)見圖4。
該系統(tǒng)主要分為5 個(gè)層次,由下而上分別是數(shù)據(jù)源管理層、數(shù)據(jù)整合層、數(shù)據(jù)處理層、應(yīng)用管理層和應(yīng)用服務(wù)層。數(shù)據(jù)源管理層負(fù)責(zé)組織管理多源數(shù)據(jù)匯集,進(jìn)行有效融合處理,構(gòu)成健康醫(yī)療大數(shù)據(jù)的核心資源。數(shù)據(jù)整合層負(fù)責(zé)數(shù)據(jù)的采集、清洗、轉(zhuǎn)換、存儲(chǔ)與計(jì)算,采用分布式文件系統(tǒng)存儲(chǔ)不同結(jié)構(gòu)類型的數(shù)據(jù),集成調(diào)度并行計(jì)算框架。數(shù)據(jù)處理層負(fù)責(zé)調(diào)用大數(shù)據(jù)分析與挖掘工具構(gòu)建分類知識(shí)庫(kù)。應(yīng)用管理層負(fù)責(zé)開發(fā)典型應(yīng)用,管理應(yīng)用服務(wù)與數(shù)據(jù)安全。應(yīng)用服務(wù)層負(fù)責(zé)為不同用戶提供相應(yīng)的訪問操作。5 個(gè)主要層次需要遵循健康醫(yī)療大數(shù)據(jù)管理規(guī)范、數(shù)據(jù)安全規(guī)范、應(yīng)用服務(wù)規(guī)范及健康醫(yī)療標(biāo)準(zhǔn)。
支撐健康醫(yī)療大數(shù)據(jù)應(yīng)用系統(tǒng)的關(guān)鍵技術(shù)有醫(yī)療大數(shù)據(jù)存儲(chǔ)技術(shù)、醫(yī)療大數(shù)據(jù)處理技術(shù)與醫(yī)療大數(shù)據(jù)分析挖掘技術(shù)[9]。
2.2.1 醫(yī)療大數(shù)據(jù)存儲(chǔ)技術(shù)
為了實(shí)現(xiàn)區(qū)域健康醫(yī)療大數(shù)據(jù)的匯集共享,需要整合醫(yī)療行業(yè)現(xiàn)有的HIS、CIS、PACS、LIS 等數(shù)據(jù)庫(kù)系統(tǒng)。目前主流大數(shù)據(jù)存儲(chǔ)技術(shù)有Hadoop 架構(gòu),基于分布式文件系統(tǒng)HDFS 采用Master/Slave 模式管理集群中的數(shù)據(jù)節(jié)點(diǎn),主要用于存儲(chǔ)半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù),具有低成本、高容錯(cuò)性的特點(diǎn),可以為訪問應(yīng)用程序的數(shù)據(jù)提供高吞吐量。
圖4 健康醫(yī)療大數(shù)據(jù)系統(tǒng)的體系結(jié)構(gòu)
作為Hadoop 架構(gòu)的補(bǔ)充,MPP(massively parallel processing,大規(guī)模并行處理)架構(gòu)適合在數(shù)據(jù)庫(kù)非共享集群中,將業(yè)務(wù)數(shù)據(jù)根據(jù)數(shù)據(jù)庫(kù)模型和應(yīng)用特點(diǎn)劃分到各個(gè)節(jié)點(diǎn)上。每個(gè)節(jié)點(diǎn)配有獨(dú)立的存儲(chǔ)和內(nèi)存[10],彼此相連協(xié)同計(jì)算,作為整體提供數(shù)據(jù)庫(kù)服務(wù)。表1列出了Hadoop 架構(gòu)、MPP 架構(gòu)與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)的特征,并進(jìn)行對(duì)比描述。
采用Hadoop 架構(gòu)與MPP 架構(gòu)的混搭模式是醫(yī)療大數(shù)據(jù)存儲(chǔ)技術(shù)值得探索的發(fā)展方向,是一個(gè)性能優(yōu)越、兼顧容錯(cuò)與負(fù)載均衡的解決方案。
表1 Hadoop 架構(gòu)、MPP 架構(gòu)與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)的特征
2.2.2 醫(yī)療大數(shù)據(jù)處理技術(shù)
目前主流的并行計(jì)算框架有MapReduce、Spark和Storm。MapReduce 通過Map(映射)與Reduce(化簡(jiǎn))操作,提供對(duì)靜態(tài)醫(yī)療大數(shù)據(jù)集的離線批處理分析服務(wù)。Spark 采用內(nèi)存分布數(shù)據(jù)集分析技術(shù),結(jié)合實(shí)時(shí)數(shù)據(jù)庫(kù),提供交互式查詢服務(wù)。Storm 采用Stream(流)方式,按照Topology 順序,循環(huán)處理動(dòng)態(tài)更新的內(nèi)存數(shù)據(jù)消息。根據(jù)業(yè)務(wù)需求,系統(tǒng)構(gòu)建多框架融合計(jì)算調(diào)度引擎,集成調(diào)用計(jì)算框架來執(zhí)行數(shù)據(jù)處理任務(wù)。
2.2.3 醫(yī)療大數(shù)據(jù)分析挖掘技術(shù)
大數(shù)據(jù)分析挖掘技術(shù)主要有R 語(yǔ)言、機(jī)器學(xué)習(xí)方法和Mahout 算法庫(kù)。R 語(yǔ)言主要以R 軟件包形式發(fā)布數(shù)學(xué)計(jì)算和統(tǒng)計(jì)分析工具,使得Hadoop 進(jìn)一步增強(qiáng)深度分析能力。開源的數(shù)據(jù)挖掘工具Weka 集合了大量的機(jī)器學(xué)習(xí)方法,可以實(shí)現(xiàn)大數(shù)據(jù)的聚類、分類、回歸、關(guān)聯(lián)以及可視化[11]。Mahout 算法庫(kù)封裝了用于數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)算法包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘等[12]。通過擴(kuò)展Hadoop 平臺(tái),開發(fā)者調(diào)用Mahout 算法的程序接口可以創(chuàng)建智能應(yīng)用程序。
健康醫(yī)療大數(shù)據(jù)經(jīng)過整合和深度分析,可以為居民、醫(yī)生、科研人員、行業(yè)企業(yè)和衛(wèi)生管理機(jī)構(gòu)提供多種應(yīng)用服務(wù):面向居民提供健康指導(dǎo)服務(wù),可為居民的慢性病干預(yù)、改善生活習(xí)慣提供個(gè)性化健康保健指導(dǎo),促進(jìn)居民健康自我管理;面向醫(yī)生可以為醫(yī)生的臨床決策提供支持,提供診療水平,減少醫(yī)療差錯(cuò);面向科研人員可提供組學(xué)大數(shù)據(jù)研究模式和隊(duì)列人群,提高精準(zhǔn)醫(yī)療效率與效果;面向行業(yè)企業(yè)可以改進(jìn)藥品流通與保險(xiǎn)服務(wù)的營(yíng)銷服務(wù)策略;面向衛(wèi)生管理機(jī)構(gòu)可提供管理決策支持系統(tǒng),提高在疾病監(jiān)測(cè)、慢病管理、質(zhì)量監(jiān)管等方面的衛(wèi)生管理水平。
健康醫(yī)療大數(shù)據(jù)開放實(shí)驗(yàn)室是對(duì)政產(chǎn)學(xué)研合作機(jī)制的一種探索與實(shí)踐。兩年多的建設(shè)實(shí)踐表明,健康醫(yī)療大數(shù)據(jù)開放實(shí)驗(yàn)室作為校企協(xié)同育人平臺(tái),有利于改革人才培養(yǎng)模式,增強(qiáng)學(xué)生的實(shí)際應(yīng)用能力,有效提高人才培養(yǎng)質(zhì)量;作為校企協(xié)同創(chuàng)新載體,有利于完善產(chǎn)學(xué)研創(chuàng)新合作機(jī)制,發(fā)揮各方優(yōu)勢(shì)形成合力,規(guī)范和促進(jìn)區(qū)域健康醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)的應(yīng)用發(fā)展。