国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

醫(yī)療衛(wèi)生信息化綜合大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)探究

2014-04-17 07:53:22
關(guān)鍵詞:海量搜索引擎結(jié)構(gòu)化

李 娟

(金陵科技學(xué)院計(jì)算機(jī)工程學(xué)院,江蘇 南京 211169)

2009年4月,國(guó)務(wù)院下發(fā)了《關(guān)于深化改革醫(yī)藥衛(wèi)生體制改革的意見》,就衛(wèi)生信息化提出了明確的建設(shè)目標(biāo),進(jìn)一步強(qiáng)調(diào)了衛(wèi)生信息的整合和共享,進(jìn)一步提高衛(wèi)生服務(wù)協(xié)同能力,創(chuàng)造醫(yī)療服務(wù)縱向整合的現(xiàn)實(shí)基礎(chǔ),使衛(wèi)生服務(wù)質(zhì)量和效率得到進(jìn)一步提升,費(fèi)用得到有效控制。

區(qū)域衛(wèi)生信息平臺(tái)轄區(qū)內(nèi)社區(qū)衛(wèi)生服務(wù)中心、鄉(xiāng)村醫(yī)療工作站、疾病監(jiān)控中心、急救中心等衛(wèi)生醫(yī)療機(jī)構(gòu)在信息化推進(jìn)過程中,所需的IT技術(shù)門類眾多,數(shù)據(jù)類型復(fù)雜多變,醫(yī)療標(biāo)準(zhǔn)紛繁雜亂,給數(shù)據(jù)采集、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分析和挖掘帶來巨大的障礙和挑戰(zhàn)。

醫(yī)學(xué)技術(shù)的發(fā)展和衛(wèi)生信息化的深度推進(jìn)必然會(huì)帶來醫(yī)療數(shù)據(jù)的急速膨脹,到2020年,醫(yī)療數(shù)據(jù)將會(huì)急劇增長(zhǎng)到35 ZB,相當(dāng)于2009年數(shù)據(jù)量的44倍[1]。而且目前絕大多數(shù)醫(yī)療數(shù)據(jù)處于歸檔狀態(tài),數(shù)據(jù)提取、醫(yī)學(xué)術(shù)語(yǔ)映射及標(biāo)準(zhǔn)化、海量數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)結(jié)構(gòu)擴(kuò)展以及信息檢索都將十分復(fù)雜。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)技術(shù)在海量數(shù)據(jù)環(huán)境下,數(shù)據(jù)的價(jià)值和利用率受到了嚴(yán)重制約。大數(shù)據(jù)技術(shù)的引入將能解決海量數(shù)據(jù)存儲(chǔ)、分析和檢索帶來的極大挑戰(zhàn),并帶來醫(yī)療衛(wèi)生從業(yè)者所期望的數(shù)據(jù)服務(wù)。

1 研究背景

本世紀(jì)初,上海市閘北區(qū)衛(wèi)生系統(tǒng)在全國(guó)率先開啟了市民電子健康檔案的信息化進(jìn)程,并在2006年構(gòu)建了“閘北區(qū)衛(wèi)生信息平臺(tái)”。至2011年4月,上海市正式啟動(dòng)“基于市民電子健康檔案的衛(wèi)生信息化共享工程”。近年來,上海大力推進(jìn)衛(wèi)生信息化建設(shè),并取得了許多積極成果。據(jù)報(bào)載:上海已初步建成了市、區(qū)兩級(jí)衛(wèi)生信息數(shù)據(jù)交換共享平臺(tái),完成與醫(yī)聯(lián)平臺(tái)(涵蓋34家三級(jí)醫(yī)院)、6個(gè)試點(diǎn)區(qū)平臺(tái)的數(shù)據(jù)交換和共享。市數(shù)據(jù)中心網(wǎng)絡(luò)覆蓋全市近600家公立醫(yī)療衛(wèi)生機(jī)構(gòu),實(shí)現(xiàn)6個(gè)試點(diǎn)區(qū)、34家三級(jí)醫(yī)院、近100家一二級(jí)醫(yī)療機(jī)構(gòu)、1萬余個(gè)醫(yī)生工作站實(shí)現(xiàn)互聯(lián)互通,已建立并維護(hù)了本市就醫(yī)人群中3 000多萬份居民電子健康檔案。其中,形成的健康檔案數(shù)據(jù)庫(kù)是目前國(guó)內(nèi)最大的區(qū)域個(gè)人健康信息數(shù)據(jù)庫(kù),在試點(diǎn)區(qū)域及三級(jí)醫(yī)院范圍內(nèi)全面實(shí)現(xiàn)“兩個(gè)任何”(即任何居民和醫(yī)務(wù)人員,在任何地點(diǎn),在滿足業(yè)務(wù)規(guī)范和安全隱私的情況下可以調(diào)閱相關(guān)健康檔案)[2]。由此,上?!敖】敌畔⒕W(wǎng)”基本覆蓋了該市的全部區(qū)域,全市范圍內(nèi)的衛(wèi)生數(shù)據(jù)可以互聯(lián)互通、信息共享。

本課題研究基于上海市醫(yī)療衛(wèi)生信息化的整體規(guī)劃和建設(shè)目標(biāo),依托上海健康信息網(wǎng)相關(guān)資源,充分利用健康信息網(wǎng)提供的知識(shí)庫(kù)及規(guī)則,探索在大數(shù)據(jù)模式下,完成結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的醫(yī)學(xué)信息數(shù)據(jù)爬蟲、可擴(kuò)展的海量存儲(chǔ)、基于健康搜索引擎的高性能檢索應(yīng)用服務(wù),滿足高效率、高并發(fā)的健康信息檢索服務(wù)新模式,完善現(xiàn)有信息體系,實(shí)現(xiàn)跨部門、跨專業(yè)的信息協(xié)同。

1.1 存在的問題

在區(qū)域衛(wèi)生信息平臺(tái)建設(shè)過程中,基于健康檔案公用數(shù)據(jù)元標(biāo)準(zhǔn)、衛(wèi)生信息共享文檔規(guī)范、IHE 集成規(guī)范、HL7 CDA文檔規(guī)范的衛(wèi)生信息模型,主要依靠傳統(tǒng)的信息技術(shù),利用關(guān)系型數(shù)據(jù)庫(kù)、共享交換平臺(tái)、醫(yī)療資源目錄、患者主索引服務(wù)、消息中間件以及ESB總線技術(shù)為核心的SOA系統(tǒng)架構(gòu)實(shí)現(xiàn)區(qū)域信息整合和共享,該架構(gòu)在應(yīng)對(duì)區(qū)域衛(wèi)生信息化發(fā)展上將面臨巨大挑戰(zhàn),主要表現(xiàn)在以下幾方面。

1.1.1 海量數(shù)據(jù)處理和索引的壓力 國(guó)際IDC評(píng)估報(bào)告中認(rèn)定衛(wèi)生服務(wù)數(shù)據(jù)未來將占人類數(shù)據(jù)的40%,而且衛(wèi)生服務(wù)數(shù)據(jù)存在大量非結(jié)構(gòu)化數(shù)據(jù),涉及的數(shù)據(jù)源眾多、層次復(fù)雜、結(jié)構(gòu)類型多樣。如何提取這些臨床數(shù)據(jù)并進(jìn)行索引、如何通過自然語(yǔ)言處理程序在偽編碼的文本中標(biāo)記臨床概念并獲取語(yǔ)境。數(shù)據(jù)分析和語(yǔ)義標(biāo)注要付出昂貴的計(jì)算資源,特別是當(dāng)建立的索引增長(zhǎng)到數(shù)十億條時(shí)。Hadoop能夠滿足這個(gè)計(jì)算需求,基于Hadoop建立的查詢索引在邏輯上是一組輸入數(shù)據(jù)的函數(shù),而MapReduce允許我們將這些函數(shù)并行在任意大的數(shù)據(jù)集上運(yùn)行,傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)架構(gòu)會(huì)面臨巨大的挑戰(zhàn)。

1.1.2 高并發(fā)計(jì)算的壓力 在上海健康信息網(wǎng)工程中,面向全市的應(yīng)用服務(wù)將逐步開展、上線[3]。建立的電子病歷和健康檔案逐年累積,需要在醫(yī)療服務(wù)中實(shí)時(shí)被調(diào)閱;面向診療輔助的智能提醒服務(wù)也要基于海量數(shù)據(jù)的過濾清洗處理,加上高并發(fā)的訪問,數(shù)據(jù)中心面臨的巨大的信息處理與訪問壓力,傳統(tǒng)的技術(shù)架構(gòu)難以有效支撐。

1.1.3 系統(tǒng)擴(kuò)展性的壓力 上海健康信息網(wǎng)工程的覆蓋范圍需要擴(kuò)展到600余家醫(yī)療機(jī)構(gòu),數(shù)據(jù)日益增長(zhǎng),系統(tǒng)架構(gòu)需保證可開放、可擴(kuò)展,滿足日益增長(zhǎng)的衛(wèi)生服務(wù)存儲(chǔ)擴(kuò)展需要,Hadoop自身水平擴(kuò)展機(jī)制很好滿足存儲(chǔ)容量彈性擴(kuò)展的需求[3]。而按照傳統(tǒng)系統(tǒng)架構(gòu)方式搭建的數(shù)據(jù)中心,主機(jī)、存儲(chǔ)等架構(gòu)缺乏彈性擴(kuò)展的能力,擴(kuò)容困難,難以滿足業(yè)務(wù)發(fā)展的需求。

1.1.4 系統(tǒng)應(yīng)對(duì)變化的壓力 隨著日益增長(zhǎng)的衛(wèi)生服務(wù)應(yīng)用需要,醫(yī)學(xué)知識(shí)不斷更新,生產(chǎn)環(huán)境中的數(shù)據(jù)格式因版本更新而發(fā)生的升級(jí)擴(kuò)展。搭建在傳統(tǒng)架構(gòu)上的應(yīng)用系統(tǒng)難以實(shí)現(xiàn)自由訂制,平滑輸出,難以滿足更廣泛服務(wù)的需求[4]。應(yīng)對(duì)數(shù)據(jù)結(jié)構(gòu)變化的適應(yīng)性不足,在醫(yī)療衛(wèi)生服務(wù)中,其管理的數(shù)據(jù)內(nèi)容將不斷擴(kuò)充,要求區(qū)域數(shù)據(jù)中心整體數(shù)據(jù)建模上能適應(yīng)數(shù)據(jù)結(jié)構(gòu)和內(nèi)容的變化,傳統(tǒng)技術(shù)在海量數(shù)據(jù)下存在極大的困難。

2 項(xiàng)目成果

2.1 基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)處理平臺(tái)

Hadoop是一個(gè)用于運(yùn)行應(yīng)用程序在大型集群的廉價(jià)硬件設(shè)備上的框架,為應(yīng)用程序透明提供了一組穩(wěn)定可靠的接口和數(shù)據(jù)運(yùn)動(dòng)。在Hadoop中實(shí)現(xiàn)了Google的MapReduce算法,它能夠把應(yīng)用程序分割成許多很小的工作單元,每個(gè)單元可以在任何集群節(jié)點(diǎn)上執(zhí)行或重復(fù)執(zhí)行。此外,Hadoop還提供一個(gè)分布式文件系統(tǒng)用來在各個(gè)計(jì)算節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù),并提供了對(duì)數(shù)據(jù)讀寫的高吞吐率。由于應(yīng)用了MapReduce和分布式文件系統(tǒng)使得Hadoop框架具有高容錯(cuò)性,它會(huì)自動(dòng)處理失敗節(jié)點(diǎn)。

基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)處理平臺(tái)為了實(shí)現(xiàn)對(duì)結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化、以及非結(jié)構(gòu)化數(shù)據(jù)多種數(shù)據(jù)結(jié)構(gòu)的采集、存儲(chǔ)、分類、處理的機(jī)制整合,利用Hadoop實(shí)現(xiàn)了高效的統(tǒng)一化存儲(chǔ)結(jié)構(gòu),以及訪問控制和管理?;谒阉饕婕夹g(shù)對(duì)數(shù)據(jù)進(jìn)行半結(jié)構(gòu)化存儲(chǔ)和高速索引,并采用分布式文件系統(tǒng)進(jìn)行冗余容錯(cuò)存儲(chǔ),結(jié)合健康信息的特征進(jìn)行存儲(chǔ)配置優(yōu)化,充分實(shí)現(xiàn)健康數(shù)據(jù)的新型整合及利用模式。

MapReduce作為一種分布式運(yùn)算技術(shù),最先由Google提出的分布式計(jì)算軟件構(gòu)架,是云計(jì)算的核心技術(shù),也是簡(jiǎn)化的分布式編程模式。它用于大規(guī)模數(shù)據(jù)集(大于1 TB)的并行運(yùn)算,用來處理大量數(shù)據(jù)的分布式運(yùn)算。Storm作為一個(gè)開源的分布式實(shí)時(shí)計(jì)算系統(tǒng),可以簡(jiǎn)單、可靠地處理大量的數(shù)據(jù)流。Storm有很多實(shí)用場(chǎng)景,如實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、持續(xù)計(jì)算、分布式RPC、ETL等等。Storm支持水平擴(kuò)展,具有高容錯(cuò)性,保證每個(gè)消息都會(huì)得到處理,而且處理速度很快。Storm的部署和運(yùn)行維護(hù)都很便捷,更為重要的是可以使用任意編程語(yǔ)言來開發(fā)應(yīng)用。

基于大數(shù)據(jù)的醫(yī)療數(shù)據(jù)處理平臺(tái)利用MapReduce以及Storm技術(shù),從核心業(yè)務(wù)數(shù)據(jù)中實(shí)時(shí)增量和批量處理數(shù)據(jù),基于醫(yī)學(xué)術(shù)語(yǔ)連接數(shù)據(jù)、執(zhí)行聚合和排序、抽取數(shù)據(jù)并重構(gòu)成對(duì)應(yīng)業(yè)務(wù)所需的概要信息,同時(shí)采用基于HBase存儲(chǔ)Solr索引技術(shù),有效解決競(jìng)爭(zhēng)訪問數(shù)據(jù)資源的查詢性能問題,具體流程見圖 1[5]。

2.2 基于大數(shù)據(jù)的健康信息搜索引擎

醫(yī)療衛(wèi)生信息化綜合數(shù)據(jù)平臺(tái)將采集的用戶健康信息,通過搜索引擎技術(shù),進(jìn)行分詞、檢索以及存儲(chǔ),形成具有分布式、高容錯(cuò)的數(shù)據(jù)模型。1) 利用分詞技術(shù),根據(jù)用戶健康信息的類別和表示模式進(jìn)行分類歸檔。當(dāng)用戶搜索信息時(shí),可依據(jù)信息所處索引庫(kù)的位置,而實(shí)現(xiàn)數(shù)據(jù)的快速、準(zhǔn)確搜索。2) 健康信息搜索引擎具備 用戶語(yǔ)義發(fā)現(xiàn)、分析和判斷功能,可通過對(duì)用戶輸入詞的分析而明確用戶真實(shí)意圖,并在索引庫(kù)中查詢與用戶搜索目標(biāo)最接近的文檔和數(shù)據(jù)。3) 健康信息搜索引擎可根據(jù)大數(shù)據(jù)信息庫(kù)數(shù)據(jù)、第三方網(wǎng)站資源、用戶社會(huì)關(guān)系表示,構(gòu)建一個(gè)以用戶為中心的巨大信息關(guān)系圖譜。

被采集的健康信息,通過搜索引擎反向應(yīng)用,可實(shí)現(xiàn)對(duì)高頻率、高并發(fā)的訪問查詢請(qǐng)求的在線高速響應(yīng)。通過搜索引擎的分類、聚類算法,對(duì)采集的信息進(jìn)行評(píng)級(jí)和整合,從而提高信息檢索的準(zhǔn)確度與相關(guān)程度。

醫(yī)療衛(wèi)生信息化綜合數(shù)據(jù)平臺(tái)還提供了IHE V3的注冊(cè)接口,通過Hl7 CDA適配器獲取檔案信息并進(jìn)行術(shù)語(yǔ)標(biāo)注,轉(zhuǎn)入搜索引擎建立索引。

2.3 基于智能搜索引擎的智能提示服務(wù)

醫(yī)療衛(wèi)生信息化綜合數(shù)據(jù)平臺(tái)的智能提示服務(wù)是基于居民健康信息為醫(yī)生提供的提示、警示性服務(wù)。醫(yī)生在診療過程中,可通過智能提示功能,獲得藥物過敏、重點(diǎn)人群、慢病患者等各類警示信息以及重復(fù)檢驗(yàn)、檢查提示等,以提高診斷質(zhì)量,減少醫(yī)患糾紛,同時(shí)也可降低患者重復(fù)檢驗(yàn)檢查費(fèi)用,提高患者滿意度。

目前健康信息按照個(gè)人為核心進(jìn)行組織的,即以人為核心的映射匹配,通過Storm和MapReduce對(duì)原始數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換后,利用區(qū)域健康管理信息智能搜索引擎的動(dòng)態(tài)索引技術(shù),借助Hadoop分布式計(jì)算模型,并行處理大規(guī)模數(shù)據(jù),進(jìn)一步對(duì)數(shù)據(jù)根據(jù)業(yè)務(wù)需要進(jìn)行索引和建模,形成支撐業(yè)務(wù)應(yīng)用的各類主題數(shù)據(jù)模型、患者健康檔案記錄和醫(yī)療協(xié)同特征庫(kù)(規(guī)則庫(kù)),從而協(xié)同實(shí)現(xiàn)面向主題的智能提示服務(wù)。

3 結(jié) 語(yǔ)

全球知名的管理咨詢公司麥肯錫提出:“大數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來。[6]”隨著經(jīng)濟(jì)的發(fā)展和科技的進(jìn)步,海量的醫(yī)療信息數(shù)據(jù)為醫(yī)療信息化帶來了新的挑戰(zhàn)。

本文探討了基于區(qū)域衛(wèi)生信息平臺(tái)建設(shè)過程中存在的主要問題,探究在大數(shù)據(jù)模式下,完成結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的醫(yī)學(xué)信息數(shù)據(jù)爬蟲、可擴(kuò)展的海量存儲(chǔ)、基于健康搜索引擎的高性能檢索應(yīng)用服務(wù),滿足高效率、高并發(fā)的健康信息檢索服務(wù)新模式。用Hadoop的可擴(kuò)展特性和靈活的索引技術(shù),逐步建立可基于海量數(shù)據(jù)分析的臨床智能分析的數(shù)據(jù)集,以方便醫(yī)療從業(yè)人員從各個(gè)數(shù)據(jù)截面視角來利用健康信息和臨床數(shù)據(jù),為臨床數(shù)據(jù)挖掘提供新的技術(shù)手段。在臨床應(yīng)用、智能提醒、臨床決策支持、遠(yuǎn)程監(jiān)護(hù)醫(yī)療、藥品開發(fā)、防止醫(yī)療詐騙等應(yīng)用場(chǎng)景,大數(shù)據(jù)的分析和應(yīng)用都將發(fā)揮巨大的作用,提高醫(yī)療效率和醫(yī)療質(zhì)量,提升臨床數(shù)據(jù)的業(yè)務(wù)利用價(jià)值。

[1] 高漢松,肖凌,許德瑋,等.基于云計(jì)算的醫(yī)療大數(shù)據(jù)挖掘平臺(tái)[J].醫(yī)學(xué)信息學(xué)雜志,2013(5):7-12

[2] 賀天寶,龔紓碧.市民可在家中尋醫(yī)問藥、預(yù)約掛號(hào)[N].新聞晚報(bào),2014-01-04(A1)

[3] 胡德寧,殷道根,杜玉開.韶關(guān)市區(qū)域衛(wèi)生信息化建設(shè)的研究與實(shí)踐[J].中國(guó)社會(huì)醫(yī)學(xué)雜志,2014(3):155-157

[4] 劉博,夏新,陳彥東.基于云計(jì)算的區(qū)域健康服務(wù)平臺(tái)的研究與設(shè)計(jì)[J].醫(yī)療衛(wèi)生裝備,2013(9):41-43

[5] 游靜.區(qū)域醫(yī)療信息系統(tǒng)集成實(shí)施案例與實(shí)施模式研究[J].科技管理研究,2013(20):199-207

[6] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013(6):1125-1138

猜你喜歡
海量搜索引擎結(jié)構(gòu)化
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
一個(gè)圖形所蘊(yùn)含的“海量”巧題
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
大英县| 嘉鱼县| 江华| 沧州市| 喀喇沁旗| 嘉定区| 宣化县| 天峻县| 望江县| 美姑县| 和顺县| 合江县| 阿荣旗| 长沙市| 乌兰察布市| 娱乐| 临江市| 如东县| 霍邱县| 六安市| 凤阳县| 天门市| 渝北区| 大英县| 名山县| 汤阴县| 乌审旗| 湟中县| 凤庆县| 虞城县| 五大连池市| 兴化市| 昌黎县| 綦江县| 吴桥县| 河南省| 昌都县| 青龙| 鲜城| 罗平县| 毕节市|