国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的個人健康信息服務(wù)系統(tǒng)

2017-05-08 10:35包康劉圖明孫明瑞
智能計算機與應(yīng)用 2016年6期
關(guān)鍵詞:分布式數(shù)據(jù)中心數(shù)據(jù)庫

包康++劉圖明++孫明瑞

摘要:個人健康信息服務(wù)系統(tǒng)作為現(xiàn)代醫(yī)院健康管理系統(tǒng)的一個重要分支,在整個醫(yī)療系統(tǒng)中起著十分重要的作用。本文論述了通過Hadoop大數(shù)據(jù)平臺構(gòu)建了一種個人健康信息管理的方法,設(shè)計并且實現(xiàn)了一套基于Hadoop的個人健康信息管理系統(tǒng)。Hadoop作為一種日趨成熟的大數(shù)據(jù)平臺,與醫(yī)療信息化相結(jié)合,為個人醫(yī)療中產(chǎn)生的數(shù)據(jù)提供了一種安全可靠的存儲途徑,實現(xiàn)醫(yī)療數(shù)據(jù)的集中管理。本系統(tǒng)利用Hadoop平臺適合海量數(shù)據(jù)的運算與存儲的特點,建立了個人健康信息數(shù)據(jù)中心,實現(xiàn)對患者健康信息最完整、最準確的管理。

關(guān)鍵詞: Hadoop個人健康信息服務(wù)系統(tǒng); 大數(shù)據(jù); 數(shù)據(jù)中心

中圖分類號: TP391.41

文獻標志碼: A

文章編號: 2095-2163(2016)06-0009-04

0引言

隨著大數(shù)據(jù)技術(shù)的發(fā)展,供其使用的場景也越來越多。對于尋求數(shù)據(jù)集中管理、旨在收獲高效益,遠程存取自動化的醫(yī)療領(lǐng)域,Hadoop可以為建立個人健康信息中心提供一個理想的平臺。在基于Hadoop的個人健康信息服務(wù)系統(tǒng)中,患者的電子個人信息、醫(yī)療記錄和相關(guān)資料可以進行完整、統(tǒng)一管理,系統(tǒng)資源可以由一個或者若干個醫(yī)療機構(gòu)高度共享,并集中存放,將不再局限在某個醫(yī)院單獨的信息系統(tǒng)中。而使用Hadoop平臺構(gòu)建個人健康信息數(shù)據(jù)中心后,醫(yī)療機構(gòu)可以同步降低在軟件和硬件上的投入、推進醫(yī)療機構(gòu)的信息化程度,并且提升醫(yī)院的收益率。現(xiàn)如今,隨著電子醫(yī)療信息的快速增長,Hadoop大數(shù)據(jù)平臺無疑會對醫(yī)療領(lǐng)域產(chǎn)生重大影響。

2009年,中華人民共和國衛(wèi)生部公開頒行了《基于健康檔案的區(qū)域衛(wèi)生信息平臺建設(shè)指南》,使醫(yī)療管理者能動態(tài)掌握衛(wèi)生服務(wù)資源和利用信息,實現(xiàn)科學管理和決策,從而達到有效地控制醫(yī)療費用的不合理增長、減少醫(yī)療差錯、增進醫(yī)療與服務(wù)質(zhì)量的功能規(guī)劃目的。通過個人健康信息服務(wù)系統(tǒng),將分散在不同機構(gòu)的健康數(shù)據(jù)整合為一個邏輯完整的信息整體,滿足與其相關(guān)的多種機構(gòu)與人員的基礎(chǔ)現(xiàn)實需要。這是一種全新的衛(wèi)生信息化建設(shè)模式。

本系統(tǒng)基于Hadoop平臺,使用Hbase存取數(shù)據(jù),通過大數(shù)據(jù)的技術(shù)和概念對個人的醫(yī)療數(shù)據(jù)進行存儲和交換,實現(xiàn)個人健康檔案管理的廣泛共享。

1相關(guān)理論與技術(shù)

[1.1Hadoop

Hadoop是Apache 軟件基金會旗下的一個開源分布式計算平臺。實現(xiàn)時是以Hadoop分布式文件系統(tǒng)(HDFS)和MapReduce為核心,為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS具有高容錯性和高伸縮性,且基于Java語言開發(fā),使得Hadoop可以部署在低廉的硬件上,形成分布式系統(tǒng)。MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)情況下開發(fā)并行應(yīng)用程序。

Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺,主要表現(xiàn)有以下優(yōu)點:

1)高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得信賴。

2)高擴展性。Hadoop是在可用的計算機集群間分配數(shù)據(jù)完成計算任務(wù),這些集群可以方便地擴展到數(shù)以千計的節(jié)點。

3)高效性。Hadoop能夠在節(jié)點間靈活地移動數(shù)據(jù),以保證各個節(jié)點的動態(tài)平衡,因此處理速度甚稱優(yōu)異。

4)高容錯性。Hadoop可以自動保存數(shù)據(jù)的多份副本,并且能夠?qū)⑹〉娜蝿?wù)重新分配。

HDFS和MapReduce是Hadoop的兩大核心。下面首先介紹HDFS的體系結(jié)構(gòu)。HDFS采用了主從(Master/Slave)結(jié)構(gòu)模型,HDFS單元集群則是由一個NameNode和若干DataNode組成。其中,NameNode作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作;DataNode管理存儲的數(shù)據(jù)。HDFS允許用戶以文件的形式存儲數(shù)據(jù)。從內(nèi)部來看,文件被分成若干個數(shù)據(jù)塊,分置在不同的DataNode上。NameNode執(zhí)行文件系統(tǒng)的命名空間操作,比如打開、重命名、關(guān)閉文件或目錄等,同時還進一步負責數(shù)據(jù)塊到具體DataNode的映射。在此基礎(chǔ)上,DataNode將負責處理文件系統(tǒng)客戶端的文件讀寫請求,并可在NameNode的統(tǒng)一調(diào)度下執(zhí)行數(shù)據(jù)塊的創(chuàng)建、復(fù)制和刪除工作。HDFS的體系結(jié)構(gòu)如圖1所示。

其次,MapReduce是一種并行編程模式。在該模式控制下,用戶可以輕松地編寫分布式并行程序。而且,還將負責將任務(wù)分發(fā)到由成百上千臺計算機組成的集群上,并以一種可靠容錯的方式并行處理大量的數(shù)據(jù)集,實現(xiàn)Hadoop的并行任務(wù)處理功能。

綜上可知,HDFS在集群上實現(xiàn)了分布式文件系統(tǒng),MapReduce在集群上實現(xiàn)了分布式計算和任務(wù)處理,二者共同組成了Hadoop分布式系統(tǒng)的核心。

[BT5]1.2Hive

Hive是一個基于Hadoop文件系統(tǒng)的數(shù)據(jù)倉庫架構(gòu),由此提供了管理數(shù)據(jù)倉庫的很多功能:數(shù)據(jù)抽取、轉(zhuǎn)換和加載工具,數(shù)據(jù)存儲管理和大型數(shù)據(jù)集的查詢和分析能力。不僅如此,其中還定義了簡單的類 SQL 查詢語言,稱為 HQL,允許用戶實施與SQL相似的操作,并且該語言也允許開發(fā)人員采用自定義的 mapper 和 reducer 來處理內(nèi)建的 mapper 和 reducer 無法完成的復(fù)雜的分析工作。

Hive沒有專門的數(shù)據(jù)存儲格式,也沒有為數(shù)據(jù)建立索引,用戶可以按需自由組織 Hive 中的表,只是在創(chuàng)建表的同時將消息傳送至 Hive 數(shù)據(jù)中的列分隔符和行分隔符,Hive 就可以即時正確地解析數(shù)據(jù)。

1.3HBase

HBase是Hadoop的數(shù)據(jù)庫,能夠?qū)Υ髷?shù)據(jù)提供隨機、實時的讀寫訪問功能,具有開源、分布式以及面向列存儲的特點。而且,內(nèi)部使用了HDFS作為其文件存儲系統(tǒng),保證了數(shù)據(jù)的可靠性和系統(tǒng)的魯棒性。

不同于一般的關(guān)系數(shù)據(jù)庫,HBase是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。而且,HBase是基于列存儲而不是基于行。Hbase與Hadoop相結(jié)合,可以高效實現(xiàn)數(shù)據(jù)存儲和并行計算。從圖2可以看到,Hbase向下提供了存儲,向上提供了運算。此外,HBase之上還可以使用MapReduce計算模型來并行處理大規(guī)模數(shù)據(jù),這即是其擁有強大性能的核心所在。

2關(guān)鍵架構(gòu)總體設(shè)計

[BT5]2.1概述

本文設(shè)計并實現(xiàn)了基于Hadoop的個人健康信息服務(wù)平臺,系統(tǒng)總體架構(gòu)如圖3所示。在Linux集群技術(shù)的基礎(chǔ)上,利用 Hadoop分布式技術(shù),對個人健康數(shù)據(jù)創(chuàng)新集成處理后存儲到可擴展的分布式數(shù)據(jù)庫HBase中,并在數(shù)十臺普配計算機上搭建該平臺,達到了高效存儲和管理大量健康數(shù)據(jù)的設(shè)計要求。

本次設(shè)計是在Linux平臺下,使用Struts作為系統(tǒng)的整體基礎(chǔ)架構(gòu)、前端采用JSP開發(fā)的Web 應(yīng)用程序,數(shù)據(jù)庫采用的則是HBase。

.2系統(tǒng)總體功能設(shè)計

依據(jù)對個人健康信息服務(wù)平臺的需求分析,系統(tǒng)總體功能設(shè)計模塊結(jié)構(gòu)可如圖4所示。

由圖4可見,針對系統(tǒng)中各主體模塊的功能設(shè)計可做如下闡析概述:

1)個人模塊?;颊呖捎弥付ǖ挠脩裘兔艽a登錄,進入個人主頁,查看歷史生理信息,包括血壓、心電、體溫、肌電、血樣、尿樣等文檔記錄,并且可以讀取醫(yī)囑和健康服務(wù)信息。對于實時的血壓、心電和體溫,可以監(jiān)測和預(yù)警。對于重癥病人,可以開啟視頻看護。

2)醫(yī)生模塊。醫(yī)生根據(jù)用戶名和密碼登錄到對應(yīng)主頁,查詢病人健康信息,診斷并開具處方、同時附配醫(yī)囑。而且,還可以回答病人的健康咨詢,發(fā)布健康服務(wù)信息。

3)管理員模塊。負責進行授權(quán)管理,審計日志,同時全面監(jiān)測hadoop集群的工作狀態(tài),包括CPU、內(nèi)存占用、請求數(shù)量等。

3系統(tǒng)詳細設(shè)計

本系統(tǒng)包含了2個數(shù)據(jù)庫:基于Hbase的數(shù)據(jù)中心和基于Mysql的本地臨時數(shù)據(jù)庫。Mysql數(shù)據(jù)庫用于臨時存儲醫(yī)療機構(gòu)采集獲取的患者體征信息,之后通過數(shù)據(jù)同步工具關(guān)聯(lián)更新至Hbase數(shù)據(jù)中心。

3.1基于Hbase的數(shù)據(jù)中心

HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。通過Hbase Shell命令或者Java Api可以在Hbase中創(chuàng)建數(shù)據(jù)表格HTable。本系統(tǒng)的Htable設(shè)計了2個列簇,用戶記錄列簇和健康信息列簇。其中,用戶記錄列簇用來存儲患者用戶個人基本信息,健康信息列簇用來存儲患者用戶醫(yī)療過程中產(chǎn)生的健康檔案信息,通過個人健康信息服務(wù)系統(tǒng)的后臺程序,可以對患者的健康檔案數(shù)據(jù)進行修改和完善,并且能完整保存用戶所有醫(yī)療信息記錄,包括服用過的所有藥物或者接受各種醫(yī)療器械測量過的數(shù)據(jù),方便高效。HTable設(shè)計實現(xiàn)如圖5所示。

3.2基于mysql的本地臨時數(shù)據(jù)庫

通過對mysql數(shù)據(jù)庫的基礎(chǔ)設(shè)計操作,可以將患者的醫(yī)療信息臨時存儲在本地數(shù)據(jù)庫中,并且可以對本地數(shù)據(jù)庫中的數(shù)據(jù)進行修改、調(diào)用。即使網(wǎng)絡(luò)斷開,系統(tǒng)無法連接至Hadoop數(shù)據(jù)中心,也可以臨時保存數(shù)據(jù),等待網(wǎng)絡(luò)連接以后再將數(shù)據(jù)同步至數(shù)據(jù)中心,使整個系統(tǒng)能正常工作。

3.3系統(tǒng)功能設(shè)計實現(xiàn)

[JP4]最后,系統(tǒng)主要實現(xiàn)個人健康信息的管理健康咨詢2項主要功能,以腦卒中患者為例,如圖6、圖7所示,客戶端采用C/S架構(gòu)。[JP]

患者用戶可以通過系統(tǒng)實時查詢存儲在Hadoop數(shù)據(jù)中心的個人信息以及個人醫(yī)療檔案信息,通過健康咨詢頁面可以提出問題以及查看醫(yī)生推送的醫(yī)療建議。醫(yī)生可以查看患者發(fā)出的咨詢問題并及時作出回答。這些數(shù)據(jù)將會被存儲至Hadoop數(shù)據(jù)中心中,并且可以實時顯示在個人健康信息服務(wù)系統(tǒng)界面上。

4結(jié)束語

本系統(tǒng)是基于Hadoop平臺的個人健康服務(wù)系統(tǒng),旨在將個人健康服務(wù)系統(tǒng)與現(xiàn)有的Hadoop大數(shù)據(jù)平臺結(jié)合起來,建立個人健康信息數(shù)據(jù)中心,使醫(yī)療管理與大數(shù)據(jù)相互融合與推進。與傳統(tǒng)的個人健康服務(wù)系統(tǒng)相比,本系統(tǒng)建立了統(tǒng)一的數(shù)據(jù)管理中心,可以讓各個醫(yī)療機構(gòu)之間方便地共享與存儲數(shù)據(jù),同時減少了醫(yī)療機構(gòu)本地資源的占用,更適合醫(yī)療數(shù)據(jù)和自身系統(tǒng)的維護,是醫(yī)療數(shù)字化發(fā)展的正確方向。

參考文獻

[1] ASHBURNER M, BALL C A, BLAKE J A, et al. Gene ontology: Tool for the unification of Biology[J]. Nature Genet, 2000, 25(1): 25-29.

[2] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of the 14th International Joint Conference on Artificial Intelligence. Montréal, Canada: Morgan Kaufmann Publishers, 1995: 448-453.[ZK)]

[3] LIN Dekang. An informationtheoretic definition of similarity[C]//Proceedings of the 15th International Conference on Machine Learning. San Francisco,CA,USA: Morgan Kaufmann Publishers, 1998: 296-304.

[4] KARIM M R, HOSSAIN M A, RASHID M M, et al. A MapReduce framework for mining maximal contiguous frequent patterns in large DNA sequence datasets[J]. IETE Technical Review, 2012, 29(2): 162-168.

[5] SIRETSKIY A, SUNDQVIST T, VOZNESENSKIY M, et al. A quantitative assessment of the Hadoop framework for analyzing massively parallel DNA sequencing data[J]. GigaScience, 2015, 4(1):1-13.

[6] TINTAREV N, MASTHOFF J. A survey of explanations in recommender systems[C]//Data Engineering Workshop, 2007 IEEE 23rd International Conference. Istanbul, Turkey :IEEE, 2007: 801-810.

[7] GOSAIN A, KUMAR A . Analysis of health care data using different data mining techniques[C]//International Conference on Intelligent Agent & MultiAgent Systems (IAMA). Chennai, India:Aarupadai Veedu Institute of Technology, 2009: 1-6.

[8] ODRISCOLL A, DAUGELAITE J, SLEATOR R D. ‘Big data, Hadoop and cloud computing in genomics[J]. Journal of biomedical informatics, 2013, 46(5): 774-781.

[9] ANAISSI A, GOYAL M, CATCHPOOLE D R, et al. Casebased retrieval framework for gene expression data[J]. Cancer informatics, 2015, 14(14):21-31.

[10] BOTHA M, BOTHA A, HERSELMAN M. Data quality challenges: A content analysis in the e-health domain[C]//Information and Communication Technologies (WICT), 2014 Fourth World Congress. Malacca, Malaysia:IEEE, 2014: 107-112.

[11] HIGUCHI S, HATA Y. Fuzzy logic approach to health checkup data analysis[C]//World Automation Congress (WAC), 2014. Hawaii, USA:IEEE, 2014: 388-393.

[12] POPESCU M, KELLER J M, MITCHELL J A. Fuzzy measures on the gene ontology for gene product similarity[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), 2006, 3(3): 263-274.

[13] WANG H, AZUAJE F, BODENREIDER O, et al. Gene expression correlation and gene ontologybased similarity: an assessment of quantitative relationships[C]//Computational Intelligence in Bioinformatics and Computational Biology, CIBCB′04. Proceedings of the 2004 IEEE Symposium on. San Diego:IEEE, 2004: 25-31.

[14] MNIH A, SALAKHUTDINOV R. Probabilistic matrix factorization[C]//International Conference on Machine Learning. Edinburgh, Scotland:ICML, 2012:880-887.

[15] PRADA M A, TOIVOLA J, KULLAA J, et al. Threeway analysis of structural health monitoring data[J]. Neurocomputing,2012, 80(2):119-128.

[16]丁澤柳, 郭得科, 申建偉, 等. 面向云計算的數(shù)據(jù)中心網(wǎng)絡(luò)拓撲研究[J]. 國防科技大學學報, 2011, 33(6): 1-6.

猜你喜歡
分布式數(shù)據(jù)中心數(shù)據(jù)庫
關(guān)于間接蒸發(fā)冷機組在數(shù)據(jù)中心中應(yīng)用的節(jié)能分析
居民分布式儲能系統(tǒng)對電網(wǎng)削峰填谷效果分析
基于Paxos的分布式一致性算法的實現(xiàn)與優(yōu)化
2018年數(shù)據(jù)中心支出創(chuàng)新高
2017第十屆中國數(shù)據(jù)中心大會榜單
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
大石桥市| 西宁市| 托克托县| 郯城县| 荆门市| 封丘县| 灵寿县| 武汉市| 陕西省| 崇义县| 扶绥县| 四会市| 蓝田县| 南华县| 客服| 承德市| 西丰县| 和林格尔县| 湟中县| 子洲县| 镇雄县| 佛山市| 临泉县| 多伦县| 喀什市| 临颍县| 高碑店市| 红原县| 新兴县| 广宗县| 什邡市| 阿克苏市| 株洲市| 措美县| 东光县| 泰安市| 保康县| 孟津县| 衡东县| 松江区| 康保县|