曹陽(yáng)
摘 要:計(jì)算機(jī)信息技術(shù)快速的發(fā)展及醫(yī)療信息數(shù)據(jù)海量的增長(zhǎng),醫(yī)療衛(wèi)生領(lǐng)域已經(jīng)真正進(jìn)入了“大數(shù)據(jù)時(shí)代”。數(shù)以萬(wàn)計(jì)的數(shù)據(jù)被保存下來(lái),但一個(gè)棘手的問(wèn)題出現(xiàn)了,如何利用這些海量的數(shù)據(jù)為我們提供具有價(jià)值的信息服務(wù)?該文旨在結(jié)合處理大數(shù)據(jù)的方法,分析大數(shù)據(jù)在醫(yī)療信息服務(wù)管理方面的應(yīng)用前景并提出解決相應(yīng)的問(wèn)題解決方案。
關(guān)鍵詞:醫(yī)療衛(wèi)生 大數(shù)據(jù) 解決方案
中圖分類(lèi)號(hào):R195 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)05(a)-0008-03
近年來(lái),社會(huì)正處在一個(gè)“大數(shù)據(jù)時(shí)代”,在國(guó)家財(cái)政部及衛(wèi)生部門(mén)的領(lǐng)導(dǎo)下,大型醫(yī)療機(jī)構(gòu)及鄉(xiāng)鎮(zhèn)醫(yī)療服務(wù)醫(yī)院都先后建立了先進(jìn)的電子檔案系統(tǒng)(數(shù)字信息系統(tǒng))傳統(tǒng)的看病模式已經(jīng)發(fā)生了改變,過(guò)去的紙質(zhì)病歷、診斷書(shū)、臨床檢驗(yàn)報(bào)告、影像檢驗(yàn)數(shù)據(jù)等都已經(jīng)實(shí)現(xiàn)了電子化,這些數(shù)據(jù)也出現(xiàn)了快速增長(zhǎng)及快速發(fā)展的趨勢(shì)。但當(dāng)出現(xiàn)了云計(jì)算技術(shù)的應(yīng)用與推廣時(shí),各大醫(yī)療服務(wù)機(jī)構(gòu)中大規(guī)模的醫(yī)療信息系統(tǒng)與大數(shù)據(jù)中心相繼建立,大量的數(shù)據(jù)將被保存下來(lái),高效地分析這些數(shù)據(jù)為我們提供有價(jià)值的服務(wù),利用計(jì)算模型或者是存儲(chǔ)模型來(lái)分析這些數(shù)據(jù)破解醫(yī)療衛(wèi)生上大數(shù)據(jù)難題,設(shè)計(jì)一套處理數(shù)據(jù)系統(tǒng),并且能夠應(yīng)用于各大醫(yī)療服務(wù)機(jī)構(gòu)中,已迫在眉睫。
1 資料背景
1.1 大數(shù)據(jù)概述
隨著云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新技術(shù)的出現(xiàn)及技術(shù)水平的提高,各行各業(yè)所累計(jì)的數(shù)據(jù)已經(jīng)呈現(xiàn)指數(shù)級(jí)的增長(zhǎng),“大數(shù)據(jù)”時(shí)代已經(jīng)出現(xiàn),根據(jù)相關(guān)機(jī)構(gòu)表明,對(duì)于大數(shù)據(jù)的處理需要一種新的模式和更高的決策能力來(lái)進(jìn)行優(yōu)化。大數(shù)據(jù)具有實(shí)用性強(qiáng),商業(yè)價(jià)值有很大的實(shí)用空間等。目前,大數(shù)據(jù)已在很多的領(lǐng)域得到了廣泛的應(yīng)用。比如:金融、交通、氣象、醫(yī)院、鐵路、教育等。
1.2 我國(guó)醫(yī)療數(shù)據(jù)資源現(xiàn)狀
1.2.1 醫(yī)療數(shù)據(jù)源的多樣性
醫(yī)療數(shù)據(jù)的采集已經(jīng)與過(guò)去有了很大的不同,現(xiàn)在所采用的數(shù)據(jù)不再局限于某一個(gè)單一的醫(yī)療機(jī)構(gòu),主要來(lái)自于不同的醫(yī)療場(chǎng)所,有私人衛(wèi)生所、實(shí)驗(yàn)室檢驗(yàn)中心、鄉(xiāng)政衛(wèi)生院。隨著物聯(lián)網(wǎng)(Internet Of Things)新技術(shù)的出現(xiàn),個(gè)人的醫(yī)療數(shù)據(jù)可以來(lái)自于任何的場(chǎng)所。
1.2.2 醫(yī)療數(shù)據(jù)的高度集中
基于區(qū)域的醫(yī)療信息系統(tǒng)(RHIS Regional Health Information System)將取代基于傳統(tǒng)的醫(yī)療信息系統(tǒng)。并且,它的覆蓋面更加廣泛的分布在一個(gè)區(qū)域的所有醫(yī)療機(jī)構(gòu)中。對(duì)一個(gè)普通的醫(yī)療患者來(lái)說(shuō),居民個(gè)人的數(shù)據(jù)源將全周期的保存在區(qū)域的數(shù)據(jù)信息中心。醫(yī)療信息系統(tǒng)中所有的數(shù)據(jù)不再是為某一家醫(yī)療機(jī)構(gòu)所獨(dú)享的資源,而是為整個(gè)地區(qū)的所有醫(yī)療機(jī)構(gòu)共享,如果是更加廣泛的還可以實(shí)現(xiàn)給上級(jí)醫(yī)療機(jī)構(gòu)或者甚至是區(qū)域級(jí)、省級(jí)、國(guó)家級(jí)的醫(yī)療機(jī)構(gòu)中實(shí)現(xiàn)數(shù)據(jù)的共享與利用。
1.2.3 醫(yī)療信息系統(tǒng)到醫(yī)療信息服務(wù)
醫(yī)療信息系統(tǒng)從區(qū)域性逐步建立將更加豐富和完善現(xiàn)有的醫(yī)療信息系統(tǒng),同時(shí)也更加進(jìn)一步完善先進(jìn)的醫(yī)療信息系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā),使醫(yī)療服務(wù)變得更加優(yōu)化與便捷。這些主要體現(xiàn)在:公共衛(wèi)生事件的預(yù)測(cè)、慢性病的管理與預(yù)測(cè)、流行病的控制、臨床數(shù)據(jù)的決策與支撐、個(gè)性化的健康與服務(wù)、日常衛(wèi)生的保健等。這些信息服務(wù)必須建立在大數(shù)據(jù)的分析與大數(shù)據(jù)的集中的基礎(chǔ)上。提供的服務(wù)也將使社會(huì)上所有群眾得到收益。
2 醫(yī)療衛(wèi)生大數(shù)據(jù)分析
2.1 醫(yī)療數(shù)據(jù)是持續(xù)的、大增長(zhǎng)的海量數(shù)據(jù)
據(jù)有關(guān)計(jì)算統(tǒng)計(jì)表明,在我國(guó)一個(gè)中等城市(一般以人口為1 000萬(wàn))來(lái)計(jì)算,50年所積累的數(shù)據(jù)將達(dá)到10 PB級(jí)。并且,當(dāng)業(yè)務(wù)系統(tǒng)的不斷更新?lián)Q代與時(shí)間的推移,醫(yī)療服務(wù)所積累的大數(shù)據(jù)將在數(shù)據(jù)的完整性與數(shù)據(jù)的一致性無(wú)法得到保證,并且每當(dāng)有數(shù)據(jù)模式有更改的情況下,新的數(shù)據(jù)模式將更加靈活、寫(xiě)入的操作也將更多,對(duì)數(shù)據(jù)的存儲(chǔ)能力和數(shù)據(jù)的擴(kuò)展也會(huì)有新的要求。
2.2 醫(yī)療數(shù)據(jù)是復(fù)雜的、大增長(zhǎng)的數(shù)據(jù)
醫(yī)療數(shù)據(jù)是多種數(shù)據(jù)類(lèi)型的匯總,數(shù)據(jù)相互間的關(guān)系也非常復(fù)雜。例如:一個(gè)醫(yī)療機(jī)構(gòu)所提供的實(shí)驗(yàn)室檢查出的數(shù)據(jù),必須記錄這條數(shù)據(jù)所在醫(yī)療信息系統(tǒng)中所代表的編碼值(系統(tǒng)中所對(duì)應(yīng)的編碼、檢驗(yàn)單位、檢測(cè)時(shí)間、索引號(hào)、就診科室、就診醫(yī)生的標(biāo)識(shí)號(hào)、檢驗(yàn)結(jié)果的正常參考值等)通常一條檢驗(yàn)將在多個(gè)實(shí)體之間進(jìn)行不同層次、不同程度的關(guān)聯(lián)與聯(lián)系在一起。醫(yī)療數(shù)據(jù)的多樣性為各種醫(yī)療信息系統(tǒng)所提供服務(wù)。提供了多角度度、多層次分析數(shù)據(jù)的可能性,也為分析這些數(shù)據(jù)帶來(lái)了很大的挑戰(zhàn)。主要是我們無(wú)法做到為每一種數(shù)據(jù)的信息服務(wù)提供一種優(yōu)化的數(shù)據(jù)模式,也無(wú)法做到列舉每一條數(shù)據(jù)所存在的信息服務(wù),這就要求醫(yī)生能為醫(yī)療數(shù)據(jù)的存儲(chǔ)提供多變的、多維的分析與統(tǒng)計(jì)的需求分析。
2.3 醫(yī)療數(shù)據(jù)是廣泛的、語(yǔ)義性的數(shù)據(jù)
為了使數(shù)據(jù)能夠在不同的數(shù)據(jù)平臺(tái)上進(jìn)行應(yīng)用分析、重用及共享進(jìn)行多維的框架設(shè)計(jì),通常將數(shù)據(jù)的語(yǔ)義定義為:多臺(tái)機(jī)器(Machines)要能讀懂維基百科(Wikipedia),數(shù)據(jù)的語(yǔ)義包含了數(shù)據(jù)定義的條目及各條目之間的關(guān)系。若數(shù)據(jù)采用這些條目之間多定義的組織內(nèi)容,那么機(jī)器將能準(zhǔn)確的理解這些數(shù)據(jù)的語(yǔ)義,并且能理解也能翻譯出各種語(yǔ)義所包含的知識(shí)等,所有語(yǔ)義網(wǎng)絡(luò)的關(guān)鍵手段就是能如何制作出一本類(lèi)似百科全書(shū)(Ontology)的信息服務(wù)。
3 醫(yī)療大數(shù)據(jù)的解決方案
利用大數(shù)據(jù)來(lái)為醫(yī)療衛(wèi)生服務(wù)行業(yè)提供服務(wù)的主要難題時(shí),這些數(shù)據(jù)所涉及到的數(shù)據(jù)存儲(chǔ)及采用的挖掘技術(shù),如圖2所示,通過(guò)大量的實(shí)驗(yàn)研究與分析,給出了一種利用大數(shù)據(jù)來(lái)解決醫(yī)療衛(wèi)生服務(wù)中所存在的難題的基本框架,在這個(gè)框架中,所有的醫(yī)療衛(wèi)生機(jī)構(gòu)將患者的個(gè)人數(shù)據(jù)源傳送到數(shù)據(jù)平臺(tái)上進(jìn)行數(shù)據(jù)處理,大數(shù)據(jù)平臺(tái)將利用Hadoop技術(shù)進(jìn)行數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)的挖掘,從而為醫(yī)療服務(wù)提供技術(shù)支持?;贖adoop生態(tài)的信息系統(tǒng)所采用的是構(gòu)建的云數(shù)據(jù)中心,用以解決數(shù)據(jù)的擴(kuò)展與數(shù)據(jù)的存儲(chǔ)。利用MapReduce能進(jìn)行數(shù)據(jù)的批量處理事務(wù)能力,從多個(gè)數(shù)據(jù)源(主要是從醫(yī)療機(jī)構(gòu)中的各個(gè)業(yè)務(wù)系統(tǒng)中提取所需要的關(guān)鍵數(shù)據(jù))將數(shù)據(jù)的格式進(jìn)行轉(zhuǎn)換并導(dǎo)入基于HBase的數(shù)據(jù)存儲(chǔ)模型中。在數(shù)據(jù)的存儲(chǔ)模型與設(shè)計(jì)上,我們將充分借鑒在數(shù)據(jù)倉(cāng)庫(kù)中多維的數(shù)據(jù)模型設(shè)計(jì)思想,在數(shù)據(jù)存儲(chǔ)模型的設(shè)計(jì)上,創(chuàng)建的數(shù)據(jù)格式是星型模式和數(shù)據(jù)立方等概念,在考慮數(shù)據(jù)的應(yīng)用需求上,利用的是HBase的鍵值(中行鍵、列鍵)。主要因?yàn)槭荋Base的鍵值具有設(shè)計(jì)的靈活性和多樣性,將多維的醫(yī)療數(shù)據(jù)能有效的結(jié)合在一起。在索引的關(guān)鍵技術(shù)上,我們將采用成熟的RDBMS技術(shù),用以提高HBase的查詢性能。對(duì)于數(shù)據(jù)的更新,HBase特有的多種版本能進(jìn)行共存同時(shí)解決了問(wèn)題的關(guān)鍵所在。
為了保留醫(yī)療數(shù)據(jù)大量的語(yǔ)義關(guān)系,我們所采用的數(shù)據(jù)結(jié)構(gòu)是結(jié)構(gòu)化的數(shù)據(jù)+XML文檔混合存儲(chǔ)方式。在數(shù)據(jù)導(dǎo)入的同時(shí),將在XML文檔中提取特定的數(shù)據(jù)源((比如:主治醫(yī)生、患者的索引信息、就診的科室等),并將XML文檔根據(jù)不同的粒度分散成大小不一的不同子文檔。對(duì)于不同的粒度所進(jìn)行的查詢條件,信息系統(tǒng)將自動(dòng)的選擇相對(duì)應(yīng)的子文檔進(jìn)行一一的信息解析,從而避免為了提取少量的信息而進(jìn)行大量的XML文檔的問(wèn)題。數(shù)據(jù)存儲(chǔ)的接口采用的是用Hive類(lèi)查詢SQL的查詢方式。這樣更加有利于數(shù)據(jù)分析人員進(jìn)行分析和設(shè)計(jì)相關(guān)的算法。同時(shí)也為醫(yī)療信息服務(wù)系統(tǒng)嵌入的多種數(shù)據(jù)挖掘技術(shù)提供挖掘算法,以方便提供給數(shù)據(jù)分析師使用。
4 結(jié)語(yǔ)
通過(guò)以上的設(shè)計(jì)與分析,要解決醫(yī)療云的大數(shù)據(jù)分析問(wèn)題,我們必須利用RDBMS和NOSQL的優(yōu)勢(shì),醫(yī)療衛(wèi)生行業(yè)所需要的利用相關(guān)的大數(shù)據(jù)技術(shù),將借簽國(guó)外先進(jìn)的經(jīng)驗(yàn),設(shè)計(jì)與開(kāi)發(fā)出醫(yī)療衛(wèi)生信息系統(tǒng),挖掘醫(yī)療衛(wèi)生大數(shù)據(jù)所存在的價(jià)值,創(chuàng)造“大時(shí)代”的智慧醫(yī)療。采用的數(shù)據(jù)格式是結(jié)構(gòu)化的和非結(jié)構(gòu)化的混合存儲(chǔ)模式,相互彌補(bǔ)設(shè)計(jì)缺陷,已達(dá)到最高的設(shè)計(jì)原則與最靈活的設(shè)計(jì)規(guī)則。該論文所設(shè)計(jì)的基于醫(yī)療云的大數(shù)據(jù)平臺(tái),也將擴(kuò)展到其他各行業(yè)。特別是應(yīng)用到如電信、能源、物聯(lián)網(wǎng)等公共事業(yè)等。
參考文獻(xiàn)
[1] 孫玉玲.大數(shù)據(jù)時(shí)代數(shù)字出版產(chǎn)業(yè)的發(fā)展趨勢(shì)[J].出版發(fā)行研究,2014(4):5-8.
[2] 王文超,石海明,曾華鋒.大數(shù)據(jù)時(shí)代的國(guó)家信息安全[J].國(guó)防科技,2015(2):1-5.
[3] 肖飛.大數(shù)據(jù)時(shí)代基于物聯(lián)網(wǎng)和云計(jì)算的地質(zhì)信息化研究[M].吉林大學(xué)出版設(shè),2016.
[4] 周楓.大數(shù)據(jù)時(shí)代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2016(8):6-9.