国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多源異構(gòu)數(shù)據(jù)整合系統(tǒng)在醫(yī)療大數(shù)據(jù)中的應(yīng)用

2017-03-25 04:15曾汪旺謝穎夫胡光闊
價(jià)值工程 2017年8期
關(guān)鍵詞:模式匹配大數(shù)據(jù)

曾汪旺++謝穎夫+胡光闊

摘要:隨著醫(yī)院信息系統(tǒng)的快速發(fā)展,為醫(yī)院帶來了海量數(shù)據(jù)。對這些數(shù)據(jù)的有效利用、分析,挖掘其中隱含的信息,能為醫(yī)院管理提供更好的決策支持。但如何從醫(yī)院信息化進(jìn)程中產(chǎn)生的海量多源異構(gòu)數(shù)據(jù)中甄選出高質(zhì)量數(shù)據(jù),是醫(yī)療大數(shù)據(jù)領(lǐng)域首當(dāng)其沖的問題。文章在盡量不影響改變醫(yī)院現(xiàn)有系統(tǒng)的基礎(chǔ)上,利用數(shù)據(jù)中間件的形式,對多源異構(gòu)數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換,為上層應(yīng)用提供標(biāo)準(zhǔn)數(shù)據(jù)集。

Abstract: The rapid development of hospital information system has brought huge amounts of data for the hospital. The effective use of these data, analysis, and to mine the hidden information, can provide better decision support for hospital management. But how to select high quality data from the massive multi-source heterogeneous data in the process of hospital information is the most important problem in the field of big medical data. This paper is trying to make use of the form of data middleware to clean and convert multi-source heterogeneous data, and provide the standard data set for the upper application on the basis of not changing the existing hospital system.

關(guān)鍵詞:大數(shù)據(jù);多源異構(gòu)數(shù)據(jù);模式匹配

Key words: big data;multi-source heterogeneous data;pattern matching

中圖分類號:TP311.5;P208 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-4311(2017)08-0080-03

0 引言

信息技術(shù)及互聯(lián)網(wǎng)的高速發(fā)展和全球的數(shù)字信息資源的急劇增加,推動著大數(shù)據(jù)時(shí)代的來臨,各行各業(yè)每天都在產(chǎn)生數(shù)量巨大的數(shù)據(jù)碎片。在“大數(shù)據(jù)時(shí)代”我們所要做的事情就是對隱藏于大數(shù)據(jù)中有價(jià)值的信息進(jìn)行分析與挖掘[1],將分散的數(shù)據(jù)變?yōu)橛杏玫男畔?,再加以?chuàng)新和積累形成知識。只有形成了知識的數(shù)據(jù)才具有資產(chǎn)價(jià)值。我們面臨的第一個(gè)挑戰(zhàn)就是如何采集高質(zhì)量的數(shù)據(jù)。高質(zhì)量的數(shù)據(jù)集需滿足以下5種特性:精確性、一致性、完整性、同一性和實(shí)效性。精確性指數(shù)據(jù)符合規(guī)定的精度,不超出誤差范圍;一致性指數(shù)據(jù)之間不能存在相互矛盾;完整性指數(shù)據(jù)的值不能為空;同一性指實(shí)體的標(biāo)識是唯一的;時(shí)效性指數(shù)據(jù)的值反映了實(shí)際的狀態(tài)。此外,還需考慮到人為因素,即數(shù)據(jù)不能是人工偽造的。

數(shù)據(jù)質(zhì)量問題在醫(yī)療行業(yè)中表現(xiàn)得尤為突出。醫(yī)院信息化在近三十年的飛速發(fā)展過程中,信息系統(tǒng)的建設(shè)規(guī)模越來越大,應(yīng)用越來越復(fù)雜多樣。這些系統(tǒng)因其處理的業(yè)務(wù)和采用的技術(shù)架構(gòu)不同,其采集、處理、存儲和交換數(shù)據(jù)的標(biāo)準(zhǔn)均存在較大的差異。從數(shù)據(jù)的結(jié)構(gòu)形式來看,分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。例如:PACS和心電監(jiān)護(hù)系統(tǒng)等產(chǎn)生視頻、音頻等以多媒體格式存儲的非結(jié)構(gòu)化數(shù)據(jù);HIS和LIS產(chǎn)生患者檔案、醫(yī)囑處方、化驗(yàn)單等以標(biāo)準(zhǔn)表單形式存儲的結(jié)構(gòu)化數(shù)據(jù);電子病歷又以產(chǎn)生半結(jié)構(gòu)化數(shù)據(jù)為主。另一方面,從信息記錄的模式來看,同一實(shí)體可能在多個(gè)系統(tǒng)均有記錄,但是其具體屬性集合可能各有不同。就算是同一屬性,其命名或數(shù)據(jù)更是可能在交互過程因?yàn)橄到y(tǒng)或者手工記錄的原因發(fā)生錯(cuò)誤從而存在相互矛盾沖突的地方。

從以上現(xiàn)象我們不難看出,醫(yī)療行業(yè)中的數(shù)據(jù)呈現(xiàn)出一種多源異構(gòu)性,而且該特征會產(chǎn)生嚴(yán)重的數(shù)據(jù)質(zhì)量問題?!笆е晾逯囈郧Ю铩保@種不良的數(shù)據(jù)會對醫(yī)療大數(shù)據(jù)的后續(xù)應(yīng)用產(chǎn)生極為不利的影響。為解決這個(gè)問題,我們必須對這些多源異構(gòu)的數(shù)據(jù)集進(jìn)行收集和整合,轉(zhuǎn)換為新的高質(zhì)量的數(shù)據(jù)集,從而為上層的大數(shù)據(jù)分析應(yīng)用打下良好的基礎(chǔ)。

1 系統(tǒng)設(shè)計(jì)

如果采用傳統(tǒng)的數(shù)據(jù)倉庫策略,我們的方法簡單說來可以分為以下幾步:先抽取原始數(shù)據(jù),再根據(jù)業(yè)務(wù)規(guī)則對其進(jìn)行清洗和轉(zhuǎn)換,最后按標(biāo)準(zhǔn)的格式將數(shù)據(jù)裝載到數(shù)據(jù)倉庫中。其簡稱為ELT。這種策略可以提供有力的決策支持,但是也存在一些不足之處。首先,數(shù)據(jù)倉庫的策略多為離線處理,面對海量的實(shí)時(shí)數(shù)據(jù)處理,處理效率不高。其次,這種策略在抽取之前就需要定義好規(guī)則和標(biāo)準(zhǔn),難以應(yīng)對可能隨時(shí)會變更的需求。最后,如果想要在不中斷在用生產(chǎn)系統(tǒng)即無增量數(shù)據(jù)產(chǎn)生的前提下,對海量的存量數(shù)據(jù)進(jìn)行一次性的ELT,成本太高。針對以上的不足,本文提出的解決方案如下。

系統(tǒng)的結(jié)構(gòu)圖如圖1所示。在不影響醫(yī)院在用的生產(chǎn)系統(tǒng)的基礎(chǔ)上,增加數(shù)據(jù)實(shí)時(shí)采集子系統(tǒng)和增量式映射管理平臺兩個(gè)中間件。生產(chǎn)系統(tǒng)上的實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù),先經(jīng)過數(shù)據(jù)采集子系統(tǒng)進(jìn)行采集和過濾,然后將這些數(shù)據(jù)分發(fā)至備份數(shù)據(jù)存儲集群進(jìn)行存儲,再由映射管理平臺對這些異構(gòu)數(shù)據(jù)進(jìn)行實(shí)時(shí)整合,建立緩存庫和知識庫,并為大數(shù)據(jù)分析平臺提供標(biāo)準(zhǔn)化的數(shù)據(jù)接口。

1.1 數(shù)據(jù)實(shí)時(shí)采集子系統(tǒng)

1.1.1 數(shù)據(jù)采集模塊

該模塊的功能可分為歷史數(shù)據(jù)采集和實(shí)時(shí)數(shù)據(jù)采集。其中,歷史數(shù)據(jù)的采集采用設(shè)置規(guī)則過濾后全量導(dǎo)入的方式;實(shí)時(shí)數(shù)據(jù)的采集采用基于數(shù)據(jù)庫日志解析的方式來獲取增量變更實(shí)現(xiàn)數(shù)據(jù)的同步,這種方法對在用的生產(chǎn)系統(tǒng)幾乎不會產(chǎn)生任何負(fù)面的影響。

1.1.2 數(shù)據(jù)預(yù)處理模塊

該模塊負(fù)責(zé)對數(shù)據(jù)進(jìn)行以下預(yù)處理:

①無效信息過濾。識別并剔除錯(cuò)誤數(shù)據(jù)和重復(fù)數(shù)據(jù),提高處理效率和整合的準(zhǔn)確度[3]。

②數(shù)據(jù)加密。為保障數(shù)據(jù)安全,對原始數(shù)據(jù)進(jìn)行加密。

③數(shù)據(jù)壓縮。對原始數(shù)據(jù)采用無損的壓縮處理,提升存儲空間利用率和傳輸效率。

1.2 增量式映射管理平臺

該平臺包括查詢處理模塊、模式匹配模塊、語義轉(zhuǎn)換模塊、知識庫管理模塊、緩存管理模塊及緩存庫和知識庫。該平臺的工作流程如下[3]:

①查詢處理模塊接到數(shù)據(jù)查詢請求,首先查找緩存管理模塊中是否己經(jīng)整合過該請求。如查找成功,對于已緩存了數(shù)據(jù)集的,直接返回結(jié)果;對于未緩存數(shù)據(jù)集的查詢,進(jìn)入步驟④。如果查找失敗,則進(jìn)入步驟③。

②調(diào)用模式匹配模塊,根據(jù)查詢需求對各異構(gòu)數(shù)據(jù)與標(biāo)準(zhǔn)目標(biāo)數(shù)據(jù)進(jìn)行匹配,建立映射關(guān)系。

③根據(jù)模式的映射關(guān)系,轉(zhuǎn)換查詢請求并下發(fā)到各匹配的異構(gòu)數(shù)據(jù)源。

④查詢處理模塊整合返回的結(jié)果數(shù)據(jù)集,并調(diào)用語義轉(zhuǎn)換模塊對部分結(jié)果進(jìn)行語義轉(zhuǎn)換并通過知識庫管理模塊更新知識庫。

⑤查詢處理模塊通過同一數(shù)據(jù)接口標(biāo)準(zhǔn)向上層系統(tǒng)提供查詢結(jié)果。

為提高系統(tǒng)效率,各個(gè)模塊在必要情況下會對部分?jǐn)?shù)據(jù)或中間結(jié)果進(jìn)行緩存,而不是每次都重新計(jì)算或者重新查找。系統(tǒng)會隨著中間計(jì)算結(jié)果和映射的緩存不斷擴(kuò)大,知識庫的不斷豐富,不斷提升查詢的效率跟精確度。

以下對系統(tǒng)的關(guān)鍵處理模塊——模式匹配模塊和語義轉(zhuǎn)換模塊進(jìn)行介紹。

1.2.1 模式匹配模塊

該模塊的匹配流程如圖2所示。

圖中,進(jìn)行模式匹配的依據(jù)為屬性的相似度,其簡易的度量公式(模式匹配算法公式)如下:

sim(S1.ei,S2.ej)=AGG(simf(S1.ei,S2.ej))

其中,ei與ej是分屬于模式S1和S2的兩個(gè)屬性,simf是基于特征f的相似度算法。AGG為聚合函數(shù)。該公式根據(jù)一定的聚合規(guī)則,綜合考慮多個(gè)相似度算法的結(jié)果,得出兩個(gè)屬性的最終相似度。目前國內(nèi)外正在研究的相似度算法即屬性匹配器有:基于單詞相似度的屬性匹配器,基于單詞編輯距離的屬性匹配器,基于數(shù)據(jù)類型的屬性匹配器,基于數(shù)據(jù)實(shí)例的屬性匹配器。在實(shí)際應(yīng)用場景中,還可以根據(jù)業(yè)務(wù)實(shí)際情況,添加自定義的屬性匹配器,通過各屬性匹配器的合理搭配使用,提高屬性近似度的精度。

1.2.2 語義轉(zhuǎn)換模塊(詳見圖3)

該模塊主要負(fù)責(zé)將各異構(gòu)數(shù)據(jù)源的屬性數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)數(shù)據(jù)。例如,上層分析系統(tǒng)可能需要獲取醫(yī)囑的具體內(nèi)容,而某些數(shù)據(jù)源中僅僅包含醫(yī)囑代碼。這時(shí),語義轉(zhuǎn)換模塊就可以根據(jù)知識庫中醫(yī)囑代碼與醫(yī)囑具體內(nèi)容的映射關(guān)系,將醫(yī)囑代碼轉(zhuǎn)換為醫(yī)囑內(nèi)容。我們設(shè)定一個(gè)閥值T,當(dāng)在一個(gè)數(shù)據(jù)表中成功匹配到T及以上個(gè)樣例數(shù)據(jù)則匹配成功。如圖3所示的匹配過程中,我們設(shè)定的T值為1,經(jīng)過第一輪匹配,我們發(fā)現(xiàn)table1中存在樣例數(shù)據(jù)(“qd”→“每日一次”),table2中存在樣例數(shù)據(jù)(“bid”→“每日兩次”),即從知識庫中匹配到了兩個(gè)數(shù)據(jù)表。根據(jù)tablel和table2中的數(shù)據(jù),繼續(xù)轉(zhuǎn)換query中 “advice_code”屬性未轉(zhuǎn)換的數(shù)據(jù)。tablel中存在“qid”與“q2h”的數(shù)據(jù),table2中存在“qn”與“qh”的數(shù)據(jù),可直接轉(zhuǎn)換。但是query中“M.D.S”卻沒有找到對應(yīng)的結(jié)果。進(jìn)行第二次迭代匹配,發(fā)現(xiàn)了table3并在其中找到了“M.D.S”對應(yīng)的轉(zhuǎn)換結(jié)果[3]。以上示例過程中,我們通過增加迭代匹配的次數(shù),來提高轉(zhuǎn)換率。但是這種處理會導(dǎo)致執(zhí)行時(shí)間的延長。因此,在實(shí)際場景中,我們需要對轉(zhuǎn)換率和執(zhí)行時(shí)間做一個(gè)折衷。另外,還可以通過機(jī)器學(xué)習(xí)、人為干預(yù)等方式,豐富我們的知識庫,從而提高其支撐的語義轉(zhuǎn)換模塊的轉(zhuǎn)換率。語義轉(zhuǎn)換最理想的目標(biāo)是使得所有轉(zhuǎn)換只需一次匹配就能完成所有查詢數(shù)據(jù)的轉(zhuǎn)換。

2 結(jié)語

本文針對醫(yī)療數(shù)據(jù)中的多源異構(gòu)特征產(chǎn)生的數(shù)據(jù)質(zhì)量問題,提出了初步的解決方案。但是文中提到的幾個(gè)處理過程相對簡單,存在很大的改善空間,比如可利用云計(jì)算技術(shù),采用分布式的采集和存儲提高效率。其依賴的模式匹配器的算法也需要對國內(nèi)外的研究進(jìn)展保持跟蹤,不斷進(jìn)行優(yōu)化調(diào)整。此外,對醫(yī)院存在的大量非結(jié)構(gòu)化數(shù)據(jù)的處理,以及對沖突數(shù)據(jù)的處理,也是本系統(tǒng)可以擴(kuò)展的一個(gè)研究點(diǎn)。

參考文獻(xiàn):

[1]鄒北驥.大數(shù)據(jù)分析及其在醫(yī)療領(lǐng)域中的應(yīng)用[D].計(jì)算機(jī)教育,2014(7).

[2]李曉菲.數(shù)據(jù)預(yù)處理算法的研究與應(yīng)用[D].西南交通大學(xué),2006.

[3]葉茂偉.大規(guī)模異構(gòu)數(shù)據(jù)即時(shí)整合系統(tǒng)的研究與實(shí)現(xiàn)[D].浙江大學(xué),2016.

猜你喜歡
模式匹配大數(shù)據(jù)
基于模式匹配的計(jì)算機(jī)網(wǎng)絡(luò)入侵防御系統(tǒng)
具有間隙約束的模式匹配的研究進(jìn)展
OIP-IOS運(yùn)作與定價(jià)模式匹配的因素、機(jī)理、機(jī)制問題
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
基于散列函數(shù)的模式匹配算法