林志平
摘要:健康醫(yī)療大數(shù)據(jù)歷經(jīng)采集、清洗加工、數(shù)據(jù)脫敏、數(shù)字標(biāo)簽等過程,根據(jù)業(yè)務(wù)應(yīng)用及決策分析需求劃分為不同主題域及數(shù)據(jù)資產(chǎn),并且通過數(shù)據(jù)血緣分析實(shí)現(xiàn)數(shù)據(jù)融合處理的可追溯。健康醫(yī)療大數(shù)據(jù)是惠及千萬居民看病就醫(yī)的重要資源,它的應(yīng)用發(fā)展將帶來健康醫(yī)療模式的深刻變化,有利于激發(fā)深化醫(yī)藥衛(wèi)生體制改革的動(dòng)力和活力,提升健康醫(yī)療服務(wù)效率和質(zhì)量。
關(guān)鍵詞:健康醫(yī)療大數(shù)據(jù);治理平臺(tái);設(shè)計(jì)
一、數(shù)據(jù)流設(shè)計(jì)
針對(duì)數(shù)據(jù)流設(shè)計(jì),采用Lambda架構(gòu)的設(shè)計(jì)方法實(shí)現(xiàn)。將實(shí)時(shí)數(shù)據(jù)與離線批量數(shù)據(jù)結(jié)合,達(dá)到對(duì)大數(shù)據(jù)的處理,具體的設(shè)計(jì)如下:
健康醫(yī)療大數(shù)據(jù)數(shù)據(jù)通過事件觸發(fā)自動(dòng)同步數(shù)據(jù),數(shù)據(jù)采集通過大數(shù)據(jù)融合治理平臺(tái)的數(shù)據(jù)集成工具完成。采集源包括生產(chǎn)庫數(shù)據(jù),歷史庫數(shù)據(jù),確保大數(shù)據(jù)融合治理平臺(tái)歸集全量業(yè)務(wù)數(shù)據(jù),保障各應(yīng)用場(chǎng)景的應(yīng)用。
二、數(shù)據(jù)模型設(shè)計(jì)
對(duì)于大數(shù)據(jù)融合治理平臺(tái)的數(shù)據(jù)模型設(shè)計(jì),主要三方面內(nèi)容:數(shù)據(jù)模型的分層、數(shù)據(jù)模型主題域的劃分、數(shù)據(jù)建模規(guī)范制定。針對(duì)大數(shù)據(jù)融合治理平臺(tái)數(shù)據(jù)模型的分層主要目標(biāo)是不同的分層有不同的職責(zé)和作用,可以更方便的定位和理解數(shù)據(jù),更快速的響應(yīng)外部數(shù)據(jù)需求;其一,STG。包括原始結(jié)構(gòu)化/半結(jié)構(gòu),和非結(jié)構(gòu)化數(shù)據(jù)庫,數(shù)據(jù)來源包括HIS系統(tǒng)、LIS系統(tǒng)、PACS系統(tǒng)、全民健康信息平臺(tái)等。其二,ODS層。對(duì)于需做標(biāo)準(zhǔn)化及內(nèi)容轉(zhuǎn)換的字段,保持轉(zhuǎn)換前的內(nèi)容及轉(zhuǎn)換后的內(nèi)容。其三,DWD層。對(duì)數(shù)據(jù)按設(shè)定的數(shù)據(jù)域進(jìn)行分類,整合,清洗,形成一套標(biāo)準(zhǔn)化數(shù)據(jù)模型。其四,DWS層 。按分析對(duì)象對(duì)實(shí)體進(jìn)行數(shù)據(jù)整合,輕度匯總,算法標(biāo)簽,面向應(yīng)用提供智能數(shù)據(jù)服務(wù)。其五,ADM層。存放面向最終業(yè)務(wù)應(yīng)用的通用數(shù)據(jù),例如描述自然屬性的標(biāo)簽、描述通用行為的數(shù)據(jù)等,包括疾病庫、藥品庫、處方庫等知識(shí)庫。
數(shù)據(jù)模型主題域劃分主要包括四個(gè)主題域:當(dāng)事人、診療信息、產(chǎn)品、事件。當(dāng)事人:包括:參保人、醫(yī)療機(jī)構(gòu)等。診療信息:包括醫(yī)療門診記錄、住院記錄、特殊診療信息等。產(chǎn)品:包括醫(yī)保類型、產(chǎn)品險(xiǎn)種等實(shí)體。事件:包括結(jié)算事件、基金結(jié)算事件等實(shí)體。需要注意的是在此過程中需要建立和維護(hù)一套有效的工作流程和規(guī)范,保證不同的邏輯數(shù)據(jù)模型設(shè)計(jì)人員能夠按照統(tǒng)一口徑進(jìn)行操作。
三、大數(shù)據(jù)融合
健康醫(yī)療大數(shù)據(jù)涉及醫(yī)療、醫(yī)保、醫(yī)藥三個(gè)領(lǐng)域的數(shù)據(jù),需要對(duì)三方面的數(shù)據(jù)進(jìn)行有效地融合,借助數(shù)據(jù)融合引擎,可以有效地從技術(shù)層面支撐醫(yī)療、醫(yī)保、醫(yī)藥的數(shù)據(jù)治理。其一,融合數(shù)據(jù)規(guī)則配置。融合數(shù)據(jù)規(guī)則配置用于實(shí)現(xiàn)多種異構(gòu)數(shù)據(jù)源的質(zhì)量校驗(yàn)、通知、管理服務(wù),包括數(shù)據(jù)探查、數(shù)據(jù)對(duì)比、數(shù)據(jù)質(zhì)量監(jiān)控、SQLScan等服務(wù)內(nèi)容。其二,融合數(shù)據(jù)全景。數(shù)據(jù)全景包括全局查找數(shù)據(jù)、個(gè)人賬號(hào)管理數(shù)據(jù)和管理員配置,支持關(guān)鍵字匹配精確匹配。其三,融合數(shù)據(jù)資產(chǎn)管理。數(shù)據(jù)資源平臺(tái)里都有大量的數(shù)據(jù)表、API等各類數(shù)據(jù)資產(chǎn),融合數(shù)據(jù)資產(chǎn)管理通過數(shù)據(jù)開發(fā)加工數(shù)據(jù)后,提供對(duì)整個(gè)平臺(tái)數(shù)據(jù)進(jìn)行統(tǒng)一管控服務(wù)。根據(jù)數(shù)據(jù)資源平臺(tái)里任務(wù)的運(yùn)行信息和記錄,通過分析,提供數(shù)據(jù)表、字段級(jí)別的血緣關(guān)系,包含上下游血緣、影響分析。其四,融合數(shù)據(jù)服務(wù)發(fā)布。數(shù)據(jù)服務(wù)發(fā)布旨在搭建統(tǒng)一的數(shù)據(jù)服務(wù)總線,幫助統(tǒng)一管理對(duì)內(nèi)對(duì)外的API服務(wù)。
四、大數(shù)據(jù)治理
(一)數(shù)據(jù)采集匯聚
健康醫(yī)療大數(shù)據(jù)采集需求包括醫(yī)療環(huán)節(jié)動(dòng)態(tài)監(jiān)測(cè)、醫(yī)療質(zhì)量檢查與評(píng)估、質(zhì)量指標(biāo)綜合分析、傳染病、免疫規(guī)劃、疾控綜合管理等數(shù)據(jù)。
1、數(shù)據(jù)調(diào)研及數(shù)據(jù)對(duì)接
數(shù)據(jù)調(diào)研基于已明確的數(shù)據(jù)需求確定數(shù)據(jù)來源系統(tǒng)、數(shù)據(jù)來源部門、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)更新、數(shù)據(jù)規(guī)模等信息的過程;在這個(gè)過程中,需要跟具體部門、具體系統(tǒng)、具體負(fù)責(zé)人員進(jìn)行反復(fù)的對(duì)接,已收集獲取具體的信息,為后續(xù)的數(shù)據(jù)采集匯聚服務(wù)。
2、采集模式設(shè)計(jì)
采集模式按照對(duì)接方式分為:直接對(duì)接、數(shù)據(jù)庫抽取對(duì)接、第三方接口采集等幾種模式。(1)直接對(duì)接。由數(shù)據(jù)采集服務(wù)直接訪問各個(gè)服務(wù)接口或文件資源,實(shí)現(xiàn)與數(shù)據(jù)中心的對(duì)接或文件抽取。(2)數(shù)據(jù)庫抽取對(duì)接。對(duì)于各業(yè)務(wù)系統(tǒng)數(shù)據(jù)采用前置機(jī)數(shù)據(jù)抽取的方式進(jìn)行數(shù)據(jù)的接入。通過可視化界面完成數(shù)據(jù)庫連接所需的參數(shù)配置,包括IP、端口、數(shù)據(jù)庫類型。(3)第三方接口對(duì)接。通過接口服務(wù)與各系統(tǒng)的事件來源的各個(gè)系統(tǒng)的對(duì)接,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一渠道接收。
3、數(shù)據(jù)采集監(jiān)控與管理
提供整體運(yùn)行狀態(tài)監(jiān)控,最終實(shí)現(xiàn)運(yùn)行狀態(tài)的查看與控制,包括采集基本信息、采集結(jié)果、采集數(shù)據(jù)質(zhì)量、采集異常信息。對(duì)采集的基本信息進(jìn)行監(jiān)控,基本信息項(xiàng)包括由誰什么時(shí)候發(fā)起的采集。
數(shù)據(jù)采集管理,旨在確保采集的質(zhì)量以及采集穩(wěn)定性,而圍繞采集各個(gè)環(huán)節(jié)進(jìn)行針對(duì)性的管控,實(shí)現(xiàn)對(duì)數(shù)據(jù)采集過程、采集結(jié)果全方位管控,數(shù)據(jù)可追溯,質(zhì)量可控制。
(二)數(shù)據(jù)清洗加工及共享
對(duì)數(shù)據(jù)源中數(shù)據(jù)重復(fù)、不正確、不完整、不標(biāo)準(zhǔn)、不一致的問題,制定數(shù)據(jù)清洗加工規(guī)則,進(jìn)行數(shù)據(jù)清洗加工,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量提升。
數(shù)據(jù)共享服務(wù)的核心是構(gòu)建跨部門、跨業(yè)務(wù)板塊的數(shù)據(jù)資源共享和數(shù)據(jù)交換,主要包括數(shù)據(jù)資源編目、數(shù)據(jù)資源目錄管理以及數(shù)據(jù)接口服務(wù)。
數(shù)據(jù)資源編目實(shí)現(xiàn)對(duì)各部門共享數(shù)據(jù)的盤查,以支持信息資源的交換與共享,包括醫(yī)療、醫(yī)保、醫(yī)藥數(shù)據(jù)資源編目等。
數(shù)據(jù)資源目錄體系通過編目、編審、注冊(cè)、發(fā)布、維護(hù)、訂閱數(shù)據(jù)資源目錄內(nèi)容,實(shí)現(xiàn)數(shù)據(jù)資源管理、發(fā)現(xiàn)與定位。
構(gòu)建數(shù)據(jù)接口規(guī)范,規(guī)定數(shù)據(jù)訪問、接口的定義、數(shù)據(jù)格式等內(nèi)容。
(三)數(shù)據(jù)脫敏及標(biāo)簽
數(shù)據(jù)脫敏對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。如身份證號(hào)、手機(jī)號(hào)、卡號(hào)、姓名等個(gè)人信息都需要進(jìn)行數(shù)據(jù)脫敏。
數(shù)據(jù)標(biāo)簽是基于業(yè)務(wù)場(chǎng)景創(chuàng)建、用于服務(wù)內(nèi)部和外部的數(shù)據(jù)服務(wù)需求,基于標(biāo)簽體系進(jìn)行多維度分析實(shí)現(xiàn)對(duì)于目標(biāo)群體的精準(zhǔn)定位,如高齡產(chǎn)婦群體、特定傳染病患者群體等。
參考文獻(xiàn)
[1]郭建. 健康醫(yī)療大數(shù)據(jù)應(yīng)用中的倫理問題及其治理思考[J]. 自然辯證法研究,2020,385(03):87-92.
[2]俞成功,丁靜. 基于區(qū)塊鏈的健康醫(yī)療大數(shù)據(jù)平臺(tái)構(gòu)建[J]. 電子技術(shù)與軟件工程,2020,176(06):182-185.