陳海波 李曉
摘 要:本文基于糖尿病防診治大數(shù)據(jù)中心,構(gòu)建糖尿病及其并發(fā)癥協(xié)作研究平臺(tái),包括數(shù)據(jù)采集、存儲(chǔ)、處理與分析、開放共享以及應(yīng)用創(chuàng)建等方面,同時(shí)研究結(jié)合運(yùn)營商用戶互聯(lián)網(wǎng)行為、位置等數(shù)據(jù),構(gòu)建糖尿病精準(zhǔn)傳播示范應(yīng)用的技術(shù)手段和工具。利用大數(shù)據(jù)分布式存儲(chǔ)與Hadoop技術(shù),設(shè)計(jì)集成醫(yī)療數(shù)據(jù)和聯(lián)通數(shù)據(jù)的協(xié)作研究平臺(tái),為醫(yī)療機(jī)構(gòu)及科研院所的糖尿病及并發(fā)癥專病診療研究、預(yù)防策略研究提供技術(shù)支撐。
關(guān)鍵詞:糖尿病及其并發(fā)癥協(xié)作研究平臺(tái);大數(shù)據(jù);META分析
一、研究背景
當(dāng)前我國圍繞糖尿病及并發(fā)癥專病的大數(shù)據(jù)中心尚未建立,如何建立糖尿病及并發(fā)癥專病大數(shù)據(jù)中心,將糖尿病及并發(fā)癥專病從機(jī)會(huì)性發(fā)現(xiàn)高危人群轉(zhuǎn)變?yōu)槿窀呶H巳喊l(fā)現(xiàn)已成為一個(gè)迫切要解決的課題;如何高效地創(chuàng)建糖尿病防診治科普知識(shí)的生產(chǎn)、加工、傳播全鏈條式的信息化傳播體系、科普與廣泛傳播糖尿病防診治知識(shí)、提高糖尿病的知識(shí)普及率與早期防控率是一個(gè)亟待要解決的問題[1]。
二、研究目標(biāo)
本文通過研究規(guī)范化信息整合技術(shù)、糖尿病專病信息分析技術(shù)、信息脫敏與加密技術(shù)、多權(quán)限管理技術(shù),結(jié)合運(yùn)營商用戶互聯(lián)網(wǎng)行為、位置等數(shù)據(jù),構(gòu)建糖尿病及其并發(fā)癥協(xié)作研究平臺(tái),包括數(shù)據(jù)采集、存儲(chǔ)、處理與分析、開放共享以及應(yīng)用創(chuàng)建等方面研究,為糖尿病及其并發(fā)癥研究相關(guān)企事業(yè)單位、科研院所提供糖尿病科研樣例數(shù)據(jù)與大數(shù)據(jù)分析挖掘能力,包括META分析、數(shù)據(jù)可視化、統(tǒng)計(jì)分析、大數(shù)據(jù)挖掘、糖尿病患者及家屬精準(zhǔn)傳播與應(yīng)用定制開發(fā)等功能旨在提升糖尿病早期防診治策略推廣與療效提升的信息化傳播體系網(wǎng)絡(luò),實(shí)現(xiàn)信息共享、深入科普與廣泛傳播。
三、研究內(nèi)容
本研究利用大數(shù)據(jù)分布式存儲(chǔ)與Hadoop技術(shù),構(gòu)建集成醫(yī)療數(shù)據(jù)和聯(lián)通數(shù)據(jù)的協(xié)作研究平臺(tái),為多家科研院所診療研究提供平臺(tái)支撐。糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)在符合數(shù)據(jù)安全條件下,面向糖尿病及其并發(fā)癥研究相關(guān)的企事業(yè)單位、科研院所等用戶提供數(shù)據(jù)樣本資源庫管理、預(yù)測/決策模型、數(shù)據(jù)分析算法庫、應(yīng)用開發(fā)工具集、多類應(yīng)用接口等眾多服務(wù),為開展糖尿病及其并發(fā)癥協(xié)作研究提供工具支持。平臺(tái)建設(shè)內(nèi)容涵蓋數(shù)據(jù)采集、存儲(chǔ)、處理與分析、開放共享以及典型應(yīng)用等方面。
(一)糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)數(shù)據(jù)采集與存儲(chǔ)
基于臨床醫(yī)生、科研人員科研需求驅(qū)動(dòng),集成采用FTP、Kafka等數(shù)據(jù)采集技術(shù),根據(jù)不同研究場景以接口形式實(shí)現(xiàn)批量或?qū)崟r(shí)從糖尿病防診治大數(shù)據(jù)中心及聯(lián)通大數(shù)據(jù)中心采集數(shù)據(jù),通過ETL工具實(shí)現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)化,實(shí)現(xiàn)多種格式數(shù)據(jù)自動(dòng)、標(biāo)準(zhǔn)化采集及預(yù)處理。糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)支持關(guān)系型數(shù)據(jù)庫(MySQL、Oracle等)、非關(guān)系型數(shù)據(jù)庫(HBase、Redis等)及分布式文件系統(tǒng)(HDFS),可根據(jù)數(shù)據(jù)特點(diǎn)及研究場景選擇合適數(shù)據(jù)庫,實(shí)現(xiàn)糖尿病及其并發(fā)癥相關(guān)結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)資源的統(tǒng)一存儲(chǔ)管理。
(二)糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)數(shù)據(jù)處理與分析
糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)采用Hive、MapReduce、Spark等技術(shù)實(shí)現(xiàn)分布式計(jì)算,支撐批量處理、計(jì)算與交互式分析,具備海量數(shù)據(jù)低延遲大規(guī)模并行處理能力;平臺(tái)同時(shí)采用Storm、Spark Streaming等組件實(shí)現(xiàn)實(shí)時(shí)流數(shù)據(jù)處理,支持并行處理技術(shù)和緩存機(jī)制。
(三)糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)數(shù)據(jù)開放與共享
糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)采用多租戶架構(gòu),通過隔離功能確保不同應(yīng)用同時(shí)運(yùn)行,實(shí)現(xiàn)數(shù)據(jù)共享,提高性能,降低開發(fā)成本。租戶計(jì)算資源獨(dú)享、存儲(chǔ)空間獨(dú)享、租戶空間數(shù)據(jù)獨(dú)享、數(shù)據(jù)加工過程私密,并可將頁面邏輯、業(yè)務(wù)邏輯通過容器承載,在資源利用率最大化前提下,實(shí)現(xiàn)應(yīng)用安全隔離、快速部署、彈性伸縮、版本查詢及安全回滾。平臺(tái)從數(shù)據(jù)資源、存儲(chǔ)資源、計(jì)算資源等方面對多租戶進(jìn)行權(quán)限管理和資源控制,包括租戶管理、權(quán)限管理、資源管理等功能,面向糖尿病及其并發(fā)癥研究相關(guān)的企事業(yè)單位、科研院所等租戶提供按照采樣規(guī)則提取的脫敏模型訓(xùn)練樣例數(shù)據(jù)。
(四)糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)應(yīng)用創(chuàng)建
糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)在先進(jìn)數(shù)據(jù)存儲(chǔ)與軟件計(jì)算架構(gòu)基礎(chǔ)上,實(shí)現(xiàn)分布式數(shù)據(jù)挖掘方法和工具的研發(fā),包括META分析(文獻(xiàn)薈萃)、數(shù)據(jù)可視化、統(tǒng)計(jì)分析、大數(shù)據(jù)挖掘、糖尿病患者及家屬精準(zhǔn)傳播、應(yīng)用定制開發(fā)等功能。
1.META分析
構(gòu)建全文檢索引擎,按關(guān)鍵詞全面搜索需要分析論點(diǎn)相關(guān)的各類研究資料,確定納入和排除標(biāo)準(zhǔn),結(jié)合大數(shù)據(jù)挖掘和文本挖掘等算法,評價(jià)文獻(xiàn)實(shí)驗(yàn)質(zhì)量和結(jié)果的適應(yīng)性,綜合多個(gè)標(biāo)準(zhǔn)和角度比對分析,剔除不滿足標(biāo)準(zhǔn)的文獻(xiàn),保證系統(tǒng)評價(jià)的有效性。
2.統(tǒng)計(jì)分析與數(shù)據(jù)可視化
平臺(tái)提供主流統(tǒng)計(jì)分析指標(biāo)算法,包括均數(shù)、中位數(shù)、眾數(shù)、方差、標(biāo)準(zhǔn)差、極差等。平臺(tái)提供儀表盤、自助查詢分析、業(yè)務(wù)報(bào)表、多維分析等多種可視化方式,并提供主流可視化圖形如餅圖、折線圖、柱圖、環(huán)圖等,為不同用戶提供多樣化可視化能力。
3.大數(shù)據(jù)挖掘
平臺(tái)提供安全可控、可擴(kuò)展、開放式的工具集成管理功能,預(yù)置多種大數(shù)據(jù)分析和挖掘算法及工具供用戶使用。平臺(tái)預(yù)置通用分析工具與專項(xiàng)分析工具,包括鉆取分析、關(guān)聯(lián)性分析、綜合查詢等多種類型的數(shù)據(jù)分析處理算法;此外,平臺(tái)還預(yù)置大數(shù)據(jù)相關(guān)性分析、通用挖掘工具集與專項(xiàng)挖掘工具,包括聚類、神經(jīng)網(wǎng)絡(luò)法、關(guān)聯(lián)性分析、遺傳算法、決策樹與模糊集方法等。平臺(tái)支持高級統(tǒng)計(jì)分析語言(R語言等)的集成與開發(fā),提供給資深數(shù)據(jù)科學(xué)家對糖尿病數(shù)據(jù)進(jìn)行多維度的高級統(tǒng)計(jì)分析,深入探索與挖掘數(shù)據(jù)價(jià)值,發(fā)現(xiàn)新的數(shù)據(jù)規(guī)律,推動(dòng)醫(yī)療技術(shù)的發(fā)展。
4.糖尿病患者及家屬精準(zhǔn)傳播
平臺(tái)通過運(yùn)營商數(shù)據(jù)建立用戶社交網(wǎng)絡(luò),將與指定用戶有關(guān)系的所有用戶建立關(guān)系圖譜,識(shí)別出關(guān)系圖譜中成員的日常行動(dòng)軌跡,通過機(jī)器學(xué)習(xí)算法對圖譜內(nèi)用戶實(shí)現(xiàn)綜合數(shù)據(jù)分析挖掘,建立親屬關(guān)系預(yù)測的數(shù)據(jù)挖掘模型,精確識(shí)別出指定用戶的親屬關(guān)系網(wǎng)絡(luò)。通過短信、互聯(lián)網(wǎng)、新媒體等傳播渠道實(shí)現(xiàn)糖尿病醫(yī)療知識(shí)的精準(zhǔn)傳播。
(五)糖尿病及其并發(fā)癥協(xié)作研究平臺(tái)數(shù)據(jù)安全管理
1.脫敏技術(shù)
平臺(tái)采用靜態(tài)數(shù)據(jù)脫敏方式,構(gòu)建大數(shù)據(jù)平臺(tái)脫敏算法庫,包括L多樣性、數(shù)據(jù)抑制與差分隱私等算法。平臺(tái)智能選擇脫敏算法,并行、高效按照脫敏規(guī)則對隱私數(shù)據(jù)進(jìn)行脫敏。
2.加密技術(shù)
平臺(tái)采用國密SM4對稱加密算法,確保敏感數(shù)據(jù)被越權(quán)訪問時(shí)仍能得到有效保護(hù)。在數(shù)據(jù)加解密機(jī)制方面,為滿足大數(shù)據(jù)平臺(tái)中靜態(tài)加密及傳輸加密需求,平臺(tái)采用透明加密區(qū)加密機(jī)制,應(yīng)用Hadoop KMS(Hadoop Key Management Server)使HDFS實(shí)現(xiàn)透明端到端加密[2],確保數(shù)據(jù)只能被客戶端加密和解密,指定的HDFS讀取和寫入數(shù)據(jù)均會(huì)透明加密和解密,無須用戶應(yīng)用程序代碼變更,通過高效加解密方案,實(shí)現(xiàn)高性能、低延遲的存儲(chǔ)層加解密,實(shí)現(xiàn)加解密對上層業(yè)務(wù)透明,上層業(yè)務(wù)只需指定敏感數(shù)據(jù),完全感知不到加解密過程。
3.日志追溯技術(shù)
平臺(tái)提供完備的操作日志記錄能力,包括所有對數(shù)據(jù)的采集、加工處理、查詢、分析、挖掘、共享等操作,記錄內(nèi)容包含操作賬戶、登錄地址、操作時(shí)間、操作內(nèi)容等,對于敏感信息的操作例如數(shù)據(jù)的導(dǎo)出、數(shù)據(jù)的共享等,還將記錄原始數(shù)據(jù)內(nèi)容,并且對數(shù)據(jù)追加數(shù)字水印。當(dāng)數(shù)據(jù)出現(xiàn)泄露時(shí),可以根據(jù)泄露的數(shù)據(jù)水印結(jié)合數(shù)據(jù)的操作日志進(jìn)行審計(jì)與追責(zé)。
本研究基于糖尿病防診治大數(shù)據(jù)中心的糖尿病專病數(shù)據(jù),結(jié)合運(yùn)營商用戶互聯(lián)網(wǎng)行為、位置等數(shù)據(jù),構(gòu)建糖尿病及其并發(fā)癥協(xié)作研究平臺(tái),包括數(shù)據(jù)采集、存儲(chǔ)、處理與分析、開放共享以及應(yīng)用創(chuàng)建等方面研究。集成應(yīng)用FTP、Kafka等數(shù)據(jù)采集技術(shù)以接口形式實(shí)現(xiàn)批量或?qū)崟r(shí)從糖尿病防診治大數(shù)據(jù)中心及聯(lián)通大數(shù)據(jù)中心采集數(shù)據(jù),通過ETL工具實(shí)現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)化;應(yīng)用MySQL、HBase、Redis、HDFS等存儲(chǔ)糖尿病專病及運(yùn)營商數(shù)據(jù);應(yīng)用Hive、MapReduce、Spark等技術(shù)實(shí)現(xiàn)分布式計(jì)算與交互式分析,應(yīng)用Storm、Spark Streaming等組件實(shí)現(xiàn)并行實(shí)時(shí)流數(shù)據(jù)處理;應(yīng)用多租戶架構(gòu)實(shí)現(xiàn)數(shù)據(jù)共享;應(yīng)用搜索引擎與文本挖掘等實(shí)現(xiàn)META分析;基于親屬關(guān)系預(yù)測模型實(shí)現(xiàn)糖尿病宣傳知識(shí)精準(zhǔn)傳播;基于角色訪問控制實(shí)現(xiàn)統(tǒng)一認(rèn)證多權(quán)限管理;應(yīng)用國密SM4對稱加密、數(shù)據(jù)抑制、差分隱私等實(shí)現(xiàn)數(shù)據(jù)加密與脫敏;應(yīng)用日志實(shí)現(xiàn)數(shù)據(jù)追溯。其中,涉及Kafka實(shí)時(shí)流采集、多租戶數(shù)據(jù)共享、親屬關(guān)系預(yù)測模型與加密脫敏四個(gè)重點(diǎn)技術(shù)模型。
平臺(tái)應(yīng)用將充分結(jié)合云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、LBS(基于位置的服務(wù))等技術(shù),進(jìn)一步加強(qiáng)對糖尿病的病患診療信息的感知、采集和整合;對涉及居民個(gè)人的健康醫(yī)療數(shù)據(jù)進(jìn)行脫敏、脫密,構(gòu)建一體化健康大數(shù)據(jù)智能分析平臺(tái),實(shí)現(xiàn)對包括糖尿病患者、家屬的健康數(shù)據(jù)、醫(yī)衛(wèi)機(jī)構(gòu)的糖尿病專病數(shù)據(jù)、醫(yī)學(xué)研究數(shù)據(jù)等相關(guān)綜合信息的集成與共享;通過對糖尿病專病大數(shù)據(jù)服務(wù)能力的分級、分權(quán)限開放,為醫(yī)療科研單位提供定向研發(fā)的糖尿病專病數(shù)據(jù)加工、處理、分析、統(tǒng)計(jì)、展示等一攬子平臺(tái)技術(shù)工具。
四、結(jié)論
本研究通過加快建糖尿病及并發(fā)癥專病防控技術(shù)突破,促進(jìn)技術(shù)合理規(guī)范應(yīng)用,為遏制糖尿病及并發(fā)癥發(fā)病率居高不下的局面提供積極有效的科技支撐。將糖尿病及并發(fā)癥專病預(yù)防策略從機(jī)會(huì)性發(fā)現(xiàn)高危人群轉(zhuǎn)變?yōu)槿窀呶H巳喊l(fā)現(xiàn),改進(jìn)我國糖尿病一級預(yù)防策略,填補(bǔ)我國糖尿病預(yù)防研究領(lǐng)域的空白;同時(shí)構(gòu)建個(gè)體糖尿病及并發(fā)癥風(fēng)險(xiǎn)預(yù)測模型,實(shí)現(xiàn)防診治策略創(chuàng)新。通過糖尿病信息化科研管理平臺(tái)與傳播體系的創(chuàng)建實(shí)施,將提高我國對建糖尿病及并發(fā)癥專病防控及預(yù)防的技術(shù)水平;糖尿病及并發(fā)癥專病大數(shù)據(jù)平臺(tái)的建立,將為醫(yī)療健康管理部門提供有力的科學(xué)決策的依據(jù),助力健康中國的建設(shè),提高我國居民的幸福感和獲得感。同時(shí)通過該研究,將可以規(guī)范糖尿病患者治療與管理,強(qiáng)化醫(yī)療大數(shù)據(jù)的服務(wù)能力,創(chuàng)新醫(yī)療大數(shù)據(jù)的服務(wù)模式,提升糖尿病及并發(fā)癥專病的防診治水平。
參考文獻(xiàn):
[1]俞俊亞,張衛(wèi)林,張倩,夏學(xué)經(jīng).西山區(qū)結(jié)核與糖尿病患者防治知識(shí)知曉率分析[J].糖尿病新世界,2017(17).
[2]朱建波,李萍,于炯,廖彬.改進(jìn)的Kerberos協(xié)議在HDFS環(huán)境下的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2014(10).