林琳,王韜,甘偉,邢玉龍
作者單位
1100070 北京首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院信息中心
2北京嘉和海森健康科技有限公司
近年來,腦血管病已成為我國致死率最高的慢性非傳染性疾病之一,對人民健康和社會經(jīng)濟造成了巨大危害[1]。與此同時,優(yōu)質(zhì)醫(yī)療資源總量的不足及其在地區(qū)間分布的不平衡,也加劇了醫(yī)療服務(wù)供給與腦血管病患者需求間的矛盾。為緩解腦血管病醫(yī)療資源及診療技術(shù)水平發(fā)展的不均衡,提升對腦血管疑難病、急危重癥患者的救治能力,首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院秉承《“健康中國2030”規(guī)劃綱要》中關(guān)于腦血管病防控的精神,基于在神經(jīng)系統(tǒng)疾病方面的臨床積累和科研發(fā)展,探索了以腦血管病??拼髷?shù)據(jù)科研平臺為支撐,通過臨床-科研一體化模式提升醫(yī)院腦血管病臨床診療水平和科研能力的新思路、新方法,也為推進區(qū)域內(nèi)醫(yī)療衛(wèi)生協(xié)同發(fā)展、帶動區(qū)域整體醫(yī)療水平提升提供了重要參考。
腦血管病??拼髷?shù)據(jù)科研平臺是以大數(shù)據(jù)及人工智能技術(shù)為依托,通過對院內(nèi)業(yè)務(wù)系統(tǒng)海量臨床數(shù)據(jù)以及院外診療信息的采集、整理、分析、挖掘,為科研人員提供真實可靠的數(shù)據(jù)資源和高效便捷的科研工具,提升科研效率和質(zhì)量,并通過成果轉(zhuǎn)化輔助臨床決策、改善診療水平。
腦血管病??拼髷?shù)據(jù)科研平臺主要包括數(shù)據(jù)采集層、數(shù)據(jù)治理層、數(shù)據(jù)模型層和數(shù)據(jù)服務(wù)層。平臺采用大數(shù)據(jù)架構(gòu),基于Hadoop集群以及相關(guān)大數(shù)據(jù)技術(shù),從臨床業(yè)務(wù)系統(tǒng)、實驗室信息系統(tǒng)、生物樣本庫以及院外隨訪、電子數(shù)據(jù)獲取系統(tǒng)(electronic data capture system,EDC)中采集各類疾病相關(guān)數(shù)據(jù),集成、整合后形成科研數(shù)據(jù)中心;再利用深度學(xué)習(xí)技術(shù)挖掘數(shù)據(jù)特征,構(gòu)建多種數(shù)據(jù)模型;最后,結(jié)合大數(shù)據(jù)處理引擎,提供數(shù)據(jù)檢索與挖掘、數(shù)據(jù)可視化、數(shù)據(jù)質(zhì)量監(jiān)測、臨床決策輔助等數(shù)據(jù)應(yīng)用服務(wù),支持醫(yī)院腦血管病臨床研究及診療協(xié)作。具體如圖1所示。
1.1 數(shù)據(jù)采集層 通過提取-轉(zhuǎn)化-下載(extract-transform-load)工具從醫(yī)院數(shù)據(jù)中心及外部EDC系統(tǒng)等抽取、集成患者診療相關(guān)數(shù)據(jù),包括電子病歷、檢驗報告、隨訪、基因檢測等。通過對患者就診過程的追蹤和信息積累,可很好地解決數(shù)據(jù)稀疏、偏倚等問題,可使數(shù)據(jù)更加可靠、及時、公正,排除數(shù)據(jù)分析可能造成的偏差[2]。
1.2 數(shù)據(jù)治理層 由于原始數(shù)據(jù)量大且形式多樣、結(jié)構(gòu)各異,為正確獲取數(shù)據(jù)價值,還需對采集的數(shù)據(jù)做進一步治理,包括:數(shù)據(jù)清洗、量化、自然語言處理及質(zhì)量控制等,使業(yè)務(wù)數(shù)據(jù)變?yōu)榭芍苯永玫臉?biāo)準(zhǔn)化數(shù)據(jù)集,即科研數(shù)據(jù)中心的數(shù)據(jù)。
1.3 數(shù)據(jù)模型層 在科研數(shù)據(jù)中心基礎(chǔ)上,利用深度學(xué)習(xí)技術(shù),建立不同維度的數(shù)據(jù)分析模型,包括:疾病模型、癥狀模型等基礎(chǔ)模型;知識圖譜、時間序列等融合模型;診斷推薦、治療方案推薦等深度挖掘模型。通過對不同數(shù)據(jù)間深層次關(guān)聯(lián)關(guān)系的分析,為后續(xù)的數(shù)據(jù)服務(wù)提供支撐。
1.4 數(shù)據(jù)服務(wù)層 利用上述數(shù)據(jù)模型,平臺搭建了一系列大數(shù)據(jù)引擎,如:科研知識轉(zhuǎn)化引擎、搜索引擎、數(shù)據(jù)挖掘引擎、可視化引擎等,最終實現(xiàn)一體化科研服務(wù)和臨床決策支持、疾病預(yù)后智能預(yù)測、科研知識庫以及真實世界研究等功能應(yīng)用,提高科研效率和質(zhì)量的同時,也提升了臨床醫(yī)師的決策精準(zhǔn)度。
2.1 一體化科研服務(wù) 所謂“一體化科研服務(wù)”,即指臨床醫(yī)師可通過平臺一站式完成從問題挖掘、病歷招募,到數(shù)據(jù)挖掘和統(tǒng)計分析的全流程科研工作(圖2)。
圖1 腦血管病??拼髷?shù)據(jù)科研平臺架構(gòu)
圖2 一體化科研服務(wù)流程示意圖
問題挖掘:即基于選定的科研變量,自動進行多維度統(tǒng)計統(tǒng)計,如:患者分布、疾病分布、癥狀詞云等,幫助醫(yī)師更好地聚焦科研問題。
病例招募:平臺可提供基于全樣本的病例篩選服務(wù),幫助醫(yī)師快速建立專病庫,并支持?jǐn)?shù)據(jù)精確檢索、全文檢索以及外部數(shù)據(jù)導(dǎo)入等。
數(shù)據(jù)質(zhì)控:針對可能存在的數(shù)據(jù)缺失、異常值等現(xiàn)象,平臺支持對數(shù)據(jù)進行完整性、規(guī)范性等檢測;對質(zhì)量較差的數(shù)據(jù),針對不同問題分門別類,給出數(shù)據(jù)質(zhì)控報告,使數(shù)據(jù)問題透明化;同時,還可支持?jǐn)?shù)據(jù)溯源原始病歷,通過問題反饋促進醫(yī)師病歷書寫質(zhì)量提升。
數(shù)據(jù)處理:在數(shù)據(jù)進入統(tǒng)計模型之前,可利用平臺自動進行量化和智能轉(zhuǎn)化;同時對于質(zhì)控發(fā)現(xiàn)的問題數(shù)據(jù),可通過數(shù)據(jù)填補、自定義變量等進行有效治理,保證數(shù)據(jù)的準(zhǔn)確性及可靠性。
統(tǒng)計建模:完善的統(tǒng)計學(xué)分析工具和靈活的自定義統(tǒng)計模式對于科研人員非常重要[3]。為此,平臺基于R語言,集成了多種醫(yī)學(xué)統(tǒng)計模型,操作者可自由定義分析的變量以及分析模式,導(dǎo)出不同形式的統(tǒng)計分析圖表,直觀地發(fā)現(xiàn)數(shù)據(jù)所體現(xiàn)出來的研究價值。
2.2 疾病預(yù)后智能預(yù)測 研究者通過疾病數(shù)據(jù)進行影響因素分析、主成分分析、決策樹挖掘等,從中提取出重點疾病特征,繼而利用深度學(xué)習(xí)技術(shù)進行模型訓(xùn)練,搭建出疾病智能預(yù)測引擎。當(dāng)臨床診療過程中觸發(fā)該規(guī)則時,即可實時提醒醫(yī)師疾病發(fā)展進程中出現(xiàn)復(fù)發(fā)、死亡、傷殘或并發(fā)癥等的概率,從而指導(dǎo)臨床治療,提高決策水平。
2.3 科研知識庫 平臺通過數(shù)據(jù)挖掘產(chǎn)生的知識模型,如本體庫、語義網(wǎng)絡(luò)規(guī)則語言(semantic web rule language)以及疾病推理機制等,經(jīng)過沉淀形成科研知識庫,將進一步輔助臨床,對于優(yōu)化疾病診療標(biāo)準(zhǔn)、提升診療服務(wù)效率和縮短醫(yī)師學(xué)習(xí)曲線等都具有重要意義[4]。
2.4 臨床決策支持 科研的最終目的是回歸臨床、指導(dǎo)實踐。通過對大數(shù)據(jù)的挖掘、分析,如:相似病例分析、治療有效性分析、疾病相關(guān)性分析等[5],可以對臨床診治的療效、并發(fā)癥等給予循證醫(yī)學(xué)的證據(jù)支持,從而指導(dǎo)臨床實踐,提高醫(yī)療質(zhì)量。
2.5 真實世界研究 真實世界研究是指在臨床真實條件與現(xiàn)實環(huán)境下,基于較大樣本量(覆蓋具有代表性的更廣大受試者),比較和選擇不同醫(yī)療手段的過程及其結(jié)局研究。由于其樣本數(shù)據(jù)量較大,單純依靠手工處理不僅費時費力,質(zhì)量也難以保證。大數(shù)據(jù)科研平臺對于海量數(shù)據(jù)的采集、處理、分析優(yōu)勢,使其成為真實世界研究的有力助手。
首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院神經(jīng)腦血管病??拼髷?shù)據(jù)科研平臺自2017年正式部署上線后,應(yīng)用效果良好。以疾病預(yù)測為例,科研人員在日常急診接診過程中,持續(xù)積累了2012年5月-2019年6月完成前循環(huán)腦梗死急診取栓手術(shù)的患者共379例,利用患者ID號經(jīng)平臺查詢后,抽取其相關(guān)數(shù)據(jù),并進行標(biāo)準(zhǔn)化和融合處理,建成“前循環(huán)腦梗死急診取栓專病數(shù)據(jù)庫”。在此基礎(chǔ)上,利用平臺的智能特征篩選功能,選出包括收縮壓、心房顫動、高血糖、腦梗死體積、尿蛋白陽性在內(nèi)的5個有顯著意義變量;再自動匹配多因素Logistic回歸模型及ROC曲線,形成取栓后顱內(nèi)出血發(fā)生風(fēng)險預(yù)測模型(Logit=2.172+0.341×收縮壓+1.623×心房顫動+1.120×高血糖+1.856×腦梗死面積+0.677×尿蛋白陽性)。結(jié)果顯示,該模型ROC曲線下面積為0.749,靈敏度為0.751,特異度為0.820,具有較好的預(yù)測效能。
隨著科學(xué)技術(shù)的發(fā)展和循證醫(yī)學(xué)理念的不斷加深,如何通過高質(zhì)量的臨床研究,有效進行疾病病因和預(yù)防因素的探索,并將療效和安全性更好的干預(yù)措施盡快轉(zhuǎn)化至臨床,成為臨床研究人員面臨的主要問題[6]。
基于此,首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院在醫(yī)院數(shù)據(jù)中心基礎(chǔ)上建立了腦血管病??拼髷?shù)據(jù)科研平臺。該平臺打破了傳統(tǒng)以單個科室、單個項目獨立建設(shè)為主的應(yīng)用模式,形成統(tǒng)一、開放的全新科研體系,不但加快了全院數(shù)據(jù)的共享、利用,也實現(xiàn)了靈活、自定義的臨床科研一體化科研流程,減輕了科研人員的工作負(fù)擔(dān),提高了數(shù)據(jù)錄入的便利性及利用效率,對提高科研及臨床水平都具有重要意義,同時也為推動區(qū)域內(nèi)醫(yī)療服務(wù)質(zhì)量的提升起到示范作用。