国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電子病歷數(shù)據(jù)勢能模型研究

2023-04-25 16:31:30牟冬梅彭浩華樹成等
現(xiàn)代情報(bào) 2023年5期
關(guān)鍵詞:電子病歷

牟冬梅 彭浩 華樹成等

關(guān)鍵詞: 電子病歷; 數(shù)據(jù)勢能; 數(shù)據(jù)價(jià)值; 專病庫

DOI:10.3969 / j.issn.1008-0821.2023.05.001

〔中圖分類號(hào)〕G252.8 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 05-0003-11

電子病歷數(shù)據(jù)是居民在醫(yī)療機(jī)構(gòu)歷次就診過程中產(chǎn)生和被記錄的, 完整、詳細(xì)的臨床信息資源[1] ,是健康醫(yī)療大數(shù)據(jù)的核心來源。2020 年4 月9 日,《中共中央 國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》將數(shù)據(jù)與土地、勞動(dòng)力、資本、技術(shù)一同納入生產(chǎn)要素管理, 強(qiáng)調(diào)加快培育數(shù)據(jù)要素市場, 提升數(shù)據(jù)資源價(jià)值[2] 。電子病歷數(shù)據(jù)作為數(shù)據(jù)資源的一種, 其特有的多源異構(gòu)、高維稀疏、真實(shí)隱私等特點(diǎn)[3] , 在賦予其更多價(jià)值的同時(shí), 也為其附加了更多的使用限制, 而情報(bào)學(xué)的專業(yè)能力恰好能幫助醫(yī)生應(yīng)對(duì)這些問題, 共同挖掘電子病歷數(shù)據(jù)的潛在價(jià)值。一方面, 大數(shù)據(jù)處理工作并非臨床醫(yī)生的優(yōu)勢所在, 而情報(bào)學(xué)在電子病歷文本處理[4] 、影像處理[5] 、數(shù)據(jù)挖掘[6] 、知識(shí)關(guān)聯(lián)與抽?。郏罚?等多個(gè)研究領(lǐng)域已經(jīng)取得了一定成果;另一方面, 《“十四五” 全民健康信息化規(guī)劃》中強(qiáng)調(diào), 要加強(qiáng)健康醫(yī)療大數(shù)據(jù)創(chuàng)新應(yīng)用和行業(yè)治理, 以促進(jìn)數(shù)據(jù)合規(guī)開放共享應(yīng)用為主線, 充分釋放數(shù)據(jù)價(jià)值[8] , 但電子病歷數(shù)據(jù)的高度隱私性限制了其共享與使用, 二者間的矛盾同樣是情報(bào)學(xué)領(lǐng)域關(guān)注的問題[9-10] ?!吨袊鴶?shù)字經(jīng)濟(jì)發(fā)展報(bào)告(2022年)》提出的“四化框架” 中, 將數(shù)字經(jīng)濟(jì)劃分為數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化、數(shù)字化治理、數(shù)據(jù)價(jià)值化4 個(gè)部分[11] 。情報(bào)學(xué)專家馬費(fèi)成教授[12] 在《中國數(shù)據(jù)要素市場發(fā)展報(bào)告》中指出, 數(shù)據(jù)價(jià)值化強(qiáng)調(diào)了價(jià)值化的數(shù)據(jù)在推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展中的重要作用, 但是就數(shù)據(jù)爆炸式增長的體量而言, 數(shù)據(jù)的價(jià)值密度仍相對(duì)較低。數(shù)據(jù)價(jià)格既與數(shù)據(jù)質(zhì)量有關(guān), 也與數(shù)據(jù)收集難易有關(guān), 更與特定服務(wù)場景有關(guān)。健康醫(yī)療大數(shù)據(jù)價(jià)值化面臨著同樣的問題。

本研究基于“勢能” 理念和情報(bào)學(xué)理論與方法, 構(gòu)建電子病歷數(shù)據(jù)勢能蓄積模型和釋放模型,試圖解決數(shù)據(jù)要素價(jià)值化的難題, 拓展情報(bào)學(xué)應(yīng)用場景。

1相關(guān)研究

1.1“數(shù)據(jù)勢能”相關(guān)研究

物理學(xué)中, 勢能是指儲(chǔ)存于系統(tǒng)內(nèi)部, 可以釋放或轉(zhuǎn)化的能量。2018 年, 情報(bào)學(xué)領(lǐng)域首次有學(xué)者在研究中基于這一概念, 以數(shù)據(jù)作為研究對(duì)象,提出開放的科學(xué)數(shù)據(jù)會(huì)在研究機(jī)構(gòu)之間流動(dòng), 由數(shù)據(jù)勢能高的機(jī)構(gòu)流向數(shù)據(jù)勢能低的機(jī)構(gòu)[13] 。趙林度[14] 認(rèn)為, 醫(yī)療服務(wù)資源數(shù)據(jù)資源的蓄積會(huì)產(chǎn)生數(shù)據(jù)勢能, 勢能釋放轉(zhuǎn)化的動(dòng)力, 驅(qū)動(dòng)醫(yī)療服務(wù)資源的精準(zhǔn)配置與調(diào)度。2021年, 上海數(shù)據(jù)中心與普華永道會(huì)計(jì)師事務(wù)所同樣提出了“數(shù)據(jù)勢能”估值體系[15] , 用于對(duì)公共數(shù)據(jù)的價(jià)值進(jìn)行評(píng)估,評(píng)估公式為: 公共數(shù)據(jù)資產(chǎn)價(jià)值=公共數(shù)據(jù)開發(fā)價(jià)值*潛在社會(huì)價(jià)值呈現(xiàn)因子*潛在經(jīng)濟(jì)價(jià)值呈現(xiàn)因子, 根據(jù)該公式對(duì)18 個(gè)省級(jí)公共開放數(shù)據(jù)資產(chǎn)價(jià)值進(jìn)行了測算, 總價(jià)值超過1 000億元。

1.2電子病歷數(shù)據(jù)的管理與應(yīng)用

近年來, 醫(yī)療機(jī)構(gòu)開始著手建設(shè)高效的臨床專病數(shù)據(jù)庫與全院統(tǒng)一的臨床大數(shù)據(jù)平臺(tái)等, 以滿足其對(duì)醫(yī)院管理、診療決策、科學(xué)研究、病歷質(zhì)量控制等方面的數(shù)據(jù)需求。黃波等[16] 建立了新冠肺炎的專病庫及隨訪系統(tǒng), 幫助醫(yī)護(hù)團(tuán)隊(duì)改進(jìn)了診療、科研、隨訪的工作流程, 提升工作效率, 滿足工作需求。陸軍軍醫(yī)大學(xué)第一附屬醫(yī)院與上海市肺科醫(yī)院分別建立了自己醫(yī)院的肺癌專病庫, 立足于自身的數(shù)據(jù)特點(diǎn), 對(duì)電子病歷數(shù)據(jù)進(jìn)行抽取、清洗、處理, 并提供影像智能診斷、統(tǒng)計(jì)分析、知識(shí)圖譜等功能, 支撐本院醫(yī)生進(jìn)行診療與科研工作[17-18] 。郭萱等[19] 建立的iTrial 平臺(tái), 在電子病歷數(shù)據(jù)的自動(dòng)采集、處理與質(zhì)控等過程中都具有明顯優(yōu)勢。唐明偉等[20] 從數(shù)據(jù)驅(qū)動(dòng)實(shí)踐的角度出發(fā), 以醫(yī)學(xué)科研領(lǐng)域?yàn)槔?構(gòu)建了電子健康記錄實(shí)現(xiàn)框架, 為未來情報(bào)學(xué)在醫(yī)學(xué)科研領(lǐng)域的應(yīng)用提供了參考。

綜上, 已有研究提出了數(shù)據(jù)具有勢能的觀點(diǎn),為本研究提供了良好基礎(chǔ), 但相關(guān)研究仍存不足,數(shù)據(jù)勢能的理論探索尚不系統(tǒng), 數(shù)據(jù)勢能從蓄積到釋放的過程沒有得到充分揭示。針對(duì)電子病歷數(shù)據(jù)質(zhì)量差、價(jià)值密度低等問題, 醫(yī)院嘗試通過建立臨床大數(shù)據(jù)平臺(tái)或?qū)2?shù)據(jù)庫的方式解決, 但電子病歷數(shù)據(jù)組織管理與應(yīng)用實(shí)踐缺乏理論指導(dǎo), 大多數(shù)醫(yī)院在臨床大數(shù)據(jù)管理系統(tǒng)的構(gòu)建過程中僅參考了臨床醫(yī)生的科研需求, 缺乏從數(shù)據(jù)組織管理與利用角度給予的專業(yè)指導(dǎo)。本文面向電子病歷數(shù)據(jù)的組織管理場景, 深入剖析電子病歷數(shù)據(jù)勢能的蓄積模式, 釋放路徑與價(jià)值應(yīng)用場景, 以期指導(dǎo)醫(yī)學(xué)數(shù)據(jù)組織管理實(shí)踐, 促進(jìn)情報(bào)學(xué)、數(shù)據(jù)科學(xué)與醫(yī)學(xué)學(xué)科間的交叉融合。

2電子病歷數(shù)據(jù)勢能模型

綜合前人的定義, 本文將數(shù)據(jù)勢能定義為: 數(shù)據(jù)及其衍生的數(shù)據(jù)產(chǎn)品和服務(wù)的潛在效用與價(jià)值。

在新的技術(shù)環(huán)境下, 從數(shù)據(jù)勢能角度, 結(jié)合電子病歷數(shù)據(jù)組織管理與分析使用的應(yīng)用場景, 建立電子病歷數(shù)據(jù)勢能蓄積與釋放兩個(gè)模型, 分別刻畫從電子病歷數(shù)據(jù)組織管理到分析使用的內(nèi)在機(jī)理。

2.1電子病歷數(shù)據(jù)勢能蓄積分析

目前, 醫(yī)院對(duì)電子病歷數(shù)據(jù)的組織管理程度不足, 通常僅以原始形態(tài)存儲(chǔ)于系統(tǒng)中。臨床診療過程中需要查找數(shù)據(jù)時(shí), 需要醫(yī)生從系統(tǒng)中手工查找、抄錄數(shù)據(jù), 醫(yī)院管理場景下, 由信息科抽取、整理數(shù)據(jù), 科研過程中, 需要醫(yī)生自行對(duì)數(shù)據(jù)加工、整合、處理, 為數(shù)據(jù)賦能, 處理效率較慢, 且處理結(jié)果會(huì)根據(jù)醫(yī)生自身數(shù)據(jù)處理能力的不同而呈現(xiàn)差異。因此, 醫(yī)療機(jī)構(gòu)開始嘗試通過建立臨床大數(shù)據(jù)平臺(tái)或?qū)2斓确绞剑?由數(shù)據(jù)管理人員代替醫(yī)生進(jìn)行數(shù)據(jù)整理, 預(yù)先對(duì)原始的電子病歷數(shù)據(jù)進(jìn)行處理, 為醫(yī)院提供更加充分全面的數(shù)據(jù)支持。

電子病歷數(shù)據(jù)的組織管理通過提升數(shù)據(jù)質(zhì)量達(dá)到實(shí)現(xiàn)數(shù)據(jù)價(jià)值的目的, 為醫(yī)院提供數(shù)據(jù)支撐。從數(shù)據(jù)勢能的視角出發(fā), 以電子病歷數(shù)據(jù)為研究對(duì)象,認(rèn)為電子病歷數(shù)據(jù)勢能可從以下3個(gè)維度進(jìn)行蓄積: 基于電子病歷多模態(tài)特點(diǎn)——形態(tài)維度, 基于機(jī)構(gòu)間電子病歷數(shù)據(jù)的關(guān)聯(lián)性特點(diǎn)——空間維度,基于電子病歷數(shù)據(jù)時(shí)間依賴的特點(diǎn)——時(shí)間維度,并構(gòu)建電子病歷數(shù)據(jù)勢能蓄積模型, 如圖1 所示。

馬費(fèi)成教授提, 到數(shù)據(jù)價(jià)格與數(shù)據(jù)質(zhì)量、數(shù)據(jù)獲取難易度與應(yīng)用場景有關(guān)。價(jià)格是價(jià)值的外在表現(xiàn), 其本質(zhì)是數(shù)據(jù)在特定場景下所能實(shí)現(xiàn)的價(jià)值。電子病歷數(shù)據(jù)價(jià)值同樣受到數(shù)據(jù)質(zhì)量、數(shù)據(jù)獲取難易度與應(yīng)用場景的影響。情報(bào)人員對(duì)數(shù)據(jù)的組織管理工作, 從形態(tài)維度對(duì)電子病歷數(shù)據(jù)進(jìn)行加工整理, 濃縮數(shù)據(jù)價(jià)值密度, 提升數(shù)據(jù)品質(zhì); 從時(shí)間、空間維度獲取為醫(yī)院拓展數(shù)據(jù)來源、擴(kuò)大數(shù)據(jù)數(shù)量。既提升了電子病歷數(shù)據(jù)質(zhì)量, 又代替數(shù)據(jù)使用者解決數(shù)據(jù)獲取的困難, 賦予數(shù)據(jù)更多的潛在價(jià)值, 蓄積了數(shù)據(jù)勢能。

2.1.1形態(tài)維度

電子病歷數(shù)據(jù)在形態(tài)維度的蓄積, 是指通過優(yōu)化數(shù)據(jù)的原始形態(tài), 提升數(shù)據(jù)的品質(zhì)與價(jià)值密度。疾病具有復(fù)雜性, 作為醫(yī)學(xué)領(lǐng)域的重要生產(chǎn)要素,醫(yī)生的科研工作與診療決策都需要充足的電子病歷數(shù)據(jù)提供支持。數(shù)據(jù)的價(jià)值密度直接影響著數(shù)據(jù)的使用效率, 電子病歷數(shù)據(jù)繼承了大數(shù)據(jù)價(jià)值密度低的特點(diǎn), 且以多模態(tài)的形式分散存儲(chǔ)于多個(gè)系統(tǒng),各系統(tǒng)中的數(shù)據(jù)相互關(guān)聯(lián), 共同反映了患者的健康狀況。傳統(tǒng)的臨床場景中, 需要醫(yī)生自行在多個(gè)系統(tǒng)中完成對(duì)電子病歷數(shù)據(jù)的查詢、采集、整合、分析、處理, 極大地消耗著醫(yī)生的時(shí)間與精力。因此, 現(xiàn)代化的數(shù)據(jù)組織管理工作中, 醫(yī)院管理者、信息中心與數(shù)據(jù)公司應(yīng)以節(jié)省醫(yī)生精力為出發(fā)點(diǎn),圍繞醫(yī)生在使用數(shù)據(jù)過程中存在的困難, 代替其預(yù)先完成數(shù)據(jù)的整合、清洗、脫敏等初步處理工作,從原始數(shù)據(jù)中提取關(guān)鍵信息, 排除冗余, 完成數(shù)據(jù)結(jié)構(gòu)化和多模態(tài)數(shù)據(jù)融合, 提升數(shù)據(jù)的價(jià)值密度,并依據(jù)醫(yī)生的各類數(shù)據(jù)需求, 合理設(shè)置數(shù)據(jù)的檢索點(diǎn), 存儲(chǔ)到臨床大數(shù)據(jù)平臺(tái)/ 專病庫中, 使醫(yī)生能夠快速、便捷地獲取高質(zhì)量數(shù)據(jù), 立刻進(jìn)行分析與使用, 減輕醫(yī)生在使用數(shù)據(jù)過程中的負(fù)擔(dān)。

2.1.2空間維度

電子病歷數(shù)據(jù)在空間維度的蓄積, 是指聯(lián)合其他醫(yī)療機(jī)構(gòu), 對(duì)患者疾病從發(fā)現(xiàn)確診到結(jié)局(痊愈或死亡)的全過程數(shù)據(jù)進(jìn)行搜集整理。受到醫(yī)療水平差異、分級(jí)診療、病情發(fā)展?fàn)顩r等因素的影響,患者有時(shí)會(huì)前后在多個(gè)醫(yī)療機(jī)構(gòu)進(jìn)行連續(xù)就診或轉(zhuǎn)院治療, 在多個(gè)醫(yī)療機(jī)構(gòu)中產(chǎn)生電子病歷數(shù)據(jù)。治療結(jié)束后, 部分醫(yī)療機(jī)構(gòu)還會(huì)對(duì)患者進(jìn)行定期隨訪, 記錄患者的病情變化情況。部分患者還會(huì)使用可穿戴設(shè)備這一新興的醫(yī)療技術(shù), 進(jìn)行長期、實(shí)時(shí)的生活習(xí)慣與健康參數(shù)水平監(jiān)測。這些數(shù)據(jù)共同完整地描述了患者在這次就醫(yī)過程中的病情發(fā)展情況, 對(duì)醫(yī)生的復(fù)診、科學(xué)研究、醫(yī)院間轉(zhuǎn)診等工作具有重要意義。此外, 針對(duì)特定疾病的研究, 公開數(shù)據(jù)集與疾控部門的公共衛(wèi)生數(shù)據(jù)也能夠作為醫(yī)院電子病歷數(shù)據(jù)的補(bǔ)充。因此, 如果能夠促使多個(gè)醫(yī)療機(jī)構(gòu)之間建立合作關(guān)系, 實(shí)現(xiàn)機(jī)構(gòu)間電子病歷數(shù)據(jù)的互聯(lián)互通, 提升電子病歷數(shù)據(jù)的完整性, 擴(kuò)充醫(yī)生可分析利用的數(shù)據(jù)數(shù)量, 既可以使醫(yī)生在轉(zhuǎn)診過程中快速掌握患者之前的病情變化與治療方案,又可以利用數(shù)據(jù)進(jìn)行預(yù)后預(yù)測等課題研究, 同時(shí)賦能臨床診療與科研工作。

2.1.3時(shí)間維度

電子病歷數(shù)據(jù)在時(shí)間維度的蓄積, 是指按時(shí)間順序盡可能將患者所有的電子病歷數(shù)據(jù)進(jìn)行搜集整理, 以求獲得完整的、記錄患者全生命周期健康信息的數(shù)據(jù)。電子病歷數(shù)據(jù)在時(shí)間維度上蓄積越久,它的“勢能” 就越大。疾病的產(chǎn)生一方面是由基因或意外所導(dǎo)致的; 另一方面則是由于患者生活行為習(xí)慣的長期積累。曾有慢性病專家提出“基因給槍上了膛, 是生活方式扣動(dòng)了扳機(jī)” 的觀點(diǎn)[21] ,而患者的生活方式與習(xí)慣就隱藏在歷次就診產(chǎn)生的電子病歷數(shù)據(jù)中, 即使就診科室與疾病不同, 其間仍隱藏著因果性與關(guān)聯(lián)性。將電子病歷數(shù)據(jù)按照時(shí)間順序在時(shí)間軸上縱向排列, 就可以從全生命周期的角度直觀呈現(xiàn)患者的身體情況變化與病情發(fā)展走勢, 既包含了患者的疾病史與治療史, 也隱含著患者長期的生活方式等信息。在臨床場景中, 能夠幫助醫(yī)生詳細(xì)了解病人情況, 輔助診療決策; 科研場景中, 能夠?yàn)椴∫蚍治?、共病研究等提供?shù)據(jù)支撐。

2.2電子病歷數(shù)據(jù)勢能釋放過程

數(shù)據(jù)組織與管理使電子病歷數(shù)據(jù)蓄積了勢能,但勢能只是潛在的價(jià)值, 蓄積的勢能需要得到釋放,才能轉(zhuǎn)化為現(xiàn)實(shí)價(jià)值。數(shù)據(jù)使用的過程就是將勢能釋放, 轉(zhuǎn)化為價(jià)值的過程。如圖2 所示, 數(shù)據(jù)使用首先需要從臨床大數(shù)據(jù)平臺(tái)或?qū)2?shù)據(jù)庫等數(shù)據(jù)來源中采集已經(jīng)過初步組織加工的電子病歷數(shù)據(jù), 形成研究所需的數(shù)據(jù)集; 之后根據(jù)使用目的不同, 進(jìn)行后續(xù)數(shù)據(jù)處理工作, 主要包括數(shù)據(jù)清洗(缺失值、異常值處理、類別平衡等)、數(shù)據(jù)集成、數(shù)據(jù)變換(類型變換、標(biāo)準(zhǔn)化、歸一化、離散化等)、數(shù)據(jù)規(guī)約(變量合并、特征選擇等)4個(gè)流程, 并形成新的數(shù)據(jù)集, 再進(jìn)行醫(yī)學(xué)統(tǒng)計(jì)分析或數(shù)據(jù)挖掘,得出科研成果或支撐醫(yī)院管理工作; 也可直接基于臨床大數(shù)據(jù)平臺(tái)或?qū)2?shù)據(jù)庫中的電子病歷數(shù)據(jù),輔助醫(yī)生進(jìn)行臨床診療決策或撰寫病例報(bào)告。目前, 數(shù)據(jù)勢能釋放主要是由醫(yī)生將數(shù)據(jù)下載之后自行分析, 但已有機(jī)構(gòu)開始嘗試將數(shù)據(jù)分析、智能診療決策、醫(yī)學(xué)知識(shí)圖譜等功能融入臨床大數(shù)據(jù)平臺(tái)中, 為醫(yī)院提供從采集到分析的全過程數(shù)據(jù)服務(wù)。

電子病歷數(shù)據(jù)的價(jià)值與其應(yīng)用的服務(wù)場景有關(guān), 電子病歷數(shù)據(jù)的服務(wù)場景分為診療決策、支撐科研與醫(yī)院管理3方面, 通過對(duì)電子病歷數(shù)據(jù)進(jìn)行分析使用, 釋放數(shù)據(jù)勢能, 最終支撐數(shù)據(jù)應(yīng)用于各個(gè)場景, 實(shí)現(xiàn)電子病歷數(shù)據(jù)價(jià)值。在科研場景中,電子病歷數(shù)據(jù)的價(jià)值會(huì)通過醫(yī)學(xué)統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)等數(shù)據(jù)分析方法轉(zhuǎn)化為專利、論文、專著等多種形式的科研成果; 在臨床場景中, 數(shù)據(jù)價(jià)值可通過輔助診療決策等方式, 節(jié)約醫(yī)生工作時(shí)間, 優(yōu)化治療方案, 節(jié)約患者就醫(yī)費(fèi)用; 在醫(yī)院管理場景中,數(shù)據(jù)價(jià)值實(shí)現(xiàn)的路徑包括優(yōu)化病房管理、醫(yī)院感染管理等。

3實(shí)證研究

3.1電子病歷數(shù)據(jù)勢能蓄積過程模型的案例分析——以J醫(yī)院肺癌專病數(shù)據(jù)庫構(gòu)建過程為例

3.1.1案例選擇

選擇J 醫(yī)院肺癌專病數(shù)據(jù)庫構(gòu)建為案例, 分析該專病數(shù)據(jù)庫構(gòu)建過程中, 電子病歷數(shù)據(jù)勢能的蓄積過程。J 醫(yī)院始建于1949 年, 是集醫(yī)療、教學(xué)、科研、預(yù)防、保健、康復(fù)為一體的大型綜合三級(jí)甲等醫(yī)院, 以2019年為例,J醫(yī)院全年的總門診量高達(dá)554萬人次[22] , 位居全國醫(yī)院門診量前10 位,信息化、智慧化建設(shè)程度較高, 曾獲得“2020全國智慧醫(yī)院建設(shè)優(yōu)秀案例” 授牌。

3.1.2蓄積過程分析

1) 電子病歷數(shù)據(jù)勢能在形態(tài)維度上的蓄積目標(biāo), 是通過多模態(tài)數(shù)據(jù)融合, 完成患者單次就診過程中全部數(shù)據(jù)的組織管理。如圖3 所示, J 醫(yī)院基于自然語言數(shù)據(jù)處理(Natural Language Processing,NLP)技術(shù), 對(duì)電子計(jì)算機(jī)斷層掃描( ComputedTomography, CT)等檢查結(jié)果中的有效文本信息進(jìn)行了自動(dòng)抽取, 并支持研究人員對(duì)NLP 提取的結(jié)果進(jìn)行線上糾正, 作為NLP 技術(shù)的補(bǔ)充。最終,通過多模態(tài)數(shù)據(jù)融合, 對(duì)電子病歷數(shù)據(jù)重新梳理,剔除數(shù)據(jù)中的冗余信息, 以字段的方式結(jié)構(gòu)化地記錄肺癌的病灶數(shù)量、病變位置、病變分類等重要信息, 錄入肺癌專病數(shù)據(jù)庫中, 供醫(yī)生快速查詢使用, 如圖4 所示。對(duì)于部分紙質(zhì)病歷, 也允許工作人員依據(jù)模板進(jìn)行手工錄入。此外, J醫(yī)院還在處理后的結(jié)構(gòu)化內(nèi)容與原始電子病歷數(shù)據(jù)之間建立了映射, 允許研究人員對(duì)原始的電子病歷數(shù)據(jù)進(jìn)行回溯查詢。簡化了醫(yī)生對(duì)電子病歷數(shù)據(jù)提取與處理流程, 加快了醫(yī)生的工作速度與效率。

2) 空間維度。2017 年, 吉林省政府發(fā)布了《吉林省推進(jìn)多層次醫(yī)療聯(lián)合體建設(shè)實(shí)施方案》,指出要完善政府主導(dǎo)的多層次醫(yī)聯(lián)體, 實(shí)現(xiàn)醫(yī)聯(lián)體內(nèi)信息互聯(lián)互通, 方便患者就醫(yī), 提高醫(yī)學(xué)科研技術(shù)水平[23] 。在政府政策的引導(dǎo)下, J 醫(yī)院已與省內(nèi)多家醫(yī)院之間建立了“醫(yī)聯(lián)體” 的合作關(guān)系, 已能夠?qū)崿F(xiàn)上下級(jí)醫(yī)院之間在轉(zhuǎn)診時(shí)的電子病歷數(shù)據(jù)互通, 為后續(xù)實(shí)現(xiàn)機(jī)構(gòu)間數(shù)據(jù)全面互通共享與整合奠定了基礎(chǔ)??紤]到公共衛(wèi)生數(shù)據(jù)對(duì)醫(yī)生工作的參考價(jià)值, 專病庫集成了統(tǒng)計(jì)年鑒數(shù)據(jù), 方便醫(yī)生查詢使用。同時(shí), 專病數(shù)據(jù)庫設(shè)計(jì)了隨訪數(shù)據(jù)、可穿戴設(shè)備數(shù)據(jù)等相關(guān)數(shù)據(jù)的錄入接口, 為后續(xù)的平臺(tái)維護(hù)工作提供了充分的拓展空間。

3) 時(shí)間維度。J 醫(yī)院基于本院電子病歷數(shù)據(jù),將患者的歷次就診記錄及相關(guān)檢查結(jié)果按時(shí)間順序進(jìn)行了組織排列, 可以提供患者就診、治療、服藥、檢查等一系列信息的時(shí)間節(jié)點(diǎn), 并在時(shí)間軸上繪制成圖, 如圖5所示, 以可視化的形式輔助醫(yī)生及研究人員掌握患者的病情變化情況。伴隨著后續(xù)機(jī)構(gòu)間數(shù)據(jù)互聯(lián)互通逐步實(shí)現(xiàn), 數(shù)據(jù)逐步補(bǔ)充, 最終能夠形成全生命周期的居民健康數(shù)據(jù)供醫(yī)生使用。

3.2電子病歷數(shù)據(jù)勢能蓄積釋放模型的數(shù)據(jù)分析——以小細(xì)胞肺癌和非小細(xì)胞肺癌鑒別診斷為例

基于J 醫(yī)院肺癌專病數(shù)據(jù)庫數(shù)據(jù), 以科研場景為例, 分析電子病歷數(shù)據(jù)的數(shù)據(jù)勢能釋放, 驗(yàn)證模型合理性。肺癌作為全球最常見的癌癥種類之一,其患者死亡人數(shù)占癌癥死亡人數(shù)的18 0%, 是癌癥患者死亡的首要原因[24] 。根據(jù)癌細(xì)胞病理形態(tài)的不同, 肺癌主要可以分為小細(xì)胞肺癌(Small CellLung Cancer, SCLC) 與非小細(xì)胞肺癌(Non-smallCell Lung Cancer, NSCLC)兩種亞型。對(duì)于不同的肺癌亞型, 其轉(zhuǎn)移率、發(fā)展速度、治療方式等具有很大差異[25] 。在臨床上, 病理學(xué)檢查是對(duì)兩者進(jìn)行鑒別診斷的金標(biāo)準(zhǔn)[26] , 但病理學(xué)檢查屬于有創(chuàng)的操作, 會(huì)對(duì)患者造成創(chuàng)傷, 所以需要其他的鑒別診斷方式作為輔助手段。有研究證實(shí), 部分腫瘤標(biāo)志物[27] 、血常規(guī)指標(biāo)[28] 在SCLC 與NSCLC 的診斷中具有參考意義, 因此提出假設(shè), 基于電子病歷中的腫瘤標(biāo)志物與血常規(guī)數(shù)據(jù), 能夠建立SCLC 與NSCLC 的鑒別診斷模型。

3.2.1數(shù)據(jù)來源與采集

專病庫依據(jù)ICD-10 編碼收錄了2012—2018年于J 醫(yī)院住院的11 377例肺癌患者, 從中提?。?000例肺癌患者數(shù)據(jù), 排除無腫瘤標(biāo)志物檢驗(yàn)結(jié)果或明確診斷結(jié)果的患者數(shù)據(jù)572 例, 共納入研究428 例患者數(shù)據(jù), 其中小細(xì)胞肺癌患者78 例, 非小細(xì)胞肺癌患者350 例。部分原始數(shù)據(jù)如圖6 所示, 數(shù)據(jù)經(jīng)過組織管理并存入專病庫中, 能夠快速大量地導(dǎo)出符合醫(yī)生需求的、經(jīng)過脫敏等初步處理的數(shù)據(jù), 省去了繁瑣的查詢與抄錄過程。

3.2.2數(shù)據(jù)處理

1) 變量轉(zhuǎn)換。由于原始數(shù)據(jù)中存在多種數(shù)據(jù)類型, 不能直接進(jìn)行分析, 因此需要對(duì)數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換并統(tǒng)一。對(duì)于字符型變量, 如“病理類型——非小細(xì)胞肺癌” 字段中包含的“是” 和“否”, 將其轉(zhuǎn)換為“1” 和“0”兩種數(shù)值型變量。受物理因素、人為因素等影響, J醫(yī)院肺癌專病庫電子病歷數(shù)據(jù)中的部分檢查檢驗(yàn)結(jié)果會(huì)粗粒度地用區(qū)間范圍代替具體數(shù)值, 且具體數(shù)值與區(qū)間范圍交替使用, 如“糖鏈抗原125(CA125)”“游離人絨毛膜促性腺激素(HCG)”等。對(duì)于此類數(shù)據(jù), 根據(jù)變量中兩種數(shù)據(jù)的占比多少, 對(duì)兩種數(shù)據(jù)進(jìn)行相互轉(zhuǎn)換, 以便后續(xù)數(shù)據(jù)分析的順利進(jìn)行。

2) 缺失值處理。電子病歷數(shù)據(jù)的缺失情況極為嚴(yán)重, 這是因?yàn)榛颊叩牟∏楦鳟悾?不會(huì)完整地進(jìn)行所有的檢查、檢驗(yàn)項(xiàng)目, 在數(shù)據(jù)分析前需要對(duì)數(shù)據(jù)進(jìn)行插補(bǔ)。經(jīng)正態(tài)性檢驗(yàn), 所選變量均不呈正態(tài)分布, 依據(jù)統(tǒng)計(jì)學(xué)方法, 應(yīng)當(dāng)使用中位數(shù)對(duì)數(shù)據(jù)缺失值進(jìn)行插補(bǔ)。此外, 計(jì)算機(jī)領(lǐng)域使用隨機(jī)森林回歸算法對(duì)缺失值進(jìn)行預(yù)測也有較好的效果。對(duì)兩種方法建立的模型進(jìn)行比較, 發(fā)現(xiàn)利用隨機(jī)森林回歸算法插補(bǔ)的數(shù)據(jù)建立出的預(yù)測模型性能更好, 因此, 采用該方法處理缺失值。

3) 過采樣處理。電子病歷數(shù)據(jù)是高度不平衡的, 因?yàn)槿巳菏欠窕疾?、疾病種類分布并不均勻。所選數(shù)據(jù)中SCLC 患者與NSCLC 患者之間分布比例為1∶4,與真實(shí)世界中的分布情況一致。在不平衡數(shù)據(jù)中, 少數(shù)類樣本被錯(cuò)誤分類不會(huì)大幅降低全局的分類正確率, 但少數(shù)類的分類正確率會(huì)下降[29] 。目前, 大多數(shù)分類器是根據(jù)平衡數(shù)據(jù)設(shè)計(jì)的, 不平衡數(shù)據(jù)會(huì)使模型訓(xùn)練不充分, 造成性能下降[30] 。所以通過SMOTE 算法擴(kuò)充了SCLC 患者數(shù)據(jù)272例, 使其與NSCLC 數(shù)據(jù)量達(dá)到1∶1,兩者共計(jì)700例用于模型構(gòu)建。

之后, 對(duì)所有的檢驗(yàn)學(xué)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除不同特征的不同計(jì)量單位對(duì)模型預(yù)測結(jié)果的影響, 再進(jìn)行后續(xù)實(shí)驗(yàn)。

3.2.3數(shù)據(jù)分析

選取Weka-3.8.4數(shù)據(jù)挖掘軟件作為機(jī)器學(xué)習(xí)預(yù)測模型構(gòu)建的工具軟件。該軟件全稱為懷卡托智能分析環(huán)境(Waikato Environment for Knowledge A?nalysis, 簡稱Weka),是由新西蘭懷卡托大學(xué)開發(fā)的開源軟件, 具有交互式的可視化界面和強(qiáng)大的數(shù)據(jù)分析能力, 是應(yīng)用較為廣泛的數(shù)據(jù)挖掘軟件之一。

1) 特征選擇及分析。選取血常規(guī)和腫瘤標(biāo)志物的檢驗(yàn)結(jié)果, 共37 項(xiàng)特征。由于并非全部特征都會(huì)對(duì)模型預(yù)測結(jié)果產(chǎn)生影響, 所以在模型構(gòu)建之前, 需要對(duì)利用算法各特征與分類的關(guān)聯(lián)性進(jìn)行分析排序, 以選取出特征集合中的最優(yōu)子集, 降低數(shù)據(jù)集的特征維度, 簡化分類預(yù)測模型, 同時(shí)提高模型的性能[31]。因此使用了Info Gain Attribute Eval和Symmetrical Uncert Attribute Eval兩種算法, 分別基于特征的信息增益和對(duì)稱不穩(wěn)定性進(jìn)行特征選擇, 并得到特征相關(guān)性排序如圖7(a)、圖7(b)所示。兩種算法對(duì)37種特征進(jìn)行篩選后, 得到了相同的20 個(gè)特征, 且特征與分類的相關(guān)性排序具有一定相似性。

2) 肺癌鑒別診斷預(yù)測模型構(gòu)建與評(píng)價(jià)。選取支持向量機(jī)、隨機(jī)森林、C4.5 決策樹、Logistic 回歸、樸素貝葉斯5 種分類模型, 利用Weka 軟件,采用10 折交叉驗(yàn)證方法, 對(duì)700 例患者數(shù)據(jù)的20個(gè)特征建立分類預(yù)測模型。為驗(yàn)證血常規(guī)與腫瘤標(biāo)志物檢驗(yàn)數(shù)據(jù)聯(lián)合使用是否能夠提升評(píng)價(jià)效果, 分別以所選取的20 項(xiàng)特征中的血常規(guī)數(shù)據(jù)和腫瘤標(biāo)志物建立上述5 種模型, 作為對(duì)照數(shù)據(jù)。各模型性能分別如表1、表2 所示。根據(jù)計(jì)算出的各模型真陽性率(TPR)和假陽性率(FPR), 使用OriginPro8繪圖軟件繪制的各模型ROC 曲線如圖8(a)、圖8(b)所示。

將血常規(guī)數(shù)據(jù)與腫瘤標(biāo)志物數(shù)據(jù)共同用于建立預(yù)測模型, 模型性能如表3 所示, 根據(jù)計(jì)算出的各模型真陽性率(TPR) 和假陽性率(FPR), 使用OriginPro8 繪圖軟件繪制的各模型ROC 曲線如圖9所示。通過對(duì)比各模型的性能數(shù)據(jù)和ROC 曲線可知, 在5 種分類算法中, 隨機(jī)森林算法模型的AUC值為0.940, F1 值為0.881 和0.878, 在各個(gè)模型中對(duì)SCLC 和NSCLC 的分類效果最佳, 其余4 個(gè)模型的性能稍差。

3.2.4服務(wù)場景

經(jīng)過對(duì)J 醫(yī)院肺癌專病庫中的電子病歷數(shù)據(jù)進(jìn)行分析, 證實(shí)了將血常規(guī)檢驗(yàn)結(jié)果聯(lián)合腫瘤標(biāo)志物檢驗(yàn)結(jié)果對(duì)SCLC 與NSCLC 患者進(jìn)行鑒別診斷的優(yōu)越性。所構(gòu)建的機(jī)器學(xué)習(xí)模型效果良好, 可以作為一種輔助手段, 幫助臨床工作人員判斷肺癌患者的肺癌亞型, 以便其為患者設(shè)計(jì)進(jìn)一步的檢查與治療方案, 輔助進(jìn)行臨床診療決策。并以科研場景為例, 驗(yàn)證了模型中的勢能釋放部分在實(shí)際應(yīng)用中的可行性與合理性, 能夠順利釋放電子病歷數(shù)據(jù)勢能, 實(shí)現(xiàn)數(shù)據(jù)價(jià)值。

4結(jié)語

目前, 我國電子病歷數(shù)據(jù)的積累呈現(xiàn)出海量高速的特點(diǎn), 為提升醫(yī)療水平、優(yōu)化醫(yī)療環(huán)境、實(shí)現(xiàn)“智慧醫(yī)療” 等提供了充分的外部條件的同時(shí), 也帶來了諸多挑戰(zhàn)。面對(duì)日益復(fù)雜的數(shù)據(jù)環(huán)境, 與情報(bào)學(xué)、計(jì)算機(jī)科學(xué)等數(shù)據(jù)相關(guān)學(xué)科交叉融合是最佳方案, 也是必然趨勢。電子病歷數(shù)據(jù)經(jīng)過專業(yè)的、智能化的組織管理, 從形態(tài)、空間、時(shí)間3 個(gè)維度逐級(jí)蓄積勢能, 提升了數(shù)據(jù)質(zhì)量, 降低了醫(yī)生獲取數(shù)據(jù)的難度, 最終能夠在多個(gè)場景中實(shí)現(xiàn)數(shù)據(jù)價(jià)值, 為醫(yī)學(xué)發(fā)展起到支撐作用。

本文以情報(bào)學(xué)視角作為出發(fā)點(diǎn)和落腳點(diǎn), 借用勢能的概念建立了電子病歷數(shù)據(jù)勢能模型, 強(qiáng)調(diào)了對(duì)電子病歷數(shù)據(jù)進(jìn)行科學(xué)組織管理的意義, 并運(yùn)用真實(shí)世界的案例數(shù)據(jù)與電子病歷數(shù)據(jù)驗(yàn)證了理論的有效性與合理性。借此強(qiáng)調(diào)了情報(bào)學(xué)理論在醫(yī)院數(shù)據(jù)的管理者于數(shù)據(jù)勢能蓄積中的作用。模型的價(jià)值主要體現(xiàn)在: ①從形態(tài)、空間、時(shí)間3 個(gè)維度梳理了電子病歷數(shù)據(jù)現(xiàn)代化管理的途徑, 為電子病歷數(shù)據(jù)組織管理實(shí)踐提供了指導(dǎo)與參考; ②闡明了電子病歷數(shù)據(jù)在臨床診療、科學(xué)研究、醫(yī)院管理3 個(gè)服務(wù)場景下能夠發(fā)揮的價(jià)值及分析使用的一般模式;③將情報(bào)學(xué)理論融入醫(yī)院數(shù)據(jù)管理的場景中, 為情報(bào)學(xué)與醫(yī)學(xué)交叉融合提供理論基礎(chǔ); ④豐富了數(shù)據(jù)組織管理的相關(guān)理論體系, 為跨學(xué)科情報(bào)學(xué)理論發(fā)展提供新思路。

致謝:感謝禾熙公司為本研究提供的原始數(shù)據(jù)材料。

猜你喜歡
電子病歷
云計(jì)算平臺(tái)下的電子病歷系統(tǒng)安全管理
CA認(rèn)證在醫(yī)院電子病歷數(shù)字簽名中的應(yīng)用研究
電子病歷保全與認(rèn)證研究
法制博覽(2016年12期)2016-12-28 13:05:51
基于病種的全結(jié)構(gòu)化病歷模板研發(fā)與應(yīng)用
現(xiàn)階段電子病歷問題的探討及改革
淺淡臨床路徑的應(yīng)用及對(duì)電子病歷的管理作用
不同質(zhì)控方法在病案質(zhì)量控制中的應(yīng)用效果
基于HDFS的分布式區(qū)域電子病歷存儲(chǔ)策略
環(huán)節(jié)質(zhì)控對(duì)電子病歷質(zhì)量影響的效果分析
住院電子病歷在我院的應(yīng)用和推廣
平陆县| 吴堡县| 新田县| 蕲春县| 辉县市| 张掖市| 东至县| 罗甸县| 鄂温| 当雄县| 唐山市| 石渠县| 基隆市| 乐昌市| 临澧县| 当雄县| 墨竹工卡县| 五寨县| 大埔区| 和硕县| 南澳县| 湖北省| 察隅县| 嘉鱼县| 临汾市| 呼图壁县| 杂多县| 胶州市| 台北县| 新丰县| 曲阳县| 神农架林区| 五河县| 象州县| 通州区| 舟山市| 社旗县| 凭祥市| 恩平市| 莱西市| 扎赉特旗|