基于本體的電子病歷后結(jié)構(gòu)化模型關(guān)鍵技術(shù)

2017-03-22 04:02:14，

中華醫(yī)學(xué)圖書情報(bào)雜志 2017年8期

，

我國(guó)幅員遼闊，地區(qū)間經(jīng)濟(jì)發(fā)展不平衡,區(qū)域間醫(yī)療資源的差距明顯，優(yōu)質(zhì)醫(yī)療資源始終處于緊張狀態(tài)，“看病難”“看病貴”成為一種常態(tài)現(xiàn)象[1]。人類社會(huì)正飛速進(jìn)入信息大數(shù)據(jù)時(shí)代，充分利用醫(yī)療信息資源，進(jìn)行數(shù)據(jù)處理和分析，可以實(shí)現(xiàn)計(jì)算機(jī)輔助決策，推動(dòng)分級(jí)診療、精準(zhǔn)治療，從而進(jìn)一步合理配置醫(yī)療資源，促進(jìn)基本醫(yī)療衛(wèi)生服務(wù)實(shí)現(xiàn)均等化。

1 研究背景

1.1 電子病歷及電子病歷挖掘現(xiàn)狀及發(fā)展趨勢(shì)

醫(yī)療信息資源有非結(jié)構(gòu)化文本、圖像、圖形、聲音、視頻等多種形式[2]，文本信息占比高達(dá)95%以上，文本信息又以電子病歷(Electronic Medical Record，EMR)為重要代表。電子病歷出現(xiàn)的初衷是解決越來(lái)越多需要存儲(chǔ)的醫(yī)療文本問題[3]，發(fā)展到今天，電子病歷要求包含患者的就診信息，支持記錄診斷和治療情況，并可以實(shí)現(xiàn)信息的累加、共享、分析和利用，促進(jìn)醫(yī)療服務(wù)，提高醫(yī)療質(zhì)量和效率。國(guó)內(nèi)目前很多大型醫(yī)院的電子病歷系統(tǒng)，對(duì)患者臨床信息的描述性數(shù)據(jù)是以自由文本形式存在的[4]，非結(jié)構(gòu)化的輸入形式帶來(lái)了數(shù)據(jù)的多維性，不確定性，受控醫(yī)學(xué)詞匯表以及支持臨床決策的臨床數(shù)據(jù)倉(cāng)庫(kù)，使大量臨床數(shù)據(jù)分散在不同的系統(tǒng)中，很難實(shí)現(xiàn)高效方便地獲取病人完整和準(zhǔn)確的診療信息[5]。經(jīng)過(guò)標(biāo)準(zhǔn)化處理的文本信息，通過(guò)查詢，分析，才能真正輔助臨床決策，實(shí)現(xiàn)精準(zhǔn)醫(yī)療。目前國(guó)內(nèi)外對(duì)電子病歷的應(yīng)用都在朝集成方向、專家智能方向發(fā)展[6]，希望通過(guò)建標(biāo)準(zhǔn)、區(qū)域共享化實(shí)現(xiàn)醫(yī)療信息的可擴(kuò)展、可互操作等深層次應(yīng)用。在互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展的前景下，利用“互聯(lián)網(wǎng)+”跨學(xué)科思維，把電子病歷從語(yǔ)義的角度解讀，并描述醫(yī)學(xué)事實(shí)的內(nèi)涵及外延，利用本體、知識(shí)庫(kù)模型，能更有效挖掘電子病歷資源。

1.2 本體研究在電子病歷中的應(yīng)用

隨著醫(yī)學(xué)信息電子化處理的飛速發(fā)展，愈來(lái)愈多的應(yīng)用受制于術(shù)語(yǔ)問題(terminology problem)[7]，即同一醫(yī)學(xué)概念在不同領(lǐng)域和不同人群中表達(dá)方式不同，造成信息查詢和利用的障礙。醫(yī)院信息系統(tǒng)的開發(fā)供應(yīng)商希望有一種統(tǒng)一的編碼系統(tǒng)來(lái)滿足臨床電子病歷發(fā)展的需要。

醫(yī)學(xué)本體描述客觀的醫(yī)學(xué)事實(shí)[8]，是客觀事實(shí)的抽象模型，用精準(zhǔn)的數(shù)學(xué)描述反映概念之間的關(guān)系，能進(jìn)行共享利用。通過(guò)本體，知識(shí)庫(kù)模型打造一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)[9]，可以規(guī)范統(tǒng)一的概念表達(dá),提供信息查詢的統(tǒng)一入口,從而解決獲取信息的語(yǔ)言屏障。例如美國(guó)國(guó)立醫(yī)學(xué)圖書館開發(fā)的醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,簡(jiǎn)稱UMLS)，中國(guó)中醫(yī)研究院開發(fā)的傳統(tǒng)醫(yī)學(xué)一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)[10],中國(guó)醫(yī)學(xué)科學(xué)院開發(fā)的中文一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)等[11]。其方式都是系統(tǒng)整合各種醫(yī)學(xué)資源的檢索術(shù)語(yǔ),使許多不同源術(shù)語(yǔ)集中的相同語(yǔ)義擁有標(biāo)準(zhǔn)格式，用以完成醫(yī)學(xué)信息的存儲(chǔ)、提取與分析。隨著信息技術(shù)的發(fā)展，醫(yī)療信息資源本體、知識(shí)庫(kù)可以實(shí)現(xiàn)制定統(tǒng)一的知識(shí)規(guī)則，通過(guò)跨學(xué)科融合，促進(jìn)電子病歷信息的標(biāo)準(zhǔn)化，增加可互操作、可重復(fù)利用。

本文將以川崎病電子病歷大數(shù)據(jù)為對(duì)象，將文本處理簡(jiǎn)化為空間的三維向量(本體模型)進(jìn)行實(shí)例展示，通過(guò)計(jì)算、比較表達(dá)文本在語(yǔ)義上的相似度，幫助找尋出川崎病電子病歷海量數(shù)據(jù)中的關(guān)聯(lián)規(guī)則，歸納出川崎病患者的診斷標(biāo)準(zhǔn)、醫(yī)生的診療習(xí)慣、診療模式、用藥習(xí)慣等診療行為。相對(duì)于傳統(tǒng)的文本檢索方式，能更準(zhǔn)確、更有效、更快速地分析電子病歷信息，進(jìn)行臨床輔助診療。

2 基于本體的電子病歷后結(jié)構(gòu)化模型構(gòu)建

本體(Ontology)是知識(shí)庫(kù)構(gòu)建的基礎(chǔ)[12]。本文從某三甲?？苾和t(yī)院病案室收集了以川崎病為最終診斷結(jié)果的電子病歷2 294份，采用形式概念分析，對(duì)電子病歷進(jìn)行了數(shù)據(jù)清洗，建立本體，本文以一條病程記錄為實(shí)例演示如何建立川崎病概念本體(圖1)。

圖1 川崎病概念本體的鑒定

圖1顯示，從病歷中可以提取關(guān)于川崎病的表述概念，表述概念與本體最大的區(qū)別在于，表述概念屬于本體的擴(kuò)展，具有可擴(kuò)展性和不確定性，而本體是表述概念的內(nèi)涵。因此建立概念本體在信息檢索上更具有優(yōu)勢(shì)。

定義1(表示概念 )：假設(shè)一個(gè)三元組Y=(L,M,N)，其中L是所有對(duì)象的集合，M是屬性集合，N (LXM)，也就是說(shuō)N是LXM的子集。

定義2：設(shè){O1,D1},{O2,D2}是形式背景{O,D}兩個(gè)形式概念，{O2,D2}是{O1,D1}的超概念。

定義3：概念相似度計(jì)算為：

圖2本體產(chǎn)生的概念圖

由以上定義及概念圖，本體產(chǎn)生具體步驟如下：

第一，結(jié)構(gòu)化電子病歷，針對(duì)vMR中的數(shù)據(jù)，參考HL7 CDA的結(jié)構(gòu)及其對(duì)應(yīng)的文檔模板，用可擴(kuò)展標(biāo)記語(yǔ)言XML構(gòu)建標(biāo)準(zhǔn)化的川崎病電子健康文檔，其步驟為：定義解析文檔、生成XML解析數(shù)據(jù)文件，形成規(guī)范樣式表。最終生成川崎病結(jié)構(gòu)化電子健康文檔。

第二，形成領(lǐng)域詞典，每個(gè)病人的所有記錄，形成一條結(jié)構(gòu)化的病歷，這里面包括了患者從到醫(yī)院后的所有信息。從每一條信息中取出相關(guān)詞語(yǔ)并實(shí)現(xiàn)再分詞，形成詞典。

第三，計(jì)算相似度，運(yùn)用上述定義1、2、3公式計(jì)算其相似度。

第四，形成川崎病本體，去掉相似度相近詞語(yǔ)，形成本體。

3 基于向量空間模型知識(shí)庫(kù)的構(gòu)建

知識(shí)庫(kù)與本體是多對(duì)一的映射關(guān)系[13]，知識(shí)庫(kù)是本體的外延，本體是知識(shí)庫(kù)的內(nèi)涵[14]。前面已經(jīng)形成川崎病的本體，為進(jìn)一步打造知識(shí)庫(kù)打下堅(jiān)實(shí)基礎(chǔ)。由此基于向量空間模型算法做如下定義：

根據(jù)上述定義構(gòu)建知識(shí)庫(kù)的方法如下：

第一，建立患者語(yǔ)義庫(kù)、電子病歷醫(yī)生語(yǔ)義庫(kù)、專家語(yǔ)義庫(kù)。

第二，從以上各種語(yǔ)義庫(kù)中分別取詞。

第三，利用定義1、2、3計(jì)算Tf、Idf、W。

第四，分別計(jì)算相似度。通過(guò)計(jì)算相似度建立起川崎病本體與各種語(yǔ)義庫(kù)的一對(duì)多映射關(guān)系，形成患者知識(shí)庫(kù)、醫(yī)生知識(shí)庫(kù)、專家知識(shí)庫(kù)。

4 驗(yàn)證

本驗(yàn)證限于篇幅不能全部驗(yàn)證，僅以一條病人電子病歷為說(shuō)明，其中數(shù)據(jù)庫(kù)清洗，XML結(jié)構(gòu)化電子病歷限于技術(shù)的相對(duì)成熟就不在這里描述，直接給出一條簡(jiǎn)單的電子病歷，且以醫(yī)生某一項(xiàng)檢查本體和知識(shí)庫(kù)為樣本。

4.1 本體形成

表1為4條病人需要檢查記錄，分別記錄為D1、D2、D2、D4。

表1 4條病人需要檢查的記錄

以上每條記錄去掉無(wú)關(guān)詞后形成文檔詞序列見表2。

表2 4條病人檢查記錄文檔詞序列

根據(jù)以上表格及形式背景定義得出屬性集合G：彩超多普勒，屬性M分別是：心臟、彩超、多普勒、腹部、胃腸。那么其子集I為{彩超，多普勒，心臟}，{ 彩超，多普勒，彩超}，{彩超，多普勒，多普勒}，{彩超，多普勒，腹部}，{彩超，多普勒，胃腸}。由此根據(jù)定義3運(yùn)算得出結(jié)論本體為：彩超多普勒。

4.2 知識(shí)的形成

根據(jù)本體建立表3。

表3 屬性M本體構(gòu)建

分別計(jì)算Tf、Tdf、W，結(jié)果見表4。

表4 屬性M權(quán)值分布

根據(jù)以上結(jié)果得出結(jié)論，檢查部分的要點(diǎn)為：多普勒心臟彩超腹部胃腸。經(jīng)問卷調(diào)查臨床醫(yī)生，有川崎病的孩子檢查都要進(jìn)行多普勒心臟彩超確診，但有少部分需要做腹部或胃腸彩輔助檢查，可見此法構(gòu)建本體，知識(shí)庫(kù)真實(shí)有效。

川崎病大部分的患兒經(jīng)臨床治療后能康復(fù)情況較好，但部分川崎病患兒會(huì)因癥狀體征不典型性而容易與其他特異或者非特異炎癥疾病發(fā)生混淆，還有極少數(shù)會(huì)因并發(fā)癥發(fā)展成為重癥，三甲兒童?？漆t(yī)院的醫(yī)生臨床經(jīng)驗(yàn)豐富，基于臨床癥狀判斷，檢查、佐證，能較及時(shí)判斷患兒病情。但是更多的二級(jí)醫(yī)院醫(yī)生相關(guān)臨床經(jīng)驗(yàn)可能不足，如果借助川崎病的知識(shí)庫(kù)，可以更好的進(jìn)行臨床的診斷和治療，從而實(shí)現(xiàn)對(duì)疾病的早期干預(yù)和治療。

5 結(jié)論

本文采用的構(gòu)建模型方法簡(jiǎn)單、實(shí)用、效率高，軟件的實(shí)現(xiàn)相對(duì)簡(jiǎn)單，開發(fā)成本低。項(xiàng)目成果亦可用于其他病種，構(gòu)建模型方法擺脫了傳統(tǒng)一病一法的粗糙聚類方法。為推動(dòng)電子病歷數(shù)據(jù)挖掘，疾病的分類管理、分級(jí)診療、計(jì)算機(jī)輔助決策、精準(zhǔn)醫(yī)療的全面實(shí)施提供有力知識(shí)保證。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡