,
我國(guó)幅員遼闊,地區(qū)間經(jīng)濟(jì)發(fā)展不平衡,區(qū)域間醫(yī)療資源的差距明顯,優(yōu)質(zhì)醫(yī)療資源始終處于緊張狀態(tài),“看病難”“看病貴”成為一種常態(tài)現(xiàn)象[1]。人類社會(huì)正飛速進(jìn)入信息大數(shù)據(jù)時(shí)代,充分利用醫(yī)療信息資源,進(jìn)行數(shù)據(jù)處理和分析,可以實(shí)現(xiàn)計(jì)算機(jī)輔助決策,推動(dòng)分級(jí)診療、精準(zhǔn)治療,從而進(jìn)一步合理配置醫(yī)療資源,促進(jìn)基本醫(yī)療衛(wèi)生服務(wù)實(shí)現(xiàn)均等化。
醫(yī)療信息資源有非結(jié)構(gòu)化文本、圖像、圖形、聲音、視頻等多種形式[2],文本信息占比高達(dá)95%以上,文本信息又以電子病歷(Electronic Medical Record,EMR)為重要代表。電子病歷出現(xiàn)的初衷是解決越來(lái)越多需要存儲(chǔ)的醫(yī)療文本問題[3],發(fā)展到今天,電子病歷要求包含患者的就診信息,支持記錄診斷和治療情況,并可以實(shí)現(xiàn)信息的累加、共享、分析和利用,促進(jìn)醫(yī)療服務(wù),提高醫(yī)療質(zhì)量和效率。國(guó)內(nèi)目前很多大型醫(yī)院的電子病歷系統(tǒng),對(duì)患者臨床信息的描述性數(shù)據(jù)是以自由文本形式存在的[4],非結(jié)構(gòu)化的輸入形式帶來(lái)了數(shù)據(jù)的多維性,不確定性,受控醫(yī)學(xué)詞匯表以及支持臨床決策的臨床數(shù)據(jù)倉(cāng)庫(kù),使大量臨床數(shù)據(jù)分散在不同的系統(tǒng)中,很難實(shí)現(xiàn)高效方便地獲取病人完整和準(zhǔn)確的診療信息[5]。經(jīng)過(guò)標(biāo)準(zhǔn)化處理的文本信息,通過(guò)查詢,分析,才能真正輔助臨床決策,實(shí)現(xiàn)精準(zhǔn)醫(yī)療。目前國(guó)內(nèi)外對(duì)電子病歷的應(yīng)用都在朝集成方向、專家智能方向發(fā)展[6],希望通過(guò)建標(biāo)準(zhǔn)、區(qū)域共享化實(shí)現(xiàn)醫(yī)療信息的可擴(kuò)展、可互操作等深層次應(yīng)用。在互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展的前景下,利用“互聯(lián)網(wǎng)+”跨學(xué)科思維,把電子病歷從語(yǔ)義的角度解讀,并描述醫(yī)學(xué)事實(shí)的內(nèi)涵及外延,利用本體、知識(shí)庫(kù)模型,能更有效挖掘電子病歷資源。
隨著醫(yī)學(xué)信息電子化處理的飛速發(fā)展,愈來(lái)愈多的應(yīng)用受制于術(shù)語(yǔ)問題(terminology problem)[7],即同一醫(yī)學(xué)概念在不同領(lǐng)域和不同人群中表達(dá)方式不同,造成信息查詢和利用的障礙。醫(yī)院信息系統(tǒng)的開發(fā)供應(yīng)商希望有一種統(tǒng)一的編碼系統(tǒng)來(lái)滿足臨床電子病歷發(fā)展的需要。
醫(yī)學(xué)本體描述客觀的醫(yī)學(xué)事實(shí)[8],是客觀事實(shí)的抽象模型,用精準(zhǔn)的數(shù)學(xué)描述反映概念之間的關(guān)系,能進(jìn)行共享利用。通過(guò)本體,知識(shí)庫(kù)模型打造一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)[9],可以規(guī)范統(tǒng)一的概念表達(dá),提供信息查詢的統(tǒng)一入口,從而解決獲取信息的語(yǔ)言屏障。例如美國(guó)國(guó)立醫(yī)學(xué)圖書館開發(fā)的醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,簡(jiǎn)稱UMLS),中國(guó)中醫(yī)研究院開發(fā)的傳統(tǒng)醫(yī)學(xué)一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)[10],中國(guó)醫(yī)學(xué)科學(xué)院開發(fā)的中文一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)等[11]。其方式都是系統(tǒng)整合各種醫(yī)學(xué)資源的檢索術(shù)語(yǔ),使許多不同源術(shù)語(yǔ)集中的相同語(yǔ)義擁有標(biāo)準(zhǔn)格式,用以完成醫(yī)學(xué)信息的存儲(chǔ)、提取與分析。隨著信息技術(shù)的發(fā)展,醫(yī)療信息資源本體、知識(shí)庫(kù)可以實(shí)現(xiàn)制定統(tǒng)一的知識(shí)規(guī)則,通過(guò)跨學(xué)科融合,促進(jìn)電子病歷信息的標(biāo)準(zhǔn)化,增加可互操作、可重復(fù)利用。
本文將以川崎病電子病歷大數(shù)據(jù)為對(duì)象,將文本處理簡(jiǎn)化為空間的三維向量(本體模型)進(jìn)行實(shí)例展示,通過(guò)計(jì)算、比較表達(dá)文本在語(yǔ)義上的相似度,幫助找尋出川崎病電子病歷海量數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,歸納出川崎病患者的診斷標(biāo)準(zhǔn)、醫(yī)生的診療習(xí)慣、診療模式、用藥習(xí)慣等診療行為。相對(duì)于傳統(tǒng)的文本檢索方式,能更準(zhǔn)確、更有效、更快速地分析電子病歷信息,進(jìn)行臨床輔助診療。
本體(Ontology)是知識(shí)庫(kù)構(gòu)建的基礎(chǔ)[12]。本文從某三甲??苾和t(yī)院病案室收集了以川崎病為最終診斷結(jié)果的電子病歷2 294份,采用形式概念分析,對(duì)電子病歷進(jìn)行了數(shù)據(jù)清洗,建立本體,本文以一條病程記錄為實(shí)例演示如何建立川崎病概念本體(圖1)。
圖1 川崎病概念本體的鑒定
圖1顯示,從病歷中可以提取關(guān)于川崎病的表述概念,表述概念與本體最大的區(qū)別在于,表述概念屬于本體的擴(kuò)展,具有可擴(kuò)展性和不確定性,而本體是表述概念的內(nèi)涵。因此建立概念本體在信息檢索上更具有優(yōu)勢(shì)。
定義1(表示概念 ):假設(shè)一個(gè)三元組Y=(L,M,N),其中L是所有對(duì)象的集合,M是屬性集合,N (LXM),也就是說(shuō)N是LXM的子集。
定義2:設(shè){O1,D1},{O2,D2}是形式背景{O,D}兩個(gè)形式概念,{O2,D2}是{O1,D1}的超概念。
定義3:概念相似度計(jì)算為:
圖2本體產(chǎn)生的概念圖
由以上定義及概念圖,本體產(chǎn)生具體步驟如下:
第一,結(jié)構(gòu)化電子病歷,針對(duì)vMR中的數(shù)據(jù),參考HL7 CDA的結(jié)構(gòu)及其對(duì)應(yīng)的文檔模板,用可擴(kuò)展標(biāo)記語(yǔ)言XML構(gòu)建標(biāo)準(zhǔn)化的川崎病電子健康文檔,其步驟為:定義解析文檔、生成XML解析數(shù)據(jù)文件,形成規(guī)范樣式表。最終生成川崎病結(jié)構(gòu)化電子健康文檔。
第二,形成領(lǐng)域詞典,每個(gè)病人的所有記錄,形成一條結(jié)構(gòu)化的病歷,這里面包括了患者從到醫(yī)院后的所有信息。從每一條信息中取出相關(guān)詞語(yǔ)并實(shí)現(xiàn)再分詞,形成詞典。
第三,計(jì)算相似度,運(yùn)用上述定義1、2、3公式計(jì)算其相似度。
第四,形成川崎病本體,去掉相似度相近詞語(yǔ),形成本體。
知識(shí)庫(kù)與本體是多對(duì)一的映射關(guān)系[13],知識(shí)庫(kù)是本體的外延,本體是知識(shí)庫(kù)的內(nèi)涵[14]。前面已經(jīng)形成川崎病的本體,為進(jìn)一步打造知識(shí)庫(kù)打下堅(jiān)實(shí)基礎(chǔ)。由此基于向量空間模型算法做如下定義:
根據(jù)上述定義構(gòu)建知識(shí)庫(kù)的方法如下:
第一,建立患者語(yǔ)義庫(kù)、電子病歷醫(yī)生語(yǔ)義庫(kù)、專家語(yǔ)義庫(kù)。
第二,從以上各種語(yǔ)義庫(kù)中分別取詞。
第三,利用定義1、2、3計(jì)算Tf、Idf、W。
第四,分別計(jì)算相似度。通過(guò)計(jì)算相似度建立起川崎病本體與各種語(yǔ)義庫(kù)的一對(duì)多映射關(guān)系,形成患者知識(shí)庫(kù)、醫(yī)生知識(shí)庫(kù)、專家知識(shí)庫(kù)。
本驗(yàn)證限于篇幅不能全部驗(yàn)證,僅以一條病人電子病歷為說(shuō)明,其中數(shù)據(jù)庫(kù)清洗,XML結(jié)構(gòu)化電子病歷限于技術(shù)的相對(duì)成熟就不在這里描述,直接給出一條簡(jiǎn)單的電子病歷,且以醫(yī)生某一項(xiàng)檢查本體和知識(shí)庫(kù)為樣本。
表1為4條病人需要檢查記錄,分別記錄為D1、D2、D2、D4。
表1 4條病人需要檢查的記錄
以上每條記錄去掉無(wú)關(guān)詞后形成文檔詞序列見表2。
表2 4條病人檢查記錄文檔詞序列
根據(jù)以上表格及形式背景定義得出屬性集合G:彩超 多普勒 ,屬性M分別是:心臟、 彩超、 多普勒、 腹部 、胃腸。那么其子集I為{彩超, 多普勒,心臟},{ 彩超 ,多普勒,彩超},{彩超 ,多普勒,多普勒},{彩超 ,多普勒,腹部},{彩超, 多普勒,胃腸}。由此根據(jù)定義3運(yùn)算得出結(jié)論本體為:彩超 多普勒 。
根據(jù)本體建立表3。
表3 屬性M本體構(gòu)建
分別計(jì)算Tf、Tdf、W,結(jié)果見表4。
表4 屬性M權(quán)值分布
根據(jù)以上結(jié)果得出結(jié)論,檢查部分的要點(diǎn)為:多普勒 心臟 彩超 腹部 胃腸。經(jīng)問卷調(diào)查臨床醫(yī)生,有川崎病的孩子檢查都要進(jìn)行多普勒心臟彩超確診,但有少部分需要做腹部或胃腸彩輔助檢查,可見此法構(gòu)建本體,知識(shí)庫(kù)真實(shí)有效。
川崎病大部分的患兒經(jīng)臨床治療后能康復(fù)情況較好,但部分川崎病患兒會(huì)因癥狀體征不典型性而容易與其他特異或者非特異炎癥疾病發(fā)生混淆,還有極少數(shù)會(huì)因并發(fā)癥發(fā)展成為重癥,三甲兒童??漆t(yī)院的醫(yī)生臨床經(jīng)驗(yàn)豐富,基于臨床癥狀判斷,檢查、佐證,能較及時(shí)判斷患兒病情。但是更多的二級(jí)醫(yī)院醫(yī)生相關(guān)臨床經(jīng)驗(yàn)可能不足,如果借助川崎病的知識(shí)庫(kù),可以更好的進(jìn)行臨床的診斷和治療,從而實(shí)現(xiàn)對(duì)疾病的早期干預(yù)和治療。
本文采用的構(gòu)建模型方法簡(jiǎn)單、實(shí)用、效率高,軟件的實(shí)現(xiàn)相對(duì)簡(jiǎn)單,開發(fā)成本低。項(xiàng)目成果亦可用于其他病種,構(gòu)建模型方法擺脫了傳統(tǒng)一病一法的粗糙聚類方法。為推動(dòng)電子病歷數(shù)據(jù)挖掘,疾病的分類管理、分級(jí)診療、計(jì)算機(jī)輔助決策、精準(zhǔn)醫(yī)療的全面實(shí)施提供有力知識(shí)保證。
中華醫(yī)學(xué)圖書情報(bào)雜志2017年8期