国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于醫(yī)在回路的醫(yī)療健康知識(shí)圖譜系統(tǒng)架構(gòu)的研究

2019-11-07 08:37:00邢春曉
關(guān)鍵詞:詞庫圖譜實(shí)體

盛 明,張 勇,邢春曉

(清華大學(xué) 信息技術(shù)研究院 WEB與軟件技術(shù)研究中心, 北京 100084)

知識(shí)圖譜可以將來自不同來源的信息和知識(shí)融合在一起.在過去幾年中,許多知識(shí)圖譜,無論是面向通用的還是特定領(lǐng)域的,都已經(jīng)被構(gòu)建出來并且成為相關(guān)領(lǐng)域的寶貴資源.概念醫(yī)學(xué)知識(shí)圖譜,如UMLS(unified medical language system)、Gene Ontology等,僅包含醫(yī)學(xué)領(lǐng)域的概念.事實(shí)醫(yī)學(xué)知識(shí)圖譜,如Google Health Knowledge Graph, Knowlife,PDD Graph(patients, diseases and drugs graph)等,包括了概念和實(shí)例.

在醫(yī)學(xué)領(lǐng)域,知識(shí)圖譜是一個(gè)非常有用的工具,可以支持疾病預(yù)測(cè)、藥物推薦[1]等服務(wù).很多知識(shí)圖譜的構(gòu)建[2-3]采用全自動(dòng)化方法,沒有任何人工參與,這些知識(shí)圖譜的數(shù)據(jù)主要來自互聯(lián)網(wǎng).盡管這些全自動(dòng)化方法可以節(jié)省醫(yī)學(xué)專家的時(shí)間和精力,但是當(dāng)涉及特定醫(yī)療健康領(lǐng)域知識(shí)圖譜的構(gòu)建時(shí),由于醫(yī)學(xué)領(lǐng)域的概念/關(guān)系/事件是復(fù)雜而模糊的、醫(yī)學(xué)領(lǐng)域的源數(shù)據(jù)質(zhì)量差[4]、醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一等原因,它們的表現(xiàn)不盡如人意.

因此,用于完全自動(dòng)構(gòu)建知識(shí)圖譜的通用方法不能直接應(yīng)用于醫(yī)療健康領(lǐng)域.為了提高圖譜質(zhì)量,在構(gòu)建過程中引入一些醫(yī)學(xué)專家的先驗(yàn)知識(shí)是非常必要的.另一方面,如果構(gòu)建過程中涉及太多醫(yī)學(xué)專家的工作,則需要花費(fèi)大量的時(shí)間和精力,整個(gè)構(gòu)建的效率將大大降低[5].更糟糕的是,整個(gè)系統(tǒng)將不具備可擴(kuò)展性,無法適應(yīng)和擴(kuò)展到其他新的醫(yī)學(xué)主題[6].因此,需要在合適的位置引入醫(yī)學(xué)專家的相關(guān)工作.醫(yī)學(xué)專家的工作和自動(dòng)化方法之間的平衡是非常重要的,需要謹(jǐn)慎對(duì)待.

論文介紹了一個(gè)系統(tǒng)架構(gòu),該架構(gòu)表明在醫(yī)療健康領(lǐng)域知識(shí)圖譜的構(gòu)建過程中有哪些環(huán)節(jié)、在什么時(shí)機(jī)需要引入醫(yī)學(xué)專家的工作等.其目的是:基于自動(dòng)化的方法可以幫助醫(yī)生節(jié)省時(shí)間和精力,基于醫(yī)生的先驗(yàn)知識(shí)可以彌補(bǔ)相關(guān)通用或自動(dòng)化圖譜構(gòu)建方法的不足.通過這種方式,提高了知識(shí)圖譜構(gòu)建的效率和質(zhì)量.

1 相關(guān)工作

1.1 知識(shí)圖譜構(gòu)建工具

現(xiàn)在已經(jīng)有許多自動(dòng)知識(shí)圖譜構(gòu)建的工具,這些工具可以處理海量數(shù)據(jù)并無須人工參與構(gòu)建知識(shí)圖譜. 在醫(yī)療領(lǐng)域中,典型的知識(shí)圖譜構(gòu)建工具有RDR(ripple-down rules)[7]、cTAKES(clinical text analysis and knowledge extraction system)[8]、pMineR(process mining R library)[9]、I-KAT[10]、myDIG、semTK (the semantics toolkit ).表1是這些工具的對(duì)比.

表1 知識(shí)圖譜構(gòu)建工具

如表1所示,主流知識(shí)圖譜構(gòu)建工具包括RDR、cTAKES、pMineR、I-KAT等.可以看出只有不到一半的工具涉及圖譜構(gòu)建過程中的人工參與.它們中任何一個(gè)工具都沒有完全包含5個(gè)常用功能:實(shí)體識(shí)別、關(guān)系抽取、實(shí)體對(duì)齊、數(shù)據(jù)模型映射(從ER(entity relation)模型到RDF(resource description framework)模型))、人工參與.因此,使用這些工具構(gòu)建醫(yī)學(xué)知識(shí)圖譜的效果較差.

1.2 醫(yī)生在醫(yī)學(xué)知識(shí)信息化過程中的角色

如何組織醫(yī)學(xué)知識(shí)一直是一個(gè)重要問題.文獻(xiàn)[11]根據(jù)醫(yī)生的先驗(yàn)知識(shí)和修訂意見建立了生物醫(yī)學(xué)知識(shí)庫,并使用貝葉斯網(wǎng)絡(luò)進(jìn)行疾病預(yù)測(cè).案例基礎(chǔ)推理CBR(case-based reasoning)可以組織文本醫(yī)學(xué)知識(shí)并將其整合到案例中.在CBR系統(tǒng)中,數(shù)據(jù)需要通過特征提取、特征選擇和加權(quán)進(jìn)行預(yù)處理,這些步驟通常在醫(yī)生的幫助下進(jìn)行.首先,臨床醫(yī)生可能會(huì)向系統(tǒng)提供一些初步經(jīng)驗(yàn)或知識(shí),然后將這些知識(shí)經(jīng)驗(yàn)用于解決新病例.在此過程中,醫(yī)生可能會(huì)對(duì)他們以前的知識(shí)進(jìn)行一些調(diào)整.案例解決后,這些知識(shí)集得以更新.此外,有很多大型生物醫(yī)學(xué)本體庫,如基因本體庫、疾病本體庫或其他關(guān)聯(lián)生命數(shù)據(jù)本體庫等,為人們提供更加全面的結(jié)果.

1.3 醫(yī)在回路(doctor-in-the-loop)

在醫(yī)學(xué)領(lǐng)域,基于機(jī)器學(xué)習(xí)的自動(dòng)方法在許多方面取得了顯著成果,如疾病預(yù)測(cè)和臨床記錄分類.盡管醫(yī)學(xué)領(lǐng)域的自動(dòng)機(jī)器學(xué)習(xí)(automatic machine learning,簡(jiǎn)稱aML)吸引了許多研究人員的興趣并且一直發(fā)展迅速,但這些方法缺點(diǎn)在于其無法解釋性[12].機(jī)器學(xué)習(xí)模型通常被視為“黑箱”,內(nèi)部結(jié)構(gòu)和原則超出了人們的理解范圍[13].更重要的是,aML需要具有大量訓(xùn)練集才能獲得較好的結(jié)果,但在醫(yī)學(xué)領(lǐng)域,數(shù)據(jù)集是有限的,研究人員可能會(huì)遇見一些特例事件,這將導(dǎo)致aML受到訓(xùn)練數(shù)據(jù)集不足的影響.因此,需要能夠與醫(yī)學(xué)專家交互并且可以通過這些交互來優(yōu)化其學(xué)習(xí)行為的算法.通過這種互動(dòng),可以啟發(fā)式地選擇訓(xùn)練樣本,并且可以大大減少研究時(shí)間.涉及人工交互的算法可以被定義為人在回路[14].人在回路實(shí)際上已經(jīng)被應(yīng)用于人工智能的許多方面,如命名實(shí)體識(shí)別[15]和規(guī)則學(xué)習(xí).在醫(yī)學(xué)領(lǐng)域,大都是嘗試結(jié)合醫(yī)在回路機(jī)制來改善性能,特別是在知識(shí)圖譜構(gòu)建方面.

2 架構(gòu)和工作流

2.1 架構(gòu)

圖1為應(yīng)用醫(yī)在回路的醫(yī)療知識(shí)圖譜構(gòu)建的架構(gòu).

圖1 應(yīng)用醫(yī)在回路的醫(yī)療知識(shí)圖譜構(gòu)建的架構(gòu)

如圖1所示,構(gòu)建疾病特定醫(yī)學(xué)知識(shí)圖譜的系統(tǒng)應(yīng)包括疾病專科醫(yī)生,這是整個(gè)構(gòu)建過程中最重要的部分;其他部分主要包括人機(jī)交互接口、數(shù)據(jù)來源、圖譜構(gòu)建工具、概念圖譜和實(shí)例圖譜.

在圖譜的構(gòu)建過程中,醫(yī)生應(yīng)能夠與系統(tǒng)互動(dòng).因此,應(yīng)該為醫(yī)生提供一套接口.通過這種方式,醫(yī)生可以將他們的經(jīng)驗(yàn)和知識(shí)應(yīng)用到構(gòu)建系統(tǒng)中.知識(shí)圖譜構(gòu)建的完全手動(dòng)方法不僅耗時(shí)而且容易出錯(cuò),需要一套用于構(gòu)建醫(yī)學(xué)知識(shí)圖譜的自動(dòng)化工具.因此,通過提供接口,系統(tǒng)能夠設(shè)法將醫(yī)生的知識(shí)與自動(dòng)構(gòu)建方法結(jié)合起來.

2.2 工作流

圖2詳細(xì)展示了應(yīng)用人在回路的醫(yī)療知識(shí)圖譜構(gòu)建的工作流程. 在該系統(tǒng)中,醫(yī)生的參與主要體現(xiàn)在4個(gè)方面:同義詞匹配融合和概念對(duì)齊;新詞發(fā)現(xiàn)和新概念;標(biāo)注實(shí)體和電子病歷(EMR)的關(guān)系提??;建立規(guī)則庫,包含實(shí)體和關(guān)系提取的映射規(guī)則和模式.

圖2 應(yīng)用人在回路的醫(yī)療知識(shí)圖譜構(gòu)建的工作流程

3 構(gòu)建過程中的醫(yī)在回路

3.1 同義詞對(duì)齊模塊

現(xiàn)有的醫(yī)學(xué)知識(shí)庫是知識(shí)圖譜的重要來源.為了充分利用信息,具有相同含義的不同概念和關(guān)系必須適當(dāng)對(duì)齊并融合在一起.為了提高自動(dòng)匹配方法的準(zhǔn)確性和手動(dòng)對(duì)齊方法的效率,論文提出了一個(gè)同義詞模塊,這個(gè)模塊可以整合醫(yī)生和自動(dòng)匹配器的結(jié)果.這個(gè)模塊中有兩個(gè)階段:匹配階段,聚合階段.

該模塊在語料庫級(jí)別上工作,并且能夠跨不同的數(shù)據(jù)源操作.醫(yī)生可以在模塊中輸入新單詞或短語,然后將輸入文本傳遞到匹配器庫(一組不同的匹配器)上進(jìn)行處理.匹配庫將輸入文本的可能同義詞的候選列表返回給醫(yī)生.候選名單大約包含10個(gè)語料,這大大縮小了醫(yī)生的搜索范圍.在這之后,醫(yī)生可以自己決定列表中的語料是否是輸入文本的同義詞.如果列表中有與輸入文本同義的語料,則醫(yī)生可以將其與他們認(rèn)為最匹配的現(xiàn)有語料對(duì)齊.如果沒有,醫(yī)生可以創(chuàng)建新節(jié)點(diǎn)并且把新輸入的文本集成到語料庫中,存儲(chǔ)在同義詞庫中的詞可以用來支持實(shí)體提取.圖3為同義詞匹配模塊的工作流,圖4為概念結(jié)構(gòu)的層級(jí).

圖3 同義詞匹配模塊的工作流

圖4 概念結(jié)構(gòu)的層級(jí)

該模塊的關(guān)鍵部分是如何組織具有不同拼寫、來自不同數(shù)據(jù)源但含義相同的單詞和短語.為了解決這個(gè)問題,引入了一個(gè)層次結(jié)構(gòu)表達(dá)方式,給每個(gè)不同的概念(具有獨(dú)特含義的詞/短語)分配一個(gè)唯一的概念身份(concept identity,簡(jiǎn)稱CID). 概念可能有許多表達(dá)形式,但只有一個(gè)表達(dá)形式是首選,此首選表達(dá)式是該概念的默認(rèn)表示形式.對(duì)于具有相同含義但拼寫不同或數(shù)據(jù)源不同的表達(dá)形式,為每個(gè)表達(dá)形式分配唯一的原子標(biāo)識(shí)(atom identity,簡(jiǎn)稱AID),AID是相應(yīng)CID的子節(jié)點(diǎn).

3.2 概念編輯模塊

與在語料庫級(jí)別上工作的同義詞匹配模塊不同,該模塊在概念級(jí)別上工作,并且可以向醫(yī)生提供在概念圖上操作的接口.該概念審核模塊主要為醫(yī)生提供兩種功能:概念選擇和對(duì)齊,新詞發(fā)現(xiàn).

知識(shí)圖譜構(gòu)建的質(zhì)量在很大程度上取決于圖譜包含的概念.然而,由于醫(yī)學(xué)術(shù)語的模糊性和專業(yè)性,醫(yī)學(xué)詞庫中的概念必須由醫(yī)生仔細(xì)檢查.在建立分層次存儲(chǔ)概念的醫(yī)學(xué)詞庫之后,醫(yī)生應(yīng)該能夠根據(jù)他們自己的要求和掌握的知識(shí)來審查概念,并決定將哪些概念放入最終的概念圖譜中.

此功能類似于同義詞匹配模塊提供的服務(wù),但在概念知識(shí)圖譜級(jí)別上運(yùn)行.如果醫(yī)生想要將醫(yī)學(xué)詞庫中的新概念添加到概念圖譜中,可以輸入文本,然后輸入的字符串將被傳入醫(yī)學(xué)詞庫和概念圖譜上的搜索引擎上.醫(yī)學(xué)詞庫上的搜索引擎將返回與醫(yī)生輸入字符串對(duì)應(yīng)的概念列表,概念圖譜上的搜索引擎將從圖譜中返回與輸入字符串相似的概念列表.醫(yī)生只需要快速掃描搜索引擎提供的概念列表,而不必手動(dòng)搜索整個(gè)詞庫中的大量概念.醫(yī)生可以自己決定與輸入字符串相對(duì)應(yīng)的概念是否是新概念:如果是,醫(yī)生可以從與輸入字符串對(duì)應(yīng)的概念列表中選擇一個(gè)并添加到概念圖譜中;如果醫(yī)學(xué)詞庫上的搜索引擎沒有返回與輸入字符串對(duì)應(yīng)的結(jié)果,則進(jìn)入新詞發(fā)現(xiàn)模塊并更新醫(yī)學(xué)詞庫.圖5為概念選擇對(duì)齊模塊的工作流程.

圖5 概念選擇對(duì)齊模塊的工作流程

雖然醫(yī)學(xué)知識(shí)庫中存儲(chǔ)的信息十分豐富,但是臨床實(shí)踐中仍有醫(yī)學(xué)術(shù)語尚未納入詞庫,這些醫(yī)學(xué)術(shù)語可能來自患者的EMR,或僅僅來自醫(yī)生的先驗(yàn)知識(shí).新單詞發(fā)現(xiàn)功能為醫(yī)生提供了一組接口,醫(yī)生可以通過這些接口以定制添加不在醫(yī)學(xué)詞庫中的術(shù)語和概念.

(1) 數(shù)據(jù)驅(qū)動(dòng)方法

該方法可以從患者的EMR中獲取信息.患者的EMR記錄了患者的實(shí)際情況,可以作為構(gòu)建高質(zhì)量醫(yī)學(xué)知識(shí)圖譜的數(shù)據(jù)來源.但是,EMR的某些特征未存儲(chǔ)在概念圖譜中.表2為病人EMR的一部分.

表2 病人EMR的一部分

表2顯示了心尖部搏動(dòng)心音A2和心包摩擦都是心臟疾病診斷的重要特征.但是,這幾個(gè)特征中沒有一個(gè)可以與概念圖譜中的概念對(duì)齊.在這種情況下,醫(yī)生可以使用該模塊提供的接口將這個(gè)新概念添加到圖譜中.

(2) 需求驅(qū)動(dòng)方法

除了根據(jù)患者EMR中的特征定義概念之外,醫(yī)生可以根據(jù)自己的經(jīng)驗(yàn)定義一些概念和關(guān)系.有時(shí),EMR中的信息過于復(fù)雜,并且涉及很多方面.有些特征過于分散,而醫(yī)生只想專注于特定的幾個(gè)特征.在這種需求驅(qū)動(dòng)的方法中,醫(yī)生可以先拋開EMR,并在更高層次上定義概念和關(guān)系.圖6展示了由醫(yī)生定義的圖譜示例.

圖6 由醫(yī)生定義的概念圖譜

3.3 實(shí)體&關(guān)系標(biāo)注模塊

為了從患者的EMR中獲取信息,需要提取實(shí)體和關(guān)系,提取的質(zhì)量在很大程度上取決于標(biāo)注.然而,在醫(yī)學(xué)領(lǐng)域,有許多實(shí)體類型不符合傳統(tǒng)定義的4類范式:人名、地名、機(jī)構(gòu)名、混雜類型.例如,在臨床說明中,有疾病和癥狀、臨床發(fā)現(xiàn)、測(cè)試結(jié)果等類型的實(shí)體.如果忽略這些特定領(lǐng)域的標(biāo)簽,那么基于深度學(xué)習(xí)的提取質(zhì)量將下降.因此,標(biāo)注模塊為醫(yī)生提供了標(biāo)注患者的EMR界面.

該界面能夠加載患者EMR并向醫(yī)生呈現(xiàn)這些臨床記錄.在界面的左側(cè)列出一些預(yù)定義的實(shí)體和關(guān)系標(biāo)簽.實(shí)體標(biāo)簽包括疾病誘因、患病期、疾病名稱、胸痛部位、伴隨癥狀、放射部位、藥物名稱等.除了這些預(yù)定義的標(biāo)簽,醫(yī)生還可以根據(jù)自己的需要定制自己的標(biāo)簽.通過預(yù)先準(zhǔn)備好這些標(biāo)簽,醫(yī)生可以在文本中選擇單詞或短語,并為其分配適當(dāng)?shù)臉?biāo)簽.醫(yī)生還可以從EMR中選擇實(shí)體對(duì),并為該實(shí)體對(duì)分配關(guān)系標(biāo)簽,然后可以將實(shí)體和關(guān)系標(biāo)注的結(jié)果分別添加到實(shí)體和關(guān)系庫中以支持實(shí)體和關(guān)系提取.

為了節(jié)省醫(yī)生的時(shí)間和精力,該模塊應(yīng)與實(shí)體提取和關(guān)系提取模塊配合.數(shù)據(jù)工程師可使用機(jī)器學(xué)習(xí)模型,如CRF(conditional random field)和CNN-LSTM(convolutional neural network-long short-term memory),從臨床記錄中自動(dòng)提取信息.醫(yī)生可以專注于模型的結(jié)果,并為模型生成訓(xùn)練材料.

3.4 規(guī)則庫模塊

為了支持圖譜構(gòu)建過程,需要醫(yī)生生成兩種類型的規(guī)則:一種是從ER模型映射到RDF模型的規(guī)則,另一種是提取規(guī)則.

實(shí)例圖譜是基于RDF/OWLS(web ontology language semantics)模型進(jìn)行的.但是,目前EMR(無論是公共數(shù)據(jù)集還是私有數(shù)據(jù)集)都以ER模型存儲(chǔ)在關(guān)系數(shù)據(jù)庫中.ER模型不適合對(duì)圖結(jié)構(gòu)進(jìn)行表示,需要被轉(zhuǎn)換為RDF/OWLS模型.

如圖7所示,左側(cè)是來自一名患者的EMR的一部分,有6種類型的心音,醫(yī)生在患者的癥狀后面做標(biāo)記.右上表示直接的ER到RDF映射結(jié)果,直接將此ER模型映射到RDF/OWLS可能會(huì)導(dǎo)致RDF/OWLS極其復(fù)雜. 然而,利用醫(yī)生定義的映射規(guī)則,映射結(jié)果(右下)可以變得更加簡(jiǎn)單且更有意義. 所有6種類型的心音被分配給一個(gè)稱為“心音類型”的屬性,6種類型的心音成為這一屬性的值.

圖7 ER到RDF的映射過程

實(shí)體提取有兩種方法:一種是基于序列注釋方法,另一種是基于規(guī)則和模式的方法.基于機(jī)器學(xué)習(xí)的序列注釋方法在實(shí)體和關(guān)系提取中取得了不錯(cuò)的結(jié)果.然而,基于規(guī)則和模式的提取因其靈活性而成為序列注釋方法的一個(gè)補(bǔ)充.因?yàn)獒t(yī)生的要求經(jīng)常發(fā)生變化,這種靈活性在醫(yī)學(xué)領(lǐng)域尤為重要.通過為醫(yī)生提供定制規(guī)則和模式的界面,可以使醫(yī)生將精力更多地集中在更有意義的工作上.如果醫(yī)生想要更多地關(guān)注患者的癥狀,可以定制一些表達(dá)式,如“表現(xiàn)出*的癥狀”,“*”用作通配符以匹配表示癥狀的單詞/短語;具有匹配和提取功能的NLP(natural language processing)工具(如spaCy,jieba)也可被應(yīng)用到臨床記錄上.

4 結(jié)束語

論文介紹了一個(gè)關(guān)于醫(yī)療健康知識(shí)圖譜構(gòu)建的系統(tǒng).構(gòu)建過程的關(guān)鍵是將醫(yī)生先驗(yàn)知識(shí)和相關(guān)工作與自動(dòng)化方法相結(jié)合,以實(shí)現(xiàn)準(zhǔn)確性和效率之間的平衡.將來,作者希望能夠構(gòu)建包含事件節(jié)點(diǎn)的知識(shí)圖譜.構(gòu)造事件節(jié)點(diǎn)的過程類似論文中提到的實(shí)例節(jié)點(diǎn)和概念節(jié)點(diǎn)的構(gòu)造,有助于提高事件圖譜構(gòu)造的質(zhì)量.

猜你喜歡
詞庫圖譜實(shí)體
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
詞庫音系學(xué)的幾個(gè)理論問題芻議
主動(dòng)對(duì)接你思維的知識(shí)圖譜
環(huán)境變了,詞庫別變
電腦迷(2014年14期)2014-04-29 00:44:03
雜草圖譜
龙山县| 青川县| 和田县| 攀枝花市| 洪江市| 铜鼓县| 贺兰县| 武山县| 三亚市| 凤山市| 涞水县| 永寿县| 新郑市| 浪卡子县| 丰镇市| 东宁县| 禹州市| 宁明县| 长宁县| 德阳市| 淅川县| 无锡市| 华安县| 睢宁县| 巴楚县| 黄石市| 双桥区| 嘉定区| 乃东县| 肥西县| 翁牛特旗| 牟定县| 尤溪县| 思茅市| 宣城市| 禄丰县| 大石桥市| 年辖:市辖区| 通榆县| 石首市| 滨州市|