基于序列標(biāo)注算法比較的醫(yī)學(xué)文獻(xiàn)風(fēng)險事件抽取研究

2018-01-03 01:59:06邱武松

計算機(jī)應(yīng)用與軟件 2017年12期

關(guān)鍵詞：馬爾可夫醫(yī)學(xué)文獻(xiàn)

喻鑫張矩邱武松王飛

1(中國科學(xué)院大學(xué) 北京 100000) 2(中國科學(xué)院重慶綠色智能技術(shù)研究院重慶 400714) 3(第三軍醫(yī)大學(xué)西南醫(yī)院重慶 400038)

基于序列標(biāo)注算法比較的醫(yī)學(xué)文獻(xiàn)風(fēng)險事件抽取研究

喻鑫1,2張矩1,2邱武松2王飛3

1(中國科學(xué)院大學(xué) 北京 100000)2(中國科學(xué)院重慶綠色智能技術(shù)研究院重慶 400714)3(第三軍醫(yī)大學(xué)西南醫(yī)院重慶 400038)

醫(yī)學(xué)文獻(xiàn)快速增長，如何從醫(yī)學(xué)文獻(xiàn)文本大數(shù)據(jù)中挖掘出有價值的知識是一種巨大挑戰(zhàn)。聚焦醫(yī)學(xué)文獻(xiàn)中定量風(fēng)險語句的風(fēng)險事件抽取，構(gòu)建智能臨床決策支持系統(tǒng)醫(yī)學(xué)風(fēng)險知識庫。運用序列標(biāo)注算法中重要的隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場三種模型分別對醫(yī)學(xué)文獻(xiàn)非結(jié)構(gòu)化全文文本中風(fēng)險事件信息進(jìn)行抽取，并對算法進(jìn)行比較。從三個模型平均F1測度值來看，條件隨機(jī)場效果最好，其次為最大熵馬爾可夫模型，然后是隱馬爾可夫模型，但是每個模型都有自己對某些風(fēng)險事件抽取的準(zhǔn)確率或者召回率的優(yōu)勢。

醫(yī)學(xué)文獻(xiàn) 風(fēng)險事件隱馬爾可夫模型最大熵馬爾可夫模型條件隨機(jī)場

0 引言

隨著生物技術(shù)的發(fā)展，生物醫(yī)學(xué)文獻(xiàn)呈現(xiàn)出爆炸式增長的趨勢，美國國家醫(yī)學(xué)圖書館的PubMed醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng)中收錄的文章每年都有較大幅度增長，本文實驗中所使用的醫(yī)學(xué)文獻(xiàn)就來自于PubMed檢索系統(tǒng)。

在醫(yī)療領(lǐng)域，運用信息抽取的算法對醫(yī)學(xué)文本進(jìn)行處理是目前重要而且熱門的研究方向，它是構(gòu)建臨床決策支持系統(tǒng)[1]的基礎(chǔ)。信息抽取可以自動幫助人們從日益增長的海量信息中快速找到自己真正需要的信息，并用結(jié)構(gòu)化的格式進(jìn)行表示[2-4]。其中，文本信息抽取是從自然語言文本中自動抽取信息的技術(shù)。美國高級研究計劃署(DARPA)所資助的信息理解會議MUC(Message Understanding Conference)促進(jìn)了文本信息抽取的發(fā)展。

本文對醫(yī)學(xué)風(fēng)險信息的抽取對臨床醫(yī)學(xué)操作評判有著重要的預(yù)警和決策分析作用，對已發(fā)生的醫(yī)學(xué)事故有著重要的評估作用。醫(yī)學(xué)中風(fēng)險分析研究一直都受到大家的關(guān)注。風(fēng)險是引起不幸和損失的可能性，在流行病學(xué)、臨床醫(yī)學(xué)和日常生活具有重要地位，醫(yī)學(xué)風(fēng)險信息有助于疾病的認(rèn)識、預(yù)防和治療[5]。一個重要的應(yīng)用就是在醫(yī)學(xué)領(lǐng)域決策支持中引入風(fēng)險分析[6]。

目前對醫(yī)學(xué)文本風(fēng)險信息的抽取集中在對病歷文本知識的抽取[7]中，通過對病歷中治療指標(biāo)的抽取和分析，獲取其中的風(fēng)險信息。然而，對醫(yī)學(xué)文獻(xiàn)文本進(jìn)行風(fēng)險信息抽取的研究卻較少。一方面，醫(yī)學(xué)文獻(xiàn)中風(fēng)險的表現(xiàn)形式各有不同[8]，另一方面，閱讀醫(yī)學(xué)文獻(xiàn)需要花費較長時間。但是，如果醫(yī)生遇到已有知識和已有病例無法解決的問題，這時候從醫(yī)學(xué)文獻(xiàn)中獲取知識極其關(guān)鍵，本文就是解決從醫(yī)學(xué)文獻(xiàn)中快速獲取風(fēng)險知識的問題。由于醫(yī)學(xué)文獻(xiàn)文本屬于非結(jié)構(gòu)化文本，信息噪聲太大，對它的處理難度較大，所以對醫(yī)學(xué)文獻(xiàn)處理大部分都集中在對醫(yī)學(xué)文獻(xiàn)中摘要的處理，摘要是全文的濃縮，文本量小，處理起來要簡單一點。Deleris等從醫(yī)學(xué)文獻(xiàn)的摘要中對風(fēng)險信息進(jìn)行抽取[9]。Jochim等所使用的風(fēng)險信息語料庫就是從PubMed中200篇乳腺癌文獻(xiàn)摘要中得到的[10]。但文獻(xiàn)摘要會大面積舍掉正文信息，產(chǎn)生信息損失，存在著缺陷，所以本文嘗試對文獻(xiàn)全文進(jìn)行處理。Jochim等對條件事件和結(jié)果事件進(jìn)行了定義，并運用條件隨機(jī)場的方法識別風(fēng)險條件事件和風(fēng)險結(jié)果事件[10]。

本文從醫(yī)學(xué)文獻(xiàn)中提取風(fēng)險信息知識不同于目前研究較多的醫(yī)學(xué)命名實體以及實體之間關(guān)系的提取。醫(yī)學(xué)實體之間關(guān)系的抽取是一個文本中兩個或者更多特定醫(yī)學(xué)實體之間關(guān)系的識別[11-12]，是醫(yī)學(xué)本體研究的重要基礎(chǔ)，其中比較重要的是確定醫(yī)學(xué)命名實體類別(如診斷、癥狀和治療等)和實體之間關(guān)系類別(如上下位、同義詞等關(guān)系，當(dāng)然也包括治療、預(yù)防等關(guān)系)。

1 風(fēng)險事件抽取

1.1 醫(yī)學(xué)風(fēng)險事件語料庫

醫(yī)學(xué)文獻(xiàn)中的風(fēng)險語句一般指的是已發(fā)表出來的醫(yī)學(xué)文獻(xiàn)文本中包含有對疾病的產(chǎn)生、發(fā)展、癥狀呈現(xiàn)、診斷治療、監(jiān)測隨訪等有影響因素的語句，因素可能是單一的，也可能是混合的，當(dāng)然因素也可以包括其他疾病。風(fēng)險語句分為定性風(fēng)險語句和定量風(fēng)險語句，定性風(fēng)險語句是用敘述的形式來進(jìn)行說明，例如，“The highest risk is seen in women with lobular carcinoma in situ (LCIS), but this is very rare.”。而定量風(fēng)險語句是指帶有數(shù)值說明的風(fēng)險語句，其中分為普通數(shù)字(不算百分?jǐn)?shù))和百分?jǐn)?shù)兩種，舉個帶有普通數(shù)字(不算百分?jǐn)?shù))的風(fēng)險語句的例子，“More common is atypical hyperplasia (AH), which carries a 4-5-fold risk of breast cancer as compared to general population.”，再舉個帶有百分?jǐn)?shù)的風(fēng)險語句的例子，“Tamoxifen has been shown to be particularly effective in preventing subsequent breast cancer in women with AH, with a more than 70% reduction in the P1 trial and a 60% reduction in IBIS-I.”。本文中所說到的風(fēng)險語句指的是帶有百分?jǐn)?shù)的強(qiáng)風(fēng)險定量信息語句。

風(fēng)險語句中的風(fēng)險事件指的是風(fēng)險語句中關(guān)于其百分?jǐn)?shù)描述的相關(guān)事件，本文重點關(guān)注針對百分?jǐn)?shù)的影響說明元素、被影響說明元素、提示說明元素、來源說明元素、風(fēng)險程度說明元素，如表1所示。影響說明元素，是指風(fēng)險語句中產(chǎn)生影響的元素；被影響說明元素，是指風(fēng)險語句中受到影響的元素；提示說明元素最能表明這是風(fēng)險語句的標(biāo)志，如存活率、復(fù)發(fā)率、死亡率等；來源說明元素指的是風(fēng)險語句信息數(shù)據(jù)來自哪里，大多數(shù)情況下，數(shù)據(jù)來自作者的實驗結(jié)果，但是也有可能來自臨床指南，或綜述報告等；風(fēng)險程度說明元素指的是風(fēng)險數(shù)據(jù)的修飾術(shù)語，如大約、精確、可能等。舉個例子，“Tamoxifen has been shown to be particularly effective in preventing subsequent breast cancer in women with AH, with a more than 70% reduction in the P1 trial and a 60% reduction in IBIS-I.”，對于百分?jǐn)?shù)70%，影響說明元素為T(t)amoxifen，被影響說明元素為breast cancer in women with AH (atypical hyperplasia)，提示說明元素為reduction，來源說明元素是P1 trial，風(fēng)險程度說明元素為more than；對于百分?jǐn)?shù)60%，影響說明元素為T(t)amoxifen，被影響說明元素為breast cancer in women with AH (atypical hyperplasia)，提示說明元素為reduction，來源說明元素是IBIS-I，無風(fēng)險程度說明元素。

表1 風(fēng)險事件類別

1.2 隱馬爾可夫模型

隱馬爾可夫模型HMM(Hidden Markov Model)[13]與馬爾可夫模型不同，隱馬爾可夫模型中包含一個隱藏狀態(tài)序列和一個觀察狀態(tài)序列。對隱馬爾可夫模型而言，模型中狀態(tài)之間的轉(zhuǎn)換是隱藏的，觀察狀態(tài)的隨機(jī)過程是狀態(tài)之間轉(zhuǎn)換的隨機(jī)函數(shù)[14]。

其中對隱馬爾可夫模型作如下假設(shè)：下一個隱藏狀態(tài)只與前一個隱藏狀態(tài)有關(guān)，觀察狀態(tài)的概率只與當(dāng)前隱藏狀態(tài)有關(guān)。符合這種假設(shè)的隱馬爾可夫模型也就是我們常說的一階隱馬爾可夫模型。

從隱馬爾可夫模型的介紹中就可以看出來，一個HMM=(N,M,A,B,π) 過程由五部分組成：

(1) 隱藏狀態(tài)的數(shù)目N；

(2) 觀察狀態(tài)的數(shù)目M；

(3) 隱藏狀態(tài)之間轉(zhuǎn)換的概率矩陣A={aij}；

(4) 從隱藏狀態(tài)到觀察狀態(tài)的概率矩陣B={bj(k)}；

(5) 初始狀態(tài)概率矩陣π={πi}。

給定一個觀察狀態(tài)序列O={o1,o2,…,oT}和模型M=(A,B,π)找出最優(yōu)的隱藏狀態(tài)序列S={s1,s2,…,sT}，任務(wù)是要求解：

(1)

對于解碼問題，常用解法是采用維特比(Viterbi)算法，維特比算法是運用動態(tài)規(guī)劃的方法求解最優(yōu)隱藏狀態(tài)序列[14]。

(1) 初始化計算：

β1(i)=πibi(o1)

(2)

φ1(i)=0

(3)

(2) 中間動態(tài)規(guī)劃計算：

(4)

(5)

(3) 結(jié)束計算：

(6)

(7)

(4) 路徑回溯：

(8)

對于隱馬爾可夫模型中參數(shù)學(xué)習(xí)問題，本文中由于語料庫有限，先通過似然估計的方法確定參數(shù)，再通過Baum-Welch算法實現(xiàn)參數(shù)收斂。

1.3 最大熵馬爾可夫模型

最大熵馬爾可夫模型MEMM(Maximum Entropy Markov Model)[15-16]是在隱馬爾可夫模型基礎(chǔ)上增加了最大熵模型特點。由于隱馬可夫模型采用生成式聯(lián)合概率模型解決條件概率問題時不能用多特征進(jìn)行刻畫，最大熵馬爾可夫模型運用最大熵的辦法彌補這個缺點[14]。

隱馬爾可夫模型中當(dāng)前時刻觀察輸出取決于當(dāng)前隱藏狀態(tài)，最大熵馬爾可夫模型中當(dāng)前時刻觀察輸出除了取決于當(dāng)前隱藏狀態(tài)，也可能取決于前一時刻的隱藏狀態(tài)。

假設(shè)觀察狀態(tài)序列為O={o1,o2,…,oT}，隱藏狀態(tài)序列為S={s1,s2,…,sT}，解碼問題需要求解：

(9)

(10)

前一時刻狀態(tài)取值st-1用s′表示，當(dāng)前觀察序列值ot用o表示，運用最大熵原理：

P(s|s′，o)=Ps′(s|o)

(11)

(12)

式中：λa是需要學(xué)習(xí)的參數(shù)，Z(o,s′)是歸一化因子，使得∑sP(s|o)=1 ，而fa(o,s)是特征函數(shù)。特征函數(shù)fa(o,s)包含兩個參數(shù)，一個當(dāng)前觀察值，一個可能的隱藏狀態(tài)值，特征函數(shù)通過a=定義，b是二分特征值，s是狀態(tài)值：

fa(ot,st)=f(ot,st)

(13)

(14)

MEMM中對隱藏標(biāo)注序列的求解，也是用到Viterbi算法，不過需要在隱馬爾可夫模型所使用的Viterbi算法基礎(chǔ)上進(jìn)行改進(jìn)[16]，改進(jìn)后的算法如下：

(1) 初始化計算：

β1(i)=πipi(s|o1)

(15)

φ1(i)=0

(16)

(2) 中間動態(tài)規(guī)劃計算：

(17)

(18)

(3) 結(jié)束計算：

(19)

(20)

(4) 路徑回溯：

(21)

最大熵隱馬爾可夫模型的參數(shù)訓(xùn)練采用的是GIS算法。

1.4 條件隨機(jī)場

條件隨機(jī)場CRF(Conditional Random Field)[17-18]是一種由John Lafferty等于2001年提出的概率化無向圖，對于輸出標(biāo)識序列Y和觀察序列X，條件隨機(jī)場通過定義條件概率P(Y|X)，而不是聯(lián)合概率P(X,Y)描述模型。以觀察序列X為條件，每一個隨機(jī)變量滿足馬爾可夫特性[14]。

同樣，假設(shè)觀察狀態(tài)序列為O={o1,o2,…,oT}，隱藏狀態(tài)序列為S={s1,s2,…,sT}，則P(S|O)正比于：

(22)

式中：pj(si-1,si,O,i)表示觀察序列O的隱藏序列在i-1到i之間的轉(zhuǎn)移概率函數(shù)，qk(si,O,i)表示已知觀察序列o在i時的狀態(tài)標(biāo)記概率函數(shù)。

根據(jù)最大熵模型的方法，兩個特征函數(shù)可以通過二值特征表示，特征函數(shù)統(tǒng)一表示為：

(23)

那么條件隨機(jī)場的條件概率分布可以表示為：

(24)

分母為歸一化因子，表示為：

(25)

條件隨機(jī)場中對于隱藏標(biāo)注序列的求解同理于MEMM中改進(jìn)的Viterbi算法，而參數(shù)估計使用的是L-BFGS算法，算法通過對訓(xùn)練集進(jìn)行迭代來求解。

1.5 特征選擇

把SNOMED CT(Systematized Nomenclature of Medicine Clinical Terms)中的醫(yī)學(xué)臨床術(shù)語集和風(fēng)險事件語料庫中的術(shù)語集組成醫(yī)學(xué)術(shù)語詞典，通過借鑒中文分詞的最大正向匹配算法把風(fēng)險語句中的有關(guān)關(guān)鍵詞抽取出來，可以極大過濾掉無用信息，接著就可以通過序列標(biāo)注算法對抽取出來的醫(yī)學(xué)術(shù)語進(jìn)行標(biāo)注。

對于隱馬爾可夫模型，需要在已知觀察序列和訓(xùn)練語料庫下，先通過參數(shù)學(xué)習(xí)，接著通過Viterbi算法求解得到最合適的隱藏狀態(tài)標(biāo)注序列。

對于最大熵馬爾可夫模型和條件隨機(jī)場，需要解決三個基本問題：特征選取、參數(shù)訓(xùn)練以及實驗解碼。兩種算法采用條件概率模型和改進(jìn)后的Viterbi算法來進(jìn)行求解隱藏標(biāo)注序列。對于其中的最大熵過程，需要選擇合適的特征。特征選取決定著特征函數(shù)，會直接影響到序列標(biāo)注實驗效果。如果特征集選擇過大，可能會出現(xiàn)過擬合現(xiàn)象；特征集過小，可能會降低實驗準(zhǔn)確率。特征選擇需要考慮到上下文統(tǒng)計信息的重要性，上下文指的是當(dāng)前詞在術(shù)語抽取集中的前面若干詞和后面若干詞組成的窗口。窗口太小，就不能獲得更多有用信息，然而窗口太大，就會占用更多資源，效率反而會有所下降。詞性是信息提取中極其重要有效的特征，特征選擇中一般需要同時考慮到詞性，如風(fēng)險程度事件更加集中于形容詞(組)、副詞(組)等。本文中詞性采用的是賓州樹庫詞性標(biāo)注類型，其中對詞組和單獨詞表示方式不同，通過詞性就可以看出來這個詞是一個單獨詞(一個單詞)還是一個詞組(兩個單詞及以上)，如“cancer”的詞性為NN，而“breast cancer”詞性為NP。特征模板除了詞和詞性兩種以外，還對當(dāng)前詞進(jìn)行了一些其他判斷，包括當(dāng)前詞是不是本組中第一個詞，當(dāng)前詞是不是數(shù)字開頭，以及當(dāng)前詞中是否有連詞。實驗中選擇的特征模板如表2所示。

表2 特征模板

2 實驗與分析

2.1 實驗準(zhǔn)備

從美國國家醫(yī)學(xué)圖書館PubMed檢索系統(tǒng)中獲得醫(yī)學(xué)文獻(xiàn)文本，轉(zhuǎn)換為統(tǒng)一文本格式，構(gòu)建醫(yī)學(xué)文獻(xiàn)文本語料集。從醫(yī)學(xué)文獻(xiàn)文本中得到強(qiáng)風(fēng)險定量信息語句，進(jìn)而構(gòu)建風(fēng)險事件語料庫。實驗選取風(fēng)險事件語料庫中的3/4(3 140)事件作為訓(xùn)練語料，剩下的1/4(1 049)事件作為測試語料，用隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場分別對訓(xùn)練語料進(jìn)行學(xué)習(xí)，然后分別對測試語料進(jìn)行測試。本文選用常用的準(zhǔn)確率、召回率和F1測度值進(jìn)行結(jié)果測試，通過實驗得到每個模型每種事件抽取的準(zhǔn)確率、召回率和F1測度值，以及每個模型所有事件抽取的F1平均測度值：

(26)

(27)

(28)

(29)

2.2 實驗結(jié)果

隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場抽取風(fēng)險事件的結(jié)果分別為表3、表4和表5，隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場模型事件抽取的平均F1測度值的結(jié)果為表6。

表4 最大熵馬爾可夫模型(MEMM)風(fēng)險事件提取結(jié)果

續(xù)表4

表5 條件隨機(jī)場(CRF)風(fēng)險事件提取結(jié)果

表6 序列標(biāo)注算法風(fēng)險事件抽取平均F1測度值比較

2.3 實驗分析

對比隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場提取效果，進(jìn)行分析比較。

從三個模型平均F1測度值來看，條件隨機(jī)場效果最好，其次為最大熵馬爾可夫模型，然后是隱馬爾可夫模型，但是每個模型都有自己對某些事件抽取的準(zhǔn)確率或者召回率的優(yōu)勢。對于影響說明元素，條件隨機(jī)場的準(zhǔn)確率要高，最大熵馬爾可夫模型召回率要高；對于被影響說明元素，最大熵馬爾可夫模型的準(zhǔn)確率最高，條件隨機(jī)場的召回率最高；對于提示說明元素，條件隨機(jī)場的準(zhǔn)確率和召回率都是最高的；對于來源說明元素，最大熵馬爾可夫模型準(zhǔn)確率最高，隱馬爾可夫模型的召回率最高；對于程度說明元素，條件隨機(jī)場的準(zhǔn)確率和召回率都是最高的；對于其他我們不需要的情況，最大熵馬爾可夫模型的準(zhǔn)確率要高，隱馬爾可夫模型的召回率要高。從三個模型的各個元素F1值來看，三個模型的提示說明元素和程度說明元素效果都還可以，而來源說明元素普遍效果較差。從事件的重要程度來看，最為重要的當(dāng)然是影響事件元素和被影響事件元素，三個模型中條件隨機(jī)場對這兩種事件的抽取F1值都超過了50%，而且都高于其他兩種模型。

從準(zhǔn)確率來看，準(zhǔn)確率高的一般變化形式較少，例如，提示說明元素一般集中在risk、rate、survival等，這些詞出現(xiàn)在句子中大部分時候就是提示說明元素，屬于其他類別事件的情況較少。程度說明元素集中在形容詞和副詞，如around、high、about等，而且這些詞出現(xiàn)大部分就是程度說明元素，屬于其他類別情況較少。最大熵馬爾可夫模型的來源說明元素準(zhǔn)確率極高，來源說明元素一般集中在帶有report、review和guideline等詞中，而且與上下文關(guān)系較為密切。從召回率來看，從三個模型所有事件召回率來看，未有高于85%的，召回率不是太高，說明三個模型在大部分事件提取中，還有很多相應(yīng)事件沒有找出來，查全不夠，測試語料中的相應(yīng)事件的未登錄詞的識別差、召回率低。隱馬爾可夫模型是基于獨立假設(shè)的，如果以隱馬爾可夫模型為基準(zhǔn)，可以看出，允許用特征來刻畫觀察序列有助于信息的抽取。

從醫(yī)學(xué)文獻(xiàn)文本中抽取風(fēng)險事件，面臨的最大問題可能就是實驗文本為非結(jié)構(gòu)化醫(yī)學(xué)文獻(xiàn)全文文本，自然語言處理起來噪聲太大，無關(guān)信息太多，作者句子中用詞風(fēng)格各有不同，與臨床標(biāo)準(zhǔn)術(shù)語集之間也有著很大的鴻溝，為醫(yī)學(xué)文獻(xiàn)文本信息抽取增加了很大難度。當(dāng)然本實驗中抽取的事件類別較多，也無形中增添了更多難度。另一個比較大的問題是語料庫太小，未登錄詞處理量大，嚴(yán)重影響實驗結(jié)果。

從結(jié)果來看，有些難點問題需要特別說明一下：

1) 并列式，以and或者or聯(lián)合起來的事件。

2) 指代式，如果句子中表示事件的詞是指代詞(如it等)的話，這可能就需要通過前面句子才能理解指代詞到底指代的是什么。

3) 拼接式，如果句子中表示事件的詞表示不夠完整，需要當(dāng)前句子中的其他詞，或者前面句子中的詞拼接到一起才是完整的事件表示詞。

后面要繼續(xù)努力的方向還很多，如風(fēng)險語句邊界確定問題、風(fēng)險事件邊界確定問題、無關(guān)信息詞的去除問題和醫(yī)學(xué)領(lǐng)域本體構(gòu)建問題等。

3 結(jié) 語

本文運用序列標(biāo)注算法對醫(yī)學(xué)文獻(xiàn)文本中風(fēng)險信息進(jìn)行了提取，構(gòu)建了風(fēng)險事件語料庫，比較了序列標(biāo)注算法中隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場三種模型的抽取效果，從每個模型的平均F1測度值來看，條件隨機(jī)場效果最好，其次是最大熵馬爾可夫模型，然后是隱馬爾可夫模型。當(dāng)然本研究還有很大的完善空間，如語料庫還是太?。粚Ψ墙Y(jié)構(gòu)化文獻(xiàn)全文而言，信息抽取處理起來難度還是很大；還未結(jié)合規(guī)則化處理事件類別等。

[1] 陳黎明,卞麗芳,馮志仙.基于護(hù)理電子病歷的臨床決策支持系統(tǒng)的設(shè)計與應(yīng)用[J].中華護(hù)理雜志,2014,49(9):1075-1079.

[2] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計算機(jī)工程與應(yīng)用,2003,39(10):1-5.

[3] 孫師堯,妙全興.基于改進(jìn)SVM和HMM的文本信息抽取算法[J].計算機(jī)應(yīng)用與軟件,2015,32(11):281-284.

[4] 張國慶.基于生物醫(yī)學(xué)文獻(xiàn)的知識發(fā)現(xiàn)方法研究[D].華中科技大學(xué),2006.

[5] Edwards A,Prior L,Butler C,et al.Communication about risk-Dilemmas for general practitioners[J].British Journal of General Practice,1997,47(424 ):739-742.

[6] Deleris L A,Deparis S,Sacaleanu B,et al.Risk Information Extraction and Aggregation[M]//Algorithmic Decision Theory.Springer Berlin Heidelberg,2013:154-166.

[7] 李瑩.文本病歷信息抽取方法研究[D].浙江大學(xué),2009.

[8] Crowson C S,Therneau T M,Matteson E L,et al.Primer:demystifying risk-understanding and communicating medical risks[J].Nature Clinical Practice Rheumatology,2007,3(3):181-187.

[9] Deleris L A,Sacaleanu B,Tounsi L.Extracting risk modeling information from medical articles[J].Studies in Health Technology & Informatics,2013,192(192):1158.

[10] Jochim C,Sacaleanu B,Deleris L A.Risk event and probability extraction for modeling medical risks[C].2014 AAAI Fall Symposium Series on Natural Language Access to Big Data.2014:26-33.

[11] 夏涵.基于本體的醫(yī)學(xué)命名實體識別技術(shù)研究[D].上海交通大學(xué),2012.

[12] Ben A A,Zweigenbaum P.Automatic extraction of semantic relations between medical entities:a rule based approach[J].Journal of Biomedical Semantics,2011,2(S5):S4.

[13] 于江德,肖新峰,樊孝忠.基于隱馬爾可夫模型的中文文本事件信息抽取[J].微電子學(xué)與計算機(jī),2007,24(10):92-94.

[14] 宗成慶.統(tǒng)計自然語言處理[M].清華大學(xué)出版社,2008.

[15] Rabiner L R,Juang B H.An introduction to hidden Markov models[J].IEEE ASSP Magazine,1986,3(1):4-16.

[16] 林亞平,劉云中,周順先,等.基于最大熵的隱馬爾可夫模型文本信息抽取[J].電子學(xué)報,2005,33(2):236-240.

[17] 王勝,朱明.基于最大熵馬爾可夫模型的地址信息抽取[J].計算機(jī)工程與應(yīng)用,2005,41(21):192-194.

[18] 張金龍,王石,錢存發(fā).基于CRF和規(guī)則的中文醫(yī)療機(jī)構(gòu)名稱識別[J].計算機(jī)應(yīng)用與軟件,2014,31(3):159-162,198.

[19] 范巖.基于條件隨機(jī)場模型的中醫(yī)文獻(xiàn)知識發(fā)現(xiàn)方法研究[D].北京交通大學(xué),2009.

RESEARCHONMEDICALDOCUMENTRISKEVENTEXTRACTIONBASEDONCOMPARISONOFSEQUENCEMARKINGALGORITHMS

Yu Xin1,2Zhang Ju1,2Qiu Wusong2Wang Fei3

1(UniversityofChineseAcademyofSciences,Beijing100000,China)2(ChongqingInstituteofGreenandIntelligentTechnology,ChineseAcademyofSciences,Chongqing400714,China)3(SouthwestHospital,theThirdMilitaryMedicalUniversity,Chongqing400038,China)

With the rapid growth of medical literature, it is a huge challenge to extract valuable knowledge from big data in medical literature text. This paper focused on the event extraction of quantitative risk statements in medical literature, and constructed the knowledge base of intelligent clinical decision support system. Firstly, the risk events corresponding to the quantitative risk information were extracted from the medical literature, and then the risk events were processed. The hidden Markov model, the maximum entropy Markov model and the conditional random field model were used to extract the information of the risk events in medical literature unstructured full text, and the algorithms were compared. From the average F1 of three models, conditional random field was the best, followed by maximum entropy Markov model, and then the hidden Markov model, but each model had its own advantage of certain event extraction accuracy or recall.

Medical literature Risk event Hidden Markov model Maximum entropy Markov model Conditional random field

2017-02-14。重慶市社會民生科技創(chuàng)新專項項目(cstc2015shmszx120025)。喻鑫，碩士生，主研領(lǐng)域：機(jī)器學(xué)習(xí)，自然語言處理。張矩，研究員。邱武松，助理研究員。王飛，工程師。

TP391

10.3969/j.issn.1000-386x.2017.12.011

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于序列標(biāo)注算法比較的醫(yī)學(xué)文獻(xiàn)風(fēng)險事件抽取研究

0 引 言

1 風(fēng)險事件抽取

2 實驗與分析

3 結(jié) 語

0 引言