蘇婭 劉杰 黃亞樓
?
在線醫(yī)療文本中的實體識別研究
蘇婭 劉杰?黃亞樓
南開大學計算機與控制工程學院(軟件學院), 天津 300071; ? 通信作者, E-mail: nkjieliu@gmail.com
針對在線醫(yī)療文本, 設計考慮醫(yī)療領域特性的識別特征, 并在自建數(shù)據(jù)集上進行實體識別實驗。針對常見的5類疾病: 胃炎、肺癌、哮喘、高血壓和糖尿病, 采用近年來較先進的機器學習模型條件隨機場, 進行訓練和測試, 抽取目標實體包括疾病、癥狀、藥品、治療方法和檢查5類。通過采用逐一添加特征的實驗方式, 驗證所提特征的有效性, 取得總體上81.26%的準確率和60.18%的召回率, 隨后對識別特征給出進一步分析。
實體識別; 數(shù)據(jù)挖掘; 條件隨機場; 醫(yī)療信息
隨著生活水平的提高, 人們對于健康問題日益關注?;ヂ?lián)網(wǎng)行業(yè)的迅猛發(fā)展催生一大批在線醫(yī)療社區(qū)和醫(yī)療信息網(wǎng)站, 為患者提供了多元化的醫(yī)療信息獲取渠道[1]。這些網(wǎng)站主要以健康知識、疾病信息、醫(yī)療新聞等為主要內(nèi)容, 同時也提供用戶在線疾病問答功能。國內(nèi)比較知名的有新浪健康、尋醫(yī)問藥、好大夫在線、39問醫(yī)生等。據(jù)調(diào)查, 單是尋醫(yī)問藥網(wǎng)就包含2004年11月24日至今十余年的疾病問答數(shù)據(jù), 每天還會涌現(xiàn)數(shù)萬條新提問。日積月累, 這些疾病問答信息將匯成一股非常可觀的大數(shù)據(jù)。這樣的數(shù)據(jù)有著廣泛的參與人群, 其中包含大量真實的個人案例, 潛藏著豐富的醫(yī)療價值。然而, 它們在文本中大多處于一種非結(jié)構(gòu)化的狀態(tài)。為了實現(xiàn)信息的充分利用, 抽取和挖掘出其中有用的醫(yī)療知識, 進行命名實體識別通常是第一步。
目前, 在醫(yī)療領域, 針對電子病歷、各種醫(yī)療報告、醫(yī)學文獻等的實體識別工作已有不少, 但針對醫(yī)療問答網(wǎng)站中的疾病問答信息尚未見相關研究。本文針對這樣的問答信息, 首次進行實體識別和挖掘工作。本文抽取的實體類別包括疾病、癥狀、藥品、治療方法和檢查5類。在特征選取方面, 除使用一般的實體識別文本特征(例如符號特征、詞性特征、英文數(shù)字特征等)外, 還添加了醫(yī)療領域特有的一些特征(包括詞的后綴特征、身體部位指示詞特征)來輔助完成識別和抽取工作, 最終在自建數(shù)據(jù)集上達到81.26%的準確率和60.18%的召回率。
1 相關工作
命名實體識別是自然語言處理領域一個重要的研究方向, 1995年舉行的第六屆消息理解會議(MUC-6)[2]正式提出命名實體識別任務。它作為文本挖掘中的第一步, 主要任務是識別文本中代表其知識主體的詞語。MUC將命名實體定義為兩類: 專有名詞和數(shù)量詞。在不斷的研究中, 命名實體的含義和范圍也在持續(xù)地豐富和擴展。MUC之后, 出現(xiàn)自動內(nèi)容抽取會議(Automatic Content Extraction, ACE)[3], 它由美國國家標準技術研究院(NIST)組織創(chuàng)辦, 從1999年至今已經(jīng)舉辦多次關于信息內(nèi)容自動抽取的評測任務, ACE數(shù)據(jù)集已經(jīng)成為測試新的信息抽取算法的公認標準。
在生物醫(yī)學領域, 識別對象集中在以下幾類: 電子醫(yī)療記錄、醫(yī)學文獻和在線醫(yī)療社區(qū)。目前比較集中的研究是針對醫(yī)學文獻中的基因、蛋白質(zhì)、藥物名、組織名等進行的生物命名實體識別工作[4]。隨著醫(yī)療系統(tǒng)的信息化, 出現(xiàn)大量針對電子病歷進行的識別工作, 目前識別值一般在0.82左右[5]。
命名實體的識別方法包括3種: 基于詞典的方法、基于啟發(fā)式規(guī)則的方法和基于機器學習的方法?;谠~典的方法通過字符串匹配實現(xiàn)實體識別, 但對詞典有很強的依賴性。在國外, 英文醫(yī)療實體識別日趨成熟, 可供參考的資料也比較詳實, 最著名的詞典包括國際疾病分類ICD-10 (Interna-tional Classification of Diseases-10)[6]、醫(yī)學一體化語言UMLS(Unified Medical Language System)[7]和醫(yī)學主題詞表MeSH(Medical Subject Headings)[8]。在中文方面, 國內(nèi)研究還較少, 可使用的資源也相對匱乏。在基于啟發(fā)式規(guī)則的方法方面, Kraus等[9]針對大學醫(yī)療系統(tǒng)的臨床記錄, 通過構(gòu)建正則表達式, 對其中提及的藥品、劑量、服用方法等信息進行識別。目前比較流行的是基于機器學習的方法。
命名實體識別可以看成一個分類問題, 采用類似支持向量機、貝葉斯模型等分類方法, 同時, 也可以看成一個序列標注問題, 采用隱馬爾可夫、最大熵馬爾可夫、條件隨機場等機器學習方法[10]。Sondhi等[11]針對醫(yī)療論壇HealthBoards上的疾病話題信息, 利用SVM和CRF方法進行淺層的信息抽取。在中文方面, 葉楓等[12]自建詞典, 采用條件隨機場對電子病歷中的疾病、臨床癥狀、手術操作3類比較常見的命名實體進行識別, 達到90%以上的值。王世昆等[13]對明清古醫(yī)案中的癥狀和病機進行識別, 采用CRF和SVM分別進行訓練和測試, 是在中文方面的較為大膽的嘗試。
2 模型和特征選取
在前面提到的眾多方法中, 條件隨機場是一種較優(yōu)秀的識別方法, 它不僅去除了HMM中的獨立性假設, 而且通過全局的歸一化解決了標記偏置的問題, 在命名實體識別、詞性標注等問題上都取得不錯的效果。如果采用CRF建立疾病問答中的實體識別模型, 將更易于融合新的特征, 使用有重疊性非獨立的特征。利用其強大的推理能力, 有可能識別出訓練語料中未出現(xiàn)的情況。因此, 本文選擇CRF模型進行醫(yī)療文本中命名實體的識別。
2.1 條件隨機場模型
條件隨機場(Conditional Random Fields, CRF)是一種無向圖模型, 1958年由Luhn[14]提出。它提供了一種概率框架, 計算在給定一個觀察數(shù)據(jù)序列= (1,2, …,x)的條件下, 該序列所對應標簽序列= (1,2, …,y)整體出現(xiàn)的概率[15], 即
其中= (1,2, …,)代表模型參數(shù),(,) 是任意定義的以為參數(shù)關于觀察序列和標簽序列的特征函數(shù),(;)是歸一化因子。
用CRF模型進行命名實體識別, 可以視為一個序列標注問題。將要識別的每個句子作為一個觀察序列, 句子中的每個詞作為一個符號, 為每一個符號賦予一個類別標簽。CRF模型最簡單的一個結(jié)構(gòu)就是鏈式結(jié)構(gòu)[16], 如圖1所示。
進行模型訓練時, 給定一個訓練數(shù)據(jù)集= {(1,1), (2,2), …, (X,Y)}, 其對應的經(jīng)驗分布為, 一般可以通過最大化對數(shù)似然值, 得出模型參數(shù)估計:
為了避免過擬合, 可以運用一些調(diào)整的方法, 通常在參數(shù)上加上高斯先驗, 目標函數(shù)()就變?yōu)?/p>
其中是高斯先驗的方差。得到參數(shù)之后, 可以進一步推斷給定目標序列最可能的標簽序列:
目前已有一些成熟的算法可以用來推斷這一值, 比如Viterbi算法[17]。
2.2 特征選取
對于CRF模型, 特征的選取很關鍵。通過對疾病問答文本的分析, 本文選擇以下特征進行識別。
1)符號特征。中文之間沒有類似英文空格的天然分隔符, 因此在進行實體識別時, 需要首先進行分詞操作, 將分詞之后的每一個詞語作為符號特征。為提高分詞準確率, 引入自定義詞典。通過從多個輸入法(包括搜狗、百度、QQ)和醫(yī)療網(wǎng)站(尋醫(yī)問藥、好大夫在線等)中分別獲取, 去重合并之后綜合成疾病、癥狀、藥物、檢查、治療方法和身體部位詞語6類輔助詞典。
2)詞性特征。在病人描述中經(jīng)常會出現(xiàn)“患”、“服用”、“吃”等動詞, 這些詞后會出現(xiàn)疾病名或者藥品名, 這就為實體的邊界的識別提供了線索。在本文中, 該特征即為采用Ansj分詞后的詞性。本文采用開源代碼庫Github上的Ansj[18]系統(tǒng)的分詞詞性作為這一維特征。
3)形態(tài)特征。形態(tài)特征指當前詞的構(gòu)成情況, 包括兩個特征: 英文字母特征和數(shù)字特征。英文字母特征用于標記詞當中是否包含有英文字母, 因為對于檢查來說, 經(jīng)常會出現(xiàn)“ct”、“MRI”之類的英文, 而在疾病名、藥物等類別中卻不常出現(xiàn)。同樣, 數(shù)字特征用于標記該詞是否由數(shù)字構(gòu)成。
4)后綴特征。在英文命名實體識別中, 經(jīng)常采用詞的后綴特征進行識別, 并且被證明是有效的。本文研究工作雖然是針對中文開展的命名實體識別, 但經(jīng)觀察發(fā)現(xiàn), 文本中的各類醫(yī)療實體也有一定的規(guī)律性, 比如病名通常以“病”、“癥”這類詞結(jié)尾, 而藥品則以“顆?!?、“丸”、“劑”等詞語結(jié)尾, 治療方法則常以“術”結(jié)尾。因此, 本文也加入后綴特征, 即選取詞語的最后一個字作為特征。
5)身體部位指示詞特征。該特征用于標記當前詞是否為身體部位相關的詞語, 因為這樣的詞語在癥狀描述中經(jīng)常出現(xiàn)。
6)上下文特征。在詞語組成的序列中, 上下文之間存在相關性, 該特征即為CRF模型中的邊的特征。當選用不同的窗口長度時, 將對各種特征進行組合, 形成新的特征。
3 在線醫(yī)療文本中的實體識別
針對在線醫(yī)療文本信息, 我們主要考慮表1中顯示的5類命名實體。實體識別流程如圖2所示, 主要包括預處理、特征計算、CRF模型訓練、實體識別和識別結(jié)果抽取。首先對獲取的在線醫(yī)療文本進行預處理, 包括特殊符號的過濾、人工標注、分詞、大小寫轉(zhuǎn)化等操作; 然后, 利用程序從處理好的文本中自動計算并抽取特征, 將所有數(shù)據(jù)劃分為訓練集和測試集兩部分。將訓練集放到模型中進行訓練, 隨后再利用訓練得到的參數(shù)測試模型識別效果。
表1 命名實體類別
3.1 數(shù)據(jù)預處理
為了對在線醫(yī)療文本進行實驗, 本文采集好大夫在線的5類疾病的全部問答信息, 涉及疾病包括胃炎、肺癌、哮喘、高血壓和糖尿病。每一篇文本包含一個提問及相應回答, 其中已經(jīng)過濾掉沒有回答的提問信息。
針對問答文本, 首先進行一些相關的預處理(如對特殊字符、英文大小寫、標點符號等的處理)。隨后進行人工數(shù)據(jù)標注。采取的標注方式為BIO模型[19], 可以將分塊轉(zhuǎn)化為序列標記確定問題, 格式為B-X, I-X或者O, 其中B, I, O分別代表Begin, Internal, Other, 即類別的開始、中間或其他, X代表標注的類別。
識別實驗采用開源工具CRF++: Yet Another CRF toolkit[20], 其輸入有一定的格式要求。標注時首先進行人工標注, 為力求準確, 對不熟悉的語匯都進行查閱和了解。隨后將標注數(shù)據(jù)轉(zhuǎn)換成所需格式, 如表2所示。本文采用Ansj分詞系統(tǒng), 對于自定義詞典中的詞都有自定義的類別標簽。表中“輔舒酮”為自定義藥品詞典中的詞, 因此詞性有別于其他詞語。最終對每類疾病分別標注了200篇問答信息, 共1000篇作為訓練和測試數(shù)據(jù), 共包含4812個不同的實體名詞。
表2 數(shù)據(jù)標注示例
CRF++采用用戶模板進行特征計算。在選擇窗口大小時, 首先在500條問答數(shù)據(jù)上, 采用同樣的模板, 設置不同窗口大小進行測試。窗口大小為3時的效果優(yōu)于窗口大小為1和2, 此后再增加窗口大小, 效果提升不大, 因此本文最終將窗口大小設定為3。針對每一列輸入特征(0~5)設置模板, 包括兩類形式:
T1 = num: %x[index,], (7)
T2 = num: %x[index,]/%x[index+1,], (8)
其中, num為模板的編號, index為窗口大小范圍內(nèi)的索引(0~2), T2由特征前后位置情況組合而成。
3.2 實驗
本文進行兩組實驗: 第1組字典實驗驗證自定義詞典的有效性: 第2組為不同特征實驗, 通過逐一添加特征的方式, 觀察實驗效果的變化。實驗結(jié)果的評測標準由精確度(precision)、召回率(recall)、準確率(accuracy)和F1值(F1-measure) 構(gòu)成, 這也是數(shù)據(jù)挖掘中經(jīng)常用到的評測指標[21]。對結(jié)果的評估采用conlleval.pl評測程序[22]。最后針對實驗的詞性特征和后綴特征進行分析。
3.2.1 字典實驗
前面提到, 為提高分詞準確率, 自建6類醫(yī)療詞匯詞典。然而, 由于是從多個輸入法或者醫(yī)療網(wǎng)站獲取的詞匯, 所構(gòu)筑的6類詞典之間難免會有重疊, 同時其中也充斥著一些不相關的詞匯, 由于數(shù)量巨大, 如疾病和藥品均有上萬個詞匯(未能一一過濾), 因此存在噪聲。為驗證其對實驗的影響及添加詞典的識別效果, 首先進行字典實驗。
實驗在一個較小的數(shù)據(jù)集上開展, 選取5類疾病各100條問答數(shù)據(jù), 采用符號特征和詞性特征進行實驗。包括3組不同的設置, 第1組分詞時不使用自定義詞典, 第2組和第3組添加同樣的自定義詞典, 但第2組只將自定義詞典中的詞都標注為同一個詞性類別“userDifine”, 第3組則根據(jù)詞語的詞典來源標注不同的詞性。自定義詞典的詞數(shù)統(tǒng)計信息如表3所示。用B(basic)表示第1組, B+D為第2組, D代表Dictionary, B+Ds為第3組, Ds代表多個詞典, 不同設置的標注示例如表4所示。
表3 自定義詞典情況
表4 不同詞典設置的標注示例
從實驗結(jié)果表5可以看出, 添加了自定義詞典的識別效果要好于沒有添加的情況, 將詞典分為多個不同類別的效果又好于只設定為一個詞典的情況。這是因為將詞典設置為多個比設置為一個粒度更細, 因此提供的信息也更為豐富。這組實驗也說明雖然詞典存在噪聲, 但總體上, 影響不大, 添加多個詞典有助于識別效果的提升, 因此, 在下面的實驗中, 分詞時都采用多個字典的方式。
表5 字典實驗結(jié)果
3.2.2 不同特征實驗
為了驗證本文提出的各種特征在問答實體識別中的效果, 采用逐一添加特征的方式對1000條標注數(shù)據(jù)進行實驗, 即每次在符號特征的基礎上增加一種特征。首先添加一些常用的實驗特征(如詞性, 英文、數(shù)字特征等), 再添加本文提出的后綴和身體部位指示詞特征。為了保證實驗結(jié)果的準確, 均采用5折交叉驗證。圖3為實驗結(jié)果總體的變化情況, “word”、“pos”、“al”、“num”、“suffix”和“body”分別代表符號特征、詞性特征、英文字母特征、數(shù)字特征、后綴特征和身體部位指示詞特征。
表6~9為實驗結(jié)果的詳細情況??梢钥吹? 隨著各類特征的逐一添加, 識別精確度略有下降, 主要體現(xiàn)在添加詞性特征時; 在后面加入后綴和身體部位指示詞特征后, 精確度又有所回升??傮w說來, 精確度變化不大。另一方面, 實驗的召回率在各類實體上都有大幅度提升, 尤其是在藥物這一類別最終得到41.63%的提升, 比原來37.83%的召回率提升了一倍多。F1值在各類實體上也都有不同程度的提升, 總體上, 從只用符號特征到所有特征都用, 共提升23.63%。
表6 不同特征實驗的precision
表7 不同特征實驗的recall
表8 不同特征實驗的F1
表9 不同特征實驗總體的accuracy
實驗結(jié)果表明, 在識別的5類實體中, 藥物的識別效果最好, 特別是在召回率和F1兩個指標上遠遠超過其他類別的實體。在精確度上, 藥物最優(yōu), 其次是檢查和治療方法, 最低為疾病和癥狀, 在召回率上正好相反。這可能是因為藥名一般比較固定, 而且在用戶輸入信息時格式也比較規(guī)整。對于疾病和癥狀通常有多樣化的描述方式, 因此識別精度不如其他類別。
識別結(jié)果大致包含以下幾種錯誤類型: 1)識別邊界不準確, 例如“胸部CT檢查”只識別出了“CT檢查”, 遺漏了相關的指示部位, “中央型肺癌”遺漏了修飾語“中央型”等情況; 2)未識別出較長實體, 像“痰中帶血絲”、“嗓子老發(fā)癢”這樣的癥狀; 3)誤分類, 例如“腔積液”(疾病)被誤分類為藥物。導致錯誤的原因可能與數(shù)據(jù)集規(guī)模有關, 下一步可以擴充數(shù)據(jù)集, 豐富特征, 尋找真正能抓住其本質(zhì)的特征進行實驗。
3.3 特征分析
對不同特征進行的實驗表明, 詞性特征和后綴特征對于識別效果有很大的提升, 所以本文進行以下兩組分析。
3.3.1 各類實體詞性構(gòu)成模式分析
這里的詞性構(gòu)成綜合考慮了當前實體的前一個詞的詞性、當前詞的詞性和后一個詞的詞性, 如表10所示。針對被標注為藥物的詞語“易瑞沙”, 分析其詞性構(gòu)成, 前一個是動詞“服用”, 詞性為“v”, 后一個為標點符號“?!?詞性為“w”, 當前詞詞性為藥物專有名詞“medicine”, 因此這個藥名的詞性構(gòu)成為“v+medicine+w”。為了對比不同實體類別在詞性構(gòu)成上的情況, 我們繪制不同實體的排名前30種詞性構(gòu)成模式的頻次圖(圖4)??梢钥闯? 藥物類的曲線非常陡峭, 說明藥物這類實體的詞性的構(gòu)成在實驗文本中是有規(guī)律性的, 大部分具有固定的模式, 因此詞性特征才能如此好地提升藥物的識別效果。其他幾類, 雖然詞性也有一些模式, 但不如藥物明顯, 實驗結(jié)果也有一定程度的提升。
表10 詞性分析句子示例
藥物類詞性構(gòu)成的前10種模式如表11所示??梢钥闯? 藥物基本上都通過分詞被準確標注為藥物專有名詞, 前后出現(xiàn)最多的詞性是標點、動詞、連詞和數(shù)詞。這也準確地反映了文本的潛在結(jié)構(gòu): 用戶常將多種藥物進行羅列, 因此前后出現(xiàn)標點(如頓號、逗號)和連詞(如“阿法替尼/和/azd9291/效果/怎么樣”); 藥物名前, 通常有許多提示性的動詞(如“服用/口服/使用/注射/吃/開了”); 藥物名后, 會緊接著給出服用劑量(如“維生素c/一天/2/-/3片”)。
表11 藥物類詞性構(gòu)成前10種模式
說明: w為標點符號, medicine為藥物專有名詞, v為動詞, m為數(shù)詞, n為名詞, c為連詞。
3.3.2 各類實體后綴分析
后綴特征對于疾病類提升較大。統(tǒng)計1000條實驗數(shù)據(jù)中疾病名后綴的分布情況, 如圖5所示。在疾病名中, 出現(xiàn)最多的前7個字分別是炎、病、癌、喘、壓、冒、癥, 以它們結(jié)尾的疾病名共占所有出現(xiàn)的疾病的64%, 其他166個字只占36%, 說明了后綴特征對疾病名稱識別有效的原因。
圖6給出對其他幾類實體后綴的分析情況, 可以看到, 不同實體類別的后綴具有不同程度的規(guī)律,因此后綴特征才能有效地提升實驗效果。
4 總結(jié)與展望
本文針對在線醫(yī)療問答信息, 設計了考慮醫(yī)療領域特性的識別特征, 并采用機器學習模型CRF, 在好大夫問答數(shù)據(jù)上針對5類醫(yī)療實體(疾病、癥狀、藥品、治療方法和檢查)進行實體識別工作。全部設計特征包括符號特征、詞性特征、形態(tài)特征、后綴特征、身體部位指示詞特征和上下文特征。首先進行了一組字典實驗, 表明自定義詞典對識別效果的有效提升, 然后采用逐一添加特征的方式, 觀察實驗結(jié)果的變化情況。結(jié)果表明, 隨著所提特征的逐一添加, 識別精確度有所浮動, 而召回率普遍呈上升趨勢, 總體的F1值也不斷上升, 當采用所提全部特征時, 達到總體81.26%的精確度和60.18%的召回率。我們還分析了后綴特征和各類實體的詞性構(gòu)成模式, 說明了該特征的有效性。
實驗結(jié)果表明, 本文方法可以有效地識別出問答文本中大部分的醫(yī)療實體。但是還需繼續(xù)提高識別準確率, 獲得更精準的挖掘結(jié)果。未來的工作中, 我們將進一步豐富實體識別的特征, 特別是針對在線的醫(yī)療問答文本, 進一步區(qū)分問與答兩種文本的區(qū)別和聯(lián)系, 設計相應特征并引入實驗。我們還會考慮前面有否定意義詞匯的實體, 處理實體嵌套的情況。
[1]黃丹. 網(wǎng)絡醫(yī)療對醫(yī)療服務理念的挑戰(zhàn). 中藥研究與信息, 2006, 7(9): 31–32
[2]Grishman R, Sundheim B. Message Understanding Conference-6: a brief history // COLING. Copen-hagen, 1996, 96: 466–471
[3]Doddington G R, Mitchell A, Przybocki M A, et al. The automatic content extraction (ACE) program-tasks, data, and evaluation // LREC. Lisbon, 2004: 837–840
[4]胡雙, 陸濤, 胡建華. 文本挖掘技術在藥物研究中的應用. 醫(yī)學信息學雜志, 2013(8): 49–53
[5]楊錦鋒, 于秋濱, 關毅, 等. 電子病歷命名實體識別和實體關系抽取研究綜述. 自動化學報, 2014, 40 (8): 1537–1562
[6]DiSantostefano J. International classification of diseases 10th revision (ICD-10). The Journal for Nurse Practitioners, 2009, 5(1): 56–57
[7]Lindberg D A, Humphreys B L, McCray A T. The unified medical language system. Methods of Infor-mation in Medicine, 1993, 32(4): 281–291
[8]McDonald C J, Overhage J M, Tierney W M, et al. The regenstrief medical record system: a quarter century experience. International Journal of Medical Informatics, 1999, 54(3): 225–253
[9]Kraus S, Blake C, West S L. Information extraction from medical notes // Medinfo 2007. Brisbane, 2007: 1–2
[10]鄭強, 劉齊軍, 王正華, 等. 生物醫(yī)學命名實體識別的研究與進展. 計算機應用研究, 2010, 27(3): 811–816
[11]Sondhi P, Gupta M, Zhai C X, et al. Shallow information extraction from medical forum data // Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics. Beijing, 2010: 1158–1166
[12]葉楓, 陳鶯鶯, 周根貴, 等. 電子病歷中命名實體的智能識別. 中國生物醫(yī)學工程學報, 2011, 30(2): 256–262
[13]王世昆, 李紹滋, 陳彤生. 基于條件隨機場的中醫(yī)命名實體識別. 廈門大學學報: 自然科學版, 2009, 48(3): 359–364
[14]Luhn H P. The automatic creation of literature abstracts. IBM Journal of Research and Development, 1958, 2(2): 159–165
[15]Lafferty J, McCallum A, Pereira F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data // ICML’01 Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, 2001: 282–289
[16]Sutton C, McCallum A. An introduction to conditional random fields. Machine Learning, 2011, 4(4): 267–373
[17]University of Leeds UK. Hidden Markov Models [EB/OL]. (2010)[2014–11–01]. http://www.comp.lee ds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html
[18]孫建. Ansj_seg [EB/OL]. (2012–09–07) [2014–12–01]. https://github.com/NLPchina/ansj_seg
[19]Ramshaw L A, Marcus M P. Text chunking using transformation-based learning // Text Speech & Lan-guage Technology. Boston, 1995: 82–94
[20]Kudo T. CRF++: Yet another CRF toolkit [EB/OL]. (2005) [2015–03–01].http://CRFpp.sourceforge.net
[21]Powers D M. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. Journal of Mach Learn Technol, 2011, 2(1): 37–63
[22]Tjong K S E F, Buchholz S. Introduction to the CoNLL-2000 shared task: chunking // Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning-Volume 7. Lisbon, 2000: 127–132
Entity Recognition Research in Online Medical Texts
SU Ya, LIU Jie?, HUANG Yalou
College of Computer and Control Engineering (Software Institute), Nankai University, Tianjin 300071; ? Corresponding author, E-mail: nkjieliu@gmail.com
The authors design recognition features with the consideration of medical field characteristic for the online medical text, and the experiment of the entity recognition is carried out on the self-built data set. Concerned about five common diseases: gastritis, lung cancer, asthma, hypertension and diabetes. In the experiment, an advanced machine learning model Conditional Random Field is used for training and testing. The target entities include five kinds: disease, symptoms, drugs, treatment methods and check. The effectiveness of the proposed features is verified by using the experimental method, and the accuracy of the total 81.26% is obtained and the recall rate is 60.18%. Subsequently, the further analysis is given for the recognition features.
named entity recognition; data mining; conditional random field; medical information
10.13209/j.0479-8023.2016.020
TP391
2015-06-06;
2015-08-16; 網(wǎng)絡出版日期: 2015-09-30
天津市科技支撐項目(13ZCZDGX01098)、天津市自然科學基金(14JCQNJC00600)和中國民航信息技術科研基地開放課題(CAAC-ITRB-201303)資助