龍光宇,徐 云,3
(1.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230027;2.中國(guó)科學(xué)技術(shù)大學(xué) 安徽省高性能計(jì)算重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230027;3.國(guó)防科學(xué)技術(shù)大學(xué) 高性能計(jì)算協(xié)同創(chuàng)新中心,湖南 長(zhǎng)沙 410073)
CRF與詞典相結(jié)合的疾病命名實(shí)體識(shí)別*
龍光宇1,2,徐 云1,2,3
(1.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230027;2.中國(guó)科學(xué)技術(shù)大學(xué) 安徽省高性能計(jì)算重點(diǎn)實(shí)驗(yàn)室,安徽 合肥230027;3.國(guó)防科學(xué)技術(shù)大學(xué) 高性能計(jì)算協(xié)同創(chuàng)新中心,湖南 長(zhǎng)沙410073)
生物醫(yī)學(xué)文獻(xiàn)中的疾病命名實(shí)體識(shí)別問(wèn)題是疾病相關(guān)的生物信息學(xué)分析基礎(chǔ),疾病命名實(shí)體中的醫(yī)學(xué)術(shù)語(yǔ)識(shí)別和邊界確定是該問(wèn)題的難點(diǎn)和關(guān)鍵。文中提出了一種CRF(ConditionalRandomField)與詞典相結(jié)合的疾病命名實(shí)體識(shí)別方法。該方法利用網(wǎng)絡(luò)資源來(lái)構(gòu)建含有語(yǔ)義信息的醫(yī)學(xué)術(shù)語(yǔ)詞典,并使用該詞典對(duì)醫(yī)學(xué)術(shù)語(yǔ)進(jìn)行識(shí)別,獲得醫(yī)學(xué)術(shù)語(yǔ)的語(yǔ)義信息,然后CRF結(jié)合這些信息對(duì)疾病命名實(shí)體進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明該方法有效。
疾病命名實(shí)體識(shí)別;醫(yī)學(xué)術(shù)語(yǔ)詞典;條件隨機(jī)場(chǎng)
隨著基因技術(shù)的飛速發(fā)展,人們已經(jīng)越來(lái)越清楚地認(rèn)識(shí)到人類(lèi)疾病的發(fā)生發(fā)展幾乎都直接或間接地與基因有著密切的聯(lián)系[1]。從生物醫(yī)學(xué)文獻(xiàn)中挖掘疾病與基因之間的關(guān)聯(lián)對(duì)于疾病預(yù)防以及新藥研制都有著重要的意義。伴隨著生物醫(yī)學(xué)文獻(xiàn)爆炸性的增長(zhǎng),通過(guò)人工的方式來(lái)獲取疾病-基因之間的聯(lián)系明顯是不可能的。隨著自然語(yǔ)言處理及大數(shù)據(jù)等技術(shù)的發(fā)展使得自動(dòng)從文獻(xiàn)中發(fā)現(xiàn)疾病-基因之間的關(guān)系成為可能,其中疾病命名實(shí)體識(shí)別完成了這個(gè)任務(wù)的第一步。
目前解決疾病命名實(shí)體識(shí)別問(wèn)題的主流方法是機(jī)器學(xué)習(xí),但是識(shí)別效果還未達(dá)到基因、蛋白質(zhì)的效果[2]。在對(duì)PharmGKB(Pharmacogenetics Knowledge Base)藥理學(xué)知識(shí)庫(kù)[3]中的大量疾病名稱(chēng)進(jìn)行了詳細(xì)的分析之后,發(fā)現(xiàn)絕大部分疾病名稱(chēng)都是由一些具有相似語(yǔ)義的醫(yī)學(xué)術(shù)語(yǔ)組合而成,比如很多疾病命名實(shí)體都是由描述身體部分的詞語(yǔ)和基本疾病術(shù)語(yǔ)組合而成,例如“l(fā)ung cancer”和“breast cancer”都是由描述身體部分的“l(fā)ung”和“breast”結(jié)合基本疾病術(shù)語(yǔ)“cancer”構(gòu)成。疾病名稱(chēng)中的這些醫(yī)學(xué)術(shù)語(yǔ)對(duì)疾病名稱(chēng)的識(shí)別具有很強(qiáng)的指示作用。
為了利用疾病命名實(shí)體中的醫(yī)學(xué)術(shù)語(yǔ)信息進(jìn)一步提高對(duì)疾病命名實(shí)體的識(shí)別效果,本文提出了一種與詞典相結(jié)合的CRF(Conditional Random Field)模型去識(shí)別疾病實(shí)體。首先利用網(wǎng)絡(luò)資源構(gòu)造了一個(gè)包含疾病相關(guān)醫(yī)學(xué)術(shù)語(yǔ)及其語(yǔ)義類(lèi)別信息的詞典,再利用詞典獲取文本中詞語(yǔ)的語(yǔ)義類(lèi)別信息,并把這些語(yǔ)義類(lèi)別信息作為特征加入到CRF模型中。實(shí)驗(yàn)表明,醫(yī)學(xué)術(shù)語(yǔ)詞典提升了CRF模型的識(shí)別效果。
1.1命名實(shí)體識(shí)別
解決命名實(shí)體識(shí)別有三種基本方法:基于詞典的方法、基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。
基于字典的方法是最簡(jiǎn)單的命名實(shí)體識(shí)別方法,該方法使用詞典來(lái)匹配文獻(xiàn)中的實(shí)體名稱(chēng),其性能取決于詞典的質(zhì)量以及選取的匹配算法的性能。由于詞典的容量有限,且該方法并不能識(shí)別未登錄詞,加上疾病命名不規(guī)范、變體多,單獨(dú)使用基于詞典的命名實(shí)體識(shí)別方法難以取得較好的結(jié)果。
基于規(guī)則的方法是利用正則表達(dá)式描述出命名實(shí)體中的詞形、詞性、語(yǔ)法等方面的特征,形成規(guī)則?;谝?guī)則的NER系統(tǒng)通常依賴(lài)于由領(lǐng)域?qū)<以O(shè)計(jì)的規(guī)則,耗時(shí)耗力,移植性很差。
基于機(jī)器學(xué)習(xí)的方法是目前解決命名實(shí)體識(shí)別問(wèn)題的主流方法。目前常用的機(jī)器學(xué)習(xí)模型有很多,如支持向量機(jī)(SVM)、隱馬爾可夫模型(HMM)、最大熵模型(ME)、條件隨機(jī)場(chǎng)(CRF)等。近年來(lái)CRF模型被廣泛地應(yīng)用于生物體醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)中,并取得了良好的效果。例如楊婭[4]等人提出了一個(gè)結(jié)合疾病詞典特征的CRF模型去識(shí)別疾病實(shí)體,再利用全稱(chēng)-縮寫(xiě)詞對(duì)進(jìn)行后處理,在NCBI[5]語(yǔ)料庫(kù)上取得了83.82%的F值。
1.2CRF模型
CRF是由Laffetry等人在最大熵模型和隱馬爾科夫模型的基礎(chǔ)上提出的統(tǒng)計(jì)序列標(biāo)注算法。CRF具有很多優(yōu)點(diǎn),不僅放松了隱馬爾科夫模型的條件獨(dú)立性,而且能在一定程度上解決標(biāo)記偏置問(wèn)題。目前已經(jīng)成功應(yīng)用于生物文本挖掘的諸多課題,例如生物命名實(shí)體識(shí)別、關(guān)系抽取等。
一階鏈?zhǔn)紺RF是最簡(jiǎn)單的CRF模型,本文使用的就是一階鏈?zhǔn)紺RF。將CRF模型應(yīng)用于生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)中,就是把輸入的句子中的單詞序列作為觀察序列o,標(biāo)注的過(guò)程就是根據(jù)已知的單詞序列來(lái)推斷最有可能的標(biāo)記序列s,即求解出p(s|o)取得最大值時(shí)的狀態(tài)序列s。一階鏈?zhǔn)紺RF模型中的狀態(tài)序列s的條件概率如下式:
其中,z是歸一化因子,它是為了使所有狀態(tài)序列的概率和為1。fk(si-1,si,o,i)是二值特征函數(shù),λk是特征的權(quán)重,通過(guò)訓(xùn)練可以得到。通常采用L-BFGS迭代算法對(duì)CRF模型進(jìn)行參數(shù)估計(jì),使用維特比算法解碼。
2.1CRF與詞典相結(jié)合的疾病實(shí)體識(shí)別思路
CRF與詞典相結(jié)合的疾病命名實(shí)體識(shí)別方法的具體思路如下:把疾病實(shí)體中的醫(yī)學(xué)術(shù)語(yǔ)按照語(yǔ)義分為:身體部分術(shù)語(yǔ)、臨床表現(xiàn)術(shù)語(yǔ)、疾病基本術(shù)語(yǔ)以及其他,并利用網(wǎng)絡(luò)資源構(gòu)造一個(gè)包含這些醫(yī)學(xué)術(shù)語(yǔ)及其語(yǔ)義類(lèi)別的詞典。先利用詞典獲得文中詞語(yǔ)的語(yǔ)義信息,并把語(yǔ)義信息傳遞給CRF模型作為特征去識(shí)別文中疾病實(shí)體。
2.2醫(yī)學(xué)術(shù)語(yǔ)詞典構(gòu)造
通過(guò)對(duì)PharmGKB藥理學(xué)知識(shí)庫(kù)中大量疾病實(shí)體的詳細(xì)分析,本文把疾病實(shí)體中的醫(yī)學(xué)術(shù)語(yǔ)按語(yǔ)義分為四類(lèi):描述身體部分的術(shù)語(yǔ)(記為“BB”)、描述臨床表現(xiàn)的術(shù)語(yǔ)(記為“BS”)、疾病基本術(shù)語(yǔ)(記為“BD”)以及其他(記為“BO”)。醫(yī)學(xué)術(shù)語(yǔ)的具體分類(lèi)信息見(jiàn)表1。
表1 醫(yī)學(xué)術(shù)語(yǔ)分類(lèi)說(shuō)明
本文使用PharmGKB藥理學(xué)知識(shí)庫(kù)中的疾病資源文件來(lái)構(gòu)造包含身體部分術(shù)語(yǔ)、臨床表現(xiàn)術(shù)語(yǔ)和疾病基本術(shù)語(yǔ)的醫(yī)學(xué)術(shù)語(yǔ)詞典。下面介紹醫(yī)學(xué)術(shù)語(yǔ)詞典的構(gòu)造步驟:
(1)把PharmGKB藥理學(xué)知識(shí)庫(kù)中的3 204個(gè)疾病實(shí)體名稱(chēng)(不包括每個(gè)疾病實(shí)體所對(duì)應(yīng)的同義詞)所對(duì)應(yīng)的字符串,分割成單詞,得到一個(gè)詞匯表;
(2)對(duì)詞匯表去除重復(fù)項(xiàng)、根據(jù)PubMed停用詞表去除停用詞;
(3)人工把剩余的詞匯根據(jù)語(yǔ)義分為身體部分術(shù)語(yǔ)、臨床表現(xiàn)術(shù)語(yǔ)、基本疾病術(shù)語(yǔ)以及其他。把前三類(lèi)的醫(yī)學(xué)術(shù)語(yǔ)詞匯連同它們的類(lèi)別標(biāo)記一起存入醫(yī)學(xué)術(shù)語(yǔ)詞典。
傳統(tǒng)的基于詞典的命名實(shí)體識(shí)別方法中的詞典存儲(chǔ)的是實(shí)體名稱(chēng)及其同義詞,本文中構(gòu)造的醫(yī)學(xué)術(shù)語(yǔ)詞典存儲(chǔ)的是醫(yī)學(xué)術(shù)語(yǔ)單詞及其語(yǔ)義類(lèi)別。詞典里每個(gè)條目都包括醫(yī)學(xué)術(shù)語(yǔ)和它的類(lèi)別,例如“l(fā)ung,BB”、“ataxia,BS”、“nephritis,BD”等。
在醫(yī)學(xué)術(shù)語(yǔ)詞典構(gòu)造完成之后,利用該詞典去匹配待處理文本中的醫(yī)學(xué)術(shù)語(yǔ),結(jié)果返回醫(yī)學(xué)術(shù)語(yǔ)的語(yǔ)義類(lèi)別。
2.3CRF與詞典相結(jié)合的疾病命名實(shí)體識(shí)別
一個(gè)好的特征集合是生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)取得成功的關(guān)鍵,本文中的特征集合主要包括詞法特征、領(lǐng)域特征以及醫(yī)學(xué)詞典特征三大類(lèi)。
(1)詞法特征:包括單詞特征、詞塊特征、詞性特征。
(2)領(lǐng)域特征:包括構(gòu)詞特征、詞形特征、詞綴特征、邊界詞特征、上下文特征、關(guān)鍵詞特征。
(3)醫(yī)學(xué)術(shù)語(yǔ)詞典特征
除了以上這些特征,本文還定義了一個(gè)醫(yī)學(xué)術(shù)語(yǔ)詞典特征,該特征就是醫(yī)學(xué)術(shù)語(yǔ)詞典對(duì)當(dāng)前單詞的識(shí)別結(jié)果,包括“BB”、“BS”、“BD”和“BO”。因?yàn)榻^大多數(shù)疾病命名實(shí)體的長(zhǎng)度都是1~5,因此設(shè)定大小為5的上下文窗口,并設(shè)計(jì)了一元、二元、三元特征模板。
3.1實(shí)驗(yàn)語(yǔ)料
3.2實(shí)驗(yàn)結(jié)果及分析
本文在NCBI語(yǔ)料上進(jìn)行了兩組對(duì)比實(shí)驗(yàn)。
第一組是利用詞法特征和領(lǐng)域特征作為特征集合的CRF模型,訓(xùn)練集上訓(xùn)練,測(cè)試集測(cè)試,以LEAMAN R[6]等人的疾病命名實(shí)體識(shí)別模型DNorm對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。
表2 CRF與DNorm實(shí)驗(yàn)結(jié)果對(duì)比
第二組是在第一組的CRF模型上加入醫(yī)學(xué)術(shù)語(yǔ)詞典特征,在訓(xùn)練集上訓(xùn)練,測(cè)試集測(cè)試。以第一組中的CRF模型實(shí)驗(yàn)結(jié)果作為對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
表3 ours與DNorm實(shí)驗(yàn)結(jié)果對(duì)比
第一組對(duì)比實(shí)驗(yàn)結(jié)果表明本文中的CRF模型的實(shí)驗(yàn)結(jié)果和DNorm相當(dāng),說(shuō)明了利用本文中的詞法和領(lǐng)域特征集合建立的CRF模型是有效的。
第二組對(duì)比試驗(yàn)表明結(jié)合了醫(yī)學(xué)術(shù)語(yǔ)詞典的CRF模型的識(shí)別效果有所提升。分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),導(dǎo)致識(shí)別效果提升的原因是一些不具有明顯特征的疾病名稱(chēng)也被結(jié)合醫(yī)學(xué)術(shù)語(yǔ)詞典的CRF準(zhǔn)確地識(shí)別了出來(lái),例如“demyelination of the cerebral white matter”。單一CRF模型是通過(guò)特征來(lái)區(qū)分實(shí)體和非實(shí)體,因此難以捕捉到那些特征不明顯的實(shí)體。本文中的醫(yī)學(xué)術(shù)語(yǔ)詞典能準(zhǔn)確地識(shí)別出這些醫(yī)學(xué)術(shù)語(yǔ)(“demyelination of the cerebral white matter”中“demyelination”(脫髓鞘)、“cerebral”(腦)都是表示身體部分的醫(yī)學(xué)術(shù)語(yǔ)),并利用這些醫(yī)學(xué)術(shù)語(yǔ)的語(yǔ)義信息為CRF模型提供支持,這正是本文模型的優(yōu)勢(shì)。
相比于未結(jié)合醫(yī)學(xué)術(shù)語(yǔ)詞典的CRF模型,醫(yī)學(xué)術(shù)語(yǔ)詞典提供了更多的語(yǔ)義信息,提升了CRF模型的識(shí)別效果。
針對(duì)疾病命名實(shí)體識(shí)別問(wèn)題,本文提出了CRF與詞典相結(jié)合的疾病實(shí)體識(shí)別方法。在NCBI語(yǔ)料上進(jìn)行的實(shí)驗(yàn)表明,含有語(yǔ)義信息的詞典提升了CRF的識(shí)別效果。本文的研究還可以進(jìn)一步完善,比如可以考慮更多特征繼續(xù)提高疾病命名實(shí)體的識(shí)別效果。有效的疾病命名實(shí)體識(shí)別模型的建立,為后續(xù)從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)抽取疾病-基因之間的關(guān)系打下了良好的基礎(chǔ)。
[1] BOTSTEIN D,RISCH N.Discovering genotypes underlying human phenotypes: past successes for mendelian disease,future approaches for complex disease[J].Nature genetics,2003,33: 228-237.
[2] JIMENO A,JIMENEZ-RUIZ E,LEE V,et al.Assessment of disease named entity recognition on a corpus of annotated sentences[C].BMC Bioinformatics.BioMed Central Ltd,2008,9(Suppl 3): S3.
[3] HEWETT M,OLIVER D E,RUBIN D L,et al.PharmGKB: the pharmacogenetics knowledge base[J].Nucleic Acids Research,2002,30(1): 163-165.
[4] 楊婭.生物醫(yī)學(xué)文本中的疾病實(shí)體識(shí)別和標(biāo)準(zhǔn)化研究[D].大連:大連理工大學(xué),2015.
Combining CRF and dictionary based disease named entity recognition
Long Guangyu1,2,Xu Yun1,2,3
(1.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China;2.Key Laboratory of High Performance Computing of Anhui Province, University of Science and Technology of China, Hefei 230027, China;3.Collaborative Innovation Center of High Performance Computing, National University of Defense Technology, Changsha 410073,China)
The problem of disease name entity recognition in biomedical literature is the basis of bioinformatics analysis related to disease.The identification of the medical terms in disease named entity and determining the boundary of the disease named entity are the key and difficult points of the problem.This paper presents a method that compining CRF (Conditional Random Field) and a dictionary to solve the problem of disease named entity recognition.This method constructs a medical terminology dictionary which contains semantic information using network resources.Firstly,it uses the dictionary to identify the medical terminology,then obtains the semantic information of medical terminology.Then CRF combined with these semantic information to identify the disease named entity.The experimental results verify the effectiveness of the proposed algorithm.
disease named entity recognition; medical terminology dictionary; conditional random field
TP181
A
10.19358/j.issn.1674-7720.2017.21.016
龍光宇,徐云.CRF與詞典相結(jié)合的疾病命名實(shí)體識(shí)別J.微型機(jī)與應(yīng)用,2017,36(21):51-53.
國(guó)家自然科學(xué)基金(61672480)
2017-04-14)
龍光宇(1991-),男,碩士研究生,主要研究方向:生物文本挖掘。
徐云(1960-),男,博士,教授,博士生導(dǎo)師,主要研究方向:大數(shù)據(jù)挖掘,生物信息學(xué)應(yīng)用等。