夏光輝 李軍蓮 阮學(xué)平
(中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020)
?
基于實(shí)體詞典與機(jī)器學(xué)習(xí)的基因命名實(shí)體識(shí)別*
夏光輝 李軍蓮 阮學(xué)平
(中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020)
將實(shí)體詞典以特征的形式引入到機(jī)器學(xué)習(xí)模型中,提出一種基于實(shí)體詞典與機(jī)器學(xué)習(xí)的基因命名實(shí)體識(shí)別方法,在GENIA 3.02語(yǔ)料上進(jìn)行實(shí)驗(yàn)。測(cè)試結(jié)果表明引入實(shí)體詞典特征后,在獲得較高實(shí)體識(shí)別準(zhǔn)確率的同時(shí),優(yōu)化CRFs識(shí)別模型的時(shí)間復(fù)雜度,提高系統(tǒng)識(shí)別效率。
實(shí)體詞典; 機(jī)器學(xué)習(xí); 基因命名實(shí)體; 命名實(shí)體識(shí)別
現(xiàn)階段計(jì)算機(jī)的廣泛普及以及互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,使得信息的采集和傳播變得簡(jiǎn)便、快捷,大量的信息開始以驚人的速度涌現(xiàn),從而導(dǎo)致了“信息爆炸”現(xiàn)象產(chǎn)生。為了應(yīng)對(duì)“信息爆炸”所帶來(lái)的嚴(yán)峻挑戰(zhàn),人們迫切需要利用自動(dòng)化工具以便于能夠迅速而準(zhǔn)確地從海量的信息資源中找尋最相關(guān)的信息,命名實(shí)體識(shí)別(Named Entity Recognition)正是為了應(yīng)對(duì)這種挑戰(zhàn),滿足信息處理時(shí)的需求而產(chǎn)生的。命名實(shí)體識(shí)別是自然語(yǔ)言處理中的核心技術(shù),也成為自然語(yǔ)言處理的一個(gè)主要方向,在信息提取、信息檢索、主題分類、知識(shí)發(fā)現(xiàn)等方面具有重要應(yīng)用。生物醫(yī)學(xué)的迅速發(fā)展,特別是2001年人類基因組工程草圖的發(fā)表,與生物醫(yī)學(xué)領(lǐng)域相關(guān)的科學(xué)數(shù)據(jù)呈指數(shù)級(jí)別增長(zhǎng),各種形式的生物醫(yī)學(xué)文獻(xiàn)和文本信息也迅速增長(zhǎng),這些文獻(xiàn)數(shù)據(jù)隱藏著豐富的生物醫(yī)學(xué)知識(shí),因此,如何讓生物醫(yī)學(xué)研究人員從海量的相關(guān)文獻(xiàn)中便捷地捕獲生物醫(yī)學(xué)信息變得迫在眉睫?;?、蛋白質(zhì)等是生物體的主要組成部分,同時(shí)也是生命科學(xué)研究的主要對(duì)象,從醫(yī)學(xué)文獻(xiàn)中抽取基因、蛋白質(zhì)等實(shí)體名稱進(jìn)一步發(fā)現(xiàn)它們之間的作用和關(guān)系具有非常重要的意義?;蛎麑?shí)體是指遺傳學(xué)領(lǐng)域具體的或抽象的實(shí)體,如基因名、DNA名、RNA名等。通常情況下,基因名稱和蛋白質(zhì)名稱是一致的,只是具體的實(shí)例有區(qū)別;在文獻(xiàn)中,作者經(jīng)常也不會(huì)對(duì)基因和蛋白質(zhì)作嚴(yán)格的區(qū)分;有的研究表明,當(dāng)文獻(xiàn)中出現(xiàn)的基因、蛋白質(zhì)以及mRNA等名稱時(shí),即使是生物醫(yī)學(xué)領(lǐng)域的專家,其正確區(qū)分基因和蛋白質(zhì)實(shí)體的一致率也只有78%[1]。因此,本研究所指的基因命名實(shí)體實(shí)際上包括了基因和蛋白質(zhì)兩類命名實(shí)體。基因命名實(shí)體識(shí)別方法包括基于詞典的方法、基于規(guī)則的方法等,由于基因命名實(shí)體名稱的復(fù)雜性和多樣性,目前基因命名實(shí)體識(shí)別的總體效果要比新聞?lì)I(lǐng)域等通用命名實(shí)體識(shí)別的準(zhǔn)確性低很多。本文嘗試基于詞典與機(jī)器學(xué)習(xí)相結(jié)合的方法進(jìn)行基因命名實(shí)體識(shí)別,以改進(jìn)其準(zhǔn)確性和實(shí)用性。
2.1 概述
基于詞典的基因命名實(shí)體識(shí)別方法中,詞典是核心,詞典的完備程度對(duì)基因命名實(shí)體識(shí)別效果具有決定性作用;而基于機(jī)器學(xué)習(xí)的基因命名實(shí)體識(shí)別方法,需要構(gòu)建基因命名實(shí)體的各種獨(dú)特特征,通過(guò)統(tǒng)計(jì)語(yǔ)料中各種特征的出現(xiàn)頻率,計(jì)算其作為基因命名實(shí)體的條件概率,最終對(duì)命名實(shí)體的類型做出預(yù)判。因此,實(shí)體詞典生成與機(jī)器學(xué)習(xí)實(shí)體特征構(gòu)建既是本文提出的基于詞典與機(jī)器學(xué)習(xí)的基因命名實(shí)體識(shí)別方法的基礎(chǔ),也是基于詞典與機(jī)器學(xué)習(xí)的基因命名實(shí)體識(shí)別過(guò)程的關(guān)鍵步驟。
2.2 實(shí)體詞典構(gòu)建
從美國(guó)國(guó)立醫(yī)學(xué)圖書館研究和開發(fā)的醫(yī)學(xué)一體化語(yǔ)言系統(tǒng)(Unified Medical Language System,UMLS)的133種語(yǔ)義類型中選擇“Gene or Genome”、“Nucleic Acid, Nucleoside, or Nucleotide”、“Amino Acid, Peptide, or Protein”3種語(yǔ)義類型抽取與基因、蛋白質(zhì)相關(guān)的術(shù)語(yǔ)作為基因?qū)嶓w詞典的來(lái)源[2]。具體術(shù)語(yǔ)量,見表1。
表1 詞典信息
2.3 機(jī)器學(xué)習(xí)實(shí)體特征構(gòu)建
2.3.1 概述 實(shí)體特征是指基因文本中能正確區(qū)分基因?qū)嶓w的字符特征,特征構(gòu)建是否合理、有效,直接關(guān)系到基因命名實(shí)體能否被正確地識(shí)別。實(shí)體特征能夠準(zhǔn)確地表征命名實(shí)體的特點(diǎn),為命名實(shí)體的識(shí)別提供有效信息。由于基因命名實(shí)體的獨(dú)特特點(diǎn),當(dāng)前已有很多研究者提出了各種各樣的特征,而基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)模型的識(shí)別效果依賴于特征的質(zhì)量和數(shù)量。本文通過(guò)對(duì)文獻(xiàn)中基因命名實(shí)體的特點(diǎn)進(jìn)行分析,結(jié)合目前在生物醫(yī)學(xué)實(shí)體識(shí)別領(lǐng)域構(gòu)建的特征類型[3-6],構(gòu)建了13大類基因命名實(shí)體的特征。
2.3.2 單詞特征(Word Features) 單詞是文本自動(dòng)分析和實(shí)體標(biāo)注的基本單位,單詞特征能夠反映基因命名實(shí)體的語(yǔ)言信息,是基因命名實(shí)體識(shí)別最核心、最重要的特征。
2.3.3 構(gòu)詞特征(Word Structure Feature) 本文根據(jù)當(dāng)前詞是否由大小寫字母、數(shù)字、連字符(-和/)、希臘字母、羅馬數(shù)字、引號(hào)、括號(hào)等字符組成構(gòu)建了構(gòu)詞特征,共包括18種子特征,以此來(lái)識(shí)別文本中當(dāng)前詞是否為基因命名實(shí)體。18種構(gòu)詞子特征,見表2。
表2 構(gòu)詞特征的18種子特征
2.3.4 關(guān)鍵詞特征(Keywords Feature) 關(guān)鍵詞是指在基因命名實(shí)體中出現(xiàn)頻率較高的單詞。通過(guò)判斷當(dāng)前詞是否為關(guān)鍵詞,可以識(shí)別可能出現(xiàn)在當(dāng)前詞附近的命名實(shí)體。
2.3.5 詞綴特征(Affix Feature) 詞綴是一種附著在詞根或詞干的語(yǔ)素,為規(guī)范詞素,不能單獨(dú)成字。黏附在詞根前面的詞綴稱為前綴,黏附在詞根后面的詞綴稱為后綴。在基因命名實(shí)體中,同一類物質(zhì)一般會(huì)有相同的前后綴,如一般蛋白質(zhì)名稱都是以“ase”結(jié)尾。
2.3.6 詞形特征(Morphlogy Feature) 基因命名實(shí)體是一類特異性非常高的命名實(shí)體,其通常具有相同的詞形。因此,根據(jù)詞形特征可以判別當(dāng)前詞是否屬于基因命名實(shí)體。目前通用的詞形特征表示方法是將大寫字母替換為A,小寫字母替換為a,數(shù)字替換為0,其他字符替換為x。
2.3.7 邊界詞特征(Boundary Word Feature) 邊界詞是指命名實(shí)體的第一個(gè)和最后一個(gè)單詞。大部分基因命名實(shí)體是由多詞組成的,利用邊界詞信息可以提高邊界識(shí)別能力,減少?gòu)?fù)合性基因命名實(shí)體的識(shí)別錯(cuò)誤率。
2.3.8 一元詞特征(Unary Feature) 基因命名實(shí)體中存在大量?jī)H由一個(gè)單詞構(gòu)成的實(shí)體,即一元詞,如IGF2、IL-2A等。以一元詞是否出現(xiàn)作為特征,可為當(dāng)前詞是否為基因命名實(shí)體提供準(zhǔn)確、有效的信息。
2.3.9 嵌套詞特征(Nested Feature) 詞與語(yǔ)素按一定規(guī)則組合起來(lái)構(gòu)成的合成詞即為復(fù)合詞。在本文中,包含了嵌套結(jié)構(gòu)的基因?qū)嶓w都是復(fù)合詞,即此類基因命名實(shí)體的組成部分也是一個(gè)獨(dú)立的基因命名實(shí)體,如基因命名實(shí)體“NF-kappaB element”中包含基因命名實(shí)體“NF-kappaB”,這種嵌套結(jié)構(gòu)增加了實(shí)體邊界的識(shí)別難度。本文將基因命名實(shí)體中的嵌套結(jié)構(gòu)單獨(dú)標(biāo)識(shí)出來(lái),作為嵌套詞特征識(shí)別基因命名實(shí)體,以減少命名實(shí)體邊界識(shí)別的錯(cuò)誤率。
2.3.10 停用詞特征 (Stop Word Feature) 在信息檢索中,為節(jié)省存儲(chǔ)空間,提高搜索效率,在處理自然語(yǔ)言數(shù)據(jù)(或文本)之前或之后會(huì)自動(dòng)過(guò)濾掉某些字或詞,這些字或詞即被稱為停用詞。在英文中,存在一部分單詞是沒有實(shí)際意義的,如“a”、“was”、“can”等這類詞雖然出現(xiàn)頻率較高,但是會(huì)嚴(yán)重影響搜索引擎的查準(zhǔn)率,并降低搜索引擎的檢索效率。在在遺傳學(xué)領(lǐng)域,這類停用詞對(duì)命名實(shí)體識(shí)別同樣會(huì)帶來(lái)負(fù)面影響,因此可以將文本中的停用詞作為特征,減少識(shí)別過(guò)程中無(wú)用信息的干擾。
2.3.11 通用詞特征(Common Word Feature) 通用詞是指使用頻率比較高、單詞本身也具有實(shí)際意義,但是在各個(gè)專業(yè)領(lǐng)域都通用的單詞。這類詞不能反映基因領(lǐng)域的獨(dú)特特點(diǎn),也不是基因命名實(shí)體的組成部分,因此基因命名實(shí)體識(shí)別時(shí)意義不大,可以忽略這類詞。
2.3.12 上下文特征(Context Feature) 上下文信息是指基因?qū)嶓w前一個(gè)詞和后一個(gè)詞的單詞信息,利用上下文信息可以提高基因?qū)嶓w邊界識(shí)別能力。
2.3.13 詞性特征(Part of Speech Feature) 詞性指作為劃分詞類的根據(jù)的詞的特點(diǎn),英語(yǔ)詞匯可分為名詞、動(dòng)詞、代詞、形容詞、副詞、數(shù)詞、冠詞、介詞、連詞、感嘆詞等詞性,通過(guò)詞性特征有助于識(shí)別命名實(shí)體。自然語(yǔ)言處理中,一般利用詞性標(biāo)注器對(duì)文本進(jìn)行詞性標(biāo)注,目前生物醫(yī)學(xué)領(lǐng)域常用的詞性標(biāo)注器包括Stanford POS
tagger[7]、MedPost[8]、GENIA tagger[9]等,其中GENIA Tagger的訓(xùn)練語(yǔ)料由新聞?lì)I(lǐng)域的Wall Street Journal語(yǔ)料以及生物醫(yī)學(xué)領(lǐng)域的GENIA語(yǔ)料和PennBiolE語(yǔ)料組成,對(duì)生物醫(yī)學(xué)文獻(xiàn)的詞性標(biāo)注效果較好,因此本文實(shí)驗(yàn)中也采用GENIA Tagger[10]工具包來(lái)獲取單詞的詞性。
2.3.14 詞典特征(Dict Feature) 傳統(tǒng)基于詞典的命名實(shí)體識(shí)別是在識(shí)別過(guò)程中完全依賴詞典,一般使用不同的詞典匹配方式在所構(gòu)建的詞典中查找字符串。本文是以機(jī)器學(xué)習(xí)模型作為基因命名實(shí)體識(shí)別的主要方法,而在識(shí)別過(guò)程中,將詞典以特征的形式引入到機(jī)器學(xué)習(xí)模型當(dāng)中。因此,本文基于基因?qū)嶓w詞典構(gòu)建了詞典單詞特征、詞典一元詞特征和詞典嵌套詞特征。
本文是將外部詞典以特征的形式引入機(jī)器學(xué)習(xí)方法中,基于詞典和統(tǒng)計(jì)機(jī)器學(xué)習(xí)相結(jié)合的方法識(shí)別基因命名實(shí)體的實(shí)現(xiàn)流程,見圖1。圖1中上面的實(shí)框內(nèi)表示的是構(gòu)建詞典特征的過(guò)程。首先構(gòu)建基因?qū)嶓w識(shí)別所需要的詞典資源;然后參照條件隨機(jī)場(chǎng)(Conditional Random Fields, CRFs)識(shí)別模型的語(yǔ)料格式,對(duì)詞典資源進(jìn)行格式轉(zhuǎn)換并提取特征,形成詞典特征集合;最后將詞典特征集合作為特征加入到訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練獲得識(shí)別模型。圖1中下面的虛框表示的是基于CRFs的基因命名實(shí)體識(shí)別過(guò)程。首先將GENIA 3.02語(yǔ)料庫(kù)轉(zhuǎn)換為純文本格式,按照特征規(guī)則提取語(yǔ)料的多維特征值;然后將詞典特征集合加入訓(xùn)練語(yǔ)料中,結(jié)合語(yǔ)料中提取的特征生成多特征的基于CRFs的基因命名實(shí)體識(shí)別模型;最后用生成的模型標(biāo)記測(cè)試語(yǔ)料完成基因命名實(shí)體識(shí)別任務(wù)。
圖1 實(shí)體識(shí)別流程
4.1 評(píng)測(cè)指標(biāo)
采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F測(cè)評(píng)值(F-measure) 對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。準(zhǔn)確率和召回率是命名實(shí)體識(shí)別領(lǐng)域常用的系統(tǒng)評(píng)測(cè)指標(biāo),其中準(zhǔn)確率衡量正確識(shí)別的基因命名實(shí)體占所有識(shí)別出的基因命名實(shí)體的比例,召回率衡量正確識(shí)別的基因命名實(shí)體占評(píng)測(cè)語(yǔ)料中標(biāo)注的所有命名實(shí)體的比例。準(zhǔn)確率和召回率是相互矛盾、相互對(duì)立的兩個(gè)評(píng)測(cè)指標(biāo),一般而言,準(zhǔn)確率升高,召回率降低;召回率升高,準(zhǔn)確率降低。因此,通常采用二者的綜合加權(quán)指標(biāo)F測(cè)評(píng)值來(lái)評(píng)估識(shí)別性能。準(zhǔn)確率、召回率和F測(cè)評(píng)值的計(jì)算公式如下:
(1)
(2)
(3)
式中,P表示基因命名實(shí)體識(shí)別的正確率;R表示召回基因命名實(shí)體的能力;TP(True Positives)表示正確地識(shí)別為基因命名實(shí)體的數(shù)目;FP(False Positives)表示錯(cuò)誤地識(shí)別為基因命名實(shí)體的數(shù)目;FN(False Negative) 表示錯(cuò)誤地識(shí)別為非基因命名實(shí)體的數(shù)目。
4.2 基因?qū)嶓w識(shí)別的特征選擇
命名實(shí)體識(shí)別系統(tǒng)需要構(gòu)建豐富的特征集合以準(zhǔn)確識(shí)別文本中的基因命名實(shí)體,選用的特征越具有基因命名實(shí)體的獨(dú)特性,就越能提高基因命名實(shí)體識(shí)別系統(tǒng)的識(shí)別能力;但是選擇的特征越多,系統(tǒng)識(shí)別的時(shí)間復(fù)雜度就越大。由于特征之間相互耦合,實(shí)際上并不是構(gòu)建的所有特征都能夠提高命名實(shí)體的識(shí)別能力,不合適的特征組合不僅無(wú)法區(qū)分基因命名實(shí)體和非基因命名實(shí)體,反而會(huì)降低單一特征對(duì)基因命名實(shí)體的識(shí)別能力,導(dǎo)致基因命名實(shí)體識(shí)別系統(tǒng)的識(shí)別性能下降。因此,本文嘗試通過(guò)單獨(dú)最優(yōu)特征組合法,按識(shí)別性能的高低依次選取特征,構(gòu)建一個(gè)數(shù)量少、質(zhì)量高、時(shí)間復(fù)雜度合適的特征集合,以提高CRFs模型的識(shí)別效果。
4.3 基于機(jī)器學(xué)習(xí)的基因命名實(shí)體識(shí)別結(jié)果
本文實(shí)驗(yàn)中,依據(jù)單獨(dú)最優(yōu)特征組合法,選取 [F0(單詞特征)、F33(詞性特征)、F31(通用詞特征)、F23(四字符后綴特征)、F22(三字符后綴特征)、F5(數(shù)字字母順序組合)、F30(停用詞特征)、F7(包含連字符)、F3(大小寫字母組合)、F21(四字符前綴特征)]10個(gè)特征識(shí)別系統(tǒng)可以得到最大的F測(cè)評(píng)值(80.56%)。因此,由這10個(gè)特征構(gòu)建的特征集合是單獨(dú)最優(yōu)特征組合法的最優(yōu)特征集合,見表3。
表3 單獨(dú)最優(yōu)特征組合法的最優(yōu)特征集合(%)
實(shí)驗(yàn)中,分別構(gòu)建所有特征模板和最優(yōu)特征模板,并分別處理訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,用不同的特征集合構(gòu)建的識(shí)別系統(tǒng)的時(shí)間復(fù)雜度,見表4??芍?,利用構(gòu)建的最優(yōu)特征集合,不但系統(tǒng)性能提高了1.19%,達(dá)到了80.56%,而且時(shí)間復(fù)雜度大大降低,這充分體現(xiàn)了特征選擇對(duì)機(jī)器學(xué)習(xí)識(shí)別模型的重要性。
表4 不同特征集合的時(shí)間復(fù)雜度比較
4.4 基于實(shí)體詞典和機(jī)器學(xué)習(xí)相結(jié)合的基因命名實(shí)體識(shí)別結(jié)果
本文主要研究的問(wèn)題是將基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法和基于詞典的方法相結(jié)合應(yīng)用于基因命名實(shí)體識(shí)別領(lǐng)域。本文試驗(yàn)中,在特征集合中加入詞典單詞特征、詞典一元詞特征和詞典嵌套詞特征,分別計(jì)算單詞特征與詞典的3個(gè)特征聯(lián)合的識(shí)別效果。各詞典特征的實(shí)驗(yàn)結(jié)果,見表5。可見與單獨(dú)考慮單詞特征相比,3個(gè)詞典特征加入后,都能在一定程度上提升基因命名實(shí)體識(shí)別的性能。本實(shí)驗(yàn)中,對(duì)新加入的詞典特征仍按照單獨(dú)最優(yōu)特征組合法重新構(gòu)建最優(yōu)特征集合,最終構(gòu)建的最優(yōu)特征集合對(duì)應(yīng)的6個(gè)特征為[F0(單詞特征)、F33(詞性特征)、F36(詞典單詞特征)、F31(通用詞特征)、F23(四字符后綴特征)、F22(三字符后綴特征)]。加入詞典特征訓(xùn)練得到的CRFs統(tǒng)計(jì)學(xué)習(xí)模型對(duì)測(cè)試語(yǔ)料做出預(yù)測(cè),得到的實(shí)驗(yàn)結(jié)果,見表6。
表5 詞典特征的識(shí)別結(jié)果(%)
表6 加入詞典特征的最優(yōu)特征集合(%)
由表7可見,加入詞典特征后,CRFs識(shí)別模型的識(shí)別收斂速度有明顯的提升,只需要考慮[F0、F33、F36、F31、F23、F22]6個(gè)特征,CRFs識(shí)別模型就能獲得較高的F測(cè)評(píng)值,超過(guò)了不加入詞典特征時(shí)取得的最高F測(cè)評(píng)值,這在一定程度上優(yōu)化了CRFs識(shí)別模型的時(shí)間復(fù)雜度,見表7,為CRFs識(shí)別模型從小規(guī)模的實(shí)驗(yàn)測(cè)試走向大規(guī)模工程化應(yīng)用提供了條件。
表7 最優(yōu)特征集合的時(shí)間復(fù)雜度比較
近幾年來(lái),雖然基因命名實(shí)體識(shí)別在語(yǔ)料庫(kù)構(gòu)建、詞典構(gòu)建、特征構(gòu)建、識(shí)別方法等方面取得了一定的進(jìn)展,但由于基因命名實(shí)體的構(gòu)詞形式復(fù)雜多樣,要使系統(tǒng)的識(shí)別性能達(dá)到可應(yīng)用的程度仍面臨著巨大挑戰(zhàn)。因此,后續(xù)研究中可以在以下幾方面進(jìn)一步探討:(1)構(gòu)建規(guī)模更大、質(zhì)量更高的語(yǔ)料庫(kù)。機(jī)器學(xué)習(xí)方法主要是通過(guò)統(tǒng)計(jì)訓(xùn)練語(yǔ)料來(lái)得到相關(guān)參數(shù)并建立模型,因此語(yǔ)料庫(kù)所含基因?qū)嶓w越多、語(yǔ)料庫(kù)質(zhì)量越高,建立的模型識(shí)別效果越好。 (2)提取深層次的實(shí)體特征,研究高效的特征表示方法。目前選取的單詞特征、詞性特征等只是對(duì)命名實(shí)體名稱或語(yǔ)法成分的一種匹配,只用到了表層的文本信息,無(wú)法有效地識(shí)別句子中隱含的實(shí)體信息。在后續(xù)研究中,應(yīng)更注重利用文本中的句法知識(shí)等深層次的信息,提取文本中命名實(shí)體的共指特征,從而提高系統(tǒng)識(shí)別命名實(shí)體的能力。(3)研究詞典與機(jī)器學(xué)習(xí)方法更優(yōu)的結(jié)合機(jī)制?;谠~典是命名實(shí)體識(shí)別的一種比較簡(jiǎn)單的方式,完備的詞典可提高系統(tǒng)識(shí)別己知命名實(shí)體的能力。因此,一方面可以通過(guò)詞語(yǔ)原型化工具改進(jìn)詞典匹配算法,以降低英文單詞的詞形變化對(duì)詞典特征構(gòu)建的影響;另一方面還需要基于詞典構(gòu)建更多的特征加入到機(jī)器學(xué)習(xí)方法中,以減少機(jī)器學(xué)習(xí)模型對(duì)語(yǔ)料庫(kù)的依賴,從而為基因命名實(shí)體識(shí)別系統(tǒng)從理論探索走向?qū)嶋H應(yīng)用提供條件。
1 Hatzivassiloglou V, Duboue′ PA, Rzhetsky A. Disambiguating Proteins, Genes and RNA in text: a machine learning approach[J]. Bioinformatics, 2001, 1(1):1-10.
2 National Center for Biotechnology Information, U.S. National Library of Medicine. Semantic Network-UMLS?Reference Manual[EB/OL].[2015-02-10].http://www.ncbi.nlm.nih.gov/books/NBk9679/.
3 王琦.詞典和機(jī)器學(xué)習(xí)相結(jié)合的生物命名實(shí)體識(shí)別[D].大連:大連理工大學(xué),2009.
4 鄭強(qiáng).生物醫(yī)學(xué)命名實(shí)體識(shí)別研究[D]. 長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2009.
5 黃浩煒.SVM與基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法相結(jié)合的生物實(shí)體識(shí)別[D]. 長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2007.
6 周榮鵬. 生物醫(yī)學(xué)文獻(xiàn)中命名實(shí)體的識(shí)別[D]. 大連:大連理工大學(xué),2009.
7 The Stanford Natural Language Processing Group. Stanford Log-linear Part-of-Speech Tagger[EB/OL].[2015-02-15].http://nlp.stanford.edu/software/tagger.shtml.
8 Smith L,Rindflesch T,Wilbur W J. MedPost: a part-of-speech tagger for bioMedical text[J].Bioinformatics,2004,20(14):2320-2321.
9 Tsuruoka Y,Tateisi Y,Kim J D, et al. Developing a Robust Part-of-Speech Tagger for Biomedical Text[J].Advances in Informatics Lecture Notes in Computer Science,2005, (374): 382-392.
10 Department of Information Science, Faculty of Science, University of Tokyo.GENIA Tagger:part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text[EB/OL].[2015-02-15]. http://www.nactem.ac.uk/GENIA/tagger.
Gene Named Entity Recognition Based on Entity Dictionary and Machine Learning
XIA Guang-hui, LI Jun-lian, RUAN Xue-ping,
Institute of Medial Information, Chinese Academy of Medical Sciences, Beijing 100020, China
By introducing the entity dictionary into the model of machine learning in the form of characteristics, this article proposes a method of gene-named entity recognition based on entity dictionary and machine learning and experiments on corpus GENIT 3.02. As indicated by the test results, after the characteristics of the entity dictionary are introduced, while a higher accuracy rate of entity recognition is obtained, the time complexity of CRFs recognition model is optimized and the system's recognition efficiency is enhanced.
Entity dictionary; Machine learning; Gene named entity; Named entity recognition
2015-11-13
夏光輝,助理研究員,碩士,主要研究方向?yàn)獒t(yī)學(xué)知識(shí)組織建設(shè)與利用、醫(yī)學(xué)文本信息檢索與處理,發(fā)表論文20篇。
國(guó)家科技支撐計(jì)劃項(xiàng)目(項(xiàng)目編號(hào):2011BAH10B05)。
R-056
A 〔DOI〕10.3969/j.issn.1673-6036.2015.12.012