李雁群,何云琪,錢龍華,周國棟
(1. 蘇州大學(xué) 自然語言處理實驗室,江蘇 蘇州 215006; 2. 蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
信息抽取的目的是從無結(jié)構(gòu)文本中抽取出實體及其相互關(guān)系并轉(zhuǎn)化為結(jié)構(gòu)化表達(dá)形式,從而為知識庫的構(gòu)造提供數(shù)據(jù)基礎(chǔ)[1-5]。嵌套命名實體中含有豐富的實體信息以及實體之間的相互關(guān)系,其結(jié)構(gòu)相對而言也較為簡單,因而嵌套命名實體的識別成為信息抽取中值得研究的話題之一。
目前的嵌套命名實體識別都采用有監(jiān)督的機器學(xué)習(xí)方法,因而需要一定規(guī)模的語料庫。GENIAV3.02[6]是生物醫(yī)學(xué)領(lǐng)域內(nèi)的命名實體語料庫,其中包含了嵌套實體,被廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的命名實體識別研究。該語料庫包含2 000條MEDLLINE摘要,94 014個實體引用,其中約有17%的實體嵌套在其他實體中。EPPI[7]是生物醫(yī)學(xué)領(lǐng)域內(nèi)另一個標(biāo)注了蛋白質(zhì)及其相互作用關(guān)系的語料庫,它包含217個從PubMed和PubMedCentral選出來的摘要和全文文獻,總共有134 059個實體引用。RCAHMS[8]是一個標(biāo)注實體及其語義關(guān)系的歷史檔案語料庫,包含1 546個文本,28 272個實體引用,其中18.7%的實體嵌套在其他實體中。
中文方面沒有被廣泛認(rèn)可的嵌套命名實體語料庫,中文命名實體語料有來源廣泛的MSRA語料、新聞領(lǐng)域的1998年1月的 《人民日報》語料和多領(lǐng)域的ACE2005中文語料,因為《人民日報》語料和ACE2005中文語料包含嵌套命名實體的標(biāo)注信息,所以中文嵌套實體識別研究大都基于《人民日報》語料[9-11]和ACE2005中文語料[12],但是這些標(biāo)注信息并不完整,存在漏標(biāo)問題,如“[中共中央/nt 臺灣/ns 工作/vn 辦公室/n]nt”轉(zhuǎn)換為嵌套結(jié)構(gòu)為“[[中共中央]nt [臺灣]ns 工作辦公室]nt”[注]嵌套實體的類型標(biāo)注采用《人民日報》語料的格式,即nr表示人名,ns表示地名,nt表示組織名。,漏標(biāo)了“[中共]nt”這個實體。本文提出用半自動的方法構(gòu)建完善的中文嵌套命名實體識別語料庫,該方法首先自動抽取嵌套命名實體,然后人工調(diào)整自動標(biāo)注的嵌套命名實體。
目前的中文嵌套命名實體識別的研究少有考慮嵌套命名實體語料庫的構(gòu)建,主要側(cè)重于方法的研究。嵌套實體識別方法主要分為基于規(guī)則的方法和基于機器學(xué)習(xí)的方法。最初的方法是在識別最外層實體的基礎(chǔ)上采用基于規(guī)則的后處理方法識別嵌套實體[13-14]?;跈C器學(xué)習(xí)的方法大都采用層次模型,即將嵌套實體的識別轉(zhuǎn)換成多個層次的序列標(biāo)注問題[7-8,11]。與序列化標(biāo)注方法不同,F(xiàn)inkel和Manning[15]采用判別式成分句法分析器來訓(xùn)練嵌套命名實體識別模型。該方法把每個句子轉(zhuǎn)換成一棵句法分析樹,其中每一個詞均作為該樹的葉子節(jié)點,而每個實體作為該樹的子樹。其優(yōu)點是樹的表示方法可以清晰地表示任意層數(shù)的嵌套實體。
中文嵌套命名實體識別的研究都是在《人民日報》語料和ACE2005中文語料上進行的,前者大都采用層次化模型,后者采用層次標(biāo)號的方法在分詞的基礎(chǔ)上進行多層嵌套實體提及的識別[12]。然而在這些語料上進行嵌套命名實體識別時,語料都是自動生成的,并沒有人工校驗的過程,語料的質(zhì)量得不到保證,而且這些語料的領(lǐng)域較單一。因此本文提出構(gòu)建一個完善的嵌套命名實體識別語料庫,并將其發(fā)布出去。
根據(jù)命名實體中是否包含其他實體,將命名實體分為簡單命名實體和嵌套命名實體。簡單命名實體是由一個詞或多個詞構(gòu)成的實體,它的內(nèi)部不包含其他的命名實體。嵌套命名實體是指實體內(nèi)部嵌套一個或多個簡單命名實體的命名實體,該類型的命名實體主要存在于地名和機構(gòu)名中。嵌套在里面的實體稱為內(nèi)部實體,最外層的實體稱為外部實體。如外部實體“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”包含“[中共]nt”、“[北京]ns”和“[中共北京市委]nt”等三個內(nèi)部實體。
目前中文命名實體識別中常用的語料有《人民日報》語料[16]、微軟語料[17]和ACE2005中文語料[18-19],其中《人民日報》語料和ACE2005中文語料含有嵌套命名實體的標(biāo)注信息。因此,為了減少標(biāo)注工作量,我們把《人民日報》語料和ACE2005中文語料作為嵌套命名實體語料。《人民日報》語料規(guī)模較大,但是來源單一。該語料屬于新聞領(lǐng)域,語料整體比較正規(guī),都是嚴(yán)格的命名實體,人名都是簡單命名實體。ACE2005中文語料雖規(guī)模較小,但來源多樣。
我們定義嵌套實體的出發(fā)點是盡可能地挖掘出更多的實體以及實體之間的語義關(guān)系,因此比《人民日報》和ACE2005定義了更細(xì)粒度和更多層次的嵌套實體結(jié)構(gòu)?!度嗣袢請蟆范x的嵌套實體都是兩層的,即只標(biāo)注了外部實體中嵌套的最底層內(nèi)部實體,如嵌套實體“[中共/j 北京/ns 市委/n 宣傳部/n]nt”,而我們所定義的嵌套實體要求包含所有嵌套層次的內(nèi)部實體。ACE2005中文語料中的實體是指一個不能再劃分的完整概念,因此理論上說一個實體不能再包含另一個實體,如實體“[西安飛機工業(yè)公司]nt”中的“西安”并沒有標(biāo)注,不過ACE通過實體的中心詞和外延來指明每個實體的覆蓋范圍。
2.2.1 《人民日報》語料人工標(biāo)注
該語料只標(biāo)注了二層嵌套結(jié)構(gòu),且都是命名實體。如嵌套實體“[中共/j 北京/ns 市委/n 宣傳部/n]nt”不能滿足我們對嵌套實體的定義,其正確的標(biāo)注應(yīng)該是“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”。
本文采用自動抽取加人工調(diào)整的方式來產(chǎn)生中文嵌套實體識別語料,同時為了減少重復(fù)標(biāo)注,我們只對實體而非一個實體的多個引用進行標(biāo)注,具體過程為:
(1) 自動抽取: 從1998年1月的《人民日報》語料中抽取出復(fù)雜命名實體,并去除重復(fù)的實體引用,保留其中的命名實體標(biāo)注。如實體“[中共/j 北京/ns 市委/n 宣傳部/n]nt”提取后變成實體“[中共 [北京]ns 市委宣傳部]nt”。
(2) 人工調(diào)整: 人工標(biāo)注提取出的嵌套實體,通常是添加新的內(nèi)部實體。如第(1)步中的實體“[中共 [北京]ns 市委宣傳部]nt” 經(jīng)人工調(diào)整后為“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”。
2.2.2 ACE2005中文語料人工標(biāo)注
作為中文信息抽取的基準(zhǔn)語料,ACE2005中文語料庫被廣泛應(yīng)用于命名實體識別和關(guān)系抽取,它定義了七個大類(包括人物、組織、地理政治、處所、設(shè)施、車輛和武器)的實體,涉及廣播新聞、新聞專線和博客等多個領(lǐng)域,因而可作為潛在的中文嵌套實體語料庫。
ACE2005中文語料庫并沒有直接定義嵌套實體,而是定義了一個實體的中心詞(headword)和外延(extension)。所謂實體中心詞就是常規(guī)意義上的實體指稱(mention),而實體外延則是指包含這個實體修飾語的最小名詞短語。如短語“[內(nèi)蒙古]ns [歌舞團]nt”中包含兩個實體,而第二個實體的外延則包含了第一個實體,因此可以利用這種特點來生成初始的可選嵌套實體,具體流程如下:
(1) 選出ACE2005中文語料庫中指稱類型為“NAM”的實體,即命名實體。ACE定義了三種類型的實體指稱,即NAM(名稱)、NOM(名詞)和PRO(代詞),命名實體指第一種,因此過濾后兩種的類型。
(2) 對于語料文本的每一句中的所有命名實體,如果一個實體的外延包含另一個實體的外延,且第一個實體的中心詞緊跟第二個實體的中心詞,則第一個實體包含第二個實體。以此類推,第二個實體可以包含第三個實體。
(3) 產(chǎn)生多層嵌套的實體,并把類型為地理政治實體、處所和設(shè)施的實體轉(zhuǎn)換為地名類型。如果嵌套實體原來都是地理政治實體,則把它們分成多個獨立的不嵌套實體。如“[西藏]ns [達(dá)孜縣]ns”,盡管ACE定義為嵌套實體,但我們不認(rèn)為連續(xù)的多層地名為嵌套實體。
根據(jù)上述處理流程,我們得到了一個初始的嵌套實體列表,但這個列表里面仍然存在漏標(biāo)問題。如上文提到的實體“[西安飛機工業(yè)公司]nt”,ACE2005并沒有標(biāo)出其中的內(nèi)部實體“[西安]ns”。因此我們進一步人工標(biāo)注,以得到較高質(zhì)量的中文嵌套實體語料庫。
2.2.3 語料庫一致性檢驗
為了衡量語料庫標(biāo)注的一致性,我們安排了兩名志愿者同時進行標(biāo)注。標(biāo)注分兩個階段進行,第一個階段兩名志愿者經(jīng)過初步培訓(xùn)后對語料庫進行標(biāo)注,然后比較他們之間的差異,重新調(diào)整標(biāo)注要求,再進行第二個階段的標(biāo)注調(diào)整,調(diào)整結(jié)束后計算最終一致性。在一致性檢驗時,以一個志愿者的標(biāo)注為標(biāo)準(zhǔn)集,另一個志愿者的標(biāo)注為預(yù)測集,采用常規(guī)的P/R/F1指數(shù)來評估嵌套命名實體語料庫標(biāo)注的一致性,其中P為準(zhǔn)確率,R為召回率,F(xiàn)1為兩者的調(diào)和平均值。
以《人民日報》為例,第一階段標(biāo)注的一致性結(jié)果:P為92.50%,R為93.43%,F(xiàn)1為92.96%。兩名志愿者的差異主要體現(xiàn)在對地名的嵌套結(jié)構(gòu)理解不一致。第二階段標(biāo)注后的一致性結(jié)果:P為99.24%,R為99.31%,F(xiàn)1為99.29%。由此可見,經(jīng)過適當(dāng)?shù)恼{(diào)整,嵌套實體的標(biāo)注一致性非常高。
2.3.1 《人民日報》嵌套實體統(tǒng)計
標(biāo)注后的《人民日報》中所有實體統(tǒng)計情況如表1所示,實體分為外部實體和內(nèi)部實體,外部實體還可分為無嵌套和有嵌套兩種。從表中可以看出,內(nèi)部實體約占所有實體的14%。另外:
(1) 無嵌套結(jié)構(gòu)的外部實體中,大部分是地名(~47%)和人名(~43%),再加少量的組織名(~10%),如“[中國]ns”“[鄧小平]nr”“[聯(lián)合國]nt”。
(2) 有嵌套結(jié)構(gòu)的外部實體中,絕大部分是組織名(~90%),再加少量的地名(~10%);如“[[上海市]ns 紅十字會]nt”中的“[上海市紅十字會]nt”,“[[北京]ns 圓山大酒店]ns”中的“[北京圓山大酒店]ns”。
(3) 內(nèi)部實體的組成大部分是地名(~75%),小部分是組織名(~24%),還有極少數(shù)是人名(~1%),如“[[上海市]ns 紅十字會]nt”中的“[上海市]ns”,“[[北京]ns 圓山大酒店]ns”中的“[北京]ns”,“[[[華南]ns 師范大學(xué)]nt 函授學(xué)院]nt”中的“[華南]ns”和“[華南師范大學(xué)]nt”。
表1 《人民日報》語料嵌套實體統(tǒng)計
2.3.2 ACE2005中文語料嵌套實體統(tǒng)計
標(biāo)注后的ACE2005中文語料中所有實體統(tǒng)計情況如表2所示。其中,內(nèi)部實體約占所有實體的11%,略低于《人民日報》中的比例,從表中還可以看出:
(1) 無嵌套結(jié)構(gòu)的外部實體中的組成與《人民日報》差別不大,大部分是地名(~52%)和人名(~30%),再加少量的組織名(~18%)。
(2) 與《人民日報》有所不同,有嵌套結(jié)構(gòu)的外部實體中組織名只占到約76%,低于《人民日報》中的比例(~90%);而內(nèi)部實體中的絕大部分是地名(~90%),高于《人民日報》中的比例(~75%)。
表2 ACE2005中文語料嵌套實體統(tǒng)計
2.3.3 ACE2005中文語料的領(lǐng)域分析
《人民日報》的內(nèi)容來源于人民日報社,體裁均為新聞,而ACE2005中文語料內(nèi)容來源于國內(nèi)外多個媒體機構(gòu),體裁有新聞、廣播和網(wǎng)絡(luò)日志等,因此領(lǐng)域更加寬泛。其中各個領(lǐng)域的嵌套命名實體統(tǒng)計情況如表3所示。
表3 ACE2005中文語料各領(lǐng)域的嵌套實體統(tǒng)計
續(xù)表
為了評估所構(gòu)建的中文嵌套命名實體語料庫的特點,首先設(shè)計了嵌套命名實體識別的三種方法及所用的模型和特征,然后通過實驗比較了三種識別模型的性能,分析了嵌套實體識別的錯誤類型,并且將構(gòu)建的新語料與舊語料進行對比分析,最后,在《人民日報》和ACE2005中文語料上進行了跨語料測試分析。
3.1.1 嵌套命名實體識別方法
目前,有關(guān)中文嵌套命名實體識別的研究相對較少,本文采用基于機器學(xué)習(xí)的層次標(biāo)記和層疊模型等兩大類方法來識別嵌套命名實體。
(1) 標(biāo)簽層次化,即擴充一個詞的標(biāo)簽,使它反映出該詞所參與的所有實體類型,然后用一個序列化標(biāo)注模型來識別,該方法也可以叫聯(lián)合標(biāo)簽[7]。
(2) 模型層次化,即采用多個疊加的序列化標(biāo)注模型,每一層嵌套的實體識別都轉(zhuǎn)化為單獨的實體識別問題,識別的順序可以分為兩種: 由內(nèi)到外和由外到內(nèi)。由內(nèi)到外指第一個序列化模型首先識別出基本實體,然后再用第二個模型識別出由第一層實體組成的實體,以此類推。由外到內(nèi)指第一個序列化模型首先識別出最外層的實體,然后再用第二個模型識別出第一層實體中嵌套的實體,以此類推[7]。
表4 列出了嵌套實體“[[[中共]nt [北京]ns 市委]nt宣傳部]nt”在以上模型中的層次標(biāo)簽。
3.1.2 CRF特征
以往的中文命名實體識別研究表明[20],以字為單位的CRF模型在資源最少(即不進行分詞)的情況下能取得較好的識別性能,因此本文也采用CRF模型。本文沒有增加額外特征,只采用了最基本的上下文特征,具體如下:
表4 各個模型的層次化標(biāo)簽表示樣例
Cn(n= -2, -1, 0, 1, 2)
CnCn+1(n= -1 ,0)
其中C0代表當(dāng)前的字,Cn代表當(dāng)前位置之后第n位的字,CnCn+1代表第n位及其下一個字的組合。例如,對于序列“中華人民共和國”來說,當(dāng)以字為單位時,若C0為“人”,則C1代表“民”,C-1代表“華”,而C0C1代表“人民”。
需要說明的是,訓(xùn)練第一層模型時只有字特征,而訓(xùn)練多層模型時除包含字特征外,還包含所有下層的標(biāo)簽作為特征,而在測試時多層模型選用下層識別的結(jié)果作為其特征。
3.1.3 評估方法
我們采用常規(guī)的P/R/F1指數(shù)來評估實體識別的性能。為了減少評估性能的偏差,我們和其他《人民日報》語料上的研究工作一樣[10],采用十折交叉方法,即將所有語料按順序劃分為十份,其中一份作為測試集,另外九份作為訓(xùn)練集,總體性能取十次結(jié)果的平均值。
3.2.1 三種嵌套實體識別模型的交叉驗證性能
表5列出了在《人民日報》語料上分別用聯(lián)合標(biāo)簽、由內(nèi)到外和由外到內(nèi)三種嵌套實體識別模型來進行嵌套實體識別的交叉驗證性能,同時列出了外部實體、內(nèi)部實體以及全部實體各自識別的性能,表5的結(jié)果每一列最高性能需要用粗體表示。外部實體包含上述所說的無嵌套結(jié)構(gòu)和有嵌套結(jié)構(gòu)的外部實體,這就是我們通常所說的不考慮嵌套實體的命名實體(即無嵌套命名實體),內(nèi)部實體即嵌套在外部實體內(nèi)的內(nèi)部實體(即嵌套命名實體)。從表中可以看出:
(1) 外部實體、內(nèi)部實體、全部實體都是由內(nèi)到外的模型性能最好,全部實體F1值達(dá)到了約90%;
(2) 聯(lián)合標(biāo)簽的全部實體F1值雖只比由內(nèi)到外模型低0.24%,但是聯(lián)合標(biāo)簽?zāi)P蜕傻臅r間非常長,大概是由內(nèi)到外模型的40倍以上;
(3) 由外到內(nèi)模型的性能相對而言較低,比由內(nèi)到外模型的全部實體F1值低了2.5%,但這個模型的優(yōu)點是訓(xùn)練內(nèi)部實體時不需要上下文,因而可以利用外部資源來獲得嵌套實體語料。
綜上所述,由內(nèi)到外模型的實體識別F1值最高,且模型訓(xùn)練時間也短,因此接下來的實驗都是采用該模型。
表5 《人民日報》語料上各模型的實體識別性能
3.2.2 由內(nèi)到外模型的各個實體類別性能
表6 列出了嵌套實體識別取得最好性能的由內(nèi)到外模型在各個實體類別上的性能(表6的結(jié)果每一列最高性能需要用粗體表示)。從表中可以看出:
(1) 地名、組織名、人名識別的性能與其實體數(shù)目密切相關(guān),數(shù)目越多,性能越好。地名數(shù)量最多,因此F值最高,人名數(shù)量次之,組織名數(shù)量最少。
(2) 內(nèi)部實體識別性能顯著低于外部實體識別性能,F(xiàn)值相差約10%,這主要是由于訓(xùn)練實例數(shù)量少而引起的。這說明與無嵌套命名實體識別相比,嵌套命名實體的識別仍存在困難。
為了進行錯誤分析,我們隨機抽出內(nèi)部實體識別錯誤的100個例子,錯誤情況如下:
(1) 大部分(80%)內(nèi)部實體識別錯誤是由于該實體在語料中出現(xiàn)很少,因而這類實體較難識別出來。例如,“[[柳林]ns 電廠]ns”識別成了“[柳林電廠]ns”,漏掉了“[柳林]ns”這個實體。
(2) 少部分(20%)內(nèi)部實體由于上下文的誤導(dǎo),導(dǎo)致實體識別錯誤,例如,“[[河北省]ns [張家口地區(qū)]ns ]ns”識別成了“[[河北省]ns [張家口]ns地區(qū)]ns”,這是因為語料中“地區(qū)”有時和前面的地名構(gòu)成一個整體,有時又獨立。
表6 《人民日報》語料上分類型的實體識別性能
3.2.3 人工語料和自動語料的性能對比
為了說明人工構(gòu)建的嵌套命名實體語料庫的優(yōu)勢,我們把自動抽取后生成的嵌套命名實體語料和人工調(diào)整后的語料進行嵌套命名實體識別對比實驗。這實際上可以看作是一個語料的兩種標(biāo)注,即自動標(biāo)注和人工標(biāo)注。據(jù)統(tǒng)計,與人工標(biāo)注語料相比,自動標(biāo)注語料的內(nèi)部實體漏掉了約48%,其中組織名漏掉了90%,人名漏掉了36%,地名漏掉了35%。實驗仍采用十折交叉驗證,自動標(biāo)注部分作為訓(xùn)練集,人工標(biāo)注部分作為測試集。表7列出了《人民日報》語料上各個實體類別上的嵌套實體識別性能。從表中可以看出:
(1) 與表6(人工標(biāo)注語料)相比,表7的外部實體識別性能F1值略有下降(~2%),而內(nèi)部實體識別F1值則大幅度下降(~16%)。這主要是因為自動抽取漏掉很多內(nèi)部實體(~48%),而外部實體并沒有減少。
(2) 與表6實驗結(jié)果相比,在表7的內(nèi)部實體識別性能F1值中,組織名下降最多(~54%),地名次之(~12%),人名最少(~9%)。這主要是因為《人民日報》標(biāo)注的內(nèi)部實體中的組織名大多數(shù)由多個詞語組成,所以漏掉了大部分的組織名(~90%),而人名和地名漏掉的相對較少(分別為~36%和35%)。
表7 《人民日報》自動抽取語料上的實體識別性能
3.2.4 跨語料測試
為了對比《人民日報》語料和ACE2005中文語料之間的嵌套實體識別性能,我們進行了跨語料測試。因為《人民日報》實體數(shù)量是ACE2005中文語料的四倍,為了公平比較兩個語料的差異,我們?nèi) 度嗣袢請蟆氛Z料的四分之一。實驗包含兩個部分,一是交叉驗證,即分別在《人民日報》語料和ACE2005中文語料上進行十折交叉驗證;二是跨語料測試,即一個語料交叉驗證時,劃出的九份作為訓(xùn)練集,另一個語料作為測試集。實驗結(jié)果如表8所示。
表8 跨語料實體識別性能
從表8可以看出,語料內(nèi)交叉驗證性能總體上明顯高于跨語料測試性能,但《人民日報》和ACE2005兩個語料的情況不盡相同。
(1) 分析實驗1和實驗3的差異
盡管語料規(guī)模相同,但無論是外部實體還是內(nèi)部實體,《人民日報》的P/R/F1性能普遍高于ACE2005的性能,原因可能有以下幾點:
① 兩者領(lǐng)域來源不同,《人民日報》語料來源于單一的新聞領(lǐng)域,而ACE2005中文語料來源于廣播、新聞和網(wǎng)絡(luò)日志等。ACE2005文本的多樣性導(dǎo)致性能較低;
② ACE2005中文語料存在約10%縮寫型實體,如“中科院/nt”、“二汽/nt”和“亞/ns”等,縮寫型實體訓(xùn)練數(shù)量較少,導(dǎo)致難于識別,而《人民日報》沒有縮寫型實體(縮寫都是用“j”標(biāo)注的)。
③ ACE2005中文語料中存在約2%的英文實體,如“VladimirPutin/nr”“Aceh/ns”“BaFin/nt”和“a/nr 小姐”等。
(2) 分析實驗2和實驗3的差異
實驗2的內(nèi)部實體F1值(62.96%)略高于外部實體性能(61.99%)。這是因為盡管ACE2005中文語料外部實體標(biāo)注與《人民日報》不一致(參見上面分析),但是內(nèi)部實體(即嵌套實體)標(biāo)注基本一致,因而實驗2的內(nèi)部實體性能略低于實驗3的內(nèi)部實體性能(~2%),甚至略高于實驗2的外部實體性能。
(3) 分析實驗3和實驗4的差異
ACE2005跨語料外部實體性能和語料內(nèi)交叉驗證性能相似。當(dāng)ACE2005中文語料作為訓(xùn)練集時,所產(chǎn)生模型的交叉驗證性能并不高,但由于ACE2005中的新聞類語料(~40%)和《人民日報》語料相似,所以該模型在《人民日報》測試集上的性能并沒有明顯降低。
針對中文嵌套命名實體語料庫不足的問題,本文通過半自動的標(biāo)注方法構(gòu)建了兩個中文嵌套命名實體語料庫。這兩個語料庫各有千秋,在《人民日報》語料上構(gòu)建的語料庫雖然領(lǐng)域較為單一,但規(guī)模較大,可以用于領(lǐng)域內(nèi)的中文嵌套實體識別研究;而在ACE2005基礎(chǔ)上構(gòu)建的語料雖規(guī)模較小,但領(lǐng)域來源多樣,適合于跨領(lǐng)域的中文嵌套實體識別研究。
語料內(nèi)的交叉驗證和跨語料的嵌套命名實體識別實驗結(jié)果表明,中文嵌套實體識別的性能還偏低,尤其是跨語料識別時。
今后的工作在于: 一方面如何提高中文嵌套實體識別的性能;另一方面如何利用目前的資源(如維基百科等)生成規(guī)模更大的中文嵌套語料庫,從而提供更寬泛的領(lǐng)域適應(yīng)性。