李廣一,王厚峰
(北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京100871;北京大學(xué) 計(jì)算語(yǔ)言學(xué)研究所,北京100871)
命名實(shí)體識(shí)別和歧義消解是自然語(yǔ)言理解的一項(xiàng)重要研究?jī)?nèi)容,對(duì)信息抽取、信息檢索、問(wèn)答系統(tǒng)等都具有重要作用。有關(guān)命名實(shí)體識(shí)別已有大量研究[1],近幾年來(lái)的國(guó)際評(píng)測(cè)進(jìn)一步體現(xiàn)出對(duì)命名實(shí)體消歧的關(guān)注。UNED組織了三屆WePS(Web People Search)評(píng)測(cè)[2-4],在沒(méi)有命名實(shí)體知識(shí)庫(kù)的情況下,將具有相同指稱(chēng)的命名實(shí)體聚集到一起。自2009年起,TAC(Text Analysis Conference)的KBP(Knowledge Base Population)評(píng)測(cè)[5-6]都包含了實(shí)體鏈接(Entity Linking)的任務(wù),與 WePS不同的是,KBP提供了關(guān)于實(shí)體的知識(shí)庫(kù),需要將某個(gè)實(shí)體鏈接到知識(shí)庫(kù)的相應(yīng)定義,并將無(wú)鏈接關(guān)系的實(shí)體進(jìn)行聚類(lèi)。
與英文不同,漢語(yǔ)命名實(shí)體缺少明確的標(biāo)記形態(tài),這給命名實(shí)體識(shí)別和歧義消解帶來(lái)了新的挑戰(zhàn)。首先,普通詞可以作為命名實(shí)體,例如,“高超”一詞通常用作形容詞,但是也可以作為人名出現(xiàn);其次,一個(gè)詞可以作為多種類(lèi)型的命名實(shí)體出現(xiàn),例如,“華明”一詞可能是人名、公司名或者地名;另外,重名現(xiàn)象也在漢語(yǔ)中也大量存在并十分嚴(yán)重。
為了探索解決這些問(wèn)題的方法,第二屆CIPSSIGHAN中文處理國(guó)際會(huì)議(CLP-2012)舉辦了漢語(yǔ)命名實(shí)體識(shí)別與歧義消解評(píng)測(cè),評(píng)測(cè)的參加單位提出了不同的方法,取得了較好的結(jié)果。本文基于CLP-2012的評(píng)測(cè)數(shù)據(jù),探究了命名實(shí)體識(shí)別和歧義消解方法,構(gòu)建了一種基于多步聚類(lèi)的命名實(shí)體識(shí)別和歧義消解框架。在評(píng)測(cè)的測(cè)試數(shù)據(jù)的F值達(dá)到86.68%,高出參評(píng)單位最好結(jié)果6.46%。
命名實(shí)體識(shí)別早期主要使用基于規(guī)則的方法[7]。近幾年大多采用機(jī)器學(xué)習(xí)方法,包括:隱馬爾科夫模型[8]、最大熵模型[9]、條件隨機(jī)場(chǎng)模型[10]等。
命名實(shí)體消歧的方法大致可分為基于文本向量空間模型的聚類(lèi)方法[11]、基于社會(huì)網(wǎng)絡(luò)的方法[12]、基于分類(lèi)的方法[13]等。在KBP中出現(xiàn)的方法更加豐富多樣[6],包括無(wú)指導(dǎo)相似度計(jì)算、有指導(dǎo)分類(lèi)和排序、基于圖的排序、層次聚合式聚類(lèi)、譜圖聚類(lèi)、主題模型等等。
CLP-2012的命名實(shí)體識(shí)別與消歧任務(wù)共有8支隊(duì)伍參加,參評(píng)單位提出了很多有效的方法。文獻(xiàn)[14]使用了分類(lèi)—聚類(lèi)的兩步模型,并利用文檔集合和互聯(lián)網(wǎng)信息構(gòu)造了Out類(lèi)和Other類(lèi)的知識(shí)庫(kù)定義;文獻(xiàn)[15]應(yīng)用了關(guān)鍵詞提取算法來(lái)構(gòu)建特征;文獻(xiàn)[16]抽取了人名實(shí)體的19種屬性,并使用了支持向量機(jī)(SVM)訓(xùn)練分類(lèi)器來(lái)為難以通過(guò)相似度進(jìn)行判斷的文檔分類(lèi);文獻(xiàn)[17]使用了模糊聚類(lèi)。
CLP-2012的命名實(shí)體識(shí)別與消歧任務(wù)融合了WeSP和KBP評(píng)測(cè)的特點(diǎn)。任務(wù)對(duì)每個(gè)待消歧詞提供了知識(shí)庫(kù)來(lái)表示實(shí)體定義,每個(gè)定義由一段文字描述。對(duì)每個(gè)待消歧詞,評(píng)測(cè)任務(wù)提供了一個(gè)文本集合T,每個(gè)文本都包含相應(yīng)的待消歧詞。對(duì)于每個(gè)文本t∈T,判斷t中出現(xiàn)的歧義詞是否對(duì)應(yīng)于知識(shí)庫(kù)中的某個(gè)定義,如果是,則輸出該定義的編號(hào),否則需要判斷該待消歧詞是否作為一個(gè)普通詞出現(xiàn),如果是,則將其歸入Other集合,否則表明該詞作為命名實(shí)體出現(xiàn),但是不指向知識(shí)庫(kù)中的任何一個(gè)定義,則將其歸入Out集合。最后需要對(duì)Out集合中的文本進(jìn)行進(jìn)一步劃分,將指向同一實(shí)體的文本歸入同一集合,劃分結(jié)果表示為Out_01,Out_02……
CLP-2012的命名實(shí)體識(shí)別和歧義消解任務(wù)提供了知識(shí)庫(kù)和待消歧文本兩組語(yǔ)料,其中知識(shí)庫(kù)的規(guī)模較小,因而文獻(xiàn)[14,18]不同程度地使用了互聯(lián)網(wǎng)資源對(duì)知識(shí)庫(kù)進(jìn)行擴(kuò)充。本文提出的方法表明,充分利用知識(shí)庫(kù)和待消歧文本便可以取得理想的結(jié)果。
本文提出的命名實(shí)體識(shí)別和歧義消解方法流程如下:首先,依據(jù)文檔和實(shí)體定義之間的相似度,進(jìn)行第一輪聚類(lèi);再依據(jù)文檔與類(lèi)簇之間的相似度,進(jìn)行第二輪聚類(lèi)。通過(guò)兩輪聚類(lèi),將文檔與實(shí)體定義之間的鏈接基本完成,剩余的未鏈接文檔主要由Other類(lèi)和Out類(lèi)文檔組成。對(duì)未鏈接文檔,使用層次聚合式聚類(lèi)(HAC)算法將Out類(lèi)文檔進(jìn)行聚類(lèi),再基于相似度和規(guī)則對(duì)Other類(lèi)進(jìn)行標(biāo)記。最后,使用K-Means算法對(duì)結(jié)果進(jìn)行微調(diào)。本節(jié)余下部分將詳細(xì)介紹本文提出的基于多步聚類(lèi)的命名實(shí)體識(shí)別和歧義消解方法。
3.1.1 分詞和詞性標(biāo)注
評(píng)測(cè)提供的知識(shí)庫(kù)和待消歧文本兩組語(yǔ)料都是未經(jīng)處理的原始文本,因而需要對(duì)其進(jìn)行分詞和詞性標(biāo)注預(yù)處理。本文使用了由條件隨機(jī)場(chǎng)模型(CRF++①http://crfpp.googlecode.com/svn/trunk/doc/index.html工具包)設(shè)計(jì)并實(shí)現(xiàn)的分詞系統(tǒng),以SIGHAN2005中文分詞評(píng)測(cè)的北京大學(xué)語(yǔ)料作為訓(xùn)練語(yǔ)料,在測(cè)試語(yǔ)料的分詞結(jié)果F值為95.97%。詞性標(biāo)注系統(tǒng)采用了文獻(xiàn)[19]的方法,使用最大熵模型(MaxEnt②http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html工具包)實(shí)現(xiàn),利用《人民日?qǐng)?bào)》1998年1月語(yǔ)料進(jìn)行訓(xùn)練,交叉驗(yàn)證顯示詞性標(biāo)注準(zhǔn)確率為91.14%。詞性標(biāo)注采用了北京大學(xué)標(biāo)注標(biāo)準(zhǔn),其中nr、ns標(biāo)注分別代表了人名和地名,因此沒(méi)有再單獨(dú)對(duì)語(yǔ)料進(jìn)行命名實(shí)體識(shí)別。
3.1.2 特征選取
上下文信息是實(shí)體消歧的重要信息,命名實(shí)體消歧方法大多選取上下文信息為特征。文獻(xiàn)[16]對(duì)命名實(shí)體的屬性進(jìn)行了細(xì)致的抽取,選擇了19種特征。但由于文本的局限性和抽取技術(shù)的限制,過(guò)于細(xì)致的特征抽取難以保證準(zhǔn)確和完整。本文選擇的特征如下。
作品名:包括書(shū)名、影視劇名等,以書(shū)名號(hào)作為選取界限。
人名:選擇詞性標(biāo)注為nr的詞。由于北大分詞標(biāo)準(zhǔn)將人名中的姓和名劃分開(kāi),所以利用簡(jiǎn)單的規(guī)則將其還原成完整的人名。
地名:選擇詞性標(biāo)注為ns的詞。
職業(yè)名稱(chēng):文獻(xiàn)[14]將職業(yè)名稱(chēng)選作特征,取得了良好的實(shí)驗(yàn)效果。本文同樣通過(guò)互聯(lián)網(wǎng)構(gòu)建了表示職業(yè)的詞表,共計(jì)233個(gè)名詞。另外,由于知識(shí)庫(kù)中一定比例的實(shí)體定義為運(yùn)動(dòng)員,對(duì)于這些定義來(lái)說(shuō),運(yùn)動(dòng)項(xiàng)目名稱(chēng)對(duì)消歧會(huì)有顯著的幫助。因此,本方法在詞表中增加了64個(gè)表示運(yùn)動(dòng)項(xiàng)目的名詞。將文本中出現(xiàn)的包含在該詞表中的詞作為職業(yè)名稱(chēng)類(lèi)的特征。
其他名詞特征:選取文檔中所有未被選取的名詞以及名詞性動(dòng)詞。需要說(shuō)明的是,由于待消歧詞在每篇文檔中都會(huì)出現(xiàn),對(duì)歧義消除沒(méi)有幫助,反而可能因大量出現(xiàn)而導(dǎo)致相似度的偏差,因此,特征中沒(méi)有包含待消歧詞。
3.1.3 相似度計(jì)算
文本間相似度計(jì)算采用了基于向量空間模型的余弦相似度,特征權(quán)重使用了加權(quán)的tf-idf值。由于知識(shí)庫(kù)中的實(shí)體定義與待消歧文本之間在文本長(zhǎng)度上存在顯著差異,為了緩解這種不平衡性帶來(lái)的誤差,本文對(duì)待消歧文本的tf值進(jìn)行了調(diào)整,定義調(diào)整函數(shù)f如式(1)所示。
其中ceil表示向上取整函數(shù)。不同類(lèi)型的特征在歧義消解時(shí)的影響是不同的,為此,本文通過(guò)實(shí)驗(yàn),為不同特征設(shè)定了不同的權(quán)重,權(quán)重值如表1所示。
表1 特征類(lèi)型權(quán)重表
向量A與向量B的相似度定義為余弦相似度,如式(3)所示。
首先,將文檔與知識(shí)庫(kù)的定義之間進(jìn)行鏈接。對(duì)待消歧文檔t∈T,計(jì)算其與知識(shí)庫(kù)中所有定義的相似度,按相似度從大到小進(jìn)行排序,依據(jù)排序結(jié)果,可以找到與文檔t相似度最高的定義x,如果x與文檔t的相似度滿足顯著條件,則將文檔t鏈接到定義x。本文定義顯著條件為,若t與知識(shí)庫(kù)中所有定義的相似度中,最高值與次高值的差值達(dá)到某一閾值threshold1,則認(rèn)為結(jié)果顯著。之所以設(shè)定顯著條件,而不是將每個(gè)文檔分配給最高相似度的那個(gè)定義,主要是為了保證聚類(lèi)結(jié)果的準(zhǔn)確度。
上述聚類(lèi)作為第一輪聚類(lèi)。通過(guò)第一輪聚類(lèi)后,一部分文檔被鏈接到知識(shí)庫(kù)的定義上。假定知識(shí)庫(kù)中的定義數(shù)為n,將所有與知識(shí)庫(kù)第i個(gè)定義鏈接的文檔都?xì)w入集合Si,于是,第一輪聚類(lèi)的結(jié)果可以表示為n個(gè)集合S1,S2,…,Sn。我們發(fā)現(xiàn),即便有顯著條件限制,聚類(lèi)結(jié)果中還是會(huì)存在部分錯(cuò)誤。為了后續(xù)處理達(dá)到更好效果,還需要對(duì)第一輪聚類(lèi)的結(jié)果進(jìn)行調(diào)整,以盡可能將錯(cuò)誤的結(jié)果從集合中剔除。調(diào)整主要利用了待消歧文本之間的相似度。本文假定,若同一集合中的文本都含有指向同一定義的同名實(shí)體,這些文本之間也存在密切的關(guān)聯(lián)。由于文檔的長(zhǎng)度相較實(shí)體定義更長(zhǎng),詞匯分布更加均勻,因而相似度的可靠性更高。因此,本文采用的調(diào)整策略為,對(duì)于集合Si中的文檔t,如果t與集合中其他文檔的平均相似度大于t與第i個(gè)實(shí)體定義的相似度,則Si保留t,否則從Si中剔除t,t重新歸入未鏈接文檔集合。
經(jīng)過(guò)第一輪聚類(lèi)和結(jié)果調(diào)整,得到了聚類(lèi)結(jié)果S1,S2,…,Sn。在第二輪聚類(lèi)中,本文使用一輪聚類(lèi)的結(jié)果來(lái)對(duì)剩余的文檔進(jìn)行鏈接。聚類(lèi)過(guò)程如下:對(duì)于每個(gè)未鏈接文檔t,分別計(jì)算t與S1,S2,…,Sn的相似度,定義t與文檔集合S的相似度如式(4)所示。
得到n個(gè)相似度后,同樣采用第一輪聚類(lèi)中的顯著條件,即如果相似度中最高值與次高值的差大于閾值threshold2,則將該文檔t加入與之相似度最高的文檔集合,即將t鏈接到該集合對(duì)應(yīng)的實(shí)體定義。
經(jīng)過(guò)前兩輪聚類(lèi),大部分與知識(shí)庫(kù)中的定義相關(guān)聯(lián)的文檔已經(jīng)被鏈接,剩余的未鏈接文檔集合主要由Out類(lèi)和Other類(lèi)組成。這些文檔與已鏈接的文檔集合S1,S2,…,Sn的相似度都不符合顯著條件,但其中Out類(lèi)的文檔可以進(jìn)一步形成多個(gè)集合,這些集合內(nèi)的文檔間相似度較高。本文使用層次聚合式聚類(lèi)(Hierarchical Agglomerative Clustering,HAC)算法對(duì)剩余文檔進(jìn)行聚類(lèi),得到Out類(lèi)文檔的聚類(lèi)結(jié)果。聚類(lèi)方法如下:
(1)將每個(gè)文檔作為一個(gè)聚類(lèi)集合;
(2)計(jì)算每?jī)蓚€(gè)集合之間的相似度;
(3)將相似度最高的兩個(gè)集合合并為一個(gè)集合;
(4)重復(fù)(2)和(3)直到任意兩個(gè)集合之間的相似度小于某個(gè)閾值thresholdHAC。
聚類(lèi)集合之間的相似度采用組平均相似度,即
因?yàn)槲存溄游臋n中還包含了Other類(lèi)文檔,以及少數(shù)未被準(zhǔn)確鏈接的實(shí)體文檔,因此層次聚類(lèi)的停止閾值不應(yīng)過(guò)低,目的是盡可能使得聚類(lèi)過(guò)程僅涉及相似度較高的Out類(lèi)文檔,而不使非Out類(lèi)文檔參與聚類(lèi)。
對(duì)于聚類(lèi)的結(jié)果,本文選擇大小超過(guò)2的聚類(lèi)集合作為Out類(lèi)集合,因?yàn)橥ㄟ^(guò)實(shí)驗(yàn)我們發(fā)現(xiàn),大小為2的聚類(lèi)集合是真實(shí)Out類(lèi)集合的概率不高,選取大小超過(guò)2的聚類(lèi)集合作為Out類(lèi)集合效果最好。
Other類(lèi)的識(shí)別是評(píng)測(cè)任務(wù)的一個(gè)難點(diǎn),多個(gè)參賽單位使用了命名實(shí)體識(shí)別系統(tǒng)來(lái)對(duì)Other類(lèi)進(jìn)行識(shí)別,但由于評(píng)測(cè)任務(wù)中的待消歧詞大多在漢語(yǔ)中通常作為普通詞出現(xiàn),所以命名實(shí)體識(shí)別對(duì)這些詞的識(shí)別效果不佳。文獻(xiàn)[14]指出他們使用的命名實(shí)體識(shí)別系統(tǒng)對(duì)于多個(gè)待消歧詞的識(shí)別準(zhǔn)確率僅為0,文獻(xiàn)[20]介紹了CLP-2010人名消歧任務(wù)取得第一的參評(píng)單位所采用的人名識(shí)別系統(tǒng),但該系統(tǒng)對(duì)“高明”這類(lèi)通常作為普通詞的人名識(shí)別卻無(wú)能為力,因而文獻(xiàn)[20]采用了規(guī)則來(lái)進(jìn)行這類(lèi)人名的識(shí)別。
所以,本文提出的方法并沒(méi)有像大部分參評(píng)單位那樣在第一步進(jìn)行Other類(lèi)文檔的識(shí)別,而是通過(guò)前三步的準(zhǔn)確聚類(lèi),來(lái)保證大部分Other類(lèi)文檔在三步聚類(lèi)之后仍然未被標(biāo)注,然后在剩余的未標(biāo)注文檔中,通過(guò)相似度和規(guī)則相結(jié)合的方式來(lái)確定Other類(lèi)文檔。具體方法是:如果未標(biāo)注文檔t與實(shí)體定義文檔集合S1,S2,…,Sn以及層次聚合式聚類(lèi)結(jié)果Out1,Out2,…,Outm的相似度都低于0.02,且待消歧詞前后大小為2的窗口中未出現(xiàn)命名實(shí)體或職業(yè)名稱(chēng)類(lèi)詞語(yǔ),則將其標(biāo)記為Other類(lèi)。
前幾步聚類(lèi)可以得到鏈接到知識(shí)庫(kù)定義的n個(gè)文檔集合S1,S2,…,Sn以及層次聚合式聚類(lèi)結(jié)果Out1,Out2,…,Outm,相應(yīng)地,可以得到k=m+n個(gè)聚類(lèi)中心,使用類(lèi)似K-Means聚類(lèi)的方法,可以對(duì)除Other類(lèi)文檔之外的聚類(lèi)結(jié)果進(jìn)行調(diào)整。方法是,將每個(gè)非Other類(lèi)文檔t(t可能仍未歸入到任何一個(gè)集合),歸入與之相似度最高的集合,重復(fù)該過(guò)程直到所有集合保持穩(wěn)定不變。此時(shí)的標(biāo)記結(jié)果就是系統(tǒng)輸出的最終結(jié)果。
我們使用CLP-2012評(píng)測(cè)提供的訓(xùn)練數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),訓(xùn)練數(shù)據(jù)共有16個(gè)待消歧詞,1634個(gè)待消歧文檔?;谟?xùn)練數(shù)據(jù)的實(shí)驗(yàn)表明,表2所示的閾值取值得到了最佳結(jié)果,因此我們依據(jù)表2設(shè)定閾值。
表2 閾值選擇
為了顯示每一步聚類(lèi)的效果,我們對(duì)每一步的結(jié)果進(jìn)行了評(píng)測(cè)。由于中間結(jié)果并沒(méi)有對(duì)所有文檔完成標(biāo)注,所以?xún)H對(duì)標(biāo)注結(jié)果的文檔進(jìn)行評(píng)估,準(zhǔn)確率和召回率均為已標(biāo)注文檔的均值。相應(yīng)地我們?cè)黾恿藰?biāo)注率指標(biāo),來(lái)顯示已標(biāo)注文檔占所有文檔的比例。中間結(jié)果的評(píng)測(cè)數(shù)據(jù)如表3所示。
表3 分步標(biāo)注結(jié)果評(píng)測(cè)
從表3中可以看出,第一輪聚類(lèi)標(biāo)注了60%的文本,并且準(zhǔn)確率已經(jīng)達(dá)到了90%,第一輪聚類(lèi)總體效果良好。第一輪聚類(lèi)后的調(diào)整有效地提高了準(zhǔn)確率,使得調(diào)整后的聚類(lèi)集合保持了較高的純度,但是召回率以及標(biāo)注率都有所下降,這說(shuō)明部分正確標(biāo)注從結(jié)果中被剔除,但調(diào)整的主要目的是提高準(zhǔn)確率,第二輪聚類(lèi)仍然有可能保證這部分正確的鏈接重新被加入結(jié)果中。第二輪聚類(lèi)的結(jié)果很好地彌補(bǔ)了第一輪聚類(lèi)的問(wèn)題,標(biāo)注文檔比例較第一輪聚類(lèi)有所上升,準(zhǔn)確率和召回率都顯著提高。層次聚合式聚類(lèi)后,標(biāo)注率提高了20%,準(zhǔn)確率和召回率僅稍有下降,說(shuō)明對(duì)Out類(lèi)的聚類(lèi)結(jié)果比較準(zhǔn)確。判斷Other類(lèi)后,準(zhǔn)確率和召回率有所下降,說(shuō)明標(biāo)記Other類(lèi)的準(zhǔn)確性比知識(shí)庫(kù)和Out類(lèi)低。經(jīng)過(guò)K-Means聚類(lèi)調(diào)整后,F(xiàn)值最終為88.35%。
K-Means聚類(lèi)調(diào)整的迭代過(guò)程如表4所示。從表4可以看出,基于K-Means聚類(lèi)的調(diào)整對(duì)結(jié)果有小幅度的提升,由于調(diào)整前聚類(lèi)結(jié)果較好,所以調(diào)整在4輪迭代后就達(dá)到穩(wěn)定。
使用在訓(xùn)練數(shù)據(jù)上取得最優(yōu)效果的設(shè)定,我們?cè)贑LP-2012的測(cè)試數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。
表4 K-Means調(diào)整的迭代過(guò)程
表5 測(cè)試數(shù)據(jù)實(shí)驗(yàn)結(jié)果
我們將實(shí)驗(yàn)結(jié)果與參與評(píng)測(cè)的前三名系統(tǒng)結(jié)果進(jìn)行了比較,如表6所示??梢钥闯?,本文的方法無(wú)論在訓(xùn)練集還是測(cè)試集上,都優(yōu)于評(píng)測(cè)前三名的系統(tǒng)。其中測(cè)試集F值與評(píng)測(cè)第一名相比,提高了6.46%。
表6 與其他系統(tǒng)結(jié)果比較
我們對(duì)知識(shí)庫(kù)實(shí)體類(lèi)、Out類(lèi)、Other類(lèi)分別進(jìn)行了評(píng)價(jià),結(jié)果如表7所示。
表7 結(jié)果分類(lèi)評(píng)價(jià)
從表7可以看出,對(duì)知識(shí)庫(kù)鏈接以及Out類(lèi)聚類(lèi)的結(jié)果較好,這說(shuō)明本文構(gòu)建的基于向量空間相似度的聚類(lèi)算法體現(xiàn)出了良好的消歧性能。但基于文本相似度的方法也存在局限性,例如,“高峰”一詞的文檔中,有多篇文章涉及了德云社的演員高峰調(diào)侃北京國(guó)安足球隊(duì)引發(fā)風(fēng)波的消息,由于國(guó)安、足球等詞匯大量出現(xiàn),錯(cuò)誤地將相聲演員高峰判斷為曾在北京國(guó)安隊(duì)效力的球員高峰。對(duì)于這種情況,需要更深層次的語(yǔ)義信息來(lái)幫助判斷。
表7還顯示,Other類(lèi)的整體F值僅有55.78%。這說(shuō)明當(dāng)普通詞作為命名實(shí)體時(shí),辨識(shí)普通詞的效果不盡如人意。普通詞作為命名實(shí)體是漢語(yǔ)的一種常見(jiàn)現(xiàn)象,現(xiàn)有的基于規(guī)則和機(jī)器學(xué)習(xí)的方法尚不能很好地解決這類(lèi)識(shí)別問(wèn)題,還需要從語(yǔ)義理解的角度獲取更多可靠信息來(lái)提高該任務(wù)中普通名詞的識(shí)別效果。
本文基于向量空間相似度,使用多步聚類(lèi)的方法,實(shí)現(xiàn)了命名實(shí)體識(shí)別與歧義消解的模型。在CLP-2012評(píng)測(cè)語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,本文所采用的多步聚類(lèi)方法是有效的,將評(píng)測(cè)的結(jié)果提高了6.46%。同時(shí),本文的方法不需要借助其他語(yǔ)料或者人工構(gòu)造、修改語(yǔ)料,具有良好的適用性。但仍有不足之處,對(duì)于普通詞的識(shí)別效果較差。
下一步,我們將進(jìn)一步利用和融合更多信息,包括互聯(lián)網(wǎng)搜索結(jié)果及百科信息等,并從更深層次的語(yǔ)義層面入手,挖掘文本中蘊(yùn)含的語(yǔ)義信息,來(lái)進(jìn)一步提高命名實(shí)體識(shí)別和歧義消解的效果。
[1]趙軍.命名實(shí)體識(shí)別、排歧和跨語(yǔ)言關(guān)聯(lián)[J].中文信息學(xué)報(bào),2009,23(2):3-17.
[2]J Artiles,J Gonzalo,S Sekine.The SemEval-2007 WePS evaluation:Establishing a Benchmark for the Web People Search Task[C]//Proceedings of SemEval'07Proceedings of the 4th International Workshop on Semantic Evaluations,2007:64-69.
[3]J Artiles,J Gonzalo,S Sekine.WePS 2Evaluation Campaign:Overview of the Web People Search Clustering Task[C]//Proceedings of 2nd Web People Search Evaluation Workshop,18th WWW Conference,2009.
[4]J Artiles,A Borthwick,J Gonzalo,et al.WePS-3E-valuation Campaign:Overview of the Web People Search Clustering and Attribute Extraction Tasks[C]//Proceedings of Conference on Multilingual and Multimodal Information Access Evaluation (CLEF).2010.
[5]H Ji,R Grishman,H T.Dang,et al.An Overview of the TAC2010Knowledge Base Population Track[C]//Proceedings of Text Analytics Conference(TAC2010).
[6]H Ji,R Grishman,H T Dang.An Overview of the TAC2011Knowledge Base Population Track[C]//Proceedings of Text Analysis Conference(TAC2011).
[7]R Grishman,B Sundheim.Design of the MUC-6evaluation[C]//Proceedings of 6th Message Understanding Conference,1995.
[8]J Sun,J Gao,L Zhang,et al.Chinese Named Entity Identification Using Class-based Language Model[C]//Proceedings of the 19th International Conference on Computational Linguistics(COLING 2002):1-7.
[9]A Borthwick.A Maximum Entropy Approach to Named Entity Recognition[D].New York:New York University.1999.
[10]X Mao,Y Dong,S He,et al.Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields[C]//Proceedings of Sixth SIGHAN Workshop on Chinese Language Processing.2008:90-93.
[11]Silviu Cucerzan.Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP2007):708-716.
[12]Ron Bekkerman,Andrew McCallum.Disambiguating Web Appearances of People in a Social Network[C]//Proceedings of the 14th International Conference on World Wide Web(WWW2005):463-470.
[13]X Han,J Zhao.Person Name Disambiguation Based on Web-Based Person Mining and Categorization[C]//Proceedings of Submitted to Second Web People Search Evaluation Workshop in Conjunction with WWW2009.
[14]Z Peng,L Sun,and X Han.SIR-NERD:A Chinese Named Entity Recognition and Disambiguation System Using a Two-stage Method[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing(CLP-2012).
[15]H Zong,D F Wong,and L S Chao.A Template Based Hybrid Model for Chinese Personal Name Disambiguation[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing(CLP-2012).
[16]W Han,G Liu,Y Mao,et al.Attribute Based Chinese Named Entity Recognition and Disambiguation[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012).
[17]W Tian,X Pan,Z Yu,et al.Chinese Name Disambiguation Based on Adaptive Clustering with the Attribute Features[C]//Proceedings of The 2nd CIPSSIGHAN Joint Conference on Chinese Language Processing(CLP-2012).
[18]J.Liu,R.Xu,Q.Lu,J.Xu.Explore Chinese Encyclopedic Knowledge to Disambiguate Person Names[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012).
[19]H.T.Ng,J.K.Low.Chinese Part-of-speech Tagging:One-at-a-time or All-at-once? Word-based or Character-based?[C]//Proceedings of the 2004Conference on Empirical Methods in Natural Language Processing(EMNLP 2004):277-284.
[20]時(shí)迎超,王會(huì)珍,肖桐,等.面向人名消歧任務(wù)的人名識(shí)別系統(tǒng)[J].中文信息學(xué)報(bào),2009,23(3):17-22.