付宇新,王 鑫+,馮志勇,徐 強(qiáng)
1.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300354
2.天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300354
3.天津大學(xué) 軟件學(xué)院,天津 300354
DBpedia Spotlight上的命名實(shí)體識(shí)別優(yōu)化*
付宇新1,2,王 鑫1,2+,馮志勇2,3,徐 強(qiáng)1,2
1.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300354
2.天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300354
3.天津大學(xué) 軟件學(xué)院,天津 300354
+Corresponding autho author:r:E-mail:wangx@tju.edu.cn
FU Yuxin,WANG Xin,FENG Zhiyong,et al.Nam ed entity recognition optim ization on DBpedia Spotlight.Journalof Frontiersof Com puter Science and Technology,2017,11(7):1044-1055.
命名實(shí)體識(shí)別任務(wù)能夠搭建知識(shí)庫(kù)與自然語(yǔ)言之間的橋梁,為關(guān)鍵字提取、機(jī)器翻譯、主題檢測(cè)與跟蹤等研究工作提供支撐。通過(guò)對(duì)目前命名實(shí)體識(shí)別領(lǐng)域的相關(guān)研究進(jìn)行分析,提出了一套通用的命名實(shí)體識(shí)別優(yōu)化方案。首先,設(shè)計(jì)并實(shí)現(xiàn)了利用候選集的增量式擴(kuò)展方法,降低了對(duì)訓(xùn)練集的依賴(lài)性;其次,通過(guò)點(diǎn)互信息率對(duì)實(shí)體上下文進(jìn)行特征選擇,大幅度降低了上下文空間,同時(shí)提高了標(biāo)注性能;最后,提出了基于主題向量的二次消歧方法,進(jìn)一步增強(qiáng)了標(biāo)注準(zhǔn)確率。通過(guò)在廣泛使用的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight上進(jìn)行多種比較實(shí)驗(yàn),驗(yàn)證了所提優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。
命名實(shí)體識(shí)別;鏈接數(shù)據(jù);DBpedia Spotlight
作為信息提取領(lǐng)域的任務(wù)之一,命名實(shí)體識(shí)別能夠在給定的文本中識(shí)別出所有實(shí)體的命名性指稱(chēng),并鏈接到其在知識(shí)庫(kù)中的參照,從而搭建起知識(shí)庫(kù)與自然語(yǔ)言文本之間的橋梁。隨著維基百科的發(fā)展以及包括DBpedia[1]、YAGO[2]等知識(shí)庫(kù)的發(fā)布,使用命名實(shí)體識(shí)別豐富文本背后的語(yǔ)義并為應(yīng)用提供智能服務(wù)變得越來(lái)越重要,因此如何提高命名實(shí)體識(shí)別的性能成為許多研究工作的焦點(diǎn)。
命名實(shí)體識(shí)別宏觀(guān)上包括3個(gè)步驟:第一步是命名性指稱(chēng)識(shí)別,即盡可能地識(shí)別出文本中可能出現(xiàn)的命名性指稱(chēng);第二步是候選集生成,即對(duì)于每個(gè)命名性指稱(chēng),構(gòu)成一個(gè)由知識(shí)庫(kù)中可能與之對(duì)應(yīng)實(shí)體組成的候選集;最后一步是候選集消歧,即在每個(gè)命名性指稱(chēng)對(duì)應(yīng)的候選集中確定唯一的實(shí)體匹配。
本文提出了一套命名實(shí)體識(shí)別優(yōu)化方案,能夠適用于目前大部分的命名實(shí)體識(shí)別系統(tǒng),并從三方面改善命名實(shí)體識(shí)別的性能。
本文的主要貢獻(xiàn)如下:
(1)提出了使用候選集對(duì)一個(gè)命名實(shí)體識(shí)別系統(tǒng)進(jìn)行增量式擴(kuò)展的方法,降低了對(duì)訓(xùn)練數(shù)據(jù)集的依賴(lài),提高了靈活性。
(2)通過(guò)考慮上下文單詞與實(shí)體的相關(guān)性,提出了點(diǎn)互信息率的概念,并使用其作為閾值對(duì)每個(gè)實(shí)體的上下文進(jìn)行特征選擇,大幅度降低了上下文空間,同時(shí)提高了系統(tǒng)的標(biāo)注性能。
(3)使用維基百科文章之間的鏈接為實(shí)體和文本構(gòu)建主題向量代替M ilne-W itten語(yǔ)義關(guān)聯(lián)度,并基于主題向量提出了二次消歧算法,進(jìn)一步提高了系統(tǒng)標(biāo)注的準(zhǔn)確率。
(4)通過(guò)將優(yōu)化方案實(shí)現(xiàn)在目前廣泛使用的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight上,并在多個(gè)測(cè)試數(shù)據(jù)集上設(shè)計(jì)完善的實(shí)驗(yàn),驗(yàn)證了所提優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。
本文組織結(jié)構(gòu)如下:第2章介紹相關(guān)研究工作;第3章給出命名實(shí)體識(shí)別優(yōu)化方案的三方面內(nèi)容;第4章介紹基于命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight的優(yōu)化方案實(shí)現(xiàn);第5章詳細(xì)描述對(duì)比實(shí)驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)結(jié)果;第6章對(duì)全文進(jìn)行總結(jié)。
由于命名實(shí)體形式多變并且語(yǔ)言環(huán)境復(fù)雜,正確地對(duì)候選集進(jìn)行消歧尤為重要。例如,實(shí)體China可以在文本中通過(guò)命名性指稱(chēng)“China”或“PRC”等來(lái)指代,而命名性指稱(chēng)“Apple”也可能指代的是水果或蘋(píng)果公司。
Cucerzan[3]最先提出了基于詞袋的方法,利用維基百科的標(biāo)注數(shù)據(jù)構(gòu)造實(shí)體的上下文向量和類(lèi)別向量,并將文本中的表現(xiàn)形式標(biāo)注到與之相似度最高的實(shí)體上。Medelyan等人[4]考慮到文本應(yīng)該具有一個(gè)中心主題,因此選擇候選集中與文本之間的語(yǔ)義關(guān)聯(lián)度最高的實(shí)體作為消歧結(jié)果。M ilne和Witten[5]在利用語(yǔ)義關(guān)聯(lián)度的同時(shí),考慮了實(shí)體的流行度和上下文質(zhì)量,并結(jié)合樸素貝葉斯、C4.5決策樹(shù)、支持向量機(jī)等機(jī)器學(xué)習(xí)方法對(duì)候選集進(jìn)行消歧。Olieman[6]、Lipczak[7]等人的工作選取了更多的特征,使消歧的效果得到了進(jìn)一步的提高。Kulkarni等人[8]的工作結(jié)合了上下文向量的余弦相似度和實(shí)體之間的語(yǔ)義相似度,將標(biāo)注問(wèn)題規(guī)約到了線(xiàn)性?xún)?yōu)化問(wèn)題,通過(guò)選擇一個(gè)最優(yōu)的標(biāo)注結(jié)果,使得最終文本得到的實(shí)體之間局部相似度和全局相似度之和最大。Han等人[9]提出了基于圖的候選集消歧算法,利用所有表現(xiàn)形式和候選集構(gòu)造“指示圖”,并為圖上的每個(gè)點(diǎn)賦予一個(gè)初始得分,利用隨機(jī)游走算法,最終選擇穩(wěn)定后的最高得分實(shí)體。Hoffart[10]和Usbeck[11]等人也同樣使用基于圖的候選集消歧方法,并將不同的圖構(gòu)建算法和圖消歧算法作為研究的重點(diǎn)。
已有的工作仍然具有以下幾點(diǎn)問(wèn)題:(1)命名實(shí)體識(shí)別系統(tǒng)普遍使用維基百科知識(shí)庫(kù)中的人工標(biāo)注結(jié)果作為支持?jǐn)?shù)據(jù),因此維基百科中沒(méi)有出現(xiàn)過(guò)的標(biāo)注也不可能出現(xiàn)在系統(tǒng)的標(biāo)注結(jié)果中;(2)實(shí)體上下文是候選集消歧的最重要的特征,而所有命名實(shí)體識(shí)別系統(tǒng)僅僅選擇去除其中的停用詞,而忽略了一些“類(lèi)停用詞”帶來(lái)的噪音;(3)主題一致性同樣是一個(gè)重要的用于候選集消歧的特征,而一部分命名實(shí)體識(shí)別系統(tǒng)受限于本身的核心消歧算法,缺少高效的手段來(lái)與主題一致性相融合。圍繞這些問(wèn)題,本文提出了一套命名實(shí)體識(shí)別優(yōu)化方案,可以有效地提高命名實(shí)體識(shí)別系統(tǒng)的性能。
下面主要介紹命名實(shí)體識(shí)別優(yōu)化方案的三部分:基于候選集的增量擴(kuò)展方法,基于點(diǎn)互信息率的特征選擇以及基于主題向量的二次消歧。
3.1 基于候選集的增量擴(kuò)展方法
原有的包括DBpedia Spotlight在內(nèi)的命名實(shí)體識(shí)別系統(tǒng)中,例如TagMe(http://acube.di.unipi.it/tagme)、AIDA(http://www.mpi-inf.mpg.de/yago-naga/aida)、Wikipedia M iner(http://w ikipedia-miner.cms.waikato.ac.nz)等普遍都需要使用基于維基百科數(shù)據(jù)得到的字典和候選集來(lái)識(shí)別文本中的命名性指稱(chēng)以及實(shí)體候選集。這樣做的問(wèn)題是,如果維基百科中并不存在正確的實(shí)體與命名性指稱(chēng)的匹配,那么在給定文本中該命名性指稱(chēng)也永遠(yuǎn)不會(huì)得到正確的標(biāo)注。例如命名性指稱(chēng)“Justin”在維基百科中僅僅被標(biāo)記為實(shí)體Justin Bieber,則對(duì)于輸入文本中出現(xiàn)的命名性指稱(chēng)“Justin”,將永遠(yuǎn)不會(huì)被標(biāo)記為其他實(shí)體,即便正確的結(jié)果希望將該命名性指稱(chēng)標(biāo)記到實(shí)體Justin Timberlake。
通過(guò)人工構(gòu)建這些命名性指稱(chēng)和實(shí)體之間的對(duì)應(yīng)關(guān)系作為候選集,可以直接對(duì)命名性指稱(chēng)模型和候選集模型進(jìn)行擴(kuò)展。基于拉普拉斯平滑[12]的思想,對(duì)于這些新的實(shí)體與命名性指稱(chēng)對(duì)應(yīng)關(guān)系,如果它并沒(méi)有在訓(xùn)練集中出現(xiàn)過(guò),不是認(rèn)為它不可能作為標(biāo)注出現(xiàn),而是給予它一個(gè)最低的概率,即認(rèn)為它的被標(biāo)記次數(shù)為1次。對(duì)于模型中未出現(xiàn)的命名性指稱(chēng),需要設(shè)定一個(gè)初始的被標(biāo)記概率,本文選擇使用命名性指稱(chēng)和實(shí)體的聯(lián)合被標(biāo)記概率(式(1))來(lái)對(duì)新命名性指稱(chēng)的被標(biāo)記概率(式(2))進(jìn)行估計(jì)。
其中,count(NIL,s)代表命名性指稱(chēng)s并未被標(biāo)記的次數(shù);S(e)是實(shí)體e所有已知的命名性指稱(chēng)集合。
3.2 基于點(diǎn)互信息率的特征選擇
特征選擇能夠通過(guò)減少有效的詞匯空間來(lái)提高分類(lèi)器訓(xùn)練和應(yīng)用的效率,同時(shí)也能夠去除噪音特征,從而提高分類(lèi)的精度。對(duì)于命名實(shí)體識(shí)別任務(wù)來(lái)說(shuō),候選集消歧的問(wèn)題也可以抽象成為一個(gè)分類(lèi)問(wèn)題,因此合理地使用特征選擇能夠改善命名實(shí)體識(shí)別問(wèn)題。
在候選集消歧的過(guò)程中能夠利用的最重要特征是每個(gè)實(shí)體周?chē)纳舷挛?。所有命名?shí)體識(shí)別系統(tǒng)都需要離線(xiàn)的處理過(guò)程,目的是將維基百科中出現(xiàn)在實(shí)體周?chē)膯卧~過(guò)濾掉停用詞后作為實(shí)體的上下文。這些上下文中的單詞有很多和實(shí)體的出現(xiàn)只是偶然的關(guān)系,換句話(huà)說(shuō),這些單詞對(duì)于實(shí)體而言和停用詞的作用是近似的。通過(guò)將這些相對(duì)實(shí)體的類(lèi)停用詞過(guò)濾掉,不僅可以減小實(shí)體上下文模型的占用空間,提高系統(tǒng)的性能;同時(shí)可以有效地避免這些類(lèi)停用詞給消歧帶來(lái)的噪音,優(yōu)化系統(tǒng)的標(biāo)注效果。
信息論中,點(diǎn)互信息量[13](pointw isemutual information,PM I)能夠有效地度量?jī)蓚€(gè)事件同時(shí)發(fā)生的關(guān)聯(lián)程度。Islam等人[14-15]使用點(diǎn)互信息量來(lái)計(jì)算兩個(gè)單詞或文本之間的相似性。因此,結(jié)合DBpedia Spotlight的命名實(shí)體識(shí)別過(guò)程,本文定義一個(gè)實(shí)體e與該實(shí)體上下文中的某個(gè)單詞t之間的點(diǎn)互信息量為:
其中,N為訓(xùn)練集中單詞的總數(shù);count(e,t)代表實(shí)體e和單詞t在維基百科中同一個(gè)上下文環(huán)境下出現(xiàn)的次數(shù);count(e)和count(t)分別表示實(shí)體e和單詞t在維基百科中出現(xiàn)的總次數(shù)。通過(guò)上式可以計(jì)算得到單詞t和實(shí)體e之間的點(diǎn)互信息量,從而衡量?jī)烧叩年P(guān)聯(lián)程度。兩者之間的點(diǎn)互信息量值越大,說(shuō)明這個(gè)單詞的出現(xiàn)和實(shí)體的出現(xiàn)之間的關(guān)聯(lián)性越大,反之,說(shuō)明這個(gè)單詞的出現(xiàn)和實(shí)體的出現(xiàn)接近于偶然,兩者的聯(lián)系比較小,可以把單詞作為停用詞處理。
對(duì)于點(diǎn)互信息量樸素的使用方法是將所有與實(shí)體之間的點(diǎn)互信息量低于一定閾值的單詞從其上下文模型中剔除掉,避免這些單詞在消歧時(shí)帶來(lái)的噪音。然而實(shí)際證明這樣的策略并不是最優(yōu)的,原因是模型中每個(gè)實(shí)體所具有的信息量各不相同,與其上下文中的單詞之間點(diǎn)互信息量能夠達(dá)到的最大值也各不相同,因此將所有實(shí)體的上下文單詞使用相同的閾值進(jìn)行過(guò)濾是不合理的。通過(guò)考慮以上因素,本文提出了點(diǎn)互信息率的概念(式(4)),即單詞t和實(shí)體e之間的點(diǎn)互信息量與實(shí)體e所具有的信息量的比值。
其中,H(e)是實(shí)體e具有的信息量,通過(guò)式(5)計(jì)算。
3.3 基于主題向量的二次消岐
通常一段文本都具有一個(gè)主題,文本內(nèi)部的實(shí)體之間具有緊密的聯(lián)系,Medelyan[4]和Ferragina[16]等人都將主題一致性作為候選集消歧的主要依據(jù),可以一定程度上提高命名實(shí)體識(shí)別的性能。而部分命名實(shí)體識(shí)別系統(tǒng)從截然不同的思路入手來(lái)解決候選集消歧問(wèn)題,缺少一些高效的手段將主題一致性整合到消歧過(guò)程中。
3.3.1 主題向量的構(gòu)造
基于維基百科文章的M ilne-Witten語(yǔ)義關(guān)聯(lián)度[17]被廣泛應(yīng)用在命名實(shí)體識(shí)別領(lǐng)域。M ilne-Witten語(yǔ)義關(guān)聯(lián)度借鑒了谷歌距離,充分考慮了維基百科文章之間的超鏈接構(gòu)成的圖結(jié)構(gòu),而不是使用分類(lèi)的層次結(jié)構(gòu)和文本內(nèi)容。給定一篇文章,計(jì)算任意實(shí)體與文章的主題一致性需要分別計(jì)算該實(shí)體與其他所有文章中實(shí)體的M ilne-Witten語(yǔ)義關(guān)聯(lián)度并求和,對(duì)于較長(zhǎng)文章或?qū)嶓w出現(xiàn)密集的文章具有較低的效率。通過(guò)借鑒M ilne-Witten語(yǔ)義關(guān)聯(lián)度的方法,本節(jié)提出了使用實(shí)體所出現(xiàn)的維基百科文章集合來(lái)表示實(shí)體主題和文章主題的方法。
令W={w1,w2,…,wM}為維基百科中所有文章的集合。給出一個(gè)實(shí)體e,通過(guò)統(tǒng)計(jì)所有包含它的維基百科中的文章,可以得到該實(shí)體主題的01向量表示。
其中,維基百科中的每篇文章對(duì)應(yīng)topic(e)向量中的一位,由該實(shí)體是否在該文章中出現(xiàn)決定該位是0還是1。
同樣,給出一個(gè)文章D,可以通過(guò)對(duì)文章中出現(xiàn)的所有實(shí)體主題向量求和得到文章對(duì)應(yīng)的主題向量。
3.3.2 基于主題向量的二次消岐
對(duì)于任意一個(gè)命名實(shí)體識(shí)別系統(tǒng),最終候選集消歧的結(jié)果是對(duì)每個(gè)命名性指稱(chēng)給予唯一的實(shí)體匹配。如果一個(gè)候選集中的兩個(gè)實(shí)體消歧的得分比較接近,那么直接選擇得分更高的實(shí)體很容易出現(xiàn)錯(cuò)誤。利用上節(jié)提到的主題向量,可以對(duì)這部分容易發(fā)生錯(cuò)誤的標(biāo)注結(jié)果進(jìn)行二次消歧。
給定一篇文章和候選集實(shí)體,利用上節(jié)的方法構(gòu)造文章的主題向量和每個(gè)實(shí)體的主題向量。對(duì)于每個(gè)實(shí)體,計(jì)算其主題向量和文章主題向量的余弦相似度作為兩者的主題相似度,并選擇主題相似度最高的實(shí)體作為最終標(biāo)注的實(shí)體。
為了得到文章的主題向量,需要獲得文章中出現(xiàn)的所有實(shí)體。然而要想得到文章中出現(xiàn)的所有實(shí)體,又需要首先獲得文章的標(biāo)注結(jié)果,這就使得兩者出現(xiàn)了循環(huán)依賴(lài)的關(guān)系。對(duì)于這個(gè)問(wèn)題,本文采取的解決辦法是利用一次消歧結(jié)果來(lái)近似得到文章中出現(xiàn)的實(shí)體。
本文認(rèn)為在一次消歧后滿(mǎn)足以下兩個(gè)條件的候選實(shí)體可以作為正確的標(biāo)注結(jié)果,不參與二次消歧,并利用這些實(shí)體構(gòu)建文章的近似主題向量。
(1)該實(shí)體在候選集中擁有最高的消歧得分,且不低于一定閾值(取決于具體的系統(tǒng))。
(2)候選集中沒(méi)有其他實(shí)體的支持度(即維基百科中的出現(xiàn)次數(shù))大于該實(shí)體。
在得到文章的主題向量之后,通過(guò)計(jì)算剩下的候選實(shí)體和文章主題之間的主題相似度,將主題相似度最高的實(shí)體作為最終的消歧結(jié)果。
本文用于實(shí)驗(yàn)的命名實(shí)體識(shí)別系統(tǒng)是DBpedia Spotlight基于統(tǒng)計(jì)的版本[18],也是目前使用最廣泛的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)之一。本章主要對(duì)系統(tǒng)原理進(jìn)行簡(jiǎn)單介紹,并闡述優(yōu)化方案的實(shí)現(xiàn)。
4.1 開(kāi)源系統(tǒng)DBpediaSpotlight
DBpedia Spotlight可以識(shí)別文本中的命名性指稱(chēng),并與DBpedia知識(shí)庫(kù)中的對(duì)應(yīng)實(shí)體關(guān)聯(lián)起來(lái),從而豐富文本的信息。系統(tǒng)所需要的統(tǒng)計(jì)模型包括實(shí)體、命名性指稱(chēng)、候選集、單詞和上下文五部分,是通過(guò)對(duì)維基百科的dump解析得到的,并序列化到硬盤(pán)。維基百科文章中包含了大量超鏈接形式的高質(zhì)量人工標(biāo)注,其中鏈接指向的文章就是標(biāo)注的實(shí)體,鏈接處的文本是實(shí)體在文本中的命名性指稱(chēng),鏈接處周?chē)奈谋緞t作為實(shí)體出現(xiàn)的上下文。
DBpedia Spotlight的命名實(shí)體識(shí)別過(guò)程也包括命名性指稱(chēng)識(shí)別、候選集生成和候選集消歧3個(gè)步驟。
(1)命名性指稱(chēng)識(shí)別
DBpedia Spotlight通過(guò)利用維基百科中出現(xiàn)的所有命名性指稱(chēng),構(gòu)建有限自動(dòng)機(jī)字典,然后使用有限自動(dòng)機(jī)算法識(shí)別出文本中所有可能出現(xiàn)的命名性指稱(chēng)。系統(tǒng)還會(huì)計(jì)算出維基百科中每個(gè)命名性指稱(chēng)s的被標(biāo)記概率 P(annotation|s)(式(9)),來(lái)刻畫(huà)一個(gè)命名性指稱(chēng)的重要程度,用于在線(xiàn)標(biāo)注處理時(shí)對(duì)命名性指稱(chēng)的選擇,從而將低于一定閾值的命名性指稱(chēng)舍棄。
(2)候選集生成
利用候選集模型中保存的統(tǒng)計(jì)信息,系統(tǒng)對(duì)于識(shí)別出的每個(gè)命名性指稱(chēng),構(gòu)造該命名性指稱(chēng)可能對(duì)應(yīng)的實(shí)體集合作為候選集。
(3)候選集消歧
DBpedia Spotlight系統(tǒng)的消歧過(guò)程基于生成概率模型[19]。對(duì)于給定的標(biāo)記m(命名性指稱(chēng)是s,上下文是c),它被標(biāo)記為實(shí)體e的概率為:
式中,P(e)、P(s|e)、P(c|e)分別對(duì)應(yīng)實(shí)體 e出現(xiàn)的概率、實(shí)體e出現(xiàn)時(shí)命名性指稱(chēng)為s的概率、實(shí)體e出現(xiàn)時(shí)上下文為c的概率,在維基百科數(shù)據(jù)集上使用極大似然估計(jì)得到(式(11))。PLM(t)是在訓(xùn)練集中所有單詞上估計(jì)得到的用于平滑的一元語(yǔ)言生成語(yǔ)言模型。
對(duì)于候選集中的每個(gè)實(shí)體,系統(tǒng)計(jì)算得到了命名性指稱(chēng)被標(biāo)記為該實(shí)體的概率,對(duì)該概率進(jìn)行標(biāo)準(zhǔn)化,從而得到一個(gè)介于0到1.0之間的消歧得分。最終系統(tǒng)將實(shí)體按照消歧得分進(jìn)行排序,并且將得分最高的實(shí)體作為最終標(biāo)記結(jié)果。對(duì)于當(dāng)前上下文,系統(tǒng)還將生成一個(gè)NIL實(shí)體,用來(lái)表示命名性指稱(chēng)不屬于任何一個(gè)候選實(shí)體時(shí)的標(biāo)記結(jié)果。通過(guò)計(jì)算得到NIL實(shí)體的消歧得分(式(12)),所有低于該NIL實(shí)體得分的結(jié)果將被移除。
4.2 基于候選集的增量擴(kuò)展實(shí)現(xiàn)
DBpedia Spotlight系統(tǒng)的統(tǒng)計(jì)模型是離線(xiàn)過(guò)程中序列化到硬盤(pán)的,基于候選集的增量擴(kuò)展需要對(duì)其命名性指稱(chēng)模型、候選集模型進(jìn)行處理。因此,最終利用候選集擴(kuò)展DBpedia Spotlight模型的步驟如下所示。
步驟1將DBpedia Spotlight的統(tǒng)計(jì)模型反序列化導(dǎo)入內(nèi)存。
步驟2對(duì)于輸入候選集中每一對(duì)實(shí)體和命名性指稱(chēng)的匹配關(guān)系(e,s),如果e在實(shí)體模型中不存在,則跳過(guò)這條關(guān)系,否則獲得e對(duì)應(yīng)的e_id。
步驟3如果s在命名性指稱(chēng)模型中不存在,則使用式(2)估計(jì)被標(biāo)記概率,并將s加入系統(tǒng)原有的命名性指稱(chēng)模型中,設(shè)置初始標(biāo)記次數(shù)為1。
步驟4從擴(kuò)展后的命名性指稱(chēng)模型中獲得s對(duì)應(yīng)的s_id,并使用(s_id,e_id)對(duì)候選集模型進(jìn)行擴(kuò)展,并將出現(xiàn)次數(shù)設(shè)為1。
步驟5將擴(kuò)展后的統(tǒng)計(jì)模型重新序列化到硬盤(pán)。
人工構(gòu)建這樣的高質(zhì)量候選集是很困難的,需要大量繁瑣的工作。因此,為了驗(yàn)證使用候選集對(duì)系統(tǒng)模型進(jìn)行擴(kuò)展的方法,本節(jié)選擇通過(guò)使用規(guī)則生成一些相對(duì)質(zhì)量較低的匹配關(guān)系來(lái)近似地評(píng)價(jià)。本文通過(guò)選擇3個(gè)基本的規(guī)則(表1),生成了一系列實(shí)體與命名性指稱(chēng)的對(duì)應(yīng)關(guān)系,從而擴(kuò)展已有的候選集來(lái)驗(yàn)證候選集擴(kuò)展方法。
Table1 Generative rulesof named references表1 命名性指稱(chēng)的生成規(guī)則
4.3 基于點(diǎn)互信息率的特征選擇實(shí)現(xiàn)
對(duì)于DBpedia Spotlight系統(tǒng)來(lái)說(shuō),候選集消歧過(guò)程所使用到的上下文信息保存在上下文模型中,包括訓(xùn)練集中出現(xiàn)在每個(gè)實(shí)體周?chē)膯卧~以及對(duì)應(yīng)的出現(xiàn)次數(shù)。通過(guò)實(shí)驗(yàn)調(diào)優(yōu)選擇一定閾值,對(duì)系統(tǒng)上下文模型進(jìn)行遍歷。對(duì)每個(gè)實(shí)體的上下文中單詞,使用離線(xiàn)處理得到的維基百科統(tǒng)計(jì)信息計(jì)算兩者之間的點(diǎn)互信息率,從而將低于閾值的單詞過(guò)濾掉,完成對(duì)上下文模型的特征選擇,步驟如下。
步驟1將系統(tǒng)上下文模型反序列化到內(nèi)存,并對(duì)其進(jìn)行遍歷。
步驟2對(duì)于每個(gè)實(shí)體e對(duì)應(yīng)的上下文單詞集合中的單詞token,從維基百科的統(tǒng)計(jì)信息中獲得e的出現(xiàn)次數(shù)、token的出現(xiàn)次數(shù)以及維基百科單詞的總數(shù)。
步驟3使用式(10)計(jì)算得到e和token之間的點(diǎn)互信息率pmi_rate。
步驟4如果pmi_rate小于預(yù)先設(shè)定的閾值,則將token從e的上下文空間中移除。
步驟5重新將特征選擇后的上下文模型序列化到硬盤(pán)。
為了驗(yàn)證對(duì)于上下文模型使用點(diǎn)互信息率進(jìn)行特征選擇的效果,本文同樣實(shí)現(xiàn)了利用互信息以及χ2統(tǒng)計(jì)量?jī)蓚€(gè)主流的特征,并將特征選擇之后的模型在多個(gè)測(cè)試數(shù)據(jù)集上進(jìn)行標(biāo)注,證明了點(diǎn)互信息率要優(yōu)于以上兩種方法。
4.4 基于主題向量的二次消岐實(shí)現(xiàn)
DBpedia Spotlight的消歧過(guò)程中,僅僅利用一元語(yǔ)言模型計(jì)算候選集中每個(gè)實(shí)體的生成概率,并將生成概率最高的實(shí)體作為標(biāo)注結(jié)果,這其中并沒(méi)有考慮到實(shí)體與實(shí)體之間的語(yǔ)義關(guān)聯(lián)度,或者說(shuō)實(shí)體和整個(gè)文本主題之間的關(guān)聯(lián)度。
原有的DBpedia Spotlight系統(tǒng)消歧之后得到的是文章中所有可能的命名性指稱(chēng)以及對(duì)應(yīng)的所有候選實(shí)體集。候選實(shí)體集中的每個(gè)實(shí)體都計(jì)算得到了一個(gè)消歧得分,最后得分最高的實(shí)體將會(huì)被保留并作為最終的標(biāo)注結(jié)果,即便最高的得分可能非常低。因此,本文對(duì)第一次消歧得到的錯(cuò)誤可能性較高的命名性指稱(chēng)進(jìn)行基于主題向量的二次消歧,從而提高標(biāo)注的準(zhǔn)確率。
本文在DBpedia Spotlight上實(shí)現(xiàn)的二次消歧算法表述如下所示。
算法基于主題向量的二次消歧
輸入:一次消歧結(jié)果TmpResult,維基百科鏈接數(shù)據(jù)Links
輸出:二次消歧結(jié)果FinalResult
1.initFinalResult={};//定義FinalResult為保存最終消歧結(jié)果的集合
2.for(sf,entities)←TmpResultdo
3.(top_entity,top_score)=getTop(entities);
4.iftop_score>0.9 then
5.top_support=getSupport(top_entity);//得到消歧得分最高實(shí)體的支持度
6.for(entity,score)←entitiesdo
7. if getSupport(entity)>top_supportthen
8. Break;
9. end if
10.add calculateTopic(top_entity)totextTopic;//計(jì)算文章的主題向量textTopic
11.add(sf,top_entity)toFinalResult,remove(sf,entities)inTmpResult;
12.end for
13.end if
14.end for
15.for(sf,entities)←TmpResultdo
16.(top_entity,top_score)=getTop(entities);
17.topSim=calculateSim(calculateTopic(top_entity),textTopic);//計(jì)算實(shí)體和文章之間的主題相似度topSim
18.for(entity,score)←entitiesdo
19.entitySim←calculateSim(calculateTopic(entity),textTopic);
20.ifentitySim>topSimthen
21.topSim=entitySim;
22.top_entity=entity;
23.end if
24.end for
//得到候選集中與文章主題相似度最高的實(shí)體
25.add(sf,top_entity)toFinalResult;
26.end for
其中維基百科鏈接數(shù)據(jù)(Links)中保存著每一個(gè)DBpedia實(shí)體所出現(xiàn)的維基百科文章的集合,是通過(guò)對(duì)維基百科文章數(shù)據(jù)離線(xiàn)處理解析得到的。由于算法只需要對(duì)一次消歧的結(jié)果進(jìn)行線(xiàn)性遍歷,顯然其時(shí)間復(fù)雜度是O(N),其中N是文章中識(shí)別出所有候選集實(shí)體的數(shù)目。
下面通過(guò)實(shí)驗(yàn)方法評(píng)價(jià)本文命名實(shí)體識(shí)別優(yōu)化方案,全部實(shí)驗(yàn)在Intel?Xeon?CPU E5620@2.40GHz的PC機(jī)上運(yùn)行,內(nèi)存為64 GB,并配置4 TB硬盤(pán)。5.1節(jié)介紹實(shí)驗(yàn)使用的測(cè)試框架、數(shù)據(jù)集以及評(píng)測(cè)標(biāo)準(zhǔn);5.2節(jié)給出本文方案的實(shí)驗(yàn)結(jié)果以及與包括DBpedia Spotlight在內(nèi)的多個(gè)開(kāi)源命名實(shí)體識(shí)別系統(tǒng)的對(duì)比和分析。
5.1 測(cè)試框架、數(shù)據(jù)集與評(píng)測(cè)標(biāo)準(zhǔn)
目前已知的標(biāo)準(zhǔn)測(cè)試平臺(tái)BAT-Framework[20]是由Cornolti等人在2013年提出的,它可以公平地針對(duì)一個(gè)命名實(shí)體識(shí)別系統(tǒng)進(jìn)行評(píng)估。該框架基于一系列命名實(shí)體識(shí)別的任務(wù),提出了一套包括上文介紹的所有參數(shù)在內(nèi)的用于評(píng)估命名實(shí)體識(shí)別系統(tǒng)性能的方法,并且容易進(jìn)行配置來(lái)全面地評(píng)測(cè)一個(gè)系統(tǒng)的性能。另外,系統(tǒng)覆蓋了多個(gè)公開(kāi)的測(cè)試數(shù)據(jù)集,并且可以很容易地使用新的測(cè)試數(shù)據(jù)集、命名實(shí)體識(shí)別系統(tǒng)以及評(píng)測(cè)方法進(jìn)行擴(kuò)展。
在本文的實(shí)驗(yàn)中,使用了最常用的弱匹配方法對(duì)系統(tǒng)的性能進(jìn)行評(píng)估,即只需要兩個(gè)命名性指稱(chēng)之間有交集并且兩個(gè)實(shí)體在重定向后具有一致性就認(rèn)為是正確的匹配。本文主要使用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(precision)、召回率(recall)以及F值(F-measure)。
其中,tp(true positive),即系統(tǒng)標(biāo)注結(jié)果中正確的數(shù)目;fp(false positive),即系統(tǒng)標(biāo)注結(jié)果中錯(cuò)誤的數(shù)目;fn(false negative),即標(biāo)準(zhǔn)標(biāo)注結(jié)果中沒(méi)有被系統(tǒng)標(biāo)注出來(lái)的數(shù)目。
為了實(shí)驗(yàn)的公平性,本文所有實(shí)驗(yàn)中的參數(shù)在未提及的情況下都使用默認(rèn)值。同時(shí),本文選取兩個(gè)具有代表性的數(shù)據(jù)集AIDA/CoNLL和MSNBC作為實(shí)驗(yàn)的測(cè)試數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的介紹如表2所示。
Table 2 Benchmark datasetsused in experiments表2 實(shí)驗(yàn)使用的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集
5.2 Ontology層結(jié)果分析
本節(jié)主要圍繞本文三方面的優(yōu)化在3個(gè)測(cè)試數(shù)據(jù)集上進(jìn)行綜合全面的實(shí)驗(yàn)。5.2.1節(jié)主要介紹使用候選集擴(kuò)展方法相關(guān)的實(shí)驗(yàn)結(jié)果和分析。5.2.2節(jié)主要介紹基于點(diǎn)互信息率的特征選擇相關(guān)的實(shí)驗(yàn)結(jié)果和分析。5.2.3節(jié)主要介紹基于主題向量的二次消歧相關(guān)的實(shí)驗(yàn)結(jié)果和分析。最后將對(duì)三方面優(yōu)化整合后的系統(tǒng)進(jìn)行實(shí)驗(yàn)和分析,并與多個(gè)開(kāi)源的命名實(shí)體識(shí)別系統(tǒng)進(jìn)行比較。
5.2.1 模型擴(kuò)展框架
本文通過(guò)第3章總結(jié)的3個(gè)簡(jiǎn)單的規(guī)則,利用DBpedia知識(shí)庫(kù)中的5 235 952個(gè)實(shí)體生成了541 607個(gè)實(shí)體-命名性指稱(chēng)的匹配。將生成的匹配關(guān)系利用候選集擴(kuò)展的方法融入到原有系統(tǒng)的統(tǒng)計(jì)模型中,用DBpedia Spotlight-α來(lái)指代擴(kuò)展模型后的系統(tǒng)。
為了驗(yàn)證DBpediaSpotlight-α的性能,本文在AIDA/CoNLL和MSNBC數(shù)據(jù)集上分別運(yùn)行了原系統(tǒng)和DBpedia Spotlight-α,得到的實(shí)驗(yàn)結(jié)果如表3所示。
從實(shí)驗(yàn)結(jié)果可以看出,通過(guò)利用規(guī)則產(chǎn)生候選集,并將這個(gè)集合融入到原有的候選集中,可以一定程度增加在測(cè)試數(shù)據(jù)集上識(shí)別正確實(shí)體的數(shù)目,從而提高系統(tǒng)的召回率。同時(shí),由于增加了大量的質(zhì)量不高的實(shí)體命名性指稱(chēng)對(duì)應(yīng)關(guān)系,也會(huì)增加許多標(biāo)注錯(cuò)誤的情況,從而導(dǎo)致識(shí)別的準(zhǔn)確率有所下降。DBpedia Spotlight-α所增加的標(biāo)注正確的數(shù)目要遠(yuǎn)小于候選集中新增的匹配關(guān)系數(shù)目,是因?yàn)槭褂靡?guī)則產(chǎn)生的關(guān)系,如果在訓(xùn)練集中沒(méi)有出現(xiàn),通常實(shí)際應(yīng)用時(shí)出現(xiàn)的情況也比較少。因此,如果使用一些人工或機(jī)器的手段,獲取大量實(shí)體與命名性指稱(chēng)高質(zhì)量的對(duì)應(yīng)關(guān)系集合,利用本節(jié)的方法融入到字典中,將可以得到更好的結(jié)果。另外,盡管系統(tǒng)增加了一些標(biāo)記錯(cuò)誤的結(jié)果,但是本文提到的二次消歧方法可以有效地增加準(zhǔn)確率,減少標(biāo)記錯(cuò)誤的情況,兩者的結(jié)合可以得到更好的結(jié)果。
5.2.2 基于點(diǎn)互信息率的特征選擇
本小節(jié)主要介紹基于點(diǎn)互信息率的特征選擇方面的實(shí)驗(yàn),其中包括對(duì)用于過(guò)濾的閾值參數(shù)的選擇調(diào)優(yōu)。本小節(jié)的系統(tǒng)用DBpedia Spotlight-β指代。
為了找到一個(gè)最優(yōu)的用于過(guò)濾的閾值參數(shù),本文將閾值從0開(kāi)始逐步提高,同時(shí)觀(guān)察特征選擇后的上下文模型空間的變化,以及系統(tǒng)在測(cè)試數(shù)據(jù)集上的標(biāo)注性能變化。圖1和圖2、圖3分別對(duì)應(yīng)隨著閾值參數(shù)的變化,上下文模型的空間占用的變化以及系統(tǒng)在兩個(gè)測(cè)試數(shù)據(jù)集上的標(biāo)注結(jié)果的變化。
通過(guò)觀(guān)察圖1可以發(fā)現(xiàn),系統(tǒng)上下文模型中平均每個(gè)實(shí)體對(duì)應(yīng)的單詞數(shù)目隨著閾值的提高下降得非常迅速,在閾值設(shè)為0.4的時(shí)候已經(jīng)達(dá)到了原有模型大小的1/4,這說(shuō)明了絕大部分的單詞與實(shí)體同時(shí)出現(xiàn)都是具有偶然性的。而從圖2和圖3中可以看出,盡管模型空間隨著閾值的提高成倍地下降,但是系統(tǒng)的消歧效果并沒(méi)有受到太大的影響。在最初閾值從0提高到0.3的過(guò)程中,系統(tǒng)在兩個(gè)測(cè)試數(shù)據(jù)集上的F值和原系統(tǒng)相比略微下降,從0.3開(kāi)始系統(tǒng)的標(biāo)注結(jié)果反而開(kāi)始得到提高,直到閾值為0.4到0.5之間時(shí)達(dá)到頂峰,其性能也超過(guò)了原系統(tǒng)。最后從0.5再繼續(xù)提高閾值,系統(tǒng)的標(biāo)注效果又開(kāi)始逐漸下降。
Table3 Experimental results1表3 實(shí)驗(yàn)結(jié)果1
Fig.1 Threshold parameter and contextmodelspace圖1 閾值參數(shù)與上下文模型空間
Fig.2 Threshold parameterandF-measureon AIDA/CoNLL dataset圖2 閾值參數(shù)在測(cè)試數(shù)據(jù)集AIDA/CoNLL上的F值
Fig.3 Threshold parameterandF-measureon MSNBC dataset圖3 閾值參數(shù)在測(cè)試數(shù)據(jù)集MSNBC上的F值
因此,最終本文采用能夠在兩個(gè)測(cè)試數(shù)據(jù)集上得到較好結(jié)果的閾值0.45,此時(shí)原有的上下文模型空間從平均每個(gè)實(shí)體具有66個(gè)上下文單詞減少到了只有17個(gè)上下文單詞。表4是將閾值參數(shù)設(shè)置為0.45時(shí)得到的上下文模型整合到系統(tǒng)后,在AIDA/CoNLL和MSNBC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
通過(guò)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),新的模型在大大削減了空間的情況下,并沒(méi)有影響到標(biāo)注的性能,而且可以在準(zhǔn)確率和召回率上都有略微的提升。
5.2.3 基于主題向量的二次消岐
本小節(jié)主要介紹基于主題向量的二次消歧相關(guān)的實(shí)驗(yàn)。將融入二次消歧算法的系統(tǒng)用DBpedia Spotlight-θ指代,表5是DBpedia Spotlight-θ在兩個(gè)測(cè)試數(shù)據(jù)集AIDA/CoNLL和MSNBC上的實(shí)驗(yàn)結(jié)果。
從實(shí)驗(yàn)結(jié)果中可以看出,通過(guò)對(duì)原有系統(tǒng)中標(biāo)注錯(cuò)誤可能性較大的命名性指稱(chēng)進(jìn)行二次消歧,可以有效地降低系統(tǒng)中標(biāo)注錯(cuò)誤實(shí)體的數(shù)量,從而提高標(biāo)注的準(zhǔn)確率和F值。
Table 4 Experimental results2表4 實(shí)驗(yàn)結(jié)果2
Table5 Experimental results3表5 實(shí)驗(yàn)結(jié)果3
Table6 Experimental results4表6 實(shí)驗(yàn)結(jié)果4
5.2.4 整合后系統(tǒng)
本小節(jié)將上述的三部分整合到了一起,整合后的系統(tǒng)用DBpedia Spotlight*指代。通過(guò)在測(cè)試數(shù)據(jù)集AIDA/CoNLL和MSNBC上運(yùn)行實(shí)驗(yàn),得到的實(shí)驗(yàn)結(jié)果如表6所示。
從實(shí)驗(yàn)結(jié)果可以看出,通過(guò)將三方面工作結(jié)合到一起,DBpedia Spotlight*能夠得到比每個(gè)單一部分更好的標(biāo)注效果。這說(shuō)明三方面工作對(duì)于系統(tǒng)而言都有著自己獨(dú)立的優(yōu)點(diǎn),將三方面結(jié)合起來(lái)可以讓系統(tǒng)更加完善。另外,對(duì)比表6可以看出,在數(shù)據(jù)集MSNBC上的結(jié)果要比數(shù)據(jù)集AIDA/CoNLL上提升得更加明顯,主要是因?yàn)閿?shù)據(jù)集MSNBC的特點(diǎn)是只有非常重要的實(shí)體才會(huì)被標(biāo)記,所以標(biāo)注結(jié)果集中的實(shí)體之間的聯(lián)系也更加緊密,文本內(nèi)部的主題一致性更加突出,更適用于本文提出的二次消歧算法。而AIDA/CoNLL數(shù)據(jù)集會(huì)過(guò)多地標(biāo)注一些不重要的實(shí)體,為主題向量的構(gòu)建帶來(lái)了噪音。
5.2.5 與其他開(kāi)源系統(tǒng)的比較
本文還與其他4個(gè)廣泛使用的命名實(shí)體識(shí)別系統(tǒng)進(jìn)行了比較,包括AIDA、IllinoisWikifier、TagMe2以及WikipediaM iner。同時(shí),為了與其他系統(tǒng)公平地比較性能,本文將DBpedia Spotlight的一些參數(shù)通過(guò)調(diào)整,取能夠使得標(biāo)注結(jié)果達(dá)到最優(yōu)的值。表7是DBpedia Spotlight*在兩個(gè)測(cè)試數(shù)據(jù)集AIDA/CoNLL和MSNBC上的運(yùn)行結(jié)果同包括原系統(tǒng)在內(nèi)的5個(gè)開(kāi)源系統(tǒng)的比較。
通過(guò)與其他著名的開(kāi)源系統(tǒng)在AIDA/CoNLL數(shù)據(jù)集和MSNBC數(shù)據(jù)集上進(jìn)行對(duì)比的結(jié)果可以看出,DBpedia Spotlight系統(tǒng)本身已經(jīng)能夠具有目前接近最好的標(biāo)注性能,而本文提出的優(yōu)化框架可以進(jìn)一步提高原系統(tǒng)的性能,從而超過(guò)了其他開(kāi)源的命名實(shí)體識(shí)別系統(tǒng)。
Table7 Resultsof comparison experimentsbetween DBpedia Spotlight*and open-source systems表7 DBpedia Spotlight*與開(kāi)源系統(tǒng)對(duì)比實(shí)驗(yàn)結(jié)果
需要指出的是,在5.2.4小節(jié)中實(shí)驗(yàn)對(duì)比DBpedia Spotlight*與DBpedia Spotlight原系統(tǒng)時(shí),使用的閾值參數(shù)為0.4,也是DBpedia Spotlight默認(rèn)的參數(shù)。而本小節(jié)的實(shí)驗(yàn)是DBpedia Spotlight*和其他幾個(gè)開(kāi)源系統(tǒng)之間的對(duì)比,鑒于每個(gè)系統(tǒng)都有各自的配置參數(shù),用來(lái)調(diào)節(jié)標(biāo)注的準(zhǔn)確率和召回率,為了公平起見(jiàn),將每個(gè)系統(tǒng)都取其能夠達(dá)到最好標(biāo)注效果(也就是F值最大)的參數(shù),因此表7中DBpedia Spotlight*的實(shí)驗(yàn)數(shù)據(jù)與表6中的數(shù)據(jù)不同。
由于知識(shí)庫(kù)中實(shí)體在文本中存在形式的多樣性,提高命名實(shí)體識(shí)別的綜合性能一直是一個(gè)挑戰(zhàn)性問(wèn)題。本文通過(guò)對(duì)現(xiàn)有的命名實(shí)體識(shí)別方法進(jìn)行研究與分析,提出了一套通用的命名實(shí)體識(shí)別優(yōu)化框架。通過(guò)設(shè)計(jì)并實(shí)現(xiàn)使用候選集對(duì)系統(tǒng)模型進(jìn)行擴(kuò)展的方法,降低了對(duì)訓(xùn)練集的依賴(lài),增加了靈活性;同時(shí),提出了點(diǎn)互信息率的概念,通過(guò)使用點(diǎn)互信息率對(duì)上下文模型進(jìn)行特征選擇,將上下文空間降低為原有的1/4,并且能夠提高標(biāo)注的準(zhǔn)確率和召回率。本文還提出了利用主題向量代替M ilne-W itten語(yǔ)義關(guān)聯(lián)度對(duì)錯(cuò)誤可能性較高的標(biāo)注結(jié)果進(jìn)行二次消歧,提高了標(biāo)注的準(zhǔn)確率。通過(guò)在目前廣泛使用的開(kāi)源命名實(shí)體識(shí)別系統(tǒng)DBpedia Spotlight中實(shí)現(xiàn)所提優(yōu)化方案,并在兩個(gè)標(biāo)準(zhǔn)的測(cè)試集上設(shè)計(jì)完善的實(shí)驗(yàn)方案,驗(yàn)證了本文優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標(biāo)。
[1]Bizer C,Lehmann J,Kobilarov G,et al.DBpedia—a crystallization point for theWeb of data[J].Web Semantics:Science,Services and Agents on theWorld WideWeb,2009,7(3):154-165.
[2]Hoffart J,Suchanek FM,Berberich K,et al.YAGO2:exploring and querying world know ledge in time,space,context,andmany languages[C]//Proceedings of the 20th International Conference onWorld WideWeb,Hyderabad,India,Mar28-Apr1,2011.New York:ACM,2011:229-232.
[3]Cucerzan S.Large-scale named entity disambiguation based on Wikipedia data[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Prague,Czech Republic,Jun 28-30,2007.Stroudsburg,USA:ACL,2011:708-716.
[4]Medelyan O,W itten IH,M ilne D.Topic indexing w ith Wikipedia[C]//Proceedingsof the 2008AAAIWorkshop on Wikipedia and Artificial Intelligence:An Evolving Synergy,Chicago,USA,Jul 13-14,2008.Palo A lto,USA:AAAI,2008:19-24.
[5]M ilne D,Witten IH.Learning to link w ith Wikipedia[C]//Proceedings of the 17th ACM Conference on Information and Know ledge Management,Napa Valley,USA,Oct 26-30,2008.New York:ACM,2008:509-518.
[6]Olieman A,Azarbonyad H,DehghaniM,etal.Entity linking by focusing DBpedia candidate entities[C]//Proceedings of the 1st International Workshop on Entity Recognition and Disambiguation,Gold Coast,Australia,Jul 11,2014.New York:ACM,2014:13-24.
[7]Lipczak M,KoushkestaniA,M ilios E.Tulip:lightweight entity recognition and disambiguation using Wikipediabased topic centroids[C]//Proceedings of the 1st International Workshop on Entity Recognition and Disambiguation,Gold Coast,Australia,Jul11,2014.New York:ACM,2014:31-36.
[8]Kulkarni S,Singh A,Ramakrishnan G,etal.Collective annotation of Wikipedia entities in Web text[C]//Proceedings of the 15th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Paris,Jun 28-Jul 1,2009.New York:ACM,2009:457-466.
[9]Han Xianpei,Sun Le,Zhao Jun.Collective entity linking in Web text:a graph-based method[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,Beijing,Jul 24-28,2011.New York:ACM,2011:765-774.
[10]Hoffart J,Yosef M A,Bordino I,et al.Robust disambiguation of named entities in text[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,Edinburgh,UK,Jul 27-31,2011.Stroudsburg,USA:ACL,2011:782-792.
[11]Usbeck R,Ngomo A C N,R?der M,etal.AGDISTIS—agnostic disambiguation of named entities using linked open data[C]//Proceedings of the 21st European Conference on Artificial Intelligence,Prague,Czech Republic,Aug 18-22,2014.Amsterdam:IOSPress,2014:1113-1114.
[12]Chen S F,Goodman J.An empirical study of smoothing techniques for language modeling[C]//Proceedings of the 34th Annual Meeting on Association for Computational Linguistics,Santa Cruz,USA,Jun 24-27,1996.Stroudsburg,USA:ACL,1996:310-318.
[13]Church KW,Hanks P.Word association norms,mutual information,and lexicography[J].Computational Linguistics,1990,16(1):22-29.
[14]Islam A,Inkpen D.Second order co-occurrence PM I for determ ining the semantic sim ilarity of words[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation,Genoa,Italy,May 24-26,2006.Paris:ELRA,2006:1033-1038.
[15]Islam A,Inkpen D.Semantic similarity of short texts[J].Re-cent Advances in Natural Language Processing,2009,309:227-236.
[16]Ferragina P,Scaiella U.TagMe:on-the-fly annotation of short text fragments(by w ikipedia entities)[C]//Proceedings of the 19th ACM International Conference on Information and Know ledge Management,Toronto,Canada,Oct 26-30,2010.New York:ACM,2010:1625-1628.
[17]Witten I,M ilne D.An effective,low-costmeasureof semantic relatedness obtained from Wikipedia links[C]//Proceedings of the 2008 AAAIWorkshop on Wikipedia and Artificial Intelligence:An Evolving Synergy,Chicago,USA,Jul 13-14,2008.Palo Alto,USA:AAAI,2008:25-30.
[18]Han Xianpei,Sun Le.A generative entity-mention model for linking entitiesw ith know ledge base[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technolgies,Portland,USA,Jun 19-24,2011.Stroudsburg,USA:ACL,2011:945-954.
[19]Daiber J,Jakob M,Hokamp C,et al.Improving efficiency and accuracy in multilingual entity extraction[C]//Proceedings of the 9th International Conference on Semantic Systems,Graz,Austria,Sep 4-6,2013.New York:ACM,2013:121-124.
[20]Cornolti M,Ferragina P,Ciaram ita M.A framework for benchmarking entity-annotation systems[C]//Proceedings of the 22nd International Conference on World Wide Web,Rio de Janeiro,Brazil,May 13-17,2013.New York:ACM,2013:249-260.
FU Yuxinwasborn in 1991.He isan M.S.candidate at Tianjin University.His research interests include named entity recognition and keyword search.
付宇新(1991—),男,吉林通化人,天津大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)槊麑?shí)體識(shí)別,關(guān)鍵字搜索。
王鑫(1981—),男,天津人,2009年于南開(kāi)大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)副教授,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)檎Z(yǔ)義數(shù)據(jù)管理,圖數(shù)據(jù)庫(kù),大規(guī)模知識(shí)處理。
FENG Zhiyong was born in 1965.He received the Ph.D.degree from Tianjin University in 1996.Now he isa professor and Ph.D.supervisor at Tianjin University,and the seniormember of CCF.His research interests include know ledge engineering,services computing and security software engineering.
馮志勇(1965—),男,內(nèi)蒙古呼和浩特人,1996年于天津大學(xué)獲得博士學(xué)位,現(xiàn)為天津大學(xué)教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)橹R(shí)工程,服務(wù)計(jì)算,安全軟件工程。
XU Qiangwasborn in 1993.She isan M.S.candidate at Tianjin University.Her research interests include semantic Web and graph databases.
徐強(qiáng)(1993—),女,山西臨汾人,天津大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)檎Z(yǔ)義網(wǎng),圖數(shù)據(jù)庫(kù)。
Named Entity Recognition Optim ization on DBpedia Spotlight*
FU Yuxin1,2,WANG Xin1,2+,FENG Zhiyong2,3,XUQiang1,2
1.Schoolof Computer Science and Technology,Tianjin University,Tianjin 300354,China
2.Tianjin Key Laboratory of Cognitive Computing and Application,Tianjin 300354,China
3.Schoolof Computer Software,Tianjin University,Tianjin 300354,China
The task of named entity recognition can bridge the gap between know ledge bases and nature languages,and support the research work in keyword extraction,machine translation,topic detection and tracking,etc.Based on the analysisof current research in the field of named entity recognition,this paper proposesa general-purpose optimization scheme for named entity recognition.Firstly,this paper designs and implements an incremental extending method,by using a candidate set,which can reduce the dependency on the training set.Secondly,by leveraging the conceptof pointw isemutual information ratio,thispapereffectivelymakes feature selection on the contextsof entities,whichmay reduce the contextspace significantly andmeanwhile improve the performance of annotation results.Finally,this paper presents the secondary disambiguationmethod based on topic vectors,which can further enhance the precision of annotation.This paper conductsextensive comparison experiments on thew idely-used open-source named entity recognition system DBpedia Spotlight.Ithas been verified that the proposed optim ization scheme out-performs the state-of-the-artmethods.
named entity recognition;linked data;DBpedia Spotlight
was born in 1981.He
the Ph.D.degree from NankaiUniversity in 2009.Now he isan associate professor at Tianjin University,and the seniormember of CCF.His research interests include semantic data management,graph databasesand large-scale know ledge processing.
A
:TP391
*The National Natural Science Foundation of China under GrantNos.61572353,61373035(國(guó)家自然科學(xué)基金);the National High Technology Research and DevelopmentProgram of China underGrantNo.2013AA013204(國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)).
Received 2016-06,Accepted 2016-08.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-08-15,http://www.cnki.net/kcms/detail/11.5602.TP.20160815.1659.004.htm l