郭宇航 秦兵 劉挺 李生
摘 要:實(shí)體鏈指是近些年提出的一項(xiàng)自然語(yǔ)言處理任務(wù)。本文從實(shí)體鏈指的概念出發(fā),介紹了實(shí)體鏈指的研究目的和意義,評(píng)測(cè)和語(yǔ)料,以及實(shí)體鏈指的主要方法。本文將實(shí)體鏈指與相關(guān)研究進(jìn)行對(duì)比分析,將實(shí)體鏈指分為候選生成和候選排序兩個(gè)部分分別闡釋,并重介紹了實(shí)體鏈指的幾種常見(jiàn)的排序方法。最后本文給出了實(shí)體鏈指技術(shù)的發(fā)展趨勢(shì)。
關(guān)鍵詞:候選生成;候選排序;知識(shí)庫(kù);實(shí)體鏈指
中圖分類號(hào):TP391.2 文獻(xiàn)標(biāo)識(shí)號(hào):A 文章編號(hào):2095-2163(2014)04-
Research Progress of Entity Linking
GUO Yuhang, QIN Bing, LIU Ting, LI Sheng
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001, China)
Abstract: Entity Lining is a natural language processing task proposed recently. To begin with, this paper introduces the concept of entity linking, then the aim and the meaning of this research, as well as the evaluation and corpus, then gives the methods of entity linking. After that, the paper compares entity linking with related works and divides the task into two parts, candidate generation and candidate ranking. Furtherly,The paper also describes several common ranking methods for entity linking. At last, this paper provides some future trends of this task.
Keywords: Candidate Generation; Candidate Ranking; Knowledge Base; Entity Linking
0 引 言
實(shí)體鏈指(Entity Linking),或稱實(shí)體鏈接,是近幾年提出的有關(guān)自然語(yǔ)言處理的一項(xiàng)新任務(wù)。實(shí)體鏈指將用于出現(xiàn)在文章中的名稱鏈接到其所指代的實(shí)體上去。在自然語(yǔ)言當(dāng)中,多個(gè)實(shí)體可能共有同一個(gè)名稱。也就是,名稱可能具有歧義。比如“華盛頓”這個(gè)名字既可以指代美國(guó)的第一任總統(tǒng),也可以指代美國(guó)的華盛頓州、華盛頓特區(qū),甚至是美國(guó)政府。一般情況下,一個(gè)名稱出現(xiàn)在上下文當(dāng)中,其指代的對(duì)象即是明確的。而根據(jù)上下文來(lái)自動(dòng)確定名稱所具體指代的哪個(gè)實(shí)體也就成為實(shí)體鏈指技術(shù)的主要實(shí)現(xiàn)目的。
若將實(shí)體鏈指與命名實(shí)體識(shí)別(Named Entity Recognition)這一傳統(tǒng)的自然語(yǔ)言處理任務(wù)相比可知,雖然兩者的研究對(duì)象都是實(shí)體,但其主要區(qū)別則在于,命名實(shí)體識(shí)別只需區(qū)分實(shí)體的類別(如人名,地名和機(jī)構(gòu)名等),而實(shí)體鏈指則需要找到所指代的具體對(duì)象。例如,“他去年搬到了華盛頓?!边@句話。在名命名實(shí)體識(shí)別任務(wù)中只需要知道“華盛頓”指代的是一個(gè)地點(diǎn)即可,而在實(shí)體鏈指任務(wù)中則需知道“華盛頓”具體指的是華盛頓州、還是華盛頓特區(qū)或者是其他什么地方。實(shí)體鏈指的主要難點(diǎn)即在于如何消解字面的歧義,在這一點(diǎn)上,實(shí)體鏈指和詞義消歧(Word Sense Disambiguation)又較為類似。簡(jiǎn)單來(lái)說(shuō),詞義消歧也是一項(xiàng)傳統(tǒng)的自然語(yǔ)言處理任務(wù),其主要目的在于自動(dòng)給出多義詞在上下文中的詞義。但由此即可推知詞義消歧和實(shí)體鏈指的區(qū)別主要在于,前者處理的對(duì)象是多義詞,比如bank在上下文中指“銀行”還是“河岸”,而后者則是針對(duì)有歧義的實(shí)體名稱。更進(jìn)一步地,實(shí)體鏈指專注于找尋名稱背后的指代對(duì)象,在這一點(diǎn)上實(shí)體鏈指與共指消解(Coreference Resolution)卻又表現(xiàn)了一定的相關(guān)性。共指消解的目的是找到一篇文章中指代同一個(gè)對(duì)象的多個(gè)指稱。在此,可將共指消解和實(shí)體鏈指的區(qū)別總結(jié)概括為,前者相當(dāng)于將指代同一個(gè)對(duì)象的指稱聚成一類,而后者則需要指出這個(gè)對(duì)象是什么,具體地,實(shí)體鏈指需要給出指代對(duì)象在知識(shí)庫(kù)(Knowledge Base)中的對(duì)應(yīng)項(xiàng)。
實(shí)體鏈指對(duì)許多自然語(yǔ)言處理和信息檢索任務(wù)都能產(chǎn)生積極的助力作用。從實(shí)體鏈指的結(jié)果中可以直接得到實(shí)體的類型以及共指的指稱項(xiàng),因此可以用來(lái)改善命名實(shí)體分類和共指消解的結(jié)果。實(shí)體鏈指還將有助于機(jī)器翻譯的最佳實(shí)現(xiàn)。諸如,在一門語(yǔ)言里同名的兩個(gè)實(shí)體,在另一門語(yǔ)言中卻可能具有不同的翻譯。比如“Rice”指農(nóng)作物時(shí)應(yīng)該翻譯成“大米”,指人名時(shí),則應(yīng)該翻譯成“賴斯”。應(yīng)用實(shí)體鏈指技術(shù)找到這個(gè)詞在當(dāng)前上下文中的指代對(duì)象,就可以直接根據(jù)知識(shí)庫(kù)中的跨語(yǔ)言鏈接而真正獲得目標(biāo)語(yǔ)言的準(zhǔn)確翻譯。此外,實(shí)體鏈指還可以應(yīng)用到自動(dòng)問(wèn)答當(dāng)中。在問(wèn)答當(dāng)中,所涉及的實(shí)體表述很有可能會(huì)具有歧義。例如,問(wèn)“美洲豹的奔跑速度最快能達(dá)到多少?”,問(wèn)答系統(tǒng)搜集的文本可能包含了“美洲豹牌汽車”的最高時(shí)速信息,返回這樣的信息答案自然是不正確的。而應(yīng)用實(shí)體鏈指技術(shù),即可清楚識(shí)別出在這樣文本中出現(xiàn)的“美洲豹”并不是問(wèn)題所關(guān)心的那個(gè)哺乳動(dòng)物實(shí)體“美洲豹”,從而避免類似的錯(cuò)誤發(fā)生。
在本文接下來(lái)的內(nèi)容當(dāng)中,將分別介紹實(shí)體鏈指的定義,評(píng)測(cè)方法,數(shù)據(jù),以及實(shí)體鏈指的主要方法。
1 實(shí)體鏈指的定義和評(píng)測(cè)方法
1.1 實(shí)體鏈指的定義
實(shí)體鏈指的輸入為一段自然語(yǔ)言文本,稱為查詢文檔。查詢文檔中則包含了人們感興趣的實(shí)體名稱,可稱為查詢名稱,和查詢名稱的上下文。實(shí)體鏈指系統(tǒng)即需要從一個(gè)知識(shí)庫(kù)中找到查詢名稱所指代的實(shí)體,此時(shí)則稱為目標(biāo)實(shí)體。如果知識(shí)庫(kù)中沒(méi)有收錄目標(biāo)實(shí)體,系統(tǒng)將返回空(NIL)標(biāo)記。其中知識(shí)庫(kù)可以是和DBpedia、YAGO同樣的由實(shí)體構(gòu)成的結(jié)構(gòu)化信息的數(shù)據(jù)庫(kù),也可以是Wikipedia一樣的半結(jié)構(gòu)信息形式的百科全書(shū)。而當(dāng)鏈指知識(shí)庫(kù)為Wikipedia時(shí),實(shí)體鏈指任務(wù)也稱作維基化(Wikification)。
1.2 實(shí)體鏈指的評(píng)測(cè)方法
實(shí)體鏈指的評(píng)測(cè)方式主要是準(zhǔn)確率(Accuracy)。包括全部查詢實(shí)例的準(zhǔn)確率(All-Accuracy),目標(biāo)實(shí)體包含在知識(shí)庫(kù)中的查詢(稱作InKB型查詢)實(shí)例的準(zhǔn)確率(InKB-Accuracy)和目標(biāo)實(shí)體在知識(shí)庫(kù)外的查詢(稱作NIL型查詢)實(shí)例的準(zhǔn)確率(NIL-Accuracy)。這三種準(zhǔn)確率的定義分別如下:
(1)
(2)
(3)
其中, 為查詢實(shí)例集合, 為InKB型查詢實(shí)例集合, 為NIL型查詢實(shí)例的集合。令 和 分別表示查詢實(shí)例 的真實(shí)目標(biāo)實(shí)體和系統(tǒng)給出的目標(biāo)實(shí)體, , ,則評(píng)價(jià)積分為:
(4)
從上述公式可以看出,實(shí)體鏈指系統(tǒng)的準(zhǔn)確率即是系統(tǒng)標(biāo)注正確的結(jié)果占所考察查詢實(shí)例集合的比例。
2實(shí)體鏈指的數(shù)據(jù)
實(shí)體鏈指的數(shù)據(jù)包括知識(shí)庫(kù)和標(biāo)注語(yǔ)料兩部分。實(shí)體鏈指中最常用的知識(shí)庫(kù)就是Wikipedia。具體來(lái)說(shuō),Wikipedia是一個(gè)由互聯(lián)網(wǎng)用戶志愿編輯的在線百科全書(shū),其內(nèi)容涵蓋了政治、經(jīng)濟(jì)、歷史、文化、科技、教育等眾多領(lǐng)域,并且大多數(shù)著名人物、機(jī)構(gòu)、地區(qū)、事件在維基百科中都已著有相應(yīng)條目。維基百科的開(kāi)放協(xié)作式編輯機(jī)制和文章編輯規(guī)范保證了其內(nèi)容質(zhì)量,同時(shí)也使得其規(guī)模仍在不斷增長(zhǎng)中。截至2014年,英文版維基百科的文章數(shù)已經(jīng)超過(guò)了450萬(wàn)篇,中文維基百科的文章數(shù)也超過(guò)了74萬(wàn)篇。研究中除了Wikipedia,常用的實(shí)體鏈指知識(shí)庫(kù)還包括DBpedia、Freebase、YAGO等在內(nèi)結(jié)構(gòu)性信息的知識(shí)庫(kù)。
通過(guò)分析可知,Wikipedia的文章包含了大量人工標(biāo)注過(guò)的鏈接文本,這些文本即可用作實(shí)體鏈指的訓(xùn)練和評(píng)測(cè)語(yǔ)料。此外,除了從Wikipedia中收集標(biāo)注語(yǔ)料,還可以使用研究者公布的數(shù)據(jù),包括MSNBC、AQUAINT、ACE、IITB和AIDA。
3實(shí)體鏈指的主要方法
查詢實(shí)例是實(shí)體鏈指的主要對(duì)象和依據(jù)。查詢實(shí)例分為查詢文檔和查詢名稱兩部分。查詢文檔是目標(biāo)實(shí)體所在的文章,查詢名稱則是目標(biāo)實(shí)體在查詢文檔中的表述字符串。此處給出了一個(gè)查詢實(shí)例的例子,具體表述如下:
華盛頓被尊稱為美國(guó)國(guó)父。
其中“華盛頓被尊稱為美國(guó)國(guó)父?!边@整句話就是查詢文檔(為了簡(jiǎn)化描述,這里的查詢文檔只有一個(gè)句子),“華盛頓”是查詢名稱,“被尊稱為美國(guó)國(guó)父?!笔遣樵兠Q的上下文,“喬治·華盛頓”即是這個(gè)查詢實(shí)例的目標(biāo)實(shí)體。
查詢名稱可以給出目標(biāo)實(shí)體一個(gè)相對(duì)明確的范圍。這是因?yàn)椴樵兠Q自然地標(biāo)定了目標(biāo)實(shí)體所在的范圍是以查詢名稱命名的實(shí)體,沒(méi)有這個(gè)名稱的實(shí)體不可能是目標(biāo)實(shí)體。比如給出“華盛頓”作為查詢名稱,則目標(biāo)實(shí)體可能是“喬治·華盛頓”,也可能是“華盛頓州”,但不可能是“比爾·克林頓”,因?yàn)闆](méi)人把“比爾·克林頓”稱作“華盛頓”。
相比查詢名稱而言,查詢文檔能夠限定的目標(biāo)實(shí)體的范圍更為寬泛一些。這是因?yàn)檫€沒(méi)有什么規(guī)則能夠明確地限定哪些實(shí)體“適合”作為上下文的查詢文檔。比如在“被尊稱為美國(guó)國(guó)父”這段上下文與“喬治·華盛頓”和“比爾·克林頓”這兩個(gè)概念都是相關(guān)的,無(wú)論語(yǔ)法還是語(yǔ)義也都是“適合”的,盡管把后者作為目標(biāo)實(shí)體邏輯上不通。由此可見(jiàn),查詢文檔并不能明確地排除哪個(gè)實(shí)體不可能是候選實(shí)體。查詢名稱和目標(biāo)實(shí)體之間的聯(lián)系是靜態(tài)的,而查詢文檔和目標(biāo)實(shí)體之間的聯(lián)系卻是動(dòng)態(tài)的。
基于查詢名稱和查詢文檔這兩條線索,目前大部分實(shí)體鏈指方法都可以分為候選生成和候選排序兩個(gè)步驟。其中,候選生成部分主要根據(jù)查詢名稱圈定一個(gè)候選實(shí)體集合,將不可能是目標(biāo)實(shí)體的其他實(shí)體排除在外。候選排序部分則主要分析候選集合中的哪些實(shí)體“適合”查詢文檔,并把最“適合”的實(shí)體返回作為目標(biāo)實(shí)體。下面將分別介紹候選生成和排序的主要方法。
3.1 候選生成方法
目前主要的候選生成方法大多依賴于Wikipedia。Mihalcea和Csomai[1],Milne和Witten[2]從Wikipedia中抽取以查詢名稱為錨文本的文本片段,并進(jìn)一步找到超鏈接目標(biāo)頁(yè)面對(duì)應(yīng)的實(shí)體作為候選。Bunescu和Pasca[3],Cucerzan[4]則為候選生成專門構(gòu)造了命名實(shí)體詞典。其主要思路是從Wikipedia中抽取實(shí)體和實(shí)體名稱的對(duì)應(yīng)關(guān)系。比如實(shí)體“華盛頓哥倫比亞特區(qū)”在Wikipedia中可能以“華盛頓特區(qū)”,“華盛頓哥倫比亞特區(qū)”,“華府”和“華盛頓”這些名稱的形式出現(xiàn),挖掘這些實(shí)體和名稱的對(duì)應(yīng)關(guān)系就可構(gòu)造實(shí)體-名稱詞典。從Wikipedia的錨文本和超鏈接,重定向頁(yè),消歧義頁(yè)和標(biāo)簽頁(yè)中均可挖掘得到實(shí)體和名稱的對(duì)應(yīng)關(guān)系[3-4]。在得到實(shí)體-名稱詞典后,經(jīng)過(guò)逆向索引,就可以得到名稱-實(shí)體詞典,從而得到了每個(gè)名稱對(duì)應(yīng)的候選實(shí)體集合。
從名稱-實(shí)體詞典中可以直接得到候選體集合,只是這樣得到的候選集合可能會(huì)很大。比如,在英文Wikipedia中,僅僅是Washington的消歧義頁(yè)面就列出了超過(guò)100個(gè)實(shí)體,而且還未包括從其他來(lái)源能夠挖掘出的候選實(shí)體。對(duì)于這樣龐大的候選集合,通常需要實(shí)行一些過(guò)濾操作。
Wacholder等[5]指出,在一篇文章中,一個(gè)實(shí)體通常在某處以一種較長(zhǎng)而典型的名稱出現(xiàn)(比如 George W. Bush),而在其他位置卻以較短的形式出現(xiàn)(比如 Bush)。這種情況下,長(zhǎng)一些的名稱則比短名稱的歧義要更小一些。Cucerzan[4]首先在查詢文檔內(nèi)進(jìn)行共指消解,用較長(zhǎng)的名稱代替短名稱作為查詢名稱,從而縮小了候選實(shí)體的范圍。許多時(shí)候縮寫(xiě)查詢名稱的歧義都會(huì)很大,但上下文中卻很可能包含了縮寫(xiě)的全稱。Cucerzan[4]和Varma等[6]從上下文中搜索縮寫(xiě)名稱的全稱,再用全稱替代縮寫(xiě)作為查詢名稱。而為了減少全稱搜索帶來(lái)的錯(cuò)誤,Zhang等[7]還用分類器對(duì)潛在的縮寫(xiě)全稱進(jìn)行了篩選。這種對(duì)查詢名稱改寫(xiě)的操作也稱作查詢擴(kuò)展[8]。
盡管Wikipedia規(guī)模很大,但也無(wú)法保證從中獲得實(shí)體的全部名稱,因此有些名稱變形也將無(wú)法從命名實(shí)體詞典中得到相應(yīng)的候選實(shí)體集合。在精確匹配的基礎(chǔ)上,Varma等[6]加入了部分匹配,Lehmann等[9]加入了模糊匹配的方式,用以提高候選生成的召回率。
3.2 候選排序方法
實(shí)體鏈指可以分別從查詢名稱及其周圍的上下文兩個(gè)部分入手,相應(yīng)地可將其分為基于實(shí)體流行度的方法和基于上下文相關(guān)性的方法兩類。
3.2.1基于實(shí)體流行度的方法
該方法的基本假設(shè)是流行程度(Popularity)越高的候選實(shí)體作為目標(biāo)實(shí)體的可能性越大。例如,Michael Jordan這個(gè)名字既可能指向一位前NBA著名球員,也可能專指一位機(jī)器學(xué)習(xí)領(lǐng)域的教授。二者相比,那位NBA球員的知名度更高,提及其的文章也會(huì)更多。因此隨機(jī)一篇文章中出現(xiàn)Michael Jordan(NBA球員)的可能性就將比出現(xiàn)Michael Jordan(教授)的可能性要大。而基于實(shí)體流行度的方法即根據(jù)流行程度對(duì)候選實(shí)體進(jìn)行排序,并將流行度最高的候選作為鏈指結(jié)果。
衡量實(shí)體流行度的方法包括實(shí)體在Wikipedia頁(yè)面的描述文本長(zhǎng)度、地點(diǎn)實(shí)體的面積或人口總數(shù)、實(shí)體頻度和查詢名稱到實(shí)體超鏈的頻度等。
基于實(shí)體流行度的方法的優(yōu)點(diǎn)在于實(shí)現(xiàn)簡(jiǎn)單,訓(xùn)練語(yǔ)料也相對(duì)容易獲得。有些查詢名稱的詞義分布相對(duì)集中,在大多數(shù)情況下的含義也都是最常見(jiàn)詞義,只是針對(duì)這些查詢名稱,該種方法較為有效。基于實(shí)體流行度的方法的缺點(diǎn)在于沒(méi)有考慮上下文。這就使得無(wú)論查詢名稱的上下文是什么,這種方法都會(huì)給出一樣的答案,而當(dāng)目標(biāo)實(shí)體不是最流行實(shí)體時(shí)就會(huì)出錯(cuò)。此外,這種方法在統(tǒng)計(jì)實(shí)體流行度的時(shí)候多會(huì)依賴于Wikipedia這樣的訓(xùn)練語(yǔ)料,得到的是訓(xùn)練語(yǔ)料上的實(shí)體流行度分布,而標(biāo)注語(yǔ)料的實(shí)體流行度分布卻并不一定和訓(xùn)練語(yǔ)料彼此一致,因此也會(huì)引入標(biāo)注錯(cuò)誤的風(fēng)險(xiǎn)。
3.2.2 基于上下文相關(guān)性的方法
Miller和Charles發(fā)現(xiàn)含義相似的詞也經(jīng)常出現(xiàn)在相似的上下文中[10]。大部分現(xiàn)有的候選排序技術(shù)都對(duì)實(shí)體的上下文與查詢名稱周圍上下文進(jìn)行了比較。候選排序的目的就是從候選集合中選擇最“適合”上下文的實(shí)體的過(guò)程,而排序的重點(diǎn)就在于如何計(jì)算這種“適合”程度。基于上下文相關(guān)性的方法則主要是從字面相似度(Surface Form Similarity)、文本相似度(Text Similarity)和實(shí)體相關(guān)度(Entity Relatedness)這三個(gè)方面考察候選實(shí)體和查詢上下文的“適合”程度。下面分別對(duì)其加以介紹和闡述。
(1)基于字面相似度的方法。主要比較查詢名稱和候選實(shí)體名稱的相似度。一個(gè)實(shí)體可能有多個(gè)名稱,因此目標(biāo)實(shí)體的查詢名稱與其在知識(shí)庫(kù)中的名稱可能不是同一個(gè)。有些查詢名稱是目標(biāo)實(shí)體的部分名稱。比如美國(guó)前總統(tǒng)小布什的名字是George W. Bush,但在有些地方寫(xiě)作George Bush或Bush。而有些查詢名稱卻又是目標(biāo)實(shí)體的別名或者另外的拼寫(xiě)方式。比如澳門的名稱Macau也拼作Macao。一個(gè)候選實(shí)體和查詢名稱的字面相似度越接近,這個(gè)候選實(shí)體能夠成為目標(biāo)實(shí)體的可能性也也越大。通常,計(jì)算字面相似度的方法主要有編輯距離(Edit Distance)、Dice系數(shù)(Dice coefficient)和Jaccard相似度(Jaccard Similarity)等幾種。
(2)基于文本相似度的方法。主要比較查詢名稱的上下文和候選實(shí)體上下文的相似度。一個(gè)候選實(shí)體的上下文和查詢文檔越是相關(guān),這個(gè)候選實(shí)體成為目標(biāo)實(shí)體的可能性也就越大。通常計(jì)算文本相似度的方法有余弦相似度(Cosine Similarity)、相對(duì)熵或KL散度(Kullback–Leibler Divergence)和概率模型相似度(Probabilistic Model Similarity)等幾種。
首先,余弦相似度是一種常用的文本相似度計(jì)算方法。這種方法將待比較的兩篇文本表示成詞空間中的向量,每一維對(duì)應(yīng)一個(gè)單詞。通常,向量中對(duì)應(yīng)這個(gè)單詞的維度值為該單詞在這篇文檔中的tfidf值,或者是這個(gè)單詞在這篇文檔中出現(xiàn)的頻度,也或者如果文檔中出現(xiàn)了這個(gè)單詞,維度值則為1,沒(méi)有出現(xiàn),維度值將為0。余弦相似度的計(jì)算公式如下:
(5)
式中, 是文本向量 和 的內(nèi)積,而 和 則分別是這兩個(gè)向量的長(zhǎng)度。兩個(gè)向量的余弦相似度越高,說(shuō)明這兩篇文本越相似。
其次,相對(duì)熵或KL散度就是用于計(jì)算兩個(gè)分布 和 之間的差異。其含義是在 的分布下編碼 的樣本平均所需的額外比特?cái)?shù)。具體公式如下:
(6)
從公式可以看出,分布 和 越接近,相對(duì)熵就越小。通過(guò)計(jì)算相對(duì)熵,可以得到兩篇文檔中單詞分布的差異。這種差異越小,說(shuō)明這兩篇文檔越相似。
再有,概率模型相似度就是用于計(jì)算文檔在概率模型下生成的概率。在實(shí)體鏈指中,人們用這種生成概率來(lái)表示查詢文檔和實(shí)體概率模型之間的相似度。實(shí)體鏈指中用到的概率模型主要有一元語(yǔ)言模型和主題模型。其中,一元語(yǔ)言模型即是根據(jù)單詞或詞組在實(shí)體上下文中的分布來(lái)估計(jì)查詢文檔的生成概率。而主題模型則假設(shè)一個(gè)文本集合包括了多個(gè)主題,每個(gè)主題對(duì)應(yīng)了詞的一種分布形式,每篇文本又是由多個(gè)主題混合而成的。語(yǔ)言模型可以看作是文本在詞上的分布,主題模型則是文本在主題上的分布,而主題也是詞的分布。因此,文本的主題模型可以看作是一種分布的分布。主題模型在低維度的主題空間中表示了高維的詞空間的稀疏數(shù)據(jù),這種降維方式就可以起到特征泛化的作用。
(3)基于實(shí)體相關(guān)度的方法。主要比較上下文中的實(shí)體與候選實(shí)體的相關(guān)度。與上下文實(shí)體相關(guān)度高的候選實(shí)體是目標(biāo)實(shí)體的可能性就會(huì)較大。比如在一篇包含NBA,公牛隊(duì)等實(shí)體的文章中,Michael Jordan指代那位著名籃球運(yùn)動(dòng)員的可能性就比指代那位大學(xué)教授的可能性更高?;趯?shí)體相關(guān)度的方法主要包括兩種,一種是基于圖的連接度,另一種是基于M&W相似度。在此即概略分析這兩種方法的實(shí)現(xiàn)原理。
首先,基于圖連接度的方法可將上下文構(gòu)造成為一個(gè)圖。圖中的節(jié)點(diǎn)為候選實(shí)體與上下文中的實(shí)體及其指稱。如果候選實(shí)體的Wikipedia頁(yè)面包含了一個(gè)上下文指稱,就從此候選實(shí)體節(jié)點(diǎn)向上下文指稱節(jié)點(diǎn)引一條有向邊;如果上下文實(shí)體的Wikipedia頁(yè)面包含了候選實(shí)體,就從此上下文節(jié)點(diǎn)向候選實(shí)體引一條有向邊?;趫D連接度的方法將選擇出度或入度最大的候選實(shí)體作為鏈指結(jié)果。
其次,M&W相似度源自M&W距離,是Milne和Witten[11]提出的一種基于Wikipedia的語(yǔ)義距離度量方法。M&W距離類似于規(guī)范化的Google距離(Normalized Google Distance)[12],是用兩個(gè)實(shí)體在Wikipedia中被同一頁(yè)面引用的次數(shù)以及這兩個(gè)實(shí)體各自被引用的次數(shù)來(lái)共同計(jì)算語(yǔ)義距離。M&W距離的計(jì)算公式可表達(dá)為:
(7)
式中, 是實(shí)體 和 的M&W距離, 和 分別是Wikipedia中包含這兩個(gè)實(shí)體的頁(yè)面的集合, 則是Wikipedia中所有頁(yè)面的集合。從這個(gè)公式可以看出,兩個(gè)實(shí)體共現(xiàn)的頁(yè)面越多,單獨(dú)出現(xiàn)的頁(yè)面越少,這兩個(gè)實(shí)體的M&W距離就越短,相關(guān)度也就越高。再做如下的變換,即得到了M&W相似度,其計(jì)算公式為:
利用M&W相似度可以計(jì)算出候選實(shí)體與上下文中其他實(shí)體的相關(guān)性,從而得到候選實(shí)體與全文主題的一致程度。與全文主題一致程度越高的實(shí)體,就越有可能是目標(biāo)實(shí)體。
許多實(shí)體鏈指系統(tǒng)都采用了上述多個(gè)方法的組合,并通過(guò)啟發(fā)式或機(jī)器學(xué)習(xí)的方式獲得各個(gè)方法的權(quán)重[1,2,9],。Hoffart等[13]通過(guò)研究發(fā)現(xiàn),單獨(dú)使用基于上下文相似度的方法即可獲得不錯(cuò)的結(jié)果,而在此基礎(chǔ)上只是簡(jiǎn)單地融合了實(shí)體流行度和實(shí)體相關(guān)度的方法卻都不能帶來(lái)性能上的改進(jìn)。而基于實(shí)體相關(guān)度的方法在上下文存在充足實(shí)體的情況下則能夠發(fā)揮一定的作用。然而當(dāng)上下文中的實(shí)體較少時(shí),這種方法的作用就比較有限。于是研究者們進(jìn)一步通過(guò)健壯性測(cè)試技術(shù)對(duì)每個(gè)查詢實(shí)例判斷是采用組合方法還是回返到基于上下文相似度方法,由此而得到了不錯(cuò)的結(jié)果。
4 結(jié)論與展望
實(shí)體鏈指是近些年提出的一項(xiàng)自然語(yǔ)言處理任務(wù)。本文介紹了實(shí)體鏈指的研究目的和意義,評(píng)測(cè)和語(yǔ)料,以及實(shí)體鏈指的主要方法。通過(guò)對(duì)比實(shí)體鏈指技術(shù)與相關(guān)研究,可以看出實(shí)體鏈指是一種深層的語(yǔ)義分析技術(shù),對(duì)多個(gè)自然語(yǔ)言處理任務(wù)和實(shí)際應(yīng)用都具有明確的推動(dòng)作用。本文將實(shí)體鏈指分為候選生成和排序兩個(gè)部分加以闡釋,并總結(jié)了現(xiàn)有排序的主要方法,包括基于實(shí)體流行度的方法和基于上下文相關(guān)性的方法?;谏舷挛南嚓P(guān)性的方法又可以分為字面相似度,文本相似度和實(shí)體相關(guān)度等排序指標(biāo)。目前大多數(shù)實(shí)體鏈指系統(tǒng)都可以看做是上述這些方法的組合。在這些方法當(dāng)中,基于文本相似度方法的地位和作用最為重要?,F(xiàn)在的實(shí)體鏈指系統(tǒng)均以單語(yǔ),長(zhǎng)文本為主,未來(lái)的實(shí)體鏈指技術(shù)將在向跨語(yǔ)言,短文本方向發(fā)展,并以此為契機(jī)而推廣到更多的應(yīng)用場(chǎng)景中去。
參考文獻(xiàn):
[1] MIHALCEA R, CSOMAI A. Wikify?。?linking documents to encyclopedic knowledge[C]// CIKM 07: Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, New York, NY, USA, ACM,2007:233-242.
[2] MILNE D, WITTEN I H. Learning to link with wikipedia[C]//CIKM 08: Proceeding of the 17th ACM conference on Information and knowledge management, New York, NY, USA, ACM,2008:509-518.
[3] BUNESCU R C, PASCA M. Using encyclopedic knowledge for named entity disambiguation[C]//EACL. The Association for Computer Linguistics, 2006.
[4] CUCERZAN S. Large-scale named entity disambiguation based on Wikipedia data[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, Association for Computational Linguistics, June 2007:708-716.
[5] WACHOLDER N, RAVIN Y, CHOI M. Disambiguation of proper names in text[C]//Proceedings of the Fifth Conference on Applied Natural Language Processing, ANLC 97, Stroudsburg, PA, USA, Association for Computational Linguistics,1997:202-208.
[6] VARMA V, BHARAT V, KOVELAMUDI S, et al. Iiit hyderabad at tac 2009[C]//Proceedings of the Second Text Analysis Conference (TAC 2009), Gaithersburg, Maryland, USA, November 2009.
[7] ZHANG Wei, SIM Y C, SU Jian, et al. Entity linking with effective acronym expansion, instance selection, and topic modeling. WALSH T, editor, IJCAI 2011[C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July 16-22, 2011:1909–1914.
[8] GOTTIPATI S, JIANG Jing. Linking entities to a knowledge base with query expansion[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, Edinburgh, Scotland, UK., Association for Computational Linguistics, July 2011:804-813.
[9] LEHMANN J, MONAHAN S, NEZDA L, et al. Lcc approaches to knowledge base population at tac 2010[C]// Proceedings of the Text Analysis Conference, Gaithersburg, MD, USA, 2010.
[10] MILLER G A, CHARLES W G. Contextual correlates of semantic similarity[J]. Language and Cognitive Processes, 1991,6(1):1–28.
[11] MILNE D, WITTEN L H. An effective, low-cost measure of semantic relatedness obtained from wikipedia links. WIKIAI08, Chicago, I.L., 2008.
[12] RUDI L, CILIBRASI, VITANYI P M B. The google similarity distance[J]. IEEE Trans. on Knowl. and Data Eng., March 2007,19:370–383.
[13] HOFFART J, YOSEF M A, BORDINO I, et al. Robust disambiguation of named entities in text[C]//proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, Edinburgh, Scotland, UK., Association for Computational Linguistics, July 2011: 782–792.