国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多種特征的實體鏈接技術(shù)研究

2016-05-03 13:12陳玉博何世柱呂學(xué)強
中文信息學(xué)報 2016年4期
關(guān)鍵詞:知識庫語義實體

陳玉博,何世柱,劉 康,趙 軍,呂學(xué)強

(1. 中國科學(xué)院自動化研究所,模式識別國家重點實驗室,北京 100190;2. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101)

融合多種特征的實體鏈接技術(shù)研究

陳玉博1,何世柱1,劉 康1,趙 軍1,呂學(xué)強2

(1. 中國科學(xué)院自動化研究所,模式識別國家重點實驗室,北京 100190;2. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101)

實體消歧是自然語言理解的重要研究內(nèi)容,旨在解決文本信息中普遍存在的命名實體歧義問題,在信息抽取、知識工程和語義網(wǎng)絡(luò)等領(lǐng)域有廣泛的應(yīng)用價值。實體鏈接是實體消歧的一種重要方法,該方法將具有歧義的實體指稱項鏈接到給定的知識庫中從而實現(xiàn)實體歧義的消除[1]。傳統(tǒng)的實體鏈接方法主要利用上下文的詞語匹配等表層特征,缺乏深層語義信息,針對這一問題,該文提出的實體鏈接方法利用了多種特征,從不同的維度捕獲語義信息。為了更好地融合各個維度的特征,該文利用了基于排序?qū)W習(xí)框架的實體鏈接方法,與傳統(tǒng)的方法相比,節(jié)省了人工對大量的模型參數(shù)選擇和調(diào)節(jié)的工作,與基于分類的方法相比,能更好地利用到候選之間的關(guān)系信息。在TAC-KBP-2009的實體鏈接評測數(shù)據(jù)上的實驗表明,該文提出的特征和方法表現(xiàn)出良好的性能,在評測指標(biāo)上高出參賽隊伍最好水平2.21%,達到84.38%。

實體消歧;實體鏈接;排序?qū)W習(xí)

1 引言

近年來,隨著互聯(lián)網(wǎng)的普及和迅速發(fā)展,越來越多的信息以數(shù)字化的方式存儲在網(wǎng)絡(luò)中。如何在浩繁的數(shù)據(jù)中實現(xiàn)深層語義檢索和查詢已經(jīng)引起了眾多學(xué)者的關(guān)注。為了實現(xiàn)這一目標(biāo),必須構(gòu)建出機器可以理解的、組織良好的結(jié)構(gòu)化知識庫或知識圖譜。目前已經(jīng)有很多公開的結(jié)構(gòu)化知識庫,例如,YAGO[2]、KOG[3]和DBpedia[4]等。在構(gòu)建和維護結(jié)構(gòu)化知識庫時,不可避免地會遇到命名實體歧義的問題。因此,研究實體鏈接技術(shù)具有重要的學(xué)術(shù)價值和現(xiàn)實意義。

命名實體歧義指的是同一個實體指稱項在不同的上下文中可以對應(yīng)到不同真實世界實體的語言現(xiàn)象。例如,給定如下兩個包含“Michael Jordan”的句子:

? Michael Jordan is a famous american basketball player.

? Michael Jordan is a famous professor in the field of machine learning.

上述例子中的兩個“Michael Jordan”分別對應(yīng)著籃球運動員“Jordan”和機器學(xué)習(xí)領(lǐng)域的教授“Jordan”。實體鏈接系統(tǒng)的主要任務(wù)是將文本中具有歧義的實體指稱項鏈接到知識庫中的相應(yīng)實體上,如果在知識庫中沒有相對應(yīng)的實體,則鏈接到空實體上。實體鏈接中的關(guān)鍵問題是候選實體與實體指稱項間的語義相似度的計算。傳統(tǒng)的研究工作中主要利用詞袋子模型計算指稱項所在上下文文本與候選實體所在文本之間的文本相似度,進而用文本的相似度來衡量實體間的相似度,還有學(xué)者將類似的表層語義信息作為主要特征來判斷實體間的相似度。但是類似的表層語義特征都是基于詞匹配的,缺乏深層語義信息。不適用同一實體出現(xiàn)的上下文語境沒有匹配詞匯,或者匹配詞匯數(shù)量少的情況。例如,我們假設(shè)知識庫中有兩個名為“Michael Jordan”的實體:

? 實體名: Michael Jordan(NBA Player) 文本: Michael Jordan plays basketball in Chicago Bulls.

? 實體名: Michael Jordan(Machine Learning Professor) 文本: Michael Jordan is a famous professor in the field of machine learning.

當(dāng)待消歧的實體指稱項“Michael Jordan”出現(xiàn)在文本“Michael Jordan wins NBA MVP.”中時,實體指稱項應(yīng)當(dāng)鏈接到美國籃球運動員邁克爾喬丹上,因為消歧文本中的“MVP”和知識庫實體“Michael Jordan”定義中的“basketball”和“Chicago Bulls”有非常高的語義關(guān)聯(lián)度。但上述例子中,除了實體名外,實體指稱項所在的文本與知識庫中該實體的描述文本沒有匹配的詞,導(dǎo)致傳統(tǒng)基于詞袋的模型無法取得滿意的結(jié)果。為了解決這一問題,本文挖掘并利用Wikipedia中的實體關(guān)聯(lián)知識,提出了一系列包含深層語義信息的特征,并將這些深層語義特征與表層字面特征融合,完成實體鏈接。為了更好地利用本文所提出的特征信息,在消歧階段本文利用了基于排序?qū)W習(xí)框架。相較于基于分類的實體消歧方法,基于排序?qū)W習(xí)的方法能更好地考慮候選實體間的關(guān)系。本文設(shè)計并實現(xiàn)了一個完整的實體消歧系統(tǒng),系統(tǒng)由候選實體生成模塊和候選實體選擇模塊兩部分組成。進行實體消歧任務(wù)時,主要分兩個步驟完成: (1)候選實體的生成,如給定實體指稱項“Michael Jordan”,實體鏈接系統(tǒng)根據(jù)規(guī)則和相關(guān)知識找到其可能指向的真實世界實體,如: “Michael B. Jordan”、“Michael Jordan(mycologist)”和“Michael Jordan (basketball player)”等。(2)候選實體的選擇,系統(tǒng)根據(jù)實體的上下文及實體本身的知識,對所有的候選進行相似度的打分排序,根據(jù)排序的結(jié)果選擇相應(yīng)的候選實體作為鏈接對象。

為了驗證本文提出的特征和方法的有效性,本文在TAC KBP 2009的實體鏈接評測數(shù)據(jù)上進行了測試。實驗表明,本文提出的特征和方法在測試數(shù)據(jù)上顯示出良好的性能。正確率達到84.38%,高出參評隊伍最好水平2.21%。

本文章節(jié)安排具體如下: 第二節(jié)介紹實體鏈接的相關(guān)工作;第三節(jié)介紹候選實體生成模塊;第四節(jié)介紹候選實體選擇模塊;第五節(jié)為實驗和結(jié)果分析;最后對本文工作進行了總結(jié),并指出將來工作的方向。

2 相關(guān)工作

在命名實體消歧方面有很多關(guān)于實體鏈接的工作。Bagga[5]等人用詞袋模型來解決人名歧義的問題。Fleischman[6]等人利用網(wǎng)絡(luò)信息等特征訓(xùn)練最大熵模型來解決實體歧義問題。這些方法都是通過衡量指稱項上下文文本與目標(biāo)實體文本之間的相似度來判定兩者是否一致。在這些方法中很大一部分都是利用詞袋模型或者類似于詞袋模型的方法,然而詞袋模型只能捕捉表層字面匹配信息無法捕捉深層語義。

為了解決這一問題,Malin[7]等人提出了利用隨機游走的方法計算文本之間的相似度,除此之外,Han[8]等人提出利用Wikipedia作為背景知識庫,通過利用Wikipedia中的語義知識來進行消歧。利用不同的背景知識,研究者就可以得到不同的特征來進行實體消歧。

上面所述的方法中大多數(shù)都是解決單一實體鏈接問題,僅僅考慮目標(biāo)實體與實體指稱項間的語義相似度。除此之外Cucerzan[9]等為了更好地對于文本內(nèi)的多個實體進行消岐,建立了全局語義約束,利用協(xié)同式策略綜合考慮多個實體間的語義關(guān)聯(lián),從而進行協(xié)同實體鏈接。本文工作主要圍繞解決單一實體鏈接問題開展。

如上所述,研究者們已經(jīng)提出了很多不同的特征用來進行實體消歧,如何有效合理地利用這些特征進行消歧也是一個研究熱點,起初很多研究人員利用人工規(guī)則和權(quán)重來結(jié)合這些特征,然而這樣不僅會耗費大量的時間和精力,還缺乏泛化能力。因此,有很多學(xué)者利用機器學(xué)習(xí)上的方法來完成特征的融合。Milne[10]等訓(xùn)練了很多類似SVM、C4.5和貝葉斯等典型的分類器來融合特征。這種基于分類的方法取得了不錯的效果,但是該方法不能很好地考慮到候選實體之間的關(guān)系,為了解決這一問題本文利用排序?qū)W習(xí)的方法融合特征進而完成單實體鏈接的任務(wù)。

3 候選實體生成模塊

為了完成實體鏈接,首先要從知識庫中獲得候選實體。在這一模塊,我們?yōu)槊總€待消歧的實體指稱項生成一組候選實體。通過對數(shù)據(jù)的分析不難發(fā)現(xiàn),所有的候選實體應(yīng)該在字面上和實體指稱項相似,或者雖然字面上不相似但是實質(zhì)上是同一實體的不同表示(如: 別名或縮略名)。為了保證候選實體的高召回率,本文在候選生成階段首先利用了基于表層字面信息的方法擴展指稱項,將獲取字面上最相近的一部分實體作為候選實體。接下來再利用Wikipedia針對每一個擴展后的詞進一步擴展候選實體。具體方法如下:

3.1 基于表層字面信息的候選生成

在這一階段主要是召回與實體指稱項字面上相似的實體作為候選。首先我們利用Google開發(fā)的拼寫錯誤修正工具來校正拼寫錯誤,將可能的正確形式都作為候選實體加入候選列表中。接下來為了保證高召回率,本文又利用編輯距離計算實體指稱項和知識庫中每個實體間的相似度,經(jīng)試驗驗證,本文選取編輯距離大于X的作為候選實體。按公式(1)計算編輯距離。

edita,b(i,j)=

(1)

除此之外,通過對數(shù)據(jù)的觀察,我們發(fā)現(xiàn)在待消歧的實體指稱項中有很多指稱項是縮略詞的形式,這種形式會造成很大歧義,但是其完全形式歧義很小,例如:

1) The ABC (Australian Broadcasting Corporation) is australia’s national public broadcaster.

2) In American, ABC (American Broadcasting Company) first broadcast on television in 1948.

從例子中不難看出如果我們能從上下文中對指稱項ABC進行擴展,得到其完全形式“Australian Broadcasting Corporation”和“American Broadcasting Company”,不僅能保證正確候選的召回,而且能減少候選實體與指稱項之間的歧義,所以本文中采用了Zhang[11]等提出的縮略詞擴展規(guī)則。

3.2 基于維基知識的候選生成

經(jīng)過基于表層字面信息的候選生成,我們已經(jīng)初步校正了拼寫錯誤、得到了縮略詞的全稱和與實體指稱項字面上相似的實體。但是還有很大一部分候選實體無法獲得,因為有很多正確候選實體與實體指稱項在字面形式上幾乎完全不一致,如: 實體“Michael Jordan”,如果在待消歧文本中出現(xiàn)了實體指稱項“His Airness”,則通過基于表層字面信息的方法無法將實體“Michael Jordan”作為候選加入候選實體列表,因為表層字面匹配的方法缺乏深層語義知識,無法判斷出“His Airness”是“Michael Jordan”的綽號。為了解決這一問題,在本文中我們引入了語義知識。本文挖掘并利用Wikipedia中的相關(guān)知識建立了實體指稱項候選詞典,用于補充基于表層字面信息生成候選的不足,以達到高召回率的目的。生成的部分實體指稱項字典如表1所示。

表1 實體指稱項字典實例

本文利用Wikipedia中的以下信息建立詞典:

? 重定向頁面: 自然界中很多實體的名字都不僅只有一個。這個問題也就是一義多詞問題,在Wikipedia中用重定向頁面來處理這類問題,同一個實體只有一個實體頁面,用這個實體流行度最廣的名字作為標(biāo)題。針對其余的名字都建立重定向頁面,指向唯一的實體頁面。所以重定向頁面中包含很多的同義知識。

? 消歧頁面: 自然界中很多不同的實體具有相同的名字。這個問題也就是一詞多義問題,在Wikipedia中用消歧頁面來處理這類問題,消歧頁面中有一系列的鏈接信息,分別鏈向這個名字所指的不同實體。所以能從消歧頁面中發(fā)現(xiàn)很多候選實體。

? 錨文本信息: 在Wikipedia的文本中會將提到的重要實體鏈接到相對應(yīng)實體的頁面,這就是錨文本信息,這些錨文本有的是對應(yīng)實體的同義詞,有的是對應(yīng)實體的別名,還有的是對應(yīng)實體的名字的錯誤拼寫。能為候選的生成提供重要依據(jù)。

為了測試本文提出的候選生成模塊的召回率,我們在TAC KBP 2009-2013年的數(shù)據(jù)上都進行了測試。測試結(jié)果如表2所示。測試數(shù)據(jù)表明本文提出的候選生成模塊的有效性。

表2 候選實體生成模塊召回率測試

4 候選實體選擇模塊

基于候選實體生成模塊,我們可以得到一個實體指稱項對應(yīng)的所有的候選實體,為了正確鏈接實體,我們必須對所有的候選實體排序,最終將得分最高的實體作為此實體指稱項的鏈接實體。本文對候選實體的選擇基于一個有監(jiān)督的排序?qū)W習(xí)算法。對于一個實體指稱項,排序?qū)W習(xí)分類器的輸入是n個d維空間向量,其中n表示的是該實體指稱項的候選實體的數(shù)目,每一對候選實體與實體指稱項會根據(jù)特征函數(shù)生成一個d維空間的向量,其中d代表特征的個數(shù),這些特征充分考慮了候選實體自身的信息以及指稱項上下文內(nèi)容與候選實體的語義相似度等知識。通過最大邊緣化的方法來選擇候選實體,即正確的實體所獲得的分?jǐn)?shù)應(yīng)該高于其他的候選實體的分?jǐn)?shù)同時加上一定的余量。這個約束條件等同于SVM排序?qū)W習(xí)算法[12],優(yōu)化函數(shù)和約束條件為式(2)~(4)。

(2)

(3)

(4)

其中,V為損失函數(shù),w是要學(xué)習(xí)到的關(guān)于特征的權(quán)重,c為懲罰因子。q.e是實體指稱項的正確實體,q.ek實體指稱項的其他候選實體。約束條件的物理意義是正確實體獲得的分?jǐn)?shù)要盡量大于其他候選實體獲得的分?jǐn)?shù)。本文的候選實體選擇模塊共使用了表層字面特征、深層語義特征和空實體特征共三類七種。各個特征將在下面進行詳細介紹。

4.1 表層字面特征

這類特征主要從表層字面信息考慮候選實體與待消歧的實體指稱項間的相似度。這類特征包括編輯距離相似度、Dice相似度、向量空間相似度和實體共現(xiàn)信息等特征。為了提高特征的有效性,在計算表層字面特征時我們會對文本進行預(yù)處理。具體如下:

數(shù)據(jù)預(yù)處理: 在數(shù)據(jù)預(yù)處理階段,本文會過濾掉實體名字中的括號及括號中的內(nèi)容,還會考慮到縮略詞和大小寫的情況。

基于編輯距離的相似度Edit: 該特征主要用來度量候選實體名和待消歧指稱項的編輯距離,編輯距離的計算如上述公式(1)所示。

基于Dice系數(shù)的相似度Dice: 該特征主要用來衡量候選實體名和待消歧指稱項的Dice系數(shù)。如:x和y為兩個字符串,則Dice的計算如公式(5)所示。

(5)

公式中nt表示同時出現(xiàn)在字符串x和y中的二元組個數(shù),nx是字符串x中的二元組個數(shù),ny是字符串y中的二元組個數(shù)。

基于向量空間模型的篇章級相似度Bow: 該特征主要用來衡量待消歧指稱項的上下文文本和候選實體的描述文本之間的相似度。同一實體出現(xiàn)的上下文環(huán)境應(yīng)該類似,所以這一特征在傳統(tǒng)的消歧方法中占有很重要的地位。計算時,應(yīng)先將待消歧指稱項的上下文和候選實體的上下文用詞袋子模型表示成向量,向量中的每一維都由標(biāo)準(zhǔn)的TF-IDF計算得到,最后計算向量的余弦值作為相似度。

實體共現(xiàn)信息Co: 該特征為二元特征,標(biāo)志著指稱項實體名是否在候選實體文本中出現(xiàn),或者候選實體名是否在指稱項上下文中出現(xiàn),出現(xiàn)則設(shè)為1,否則為0。

4.2 深層語義特征

在上述的表層字面信息特征中,主要是基于詞或者實體的匹配信息,無法捕捉到深層語義,對于上下文中匹配信息較少的情況不具備泛化能力,所以我們應(yīng)當(dāng)將深層語義信息考慮進來,在深層語義特征中,主要是利用從Wikipedia中獲得的背景知識計算候選實體與實體指稱項之間的深層語義關(guān)聯(lián)。具體如下:

實體流行度Pou: 這個特征主要是衡量一個實體在一篇文章出現(xiàn)概率的大小。本文中我們的計算方法同Han[13]一樣,統(tǒng)計出實體在整個知識庫中出現(xiàn)的總次數(shù)N,再統(tǒng)計被鏈接到的次數(shù)L,則L/N為實體的流行度。例如: 給出實體“Michael Jordan”,在沒有其他任務(wù)附件信息的條件下,從流行度可以知道,實體“Michael Jordan”鏈向美國著名籃球明星“Michael Jeffrey Jordan”的概率要大于鏈向伯克利大學(xué)教授“Michael I. Jordan”的概率。

基于維基實體的相似度Ws: 為了更準(zhǔn)確地計算實體指稱項和候選實體之間的相似度,本特征使用Wikipedia知識來獲取實體之間的語義關(guān)系。類似于Han[8]等的工作,本文中實體相似度計算分為三步: ①指稱項文本中的Wikipedia實體向量表示的抽?。虎趦蓚€指稱項實體向量表示的對齊;③相似度計算。以下分別具體介紹:

① 指稱項文本中的Wikipedia實體向量表示的抽?。?為了計算實體之間的相似度,首先將每個實體e表示成Wikipedia的實體向量e={(c1,w(c1,e)),(c2,w(c2,e)),…,(cm,w(cm,e))},其中,Ci是指稱項上下文中的Wikipedia實體,而w(Ci,e)是實體Ci在指稱項e的實體向量表示中的權(quán)重。給定實體,其實體向量表示的抽取分兩步完成: 首先完成Wikipedia的實體抽取,本文利用由Milne[14]等開發(fā)的工具Wikipedia-Miner來識別并抽取,同一個指稱項文本中抽取的實體集合組成向量。還要為向量中的每維估計權(quán)重,因為不同的實體在消歧過程中起的作用是不一樣的,本文中,一個實體c在一個實體指稱項e中的重要性,計算如公式(6)所示。

(6)

其中sr(c,ci)是Milne[10]提出的Wikipedia實體之間的語義關(guān)聯(lián)。根據(jù)實體權(quán)重,我們可以過濾掉噪音實體從而提升實體消歧系統(tǒng)的效率和性能。

② 實體向量表示的對齊: 將指稱項用Wikipedia實體向量表示后,我們可以使用余弦相似度等傳統(tǒng)方法來計算實體之間的相似度。但是傳統(tǒng)相似度通常不能考慮到實體之間的語義關(guān)聯(lián)。因此,我們利用實體對齊方法來識別實體之間的對應(yīng)關(guān)系,并以此為基礎(chǔ)來在實體相似度計算中融入實體之間的語義關(guān)系。給定兩個實體的向量表示el和ek,我們使用如下方法實現(xiàn)向量中實體的對齊: 對el中的每一個實體c,我們選擇目標(biāo)實體ek向量表示中與其有最大語義關(guān)聯(lián)度的實體作為它的對齊實體,計算如公式(7)所示。

(7)

③ 相似度計算: 完成實體對齊后,指稱項相似度計算的關(guān)鍵問題是如何將這些實體對齊信息結(jié)合到相似度計算中,進而在相似度計算中融入Wikipedia語義知識?;趯嶓w對齊的結(jié)果,我們認為從一個實體el到另一個實體ek的語義關(guān)聯(lián)為“兩個實體之間所有對齊實體之間語義關(guān)聯(lián)的帶權(quán)平均”,計算如公式(8)所示。

SR(ek→el)=

(8)

按上述定義,給定兩個實體el和ek,從el到ek的和ek到el的語義關(guān)聯(lián)度是非對稱的。因此本文利用的兩個實體el與ek之間的相似度為el到ek和ek到el的語義關(guān)聯(lián)度的平均值。

經(jīng)過上述的三步,我們可以計算出兩個實體的深層語義相似度,更好地捕捉實體之間的深層語義信息。

4.3 空實體特征

除了上述的兩類特征,為了更好地處理空實體的問題,本文參照Dredze[15]等人的工作,設(shè)計了空實體特征NIL,并且在候選特征中強制加入空實體作為候選,一同參與所有候選實體的打分排序,如果是空實體得分最高,則將待消歧的實體指稱項鏈接到空實體上。在本文中空實體的特征向量中只有空實體特征設(shè)定為非0,其余的特征值均為0。對于其他的候選實體來說空實體特征為0。其余的特征由上述的定義計算得到。

5 實驗結(jié)果及分析

5.1 實驗數(shù)據(jù)集

本文的實驗在TACKBP2009的評測數(shù)據(jù)集上進行。TACKBP評測中實體鏈接的任務(wù)目標(biāo)是將文本中的實體指稱項與目標(biāo)實體知識庫中的相應(yīng)實體鏈接。TACKBP2009實體鏈接任務(wù)由目標(biāo)實體知識庫和評測數(shù)據(jù)兩部分組成評測數(shù)據(jù)集,如下所示:

目標(biāo)實體知識庫: 評測任務(wù)中,指稱項目標(biāo)實體的相關(guān)信息存儲在目標(biāo)實體知識庫中。目標(biāo)實體知識庫以實體為單位組織。目前,TAC實體鏈接任務(wù)知識庫中的目標(biāo)實體是從2008年10月的Wikipedia中抽取構(gòu)建,在目標(biāo)實體知識庫中,每一個實體節(jié)點包含如下幾方面信息: 知識庫ID、實體的類別、實體的名字、屬性信息和消歧文本。

評測數(shù)據(jù): 評測任務(wù)中,測試數(shù)據(jù)Query以XML格式提供,每個Query能提供的信息有實體指稱項的名字、QueryID、實體所在文本的ID和實體指稱項在實體知識庫中的對應(yīng)實體的ID。評測數(shù)據(jù)中總共包括了3 904個query,其中2 229個query是在知識庫中找不到對應(yīng)的實體的,也就是要標(biāo)記為空實體,其余的1 675個query能在知識庫中找到指定的實體。在評測數(shù)據(jù)中不同類別的實體,其中627個關(guān)于PER的query,2 710個關(guān)于ORG的query,567個關(guān)于GPE的query。

5.2 評價指標(biāo)

本文采用TACKBP2009中的評測指標(biāo)Micro-averagedaccuracy來評價實體鏈接的效果,計算如公式(9)所示。

(9)

公式(9)衡量了所有鏈接結(jié)果的平均準(zhǔn)確率,其中L(q)是實體鏈接系統(tǒng)給出的queryq的目標(biāo)實體ID ,Q是所有query的集合,C(q)是queryq的準(zhǔn)確目標(biāo)實體ID,σ(L(q),C(q))用于判斷L(q)是否與C(q)相同,不相同為0,相同則為1。

5.3 實驗設(shè)置

在實驗中我們首先不考慮空實體,僅在知識庫中能找到相應(yīng)實體的數(shù)據(jù)集上進行實驗,之后在候選實體中加入空實體,在特征中加入空實體特征,在整個數(shù)據(jù)集上進行實驗,驗證考慮空實體后本文提出的實體鏈接系統(tǒng)的性能。與Shen[16]等一樣,本文的所有實驗數(shù)據(jù)都是在TAC KBP 2009的數(shù)據(jù)集上采用十折交叉驗證獲得的。

5.4 結(jié)果及分析

5.4.1 特征有效性分析

為了驗證本文利用的深層語義知識特征的有效性,我們將第4節(jié)提出的特征進行了不同方式的組合進行實驗。為了降低空實體對實驗的影響,實驗時我們只在能在知識庫中找到實體的1 675個query的數(shù)據(jù)集上進行測試。實驗結(jié)果如表3所示。

表3 在非空實體上的測試結(jié)果

從實驗結(jié)果上看,#2與#1對比性能提升1%左右,說明在實體鏈接的過程中單獨運用基于維基實體的相似度效果會優(yōu)于單獨利用向量空間模型的相似度。證實了基于維基實體的相似度能更好的捕捉實體之間的語義信息。

#3與#1相比性能提升6%左右,相較于#1系統(tǒng),#3系統(tǒng)又融入了三個基于表層字面信息的特征,分別是基于編輯距離的相似度、基于Dice系數(shù)的相似度和實體共現(xiàn)信息。結(jié)果性能上的提升說明了本文提出的這三個特征的有效性,也說明了在實體消歧階段,實體名相似與否或者實體名是否共現(xiàn)具有很重要的地位。

#4與#2的比較中可以看出特征實體流行度的有效性。流行度表征了一個實體在一篇文章中出現(xiàn)的概率,這說明一個實體的流行度越大,那么當(dāng)它作為候選實體進行消歧時,其被判定為正確答案的概率也就越大。

#4的性能要優(yōu)于#3,#4中的特征都是基于Wikipedia中的超鏈接等關(guān)系獲得的深層語義知識,而#3中的特征都是基于字面表層信息的。實驗結(jié)果說明基于Wikipedia獲得的知識能捕捉更多的語義知識。更有利于實體消歧的效果提升。

#5的效果明顯優(yōu)于其余的對比實驗,這說明基于Wikipedia獲得的語義知識與基于表層字面特征能捕獲的知識是互補的,單獨的應(yīng)用二者都不能達到最優(yōu)效果,應(yīng)當(dāng)將兩類特征結(jié)合應(yīng)用。

5.4.2 算法有效性分析

為了驗證本文利用的基于排序?qū)W習(xí)算法框架的候選實體選擇方法優(yōu)于傳統(tǒng)的分類方法,本文實現(xiàn)了基于Naive Bayes的分類方法和基于SVM的分類方法來進行對比實驗,最終實驗分別在不同的特征組合下進行,用分類的方法時,首先將所有的候選實體分類為兩類,取正確的類別中概率最高的為最終鏈接的對象,具體結(jié)果如圖1所示。

圖1 基于貝葉斯分類器、Svm分類器和基于排序?qū)W習(xí)的實體鏈接系統(tǒng)效果對比圖

如圖,實驗在五個特征集合上進行,此實驗選擇的五種特征組合與測試特征有效性實驗中的五個特征組合一致,如: FS1(feature set1)中的特征與#1中的特征一致。在五個集合上利用排序?qū)W習(xí)算法選擇候選實體的效果都要明顯優(yōu)于利用傳統(tǒng)分類器的效果。在FS1上性能提升最少,從0.713 4提升到0.780 9,提高6%左右,在FS5上性能提升最高,從0.794提升到0.894 9,提升10%左右。實驗結(jié)果表明,基于排序?qū)W習(xí)框架的算法更適合實體鏈接任務(wù)。

5.4.3 與state-of-Art系統(tǒng)性能對比

上述實驗都是針對在知識庫中能找到實體的情況進行的。為了測試系統(tǒng)在完整數(shù)據(jù)集上的性能,我們在候選實體中加入空實體,在特征中加入空實體特征。在TAC KBP 2009的完整數(shù)據(jù)集上進行十折交叉測試。結(jié)果與參加TAC KBP 2009的前三名[17]進行比較,結(jié)果如表4所示。

表4 系統(tǒng)整體性能測試和TAC KBP 2009的前三名 系統(tǒng)對比

系統(tǒng)accuracyofallqueriesaccuracyofnon-NILqueriesaccuracyofNILqueriesSiel090.82170.76540.8641QUANTA0.80330.77250.8241hltcoe0.79840.70630.8941our0.84380.79820.8778

從上述實驗結(jié)果可以看出,本文構(gòu)建的系統(tǒng)在性能上達到84.38%,高出參加評測的最好成績2.21%。不僅說明了本文構(gòu)建的實體鏈接系統(tǒng)的可靠性,也說明了本文利用的特征和方法的有效性。

6 總結(jié)與展望

本文針對傳統(tǒng)實體間相似度計算方法存在的不足,利用了一種基于深層語義知識計算實體之間相似度的方法。為了更好地融合多種特征,本文設(shè)計了一個基于排序?qū)W習(xí)算法框架的實體鏈接系統(tǒng)。實驗結(jié)果表明,相比于傳統(tǒng)的計算方法,新的相似度計算方法可以更加有效地捕捉實體指稱項文本與候選實體間的語義關(guān)聯(lián)。同時,融入了多種特征的實體鏈接系統(tǒng)的性能在TAC KBP 2009的數(shù)據(jù)集上取得了良好的性能,正確率達到84.38%,高出參加評測的最好成績2.21%。

下一步的工作主要包括: 1)本文建立的實體鏈接系統(tǒng)對空實體的處理還不完善,僅僅是指出該實體指稱項所表示的實體在知識庫中不存在,還需要將這項工作進行細化,如將空實體進行聚類并且將聚類后的空實體加入到知識庫中;2)嘗試使用其他的排序?qū)W習(xí)算法,如Listnet[18]等。

[1] 趙軍,劉康,周光有等.開放式文本信息抽取[J].中文信息學(xué)報,2011,25(6): 98-110.

[2] Fabian M Suchanek, Gjergji Kasneci, Gerhard Weikum.Yago:A large ontology from wikipedia and wordnet. Web Semantics: Science, Services and Agents on the World Wide Web, 2008,6(3):203-217.

[3] Fei Wu, Daniel S Weld. Automatically refining the wikipedia infobox ontology[C]//Proceedings of the 17th international conference on World Wide Web,2008: 635-644.

[4] S?ren Auer, Christian Bizer, Georgi Kobilarov, et al.Dbpedia: A nucleus for a web of open data. In The semantic web, 2007: 722-735.

[5] Amit Bagga, Breck Baldwin. Entity-based cross-document coreferencing using the vector space model[C]//Proceedings of HLT/ACL, 1998: 79-85.

[6] Michael B Fleischman, Eduard Hovy. x Multi-document person name resolution[C]//Proceedings of ACL, Reference Resolution Work shop, 1998: 66-82.

[7] Bradley Malin, Edoardo Airoldi, Kathleen, et al. A network analysis model for disambiguation of names in lists[J]. Computational & Mathematical Organization Theory, 2005,11(2):119-139.

[8] Han X, Zhao J. Named entity disambiguation by leveraging Wikipedia semantic knowledge[C]//Proceeding of the 18th ACM conference on Information and knowledge management, 2009: 215-224.

[9] Silviu Cucerzan. Large-scale named entity disambiguation based on wikipedia data[C]//Proceedings of EMNLP CoNLL, 2007,7: 708-716.

[10] David Milne, Ian H Witten. Learning to link with wikipedia[C]//Proceedings of the 17th ACM conference on Information and Knowledge Management,2008: 509-518.

[11] Tao Zhang, Kang Liu, Jun Zhao. The nlprir entity linking system at tac 2012.

[12] Thorsten Joachims. Optimizing search engines using clickthrough data[C]//Proceedings of the eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002: 133-142.

[13] Xianpei Han, Le Sun. A generative entity mention model for linking entities with knowledge base[C]//Proceedings HLT/ACL, 2011: 945-954.

[14] David Milne, Ian H Witten. An open-source toolkit for mining wikipedia[J]. Artificial Intelligence,2013,194:222-239.

[15] Mark Dredze, Paul McNamee, Delip Rao, et al. Entity disambiguation for knowledge base population[C]//Proceedings of CL.2010: 277-285.

[16] Wei Shen, Jianyong Wang, Ping Luo, et al. Linden: linking named entities with knowledge base via semantic knowledge[C]//Proceedings of WWW, 2012: 449-458.

[17] Paul McNamee, Hoa Trang Dang. Overview of the tac 2009 knowledge base population track. In Text Analysis Conference (TAC), 2009,17: 111-113.

[18] Zhe Cao, Tao Qin, Tie-Yan Liu, et al. Learning to rank: from pairwise approach to listwise approach[C]//Proceedings of ICML, 2007: 129-136.

Entity Linking Based on Multiple Features

CHEN Yubo1, HE Shizhu1, LIU Kang1, ZHAO Jun1, LV Xueqiang2

(1. NLPR, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;2. ICDDR, Beijing Information Science and Technology University, Beijing 100101, China)

Entity linking is an important method of entity disambiguation, which aims to map an entity to an entry stored in the existing knowledge base. Several methods have been proposed to tackle this problem, most of which are based on the co-occurrence statistics without capture various semantic relations. In this paper, we make use of multiple features and propose a learning to rank algorithm for entity linking. It effectively utilizes the relationship information among the candidates and save a lot of time and effort. The experiment results on the TAC KBP 2009 dataset demonstrate the effectiveness of our proposed features and framework by an accuracy of 84.38%, exceeding the best result of the TAC KBP 2009 by 2.21%.

Named Entity disambiguation; entity linking; learning to rank

陳玉博(1990—),博士,主要研究領(lǐng)域為事件抽取、信息抽取和自然語言處理。E-mail:yubo.chen@nlpr.ia.ac.cn何世柱(1987—),博士,助理研究員,主要研究領(lǐng)域為智能問答、知識工程以及自然語言處理。E-mail:shizhu.he@nlpr.ia.ac.cn劉康(1981—),博士,副研究員,主要研究領(lǐng)域為信息抽取、網(wǎng)絡(luò)挖掘、問答系統(tǒng)等。E-mail:kliu@nlpr.ia.ac.cn

1003-0077(2016)04-0176-08

2014-09-15 定稿日期: 2015-03-20

國家自然科學(xué)基金(61202329, 61272332);網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室開放課題(ICDD201201)

TP391

A

猜你喜歡
知識庫語義實體
漢語近義詞辨析知識庫構(gòu)建研究
語言與語義
前海自貿(mào)區(qū):金融服務(wù)實體
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
批評話語分析中態(tài)度意向的鄰近化語義構(gòu)建
“社會”一詞的語義流動與新陳代謝
高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
郧西县| 泊头市| 抚远县| 梅河口市| 彰化县| 龙南县| 雅安市| 鄂托克前旗| 凌海市| 揭阳市| 大理市| 双江| 曲阳县| 阳新县| 抚远县| 满洲里市| 通河县| 新竹市| 富蕴县| 运城市| 彭阳县| 隆安县| 嘉定区| 长武县| 璧山县| 封丘县| 花莲县| 新宁县| 磴口县| 长沙县| 凤山县| 崇信县| 炎陵县| 盐津县| 隆德县| 波密县| 赫章县| 石台县| 门源| 广元市| 黑龙江省|