李圣杰 周 新 史一民
(大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院 遼寧 大連 116026)
語言表達(dá)的歧義性使得同一詞語在不同的上下文中有多種不同的語義,如“華盛頓”可能表示一個(gè)州、一個(gè)人名、一個(gè)大學(xué)名,亦或是一個(gè)湖泊名。實(shí)體鏈接(Entity Linking, EL)則將一個(gè)文檔中的指稱(mention)鏈接到知識(shí)庫(kù)(Knowledge Base, KB)中的相應(yīng)實(shí)體。實(shí)體鏈接為處理語言表達(dá)的歧義性提供了一種解決方案,在互動(dòng)問答[1]、信息抽取[2]和語義搜索[3]等眾多領(lǐng)域發(fā)揮重要作用。然而,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)呈現(xiàn)數(shù)據(jù)量大、表達(dá)多樣性和數(shù)據(jù)價(jià)值密度低等特征導(dǎo)致這項(xiàng)任務(wù)越來越具有挑戰(zhàn)性。實(shí)體鏈接包含三個(gè)子任務(wù):(1) 指稱探測(cè),識(shí)別出可能需要被鏈接的文本片段;(2) 候選實(shí)體生成,即為文檔中的每個(gè)指稱在知識(shí)庫(kù)中找到相應(yīng)的一組候選實(shí)體;(3) 實(shí)體消歧,通過計(jì)算指稱和候選實(shí)體之間的得分,依據(jù)得分排序選擇最可能的候選實(shí)體為最終結(jié)果。相比于指稱探測(cè)和候選實(shí)體的生成,實(shí)體消歧任務(wù)更具有挑戰(zhàn)性,因此受到學(xué)者的熱切關(guān)注。依據(jù)實(shí)體鏈接時(shí)僅關(guān)注單個(gè)指稱還是考慮一個(gè)文檔中所有指稱間的語義相關(guān)性,實(shí)體鏈接的方法主要分為單一實(shí)體鏈接和集成實(shí)體鏈接。單一實(shí)體鏈接根據(jù)單個(gè)指稱和候選實(shí)體的相關(guān)性來實(shí)現(xiàn)實(shí)體鏈接。早期實(shí)體鏈接方法多屬于單一實(shí)體鏈接,Nguyen等[4]利用維基百科錨文本等信息計(jì)算指稱和候選實(shí)體的相關(guān)性;Francis-Landau等[5]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),分別學(xué)習(xí)文本文檔和規(guī)范實(shí)體頁面的表示,計(jì)算指稱和相應(yīng)候選實(shí)體之間的相似度,然后再融合多種特征進(jìn)行實(shí)體鏈接。單一實(shí)體鏈接只利用單個(gè)指稱的相關(guān)信息,忽略了文檔中實(shí)體之間的聯(lián)系,實(shí)體鏈接的準(zhǔn)確性并不是很高。針對(duì)這一不足,研究者提出了集成實(shí)體鏈接方法,Guo等[6]利用重啟隨機(jī)游走算法進(jìn)行集體消歧;Cao等[7]利用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)進(jìn)行集體消歧;Xue等[8]提出RRWEL方法,使用隨機(jī)游走實(shí)現(xiàn)了實(shí)體鏈接決策的一致性。然而,大多數(shù)集成實(shí)體鏈接方法,在嵌入指稱和候選實(shí)體的相關(guān)性信息時(shí),它們的表示是有限制性的,沒有揭示注意力的焦點(diǎn),這樣的表示相當(dāng)于“黑匣子”。近幾年來,注意力機(jī)制被廣泛應(yīng)用到實(shí)體鏈接中。Lazic等[9]使用EM算法提取最有區(qū)別的指稱上下文單詞以消除歧義;Ganea等[10]使用基于神經(jīng)網(wǎng)絡(luò)的指稱上下文的注意機(jī)制。然而,這些方法只注意到指稱的上下文,而忽略了注意力機(jī)制的其他方面,如:候選實(shí)體描述的注意。
本文的主要貢獻(xiàn)如下:
(1) 在指稱的上下文和候選實(shí)體的描述中使用協(xié)同注意力,聚焦對(duì)實(shí)體鏈接最有用的單詞,揭示注意力的焦點(diǎn)。
(2) 使用遞歸隨機(jī)游走策略將局部兼容性和實(shí)體之間的一致性結(jié)合起來實(shí)現(xiàn)集成消歧。
給一個(gè)包含n個(gè)指稱的文檔Di,每一個(gè)指稱mi與知識(shí)庫(kù)KB中的一個(gè)候選實(shí)體集合ε(mi)={e1,e2,…,ek}對(duì)應(yīng)。文檔Di中的所有指稱組成指稱集m(Di),文檔Di中所有指稱的候選實(shí)體組成候選實(shí)體集合E(Di)。表1給出實(shí)體鏈接的具體符號(hào)含義。形式上,可以將實(shí)體鏈接(Entity Linking,EL)定義為:在給定文檔的指稱集中,目標(biāo)是找到相應(yīng)的實(shí)體分配:
Γ:m(Di)→E(Di)
(1)
示例1文檔“by the use ofwarmbloodhorse … by the use ofdrafthorse and Arabian … is usually bay,chestnut, brown or black in color”有“warmblood”“draft”和“chestnut”三個(gè)指稱。“warmblood”對(duì)應(yīng)的候選實(shí)體集合為{warmblood};“draft”對(duì)應(yīng)的候選實(shí)體集合為{Draft horse、constriation};“chestnut”對(duì)應(yīng)的候選實(shí)體集合為{Equine coat color,color}。通過相關(guān)實(shí)體鏈接的計(jì)算,這兩個(gè)指稱應(yīng)該被鏈接到候選實(shí)體“Draft horse”和“Equine coat color”而不是“constriation”和“color”。
表1 實(shí)體鏈接的符號(hào)定義
實(shí)體鏈接主要考慮了四種類型的特征(如表2所示):(1) 先驗(yàn)知識(shí)重要性,實(shí)體的先驗(yàn)知識(shí)重要性或者是指稱和候選實(shí)體之間的先驗(yàn)知識(shí)重要性,在任何一種情況下,得分都是根據(jù)先前的重要性估算的。(2) 上下文相似性,計(jì)算指稱上下文與候選實(shí)體描述之間的文本相似性,指稱和實(shí)體的上下文提供了有利于消歧的附加信息。(3) 指稱和候選實(shí)體的相關(guān)性、實(shí)體的類型和字符串的比較也有助于消歧。(4) 文檔中所有實(shí)體鏈接決策之間的一致性,測(cè)量一對(duì)實(shí)體之間的語義相關(guān)度。
表2 實(shí)體鏈接的特征
根據(jù)對(duì)每個(gè)指稱單獨(dú)進(jìn)行消歧還是一個(gè)文檔中的所有指稱集體進(jìn)行消歧,實(shí)體鏈接的方法主要分為單一實(shí)體鏈接和集成實(shí)體鏈接兩種。前者更高效,后者的準(zhǔn)確率更高。早期實(shí)體鏈接任務(wù)主要利用單一實(shí)體鏈接方法,近年來,集成實(shí)體鏈接方法逐漸成為研究的熱點(diǎn)[21]。
(1) 單一實(shí)體鏈接方法。單一實(shí)體鏈接分別對(duì)每一個(gè)指稱進(jìn)行消歧,并將實(shí)體消歧看作是一個(gè)排序問題,最后選擇得分最高的候選實(shí)體。單一實(shí)體鏈接方法主要使用了四個(gè)特征中的候選實(shí)體和指稱的先驗(yàn)知識(shí)重要性、上下文相似性和指稱-候選實(shí)體的相關(guān)性。傳統(tǒng)單一實(shí)體鏈接方法使用手工定義的特征計(jì)算指稱和候選實(shí)體之間的相似性,通常是基于上下文的統(tǒng)計(jì)和詞匯匹配,例如,指稱和候選實(shí)體之間字符串的相似性、指稱對(duì)應(yīng)各候選實(shí)體的先驗(yàn)概率、知識(shí)庫(kù)中指向候選實(shí)體的鏈接數(shù)等。手工定義的特征只包含淺層的信息。隨著深度神經(jīng)網(wǎng)絡(luò)的興起,發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到更多的抽象特征,彌補(bǔ)了傳統(tǒng)方法的不足。最近的研究大多采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)來獲取實(shí)體更多的潛在語義特征[5,22-23]。單一實(shí)體鏈接方法可以形式化地表示為融合多個(gè)特征的形式:
(2)
式中:fk(ej,mi)可以是上下文無關(guān)或者上下文相關(guān)的特征,λk為相應(yīng)的特征權(quán)重。
單一實(shí)體鏈接方法只考慮到單個(gè)指稱,忽略了指稱之間的關(guān)聯(lián),因此,研究者提出一種集成實(shí)體鏈接方法,集成實(shí)體鏈接方法考慮到了一個(gè)文檔中所有實(shí)體之間的相關(guān)性。
(2) 集成實(shí)體鏈接方法。有效地消除歧義需要將局部兼容性(包括先驗(yàn)的重要性、上下文相似性和指稱-候選實(shí)體的相關(guān)性)和所有實(shí)體的全局一致性結(jié)合起來,將文檔中的實(shí)體鏈接決策聯(lián)系在一起。集成實(shí)體鏈接方法假設(shè)同一文檔中的指稱共享相似主題,考慮到了一個(gè)文檔中的所有指稱之間的關(guān)系,最大限度地提高整個(gè)文檔中實(shí)體的主題一致性。最常見的方法是建立一個(gè)圖來模擬指稱和實(shí)體之間,實(shí)體和實(shí)體之間的相似性。可以利用圖的一些算法如:PageRank[24]和隨機(jī)游走[8,25]等計(jì)算所有實(shí)體的全局一致性。集成實(shí)體鏈接方法目標(biāo)函數(shù)可表示為:
(3)
式中:φ(mi,ej)為指稱和候選實(shí)體的局部兼容性,如式(2)所示;ψ(Γ)為在文檔中所有實(shí)體之間的一致性函數(shù);Γ為一種解決方案表示指稱-候選實(shí)體對(duì)的集合。
Deep-ED(Ganea等[10])使用指稱上下文的注意機(jī)制,把深度LBP(循環(huán)置信傳播)方法應(yīng)用到集成實(shí)體鏈接方法中。而本文不僅使用指稱上下文和候選實(shí)體描述的協(xié)同注意力機(jī)制,擴(kuò)大了注意范圍,而且把遞歸隨機(jī)游走應(yīng)用到集成實(shí)體鏈接方法中。Le等[25]在Ganea等[10]的基礎(chǔ)上,增加了隱關(guān)系信息。而本文使用協(xié)同注意力機(jī)制,將遞歸隨機(jī)游走應(yīng)用于全局訓(xùn)練問題中。Guo等[26]提出了一種貪婪的集成命名實(shí)體消歧算法,該算法利用消歧圖上隨機(jī)游走傳播引起的概率分布之間的互信息。該方法未利用注意力機(jī)制,而Att-RRW方法使用了協(xié)同注意力機(jī)制,聚焦對(duì)實(shí)體鏈接最關(guān)鍵的信息。通過上述幾個(gè)對(duì)比方法可以看出,它們?cè)讷@取指稱和候選實(shí)體之間的語義信息時(shí),沒有揭示注意的焦點(diǎn),沒有使用或較少使用上下文的注意力,實(shí)體鏈接效果有待提高。Att-RRW方法在用神經(jīng)網(wǎng)絡(luò)獲取指稱和候選實(shí)體之間的語義信息的過程中,加入?yún)f(xié)同注意力機(jī)制,揭示注意力的焦點(diǎn),修剪掉指稱上下文和候選實(shí)體描述中沒有用的單詞。本文在指稱上下文和候選實(shí)體描述采用了協(xié)同注意力機(jī)制,擴(kuò)大了注意的范圍,并且使用遞歸隨機(jī)游走實(shí)現(xiàn)一個(gè)文檔中的所有指稱共同進(jìn)行消歧,增強(qiáng)了實(shí)體鏈接的效果。
Att-RRW由局部兼容性和集成實(shí)體鏈接兩部分構(gòu)成,其架構(gòu)如圖1所示。局部兼容性通過注意力機(jī)制獲取最相關(guān)的指稱上下文和候選實(shí)體描述,然后采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)挖掘指稱和候選實(shí)體的深層語義關(guān)系,計(jì)算單個(gè)指稱和候選實(shí)體的局部相關(guān)性;集成實(shí)體鏈接首先計(jì)算候選實(shí)體之間的語義相關(guān)性,依據(jù)指稱和候選實(shí)體的局部相關(guān)性、所有實(shí)體間的語義相關(guān)性,采用遞歸隨機(jī)游走策略實(shí)現(xiàn)所有實(shí)體鏈接決策的全局一致性。
圖1 Att-RRW方法架構(gòu)
3.1.1協(xié)同注意力
指稱上下文和候選實(shí)體描述都包含著大量有關(guān)實(shí)體鏈接的信息,但是指稱上下文和候選實(shí)體描述中每個(gè)單詞對(duì)消歧的影響是不同的。針對(duì)這一現(xiàn)象,本文在指稱上下文和候選實(shí)體描述中引用協(xié)同注意力機(jī)制,揭示了注意力的焦點(diǎn)。從指稱上下文和候選實(shí)體描述中過濾掉沒有用的單詞,選擇相關(guān)性最強(qiáng)的單詞作為修剪后的指稱上下文和候選實(shí)體描述。首先,使用Word2vec[27]進(jìn)行詞的嵌入,每個(gè)詞由h維的向量表示。然后,使用式(4)得出指稱上下文Ci和候選實(shí)體描述Bj的相似性得分。
(4)
式中:Wa∈Rh×h是一個(gè)參數(shù)矩陣。按行歸一化親密度矩陣Z,為指稱上下文Ci的每個(gè)單詞在實(shí)體描述Bj中產(chǎn)生一個(gè)注意力相關(guān)性得分Lc(式(5))。類似地,按列歸一化親密度矩陣Z,為實(shí)體描述Bj的每個(gè)單詞在指稱上下文Ci中產(chǎn)生一個(gè)注意力相關(guān)性得分Lb(式(6))。
Lc=softmax(Z)
(5)
Lb=softmax(ZT)
(6)
利用注意相關(guān)矩陣Lc和Lb分別計(jì)算Ci和Bj的注意概率,概率公式如式(7)-式(8)所示。
u(c)=whcHc
(7)
u(b)=whbHb
(8)
式中:Wb,Wc∈Rh×h、whc,whb∈Rh都是參數(shù)矩陣;u(c)∈RK包含指稱上下文Ci中的每個(gè)上下文向量ci的注意力得分;u(b)∈RM包含候選實(shí)體描述Bj的每個(gè)候選實(shí)體描述向量bj的注意力得分。本文在指稱上下文中根據(jù)u(c)選擇得分最高的前R≤K個(gè)單詞作為修剪后的指稱上下文,如式(9)所示,同理,u(b)得分最高的前Z≤M個(gè)單詞組成修剪后的候選實(shí)體描述如式(10)所示。
(9)
(10)
α=softmax(u(c)′)
(11)
β=softmax(u(b)′)
(12)
3.1.2指稱和候選實(shí)體的相關(guān)性
類似于Xue等[8]提出的RRWEL方法,首先計(jì)算出指稱mi與候選實(shí)體ej的相關(guān)性得分φ(mi,ej),φ(mi,ej)被定義為:
φ(mi,ej)=σ(Wlocal·(Ss(mi,ej)⊕Sc(mi,ej)))
(13)
式中:σ(·)是Sigmoid函數(shù);Wlocal是特征向量的權(quán)重;⊕表示融合;Ss(mi,ej)指的是一些統(tǒng)計(jì)特征,包含候選實(shí)體的先驗(yàn)概率、候選實(shí)體和指稱字符串的編輯距離[7];Sc(mi,ej)表示聯(lián)合五個(gè)元素之間的余弦相似度。Sc(mi,ej)計(jì)算式表示為:
(14)
歸一化相關(guān)性得分獲得一個(gè)條件概率P(ej|mi),得到指稱和候選實(shí)體的局部兼容性得分,其計(jì)算式表示為:
(15)
集成實(shí)體鏈接考慮所有指稱-實(shí)體鏈接決策的全局一致性,需要計(jì)算候選實(shí)體之間的語義相關(guān)性以及指稱-實(shí)體匹配對(duì)的全局關(guān)聯(lián)性。
3.2.1候選實(shí)體之間的語義相關(guān)性
候選實(shí)體之間的相關(guān)性得分。其計(jì)算式表示為:
SR(ei→ej)=WLM+SR1
(16)
(17)
式中:WLM表示基于維基百科鏈接的度量;對(duì)于兩個(gè)候選實(shí)體頁面pi=(ti,Bi)和pj=(tj,Bj),使用超鏈接數(shù)來計(jì)算語義相關(guān)性得分;I和J分別是鏈接到KB中pi和pj的所有實(shí)體集合;W是整個(gè)KB中所有的實(shí)體數(shù)量。
同時(shí),基于CNN語義表示獲得它們之間的余弦相似度SR1,考慮到兩個(gè)候選實(shí)體之間的語義相關(guān)性得分依賴于它們相應(yīng)指稱的相對(duì)距離,本文用其實(shí)體的位置嵌入posi補(bǔ)充傳統(tǒng)實(shí)體頁面pi=(ti,Bi)。在這里,按照Vaswani等[28]提出的方法定義指稱mi的嵌入位置posi。SR1的計(jì)算如式(18)所示。
SR1=cos(xei⊕xti+posi,xej⊕xtj+posj)
(18)
3.2.2遞歸隨機(jī)游走
本文構(gòu)建一個(gè)實(shí)體圖G=(V,E),其中:V表示所有的候選實(shí)體,E表示候選實(shí)體之間的邊,包含候選實(shí)體之間的相關(guān)性信息,本文采用式(16)計(jì)算它們之間的相關(guān)性。
接下來,引入了遞歸隨機(jī)游走層來傳播EL證據(jù),目的是有效地捕獲EL決策之間的相互依賴性。隨機(jī)游走是一種隨機(jī)過程,為了實(shí)現(xiàn)遞歸隨機(jī)游走,需要定義一個(gè)歸一化后的轉(zhuǎn)移矩陣A,Aij是從實(shí)體ei轉(zhuǎn)移到實(shí)體ej概率,計(jì)算式表示為:
(19)
式中:Nei表示與實(shí)體ei直接相連的實(shí)體集合。
利用轉(zhuǎn)移矩陣A,式(20)闡述了遞歸隨機(jī)游走的過程。
r(k+1)=(1-λ)Ar(k)+λr(0)=
(1-λ)A(k)·r(0)+λr(0)
(20)
式中:r(k)是第k次迭代時(shí)指稱mi的預(yù)測(cè)實(shí)體分布;k表示迭代次數(shù);λ表示可調(diào)參數(shù),實(shí)驗(yàn)最后選取λ的數(shù)值為0.5;r(0)=P(*|mi)表示僅利用了指稱和候選實(shí)體的局部兼容性。很明顯,對(duì)于k個(gè)隨機(jī)游走層,可以在隨機(jī)游走傳播的基礎(chǔ)上方便地傳播k次證據(jù),經(jīng)過實(shí)驗(yàn)驗(yàn)證之后,k的最佳取值為5。
3.2.3模型訓(xùn)練
為了將EL決策之間的實(shí)體一致性與指稱-候選實(shí)體的上下文局部兼容性結(jié)合起來。本文利用了基于馬爾可夫鏈的隨機(jī)游走過程的收斂性[29]。具體而言,在多輪EL證據(jù)傳播之后,指稱的預(yù)測(cè)實(shí)體分布將趨于收斂。如果不同EL決策之間的相互依賴已經(jīng)很好地嵌入到Att-RRW模型中,那么P(*|mi)≈A(k)P(*|mi)。為了保持指稱mi在第k次EL傳播中的一致性,應(yīng)該使得P(*|mi)≈A(k)P(*|mi)之間的差值最小。本文給出學(xué)習(xí)過程的目標(biāo)函數(shù):
(21)
L=(1-γ)·Lc+
(22)
(23)
在對(duì)模型進(jìn)行訓(xùn)練時(shí),首先使用Lc對(duì)方法進(jìn)行預(yù)訓(xùn)練,然后用L對(duì)模型進(jìn)行微調(diào)。
本文采用多個(gè)流行的數(shù)據(jù)集驗(yàn)證Att-RRW方法的有效性。EL數(shù)據(jù)集特征如表3所示,其中:MN表示指稱的數(shù)量;DN表示文檔的數(shù)量;AMD表示平均每篇文檔中的指稱數(shù)量。
表3 數(shù)據(jù)集特征的具體數(shù)值
(1) AIDA-CoNLL:最大手動(dòng)標(biāo)注的數(shù)據(jù)集之一[16],包含946個(gè)文檔的訓(xùn)練集(AIDA-train)、216個(gè)文檔的驗(yàn)證集(AIDA-A)和231個(gè)文檔的測(cè)試集(AIDA-B)。
(2) MSNBC(MSB):由Guo等[26]清理和更新,包含20個(gè)文檔。
(3) ACE2004:由Guo等[26]清理和更新,包含36個(gè)文檔。
(4) WNED-CWEB(CWEB):從ClueWeb和Wikipedia中自動(dòng)抽取[31],因此不太可靠,數(shù)據(jù)相對(duì)較大,有320個(gè)文檔。
在實(shí)驗(yàn)過程中,為了減少實(shí)驗(yàn)的時(shí)空復(fù)雜度,在每一個(gè)指稱mi的候選實(shí)體集合中,按照Ganea等[10]提出的方法,僅保留7位候選實(shí)體。本文在此基礎(chǔ)之上,對(duì)于每一個(gè)指稱mi,利用式(15)選出得分最高的前4位作為候選實(shí)體。
4.3.1參數(shù)設(shè)置
在實(shí)驗(yàn)中,使用數(shù)據(jù)集AIDA-train進(jìn)行訓(xùn)練,AIDA-A進(jìn)行驗(yàn)證,使用AIDA-B和其他的數(shù)據(jù)集進(jìn)行測(cè)試。使用最新的英文維基百科轉(zhuǎn)儲(chǔ)作為本文引用的KB。
表4展示實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置。在輸入端[5],使用標(biāo)準(zhǔn)Word2vec工具包[27]在維基百科上對(duì)單詞嵌入進(jìn)行預(yù)訓(xùn)練,向量維數(shù)設(shè)置為300、上下文窗口大小為21、負(fù)樣本數(shù)為10、迭代次數(shù)為10。本文首先選取一個(gè)指稱在文檔中的前后各20個(gè)單詞作為指稱上下文,然后根據(jù)式(9)選擇得分最高的10個(gè)單詞作為修剪后的指稱上下文。大多數(shù)候選實(shí)體描述文檔的文本內(nèi)容是不超過200個(gè)單詞的,所以本文首先選取候選實(shí)體描述的前200個(gè)單詞,然后根據(jù)式(10)選取得分最高的前100的單詞作為修剪后的候選實(shí)體描述。為了學(xué)習(xí)輸入指稱和候選實(shí)體的上下文表示,采用窗口大小為3×3的64個(gè)濾波器和ReLU激活函數(shù)的CNN,學(xué)習(xí)指稱和候選實(shí)體的分布式表示。
表4 實(shí)驗(yàn)參數(shù)設(shè)置
4.3.2實(shí)驗(yàn)環(huán)境設(shè)置
本文實(shí)驗(yàn)環(huán)境為:Windows7 64位系統(tǒng),物理內(nèi)存為64 GB,使用獨(dú)立顯卡芯片:NVIDIA GeForce RTX 2080 Ti,顯存容量為11 GB。使用深度學(xué)習(xí)框架Pytorch進(jìn)行實(shí)驗(yàn)代碼編寫。
本文采用F1值對(duì)實(shí)體鏈接結(jié)果進(jìn)行評(píng)價(jià),評(píng)價(jià)標(biāo)準(zhǔn)如式(24)-式(26)所示[32]。
(24)
(25)
(26)
式中:P為實(shí)體鏈接的準(zhǔn)確率;R為實(shí)體鏈接的召回率;DPactual為真實(shí)結(jié)果;DPexpected為實(shí)體鏈接得到的結(jié)果。
4.5.1Att-RRW和相關(guān)工作的對(duì)比實(shí)驗(yàn)
由于在AIDA-CoNLL數(shù)據(jù)集上使用AIDA-train數(shù)據(jù)集進(jìn)行訓(xùn)練,所以,首先在AIDA-B測(cè)試數(shù)據(jù)集上進(jìn)行性能比較,實(shí)驗(yàn)結(jié)果如表5所示。對(duì)比現(xiàn)階段流行的實(shí)體鏈接方法發(fā)現(xiàn),Att-RRW的F1值高于Deep-ED[10]和RWNED[26]的方法,略低于Ment-Norm[25]的方法,他的方法中用到了實(shí)體之間潛在的關(guān)系信息,這種增量信息可以用來提升本文方法。
表5 AIDA-B數(shù)據(jù)集上不同方法的F1值
為了更加全面地驗(yàn)證Att-RRW方法的實(shí)驗(yàn)效果,除了AIDA-CoNLL數(shù)據(jù)集,本文還在另外三個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如表6所示。對(duì)比其他三種實(shí)體鏈接方法,Att-RRW在MSNBC、 ACE2004、CWEB三種數(shù)據(jù)集上都取了最優(yōu)異的效果,平均(Avg)F1值都提高了2百分點(diǎn)左右。其中,MSNBC數(shù)據(jù)集中EL任務(wù)的F1超過95%,比其他方法提升了2百分點(diǎn);針對(duì)ACE2004數(shù)據(jù)集,Att-RRW實(shí)現(xiàn)EL任務(wù)的F1為91.3%,而對(duì)比方法的F1值均低于90%;由于CWEB數(shù)據(jù)集上數(shù)據(jù)相對(duì)較大,含有較大的噪聲,因此在CWEB數(shù)據(jù)集中,Att-RRW的F1值最低,超過了80%,其他方法的F1值均低于80%。表6的實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了Att-RRW方法的有效性和優(yōu)越性。
表6 不同數(shù)據(jù)集上EL不同方法的F1值(%)
表7為一個(gè)案例。noA-local方法表示Att-RRW方法在局部兼容性環(huán)節(jié)計(jì)算單個(gè)指稱和候選實(shí)體的局部相關(guān)性時(shí)刪除協(xié)同注意力機(jī)制,同時(shí)不包含遞歸隨機(jī)游走策略計(jì)算全局相關(guān)性,僅關(guān)注局部相關(guān)性。由于noA-local獲取的特征比較稀疏,所以導(dǎo)致指稱(“chestnut”)鏈接錯(cuò)誤。Att-RRW可以有效地識(shí)別正確的實(shí)體,使正確的鏈接實(shí)體“Equine coat color”比其他候選實(shí)體得到更高的得分。
表7 預(yù)測(cè)實(shí)體分布的例子
基于協(xié)同注意力機(jī)制和遞歸隨機(jī)游走的實(shí)體鏈接方法(Att-RRW)不同于其他方法,不再僅從一個(gè)側(cè)面使用注意力,而是使用指稱上下文和候選實(shí)體描述的協(xié)同注意力,獲得豐富的局部信息,有效地降低指稱上下文和候選實(shí)體描述的內(nèi)容稀疏性。遞歸隨機(jī)游走實(shí)現(xiàn)集成實(shí)體鏈接,利用指稱之間的一致性信息提升了實(shí)體鏈接方法的效果。
4.5.2不同Att-RRW方法對(duì)比實(shí)驗(yàn)
Att-RRW由局部兼容性和集成實(shí)體鏈接兩部分構(gòu)成,局部兼容性為了提高單個(gè)指稱上下文和對(duì)應(yīng)候選實(shí)體的實(shí)體描述之間的局部相關(guān)性,引入?yún)f(xié)同注意力機(jī)制選擇最相關(guān)的單詞計(jì)算局部相關(guān)性;集成實(shí)體鏈接采用遞歸隨機(jī)游走策略提高所有指稱-實(shí)體鏈接對(duì)匹配的全局相關(guān)性,從而實(shí)現(xiàn)所有指稱-實(shí)體鏈接決策的全局一致性。本文進(jìn)一步在AIDA-B、MSNBC、ACE2004和CWEB四種數(shù)據(jù)集中驗(yàn)證協(xié)同注意力機(jī)制和遞歸隨機(jī)游走策略對(duì)Att-RRW實(shí)現(xiàn)EL任務(wù)準(zhǔn)確度的影響,實(shí)驗(yàn)結(jié)果如表8所示。其中,A-local方法與noA-local方法類似,表示不包含遞歸隨機(jī)游走策略的Att-RRW方法,但是在局部兼容性環(huán)節(jié)加入?yún)f(xié)同注意力機(jī)制。
表8 多種數(shù)據(jù)集上Att-RRW不同方法F1值(%)
(1) 協(xié)同注意力機(jī)制的影響。從表8中可知,對(duì)比noA-local和A-local方法,加入了協(xié)同注意力機(jī)制的 A-local方法在多種數(shù)據(jù)集下都提升EL任務(wù)的準(zhǔn)確度。在所有數(shù)據(jù)集上,A-local方法比noA-local方法展現(xiàn)了更優(yōu)的實(shí)驗(yàn)效果,表明聚焦指稱和候選實(shí)體中更為關(guān)鍵的信息的協(xié)同注意力機(jī)制能夠提高實(shí)體鏈接的準(zhǔn)確度,從而說明Att-RRW方法中協(xié)同注意力機(jī)制的有效性和必要性。
(2) 遞歸隨機(jī)游走的影響。對(duì)比A-local和Att-RRW方法,從表8可知,在四個(gè)數(shù)據(jù)集上Att-RRW方法能夠更好地完成實(shí)體鏈接任務(wù),相應(yīng)的F1值均比A-local方法有所提升。相對(duì)A-local局部實(shí)體鏈接方法,Att-RRW方法中遞歸隨機(jī)游走策略將局部兼容性和實(shí)體之間的一致性結(jié)合起來實(shí)現(xiàn)集成消歧,能夠顯著提升實(shí)體鏈接任務(wù)的準(zhǔn)確度,從而驗(yàn)證Att-RRW中加入遞歸隨機(jī)游走策略的有效性和必要性。
綜上所述,本文實(shí)驗(yàn)不僅分析了Att-RRW方法的整體性能,還分析了協(xié)同注意力和遞歸隨機(jī)游走對(duì)于實(shí)驗(yàn)結(jié)果的影響。通過上面的分析可以看出,Att-RRW方法的協(xié)同注意力擴(kuò)大了注意的范圍,聚焦了指稱和候選實(shí)體中更為關(guān)鍵的信息。遞歸隨機(jī)游走實(shí)現(xiàn)了一個(gè)文檔中的所有指稱共同進(jìn)行消歧。協(xié)同注意力和遞歸隨機(jī)游走都對(duì)提升實(shí)驗(yàn)效果有一定的影響。在不同數(shù)據(jù)集上,與多種方法進(jìn)行比較,可以看出Att-RRW總體性能是最優(yōu)的。
為進(jìn)一步提高實(shí)體鏈接的準(zhǔn)確性,本文提出一種基于協(xié)同注意力機(jī)制和遞歸隨機(jī)游走的實(shí)體鏈接方法(Att-RRW)。協(xié)同注意力機(jī)制聚焦了對(duì)實(shí)體鏈接更為關(guān)鍵的信息,遞歸隨機(jī)游走傳遞實(shí)體鏈接的全局信息,增強(qiáng)了實(shí)體鏈接的效果。實(shí)驗(yàn)結(jié)果和深入分析有力地證明了Att-RRW方法的有效性。
Att-RRW方法通常適用于其他類似EL的任務(wù),如詞義消歧、跨語言消歧和詞匯選擇。集成實(shí)體鏈接方法的使用增加了實(shí)體鏈接的復(fù)雜度,未來我們將采用一些優(yōu)化算法,減少方法的復(fù)雜度,同時(shí)充分利用維基百科的其他資源來優(yōu)化Att-RRW中的特征選取。