国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

<fieldset id="cky6e"><table id="cky6e"></table></fieldset>

<del id="cky6e"><dfn id="cky6e"></dfn></del>

<dfn id="cky6e"><table id="cky6e"></table></dfn>

?

基于協(xié)同注意力和遞歸隨機(jī)游走的實(shí)體鏈接方法

2022-09-07 03:20李圣杰史一民

計(jì)算機(jī)應(yīng)用與軟件 2022年8期

關(guān)鍵詞：文檔局部實(shí)體

李圣杰周新史一民

(大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院遼寧大連 116026)

0 引言

語言表達(dá)的歧義性使得同一詞語在不同的上下文中有多種不同的語義，如“華盛頓”可能表示一個(gè)州、一個(gè)人名、一個(gè)大學(xué)名，亦或是一個(gè)湖泊名。實(shí)體鏈接(Entity Linking, EL)則將一個(gè)文檔中的指稱(mention)鏈接到知識(shí)庫(kù)(Knowledge Base, KB)中的相應(yīng)實(shí)體。實(shí)體鏈接為處理語言表達(dá)的歧義性提供了一種解決方案，在互動(dòng)問答[1]、信息抽取[2]和語義搜索[3]等眾多領(lǐng)域發(fā)揮重要作用。然而，在大數(shù)據(jù)時(shí)代，數(shù)據(jù)呈現(xiàn)數(shù)據(jù)量大、表達(dá)多樣性和數(shù)據(jù)價(jià)值密度低等特征導(dǎo)致這項(xiàng)任務(wù)越來越具有挑戰(zhàn)性。實(shí)體鏈接包含三個(gè)子任務(wù)：(1) 指稱探測(cè)，識(shí)別出可能需要被鏈接的文本片段；(2) 候選實(shí)體生成，即為文檔中的每個(gè)指稱在知識(shí)庫(kù)中找到相應(yīng)的一組候選實(shí)體；(3) 實(shí)體消歧，通過計(jì)算指稱和候選實(shí)體之間的得分，依據(jù)得分排序選擇最可能的候選實(shí)體為最終結(jié)果。相比于指稱探測(cè)和候選實(shí)體的生成，實(shí)體消歧任務(wù)更具有挑戰(zhàn)性，因此受到學(xué)者的熱切關(guān)注。依據(jù)實(shí)體鏈接時(shí)僅關(guān)注單個(gè)指稱還是考慮一個(gè)文檔中所有指稱間的語義相關(guān)性，實(shí)體鏈接的方法主要分為單一實(shí)體鏈接和集成實(shí)體鏈接。單一實(shí)體鏈接根據(jù)單個(gè)指稱和候選實(shí)體的相關(guān)性來實(shí)現(xiàn)實(shí)體鏈接。早期實(shí)體鏈接方法多屬于單一實(shí)體鏈接，Nguyen等[4]利用維基百科錨文本等信息計(jì)算指稱和候選實(shí)體的相關(guān)性；Francis-Landau等[5]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)，分別學(xué)習(xí)文本文檔和規(guī)范實(shí)體頁面的表示，計(jì)算指稱和相應(yīng)候選實(shí)體之間的相似度，然后再融合多種特征進(jìn)行實(shí)體鏈接。單一實(shí)體鏈接只利用單個(gè)指稱的相關(guān)信息，忽略了文檔中實(shí)體之間的聯(lián)系，實(shí)體鏈接的準(zhǔn)確性并不是很高。針對(duì)這一不足，研究者提出了集成實(shí)體鏈接方法，Guo等[6]利用重啟隨機(jī)游走算法進(jìn)行集體消歧；Cao等[7]利用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)進(jìn)行集體消歧；Xue等[8]提出RRWEL方法，使用隨機(jī)游走實(shí)現(xiàn)了實(shí)體鏈接決策的一致性。然而，大多數(shù)集成實(shí)體鏈接方法，在嵌入指稱和候選實(shí)體的相關(guān)性信息時(shí)，它們的表示是有限制性的，沒有揭示注意力的焦點(diǎn)，這樣的表示相當(dāng)于“黑匣子”。近幾年來，注意力機(jī)制被廣泛應(yīng)用到實(shí)體鏈接中。Lazic等[9]使用EM算法提取最有區(qū)別的指稱上下文單詞以消除歧義；Ganea等[10]使用基于神經(jīng)網(wǎng)絡(luò)的指稱上下文的注意機(jī)制。然而，這些方法只注意到指稱的上下文，而忽略了注意力機(jī)制的其他方面，如：候選實(shí)體描述的注意。

本文的主要貢獻(xiàn)如下：

(1) 在指稱的上下文和候選實(shí)體的描述中使用協(xié)同注意力，聚焦對(duì)實(shí)體鏈接最有用的單詞，揭示注意力的焦點(diǎn)。

(2) 使用遞歸隨機(jī)游走策略將局部兼容性和實(shí)體之間的一致性結(jié)合起來實(shí)現(xiàn)集成消歧。

1 問題定義

給一個(gè)包含n個(gè)指稱的文檔Di，每一個(gè)指稱mi與知識(shí)庫(kù)KB中的一個(gè)候選實(shí)體集合ε(mi)={e1,e2,…,ek}對(duì)應(yīng)。文檔Di中的所有指稱組成指稱集m(Di)，文檔Di中所有指稱的候選實(shí)體組成候選實(shí)體集合E(Di)。表1給出實(shí)體鏈接的具體符號(hào)含義。形式上，可以將實(shí)體鏈接(Entity Linking,EL)定義為：在給定文檔的指稱集中，目標(biāo)是找到相應(yīng)的實(shí)體分配：

Γ:m(Di)→E(Di)

(1)

示例1文檔“by the use ofwarmbloodhorse … by the use ofdrafthorse and Arabian … is usually bay,chestnut, brown or black in color”有“warmblood”“draft”和“chestnut”三個(gè)指稱。“warmblood”對(duì)應(yīng)的候選實(shí)體集合為{warmblood}；“draft”對(duì)應(yīng)的候選實(shí)體集合為{Draft horse、constriation}；“chestnut”對(duì)應(yīng)的候選實(shí)體集合為{Equine coat color，color}。通過相關(guān)實(shí)體鏈接的計(jì)算，這兩個(gè)指稱應(yīng)該被鏈接到候選實(shí)體“Draft horse”和“Equine coat color”而不是“constriation”和“color”。

表1 實(shí)體鏈接的符號(hào)定義

2 相關(guān)工作

實(shí)體鏈接主要考慮了四種類型的特征(如表2所示)：(1) 先驗(yàn)知識(shí)重要性，實(shí)體的先驗(yàn)知識(shí)重要性或者是指稱和候選實(shí)體之間的先驗(yàn)知識(shí)重要性，在任何一種情況下，得分都是根據(jù)先前的重要性估算的。(2) 上下文相似性，計(jì)算指稱上下文與候選實(shí)體描述之間的文本相似性，指稱和實(shí)體的上下文提供了有利于消歧的附加信息。(3) 指稱和候選實(shí)體的相關(guān)性、實(shí)體的類型和字符串的比較也有助于消歧。(4) 文檔中所有實(shí)體鏈接決策之間的一致性，測(cè)量一對(duì)實(shí)體之間的語義相關(guān)度。

表2 實(shí)體鏈接的特征

根據(jù)對(duì)每個(gè)指稱單獨(dú)進(jìn)行消歧還是一個(gè)文檔中的所有指稱集體進(jìn)行消歧，實(shí)體鏈接的方法主要分為單一實(shí)體鏈接和集成實(shí)體鏈接兩種。前者更高效，后者的準(zhǔn)確率更高。早期實(shí)體鏈接任務(wù)主要利用單一實(shí)體鏈接方法，近年來，集成實(shí)體鏈接方法逐漸成為研究的熱點(diǎn)[21]。

(1) 單一實(shí)體鏈接方法。單一實(shí)體鏈接分別對(duì)每一個(gè)指稱進(jìn)行消歧，并將實(shí)體消歧看作是一個(gè)排序問題，最后選擇得分最高的候選實(shí)體。單一實(shí)體鏈接方法主要使用了四個(gè)特征中的候選實(shí)體和指稱的先驗(yàn)知識(shí)重要性、上下文相似性和指稱-候選實(shí)體的相關(guān)性。傳統(tǒng)單一實(shí)體鏈接方法使用手工定義的特征計(jì)算指稱和候選實(shí)體之間的相似性，通常是基于上下文的統(tǒng)計(jì)和詞匯匹配，例如，指稱和候選實(shí)體之間字符串的相似性、指稱對(duì)應(yīng)各候選實(shí)體的先驗(yàn)概率、知識(shí)庫(kù)中指向候選實(shí)體的鏈接數(shù)等。手工定義的特征只包含淺層的信息。隨著深度神經(jīng)網(wǎng)絡(luò)的興起，發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到更多的抽象特征，彌補(bǔ)了傳統(tǒng)方法的不足。最近的研究大多采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)來獲取實(shí)體更多的潛在語義特征[5,22-23]。單一實(shí)體鏈接方法可以形式化地表示為融合多個(gè)特征的形式：

(2)

式中：fk(ej,mi)可以是上下文無關(guān)或者上下文相關(guān)的特征，λk為相應(yīng)的特征權(quán)重。

單一實(shí)體鏈接方法只考慮到單個(gè)指稱，忽略了指稱之間的關(guān)聯(lián)，因此，研究者提出一種集成實(shí)體鏈接方法，集成實(shí)體鏈接方法考慮到了一個(gè)文檔中所有實(shí)體之間的相關(guān)性。

(2) 集成實(shí)體鏈接方法。有效地消除歧義需要將局部兼容性(包括先驗(yàn)的重要性、上下文相似性和指稱-候選實(shí)體的相關(guān)性)和所有實(shí)體的全局一致性結(jié)合起來，將文檔中的實(shí)體鏈接決策聯(lián)系在一起。集成實(shí)體鏈接方法假設(shè)同一文檔中的指稱共享相似主題，考慮到了一個(gè)文檔中的所有指稱之間的關(guān)系，最大限度地提高整個(gè)文檔中實(shí)體的主題一致性。最常見的方法是建立一個(gè)圖來模擬指稱和實(shí)體之間，實(shí)體和實(shí)體之間的相似性。可以利用圖的一些算法如：PageRank[24]和隨機(jī)游走[8,25]等計(jì)算所有實(shí)體的全局一致性。集成實(shí)體鏈接方法目標(biāo)函數(shù)可表示為：

(3)

式中：φ(mi,ej)為指稱和候選實(shí)體的局部兼容性，如式(2)所示；ψ(Γ)為在文檔中所有實(shí)體之間的一致性函數(shù)；Γ為一種解決方案表示指稱-候選實(shí)體對(duì)的集合。

Deep-ED(Ganea等[10])使用指稱上下文的注意機(jī)制，把深度LBP(循環(huán)置信傳播)方法應(yīng)用到集成實(shí)體鏈接方法中。而本文不僅使用指稱上下文和候選實(shí)體描述的協(xié)同注意力機(jī)制，擴(kuò)大了注意范圍，而且把遞歸隨機(jī)游走應(yīng)用到集成實(shí)體鏈接方法中。Le等[25]在Ganea等[10]的基礎(chǔ)上，增加了隱關(guān)系信息。而本文使用協(xié)同注意力機(jī)制，將遞歸隨機(jī)游走應(yīng)用于全局訓(xùn)練問題中。Guo等[26]提出了一種貪婪的集成命名實(shí)體消歧算法，該算法利用消歧圖上隨機(jī)游走傳播引起的概率分布之間的互信息。該方法未利用注意力機(jī)制，而Att-RRW方法使用了協(xié)同注意力機(jī)制，聚焦對(duì)實(shí)體鏈接最關(guān)鍵的信息。通過上述幾個(gè)對(duì)比方法可以看出，它們?cè)讷@取指稱和候選實(shí)體之間的語義信息時(shí)，沒有揭示注意的焦點(diǎn)，沒有使用或較少使用上下文的注意力，實(shí)體鏈接效果有待提高。Att-RRW方法在用神經(jīng)網(wǎng)絡(luò)獲取指稱和候選實(shí)體之間的語義信息的過程中，加入?yún)f(xié)同注意力機(jī)制，揭示注意力的焦點(diǎn)，修剪掉指稱上下文和候選實(shí)體描述中沒有用的單詞。本文在指稱上下文和候選實(shí)體描述采用了協(xié)同注意力機(jī)制，擴(kuò)大了注意的范圍，并且使用遞歸隨機(jī)游走實(shí)現(xiàn)一個(gè)文檔中的所有指稱共同進(jìn)行消歧，增強(qiáng)了實(shí)體鏈接的效果。

3 Att-RRW方法

Att-RRW由局部兼容性和集成實(shí)體鏈接兩部分構(gòu)成，其架構(gòu)如圖1所示。局部兼容性通過注意力機(jī)制獲取最相關(guān)的指稱上下文和候選實(shí)體描述，然后采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)挖掘指稱和候選實(shí)體的深層語義關(guān)系，計(jì)算單個(gè)指稱和候選實(shí)體的局部相關(guān)性；集成實(shí)體鏈接首先計(jì)算候選實(shí)體之間的語義相關(guān)性，依據(jù)指稱和候選實(shí)體的局部相關(guān)性、所有實(shí)體間的語義相關(guān)性，采用遞歸隨機(jī)游走策略實(shí)現(xiàn)所有實(shí)體鏈接決策的全局一致性。

圖1 Att-RRW方法架構(gòu)

3.1 局部兼容性

3.1.1協(xié)同注意力

指稱上下文和候選實(shí)體描述都包含著大量有關(guān)實(shí)體鏈接的信息，但是指稱上下文和候選實(shí)體描述中每個(gè)單詞對(duì)消歧的影響是不同的。針對(duì)這一現(xiàn)象，本文在指稱上下文和候選實(shí)體描述中引用協(xié)同注意力機(jī)制，揭示了注意力的焦點(diǎn)。從指稱上下文和候選實(shí)體描述中過濾掉沒有用的單詞，選擇相關(guān)性最強(qiáng)的單詞作為修剪后的指稱上下文和候選實(shí)體描述。首先，使用Word2vec[27]進(jìn)行詞的嵌入，每個(gè)詞由h維的向量表示。然后，使用式(4)得出指稱上下文Ci和候選實(shí)體描述Bj的相似性得分。

(4)

式中：Wa∈Rh×h是一個(gè)參數(shù)矩陣。按行歸一化親密度矩陣Z，為指稱上下文Ci的每個(gè)單詞在實(shí)體描述Bj中產(chǎn)生一個(gè)注意力相關(guān)性得分Lc(式(5))。類似地，按列歸一化親密度矩陣Z，為實(shí)體描述Bj的每個(gè)單詞在指稱上下文Ci中產(chǎn)生一個(gè)注意力相關(guān)性得分Lb(式(6))。

Lc=softmax(Z)

(5)

Lb=softmax(ZT)

(6)

利用注意相關(guān)矩陣Lc和Lb分別計(jì)算Ci和Bj的注意概率，概率公式如式(7)-式(8)所示。

u(c)=whcHc

(7)

u(b)=whbHb

(8)

式中：Wb,Wc∈Rh×h、whc,whb∈Rh都是參數(shù)矩陣；u(c)∈RK包含指稱上下文Ci中的每個(gè)上下文向量ci的注意力得分；u(b)∈RM包含候選實(shí)體描述Bj的每個(gè)候選實(shí)體描述向量bj的注意力得分。本文在指稱上下文中根據(jù)u(c)選擇得分最高的前R≤K個(gè)單詞作為修剪后的指稱上下文，如式(9)所示，同理，u(b)得分最高的前Z≤M個(gè)單詞組成修剪后的候選實(shí)體描述如式(10)所示。

(9)

(10)

α=softmax(u(c)′)

(11)

β=softmax(u(b)′)

(12)

3.1.2指稱和候選實(shí)體的相關(guān)性

類似于Xue等[8]提出的RRWEL方法，首先計(jì)算出指稱mi與候選實(shí)體ej的相關(guān)性得分φ(mi,ej)，φ(mi,ej)被定義為:

φ(mi,ej)=σ(Wlocal·(Ss(mi,ej)⊕Sc(mi,ej)))

(13)

式中：σ(·)是Sigmoid函數(shù);Wlocal是特征向量的權(quán)重;⊕表示融合;Ss(mi,ej)指的是一些統(tǒng)計(jì)特征，包含候選實(shí)體的先驗(yàn)概率、候選實(shí)體和指稱字符串的編輯距離[7]；Sc(mi,ej)表示聯(lián)合五個(gè)元素之間的余弦相似度。Sc(mi,ej)計(jì)算式表示為:

(14)

歸一化相關(guān)性得分獲得一個(gè)條件概率P(ej|mi)，得到指稱和候選實(shí)體的局部兼容性得分，其計(jì)算式表示為:

(15)

3.2 集成實(shí)體鏈接

集成實(shí)體鏈接考慮所有指稱-實(shí)體鏈接決策的全局一致性，需要計(jì)算候選實(shí)體之間的語義相關(guān)性以及指稱-實(shí)體匹配對(duì)的全局關(guān)聯(lián)性。

3.2.1候選實(shí)體之間的語義相關(guān)性

候選實(shí)體之間的相關(guān)性得分。其計(jì)算式表示為：

SR(ei→ej)=WLM+SR1

(16)

(17)

式中：WLM表示基于維基百科鏈接的度量；對(duì)于兩個(gè)候選實(shí)體頁面pi=(ti,Bi)和pj=(tj,Bj)，使用超鏈接數(shù)來計(jì)算語義相關(guān)性得分；I和J分別是鏈接到KB中pi和pj的所有實(shí)體集合；W是整個(gè)KB中所有的實(shí)體數(shù)量。

同時(shí)，基于CNN語義表示獲得它們之間的余弦相似度SR1，考慮到兩個(gè)候選實(shí)體之間的語義相關(guān)性得分依賴于它們相應(yīng)指稱的相對(duì)距離，本文用其實(shí)體的位置嵌入posi補(bǔ)充傳統(tǒng)實(shí)體頁面pi=(ti,Bi)。在這里，按照Vaswani等[28]提出的方法定義指稱mi的嵌入位置posi。SR1的計(jì)算如式(18)所示。

SR1=cos(xei⊕xti+posi,xej⊕xtj+posj)

(18)

3.2.2遞歸隨機(jī)游走

本文構(gòu)建一個(gè)實(shí)體圖G=(V，E)，其中：V表示所有的候選實(shí)體，E表示候選實(shí)體之間的邊，包含候選實(shí)體之間的相關(guān)性信息，本文采用式(16)計(jì)算它們之間的相關(guān)性。

接下來，引入了遞歸隨機(jī)游走層來傳播EL證據(jù)，目的是有效地捕獲EL決策之間的相互依賴性。隨機(jī)游走是一種隨機(jī)過程，為了實(shí)現(xiàn)遞歸隨機(jī)游走，需要定義一個(gè)歸一化后的轉(zhuǎn)移矩陣A，Aij是從實(shí)體ei轉(zhuǎn)移到實(shí)體ej概率，計(jì)算式表示為：

(19)

式中：Nei表示與實(shí)體ei直接相連的實(shí)體集合。

利用轉(zhuǎn)移矩陣A，式(20)闡述了遞歸隨機(jī)游走的過程。

r(k+1)=(1-λ)Ar(k)+λr(0)=

(1-λ)A(k)·r(0)+λr(0)

(20)

式中：r(k)是第k次迭代時(shí)指稱mi的預(yù)測(cè)實(shí)體分布；k表示迭代次數(shù)；λ表示可調(diào)參數(shù)，實(shí)驗(yàn)最后選取λ的數(shù)值為0.5；r(0)=P(*|mi)表示僅利用了指稱和候選實(shí)體的局部兼容性。很明顯，對(duì)于k個(gè)隨機(jī)游走層，可以在隨機(jī)游走傳播的基礎(chǔ)上方便地傳播k次證據(jù)，經(jīng)過實(shí)驗(yàn)驗(yàn)證之后，k的最佳取值為5。

3.2.3模型訓(xùn)練

為了將EL決策之間的實(shí)體一致性與指稱-候選實(shí)體的上下文局部兼容性結(jié)合起來。本文利用了基于馬爾可夫鏈的隨機(jī)游走過程的收斂性[29]。具體而言，在多輪EL證據(jù)傳播之后，指稱的預(yù)測(cè)實(shí)體分布將趨于收斂。如果不同EL決策之間的相互依賴已經(jīng)很好地嵌入到Att-RRW模型中，那么P(*|mi)≈A(k)P(*|mi)。為了保持指稱mi在第k次EL傳播中的一致性，應(yīng)該使得P(*|mi)≈A(k)P(*|mi)之間的差值最小。本文給出學(xué)習(xí)過程的目標(biāo)函數(shù)：

(21)

L=(1-γ)·Lc+

(22)

(23)

在對(duì)模型進(jìn)行訓(xùn)練時(shí)，首先使用Lc對(duì)方法進(jìn)行預(yù)訓(xùn)練，然后用L對(duì)模型進(jìn)行微調(diào)。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 數(shù)據(jù)集

本文采用多個(gè)流行的數(shù)據(jù)集驗(yàn)證Att-RRW方法的有效性。EL數(shù)據(jù)集特征如表3所示，其中：MN表示指稱的數(shù)量；DN表示文檔的數(shù)量；AMD表示平均每篇文檔中的指稱數(shù)量。

表3 數(shù)據(jù)集特征的具體數(shù)值

(1) AIDA-CoNLL：最大手動(dòng)標(biāo)注的數(shù)據(jù)集之一[16]，包含946個(gè)文檔的訓(xùn)練集(AIDA-train)、216個(gè)文檔的驗(yàn)證集(AIDA-A)和231個(gè)文檔的測(cè)試集(AIDA-B)。

(2) MSNBC(MSB)：由Guo等[26]清理和更新，包含20個(gè)文檔。

(3) ACE2004：由Guo等[26]清理和更新，包含36個(gè)文檔。

(4) WNED-CWEB(CWEB)：從ClueWeb和Wikipedia中自動(dòng)抽取[31]，因此不太可靠，數(shù)據(jù)相對(duì)較大，有320個(gè)文檔。

4.2 候選實(shí)體的選擇

在實(shí)驗(yàn)過程中，為了減少實(shí)驗(yàn)的時(shí)空復(fù)雜度，在每一個(gè)指稱mi的候選實(shí)體集合中，按照Ganea等[10]提出的方法，僅保留7位候選實(shí)體。本文在此基礎(chǔ)之上，對(duì)于每一個(gè)指稱mi,利用式(15)選出得分最高的前4位作為候選實(shí)體。

4.3 實(shí)驗(yàn)設(shè)置

4.3.1參數(shù)設(shè)置

在實(shí)驗(yàn)中，使用數(shù)據(jù)集AIDA-train進(jìn)行訓(xùn)練，AIDA-A進(jìn)行驗(yàn)證，使用AIDA-B和其他的數(shù)據(jù)集進(jìn)行測(cè)試。使用最新的英文維基百科轉(zhuǎn)儲(chǔ)作為本文引用的KB。

表4展示實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置。在輸入端[5]，使用標(biāo)準(zhǔn)Word2vec工具包[27]在維基百科上對(duì)單詞嵌入進(jìn)行預(yù)訓(xùn)練，向量維數(shù)設(shè)置為300、上下文窗口大小為21、負(fù)樣本數(shù)為10、迭代次數(shù)為10。本文首先選取一個(gè)指稱在文檔中的前后各20個(gè)單詞作為指稱上下文，然后根據(jù)式(9)選擇得分最高的10個(gè)單詞作為修剪后的指稱上下文。大多數(shù)候選實(shí)體描述文檔的文本內(nèi)容是不超過200個(gè)單詞的，所以本文首先選取候選實(shí)體描述的前200個(gè)單詞，然后根據(jù)式(10)選取得分最高的前100的單詞作為修剪后的候選實(shí)體描述。為了學(xué)習(xí)輸入指稱和候選實(shí)體的上下文表示，采用窗口大小為3×3的64個(gè)濾波器和ReLU激活函數(shù)的CNN，學(xué)習(xí)指稱和候選實(shí)體的分布式表示。

表4 實(shí)驗(yàn)參數(shù)設(shè)置

4.3.2實(shí)驗(yàn)環(huán)境設(shè)置

本文實(shí)驗(yàn)環(huán)境為：Windows7 64位系統(tǒng)，物理內(nèi)存為64 GB，使用獨(dú)立顯卡芯片：NVIDIA GeForce RTX 2080 Ti，顯存容量為11 GB。使用深度學(xué)習(xí)框架Pytorch進(jìn)行實(shí)驗(yàn)代碼編寫。

4.4 評(píng)價(jià)指標(biāo)

本文采用F1值對(duì)實(shí)體鏈接結(jié)果進(jìn)行評(píng)價(jià)，評(píng)價(jià)標(biāo)準(zhǔn)如式(24)-式(26)所示[32]。

(24)

(25)

(26)

式中：P為實(shí)體鏈接的準(zhǔn)確率；R為實(shí)體鏈接的召回率；DPactual為真實(shí)結(jié)果；DPexpected為實(shí)體鏈接得到的結(jié)果。

4.5 結(jié)果分析

4.5.1Att-RRW和相關(guān)工作的對(duì)比實(shí)驗(yàn)

由于在AIDA-CoNLL數(shù)據(jù)集上使用AIDA-train數(shù)據(jù)集進(jìn)行訓(xùn)練，所以，首先在AIDA-B測(cè)試數(shù)據(jù)集上進(jìn)行性能比較，實(shí)驗(yàn)結(jié)果如表5所示。對(duì)比現(xiàn)階段流行的實(shí)體鏈接方法發(fā)現(xiàn)，Att-RRW的F1值高于Deep-ED[10]和RWNED[26]的方法，略低于Ment-Norm[25]的方法，他的方法中用到了實(shí)體之間潛在的關(guān)系信息，這種增量信息可以用來提升本文方法。

表5 AIDA-B數(shù)據(jù)集上不同方法的F1值

為了更加全面地驗(yàn)證Att-RRW方法的實(shí)驗(yàn)效果，除了AIDA-CoNLL數(shù)據(jù)集，本文還在另外三個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證，實(shí)驗(yàn)結(jié)果如表6所示。對(duì)比其他三種實(shí)體鏈接方法，Att-RRW在MSNBC、 ACE2004、CWEB三種數(shù)據(jù)集上都取了最優(yōu)異的效果，平均(Avg)F1值都提高了2百分點(diǎn)左右。其中，MSNBC數(shù)據(jù)集中EL任務(wù)的F1超過95%，比其他方法提升了2百分點(diǎn)；針對(duì)ACE2004數(shù)據(jù)集，Att-RRW實(shí)現(xiàn)EL任務(wù)的F1為91.3%，而對(duì)比方法的F1值均低于90%；由于CWEB數(shù)據(jù)集上數(shù)據(jù)相對(duì)較大，含有較大的噪聲，因此在CWEB數(shù)據(jù)集中，Att-RRW的F1值最低，超過了80%，其他方法的F1值均低于80%。表6的實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了Att-RRW方法的有效性和優(yōu)越性。

表6 不同數(shù)據(jù)集上EL不同方法的F1值(%)

表7為一個(gè)案例。noA-local方法表示Att-RRW方法在局部兼容性環(huán)節(jié)計(jì)算單個(gè)指稱和候選實(shí)體的局部相關(guān)性時(shí)刪除協(xié)同注意力機(jī)制，同時(shí)不包含遞歸隨機(jī)游走策略計(jì)算全局相關(guān)性，僅關(guān)注局部相關(guān)性。由于noA-local獲取的特征比較稀疏，所以導(dǎo)致指稱(“chestnut”)鏈接錯(cuò)誤。Att-RRW可以有效地識(shí)別正確的實(shí)體，使正確的鏈接實(shí)體“Equine coat color”比其他候選實(shí)體得到更高的得分。

表7 預(yù)測(cè)實(shí)體分布的例子

基于協(xié)同注意力機(jī)制和遞歸隨機(jī)游走的實(shí)體鏈接方法(Att-RRW)不同于其他方法，不再僅從一個(gè)側(cè)面使用注意力，而是使用指稱上下文和候選實(shí)體描述的協(xié)同注意力，獲得豐富的局部信息，有效地降低指稱上下文和候選實(shí)體描述的內(nèi)容稀疏性。遞歸隨機(jī)游走實(shí)現(xiàn)集成實(shí)體鏈接，利用指稱之間的一致性信息提升了實(shí)體鏈接方法的效果。

4.5.2不同Att-RRW方法對(duì)比實(shí)驗(yàn)

Att-RRW由局部兼容性和集成實(shí)體鏈接兩部分構(gòu)成，局部兼容性為了提高單個(gè)指稱上下文和對(duì)應(yīng)候選實(shí)體的實(shí)體描述之間的局部相關(guān)性，引入?yún)f(xié)同注意力機(jī)制選擇最相關(guān)的單詞計(jì)算局部相關(guān)性；集成實(shí)體鏈接采用遞歸隨機(jī)游走策略提高所有指稱-實(shí)體鏈接對(duì)匹配的全局相關(guān)性，從而實(shí)現(xiàn)所有指稱-實(shí)體鏈接決策的全局一致性。本文進(jìn)一步在AIDA-B、MSNBC、ACE2004和CWEB四種數(shù)據(jù)集中驗(yàn)證協(xié)同注意力機(jī)制和遞歸隨機(jī)游走策略對(duì)Att-RRW實(shí)現(xiàn)EL任務(wù)準(zhǔn)確度的影響，實(shí)驗(yàn)結(jié)果如表8所示。其中，A-local方法與noA-local方法類似，表示不包含遞歸隨機(jī)游走策略的Att-RRW方法，但是在局部兼容性環(huán)節(jié)加入?yún)f(xié)同注意力機(jī)制。

表8 多種數(shù)據(jù)集上Att-RRW不同方法F1值(%)

(1) 協(xié)同注意力機(jī)制的影響。從表8中可知，對(duì)比noA-local和A-local方法，加入了協(xié)同注意力機(jī)制的 A-local方法在多種數(shù)據(jù)集下都提升EL任務(wù)的準(zhǔn)確度。在所有數(shù)據(jù)集上，A-local方法比noA-local方法展現(xiàn)了更優(yōu)的實(shí)驗(yàn)效果，表明聚焦指稱和候選實(shí)體中更為關(guān)鍵的信息的協(xié)同注意力機(jī)制能夠提高實(shí)體鏈接的準(zhǔn)確度，從而說明Att-RRW方法中協(xié)同注意力機(jī)制的有效性和必要性。

(2) 遞歸隨機(jī)游走的影響。對(duì)比A-local和Att-RRW方法，從表8可知，在四個(gè)數(shù)據(jù)集上Att-RRW方法能夠更好地完成實(shí)體鏈接任務(wù)，相應(yīng)的F1值均比A-local方法有所提升。相對(duì)A-local局部實(shí)體鏈接方法，Att-RRW方法中遞歸隨機(jī)游走策略將局部兼容性和實(shí)體之間的一致性結(jié)合起來實(shí)現(xiàn)集成消歧，能夠顯著提升實(shí)體鏈接任務(wù)的準(zhǔn)確度，從而驗(yàn)證Att-RRW中加入遞歸隨機(jī)游走策略的有效性和必要性。

綜上所述,本文實(shí)驗(yàn)不僅分析了Att-RRW方法的整體性能，還分析了協(xié)同注意力和遞歸隨機(jī)游走對(duì)于實(shí)驗(yàn)結(jié)果的影響。通過上面的分析可以看出，Att-RRW方法的協(xié)同注意力擴(kuò)大了注意的范圍，聚焦了指稱和候選實(shí)體中更為關(guān)鍵的信息。遞歸隨機(jī)游走實(shí)現(xiàn)了一個(gè)文檔中的所有指稱共同進(jìn)行消歧。協(xié)同注意力和遞歸隨機(jī)游走都對(duì)提升實(shí)驗(yàn)效果有一定的影響。在不同數(shù)據(jù)集上，與多種方法進(jìn)行比較，可以看出Att-RRW總體性能是最優(yōu)的。

5 結(jié) 語

為進(jìn)一步提高實(shí)體鏈接的準(zhǔn)確性，本文提出一種基于協(xié)同注意力機(jī)制和遞歸隨機(jī)游走的實(shí)體鏈接方法(Att-RRW)。協(xié)同注意力機(jī)制聚焦了對(duì)實(shí)體鏈接更為關(guān)鍵的信息，遞歸隨機(jī)游走傳遞實(shí)體鏈接的全局信息，增強(qiáng)了實(shí)體鏈接的效果。實(shí)驗(yàn)結(jié)果和深入分析有力地證明了Att-RRW方法的有效性。

Att-RRW方法通常適用于其他類似EL的任務(wù)，如詞義消歧、跨語言消歧和詞匯選擇。集成實(shí)體鏈接方法的使用增加了實(shí)體鏈接的復(fù)雜度，未來我們將采用一些優(yōu)化算法，減少方法的復(fù)雜度，同時(shí)充分利用維基百科的其他資源來優(yōu)化Att-RRW中的特征選取。

猜你喜歡

文檔局部實(shí)體

基于ColBert-EL 和MRC 模型的零樣本實(shí)體鏈接

智能計(jì)算機(jī)與應(yīng)用(2022年6期)2022-06-23

淺談Matlab與Word文檔的應(yīng)用接口

客聯(lián)(2022年3期)2022-05-31

日常的神性：局部（隨筆）

山花(2022年5期)2022-05-12

有人一聲不吭向你扔了個(gè)文檔

中國(guó)新聞周刊(2021年26期)2021-07-27

輕松編輯PDF文檔

電腦愛好者(2021年9期)2021-05-12

凡·高《夜晚露天咖啡座》局部[荷蘭]

散文詩(shī)(2020年1期)2020-07-20

實(shí)體書店步入復(fù)興期？

當(dāng)代陜西(2019年5期)2019-03-21

2017實(shí)體經(jīng)濟(jì)領(lǐng)軍者

21世紀(jì)商業(yè)評(píng)論(2018年3期)2018-03-02

Word文檔高效分合有高招

電腦愛好者(2017年7期)2017-05-06

丁學(xué)軍作品

東方藝術(shù)·國(guó)畫(2016年3期)2017-02-08

計(jì)算機(jī)應(yīng)用與軟件2022年8期

計(jì)算機(jī)應(yīng)用與軟件的其它文章: 基于非線性干擾觀測(cè)器的二階欠驅(qū)動(dòng)系統(tǒng)軌跡跟蹤控制; 結(jié)合模糊熵和學(xué)習(xí)率自適應(yīng)的GMM目標(biāo)檢測(cè)算法; 基于模擬退火與網(wǎng)絡(luò)單純形法的通信網(wǎng)絡(luò)中設(shè)施選址優(yōu)化算法; 提高智能電網(wǎng)暫態(tài)穩(wěn)定裕度的控制研究; 投稿須知; 一種基于局部模型對(duì)齊的動(dòng)態(tài)視頻修復(fù)方法

<ul id="0c20c"></ul>

<fieldset id="0c20c"><menu id="0c20c"></menu></fieldset>

<ul id="0c20c"></ul>