基于多粒度雙向注意力機(jī)制的詞義消歧深度學(xué)習(xí)方法

2022-12-03 01:56初鈺?shū)P趙麗華

計(jì)算機(jī)應(yīng)用與軟件 2022年11期

初鈺?shū)P 張俊趙麗華

(大連海事大學(xué)信息科學(xué)與技術(shù)學(xué)院遼寧大連 116026)

0 引言

詞義消歧(Word Sense Disambiguation,WSD)是自然語(yǔ)言處理中的基本任務(wù)，也是長(zhǎng)期存在的挑戰(zhàn)，有著廣泛的應(yīng)用。目前的詞義消歧方法主要可以分為基于知識(shí)的方法和基于監(jiān)督的方法?；谥R(shí)的方法主要依賴于知識(shí)庫(kù)的結(jié)構(gòu)和內(nèi)容，例如，詞義定義和語(yǔ)義網(wǎng)絡(luò)，它們提供了兩種詞義之間的關(guān)系和相似性。

基于監(jiān)督的方法通常根據(jù)其使用的特征可分為兩類，使用周圍單詞嵌入、PoS標(biāo)簽嵌入等常規(guī)特征的基于特征的監(jiān)督方法和使用Bi-LSTM等神經(jīng)網(wǎng)絡(luò)編碼器來(lái)提取特征的基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督方法[1]。雖然已有的基于監(jiān)督的詞義消歧方法在大規(guī)模訓(xùn)練語(yǔ)料的情況下實(shí)現(xiàn)了較好的詞義消歧性能，但還是存在一些問(wèn)題。

首先，基于監(jiān)督的方法通常對(duì)于每個(gè)單詞訓(xùn)練專門的分類器，這使得很難將其擴(kuò)展到需要消除文本中所有多義詞的全詞詞義消歧任務(wù)，即當(dāng)文本中存在N個(gè)多義詞時(shí)，需要訓(xùn)練N個(gè)分類器[2]。最近的基于神經(jīng)網(wǎng)絡(luò)的方法通過(guò)為所有多義詞構(gòu)建統(tǒng)一模型來(lái)解決此問(wèn)題[3]。其次，神經(jīng)網(wǎng)絡(luò)的方法總是僅考慮歧義詞的局部上下文的作用，忽視了WordNet中包含的詞義定義等詞匯資源。對(duì)于詞義定義資源，在Lesk算法及其變體中因起到擴(kuò)充詞義含義的作用而得到廣泛應(yīng)用[4]。

此前，基于神經(jīng)網(wǎng)絡(luò)的詞義消歧方法總是對(duì)于上下文語(yǔ)境使用一位有效編碼(One-hot encoding)獲取詞級(jí)向量表示或者使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)獲取句子級(jí)向量表示，并沒(méi)有考慮獲取字符級(jí)的向量作用。在引入詞義定義的詞匯資源后，總是單獨(dú)構(gòu)建上下文語(yǔ)境和詞義定義的向量表示，沒(méi)有很好地構(gòu)建兩者之間的交互作用。在此基礎(chǔ)上，本文提出分別整合歧義詞上下文語(yǔ)境和詞義定義的字符級(jí)和詞級(jí)向量表示，構(gòu)建句子級(jí)上下文向量表示，然后在雙向注意力模型中鏈接和融合上下文語(yǔ)境和詞義定義的句子級(jí)上下文向量信息。

本文提出采用不同粒度對(duì)歧義詞上下文語(yǔ)境和詞義定義的表示建模；提出運(yùn)用雙向注意力機(jī)制整合詞義定義的神經(jīng)網(wǎng)絡(luò)詞義消歧方法，以便更好地構(gòu)建歧義詞語(yǔ)境和詞義定義之間的相互表示作用。實(shí)驗(yàn)驗(yàn)證模型在SemEval-13：task #12和SemEval-15：task #13的全詞詞義消歧的數(shù)據(jù)集上達(dá)到很好的消歧效果。

1 相關(guān)工作

詞義消歧的定義可描述為：假設(shè)歧義詞w在詞典中有N個(gè)義項(xiàng)，則將包含w所有詞義定義的集合記為S(w)={s1,s2,…,si,…,sN}。設(shè)該歧義詞w所處的特定上下文語(yǔ)境為C(w)={c1,c2,…,cj,…,cn}，其中：n為上下文特征的個(gè)數(shù)；cj表示某個(gè)上下文特征。在詞義集合S(w)中有且僅有一個(gè)詞義si是w在確定的上下文C(w)中表達(dá)的真實(shí)詞義。詞義消歧就是從歧義詞w的詞義集合S(w)中找到真實(shí)詞義si的工作。詞義消歧任務(wù)可表達(dá)為將上下文語(yǔ)境中的歧義詞與預(yù)定義的詞庫(kù)中的最合適的條目相關(guān)聯(lián)[5]。根據(jù)其特性，詞義消歧方法主要可分為兩類：基于知識(shí)的方法和基于監(jiān)督的方法。

基于知識(shí)的詞義消歧方法主要是利用兩種多義詞的知識(shí)。第一種是利用在文獻(xiàn)[4]及其變體中的詞義定義知識(shí)——注釋，通過(guò)計(jì)算歧義詞的上下文語(yǔ)境和詞庫(kù)中的詞義定義之間的重疊或分布相似性關(guān)系。另一種是在文獻(xiàn)[6]中廣泛運(yùn)用的基于圖的算法，其中：節(jié)點(diǎn)是同義詞集；邊是語(yǔ)義關(guān)系——語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)。首先創(chuàng)建輸入文本的圖表示，然后在給定表示上利用不同的基于圖的算法執(zhí)行詞義消歧?；谥R(shí)方法的優(yōu)點(diǎn)是不需要大規(guī)模的訓(xùn)練語(yǔ)料，但存在難以適應(yīng)語(yǔ)言動(dòng)態(tài)變化和缺乏完備性等缺點(diǎn)[5]。

基于監(jiān)督的詞義消歧方法通常將每個(gè)歧義詞作為單獨(dú)的分類問(wèn)題，基于人工標(biāo)注的特征訓(xùn)練分類器。盡管基于監(jiān)督的方法能夠在準(zhǔn)確度上實(shí)現(xiàn)較好的性能，但是對(duì)于全詞的詞義消歧而言，在靈活性上比較差。為了解決這個(gè)問(wèn)題，最近的基于神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建統(tǒng)一的分類器，該分類器在所有的多義詞之間共享參數(shù)[3]。文獻(xiàn)[7]利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，在所有的多義詞之間共享參數(shù)，通過(guò)端到端的訓(xùn)練來(lái)充分利用單詞順序。文獻(xiàn)[8]將詞義消歧問(wèn)題轉(zhuǎn)化為神經(jīng)序列標(biāo)簽任務(wù)，提出一系列端到端的神經(jīng)網(wǎng)絡(luò)，從雙向長(zhǎng)短時(shí)記憶模型到編碼解碼模型。

對(duì)于監(jiān)督的方法和基于神經(jīng)網(wǎng)絡(luò)的方法，很少考慮WordNet等詞匯資源。有許多任務(wù)顯示出整合知識(shí)和標(biāo)簽數(shù)據(jù)到統(tǒng)一的系統(tǒng)中能實(shí)現(xiàn)比單獨(dú)從大量標(biāo)簽數(shù)據(jù)中學(xué)習(xí)的方法獲得更好的性能，如漢語(yǔ)分詞、語(yǔ)言建模和LSTMs任務(wù)。文獻(xiàn)[2]通過(guò)記憶網(wǎng)絡(luò)將目標(biāo)詞的語(yǔ)境和詞義定義整合到一個(gè)統(tǒng)一的框架中，分別對(duì)目標(biāo)詞的語(yǔ)境和詞義定義進(jìn)行編碼，然后在記憶模型中對(duì)語(yǔ)境向量和詞義定義向量之間的語(yǔ)義關(guān)系進(jìn)行建模。除此之外，還提出利用語(yǔ)義關(guān)系擴(kuò)展詞義定義以便更好推導(dǎo)上下文。文獻(xiàn)[8]研究表明，WordNet中的粗粒度語(yǔ)義標(biāo)簽可以在多任務(wù)學(xué)習(xí)框架中幫助詞義消歧。文獻(xiàn)[9]通過(guò)使用WordNet中的約束和語(yǔ)義關(guān)系將單詞嵌入擴(kuò)展到語(yǔ)義嵌入，當(dāng)使用語(yǔ)義嵌入作為SVM分類器的詞義消歧功能時(shí)，它們可將性能提高1%以上。以上列出的所有研究表明，將詞匯資源整合到WSD的監(jiān)督系統(tǒng)中可以顯著提高性能。而且，已經(jīng)有一些研究探索了使用諸如詞義定義等知識(shí)資源來(lái)增強(qiáng)監(jiān)督詞義消歧的方法，并取得了很好的效果。因此，本文遵循這個(gè)方向，尋求一種更好地整合詞義定義知識(shí)資源的詞義消歧方法。

此外，之前的基于神經(jīng)網(wǎng)絡(luò)的方法通常分別利用One-hot或RNN構(gòu)建歧義詞上下文語(yǔ)境詞級(jí)和句子級(jí)向量表示，并沒(méi)有考慮利用CNN構(gòu)建字符級(jí)向量表示的作用。文獻(xiàn)[10-11]研究表明，在構(gòu)建文本向量表示時(shí)，字符級(jí)的局部向量表示對(duì)于提高閱讀理解能力和問(wèn)題回答準(zhǔn)確性起到重要作用。

本文關(guān)注如何構(gòu)建不同粒度的上下文語(yǔ)境和詞義定義的文本表示，通過(guò)高速網(wǎng)絡(luò)(Highway Network[12])將不同粒度的表示級(jí)聯(lián)，并運(yùn)用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(LSTM[13])構(gòu)建上下文的向量表示。采用在問(wèn)答等自然語(yǔ)言處理領(lǐng)域取得巨大進(jìn)展的雙向注意力機(jī)制，構(gòu)建上下文語(yǔ)境和詞義定義之間的交互作用[14-16]。在雙向注意力模型上做了適當(dāng)?shù)恼{(diào)整，以便更好地獲取上下文語(yǔ)境和詞義定義之間的內(nèi)部關(guān)系。

2 多粒度雙向注意力詞義消歧模型

首先定義所提的多粒度雙向注意力詞義消歧模型的整體概述，模型主要包括5層(如圖1所示)，然后分別對(duì)每一層進(jìn)行描述。

圖1 多粒度雙向注意力詞義消歧模型

2.1 模型綜述

模型由字符嵌入層、詞嵌入層、上下文嵌入層、雙向注意力層和輸出層構(gòu)成。字符嵌入層主要是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)，把每個(gè)詞映射到向量空間；詞嵌入層通過(guò)預(yù)訓(xùn)練的詞嵌入模型(GloVe)，將每個(gè)詞映射到向量空間；上下文嵌入層運(yùn)用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(Bi-LSTM)構(gòu)建上下文向量表示。對(duì)于歧義詞的上下文語(yǔ)境和詞義定義的句子分別運(yùn)用字符嵌入層、詞嵌入層和上下文嵌入層獲取向量表示。雙向注意力機(jī)制層主要是結(jié)合歧義詞的語(yǔ)境和詞義定義，生成對(duì)于歧義詞語(yǔ)境中每個(gè)單詞的一組詞義定義的向量表示和對(duì)于歧義詞詞義定義中每個(gè)單詞的一組語(yǔ)境的向量表示，構(gòu)建兩者之間的交互關(guān)系。輸出層計(jì)算歧義詞所有詞義的分?jǐn)?shù)，并最終輸出歧義詞的所有詞義的概率分布。

2.2 多粒度嵌入

令{c1,c2,…,cn}和{x1,x2,…,xm}分別表示歧義詞上下文語(yǔ)境和詞義定義中的單詞序列，其中，n和m分別表示上下文語(yǔ)境和詞義定義序列的最大長(zhǎng)度。

(1) 詞嵌入層：負(fù)責(zé)將每個(gè)單詞映射到高維的向量空間。使用預(yù)訓(xùn)練的單詞向量模型GloVe來(lái)獲取每個(gè)單詞的固定向量，表示成d1維度。對(duì)于不在預(yù)訓(xùn)練中的單詞(Out-Of-Vocabulary,OOV)，被映射為標(biāo)記，其向量表示為訓(xùn)練的隨機(jī)初始化。

(2) 字符嵌入層：負(fù)責(zé)將每個(gè)單詞映射到高維的向量空間。GloVe通過(guò)分配一些隨機(jī)向量值來(lái)處理OOV詞，而隨機(jī)分配最終會(huì)影響整個(gè)模型的效果。所以對(duì)于GLoVe中不存在的詞，使用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)獲得每個(gè)單詞的字符級(jí)嵌入，每個(gè)字符都表示成d2維度的可訓(xùn)練向量，維度表示輸入通道的大小(卷積濾波器的數(shù)量)。按字符滑動(dòng)掃描單詞，經(jīng)過(guò)卷積和最大池化操作，選擇每一行的最大值，以獲得每個(gè)單詞的固定大小為d2維的向量表示。

(3) 對(duì)于字符嵌入向量和詞嵌入向量進(jìn)行級(jí)聯(lián)，得到維度為d=d1+d2的級(jí)聯(lián)向量表示，然后矩陣被傳遞到兩層的高速網(wǎng)絡(luò)中，得到兩個(gè)維度相同的矩陣表示：對(duì)于歧義詞的上下文語(yǔ)境有C′∈Rd×n，歧義詞的詞義定義有S′∈Rd×m。上下文嵌入層：?jiǎn)卧~級(jí)的向量表示并沒(méi)有考慮上下文的含義，所以在前兩層提供的級(jí)聯(lián)嵌入向量表示之上，通過(guò)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型級(jí)聯(lián)前向和后向的雙向文本狀態(tài)信息。從而得到歧義詞上下文語(yǔ)境表示C∈R2d×n，歧義詞的詞義定義表示S∈R2d×m。

模型的前三層是從歧義詞的上下文語(yǔ)境和詞義定義中計(jì)算不同粒度級(jí)別的向量表示，類似于計(jì)算機(jī)視覺(jué)領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)的多階段特征計(jì)算。

2.3 雙向注意力機(jī)制

不同于之前的注意力機(jī)制(Attention)表示，采用在自然語(yǔ)言處理問(wèn)題中，證明能很好地構(gòu)建不同文本之間的交互表示的雙向注意力機(jī)制。對(duì)于在自然語(yǔ)言處理和計(jì)算領(lǐng)域廣泛應(yīng)用的Attention，只是將不同的文本單獨(dú)構(gòu)建分布式向量表示，然后計(jì)算文本之間的相似性或者相關(guān)性，不能充分利用不同文本之間的交互作用。

雙向注意力機(jī)制層如圖2所示。

圖2 雙向注意力機(jī)制

輸入為上下文嵌入層獲得的歧義詞上下文語(yǔ)境表示C和詞義定義表示S，輸出為N對(duì)(詞義定義的數(shù)量)雙向注意力表示的歧義詞上下文語(yǔ)境和詞義定義向量表示。雙向注意力機(jī)制表示從兩個(gè)方向上計(jì)算注意力，上下文語(yǔ)境到詞義定義(Context-to-Sense definition)的注意力向量表示和詞義定義到上下文語(yǔ)境(Sense definition-to-Context)的注意力向量表示。

首先，需要計(jì)算一個(gè)相似性矩陣A∈Rn×m，Aij表示的是上下文語(yǔ)境的第i個(gè)詞和詞義定義的第j個(gè)詞之間的相似性，相似性的計(jì)算公式表示為:

Aij=α(C:i,S:j)∈R

(1)

式中：α表示的是可訓(xùn)練的標(biāo)量函數(shù)，用于編碼兩個(gè)輸入向量之間的相似性；C:i表示C的第i列；S:j表示S的第j列。α函數(shù)的表達(dá)式為：

α(c,s)=(W(A))T[c;s;c°s]

(2)

式中：W(A)∈R6d，是一個(gè)可訓(xùn)練的權(quán)重向量；°表示逐元素相乘(矩陣相乘)；[;]表示跨行級(jí)聯(lián)運(yùn)算?；谙嗨菩跃仃嘇來(lái)獲取兩個(gè)方向上的注意力矩陣，分別為上下文語(yǔ)境到詞義定義的注意力矩陣As∈Rm×n和詞義定義到上下文語(yǔ)境的注意力矩陣Ac∈Rn×m。

Sense definition-to-Context(S2C)注意力，表示對(duì)于歧義詞的每個(gè)詞義定義詞而言哪個(gè)語(yǔ)境詞最相關(guān)。由于相似性矩陣A的第j列表示每個(gè)語(yǔ)境詞和第j個(gè)詞義定義詞之間的相似性，所以可利用跨A列的Softmax函數(shù)來(lái)獲得每個(gè)語(yǔ)境詞的注意力權(quán)重，其計(jì)算式為：

C′:C′=CAc∈R2d×m

(4)

式中：C′的第j列表示根據(jù)詞義定義的第j列獲得的語(yǔ)境表示。最終，通過(guò)計(jì)算C′列之和求得語(yǔ)境向量，其計(jì)算式為:

Context-to-Sense definition(C2S)注意力，表示對(duì)于歧義詞的每個(gè)語(yǔ)境詞而言哪個(gè)詞義定義詞最相關(guān)。由于相似性矩陣A的第i行表示第i個(gè)語(yǔ)境詞和每個(gè)詞義定義詞之間的相似性，所以可利用跨A行的Softmax函數(shù)來(lái)獲得每個(gè)詞義定義詞的注意力權(quán)重。由于矩陣存在轉(zhuǎn)置特性，A的行等于AT的列，所以其計(jì)算式可以表示為:

S′:S′=SAs∈R2d×n

(7)

式中：S′的第j列表示根據(jù)語(yǔ)境的第j列獲得詞義定義的表示。最終，通過(guò)計(jì)算S′列之和求得詞義定義向量，其計(jì)算式為:

最后，采用余弦相似度來(lái)計(jì)算歧義詞上下文語(yǔ)境和每個(gè)詞義定義之間交互關(guān)系的相似度，其計(jì)算式為:

式中：i表示第i個(gè)詞義定義；ci表示由第i個(gè)詞義定義獲得的詞義定義到上下文語(yǔ)境的向量c;si表示由第i個(gè)詞義定義獲得的上下文語(yǔ)境到詞義定義的向量。對(duì)于歧義詞上下文語(yǔ)境的向量表示，采用N個(gè)詞義定義到上下文語(yǔ)境向量的平均值，其計(jì)算式為:

2.4 輸出層

輸出層主要是計(jì)算歧義詞w的N個(gè)詞義定義的分?jǐn)?shù)，并輸出N個(gè)詞義定義的詞義概率分布。每個(gè)詞義的分?jǐn)?shù)是由兩個(gè)值的權(quán)重和求得：scores和scorec。scores表示歧義詞的上下文語(yǔ)境和詞義定義之間的相似度分?jǐn)?shù)，主要體現(xiàn)在詞義消歧中引入詞典中詞義定義的作用，其計(jì)算式為：

scores=[β1,β2,…,βN]

(11)

而scorec表示歧義詞的上下文語(yǔ)境向量分?jǐn)?shù)，是通過(guò)一個(gè)線性映射層計(jì)算的，主要體現(xiàn)廣泛應(yīng)用的歧義詞上下文語(yǔ)境標(biāo)簽數(shù)據(jù)的作用，其計(jì)算式為：

式中：Ww為權(quán)重參數(shù)；bw為偏置項(xiàng)。

最終歧義詞的所有詞義概率分布計(jì)算式為：

y′=softmax(λwscores+(1-λw)scorec)

(13)

式中：λw∈[0,1]是歧義詞w的參數(shù)。

在訓(xùn)練的過(guò)程中，所有的模型參數(shù)通過(guò)最小化y′和真實(shí)標(biāo)簽y之間的交叉熵?fù)p失聯(lián)合學(xué)習(xí)獲得。損失函數(shù)表示為:

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集

選擇SemCor 3.0作為訓(xùn)練集，是通過(guò)WordNet詞典手工標(biāo)注的最大的詞義消歧語(yǔ)料庫(kù)。它由352篇文檔的226 036個(gè)詞義標(biāo)注組成，包含名詞、動(dòng)詞、形容詞和副詞。采用公開(kāi)評(píng)測(cè)的英語(yǔ)全詞詞義消歧數(shù)據(jù)集(English all-words WSD)，把SemEval-07：task #17(SE7)作為驗(yàn)證集，SemEval-13：task #12(SE13)和SemEval-15：task #13(SE15)作為測(cè)試集。其中：SemEval-07：task #17僅包含名詞和動(dòng)詞，由455個(gè)詞義標(biāo)注構(gòu)成；SemEval-13：task #12僅包含名詞，由來(lái)自各個(gè)領(lǐng)域的13篇文檔的1 644個(gè)詞義標(biāo)注構(gòu)成；SemEval-15：task #13包括名詞、動(dòng)詞、形容詞和副詞，由來(lái)自三個(gè)異構(gòu)領(lǐng)域的1 022個(gè)詞義標(biāo)注構(gòu)成。表1顯示了訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)。

表1 WSD數(shù)據(jù)集統(tǒng)計(jì)

3.2 實(shí)驗(yàn)設(shè)置

運(yùn)用驗(yàn)證集SE7來(lái)設(shè)置模型的最佳參數(shù)：詞嵌入大小d1、字符嵌入大小d2、LSTM的隱藏層大小n、優(yōu)化參數(shù)和初始化函數(shù)等。由于SE7僅存在名詞和動(dòng)詞而沒(méi)有形容詞和副詞，所以選擇從訓(xùn)練數(shù)據(jù)集中隨機(jī)抽取一些副詞和形容詞到SE7中進(jìn)行驗(yàn)證。使用的卷積輸入通道的大小為200，截?cái)嗷蛘咛畛涞拇笮?6，預(yù)訓(xùn)練詞嵌入的維度為300，并保證這些參數(shù)在訓(xùn)練過(guò)程中固定大小。隱藏狀態(tài)大小n是256，最小批量大小設(shè)置為32。在訓(xùn)練的過(guò)程中，選擇Adam優(yōu)化器，初始學(xué)習(xí)率為0.001。為了避免過(guò)度擬合，在LSTM的輸出上使用丟棄正則化(Dropout Regularization)，并將丟棄率設(shè)置為0.5。正交初始化用于在LSTM中初始化權(quán)重，而對(duì)于其他操作使用[-0.1，0.1]的隨機(jī)均勻初始化。如果驗(yàn)證損失在最后5個(gè)周期(epochs)內(nèi)沒(méi)有改善，則提前停止，訓(xùn)練運(yùn)行最多進(jìn)行50個(gè)周期。

3.3 結(jié)果分析

這一部分首先給出詞義消歧的實(shí)例結(jié)果分析，然后給出不同的詞義消歧模型在英語(yǔ)全詞任務(wù)中的實(shí)驗(yàn)結(jié)果。

對(duì)于本文的詞義消歧模型，在SemEval-13：task #12(SE13)和SemEval-15：task #13(SE15)數(shù)據(jù)集中分別隨機(jī)選取部分多義詞進(jìn)行準(zhǔn)確度判斷，統(tǒng)計(jì)的結(jié)果如表2、表3所示。在表3中的詞義定義列中顯示的符號(hào)表示為名詞(n)、動(dòng)詞(v)、形容詞(adj)和副詞(adv)。

表2 SE13名詞詞義消歧結(jié)果

表3 SE15全詞詞義消歧結(jié)果

可以看出，本文所提出的詞義消歧模型對(duì)于多義詞的詞義判斷有較高的準(zhǔn)確度。

對(duì)于英語(yǔ)全詞詞義消歧的方法，主要包括：基準(zhǔn)方法、基于知識(shí)的方法、基于監(jiān)督的方法和基于神經(jīng)網(wǎng)絡(luò)的方法及整合詞義定義等詞匯資源的神經(jīng)網(wǎng)絡(luò)方法，如表4所示。

表4 英語(yǔ)全詞詞義消歧測(cè)試結(jié)果

表4中，所有的實(shí)驗(yàn)都是在SemCor 3.0上訓(xùn)練的。序號(hào)1行顯示了基準(zhǔn)MFS(Most Frequent Sense)的測(cè)試集性能，MFS是一種選擇訓(xùn)練數(shù)據(jù)集中的最頻繁詞義作為歧義詞詞義的方法。序號(hào)2行顯示的是兩種基于知識(shí)的詞義消歧方法：Leskext+emb是著名Lesk算法的一種變體，通過(guò)計(jì)算歧義詞的上下文和詞義定義之間的覆蓋度來(lái)計(jì)算詞義得分；Babelfy是一種基于圖的詞義消歧方法，利用同義詞集中的隨機(jī)游走來(lái)確定相互之間的聯(lián)系，通過(guò)整合WordNet構(gòu)建的BabelNet語(yǔ)義網(wǎng)絡(luò)來(lái)消除歧義。序號(hào)3行展示了兩個(gè)傳統(tǒng)的監(jiān)督系統(tǒng)，這些系統(tǒng)僅基于手工設(shè)計(jì)的特征從標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。IMS可以為K個(gè)多義詞訓(xùn)練K個(gè)SVM分類器，默認(rèn)設(shè)置中包含語(yǔ)境、詞性、局部詞組搭配。其變體IMS+emb將單詞嵌入功能添加到IMS中。IMS和IMS+emb是通過(guò)為每個(gè)目標(biāo)詞構(gòu)建單獨(dú)的分類器，即每個(gè)目標(biāo)詞都有其自己的參數(shù)。因此，對(duì)于僅使用標(biāo)記數(shù)據(jù)的許多神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，IMS+emb都是在詞義消歧上很難被擊敗的系統(tǒng)。序號(hào)4行主要顯示了三個(gè)最新的神經(jīng)網(wǎng)絡(luò)方法，除了Bi-LSTM之外，其余的方法除了運(yùn)用標(biāo)簽數(shù)據(jù)之外，還運(yùn)用了詞典的詞匯知識(shí)資源。Bi-LSTM+att.+LEX+POS是一種對(duì)于詞義消歧、詞性標(biāo)注、具有上下文自注意力機(jī)制的LEX的多任務(wù)學(xué)習(xí)框架。GAS是注釋增強(qiáng)的運(yùn)用記憶網(wǎng)絡(luò)模型進(jìn)行詞義消歧的神經(jīng)方法。HCAN是一種整合注釋知識(shí)的層級(jí)注意力機(jī)制詞義消歧模型，實(shí)驗(yàn)結(jié)果表明句子級(jí)的信息比詞級(jí)信息更重要，提升了詞義消歧的準(zhǔn)確率。

在序號(hào)5框中，是本文提出的多粒度雙向注意力詞義消歧模型的性能，本文模型在SemEval-13和SemEval-15兩個(gè)公開(kāi)評(píng)測(cè)的數(shù)據(jù)集上將結(jié)果分別提高了0.4百分點(diǎn)和0.3百分點(diǎn)。盡管沒(méi)有采用HCAN模型中的層級(jí)架構(gòu)，但是在多粒度級(jí)別上進(jìn)行整合操作，運(yùn)用字符級(jí)嵌入彌補(bǔ)詞嵌入中OOV詞向量隨機(jī)初始化的缺點(diǎn)，以及采用不同的雙向注意機(jī)制模型建模方法，在數(shù)據(jù)集中獲得更好的性能。

3.4 消融實(shí)驗(yàn)

這一部分進(jìn)一步研究模型中的各個(gè)組成部分的重要作用。通過(guò)消融某部分組成來(lái)訓(xùn)練模型：消融字符級(jí)嵌入(No Char)、消融詞級(jí)嵌入(No Word)、消融語(yǔ)境到詞義定義的注意力(No C2S Attention)和消融詞義定義到語(yǔ)境的注意力(No S2C Attention)。

對(duì)于消融字符級(jí)嵌入是只把詞級(jí)向量輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中，通過(guò)雙向注意力機(jī)制模型進(jìn)行訓(xùn)練；對(duì)于消融詞級(jí)嵌入是只把字符向量輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中，通過(guò)雙向注意力機(jī)制模型進(jìn)行訓(xùn)練；對(duì)于消融語(yǔ)境到詞義定義的注意力是移除由語(yǔ)境向量生成的注意力，即As的所有元素設(shè)置為1；對(duì)于消融詞義定義到語(yǔ)境的注意力是移除由詞義定義向量生成的注意力，即Ac的所有元素設(shè)置為1。

消融實(shí)驗(yàn)中，沒(méi)有字符級(jí)嵌入和詞級(jí)嵌入對(duì)于SE13分別下降了0.3百分點(diǎn)和1.0百分點(diǎn)，對(duì)于SE15分別下降了0.4百分點(diǎn)和0.9百分點(diǎn)，顯示出了多粒度級(jí)別中，詞級(jí)嵌入比字符嵌入更重要。沒(méi)有上下文語(yǔ)境到詞義定義的注意力和詞義定義到上下文語(yǔ)境的注意力對(duì)于SE13分別下降了0.9百分點(diǎn)和0.5百分點(diǎn)，對(duì)于SE15分別下降了1.2百分點(diǎn)和0.9百分點(diǎn)，顯示了上下文語(yǔ)境到詞義定義注意力比詞義定義到上下文語(yǔ)境注意力更重要，表明語(yǔ)境已知的詞義定義向量更能直接地確定歧義詞的正確詞義。消融實(shí)驗(yàn)的結(jié)果如表5所示。

表5 模型的消融實(shí)驗(yàn)結(jié)果

4 結(jié) 語(yǔ)

本文提出一種引入詞義定義的基于雙向注意力機(jī)制的詞義消歧方法。該方法不僅利用歧義詞上下文語(yǔ)境標(biāo)簽數(shù)據(jù)的作用，而且充分發(fā)揮了詞義定義詞匯資源的作用。在歧義詞上下文語(yǔ)境和詞義定義上分別進(jìn)行字符級(jí)、詞級(jí)、句子級(jí)的多粒度向量表示，運(yùn)用雙向注意力機(jī)制構(gòu)建上下文語(yǔ)境到詞義定義和詞義定義到上下文語(yǔ)境的注意力。實(shí)驗(yàn)結(jié)果顯示，本文方法在兩個(gè)全詞詞義消歧數(shù)據(jù)集上取得了很好的效果。下一步的工作將考慮使用詞典中詞義的上位詞和下位詞等詞匯資源，以提供更準(zhǔn)確的詞義表示。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡