初鈺?shū)P 張 俊 趙麗華
(大連海事大學(xué)信息科學(xué)與技術(shù)學(xué)院 遼寧 大連 116026)
詞義消歧(Word Sense Disambiguation,WSD)是自然語(yǔ)言處理中的基本任務(wù),也是長(zhǎng)期存在的挑戰(zhàn),有著廣泛的應(yīng)用。目前的詞義消歧方法主要可以分為基于知識(shí)的方法和基于監(jiān)督的方法?;谥R(shí)的方法主要依賴于知識(shí)庫(kù)的結(jié)構(gòu)和內(nèi)容,例如,詞義定義和語(yǔ)義網(wǎng)絡(luò),它們提供了兩種詞義之間的關(guān)系和相似性。
基于監(jiān)督的方法通常根據(jù)其使用的特征可分為兩類,使用周圍單詞嵌入、PoS標(biāo)簽嵌入等常規(guī)特征的基于特征的監(jiān)督方法和使用Bi-LSTM等神經(jīng)網(wǎng)絡(luò)編碼器來(lái)提取特征的基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督方法[1]。雖然已有的基于監(jiān)督的詞義消歧方法在大規(guī)模訓(xùn)練語(yǔ)料的情況下實(shí)現(xiàn)了較好的詞義消歧性能,但還是存在一些問(wèn)題。
首先,基于監(jiān)督的方法通常對(duì)于每個(gè)單詞訓(xùn)練專門的分類器,這使得很難將其擴(kuò)展到需要消除文本中所有多義詞的全詞詞義消歧任務(wù),即當(dāng)文本中存在N個(gè)多義詞時(shí),需要訓(xùn)練N個(gè)分類器[2]。最近的基于神經(jīng)網(wǎng)絡(luò)的方法通過(guò)為所有多義詞構(gòu)建統(tǒng)一模型來(lái)解決此問(wèn)題[3]。其次,神經(jīng)網(wǎng)絡(luò)的方法總是僅考慮歧義詞的局部上下文的作用,忽視了WordNet中包含的詞義定義等詞匯資源。對(duì)于詞義定義資源,在Lesk算法及其變體中因起到擴(kuò)充詞義含義的作用而得到廣泛應(yīng)用[4]。
此前,基于神經(jīng)網(wǎng)絡(luò)的詞義消歧方法總是對(duì)于上下文語(yǔ)境使用一位有效編碼(One-hot encoding)獲取詞級(jí)向量表示或者使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)獲取句子級(jí)向量表示,并沒(méi)有考慮獲取字符級(jí)的向量作用。在引入詞義定義的詞匯資源后,總是單獨(dú)構(gòu)建上下文語(yǔ)境和詞義定義的向量表示,沒(méi)有很好地構(gòu)建兩者之間的交互作用。在此基礎(chǔ)上,本文提出分別整合歧義詞上下文語(yǔ)境和詞義定義的字符級(jí)和詞級(jí)向量表示,構(gòu)建句子級(jí)上下文向量表示,然后在雙向注意力模型中鏈接和融合上下文語(yǔ)境和詞義定義的句子級(jí)上下文向量信息。
本文提出采用不同粒度對(duì)歧義詞上下文語(yǔ)境和詞義定義的表示建模;提出運(yùn)用雙向注意力機(jī)制整合詞義定義的神經(jīng)網(wǎng)絡(luò)詞義消歧方法,以便更好地構(gòu)建歧義詞語(yǔ)境和詞義定義之間的相互表示作用。實(shí)驗(yàn)驗(yàn)證模型在SemEval-13:task #12和SemEval-15:task #13的全詞詞義消歧的數(shù)據(jù)集上達(dá)到很好的消歧效果。
詞義消歧的定義可描述為:假設(shè)歧義詞w在詞典中有N個(gè)義項(xiàng),則將包含w所有詞義定義的集合記為S(w)={s1,s2,…,si,…,sN}。設(shè)該歧義詞w所處的特定上下文語(yǔ)境為C(w)={c1,c2,…,cj,…,cn},其中:n為上下文特征的個(gè)數(shù);cj表示某個(gè)上下文特征。在詞義集合S(w)中有且僅有一個(gè)詞義si是w在確定的上下文C(w)中表達(dá)的真實(shí)詞義。詞義消歧就是從歧義詞w的詞義集合S(w)中找到真實(shí)詞義si的工作。詞義消歧任務(wù)可表達(dá)為將上下文語(yǔ)境中的歧義詞與預(yù)定義的詞庫(kù)中的最合適的條目相關(guān)聯(lián)[5]。根據(jù)其特性,詞義消歧方法主要可分為兩類:基于知識(shí)的方法和基于監(jiān)督的方法。
基于知識(shí)的詞義消歧方法主要是利用兩種多義詞的知識(shí)。第一種是利用在文獻(xiàn)[4]及其變體中的詞義定義知識(shí)——注釋,通過(guò)計(jì)算歧義詞的上下文語(yǔ)境和詞庫(kù)中的詞義定義之間的重疊或分布相似性關(guān)系。另一種是在文獻(xiàn)[6]中廣泛運(yùn)用的基于圖的算法,其中:節(jié)點(diǎn)是同義詞集;邊是語(yǔ)義關(guān)系——語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)。首先創(chuàng)建輸入文本的圖表示,然后在給定表示上利用不同的基于圖的算法執(zhí)行詞義消歧?;谥R(shí)方法的優(yōu)點(diǎn)是不需要大規(guī)模的訓(xùn)練語(yǔ)料,但存在難以適應(yīng)語(yǔ)言動(dòng)態(tài)變化和缺乏完備性等缺點(diǎn)[5]。
基于監(jiān)督的詞義消歧方法通常將每個(gè)歧義詞作為單獨(dú)的分類問(wèn)題,基于人工標(biāo)注的特征訓(xùn)練分類器。盡管基于監(jiān)督的方法能夠在準(zhǔn)確度上實(shí)現(xiàn)較好的性能,但是對(duì)于全詞的詞義消歧而言,在靈活性上比較差。為了解決這個(gè)問(wèn)題,最近的基于神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建統(tǒng)一的分類器,該分類器在所有的多義詞之間共享參數(shù)[3]。文獻(xiàn)[7]利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),在所有的多義詞之間共享參數(shù),通過(guò)端到端的訓(xùn)練來(lái)充分利用單詞順序。文獻(xiàn)[8]將詞義消歧問(wèn)題轉(zhuǎn)化為神經(jīng)序列標(biāo)簽任務(wù),提出一系列端到端的神經(jīng)網(wǎng)絡(luò),從雙向長(zhǎng)短時(shí)記憶模型到編碼解碼模型。
對(duì)于監(jiān)督的方法和基于神經(jīng)網(wǎng)絡(luò)的方法,很少考慮WordNet等詞匯資源。有許多任務(wù)顯示出整合知識(shí)和標(biāo)簽數(shù)據(jù)到統(tǒng)一的系統(tǒng)中能實(shí)現(xiàn)比單獨(dú)從大量標(biāo)簽數(shù)據(jù)中學(xué)習(xí)的方法獲得更好的性能,如漢語(yǔ)分詞、語(yǔ)言建模和LSTMs任務(wù)。文獻(xiàn)[2]通過(guò)記憶網(wǎng)絡(luò)將目標(biāo)詞的語(yǔ)境和詞義定義整合到一個(gè)統(tǒng)一的框架中,分別對(duì)目標(biāo)詞的語(yǔ)境和詞義定義進(jìn)行編碼,然后在記憶模型中對(duì)語(yǔ)境向量和詞義定義向量之間的語(yǔ)義關(guān)系進(jìn)行建模。除此之外,還提出利用語(yǔ)義關(guān)系擴(kuò)展詞義定義以便更好推導(dǎo)上下文。文獻(xiàn)[8]研究表明,WordNet中的粗粒度語(yǔ)義標(biāo)簽可以在多任務(wù)學(xué)習(xí)框架中幫助詞義消歧。文獻(xiàn)[9]通過(guò)使用WordNet中的約束和語(yǔ)義關(guān)系將單詞嵌入擴(kuò)展到語(yǔ)義嵌入,當(dāng)使用語(yǔ)義嵌入作為SVM分類器的詞義消歧功能時(shí),它們可將性能提高1%以上。以上列出的所有研究表明,將詞匯資源整合到WSD的監(jiān)督系統(tǒng)中可以顯著提高性能。而且,已經(jīng)有一些研究探索了使用諸如詞義定義等知識(shí)資源來(lái)增強(qiáng)監(jiān)督詞義消歧的方法,并取得了很好的效果。因此,本文遵循這個(gè)方向,尋求一種更好地整合詞義定義知識(shí)資源的詞義消歧方法。
此外,之前的基于神經(jīng)網(wǎng)絡(luò)的方法通常分別利用One-hot或RNN構(gòu)建歧義詞上下文語(yǔ)境詞級(jí)和句子級(jí)向量表示,并沒(méi)有考慮利用CNN構(gòu)建字符級(jí)向量表示的作用。文獻(xiàn)[10-11]研究表明,在構(gòu)建文本向量表示時(shí),字符級(jí)的局部向量表示對(duì)于提高閱讀理解能力和問(wèn)題回答準(zhǔn)確性起到重要作用。
本文關(guān)注如何構(gòu)建不同粒度的上下文語(yǔ)境和詞義定義的文本表示,通過(guò)高速網(wǎng)絡(luò)(Highway Network[12])將不同粒度的表示級(jí)聯(lián),并運(yùn)用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(LSTM[13])構(gòu)建上下文的向量表示。采用在問(wèn)答等自然語(yǔ)言處理領(lǐng)域取得巨大進(jìn)展的雙向注意力機(jī)制,構(gòu)建上下文語(yǔ)境和詞義定義之間的交互作用[14-16]。在雙向注意力模型上做了適當(dāng)?shù)恼{(diào)整,以便更好地獲取上下文語(yǔ)境和詞義定義之間的內(nèi)部關(guān)系。
首先定義所提的多粒度雙向注意力詞義消歧模型的整體概述,模型主要包括5層(如圖1所示),然后分別對(duì)每一層進(jìn)行描述。
圖1 多粒度雙向注意力詞義消歧模型
模型由字符嵌入層、詞嵌入層、上下文嵌入層、雙向注意力層和輸出層構(gòu)成。字符嵌入層主要是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN),把每個(gè)詞映射到向量空間;詞嵌入層通過(guò)預(yù)訓(xùn)練的詞嵌入模型(GloVe),將每個(gè)詞映射到向量空間;上下文嵌入層運(yùn)用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(Bi-LSTM)構(gòu)建上下文向量表示。對(duì)于歧義詞的上下文語(yǔ)境和詞義定義的句子分別運(yùn)用字符嵌入層、詞嵌入層和上下文嵌入層獲取向量表示。雙向注意力機(jī)制層主要是結(jié)合歧義詞的語(yǔ)境和詞義定義,生成對(duì)于歧義詞語(yǔ)境中每個(gè)單詞的一組詞義定義的向量表示和對(duì)于歧義詞詞義定義中每個(gè)單詞的一組語(yǔ)境的向量表示,構(gòu)建兩者之間的交互關(guān)系。輸出層計(jì)算歧義詞所有詞義的分?jǐn)?shù),并最終輸出歧義詞的所有詞義的概率分布。
令{c1,c2,…,cn}和{x1,x2,…,xm}分別表示歧義詞上下文語(yǔ)境和詞義定義中的單詞序列,其中,n和m分別表示上下文語(yǔ)境和詞義定義序列的最大長(zhǎng)度。
(1) 詞嵌入層:負(fù)責(zé)將每個(gè)單詞映射到高維的向量空間。使用預(yù)訓(xùn)練的單詞向量模型GloVe來(lái)獲取每個(gè)單詞的固定向量,表示成d1維度。對(duì)于不在預(yù)訓(xùn)練中的單詞(Out-Of-Vocabulary,OOV),被映射為
(2) 字符嵌入層:負(fù)責(zé)將每個(gè)單詞映射到高維的向量空間。GloVe通過(guò)分配一些隨機(jī)向量值來(lái)處理OOV詞,而隨機(jī)分配最終會(huì)影響整個(gè)模型的效果。所以對(duì)于GLoVe中不存在的詞,使用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)獲得每個(gè)單詞的字符級(jí)嵌入,每個(gè)字符都表示成d2維度的可訓(xùn)練向量,維度表示輸入通道的大小(卷積濾波器的數(shù)量)。按字符滑動(dòng)掃描單詞,經(jīng)過(guò)卷積和最大池化操作,選擇每一行的最大值,以獲得每個(gè)單詞的固定大小為d2維的向量表示。
(3) 對(duì)于字符嵌入向量和詞嵌入向量進(jìn)行級(jí)聯(lián),得到維度為d=d1+d2的級(jí)聯(lián)向量表示,然后矩陣被傳遞到兩層的高速網(wǎng)絡(luò)中,得到兩個(gè)維度相同的矩陣表示:對(duì)于歧義詞的上下文語(yǔ)境有C′∈Rd×n,歧義詞的詞義定義有S′∈Rd×m。上下文嵌入層:?jiǎn)卧~級(jí)的向量表示并沒(méi)有考慮上下文的含義,所以在前兩層提供的級(jí)聯(lián)嵌入向量表示之上,通過(guò)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型級(jí)聯(lián)前向和后向的雙向文本狀態(tài)信息。從而得到歧義詞上下文語(yǔ)境表示C∈R2d×n,歧義詞的詞義定義表示S∈R2d×m。
模型的前三層是從歧義詞的上下文語(yǔ)境和詞義定義中計(jì)算不同粒度級(jí)別的向量表示,類似于計(jì)算機(jī)視覺(jué)領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)的多階段特征計(jì)算。
不同于之前的注意力機(jī)制(Attention)表示,采用在自然語(yǔ)言處理問(wèn)題中,證明能很好地構(gòu)建不同文本之間的交互表示的雙向注意力機(jī)制。對(duì)于在自然語(yǔ)言處理和計(jì)算領(lǐng)域廣泛應(yīng)用的Attention,只是將不同的文本單獨(dú)構(gòu)建分布式向量表示,然后計(jì)算文本之間的相似性或者相關(guān)性,不能充分利用不同文本之間的交互作用。
雙向注意力機(jī)制層如圖2所示。
圖2 雙向注意力機(jī)制
輸入為上下文嵌入層獲得的歧義詞上下文語(yǔ)境表示C和詞義定義表示S,輸出為N對(duì)(詞義定義的數(shù)量)雙向注意力表示的歧義詞上下文語(yǔ)境和詞義定義向量表示。雙向注意力機(jī)制表示從兩個(gè)方向上計(jì)算注意力,上下文語(yǔ)境到詞義定義(Context-to-Sense definition)的注意力向量表示和詞義定義到上下文語(yǔ)境(Sense definition-to-Context)的注意力向量表示。
首先,需要計(jì)算一個(gè)相似性矩陣A∈Rn×m,Aij表示的是上下文語(yǔ)境的第i個(gè)詞和詞義定義的第j個(gè)詞之間的相似性,相似性的計(jì)算公式表示為:
Aij=α(C:i,S:j)∈R
(1)
式中:α表示的是可訓(xùn)練的標(biāo)量函數(shù),用于編碼兩個(gè)輸入向量之間的相似性;C:i表示C的第i列;S:j表示S的第j列。α函數(shù)的表達(dá)式為:
α(c,s)=(W(A))T[c;s;c°s]
(2)
式中:W(A)∈R6d,是一個(gè)可訓(xùn)練的權(quán)重向量;°表示逐元素相乘(矩陣相乘);[;]表示跨行級(jí)聯(lián)運(yùn)算?;谙嗨菩跃仃嘇來(lái)獲取兩個(gè)方向上的注意力矩陣,分別為上下文語(yǔ)境到詞義定義的注意力矩陣As∈Rm×n和詞義定義到上下文語(yǔ)境的注意力矩陣Ac∈Rn×m。
Sense definition-to-Context(S2C)注意力,表示對(duì)于歧義詞的每個(gè)詞義定義詞而言哪個(gè)語(yǔ)境詞最相關(guān)。由于相似性矩陣A的第j列表示每個(gè)語(yǔ)境詞和第j個(gè)詞義定義詞之間的相似性,所以可利用跨A列的Softmax函數(shù)來(lái)獲得每個(gè)語(yǔ)境詞的注意力權(quán)重,其計(jì)算式為:
C′:C′=CAc∈R2d×m
(4)
式中:C′的第j列表示根據(jù)詞義定義的第j列獲得的語(yǔ)境表示。最終,通過(guò)計(jì)算C′列之和求得語(yǔ)境向量,其計(jì)算式為:
Context-to-Sense definition(C2S)注意力,表示對(duì)于歧義詞的每個(gè)語(yǔ)境詞而言哪個(gè)詞義定義詞最相關(guān)。由于相似性矩陣A的第i行表示第i個(gè)語(yǔ)境詞和每個(gè)詞義定義詞之間的相似性,所以可利用跨A行的Softmax函數(shù)來(lái)獲得每個(gè)詞義定義詞的注意力權(quán)重。由于矩陣存在轉(zhuǎn)置特性,A的行等于AT的列,所以其計(jì)算式可以表示為:
S′:S′=SAs∈R2d×n
(7)
式中:S′的第j列表示根據(jù)語(yǔ)境的第j列獲得詞義定義的表示。最終,通過(guò)計(jì)算S′列之和求得詞義定義向量,其計(jì)算式為:
最后,采用余弦相似度來(lái)計(jì)算歧義詞上下文語(yǔ)境和每個(gè)詞義定義之間交互關(guān)系的相似度,其計(jì)算式為:
式中:i表示第i個(gè)詞義定義;ci表示由第i個(gè)詞義定義獲得的詞義定義到上下文語(yǔ)境的向量c;si表示由第i個(gè)詞義定義獲得的上下文語(yǔ)境到詞義定義的向量。對(duì)于歧義詞上下文語(yǔ)境的向量表示,采用N個(gè)詞義定義到上下文語(yǔ)境向量的平均值,其計(jì)算式為:
輸出層主要是計(jì)算歧義詞w的N個(gè)詞義定義的分?jǐn)?shù),并輸出N個(gè)詞義定義的詞義概率分布。每個(gè)詞義的分?jǐn)?shù)是由兩個(gè)值的權(quán)重和求得:scores和scorec。scores表示歧義詞的上下文語(yǔ)境和詞義定義之間的相似度分?jǐn)?shù),主要體現(xiàn)在詞義消歧中引入詞典中詞義定義的作用,其計(jì)算式為:
scores=[β1,β2,…,βN]
(11)
而scorec表示歧義詞的上下文語(yǔ)境向量分?jǐn)?shù),是通過(guò)一個(gè)線性映射層計(jì)算的,主要體現(xiàn)廣泛應(yīng)用的歧義詞上下文語(yǔ)境標(biāo)簽數(shù)據(jù)的作用,其計(jì)算式為:
式中:Ww為權(quán)重參數(shù);bw為偏置項(xiàng)。
最終歧義詞的所有詞義概率分布計(jì)算式為:
y′=softmax(λwscores+(1-λw)scorec)
(13)
式中:λw∈[0,1]是歧義詞w的參數(shù)。
在訓(xùn)練的過(guò)程中,所有的模型參數(shù)通過(guò)最小化y′和真實(shí)標(biāo)簽y之間的交叉熵?fù)p失聯(lián)合學(xué)習(xí)獲得。損失函數(shù)表示為:
選擇SemCor 3.0作為訓(xùn)練集,是通過(guò)WordNet詞典手工標(biāo)注的最大的詞義消歧語(yǔ)料庫(kù)。它由352篇文檔的226 036個(gè)詞義標(biāo)注組成,包含名詞、動(dòng)詞、形容詞和副詞。采用公開(kāi)評(píng)測(cè)的英語(yǔ)全詞詞義消歧數(shù)據(jù)集(English all-words WSD),把SemEval-07:task #17(SE7)作為驗(yàn)證集,SemEval-13:task #12(SE13)和SemEval-15:task #13(SE15)作為測(cè)試集。其中:SemEval-07:task #17僅包含名詞和動(dòng)詞,由455個(gè)詞義標(biāo)注構(gòu)成;SemEval-13:task #12僅包含名詞,由來(lái)自各個(gè)領(lǐng)域的13篇文檔的1 644個(gè)詞義標(biāo)注構(gòu)成;SemEval-15:task #13包括名詞、動(dòng)詞、形容詞和副詞,由來(lái)自三個(gè)異構(gòu)領(lǐng)域的1 022個(gè)詞義標(biāo)注構(gòu)成。表1顯示了訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)。
表1 WSD數(shù)據(jù)集統(tǒng)計(jì)
運(yùn)用驗(yàn)證集SE7來(lái)設(shè)置模型的最佳參數(shù):詞嵌入大小d1、字符嵌入大小d2、LSTM的隱藏層大小n、優(yōu)化參數(shù)和初始化函數(shù)等。由于SE7僅存在名詞和動(dòng)詞而沒(méi)有形容詞和副詞,所以選擇從訓(xùn)練數(shù)據(jù)集中隨機(jī)抽取一些副詞和形容詞到SE7中進(jìn)行驗(yàn)證。使用的卷積輸入通道的大小為200,截?cái)嗷蛘咛畛涞拇笮?6,預(yù)訓(xùn)練詞嵌入的維度為300,并保證這些參數(shù)在訓(xùn)練過(guò)程中固定大小。隱藏狀態(tài)大小n是256,最小批量大小設(shè)置為32。在訓(xùn)練的過(guò)程中,選擇Adam優(yōu)化器,初始學(xué)習(xí)率為0.001。為了避免過(guò)度擬合,在LSTM的輸出上使用丟棄正則化(Dropout Regularization),并將丟棄率設(shè)置為0.5。正交初始化用于在LSTM中初始化權(quán)重,而對(duì)于其他操作使用[-0.1,0.1]的隨機(jī)均勻初始化。如果驗(yàn)證損失在最后5個(gè)周期(epochs)內(nèi)沒(méi)有改善,則提前停止,訓(xùn)練運(yùn)行最多進(jìn)行50個(gè)周期。
這一部分首先給出詞義消歧的實(shí)例結(jié)果分析,然后給出不同的詞義消歧模型在英語(yǔ)全詞任務(wù)中的實(shí)驗(yàn)結(jié)果。
對(duì)于本文的詞義消歧模型,在SemEval-13:task #12(SE13)和SemEval-15:task #13(SE15)數(shù)據(jù)集中分別隨機(jī)選取部分多義詞進(jìn)行準(zhǔn)確度判斷,統(tǒng)計(jì)的結(jié)果如表2、表3所示。在表3中的詞義定義列中顯示的符號(hào)表示為名詞(n)、動(dòng)詞(v)、形容詞(adj)和副詞(adv)。
表2 SE13名詞詞義消歧結(jié)果
表3 SE15全詞詞義消歧結(jié)果
可以看出,本文所提出的詞義消歧模型對(duì)于多義詞的詞義判斷有較高的準(zhǔn)確度。
對(duì)于英語(yǔ)全詞詞義消歧的方法,主要包括:基準(zhǔn)方法、基于知識(shí)的方法、基于監(jiān)督的方法和基于神經(jīng)網(wǎng)絡(luò)的方法及整合詞義定義等詞匯資源的神經(jīng)網(wǎng)絡(luò)方法,如表4所示。
表4 英語(yǔ)全詞詞義消歧測(cè)試結(jié)果
表4中,所有的實(shí)驗(yàn)都是在SemCor 3.0上訓(xùn)練的。序號(hào)1行顯示了基準(zhǔn)MFS(Most Frequent Sense)的測(cè)試集性能,MFS是一種選擇訓(xùn)練數(shù)據(jù)集中的最頻繁詞義作為歧義詞詞義的方法。序號(hào)2行顯示的是兩種基于知識(shí)的詞義消歧方法:Leskext+emb是著名Lesk算法的一種變體,通過(guò)計(jì)算歧義詞的上下文和詞義定義之間的覆蓋度來(lái)計(jì)算詞義得分;Babelfy是一種基于圖的詞義消歧方法,利用同義詞集中的隨機(jī)游走來(lái)確定相互之間的聯(lián)系,通過(guò)整合WordNet構(gòu)建的BabelNet語(yǔ)義網(wǎng)絡(luò)來(lái)消除歧義。序號(hào)3行展示了兩個(gè)傳統(tǒng)的監(jiān)督系統(tǒng),這些系統(tǒng)僅基于手工設(shè)計(jì)的特征從標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。IMS可以為K個(gè)多義詞訓(xùn)練K個(gè)SVM分類器,默認(rèn)設(shè)置中包含語(yǔ)境、詞性、局部詞組搭配。其變體IMS+emb將單詞嵌入功能添加到IMS中。IMS和IMS+emb是通過(guò)為每個(gè)目標(biāo)詞構(gòu)建單獨(dú)的分類器,即每個(gè)目標(biāo)詞都有其自己的參數(shù)。因此,對(duì)于僅使用標(biāo)記數(shù)據(jù)的許多神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),IMS+emb都是在詞義消歧上很難被擊敗的系統(tǒng)。序號(hào)4行主要顯示了三個(gè)最新的神經(jīng)網(wǎng)絡(luò)方法,除了Bi-LSTM之外,其余的方法除了運(yùn)用標(biāo)簽數(shù)據(jù)之外,還運(yùn)用了詞典的詞匯知識(shí)資源。Bi-LSTM+att.+LEX+POS是一種對(duì)于詞義消歧、詞性標(biāo)注、具有上下文自注意力機(jī)制的LEX的多任務(wù)學(xué)習(xí)框架。GAS是注釋增強(qiáng)的運(yùn)用記憶網(wǎng)絡(luò)模型進(jìn)行詞義消歧的神經(jīng)方法。HCAN是一種整合注釋知識(shí)的層級(jí)注意力機(jī)制詞義消歧模型,實(shí)驗(yàn)結(jié)果表明句子級(jí)的信息比詞級(jí)信息更重要,提升了詞義消歧的準(zhǔn)確率。
在序號(hào)5框中,是本文提出的多粒度雙向注意力詞義消歧模型的性能,本文模型在SemEval-13和SemEval-15兩個(gè)公開(kāi)評(píng)測(cè)的數(shù)據(jù)集上將結(jié)果分別提高了0.4百分點(diǎn)和0.3百分點(diǎn)。盡管沒(méi)有采用HCAN模型中的層級(jí)架構(gòu),但是在多粒度級(jí)別上進(jìn)行整合操作,運(yùn)用字符級(jí)嵌入彌補(bǔ)詞嵌入中OOV詞向量隨機(jī)初始化的缺點(diǎn),以及采用不同的雙向注意機(jī)制模型建模方法,在數(shù)據(jù)集中獲得更好的性能。
這一部分進(jìn)一步研究模型中的各個(gè)組成部分的重要作用。通過(guò)消融某部分組成來(lái)訓(xùn)練模型:消融字符級(jí)嵌入(No Char)、消融詞級(jí)嵌入(No Word)、消融語(yǔ)境到詞義定義的注意力(No C2S Attention)和消融詞義定義到語(yǔ)境的注意力(No S2C Attention)。
對(duì)于消融字符級(jí)嵌入是只把詞級(jí)向量輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中,通過(guò)雙向注意力機(jī)制模型進(jìn)行訓(xùn)練;對(duì)于消融詞級(jí)嵌入是只把字符向量輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中,通過(guò)雙向注意力機(jī)制模型進(jìn)行訓(xùn)練;對(duì)于消融語(yǔ)境到詞義定義的注意力是移除由語(yǔ)境向量生成的注意力,即As的所有元素設(shè)置為1;對(duì)于消融詞義定義到語(yǔ)境的注意力是移除由詞義定義向量生成的注意力,即Ac的所有元素設(shè)置為1。
消融實(shí)驗(yàn)中,沒(méi)有字符級(jí)嵌入和詞級(jí)嵌入對(duì)于SE13分別下降了0.3百分點(diǎn)和1.0百分點(diǎn),對(duì)于SE15分別下降了0.4百分點(diǎn)和0.9百分點(diǎn),顯示出了多粒度級(jí)別中,詞級(jí)嵌入比字符嵌入更重要。沒(méi)有上下文語(yǔ)境到詞義定義的注意力和詞義定義到上下文語(yǔ)境的注意力對(duì)于SE13分別下降了0.9百分點(diǎn)和0.5百分點(diǎn),對(duì)于SE15分別下降了1.2百分點(diǎn)和0.9百分點(diǎn),顯示了上下文語(yǔ)境到詞義定義注意力比詞義定義到上下文語(yǔ)境注意力更重要,表明語(yǔ)境已知的詞義定義向量更能直接地確定歧義詞的正確詞義。消融實(shí)驗(yàn)的結(jié)果如表5所示。
表5 模型的消融實(shí)驗(yàn)結(jié)果
本文提出一種引入詞義定義的基于雙向注意力機(jī)制的詞義消歧方法。該方法不僅利用歧義詞上下文語(yǔ)境標(biāo)簽數(shù)據(jù)的作用,而且充分發(fā)揮了詞義定義詞匯資源的作用。在歧義詞上下文語(yǔ)境和詞義定義上分別進(jìn)行字符級(jí)、詞級(jí)、句子級(jí)的多粒度向量表示,運(yùn)用雙向注意力機(jī)制構(gòu)建上下文語(yǔ)境到詞義定義和詞義定義到上下文語(yǔ)境的注意力。實(shí)驗(yàn)結(jié)果顯示,本文方法在兩個(gè)全詞詞義消歧數(shù)據(jù)集上取得了很好的效果。下一步的工作將考慮使用詞典中詞義的上位詞和下位詞等詞匯資源,以提供更準(zhǔn)確的詞義表示。