国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合k均值聚類(lèi)與LSTM網(wǎng)絡(luò)的半監(jiān)督詞義消歧

2021-02-21 02:57張春祥周雪松高雪瑤
關(guān)鍵詞:結(jié)點(diǎn)歧義語(yǔ)料

張春祥,周雪松,高雪瑤,劉 歡

(哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150080)

提高詞義消歧的準(zhǔn)確率是自然語(yǔ)言處理中的一個(gè)重要課題。通常,使用圖來(lái)描述詞義消歧問(wèn)題。利用圖中的結(jié)點(diǎn)來(lái)表示詞,使用圖中的邊來(lái)表示詞之間的關(guān)聯(lián)關(guān)系。此時(shí),詞義消歧過(guò)程將轉(zhuǎn)化為圖的求解問(wèn)題。文獻(xiàn)[1-4]使用圖的思想,將詞匯單元作為圖中的結(jié)點(diǎn),利用邊來(lái)描述上下文語(yǔ)義距離及關(guān)系,達(dá)到詞義消歧的目的。TRIPODI等[5]提出了一種基于進(jìn)化博弈論的詞義消歧模型。利用分布信息來(lái)衡量每個(gè)單詞對(duì)其它單詞的影響,利用語(yǔ)義相似性來(lái)度量不同選擇之間的兼容性。ERK等[6]提出了兩種新的注釋方案,詞義相似度(Word Sense SIMilarity,WSSIM)注釋和使用相似度(Usage SIMilarity,USIM)注釋?zhuān)谏舷挛闹幸苑旨?jí)的方式來(lái)描述詞義。LOPEZ等[7]描述了一種通過(guò)選擇歧義詞最佳詞義來(lái)實(shí)現(xiàn)特定領(lǐng)域的詞義消歧(Word Sense Disambiguation,WSD)方法。文獻(xiàn)[8-9]利用Web搜索引擎來(lái)獲取詞典資源,通過(guò)計(jì)算語(yǔ)義相似度來(lái)完成詞義消歧任務(wù)。目前,神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理相關(guān)領(lǐng)域有著廣泛的應(yīng)用[10-12]。PESARANGHADER等[13]利用深度學(xué)習(xí)算法來(lái)提取語(yǔ)料中的關(guān)鍵特征,從而確定歧義詞匯的語(yǔ)義類(lèi)別。CALVO等[14]提出了一種不限制固定語(yǔ)料集的深層神經(jīng)網(wǎng)絡(luò)詞義消歧方法。RUAS等[15]根據(jù)歧義詞的多種語(yǔ)義和歧義詞所在上下文中的特定語(yǔ)義,建立多語(yǔ)義嵌入模型來(lái)進(jìn)行消歧和標(biāo)注。文獻(xiàn)[16-17]利用WordNet和HowNet中的語(yǔ)義注釋和語(yǔ)義關(guān)系,挖掘了義原之間的深度和密度對(duì)語(yǔ)義相似度的影響。唐善成等[18]提出了基于Seq2Seq模型的非受限詞義消歧方法。楊安等[19]利用無(wú)標(biāo)注文本構(gòu)建詞向量模型,結(jié)合特定領(lǐng)域的關(guān)鍵詞信息,提出了一種新的詞義消歧方法。通過(guò)引入不同的領(lǐng)域知識(shí),證明該方法也可用于其它領(lǐng)域的文本消歧任務(wù)。LI等[20]給出了一種基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的語(yǔ)言模型用于抽取高質(zhì)量的上下文表示,并將其應(yīng)用于生物醫(yī)藥領(lǐng)域的詞義消歧。

筆者提出了一種結(jié)合k均值聚類(lèi)與長(zhǎng)短期記憶網(wǎng)絡(luò)的半監(jiān)督詞義消歧模型。以歧義詞匯為中心,從左右鄰接的4個(gè)詞匯單元中提取詞形和語(yǔ)義類(lèi)作為聚類(lèi)特征,利用k均值聚類(lèi)方法對(duì)無(wú)標(biāo)注語(yǔ)料進(jìn)行聚類(lèi)。將聚類(lèi)得到的無(wú)標(biāo)注語(yǔ)料添加到SemEval-2007:Task#5的訓(xùn)練語(yǔ)料中,提取詞形、詞性、語(yǔ)義類(lèi)、英文譯文和消歧距離作為消歧特征,利用長(zhǎng)短期記憶網(wǎng)絡(luò)來(lái)確定歧義詞匯的正確含義。

1 消歧特征提取

在歧義詞匯的上下文中,包含了很多有效的信息,可以用于文本聚類(lèi)和確定歧義詞匯的正確含義。每一個(gè)詞匯單元都包含了若干種特征。這些特征可以用于文本的加工處理。在歧義詞匯的上下文中,主要包括詞法、語(yǔ)義和句法等語(yǔ)言學(xué)知識(shí)。其中,詞法知識(shí)主要包括詞匯的詞形和詞性。這是一種比較容易獲取也比較精確的知識(shí)。語(yǔ)義知識(shí)主要以語(yǔ)義類(lèi)和同義詞的形式體現(xiàn)。詞匯單元的語(yǔ)義知識(shí)可以從語(yǔ)義詞典中獲取。因此,語(yǔ)義知識(shí)也是一種比較可靠的語(yǔ)言學(xué)信息。句法知識(shí)主要描述構(gòu)成成分之間關(guān)聯(lián)關(guān)系。因?yàn)楝F(xiàn)有的句法分析工具的性能較差,所以獲取的句法知識(shí)不夠準(zhǔn)確。以歧義詞匯為中心,從其左右鄰接的4個(gè)詞匯單元中,提取了5種特征用于無(wú)標(biāo)注語(yǔ)料聚類(lèi)和詞義消歧。

詞形:指詞的形態(tài)。在漢語(yǔ)中,單個(gè)字或詞語(yǔ)的形態(tài)即為詞形。

語(yǔ)義類(lèi):按照語(yǔ)義關(guān)系,可以將詞分類(lèi)。在不同語(yǔ)境中,歧義詞匯被劃分的語(yǔ)義類(lèi)有所不同。

詞性:指詞的特點(diǎn)。漢語(yǔ)共有14種詞性,如名詞和動(dòng)詞等。在不同的語(yǔ)境下,歧義詞匯具有不同的詞性。

英文譯文:根據(jù)語(yǔ)義環(huán)境,可將歧義詞匯翻譯成不同的英語(yǔ)譯文。

消歧距離:以歧義詞匯為中心,能夠計(jì)算出其它詞匯與歧義詞匯之間的距離。距離越遠(yuǎn),對(duì)歧義詞匯的消歧影響就越小。

在特征提取過(guò)程中,對(duì)漢語(yǔ)句子進(jìn)行分詞、詞性標(biāo)注、語(yǔ)義類(lèi)標(biāo)注、譯文翻譯并計(jì)算消歧距離。根據(jù)停用詞表去掉“了”“的”等無(wú)實(shí)際意義的詞匯,得到了包含各種語(yǔ)言學(xué)信息的語(yǔ)料。

以包含歧義詞匯“成立”的漢語(yǔ)句子為例,其特征提取過(guò)程如下所示:

漢語(yǔ)句子:上月,日本成立了“美林證券公司”

分詞結(jié)果:上月,日本 成立 了 “美林 證券 公司”

詞性標(biāo)注結(jié)果:上月/nt,/wp 日本/ns 成立/v 了/u “/wp 美林/nz 證券/n 公司/n”/wp

語(yǔ)義類(lèi)標(biāo)注結(jié)果:上月/nt/C,/wp/-1 日本/ns/-1 成立/v/H 了/u/K “/wp/-1 美林/nz/-1 證券/n/-1 公司/n/D”/wp/-1

去停用詞結(jié)果:上月/nt/C 日本/ns/-1 成立/v/H 美林/nz/-1 證券/n/-1 公司/n/D

如圖1所示,以“成立”為中心,選取其左側(cè)第二個(gè)詞匯單元UL2=“上月”;左側(cè)第一個(gè)詞匯單元UL1=“日本”;右側(cè)第一個(gè)詞匯單元UR1=“美林”;右側(cè)第二個(gè)詞匯單元UR2=“證券”。

圖1 特征提取過(guò)程

2 半監(jiān)督詞義消歧模型

筆者提出了一種半監(jiān)督詞義消歧方法,包括無(wú)標(biāo)注語(yǔ)料聚類(lèi)和詞義消歧兩個(gè)部分。消歧框架如圖2所示。以歧義詞匯w為中心,選取其左右各兩個(gè)詞匯單元,提取詞形和語(yǔ)義類(lèi)作為聚類(lèi)特征。利用word2vec工具將聚類(lèi)特征轉(zhuǎn)換為二進(jìn)制數(shù)。得到包含歧義詞匯w的有標(biāo)注聚類(lèi)特征向量集合SCY和無(wú)標(biāo)注聚類(lèi)特征向量集合SCN。對(duì)于任意f∈SCY或f∈SCY,有f=(WL2,SL2,WL1,SL1,WR1,SR1,WR2,SR2)。

當(dāng)數(shù)據(jù)規(guī)模較大時(shí),k均值聚類(lèi)方法保持了很好的可伸縮性和高效性。因此,以SCY為基礎(chǔ)利用k均值聚類(lèi)方法對(duì)SCN進(jìn)行聚類(lèi)。假設(shè)歧義詞匯w有n個(gè)語(yǔ)義類(lèi)S1,S2,…,Sn。在SCY中隨機(jī)選取n個(gè)聚類(lèi)中心Ci(i=1,2,…,n)。使用詞形和語(yǔ)義類(lèi)作為聚類(lèi)特征,各個(gè)聚類(lèi)特征彼此獨(dú)立,不存在關(guān)聯(lián)關(guān)系。因此,使用歐氏距離來(lái)度量?jī)蓚€(gè)特征向量之間的距離。對(duì)于任意無(wú)標(biāo)注聚類(lèi)實(shí)例f∈SCN,計(jì)算f到聚類(lèi)中心Ck(k=1,2,…,n)的距離:

(1)

其中,|fj-Ck,j|為向量fj與Ck,j之間的歐氏距離。

計(jì)算f到n個(gè)聚類(lèi)中心的最小距離dmin:

(2)

利用式(3)選出與f距離最小的第t個(gè)聚類(lèi)中心:

(3)

若dmin<δ,則f的語(yǔ)義類(lèi)別置為St,否則,f仍然是無(wú)標(biāo)注聚類(lèi)實(shí)例。其中,δ為設(shè)定的閾值。迭代上述過(guò)程,直到聚類(lèi)中心不再發(fā)生變化或達(dá)到最大迭代次數(shù)為止。

在確定歧義詞匯w語(yǔ)義類(lèi)的過(guò)程中,提取w的消歧特征。利用word2vec工具將消歧特征轉(zhuǎn)換為二進(jìn)制數(shù),得到消歧特征向量集合SWSD。對(duì)于任意f∈SWSD,有f=(WL2,SL2,PL2,TL2,GL2,WL1,SL1,PL1,TL1,GL1,WR1,SR1,PR1,TR1,GR1,WR2,SR2,PR2,TR2,GR2)。

將SWSD輸入長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行詞義消歧。長(zhǎng)短期記憶網(wǎng)絡(luò)分為輸入層、隱藏層和輸出層。對(duì)于消歧實(shí)例f∈SWSD,輸入層結(jié)點(diǎn)首先接受左側(cè)第二個(gè)詞匯單元的特征向量(WL2,SL2,PL2,TL2,GL2),并將其送入對(duì)應(yīng)的隱藏層結(jié)點(diǎn)進(jìn)行計(jì)算。隱藏層結(jié)點(diǎn)計(jì)算完畢后,將計(jì)算結(jié)果送入對(duì)應(yīng)的輸出層結(jié)點(diǎn)。輸出層結(jié)點(diǎn)調(diào)用softmax函數(shù),計(jì)算語(yǔ)義類(lèi)分布向量O1。重復(fù)上述過(guò)程,直到輸入層結(jié)點(diǎn)接受右側(cè)第二個(gè)詞匯單元的特征向量(WR2,SR2,PR2,TR2,GR2)進(jìn)行計(jì)算,輸出層結(jié)點(diǎn)輸出最終語(yǔ)義類(lèi)分布向量O4。

在圖2中,U表示輸入層結(jié)點(diǎn)與隱藏層結(jié)點(diǎn)之間的連接權(quán)值矩陣;D表示相鄰兩個(gè)隱藏層結(jié)點(diǎn)之間的連接權(quán)值矩陣;V表示隱藏層結(jié)點(diǎn)與輸出層結(jié)點(diǎn)之間的連接權(quán)值矩陣。矩陣U、D和V是長(zhǎng)短期記憶網(wǎng)絡(luò)模型的訓(xùn)練參數(shù)。在開(kāi)始訓(xùn)練之前,將矩陣U、D和V隨機(jī)初始化為很小的數(shù)值。

圖2 半監(jiān)督詞義消歧框架

3 基于k均值聚類(lèi)的無(wú)標(biāo)注語(yǔ)料聚類(lèi)

以有標(biāo)注語(yǔ)料為基礎(chǔ),利用k均值聚類(lèi)方法對(duì)無(wú)標(biāo)注語(yǔ)料進(jìn)行聚類(lèi),聚類(lèi)過(guò)程如下所示。

輸入:包含歧義詞匯w的有標(biāo)注聚類(lèi)特征向量集合SCY=L1∪L2∪…∪Ln(Li為語(yǔ)義類(lèi)為Si的有標(biāo)注聚類(lèi)特征向量集合,且La∩Lb=?,a≠b);包含歧義詞匯w的無(wú)標(biāo)注聚類(lèi)特征向量集合SCN;聚類(lèi)類(lèi)別數(shù)n;閾值δ。

輸出:聚類(lèi)后的有標(biāo)注聚類(lèi)特征向量集合SCY。

(Ⅰ)初始化

從Li中隨機(jī)選取一個(gè)特征向量作為L(zhǎng)i的初始聚類(lèi)中心Ci(i=1,2,…,n),初始化最大迭代次數(shù)T。

(Ⅱ)循環(huán)迭代聚類(lèi)

fort=1,2,…,T{

(1)while(SCN≠?){

① 任選f∈SCN,利用式(2)計(jì)算f到n個(gè)聚類(lèi)中心的最小距離dmin

② 利用公式(3)選出與f距離最小的第t個(gè)聚類(lèi)

③ if(dmin<δ){

a.f的語(yǔ)義類(lèi)別置為St;

b.SCN=SCN-{f};

c.Lt=Lt∪{f};

}

}

(2)利用式(4)計(jì)算更新聚類(lèi)中心之前的向量與中心距離的累計(jì)Jbefore:

(4)

(3)利用式(5)更新聚類(lèi)中心Ci(i=1,2,…,n):

(5)

(4)利用式(6)計(jì)算更新聚類(lèi)中心之后的向量與中心距離的累計(jì)Jafter:

(6)

(5)利用式(7)計(jì)算兩次迭代之間的誤差ΔJ:

ΔJ=Jbefore-Jafter。

(7)

(6)if(|ΔJ|<δ)

輸出SCY=L1∪L2∪…∪Ln;break

}

(Ⅲ)if(達(dá)到最大迭代次數(shù)T)

輸出SCY=L1∪L2∪…∪Ln。

4 長(zhǎng)短期記憶網(wǎng)絡(luò)的訓(xùn)練

長(zhǎng)短期記憶網(wǎng)絡(luò)是一種基于時(shí)間維度的模型,其隱藏層可以在時(shí)間維度上展開(kāi)。將長(zhǎng)短期記憶網(wǎng)絡(luò)的隱藏層層數(shù)設(shè)置為2。以包含歧義詞匯“成立”的消歧實(shí)例為例,展開(kāi)后的長(zhǎng)短期記憶網(wǎng)絡(luò)模型如圖3所示。

圖3 長(zhǎng)短期記憶網(wǎng)絡(luò)網(wǎng)絡(luò)隱藏層展開(kāi)圖

圖3中,每個(gè)長(zhǎng)短期記憶網(wǎng)絡(luò)細(xì)胞都具有3個(gè)門(mén):遺忘門(mén)、輸入門(mén)和輸出門(mén),具體結(jié)構(gòu)如圖4所示。

圖4 長(zhǎng)短期記憶網(wǎng)絡(luò)的細(xì)胞結(jié)構(gòu)

長(zhǎng)短期記憶網(wǎng)絡(luò)的訓(xùn)練過(guò)程分為前向傳播過(guò)程和后向反饋過(guò)程。具體訓(xùn)練過(guò)程如下所示。

4.1 前向傳播過(guò)程

在前向傳播過(guò)程中,根據(jù)t時(shí)刻所接受的特征向量Ft和t-1時(shí)刻的隱藏層結(jié)點(diǎn)狀態(tài)At-1來(lái)計(jì)算t時(shí)刻的語(yǔ)義類(lèi)概率分布向量Ot。具體步驟如下:

輸入:歧義詞匯w的消歧特征向量集合SWSD,隱藏層數(shù)m=2。

(Ⅰ)將f=(WL2,SL2,PL2,TL2,GL2,WL1,SL1,PL1,TL1,GL1,WR1,SR1,PR1,TR1,GR1,WR2,SR2,PR2,TR2,GR2)的子向量分別賦值給時(shí)序向量,f∈SWSD;

F1=(WL2,SL2,PL2,TL2,GL2);F2=(WL1,SL1,PL1,TL1,GL1)F3=(WR1,SR1,PR1,TR1,GR1);F4=(WR2,SR2,PR2,TR2,GR2)

(Ⅱ)初始化隱藏層結(jié)點(diǎn),狀態(tài)為A0,輸出門(mén)為h0;

(Ⅲ)輸入層結(jié)點(diǎn)將時(shí)序向量Ft(t=1,2,3,4)送入隱藏層進(jìn)行計(jì)算:

for(t=1;t≤4;t++){

(1)for(n=1;n≤m;n++){

① 遺忘門(mén)計(jì)算需要保留的有效信息ft,如式(8)所示:

ft=sig mod(U·[ht-1,F(xiàn)t]+bf) ,

(8)

其中,ht-1為t-1時(shí)刻隱藏層結(jié)點(diǎn)輸出門(mén)的輸出,bf為偏移向量。

② 輸入門(mén)接受有效信息ft,進(jìn)行以下運(yùn)算:

a.計(jì)算t時(shí)刻隱藏層結(jié)點(diǎn)需要接受的新信息it:

it=sig mod(U·[ht-1,F(xiàn)t]+bi) ,

(9)

其中,bi為偏移向量。

(10)

其中,bc為偏移向量。

c.更新t時(shí)刻隱藏層結(jié)點(diǎn)的狀態(tài),如式(11)所示:

(11)

③ 輸出門(mén)計(jì)算t時(shí)刻隱藏層結(jié)點(diǎn)需要遺忘的信息ht,如式(12)和式(13)所示:

ot=sig mod(U·[ht-1,F(xiàn)t]+bo) ,

(12)

ht=ottanh(At) ,

(13)

其中,bo為偏移向量。

④At進(jìn)入下一鄰接層。

}

(2)計(jì)算t時(shí)刻輸出層結(jié)點(diǎn)的語(yǔ)義類(lèi)概率分布向量Ot:

(14)

(15)

}

4.2 反向傳播過(guò)程

(16)

(17)

(3)更新權(quán)值矩陣θ={U,V,D}:

(18)

(19)

(4)循環(huán)執(zhí)行步驟(1)~(3)來(lái)更新參數(shù)θ。如果參數(shù)θ收斂,那么長(zhǎng)短期記憶網(wǎng)絡(luò)訓(xùn)練結(jié)束。

5 實(shí) 驗(yàn)

5.1 隱藏層數(shù)對(duì)詞義消歧的影響

長(zhǎng)短期記憶網(wǎng)絡(luò)隱藏層的層數(shù)將直接影響到模型訓(xùn)練的效果。為了探究隱藏層數(shù)對(duì)消歧正確率的影響,此處共進(jìn)行了3組對(duì)比實(shí)驗(yàn)。采用SemEval-2007:Task#5的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料來(lái)進(jìn)行實(shí)驗(yàn)。選取2類(lèi)歧義詞匯16個(gè),3類(lèi)歧義詞匯10個(gè),4類(lèi)歧義詞匯3個(gè)。訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料的分布情況如圖5所示。

圖5 訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料的分布

隱藏層數(shù)分別設(shè)置為2層、3層和4層。采用SemEval-2007提供的評(píng)測(cè)指標(biāo)平均消歧準(zhǔn)確率(macro average accuracy)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)測(cè),其計(jì)算過(guò)程如式(20)所示:

(20)

pi=mi/ni,

(21)

其中,N為所有歧義詞匯的數(shù)目;mi是第i個(gè)歧義詞匯正確分類(lèi)的測(cè)試句子數(shù);ni是包含第i個(gè)歧義詞的所有測(cè)試句子數(shù);pi為第i個(gè)歧義詞的消歧準(zhǔn)確率;pmar為詞義消歧的平均準(zhǔn)確率。

測(cè)試語(yǔ)料的消歧準(zhǔn)確率如表1所示。由表1可以發(fā)現(xiàn),隨著隱藏層數(shù)增加,許多歧義詞匯的消歧準(zhǔn)確率降低,部分歧義詞匯的消歧準(zhǔn)確率上升,平均消歧準(zhǔn)確率下降。當(dāng)隱藏層數(shù)為2時(shí),平均消歧準(zhǔn)確率最高。

根據(jù)表1可以計(jì)算出在隱藏層數(shù)分別為2、3、4層時(shí),二類(lèi)、三類(lèi)和四類(lèi)歧義詞匯的平均消歧準(zhǔn)確率,如圖6所示。

表1 不同隱藏層下的消歧準(zhǔn)確率

圖6 不同類(lèi)別和隱藏層數(shù)下的平均消歧準(zhǔn)確率

從圖6中可以發(fā)現(xiàn),當(dāng)歧義詞匯的語(yǔ)義類(lèi)為二類(lèi)或三類(lèi)且隱藏層層數(shù)為2時(shí),平均消歧準(zhǔn)確率較高。當(dāng)歧義詞匯的語(yǔ)義類(lèi)為四類(lèi)且隱藏層的層數(shù)為3時(shí),平均消歧準(zhǔn)確率較高。長(zhǎng)短期記憶網(wǎng)絡(luò)根據(jù)當(dāng)前時(shí)刻所接受的特征向量和上一時(shí)刻隱藏層結(jié)點(diǎn)的狀態(tài)來(lái)計(jì)算當(dāng)前時(shí)刻的語(yǔ)義類(lèi)概率分布。語(yǔ)義類(lèi)概率分布的計(jì)算是一個(gè)多次迭代的過(guò)程。對(duì)二類(lèi)和三類(lèi)歧義詞匯而言,其分類(lèi)過(guò)程比較簡(jiǎn)單。2層長(zhǎng)短期記憶網(wǎng)絡(luò)的分類(lèi)效果最好。如果層數(shù)增多,那么迭代次數(shù)變大,會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。此時(shí),分類(lèi)準(zhǔn)確率將下降。當(dāng)歧義詞匯的語(yǔ)義類(lèi)別數(shù)比較大時(shí),使用2層長(zhǎng)短期記憶網(wǎng)絡(luò)不能進(jìn)行準(zhǔn)確的消歧,需要增加長(zhǎng)短期記憶網(wǎng)絡(luò)的層數(shù),加大迭代次數(shù)來(lái)提高消歧準(zhǔn)確率。對(duì)四類(lèi)歧義詞匯而言,3層長(zhǎng)短期記憶網(wǎng)絡(luò)的消歧性能最好。當(dāng)長(zhǎng)短期記憶網(wǎng)絡(luò)的層數(shù)再繼續(xù)增大時(shí),消歧準(zhǔn)確率反而下降。

結(jié)合表1和圖6可知,設(shè)置恰當(dāng)?shù)碾[藏層數(shù)可以提高詞義消歧的準(zhǔn)確率。通過(guò)對(duì)比,將隱藏層數(shù)設(shè)置為2。

5.2 訓(xùn)練語(yǔ)料規(guī)模對(duì)消歧準(zhǔn)確率的影響

在k均值聚類(lèi)算法中,閾值δ為0.000 001,最大迭代次數(shù)T=50。為了探究訓(xùn)練語(yǔ)料的規(guī)模對(duì)詞義消歧的影響,將聚類(lèi)得到的無(wú)標(biāo)注語(yǔ)料按20%、40%、60%、80%和100%的比例添加到SemEval-2007:Task#5的訓(xùn)練語(yǔ)料之中。分別對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練。用優(yōu)化后的長(zhǎng)短期記憶網(wǎng)絡(luò)分別對(duì)SemEval-2007:Task#5的測(cè)試語(yǔ)料進(jìn)行詞義消歧,消歧準(zhǔn)確率如表2所示。

從表2可以發(fā)現(xiàn),在加入經(jīng)過(guò)聚類(lèi)的無(wú)標(biāo)注語(yǔ)料之后,除了部分歧義詞匯之外,大多數(shù)歧義詞匯的消歧準(zhǔn)確率都有所提升。其原因是:在無(wú)標(biāo)注語(yǔ)料的聚類(lèi)過(guò)程中會(huì)產(chǎn)生一些噪聲,降低了詞義消歧準(zhǔn)確率。聚類(lèi)后的無(wú)標(biāo)注語(yǔ)料會(huì)為詞義消歧過(guò)程提供更多的語(yǔ)言學(xué)知識(shí)。因此,大多數(shù)歧義詞匯的平均消歧準(zhǔn)確率有所提高。由此可知,訓(xùn)練語(yǔ)料的規(guī)模對(duì)詞義消歧性能具有一定影響。

表2 訓(xùn)練語(yǔ)料規(guī)模對(duì)詞義消歧的影響

5.3 與貝葉斯分類(lèi)器和深度信念網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)

為了度量所提出方法的性能,共進(jìn)行了3組對(duì)比實(shí)驗(yàn)。

實(shí)驗(yàn)1選取歧義詞匯左右兩個(gè)詞匯單元的詞形、詞性和語(yǔ)義類(lèi)作為消歧特征,使用貝葉斯分類(lèi)器作為詞義消歧模型。使用SemEval-2007:Task#5的訓(xùn)練語(yǔ)料來(lái)優(yōu)化貝葉斯分類(lèi)器。使用優(yōu)化后的貝葉斯分類(lèi)器對(duì)SemEval-2007:Task#5的測(cè)試語(yǔ)料進(jìn)行消歧。

實(shí)驗(yàn)2選取歧義詞匯左右兩個(gè)詞匯單元的詞形、詞性和語(yǔ)義類(lèi)作為消歧特征,使用深度信念網(wǎng)絡(luò)作為詞義消歧模型。利用SemEval-2007:Task#5的訓(xùn)練語(yǔ)料來(lái)優(yōu)化深度信念網(wǎng)絡(luò)。使用優(yōu)化后的深度信念網(wǎng)絡(luò)對(duì)SemEval-2007:Task#5的測(cè)試語(yǔ)料進(jìn)行消歧。

實(shí)驗(yàn)3將聚類(lèi)得到的無(wú)標(biāo)注語(yǔ)料添加到SemEval-2007:Task#5的訓(xùn)練語(yǔ)料中用于優(yōu)化長(zhǎng)短期記憶網(wǎng)絡(luò)。使用優(yōu)化后的長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)SemEval-2007:Task#5的測(cè)試語(yǔ)料進(jìn)行消歧。

測(cè)試語(yǔ)料的消歧準(zhǔn)確率如表3所示。

從表3可以看出,實(shí)驗(yàn)3的平均準(zhǔn)確率要高于實(shí)驗(yàn)1和實(shí)驗(yàn)2。其原因是在深度信念網(wǎng)絡(luò)消歧模型和貝葉斯分類(lèi)器中,僅采用了歧義詞匯左右兩個(gè)詞匯單元的詞形、詞性和語(yǔ)義類(lèi)作為消歧特征。在所提出方法中,采用了歧義詞匯左右兩個(gè)詞匯單元的詞形、詞性、語(yǔ)義類(lèi)、英語(yǔ)譯文和消歧距離作為消歧特征,具有更強(qiáng)的語(yǔ)言現(xiàn)象覆蓋能力和判別消歧能力。此外,所提出的方法是以SemEval-2007:Task#5的訓(xùn)練語(yǔ)料為基礎(chǔ),使用k均值聚類(lèi)方法對(duì)大量無(wú)標(biāo)注語(yǔ)料進(jìn)行聚類(lèi)來(lái)優(yōu)化長(zhǎng)短期記憶網(wǎng)絡(luò)。從而使長(zhǎng)短期記憶網(wǎng)絡(luò)具有更好的詞義消歧性能,能夠覆蓋更多的語(yǔ)言學(xué)現(xiàn)象。在對(duì)比實(shí)驗(yàn)中,僅使用SemEval-2007:Task#5的訓(xùn)練語(yǔ)料來(lái)優(yōu)化深度信念網(wǎng)絡(luò)和貝葉斯分類(lèi)器。實(shí)驗(yàn)2的平均準(zhǔn)確率要高于實(shí)驗(yàn)1的,其原因是深度信念網(wǎng)絡(luò)的消歧性能要好于貝葉斯分類(lèi)器。由此可知,所提出的方法更適合于詞義消歧問(wèn)題。

表3 測(cè)試語(yǔ)料的消歧準(zhǔn)確率

6 總 結(jié)

選取歧義詞匯左右鄰接的4個(gè)詞匯單元的詞形和語(yǔ)義類(lèi)作為聚類(lèi)特征,利用k均值聚類(lèi)方法對(duì)無(wú)標(biāo)注語(yǔ)料聚類(lèi)。將聚類(lèi)得到的無(wú)標(biāo)注語(yǔ)料添加到有標(biāo)注語(yǔ)料中。提取歧義詞匯左右鄰接的4個(gè)詞匯單元的詞形、詞性、語(yǔ)義類(lèi)、英文譯文和消歧距離作為消歧特征來(lái)優(yōu)化長(zhǎng)短期記憶網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,相對(duì)于貝葉斯分類(lèi)器和深度信念網(wǎng)絡(luò)而言,所提出方法的平均消歧準(zhǔn)確率有所提升。

猜你喜歡
結(jié)點(diǎn)歧義語(yǔ)料
LEACH 算法應(yīng)用于礦井無(wú)線通信的路由算法研究
海量標(biāo)注語(yǔ)料庫(kù)智能構(gòu)建系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于八數(shù)碼問(wèn)題的搜索算法的研究
現(xiàn)代漢語(yǔ)歧義類(lèi)型的再討論
淺談視頻語(yǔ)料在對(duì)外漢語(yǔ)教學(xué)中的運(yùn)用
可比語(yǔ)料庫(kù)構(gòu)建與可比度計(jì)算研究綜述
eUCP條款歧義剖析
語(yǔ)文教學(xué)及生活情境中的歧義現(xiàn)象
基于關(guān)聯(lián)理論的歧義消除研究
英語(yǔ)教學(xué)中真實(shí)語(yǔ)料的運(yùn)用
辽宁省| 左云县| 黑龙江省| 汝州市| 郸城县| 闻喜县| 禄劝| 吉隆县| 威海市| 通州区| 铜陵市| 剑阁县| 绍兴县| 安丘市| 郴州市| 旬阳县| 沂南县| 延津县| 含山县| 巩义市| 井冈山市| 光山县| 鹤壁市| 莱芜市| 铜山县| 甘谷县| 兴仁县| 成武县| 本溪| 澜沧| 马龙县| 牡丹江市| 曲周县| 浦县| 家居| 古丈县| 宾川县| 禄劝| 道孚县| 襄樊市| 卫辉市|