基于滑動(dòng)語(yǔ)義串匹配(SMOSS)的漢語(yǔ)詞義消歧

2020-07-13 04:33黃德根

小型微型計(jì)算機(jī)系統(tǒng) 2020年7期

王偉，黃德根

(大連理工大學(xué) 電信學(xué)部計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，遼寧大連 116033)

1 引言

詞義消歧(WSD)是自然語(yǔ)言處理領(lǐng)域中的一個(gè)難點(diǎn)問(wèn)題[1,2],至今仍沒(méi)得到很好解決.現(xiàn)在自然語(yǔ)言處理研究已經(jīng)深入到語(yǔ)義分析層次，因此對(duì)于詞義消歧技術(shù)需求也就更加強(qiáng)烈.隨著詞義消歧研究不斷深入，研究人員提出了很多方法以提高性能，包括采用一些深度學(xué)習(xí)的方法.Dayu Yuan等人[3]采用LSTM模型的詞義消歧取得了較好效果.Alessandro Raganato等人[4]定制了從LSTM到編解碼模型一系列的神經(jīng)結(jié)構(gòu)并在多語(yǔ)種上取得好的效果.楊安等人[5]提出利用無(wú)標(biāo)注文本構(gòu)建的詞向量模型結(jié)合特定領(lǐng)域的關(guān)鍵詞信息的詞義消歧方法.Xue-Ren Sun等人[6]提出將原始詞義消歧問(wèn)題轉(zhuǎn)換為文本分類(lèi)問(wèn)題后使用LSTM進(jìn)行文本分類(lèi)的消歧方法.Minh Le等人[7]對(duì)Dayu Yuan等人[3]的LSTM詞義消歧方法進(jìn)行深入研究并分析優(yōu)缺點(diǎn).李國(guó)佳等人[8]提出在詞向量表示基礎(chǔ)上通過(guò)獲得多義詞的上下文窗口向量的詞義消歧方法.呂曉偉和章露露[9]提出利用向量表示的上下文和義項(xiàng)信息，通過(guò)融合語(yǔ)義相似度和義項(xiàng)分布頻率的詞義消歧方法.孟禹光等人[10]提出一種加入詞性特征的語(yǔ)境向量模型的詞義消歧方法.羅曜儒和李智[11]采用基于Bi-LSTM的語(yǔ)義向量表示歧義詞語(yǔ)義信息，在生物醫(yī)學(xué)文本中取得較好的消歧效果.此外，研究人員也提出了其他一些有特點(diǎn)的多種方法以提高性能.鹿文鵬和黃河燕[12]提出把歧義詞所在的句子先經(jīng)過(guò)句法分析后對(duì)依存約束集合進(jìn)行適配的詞義消歧方法.楊陟卓和黃河燕提出了采用語(yǔ)言模型優(yōu)化傳統(tǒng)有監(jiān)督消歧模型的方法[13].楊陟卓[14]提出把同一篇文章中的含相同歧義詞的句子作為歧義句的上下文語(yǔ)境進(jìn)行消歧的方法.閆蓉和高光來(lái)[15]提出依據(jù)詞性自動(dòng)調(diào)整消歧上下文邊界大小的消歧方法.ZHANG Chun-xiang等人[16]使用語(yǔ)義和句法信息提高了消歧性能.楊陟卓[17]通過(guò)假設(shè)歧義詞的上下文的譯文所組成的語(yǔ)境與原上下文語(yǔ)境所表述的意義相似，提出一種基于上下文翻譯的消歧方法.史兆鵬等人[18]提出利用依存句法分析提取上下文的多義詞及義項(xiàng)的多種特征的詞義消歧方法.WANG Xin-da等人[19]提出利用同義詞詞典選取替代詞代替目標(biāo)詞，通過(guò)模擬人的語(yǔ)義推理過(guò)程的詞義消歧方法.Devendra Singh Chaplot等人[20]使用主題模型突破了通常詞義消歧只能在一個(gè)句子或一定窗口寬度的范圍內(nèi)進(jìn)行的限制，實(shí)現(xiàn)了把整個(gè)文檔作為上下文并以線性速度運(yùn)行的詞義消歧.

本文提出了基于滑動(dòng)語(yǔ)義串匹配的詞義消歧模型.主要特點(diǎn)：1)使用詞的語(yǔ)義碼特征建立語(yǔ)義模板，解決傳統(tǒng)詞模板因模板長(zhǎng)度增加而導(dǎo)致數(shù)據(jù)稀疏的問(wèn)題，而且語(yǔ)義模板長(zhǎng)度可以做到更長(zhǎng)；2)采用彈性語(yǔ)義層級(jí)匹配策略，相對(duì)一些只選定固定語(yǔ)義層級(jí)匹配的方法，增加了匹配成功率；3)采用對(duì)多個(gè)匹配成功模板的得分計(jì)算，解決了武斷選擇某個(gè)單一匹配結(jié)果所導(dǎo)致的錯(cuò)誤率高的問(wèn)題.

2 模型

基于滑動(dòng)語(yǔ)義串匹配(Sliding Match of Semantic String,SMOSS)的詞義消歧，主要包括兩部分：一是建立N元語(yǔ)義模板庫(kù)，二是基于滑動(dòng)語(yǔ)義串匹配的詞義消歧.

2.1 采用《同義詞詞林》分類(lèi)標(biāo)準(zhǔn)

一般來(lái)說(shuō)，詞義消歧都是依據(jù)不同的語(yǔ)義分類(lèi)詞典進(jìn)行的，比如《知網(wǎng)》(HowNet)、《同義詞詞林》和《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》等.本文選用哈工大研制的《同義詞詞林》擴(kuò)展版，其編碼體系共有12個(gè)大類(lèi)，97個(gè)中類(lèi)，1400個(gè)小類(lèi)，采用5級(jí)表示.比如，“中學(xué)”編碼“Dm05A08@”，表明“中學(xué)”屬于D大類(lèi)，m中類(lèi)，05小類(lèi)，A類(lèi)詞群，08原子詞群，獨(dú)立分類(lèi)@.本文語(yǔ)義碼只使用《同義詞詞林》擴(kuò)展版編碼的前四位信息(小類(lèi)標(biāo)準(zhǔn))，比如“中學(xué)”編碼對(duì)應(yīng)“Dm05”.

2.2 建立N元語(yǔ)義模板庫(kù)

第1步.按照語(yǔ)義詞典，標(biāo)注訓(xùn)練語(yǔ)料句子每個(gè)詞對(duì)應(yīng)的語(yǔ)義碼；對(duì)于單義詞，由機(jī)器自動(dòng)按照語(yǔ)義詞典的語(yǔ)義碼一一對(duì)應(yīng)標(biāo)注；對(duì)于多義詞，則根據(jù)詞所在上下文信息，由人工從語(yǔ)義詞典選擇最恰當(dāng)?shù)恼Z(yǔ)義碼進(jìn)行標(biāo)注.對(duì)于由n個(gè)詞構(gòu)成的句子，這n個(gè)詞對(duì)應(yīng)的n個(gè)語(yǔ)義碼{S1,S2,…,Sn}稱為“語(yǔ)義碼序列”.對(duì)于語(yǔ)義碼序列中的一部分，則稱為“語(yǔ)義碼串”，簡(jiǎn)稱語(yǔ)義串，比如，一個(gè)語(yǔ)義碼串{S1，S2，S3，S4，S5}就是n長(zhǎng)度的語(yǔ)義碼序列{S1,S2,S3，S4，S5,…,Sn}中的一部分.

第2步.對(duì)每個(gè)語(yǔ)義碼序列，按每移動(dòng)一個(gè)語(yǔ)義碼位置，以N個(gè)語(yǔ)義碼長(zhǎng)度(本文N=5)進(jìn)行切分分組，即以“寬度為N的窗口”從每一個(gè)語(yǔ)義序列前端開(kāi)始向后滑動(dòng)，每滑過(guò)一個(gè)語(yǔ)義碼位置，就從該窗口中抽取一個(gè)含有N個(gè)長(zhǎng)度的語(yǔ)義碼串，從已經(jīng)標(biāo)注好的訓(xùn)練語(yǔ)料中抽取的語(yǔ)義碼串，稱為“N元語(yǔ)義模板”.以此類(lèi)推，把一個(gè)語(yǔ)義碼序列中所有N元語(yǔ)義模板都提取出來(lái).對(duì)于每個(gè)語(yǔ)義碼序列中不足以按N長(zhǎng)度劃分的結(jié)尾部分，則按實(shí)際的長(zhǎng)度提取，直到提取模板長(zhǎng)度為1為止.由n個(gè)詞構(gòu)成的句子中可抽取n個(gè)語(yǔ)義模板(T1，T2，T3，…，Tn)，見(jiàn)圖1.比如，從句子“遠(yuǎn)在五千多年前，人類(lèi)發(fā)明了文字.”提取的N元語(yǔ)義模板樣例，見(jiàn)圖2.其中“△”表明該模板是在句子的開(kāi)頭位置.

圖1 從語(yǔ)義標(biāo)注的句子中提取N元語(yǔ)義模板(N=5)的示意圖

圖2 從“遠(yuǎn)在五千多年前，人類(lèi)發(fā)明了文字.”句子提取的部分N元語(yǔ)義模板

第3步.對(duì)語(yǔ)料庫(kù)中的所有標(biāo)注的句子都重復(fù)以上第1步和第2步操作，直至抽取所有的N元語(yǔ)義模板，從而建立一個(gè)N元語(yǔ)義模板庫(kù).

2.3 基于滑動(dòng)語(yǔ)義串匹配的詞義消歧

2.3.1 填寫(xiě)句子每個(gè)詞的語(yǔ)義碼得到語(yǔ)義碼序列

按照語(yǔ)義詞典，對(duì)于單義詞的單個(gè)語(yǔ)義碼，用“Sx”表示，多義詞的多個(gè)語(yǔ)義碼則用“Sx-1/Sx-2/Sx-3…”表示，見(jiàn)圖3.比如，其中的第2個(gè)詞和第6個(gè)詞是多義詞，它們的語(yǔ)義碼都包含兩個(gè)語(yǔ)義碼.圖3中語(yǔ)義碼序列為“S1S2-1/S2-2S3S4…Sn-1Sn”.

2.3.2 提取N元語(yǔ)義碼串并分組和分區(qū)

在按前一操作得到的語(yǔ)義碼序列上，按每N元長(zhǎng)度(本文取N= 5)提取所有語(yǔ)義碼串，并對(duì)它們按水平方向分組和垂直方向進(jìn)行分區(qū).分組過(guò)程與建立N元語(yǔ)義模板庫(kù)時(shí)提取N元語(yǔ)義模板過(guò)程相似，只不過(guò)這里每一組語(yǔ)義碼串并不是一個(gè)N元語(yǔ)義模板而已.按水平方向進(jìn)行分組后的n個(gè)語(yǔ)義碼串(C1，C2，C3，…，Cn-1，Cn)和垂直方向進(jìn)行分區(qū)的5個(gè)分區(qū)(1區(qū)、2區(qū)、3區(qū)、4區(qū)、5區(qū))的示意圖，見(jiàn)圖3.

2.3.3 計(jì)算語(yǔ)義碼串與N元語(yǔ)義模板的匹配得分

1)計(jì)算語(yǔ)義碼串中的單個(gè)語(yǔ)義碼的匹配得分

對(duì)于每個(gè)提取的N元語(yǔ)義碼串中的語(yǔ)義碼，在與N元語(yǔ)義模板庫(kù)中N元語(yǔ)義模板的對(duì)應(yīng)位置的語(yǔ)義碼匹配時(shí)，兩個(gè)來(lái)源不同的語(yǔ)義碼是按照語(yǔ)義詞典的編碼格式從大類(lèi)到小類(lèi)的順序依次進(jìn)行匹配，先分別得到大類(lèi)匹配得分MatchScore_Level(1)、中類(lèi)匹配得分MatchScore_Level(2)和小類(lèi)匹配得分MatchScore_Level(3)，見(jiàn)公式(1).

圖3 由n個(gè)語(yǔ)義碼構(gòu)成的語(yǔ)義碼序列和按水平分組、按垂直分區(qū)的示意圖

(1)

其中Xs表示語(yǔ)義碼串的一個(gè)語(yǔ)義碼，Xt表示與Xs對(duì)應(yīng)的N元語(yǔ)義模板中的語(yǔ)義碼；i= 1，2，3分別表示對(duì)應(yīng)的語(yǔ)義碼層級(jí)，每個(gè)層級(jí)得分的大類(lèi)Big_Score、中類(lèi)Mid_Score和小類(lèi)Small_Score可定義為某一個(gè)指定常數(shù).然后通過(guò)對(duì)三種分類(lèi)層級(jí)的匹配得分加權(quán)求和而得到單個(gè)語(yǔ)義碼的匹配得分MatchScore_Unit，見(jiàn)公式(2).

(2)

其中LevelWeight(i)為每類(lèi)層級(jí)的權(quán)重，L值為加權(quán)求和時(shí)所包含的語(yǔ)義碼類(lèi)別，本文L= 3,即包含大類(lèi)、中類(lèi)和小類(lèi)三種類(lèi)型的加權(quán)求和.

2)計(jì)算整個(gè)語(yǔ)義碼串的匹配得分

按照一個(gè)語(yǔ)義碼串從開(kāi)始到結(jié)尾順序，對(duì)一個(gè)語(yǔ)義碼串上的每個(gè)語(yǔ)義碼的匹配得分進(jìn)行加權(quán)求和，從而得到整個(gè)語(yǔ)義碼串的匹配得分MatchScore_SemanticString，見(jiàn)公式(3).

WordTypeWeight(j)*WordPositionWeight(j)

(3)

其中M表示當(dāng)一個(gè)語(yǔ)義碼串與一個(gè)N元語(yǔ)義模板從開(kāi)始位置向后連續(xù)匹配時(shí)，語(yǔ)義碼串上的語(yǔ)義碼的匹配得分不為0時(shí)的最大語(yǔ)義碼個(gè)數(shù)，M≤N，即語(yǔ)義碼串的最大匹配長(zhǎng)度；WordTypeWeight(j)為每個(gè)語(yǔ)義碼的詞類(lèi)權(quán)重(比如把語(yǔ)義碼對(duì)應(yīng)的詞按實(shí)詞和虛詞進(jìn)行區(qū)別)；WordPositionWeight(j)為語(yǔ)義碼在模板上的位置權(quán)重(比如把語(yǔ)義碼的位置按居于模板中心和邊緣進(jìn)行區(qū)分)，本文選擇當(dāng)j=1或j=M時(shí)(也即是最長(zhǎng)語(yǔ)義碼的首尾兩個(gè)邊端位置)，調(diào)整WordPositionWeight，其余情況不調(diào)整.

3)匹配時(shí)的未知詞和有多個(gè)匹配結(jié)果的處理

a)未知詞的語(yǔ)義碼處理

圖4 N元語(yǔ)義碼串與N元語(yǔ)義模板的匹配結(jié)果示意圖

未知詞的語(yǔ)義碼，本文按照詞性進(jìn)行默認(rèn)指定，如果為名詞，則候選語(yǔ)義碼“Aa00A00#,Ba00A00#,Ca00A00#,Da00A00#”；如果為動(dòng)詞，則候選的語(yǔ)義碼“Fa00A00#,Ga00A00#,Ha00A00#,Ia00A00#,Ja00A00#”.

b)語(yǔ)義碼串匹配時(shí)有多個(gè)匹配結(jié)果的處理

當(dāng)一個(gè)N元語(yǔ)義串匹配到多個(gè)N元語(yǔ)義模板時(shí)，一律保留這些匹配的語(yǔ)義模板，見(jiàn)圖4.其中第4個(gè)語(yǔ)義碼串(C4)保留了匹配成功的多個(gè)語(yǔ)義模板(共2個(gè)，T4-1和T4-2).另外，圖4也說(shuō)明了匹配成功的長(zhǎng)度不一定都是N長(zhǎng)度的，比如第3個(gè)語(yǔ)義碼串的N元長(zhǎng)度是5，但是最大的模板匹配長(zhǎng)度是N-1=4，結(jié)尾語(yǔ)義碼(S7)的匹配為失敗(即黑色填充表示的部分).

2.3.4 按照語(yǔ)義碼串的匹配結(jié)果確定最終語(yǔ)義碼

1)得到每個(gè)區(qū)中每個(gè)詞的各種語(yǔ)義碼的最大得分

從第一個(gè)區(qū)開(kāi)始，對(duì)每個(gè)區(qū)內(nèi)所有匹配模板的語(yǔ)義碼按照每個(gè)詞位置進(jìn)行垂直方向過(guò)濾.對(duì)于過(guò)濾后的不同類(lèi)型語(yǔ)義碼，分別列出不同區(qū)中語(yǔ)義碼在模板匹配時(shí)的不同得分，見(jiàn)圖5.

2)得到所有區(qū)中各種語(yǔ)義碼的最大得分

對(duì)于每個(gè)詞位置上的所有語(yǔ)義碼，分別在N個(gè)區(qū)上進(jìn)行垂直過(guò)濾后而得到每種語(yǔ)義碼的最大匹配得分，按照專(zhuān)門(mén)算法計(jì)算每種語(yǔ)義碼在所有N個(gè)區(qū)中的得分.專(zhuān)門(mén)算法中包括統(tǒng)計(jì)所有N個(gè)區(qū)對(duì)每一種語(yǔ)義碼的投票數(shù)，規(guī)定每個(gè)區(qū)對(duì)每種語(yǔ)義碼最多只有1個(gè)投票數(shù)，如果某語(yǔ)義碼在某區(qū)不存在，那么該區(qū)對(duì)該語(yǔ)義碼的投票數(shù)為0.同時(shí)考慮其他得分信息，比如在所有N個(gè)區(qū)中的在單個(gè)區(qū)中的最大得分，在所有N個(gè)區(qū)中的累計(jì)得分等，每個(gè)詞的各種語(yǔ)義碼的最后得分為FinalScore，見(jiàn)公式(4).

圖5 通過(guò)過(guò)濾和加權(quán)計(jì)算確定最終語(yǔ)義碼的示意圖

FinalScore=λ1*VoteNum+λ2*MaxScore_T+λ3*AccumulativeScore_T

(4)

其中，VoteNum為所有區(qū)對(duì)該語(yǔ)義碼的投票數(shù)；MaxScore_T為該語(yǔ)義碼在所有N個(gè)區(qū)的范圍內(nèi)最大的單個(gè)區(qū)得分；AccumulativeScore_T為累計(jì)該種語(yǔ)義碼在所有N個(gè)區(qū)中最大得分后的匯總得分；λ1、λ2、λ3為細(xì)分權(quán)重.

3)選擇所有N個(gè)區(qū)中得分最大的語(yǔ)義碼為最終輸出

選擇每個(gè)詞位置上匹配得分最大的語(yǔ)義碼進(jìn)行輸出，從句子第一個(gè)詞開(kāi)始，直到輸出整個(gè)句子上所有詞的語(yǔ)義碼，見(jiàn)圖5.由于每個(gè)區(qū)中不同得分的語(yǔ)義碼可能有很多，本文選擇每個(gè)區(qū)中的得分由高到低的前TopX項(xiàng)(X值實(shí)驗(yàn)選定)參與后面的計(jì)算.其中最終輸出的語(yǔ)義碼為“S1,S2-2，S3,S4,S5,S6-1，S7,S8…”，多義詞W2和W6消歧后的語(yǔ)義碼分別為S2-2和S6-1.

3 實(shí) 驗(yàn)

實(shí)驗(yàn)語(yǔ)料：為了檢驗(yàn)本文方法的效果，選用國(guó)際語(yǔ)義評(píng)測(cè)的中英文詞匯任務(wù)SemEval-2007中的Task#5[21]進(jìn)行實(shí)驗(yàn).本任務(wù)共有40個(gè)歧義詞，其中分別有19個(gè)名詞和21個(gè)動(dòng)詞.評(píng)估任務(wù)共提供訓(xùn)練句子2686句，測(cè)試句子935句.

實(shí)驗(yàn)準(zhǔn)備：為了有效驗(yàn)證本文方法和減少標(biāo)注工作量，本文僅標(biāo)注了訓(xùn)練句子中多義詞的左右兩邊的N-1個(gè)詞語(yǔ)的語(yǔ)義碼，因?yàn)閷?shí)際提取的模板也只是使用這部分信息.按照《同義詞詞林》擴(kuò)展版的語(yǔ)義碼和原語(yǔ)料給定的詞性制約，自動(dòng)地預(yù)先過(guò)濾掉那些不符合詞性的候選語(yǔ)義碼，然后對(duì)其中單義詞進(jìn)行自動(dòng)標(biāo)注，對(duì)多義詞進(jìn)行人工標(biāo)注，整個(gè)標(biāo)注的工作量為1人3天.

評(píng)測(cè)標(biāo)準(zhǔn)：采用評(píng)估標(biāo)準(zhǔn)中的宏平均精度(Pmar,macro average accuracy).

其中，N為所有目標(biāo)詞數(shù)，mi是對(duì)每一個(gè)特定詞所標(biāo)注的正確例句數(shù)，ni是對(duì)該特定詞所有的測(cè)試?yán)鋽?shù).

實(shí)驗(yàn)結(jié)果：多種選擇方案后的實(shí)驗(yàn)結(jié)果見(jiàn)表1.

表1 多義詞消歧精度(按4種方案測(cè)試)

4 實(shí)驗(yàn)結(jié)果分析

從表1結(jié)果來(lái)看，在選擇每個(gè)區(qū)參與計(jì)算的TOP項(xiàng)時(shí)，如果只選擇一個(gè)TOP項(xiàng)時(shí)，即選擇TOP1時(shí)，效果最差.隨著選擇TOP項(xiàng)增多，性能逐漸提高，但當(dāng)TOP項(xiàng)數(shù)超過(guò)一定值時(shí)，性能有所下降.根據(jù)當(dāng)前的實(shí)驗(yàn)，選擇的TOP項(xiàng)數(shù)為3時(shí)比較好.產(chǎn)生這個(gè)問(wèn)題的原因，可能是每個(gè)區(qū)參與項(xiàng)數(shù)太少時(shí)，會(huì)硬性攔下了正確內(nèi)容，而項(xiàng)數(shù)太多時(shí)，干擾的噪聲又會(huì)增加，從而影響了整體性能.從所選擇的不同實(shí)驗(yàn)方案來(lái)看，它們各有優(yōu)勢(shì).對(duì)于選擇所有區(qū)中的單個(gè)得分最大者,或者所有區(qū)中單個(gè)最大得分的累計(jì)得分最大者，都要好于單獨(dú)選擇投票數(shù)最大的方法.分析原因：?jiǎn)渭兾鍌€(gè)區(qū)投票最大票數(shù)是5，當(dāng)存在多個(gè)并列結(jié)果時(shí)，系統(tǒng)只是順序選擇并列中的第一個(gè)，從而造成了性能下降.

從結(jié)果出錯(cuò)的地方來(lái)看，一些是權(quán)重值不合理造成的，這個(gè)日后可繼續(xù)優(yōu)化；還有一些，就是與訓(xùn)練語(yǔ)料中提取的所有模板都不匹配而導(dǎo)致的錯(cuò)誤，如果連匹配最底層的一級(jí)(大類(lèi))語(yǔ)義碼的模板都不存在，即使想通過(guò)語(yǔ)義碼來(lái)擴(kuò)展那也無(wú)法成行.對(duì)于這種問(wèn)題，還是需要擴(kuò)充相應(yīng)標(biāo)注語(yǔ)料才能解決，本文方法雖然具有“取一個(gè)詞=>得到一個(gè)語(yǔ)義碼=>覆蓋多個(gè)詞”的能力，并可通過(guò)彈性匹配來(lái)解決一定的數(shù)據(jù)稀疏問(wèn)題，但是若整個(gè)訓(xùn)練語(yǔ)料中連原始的同義詞都不存在，也就自然談不上擴(kuò)展和覆蓋了.因此，從這個(gè)意義上講，用于訓(xùn)練的語(yǔ)料規(guī)模還是越大越好.

5 相關(guān)研究的對(duì)比

為了與其他方法對(duì)比，表2中列出了目前已知使用SemEval-2007評(píng)測(cè)標(biāo)準(zhǔn)的一些方法.

對(duì)于表2中結(jié)果，XING[22]使用了詞性、指定詞性的詞、淺層句法分析的短語(yǔ)、《同義詞詞林》詞范疇信息等，該方法由于使用了外部淺層句法分析資源，因此容易受到淺層句法分析質(zhì)量的影響.楊陟卓等[13]使用大規(guī)模語(yǔ)料(1998年半年《人民日?qǐng)?bào)》和搜狗新聞數(shù)據(jù)語(yǔ)料庫(kù))訓(xùn)練語(yǔ)言模型，然后利用綜合模型進(jìn)行消歧，該結(jié)果是在給定訓(xùn)練語(yǔ)料之外再加其他外部語(yǔ)料進(jìn)行訓(xùn)練后的測(cè)試結(jié)果.楊陟卓[17]將訓(xùn)練語(yǔ)料的上下文和測(cè)試語(yǔ)料的上下文分別翻譯后再通過(guò)貝葉斯消歧模型進(jìn)行消歧，該方法需要依賴外部翻譯資源，因此容易受到翻譯質(zhì)量的影響.本文方法除了使用《同義詞詞林》語(yǔ)義編碼詞典外，沒(méi)使用其他的資源和復(fù)雜特征，因此可以不受外部資源影響而獨(dú)立工作.即使在只利用語(yǔ)義模板本身語(yǔ)義信息和較少上下文標(biāo)注信息(目標(biāo)詞左右4個(gè)詞的語(yǔ)義碼)，在處理過(guò)程不復(fù)雜的情況下，就取得與對(duì)比方法相接近的效果.而且，若是對(duì)于一個(gè)句子中同時(shí)有多個(gè)歧義詞需要消歧時(shí)，只要它們是在一個(gè)模板長(zhǎng)度覆蓋內(nèi)，我們方法就可一次并行地消歧多個(gè)目標(biāo)詞，而不用逐個(gè)歧義詞分別模板匹配，這將大大提高消歧效率，特別適合于全文所有詞的詞義消歧.

表2 相關(guān)其他方法的對(duì)比

Table 2 Comparison with other methods

方法PmarXINGYUN[22](2007)SRCP_WSD74.90楊陟卓,黃河燕[13](2014)Optimized_ME75.30楊陟卓[17](2017)Method_275.97本文SMOSS75.06

6 總結(jié)

本文提出一種基于滑動(dòng)語(yǔ)義串匹配(SMOSS)的漢語(yǔ)詞義消歧方法.其先從經(jīng)過(guò)語(yǔ)義碼標(biāo)注的訓(xùn)練語(yǔ)料中提取N元語(yǔ)義模板，以建立語(yǔ)義模板庫(kù)；然后滑動(dòng)地將測(cè)試句中的N元語(yǔ)義碼串與N元語(yǔ)義模板匹配，通過(guò)目標(biāo)歧義詞左右兩邊N-1個(gè)語(yǔ)義碼的定位匹配，確定了該目標(biāo)歧義詞的詞義.該方法使用詞的語(yǔ)義碼建立模板，比使用詞建立模板具有更好的覆蓋度，而且3級(jí)層次的語(yǔ)義碼格式可以更適合彈性匹配，這都有效緩解了有監(jiān)督學(xué)習(xí)方法中數(shù)據(jù)稀疏的問(wèn)題.從本文使用SemEval2007 Task#5評(píng)測(cè)實(shí)驗(yàn)來(lái)看，即使僅使用目標(biāo)詞左右N-1詞長(zhǎng)度的語(yǔ)義碼信息，在沒(méi)使用其他的復(fù)雜特征和依賴復(fù)雜的外部資源的情況下，也可以達(dá)到接近于目前該標(biāo)準(zhǔn)最好的性能，充分表明該方法的簡(jiǎn)潔性和有效性.以后我們將在優(yōu)化參數(shù)上繼續(xù)挖掘潛力，以期能能更好地提高詞義消歧性能.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡