王 偉,黃德根
(大連理工大學(xué) 電信學(xué)部 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116033)
詞義消歧(WSD)是自然語(yǔ)言處理領(lǐng)域中的一個(gè)難點(diǎn)問(wèn)題[1,2],至今仍沒(méi)得到很好解決.現(xiàn)在自然語(yǔ)言處理研究已經(jīng)深入到語(yǔ)義分析層次,因此對(duì)于詞義消歧技術(shù)需求也就更加強(qiáng)烈.隨著詞義消歧研究不斷深入,研究人員提出了很多方法以提高性能,包括采用一些深度學(xué)習(xí)的方法.Dayu Yuan等人[3]采用LSTM模型的詞義消歧取得了較好效果.Alessandro Raganato等人[4]定制了從LSTM到編解碼模型一系列的神經(jīng)結(jié)構(gòu)并在多語(yǔ)種上取得好的效果.楊安等人[5]提出利用無(wú)標(biāo)注文本構(gòu)建的詞向量模型結(jié)合特定領(lǐng)域的關(guān)鍵詞信息的詞義消歧方法.Xue-Ren Sun等人[6]提出將原始詞義消歧問(wèn)題轉(zhuǎn)換為文本分類(lèi)問(wèn)題后使用LSTM進(jìn)行文本分類(lèi)的消歧方法.Minh Le等人[7]對(duì)Dayu Yuan等人[3]的LSTM詞義消歧方法進(jìn)行深入研究并分析優(yōu)缺點(diǎn).李國(guó)佳等人[8]提出在詞向量表示基礎(chǔ)上通過(guò)獲得多義詞的上下文窗口向量的詞義消歧方法.呂曉偉和章露露[9]提出利用向量表示的上下文和義項(xiàng)信息,通過(guò)融合語(yǔ)義相似度和義項(xiàng)分布頻率的詞義消歧方法.孟禹光等人[10]提出一種加入詞性特征的語(yǔ)境向量模型的詞義消歧方法.羅曜儒和李智[11]采用基于Bi-LSTM的語(yǔ)義向量表示歧義詞語(yǔ)義信息,在生物醫(yī)學(xué)文本中取得較好的消歧效果.此外,研究人員也提出了其他一些有特點(diǎn)的多種方法以提高性能.鹿文鵬和黃河燕[12]提出把歧義詞所在的句子先經(jīng)過(guò)句法分析后對(duì)依存約束集合進(jìn)行適配的詞義消歧方法.楊陟卓和黃河燕提出了采用語(yǔ)言模型優(yōu)化傳統(tǒng)有監(jiān)督消歧模型的方法[13].楊陟卓[14]提出把同一篇文章中的含相同歧義詞的句子作為歧義句的上下文語(yǔ)境進(jìn)行消歧的方法.閆蓉和高光來(lái)[15]提出依據(jù)詞性自動(dòng)調(diào)整消歧上下文邊界大小的消歧方法.ZHANG Chun-xiang等人[16]使用語(yǔ)義和句法信息提高了消歧性能.楊陟卓[17]通過(guò)假設(shè)歧義詞的上下文的譯文所組成的語(yǔ)境與原上下文語(yǔ)境所表述的意義相似,提出一種基于上下文翻譯的消歧方法.史兆鵬等人[18]提出利用依存句法分析提取上下文的多義詞及義項(xiàng)的多種特征的詞義消歧方法.WANG Xin-da等人[19]提出利用同義詞詞典選取替代詞代替目標(biāo)詞,通過(guò)模擬人的語(yǔ)義推理過(guò)程的詞義消歧方法.Devendra Singh Chaplot等人[20]使用主題模型突破了通常詞義消歧只能在一個(gè)句子或一定窗口寬度的范圍內(nèi)進(jìn)行的限制,實(shí)現(xiàn)了把整個(gè)文檔作為上下文并以線性速度運(yùn)行的詞義消歧.
本文提出了基于滑動(dòng)語(yǔ)義串匹配的詞義消歧模型.主要特點(diǎn):1)使用詞的語(yǔ)義碼特征建立語(yǔ)義模板,解決傳統(tǒng)詞模板因模板長(zhǎng)度增加而導(dǎo)致數(shù)據(jù)稀疏的問(wèn)題,而且語(yǔ)義模板長(zhǎng)度可以做到更長(zhǎng);2)采用彈性語(yǔ)義層級(jí)匹配策略,相對(duì)一些只選定固定語(yǔ)義層級(jí)匹配的方法,增加了匹配成功率;3)采用對(duì)多個(gè)匹配成功模板的得分計(jì)算,解決了武斷選擇某個(gè)單一匹配結(jié)果所導(dǎo)致的錯(cuò)誤率高的問(wèn)題.
基于滑動(dòng)語(yǔ)義串匹配(Sliding Match of Semantic String,SMOSS)的詞義消歧,主要包括兩部分:一是建立N元語(yǔ)義模板庫(kù),二是基于滑動(dòng)語(yǔ)義串匹配的詞義消歧.
一般來(lái)說(shuō),詞義消歧都是依據(jù)不同的語(yǔ)義分類(lèi)詞典進(jìn)行的,比如《知網(wǎng)》(HowNet)、《同義詞詞林》和《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》等.本文選用哈工大研制的《同義詞詞林》擴(kuò)展版,其編碼體系共有12個(gè)大類(lèi),97個(gè)中類(lèi),1400個(gè)小類(lèi),采用5級(jí)表示.比如,“中學(xué)”編碼“Dm05A08@”,表明“中學(xué)”屬于D大類(lèi),m中類(lèi),05小類(lèi),A類(lèi)詞群,08原子詞群,獨(dú)立分類(lèi)@.本文語(yǔ)義碼只使用《同義詞詞林》擴(kuò)展版編碼的前四位信息(小類(lèi)標(biāo)準(zhǔn)),比如“中學(xué)”編碼對(duì)應(yīng)“Dm05”.
第1步.按照語(yǔ)義詞典,標(biāo)注訓(xùn)練語(yǔ)料句子每個(gè)詞對(duì)應(yīng)的語(yǔ)義碼;對(duì)于單義詞,由機(jī)器自動(dòng)按照語(yǔ)義詞典的語(yǔ)義碼一一對(duì)應(yīng)標(biāo)注;對(duì)于多義詞,則根據(jù)詞所在上下文信息,由人工從語(yǔ)義詞典選擇最恰當(dāng)?shù)恼Z(yǔ)義碼進(jìn)行標(biāo)注.對(duì)于由n個(gè)詞構(gòu)成的句子,這n個(gè)詞對(duì)應(yīng)的n個(gè)語(yǔ)義碼{S1,S2,…,Sn}稱為“語(yǔ)義碼序列”.對(duì)于語(yǔ)義碼序列中的一部分,則稱為“語(yǔ)義碼串”,簡(jiǎn)稱語(yǔ)義串,比如,一個(gè)語(yǔ)義碼串{S1,S2,S3,S4,S5}就是n長(zhǎng)度的語(yǔ)義碼序列{S1,S2,S3,S4,S5,…,Sn}中的一部分.
第2步.對(duì)每個(gè)語(yǔ)義碼序列,按每移動(dòng)一個(gè)語(yǔ)義碼位置,以N個(gè)語(yǔ)義碼長(zhǎng)度(本文N=5)進(jìn)行切分分組,即以“寬度為N的窗口”從每一個(gè)語(yǔ)義序列前端開(kāi)始向后滑動(dòng),每滑過(guò)一個(gè)語(yǔ)義碼位置,就從該窗口中抽取一個(gè)含有N個(gè)長(zhǎng)度的語(yǔ)義碼串,從已經(jīng)標(biāo)注好的訓(xùn)練語(yǔ)料中抽取的語(yǔ)義碼串,稱為“N元語(yǔ)義模板”.以此類(lèi)推,把一個(gè)語(yǔ)義碼序列中所有N元語(yǔ)義模板都提取出來(lái).對(duì)于每個(gè)語(yǔ)義碼序列中不足以按N長(zhǎng)度劃分的結(jié)尾部分,則按實(shí)際的長(zhǎng)度提取,直到提取模板長(zhǎng)度為1為止.由n個(gè)詞構(gòu)成的句子中可抽取n個(gè)語(yǔ)義模板(T1,T2,T3,…,Tn),見(jiàn)圖1.比如,從句子“遠(yuǎn)在五千多年前,人類(lèi)發(fā)明了文字.”提取的N元語(yǔ)義模板樣例,見(jiàn)圖2.其中“△”表明該模板是在句子的開(kāi)頭位置.
圖1 從語(yǔ)義標(biāo)注的句子中提取N元語(yǔ)義模板(N=5)的示意圖
圖2 從“遠(yuǎn)在五千多年前,人類(lèi)發(fā)明了文字.”句子提取的部分N元語(yǔ)義模板
第3步.對(duì)語(yǔ)料庫(kù)中的所有標(biāo)注的句子都重復(fù)以上第1步和第2步操作,直至抽取所有的N元語(yǔ)義模板,從而建立一個(gè)N元語(yǔ)義模板庫(kù).
2.3.1 填寫(xiě)句子每個(gè)詞的語(yǔ)義碼得到語(yǔ)義碼序列
按照語(yǔ)義詞典,對(duì)于單義詞的單個(gè)語(yǔ)義碼,用“Sx”表示,多義詞的多個(gè)語(yǔ)義碼則用“Sx-1/Sx-2/Sx-3…”表示,見(jiàn)圖3.比如,其中的第2個(gè)詞和第6個(gè)詞是多義詞,它們的語(yǔ)義碼都包含兩個(gè)語(yǔ)義碼.圖3中語(yǔ)義碼序列為“S1S2-1/S2-2S3S4…Sn-1Sn”.
2.3.2 提取N元語(yǔ)義碼串并分組和分區(qū)
在按前一操作得到的語(yǔ)義碼序列上,按每N元長(zhǎng)度(本文取N= 5)提取所有語(yǔ)義碼串,并對(duì)它們按水平方向分組和垂直方向進(jìn)行分區(qū).分組過(guò)程與建立N元語(yǔ)義模板庫(kù)時(shí)提取N元語(yǔ)義模板過(guò)程相似,只不過(guò)這里每一組語(yǔ)義碼串并不是一個(gè)N元語(yǔ)義模板而已.按水平方向進(jìn)行分組后的n個(gè)語(yǔ)義碼串(C1,C2,C3,…,Cn-1,Cn)和垂直方向進(jìn)行分區(qū)的5個(gè)分區(qū)(1區(qū)、2區(qū)、3區(qū)、4區(qū)、5區(qū))的示意圖,見(jiàn)圖3.
2.3.3 計(jì)算語(yǔ)義碼串與N元語(yǔ)義模板的匹配得分
1)計(jì)算語(yǔ)義碼串中的單個(gè)語(yǔ)義碼的匹配得分
對(duì)于每個(gè)提取的N元語(yǔ)義碼串中的語(yǔ)義碼,在與N元語(yǔ)義模板庫(kù)中N元語(yǔ)義模板的對(duì)應(yīng)位置的語(yǔ)義碼匹配時(shí),兩個(gè)來(lái)源不同的語(yǔ)義碼是按照語(yǔ)義詞典的編碼格式從大類(lèi)到小類(lèi)的順序依次進(jìn)行匹配,先分別得到大類(lèi)匹配得分MatchScore_Level(1)、中類(lèi)匹配得分MatchScore_Level(2)和小類(lèi)匹配得分MatchScore_Level(3),見(jiàn)公式(1).
圖3 由n個(gè)語(yǔ)義碼構(gòu)成的語(yǔ)義碼序列和按水平分組、按垂直分區(qū)的示意圖
(1)
其中Xs表示語(yǔ)義碼串的一個(gè)語(yǔ)義碼,Xt表示與Xs對(duì)應(yīng)的N元語(yǔ)義模板中的語(yǔ)義碼;i= 1,2,3分別表示對(duì)應(yīng)的語(yǔ)義碼層級(jí),每個(gè)層級(jí)得分的大類(lèi)Big_Score、中類(lèi)Mid_Score和小類(lèi)Small_Score可定義為某一個(gè)指定常數(shù).然后通過(guò)對(duì)三種分類(lèi)層級(jí)的匹配得分加權(quán)求和而得到單個(gè)語(yǔ)義碼的匹配得分MatchScore_Unit,見(jiàn)公式(2).
(2)
其中LevelWeight(i)為每類(lèi)層級(jí)的權(quán)重,L值為加權(quán)求和時(shí)所包含的語(yǔ)義碼類(lèi)別,本文L= 3,即包含大類(lèi)、中類(lèi)和小類(lèi)三種類(lèi)型的加權(quán)求和.
2)計(jì)算整個(gè)語(yǔ)義碼串的匹配得分
按照一個(gè)語(yǔ)義碼串從開(kāi)始到結(jié)尾順序,對(duì)一個(gè)語(yǔ)義碼串上的每個(gè)語(yǔ)義碼的匹配得分進(jìn)行加權(quán)求和,從而得到整個(gè)語(yǔ)義碼串的匹配得分MatchScore_SemanticString,見(jiàn)公式(3).
WordTypeWeight(j)*WordPositionWeight(j)
(3)
其中M表示當(dāng)一個(gè)語(yǔ)義碼串與一個(gè)N元語(yǔ)義模板從開(kāi)始位置向后連續(xù)匹配時(shí),語(yǔ)義碼串上的語(yǔ)義碼的匹配得分不為0時(shí)的最大語(yǔ)義碼個(gè)數(shù),M≤N,即語(yǔ)義碼串的最大匹配長(zhǎng)度;WordTypeWeight(j)為每個(gè)語(yǔ)義碼的詞類(lèi)權(quán)重(比如把語(yǔ)義碼對(duì)應(yīng)的詞按實(shí)詞和虛詞進(jìn)行區(qū)別);WordPositionWeight(j)為語(yǔ)義碼在模板上的位置權(quán)重(比如把語(yǔ)義碼的位置按居于模板中心和邊緣進(jìn)行區(qū)分),本文選擇當(dāng)j=1或j=M時(shí)(也即是最長(zhǎng)語(yǔ)義碼的首尾兩個(gè)邊端位置),調(diào)整WordPositionWeight,其余情況不調(diào)整.
3)匹配時(shí)的未知詞和有多個(gè)匹配結(jié)果的處理
a)未知詞的語(yǔ)義碼處理
圖4 N元語(yǔ)義碼串與N元語(yǔ)義模板的匹配結(jié)果示意圖
未知詞的語(yǔ)義碼,本文按照詞性進(jìn)行默認(rèn)指定,如果為名詞,則候選語(yǔ)義碼“Aa00A00#,Ba00A00#,Ca00A00#,Da00A00#”;如果為動(dòng)詞,則候選的語(yǔ)義碼“Fa00A00#,Ga00A00#,Ha00A00#,Ia00A00#,Ja00A00#”.
b)語(yǔ)義碼串匹配時(shí)有多個(gè)匹配結(jié)果的處理
當(dāng)一個(gè)N元語(yǔ)義串匹配到多個(gè)N元語(yǔ)義模板時(shí),一律保留這些匹配的語(yǔ)義模板,見(jiàn)圖4.其中第4個(gè)語(yǔ)義碼串(C4)保留了匹配成功的多個(gè)語(yǔ)義模板(共2個(gè),T4-1和T4-2).另外,圖4也說(shuō)明了匹配成功的長(zhǎng)度不一定都是N長(zhǎng)度的,比如第3個(gè)語(yǔ)義碼串的N元長(zhǎng)度是5,但是最大的模板匹配長(zhǎng)度是N-1=4,結(jié)尾語(yǔ)義碼(S7)的匹配為失敗(即黑色填充表示的部分).
2.3.4 按照語(yǔ)義碼串的匹配結(jié)果確定最終語(yǔ)義碼
1)得到每個(gè)區(qū)中每個(gè)詞的各種語(yǔ)義碼的最大得分
從第一個(gè)區(qū)開(kāi)始,對(duì)每個(gè)區(qū)內(nèi)所有匹配模板的語(yǔ)義碼按照每個(gè)詞位置進(jìn)行垂直方向過(guò)濾.對(duì)于過(guò)濾后的不同類(lèi)型語(yǔ)義碼,分別列出不同區(qū)中語(yǔ)義碼在模板匹配時(shí)的不同得分,見(jiàn)圖5.
2)得到所有區(qū)中各種語(yǔ)義碼的最大得分
對(duì)于每個(gè)詞位置上的所有語(yǔ)義碼,分別在N個(gè)區(qū)上進(jìn)行垂直過(guò)濾后而得到每種語(yǔ)義碼的最大匹配得分,按照專(zhuān)門(mén)算法計(jì)算每種語(yǔ)義碼在所有N個(gè)區(qū)中的得分.專(zhuān)門(mén)算法中包括統(tǒng)計(jì)所有N個(gè)區(qū)對(duì)每一種語(yǔ)義碼的投票數(shù),規(guī)定每個(gè)區(qū)對(duì)每種語(yǔ)義碼最多只有1個(gè)投票數(shù),如果某語(yǔ)義碼在某區(qū)不存在,那么該區(qū)對(duì)該語(yǔ)義碼的投票數(shù)為0.同時(shí)考慮其他得分信息,比如在所有N個(gè)區(qū)中的在單個(gè)區(qū)中的最大得分,在所有N個(gè)區(qū)中的累計(jì)得分等,每個(gè)詞的各種語(yǔ)義碼的最后得分為FinalScore,見(jiàn)公式(4).
圖5 通過(guò)過(guò)濾和加權(quán)計(jì)算確定最終語(yǔ)義碼的示意圖
FinalScore=λ1*VoteNum+λ2*MaxScore_T+λ3*AccumulativeScore_T
(4)
其中,VoteNum為所有區(qū)對(duì)該語(yǔ)義碼的投票數(shù);MaxScore_T為該語(yǔ)義碼在所有N個(gè)區(qū)的范圍內(nèi)最大的單個(gè)區(qū)得分;AccumulativeScore_T為累計(jì)該種語(yǔ)義碼在所有N個(gè)區(qū)中最大得分后的匯總得分;λ1、λ2、λ3為細(xì)分權(quán)重.
3)選擇所有N個(gè)區(qū)中得分最大的語(yǔ)義碼為最終輸出
選擇每個(gè)詞位置上匹配得分最大的語(yǔ)義碼進(jìn)行輸出,從句子第一個(gè)詞開(kāi)始,直到輸出整個(gè)句子上所有詞的語(yǔ)義碼,見(jiàn)圖5.由于每個(gè)區(qū)中不同得分的語(yǔ)義碼可能有很多,本文選擇每個(gè)區(qū)中的得分由高到低的前TopX項(xiàng)(X值實(shí)驗(yàn)選定)參與后面的計(jì)算.其中最終輸出的語(yǔ)義碼為“S1,S2-2,S3,S4,S5,S6-1,S7,S8…”,多義詞W2和W6消歧后的語(yǔ)義碼分別為S2-2和S6-1.
實(shí)驗(yàn)語(yǔ)料:為了檢驗(yàn)本文方法的效果,選用國(guó)際語(yǔ)義評(píng)測(cè)的中英文詞匯任務(wù)SemEval-2007中的Task#5[21]進(jìn)行實(shí)驗(yàn).本任務(wù)共有40個(gè)歧義詞,其中分別有19個(gè)名詞和21個(gè)動(dòng)詞.評(píng)估任務(wù)共提供訓(xùn)練句子2686句,測(cè)試句子935句.
實(shí)驗(yàn)準(zhǔn)備:為了有效驗(yàn)證本文方法和減少標(biāo)注工作量,本文僅標(biāo)注了訓(xùn)練句子中多義詞的左右兩邊的N-1個(gè)詞語(yǔ)的語(yǔ)義碼,因?yàn)閷?shí)際提取的模板也只是使用這部分信息.按照《同義詞詞林》擴(kuò)展版的語(yǔ)義碼和原語(yǔ)料給定的詞性制約,自動(dòng)地預(yù)先過(guò)濾掉那些不符合詞性的候選語(yǔ)義碼,然后對(duì)其中單義詞進(jìn)行自動(dòng)標(biāo)注,對(duì)多義詞進(jìn)行人工標(biāo)注,整個(gè)標(biāo)注的工作量為1人3天.
評(píng)測(cè)標(biāo)準(zhǔn):采用評(píng)估標(biāo)準(zhǔn)中的宏平均精度(Pmar,macro average accuracy).
其中,N為所有目標(biāo)詞數(shù),mi是對(duì)每一個(gè)特定詞所標(biāo)注的正確例句數(shù),ni是對(duì)該特定詞所有的測(cè)試?yán)鋽?shù).
實(shí)驗(yàn)結(jié)果:多種選擇方案后的實(shí)驗(yàn)結(jié)果見(jiàn)表1.
表1 多義詞消歧精度(按4種方案測(cè)試)
從表1結(jié)果來(lái)看,在選擇每個(gè)區(qū)參與計(jì)算的TOP項(xiàng)時(shí),如果只選擇一個(gè)TOP項(xiàng)時(shí),即選擇TOP1時(shí),效果最差.隨著選擇TOP項(xiàng)增多,性能逐漸提高,但當(dāng)TOP項(xiàng)數(shù)超過(guò)一定值時(shí),性能有所下降.根據(jù)當(dāng)前的實(shí)驗(yàn),選擇的TOP項(xiàng)數(shù)為3時(shí)比較好.產(chǎn)生這個(gè)問(wèn)題的原因,可能是每個(gè)區(qū)參與項(xiàng)數(shù)太少時(shí),會(huì)硬性攔下了正確內(nèi)容,而項(xiàng)數(shù)太多時(shí),干擾的噪聲又會(huì)增加,從而影響了整體性能.從所選擇的不同實(shí)驗(yàn)方案來(lái)看,它們各有優(yōu)勢(shì).對(duì)于選擇所有區(qū)中的單個(gè)得分最大者,或者所有區(qū)中單個(gè)最大得分的累計(jì)得分最大者,都要好于單獨(dú)選擇投票數(shù)最大的方法.分析原因:?jiǎn)渭兾鍌€(gè)區(qū)投票最大票數(shù)是5,當(dāng)存在多個(gè)并列結(jié)果時(shí),系統(tǒng)只是順序選擇并列中的第一個(gè),從而造成了性能下降.
從結(jié)果出錯(cuò)的地方來(lái)看,一些是權(quán)重值不合理造成的,這個(gè)日后可繼續(xù)優(yōu)化;還有一些,就是與訓(xùn)練語(yǔ)料中提取的所有模板都不匹配而導(dǎo)致的錯(cuò)誤,如果連匹配最底層的一級(jí)(大類(lèi))語(yǔ)義碼的模板都不存在,即使想通過(guò)語(yǔ)義碼來(lái)擴(kuò)展那也無(wú)法成行.對(duì)于這種問(wèn)題,還是需要擴(kuò)充相應(yīng)標(biāo)注語(yǔ)料才能解決,本文方法雖然具有“取一個(gè)詞=>得到一個(gè)語(yǔ)義碼=>覆蓋多個(gè)詞”的能力,并可通過(guò)彈性匹配來(lái)解決一定的數(shù)據(jù)稀疏問(wèn)題,但是若整個(gè)訓(xùn)練語(yǔ)料中連原始的同義詞都不存在,也就自然談不上擴(kuò)展和覆蓋了.因此,從這個(gè)意義上講,用于訓(xùn)練的語(yǔ)料規(guī)模還是越大越好.
為了與其他方法對(duì)比,表2中列出了目前已知使用SemEval-2007評(píng)測(cè)標(biāo)準(zhǔn)的一些方法.
對(duì)于表2中結(jié)果,XING[22]使用了詞性、指定詞性的詞、淺層句法分析的短語(yǔ)、《同義詞詞林》詞范疇信息等,該方法由于使用了外部淺層句法分析資源,因此容易受到淺層句法分析質(zhì)量的影響.楊陟卓等[13]使用大規(guī)模語(yǔ)料(1998年半年《人民日?qǐng)?bào)》和搜狗新聞數(shù)據(jù)語(yǔ)料庫(kù))訓(xùn)練語(yǔ)言模型,然后利用綜合模型進(jìn)行消歧,該結(jié)果是在給定訓(xùn)練語(yǔ)料之外再加其他外部語(yǔ)料進(jìn)行訓(xùn)練后的測(cè)試結(jié)果.楊陟卓[17]將訓(xùn)練語(yǔ)料的上下文和測(cè)試語(yǔ)料的上下文分別翻譯后再通過(guò)貝葉斯消歧模型進(jìn)行消歧,該方法需要依賴外部翻譯資源,因此容易受到翻譯質(zhì)量的影響.本文方法除了使用《同義詞詞林》語(yǔ)義編碼詞典外,沒(méi)使用其他的資源和復(fù)雜特征,因此可以不受外部資源影響而獨(dú)立工作.即使在只利用語(yǔ)義模板本身語(yǔ)義信息和較少上下文標(biāo)注信息(目標(biāo)詞左右4個(gè)詞的語(yǔ)義碼),在處理過(guò)程不復(fù)雜的情況下,就取得與對(duì)比方法相接近的效果.而且,若是對(duì)于一個(gè)句子中同時(shí)有多個(gè)歧義詞需要消歧時(shí),只要它們是在一個(gè)模板長(zhǎng)度覆蓋內(nèi),我們方法就可一次并行地消歧多個(gè)目標(biāo)詞,而不用逐個(gè)歧義詞分別模板匹配,這將大大提高消歧效率,特別適合于全文所有詞的詞義消歧.
表2 相關(guān)其他方法的對(duì)比
Table 2 Comparison with other methods
方 法PmarXINGYUN[22](2007)SRCP_WSD74.90楊陟卓,黃河燕[13](2014)Optimized_ME75.30楊陟卓[17](2017)Method_275.97本文SMOSS75.06
本文提出一種基于滑動(dòng)語(yǔ)義串匹配(SMOSS)的漢語(yǔ)詞義消歧方法.其先從經(jīng)過(guò)語(yǔ)義碼標(biāo)注的訓(xùn)練語(yǔ)料中提取N元語(yǔ)義模板,以建立語(yǔ)義模板庫(kù);然后滑動(dòng)地將測(cè)試句中的N元語(yǔ)義碼串與N元語(yǔ)義模板匹配,通過(guò)目標(biāo)歧義詞左右兩邊N-1個(gè)語(yǔ)義碼的定位匹配,確定了該目標(biāo)歧義詞的詞義.該方法使用詞的語(yǔ)義碼建立模板,比使用詞建立模板具有更好的覆蓋度,而且3級(jí)層次的語(yǔ)義碼格式可以更適合彈性匹配,這都有效緩解了有監(jiān)督學(xué)習(xí)方法中數(shù)據(jù)稀疏的問(wèn)題.從本文使用SemEval2007 Task#5評(píng)測(cè)實(shí)驗(yàn)來(lái)看,即使僅使用目標(biāo)詞左右N-1詞長(zhǎng)度的語(yǔ)義碼信息,在沒(méi)使用其他的復(fù)雜特征和依賴復(fù)雜的外部資源的情況下,也可以達(dá)到接近于目前該標(biāo)準(zhǔn)最好的性能,充分表明該方法的簡(jiǎn)潔性和有效性.以后我們將在優(yōu)化參數(shù)上繼續(xù)挖掘潛力,以期能能更好地提高詞義消歧性能.