孟禹光, 周俏麗, 張桂平, 蔡東風(fēng)
(沈陽航空航天大學(xué) 人機(jī)智能中心, 沈陽 遼寧110136)
確定文本中某單詞的實際含義,即詞義消歧,簡稱WSD,是自然語言處理領(lǐng)域中歷史久遠(yuǎn)的問題,有著廣泛的應(yīng)用。目前可分為有監(jiān)督方法、無監(jiān)督方法和基于知識的三類方法。雖然已發(fā)表的有監(jiān)督詞義消歧系統(tǒng)在提供特定語義的大規(guī)模訓(xùn)練語料時有很好的表現(xiàn),但缺乏大規(guī)模標(biāo)注語料是其存在的主要問題。使用預(yù)訓(xùn)練的詞向量可以在一定程度上解決這個問題。因為使用預(yù)先在大規(guī)模語料上訓(xùn)練的詞向量,包含了較多的語義語法信息,用它來訓(xùn)練有監(jiān)督系統(tǒng),會使性能得到提升。而想要對句中的詞義做推斷,目標(biāo)詞和目標(biāo)詞的語境都需要清楚地表示出來。我們將語境定義為從一個句子中去掉目標(biāo)詞之后剩余的部分。為了更好地計算語境相似度,語境也需要以向量的形式進(jìn)行表示。
在此前的消歧任務(wù)中[1],語境只是簡單地對目標(biāo)詞在一定窗口內(nèi)的詞向量求和或者加權(quán)平均來表示。但是由于目標(biāo)詞和其整體語境之間具有的內(nèi)在聯(lián)系,使用這種方法預(yù)訓(xùn)練的詞向量所包含的信息十分有限。而想要對句中的詞義做推斷,目標(biāo)詞和目標(biāo)詞的語境向量都需要包含整個句子的信息。目前很多消歧系統(tǒng)共同的缺點是不包含語序信息。而長短期記憶網(wǎng)絡(luò)(LSTM),尤其是雙向長短期記憶網(wǎng)絡(luò)(BLSTM),克服了以上缺點,可以對目標(biāo)詞周圍的所有詞進(jìn)行建模,并將語序考慮進(jìn)去。然而目前BLSTM模型都將一個詞的不同詞性,看做一個詞來進(jìn)行建模,顯然不是十分正確的,因為同一個詞如果詞性不同會有不同的含義。
本文提出的方法是在訓(xùn)練之前,把詞性加入到語料中,在訓(xùn)練的過程中把不同詞性區(qū)分出來。把同一個詞的不同詞性,映射到語義空間的不同位置,可以更好地提取語境中所包含的信息。本文對三種不同的詞性特征加入方法進(jìn)行實驗,即細(xì)分類詞性特征、粗分類詞性特征和只用實詞的詞性特征。通過實驗找到了一種最為合適的詞性特征引入方法,得到的消歧準(zhǔn)確率在2004年的SE-3(Senseval-3 lexical sample dataset)測試集上達(dá)到了75.3%,并在SemEval-13和SemEval-15測試集上對比了加入詞性前后系統(tǒng)的消歧效果,加入詞性之后,消歧性能均有所提升。
本文結(jié)構(gòu)安排如下: 第一部分介紹相關(guān)工作;第二部分介紹模型;第三部分介紹實驗設(shè)置;第四部分討論實驗結(jié)果;第五部分總結(jié)并介紹未來工作。
一般來說,有監(jiān)督的詞義消歧方法比其他詞義消歧算法效果更好,但是需要更大的訓(xùn)練集以達(dá)到這種效果,而獲得大的訓(xùn)練集代價很大。本文證明,不需要使用大量的訓(xùn)練語料也可以達(dá)到很好的消歧效果。
使用大規(guī)模語料訓(xùn)練的詞向量可以在一定程度上彌補(bǔ)有監(jiān)督詞義消歧對訓(xùn)練集要求過高的缺點。詞向量能夠在緊湊低維空間表示中包含詞的語義語法信息,在很多NLP任務(wù)中都得到了很好的應(yīng)用。在詞向量研究中最具有代表性的就是Word2vec[2]和GloVe[3]。而這些技術(shù)的主要目的是在低維空間中對詞的語義、語法信息進(jìn)行表達(dá),還沒有對句子及語境中包含的信息進(jìn)行低維表示。
最近幾年,用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量并建立語言模型,在情感分析、機(jī)器翻譯和其他的自然語言應(yīng)用中都取得了很大發(fā)展。對于詞義消歧而言,Rothe和Schütze[4]將詞向量擴(kuò)展到了語義向量,并用語義向量作為特征訓(xùn)練了一個支持向量機(jī)分類器[5]。就像詞向量一樣,語境也可以以向量的形式表示,研究發(fā)現(xiàn),在計算句子相似度[6]、詞義消歧[1]、詞義歸納[7]、詞匯替換[8]、句子補(bǔ)全[9]等任務(wù)中,語境的向量表示取得了較好的效果,但他們的語境只是簡單地對目標(biāo)詞一定窗口內(nèi)的詞向量求和或者加權(quán)平均來表示,起到的作用有限。
2016年Google[10]使用LSTM進(jìn)行消歧,使用了1 000億詞新聞?wù)Z料訓(xùn)練模型,在SemEval-2015測試集上達(dá)到了最好的消歧效果,它的消歧方法是使用一個詞的語境預(yù)測目標(biāo)詞來進(jìn)行消歧。LSTM模型是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型,在1997年由Hochreiter 和Schmidhuber[11]提出,它可以使RNN在對序列建模時更好地提取長距離信息。但是單向LSTM只能提取句子中位于目標(biāo)詞之前的信息。而語境向量模型(Context2vec)[12]使用了BLSTM訓(xùn)練,僅用了20億詞的語料作訓(xùn)練就在SemEval-2015測試集上達(dá)到了比Google的單向LSTM模型消歧高0.1%[13]的結(jié)果,它的目的是訓(xùn)練詞向量和語境向量,利用得到的語境向量和詞向量進(jìn)行消歧,而且可以在其他的語言任務(wù)中得到較好的應(yīng)用,從某種方面來說,BLSTM的性能更好。BLSTM[14]每個時刻的狀態(tài)都包含了兩個LSTM的狀態(tài),一個從左到右,另一個反之。這就意味著一個狀態(tài)既可以包含前面的詞的信息,也可以包含后面詞的信息,在很多情況下,這對選擇一個詞的語義是非常必要的。本文中,通過向Context2vec中加入詞性特征,進(jìn)而訓(xùn)練得到語境向量,這種語境向量可以很好地提取語境中的語義語法信息。在得到的語境向量基礎(chǔ)上,使用簡單的k近鄰算法進(jìn)行消歧,實驗證明本文的詞義消歧系統(tǒng)不需要大量的訓(xùn)練語料,也可以達(dá)到很好的效果。
Context2vec可以對目標(biāo)詞的語境進(jìn)行學(xué)習(xí),得到一個獨立于特定任務(wù)的向量表示。這種模型基于Word2vec的連續(xù)詞袋模型(CBOW)(圖1),圖中左側(cè)計算目標(biāo)詞submitted的語境向量,僅考慮目標(biāo)詞周圍一定大小窗口內(nèi)的詞,paper被忽略了,將John和a的詞向量進(jìn)行簡單的加權(quán)平均得到submitted的語境向量,將右側(cè)的目標(biāo)詞向量與得到的目標(biāo)詞的語境向量輸入目標(biāo)函數(shù),訓(xùn)練模型。Context2vec用更有效的BLSTM替代了原來模型中固定窗口內(nèi)詞向量取平均的建模方式,如圖2所示。
雖然兩個模型的本質(zhì)都是同時在低維空間學(xué)習(xí)語境和目標(biāo)詞的表示,但基于BLSTM的Context2vec可以更好地提取句子語境中的本源信息。
圖1 Word2vec模型
圖2 加入詞性的Context2vec模型
圖2左側(cè)說明Context2vec是如何表示句子語境的。使用BLSTM循環(huán)神經(jīng)網(wǎng)絡(luò),將句中的詞從左到右輸入一個LSTM,另一個從右到左進(jìn)行輸入。這兩個網(wǎng)絡(luò)的參數(shù)是完全獨立的,包括一個從左至右和一個從右至左的語境向量。為表示句子中目標(biāo)詞的語境( John_NP [submitted_VV] a_DT paper_NN ) ,首先將LSTM輸出的左—右語境John_NP的向量表示和右—左語境a_DT paper_NN的向量表示拼接,這樣做的目的是獲得目標(biāo)詞語境中的相關(guān)信息。下一步將拼接后的向量輸入到多層感知機(jī)中,就可以將兩個方向的語境向量有機(jī)融合。將此層的輸出作為目標(biāo)詞的句子語境表示。同時,目標(biāo)詞用它自己的向量表示(圖2右側(cè)),它的維度和句子語境向量的維度相同。我們注意到Context2vec和Word2vec模型之間的唯一的差別是Word2vec模型是將目標(biāo)詞的語境表示為周圍一定窗口內(nèi)語境詞的簡單平均,而使用了BLSTM的Context2vec則將整句話有機(jī)結(jié)合起來表示語境,不僅考慮了距離遠(yuǎn)一些的詞,還考慮到了語序信息。
Word2vec模型在內(nèi)部使用語境建模,并將目標(biāo)詞的向量表示作為主要輸出,Context2vec更關(guān)注語境的表示。Context2vec通過給目標(biāo)詞和目標(biāo)詞的語境指定相似的向量來進(jìn)行建模。這就間接地導(dǎo)致了給具有相似句子語境的目標(biāo)詞指定了相似的詞向量,相反地,給相似目標(biāo)詞的語境也指定了相似的向量表示。
我們使用Context2vec[12]來得到一個句子級別的語境表示。lLS表示從左到右讀取句子的LSTM,rLS表示從右到左讀取句子的LSTM。給定一個有n個詞(w)的句子(w1:n),那么目標(biāo)詞wi的語境就可以表示為兩個向量的連接,如式(1)所示。
其中l(wèi)1:i-1和rn:i+1分別表示句中從左向右和從右向左輸入到lLS和rLS中的詞向量。下一步,對左右兩側(cè)語境表示的拼接輸入到以下非線性函數(shù),如式(2)所示。
其中MLP代表多層感知機(jī),ReLU是修正線性單元激活函數(shù),而Lj(x) =Wjx+bj是一個全連接線性操作。則在句中位置i處的單詞的語境表示定義如式(3)所示。
將目標(biāo)詞和語境向量用相同維度的向量表示。模型訓(xùn)練使用Word2vec中所用的負(fù)采樣方法。
詞性是一種很重要的語義語法信息,由于本文訓(xùn)練的Context2vec所使用的ukWaC[15]語料提供詞性標(biāo)注版本,我們直接在詞的后面用下劃線將詞和詞性結(jié)合,將其看作一個詞,輸入到Context2vec模型中進(jìn)行訓(xùn)練,這樣所得到的詞向量,就會將同一個詞的不同詞性區(qū)分開。
圖3 加入詞性后,語義空間中的點的變化
從圖3中可以發(fā)現(xiàn),在加入詞性之前,plane的動詞原型、名詞單數(shù)和形容詞三種用法,都通過plane一個點表示,將三種不同的語義語法信息看作同一個點,顯然是不合理的,這種情況在各種語言,尤其是英文中非常普遍。在加入詞性之后,可以將不同的詞性分別建模,plane的形容詞(plane_JJ)、名詞單數(shù)(plane_NN)、動詞原型(plane_VV)等含義都在空間中重新分配了屬于自己語義的點。通過這種方式,更好地捕捉語義語法信息,避免了語義上的混淆。
為了證明詞性在Context2vec中的作用,我們還對三種不同的詞性標(biāo)注方式分別進(jìn)行了實驗: 細(xì)分類詞性標(biāo)記、粗分類詞性標(biāo)記、單獨用實詞的詞性標(biāo)記。從中選擇最好的詞性特征加入方式。
由于在模型的訓(xùn)練過程中要求語境和目標(biāo)詞更加接近,所以可以用一個語境向量求出和它余弦相似度最大的詞向量,得到可以填補(bǔ)到空缺位置的詞。得到的詞越符合語義語法,說明模型訓(xùn)練得越好,和消歧準(zhǔn)確率一樣可以判斷一個模型的好壞,用這種指標(biāo)和準(zhǔn)確率一起作為衡量模型質(zhì)量的參考。
Context2vec在提出之時作者用k=1的近鄰法消歧,得到了較好的效果,在實驗過程中發(fā)現(xiàn),使用k=1做開發(fā)集的實驗,并不能完全說明模型的好壞。為了說明k值的選取過程,我們列出了加入詞性前后在不同訓(xùn)練輪數(shù)e下得到的模型對給定語境的預(yù)測詞,同時將模型在SE-3進(jìn)行消歧達(dá)到的準(zhǔn)確率進(jìn)行對比(表1)。
如表1所示,對比2、4號相同訓(xùn)練輪數(shù)下加入詞性前后的消歧準(zhǔn)確率及預(yù)測詞,雖然2號的消歧準(zhǔn)確率高于4號,但是2號預(yù)測的目標(biāo)詞并不如4號預(yù)測的符合語義語法。同樣對比1、3號結(jié)果,1號的消歧準(zhǔn)確率雖然低于3號,但是預(yù)測的詞比3號的更符合語義語法。這是由于表中使用k=1的k近鄰法消歧得到的準(zhǔn)確率,并不能完全說明模型的好壞,不能將其作為絕對的評價標(biāo)準(zhǔn)。我們對不同k值進(jìn)行了測試,結(jié)果發(fā)現(xiàn)在給定模型的情況下,
表1 語境的預(yù)測詞和SE-3測試集消歧結(jié)果
用k=5的k近鄰法進(jìn)行消歧,效果最好。因此本篇文章中,取k=5的k近鄰算法進(jìn)行消歧做對比實驗。
Context2vec模型可以訓(xùn)練得到高質(zhì)量的語境向量和詞向量,在多種自然語言處理任務(wù)中都有很好的應(yīng)用。用于詞義消歧也取得了較好的效果,為了測試加入詞性特征后訓(xùn)練的模型的性能,進(jìn)行了以下實驗。
我們使用20億詞的ukWaC語料[15]的詞性標(biāo)注版本來訓(xùn)練模型,詞性由TreeTagger自動標(biāo)注,此工具的標(biāo)注準(zhǔn)確率約為95%,并將詞性和詞結(jié)合在一起,例如,apple我們將其寫成了apple_NN構(gòu)成一個新的詞。這樣可以將詞性信息加入模型一同訓(xùn)練。用得到的模型求目標(biāo)詞的語境向量,就包含了這些詞性信息。為加速訓(xùn)練過程,且方便和baseline實驗作對比,并沒有使用句子長度大于64的句子,這使得語料規(guī)模減小了10%。將所有的詞都小寫化并且把出現(xiàn)次數(shù)少于最小詞頻t的詞看作未登錄詞,其中t取了不同的數(shù)值,做對比實驗。實驗證明不同的最小詞頻對實驗結(jié)果有一定影響。
使用Python中的Chainer[16]工具包訓(xùn)練模型,用Adam[17]進(jìn)行優(yōu)化。為加速訓(xùn)練過程,使用了mini-batch訓(xùn)練,這樣每次就只會將相同長度的句子加入同一個小的訓(xùn)練過程。
3.2.1 有監(jiān)督詞義消歧
Context2vec可以生成給定語境的語境向量,利用這些語境向量進(jìn)行消歧,需要標(biāo)注好語義的目標(biāo)詞的例句集合作為訓(xùn)練集。在消歧過程中,首先將訓(xùn)練集中包含目標(biāo)詞的多個例句的語境輸入,得到每個語義若干例句的語境向量,然后計算待消歧句語境向量和這些語境向量的余弦相似度,將與待消歧句語境向量相似度最高的語境向量所對應(yīng)的語義作為目標(biāo)詞的語義,得到消歧結(jié)果。
我們用的是2004年的Senseval-3 lexical sample dataset作為標(biāo)注詞義消歧數(shù)據(jù)集,其中包含了 7 860個訓(xùn)練樣本、57個目標(biāo)詞和3 944個測試樣本。
在參數(shù)調(diào)優(yōu)過程中,使用了留一法進(jìn)行交叉驗證,在訓(xùn)練出Context2vec模型之后,假如某個詞在訓(xùn)練集中有N個樣本,每次從訓(xùn)練集取出一個句子作為測試樣本,其他N-1個樣本作為訓(xùn)練樣本,使用有監(jiān)督詞義消歧對測試樣本進(jìn)行消歧,對訓(xùn)練集中的7 860個句子進(jìn)行以上操作,就得到了開發(fā)集的消歧結(jié)果。測試集是官方評測提供的,與開發(fā)集和訓(xùn)練集是完全獨立的數(shù)據(jù)集。
還使用SemEval-13 task 12 和 SemEval-15 task 13兩個公開評測集測試消歧準(zhǔn)確率,目的是用最新的測試集驗證這種方法的效果,這兩個任務(wù)均為詞義消歧任務(wù),但是只提供了測試集,所以我們使用標(biāo)記的SemCor和SemCor+OMSTI(One million sense-tagged instances)[18]中的例句作為訓(xùn)練集,其中SemEval-13共有621個目標(biāo)詞、1 442個測試樣本。SemEval-15共有451個目標(biāo)詞、924個測試樣本。
3.2.2 消歧流程
在消歧之前,使用非詞性標(biāo)注語料和詞性標(biāo)注語料分別訓(xùn)練兩個語境向量模型,記為M、MP。其中M用于未加詞性特征的句子消歧,MP用于加入詞性特征的句子消歧。
對于待消歧句Sen: Sodalities have an important role in 【activating】 laity for what are judged to be religious goals both personally and socially .
加入詞性特征后句子為SenP: Sodalities_NN have an important_JJ role_NN in 【activating_VV】 laity_NN for what are judged_VV to be religious_JJ goals_NN both personally_RB and socially_RB .
對應(yīng)的語境向量分別為V、VP,目標(biāo)詞在【】中,此目標(biāo)詞有五個不同的語義S1、S2、S3、S4、S5,各語義對應(yīng)解釋如下:
S1:to initiate action in; make active.
S2:in chemistry, to make more reactive, as by heating.
S3:to assign (a military unit) to active status.
S4:in physics, to cause radioactive properties in (a substance).
S5:to cause decomposition in (sewage) by aerating.
訓(xùn)練集包含了此目標(biāo)詞的228個例句,由于官方給出的語義粒度過小,具有某些重疊,每個例句對應(yīng)1或2個語義,若對應(yīng)兩個語義,則每個語義的權(quán)重為0.5,否則為1,將例句語境輸入到語境向量模型M、MP中得到每個例句的語境向量,通過語境向量之間的余弦相似度,并應(yīng)用k=5的k近鄰法,分別得到與Sen、SenP語境最接近的五個例句,如表2所示。
表2 與待消歧句語境最接近的例句和語義
表2中,通過計算句子的語境向量之間的相似度,能夠得到與待消歧句語境接近的例句,而這些例句是標(biāo)記好的,通過這些例句對應(yīng)的語義出現(xiàn)的次數(shù)及權(quán)重,加權(quán)求和得到每個語義的打分:
Sen: Score(S1)=1.5、Score(S2)=3.0、Score(S3)=0.5、Score(S4)=0、Score(S5)=0
SenP: Score(S1)=2.5、Score(S2)=1.0、Score(S3)=1.5、Score(S4)=0、Score(S5)=0
根據(jù)得到的打分,加入詞性前選擇的語義為S2,加入詞性后選擇的語義為S1,顯然加入詞性通過計算語境相似度,我們得到了正確的語義。
為找出最有效的詞性特征引入方法,本文使用了三種不同的詞性標(biāo)注方式訓(xùn)練模型: 細(xì)分類詞性標(biāo)記、粗分類詞性標(biāo)記和單獨用實詞的詞性標(biāo)記。
實驗中所使用的模型參數(shù)如表3所示。我們每次的最小取樣數(shù)是850,在ukWaC語料訓(xùn)練一輪的時間大約是24小時。
表3 模型參數(shù)
使用TreeTagger標(biāo)注的ukWaC語料,進(jìn)行訓(xùn)練。找到在開發(fā)集中消歧效果最好的模型用來測試,開發(fā)集在最小詞頻t=100,訓(xùn)練輪數(shù)e不同時對應(yīng)的結(jié)果如表4所示。
表4 細(xì)分類詞性標(biāo)記下的開發(fā)集結(jié)果
序號3所訓(xùn)練的模型最好,與加入詞性前效果最好的模型作對比,結(jié)果如表5所示。
表5 細(xì)分類詞性標(biāo)記下的語境預(yù)測詞和消歧結(jié)果對比
由表5中的結(jié)果對比可以發(fā)現(xiàn),雖然1號的消歧準(zhǔn)確率高于2號,但是它語境預(yù)測的目標(biāo)詞并不十分符合語義,甚至是語法(加入詞性后,可以將詞性一同預(yù)測出來,為了方便對比,此處并不列出)。而加入詞性之后,可以看到2號可以較好地預(yù)測出目標(biāo)詞。說明詞性的加入,還是對模型起到了較好的作用。雖然加入詞性后,語境預(yù)測詞的效果較好,但是在詞義消歧任務(wù)上的準(zhǔn)確率并沒有達(dá)到加入詞性之前的效果,究其原因可能是因為我們所使用的TreeTagger的詞性標(biāo)記種類(表6)過多。
表6 細(xì)分類詞性標(biāo)記
由表6的詞性標(biāo)記方式可以發(fā)現(xiàn),其中一個詞的同一詞性的不同時態(tài)也會有不同的標(biāo)記,而這顯然是沒有必要的,這導(dǎo)致詞表過大,降低了訓(xùn)練模型的效率,也影響了詞性標(biāo)注的準(zhǔn)確率,進(jìn)一步也影響了消歧的準(zhǔn)確率。
由于細(xì)分類的詞性標(biāo)記準(zhǔn)確率的影響,消歧效果并沒有得到提升。改用表7中的詞性映射方式,對同一類簡單詞性不再進(jìn)行區(qū)分。
根據(jù)語言學(xué)知識,并沒有將TreeTagger中的助動詞進(jìn)行映射,因為某些助動詞對應(yīng)的實意動詞已經(jīng)映射為了VV,而助動詞沒有映射,就可以將其區(qū)分開。
表7 粗分類詞性標(biāo)記
為了使詞表和加入詞性之前盡量一致,把原始Context2vec中沒有用到的低頻詞都替換為
表8 粗分類詞性標(biāo)記的開發(fā)集結(jié)果
選取開發(fā)集表現(xiàn)最好的模型作測試,結(jié)果如表9所示。
表9 粗分類詞性標(biāo)記下的語境的預(yù)測詞和消歧結(jié)果對比
對表9的結(jié)果進(jìn)行對比,發(fā)現(xiàn)加入粗分類的詞性標(biāo)記后,3號并沒有達(dá)到1號的消歧效果,只是語境預(yù)測詞更符合語義語法。而根據(jù)2號和3號的結(jié)果對比,消歧準(zhǔn)確率和語境預(yù)測詞都十分接近。這是因為兩種詞性標(biāo)記方式都對虛詞進(jìn)行了標(biāo)注。對訓(xùn)練語料進(jìn)行檢查發(fā)現(xiàn),其中有些本該標(biāo)注為DT的that標(biāo)注成了IN,本該標(biāo)注成IN的upon標(biāo)注成了RP。這種虛詞雖然數(shù)量有限,但是每一個虛詞在訓(xùn)練語料中出現(xiàn)的頻率都很高,一般用來構(gòu)成句子框架,這些詞如果標(biāo)注錯誤,對語義空間所造成的影響更大。
基于4.1節(jié)和4.2節(jié)的實驗結(jié)果,決定只使用實詞對訓(xùn)練語料進(jìn)行標(biāo)注。實詞,有實在意義,在句子中能獨立承擔(dān)句子成分。我們選擇了幾種對語義影響較大的實詞,而代詞和數(shù)詞也屬于實詞,但是它們一般只具有單一詞性,而且不同詞性表達(dá)的語義也是相同的。其他的虛詞不再進(jìn)行標(biāo)注,如表10所示。
表10 實詞的詞性標(biāo)記
表10列出的兩種實詞標(biāo)記方式,分別取名為實詞標(biāo)記1和實詞標(biāo)記2。它們的區(qū)別僅在于是否將名詞細(xì)分為普通名詞(NN)和專有名詞(NP)。這是因為,某些普通名詞同時還有專有名詞的含義,如plane既有普通名詞飛機(jī),又有專有名詞作為人名的作用。同時在實驗中我們發(fā)現(xiàn),有些在命名實體中出現(xiàn)的普通名詞,TreeTagger工具將其標(biāo)記為了NP。到底是應(yīng)該將所有的名詞都標(biāo)記為NN還是將NN和NP區(qū)分標(biāo)記能達(dá)到更好的消歧效果,我們需要通過實驗來進(jìn)行判斷。
為保證訓(xùn)練速度和詞表大小,將實詞標(biāo)記2實驗中的最小詞頻t取10,將實詞標(biāo)記1中的最小詞頻t取50,此時詞表大小均為22萬左右,訓(xùn)練效率接近。若實詞標(biāo)記2取t=50,則詞表大小為19萬,會相比t=10減少3萬低頻詞,我們還對取相同的t值(100)訓(xùn)練的模型的消歧結(jié)果進(jìn)行了對比,此時實詞標(biāo)記1詞表大小為19萬,實詞標(biāo)記2詞表大小為17萬。實詞標(biāo)記1下的開發(fā)集結(jié)果如表11所示,實詞標(biāo)記2下的開發(fā)集結(jié)果如表12所示。
表11 實詞標(biāo)記1下的開發(fā)集結(jié)果
表12 實詞標(biāo)記2下的開發(fā)集結(jié)果
從表12可以看出,用實詞標(biāo)記2標(biāo)注的訓(xùn)練語料所訓(xùn)練的模型效果普遍高于實詞標(biāo)記1。對于表12中的9、10號實驗結(jié)果準(zhǔn)確率突然降低的現(xiàn)象,在Context2vec達(dá)到最優(yōu)點之后均會出現(xiàn)這種過擬合現(xiàn)象,由于此時參數(shù)t取10,相比t取50而言,詞表中包含了三萬個出現(xiàn)頻率高于10低于50的低頻詞,導(dǎo)致這種現(xiàn)象過早地出現(xiàn)。因為命名實體中的普通名詞數(shù)量遠(yuǎn)遠(yuǎn)高于有專有名詞含義的普通名詞。如: 在訓(xùn)練語料中,如果將名詞細(xì)分為NP和NN,會出現(xiàn)Valley_NP Park_NP,Web_NP Author_NP Dr._NP Walton_NP等詞語,其中的人名雖然被區(qū)分出來,但是也將本應(yīng)屬于普通名詞范疇的詞標(biāo)記為了專有名詞,把原本語義空間中的一個點強(qiáng)行劃分為了兩個點,導(dǎo)致了消歧效果的降低。
把此方法得到的最好模型與其他詞性標(biāo)注方式得到的最好模型的消歧結(jié)果和語境預(yù)測詞作對比,如表13所示。
表13 實詞標(biāo)記2下的語境的預(yù)測詞和消歧結(jié)果對比
續(xù)表
由表13的結(jié)果可以看出,序號4不管在預(yù)測詞還是消歧效果上,都要好于之前三種方法訓(xùn)練的模型。通過兩種指標(biāo)的對比,我們可以得出結(jié)論: 使用實詞標(biāo)記2標(biāo)注的訓(xùn)練語料訓(xùn)練Context2vec模型,模型性能得到了提升。
以上的結(jié)果都是用單一的k值得到的結(jié)果進(jìn)行對比,不一定具有代表性。為了進(jìn)一步說明結(jié)果所具有的代表性,我們將序號4得到的模型和序號1模型使用不同的k值(1~10)進(jìn)行消歧得到的結(jié)果進(jìn)行對比,通過對比發(fā)現(xiàn),在不同的k值下,消歧效果基本都有所提升,符合我們之前得到的結(jié)論。
我們還和在SE-3做過消歧的其他系統(tǒng)進(jìn)行了比較,結(jié)果如表14所示。
表14 不同系統(tǒng)在SE-3測試集的結(jié)果/%
從表14可以看出,最好的結(jié)果是由Ando[19]達(dá)到的,他使用了一種交替結(jié)構(gòu)優(yōu)化的半監(jiān)督方法,過程十分繁瑣。而我們比它提升了1.2%,且方法簡單很多,僅僅需要在模型訓(xùn)練好之后,應(yīng)用一次k近鄰算法。而第二好的結(jié)果由Rothe 和Schutze[4]達(dá)到,他們通過向已有的系統(tǒng)中加入詞向量特征達(dá)到此結(jié)果,他們的主要目的是訓(xùn)練詞義向量,沒有對詞義消歧做過于深入的研究,因此沒有達(dá)到超過Ando的消歧效果。SE-3評測的前兩名結(jié)果分別為2004 Grozea、2004 Strapparava。2006年達(dá)到了74.1%準(zhǔn)確率之后,除了2015年達(dá)到了較好的效果之外,一直沒有超過Ando的消歧系統(tǒng)。2016 Melamud 提出的Context2vec模型使用k=1的k近鄰法得到的結(jié)果為72.8%,這是因為Melamud 提出的Context2vec在多種自然語言處理任務(wù)中都能得到較好的應(yīng)用,沒有單獨對詞義消歧進(jìn)行深入研究,我們將Context2vec在消歧上的應(yīng)用進(jìn)行了擴(kuò)展,Ours-1是我們用未加詞性的Context2vec模型通過開發(fā)集選取參數(shù)k,取參數(shù)k=5時消歧效果最好,可以達(dá)到74.8%,Ours-2在Ours-1的基礎(chǔ)上加入了詞性特征,選取同樣的k值,可以看出,加入詞性特征之后,消歧準(zhǔn)確率提高了0.5%。
在這一部分,我們使用了三種不同的詞性標(biāo)記方式來標(biāo)注訓(xùn)練語料并訓(xùn)練模型。其中前兩種無法達(dá)到未加詞性之前的效果,分析原因是虛詞在訓(xùn)練語料中出現(xiàn)次數(shù)很多,它們是組成句子框架的主要成分,它們的詞性標(biāo)記錯誤會給建模帶來更大的影響,而且這些詞的不同詞性表示的語義往往是相同的。而實詞標(biāo)記2得到了比不加詞性更好的效果。
我們還在其他的測試集中對此方法進(jìn)行了驗證,如SemEval-13 task 12 和 SemEval-15 task 13,由于此任務(wù)沒有提供每個消歧詞的例句,我們使用標(biāo)記的SemCor和SemCor+OMSTI(One million sense-tagged instances)[18]中的例句作為訓(xùn)練語料進(jìn)行消歧。而Raganato[20]使用Context2vec和其他系統(tǒng)使用相同的訓(xùn)練語料進(jìn)行了比較,其中Context2vec在多個公開評測集中均取得了非常好的消歧效果。我們使用了與之相同的訓(xùn)練語料,但是由于參數(shù)不同的原因,無法達(dá)到和Raganato相同的準(zhǔn)確率。我們使用自己的參數(shù),進(jìn)行了對比實驗。只對加入實詞標(biāo)記方法2的詞性特征前后的消歧結(jié)果進(jìn)行對比。結(jié)果如表15所示。
表15 加入詞性前后消歧結(jié)果對比
由表15中的結(jié)果我們可以發(fā)現(xiàn),相比加入詞性之前,使用我們的方法加入詞性特征的消歧效果在兩個公開的測試集上也都得到了提升。其中SemEval-13和SemEval-15測試結(jié)果分別提升了0.4%和0.3%。提升效果不明顯的原因主要有兩個,首先每個目標(biāo)詞對應(yīng)的例句數(shù)量較少,其次是詞性標(biāo)注的準(zhǔn)確率限制了這種方法的作用。
我們通過實驗,提出了一種將詞性特征加入到Context2vec中建模的方法,更好地對語義進(jìn)行建模,在消歧任務(wù)中達(dá)到了更好的效果,其中最好的結(jié)果已經(jīng)比未加詞性之前提高了0.5%,并在多個國際公開評測集中有所提升。虛詞和代詞在句子中出現(xiàn)頻率很高,它們的詞性標(biāo)注準(zhǔn)確率對 Context2vec是否能在語義空間上正確建模起著至關(guān)重要的作用。而且虛詞的不同詞性語義是基本相同的,不需要在語義空間中分配多個點進(jìn)行建模。由于詞性標(biāo)注的準(zhǔn)確率無法達(dá)到100%,而且同一詞性之間的細(xì)分準(zhǔn)確率更低,限制了這種方法的作用。這種語境相似度消歧的方法依賴?yán)涞馁|(zhì)量和數(shù)量,可以考慮使用標(biāo)簽擴(kuò)展(LP)算法對例句進(jìn)行擴(kuò)展。