国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

上下文邊界可變的詞義消歧

2015-12-23 01:09高光來
關(guān)鍵詞:消歧多義詞義項(xiàng)

閆 蓉,高光來

(內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特010021)

0 引 言

通常詞義消歧方法可分為基于統(tǒng)計(jì)的方法和基于知識的方法[1]。傳統(tǒng)的基于知識的方法[2-4]針對文本中出現(xiàn)的多義詞,不管是什么詞性,均選取固定上下文來進(jìn)行消歧的,這樣一定會引入不同程度的噪音,影響消歧效果。歸其原因,該方法從根本上忽略了不同詞性的多義詞制約其含義的上下文語境范圍應(yīng)是不同的。通常,詞語含義的差別一定會在語言運(yùn)用中得到體現(xiàn),詞的不同含義會在句法或詞匯搭配層面上表現(xiàn)出不同的組合特征,并且不同詞性詞語的這種彼此獨(dú)立且呈互補(bǔ)分布的特征是不一樣的。這樣,對詞的含義辨析時(shí)所依據(jù)的內(nèi)容應(yīng)該是不同的。直觀上,對于不同詞性的多義詞而言,制約其語義的語境范圍是有所差異的。如句子 “只有這樣,我們才可能進(jìn)一步體會這首歌曲所 [表現(xiàn)/v]的感情和內(nèi)容?!?,多義動(dòng)詞 [表現(xiàn)]在句中語義為 “show|表現(xiàn)”,位置較近的語境詞 {歌曲}足已制約其語義,無需其它語境詞。而在句子 “古老的中藥,在這里插上了現(xiàn)代科技的 [翅膀/n]?!?,多義名詞 [翅膀]在句中語義為 “part|部件:PartPosition= {wing|翅},whole= {aircraft|飛行器}”,制約其含義還需要距離較遠(yuǎn)的語境詞 {插上}。鑒于此,提出一種上下文邊界可變的中文詞義消歧模型 (Chinese WSD model with variable context window,CWSD-VCW),基本思想是按照多義詞詞類信息,針對性得選擇消歧語境范圍,減少噪音來達(dá)到消歧目標(biāo)。實(shí)驗(yàn)結(jié)果表明,該方法可以提高全文消歧正確率。

1 詞義消歧原則

文獻(xiàn) [3,4]利用距離函數(shù)約束上下文中各詞語對多義詞含義的影響。文獻(xiàn) [5,6]通過構(gòu)建上下文模型的方法,進(jìn)一步以更為量化的方式給出了上下文各詞語對多義詞含義的影響。但上述方法在進(jìn)行消歧過程中,盡管考慮了上下文中各詞語對多義詞含義的制約作用的不同,但均是在固定上下文范圍下進(jìn)行的,未考慮到對不同詞性的多義詞,詞義和詞的分布之間是具有密切的,制約其語義的上下文范圍應(yīng)是不同的。這正是本文解決詞義消歧問題的出發(fā)點(diǎn)。本文主要依據(jù)多義詞詞性,按照在特定上下文范圍內(nèi)使得多義詞某個(gè)義項(xiàng)與上下文詞語關(guān)系的密切程度最大作為消歧原則,來尋求制約多義詞語義的最小上下文范圍。

2 詞義消歧方案

通常,在解決詞義消歧過程中,上下文范圍的選取就是第一個(gè)要解決的問題。因?yàn)樯舷挛姆秶x取的大小直接影響消歧問題解決的好壞[6],而且在選取過程中,多義詞左右兩邊詞語選擇是否對稱,也是值得考慮的問題[7,8]。第二個(gè)要解決的問題是關(guān)于詞語詞義的定義問題。因?yàn)樵诓煌闹黝}、記錄、句子、搭配和詞性等方面有著些許差異。第三個(gè)要解決的問題是如何計(jì)算多義詞義項(xiàng)和上下文各詞語間的相關(guān)度。文章接下來的部分,給出了上述3個(gè)問題的具體解決策略。

2.1 上下文邊界可變的消歧模型構(gòu)建

消歧過程中要解決的第一個(gè)問題即消歧上下文的選取,關(guān)于它的解決是本文要研究的重點(diǎn)。通常上下文范圍選取是與實(shí)際應(yīng)用問題相關(guān)的。本文主要目的是為了考察詞語含義辨析時(shí)所依據(jù)的上下文有效范圍的大小,所以選取的上下文范圍是對稱的 (去掉停用詞和虛詞后的結(jié)果)。模型建立的主要思路:利用多義詞與選取的特定上下文各詞語間的語義關(guān)系和搭配關(guān)系的組合,保證選取的上下文中各詞與多義詞盡可能的存在著句法關(guān)系并且語義關(guān)系值最大,達(dá)到消歧目的。

模型的構(gòu)造如下:

設(shè)特定文本 (去掉停用詞和虛詞后的結(jié)果)中有多義詞S 存在n 個(gè)義項(xiàng),記為S1,S2,…,Sn,上下文范圍為距離多義詞S左右各m 個(gè)詞語,記為W-m,W-m+1,…,W-1,S,W1,…,Wm-1,Wm,Ai和Bi分別為義項(xiàng)Si的右搭配矩陣和左搭配矩陣。那么,多義詞S 的正確義項(xiàng)就是使得式 (1)取最大值的那個(gè)義項(xiàng)

式中:SR(Wi,Wj)——詞語Wi和Wj之間的語義相關(guān)度。

從語言信息處理角度來看,不同詞性詞語的語義組合特征是不一致的。那么,確定不同詞性詞語的語義所依據(jù)的信息也應(yīng)該是有差異的。本文的核心工作是考察消歧上下文的選取是否會與待消歧多義詞詞性有聯(lián)系,聯(lián)系如何。這里的消歧上下文m 的大小選取,將會根據(jù)待消歧多義詞詞性的不同有所區(qū)別。具體的,就是分詞性的選取消歧上下文范圍,即m 的取值會和待消歧多義詞詞性相關(guān),m 成了可調(diào)值。對于名詞詞性的多義詞,其義項(xiàng)區(qū)分主要是依靠其所聯(lián)系的謂詞,而且不同詞義的語法組合能力不同,消歧窗口大小不大統(tǒng)一,需要設(shè)置的m 值應(yīng)較大些;對于動(dòng)詞詞性的多義詞,其義項(xiàng)區(qū)分主要是依靠其相聯(lián)系的補(bǔ)足語,需要的m 值應(yīng)較?。粚τ谛稳菰~詞性的多義詞,其義項(xiàng)區(qū)分主要是依靠其所修飾的名詞,需要的m 值也較小。關(guān)于在不同詞性條件下,m 最佳估計(jì)值的確定待后文實(shí)驗(yàn)說明。

2.2 詞語間語義相關(guān)度的計(jì)算

關(guān)于詞語詞義的定義,在不同的主題、記錄、句子、搭配和詞性等方面有著些許差異。本文按照在 《知網(wǎng)》中出現(xiàn)詞語的義項(xiàng)定義來進(jìn)行研究。

本文對于詞語間語義相關(guān)度,主要用基于詞語間語義關(guān)系來度量相關(guān)度。詞語間語義關(guān)系的獲取是本文計(jì)算多義詞義項(xiàng)和上下文各詞語間的相關(guān)度的基礎(chǔ),它主要依賴于所應(yīng)用的語義關(guān)系分類資源,具體定義參見文獻(xiàn) [9]。除了義原間的語義關(guān)系外,還用到了兩個(gè)詞語間的共現(xiàn)度,來細(xì)化詞語間的相關(guān)度。具體可參見文獻(xiàn) [10],簡記為SR(W1,W2)。

2.3 義項(xiàng)語義搭配庫的構(gòu)建

為了進(jìn)一步細(xì)化多義詞義項(xiàng)和上下文各詞語間的相關(guān)度,本文構(gòu)造了一個(gè)義項(xiàng)語義搭配庫,式 (1)中的Ai和Bi分別為多義詞S 某個(gè)義項(xiàng)Si在義項(xiàng)語義搭配庫中的右搭配矩陣和左搭配矩陣。義項(xiàng)語義搭配庫的構(gòu)造,主要是以《知網(wǎng)》中各詞的語義搭配實(shí)例為種子搭配,利用山西大學(xué)STC973ver1.0 的500 萬漢字的語料庫,包含2915894 詞次,通過計(jì)算各詞對間的SR(W1,W2)獲得詞語各義項(xiàng)的搭配信息。但在實(shí)際的漢語使用中,多義詞隨詞性的分布并不相同。表1中列出了部分高頻多義詞在STC973中各詞類出現(xiàn)次數(shù)的統(tǒng)計(jì)信息。如詞語 “打”,在2005 版 《知網(wǎng)》中義項(xiàng)數(shù)達(dá)到32個(gè),在STC973中共出現(xiàn)1291次,其中動(dòng)詞出現(xiàn)1281 次,占99.23%;詞語 “地方”,在 《知網(wǎng)》中義項(xiàng)數(shù)6個(gè),其中詞性為形容詞的義項(xiàng)數(shù)1 個(gè),但在STC973中未出現(xiàn)。由此可以看出在特定語料中多義詞各詞類出現(xiàn)次數(shù)很不均衡,并且經(jīng)過進(jìn)一步的實(shí)驗(yàn)驗(yàn)證,多義詞有的義項(xiàng)很常用,有的義項(xiàng)則很少使用,這將影響各義項(xiàng)搭配信息的獲取,所以在實(shí)際應(yīng)用中應(yīng)充分考慮。為解決構(gòu)建過程中的數(shù)據(jù)稀疏問題,本文對多義詞語中各義項(xiàng)的搭配數(shù)目進(jìn)行約束,對于搭配數(shù)目較少或沒有的義項(xiàng),從其它資源 (搜狗公布的中文詞語搭配庫http://www.sogou.com/labs/dl/r.html)中進(jìn)行追加。表2為部分多義詞的各義項(xiàng)搭配信息。

表1 部分高頻多義詞各詞類在STC973中出現(xiàn)的統(tǒng)計(jì)信息

表2 部分詞語各義項(xiàng)的搭配信息

表2 (續(xù))

3 實(shí)驗(yàn)與分析

3.1 語料準(zhǔn)備

在對語料STC973 進(jìn)一步的統(tǒng)計(jì)中,我們發(fā)現(xiàn)多義詞在語料中多以名詞、動(dòng)詞和形容詞的詞性出現(xiàn),且動(dòng)詞和名詞詞類使用頻率較高。因此,對于大規(guī)模實(shí)際文本,解決實(shí)詞的歧義問題是非常重要的。實(shí)驗(yàn)中我們也是這樣做的。實(shí)驗(yàn)數(shù)據(jù)集選用公開漢語評測語料SemEval-2007 (名詞19個(gè),動(dòng)詞21 個(gè))和SemEval-2010 (動(dòng)詞27 個(gè)),另外還有人民日報(bào)1998年1月份 (動(dòng)詞119個(gè),名詞214個(gè))進(jìn)行。

3.2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

本文選取的評測標(biāo)準(zhǔn)是Pmar(macro average accuracy),即詞義標(biāo)注正確句子數(shù)占所有句子數(shù)的比例。本文共進(jìn)行4個(gè)實(shí)驗(yàn)。

實(shí)驗(yàn)1:通過調(diào)整消歧上下文范圍,考察選取的上下文范圍大小對消歧效果的影響。實(shí)驗(yàn)結(jié)果表明,在消歧過程中,隨著引入的消歧知識的增加,并不會使得消歧效果有顯著的提高,結(jié)果如圖1所示。當(dāng)選取窗口信息不斷增加的同時(shí),消歧效果增加并不明顯,反而有所降低。分析其原因,在于擴(kuò)大窗口引入更多消歧有效信息的同時(shí),也不同程度的增加了噪音量。

那么進(jìn)一步的實(shí)驗(yàn),應(yīng)該考察這些噪音具體的是影響哪些詞性的多義詞,即是否要在消歧過程中,針對多義詞詞性分開來考察其選取的上下文范圍。為此進(jìn)行了實(shí)驗(yàn)2。

圖1 窗口大小調(diào)整對消歧效果的影響

實(shí)驗(yàn)2:對不同詞性的多義詞在不同窗口下分別進(jìn)行了消歧實(shí)驗(yàn),來觀察詞性信息對消歧結(jié)果影響,即確定式(1)中m 的最佳估計(jì)值。實(shí)驗(yàn)結(jié)果如圖2所示。從圖2可以看出:對于不同詞性的多義詞詞語進(jìn)行消歧時(shí),窗口大小的選取不應(yīng)該采用固定大小的方式,應(yīng)有區(qū)別的對待,從而盡可能減少噪音的引入,提高消歧效果。從實(shí)驗(yàn)結(jié)果我們可以得到,制約各詞性多義詞語義的最小上下文范圍如下:m名詞=6,因?yàn)槊~義項(xiàng)的區(qū)分主要是依靠其所聯(lián)系的謂詞,而且針對特定名詞的不同義項(xiàng)的語法組合能力不同,消歧窗口大小不大統(tǒng)一,需要設(shè)置的消歧窗口值大;m動(dòng)詞=4,因?yàn)閯?dòng)詞義項(xiàng)區(qū)分主要是依靠其相聯(lián)系的補(bǔ)足語,需要的消歧窗口值較??;m形容詞=4,因?yàn)樾稳菰~義項(xiàng)區(qū)分主要是依靠其所修飾的名詞,需要的消歧窗口值也要小一些。接下來的實(shí)驗(yàn)3就是考察這種根據(jù)詞性調(diào)節(jié)上下文范圍來進(jìn)行消歧,是否會提高消歧正確率。

圖2 窗口大小對不同詞性詞語消歧效果的影響

實(shí)驗(yàn)3:針對語料中出現(xiàn)的所有多義詞,根據(jù)其詞性的不同,選擇性的選取其消歧上下文范圍。各詞性多義詞的Pmar結(jié)果分別為:名詞0.790,動(dòng)詞0.759,形容詞0.812,系統(tǒng)Pmar為0.787,其消歧性能要比沒有對不同詞性的多義詞限定上下文范圍的平均正確率高出6.26%。實(shí)驗(yàn)結(jié)果表明,CWSD-VCW 方法是有效的。為了進(jìn)一步驗(yàn)證本文所提出方法的有效性,進(jìn)行了實(shí)驗(yàn)4。

實(shí)驗(yàn)4:將SemEval-2007測試實(shí)例的最常用詞義MFS(most frequent sense)作為Baseline,將CWSD-VCW、Baseline和SemEval-2007最好名次[11]這3種方法分別對40個(gè)多義詞進(jìn)行消歧,實(shí)驗(yàn)結(jié)果如圖3和圖4所示。

圖3 3種方法對名詞消歧結(jié)果比較

圖4 3種方法對動(dòng)詞消歧結(jié)果比較

實(shí)驗(yàn)結(jié)果表明,方法CWSD-VCW 對于名詞和動(dòng)詞的Pmar均高于SemEval-2007 最好名次分別超出1.6%和17.5%,系統(tǒng)Pmar超出8.6%,進(jìn)一步驗(yàn)證了本文提出方法的有效性。同時(shí),實(shí)驗(yàn)中也發(fā)現(xiàn),CWSD-VCW 方法對于名詞消歧效果的提升并不大,原因在于名詞詞性的多義詞,其義項(xiàng)間區(qū)分主要是依靠與之相聯(lián)系的謂詞,而且不同義項(xiàng)與謂詞的語法組合不同。

整體上,雖然CWSD-VCW 實(shí)驗(yàn)結(jié)果遜于MFS,但結(jié)果中有8個(gè)名詞和9個(gè)動(dòng)詞的正確率高于MFS,說明這種無監(jiān)督的消歧方法的性能還有較大的提升空間。

4 結(jié)束語

本文研究制約詞語語義的上下文語境,對于解決詞義消歧問題具有重要的意義。在消歧過程中,引入的消歧知識的增加,并不會使得消歧效果有顯著提高,歸咎原因主要是引入了更多的噪音。為解決詞義消歧中的噪音問題,本文針對不同詞性的多義詞在進(jìn)行消歧時(shí),采取分而治之的原則,按照多義詞詞類信息來選擇上下文語境范圍,選取多義詞義項(xiàng)集中與上下文語境詞語義相關(guān)度最大的作為其正確義項(xiàng)。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的CWSD-VCW 方法可以有效解決詞性為名詞、動(dòng)詞和形容詞的多義詞消歧問題。但對于多義詞本身而言,其種類不限于這些,再有詞義研究所用信息是復(fù)雜多樣的,除了文中提及的語境信息,還有主題約束和篇章一致性等因素。正因?yàn)檫@樣,對于不同類型的歧義詞的處理過程,其難度和策略會有所差異。正如學(xué)者Kilgariff所說: “senses depend on the task”,在解決詞義消歧問題的實(shí)際應(yīng)用過程中,如何將多種知識資源的融合來解決詞義消歧問題,將是今后工作的難點(diǎn)和重點(diǎn)。

[1]Navigli R.Word sense disambiguation:A survey [J].ACM Computing Surveys,2009,41 (2):1-69.

[2]Agirre E,De Lacalle OL,Soroa A,et al.Knowledge-based WSD on specific domains:Performing better than generic supervised WSD [C]//Proceedings of the 21st International Jont Conference on Artifical Intelligence,2009:1501-1506.

[3]YANG Zhizhuo,HUANG Heyan.Graph based word sense disambiguation method using distance between words [J].Journal of Software,2012,23 (4):776-785 (in Chinese).[楊陟卓,黃河燕.基于詞語距離的網(wǎng)絡(luò)圖詞義消歧 [J].軟件學(xué)報(bào),2012,23 (4):776-785.]

[4]YANG Zhizhuo,HUANG Heyan.WSD method based on heterogeneous relation graph [J].Journal of Computer Research and Development,2013,50 (2):437-444 (in Chinese). [楊陟卓,黃河燕.基于異構(gòu)關(guān)系網(wǎng)絡(luò)圖的詞義消歧研究 [J].計(jì)算機(jī)研究與發(fā)展,2013,50 (2):437-444.]

[5]Bernard Brosseau Villeneuve,Nie Jianyun,Noriko Kando.Towards an optimal weighting of context words based on distance[C]//Proceedings of the 23rd International Conference on Computational Linguistics,2010:107-115.

[6]Bernard Brosseau Villeneuve,Noriko Kando,Nie Jianyun.Construction of context models for word sense disambiguation[J].Information and Media Technologies,2011,6 (3):701-729.

[7]Li G,Kou G,Quan J.Symmetric is not the optimal local context window in Chinese word sense disambiguation [C]//International Conference on Information Technology and Computer Science,2009:201-204.

[8]Li G,Kou G,Zhou E,et al.Symmetric trends:Optimal local context window in Chinese word sense disambiguation[C]//International Conference on Hybrid Intelligent Systems,2009:151-154.

[9]DONG Zhendong,DONG Qiang.HowNet[EB/OL].[2010-11-05].http://www.keenage.com(in Chinese).[董振東,董強(qiáng).知網(wǎng)[EB/OL].[2010-11-05].http://www.keenage.com.]

[10]YAN Rong,GAO Guanglai. Word sense disambiguation based on word semantic relevancy computation [J].Computer Engineering and Applications,2012,48 (27):109-113 (in Chinese).[閆蓉,高光來.面向詞義消歧的詞語相關(guān)度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2012,48 (27):109-113.]

[11]Mohammad S,Hirst G,Resnik P.Tor,TorMD:Distributional profiles of concepts for unsupervised word sense disambiguation [C]//4th International Workshop on Semantic Evaluations,2007:326-333.

猜你喜歡
消歧多義詞義項(xiàng)
基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
多義詞
基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
藏文歷史文獻(xiàn)識別過程中藏文自由虛詞的自動(dòng)識別及消歧算法的研究
淺議多義詞在語境中的隱喻認(rèn)知
多義詞way的語義認(rèn)知分析及實(shí)證研究
兩用成語中的冷義項(xiàng)
Enhanced Precision
基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究
多義詞研究的嶄新視角*——Е. B. Пaдучева詞義動(dòng)態(tài)模式系列研究之二
铜鼓县| 玉屏| 柯坪县| 陵川县| 察雅县| 双牌县| 黎城县| 巴中市| 方山县| 深圳市| 叶城县| 五常市| 莱州市| 城固县| 天镇县| 左权县| 南阳市| 罗定市| 长垣县| 会昌县| 抚州市| 大同县| 察雅县| 剑阁县| 安仁县| 宝清县| 库尔勒市| 读书| 水城县| 密山市| 松潘县| 涡阳县| 云龙县| 孙吴县| 弋阳县| 扶绥县| 迭部县| 永宁县| 天祝| 湖口县| 安庆市|