国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞語相似度的語義選擇限制知識獲取

2019-09-23 09:22:10賈玉祥趙倩倩李育光昝紅英
關(guān)鍵詞:論元語料語義

賈玉祥, 趙倩倩, 李育光, 鄭 一, 昝紅英

(鄭州大學(xué) 信息工程學(xué)院 河南 鄭州 450001)

0 引言

謂語動詞對其論元有選擇傾向性,稱為語義選擇限制(selectional preference, SP).比如,“吃”這個動詞的主語傾向于選擇表示“人或動物”的名詞,賓語傾向于選擇表示“食物”的名詞.可以用函數(shù)spr(v,n)表示語義選擇傾向,v表示謂語動詞,r表示論元類型,n表示論元,sp值為實數(shù),值越大,表示n越適合充當(dāng)v的論元r.比如,“香蕉”比“石頭”更適合充當(dāng)“吃”的“賓語”.語義選擇限制知識獲取就是學(xué)習(xí)函數(shù)spr(v,n),實現(xiàn)對任意(v,r,n)的打分.

語義選擇限制是重要的詞匯語義知識,除了可以用來判斷句子的合法性之外,還具有數(shù)據(jù)平滑和消歧作用,因此被用于自然語言處理的多種任務(wù),包括句法分析[1]、語義角色標(biāo)注[2]、詞義消歧[3-4]、機器翻譯[5]、隱喻計算[6]等.語義選擇限制是很多詞匯知識庫的重要組成部分,比如英語的VerbNet[7]、現(xiàn)代漢語語義詞典SKCC[8]等.然而,手工構(gòu)建的語義選擇限制知識庫很難滿足自然語言處理的需求,需要從大規(guī)模語料中自動獲取語義選擇限制知識.

從語料庫中自動獲取語義選擇限制知識,一般需要先對語料進行句法分析,然后抽取句法搭配(v,r,n),形成訓(xùn)練集.對于訓(xùn)練集中出現(xiàn)過的搭配,可以簡單地用共現(xiàn)次數(shù)count(v,r,n)或條件概率p(n|v,r)來表示spr(v,n).關(guān)鍵是對訓(xùn)練集中沒有出現(xiàn)過的搭配(v,r,n0)如何計算spr(v,n0),即如何根據(jù)v的已知論元計算未知論元的sp值,稱之為論元擴展.

本文采用基于詞語相似度的論元擴展方法,引入詞向量進行詞語相似度計算,詞向量只需要在經(jīng)過分詞的語料上進行訓(xùn)練,不需要對語料進行句法分析.

1 相關(guān)研究

論元擴展可以借助名詞語義分類體系來實現(xiàn),比如英語的WordNet[9]與漢語的HowNet[10].先基于已知論元計算謂語動詞對論元語義類的sp值,對于未知論元,只要它出現(xiàn)在某一個語義類中,就可以將該語義類的sp值賦予該論元.對于語義類sp值的計算,Resnik[11]使用一個基于KL距離(Kullback-Leibler divergence)的統(tǒng)計指標(biāo),Li[12]則基于最小描述長度(minimum description length, MDL)模型來進行.

論元擴展也可以基于詞語在語料庫中的分布來實現(xiàn).基于隱含狄利克雷分配(latent dirichlet allocation, LDA)的模型[13]把自動學(xué)習(xí)的隱含主題作為語義類實現(xiàn)對未知論元sp值的計算.神經(jīng)網(wǎng)絡(luò)模型[14]將輸入的v與n的詞向量轉(zhuǎn)化為sp值輸出.向量空間模型[15]根據(jù)詞語在語料庫中的分布特征把詞語表示成特征空間中的向量,通過向量運算得到未知論元與已知論元之間的相似度從而實現(xiàn)對未知論元sp值的計算.這里的向量還是傳統(tǒng)意義上的稀疏向量,并非詞向量(word embedding).

在詞語相似度計算方面,詞向量表示已被證明比傳統(tǒng)向量表示效果更好[16].基于詞匯知識庫的方法也是詞語相似度計算的常用方法,該方法利用詞匯知識的語義網(wǎng)絡(luò)表示或樹結(jié)構(gòu)來計算詞語相似度[17].漢語構(gòu)詞及漢字的部首信息也可以用于漢語詞語相似度計算[18].多種方法的融合會進一步提升詞語相似度計算的效果[19].

漢語語義選擇限制知識自動獲取方面,賈玉祥等[20-22]實現(xiàn)了基于KL距離、MDL、LDA及神經(jīng)網(wǎng)絡(luò)的模型.本文考察基于詞語相似度的語義選擇限制知識自動獲取,并引入詞向量和詞匯知識庫進行詞語相似度的計算.以往語義選擇限制知識獲取都需要對語料庫進行句法分析,抽取句法搭配,以此為基礎(chǔ)進行sp值的計算,本文方法中句法分析則不是必需的.

2 本文方法

2.1 基于詞語相似度的SP獲取方法

把SP知識獲取分成兩個步驟:第一步獲取種子論元Seeds;第二步利用未知論元與種子論元之間的詞語相似度進行論元的擴展并計算選擇傾向sp.謂詞v對一個論元n0的選擇傾向sp定義為該論元n0與所有種子論元n的相似度的加權(quán)組合[14],如

(1)

權(quán)值weight(n)可以用來區(qū)分不同種子論元的重要性,為簡單起見,本文將權(quán)值統(tǒng)一設(shè)置為1.種子論元可以來源于搭配詞典、標(biāo)注語料,可以由人工直接給出,也可以從語料中自動抽取.本文將比較人工直接給出的種子論元與自動抽取的種子論元在SP獲取中的效果.

詞語相似度計算將比較基于詞向量的方法與基于詞典的方法.詞向量是將詞語表示為一個低維的稠密向量,以更好地表示詞語的含義,并能緩解數(shù)據(jù)稀疏問題.使用兩個詞語的詞向量的夾角余弦表示詞語之間的相似度.詞向量的訓(xùn)練采用Skip-gram模型及負(fù)采樣方法[16].基于詞典的詞語相似度計算采用基于同義詞詞林的方法[17],詞典使用同義詞詞林?jǐn)U展版.

2.2 知識獲取的評價方法

語義選擇限制獲取模型對謂詞論元搭配進行打分,合理的搭配得分要高于不合理的搭配.偽消歧(pseudo-disambiguation)方法就是利用這種思想對選擇限制獲取模型進行評價.首先獲取一些合理的搭配,視之為正例.對于每一個正例(v,n),以一定策略構(gòu)造一個反例(v,n′),反例搭配的合理性要低于正例.如果模型打分spr(v,n)>spr(v,n′),則判斷正確,記為win;spr(v,n)=spr(v,n′),記為tie;否則,判斷錯誤.模型正確率acc的計算為

acc=(#win+#tie*0.5)/(#allsamples).

(2)

我們采用3種選擇策略構(gòu)造反例,得到3個測試集:名詞按詞頻降序排列,選擇直接前驅(qū)詞作為反例,記作pre;名詞按詞頻降序排列,選擇直接后繼詞作為反例,記作post;隨機選擇,記作rand.對構(gòu)造的測試集進行人工過濾,確保每一對樣本中正例搭配的合理性高于反例.

3 實驗與分析

本文實驗以動賓關(guān)系為例,首先描述相關(guān)數(shù)據(jù)及實驗設(shè)置,然后對實驗結(jié)果進行分析,比較了兩種相似度計算方法在SP獲取任務(wù)中的表現(xiàn),并考察了種子論元的獲取對SP獲取結(jié)果的影響.

3.1 數(shù)據(jù)與實驗設(shè)置

使用ZPar[23]對60年(1946—2005)人民日報語料進行句法分析,抽取動賓搭配,構(gòu)造動賓搭配集.對動賓搭配集中出現(xiàn)次數(shù)在50次以上的動詞,對其賓語按照搭配頻次降序排列,選擇topN作為動詞賓語的種子論元,考察了N為1、5、10、15、20、25的情況.

使用ICTCLAS[24]對60年人民日報語料進行分詞處理,使用word2vec[16]訓(xùn)練詞向量,詞向量維度設(shè)為200,上下文窗口設(shè)為2.基于同義詞詞林的相似度計算方法參數(shù)采用缺省設(shè)置[17].使用NLPCC-ICCPOL2016中文詞語相似度評測數(shù)據(jù)對兩種相似度計算方法進行測試.結(jié)果顯示,基于同義詞詞林的方法Spearman值為0.42,基于詞向量的方法Spearman值為0.38,分別超過了24個提交系統(tǒng)中的第5名和第9名.

從1998年1月的人民日報語料中抽取動賓搭配作為正例,使用3種策略生成反例,正反例樣本中動詞和名詞均為雙音節(jié)詞.對于正反例樣本,由3位標(biāo)注者進行確認(rèn),確保每一對樣本中正例名詞與動詞搭配的合理性要高于反例名詞.3位標(biāo)注者標(biāo)注結(jié)果一致的樣本予以保留,最終得到3種反例生成策略下的測試樣本個數(shù)分別為:pre/887個,post/820個,rand/865個.表1給出3個測試樣本的例子,verb是動詞,pos是正例名詞,pre、post、rand為3種策略下的反例名詞,可見正例的合理性均要高于反例.

3.2 兩種相似度計算方法的實驗比較

圖1給出基于兩種相似度計算方法(詞向量emb、同義詞詞林cilin)的SP獲取模型在3個數(shù)據(jù)集(pre、post、rand)上一共6種實驗方案下的偽消歧實驗正確率.可見,基于詞向量計算詞語相似度的結(jié)果要全面優(yōu)于基于同義詞詞林計算詞語相似度的結(jié)果.當(dāng)只有一個種子論元時,詞向量方法的正確率達(dá)到80%左右,同義詞詞林方法的正確率超過65%.隨著種子論元個數(shù)增加,正確率逐漸提升.同義詞詞林方法在種子論元個數(shù)為5時正確率達(dá)到最高,超過75%.種子論元個數(shù)大于10時,詞向量方法正確率均超過90%.種子論元超出一定數(shù)量后,正確率會下降.當(dāng)種子個數(shù)為20時,基于詞向量的方法在3個測試集上的結(jié)果均優(yōu)于基于神經(jīng)網(wǎng)絡(luò)maxout[22]的方法.

表1 測試樣本舉例Tab.1 Examples of test data

圖1 偽消歧實驗結(jié)果Fig.1 Results of the pseudo-disambiguation experiment

從這里可以看出,面向任務(wù)的詞語相似度計算的評價與單純的詞語相似度計算的評價是有一定區(qū)別的.在詞語相似度測試集上,基于同義詞詞林的方法Spearman相關(guān)系數(shù)高于基于詞向量的方法,但是選擇限制獲取中偽消歧實驗的效果基于詞向量的方法要顯著好于基于同義詞詞林的方法.

以動詞“把握”為例,SP獲取的情況見表2.給定種子論元,個數(shù)分別為1和5,計算“把握”與(同義詞詞林中的)所有名詞的選擇傾向值sp,對名詞按sp值從大到小排序.可見,基于詞向量的方法得到的名詞列表優(yōu)于基于同義詞詞林方法得到的名詞列表,后者前10個名詞中存在不正確的搭配(斜體詞語),如福音、手下、手頭等,并且種子詞也沒有排在前列.

需要指出的是,直接從動賓結(jié)構(gòu)中獲取論元也是一種可行的方法,但是該方法一方面需要對語料進行句法分析,另一方面語料的規(guī)模總是有限的,對于沒有出現(xiàn)在所抽取的動賓結(jié)構(gòu)中的名詞,是無法給出選擇傾向性的.因此,論元擴展是必要的.

我們將基于詞向量方法的結(jié)果與基于同義詞詞林方法的結(jié)果進行一致性分析,得到表3所示的一致性矩陣.可見,對于基于詞向量方法判斷錯誤(emb#lose)的部分樣本(個數(shù)分別為33/34/42,表中黑體),基于同義詞詞林的方法做出了正確的判斷(cilin#win),即兩種方法有一定互補性,可以將兩種方法結(jié)合起來,進一步提升SP知識獲取效果.

表2 動詞“把握”賓語論元獲取情況Tab.2 Acquired object candidates for the verb “grasp”

表3 基于詞向量方法與基于同義詞詞林方法的結(jié)果一致性矩陣Tab.3 Consistency matrix between the word embedding based model and cilin based model

圖2 不同種子來源的對比實驗(種子個數(shù)為5)Fig.2 Comparison between different seed sources (seed number: 5)

3.3 種子論元對SP獲取結(jié)果的影響

種子論元的獲取有不同的方式,3.2節(jié)給出的是自動獲取種子論元的實驗結(jié)果.本節(jié)對自動獲取種子論元與人工給出種子論元兩種方式進行實驗比較.人工給出種子論元的方式是:提供給標(biāo)注者一個動詞列表,標(biāo)注者為每一個動詞提供一組適合做其賓語的名詞,可以借助搭配詞典等資源.圖2是種子個數(shù)為5時,6種實驗方案(1:pre-emb、2:post-emb、3:rand-emb、4:pre-cilin、5:post-cilin、6:rand-cilin)下,不同種子論元獲取方式的實驗結(jié)果,其中,auto是自動獲取種子論元的結(jié)果,anno1是標(biāo)注者1給出種子的實驗結(jié)果,anno2是標(biāo)注者2給出種子的實驗結(jié)果.可見,自動獲取種子的結(jié)果優(yōu)于人工給出種子的結(jié)果.自動獲取種子的方式既節(jié)省了人力,效果又更好,因此是可行的.

仍然以動詞“把握”為例,自動獲取的種子和人工給出的5個種子分別如下:

auto:規(guī)律 方向 機遇 趨勢 導(dǎo)向;anno1:機遇 機會 命運 要求 特征;anno2:機會 時機 本質(zhì) 方向盤 機遇

可見,自動獲取的種子和人工給出的種子有一定的重合度.“把握”是一個多義詞,目前以隱喻義為主,自動獲取的種子全部對應(yīng)于隱喻義,而人的觀念里還是有本義存在,會給出本義對應(yīng)的種子,如“方向盤”.偽消歧實驗里沒有區(qū)分動詞義項,在構(gòu)建語義選擇限制知識庫時則需要以動詞義項為單位.

當(dāng)然,自動獲取的種子會由于句法分析的錯誤而存在問題,這也是下一步可以需要的地方.例如,以下動詞的論元種子中,粗斜體的詞就存在搭配錯誤.這些錯誤的一個主要原因是“動詞+名詞”結(jié)構(gòu)歧義,比如,負(fù)責(zé)+同志、負(fù)責(zé)+干部、負(fù)責(zé)+領(lǐng)導(dǎo)均是偏正關(guān)系,不是動賓關(guān)系.

負(fù)責(zé)同志工作 事務(wù)干部 領(lǐng)導(dǎo)

導(dǎo)致 后果 戰(zhàn)爭原因結(jié)果 危機

防止建議戰(zhàn)爭 事故 現(xiàn)象 傾向

4 總結(jié)與展望

本文考察了基于詞語相似度的語義選擇限制知識自動獲取方法,把知識獲取過程分成兩個步驟:種子論元的獲取及論元擴展.基于詞語相似度的論元擴展與基于詞向量的詞語相似度計算方法和基于同義詞詞林的詞語相似度計算方法相比較. 實驗表明,前者的效果顯著優(yōu)于后者,且二者有一定互補性,可以結(jié)合起來進一步提升知識獲取效果.在種子論元獲取方面,自動獲取的種子論元效果優(yōu)于人工給出的種子論元.偽消歧實驗顯示,本文方法的正確率超過了目前最好的神經(jīng)網(wǎng)絡(luò)方法.

我們將從以下方面對本文工作進行改進:1) 本文種子論元的獲取、詞向量訓(xùn)練語料及測試集均來自于人民日報語料,測試結(jié)果有一定的領(lǐng)域局限性,下一步將構(gòu)建一個新的測試集,考察模型的領(lǐng)域遷移效果.2) 將不同的詞語相似度計算方法融合起來,進一步改進語義選擇限制知識獲取的效果.3) 設(shè)計合理的實驗,對語義選擇限制知識獲取的不同方法進行對比分析,以選擇最優(yōu)的方法.

猜你喜歡
論元語料語義
語言與語義
成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
認(rèn)知范疇模糊與語義模糊
《苗防備覽》中的湘西語料
英語中動構(gòu)式中施事論元句法隱含的認(rèn)知研究
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
崇文区| 隆化县| 东乡族自治县| 水城县| 外汇| 湟中县| 西昌市| 孝感市| 大安市| 施秉县| 乌兰察布市| 宾阳县| 天祝| 城口县| 弋阳县| 长寿区| 收藏| 蒙城县| 濮阳市| 永州市| 布尔津县| 高邮市| 三河市| 社会| 西安市| 防城港市| 凤翔县| 中山市| 登封市| 江山市| 察哈| 化州市| 长治县| 邵东县| 藁城市| 新密市| 肃南| 灌云县| 广德县| 成都市| 四川省|