国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語(yǔ)語(yǔ)義選擇限制知識(shí)的自動(dòng)獲取研究

2014-02-27 07:07:13賈玉祥王浩石昝紅英俞士汶王治敏
中文信息學(xué)報(bào) 2014年5期
關(guān)鍵詞:論元謂詞賓語(yǔ)

賈玉祥,王浩石,昝紅英,俞士汶,王治敏

(1. 鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;2. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;3. 北京語(yǔ)言大學(xué) 漢語(yǔ)學(xué)院,北京 100083)

1 引言

一個(gè)句子不是詞語(yǔ)的隨意組合,除了要滿足語(yǔ)法約束外,還需要滿足語(yǔ)義約束。例如,Chomsky著名的例子“Colorless green ideas sleep furiously.”,在語(yǔ)法上是正確的,但(從常識(shí)上講)卻不符合語(yǔ)義,因此沒(méi)有意義。因?yàn)閟leep的主語(yǔ)要求是人或動(dòng)物,green修飾的應(yīng)該是具體的事物,colorless修飾green及furiously修飾sleep都存在矛盾。

語(yǔ)義約束的一個(gè)主要體現(xiàn)是謂語(yǔ)(如動(dòng)詞)對(duì)充當(dāng)其句法成分(如主語(yǔ)、賓語(yǔ)等)或語(yǔ)義角色(如施事、受事等)的詞語(yǔ)(論元)在語(yǔ)義上具有選擇性,稱為語(yǔ)義選擇限制(Selectional Restriction/Selectional Preference, SP)。例如,動(dòng)詞“吃(eat)”的主語(yǔ)(或施事)更傾向于選擇“人或動(dòng)物”類(lèi)的詞語(yǔ),賓語(yǔ)(或受事)更傾向于選擇“食物”類(lèi)的詞語(yǔ)。

SP知識(shí)可以用一個(gè)四元組或函數(shù)sp(p,r,a)來(lái)表示,p表示謂語(yǔ)(或謂詞,predicate,可以是詞或語(yǔ)義類(lèi)),r表示句法成分(或語(yǔ)義角色,role),a表示名詞論元(argument,可以是詞或語(yǔ)義類(lèi)),sp是選擇優(yōu)先度,為一個(gè)實(shí)數(shù)值,表示謂語(yǔ)p選擇a充當(dāng)其句法成分(或語(yǔ)義角色)r的傾向性,sp越大,越傾向于選擇a。根據(jù)sp值從大到小對(duì)論元名詞或語(yǔ)義類(lèi)進(jìn)行排序,排在前面的可用于構(gòu)建SP知識(shí)庫(kù)。

SP知識(shí)獲取就是對(duì)任意的給出其對(duì)應(yīng)的sp值。對(duì)于r來(lái)說(shuō),選擇句法還是語(yǔ)義只是分析深度的區(qū)別,語(yǔ)義角色比句法成分更接近語(yǔ)義本質(zhì),手工創(chuàng)建的SP知識(shí)庫(kù)一般選語(yǔ)義角色,但是從目前知識(shí)自動(dòng)獲取的實(shí)際情況和在自然語(yǔ)言處理中的應(yīng)用角度出發(fā),一般選擇句法成分。

語(yǔ)義選擇限制是重要的詞匯語(yǔ)義知識(shí)[1],除了可以用來(lái)判斷句子的合法性之外,還具有數(shù)據(jù)平滑和消歧作用,因此被用于自然語(yǔ)言處理的很多任務(wù),包括句法分析[2]、語(yǔ)義角色標(biāo)注[3]、詞義消歧[4]、指代消解[5]、隱喻計(jì)算[6]等,在信息抽取、問(wèn)答系統(tǒng)、機(jī)器翻譯等方面也有潛在的應(yīng)用。

漢語(yǔ)研究者在語(yǔ)義選擇限制知識(shí)庫(kù)建設(shè)方面做了很多工作,也開(kāi)展了一些語(yǔ)義選擇限制規(guī)律的探索[7-8],但語(yǔ)義選擇限制知識(shí)自動(dòng)獲取方面的研究還相對(duì)較少[9]。本文研究漢語(yǔ)語(yǔ)義選擇限制知識(shí)的自動(dòng)獲取,對(duì)比考察了基于語(yǔ)義分類(lèi)體系的方法HowNet-SP和基于分布的方法LDA-SP,并對(duì)兩種方法的融合提出了一個(gè)可行的方案。本文的章節(jié)安排如下: 第2節(jié)介紹相關(guān)研究工作;第3節(jié)介紹兩種知識(shí)獲取方法;第4節(jié)給出實(shí)驗(yàn)結(jié)果與分析;第5節(jié)提出一個(gè)知識(shí)獲取方法的融合方案;第6節(jié)給出總結(jié)和展望。

2 相關(guān)研究

語(yǔ)義選擇限制是詞匯知識(shí)庫(kù)的重要組成部分。劍橋大學(xué)等構(gòu)建的綜合語(yǔ)言知識(shí)庫(kù)描述了動(dòng)詞對(duì)名詞的語(yǔ)義選擇限制,規(guī)定了動(dòng)詞主體和客體的語(yǔ)義類(lèi)。VerbNet為每一類(lèi)動(dòng)詞涉及的相關(guān)語(yǔ)義角色描述了選擇限制。北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)義詞典以義項(xiàng)為單位描述了實(shí)詞的配價(jià)信息和多種語(yǔ)義組合限制。清華大學(xué)等構(gòu)建的現(xiàn)代漢語(yǔ)述語(yǔ)動(dòng)詞機(jī)器詞典以義項(xiàng)為單位,描述每一個(gè)義項(xiàng)涉及的論旨角色的典型語(yǔ)義類(lèi)。HowNet[10]描述的語(yǔ)義關(guān)系中的施事/經(jīng)驗(yàn)者/關(guān)系主體-事件關(guān)系、受事/內(nèi)容/領(lǐng)屬物-事件關(guān)系等也體現(xiàn)了語(yǔ)義選擇限制。柏曉鵬[11]在建立現(xiàn)代漢語(yǔ)詞義分類(lèi)體系時(shí),把選擇限制作為詞語(yǔ)描述的屬性之一。

Resnik[4]最先提出語(yǔ)義選擇限制的自動(dòng)獲取,結(jié)合WordNet和真實(shí)語(yǔ)料獲得英語(yǔ)動(dòng)詞對(duì)賓語(yǔ)語(yǔ)義類(lèi)的選擇限制。繼英語(yǔ)之后,德語(yǔ)、法語(yǔ)、拉丁語(yǔ)、荷蘭語(yǔ)、漢語(yǔ)、日語(yǔ)、韓語(yǔ)、泰語(yǔ)等多種語(yǔ)言都開(kāi)展了SP自動(dòng)獲取的研究。除面向語(yǔ)言學(xué)方面的研究之外,SP在自然語(yǔ)言處理方面也得到了廣泛應(yīng)用。

SP獲取的關(guān)鍵是論元擴(kuò)展,即基于已知的論元實(shí)例,計(jì)算未知論元(沒(méi)有與p在語(yǔ)料中共現(xiàn))a’的sp值,即sp(p,r,a’)。根據(jù)論元擴(kuò)展中是否使用語(yǔ)義分類(lèi)體系,可以將SP獲取方法分為兩類(lèi)。

第一類(lèi)是基于語(yǔ)義分類(lèi)體系的方法。該方法借助語(yǔ)義分類(lèi)體系(如WordNet),計(jì)算謂語(yǔ)對(duì)論元語(yǔ)義類(lèi)的sp值,那么對(duì)于未知論元,只要它出現(xiàn)在某一個(gè)語(yǔ)義類(lèi)中,就可以給它一個(gè)sp值。這里的關(guān)鍵是語(yǔ)義類(lèi)sp值的計(jì)算,Resnik使用一個(gè)基于相對(duì)熵的統(tǒng)計(jì)指標(biāo),Li和Abe[12]基于最小描述長(zhǎng)度模型,Clark和Weir[13]基于假設(shè)檢驗(yàn)。對(duì)于面臨的一詞多義問(wèn)題,Judea等[14]通過(guò)只考慮沒(méi)有歧義的Wikipedia中的實(shí)體論元加以規(guī)避,Ciaramita和Johnson[15]則結(jié)合貝葉斯模型來(lái)加以處理。這類(lèi)方法的優(yōu)點(diǎn)是學(xué)習(xí)出的知識(shí)是關(guān)于語(yǔ)義類(lèi)的排序,而不是簡(jiǎn)單的詞語(yǔ)排序,易于人類(lèi)理解,便于集成到詞匯知識(shí)庫(kù)中。缺點(diǎn)是需要一個(gè)語(yǔ)義分類(lèi)體系,且由于詞典收詞有限會(huì)導(dǎo)致論元覆蓋率比較低。這類(lèi)方法主要面向語(yǔ)言學(xué)研究和詞匯知識(shí)庫(kù)構(gòu)建。

第二類(lèi)是基于分布的方法。該方法不需要語(yǔ)義分類(lèi)體系,而是利用詞語(yǔ)在語(yǔ)料中的分布情況來(lái)實(shí)現(xiàn)論元的擴(kuò)展,具體模型包括基于概率的模型、基于向量空間的模型、基于機(jī)器學(xué)習(xí)的模型等?;诟怕实哪P桶裺p值定義為一個(gè)關(guān)于p、r、a的概率,計(jì)算sp就是估計(jì)概率值。其中最常用的是隱變量模型[16](如Latent Dirichlet Allocation, LDA),隱變量可以看成一個(gè)個(gè)隱含的語(yǔ)義類(lèi),把謂語(yǔ)和未知論元聯(lián)系起來(lái)。基于向量空間的模型[17]利用大規(guī)模語(yǔ)料構(gòu)建一個(gè)向量空間,通過(guò)在該空間里計(jì)算未知論元和已知論元的相似度,把謂語(yǔ)和未知論元聯(lián)系起來(lái)。基于機(jī)器學(xué)習(xí)[5]的方法直接對(duì)論元進(jìn)行二分類(lèi): 合適的論元和不合適的論元,把分類(lèi)器給論元的打分作為sp值。Tian等[18]通過(guò)在謂語(yǔ)論元搭配圖上的隨機(jī)游走算法來(lái)解決未知論元問(wèn)題和sp值的計(jì)算。基于分布的方法優(yōu)點(diǎn)是不依賴語(yǔ)義分類(lèi)體系,論元覆蓋率高,對(duì)一詞多義問(wèn)題能更好地處理,易于和其他自然語(yǔ)言處理任務(wù)結(jié)合。缺點(diǎn)是學(xué)習(xí)出的知識(shí)是詞語(yǔ)的列表,與語(yǔ)義類(lèi)列表相比,不易于人類(lèi)理解。這類(lèi)方法主要面向自然語(yǔ)言處理,也是SP獲取的主流方法。

SP知識(shí)獲取方法的評(píng)價(jià)可以有三種途徑: 一是與人的判斷進(jìn)行一致性比較,由人制定標(biāo)準(zhǔn)測(cè)試集;二是偽消歧(pseudo-disambiguation)[19],自動(dòng)構(gòu)建測(cè)試集;三是嵌入自然語(yǔ)言處理任務(wù)。從以往研究可以看出,基于分布的方法一般要好于基于語(yǔ)義分類(lèi)體系的方法,基于分布的方法的各種具體模型的表現(xiàn)各有優(yōu)劣。

3 漢語(yǔ)SP獲取方法

對(duì)于漢語(yǔ)語(yǔ)義選擇限制知識(shí)的獲取,對(duì)比考察基于語(yǔ)義分類(lèi)體系的方法和基于分布的方法?;谡Z(yǔ)義分類(lèi)體系的方法采用Resnik[4]的統(tǒng)計(jì)指標(biāo)和HowNet的分類(lèi)體系,基于分布的方法采用LDA模型。

3.1 基于語(yǔ)義分類(lèi)體系的方法——HowNet-SP

假設(shè)謂語(yǔ)動(dòng)詞v,論元角色r,名詞語(yǔ)義類(lèi)c,定義謂詞的選擇優(yōu)先強(qiáng)度(selectional preference strength, SPS)為論元語(yǔ)義類(lèi)的后驗(yàn)概率分布和先驗(yàn)概率分布之間差異,如式(1)所示。用相對(duì)熵表示,體現(xiàn)謂詞對(duì)論元語(yǔ)義類(lèi)的選擇性,值越大選擇性越強(qiáng),如“吃”(SPS = 0.585 318)對(duì)賓語(yǔ)的選擇性要比“想”(SPS = 0.185 432)對(duì)賓語(yǔ)的選擇性強(qiáng)。

謂詞v的論元角色r選擇語(yǔ)義類(lèi)c的優(yōu)先度(selectional preference, sp)即選擇關(guān)聯(lián)度(selectional association, SA)定義如式(2)所示。

即該語(yǔ)義類(lèi)對(duì)謂詞選擇優(yōu)先強(qiáng)度的貢獻(xiàn),體現(xiàn)了該語(yǔ)義類(lèi)用作謂詞論元的適合程度。選擇關(guān)聯(lián)度越大,謂詞對(duì)該語(yǔ)義類(lèi)的選擇傾向性越強(qiáng),如“edible|食物”(SA= 0.313 351)作為“吃”的賓語(yǔ)的選擇關(guān)聯(lián)度大于“stone|土石”(SA = 0.000 482 528)。

謂詞v的論元角色r選擇某一名詞n的優(yōu)先度定義為v對(duì)n所屬的所有語(yǔ)義類(lèi)的選擇優(yōu)先度的最大值,如式(3)所示。

使用最大似然估計(jì)方法來(lái)估計(jì)概率P(c|r)及P(c|v,r),如公式(4)~(5)所示。

文本中出現(xiàn)的是詞w,不是語(yǔ)義類(lèi)c。用詞頻freq(r,w)(統(tǒng)計(jì)w作為角色r出現(xiàn)的次數(shù),比如w作為動(dòng)詞賓語(yǔ)出現(xiàn)的次數(shù))或共現(xiàn)詞頻freq(v,r,w)來(lái)估計(jì)語(yǔ)義類(lèi)出現(xiàn)的頻率freq(r,c)或共現(xiàn)頻率freq(v,r,c),如式(6)~(7)所示,需要借助語(yǔ)言知識(shí)本體(語(yǔ)義分類(lèi)體系),這里使用HowNet。一個(gè)詞可能有多個(gè)義項(xiàng),每個(gè)義項(xiàng)對(duì)應(yīng)于HowNet中的一個(gè)概念(語(yǔ)義類(lèi))。這里對(duì)詞的義項(xiàng)不做區(qū)分,假設(shè)詞的出現(xiàn)對(duì)每個(gè)義項(xiàng)均起作用,并且對(duì)義項(xiàng)的所有上位概念均起作用。包含詞w的語(yǔ)義類(lèi)集合classes(w)是由w所在的各個(gè)概念及其所有上位概念組成,而且w對(duì)這些語(yǔ)義類(lèi)的貢獻(xiàn)均等,即詞頻要除以語(yǔ)義類(lèi)的個(gè)數(shù)|classes(w)|。

3.2 基于分布的方法——LDA-SP

概率主題模型LDA(Latent Dirichlet Allocation)[20]是一種有效的文檔表示模型,把文檔看作隱含主題的隨機(jī)混合,隱含主題看作詞的分布。該模型既可以挖掘文本中潛在的語(yǔ)義信息,又可以降低文檔表示的維度。

這里把描述文檔詞項(xiàng)共現(xiàn)的LDA模型遷移到謂詞論元共現(xiàn)的描述,把謂詞(如動(dòng)詞)看作文檔,把論元(如做動(dòng)詞賓語(yǔ)的名詞)看成詞項(xiàng),把論元的語(yǔ)義類(lèi)看成隱含主題。這樣基于LDA的語(yǔ)義選擇限制表示模型稱為L(zhǎng)DA-SP,如圖1所示。

空心點(diǎn)表示隱含隨機(jī)變量或參數(shù),實(shí)心點(diǎn)表示可觀察值,箭頭代表依賴關(guān)系。矩形表示重復(fù)過(guò)程,右下角是重復(fù)次數(shù)。大矩形表示從Dirichlet分布中為每個(gè)謂詞v反復(fù)抽取語(yǔ)義類(lèi)分布Θv,共V個(gè)謂詞。小矩形表示從語(yǔ)義類(lèi)分布中反復(fù)抽樣產(chǎn)生謂詞的論元名詞,共N個(gè)名詞。

LDA-SP的具體生成過(guò)程如下:

1) 對(duì)每一個(gè)謂詞v,選擇隱含語(yǔ)義類(lèi)上的一個(gè)多項(xiàng)式分布Θv,Θv是參數(shù)為α的Dirichlet分布。

2) 對(duì)每一個(gè)語(yǔ)義類(lèi)z,選擇論元名詞上的一個(gè)多項(xiàng)式分布Φz(mì),Φz(mì)是參數(shù)為β的Dirichlet分布。

3) 生成一個(gè)謂詞v的論元名詞n,先以分布Θv從隱含語(yǔ)義類(lèi)中選擇一個(gè)語(yǔ)義類(lèi)z,再以分布Φz(mì)從論元名詞中選擇一個(gè)論元名詞n。

模型生成的結(jié)果可以用公式(8)表示。

在此基礎(chǔ)上可以定義謂詞對(duì)論元語(yǔ)義類(lèi)和論元名詞的選擇優(yōu)先度如式(9)~(10)所示。

LDA-SP兩個(gè)重要的參數(shù)是各語(yǔ)義類(lèi)下論元名詞的概率分布P(n|z)和各謂詞的語(yǔ)義類(lèi)概率分布P(z|v,r)。參數(shù)估計(jì)可以采用期望最大化(Expectation Maximization ,EM)算法和Gibbs采樣等方法。給定參數(shù)α,β,語(yǔ)義類(lèi)個(gè)數(shù)T及謂詞論元搭配集,就可以得出訓(xùn)練參數(shù)P(n|z)及P(z|v,r)。

4 實(shí)驗(yàn)與分析

我們選擇動(dòng)賓關(guān)系、主謂關(guān)系來(lái)對(duì)語(yǔ)義選擇限制知識(shí)獲取進(jìn)行評(píng)價(jià)。對(duì)《人民日?qǐng)?bào)》2000年全年語(yǔ)料使用哈工大語(yǔ)言技術(shù)平臺(tái)進(jìn)行依存句法分析,抽取動(dòng)詞—名詞賓語(yǔ)對(duì)935 319對(duì)、動(dòng)詞—名詞主語(yǔ)對(duì)459 913對(duì)。對(duì)于LDA-SP模型,忽略只出現(xiàn)一次的動(dòng)詞,使用GibbsLDA++來(lái)實(shí)現(xiàn),主題(語(yǔ)義類(lèi))數(shù)量設(shè)為200,迭代次數(shù)設(shè)為2 000,其他參數(shù)為缺省設(shè)置。

4.1 優(yōu)選語(yǔ)義類(lèi)

基于語(yǔ)義分類(lèi)體系的方法可以獲取動(dòng)詞優(yōu)選語(yǔ)義類(lèi)的列表,基于分布的方法一般獲得的是詞語(yǔ)的列表。LDA-SP方法中的隱含變量z是詞語(yǔ)的聚類(lèi),相當(dāng)于語(yǔ)義類(lèi)。表1給出“吃”、“喝”、“寫(xiě)”、“唱”四個(gè)動(dòng)詞的賓語(yǔ)最優(yōu)先選擇的語(yǔ)義類(lèi)的情況,即SA最大的Class及P(z|v,r)最大的z。可見(jiàn),HowNet-SP與LDA-SP方法所獲取的優(yōu)選語(yǔ)義類(lèi)與人的認(rèn)知基本一致。比較而言,以語(yǔ)義類(lèi)表示的前者要比后者更清楚更易于理解。給隱含變量標(biāo)注語(yǔ)義類(lèi)標(biāo)簽將是提高LDA-SP方法所獲取知識(shí)的可理解性的手段。

表1 優(yōu)選語(yǔ)義類(lèi)比較

文獻(xiàn)[7]選取46個(gè)高頻動(dòng)詞,考察動(dòng)詞賓語(yǔ)語(yǔ)義類(lèi)的情況,只給出作賓語(yǔ)的頂層語(yǔ)義類(lèi),如“發(fā)揮”的賓語(yǔ)語(yǔ)義類(lèi)是“attribute|屬性”,“舉行”的賓語(yǔ)語(yǔ)義類(lèi)是“fact|事情”。本文對(duì)文獻(xiàn)[7]中的所有動(dòng)詞,從語(yǔ)料庫(kù)中自動(dòng)獲取對(duì)賓語(yǔ)的語(yǔ)義優(yōu)選,得到動(dòng)詞對(duì)各層次所有語(yǔ)義類(lèi)的選擇優(yōu)先度。表2給出每一個(gè)動(dòng)詞選擇關(guān)聯(lián)度SA最大的賓語(yǔ)語(yǔ)義類(lèi)。可見(jiàn),大部分的語(yǔ)義類(lèi)都是符合常識(shí)的。但是結(jié)果還是受一些因素的影響: (1)語(yǔ)料的規(guī)模。受語(yǔ)料庫(kù)規(guī)模影響,一些動(dòng)賓搭配的頻率比較小,比如“改掉”只有一個(gè)賓語(yǔ)“陋習(xí)”、“建筑”只出現(xiàn)8次、“震驚”出現(xiàn)20次、“改正”出現(xiàn)21次,這些都可能影響所獲取語(yǔ)義類(lèi)的質(zhì)量。(2)語(yǔ)料的領(lǐng)域。本文是新聞?lì)I(lǐng)域語(yǔ)料,某些搭配的分布很不平衡,例如,“附”的賓語(yǔ)基本都是“圖片”,因此優(yōu)選的語(yǔ)義類(lèi)是“image|圖像”。(3)文本自動(dòng)分析的錯(cuò)誤。分詞、詞性標(biāo)注、句法分析等的錯(cuò)誤會(huì)導(dǎo)致搭配抽取的錯(cuò)誤,如“計(jì)算機(jī)愛(ài)蟲(chóng)病毒”這句話里把“蟲(chóng)”分析成“愛(ài)”的賓語(yǔ),由于這樣的分析出現(xiàn)了49次,直接導(dǎo)致“愛(ài)”最優(yōu)選的語(yǔ)義類(lèi)是“InsectWorm|蟲(chóng)”。(4)HowNet中的詞匯知識(shí)沒(méi)有充分利用。HowNet中名詞出現(xiàn)在多個(gè)語(yǔ)義分類(lèi)體系中,除“entity|實(shí)體”外,還有“attribute|屬性”等,這里只用了“entity|實(shí)體”,導(dǎo)致不少名詞成了未登錄詞因而被忽略。另外,這里使用詞語(yǔ)定義中的第一義原來(lái)表示詞語(yǔ)所屬的語(yǔ)義類(lèi),在有些情況下,第一義原并不明確反映詞語(yǔ)的語(yǔ)義類(lèi),真正有用的義原是其他義原,這一問(wèn)題也有待解決。

表2 動(dòng)詞賓語(yǔ)優(yōu)選語(yǔ)義類(lèi)

語(yǔ)言中的隱喻表達(dá)可以看作是一種搭配異常,例如,“編織夢(mèng)想”“嫁接資本”等就是由動(dòng)賓搭配異常而形成的語(yǔ)言創(chuàng)新用法。獲得動(dòng)詞的優(yōu)選語(yǔ)義類(lèi),進(jìn)而獲得動(dòng)詞字面用法下的優(yōu)選語(yǔ)義類(lèi)(字面語(yǔ)義類(lèi),如“嫁接”的賓語(yǔ)字面語(yǔ)義類(lèi)“plant|植物”),對(duì)隱喻的判別和理解都有重要的作用。我們選擇10個(gè)常用于隱喻用法的動(dòng)詞,考察其賓語(yǔ)或主語(yǔ)優(yōu)選語(yǔ)義類(lèi)(選擇關(guān)聯(lián)度SA最大的語(yǔ)義類(lèi))的獲取情況(見(jiàn)表3)。

可見(jiàn),“嫁接”、“提煉”等給出了準(zhǔn)確的字面語(yǔ)義類(lèi)。“編織”的賓語(yǔ)有多個(gè)“網(wǎng)”(有一個(gè)語(yǔ)義類(lèi)是“internet|因特網(wǎng)”),其實(shí)“網(wǎng)”前有修飾詞,如“關(guān)系”,這里就形成了動(dòng)詞隱喻和名詞隱喻的嵌套(如編織關(guān)系網(wǎng)),比較難處理。“medicine|藥物”泛濫、“fund|資金”流入,本身是隱喻用法,已成為動(dòng)詞最常用的搭配。解剖“part|部件”和“part|部件”癱瘓,這里的“part|部件”就是一個(gè)不能準(zhǔn)確反映詞語(yǔ)語(yǔ)義類(lèi)信息的義原,例如,“身體”這個(gè)詞的定義是“DEF=part|部件,AnimalHuman|動(dòng)物,body|身”,第一義原“part|部件”不如義原“body|身”更能反映“身體”的語(yǔ)義類(lèi)信息。要準(zhǔn)確獲得動(dòng)詞的字面語(yǔ)義類(lèi),可以結(jié)合概念的抽象和具體信息,具體的概念更易于成為字面語(yǔ)義類(lèi)。例如,作為“滑坡”的主語(yǔ),“stone|土石”的SA值小于“experience|感受”,但是前者是具體概念,后者是抽象概念,可以過(guò)濾掉后者,而得到字面語(yǔ)義類(lèi)“stone|土石”。

表3 隱喻動(dòng)詞優(yōu)選語(yǔ)義類(lèi)

4.2 偽消歧

語(yǔ)義選擇限制獲取的一個(gè)標(biāo)準(zhǔn)評(píng)價(jià)方法是偽消歧(pseudo-disambiguation)。偽消歧最初是用來(lái)評(píng)價(jià)詞義消歧的,詞義消歧評(píng)價(jià)的一個(gè)難點(diǎn)就是需要人工來(lái)標(biāo)注標(biāo)準(zhǔn)測(cè)試集。為了減少人工標(biāo)注的工作量,提出了偽消歧這種自動(dòng)構(gòu)建測(cè)試集的方法。具體做法是(以動(dòng)賓搭配為例): 從語(yǔ)料中自動(dòng)抽取動(dòng)賓搭配集,認(rèn)為都是正確的搭配。對(duì)每一個(gè)搭配,基于某一種策略自動(dòng)選擇另一個(gè)名詞n′來(lái)代替n,形成偽搭配,即錯(cuò)誤的搭配,然后判斷哪一個(gè)搭配是原搭配哪一個(gè)是偽搭配。假定如果原搭配的選擇優(yōu)先強(qiáng)度sp(v,r,n)大于偽搭配的選擇優(yōu)先強(qiáng)度sp(v,r,n′)即為判斷正確。

評(píng)價(jià)指標(biāo)采用覆蓋率(coverage)和正確率(accuracy),定義如公式11和12所示。四元組形成一個(gè)測(cè)試樣本。如果都有sp值,那么稱該測(cè)試樣本被覆蓋(covered)。如果sp(v,r,n) >sp(v,r,n′),則判斷正確(correct);如果sp(v,r,n) =sp(v,r,n′),則強(qiáng)度相等(tie);否則為判斷錯(cuò)誤。

測(cè)試數(shù)據(jù)使用1998年1月的《人民日?qǐng)?bào)》語(yǔ)料(使用哈工大語(yǔ)言技術(shù)平臺(tái)進(jìn)行依存句法分析),從中抽取動(dòng)詞和名詞賓語(yǔ)搭配,要求: (1)動(dòng)詞和名詞的頻率在20和300之間。(2)動(dòng)賓搭配頻率大于2。(3)動(dòng)詞和名詞都是二字詞。這樣得到1 952個(gè)不同的動(dòng)賓搭配,通過(guò)人工校對(duì)最后確定搭配1 329對(duì),包含373個(gè)動(dòng)詞和386個(gè)名詞。

給每一個(gè)搭配中的名詞,選擇一個(gè)替代詞。替代詞的選擇可以有不同的策略,比如隨機(jī)選擇、選擇相近詞頻的詞等[19]。我們選擇一個(gè)更加嚴(yán)格的策略,先對(duì)名詞按詞頻從大到小降序排列,然后用直接前驅(qū)詞替代目標(biāo)名詞。目標(biāo)詞和替代詞一起形成一個(gè)測(cè)試樣本。

從訓(xùn)練數(shù)據(jù)中去掉測(cè)試樣本中的所有搭配,包括原搭配和偽搭配,這樣來(lái)保證所有的測(cè)試樣本對(duì)模型來(lái)說(shuō)都是沒(méi)有見(jiàn)過(guò)的,更能反映所獲取的語(yǔ)義選擇限制知識(shí)的泛化能力和數(shù)據(jù)平滑能力。

總體結(jié)果如表4所示。可見(jiàn),LDA-SP模型在覆蓋率和正確率上都比HowNet-SP模型好。LDA-SP模型的覆蓋率是100%,而HowNet-SP模型的覆蓋率是62.53%。一個(gè)原因是我們只使用了分類(lèi)體系“entity|實(shí)體”(HowNet 2000版的名詞語(yǔ)義分類(lèi)體系“entity|實(shí)體”包括142個(gè)義原,涵蓋 27 267個(gè)詞),而有些名詞則屬于其他的語(yǔ)義分類(lèi)體系,如“主題”“困境”“內(nèi)容”“局面”等詞都屬于“attribute|屬性”??紤]更多的語(yǔ)義分類(lèi)體系可能會(huì)提高覆蓋率。對(duì)于被覆蓋的樣本,HowNet-SP模型的正確率也比LDA-SP模型低很多。

表4 總體結(jié)果

表5給出了HowNet-SP模型的幾個(gè)例子,c是包含n且sp(v,r,c)最大的語(yǔ)義類(lèi)。表6給出LDA-SP模型的兩個(gè)例子??梢?jiàn),LDA-SP錯(cuò)誤的例子在HowNet-SP中是正確的??傮w上,79個(gè)樣本(約占樣本總數(shù)的5.94%)在LDA-SP是錯(cuò)的,但HowNet-SP是正確的,所以兩個(gè)模型的結(jié)合可以進(jìn)一步提高實(shí)驗(yàn)結(jié)果。

表5 HowNet-SP模型結(jié)果舉例

表6 LDA-SP模型結(jié)果舉例

5 方法的融合

基于語(yǔ)義分類(lèi)體系和基于語(yǔ)料庫(kù)分布的方法有很強(qiáng)的互補(bǔ)性。從理論上說(shuō),二者的結(jié)合可以充分利用詞匯語(yǔ)義知識(shí)和語(yǔ)料庫(kù)分布信息,從而獲得更理想的語(yǔ)義選擇限制知識(shí)。從實(shí)驗(yàn)結(jié)果看,二者的結(jié)合也會(huì)使知識(shí)獲取的質(zhì)量得到提升。這里嘗試為兩種方法的融合提出一個(gè)可行的方案。

把SP知識(shí)獲取分成兩個(gè)步驟。第一步是獲取基礎(chǔ)論元搭配,形成基礎(chǔ)搭配庫(kù);第二步是論元擴(kuò)展。基礎(chǔ)搭配可以從一個(gè)較小規(guī)模的語(yǔ)料中自動(dòng)獲取,也可以融合各種知識(shí)源,例如,搭配詞典、樹(shù)庫(kù)treebank等。通過(guò)計(jì)算已知論元和未知論元之間的相似度來(lái)實(shí)現(xiàn)論元的擴(kuò)展并得到選擇優(yōu)先度sp。論元相似度計(jì)算可以把詞匯語(yǔ)義知識(shí)和語(yǔ)料庫(kù)分布信息融合起來(lái)。

謂語(yǔ)對(duì)一個(gè)論元的選擇優(yōu)先度sp定義為該論元與基礎(chǔ)搭配庫(kù)中該謂語(yǔ)的所有已知論元的相似度的加權(quán)組合[17],如公式13所示。

權(quán)值weight(p,r,a)可以用來(lái)區(qū)分不同的論元類(lèi)型,若設(shè)為1,表示所有類(lèi)型的論元統(tǒng)一看待;也可以根據(jù)基礎(chǔ)搭配的數(shù)據(jù)來(lái)源設(shè)置不同的權(quán)值,如搭配詞典高于樹(shù)庫(kù)、樹(shù)庫(kù)高于自動(dòng)獲取的搭配等。相似度sim(a,a0)的計(jì)算可以基于詞匯知識(shí)庫(kù)與語(yǔ)料庫(kù)。基于詞匯知識(shí)庫(kù)的方法利用詞典中的信息建立詞語(yǔ)之間的關(guān)聯(lián)并計(jì)算相似度,如英語(yǔ)基于WordNet,漢語(yǔ)基于HowNet。語(yǔ)料庫(kù)方法基于分布性假設(shè),即語(yǔ)義相似的詞語(yǔ)通常有著相似的上下文,具體實(shí)現(xiàn)有基于向量空間的模型和基于概率的模型,基于深度學(xué)習(xí)的詞語(yǔ)表示方法也可以用于計(jì)算詞語(yǔ)相似度。

這里把論元相似度定義為兩種方法計(jì)算所得相似度的線性組合,如公式14所示。

其中,α+β=1,0≤α≤1,0≤β≤1,simLKB表示基于詞匯知識(shí)庫(kù)的方法,simDIST表示基于語(yǔ)料庫(kù)分布的方法,兩個(gè)相似度都?xì)w一化到[0,1]。這樣就會(huì)給每一個(gè)計(jì)算一個(gè)sp值,對(duì)每一個(gè),把論元a按照sp從大到小排序值,得到一個(gè)論元列表,即語(yǔ)義選擇限制知識(shí)。

6 總結(jié)與展望

本文研究漢語(yǔ)語(yǔ)義選擇限制知識(shí)的自動(dòng)獲取,分別基于HowNet和LDA模型實(shí)現(xiàn)了基于語(yǔ)義分類(lèi)體系和基于分布的知識(shí)獲取方法,對(duì)知識(shí)獲取的結(jié)果進(jìn)行了比較與分析?;谡Z(yǔ)義分類(lèi)體系的方法所獲得的優(yōu)選語(yǔ)義類(lèi)易為人類(lèi)理解,而基于分布的方法所獲取的知識(shí)在自然語(yǔ)言處理中有更好的應(yīng)用效果。兩種方法有很好的互補(bǔ)性,我們提出了一個(gè)二者的融合方案。本研究下一步將對(duì)方法進(jìn)行改進(jìn)和優(yōu)化,擴(kuò)大數(shù)據(jù)規(guī)模,考察更多的謂語(yǔ)論元類(lèi)型,考察句法分析等數(shù)據(jù)預(yù)處理中的錯(cuò)誤對(duì)結(jié)果的影響。實(shí)現(xiàn)方法融合,對(duì)不同方法進(jìn)行更深入的對(duì)比研究。

[1] Y Wilks. A Preferential Pattern-seeking Semantics for Natural Language Inference [J]. Artificial Intelligence, 1975, 6: 53-74.

[2] Guangyou Zhou, Jun Zhao, Kang Liu, et al. Exploiting Web-Derived Selectional Preference to Improve Statistical Dependency Parsing [C]//Proceedings of ACL2011, 2011: 1556-1565.

[3] 邵艷秋, 穗志方, 吳云芳. 基于詞匯語(yǔ)義特征的中文語(yǔ)義角色標(biāo)注研究[J]. 中文信息學(xué)報(bào), 2009, 23(6): 3-10.

[4] P Resnik. Selection and Information: A Classed-Based Approach to Lexical Relationships [D]. University of Pennsylvania, Philadelphia, PA, 1993.

[5] Shane Bergsma, Dekang Lin, Randy Goebel. Discriminative Learning of Selectional Preference from Unlabeled Text [C]//Proceedings of EMNLP2008, 2008, 59-68.

[6] Yuxiang Jia, Shiwen Yu. Unsupervised Chinese Verb Metaphor Recognition Based on Selectional Preferences [C]//Proceedings of the 22nd Pacific Asia Conference on Language, Information and Computation (PACLIC 22), 2008: 207-214.

[7] 吳云芳, 段慧明, 俞士汶. 動(dòng)詞對(duì)賓語(yǔ)的語(yǔ)義選擇限制[J]. 語(yǔ)言文字應(yīng)用, 2005, 5月第2期: 121-128.

[8] 李斌. 現(xiàn)代漢語(yǔ)動(dòng)賓搭配的語(yǔ)義分析和計(jì)算[D]. 南京師范大學(xué)博士學(xué)位論文, 2009.

[9] 賈玉祥, 俞士汶. 語(yǔ)義選擇限制的自動(dòng)獲取及其在隱喻處理中的應(yīng)用[C]//第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)(SWCL 2008), 2008: 90-96.

[10] 董振東. HowNet [DB/OL]. http://www.keenage.com.

[11] 柏曉鵬. 現(xiàn)代漢語(yǔ)詞義分類(lèi)體系的建立和自動(dòng)標(biāo)注[D]. 新加坡國(guó)立大學(xué)博士學(xué)位論文, 2012.

[12] H Li, N Abe. Generalizing case frames using a thesaurus and the MDL principle [J]. Computational Linguistics, 1998, 24(2): 217-244.

[13] S Clark, D Weir. Class-based probability estimation using a semantic hierarchy [J]. Computational Linguistics, 2002, 28(2): 187-206.

[14] Alex Judea, Vivi Nastase, Micheal Strube. Concept-based Selectional Preferences and Distributional Representations from Wikipedia Articles [C]//Proceedings of LREC2012, 2012: 2985-2990.

[15] M Ciaramita, M Johnson. Explaining away ambiguity: Learning verb selectional preference with Bayesian networks [C]//Proceedings of COLING2000, 2000: 187-193.

[16] Diarmuid 'O S'eaghdha. Latent variable models of selectional preference [C]//Proceedings of ACL2010, 2010: 435-444.

[17] Katrin Erk, Sebastian Pado, Ulrike Pado. A Flexible, Corpus-driven Model of Regular and Inverse Selectional Preferences [J]. Computational Linguistics, 2010, 36(4): 723-763.

[18] Zhenhua Tian, Hengheng Xiang, Ziqi Liu, et al. A Random Walk Approach to Selectional Preferences Based on Preference Ranking and Propagation [C]//Proceedings of ACL2013, 2013: 1169-1179.

[19] Nathanael Chambers, Dan Jurafsky. Improving the use of pseudo-words for evaluating selectional preferences[C]//Proceedings of ACL2010, 2010: 445-453.

[20] D Blei, A Ng, M Jordan. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3:993-1022.

猜你喜歡
論元謂詞賓語(yǔ)
連詞that引導(dǎo)的賓語(yǔ)從句
被遮蔽的邏輯謂詞
——論胡好對(duì)邏輯謂詞的誤讀
黨項(xiàng)語(yǔ)謂詞前綴的分裂式
西夏研究(2020年2期)2020-06-01 05:19:12
賓語(yǔ)從句及練習(xí)
成分重量和粵方言雙及物結(jié)構(gòu)的論元語(yǔ)序
基于論元結(jié)構(gòu)和題元指派對(duì)漢語(yǔ)處置義“把”字句的句法語(yǔ)義分析
中考試題中的賓語(yǔ)從句
也談“語(yǔ)言是存在的家”——從語(yǔ)言的主詞與謂詞看存在的殊相與共相
英語(yǔ)中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
誰(shuí)來(lái)管管“吃”的賓語(yǔ)?
闸北区| 弥勒县| 新河县| 柘荣县| 韶山市| 明水县| 伊宁市| 革吉县| 大英县| 桂阳县| 肥乡县| 宜都市| 文山县| 卓资县| 松江区| 峨边| 武邑县| 汉沽区| 灵寿县| 报价| 库车县| 海安县| 英吉沙县| 科技| 门源| 武山县| 吐鲁番市| 永靖县| 临泉县| 大港区| 信阳市| 弥勒县| 北京市| 大英县| 白城市| 焦作市| 通江县| 日土县| 开远市| 化州市| 龙岩市|