国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語謂詞組合范疇語法詞庫的自動構(gòu)建研究

2016-05-04 01:15周強(qiáng)
中文信息學(xué)報 2016年3期
關(guān)鍵詞:詞庫謂詞范疇

周強(qiáng)

(清華大學(xué) 信息技術(shù)研究院語音和語言技術(shù)中心 北京 100084)

漢語謂詞組合范疇語法詞庫的自動構(gòu)建研究

周強(qiáng)

(清華大學(xué) 信息技術(shù)研究院語音和語言技術(shù)中心 北京 100084)

謂詞詞庫是深層語法模型分析和理解的核心資源。近年來的常規(guī)方法是人工構(gòu)建或從標(biāo)注語料庫中自動獲取,標(biāo)注規(guī)模和信息容量的擴(kuò)大受制于巨大的人工投入量和標(biāo)注庫體系設(shè)計。該文提出了一種多資源融合自動構(gòu)建漢語謂詞組合范疇語法(CCG)詞庫的新方法。從知網(wǎng)、北大語法信息詞典和大規(guī)模事件句式實(shí)例中提取漢語謂詞的不同句法語義分布特征,融合形成CCG原型范疇表示,將它們指派給各資源信息完全重合的謂詞形成核心詞庫。然后通過自動分類和隸屬度分析相結(jié)合方法對其他謂詞的CCG范疇進(jìn)行預(yù)測,并對兩者結(jié)果進(jìn)行融合得到擴(kuò)展詞庫,最終合并形成包含約15,000個詞條的漢語謂詞CCG詞庫。通過在隨機(jī)均勻抽樣的1000個謂詞上通過多人獨(dú)立標(biāo)注形成的標(biāo)準(zhǔn)測試庫上進(jìn)行不同角度的性能分析實(shí)驗(yàn),表明該詞庫的預(yù)期準(zhǔn)確率達(dá)到了96.3%。

組合范疇語法;漢語謂詞詞庫;多資源融合

1 引言

對文本內(nèi)容的深度理解一直是自然語言處理研究的核心課題。在句子分析層面,隨著一些淺層句法分析(如層次結(jié)構(gòu)樹和依存樹)和淺層語義分析(如語義角色標(biāo)注)方法的不斷發(fā)展和完善,近年來的研究工作開始轉(zhuǎn)向深層語法理論和相關(guān)資源研究方面。

深層語法理論的主要特點(diǎn)是可以內(nèi)置謂詞-論元(Predicate-Argument,PA)關(guān)系描述和分析機(jī)制,從而可以方便地解決句子語義分析中的句法語義鏈接(Syntactic Semantic Linking)問題。理想情況下,一個基于深層語法理論的自動分析器可以同時得到句子的淺層句法結(jié)構(gòu)樹或依存樹表示和淺層語義角色標(biāo)注信息,從而為自動提取句子的深層語義表示打下很好的基礎(chǔ)。

深層語法理論的描述核心是融合句法語義鏈接關(guān)系描述的詞匯知識庫(詞庫Lexicon)和相應(yīng)的詞匯組合規(guī)則體系。早期的研究人員一般手工構(gòu)建詞庫和規(guī)則庫,不僅耗時費(fèi)力,而且很難完全覆蓋真實(shí)文本中的各種復(fù)雜語言現(xiàn)象。近年來的主流方法是利用現(xiàn)有標(biāo)注語料庫自動轉(zhuǎn)換生成針對不同深層語法理論的大規(guī)模標(biāo)注庫,再從中提取得到覆蓋面更廣的深層語法詞庫和規(guī)則庫。這大大提高了詞庫構(gòu)建的靈活性和適用性,但前期資源標(biāo)注仍需要投入大量的人工。

本文則希望探索一種能自動構(gòu)建出準(zhǔn)確全面的深層語法詞庫的有效方法。其核心是融合多個語言資源提供的豐富句法語義分布信息來預(yù)測詞庫標(biāo)記。為此,我們選擇了組合范疇語法(CCG)描述體系,其簡潔的范疇描述形式可以方便地融合不同資源信息。然后,我們設(shè)計了一套有效的多資源融合算法,通過融合從知網(wǎng)中獲取的動詞義原的事件框架和語義角色信息、從北大語法信息詞典中提取的動詞句法分布表和從大規(guī)模真實(shí)文本中自動提取的典型事件句式分布,可以自動預(yù)測大部分漢語謂詞的CCG范疇,并建立起CCG范疇中的核心論元與知網(wǎng)事件框架語義角色和典型事件分布實(shí)例之間的內(nèi)在聯(lián)系,為進(jìn)一步進(jìn)行各個核心論元語義限制的自動獲取打下了很好的基礎(chǔ)。

在下面幾節(jié)中,第二節(jié)分析前人的相關(guān)工作以及存在的問題;第三節(jié)介紹多資源融合方法的基本思路;第四節(jié)給出具體實(shí)現(xiàn)算法的描述;第五節(jié)通過實(shí)驗(yàn)評價驗(yàn)證了該方法的可行性和有效性;第六節(jié)進(jìn)行總結(jié)和展望。

2 相關(guān)工作

深層語法理論主要包括樹鄰接文法(LTAG)[1]、詞匯功能語法(LFG)[2]、中心詞驅(qū)動短語結(jié)構(gòu)語法(HPSG)[3]和組合范疇語法(CCG)等。LTAG由句法組合以及語法推導(dǎo)樹集合組成。通常包含一個或者多個鄰接樹。M Candito[4]指出,LTAG難以準(zhǔn)確地展現(xiàn),同時擴(kuò)展和維護(hù)更令人頭痛。LFG展示了結(jié)構(gòu)樹之間的關(guān)系,能夠總結(jié)形成一般化語言學(xué)處理方法。但M Dalrymple[5]指出LFG需要龐大的信息庫或特征集、統(tǒng)一的語法單元,難以通過人工的方法構(gòu)建,而自動方法又難以保證其準(zhǔn)確性。HPSG是一種基于特征的語法標(biāo)注框架,W D Meurers[6]的工作生成了一個語法體系集合,其中仍然存在類似LFG的問題。

而CCG語法卻是一種表達(dá)明確同時能夠高效處理的語法描述體系。M Steedman[7]提到CCG可以通過簡練的描述形式表現(xiàn)出句子中各成分的句法語義關(guān)系。英語方面的初步實(shí)驗(yàn)[8-9]顯示CCG具有很強(qiáng)的分析效率。因此本文選擇了CCG描述體系進(jìn)行漢語謂詞詞庫的自動構(gòu)建研究。

構(gòu)建謂詞詞庫通常有兩種方法: 人工標(biāo)注和通過語料庫轉(zhuǎn)換生成。K K Schuler[10]以人工方式對WordNet的謂詞分類信息進(jìn)行處理,篩選出WordNet分類中符合謂詞論元組合規(guī)律的謂詞及其語義角色信息生成VerbNet詞庫。SA Boxwell[11]人工篩選出ProbBank里能夠?qū)?yīng)到論元的語義角色信息,進(jìn)而歸納出謂詞的CCG范疇詞庫。J Hockenmaier[12]提出了一種自動提取Penn樹庫中謂詞同論元組合分布信息轉(zhuǎn)換生成CCG范疇構(gòu)建詞庫的算法。

近年來漢語方面詞庫構(gòu)建也進(jìn)行了探索,比較有代表性的是袁毓林老師的漢語配價語法研究[13]。通過定義謂詞配價,即謂詞能夠支配的名詞性成分的數(shù)量,明確表示謂詞的句法特性以及語義關(guān)系。語言學(xué)家通過人工方式推斷出動詞的價,最終可以匯總得到漢語謂詞知識詞庫。

同時袁老師還分析了語義角色標(biāo)注對于構(gòu)建漢語詞庫資源的作用[14-15],提出語義角色的信息能夠很好地幫助描述詞庫中謂詞的語義層面的組合信息,這樣有助于詞庫對于語義理解信息方面的提升。

上述工作的主要問題在于人工處理過于依賴主觀知識背景,不同標(biāo)注人員差異較大,同時人工篩選效率過低無法應(yīng)用于大規(guī)模詞庫構(gòu)建。自動方法通過單一語料庫作為處理輸入無法獲取到謂詞同論元間豐富的語義角色關(guān)系。因此本文希望探索能融合不同資源自動構(gòu)建出含有不同維度語義、句法信息的、客觀全面的漢語謂詞詞庫的有效方法。

3 問題描述

CCG體系下的漢語謂詞描述范疇大多是復(fù)雜范疇,由原子范疇(如: S,NP,SP,PP等)通過左斜杠“/”和右斜杠“”兩種不同方向的組合操作得到。它們隱含了這樣的信息: 1) 一個謂詞可以控制的核心論元數(shù)目;2) 它們在淺層句法形式上的典型組合順序。表1列出了我們目前總結(jié)的幾種典型CCG范疇形式,它們覆蓋了漢語中絕大部分的謂詞分布情況。

表1 典型漢語謂詞的CCG范疇表示

漢語謂詞CCG詞庫的構(gòu)建目標(biāo),是為每個謂詞,選擇確定合適的CCG范疇標(biāo)記。考慮到多義謂詞在真實(shí)語境中的不同分布特點(diǎn),一個謂詞可能會指派多個CCG范疇標(biāo)記。同時,為便于后續(xù)的分析應(yīng)用,對于每個謂詞在CCG范疇中控制的核心論元,我們還希望能給出合適的語義角色標(biāo)記,并收集一定規(guī)模的典型搭配詞語,便于進(jìn)行后續(xù)的語義限制約束的自動挖掘研究。

為此,我們選擇了以下語言資源:

1) 知網(wǎng)(HowNet)語義詞典[16](以下稱HowNet)

這是人工編撰的漢語詞語概念描述詞典。我們從中選擇了全部的事件類概念描述,包括其中每個謂詞義項(xiàng)的概念定義(DEF)、事件框架和語義角色描述。它們反映了詞典編撰者對某類事件語義的典型認(rèn)知圖式的判斷和把握,可以為CCG范疇的核心論元確定和語義角色選擇提供重要參考信息。

2) 北大語法信息詞典[17](以下簡稱PKU_GD)

對漢語常用詞語的語法分布特征信息進(jìn)行了詳細(xì)描述。我們從中選擇了漢語動詞的主要句法分析特征,提取形成以下特征動詞表: 不及物動詞表(vi)、體賓及物動詞表(vtn)、謂賓及物動詞表(vtv)、雙賓動詞表(dobj)和兼語動詞表(comp)。它們反映了詞典編撰者從母語語感中提煉出的不同動詞的句法分布特點(diǎn),可以為相應(yīng)動詞的CCG范疇選擇確定提供參考。

3) 真實(shí)文本的事件句式描述實(shí)例

它們記錄了漢語真實(shí)小句的主、謂、賓、狀、補(bǔ)等句法骨架分析信息。我們從中選擇了五種基本事件句式: 主謂(SP)、主謂賓(SPO)、主狀謂(SDP)(介詞短語pp.作狀語D)、主謂賓賓(SPOO)、主謂賓補(bǔ)(SPJC)。在大多數(shù)情況下,它們可以與表1中列出的幾個CCG范疇之間建立一一對應(yīng)關(guān)系,從而可以為不同謂詞的CCG范疇預(yù)測提供重要的客觀分析數(shù)據(jù)支持。目前,我們主要使用了以下兩種事件句式描述實(shí)例。

A. 從TCT樹庫中自動提取的事件句式實(shí)例(以下稱TCT_EC)

由于利用了樹庫中的人工校對句法樹,因此相應(yīng)事件句式的準(zhǔn)確度很高,但數(shù)據(jù)規(guī)模較小,對漢語謂詞的覆蓋率較??;

B. 從北大人民日報標(biāo)注庫中利用現(xiàn)有的事件句式分析器[18]自動分析得到的事件句式實(shí)例(以下稱RMRB_EC)

可以達(dá)到很大的數(shù)據(jù)規(guī)模和謂詞覆蓋率,但自動分析結(jié)果存在一些錯誤噪聲。

表 2顯示了這些資源的基本統(tǒng)計數(shù)據(jù)。如果我們把CCG范疇標(biāo)記作為描述漢語謂詞的句法語義鏈接關(guān)系的原型范式,這些資源則分別從不同角度提供了對這個原型范式的句法語義分布判據(jù)。這里的直觀假設(shè)是: 如果這些資源提供的句法語義分布信息的重合度越高,則相應(yīng)謂詞的CCG范疇的原型性越強(qiáng),從而確定該CCG范疇標(biāo)記的可靠性就越高。據(jù)此,我們形成了通過不同語言資源融合來構(gòu)建漢語謂詞CCG詞庫的基本設(shè)想: 選擇不同資源描述重合部分構(gòu)建CCG核心詞庫,從中挖掘不同資源對核心詞庫的特征貢獻(xiàn),以此為基礎(chǔ),探索漢語謂詞CCG范疇的自動預(yù)測方法,構(gòu)建其他CCG擴(kuò)展詞庫。

表2 不同語言資源的基本信息統(tǒng)計

4 算法設(shè)計

圖1顯示了這種融合方法的總體框架。其中輸入資源為知網(wǎng)(HowNet)、北大語法信息詞典(PKU_GD)和事件句式實(shí)例,通過融合各資源特征形成每個謂詞的句法語義描述向量,從中提取各資源信息完全重合的謂詞形成核心詞庫,其他謂詞作為待確定詞庫。對核心詞庫,按照CCG范疇原型假設(shè),為其中的每個謂詞指派合適的CCG范疇標(biāo)記。將它們與各自的特征描述向量相結(jié)合,形成初始的訓(xùn)練知識庫;對待確定詞庫中的每個謂詞,則通過CCG范疇的自動預(yù)測方法獲得合適的CCG范疇指派而形成擴(kuò)展詞庫,最終合并兩個庫形成最終完整的謂詞詞庫。

圖1 算法框架圖

4.1 資源融合和核心詞庫生成

三個資源均無法單獨(dú)確定謂詞的CCG范疇,因此通過提取三類資源的對應(yīng)特征,相互作用能夠更好地應(yīng)用于后續(xù)的核心詞庫建立以及擴(kuò)展詞庫預(yù)測。從三類資源中可以提取出一個37維的特征向量,各個資源提供特征內(nèi)容如下。

HowNet核心語義角色可以提供特征信息: 核心語義角色數(shù)量,根據(jù)HowNet語義角色含義預(yù)估其可能對應(yīng)CCG的論元位置得到論元對應(yīng)的核心語義角色數(shù)量,根據(jù)核心語義角色計算出CCG含有各論元的概率,共形成15維特征。

PKU_GD謂詞所屬類別可以作為特征信息,為了計算方便特征統(tǒng)一為二元特征,利用8維特征分別表示謂詞是否屬于一個或多個類別。

事件句式提供謂詞事件句式類型的分布信息,這些分布信息以及相互交叉得到的二元信息形成14維特征。

按照論文基本假設(shè)對于三類資源重疊部分提取出謂詞的CCG范疇,配合HowNet語義角色對應(yīng)CCG論元的預(yù)估得到各論元對應(yīng)的語義角色,再添加事件句式提供的搭配實(shí)例形成核心詞庫。資源重疊的判斷方法如表3所示。不符合表3內(nèi)容的謂詞作為待確定詞庫通過自動預(yù)測方法進(jìn)行CCG范疇指派。

表3 資源特征對齊原則

4.2 待確定詞庫的CCG范疇預(yù)測

這部分主要通過自動分類和隸屬度分析兩種方法分別預(yù)測CCG范疇,然后通過結(jié)果融合最終確定出待確定詞庫謂詞的CCG范疇形成擴(kuò)展詞庫。

4.2.1 CCG范疇自動分類

以核心詞庫作為訓(xùn)練集合,CCG范疇特征量作為分類特征量,通過目前常用的SVM分類方法進(jìn)行待確定詞庫的自動分類將謂詞映射到不同的CCG范疇。

資源融合時產(chǎn)生的37維特征向量可以體現(xiàn)謂詞的語義句法信息,利用該特征向量進(jìn)行SVM訓(xùn)練及分類能夠充分利用謂詞的各類信息區(qū)分出不同謂詞特點(diǎn),對待確定詞庫CCG進(jìn)行指派。

4.2.2 隸屬度分析

很多謂詞缺少HowNet和PKU_GD詞典提供的特征信息,而且自動分類的訓(xùn)練集主要來自于核心詞庫,因此自動分類器可能存在訓(xùn)練不充分問題。另一方面,從大規(guī)模真實(shí)文本中獲取的事件句式分布實(shí)例已經(jīng)能夠提供非常豐富的謂詞句法意義分布特征,因此不妨忽略前兩個資源提供的語義和句法信息,而提出繪制謂詞隸屬度圖譜確定CCG范疇的方法。所謂的隸屬度就是事件句式類型頻率分布。

根據(jù)核心詞庫中不同CCG范疇下所有謂詞的隸屬度計算平均值作為該CCG范疇的核心隸屬度,這樣定詞庫中每個謂詞根據(jù)隸屬度向量可以計算出該謂詞同各個CCG范疇標(biāo)準(zhǔn)隸屬度的歐氏距離,選取距離最近的CCG范疇作為該謂詞的隸屬度分析結(jié)果CCG。

4.2.3 結(jié)果融合

通過自動分類和隸屬度分析分別得到了待確定詞庫中謂詞的CCG范疇。自動分類利用不同資源的統(tǒng)計信息提取CCG范疇卻忽略了真實(shí)文本中使用的變形、省略等情況,隸屬度分析基于事件句式實(shí)例的分布趨勢,卻無法區(qū)分出相同詞形不同詞義的情況。兩者融合可以使得最終結(jié)果更加準(zhǔn)確客觀?;痉椒ㄊ? 當(dāng)兩者預(yù)測結(jié)果相同時,選擇該CCG范疇指派給謂詞;當(dāng)兩者預(yù)測結(jié)果不同時,則通過分析發(fā)現(xiàn)不同差異特點(diǎn)選擇合適的CCG范疇。

根據(jù)兩種結(jié)果的不同差異情況具體分析能夠總結(jié)出不同結(jié)果的融合情況。如自動分類結(jié)果為“(SNP)/NP”,隸屬度分析結(jié)果為“SNP”的情況是由于謂詞在實(shí)際使用中會根據(jù)前文省略賓語,例如 “我-完成-任務(wù)”省略為“我-完成了”,最終CCG范疇?wèi)?yīng)為“(SNP)/NP”;自動分類結(jié)果為“(SNP)/NP”,隸屬度分析結(jié)果為“(SNP)PP”的情況產(chǎn)生于賓語用介詞引導(dǎo)作為狀語修飾謂詞,例如 “我-關(guān)閉-電腦”,表現(xiàn)為“我-將-電腦-關(guān)閉”,最終CCG范疇?wèi)?yīng)為“(SNP)/NP”;

通過兩種獨(dú)立的自動分析方法確定出擴(kuò)展謂詞庫中謂詞的CCG范疇,通過融合的方法得到最終的CCG范疇。根據(jù)CCG范疇確定出HowNet語義角色同CCG范疇各論元的對應(yīng)關(guān)系形成擴(kuò)展謂詞庫。核心詞庫和擴(kuò)展詞庫合并整體上作為最終的漢語謂詞CCG詞庫。

5 實(shí)驗(yàn)分析

5.1 總體融合數(shù)據(jù)分析

最終該方法得到了15 468個謂詞義項(xiàng)CCG范疇結(jié)果,表4從不同角度分析了核心和擴(kuò)展兩部分詞庫的分布特點(diǎn)。

表4 謂詞庫規(guī)模統(tǒng)計

首先,按照謂詞被指派的CCG范疇數(shù)目分出單類和多類兩類謂詞;其次通過統(tǒng)計謂詞在現(xiàn)有事件句式庫中包含的基本事件句式總數(shù),分出如下的高中低頻三類謂詞: 事件句式數(shù)量小于5的謂詞屬于低頻,大于20的屬于高頻,中間部分屬于中頻。表格中每個結(jié)果包含“token/type” 兩個頻度值。

對比核心詞庫和擴(kuò)展詞庫,三類資源能夠完全重疊的核心詞庫數(shù)量明顯較少,表明待確定詞庫的CCG范疇自動預(yù)測方法是必要的;對比單類和多類數(shù)量結(jié)果,大部分謂詞CCG范疇均較為固定,即使謂詞本身存在多種含義,但是其CCG范疇的性質(zhì)都是近似的,例如,謂詞“滋生”本身具有“{ResultIn|導(dǎo)致}”和“{reproduce|生殖}”兩種含義,但是其CCG范疇都是“(SNP)/NP”;對比高中低頻的謂詞數(shù)量,漢語謂詞在真實(shí)本文中的使用存在較為明顯的長尾效應(yīng),較少的高頻謂詞會重復(fù)使用,剩余大量謂詞很少出現(xiàn)。

表5列出了詞庫中不同CCG范疇的分布特點(diǎn)。由于多類詞具有多個CCG范疇,按CCG范疇分類統(tǒng)計type頻度會產(chǎn)生分歧,因此每個表格單元僅包含對應(yīng)的token頻度。

通過這一結(jié)果可以發(fā)現(xiàn)大部分CCG結(jié)果為 (SNP)/NP和SNP。這與人們所知的常識是一致的,即在實(shí)際句子中SPO和SP類型的句子是最為常見的。

表5 不同CCG范疇token數(shù)量統(tǒng)計

詞庫中近900個(SNP)PP類型謂詞較為特殊,下面進(jìn)行具體實(shí)例單獨(dú)分析。表6列出部分(SNP)PP類型謂詞,可以看出這類詞語通常具有兩個核心論元,但是并不能直接形成SPO的形式,而是以“和”,“與”等詞語引導(dǎo)的介詞結(jié)構(gòu)狀語如表中“比較”“操心”或通過聯(lián)合主語如表中“協(xié)商”來表達(dá)完整含義。

表6 (SNP)PP類型謂詞實(shí)例

5.2 CCG范疇預(yù)測準(zhǔn)確性分析5.2.1 標(biāo)注數(shù)據(jù)集合構(gòu)建

為了能夠有效地對謂詞結(jié)果準(zhǔn)確性進(jìn)行評價,需要構(gòu)建出一個標(biāo)準(zhǔn)的評測集。

從所有謂詞中按照上述不同頻度不同類型的分布隨機(jī)均勻選取1 000個謂詞詞條作為評測集合。評測集合token分布如表7所示。

表7 標(biāo)準(zhǔn)集合規(guī)模統(tǒng)計

安排兩個標(biāo)注人員獨(dú)立對評測集的謂詞進(jìn)行標(biāo)注,對每個謂詞分別按照五種不同的CCG類型構(gòu)造事件句式,判斷構(gòu)造出的句式是否滿足特定條件[19],滿足條件的事件句式對應(yīng)的CCG為該謂詞的正確指派,否則不是。對比兩個標(biāo)注人員的結(jié)果,選擇一致結(jié)果作為標(biāo)準(zhǔn)集合的結(jié)果,對于不一致的結(jié)果通過第三個標(biāo)注者進(jìn)行進(jìn)一步確認(rèn)以保證標(biāo)準(zhǔn)集合數(shù)據(jù)的客觀性和可靠性最終形成評測集合。表8列出部分人工標(biāo)注結(jié)果樣例,其中兩位標(biāo)注者分別給出謂詞對應(yīng)CCG以及構(gòu)造出的事件句式實(shí)例,由第三名標(biāo)注者對前兩名標(biāo)注者不同結(jié)果進(jìn)行修正,如表中前三詞分別為不同CCG謂詞標(biāo)注結(jié)果一致情況,“訂婚”為標(biāo)注結(jié)果不一致通過第三名標(biāo)注者確定的情況,“繁殖”為標(biāo)注結(jié)果不同,最終合并為多類詞的情況。

表8 標(biāo)準(zhǔn)集合人工標(biāo)注樣例

為評價評測集合的質(zhì)量,本文采用J Cohen[20]提出的Kappa系數(shù)作為評價指標(biāo)。在不告知兩位標(biāo)注者構(gòu)造句式判定條件的情況下進(jìn)行獨(dú)立標(biāo)注,計算出兩名標(biāo)注者的理論一致率Pe為0.4230,在進(jìn)行標(biāo)注指導(dǎo)后標(biāo)注者再次進(jìn)行標(biāo)注,計算出實(shí)際一致率Po為0.9940,根據(jù)式(1)。

(1)

最終得到了測試集的Kappa值為0.9896,符合評測要求。

5.2.2 準(zhǔn)確率評價

評測使用的準(zhǔn)確率具體計算公式為式(2)。

(2)

其中P是傳統(tǒng)準(zhǔn)確率,R為自動CCG結(jié)果同人工標(biāo)注CCG結(jié)果完全一致token總數(shù),對于多類詞分別統(tǒng)計每個CCG結(jié)果同人工結(jié)果是否一致,計算出一致的token數(shù),S為評價集合結(jié)果token總數(shù)。

表9展示出了不同類型謂詞的準(zhǔn)確率評價結(jié)果。

表9 不同謂詞準(zhǔn)確率

核心詞庫的準(zhǔn)確率均要高于擴(kuò)展詞庫,說明三類資源重疊部分得到的CCG原型范疇更為準(zhǔn)確,第三節(jié)提出的直觀假設(shè)成立。同時單類詞準(zhǔn)確率高于多類詞,這是因?yàn)榻M合單一的謂詞更容易從不同資源中提取準(zhǔn)確CCG范疇。事件句式實(shí)例頻度同準(zhǔn)確率成正比,因?yàn)楦S富的組合實(shí)例為CCG范疇確定提供更準(zhǔn)確的句法組合信息。

上方評價是考慮詞庫整體得到的,下面對比CCG自動預(yù)測中不同方法準(zhǔn)確率結(jié)果。具體結(jié)果如表10所示。

表10 不同方法準(zhǔn)確率

整體上結(jié)果融合的表現(xiàn)均高于單獨(dú)的處理方法,表明該處理方法中結(jié)果融合方法的正確性及必要性。但是數(shù)據(jù)中多類情況較為特殊,其隸屬度結(jié)果較差,這是由于基于事件句式分布得到的隸屬度分析結(jié)果不能區(qū)分多類詞范疇,通過自動分類結(jié)果的彌補(bǔ)有效地保證了結(jié)果準(zhǔn)確性。

目前方法仍然存在一些缺陷: 1) 由于事件句式實(shí)例無法區(qū)分相同謂詞的不同CCG,導(dǎo)致多類詞處理存在偏差,如“提升”有SNP和(SNP)/NP兩種CCG,例如“水平-提升”和“隊(duì)伍-提升-水平”,但句式分布僅表明兩類句式比例都很高,無法表明謂詞確實(shí)存在兩種CCG還是由于變形導(dǎo)致;2) 低頻謂詞無法提供詳細(xì)準(zhǔn)確的事件句式信息,使得這部分謂詞準(zhǔn)確率偏低,如“擴(kuò)招”句式實(shí)例中僅出現(xiàn)一次為省略賓語形式“學(xué)校-擴(kuò)招”,但是該謂詞CCG應(yīng)為(SNP)/NP。因此未來需要進(jìn)一步探索改進(jìn)事件句式的處理方式。

6 總結(jié)

本文通過融合不同漢語語言資源,提取對應(yīng)特征信息,將資源特征重疊的謂詞根據(jù)CCG原型假設(shè)指派對應(yīng)CCG范疇,形成比較可靠的核心詞庫。以特征信息和核心詞庫為基礎(chǔ)通過CCG自動分類、隸屬度分析等不同方法對其他謂詞的CCG范疇進(jìn)行自動預(yù)測,并融合不同方法結(jié)果得到擴(kuò)展詞庫,合并兩個詞庫得到希望的謂詞詞庫。通過詞庫規(guī)模以及準(zhǔn)確性的評價分析,表明前文提出的直觀假設(shè)成立,不同CCG預(yù)測方法有效,詞庫準(zhǔn)確率滿足使用要求。最終形成一個完整可靠的漢語謂詞CCG詞庫。

論文后續(xù)工作可以從以下方面入手: 1)根據(jù)詞庫配合事件句式實(shí)例的搭配詞匯自動提取出謂詞CCG論元的語義約束限制,提升現(xiàn)有詞庫的使用范圍;2)加強(qiáng)對短語動詞如述補(bǔ)式結(jié)構(gòu)的CCG范疇獲取研究,分析其事件復(fù)合特點(diǎn);3)開發(fā)實(shí)現(xiàn)針對本謂詞詞庫的相關(guān)支撐平臺;4)同目前漢語的其他大規(guī)模人工編撰詞庫如袁毓林老師的動詞配價庫的性能對比分析。

致謝

感謝董振東先生提供知網(wǎng)2008版的研究許可,感謝北大計算語言所提供語法信息詞典1998版和人民日報2000年全年標(biāo)注庫的研究許可,感謝碩士研究生烏蘭、張遠(yuǎn)洋提供評測集合標(biāo)注幫助。

[1] K V Shanker,Y Schabes. Structure sharing in lexicalized tree-adjoining grammars[C]//Proceedings of the 14th conference on Computational linguistics(COLING ’92),1992,1: 205-211.

[2] R M Kaplan,J Bresnan. Lexical-functional grammar: A formal system for grammatical representation[J]. Formal Issues in Lexical-Functional Grammar,1982: 29-130.

[3] C Pollard,I A Sag. Head-driven phrase structure grammar[M]. Chicago: University of Chicago Press and Stanford: CSLI Publications,1994.

[4] M H Candito. A principle-based hierarchical representation of LTAGs[C]//Proceedings of the 16th conference on Computational linguistics,1996,1: 194-199.

[5] M Dalrymple. Formal Issues in Lexical-functional Grammar[M]. New York: Center for the Study of Language & Information,1995.

[6] W D Meurers,G Minnen. A computational treatment of lexical rules in HPSG as covariation in lexical entries[J]. Computational Linguistics Archive,1997,23: 543-568.

[7] Steedman M,Baldridge J. Combinatory categorial grammar[J]. Non-Transformational Syntax Oxford: Blackwell,2011,181-224.

[8] M McConville. Inheritance and the CCG Lexicon[C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics,2006: 1-8.

[9] S Clark. Large-scale syntactic processing: Parsing the web[J]. Final Report of the 2009 JHU CLSP Workshop,2009.

[10] K K Schuler. VerbNet: A broad-coverage,comprehensive verb lexicon[D]. Ph.D. thesis: University. of Pennsylvania ,2005.

[11] S Boxwell,M White. Projecting propbank roles onto the ccgbank[C]//Proceedings of the International Conference on Language Resources and Evaluation,2008.

[12] J Hockenmaier,M Steedman. CCGbank: a corpus of CCG derivations and dependency structures extracted from the Penn Treebank[J]. Computational Linguistics,2007,33: 355-396.

[13] 袁毓林. 漢語配價語法研究[M]. 北京: 商務(wù)印書館,2010.

[14] 袁毓林. 語義角色的精細(xì)等級及其在信息處理中的應(yīng)用[J]. 中文信息學(xué)報,2007,21(4): 10-20.

[15] 袁毓林. 語義資源建設(shè)的最新趨勢和長遠(yuǎn)目標(biāo)——通過影射對比、走向統(tǒng)一聯(lián)合、實(shí)現(xiàn)自動推理[J]. 中文信息學(xué)報,2008,22(3): 3-15.

[16] 董振東,董強(qiáng). 知網(wǎng)[DB/OL].http: //www.keenage.com/zhiwang/c_zhiwang.html.2003.

[17] 北大計算語言學(xué)研究所. 現(xiàn)代漢語語法信息詞典規(guī)格說明書[DB/OL].http: //icl.pku.edu.cn/icl_groups/syntac-dictn.asp. 2000.

[18] 陳麗歐. 漢語事件內(nèi)容分析系統(tǒng)研究與實(shí)現(xiàn)[D]. 清華大學(xué),2012.

[19] 邱晗. 漢語動詞CCG范疇人工標(biāo)注規(guī)范[R]. 清華大學(xué): 信息技術(shù)研究院語音和語言技術(shù)中心,2011.

[20] J Cohen. A coefficient of agreement for nominalscales[J]. Educational and Psychological Measurement,1960,20(1): 37-46.

Automatic Construction of Chinese Predicate Lexicon for Combinatory Category Grammar

ZHOU Qiang

(Speech and Language Technologies R&D Center.Research Institute of Information Technology,Tsinghua University,Beijing 100084,China)

Predicate lexicon is the core resource of analyzing deep grammar. In contrast to the exsisting manual construction methods,this paper proposes a new method of generating the predicate lexicon for Combinatory Category Grammar (CCG) from multi-resources. This method extracts semantic and syntactic features from HowNet,PKU_GD and large scale Event Patterns,generating CCG prototype and then assigning it to part of predicate whose all features and information are overlaped. Then an expanded predicate lexicon is generated by merging the result of classification and membership analysis. For the finally achieved predicate lexicon with 15 thousands predicates,the evaluation on a standard set annotated independently by multiple humans with 1000 homogeneous distributed predicates shows that its precision can achceve 96.3%.

combinatory category grammar;Chinese predicate lexicon;multi-resources integration

周強(qiáng)(1967—),研究員,主要研究領(lǐng)域?yàn)樽匀徽Z言理解、詞匯語義學(xué)、語料庫語言學(xué)。E?mail:29_lxd@mail.fsinghua.edu.cn

2014-01-20 定稿日期: 2014-05-23

國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃(2013CB329304),國家自然科學(xué)基金(61373075)

1003-0077(2016)03-0196-08

TP391

A

猜你喜歡
詞庫謂詞范疇
批評話語分析的論辯范疇研究
正合范疇中的復(fù)形、余撓對及粘合
被遮蔽的邏輯謂詞
——論胡好對邏輯謂詞的誤讀
一“吃”多用
黨項(xiàng)語謂詞前綴的分裂式
康德哲學(xué)中實(shí)在謂詞難題的解決
輸入法詞庫取證比較研究
回路范疇的擴(kuò)張及其應(yīng)用
輸入法詞庫乾坤大挪移
將用戶詞庫快速導(dǎo)入搜狗五筆詞庫