国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

構(gòu)建大規(guī)模的漢語事件知識(shí)庫

2012-06-29 03:54王俊俊陳麗歐
中文信息學(xué)報(bào) 2012年3期
關(guān)鍵詞:義項(xiàng)知識(shí)庫句法

周 強(qiáng),王俊俊,陳麗歐

(1. 清華大學(xué) 信息技術(shù)研究院 語音和語言技術(shù)中心,北京 100084;2. 清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室,北京 100084;3. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084)

1 引言

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,大量的信息以文本的形式快速涌現(xiàn)。如何從海量的文本中準(zhǔn)確抽取到所需要的信息,已經(jīng)成為研究的熱點(diǎn)問題。

對(duì)海量文本進(jìn)行信息的深度挖掘離不開高質(zhì)量的事件內(nèi)容分析技術(shù),而這些技術(shù)的開發(fā)又需要高質(zhì)量的事件語義標(biāo)注資源支持。近幾年來,英語方面陸續(xù)啟動(dòng)了多個(gè)大規(guī)模的事件語義資源開發(fā)項(xiàng)目,如FrameNet[1]、OntoNotes[2]等,它們分別從不同角度對(duì)英語真實(shí)文本句子中的事件語義信息進(jìn)行了深度標(biāo)注。在這些項(xiàng)目的推動(dòng)下,事件語義資源的開發(fā)取得了長足的進(jìn)展和豐碩的成果。相對(duì)而言,漢語的事件語義資源開發(fā)還很薄弱,需要進(jìn)行大量工作。

針對(duì)漢語的研究現(xiàn)狀,結(jié)合漢語自身的特點(diǎn),我們設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)針對(duì)漢語客觀事件的句法、語義和概念描述知識(shí)庫——漢語事件知識(shí)庫。該項(xiàng)目得到了國家863計(jì)劃課題的支持,由北京大學(xué)、魯東大學(xué)和清華大學(xué)協(xié)作開發(fā)完成。

在一個(gè)統(tǒng)一的設(shè)計(jì)框架下,我們將相關(guān)事件知識(shí)描述拆分成五個(gè)子庫,包括兩個(gè)靜態(tài)庫、兩個(gè)動(dòng)態(tài)庫以及一個(gè)用于在兩大知識(shí)庫之間建立聯(lián)系的動(dòng)詞義項(xiàng)對(duì)齊知識(shí)庫。五個(gè)子庫相互配合,互為補(bǔ)充,為漢語文本的事件內(nèi)容分析提供了豐富的語義資源支持。初步的實(shí)驗(yàn)結(jié)果顯示,這個(gè)方案可以很好地解決事件知識(shí)庫的“可操作性,可計(jì)算性,可擴(kuò)展性”問題。通過“小而精”地解剖一個(gè)局部問題,可以方便地?cái)U(kuò)展到更大的領(lǐng)域和更多的應(yīng)用中。在此基礎(chǔ)上,我們進(jìn)一步分析了各子庫的內(nèi)在關(guān)系,提出構(gòu)建集成事件知識(shí)庫的設(shè)想,以挖掘知識(shí)庫中的隱含信息,建立統(tǒng)一的事件描述體系,為開發(fā)更好的漢語事件計(jì)算平臺(tái)提供條件。

在下面的幾節(jié)中,第二節(jié)介紹漢語事件知識(shí)庫的整體框架、各子庫的詳細(xì)內(nèi)容及開發(fā)現(xiàn)狀;第三節(jié)結(jié)合實(shí)例對(duì)漢語事件知識(shí)庫的結(jié)構(gòu)進(jìn)行進(jìn)一步展示,并著重分析各子庫間的內(nèi)在聯(lián)系;第四節(jié)提出構(gòu)建集成的大規(guī)模事件知識(shí)庫的設(shè)想;第五節(jié)分析了在事件語義資源方面現(xiàn)有的相關(guān)研究成果;第六節(jié)是對(duì)現(xiàn)有工作的總結(jié)和對(duì)未來工作的展望。

2 漢語事件知識(shí)庫開發(fā)

2.1 總體框架

在漢語事件知識(shí)庫開發(fā)過程中,我們提出了靜態(tài)知識(shí)庫和動(dòng)態(tài)標(biāo)注庫相結(jié)合的構(gòu)建路線,從兩個(gè)不同角度對(duì)特定事件內(nèi)容進(jìn)行深入描述和知識(shí)挖掘:靜態(tài)庫匯集了大量語言學(xué)專家的描寫知識(shí),動(dòng)態(tài)庫提供了豐富的客觀事件標(biāo)注實(shí)例。事件知識(shí)庫的總體結(jié)構(gòu)如圖1所示。在一個(gè)統(tǒng)一的設(shè)計(jì)框架下,相關(guān)事件知識(shí)描述被拆分成五個(gè)既相互獨(dú)立又存在內(nèi)在信息聯(lián)系的知識(shí)子庫。經(jīng)過有效拆分和信息聯(lián)動(dòng),一方面細(xì)化了工作的粒度,便于分工合作,另一方面又增強(qiáng)了信息的可靠性和豐富性,提高了描述的質(zhì)量。

圖1 事件知識(shí)庫總體結(jié)構(gòu)

在靜態(tài)知識(shí)庫方面,我們設(shè)計(jì)了情境網(wǎng)絡(luò)和詞匯知識(shí)庫兩個(gè)子庫。前者側(cè)重從語義概念層面對(duì)不同事件、關(guān)系和狀態(tài)進(jìn)行細(xì)致描述,形成概念層面進(jìn)行知識(shí)推理和語義計(jì)算的基礎(chǔ)知識(shí)單元。后者側(cè)重從詞匯語義層面對(duì)不同詞語內(nèi)部隱含的句法語義分布信息進(jìn)行描述,以便建立起真實(shí)文本描述實(shí)例與詞匯語義知識(shí)庫之間的內(nèi)在聯(lián)系。通過以上兩個(gè)靜態(tài)庫,我們可以建立從表層的詞匯描述形式到深層的情境概念表達(dá)之間的聯(lián)系通道,為實(shí)現(xiàn)對(duì)表層文本反映的深層客觀事件內(nèi)容的準(zhǔn)確分析和相關(guān)知識(shí)推理提供支持。

在動(dòng)態(tài)標(biāo)注庫方面,我們設(shè)計(jì)了目標(biāo)動(dòng)詞義項(xiàng)標(biāo)注庫和事件描述塊句法語義標(biāo)注庫兩個(gè)子庫,分別從目標(biāo)動(dòng)詞義項(xiàng)和事件描述塊句法語義兩個(gè)層面對(duì)真實(shí)文本中的事件內(nèi)容進(jìn)行挖掘。通過對(duì)真實(shí)文本句子中事件目標(biāo)動(dòng)詞義項(xiàng)和事件描述塊的句法語義信息的準(zhǔn)確標(biāo)注,形成了大規(guī)模的客觀事件內(nèi)容描述實(shí)例,為相應(yīng)語義計(jì)算工具的知識(shí)獲取和統(tǒng)計(jì)建模提供有力支持。

為了有效地建立起靜態(tài)庫和動(dòng)態(tài)庫之間的聯(lián)系,我們設(shè)計(jì)了事件目標(biāo)動(dòng)詞義項(xiàng)對(duì)齊知識(shí)庫。通過人工標(biāo)注,實(shí)現(xiàn)各個(gè)語義詞典之間的義項(xiàng)對(duì)應(yīng),明確各個(gè)語義詞典提供的事件框架之間的角色對(duì)應(yīng)關(guān)系。以這個(gè)對(duì)齊知識(shí)庫為中間橋梁,可以方便地建立起兩大知識(shí)庫之間的信息聯(lián)動(dòng)。

2.2 分庫基本內(nèi)容介紹

從我們關(guān)注的特定事件類型出發(fā),各個(gè)子庫分別從不同的角度對(duì)事件相關(guān)知識(shí)進(jìn)行描述。

2.2.1 情境網(wǎng)絡(luò)

情境網(wǎng)絡(luò)描述體系[3]從概念語義層面對(duì)事件進(jìn)行描述,其描述核心是通過對(duì)相關(guān)信息抽象形成的情境表達(dá)式。通過不同的情境關(guān)系,建立起這些情境反映的事件內(nèi)容之間的內(nèi)在聯(lián)系,形成概念層面進(jìn)行知識(shí)推理和語義計(jì)算的基礎(chǔ)知識(shí)單元。

情境網(wǎng)絡(luò)的構(gòu)建過程主要包括情境的劃分、網(wǎng)絡(luò)的構(gòu)建以及定義詞匯的確立。在情境的劃分過程中,我們力圖保證情境概念描述的概括性和全面性,以便于進(jìn)行知識(shí)推理和語義計(jì)算。在情境網(wǎng)絡(luò)的構(gòu)建過程中,我們控制每個(gè)子網(wǎng)絡(luò)的規(guī)模,并限制定義詞匯的數(shù)量,以便于人工分析把握。在確定各情境的定義詞匯時(shí),我們盡可能地遵循以下原則:

a) 一個(gè)特定情境的所有定義詞匯具有相同的句法語義分布關(guān)系。

b) 子情境與子情境之間,定義詞匯成對(duì)立互補(bǔ)分布。對(duì)于可能激活不同情境的動(dòng)詞,將其拆分為不同的義項(xiàng),歸入對(duì)應(yīng)的情境中。

以“領(lǐng)屬變化”類事件為例,我們將相關(guān)事件拆分成 “失去”、“獲得”、“轉(zhuǎn)讓”、“商品交易”、“賒購”、“借還”、“租賃”等情境子網(wǎng)絡(luò),各個(gè)子網(wǎng)絡(luò)包含7~10情境,每個(gè)具體情境中又包含若干定義詞匯,同時(shí)各個(gè)子網(wǎng)絡(luò)之間也存在一定的聯(lián)系。相應(yīng)描述實(shí)例可參見圖2。

而其中的每個(gè)情境則主要包括了三部分內(nèi)容:1)情境的完整描述,包括情境名稱、情境表示、情境定義、參量定義、情境表達(dá)式、該情境發(fā)生的前提條件和后續(xù)結(jié)果等; 2)情境與相關(guān)情境的關(guān)系描述,它們形成了情境網(wǎng)絡(luò)的推理關(guān)系; 3)情境的定義詞匯信息。具體內(nèi)容可參閱圖3的相關(guān)部分。

2.2.2 詞匯知識(shí)庫

詞匯知識(shí)庫從詞匯語義層面對(duì)不同詞語的句法語義分布信息進(jìn)行描述,其描述核心是相關(guān)事件義項(xiàng)的語義論旨角色和句法配置模式,這是靜態(tài)知識(shí)庫與真實(shí)文本標(biāo)注實(shí)例之間建立聯(lián)系的重要橋梁。對(duì)于可能激活不同情境的目標(biāo)動(dòng)詞,在詞匯知識(shí)庫中都被拆分成不同的義項(xiàng),分別進(jìn)行句法語義分布的描述。從而保持了兩個(gè)靜態(tài)庫的一致性,更好地反映各情境事件的區(qū)別和聯(lián)系。

詞匯知識(shí)庫的義項(xiàng)描述單元包括如下內(nèi)容:義項(xiàng)描述、情境表達(dá)、參量錨定、論旨角色和句法配置。其中,“參量錨定”建立情境參量和論旨角色之間的內(nèi)在聯(lián)系,“句法配置”描述了文本句子中不同語義論旨角色的典型配位形式,提供句法語義連接信息。具體實(shí)例參見圖3描述。

2.2.3 目標(biāo)動(dòng)詞義項(xiàng)標(biāo)注庫

目標(biāo)動(dòng)詞義項(xiàng)標(biāo)注庫精選《人民日?qǐng)?bào)》標(biāo)注庫、清華樹庫[4]中的真實(shí)文本句子,以句中的特定目標(biāo)動(dòng)詞為標(biāo)注對(duì)象,基于三大語義詞典(《知網(wǎng)》[5]、《同義詞詞林》[6]和《現(xiàn)代漢語詞典》[7-8]),對(duì)該動(dòng)詞在真實(shí)文本中的義項(xiàng)進(jìn)行標(biāo)注,從而實(shí)現(xiàn)同一目標(biāo)動(dòng)詞在不同詞典之間、多個(gè)詞義之間義項(xiàng)的區(qū)分和對(duì)應(yīng)。

我們選擇了現(xiàn)有的三個(gè)典型語義詞典:《知網(wǎng)》[5]、《同義詞詞林》[6]和《現(xiàn)代漢語詞典》[7-8],它們分別采用了義原表達(dá)式、同義詞集合和自然釋義三種方式來描述事件意義。標(biāo)注過程中,根據(jù)真實(shí)文本句子中各個(gè)目標(biāo)動(dòng)詞出現(xiàn)的不同語境,分別選擇上面三個(gè)詞典中的合適義項(xiàng)描述,形成多個(gè)詞典對(duì)齊的義項(xiàng)標(biāo)注信息[9]。這樣,一方面可以充分利用三個(gè)詞典中的義項(xiàng)描述信息形成信息互補(bǔ)的完整事件內(nèi)容描述;另一方面,也可以利用相關(guān)標(biāo)注提供的不同語義詞典計(jì)算入口,集成各個(gè)詞典的計(jì)算能力。具體實(shí)例可參閱圖3的相關(guān)部分。

2.2.4 事件塊句法語義標(biāo)注庫

事件塊語義句法標(biāo)注庫的標(biāo)注文本選擇與目標(biāo)動(dòng)詞義項(xiàng)標(biāo)注庫相同。主要側(cè)重對(duì)真實(shí)文本句子中出現(xiàn)的各個(gè)具體事件描述實(shí)例的內(nèi)容標(biāo)注和信息挖掘。

具體標(biāo)注過程如下:在目標(biāo)動(dòng)詞控制的事件描述小句中,進(jìn)一步確定該目標(biāo)動(dòng)詞所反映事件的各個(gè)描述塊,并對(duì)其進(jìn)行句法語義信息標(biāo)注,包括:確定塊邊界、標(biāo)注句法功能(S,P,O)和成分(np, vp, tp)、語義角色(A,PN)標(biāo)記,以及確定各個(gè)塊的中心詞位置(用“@”符號(hào)標(biāo)注)等。另外,還對(duì)代詞指代和角色省略問題進(jìn)行了特殊處理,通過尋找和標(biāo)注事件描述小句外部的對(duì)應(yīng)塊信息,保證了相關(guān)事件內(nèi)容描述的完整性[10]。具體實(shí)例可參閱圖3的相關(guān)部分。

2.2.5 動(dòng)詞義項(xiàng)對(duì)齊知識(shí)庫

事件目標(biāo)動(dòng)詞義項(xiàng)對(duì)齊知識(shí)庫是各個(gè)子庫之間聯(lián)絡(luò)的核心和樞紐。我們從靜態(tài)知識(shí)庫和動(dòng)態(tài)標(biāo)注庫中的各個(gè)動(dòng)詞出發(fā),依托《知網(wǎng)》、《同義詞詞林》、《現(xiàn)代漢語詞典》三大語義詞典以及情境網(wǎng)絡(luò)中給出的情境定義,通過人工標(biāo)注,明確各個(gè)語義詞典中動(dòng)詞各義項(xiàng)之間存在的對(duì)應(yīng)關(guān)系。進(jìn)一步,對(duì)于語義詞典提供的事件框架,聯(lián)系情境網(wǎng)絡(luò)中的“參量錨定”和詞匯知識(shí)庫中的“論旨角色”,以動(dòng)態(tài)標(biāo)注為參考,確定其角色對(duì)應(yīng)關(guān)系,搭建起靜態(tài)庫和動(dòng)態(tài)庫之間的事件角色信息通道。具體實(shí)例可參閱圖3的相關(guān)部分。

2.3 開發(fā)現(xiàn)狀說明

開發(fā)大規(guī)模的事件語義資源需要消耗大量的人力物力,我們的解決方案可以在有限的資源限制下,針對(duì)關(guān)注的特定事件類型,建立完整系統(tǒng)的知識(shí)架構(gòu),提供準(zhǔn)確、全面且相互融會(huì)貫通的語義資源。該方案已在漢語“存在擁有類”事件知識(shí)庫開發(fā)工程中得到了可行性和有效性驗(yàn)證,可以方便地推廣到其他類似的事件知識(shí)庫開發(fā)過程中。目前的事件知識(shí)庫開發(fā)現(xiàn)狀如表1所示。

表1 事件知識(shí)庫開發(fā)現(xiàn)狀

3 實(shí)例分析及子庫內(nèi)在聯(lián)系挖掘

本節(jié)以目標(biāo)動(dòng)詞“租賃”作為切入點(diǎn),通過詳盡的實(shí)例分析,對(duì)事件知識(shí)庫的結(jié)構(gòu)進(jìn)行進(jìn)一步的展示,并著重分析各子庫間的內(nèi)在聯(lián)系。

與“租賃”相關(guān)的情境子網(wǎng)絡(luò)如圖2所示。一個(gè)租賃事件一般包括同時(shí)發(fā)生的兩個(gè)子事件:租物轉(zhuǎn)移和貨幣轉(zhuǎn)移。我們把它們組織成兩個(gè)抽象情境。它們的下一層又對(duì)應(yīng)若干具體的動(dòng)作事件,如租入、租出、收款、付款,而這些情境又分別屬于取得、給予、轉(zhuǎn)讓等情境的范疇。這樣,我們將各個(gè)事件通過情境網(wǎng)絡(luò)聯(lián)系起來,通過情境網(wǎng)絡(luò)中對(duì)相應(yīng)情境關(guān)系的界定和描述[3],為相應(yīng)的事件分析和知識(shí)推理提供了依據(jù)。

動(dòng)詞“租賃”有兩個(gè)含義:租出和租入。按照2.2.1節(jié)的約定,我們將其拆分為兩個(gè)義項(xiàng):“租賃1”和“租賃2”,分別對(duì)應(yīng)了“租出”和“租入”情境。以“租入”情境和“租賃2”義項(xiàng)為例,各個(gè)子庫的信息描述單元及相互之間的對(duì)應(yīng)關(guān)系如圖3所示。

圖2 “租賃”情境子網(wǎng)絡(luò)

圖3 事件知識(shí)庫各子庫信息描述單元及相互對(duì)應(yīng)關(guān)系

兩個(gè)靜態(tài)庫之間,通過情境網(wǎng)絡(luò)中的“情境表達(dá)式”與“定義詞匯”進(jìn)行對(duì)應(yīng),兩個(gè)動(dòng)態(tài)庫之間,則是通過一致的義項(xiàng)標(biāo)注建立關(guān)聯(lián)。而作為整個(gè)事件知識(shí)庫核心與樞紐的動(dòng)詞義項(xiàng)對(duì)齊知識(shí)庫,一方面通過“情境庫義項(xiàng)描述”項(xiàng)與情境網(wǎng)絡(luò)中的“情境表示”建立雙向的連接,一方面又通過三大語義詞典對(duì)動(dòng)詞義項(xiàng)的描述與動(dòng)態(tài)庫互通,從而搭建起兩大庫之間的橋梁,使五個(gè)子庫完整地融合為一體。另外,通過詞匯知識(shí)庫中的“參量錨定”與目標(biāo)動(dòng)詞義項(xiàng)對(duì)齊庫中的“情境庫—《知網(wǎng)》事件角色對(duì)應(yīng)”,可以建立起不同事件框架之間的參量對(duì)應(yīng)關(guān)系,在此基礎(chǔ)上,我們可以整合多個(gè)語義資源進(jìn)行語義計(jì)算。

經(jīng)過五個(gè)子庫的開發(fā)和信息的對(duì)應(yīng),我們便可以得到圖1所示的事件知識(shí)庫互連互動(dòng)框架體系。以動(dòng)詞“租賃”作為入口,我們既可以獲取語言學(xué)專家提供的句法、語義描述,又可以獲取大量相關(guān)的標(biāo)注語料,通過多個(gè)角度對(duì)事件的刻畫,為事件內(nèi)容的分析提供有力的支持。

4 集成事件知識(shí)庫開發(fā)設(shè)想

事件知識(shí)庫是一個(gè)相互關(guān)聯(lián)的有機(jī)整體,但是這種關(guān)聯(lián)性隱含在各個(gè)子庫中,不夠集中和直觀。在開發(fā)過程中,子庫的拆分降低了知識(shí)庫構(gòu)建的難度,但在實(shí)際運(yùn)用中,我們更關(guān)注其易用性和語義計(jì)算性。而且,在人工合作分析標(biāo)注的過程中,難免出現(xiàn)子庫間的不一致、不同步。為了更有效地發(fā)揮事件知識(shí)庫的研究和應(yīng)用價(jià)值,需要在信息的集成和統(tǒng)一的事件內(nèi)容計(jì)算平臺(tái)開發(fā)方面進(jìn)行更深入的研究。由此,我們進(jìn)一步提出了集成事件知識(shí)庫的開發(fā)設(shè)想。

首先按照各子庫給出的事件描述深度的不同,將它們重新組織成三個(gè)基本知識(shí)庫:1)情境描述庫; 2)事件描述庫; 3)標(biāo)注句子庫。其中,情境描述庫側(cè)重對(duì)某類事件的內(nèi)容抽象和關(guān)系挖掘,形成可以進(jìn)行初步知識(shí)推理的情境網(wǎng)絡(luò),其基本信息來自現(xiàn)有的情境網(wǎng)絡(luò)描述庫;事件描述庫側(cè)重對(duì)某個(gè)事件的內(nèi)容描述,通過建立各個(gè)語義資源的義項(xiàng)描述和事件框架之間的內(nèi)在聯(lián)系,提供各個(gè)語義資源之間的計(jì)算入口,其基本信息通過融合現(xiàn)有的詞匯知識(shí)庫和動(dòng)詞義項(xiàng)對(duì)齊庫得到。標(biāo)注句子庫側(cè)重對(duì)真實(shí)文本句子中某個(gè)事件內(nèi)容的信息標(biāo)注,包括事件目標(biāo)動(dòng)詞的義項(xiàng)標(biāo)注和該目標(biāo)動(dòng)詞控制的事件塊的句法語義標(biāo)注等,其基本信息來自現(xiàn)有的兩個(gè)動(dòng)態(tài)標(biāo)注庫。在此基礎(chǔ)上,通過對(duì)低層次資源的數(shù)據(jù)匯總分析,可以為高層次資源提供更多更詳細(xì)的人工標(biāo)注互補(bǔ)分析數(shù)據(jù),為進(jìn)一步改進(jìn)相關(guān)資源的計(jì)算能力提供支持。目前我們已經(jīng)完成情境描述庫的構(gòu)建,并且檢查和明確了情境描述庫和詞匯知識(shí)庫之間的雙向聯(lián)系。其他相關(guān)工作正在進(jìn)行中。

5 相關(guān)研究工作介紹

近年來,國外構(gòu)建完成了多個(gè)大規(guī)模的事件語義資源,下面對(duì)其中我們認(rèn)為有代表性的資源進(jìn)行簡要介紹。

ACE(Automatic Content Extraction)[11]項(xiàng)目的目標(biāo)是研究文檔內(nèi)容的抽取技術(shù),包括實(shí)體、關(guān)系、事件等,主要關(guān)注網(wǎng)絡(luò)上的專線新聞、網(wǎng)絡(luò)日志等6個(gè)領(lǐng)域,提供英文、中文、阿拉伯文三個(gè)語種的訓(xùn)練語料,2007年增加了西班牙語。ACE語料以篇章為單位,詳細(xì)標(biāo)注了底層的標(biāo)準(zhǔn)實(shí)體、時(shí)間、值的信息。ACE05提供了英、中、阿三種語言300K的訓(xùn)練庫和50K的測試庫。

OntoNotes[2]的目的在于構(gòu)建大規(guī)模的跨領(lǐng)域標(biāo)注語料庫,涵蓋英文、中文、阿拉伯文三種語言的新聞、電話對(duì)話、網(wǎng)絡(luò)日志、脫口秀等文本。OntoNotes語料庫中標(biāo)注了語言的結(jié)構(gòu)信息(句法樹和謂詞論元結(jié)構(gòu))和淺層語義信息(動(dòng)詞、名詞的詞義及共指關(guān)系)。最新發(fā)布的4.0版本包含300K的阿拉伯語料,800K的漢語語料,以及1 300K的英文語料。

FrameNet[1]以框架語義作為標(biāo)注的理論基礎(chǔ),試圖發(fā)現(xiàn)核心動(dòng)詞(LU)和它周圍各框架元素(FE)之間的搭配關(guān)系,從而歸納出知識(shí)的語義表示方法,進(jìn)而集結(jié)各框架構(gòu)成FrameNet網(wǎng)絡(luò)。FrameNet的語料來源于英國國家語料庫,每個(gè)句子都標(biāo)注了目標(biāo)謂詞和其語義角色、該角色句法層面的短語類型以及句法功能。最新數(shù)據(jù)顯示,F(xiàn)rameNet已包含11 600個(gè)詞條,960個(gè)事件框架和150 000個(gè)標(biāo)注句子。

Propbank[12]是集語義詞典和標(biāo)注語料庫于一身的論元角色語義知識(shí)庫。它以動(dòng)詞詞典為標(biāo)注基礎(chǔ),以Penn Treebank II為標(biāo)注底層,以動(dòng)詞的論元角色為標(biāo)注對(duì)象。PropBank為超過3 300個(gè)動(dòng)詞建立了4 500個(gè)框架,并在中文Treebank基礎(chǔ)上,構(gòu)建了500K的中文PropBank語料[13]。

TimeML項(xiàng)目的語料資源主要是TimeBank[14]。TimeBank主要來自Wall Street Journal和New York Times的新聞文章,根據(jù)TimeML的標(biāo)準(zhǔn),詳細(xì)標(biāo)注了事件、時(shí)間表達(dá)式以及它們之間的時(shí)序關(guān)系。到目前為止,TimeBank的最新版本為1.2,共包含183篇新聞文章,7 935個(gè)事件。

可以看出,大多數(shù)的事件語義資源開發(fā)將側(cè)重點(diǎn)放在真實(shí)文本句子的標(biāo)注上,F(xiàn)rameNet從框架語義學(xué)出發(fā),試圖歸納知識(shí)的語義表示方法,這與我們的做法很類似,但還是有所不同。我們的漢語事件知識(shí)庫從靜態(tài)知識(shí)庫與動(dòng)態(tài)標(biāo)注庫兩個(gè)角度對(duì)事件內(nèi)容信息進(jìn)行挖掘和描述,且所有五個(gè)子庫是在一個(gè)統(tǒng)一的設(shè)計(jì)框架下展開,因此可以關(guān)注特定事件類型,有針對(duì)性地以較少的代價(jià)“小而精”地逐步描述不同事件內(nèi)容,便于分階段擴(kuò)展事件知識(shí)庫。

6 結(jié)語

近年來,在多個(gè)項(xiàng)目的推動(dòng)下,事件語義資源的開發(fā)取得了長足的進(jìn)展和較為豐碩的成果。相比之下,國內(nèi)對(duì)于漢語事件語義資源的開發(fā)明顯薄弱不足,所以,探索大規(guī)模的漢語事件知識(shí)庫的開發(fā)和建設(shè)有其緊迫性和必要性,以及重大的應(yīng)用價(jià)值和長遠(yuǎn)意義。

我們針對(duì)漢語的研究現(xiàn)狀,結(jié)合漢語自身的特點(diǎn),提出了大規(guī)模漢語事件知識(shí)庫的構(gòu)建方案。在一個(gè)統(tǒng)一的設(shè)計(jì)框架下,把相關(guān)事件知識(shí)拆分成五個(gè)既相互獨(dú)立又存在內(nèi)在信息聯(lián)系的知識(shí)子庫。通過各個(gè)子庫之間的相互配合和信息聯(lián)動(dòng),可以提高各自的描述質(zhì)量。在此基礎(chǔ)上,我們又進(jìn)一步提出開發(fā)集成的事件知識(shí)庫的設(shè)想,希望對(duì)推動(dòng)漢語文本自動(dòng)分析技術(shù)的發(fā)展有所幫助。

致謝

情境網(wǎng)絡(luò)和詞匯知識(shí)庫由北京大學(xué)袁毓林教授領(lǐng)導(dǎo)的研究小組完成,目標(biāo)動(dòng)詞義項(xiàng)和事件塊句法語義標(biāo)注庫由魯東大學(xué)亢世勇教授領(lǐng)導(dǎo)的研究小組完成。在此一并致謝。

[1] Ruppenhofer J, Ellsworth M, Petruck M R L, et al. FrameNet II: Extended Theory and Practice [OL]. http://framenet.icsi.berkeley.edu/.

[2] Weischedel R, Pradhan S, Ramshaw L, et al. OntoNotes Release 4.0[OL]. http://www.bbn.com/NLP/OntoNotes/.

[3] 北京大學(xué)漢語語言學(xué)研究中心. “廣義擁有”與“領(lǐng)屬變化”情境網(wǎng)絡(luò)描述體系[R]. 技術(shù)報(bào)告. 2009.

[4] 周強(qiáng). 漢語句法樹庫標(biāo)注體系[J]. 中文信息學(xué)報(bào), 2004, 18(4): 1-8.

[5] 董振東, 董強(qiáng). 知網(wǎng)[OL]. http://www.keenage.com/.

[6] 梅家駒, 竺一鳴, 高蘊(yùn)琦,等編. 同義詞詞林[G]. 上海辭書出版社, 1983.

[7] 中國社科院語言研究所詞典編輯室. 現(xiàn)代漢語詞典(修訂本)[G]. 商務(wù)印書館, 1996.

[8] 中國人民大學(xué)語言文字研究所. 現(xiàn)代漢語通用字典[G]. 外語教學(xué)與研究出版社, 1987.

[9] 魯東大學(xué)中文信息處理研究所. 目標(biāo)動(dòng)詞義項(xiàng)標(biāo)注規(guī)范6.0[R]. 技術(shù)報(bào)告, 2009.

[10] 魯東大學(xué)中文信息處理研究所. 事件描述塊句法語義標(biāo)注規(guī)范6.0[R]. 技術(shù)報(bào)告, 2009.

[11] Doddington G, Mitchell A, Przybocki M, et al. The automatic content extraction (ace) program-tasks, data, and evaluation[C]// Proceedings of LREC. 2004: 837-840.

[12] Palmer M, Gildea D, Kingsbury P. The proposition bank: A corpus annotated with semantic roles[J]. Computational Linguistics. 2005, 31(1): 71-106.

[13] Xue N, Xia F, Chiou F D, et al. The Penn Chinese TreeBank: Phrase structure annotation of a large corpus [J]. Natural Language Engineering. 2005, 11(2): 207-238.

[14] Pustejovsky J, Hanks P, Sauri R, et al. The timebank corpus [C]// Proceedings of Corpus Linguistics 2003. 2003: 647-656.

猜你喜歡
義項(xiàng)知識(shí)庫句法
漢語近義詞辨析知識(shí)庫構(gòu)建研究
述謂結(jié)構(gòu)與英語句法配置
基于TRIZ與知識(shí)庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
句法二題
詩詞聯(lián)句句法梳理
衛(wèi)星狀態(tài)智能診斷知識(shí)庫設(shè)計(jì)方法
兩用成語中的冷義項(xiàng)
信息結(jié)構(gòu)與句法異位
Enhanced Precision
位置與方向測試題
罗定市| 文登市| 武平县| 屏南县| 耿马| 荥阳市| 云林县| 伊春市| 宣威市| 顺义区| 峡江县| 马关县| 城步| 科尔| 博乐市| 阿合奇县| 鸡东县| 天峨县| 阳山县| 英山县| 漯河市| 如东县| 丰原市| 丽江市| 潢川县| 定襄县| 南澳县| 鄂伦春自治旗| 垦利县| 探索| 伊川县| 威信县| 响水县| 化州市| 同仁县| 嘉义市| 通化市| 涟水县| 静安区| 莲花县| 鄂伦春自治旗|