国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

<strike id="uw6ao"><menu id="uw6ao"></menu></strike>

<strike id="uw6ao"></strike>

<strike id="uw6ao"></strike>

?

基于跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法

2014-02-27 07:07:36楊雪蓉陳亞?wèn)|王瀟斌姚建民朱巧明

中文信息學(xué)報(bào) 2014年5期

關(guān)鍵詞：連接詞語(yǔ)義框架

楊雪蓉，洪宇，陳亞?wèn)|，王瀟斌，姚建民，朱巧明

(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室，江蘇，蘇州 215006)

1 引言

事件(Event)是由特定人、物、事在特定時(shí)間和特定地點(diǎn)相互作用的客觀事實(shí)，事件關(guān)系是事件之間相互依存和關(guān)聯(lián)的邏輯形式，具有客觀性、事實(shí)性和規(guī)律性三種主要特性，如“因果”(Contingency)和“時(shí)序”(Temporal)關(guān)系等。事件關(guān)系能將離散于文本中的事件相連接，形成事件關(guān)系網(wǎng)絡(luò)和事件發(fā)展的拓?fù)涿}絡(luò)。事件關(guān)系檢測(cè)是以事件為主體元素的自然語(yǔ)言邏輯關(guān)系抽取，它能夠有效輔助事件衍生、發(fā)展與變異信息的推理與預(yù)測(cè)。

目前針對(duì)事件關(guān)系檢測(cè)的研究剛剛起步，由于不具有權(quán)威的任務(wù)定義、事件關(guān)系體系以及評(píng)測(cè)標(biāo)準(zhǔn)，相關(guān)探索尚不深入，相應(yīng)方法也僅僅著眼于某一特定事件關(guān)系類型(如“因果”關(guān)系)的判定，不具有全面性和普適性。相較而言，自然語(yǔ)言處理領(lǐng)域中的篇章關(guān)系檢測(cè)和篇章關(guān)系分析作為自然語(yǔ)言處理領(lǐng)域中一項(xiàng)重要的基礎(chǔ)性研究，旨在同一篇章內(nèi)部，判斷相鄰片段或跨度在一定范圍內(nèi)的兩個(gè)片段之間的語(yǔ)義連接關(guān)系。

文本中的事件通過(guò)文字訴諸后，成為信息傳播中可讀可解的事件文體(也稱“事件體”，本文統(tǒng)稱“事件”)。從而，事件的描述必須遵循自然語(yǔ)言的行文規(guī)律，例如，篇章結(jié)構(gòu)、篇章修辭、語(yǔ)法和文法等規(guī)律。篇章關(guān)系檢測(cè)以論元(即完整的語(yǔ)義單元，如句子)為對(duì)象，建立了較為全面的任務(wù)體系，其蘊(yùn)含的概念、關(guān)系體系和評(píng)價(jià)方法也具有普適性，能夠有效應(yīng)用于事件關(guān)系檢測(cè)任務(wù)。因此，事件關(guān)系檢測(cè)與篇章關(guān)系檢測(cè)任務(wù)有著一定程度的領(lǐng)域交差性。然而，事件關(guān)系并不等同于篇章關(guān)系，篇章關(guān)系檢測(cè)不能涵蓋所有事件關(guān)系檢測(cè)的關(guān)鍵問(wèn)題。

(1) 篇章關(guān)系檢測(cè)任務(wù)涉及短語(yǔ)、子句、句子等文本片段之間的語(yǔ)義關(guān)系研究，通過(guò)分析兩兩鄰或跨度在一定范圍內(nèi)的兩個(gè)論元的語(yǔ)義連接關(guān)系，構(gòu)建文本篇章關(guān)系結(jié)構(gòu)，進(jìn)而深入理解篇章語(yǔ)義；而文本中的事件往往離散分布，從而只受話題框架約束，因此不屬于篇章關(guān)系的研究范疇。

(2) 篇章關(guān)系檢測(cè)往往可以利用句法、語(yǔ)義和語(yǔ)境的局部特征予以方法設(shè)計(jì)與實(shí)現(xiàn)，而事件關(guān)系則必須依賴大規(guī)模數(shù)據(jù)估計(jì)和挖掘廣域的關(guān)聯(lián)線索進(jìn)行方法設(shè)計(jì)與實(shí)現(xiàn)。從而，事件關(guān)系檢測(cè)需要一種有針對(duì)性的專屬的任務(wù)和研究體系，而不能將篇章關(guān)系檢測(cè)體系簡(jiǎn)單移植和并用。

本文針對(duì)事件關(guān)系檢測(cè)任務(wù)，提出一種跨場(chǎng)景的事件關(guān)系檢測(cè)方法。事件場(chǎng)景由能夠用于描述該場(chǎng)景的一系列組成元素構(gòu)成?？鐖?chǎng)景的事件關(guān)系檢測(cè)方法的核心思想認(rèn)為：相同或相似的事件場(chǎng)景，通過(guò)挖掘其特征，有助于事件關(guān)系類型的推理。因此，本文首先構(gòu)建事件場(chǎng)景及其關(guān)系類型，利用事件場(chǎng)景的關(guān)系類型對(duì)事件關(guān)系類型進(jìn)行推理?？鐖?chǎng)景的事件關(guān)系檢測(cè)方法需要首先解決如下兩點(diǎn)問(wèn)題： 1)事件場(chǎng)景的匹配方法。即給定待測(cè)“事件對(duì)”，如何從已知關(guān)系類型的“事件對(duì)”中，得到與待測(cè)“事件對(duì)”相同或相似事件場(chǎng)景的“事件對(duì)”。2)事件場(chǎng)景的先驗(yàn)關(guān)系類型。事件之間的關(guān)系類型通過(guò)事件場(chǎng)景的關(guān)系類型推理得到，因此需要首先獲得事件場(chǎng)景的先驗(yàn)關(guān)系類型。針對(duì)第一點(diǎn)，本文采用基于FramNet[1]的框架語(yǔ)義為事件描述構(gòu)造事件場(chǎng)景的特征空間，從而將事件場(chǎng)景的相似度轉(zhuǎn)化為特征空間的相似度；針對(duì)第二點(diǎn)，本文借助顯式連接詞，挖掘包含顯式連接詞且毗鄰的“事件對(duì)”，同時(shí)，將顯式連接詞觸發(fā)的某一類事件關(guān)系類型作為該“事件對(duì)”的關(guān)系類型，例如，連接詞“because(因?yàn)?”往往觸發(fā)“Causal(因果)”關(guān)系類型，進(jìn)而利用已知關(guān)系類型的毗鄰“事件對(duì)”構(gòu)建事件場(chǎng)景的先驗(yàn)關(guān)系類型。

同時(shí)，根據(jù)事件關(guān)系檢測(cè)和篇章關(guān)系檢測(cè)的任務(wù)的異同點(diǎn)，本文提出基于篇章關(guān)系分析的事件關(guān)系檢測(cè)體系，該體系包括事件關(guān)系檢測(cè)的任務(wù)定義、關(guān)系體系以及評(píng)價(jià)方法等。同時(shí)，根據(jù)定義的事件關(guān)系體系，以Frame-1.5的新聞?wù)Z料為數(shù)據(jù)源，對(duì)其中已標(biāo)注的事件進(jìn)行事件關(guān)系類型的標(biāo)注。

本文組織如下：第2節(jié)介紹事件關(guān)系檢測(cè)的相關(guān)工作；第3節(jié)給出事件關(guān)系檢測(cè)任務(wù)定義；第4節(jié)分析本文方法的動(dòng)機(jī)；第5節(jié)詳細(xì)闡述基于跨場(chǎng)景的事件關(guān)系檢測(cè)方法的方法；第6節(jié)介紹實(shí)驗(yàn)；第7節(jié)總結(jié)。

2 相關(guān)工作

由于缺少公認(rèn)的事件關(guān)系體系，目前針對(duì)事件關(guān)系的研究方法主要針對(duì)某種特定事件關(guān)系類型的判定進(jìn)行研究[2-4]，主要的挖掘方法分為模板匹配法和元素分析法。

模板匹配法

事件關(guān)系檢測(cè)的主要方法之一是借助事件特征的模式匹配，例如，利用事件觸發(fā)詞的關(guān)系模式匹配，根據(jù)人工定義的模板，對(duì)文本中符合模板的事件關(guān)系進(jìn)行抽取。 Chklovski[3]等首先定義6種時(shí)序關(guān)系： “similarity”(時(shí)序“相似”關(guān)系),“strength”(時(shí)序“加強(qiáng)”關(guān)系),“antonymy”(時(shí)序“相反”關(guān)系),“enablement”(時(shí)序“支持”關(guān)系), “happens”(時(shí)序“發(fā)生”關(guān)系)和“before”(時(shí)序“前”關(guān)系)，再利用人工收集的LSP(Lexcial-Syntactic Pattern，即詞-句匹配模板)抽取包含這6種時(shí)序關(guān)系的“事件對(duì)”,并將抽取的結(jié)果形成稱為“VerbOcean”的知識(shí)庫(kù)。人工定義的事件關(guān)系模板往往受數(shù)量限制，造成關(guān)系檢測(cè)的低召回率問(wèn)題。Pantel[4]通過(guò)Espresso算法進(jìn)行自動(dòng)模板的構(gòu)建，算法首先給定少量關(guān)系實(shí)例，通過(guò)機(jī)器學(xué)習(xí)方法對(duì)現(xiàn)有模板進(jìn)行迭代擴(kuò)展，在一定程度上提高了模板匹配方法的召回率。

元素分析法

以事件元素為線索的研究大都繼承了Harris[5]的分布假設(shè)。Harris假設(shè)指出，處在同一上下文環(huán)境中的詞語(yǔ)具有相同或相似的含義。Lin[6]提出了一種結(jié)合Harris分布假設(shè)和建立依存樹(shù)思想的無(wú)監(jiān)督方法，稱為DIRT算法。算法將所有事件構(gòu)造成依存樹(shù)形式，樹(shù)中的每條路徑表示一個(gè)事件，路徑的節(jié)點(diǎn)表示事件中的詞語(yǔ)，若兩條路徑的詞語(yǔ)完全相同，則這兩條路徑所表示的事件相同或者相似。

3 任務(wù)定義

事件關(guān)系檢測(cè)任務(wù)的目標(biāo)在于實(shí)現(xiàn)事件間邏輯關(guān)系的自動(dòng)檢測(cè)。本節(jié)介紹事件、事件關(guān)系類型以及事件關(guān)系檢測(cè)的任務(wù)定義。

3.1 事件

自動(dòng)內(nèi)容抽取(Automatic Content Extraction，簡(jiǎn)稱ACE)任務(wù)將事件定義為由事件觸發(fā)詞和事件參與者組成，其中，事件的觸發(fā)詞能夠描述一個(gè)事件的發(fā)生，以動(dòng)詞或者動(dòng)名詞為主；事件的參與信息為事件參與者，通常為名詞。例如，事件Evt1：

(1) Evt1: “奧巴馬擊敗麥凱恩”

事件Evt1中“擊敗”能夠描述該事件的發(fā)生，因此，“擊敗”為該事件的觸發(fā)詞，則稱Evt1為“擊敗”事件。事件Evt1中“奧巴馬”和“麥凱恩”為“擊敗”事件的參與信息，即“擊敗”事件的參與者。

3.2 事件關(guān)系

事件關(guān)系表示事件與其相關(guān)事件之間相互依存和關(guān)聯(lián)的邏輯形式，是事件之間固有的一種客觀存在。然而，目前針對(duì)事件關(guān)系檢測(cè)任務(wù)缺少公認(rèn)的事件關(guān)系體系，本文將篇章關(guān)系體系與事件關(guān)系進(jìn)行分析和對(duì)比，選取篇章關(guān)系體系中能夠應(yīng)用于離散“事件對(duì)”的篇章關(guān)系類型作為事件關(guān)系類型。同時(shí)，篇章關(guān)系與事件關(guān)系的差異性使得篇章關(guān)系不能描述完整的事件關(guān)系類型，因此，本文借助事件關(guān)系實(shí)例，人工總結(jié)事件關(guān)系類型，進(jìn)一步對(duì)事件關(guān)系類型進(jìn)行補(bǔ)充，確保事件關(guān)系體系的完整性，由此形成的事件關(guān)系體系如表1所示。

表1 事件關(guān)系體系

續(xù)表

表1定義的事件關(guān)系體系共分為兩層，第一層包含四種主要關(guān)系類別： Temporal(時(shí)序)、Comparison(比較)、Contingency(偶然)、Expansion(擴(kuò)展)，第二層為以上四種關(guān)系類型的擴(kuò)展，共有10種子類型。

3.3 事件關(guān)系檢測(cè)

事件關(guān)系檢測(cè)是一種針對(duì)“事件間存在何種邏輯關(guān)系類型”進(jìn)行自動(dòng)判定的深層事件關(guān)系判定任務(wù)。事件關(guān)系檢測(cè)通過(guò)解析文本結(jié)構(gòu)或語(yǔ)義特征，對(duì)文本中描述不同自然事件的文本片段(包括短語(yǔ)、子句、句子和段落)給出明確的語(yǔ)義關(guān)系或邏輯關(guān)系標(biāo)簽(如“因果”、“時(shí)序”、“擴(kuò)展”和“對(duì)比”等)。該任務(wù)框架如圖1所示，其中，該任務(wù)的輸入為已知相關(guān)的兩個(gè)事件，通過(guò)分析“事件對(duì)”的邏輯聯(lián)系，輸出該“相關(guān)事件對(duì)”的邏輯關(guān)系類型。

圖1 事件關(guān)系檢測(cè)任務(wù)框架

4 動(dòng)機(jī)

本文借助篇章分析任務(wù)實(shí)現(xiàn)事件關(guān)系檢測(cè)。本節(jié)介紹篇章分析任務(wù)，以及框架語(yǔ)義和借助框架語(yǔ)義構(gòu)建事件場(chǎng)景的方法。

4.1 篇章分析

篇章分析的核心任務(wù)是判定“論元對(duì)”之間的語(yǔ)義或修辭關(guān)系。目前篇章關(guān)系分析分別針對(duì)顯式篇章關(guān)系和隱式篇章關(guān)系進(jìn)行研究，且顯式篇章關(guān)系和隱式篇章關(guān)系分析的性能相差較大。

顯式篇章關(guān)系可直接根據(jù)顯式連接詞推斷篇章關(guān)系，并且能夠取得較優(yōu)的性能，相關(guān)研究對(duì)于顯式篇章關(guān)系最終分類的精確率可達(dá)93%[7]；而隱式篇章關(guān)系的分類性能則相對(duì)較低，隱式篇章關(guān)系檢測(cè)的主體研究主要分為基于關(guān)系特征的機(jī)器學(xué)習(xí)方法和基于概率統(tǒng)計(jì)的方法[8-10]。顯式篇章關(guān)系和隱式篇章關(guān)系分析的性能相差較大的原因在于，顯式篇章關(guān)系以顯式連接詞為主要線索，借助連接詞與篇章關(guān)系的一一映射，能夠較精確地推斷特定篇章關(guān)系，例如，PDTB關(guān)系樣本庫(kù)中，連接詞“Because(因?yàn)?”指向“Contingency.Cause(偶然.因果)”關(guān)系的概率為100%。隱式篇章關(guān)系由于缺少顯式連接詞信息，相關(guān)研究通過(guò)結(jié)合句法、語(yǔ)義、相關(guān)領(lǐng)域知識(shí)等構(gòu)建上下文信息，推斷隱式“論元對(duì)”的邏輯關(guān)系。實(shí)驗(yàn)表明，篇章的上下文信息仍存在不確定性，這種上下文信息的不確定性、句子結(jié)構(gòu)的復(fù)雜性以及語(yǔ)義關(guān)系的歧義性，使得目前針對(duì)隱式篇章關(guān)系研究的性能總體較差，因此，借助篇章關(guān)系分析檢測(cè)事件關(guān)系，必須突破隱式篇章關(guān)系檢測(cè)這一關(guān)鍵難點(diǎn)。

4.2 框架語(yǔ)義

本文采用FrameNet(框架語(yǔ)義)框架語(yǔ)義描述事件場(chǎng)景。FrameNet是由美國(guó)加州大學(xué)伯克利分校構(gòu)建的基于框架語(yǔ)義學(xué) (Frame Semantics)的詞匯資源，對(duì)詞語(yǔ)意義和句法結(jié)構(gòu)研究提供一種理論框架，框架語(yǔ)義知識(shí)庫(kù)通過(guò)框架描述單詞的釋義，即詞語(yǔ)背后隱藏的概念結(jié)構(gòu)和語(yǔ)義等信息。從而，框架語(yǔ)義能夠形成特定場(chǎng)景(包括事件、狀態(tài)、關(guān)系或?qū)嶓w)的概念表述。在框架語(yǔ)義知識(shí)庫(kù)中，對(duì)句子的框架語(yǔ)義標(biāo)注是一種類似于“謂詞—論元”結(jié)構(gòu)的“目標(biāo)詞—框架語(yǔ)義”(Target-Frame)結(jié)構(gòu)。每個(gè)句子可能包含一個(gè)或多個(gè)“目標(biāo)詞—框架語(yǔ)義”結(jié)構(gòu)，例如，例(2)描述的事件：

(2) Evt1 ： “IreneleftSherlockinacomawiththeMickeyFinnaftergettingthecodeofthesafebox.”

(譯文： “艾琳得到保險(xiǎn)柜的密碼后，利用混有麻醉的酒讓夏洛克昏迷”)

通過(guò)框架語(yǔ)義的分析，能夠得到如下“目標(biāo)詞—框架語(yǔ)義”結(jié)構(gòu)： “MickeyFinn(混有麻醉的酒)—Drag(藥物)”、“code(密碼)—Message(信息)”和“safebox(保險(xiǎn)箱)—Safebox(保險(xiǎn)箱)”，同時(shí)，本文將事件中的框架語(yǔ)義的組合定義為該事件的事件場(chǎng)景。不同的事件描述存在相同的事件場(chǎng)景，例如，例(3)中描述的事件：

(3) Evt2： “Georgerememberedthebeautifulladyaskedhimaboutthecodeofthebankaccountafterdrinkingsomuchliquor.”

(譯文： “喬治記得一位美麗的女士在他喝完很多酒之后詢問(wèn)他的銀行密碼”)

通過(guò)FrameNet解析，例(3)中的“l(fā)iquor(酒)”同樣觸發(fā)了“Drag(藥物)”框架語(yǔ)義，例(2)和例(3)中的其他“目標(biāo)詞—框架語(yǔ)義”結(jié)構(gòu)如表2所示。

表2 例(2)和例(3)中“目標(biāo)詞-框架語(yǔ)義”結(jié)果

從表2中可以看出，盡管例(2)和(3)中描述不同的事件，但兩個(gè)事件具有相同的框架語(yǔ)義，則認(rèn)為兩個(gè)事件描述了相同的事件場(chǎng)景。

4.3 事件場(chǎng)景

跨場(chǎng)景的事件關(guān)系檢測(cè)方法的核心思想認(rèn)為：相同或相似的事件場(chǎng)景，通過(guò)挖掘其特征，有助于事件關(guān)系類型的推理。例如，有如下兩個(gè)“事件對(duì)”：

(4)E1:Hewasshotbyaterrorist.

(譯文：他被恐怖分子擊中了 )

E2:Heunfortunatelypassedaway.

(譯文：他不幸去世了)

(Relation=Contingency.Cause)

(關(guān)系=偶然.因果)

(5)E1:Bombswentoffattrainstations.

(譯文：炸彈在火車站爆炸了 )

E2:Manypeoplewerefeareddead.

(譯文：擔(dān)心很多人死亡了 )

(Relation=? )

(關(guān)系=？)

其中，已知例(4)中描述的兩個(gè)事件為“偶然.因果”關(guān)系類型。若僅考慮上述事件描述的篇章修辭、語(yǔ)法和文法等規(guī)律，難以利用例(4)的信息推理例(5)中“事件對(duì)”的關(guān)系類型。本文提出的跨場(chǎng)景的事件關(guān)系檢測(cè)方法首先判斷例(4)中的“事件對(duì)”描述了“襲擊”場(chǎng)景和“死亡”事件場(chǎng)景，若定義例(4)中的事件關(guān)系類型“關(guān)系=偶然.因果”為“襲擊—死亡”場(chǎng)景的關(guān)系類型，由于例(5)同樣描述了“襲擊”場(chǎng)景和“死亡”事件場(chǎng)景，將事件場(chǎng)景的關(guān)系類型作為該“事件對(duì)”的關(guān)系類型，則推理得到例(5)中“事件對(duì)”的關(guān)系類型為“關(guān)系=偶然.因果”類型。

5 基于跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法

本文致力于探究一種基于跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法，其核心思想是：具有相同事件場(chǎng)景的事件對(duì)，往往具有相同的事件關(guān)系類型。該方法分為三個(gè)主要部分：顯式“事件對(duì)”的挖掘、事件場(chǎng)景關(guān)系類型映射以及事件關(guān)系判定。

另外，本文進(jìn)一步提出一種事件場(chǎng)景向量的事件場(chǎng)景構(gòu)建方法作為比較。

5.1 顯式事件對(duì)的挖掘

本文首先通過(guò)連接詞，從大規(guī)模語(yǔ)言學(xué)資源(Gigaword)中挖掘包含連接詞的事件對(duì)，事件對(duì)的挖掘必須滿足如下規(guī)則：

“PreGram+,connective+PostGram”

其中，“PreGram”為前置論元，“connective”為連接詞，“PostGram”為后置論元。通過(guò)連接詞挖掘得到的“事件對(duì)”的關(guān)系類型，有該顯式連接詞唯一指定。PDTB中共定義182個(gè)連接詞，而這些連接詞與關(guān)系類型并非一一對(duì)應(yīng)，為了實(shí)現(xiàn)“事件對(duì)”及其關(guān)系類型的精準(zhǔn)抽取，本文僅僅選取PDTB中的Golden連接詞。Golden連接詞指該連接詞在篇章中指向某一關(guān)系類型的概率較高。本文針對(duì)PDTB中連接詞的分布，統(tǒng)計(jì)了各連接詞指向某一關(guān)系類型的概率，如表3所示。

表3 PDTB中連接詞的分布，統(tǒng)計(jì)了各連接詞指向某一關(guān)系類型的概率

表3顯式各連接詞在四種篇章關(guān)系類型中出現(xiàn)的概率，例如，連接詞“alternatively(選擇地)”指向“Expansion(擴(kuò)展)”關(guān)系類型的概率為100%。本文僅選取指向某一關(guān)系類型概率大于80%的連接詞作為Golden連接詞。同時(shí)，將Golden連接詞指向概率最大的關(guān)系類型，作為該Golden連接詞的先驗(yàn)關(guān)系類型。進(jìn)而將Golden連接詞的先驗(yàn)關(guān)系類型作為通過(guò)Golden連接詞挖掘得到的事件對(duì)的關(guān)系類型。

5.2 事件場(chǎng)景關(guān)系類型映射

本文對(duì)Golden連接詞挖掘得到的“事件對(duì)”，進(jìn)一步分析其包含的框架語(yǔ)義，利用框架語(yǔ)義構(gòu)建“事件對(duì)”的“事件場(chǎng)景對(duì)”。同時(shí)，借助顯式連接詞對(duì)篇章關(guān)系的映射，構(gòu)建“事件場(chǎng)景對(duì)”中兩兩框架語(yǔ)義與關(guān)系類型的映射，即“框架語(yǔ)義對(duì)-關(guān)系”，最終“框架語(yǔ)義對(duì)”的關(guān)系類型由大規(guī)模樣本中的極大似然關(guān)系估計(jì)，方法細(xì)節(jié)如下：

Step1: 利用SEMAFOR*http://www.ark.cs.cmu.edu/SEMAFOR工具分析“事件對(duì)”中的框架語(yǔ)義。例如，前置論元通過(guò)分析得到框架語(yǔ)義集合FrameSet1： {Frame11,Frame12, …,Frame1m};前置論元通過(guò)分析得到框架語(yǔ)義集合FrameSet2: {Frame21,Frame22, …,Frame2n}；

Step2: 將FrameSet1和FrameSet2中的框架語(yǔ)義兩兩組合，形成“框架語(yǔ)義對(duì)”： {Frame1i,Frame2j}i=1, …,m,j=1, …,n. 其中，“框架語(yǔ)義對(duì)”的關(guān)系類型為該“事件對(duì)”中顯式連接詞對(duì)應(yīng)的關(guān)系類型；

Step3: 對(duì)由Gigaword挖掘得到“事件對(duì)”，進(jìn)行Step1到Step2操作。

由以上步驟得到的“框架語(yǔ)義對(duì)”存在多種關(guān)系類型映射，為了實(shí)現(xiàn)“框架語(yǔ)義對(duì)-關(guān)系”的一一映射，本文對(duì)每個(gè)“框架語(yǔ)義對(duì)”進(jìn)行極大似然關(guān)系的概率估計(jì)。給定“框架語(yǔ)義對(duì)”及其在各個(gè)關(guān)系類型的概率分布P(r)，選取分布概率最高的關(guān)系類型，作為該“框架語(yǔ)義對(duì)”的極大似然關(guān)系，如式(1)所示。

(1)

r∈{Syn,Asy,Cont,…,Ins}

其中，nr為“框架語(yǔ)義對(duì)”指向關(guān)系類型r出現(xiàn)的次數(shù)，N為“框架語(yǔ)義對(duì)”指向所有關(guān)系類型的次數(shù)?！翱蚣苷Z(yǔ)義對(duì)”的極大似然關(guān)系作為該“框架語(yǔ)義對(duì)”的先驗(yàn)關(guān)系類型。

5.3 事件關(guān)系判定

本文利用“事件場(chǎng)景”的關(guān)系類型對(duì)事件關(guān)系進(jìn)行推理。針對(duì)待測(cè)“事件對(duì)”，同樣利用框架語(yǔ)義構(gòu)建其“事件場(chǎng)景對(duì)”，進(jìn)而將已獲得的“事件場(chǎng)景對(duì)”的先驗(yàn)關(guān)系類型，作為該“事件對(duì)”的關(guān)系類型。具體步驟如下：

Step1針對(duì)每一個(gè)待測(cè)“事件對(duì)”，分析其包含的框架語(yǔ)義，分別得到事件event1的框架語(yǔ)義集合FrameSet1: {Frame11,Frame12, …,Frame1m} ，以及事件event2的框架語(yǔ)義集合FrameSet2: {Frame21,Frame22, …,Frame2n}；

Step2將FrameSet1和FrameSet2中的框架語(yǔ)義兩兩組合，形成“框架語(yǔ)義對(duì)”；

Step3利用“框架語(yǔ)義對(duì)”的關(guān)系類型推理事件場(chǎng)景的關(guān)系類型，一個(gè)“事件場(chǎng)景對(duì)”包含多個(gè)“框架語(yǔ)義對(duì)”，將所有“框架語(yǔ)義對(duì)”指向出現(xiàn)次數(shù)最多的關(guān)系類型，作為該“事件場(chǎng)景對(duì)”的關(guān)系類型；

Step4“事件場(chǎng)景對(duì)”的關(guān)系類型將作為“事件對(duì)”的關(guān)系類型。

同一事件場(chǎng)景可以概括不同的事件描述，而這些不同的事件均為相同的事件類型。事件場(chǎng)景并非孤立，它們之間存在邏輯關(guān)聯(lián)性，因此事件場(chǎng)景能為事件關(guān)系分析和推理提供重要線索。本文重復(fù)利用事件場(chǎng)景的關(guān)系，推理事件之間的關(guān)系類型。

5.4 事件場(chǎng)景向量

為了與上述方法進(jìn)行比較，本文同時(shí)提出一種事件場(chǎng)景向量的事件場(chǎng)景構(gòu)建方法。該方法包括兩部分：事件場(chǎng)景向量的構(gòu)建以及事件關(guān)系類型預(yù)測(cè)。

該方法首先構(gòu)建事件場(chǎng)景的場(chǎng)景向量。針對(duì)5.1中挖掘得到的“事件對(duì)”以及待測(cè)“事件對(duì)”，通過(guò)SEMAFOR分析其包含的框架語(yǔ)義集合，將該集合中的框架語(yǔ)義表示成空間向量，將該向量作為事件的場(chǎng)景向量，各維度將作為該場(chǎng)景向量的組成成分。每個(gè)“事件對(duì)”形成 “事件場(chǎng)景對(duì)”。將待測(cè)“事件對(duì)”與挖掘得到的“事件對(duì)”樣本進(jìn)行相似度匹配，其中相似度的計(jì)算為“事件場(chǎng)景向量”間的cosine值，匹配過(guò)程如圖2所示。

圖2 “事件場(chǎng)景向量”匹配

其中，EveFraVec1為前置事件的“事件場(chǎng)景向量”，EveFraVec2為后置事件的“事件場(chǎng)景向量”，分別得到前置事件的相似度EveSim1和后置事件的相似度EveSim2，將兩個(gè)相似度值進(jìn)行合并，合并后的值為該“事件場(chǎng)景對(duì)”的相似度，相似度合并如式(2)所示。

(2)

其中，分子為兩個(gè)相似度之和，同時(shí)，為了平衡兩個(gè)相似度的值，將相似度之和除以兩個(gè)相似度的差值，為確保分母的值不為0，采用相似度差值的指數(shù)形式。

通過(guò)待測(cè)“事件對(duì)”與樣本“事件對(duì)”的相似度計(jì)算，選取與待測(cè)“事件對(duì)”相似度最高的樣本“事件對(duì)”作為待測(cè)“事件對(duì)”的平行“事件對(duì)”，該平行“事件對(duì)”的關(guān)系類型即為待測(cè)“事件對(duì)”的關(guān)系類型。

6 實(shí)驗(yàn)與結(jié)果

本節(jié)介紹實(shí)驗(yàn)設(shè)置，包括本文的語(yǔ)料標(biāo)注、評(píng)價(jià)方法以及實(shí)驗(yàn)系統(tǒng)。同時(shí)介紹本文的實(shí)驗(yàn)結(jié)果及對(duì)結(jié)果的分析。

6.1 實(shí)驗(yàn)設(shè)置

本文選取FrameNet-1.5中的新聞?wù)Z料作為標(biāo)注數(shù)據(jù)集，標(biāo)注人員對(duì)每篇新聞中描述的事件以及事件間的關(guān)系類型進(jìn)行標(biāo)注。該數(shù)據(jù)集由兩名具有一定領(lǐng)域知識(shí)的標(biāo)注人員進(jìn)行標(biāo)注。同時(shí)，本文利用Kappa值對(duì)標(biāo)注結(jié)果的可用性進(jìn)行評(píng)價(jià)，最終標(biāo)注的Kappa值為0.78。

本文共標(biāo)注了828個(gè)事件以及968個(gè)“事件對(duì)”及其關(guān)系類型，其中出現(xiàn)次數(shù)最多的關(guān)系類型為“Expansion.List(擴(kuò)展.并列)”。標(biāo)注的“事件對(duì)”及其關(guān)系類型的分布情況如表4所示。本文采用Accuracy值作為評(píng)價(jià)方法，其計(jì)算公式如式(3)所示。

(3)

該評(píng)測(cè)方法早期應(yīng)用于二元分類精度的評(píng)測(cè)。例如，需要評(píng)價(jià)“事件對(duì)”是否為“Expansion”類型，其中，All為待測(cè)“事件對(duì)”的總個(gè)數(shù)，TruePositve為本身具有“Expansion”關(guān)系且系統(tǒng)判定其具有“Expansion”關(guān) 系的“事件對(duì)”個(gè) 數(shù)；TrueNegative

表4 標(biāo)注的關(guān)系類型的分布

為本身不具有“Expansion”關(guān)系且系統(tǒng)未判定其具有“Expansion”關(guān)系的“事件對(duì)”個(gè)數(shù)。當(dāng)該評(píng)測(cè)方法用于多元關(guān)系評(píng)價(jià)時(shí)，將TrueNegative設(shè)置為恒定值0，只檢驗(yàn)每個(gè)待測(cè)“事件對(duì)”是否判定為正確的關(guān)系，即只計(jì)算TruePositve指標(biāo)與All 的比值。本文首先定義了三個(gè)實(shí)驗(yàn)系統(tǒng)：

? System1(Baseline)：該系統(tǒng)遵循5.1至5.3中的事件場(chǎng)景構(gòu)建方法，區(qū)別在于，構(gòu)建事件場(chǎng)景并非使用框架語(yǔ)義，而直接將事件描述中的詞匯作為特征，構(gòu)建事件場(chǎng)景。

? System2：遵循5.1至5.3中利用“框架語(yǔ)義對(duì)”的事件場(chǎng)景構(gòu)建方法。

? System3：遵循5.4中利用“事件場(chǎng)景向量”的事件場(chǎng)景構(gòu)建方法。

然而，待測(cè)“事件對(duì)”中的關(guān)系分布與從Gigaword中挖掘得到的“事件對(duì)”中的關(guān)系類型分布不一致，為了使兩者的分布情況相同，本文采用重采樣技術(shù)，擴(kuò)展挖掘得到的“事件對(duì)”中關(guān)系類型較小的“事件對(duì)”，使得兩者的關(guān)系類型分布情況相同。因此，本文又?jǐn)U展了兩類系統(tǒng)：

? System4：在System2方法的基礎(chǔ)上，增加重采樣技術(shù)。

? System5：在System3方法的基礎(chǔ)上，增加重采樣技術(shù)。

6.2 實(shí)驗(yàn)結(jié)果及分析

表5為以上五個(gè)系統(tǒng)針對(duì)事件關(guān)系檢測(cè)結(jié)果的性能，包括四個(gè)大類及十個(gè)小類的Accuracy值：

表5 系統(tǒng)的Accuracy

表5顯示，System1采用的使用事件描述中詞匯作為特征的方法得到的性能最低，System2和System3采用事件場(chǎng)景作為特征的方法高于System1的方法，同時(shí)，采用重采樣的方法對(duì)結(jié)果的精確率也有所提高，其中System4相對(duì)于System2在四大類的結(jié)果提高了8.53%，十小類的結(jié)果最高提高了4.06%；System5相對(duì)于System3在四大類的結(jié)果提高了5.26%，十小類的結(jié)果最高提高了1.97%。System3的性能最高。

表6 System4和System5針對(duì)每一大類的Accuracy及識(shí)別個(gè)數(shù)

本文進(jìn)一步分析System4和System5針對(duì)每一類事件關(guān)系類型的識(shí)別性能。表6顯式System4和System5分別對(duì)每一大類的精確率，以及正確識(shí)別的個(gè)數(shù)(Num)，包括正確識(shí)別為目標(biāo)類型的個(gè)數(shù)(TPos)和正確識(shí)別為非目標(biāo)類型的個(gè)數(shù)(TNeg)。

表7為System4和System5分別對(duì)每一小類的精確率，以及正確識(shí)別的個(gè)數(shù)，從表中可以看出，本文的方法針對(duì)小類別的檢測(cè)效果較差，體現(xiàn)了事件關(guān)系檢測(cè)任務(wù)仍然比較難，需要更進(jìn)一步的研究。

表7 System4和System5針對(duì)每一小類的Accuracy及識(shí)別個(gè)數(shù)

7 總結(jié)

本文首次針對(duì)事件關(guān)系檢測(cè)研究建立了一套研究體系，包括任務(wù)定義、關(guān)系體系劃分、語(yǔ)料采集與標(biāo)注、評(píng)價(jià)方法等。同時(shí)，提出了一種跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法，該方法構(gòu)建事件的事件場(chǎng)景，以此作為特征，實(shí)現(xiàn)事件的邏輯關(guān)系檢測(cè)。實(shí)驗(yàn)結(jié)果顯示，構(gòu)建事件場(chǎng)景的方法優(yōu)于直接采用文本特征的方法。今后的工作在于，根據(jù)事件場(chǎng)景元素的重要程度，為場(chǎng)景元素設(shè)置程度，從而更準(zhǔn)確地描繪事件的場(chǎng)景特征。

[1] C J Fillmore, C Johnson, M Petruck. Background to FrameNet[J]. International Journal of Lexicography，2003，16(3): 235-250.

[2] C Hashimoto, K Torisawa, J Kloetzer, et al. Toward Future Scenario Generation: Extracting Event Causality Exploiting Semantic Relation, Context, and Association Features[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, 2014.

[3] TChklovski, P Pantel. Global path-based refinement of noisy graphs applied to verb semantics[C]//Proceedings of Toward Future Scenario Generation: Extracting Event Causality Exploiting Semantic Relation, Context, and Association Features, Jeju Island, Korea, 2005: 792-803.

[4] PPantel, M Pennacchiotti. Espresso: leveraging generic patterns for automatically harvesting semantic relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, Sydney, Australia, 2006: 113-120.

[5] Z S Harris. Mathematical Structure of Language[M]. New York, 1968.

[6] D Lin, P Pantel. Discovery of Inference Rules from Text[C]//Proceedings of the 7th ACM SIGKDD, San Francisco, California, USA, 2001: 323-328.

[7] E Pitler, M Raghupathy, H Mehta, et al. Easily identifiable discourse relations[C]//Proceedings of the 22nd International Conference on the COLING, 2008: 87-90

[8] E Pitler, M Raghupathy, H Mehta, et al. Easily identifiable discourse relations[C]//Proceeding of the 22nd International Conference on Computational Linguistics (COLING 2008), Posters, Manchester, UK, 2008: 87-90.

[9] The Penn Discourse Treebank 2.0 Annotation Manual, 2007

[10] Y Hong, X P Zhou, T T Che, et al. Cross-Argument Inference for Implicit Discourse Relation recognition[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management(CIKM 2012),2012: 295-304.

猜你喜歡

連接詞語(yǔ)義框架

連動(dòng)結(jié)構(gòu)“VP1來(lái)VP2”的復(fù)句化及新興小句連接詞“來(lái)”的形成

成都理工大學(xué)學(xué)報(bào)·社會(huì)科學(xué)版(2022年1期)2022-05-26 22:28:29

小資CHIC！ELEGANCE(2022年1期)2022-01-11 00:49:59

廣義框架的不相交性

數(shù)學(xué)物理學(xué)報(bào)(2020年3期)2020-07-27 01:19:46

語(yǔ)言與語(yǔ)義

開(kāi)放教育研究(2020年2期)2020-03-31 01:54:14

法大研究生(2017年1期)2017-04-10 08:55:06

“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋

現(xiàn)代語(yǔ)文(2016年21期)2016-05-25 13:13:44

一種基于OpenStack的云應(yīng)用開(kāi)發(fā)框架

華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版)(2015年2期)2015-11-07 09:16:21

認(rèn)知范疇模糊與語(yǔ)義模糊

大連民族大學(xué)學(xué)報(bào)(2015年2期)2015-02-27 08:28:11

語(yǔ)義分析與漢俄副名組合

外語(yǔ)學(xué)刊(2011年1期)2011-01-22 03:38:33

英語(yǔ)連接詞：傳統(tǒng)與反思

外語(yǔ)學(xué)刊(2010年4期)2010-01-22 03:33:52

中文信息學(xué)報(bào)2014年5期

中文信息學(xué)報(bào)的其它文章: 面向微博文本的情緒標(biāo)注語(yǔ)料庫(kù)構(gòu)建; 添加冒號(hào)和分號(hào)分類標(biāo)簽特征的漢語(yǔ)逗號(hào)分類; 蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)樹(shù)的自動(dòng)識(shí)別; 從廣義話題結(jié)構(gòu)考察漢語(yǔ)篇章話題認(rèn)知復(fù)雜度; 基于話題鏈的漢語(yǔ)語(yǔ)篇連貫性描述體系; 漢語(yǔ)語(yǔ)義選擇限制知識(shí)的自動(dòng)獲取研究

潮安县| 洪洞县| 奉节县| 兴文县| 辽阳县| 大同市| 民勤县| 巫溪县| 博客| 玉环县| 合江县| 五原县| 东丽区| 策勒县| 浙江省| 平邑县| 苍山县| 瑞金市| 泰安市| 万宁市| 宁强县| 普安县| 庆云县| 巴彦淖尔市| 湖州市| 紫云| 张家界市| 漠河县| 叙永县| 贡山| 商丘市| 建水县| 汤原县| 奉节县| 南投市| 鄢陵县| 大新县| 元朗区| 县级市| 汝城县| 上饶县|

<del id="k80si"><tfoot id="k80si"></tfoot></del>

<fieldset id="k80si"><menu id="k80si"></menu></fieldset>

<fieldset id="k80si"></fieldset>

<cite id="k80si"></cite>