国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

事件關(guān)系檢測(cè)的任務(wù)體系概述

2015-04-21 08:29楊雪蓉陳亞?wèn)|姚建民朱巧明
中文信息學(xué)報(bào) 2015年4期
關(guān)鍵詞:語(yǔ)料框架體系

楊雪蓉,洪 宇,陳亞?wèn)|,姚建民,朱巧明

(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

?

事件關(guān)系檢測(cè)的任務(wù)體系概述

楊雪蓉,洪 宇,陳亞?wèn)|,姚建民,朱巧明

(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

事件關(guān)系檢測(cè)是一項(xiàng)面向文本信息流進(jìn)行事件關(guān)系判定的自然語(yǔ)言處理技術(shù)。事件關(guān)系檢測(cè)的核心任務(wù)是以事件為基本語(yǔ)義單元,通過(guò)分析事件之間的語(yǔ)義關(guān)聯(lián)特征,實(shí)現(xiàn)事件邏輯關(guān)系的識(shí)別與判定,包括關(guān)系識(shí)別(即識(shí)別有無(wú)邏輯關(guān)系)和關(guān)系判定(即判定邏輯關(guān)系類型,如“因果”關(guān)系)。目前,專門面向事件的邏輯關(guān)系分析與處理,尚未形成一套完整的研究體系。針對(duì)這一問(wèn)題,該文借助篇章分析、事件抽取和場(chǎng)景理解等相關(guān)領(lǐng)域中的概念與數(shù)據(jù)資源,嘗試建立一套事件關(guān)系檢測(cè)的任務(wù)和研究體系,包括任務(wù)定義、關(guān)系體系劃分、語(yǔ)料采集與標(biāo)注、評(píng)價(jià)方法等。同時(shí),該文著重分析和對(duì)比了事件關(guān)系檢測(cè)與篇章關(guān)系檢測(cè)的差異,并給出了事件關(guān)系檢測(cè)任務(wù)的難點(diǎn)與挑戰(zhàn)。

事件關(guān)系檢測(cè);篇章分析;事件;論元;語(yǔ)義關(guān)系

1 引言

事件(Event)是由特定人、物、事在特定時(shí)間和特定地點(diǎn)相互作用的客觀事實(shí),事件的發(fā)生具有客觀性、真實(shí)性等特點(diǎn)。然而,事件的發(fā)生往往不是孤立現(xiàn)象,一個(gè)事件的發(fā)生必然存在與之相關(guān)的其它事件,例如與該事件相關(guān)的原因事件、結(jié)果事件、并發(fā)事件等。事件與其相關(guān)事件之間相互依存和關(guān)聯(lián)的邏輯形式,稱為事件關(guān)系(Event Relation)。

事件關(guān)系客觀存在于事件之間,并且作用于原本孤立的事件集合中。事件關(guān)系能將離散于文本中的事件相連接,形成事件關(guān)系網(wǎng)絡(luò)和事件發(fā)展的拓?fù)涿}絡(luò)。從而,分析事件關(guān)系對(duì)于目前大規(guī)模的輿情信息分析與處理具有重要的應(yīng)用價(jià)值,例如,關(guān)聯(lián)事件聚類、新聞事件的關(guān)系網(wǎng)絡(luò)構(gòu)建,以及突發(fā)事件推理與預(yù)測(cè)等。

本文將“相關(guān)事件識(shí)別(Event Relevance Identification)”和“事件關(guān)系類型判定(Event Relation Type Decision)”統(tǒng)稱為事件關(guān)系檢測(cè)(Event Relation Detection),由此,事件關(guān)系檢測(cè)是一種深入判定兩兩事件之間相關(guān)性以及具有何種邏輯關(guān)系的任務(wù)。目前針對(duì)事件關(guān)系檢測(cè)的研究剛剛起步,由于不具有權(quán)威的任務(wù)定義、事件關(guān)系體系以及評(píng)測(cè)標(biāo)準(zhǔn),相關(guān)探索尚不深入,相應(yīng)方法也僅僅著眼于某一特定事件關(guān)系類型(如“因果”關(guān)系)的判定,不具有全面性和普適性。相較而言,自然語(yǔ)言處理領(lǐng)域中的篇章關(guān)系檢測(cè)研究,以論元(即完整的語(yǔ)義單元,如句子)為對(duì)象,建立了較為全面的任務(wù)體系,其蘊(yùn)含的概念、關(guān)系體系和評(píng)價(jià)方法也具有普適性,能夠有效應(yīng)用于事件關(guān)系檢測(cè)任務(wù)。

然而,事件關(guān)系并不等同于篇章關(guān)系,篇章關(guān)系檢測(cè)也不能涵蓋所有事件關(guān)系檢測(cè)的關(guān)鍵問(wèn)題。從而,事件關(guān)系檢測(cè)需要一種有針對(duì)性的專屬的任務(wù)和研究體系,而不能將篇章關(guān)系檢測(cè)體系簡(jiǎn)單移植和并用。

本文基于篇章關(guān)系檢測(cè)的定義及關(guān)系體系,定義了事件關(guān)系檢測(cè)任務(wù)、評(píng)價(jià)方法和事件關(guān)系體系,該體系將事件關(guān)系類型定義為五個(gè)大類,12個(gè)小類。同時(shí),本文根據(jù)定義的事件關(guān)系類型構(gòu)建了面向事件關(guān)系檢測(cè)任務(wù)的語(yǔ)料庫(kù)。此外,本文給出了篇章關(guān)系檢測(cè)與事件關(guān)系檢測(cè)的任務(wù)對(duì)比,以及事件關(guān)系檢測(cè)的關(guān)鍵問(wèn)題與挑戰(zhàn)。

本文的組織結(jié)構(gòu)如下: 第2節(jié)給出相關(guān)工作;第3節(jié)介紹事件關(guān)系檢測(cè)的任務(wù)定義;第4節(jié)詳細(xì)分析事件關(guān)系與篇章關(guān)系的任務(wù)差異,以及事件關(guān)系檢測(cè)的關(guān)鍵問(wèn)題;第5節(jié)介紹本文定義的事件關(guān)系體系;第6節(jié)闡述語(yǔ)料庫(kù)的構(gòu)建方法;第7節(jié)簡(jiǎn)要介紹可行的測(cè)試與評(píng)價(jià)方法;第8節(jié)總結(jié)全文。

2 相關(guān)工作

本節(jié)介紹事件關(guān)系檢測(cè)以及篇章關(guān)系分析的研究現(xiàn)狀。

2.1 事件關(guān)系檢測(cè)相關(guān)研究

由于缺少公認(rèn)的事件關(guān)系體系,目前針對(duì)事件關(guān)系的研究方法主要針對(duì)某種特定事件關(guān)系類型的判定進(jìn)行研究,主要的挖掘方法分為模板匹配法和元素分析法,下文分別對(duì)這兩種方法予以介紹。

模板匹配法

事件關(guān)系檢測(cè)的主要方法之一是借助事件特征的模式匹配,例如,利用事件觸發(fā)詞的關(guān)系模式匹配,根據(jù)人工定義的模板,對(duì)文本中符合模板的事件關(guān)系進(jìn)行抽取。Chklovski[1]等首先定義六種時(shí)序關(guān)系:“similarity”(時(shí)序“相似”關(guān)系),“strength”(時(shí)序“加強(qiáng)”關(guān)系),“antonymy”(時(shí)序“相反”關(guān)系),“enablement”(時(shí)序“支持”關(guān)系), “happens”(時(shí)序“發(fā)生”關(guān)系)和“before”(時(shí)序“前”關(guān)系),再利用人工收集的LSP(Lexcial-Syntactic Pattern,即詞-句匹配模板)抽取包含這六種時(shí)序關(guān)系的“事件對(duì)”,并將抽取的結(jié)果形成稱為“VerbOcean”的知識(shí)庫(kù)。人工定義的事件關(guān)系模板往往受數(shù)量限制,造成關(guān)系檢測(cè)的低召回率問(wèn)題。Pantel[2]通過(guò)Espresso算法進(jìn)行自動(dòng)模板的構(gòu)建,算法首先給定少量關(guān)系實(shí)例,通過(guò)機(jī)器學(xué)習(xí)方法對(duì)現(xiàn)有模板進(jìn)行迭代擴(kuò)展,在一定程度上提高了模板匹配方法的召回率。

元素分析法

以事件元素為線索的研究大都繼承了Harris[3]的分布假設(shè)。Harris假設(shè)指出,處在同一上下文環(huán)境中的詞語(yǔ)具有相同或相似的含義。Lin[4]提出了一種結(jié)合Harris分布假設(shè)和建立依存樹(shù)思想的無(wú)監(jiān)督方法,稱為DIRT算法。算法將所有事件構(gòu)造成依存樹(shù)形式,樹(shù)中的每條路徑表示一個(gè)事件,路徑的節(jié)點(diǎn)表示事件中的詞語(yǔ),若兩條路徑的詞語(yǔ)完全相同,則這兩條路徑所表示的事件相同或者相似。

3 事件關(guān)系檢測(cè)任務(wù)體系

事件關(guān)系檢測(cè)任務(wù)包括如下方面: 事件抽取、相關(guān)事件識(shí)別和事件關(guān)系類型判定。其中,該任務(wù)的核心部分為: “相關(guān)事件識(shí)別”和“事件關(guān)系類型判定”。即首先獲得文本中的“相關(guān)事件對(duì)”(離散存在于段落或跨篇章),再將得到的“相關(guān)事件對(duì)”,通過(guò)挖掘事件關(guān)系線索,實(shí)現(xiàn)“相關(guān)事件對(duì)”關(guān)系類型的推理與判定。事件抽取任務(wù)則已出現(xiàn)ACE研究體系之內(nèi),不作為事件關(guān)系檢測(cè)的核心任務(wù),僅作為研究基礎(chǔ)予以提出。下面分別對(duì)事件抽取、相關(guān)事件識(shí)別和事件關(guān)系類型判定任務(wù)進(jìn)行詳細(xì)介紹。

3.1 事件抽取

事件抽取為自動(dòng)內(nèi)容抽取(Automatic Content Extraction,ACE)的子任務(wù)之一,該任務(wù)由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)提供較為完備的任務(wù)定義和研究體系。事件抽取任務(wù)旨在從含有事件信息的非結(jié)構(gòu)化源文本中抽取結(jié)構(gòu)化的事件描述,在自動(dòng)文摘[9]、自動(dòng)問(wèn)答[10]以及信息檢索等領(lǐng)域有著廣泛的應(yīng)用。目前,事件抽取已得到國(guó)內(nèi)外廣泛的研究[11-12]。事件抽取能夠提供事件的基本屬性,并建立事件內(nèi)部各組成成分之間的語(yǔ)義關(guān)系,從而塑造事件本質(zhì)的描述結(jié)構(gòu)。事件抽取是實(shí)現(xiàn)關(guān)聯(lián)事件識(shí)別和事件關(guān)系判定的先決條件,也是事件關(guān)系檢測(cè)的關(guān)鍵問(wèn)題之一。

3.2 相關(guān)事件識(shí)別

相關(guān)事件識(shí)別旨在實(shí)現(xiàn)事件邏輯關(guān)系的淺層檢測(cè),即判斷任意事件之間是否存在邏輯相關(guān)性,是一種二元關(guān)系判斷。事件的相關(guān)性(Event Relevancy)與事件的相似性(Event Similarity)不同,事件的相關(guān)性是指兩個(gè)事件之間是否存在邏輯關(guān)聯(lián)性,事件的邏輯關(guān)聯(lián)性客觀存在于事件中,不因事件文字描述的不同而不同;而事件的相似性側(cè)重識(shí)別相同或相似事件的不同文本描述的一致性(同一事件的描述形式多樣),即語(yǔ)義相似性,現(xiàn)有文本建模和相似度度量方法,已給出較為有效的處理手段。因此,事件的相關(guān)性與事件的相似性的差異,使得僅僅通過(guò)兩個(gè)事件的文字表述方式無(wú)法判斷邏輯關(guān)聯(lián)與否,需要挖掘更多的外部信息,充分利用外部資源輔助事件關(guān)聯(lián)性的識(shí)別。

文本中的事件往往呈現(xiàn)一種離散分布,具有邏輯相關(guān)聯(lián)的事件往往跨句子、跨段落,甚至跨篇章。因此,需要預(yù)先對(duì)文本篇章中的離散事件集合中,各事件間是否存在邏輯關(guān)聯(lián)性進(jìn)行識(shí)別,例如文本中存在如下三個(gè)事件:

Evt1 “本東北地區(qū)宮城縣北部發(fā)生里氏7.9級(jí)特大地震”

Evt2 “臨時(shí)關(guān)閉成田機(jī)場(chǎng)的跑道”

Evt3 “日本食用牛肉首次檢出超標(biāo)輻射物”

上述三個(gè)事件為話題“日本7.9級(jí)地震”下描述的事件,而同一話題下的事件并非兩兩相關(guān)。通過(guò)相關(guān)事件識(shí)別,事件Evt1和事件Evt2相關(guān),事件Evt1和事件Evt3相關(guān),而事件Evt2和事件Evt3之間不存在邏輯關(guān)系。無(wú)關(guān)事件的關(guān)系判定不僅冗余,并且直接影響判定過(guò)程的整體精度,事件關(guān)系檢測(cè)任務(wù)首先通過(guò)“相關(guān)事件識(shí)別”識(shí)別“相關(guān)事件對(duì)”,進(jìn)而只針對(duì)“相關(guān)事件對(duì)”解析其深層次的具體邏輯關(guān)系。

3.3 事件關(guān)系類型判定

“事件關(guān)系類型判定”指對(duì)已獲得的“相關(guān)事件對(duì)”判定邏輯關(guān)系類型,是一種對(duì)事件關(guān)系的深層分析和研究。“相關(guān)事件識(shí)別”僅對(duì)事件間是否存在邏輯關(guān)系進(jìn)行識(shí)別,這種單一的判斷不足以對(duì)事件間邏輯關(guān)系進(jìn)行深層分析和研究。事件邏輯關(guān)系作為一種客觀存在,包含大量不同種類的關(guān)系類型,常見(jiàn)的事件關(guān)系類型有因果關(guān)系、時(shí)序關(guān)系等。因此,通過(guò)對(duì)“相關(guān)事件對(duì)”具體關(guān)系類型的判定,進(jìn)一步對(duì)事件關(guān)系類型進(jìn)行分類,能夠更準(zhǔn)確的挖掘事件發(fā)生的規(guī)律、特征等,從而更有效的輔助事件演變與發(fā)展的推理。

事件關(guān)系類型檢測(cè)研究的首要任務(wù)是構(gòu)建事件關(guān)系體系,然而,目前學(xué)術(shù)界尚未形成統(tǒng)一、完備的事件關(guān)系體系。篇章關(guān)系分析研究旨在識(shí)別和判定一對(duì)毗鄰“論元對(duì)”(具有完整語(yǔ)義的語(yǔ)言單元,如字句,短語(yǔ)等)間的語(yǔ)義關(guān)系類型,如“因果關(guān)系”、“轉(zhuǎn)折關(guān)系”等。本文借鑒篇章關(guān)系分析任務(wù)中完善的語(yǔ)義關(guān)系體系,將事件關(guān)系檢測(cè)任務(wù)與篇章關(guān)系分析任務(wù)類比,制定了一套完整的事件關(guān)系體系。同時(shí),根據(jù)定義的事件關(guān)系體系,標(biāo)注了事件關(guān)系語(yǔ)料庫(kù),該部分內(nèi)容由下文詳細(xì)闡述。

4 篇章關(guān)系檢測(cè)與事件關(guān)系檢測(cè)的任務(wù)對(duì)比

本文借鑒篇章關(guān)系檢測(cè)的任務(wù)體系,提出事件關(guān)系檢測(cè)研究。本節(jié)介紹篇章關(guān)系檢測(cè)任務(wù),并將篇章關(guān)系檢測(cè)與事件關(guān)系檢測(cè)的任務(wù)對(duì)比,詳細(xì)分析事件關(guān)系與篇章關(guān)系的任務(wù)差異。同時(shí),提出事件關(guān)系檢測(cè)任務(wù)的關(guān)鍵問(wèn)題。

4.1 簡(jiǎn)析篇章關(guān)系檢測(cè)任務(wù)

篇章關(guān)系檢測(cè)旨在自動(dòng)檢測(cè)篇章中相鄰片段(子句、句子或段落),即“論元對(duì)”的組織結(jié)構(gòu)與邏輯關(guān)系。該任務(wù)涉及短語(yǔ)、子句、句子等文本片段之間的語(yǔ)義關(guān)系研究,通過(guò)分析毗連文本區(qū)域之間內(nèi)在的語(yǔ)義聯(lián)系,構(gòu)建文本篇章關(guān)系結(jié)構(gòu),進(jìn)而深入理解篇章語(yǔ)義。

PDTB根據(jù)“論元對(duì)”是否由顯示連接詞(如英文中的“because”)銜接,將篇章關(guān)系分析分為顯式篇章關(guān)系和隱式篇章關(guān)系。PDTB針對(duì)論元定義的語(yǔ)義關(guān)系體系分為三層,其中,第一層包含四個(gè)大類,即“因果”、“對(duì)比”、“擴(kuò)展”和“時(shí)序”四種關(guān)系,第二層包含16個(gè)子類,第三層包含22個(gè)子類型,各子類型均為對(duì)上一層關(guān)系類型的細(xì)化。

4.2 篇章關(guān)系檢測(cè)與事件關(guān)系檢測(cè)的異同

事件是一種人、物、事相互作用的客觀事實(shí),訴諸文字后,成為信息傳播中可讀可解的事件文體(也稱“事件體”,本文統(tǒng)稱“事件”)。從而,事件的描述必須遵循自然語(yǔ)言的行文規(guī)律,如篇章結(jié)構(gòu)、篇章修辭、語(yǔ)法和文法等規(guī)律。也因此,事件關(guān)系檢測(cè)與篇章關(guān)系檢測(cè)任務(wù)有著一定程度的領(lǐng)域交差性。

然而,“事件關(guān)系檢測(cè)”與“篇章關(guān)系檢測(cè)”又有著明顯的差異,下面枚舉篇章關(guān)系和事件關(guān)系的主要差異。

1) 篇章關(guān)系檢測(cè)的對(duì)象為兩兩毗連的論元,即序列“論元對(duì)”,而事件往往離散分布,并非絕對(duì)相互毗連,例如,序列論元“Arg1: 他病了”、“Arg2: 一天后”、“Arg3: 他康復(fù)了”中,按照ACE(Automatic Content Extraction)對(duì)事件的定義,Arg1與Arg3為事件(Arg2僅為論元,而非事件),且具有“對(duì)比”關(guān)系,但因相互并不毗連,從而不屬于篇章關(guān)系的研究范疇;

2) 篇章關(guān)系檢測(cè)聚焦于獨(dú)立篇章內(nèi)部,事件關(guān)系則可跨篇章出現(xiàn),從而只受話題框架約束,而非絕對(duì)依存于特定篇章塑造的語(yǔ)言環(huán)境(TDT領(lǐng)域,即Topic Detection and Tracking,將相互關(guān)聯(lián)的事件集合統(tǒng)稱為話題),例如,事件“國(guó)五條出臺(tái)”(2013年3月1日網(wǎng)易新聞*http://bj.house.163.com/13/0301/19/8OTEFDJF00073SD3.html)和事件“二手房交易井噴”(2013年3月18日網(wǎng)易新聞*http://money.163.com/13/0318/14/8Q8MH47N00253B0H.html)具有“因果”關(guān)系,但不局限于孤立的新聞報(bào)道之內(nèi);

3) 篇章關(guān)系往往具有主觀性(即人為塑造的關(guān)系),而事件關(guān)系則注重事實(shí)與客觀性(即本源的邏輯關(guān)系)。

4.3 事件關(guān)系檢測(cè)的關(guān)鍵問(wèn)題

針對(duì)事件關(guān)系檢測(cè)的特性,即事件離散分布、依賴先驗(yàn)相關(guān)性、事件關(guān)系無(wú)直觀線索、受邏輯客觀性約束等特性,本節(jié)給出事件關(guān)系檢測(cè)的如下關(guān)鍵問(wèn)題。

1) 事件內(nèi)部屬性(包括觸發(fā)詞、事件參與者等)信息能夠?yàn)槭录P(guān)系檢測(cè)提供明確的事件描述,并且,事件屬性往往是反映事件外部關(guān)系的關(guān)鍵特征。然而,目前ACE領(lǐng)域中,針對(duì)事件抽取(包括觸發(fā)詞、事件類型、參與元素及其角色的抽取)尚未達(dá)到理想效果,全面支持自動(dòng)事件關(guān)系檢測(cè)尚有困難。

2) 為了提高事件關(guān)系類型判定的準(zhǔn)確性,應(yīng)首先判定兩事件是否相關(guān)(即事件關(guān)系識(shí)別)。事件關(guān)系識(shí)別挖掘事件關(guān)聯(lián)性以及關(guān)聯(lián)推理線索,從而構(gòu)建事件關(guān)聯(lián)的線索集合,若進(jìn)一步判定“相關(guān)事件對(duì)”的關(guān)系類型,則需分析和處理已構(gòu)建的“相關(guān)事件對(duì)”線索集合,形成關(guān)鍵的關(guān)系推理脈絡(luò),對(duì)事件關(guān)系類型進(jìn)行推理。

3) 事件本身具有離散性、跨篇章性、無(wú)顯式線索等特征,使得無(wú)法直接利用語(yǔ)言學(xué)特征支持事件關(guān)系的判斷。由此,檢測(cè)事件關(guān)系應(yīng)從統(tǒng)計(jì)學(xué)角度入手,利用大規(guī)模數(shù)據(jù)識(shí)別和挖掘事件關(guān)聯(lián)的線索和脈絡(luò),形成基于統(tǒng)計(jì)策略的事件關(guān)系推理機(jī)制;然而,這種機(jī)制必然引入大規(guī)模數(shù)據(jù)處理與挖掘,線索挖掘的效率快慢與精度高低都會(huì)直接影響事件關(guān)系檢測(cè)的性能;

4) 事件關(guān)系檢測(cè)不能僅僅考慮字面上的語(yǔ)義關(guān)系,還應(yīng)根據(jù)統(tǒng)計(jì)信息估測(cè)關(guān)系的邏輯可信性。這一問(wèn)題在現(xiàn)有的事件關(guān)系檢測(cè)研究中尚未引起重視,相應(yīng)的邏輯關(guān)系樣本也尚未構(gòu)建,無(wú)法支持針對(duì)事件關(guān)系邏輯可信性的機(jī)器學(xué)習(xí)。因此,現(xiàn)階段僅能依據(jù)經(jīng)驗(yàn)?zāi)P秃蜔o(wú)指導(dǎo)的機(jī)器學(xué)習(xí)模型予以估測(cè)。同時(shí),事件隸屬的主題框架,有助于識(shí)別事件關(guān)系的作用域,從而有助于事件關(guān)系的深層檢測(cè)。

5 事件關(guān)系體系

本文將篇章關(guān)系體系與事件關(guān)系進(jìn)行分析和對(duì)比,選取篇章關(guān)系體系中能夠應(yīng)用于離散“事件對(duì)”的篇章關(guān)系類型作為事件關(guān)系類型。同時(shí),篇章關(guān)系與事件關(guān)系的差異性使得篇章關(guān)系不能描述完整的事件關(guān)系類型,因此,本文借助事件關(guān)系實(shí)例,人工總結(jié)事件關(guān)系類型,進(jìn)一步對(duì)事件關(guān)系類型進(jìn)行補(bǔ)充,確保事件關(guān)系體系的完整性,由此形成的事件關(guān)系體系如表1所示。

本文定義的事件關(guān)系體系共分為兩層(表1),第一層包含四種主要關(guān)系類別: Temporal(時(shí)序)、Comparison(比較)、Contingency(偶然)、Expansion(擴(kuò)展), 第二層為以上關(guān)系類型的擴(kuò)展,共有十種子類型。下面給出主要關(guān)系的示例。

5.1 Temporal 時(shí)序

“時(shí)序關(guān)系”是指兩個(gè)事件通過(guò)時(shí)序相關(guān)聯(lián)。本文將“時(shí)序關(guān)系”進(jìn)一步分為“同步關(guān)系”和異步關(guān)系,下面分別介紹這兩種關(guān)系類型。

表1 事件關(guān)系體系

(1) Synchronous 同步

“同步關(guān)系”是指兩個(gè)相關(guān)事件Evt1、Evt2發(fā)生的時(shí)間存在一定的重合(如下例Evt1和Evt2,以下事件實(shí)例均來(lái)自FrameNet-1.5,加粗部分為該事件的觸發(fā)詞)。如下例中,事件Evt1與事件Evt2為同時(shí)發(fā)生的兩個(gè)事件。

Evt1 “Policealsofindsasecondhouse”

(譯文:“警察發(fā)現(xiàn)了第二個(gè)房子”)

Evt2 “Meantime,analystsatthecrimelabtrytodiscoverwhatthebombwasmadefrom”

(譯文:“同時(shí),犯罪實(shí)驗(yàn)室的分析師試圖發(fā)現(xiàn)炸彈的來(lái)源”)

(2) Asynchronous 異步

“異步關(guān)系”是指兩個(gè)相關(guān)事件發(fā)生存在時(shí)間的先后順序。如下例中事件Evt1中“開(kāi)始(start)”事件的發(fā)生先于事件Evt2中“離開(kāi)(leave)”事件的發(fā)生。

Evt1 “Hall’slandmarkvisittoIraqstartedonSundayevening”

(譯文:“Hall周日晚上開(kāi)始對(duì)伊拉克進(jìn)行一個(gè)具有里程碑意義的訪問(wèn)”)

Evt2 “U.S.DemocraticPartyCongressmanTonyHalllefthereThursday”

(譯文:“美國(guó)民主黨國(guó)會(huì)議員托尼·霍爾周四離開(kāi)了這里”)

5.2 Comparison 比較

“比較關(guān)系”的兩個(gè)事件的發(fā)生存在某些差異,并且突出這種差異。根據(jù)比較的趨勢(shì),本文將“比較關(guān)系”進(jìn)一步劃分為“對(duì)比關(guān)系”和“讓步關(guān)系”。

(1) Contrast 對(duì)比

“對(duì)比關(guān)系”是指兩個(gè)不同事件的共同屬性具有不同趨勢(shì),突出兩者的差異。例如下例分別對(duì)“營(yíng)業(yè)收入增長(zhǎng)(rise)”和“凈利息增長(zhǎng)(jump)”兩個(gè)事件的比較。

Evt1 “Operatingrevenuerose69%toA$8.48billionfromA$5.01billion.”

(譯文:“營(yíng)業(yè)收入從50.1億美元增長(zhǎng)到84.8億美元,增長(zhǎng)了69%”)

Evt2 “Butthenetinterestbilljumped85%toA$686.7millionfromA$371.1million.”

(譯文:“但是,凈利息從3.711億美元達(dá)到6.867億美元,躍升了85%”)

(2) Concession 讓步

Evt1 “IransignedtheAdditionalProtocolonNuclearSafeguardson18December2003”

(譯文:“伊朗簽署附加議定書(shū)于2003年12月18日核安全保障”)

Evt2 “Iranfornotprovidingtheagencywithmoretimelyandcomprehensivesupport.”

(譯文:“伊朗沒(méi)有提供該機(jī)構(gòu)更及時(shí)和全面的支持”)

5.3 Contingency 偶然

“偶然關(guān)系”是指,一個(gè)原因事件Evt1的發(fā)生,能夠?qū)Y(jié)果事件Evt2產(chǎn)生影響。根據(jù)原因事件對(duì)結(jié)果事件的影響方式不同,將“偶然關(guān)系”進(jìn)一步劃分為“因果關(guān)系”和“條件關(guān)系”。

(1) Cause 因果

“因果關(guān)系”的兩個(gè)事件存在事實(shí)性的因果影響。原因事件Evt1是結(jié)果事件Evt2的必然條件,結(jié)果事件Evt2是原因事件Evt1的必然結(jié)果。如下例中,事件Evt2中的“摧毀(destroyed)”事件必然由事件Evt1的“轟炸(bombed)”事件導(dǎo)致,事件Evt1必然導(dǎo)致事件Evt2的發(fā)生。

Evt1 “TheybombedtheBogotaofficeslastmonth.”

(譯文:“他們上個(gè)月轟炸波哥大辦公室”)

Evt2 “Thebombdestroyeditscomputerandcausing$2.5millionindamage.”

(譯文:“炸彈摧毀了它的計(jì)算機(jī),造成250萬(wàn)美元的損失”)

(2) Condition條件

“條件關(guān)系”是指兩個(gè)事件Evt1、Evt2,事件Evt1提出某種條件或場(chǎng)景,事件Evt2說(shuō)明產(chǎn)生的結(jié)果?!皸l件關(guān)系”與“因果關(guān)系”的區(qū)別在于,“因果關(guān)系”中的原因事件為結(jié)果事件的必然條件,而“條件關(guān)系”中的原因事件為結(jié)果事件發(fā)生的可能原因之一。

Evt1 “IfthecartelsucceedsinblackmailingtheColombianauthoritiesintonegotiations”

(譯文:“如果壟斷聯(lián)盟成功勒索哥倫比亞當(dāng)局談判”)

Evt2 “thecartelwillbeincontrolandFidelcanexploithispastrelationshipswiththem”

(譯文:“卡特爾將被控制和Fidel可以利用他的過(guò)去與它們的關(guān)系”)

5.4 Expansion擴(kuò)展

“擴(kuò)展關(guān)系”的兩個(gè)事件存在內(nèi)容上的擴(kuò)展,推動(dòng)行文向前和事件的發(fā)生。本文將“擴(kuò)展關(guān)系”進(jìn)一步細(xì)分為“并列關(guān)系”、“遞進(jìn)關(guān)系”、“重述關(guān)系”和“實(shí)例化關(guān)系”。

(1) List并列

“并列關(guān)系”的兩個(gè)事件是同一問(wèn)題的幾個(gè)方面,適用于事件的枚舉。如下例事件Evt1和事件Evt2分別列舉了兩個(gè)“逮捕(arrest)”事件。

Evt1 “Thisweek,thegovernmentarrestedJoseAbelloSilva”

(譯文:“本周,政府逮捕了JoseAbelloSilva”)

Evt2 “Later,anotherhigh-rankingtrafficker,LeonidasVArgas,wasarrested”

(譯文:“后來(lái),另一個(gè)高排名販子Leonidas VArgas也被逮捕”)

(2) Progression遞進(jìn)

“遞進(jìn)關(guān)系”強(qiáng)調(diào)兩個(gè)事件的連續(xù)性,事件Evt1為事件Evt2進(jìn)一步的發(fā)展。如下例中“引渡(extradited)”事件Evt2為“逮捕(arrest)”事件Evt1的進(jìn)一步發(fā)展結(jié)果。

Evt1 “Thisweek,thegovernmentarrestedJoseAbelloSilva.”

(譯文:“本周,政府逮捕了Jose Abello Silva”)

Evt2 “JoseAbelloSilvawillprobablybeextraditedtotheU.S.fortrial.”

(譯文:“JoseAbelloSilva將可能被引渡到美國(guó)受審”)

(3) Restatement重述

“重述關(guān)系”的兩個(gè)事件為同一事件的不同表述。如下例中的事件Evt1和事件Evt2均描述“蘇聯(lián)解體(theSovietUnioncollapsed)”事件。

Evt1 “theSovietUnioncollapsed”

(譯文:“蘇聯(lián)解體”)

Evt2 “theSovietUnioncollapsedinDecember1991”

(譯文:“蘇聯(lián)于1991年12月解體”)

(4) Instantiation實(shí)例化

“實(shí)例化關(guān)系”的兩個(gè)事件Evt1、Evt2,事件Evt1描述的事件具有更抽象的意義,而事件Evt2描述的事件包含于事件Evt1中,為事件Evt1的一個(gè)例子。如下例中,事件Evt1總述“核武器計(jì)劃(nuclearweaponprogram)”事件,而事件Evt2為“核武器計(jì)劃”事件的一項(xiàng)具體內(nèi)容,即實(shí)例。

Evt1 “TheSovietnuclearweaponprogram”

(譯文:“蘇聯(lián)的核武器計(jì)劃”)

Evt2 “TheSovietculminatedinasuccessfulatomicbombtestin1949”

(譯文:“1949年,蘇聯(lián)以成功原子彈試驗(yàn)達(dá)到頂峰”)

6 事件關(guān)系語(yǔ)料庫(kù)構(gòu)建與分析

本文根據(jù)事件關(guān)系檢測(cè)的任務(wù)定義以及事件關(guān)系的類型體系,以FrameNet-1.5的新聞?wù)Z料作為數(shù)據(jù)源,對(duì)每篇新聞文本中已標(biāo)注的事件進(jìn)行事件關(guān)系類型標(biāo)注,本文標(biāo)注的事件及其關(guān)系以單篇文本為作用域,不涉及跨篇章事件。為驗(yàn)證標(biāo)注內(nèi)容的合理性和一致性,本文對(duì)標(biāo)注語(yǔ)料進(jìn)行kappa值計(jì)算,用于對(duì)不同標(biāo)注者標(biāo)注語(yǔ)料的一致性檢驗(yàn)。

6.1 語(yǔ)料選取

FrameNet由美國(guó)加州大學(xué)伯克利分校構(gòu)建的基于框架語(yǔ)義學(xué)[13](Frame Semantics)的詞匯資源,對(duì)詞語(yǔ)意義和句法結(jié)構(gòu)研究提供一種理論框架,并基于真實(shí)語(yǔ)料(新聞?wù)Z料)進(jìn)行標(biāo)注,目前最新版本為FrameNet-1.5。FrameNet用語(yǔ)義框架(Semantic Frame,F(xiàn)rame)描述一個(gè)語(yǔ)義場(chǎng)景的一組概念,F(xiàn)rameNet-1.5中共包括1 019個(gè)Frame類型。

FrameNet-1.5中定義的框架類型大體分為三類: 事件(Event)、形式(Situation)和事物(Object)。本文將其中描述事件的語(yǔ)義框架稱為作為事件框架,并且定義事件框架為所描述事件的事件類型(Event Type),由于FrameNet-1.5未對(duì)三類框架區(qū)分,本文對(duì)FrameNet-1.5中事件Frame進(jìn)行人工選擇,篩選所有標(biāo)注框架集合中的事件框架,最終得到的事件框架共673種,即包含673種事件類型,確定的事件類型有助于事件關(guān)系的標(biāo)注。因此,本文以FrameNet-1.5作為標(biāo)注語(yǔ)料,將語(yǔ)料中標(biāo)注為事件框架的實(shí)例作為事件,對(duì)其進(jìn)行事件關(guān)系類型的標(biāo)注。同時(shí),F(xiàn)rameNet定義了更豐富的框架元素類型,平均每個(gè)事件框架實(shí)例含有兩個(gè)框架元素,F(xiàn)rameNet共定義了725種框架元素類型,豐富的事件元素類型使得事件關(guān)系類型判定更明確。

6.2 事件關(guān)系標(biāo)注

FrameNet-1.5根據(jù)定義的框架類型,對(duì)78篇新聞?wù)Z料標(biāo)注了框架類型、框架核心詞以及框架元素,本文針對(duì)其中28篇新聞,以已標(biāo)注的事件框架及框架元素為基礎(chǔ),進(jìn)一步標(biāo)注每篇新聞的“相關(guān)事件對(duì)”及事件關(guān)系類型。

FrameNet-1.5對(duì)新聞?wù)Z料中的每個(gè)句子,以最細(xì)粒度標(biāo)注其中包含的框架,同時(shí),每個(gè)框架標(biāo)注了該框架的核心詞以及框架參與者。本文保留其中標(biāo)為事件框架的實(shí)例,作為事件實(shí)例。同時(shí),將事件框架中的框架核心詞作為該事件的觸發(fā)詞,而框架元素為該事件的事件參與者。本文以FrameNet-1.5中已標(biāo)注的離散的事件實(shí)例為基礎(chǔ),對(duì)其中的事件關(guān)系進(jìn)行人工標(biāo)注(事件關(guān)系類型參照第五節(jié)的事件關(guān)系體系)。本文的標(biāo)注工作由兩名該領(lǐng)域的研究人員(A1、A2)以及一名專家(B1)制定和完成。標(biāo)注者將新聞?wù)Z料中的相關(guān)事件以“相關(guān)事件對(duì)”的形式兩兩組合,接著對(duì)“相關(guān)事件對(duì)”的事件關(guān)系類型予以標(biāo)注。目前的標(biāo)注工作共包含1 004個(gè)事件,1 049個(gè)“相關(guān)事件對(duì)”及關(guān)系類型。本文統(tǒng)計(jì)各關(guān)系類型在新聞文本中的分布比例,表2為各事件關(guān)系類型的分布情況。

對(duì)文本的標(biāo)注結(jié)果計(jì)算kappa值,度量?jī)擅麡?biāo)注者標(biāo)注語(yǔ)料的一致性。新聞?wù)Z料的平均kappa值為0.89,整體Kappa值較高,則認(rèn)為兩名標(biāo)注者標(biāo)注的語(yǔ)料具有較強(qiáng)的一致性。

表2 事件關(guān)系類型分布

7 評(píng)價(jià)方法

事件關(guān)系檢測(cè)將離散分布于不同文本中的事件構(gòu)建“相關(guān)事件對(duì)”,并且進(jìn)一步判斷兩個(gè)事件之間具有何種關(guān)系。該問(wèn)題的輸入為待測(cè)“事件對(duì)”,輸出為“相關(guān)事件對(duì)”及其事件關(guān)系類型,因此,系統(tǒng)的性能優(yōu)劣主要取決于識(shí)別出的“相關(guān)事件對(duì)”數(shù)目和正確判定關(guān)系的“相關(guān)事件對(duì)”數(shù)目。因此,事件關(guān)系判定轉(zhuǎn)變?yōu)榉诸悊?wèn)題,即對(duì)事件之間屬于何種具體關(guān)系類型的劃分。針對(duì)這一分類問(wèn)題,本文借鑒篇章關(guān)系分析研究大多采用的評(píng)價(jià)指標(biāo):Accuracy,具體計(jì)算公式如式(1)所示。

(1)

其中,TruePositve表示系統(tǒng)正確判定“相關(guān)事件對(duì)”以及其事件關(guān)系類型的個(gè)數(shù),TrueNegative表示系統(tǒng)正確判定“非相關(guān)事件對(duì)”個(gè)數(shù)。All則表示待測(cè)“事件對(duì)”的總數(shù)。而針對(duì)本文問(wèn)題,將Accuracy用于多元關(guān)系的性能計(jì)量,計(jì)量過(guò)程將True-Negative設(shè)置為恒定0值,只檢驗(yàn)每個(gè)“相關(guān)事件對(duì)”是否獲得正確的關(guān)系判定,即只計(jì)算TruePositve指標(biāo)與All的比值,并將其作為準(zhǔn)確率。

8 總結(jié)

事件關(guān)系客觀存在于事件之間,具有客觀性、邏輯性和規(guī)律性等特征。事件關(guān)系檢測(cè)任務(wù)旨在自動(dòng)檢測(cè)事件間固有的邏輯關(guān)系類型。然而,目前專門面向事件的邏輯關(guān)系分析與處理,尚未形成一套完整的研究體系。本文通過(guò)分析和比較事件關(guān)系檢測(cè)與篇章關(guān)系分析的異同點(diǎn),借助篇章分析、事件抽取和場(chǎng)景理解等相關(guān)領(lǐng)域中的概念與數(shù)據(jù)資源,首次提出了基于篇章關(guān)系分析的事件關(guān)系檢測(cè)體系。該體系包括事件關(guān)系檢測(cè)的概念、關(guān)系體系以及評(píng)價(jià)方法等。同時(shí),根據(jù)定義的事件關(guān)系體系,以Frame-1.5中新聞?wù)Z料為數(shù)據(jù)源,對(duì)其中已標(biāo)注的事件進(jìn)行事件關(guān)系類型的標(biāo)注。今后的工作在完善現(xiàn)有語(yǔ)料的同時(shí),重點(diǎn)研究如何將篇章分析有效運(yùn)用于事件關(guān)系檢測(cè)任務(wù)中,從而形成信息流中事件關(guān)系的自動(dòng)檢測(cè),構(gòu)建事件關(guān)系網(wǎng)絡(luò)以實(shí)現(xiàn)事件關(guān)系的推理和預(yù)測(cè)。

[1] T Chklovski, P Pantel. Global path-based refinement of noisy graphs applied to verb semantics[C]//Proceedings of Joint Conference on Natural Language Processing, Jeju Island, Korea, 2005: 792-803.

[2] P Pantel, M Pennacchiotti. Espresso: leveraging generic patterns for automatically harvesting semantic relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, Sydney, Australia, 2006: 113-120.

[3] Z S Harris. Mathematical Structure of Language[M]. New York, 1968.

[4] D Lin, P Pantel. Discovery of Inference Rules from Text[C]//Proceeding of the 7th ACM SIGKDD, San Francisco, California, USA, 2001: 323-328.

[5] E Pitler, M Raghupathy, H Mehta, et al. Easily identifiable discourse relations[C]//Proceedings of the 22nd International Conference on the COLING, 2008: 87-90.

[6] P E, R M, N HM, et al. Easily identifiable discourse relations[C]//Proceedings of the 22nd International Conference on Computational Linguistics (COLING 2008), Posters, Manchester, UK, 2008: 87-90.

[7] The Penn Discourse Treebank 2.0 Annotation Manual[R], 2007.

[8] Y Hong, X P Zhou, T T Che,et al. Cross-Argument Inference for Implicit Discourse Relation recognition[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management(CIKM 2012),2012: 295-304.

[9] N Daniel, D Radev, T Allison. Sub-event based multi-document summarization[C]//Proceedings of the Association for Computational Linguistics Morristown, NJ, USA, 2003: 9-16.

[10] H Yang, T S Chua, S G Wang, et al. Structured use of external knowledge for event-based open domain question answering[C]//Proceedings of the 26th Int’l ACM SIGIR Conference, Toronto, Canada, 2003: 33-40.

[11] S A Mirroshandel, G G Sani. Temporal Relations Learning with a Bootstrapped Cross-document Classifier[C]//Proceedings of the 4th International Workshop on Semantic Evaluations, Prague, 2007: 75-80.

[12] Y Hong, J F Zhang, B Ma, et al. Using Cross-Entity Inference to Improve Event Extraction [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, Portland, Oregon, June, 2011: 19-24.

[13] C J Fillmore.Frame semantics and the nature of language[J].Annals of the New York Academy of Sciences,1976: 20-32.

An Overview of Event Relation Detection System

YANG Xuerong, HONG Yu, CHEN Yadong, YAO Jianmin, ZHU Qiaoming

(Provincial Key Laboratory of Computer Information Processing Technology Soochow University, Suzhou, Jiangsu 215006,China)

Event relation detection is the task to detect the event relation from information stream of texts. Treating the event as the basic semantic unit, the relation type is determined by analyzing the feature of semantic relevancy between events. The event relation detection includes event relation identification (identifying whether the event pair is related or not) and event relation type decision (deciding which relation between relevance events, e.g. cause relation). In this paper, we try to establish a system of event relation detection in light of the concepts and data resources of discourse analysis, event extraction and scene understanding, covering the issues of the task definition, classification system of event types, corpora acquisition and annotations evaluation methodology, etc. Finally, we not only emphasize the analysis and comparison of the difference between event relation detection and discourse relation analysis, but also present the difficulty and challenge of the event relation detection.

event relation detection; discourse relation analysis; event; argument; semantic relation

楊雪蓉(1990—),碩士,主要研究領(lǐng)域?yàn)槭录P(guān)系檢測(cè)和信息抽取。E-mail:xuerongyang0650@gmail.com洪宇(1978—),博士,副教授,主要研究領(lǐng)域?yàn)樵掝}檢測(cè)、信息檢索和信息抽取。E-mail:tianxianer@gmail.com陳亞?wèn)|(1990—),學(xué)士,主要研究領(lǐng)域?yàn)樾畔⒊槿?。E-mail:chinachenyadong@gmail.com

1003-0077(2015)04-0025-08

2013-06-26 定稿日期: 2015-05-28

國(guó)家自然科學(xué)基金(61003152,61272259,61272260)

TP391

A

猜你喜歡
語(yǔ)料框架體系
有機(jī)框架材料的后合成交換
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
框架
K-框架和緊K-框架的算子擾動(dòng)的穩(wěn)定性
構(gòu)建體系,舉一反三
對(duì)外漢語(yǔ)教學(xué)領(lǐng)域可比語(yǔ)料庫(kù)的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語(yǔ)義標(biāo)注及應(yīng)用研究為例
關(guān)于原點(diǎn)對(duì)稱的不規(guī)則Gabor框架的構(gòu)造
“曲線運(yùn)動(dòng)”知識(shí)體系和方法指導(dǎo)
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
異種語(yǔ)料融合方法: 基于統(tǒng)計(jì)的中文詞法分析應(yīng)用
镇赉县| 瑞丽市| 珲春市| 樟树市| 保定市| 阿坝县| 溧阳市| 鄯善县| 多伦县| 平昌县| 保德县| 抚州市| 武功县| 安图县| 建始县| 皮山县| 温泉县| 区。| 平乡县| 汾阳市| 通化市| 依安县| 伊春市| 宜兰市| 淳化县| 增城市| 湘乡市| 和林格尔县| 白玉县| 金乡县| 顺义区| 峡江县| 元阳县| 阜阳市| 庆阳市| 富裕县| 宝兴县| 绥德县| 丰台区| 浦东新区| 衡南县|