国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法

2014-02-27 07:07:36楊雪蓉陳亞?wèn)|王瀟斌姚建民朱巧明
中文信息學(xué)報(bào) 2014年5期
關(guān)鍵詞:連接詞語(yǔ)義框架

楊雪蓉,洪 宇,陳亞?wèn)|,王瀟斌,姚建民,朱巧明

(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇,蘇州 215006)

1 引言

事件(Event)是由特定人、物、事在特定時(shí)間和特定地點(diǎn)相互作用的客觀事實(shí),事件關(guān)系是事件之間相互依存和關(guān)聯(lián)的邏輯形式,具有客觀性、事實(shí)性和規(guī)律性三種主要特性,如“因果”(Contingency)和“時(shí)序”(Temporal)關(guān)系等。事件關(guān)系能將離散于文本中的事件相連接,形成事件關(guān)系網(wǎng)絡(luò)和事件發(fā)展的拓?fù)涿}絡(luò)。事件關(guān)系檢測(cè)是以事件為主體元素的自然語(yǔ)言邏輯關(guān)系抽取,它能夠有效輔助事件衍生、發(fā)展與變異信息的推理與預(yù)測(cè)。

目前針對(duì)事件關(guān)系檢測(cè)的研究剛剛起步,由于不具有權(quán)威的任務(wù)定義、事件關(guān)系體系以及評(píng)測(cè)標(biāo)準(zhǔn),相關(guān)探索尚不深入,相應(yīng)方法也僅僅著眼于某一特定事件關(guān)系類型(如“因果”關(guān)系)的判定,不具有全面性和普適性。相較而言,自然語(yǔ)言處理領(lǐng)域中的篇章關(guān)系檢測(cè)和篇章關(guān)系分析作為自然語(yǔ)言處理領(lǐng)域中一項(xiàng)重要的基礎(chǔ)性研究,旨在同一篇章內(nèi)部,判斷相鄰片段或跨度在一定范圍內(nèi)的兩個(gè)片段之間的語(yǔ)義連接關(guān)系。

文本中的事件通過(guò)文字訴諸后,成為信息傳播中可讀可解的事件文體(也稱“事件體”,本文統(tǒng)稱“事件”)。從而,事件的描述必須遵循自然語(yǔ)言的行文規(guī)律,例如,篇章結(jié)構(gòu)、篇章修辭、語(yǔ)法和文法等規(guī)律。篇章關(guān)系檢測(cè)以論元(即完整的語(yǔ)義單元,如句子)為對(duì)象,建立了較為全面的任務(wù)體系,其蘊(yùn)含的概念、關(guān)系體系和評(píng)價(jià)方法也具有普適性,能夠有效應(yīng)用于事件關(guān)系檢測(cè)任務(wù)。因此,事件關(guān)系檢測(cè)與篇章關(guān)系檢測(cè)任務(wù)有著一定程度的領(lǐng)域交差性。然而,事件關(guān)系并不等同于篇章關(guān)系,篇章關(guān)系檢測(cè)不能涵蓋所有事件關(guān)系檢測(cè)的關(guān)鍵問(wèn)題。

(1) 篇章關(guān)系檢測(cè)任務(wù)涉及短語(yǔ)、子句、句子等文本片段之間的語(yǔ)義關(guān)系研究,通過(guò)分析兩兩鄰或跨度在一定范圍內(nèi)的兩個(gè)論元的語(yǔ)義連接關(guān)系,構(gòu)建文本篇章關(guān)系結(jié)構(gòu),進(jìn)而深入理解篇章語(yǔ)義;而文本中的事件往往離散分布,從而只受話題框架約束,因此不屬于篇章關(guān)系的研究范疇。

(2) 篇章關(guān)系檢測(cè)往往可以利用句法、語(yǔ)義和語(yǔ)境的局部特征予以方法設(shè)計(jì)與實(shí)現(xiàn),而事件關(guān)系則必須依賴大規(guī)模數(shù)據(jù)估計(jì)和挖掘廣域的關(guān)聯(lián)線索進(jìn)行方法設(shè)計(jì)與實(shí)現(xiàn)。從而,事件關(guān)系檢測(cè)需要一種有針對(duì)性的專屬的任務(wù)和研究體系,而不能將篇章關(guān)系檢測(cè)體系簡(jiǎn)單移植和并用。

本文針對(duì)事件關(guān)系檢測(cè)任務(wù),提出一種跨場(chǎng)景的事件關(guān)系檢測(cè)方法。事件場(chǎng)景由能夠用于描述該場(chǎng)景的一系列組成元素構(gòu)成??鐖?chǎng)景的事件關(guān)系檢測(cè)方法的核心思想認(rèn)為: 相同或相似的事件場(chǎng)景,通過(guò)挖掘其特征,有助于事件關(guān)系類型的推理。因此,本文首先構(gòu)建事件場(chǎng)景及其關(guān)系類型,利用事件場(chǎng)景的關(guān)系類型對(duì)事件關(guān)系類型進(jìn)行推理??鐖?chǎng)景的事件關(guān)系檢測(cè)方法需要首先解決如下兩點(diǎn)問(wèn)題: 1)事件場(chǎng)景的匹配方法。即給定待測(cè)“事件對(duì)”,如何從已知關(guān)系類型的“事件對(duì)”中,得到與待測(cè)“事件對(duì)”相同或相似事件場(chǎng)景的“事件對(duì)”。2)事件場(chǎng)景的先驗(yàn)關(guān)系類型。事件之間的關(guān)系類型通過(guò)事件場(chǎng)景的關(guān)系類型推理得到,因此需要首先獲得事件場(chǎng)景的先驗(yàn)關(guān)系類型。針對(duì)第一點(diǎn),本文采用基于FramNet[1]的框架語(yǔ)義為事件描述構(gòu)造事件場(chǎng)景的特征空間,從而將事件場(chǎng)景的相似度轉(zhuǎn)化為特征空間的相似度;針對(duì)第二點(diǎn),本文借助顯式連接詞,挖掘包含顯式連接詞且毗鄰的“事件對(duì)”,同時(shí),將顯式連接詞觸發(fā)的某一類事件關(guān)系類型作為該“事件對(duì)”的關(guān)系類型,例如,連接詞“because(因?yàn)?”往往觸發(fā)“Causal(因果)”關(guān)系類型,進(jìn)而利用已知關(guān)系類型的毗鄰“事件對(duì)”構(gòu)建事件場(chǎng)景的先驗(yàn)關(guān)系類型。

同時(shí),根據(jù)事件關(guān)系檢測(cè)和篇章關(guān)系檢測(cè)的任務(wù)的異同點(diǎn),本文提出基于篇章關(guān)系分析的事件關(guān)系檢測(cè)體系,該體系包括事件關(guān)系檢測(cè)的任務(wù)定義、關(guān)系體系以及評(píng)價(jià)方法等。同時(shí),根據(jù)定義的事件關(guān)系體系,以Frame-1.5的新聞?wù)Z料為數(shù)據(jù)源,對(duì)其中已標(biāo)注的事件進(jìn)行事件關(guān)系類型的標(biāo)注。

本文組織如下: 第2節(jié)介紹事件關(guān)系檢測(cè)的相關(guān)工作;第3節(jié)給出事件關(guān)系檢測(cè)任務(wù)定義;第4節(jié)分析本文方法的動(dòng)機(jī);第5節(jié)詳細(xì)闡述基于跨場(chǎng)景的事件關(guān)系檢測(cè)方法的方法;第6節(jié)介紹實(shí)驗(yàn);第7節(jié)總結(jié)。

2 相關(guān)工作

由于缺少公認(rèn)的事件關(guān)系體系,目前針對(duì)事件關(guān)系的研究方法主要針對(duì)某種特定事件關(guān)系類型的判定進(jìn)行研究[2-4],主要的挖掘方法分為模板匹配法和元素分析法。

模板匹配法

事件關(guān)系檢測(cè)的主要方法之一是借助事件特征的模式匹配,例如,利用事件觸發(fā)詞的關(guān)系模式匹配,根據(jù)人工定義的模板,對(duì)文本中符合模板的事件關(guān)系進(jìn)行抽取。 Chklovski[3]等首先定義6種時(shí)序關(guān)系: “similarity”(時(shí)序“相似”關(guān)系),“strength”(時(shí)序“加強(qiáng)”關(guān)系),“antonymy”(時(shí)序“相反”關(guān)系),“enablement”(時(shí)序“支持”關(guān)系), “happens”(時(shí)序“發(fā)生”關(guān)系)和“before”(時(shí)序“前”關(guān)系),再利用人工收集的LSP(Lexcial-Syntactic Pattern,即詞-句匹配模板)抽取包含這6種時(shí)序關(guān)系的“事件對(duì)”,并將抽取的結(jié)果形成稱為“VerbOcean”的知識(shí)庫(kù)。人工定義的事件關(guān)系模板往往受數(shù)量限制,造成關(guān)系檢測(cè)的低召回率問(wèn)題。Pantel[4]通過(guò)Espresso算法進(jìn)行自動(dòng)模板的構(gòu)建,算法首先給定少量關(guān)系實(shí)例,通過(guò)機(jī)器學(xué)習(xí)方法對(duì)現(xiàn)有模板進(jìn)行迭代擴(kuò)展,在一定程度上提高了模板匹配方法的召回率。

元素分析法

以事件元素為線索的研究大都繼承了Harris[5]的分布假設(shè)。Harris假設(shè)指出,處在同一上下文環(huán)境中的詞語(yǔ)具有相同或相似的含義。Lin[6]提出了一種結(jié)合Harris分布假設(shè)和建立依存樹(shù)思想的無(wú)監(jiān)督方法,稱為DIRT算法。算法將所有事件構(gòu)造成依存樹(shù)形式,樹(shù)中的每條路徑表示一個(gè)事件,路徑的節(jié)點(diǎn)表示事件中的詞語(yǔ),若兩條路徑的詞語(yǔ)完全相同,則這兩條路徑所表示的事件相同或者相似。

3 任務(wù)定義

事件關(guān)系檢測(cè)任務(wù)的目標(biāo)在于實(shí)現(xiàn)事件間邏輯關(guān)系的自動(dòng)檢測(cè)。本節(jié)介紹事件、事件關(guān)系類型以及事件關(guān)系檢測(cè)的任務(wù)定義。

3.1 事件

自動(dòng)內(nèi)容抽取(Automatic Content Extraction,簡(jiǎn)稱ACE)任務(wù)將事件定義為由事件觸發(fā)詞和事件參與者組成,其中,事件的觸發(fā)詞能夠描述一個(gè)事件的發(fā)生,以動(dòng)詞或者動(dòng)名詞為主;事件的參與信息為事件參與者,通常為名詞。例如,事件Evt1:

(1) Evt1: “奧巴馬擊敗麥凱恩”

事件Evt1中“擊敗”能夠描述該事件的發(fā)生,因此,“擊敗”為該事件的觸發(fā)詞,則稱Evt1為“擊敗”事件。事件Evt1中“奧巴馬”和“麥凱恩”為“擊敗”事件的參與信息,即“擊敗”事件的參與者。

3.2 事件關(guān)系

事件關(guān)系表示事件與其相關(guān)事件之間相互依存和關(guān)聯(lián)的邏輯形式,是事件之間固有的一種客觀存在。然而,目前針對(duì)事件關(guān)系檢測(cè)任務(wù)缺少公認(rèn)的事件關(guān)系體系,本文將篇章關(guān)系體系與事件關(guān)系進(jìn)行分析和對(duì)比,選取篇章關(guān)系體系中能夠應(yīng)用于離散“事件對(duì)”的篇章關(guān)系類型作為事件關(guān)系類型。同時(shí),篇章關(guān)系與事件關(guān)系的差異性使得篇章關(guān)系不能描述完整的事件關(guān)系類型,因此,本文借助事件關(guān)系實(shí)例,人工總結(jié)事件關(guān)系類型,進(jìn)一步對(duì)事件關(guān)系類型進(jìn)行補(bǔ)充,確保事件關(guān)系體系的完整性,由此形成的事件關(guān)系體系如表1所示。

表1 事件關(guān)系體系

續(xù)表

表1定義的事件關(guān)系體系共分為兩層,第一層包含四種主要關(guān)系類別: Temporal(時(shí)序)、Comparison(比較)、Contingency(偶然)、Expansion(擴(kuò)展),第二層為以上四種關(guān)系類型的擴(kuò)展,共有10種子類型。

3.3 事件關(guān)系檢測(cè)

事件關(guān)系檢測(cè)是一種針對(duì)“事件間存在何種邏輯關(guān)系類型”進(jìn)行自動(dòng)判定的深層事件關(guān)系判定任務(wù)。事件關(guān)系檢測(cè)通過(guò)解析文本結(jié)構(gòu)或語(yǔ)義特征,對(duì)文本中描述不同自然事件的文本片段(包括短語(yǔ)、子句、句子和段落)給出明確的語(yǔ)義關(guān)系或邏輯關(guān)系標(biāo)簽(如“因果”、“時(shí)序”、“擴(kuò)展”和“對(duì)比”等)。該任務(wù)框架如圖1所示,其中,該任務(wù)的輸入為已知相關(guān)的兩個(gè)事件,通過(guò)分析“事件對(duì)”的邏輯聯(lián)系,輸出該“相關(guān)事件對(duì)”的邏輯關(guān)系類型。

圖1 事件關(guān)系檢測(cè)任務(wù)框架

4 動(dòng)機(jī)

本文借助篇章分析任務(wù)實(shí)現(xiàn)事件關(guān)系檢測(cè)。本節(jié)介紹篇章分析任務(wù),以及框架語(yǔ)義和借助框架語(yǔ)義構(gòu)建事件場(chǎng)景的方法。

4.1 篇章分析

篇章分析的核心任務(wù)是判定“論元對(duì)”之間的語(yǔ)義或修辭關(guān)系。目前篇章關(guān)系分析分別針對(duì)顯式篇章關(guān)系和隱式篇章關(guān)系進(jìn)行研究,且顯式篇章關(guān)系和隱式篇章關(guān)系分析的性能相差較大。

顯式篇章關(guān)系可直接根據(jù)顯式連接詞推斷篇章關(guān)系,并且能夠取得較優(yōu)的性能,相關(guān)研究對(duì)于顯式篇章關(guān)系最終分類的精確率可達(dá)93%[7];而隱式篇章關(guān)系的分類性能則相對(duì)較低,隱式篇章關(guān)系檢測(cè)的主體研究主要分為基于關(guān)系特征的機(jī)器學(xué)習(xí)方法和基于概率統(tǒng)計(jì)的方法[8-10]。顯式篇章關(guān)系和隱式篇章關(guān)系分析的性能相差較大的原因在于,顯式篇章關(guān)系以顯式連接詞為主要線索,借助連接詞與篇章關(guān)系的一一映射,能夠較精確地推斷特定篇章關(guān)系,例如,PDTB關(guān)系樣本庫(kù)中,連接詞“Because(因?yàn)?”指向“Contingency.Cause(偶然.因果)”關(guān)系的概率為100%。隱式篇章關(guān)系由于缺少顯式連接詞信息,相關(guān)研究通過(guò)結(jié)合句法、語(yǔ)義、相關(guān)領(lǐng)域知識(shí)等構(gòu)建上下文信息,推斷隱式“論元對(duì)”的邏輯關(guān)系。實(shí)驗(yàn)表明,篇章的上下文信息仍存在不確定性,這種上下文信息的不確定性、句子結(jié)構(gòu)的復(fù)雜性以及語(yǔ)義關(guān)系的歧義性,使得目前針對(duì)隱式篇章關(guān)系研究的性能總體較差,因此,借助篇章關(guān)系分析檢測(cè)事件關(guān)系,必須突破隱式篇章關(guān)系檢測(cè)這一關(guān)鍵難點(diǎn)。

4.2 框架語(yǔ)義

本文采用FrameNet(框架語(yǔ)義)框架語(yǔ)義描述事件場(chǎng)景。FrameNet是由美國(guó)加州大學(xué)伯克利分校構(gòu)建的基于框架語(yǔ)義學(xué) (Frame Semantics)的詞匯資源,對(duì)詞語(yǔ)意義和句法結(jié)構(gòu)研究提供一種理論框架,框架語(yǔ)義知識(shí)庫(kù)通過(guò)框架描述單詞的釋義,即詞語(yǔ)背后隱藏的概念結(jié)構(gòu)和語(yǔ)義等信息。從而,框架語(yǔ)義能夠形成特定場(chǎng)景(包括事件、狀態(tài)、關(guān)系或?qū)嶓w)的概念表述。在框架語(yǔ)義知識(shí)庫(kù)中,對(duì)句子的框架語(yǔ)義標(biāo)注是一種類似于“謂詞—論元”結(jié)構(gòu)的“目標(biāo)詞—框架語(yǔ)義”(Target-Frame)結(jié)構(gòu)。每個(gè)句子可能包含一個(gè)或多個(gè)“目標(biāo)詞—框架語(yǔ)義”結(jié)構(gòu),例如,例(2)描述的事件:

(2) Evt1 : “IreneleftSherlockinacomawiththeMickeyFinnaftergettingthecodeofthesafebox.”

(譯文: “艾琳得到保險(xiǎn)柜的密碼后,利用混有麻醉的酒讓夏洛克昏迷”)

通過(guò)框架語(yǔ)義的分析,能夠得到如下“目標(biāo)詞—框架語(yǔ)義”結(jié)構(gòu): “MickeyFinn(混有麻醉的酒)—Drag(藥物)”、“code(密碼)—Message(信息)”和“safebox(保險(xiǎn)箱)—Safebox(保險(xiǎn)箱)”,同時(shí),本文將事件中的框架語(yǔ)義的組合定義為該事件的事件場(chǎng)景。不同的事件描述存在相同的事件場(chǎng)景,例如,例(3)中描述的事件:

(3) Evt2: “Georgerememberedthebeautifulladyaskedhimaboutthecodeofthebankaccountafterdrinkingsomuchliquor.”

(譯文: “喬治記得一位美麗的女士在他喝完很多酒之后詢問(wèn)他的銀行密碼”)

通過(guò)FrameNet解析,例(3)中的“l(fā)iquor(酒)”同樣觸發(fā)了“Drag(藥物)”框架語(yǔ)義,例(2)和例(3)中的其他“目標(biāo)詞—框架語(yǔ)義”結(jié)構(gòu)如表2所示。

表2 例(2)和例(3)中“目標(biāo)詞-框架語(yǔ)義”結(jié)果

從表2中可以看出,盡管例(2)和(3)中描述不同的事件,但兩個(gè)事件具有相同的框架語(yǔ)義,則認(rèn)為兩個(gè)事件描述了相同的事件場(chǎng)景。

4.3 事件場(chǎng)景

跨場(chǎng)景的事件關(guān)系檢測(cè)方法的核心思想認(rèn)為: 相同或相似的事件場(chǎng)景,通過(guò)挖掘其特征,有助于事件關(guān)系類型的推理。例如,有如下兩個(gè)“事件對(duì)”:

(4)E1:Hewasshotbyaterrorist.

(譯文: 他被恐怖分子擊中了 )

E2:Heunfortunatelypassedaway.

(譯文: 他不幸去世了)

(Relation=Contingency.Cause)

(關(guān)系=偶然.因果)

(5)E1:Bombswentoffattrainstations.

(譯文: 炸彈在火車站爆炸了 )

E2:Manypeoplewerefeareddead.

(譯文: 擔(dān)心很多人死亡了 )

(Relation=? )

(關(guān)系=?)

其中,已知例(4)中描述的兩個(gè)事件為“偶然.因果”關(guān)系類型。若僅考慮上述事件描述的篇章修辭、語(yǔ)法和文法等規(guī)律,難以利用例(4)的信息推理例(5)中“事件對(duì)”的關(guān)系類型。本文提出的跨場(chǎng)景的事件關(guān)系檢測(cè)方法首先判斷例(4)中的“事件對(duì)”描述了“襲擊”場(chǎng)景和“死亡”事件場(chǎng)景,若定義例(4)中的事件關(guān)系類型“關(guān)系=偶然.因果”為“襲擊—死亡”場(chǎng)景的關(guān)系類型,由于例(5)同樣描述了“襲擊”場(chǎng)景和“死亡”事件場(chǎng)景,將事件場(chǎng)景的關(guān)系類型作為該“事件對(duì)”的關(guān)系類型,則推理得到例(5)中“事件對(duì)”的關(guān)系類型為“關(guān)系=偶然.因果”類型。

5 基于跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法

本文致力于探究一種基于跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法,其核心思想是: 具有相同事件場(chǎng)景的事件對(duì),往往具有相同的事件關(guān)系類型。該方法分為三個(gè)主要部分: 顯式“事件對(duì)”的挖掘、事件場(chǎng)景關(guān)系類型映射以及事件關(guān)系判定。

另外,本文進(jìn)一步提出一種事件場(chǎng)景向量的事件場(chǎng)景構(gòu)建方法作為比較。

5.1 顯式事件對(duì)的挖掘

本文首先通過(guò)連接詞,從大規(guī)模語(yǔ)言學(xué)資源(Gigaword)中挖掘包含連接詞的事件對(duì),事件對(duì)的挖掘必須滿足如下規(guī)則:

“PreGram+,connective+PostGram”

其中,“PreGram”為前置論元,“connective”為連接詞,“PostGram”為后置論元。通過(guò)連接詞挖掘得到的“事件對(duì)”的關(guān)系類型,有該顯式連接詞唯一指定。PDTB中共定義182個(gè)連接詞,而這些連接詞與關(guān)系類型并非一一對(duì)應(yīng),為了實(shí)現(xiàn)“事件對(duì)”及其關(guān)系類型的精準(zhǔn)抽取,本文僅僅選取PDTB中的Golden連接詞。Golden連接詞指該連接詞在篇章中指向某一關(guān)系類型的概率較高。本文針對(duì)PDTB中連接詞的分布,統(tǒng)計(jì)了各連接詞指向某一關(guān)系類型的概率,如表3所示。

表3 PDTB中連接詞的分布,統(tǒng)計(jì)了各連接詞指向某一關(guān)系類型的概率

表3顯式各連接詞在四種篇章關(guān)系類型中出現(xiàn)的概率,例如,連接詞“alternatively(選擇地)”指向“Expansion(擴(kuò)展)”關(guān)系類型的概率為100%。本文僅選取指向某一關(guān)系類型概率大于80%的連接詞作為Golden連接詞。同時(shí),將Golden連接詞指向概率最大的關(guān)系類型,作為該Golden連接詞的先驗(yàn)關(guān)系類型。進(jìn)而將Golden連接詞的先驗(yàn)關(guān)系類型作為通過(guò)Golden連接詞挖掘得到的事件對(duì)的關(guān)系類型。

5.2 事件場(chǎng)景關(guān)系類型映射

本文對(duì)Golden連接詞挖掘得到的“事件對(duì)”,進(jìn)一步分析其包含的框架語(yǔ)義,利用框架語(yǔ)義構(gòu)建“事件對(duì)”的“事件場(chǎng)景對(duì)”。同時(shí),借助顯式連接詞對(duì)篇章關(guān)系的映射,構(gòu)建“事件場(chǎng)景對(duì)”中兩兩框架語(yǔ)義與關(guān)系類型的映射,即“框架語(yǔ)義對(duì)-關(guān)系”,最終“框架語(yǔ)義對(duì)”的關(guān)系類型由大規(guī)模樣本中的極大似然關(guān)系估計(jì),方法細(xì)節(jié)如下:

Step1: 利用SEMAFOR*http://www.ark.cs.cmu.edu/SEMAFOR工具分析“事件對(duì)”中的框架語(yǔ)義。例如,前置論元通過(guò)分析得到框架語(yǔ)義集合FrameSet1: {Frame11,Frame12, …,Frame1m};前置論元通過(guò)分析得到框架語(yǔ)義集合FrameSet2: {Frame21,Frame22, …,Frame2n};

Step2: 將FrameSet1和FrameSet2中的框架語(yǔ)義兩兩組合,形成“框架語(yǔ)義對(duì)”: {Frame1i,Frame2j}i=1, …,m,j=1, …,n. 其中,“框架語(yǔ)義對(duì)”的關(guān)系類型為該“事件對(duì)”中顯式連接詞對(duì)應(yīng)的關(guān)系類型;

Step3: 對(duì)由Gigaword挖掘得到“事件對(duì)”,進(jìn)行Step1到Step2操作。

由以上步驟得到的“框架語(yǔ)義對(duì)”存在多種關(guān)系類型映射,為了實(shí)現(xiàn)“框架語(yǔ)義對(duì)-關(guān)系”的一一映射,本文對(duì)每個(gè)“框架語(yǔ)義對(duì)”進(jìn)行極大似然關(guān)系的概率估計(jì)。給定“框架語(yǔ)義對(duì)”及其在各個(gè)關(guān)系類型的概率分布P(r),選取分布概率最高的關(guān)系類型,作為該“框架語(yǔ)義對(duì)”的極大似然關(guān)系,如式(1)所示。

(1)

r∈{Syn,Asy,Cont,…,Ins}

其中,nr為“框架語(yǔ)義對(duì)”指向關(guān)系類型r出現(xiàn)的次數(shù),N為“框架語(yǔ)義對(duì)”指向所有關(guān)系類型的次數(shù)?!翱蚣苷Z(yǔ)義對(duì)”的極大似然關(guān)系作為該“框架語(yǔ)義對(duì)”的先驗(yàn)關(guān)系類型。

5.3 事件關(guān)系判定

本文利用“事件場(chǎng)景”的關(guān)系類型對(duì)事件關(guān)系進(jìn)行推理。針對(duì)待測(cè)“事件對(duì)”,同樣利用框架語(yǔ)義構(gòu)建其“事件場(chǎng)景對(duì)”,進(jìn)而將已獲得的“事件場(chǎng)景對(duì)”的先驗(yàn)關(guān)系類型,作為該“事件對(duì)”的關(guān)系類型。具體步驟如下:

Step1針對(duì)每一個(gè)待測(cè)“事件對(duì)”,分析其包含的框架語(yǔ)義,分別得到事件event1的框架語(yǔ)義集合FrameSet1: {Frame11,Frame12, …,Frame1m} ,以及事件event2的框架語(yǔ)義集合FrameSet2: {Frame21,Frame22, …,Frame2n};

Step2將FrameSet1和FrameSet2中的框架語(yǔ)義兩兩組合,形成“框架語(yǔ)義對(duì)”;

Step3利用“框架語(yǔ)義對(duì)”的關(guān)系類型推理事件場(chǎng)景的關(guān)系類型,一個(gè)“事件場(chǎng)景對(duì)”包含多個(gè)“框架語(yǔ)義對(duì)”,將所有“框架語(yǔ)義對(duì)”指向出現(xiàn)次數(shù)最多的關(guān)系類型,作為該“事件場(chǎng)景對(duì)”的關(guān)系類型;

Step4“事件場(chǎng)景對(duì)”的關(guān)系類型將作為“事件對(duì)”的關(guān)系類型。

同一事件場(chǎng)景可以概括不同的事件描述,而這些不同的事件均為相同的事件類型。事件場(chǎng)景并非孤立,它們之間存在邏輯關(guān)聯(lián)性,因此事件場(chǎng)景能為事件關(guān)系分析和推理提供重要線索。本文重復(fù)利用事件場(chǎng)景的關(guān)系,推理事件之間的關(guān)系類型。

5.4 事件場(chǎng)景向量

為了與上述方法進(jìn)行比較,本文同時(shí)提出一種事件場(chǎng)景向量的事件場(chǎng)景構(gòu)建方法。該方法包括兩部分: 事件場(chǎng)景向量的構(gòu)建以及事件關(guān)系類型預(yù)測(cè)。

該方法首先構(gòu)建事件場(chǎng)景的場(chǎng)景向量。針對(duì)5.1中挖掘得到的“事件對(duì)”以及待測(cè)“事件對(duì)”,通過(guò)SEMAFOR分析其包含的框架語(yǔ)義集合,將該集合中的框架語(yǔ)義表示成空間向量,將該向量作為事件的場(chǎng)景向量,各維度將作為該場(chǎng)景向量的組成成分。每個(gè)“事件對(duì)”形成 “事件場(chǎng)景對(duì)”。將待測(cè)“事件對(duì)”與挖掘得到的“事件對(duì)”樣本進(jìn)行相似度匹配,其中相似度的計(jì)算為“事件場(chǎng)景向量”間的cosine值,匹配過(guò)程如圖2所示。

圖2 “事件場(chǎng)景向量”匹配

其中,EveFraVec1為前置事件的“事件場(chǎng)景向量”,EveFraVec2為后置事件的“事件場(chǎng)景向量”,分別得到前置事件的相似度EveSim1和后置事件的相似度EveSim2,將兩個(gè)相似度值進(jìn)行合并,合并后的值為該“事件場(chǎng)景對(duì)”的相似度,相似度合并如式(2)所示。

(2)

其中,分子為兩個(gè)相似度之和,同時(shí),為了平衡兩個(gè)相似度的值,將相似度之和除以兩個(gè)相似度的差值,為確保分母的值不為0,采用相似度差值的指數(shù)形式。

通過(guò)待測(cè)“事件對(duì)”與樣本“事件對(duì)”的相似度計(jì)算,選取與待測(cè)“事件對(duì)”相似度最高的樣本“事件對(duì)”作為待測(cè)“事件對(duì)”的平行“事件對(duì)”,該平行“事件對(duì)”的關(guān)系類型即為待測(cè)“事件對(duì)”的關(guān)系類型。

6 實(shí)驗(yàn)與結(jié)果

本節(jié)介紹實(shí)驗(yàn)設(shè)置,包括本文的語(yǔ)料標(biāo)注、評(píng)價(jià)方法以及實(shí)驗(yàn)系統(tǒng)。同時(shí)介紹本文的實(shí)驗(yàn)結(jié)果及對(duì)結(jié)果的分析。

6.1 實(shí)驗(yàn)設(shè)置

本文選取FrameNet-1.5中的新聞?wù)Z料作為標(biāo)注數(shù)據(jù)集,標(biāo)注人員對(duì)每篇新聞中描述的事件以及事件間的關(guān)系類型進(jìn)行標(biāo)注。該數(shù)據(jù)集由兩名具有一定領(lǐng)域知識(shí)的標(biāo)注人員進(jìn)行標(biāo)注。同時(shí),本文利用Kappa值對(duì)標(biāo)注結(jié)果的可用性進(jìn)行評(píng)價(jià),最終標(biāo)注的Kappa值為0.78。

本文共標(biāo)注了828個(gè)事件以及968個(gè)“事件對(duì)”及其關(guān)系類型,其中出現(xiàn)次數(shù)最多的關(guān)系類型為“Expansion.List(擴(kuò)展.并列)”。標(biāo)注的“事件對(duì)”及其關(guān)系類型的分布情況如表4所示。本文采用Accuracy值作為評(píng)價(jià)方法,其計(jì)算公式如式(3)所示。

(3)

該評(píng)測(cè)方法早期應(yīng)用于二元分類精度的評(píng)測(cè)。例如,需要評(píng)價(jià)“事件對(duì)”是否為“Expansion”類型,其中,All為待測(cè)“事件對(duì)”的總個(gè)數(shù),TruePositve為本身具有“Expansion”關(guān)系且系統(tǒng)判定其具有“Expansion”關(guān) 系 的“事 件 對(duì)”個(gè) 數(shù);TrueNegative

表4 標(biāo)注的關(guān)系類型的分布

為本身不具有“Expansion”關(guān)系且系統(tǒng)未判定其具有“Expansion”關(guān)系的“事件對(duì)”個(gè)數(shù)。當(dāng)該評(píng)測(cè)方法用于多元關(guān)系評(píng)價(jià)時(shí),將TrueNegative設(shè)置為恒定值0,只檢驗(yàn)每個(gè)待測(cè)“事件對(duì)”是否判定為正確的關(guān)系,即只計(jì)算TruePositve指標(biāo)與All 的比值。本文首先定義了三個(gè)實(shí)驗(yàn)系統(tǒng):

? System1(Baseline): 該系統(tǒng)遵循5.1至5.3中的事件場(chǎng)景構(gòu)建方法,區(qū)別在于,構(gòu)建事件場(chǎng)景并非使用框架語(yǔ)義,而直接將事件描述中的詞匯作為特征,構(gòu)建事件場(chǎng)景。

? System2: 遵循5.1至5.3中利用“框架語(yǔ)義對(duì)”的事件場(chǎng)景構(gòu)建方法。

? System3: 遵循5.4中利用“事件場(chǎng)景向量”的事件場(chǎng)景構(gòu)建方法。

然而,待測(cè)“事件對(duì)”中的關(guān)系分布與從Gigaword中挖掘得到的“事件對(duì)”中的關(guān)系類型分布不一致,為了使兩者的分布情況相同,本文采用重采樣技術(shù),擴(kuò)展挖掘得到的“事件對(duì)”中關(guān)系類 型 較 小 的“事件對(duì)”,使得兩者的關(guān)系類型分布情況相同。因此,本文又?jǐn)U展了兩類系統(tǒng):

? System4: 在System2方法的基礎(chǔ)上,增加重采樣技術(shù)。

? System5: 在System3方法的基礎(chǔ)上,增加重采樣技術(shù)。

6.2 實(shí)驗(yàn)結(jié)果及分析

表5為以上五個(gè)系統(tǒng)針對(duì)事件關(guān)系檢測(cè)結(jié)果的性能,包括四個(gè)大類及十個(gè)小類的Accuracy值:

表5 系統(tǒng)的Accuracy

表5顯示,System1采用的使用事件描述中詞匯作為特征的方法得到的性能最低,System2和System3采用事件場(chǎng)景作為特征的方法高于System1的方法,同時(shí),采用重采樣的方法對(duì)結(jié)果的精確率也有所提高,其中System4相對(duì)于System2在四大類的結(jié)果提高了8.53%,十小類的結(jié)果最高提高了4.06%;System5相對(duì)于System3在四大類的結(jié)果提高了5.26%,十小類的結(jié)果最高提高了1.97%。System3的性能最高。

表6 System4和System5針對(duì)每一大類的Accuracy及識(shí)別個(gè)數(shù)

本文進(jìn)一步分析System4和System5針對(duì)每一類事件關(guān)系類型的識(shí)別性能。表6顯式System4和System5分別對(duì)每一大類的精確率,以及正確識(shí)別的個(gè)數(shù)(Num),包括正確識(shí)別為目標(biāo)類型的個(gè)數(shù)(TPos)和正確識(shí)別為非目標(biāo)類型的個(gè)數(shù)(TNeg)。

表7為System4和System5分別對(duì)每一小類的精確率,以及正確識(shí)別的個(gè)數(shù),從表中可以看出,本文的方法針對(duì)小類別的檢測(cè)效果較差,體現(xiàn)了事件關(guān)系檢測(cè)任務(wù)仍然比較難,需要更進(jìn)一步的研究。

表7 System4和System5針對(duì)每一小類的Accuracy及識(shí)別個(gè)數(shù)

7 總結(jié)

本文首次針對(duì)事件關(guān)系檢測(cè)研究建立了一套研究體系,包括任務(wù)定義、關(guān)系體系劃分、語(yǔ)料采集與標(biāo)注、評(píng)價(jià)方法等。同時(shí),提出了一種跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法,該方法構(gòu)建事件的事件場(chǎng)景,以此作為特征,實(shí)現(xiàn)事件的邏輯關(guān)系檢測(cè)。實(shí)驗(yàn)結(jié)果顯示,構(gòu)建事件場(chǎng)景的方法優(yōu)于直接采用文本特征的方法。今后的工作在于,根據(jù)事件場(chǎng)景元素的重要程度,為場(chǎng)景元素設(shè)置程度,從而更準(zhǔn)確地描繪事件的場(chǎng)景特征。

[1] C J Fillmore, C Johnson, M Petruck. Background to FrameNet[J]. International Journal of Lexicography,2003,16(3): 235-250.

[2] C Hashimoto, K Torisawa, J Kloetzer, et al. Toward Future Scenario Generation: Extracting Event Causality Exploiting Semantic Relation, Context, and Association Features[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, 2014.

[3] TChklovski, P Pantel. Global path-based refinement of noisy graphs applied to verb semantics[C]//Proceedings of Toward Future Scenario Generation: Extracting Event Causality Exploiting Semantic Relation, Context, and Association Features, Jeju Island, Korea, 2005: 792-803.

[4] PPantel, M Pennacchiotti. Espresso: leveraging generic patterns for automatically harvesting semantic relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, Sydney, Australia, 2006: 113-120.

[5] Z S Harris. Mathematical Structure of Language[M]. New York, 1968.

[6] D Lin, P Pantel. Discovery of Inference Rules from Text[C]//Proceedings of the 7th ACM SIGKDD, San Francisco, California, USA, 2001: 323-328.

[7] E Pitler, M Raghupathy, H Mehta, et al. Easily identifiable discourse relations[C]//Proceedings of the 22nd International Conference on the COLING, 2008: 87-90

[8] E Pitler, M Raghupathy, H Mehta, et al. Easily identifiable discourse relations[C]//Proceeding of the 22nd International Conference on Computational Linguistics (COLING 2008), Posters, Manchester, UK, 2008: 87-90.

[9] The Penn Discourse Treebank 2.0 Annotation Manual, 2007

[10] Y Hong, X P Zhou, T T Che, et al. Cross-Argument Inference for Implicit Discourse Relation recognition[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management(CIKM 2012),2012: 295-304.

猜你喜歡
連接詞語(yǔ)義框架
連動(dòng)結(jié)構(gòu)“VP1來(lái)VP2”的復(fù)句化及新興小句連接詞“來(lái)”的形成
框架
廣義框架的不相交性
語(yǔ)言與語(yǔ)義
WTO框架下
法大研究生(2017年1期)2017-04-10 08:55:06
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
一種基于OpenStack的云應(yīng)用開(kāi)發(fā)框架
認(rèn)知范疇模糊與語(yǔ)義模糊
語(yǔ)義分析與漢俄副名組合
英語(yǔ)連接詞:傳統(tǒng)與反思
潮安县| 洪洞县| 奉节县| 兴文县| 辽阳县| 大同市| 民勤县| 巫溪县| 博客| 玉环县| 合江县| 五原县| 东丽区| 策勒县| 浙江省| 平邑县| 苍山县| 瑞金市| 泰安市| 万宁市| 宁强县| 普安县| 庆云县| 巴彦淖尔市| 湖州市| 紫云| 张家界市| 漠河县| 叙永县| 贡山| 商丘市| 建水县| 汤原县| 奉节县| 南投市| 鄢陵县| 大新县| 元朗区| 县级市| 汝城县| 上饶县|