楊雪蓉,洪 宇,陳亞?wèn)|,王瀟斌,姚建民,朱巧明
(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇,蘇州 215006)
事件(Event)是由特定人、物、事在特定時(shí)間和特定地點(diǎn)相互作用的客觀事實(shí),事件關(guān)系是事件之間相互依存和關(guān)聯(lián)的邏輯形式,具有客觀性、事實(shí)性和規(guī)律性三種主要特性,如“因果”(Contingency)和“時(shí)序”(Temporal)關(guān)系等。事件關(guān)系能將離散于文本中的事件相連接,形成事件關(guān)系網(wǎng)絡(luò)和事件發(fā)展的拓?fù)涿}絡(luò)。事件關(guān)系檢測(cè)是以事件為主體元素的自然語(yǔ)言邏輯關(guān)系抽取,它能夠有效輔助事件衍生、發(fā)展與變異信息的推理與預(yù)測(cè)。
目前針對(duì)事件關(guān)系檢測(cè)的研究剛剛起步,由于不具有權(quán)威的任務(wù)定義、事件關(guān)系體系以及評(píng)測(cè)標(biāo)準(zhǔn),相關(guān)探索尚不深入,相應(yīng)方法也僅僅著眼于某一特定事件關(guān)系類型(如“因果”關(guān)系)的判定,不具有全面性和普適性。相較而言,自然語(yǔ)言處理領(lǐng)域中的篇章關(guān)系檢測(cè)和篇章關(guān)系分析作為自然語(yǔ)言處理領(lǐng)域中一項(xiàng)重要的基礎(chǔ)性研究,旨在同一篇章內(nèi)部,判斷相鄰片段或跨度在一定范圍內(nèi)的兩個(gè)片段之間的語(yǔ)義連接關(guān)系。
文本中的事件通過(guò)文字訴諸后,成為信息傳播中可讀可解的事件文體(也稱“事件體”,本文統(tǒng)稱“事件”)。從而,事件的描述必須遵循自然語(yǔ)言的行文規(guī)律,例如,篇章結(jié)構(gòu)、篇章修辭、語(yǔ)法和文法等規(guī)律。篇章關(guān)系檢測(cè)以論元(即完整的語(yǔ)義單元,如句子)為對(duì)象,建立了較為全面的任務(wù)體系,其蘊(yùn)含的概念、關(guān)系體系和評(píng)價(jià)方法也具有普適性,能夠有效應(yīng)用于事件關(guān)系檢測(cè)任務(wù)。因此,事件關(guān)系檢測(cè)與篇章關(guān)系檢測(cè)任務(wù)有著一定程度的領(lǐng)域交差性。然而,事件關(guān)系并不等同于篇章關(guān)系,篇章關(guān)系檢測(cè)不能涵蓋所有事件關(guān)系檢測(cè)的關(guān)鍵問(wèn)題。
(1) 篇章關(guān)系檢測(cè)任務(wù)涉及短語(yǔ)、子句、句子等文本片段之間的語(yǔ)義關(guān)系研究,通過(guò)分析兩兩鄰或跨度在一定范圍內(nèi)的兩個(gè)論元的語(yǔ)義連接關(guān)系,構(gòu)建文本篇章關(guān)系結(jié)構(gòu),進(jìn)而深入理解篇章語(yǔ)義;而文本中的事件往往離散分布,從而只受話題框架約束,因此不屬于篇章關(guān)系的研究范疇。
(2) 篇章關(guān)系檢測(cè)往往可以利用句法、語(yǔ)義和語(yǔ)境的局部特征予以方法設(shè)計(jì)與實(shí)現(xiàn),而事件關(guān)系則必須依賴大規(guī)模數(shù)據(jù)估計(jì)和挖掘廣域的關(guān)聯(lián)線索進(jìn)行方法設(shè)計(jì)與實(shí)現(xiàn)。從而,事件關(guān)系檢測(cè)需要一種有針對(duì)性的專屬的任務(wù)和研究體系,而不能將篇章關(guān)系檢測(cè)體系簡(jiǎn)單移植和并用。
本文針對(duì)事件關(guān)系檢測(cè)任務(wù),提出一種跨場(chǎng)景的事件關(guān)系檢測(cè)方法。事件場(chǎng)景由能夠用于描述該場(chǎng)景的一系列組成元素構(gòu)成??鐖?chǎng)景的事件關(guān)系檢測(cè)方法的核心思想認(rèn)為: 相同或相似的事件場(chǎng)景,通過(guò)挖掘其特征,有助于事件關(guān)系類型的推理。因此,本文首先構(gòu)建事件場(chǎng)景及其關(guān)系類型,利用事件場(chǎng)景的關(guān)系類型對(duì)事件關(guān)系類型進(jìn)行推理??鐖?chǎng)景的事件關(guān)系檢測(cè)方法需要首先解決如下兩點(diǎn)問(wèn)題: 1)事件場(chǎng)景的匹配方法。即給定待測(cè)“事件對(duì)”,如何從已知關(guān)系類型的“事件對(duì)”中,得到與待測(cè)“事件對(duì)”相同或相似事件場(chǎng)景的“事件對(duì)”。2)事件場(chǎng)景的先驗(yàn)關(guān)系類型。事件之間的關(guān)系類型通過(guò)事件場(chǎng)景的關(guān)系類型推理得到,因此需要首先獲得事件場(chǎng)景的先驗(yàn)關(guān)系類型。針對(duì)第一點(diǎn),本文采用基于FramNet[1]的框架語(yǔ)義為事件描述構(gòu)造事件場(chǎng)景的特征空間,從而將事件場(chǎng)景的相似度轉(zhuǎn)化為特征空間的相似度;針對(duì)第二點(diǎn),本文借助顯式連接詞,挖掘包含顯式連接詞且毗鄰的“事件對(duì)”,同時(shí),將顯式連接詞觸發(fā)的某一類事件關(guān)系類型作為該“事件對(duì)”的關(guān)系類型,例如,連接詞“because(因?yàn)?”往往觸發(fā)“Causal(因果)”關(guān)系類型,進(jìn)而利用已知關(guān)系類型的毗鄰“事件對(duì)”構(gòu)建事件場(chǎng)景的先驗(yàn)關(guān)系類型。
同時(shí),根據(jù)事件關(guān)系檢測(cè)和篇章關(guān)系檢測(cè)的任務(wù)的異同點(diǎn),本文提出基于篇章關(guān)系分析的事件關(guān)系檢測(cè)體系,該體系包括事件關(guān)系檢測(cè)的任務(wù)定義、關(guān)系體系以及評(píng)價(jià)方法等。同時(shí),根據(jù)定義的事件關(guān)系體系,以Frame-1.5的新聞?wù)Z料為數(shù)據(jù)源,對(duì)其中已標(biāo)注的事件進(jìn)行事件關(guān)系類型的標(biāo)注。
本文組織如下: 第2節(jié)介紹事件關(guān)系檢測(cè)的相關(guān)工作;第3節(jié)給出事件關(guān)系檢測(cè)任務(wù)定義;第4節(jié)分析本文方法的動(dòng)機(jī);第5節(jié)詳細(xì)闡述基于跨場(chǎng)景的事件關(guān)系檢測(cè)方法的方法;第6節(jié)介紹實(shí)驗(yàn);第7節(jié)總結(jié)。
由于缺少公認(rèn)的事件關(guān)系體系,目前針對(duì)事件關(guān)系的研究方法主要針對(duì)某種特定事件關(guān)系類型的判定進(jìn)行研究[2-4],主要的挖掘方法分為模板匹配法和元素分析法。
模板匹配法
事件關(guān)系檢測(cè)的主要方法之一是借助事件特征的模式匹配,例如,利用事件觸發(fā)詞的關(guān)系模式匹配,根據(jù)人工定義的模板,對(duì)文本中符合模板的事件關(guān)系進(jìn)行抽取。 Chklovski[3]等首先定義6種時(shí)序關(guān)系: “similarity”(時(shí)序“相似”關(guān)系),“strength”(時(shí)序“加強(qiáng)”關(guān)系),“antonymy”(時(shí)序“相反”關(guān)系),“enablement”(時(shí)序“支持”關(guān)系), “happens”(時(shí)序“發(fā)生”關(guān)系)和“before”(時(shí)序“前”關(guān)系),再利用人工收集的LSP(Lexcial-Syntactic Pattern,即詞-句匹配模板)抽取包含這6種時(shí)序關(guān)系的“事件對(duì)”,并將抽取的結(jié)果形成稱為“VerbOcean”的知識(shí)庫(kù)。人工定義的事件關(guān)系模板往往受數(shù)量限制,造成關(guān)系檢測(cè)的低召回率問(wèn)題。Pantel[4]通過(guò)Espresso算法進(jìn)行自動(dòng)模板的構(gòu)建,算法首先給定少量關(guān)系實(shí)例,通過(guò)機(jī)器學(xué)習(xí)方法對(duì)現(xiàn)有模板進(jìn)行迭代擴(kuò)展,在一定程度上提高了模板匹配方法的召回率。
元素分析法
以事件元素為線索的研究大都繼承了Harris[5]的分布假設(shè)。Harris假設(shè)指出,處在同一上下文環(huán)境中的詞語(yǔ)具有相同或相似的含義。Lin[6]提出了一種結(jié)合Harris分布假設(shè)和建立依存樹(shù)思想的無(wú)監(jiān)督方法,稱為DIRT算法。算法將所有事件構(gòu)造成依存樹(shù)形式,樹(shù)中的每條路徑表示一個(gè)事件,路徑的節(jié)點(diǎn)表示事件中的詞語(yǔ),若兩條路徑的詞語(yǔ)完全相同,則這兩條路徑所表示的事件相同或者相似。
事件關(guān)系檢測(cè)任務(wù)的目標(biāo)在于實(shí)現(xiàn)事件間邏輯關(guān)系的自動(dòng)檢測(cè)。本節(jié)介紹事件、事件關(guān)系類型以及事件關(guān)系檢測(cè)的任務(wù)定義。
自動(dòng)內(nèi)容抽取(Automatic Content Extraction,簡(jiǎn)稱ACE)任務(wù)將事件定義為由事件觸發(fā)詞和事件參與者組成,其中,事件的觸發(fā)詞能夠描述一個(gè)事件的發(fā)生,以動(dòng)詞或者動(dòng)名詞為主;事件的參與信息為事件參與者,通常為名詞。例如,事件Evt1:
(1) Evt1: “奧巴馬擊敗麥凱恩”
事件Evt1中“擊敗”能夠描述該事件的發(fā)生,因此,“擊敗”為該事件的觸發(fā)詞,則稱Evt1為“擊敗”事件。事件Evt1中“奧巴馬”和“麥凱恩”為“擊敗”事件的參與信息,即“擊敗”事件的參與者。
事件關(guān)系表示事件與其相關(guān)事件之間相互依存和關(guān)聯(lián)的邏輯形式,是事件之間固有的一種客觀存在。然而,目前針對(duì)事件關(guān)系檢測(cè)任務(wù)缺少公認(rèn)的事件關(guān)系體系,本文將篇章關(guān)系體系與事件關(guān)系進(jìn)行分析和對(duì)比,選取篇章關(guān)系體系中能夠應(yīng)用于離散“事件對(duì)”的篇章關(guān)系類型作為事件關(guān)系類型。同時(shí),篇章關(guān)系與事件關(guān)系的差異性使得篇章關(guān)系不能描述完整的事件關(guān)系類型,因此,本文借助事件關(guān)系實(shí)例,人工總結(jié)事件關(guān)系類型,進(jìn)一步對(duì)事件關(guān)系類型進(jìn)行補(bǔ)充,確保事件關(guān)系體系的完整性,由此形成的事件關(guān)系體系如表1所示。
表1 事件關(guān)系體系
續(xù)表
表1定義的事件關(guān)系體系共分為兩層,第一層包含四種主要關(guān)系類別: Temporal(時(shí)序)、Comparison(比較)、Contingency(偶然)、Expansion(擴(kuò)展),第二層為以上四種關(guān)系類型的擴(kuò)展,共有10種子類型。
事件關(guān)系檢測(cè)是一種針對(duì)“事件間存在何種邏輯關(guān)系類型”進(jìn)行自動(dòng)判定的深層事件關(guān)系判定任務(wù)。事件關(guān)系檢測(cè)通過(guò)解析文本結(jié)構(gòu)或語(yǔ)義特征,對(duì)文本中描述不同自然事件的文本片段(包括短語(yǔ)、子句、句子和段落)給出明確的語(yǔ)義關(guān)系或邏輯關(guān)系標(biāo)簽(如“因果”、“時(shí)序”、“擴(kuò)展”和“對(duì)比”等)。該任務(wù)框架如圖1所示,其中,該任務(wù)的輸入為已知相關(guān)的兩個(gè)事件,通過(guò)分析“事件對(duì)”的邏輯聯(lián)系,輸出該“相關(guān)事件對(duì)”的邏輯關(guān)系類型。
圖1 事件關(guān)系檢測(cè)任務(wù)框架
本文借助篇章分析任務(wù)實(shí)現(xiàn)事件關(guān)系檢測(cè)。本節(jié)介紹篇章分析任務(wù),以及框架語(yǔ)義和借助框架語(yǔ)義構(gòu)建事件場(chǎng)景的方法。
篇章分析的核心任務(wù)是判定“論元對(duì)”之間的語(yǔ)義或修辭關(guān)系。目前篇章關(guān)系分析分別針對(duì)顯式篇章關(guān)系和隱式篇章關(guān)系進(jìn)行研究,且顯式篇章關(guān)系和隱式篇章關(guān)系分析的性能相差較大。
顯式篇章關(guān)系可直接根據(jù)顯式連接詞推斷篇章關(guān)系,并且能夠取得較優(yōu)的性能,相關(guān)研究對(duì)于顯式篇章關(guān)系最終分類的精確率可達(dá)93%[7];而隱式篇章關(guān)系的分類性能則相對(duì)較低,隱式篇章關(guān)系檢測(cè)的主體研究主要分為基于關(guān)系特征的機(jī)器學(xué)習(xí)方法和基于概率統(tǒng)計(jì)的方法[8-10]。顯式篇章關(guān)系和隱式篇章關(guān)系分析的性能相差較大的原因在于,顯式篇章關(guān)系以顯式連接詞為主要線索,借助連接詞與篇章關(guān)系的一一映射,能夠較精確地推斷特定篇章關(guān)系,例如,PDTB關(guān)系樣本庫(kù)中,連接詞“Because(因?yàn)?”指向“Contingency.Cause(偶然.因果)”關(guān)系的概率為100%。隱式篇章關(guān)系由于缺少顯式連接詞信息,相關(guān)研究通過(guò)結(jié)合句法、語(yǔ)義、相關(guān)領(lǐng)域知識(shí)等構(gòu)建上下文信息,推斷隱式“論元對(duì)”的邏輯關(guān)系。實(shí)驗(yàn)表明,篇章的上下文信息仍存在不確定性,這種上下文信息的不確定性、句子結(jié)構(gòu)的復(fù)雜性以及語(yǔ)義關(guān)系的歧義性,使得目前針對(duì)隱式篇章關(guān)系研究的性能總體較差,因此,借助篇章關(guān)系分析檢測(cè)事件關(guān)系,必須突破隱式篇章關(guān)系檢測(cè)這一關(guān)鍵難點(diǎn)。
本文采用FrameNet(框架語(yǔ)義)框架語(yǔ)義描述事件場(chǎng)景。FrameNet是由美國(guó)加州大學(xué)伯克利分校構(gòu)建的基于框架語(yǔ)義學(xué) (Frame Semantics)的詞匯資源,對(duì)詞語(yǔ)意義和句法結(jié)構(gòu)研究提供一種理論框架,框架語(yǔ)義知識(shí)庫(kù)通過(guò)框架描述單詞的釋義,即詞語(yǔ)背后隱藏的概念結(jié)構(gòu)和語(yǔ)義等信息。從而,框架語(yǔ)義能夠形成特定場(chǎng)景(包括事件、狀態(tài)、關(guān)系或?qū)嶓w)的概念表述。在框架語(yǔ)義知識(shí)庫(kù)中,對(duì)句子的框架語(yǔ)義標(biāo)注是一種類似于“謂詞—論元”結(jié)構(gòu)的“目標(biāo)詞—框架語(yǔ)義”(Target-Frame)結(jié)構(gòu)。每個(gè)句子可能包含一個(gè)或多個(gè)“目標(biāo)詞—框架語(yǔ)義”結(jié)構(gòu),例如,例(2)描述的事件:
(2) Evt1 : “IreneleftSherlockinacomawiththeMickeyFinnaftergettingthecodeofthesafebox.”
(譯文: “艾琳得到保險(xiǎn)柜的密碼后,利用混有麻醉的酒讓夏洛克昏迷”)
通過(guò)框架語(yǔ)義的分析,能夠得到如下“目標(biāo)詞—框架語(yǔ)義”結(jié)構(gòu): “MickeyFinn(混有麻醉的酒)—Drag(藥物)”、“code(密碼)—Message(信息)”和“safebox(保險(xiǎn)箱)—Safebox(保險(xiǎn)箱)”,同時(shí),本文將事件中的框架語(yǔ)義的組合定義為該事件的事件場(chǎng)景。不同的事件描述存在相同的事件場(chǎng)景,例如,例(3)中描述的事件:
(3) Evt2: “Georgerememberedthebeautifulladyaskedhimaboutthecodeofthebankaccountafterdrinkingsomuchliquor.”
(譯文: “喬治記得一位美麗的女士在他喝完很多酒之后詢問(wèn)他的銀行密碼”)
通過(guò)FrameNet解析,例(3)中的“l(fā)iquor(酒)”同樣觸發(fā)了“Drag(藥物)”框架語(yǔ)義,例(2)和例(3)中的其他“目標(biāo)詞—框架語(yǔ)義”結(jié)構(gòu)如表2所示。
表2 例(2)和例(3)中“目標(biāo)詞-框架語(yǔ)義”結(jié)果
從表2中可以看出,盡管例(2)和(3)中描述不同的事件,但兩個(gè)事件具有相同的框架語(yǔ)義,則認(rèn)為兩個(gè)事件描述了相同的事件場(chǎng)景。
跨場(chǎng)景的事件關(guān)系檢測(cè)方法的核心思想認(rèn)為: 相同或相似的事件場(chǎng)景,通過(guò)挖掘其特征,有助于事件關(guān)系類型的推理。例如,有如下兩個(gè)“事件對(duì)”:
(4)E1:Hewasshotbyaterrorist.
(譯文: 他被恐怖分子擊中了 )
E2:Heunfortunatelypassedaway.
(譯文: 他不幸去世了)
(Relation=Contingency.Cause)
(關(guān)系=偶然.因果)
(5)E1:Bombswentoffattrainstations.
(譯文: 炸彈在火車站爆炸了 )
E2:Manypeoplewerefeareddead.
(譯文: 擔(dān)心很多人死亡了 )
(Relation=? )
(關(guān)系=?)
其中,已知例(4)中描述的兩個(gè)事件為“偶然.因果”關(guān)系類型。若僅考慮上述事件描述的篇章修辭、語(yǔ)法和文法等規(guī)律,難以利用例(4)的信息推理例(5)中“事件對(duì)”的關(guān)系類型。本文提出的跨場(chǎng)景的事件關(guān)系檢測(cè)方法首先判斷例(4)中的“事件對(duì)”描述了“襲擊”場(chǎng)景和“死亡”事件場(chǎng)景,若定義例(4)中的事件關(guān)系類型“關(guān)系=偶然.因果”為“襲擊—死亡”場(chǎng)景的關(guān)系類型,由于例(5)同樣描述了“襲擊”場(chǎng)景和“死亡”事件場(chǎng)景,將事件場(chǎng)景的關(guān)系類型作為該“事件對(duì)”的關(guān)系類型,則推理得到例(5)中“事件對(duì)”的關(guān)系類型為“關(guān)系=偶然.因果”類型。
本文致力于探究一種基于跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法,其核心思想是: 具有相同事件場(chǎng)景的事件對(duì),往往具有相同的事件關(guān)系類型。該方法分為三個(gè)主要部分: 顯式“事件對(duì)”的挖掘、事件場(chǎng)景關(guān)系類型映射以及事件關(guān)系判定。
另外,本文進(jìn)一步提出一種事件場(chǎng)景向量的事件場(chǎng)景構(gòu)建方法作為比較。
本文首先通過(guò)連接詞,從大規(guī)模語(yǔ)言學(xué)資源(Gigaword)中挖掘包含連接詞的事件對(duì),事件對(duì)的挖掘必須滿足如下規(guī)則:
“PreGram+,connective+PostGram”
其中,“PreGram”為前置論元,“connective”為連接詞,“PostGram”為后置論元。通過(guò)連接詞挖掘得到的“事件對(duì)”的關(guān)系類型,有該顯式連接詞唯一指定。PDTB中共定義182個(gè)連接詞,而這些連接詞與關(guān)系類型并非一一對(duì)應(yīng),為了實(shí)現(xiàn)“事件對(duì)”及其關(guān)系類型的精準(zhǔn)抽取,本文僅僅選取PDTB中的Golden連接詞。Golden連接詞指該連接詞在篇章中指向某一關(guān)系類型的概率較高。本文針對(duì)PDTB中連接詞的分布,統(tǒng)計(jì)了各連接詞指向某一關(guān)系類型的概率,如表3所示。
表3 PDTB中連接詞的分布,統(tǒng)計(jì)了各連接詞指向某一關(guān)系類型的概率
表3顯式各連接詞在四種篇章關(guān)系類型中出現(xiàn)的概率,例如,連接詞“alternatively(選擇地)”指向“Expansion(擴(kuò)展)”關(guān)系類型的概率為100%。本文僅選取指向某一關(guān)系類型概率大于80%的連接詞作為Golden連接詞。同時(shí),將Golden連接詞指向概率最大的關(guān)系類型,作為該Golden連接詞的先驗(yàn)關(guān)系類型。進(jìn)而將Golden連接詞的先驗(yàn)關(guān)系類型作為通過(guò)Golden連接詞挖掘得到的事件對(duì)的關(guān)系類型。
本文對(duì)Golden連接詞挖掘得到的“事件對(duì)”,進(jìn)一步分析其包含的框架語(yǔ)義,利用框架語(yǔ)義構(gòu)建“事件對(duì)”的“事件場(chǎng)景對(duì)”。同時(shí),借助顯式連接詞對(duì)篇章關(guān)系的映射,構(gòu)建“事件場(chǎng)景對(duì)”中兩兩框架語(yǔ)義與關(guān)系類型的映射,即“框架語(yǔ)義對(duì)-關(guān)系”,最終“框架語(yǔ)義對(duì)”的關(guān)系類型由大規(guī)模樣本中的極大似然關(guān)系估計(jì),方法細(xì)節(jié)如下:
Step1: 利用SEMAFOR*http://www.ark.cs.cmu.edu/SEMAFOR工具分析“事件對(duì)”中的框架語(yǔ)義。例如,前置論元通過(guò)分析得到框架語(yǔ)義集合FrameSet1: {Frame11,Frame12, …,Frame1m};前置論元通過(guò)分析得到框架語(yǔ)義集合FrameSet2: {Frame21,Frame22, …,Frame2n};
Step2: 將FrameSet1和FrameSet2中的框架語(yǔ)義兩兩組合,形成“框架語(yǔ)義對(duì)”: {Frame1i,Frame2j}i=1, …,m,j=1, …,n. 其中,“框架語(yǔ)義對(duì)”的關(guān)系類型為該“事件對(duì)”中顯式連接詞對(duì)應(yīng)的關(guān)系類型;
Step3: 對(duì)由Gigaword挖掘得到“事件對(duì)”,進(jìn)行Step1到Step2操作。
由以上步驟得到的“框架語(yǔ)義對(duì)”存在多種關(guān)系類型映射,為了實(shí)現(xiàn)“框架語(yǔ)義對(duì)-關(guān)系”的一一映射,本文對(duì)每個(gè)“框架語(yǔ)義對(duì)”進(jìn)行極大似然關(guān)系的概率估計(jì)。給定“框架語(yǔ)義對(duì)”及其在各個(gè)關(guān)系類型的概率分布P(r),選取分布概率最高的關(guān)系類型,作為該“框架語(yǔ)義對(duì)”的極大似然關(guān)系,如式(1)所示。
(1)
r∈{Syn,Asy,Cont,…,Ins}
其中,nr為“框架語(yǔ)義對(duì)”指向關(guān)系類型r出現(xiàn)的次數(shù),N為“框架語(yǔ)義對(duì)”指向所有關(guān)系類型的次數(shù)?!翱蚣苷Z(yǔ)義對(duì)”的極大似然關(guān)系作為該“框架語(yǔ)義對(duì)”的先驗(yàn)關(guān)系類型。
本文利用“事件場(chǎng)景”的關(guān)系類型對(duì)事件關(guān)系進(jìn)行推理。針對(duì)待測(cè)“事件對(duì)”,同樣利用框架語(yǔ)義構(gòu)建其“事件場(chǎng)景對(duì)”,進(jìn)而將已獲得的“事件場(chǎng)景對(duì)”的先驗(yàn)關(guān)系類型,作為該“事件對(duì)”的關(guān)系類型。具體步驟如下:
Step1針對(duì)每一個(gè)待測(cè)“事件對(duì)”,分析其包含的框架語(yǔ)義,分別得到事件event1的框架語(yǔ)義集合FrameSet1: {Frame11,Frame12, …,Frame1m} ,以及事件event2的框架語(yǔ)義集合FrameSet2: {Frame21,Frame22, …,Frame2n};
Step2將FrameSet1和FrameSet2中的框架語(yǔ)義兩兩組合,形成“框架語(yǔ)義對(duì)”;
Step3利用“框架語(yǔ)義對(duì)”的關(guān)系類型推理事件場(chǎng)景的關(guān)系類型,一個(gè)“事件場(chǎng)景對(duì)”包含多個(gè)“框架語(yǔ)義對(duì)”,將所有“框架語(yǔ)義對(duì)”指向出現(xiàn)次數(shù)最多的關(guān)系類型,作為該“事件場(chǎng)景對(duì)”的關(guān)系類型;
Step4“事件場(chǎng)景對(duì)”的關(guān)系類型將作為“事件對(duì)”的關(guān)系類型。
同一事件場(chǎng)景可以概括不同的事件描述,而這些不同的事件均為相同的事件類型。事件場(chǎng)景并非孤立,它們之間存在邏輯關(guān)聯(lián)性,因此事件場(chǎng)景能為事件關(guān)系分析和推理提供重要線索。本文重復(fù)利用事件場(chǎng)景的關(guān)系,推理事件之間的關(guān)系類型。
為了與上述方法進(jìn)行比較,本文同時(shí)提出一種事件場(chǎng)景向量的事件場(chǎng)景構(gòu)建方法。該方法包括兩部分: 事件場(chǎng)景向量的構(gòu)建以及事件關(guān)系類型預(yù)測(cè)。
該方法首先構(gòu)建事件場(chǎng)景的場(chǎng)景向量。針對(duì)5.1中挖掘得到的“事件對(duì)”以及待測(cè)“事件對(duì)”,通過(guò)SEMAFOR分析其包含的框架語(yǔ)義集合,將該集合中的框架語(yǔ)義表示成空間向量,將該向量作為事件的場(chǎng)景向量,各維度將作為該場(chǎng)景向量的組成成分。每個(gè)“事件對(duì)”形成 “事件場(chǎng)景對(duì)”。將待測(cè)“事件對(duì)”與挖掘得到的“事件對(duì)”樣本進(jìn)行相似度匹配,其中相似度的計(jì)算為“事件場(chǎng)景向量”間的cosine值,匹配過(guò)程如圖2所示。
圖2 “事件場(chǎng)景向量”匹配
其中,EveFraVec1為前置事件的“事件場(chǎng)景向量”,EveFraVec2為后置事件的“事件場(chǎng)景向量”,分別得到前置事件的相似度EveSim1和后置事件的相似度EveSim2,將兩個(gè)相似度值進(jìn)行合并,合并后的值為該“事件場(chǎng)景對(duì)”的相似度,相似度合并如式(2)所示。
(2)
其中,分子為兩個(gè)相似度之和,同時(shí),為了平衡兩個(gè)相似度的值,將相似度之和除以兩個(gè)相似度的差值,為確保分母的值不為0,采用相似度差值的指數(shù)形式。
通過(guò)待測(cè)“事件對(duì)”與樣本“事件對(duì)”的相似度計(jì)算,選取與待測(cè)“事件對(duì)”相似度最高的樣本“事件對(duì)”作為待測(cè)“事件對(duì)”的平行“事件對(duì)”,該平行“事件對(duì)”的關(guān)系類型即為待測(cè)“事件對(duì)”的關(guān)系類型。
本節(jié)介紹實(shí)驗(yàn)設(shè)置,包括本文的語(yǔ)料標(biāo)注、評(píng)價(jià)方法以及實(shí)驗(yàn)系統(tǒng)。同時(shí)介紹本文的實(shí)驗(yàn)結(jié)果及對(duì)結(jié)果的分析。
本文選取FrameNet-1.5中的新聞?wù)Z料作為標(biāo)注數(shù)據(jù)集,標(biāo)注人員對(duì)每篇新聞中描述的事件以及事件間的關(guān)系類型進(jìn)行標(biāo)注。該數(shù)據(jù)集由兩名具有一定領(lǐng)域知識(shí)的標(biāo)注人員進(jìn)行標(biāo)注。同時(shí),本文利用Kappa值對(duì)標(biāo)注結(jié)果的可用性進(jìn)行評(píng)價(jià),最終標(biāo)注的Kappa值為0.78。
本文共標(biāo)注了828個(gè)事件以及968個(gè)“事件對(duì)”及其關(guān)系類型,其中出現(xiàn)次數(shù)最多的關(guān)系類型為“Expansion.List(擴(kuò)展.并列)”。標(biāo)注的“事件對(duì)”及其關(guān)系類型的分布情況如表4所示。本文采用Accuracy值作為評(píng)價(jià)方法,其計(jì)算公式如式(3)所示。
(3)
該評(píng)測(cè)方法早期應(yīng)用于二元分類精度的評(píng)測(cè)。例如,需要評(píng)價(jià)“事件對(duì)”是否為“Expansion”類型,其中,All為待測(cè)“事件對(duì)”的總個(gè)數(shù),TruePositve為本身具有“Expansion”關(guān)系且系統(tǒng)判定其具有“Expansion”關(guān) 系 的“事 件 對(duì)”個(gè) 數(shù);TrueNegative
表4 標(biāo)注的關(guān)系類型的分布
為本身不具有“Expansion”關(guān)系且系統(tǒng)未判定其具有“Expansion”關(guān)系的“事件對(duì)”個(gè)數(shù)。當(dāng)該評(píng)測(cè)方法用于多元關(guān)系評(píng)價(jià)時(shí),將TrueNegative設(shè)置為恒定值0,只檢驗(yàn)每個(gè)待測(cè)“事件對(duì)”是否判定為正確的關(guān)系,即只計(jì)算TruePositve指標(biāo)與All 的比值。本文首先定義了三個(gè)實(shí)驗(yàn)系統(tǒng):
? System1(Baseline): 該系統(tǒng)遵循5.1至5.3中的事件場(chǎng)景構(gòu)建方法,區(qū)別在于,構(gòu)建事件場(chǎng)景并非使用框架語(yǔ)義,而直接將事件描述中的詞匯作為特征,構(gòu)建事件場(chǎng)景。
? System2: 遵循5.1至5.3中利用“框架語(yǔ)義對(duì)”的事件場(chǎng)景構(gòu)建方法。
? System3: 遵循5.4中利用“事件場(chǎng)景向量”的事件場(chǎng)景構(gòu)建方法。
然而,待測(cè)“事件對(duì)”中的關(guān)系分布與從Gigaword中挖掘得到的“事件對(duì)”中的關(guān)系類型分布不一致,為了使兩者的分布情況相同,本文采用重采樣技術(shù),擴(kuò)展挖掘得到的“事件對(duì)”中關(guān)系類 型 較 小 的“事件對(duì)”,使得兩者的關(guān)系類型分布情況相同。因此,本文又?jǐn)U展了兩類系統(tǒng):
? System4: 在System2方法的基礎(chǔ)上,增加重采樣技術(shù)。
? System5: 在System3方法的基礎(chǔ)上,增加重采樣技術(shù)。
表5為以上五個(gè)系統(tǒng)針對(duì)事件關(guān)系檢測(cè)結(jié)果的性能,包括四個(gè)大類及十個(gè)小類的Accuracy值:
表5 系統(tǒng)的Accuracy
表5顯示,System1采用的使用事件描述中詞匯作為特征的方法得到的性能最低,System2和System3采用事件場(chǎng)景作為特征的方法高于System1的方法,同時(shí),采用重采樣的方法對(duì)結(jié)果的精確率也有所提高,其中System4相對(duì)于System2在四大類的結(jié)果提高了8.53%,十小類的結(jié)果最高提高了4.06%;System5相對(duì)于System3在四大類的結(jié)果提高了5.26%,十小類的結(jié)果最高提高了1.97%。System3的性能最高。
表6 System4和System5針對(duì)每一大類的Accuracy及識(shí)別個(gè)數(shù)
本文進(jìn)一步分析System4和System5針對(duì)每一類事件關(guān)系類型的識(shí)別性能。表6顯式System4和System5分別對(duì)每一大類的精確率,以及正確識(shí)別的個(gè)數(shù)(Num),包括正確識(shí)別為目標(biāo)類型的個(gè)數(shù)(TPos)和正確識(shí)別為非目標(biāo)類型的個(gè)數(shù)(TNeg)。
表7為System4和System5分別對(duì)每一小類的精確率,以及正確識(shí)別的個(gè)數(shù),從表中可以看出,本文的方法針對(duì)小類別的檢測(cè)效果較差,體現(xiàn)了事件關(guān)系檢測(cè)任務(wù)仍然比較難,需要更進(jìn)一步的研究。
表7 System4和System5針對(duì)每一小類的Accuracy及識(shí)別個(gè)數(shù)
本文首次針對(duì)事件關(guān)系檢測(cè)研究建立了一套研究體系,包括任務(wù)定義、關(guān)系體系劃分、語(yǔ)料采集與標(biāo)注、評(píng)價(jià)方法等。同時(shí),提出了一種跨場(chǎng)景推理的事件關(guān)系檢測(cè)方法,該方法構(gòu)建事件的事件場(chǎng)景,以此作為特征,實(shí)現(xiàn)事件的邏輯關(guān)系檢測(cè)。實(shí)驗(yàn)結(jié)果顯示,構(gòu)建事件場(chǎng)景的方法優(yōu)于直接采用文本特征的方法。今后的工作在于,根據(jù)事件場(chǎng)景元素的重要程度,為場(chǎng)景元素設(shè)置程度,從而更準(zhǔn)確地描繪事件的場(chǎng)景特征。
[1] C J Fillmore, C Johnson, M Petruck. Background to FrameNet[J]. International Journal of Lexicography,2003,16(3): 235-250.
[2] C Hashimoto, K Torisawa, J Kloetzer, et al. Toward Future Scenario Generation: Extracting Event Causality Exploiting Semantic Relation, Context, and Association Features[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, 2014.
[3] TChklovski, P Pantel. Global path-based refinement of noisy graphs applied to verb semantics[C]//Proceedings of Toward Future Scenario Generation: Extracting Event Causality Exploiting Semantic Relation, Context, and Association Features, Jeju Island, Korea, 2005: 792-803.
[4] PPantel, M Pennacchiotti. Espresso: leveraging generic patterns for automatically harvesting semantic relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, Sydney, Australia, 2006: 113-120.
[5] Z S Harris. Mathematical Structure of Language[M]. New York, 1968.
[6] D Lin, P Pantel. Discovery of Inference Rules from Text[C]//Proceedings of the 7th ACM SIGKDD, San Francisco, California, USA, 2001: 323-328.
[7] E Pitler, M Raghupathy, H Mehta, et al. Easily identifiable discourse relations[C]//Proceedings of the 22nd International Conference on the COLING, 2008: 87-90
[8] E Pitler, M Raghupathy, H Mehta, et al. Easily identifiable discourse relations[C]//Proceeding of the 22nd International Conference on Computational Linguistics (COLING 2008), Posters, Manchester, UK, 2008: 87-90.
[9] The Penn Discourse Treebank 2.0 Annotation Manual, 2007
[10] Y Hong, X P Zhou, T T Che, et al. Cross-Argument Inference for Implicit Discourse Relation recognition[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management(CIKM 2012),2012: 295-304.