劉 煒,劉菲京,王 東,劉宗田
(上海大學(xué) 計算機科學(xué)與工程學(xué)院,上海 200444)
一種基于事件本體的文本事件要素提取方法
劉 煒,劉菲京,王 東,劉宗田
(上海大學(xué) 計算機科學(xué)與工程學(xué)院,上海 200444)
在事件信息的抽取中,事件要素的提取是一個難點?,F(xiàn)有的事件要素抽取主要是基于機器學(xué)習的方法,這類方法容易受到語料稀疏性的影響。該文提出一種基于事件本體的事件要素提取方法,該方法將事件要素推理分為兩步: 一、通過事件要素詞和事件指示詞的位置關(guān)系來初步填充要素值,并將得出的置信度較高的事件作為種子事件;二、利用第一步得出的種子事件,查詢事件本體中的事件類約束和基于事件非分類關(guān)系的推理規(guī)則,并對要素進行推理,進一步對事件要素進行填充和修正。實驗結(jié)果表明,該方法能較好地提升事件要素提取的準確度。
事件本體;事件要素;事件要素推理
在自然語言處理領(lǐng)域,“事件”可以描述比“概念”粒度更大的、動態(tài)的、具有完整意義的結(jié)構(gòu)化知識,更加符合人類的認知規(guī)律,是近年來倍受關(guān)注的一種知識模型。因此,從自然語言中抽取事件信息也顯得越來越重要。事件信息抽取中的關(guān)注點包括兩個方面,即發(fā)生了什么事情(事件識別)和與事件密切相關(guān)的信息(事件要素信息,如時間、地點和人物)。同時,借助基于事件的文本表示方法,通過事件要素建立事件之間的關(guān)系,把描述這些事件的文檔聯(lián)系起來,可實現(xiàn)如文本分類、話題檢測與跟蹤等任務(wù)。
目前,事件要素的識別和抽取主要采用機器學(xué)習的方法,如文獻[1-3]中的方法。這種方法將事件抽取任務(wù)轉(zhuǎn)化為分類問題,雖然具有較好的魯棒性,但分類器的構(gòu)建、特征的發(fā)現(xiàn)和選擇,以及作為模型訓(xùn)練基礎(chǔ)的大規(guī)模語料庫的標注工作都需要大量的人力和時間花費。針對機器學(xué)習方法的不足,本文提出一種基于事件本體的文本事件要素提取方法,該方法使機器能夠模仿人的閱讀習慣,通過事件本體對事件信息進行聯(lián)想,對地點、時間、主體、客體四個事件要素進行推理。
事件的抽取分為事件類型的識別和事件要素抽取等任務(wù)。事件類型識別的目的是將事件分類,而要素的識別是為了事件信息的補全,將事件的發(fā)生時間、地點、人物等信息填充到相應(yīng)事件中?,F(xiàn)有的事件抽取方法中,利用最大熵分類器對事件的命名實體、時間等要素進行識別[4-5]是較常見的做法。文獻[6]結(jié)合MegaM和TiMBL兩種機器學(xué)習方法在ACE語料上均取得了不錯的效果,但較小語料規(guī)模造成了一定的數(shù)據(jù)稀疏。文獻[7]通過對事件類別的確定獲得了該類事件的模板,將事件要素識別轉(zhuǎn)化為二元分類問題,從一定程度上提高了事件要素識別效果,但還是不可避免的受到語料規(guī)模限制。文獻[8] 采用基于關(guān)鍵詞與觸發(fā)詞相結(jié)合的過濾方法進行事件類型的識別,進而采用基于最大熵分類方法對事件元素進行識別,但該方法對學(xué)習語料的依賴性較強。此外,模式匹配的方法在事件要素識別中也被經(jīng)常使用。其思路是建立一系列的模式,把句子與模板進行匹配達到事件識別與抽取的目的。這種方法只適合于特定的領(lǐng)域,缺乏通用性。典型例子是針對開放域的事件抽取系統(tǒng)FSA[9]。文獻[10-11]采用基于規(guī)則的方法分別從金融領(lǐng)域和突發(fā)事件領(lǐng)域抽取事件要素。規(guī)則的制定需要人工參與,不同規(guī)則之間還有可能出現(xiàn)沖突。文獻[12]采用多層模式匹配的方法在ACE中文語料上識別事件要素,但所采用的規(guī)則有限導(dǎo)致識別效果不夠理想。在準確率上,模式匹配的方法一般比機器學(xué)習的方法高,但過于依賴具體領(lǐng)域,可移植性差。
基于現(xiàn)有方法中存在的問題,本文采用基于事件本體的要素推理方法來實現(xiàn)事件要素的提取,首先根據(jù)詞語位置關(guān)系初次填充要素,然后借助事件本體通過少量的推理規(guī)則來進行事件要素推理和填充。此方法可以從一定程度上解決對語料的依賴和規(guī)則制定的問題。
本文以文獻[13]所提出的事件及事件關(guān)系概念為基礎(chǔ),并在此基礎(chǔ)上提出上層事件本體結(jié)構(gòu),由此來構(gòu)建針對事件要素提取的事件本體。以下對文獻[13]中所提出的事件、事件類和事件關(guān)系等概念進行簡單介紹。
2.1 事件相關(guān)定義
定義1 事件(Event)和事件類,事件是指在某個特定的時間和環(huán)境下發(fā)生的,由若干角色參與,表現(xiàn)出若干動作特征的一件事情。事件類(Event Class)指具有共同特征的事件的集合。事件在形式上定義為一個六元組結(jié)構(gòu):
A表示動作;O表示對象;T表示時間;V表示地點;P表示斷言;L表示語言表現(xiàn)。本文主要對事件的對象(主體和客體)、時間以及地點要素進行推理。
定義2 事件關(guān)系,指的是存在于事件或事件類之間的分類關(guān)系和非分類關(guān)系。事件分類關(guān)系即事件類的包含關(guān)系,例如,自然災(zāi)害類包含地震類。事件非分類關(guān)系指的是事件或事件類之間存在的因果關(guān)系、跟隨關(guān)系、并發(fā)關(guān)系和組成關(guān)系。通常這些關(guān)系既存在于事件實例之間,也存在于事件類之間。關(guān)于事件關(guān)系的語義定義見文獻[13]。
2.2 上層事件本體結(jié)構(gòu)
為支持事件要素的推理,在文獻[13]事件本體結(jié)構(gòu)的基礎(chǔ)上,構(gòu)建一個上層事件本體結(jié)構(gòu)。上層事件本體結(jié)構(gòu)定義了事件的分類層次結(jié)構(gòu),如表1所示。
表1 上層事件本體分類結(jié)構(gòu)
續(xù)表
上層事件結(jié)構(gòu)的第一層根據(jù)事件類的主體類別劃分為兩大類: 人類事件類和自然事件類。
第二層進一步地根據(jù)事件類的主體數(shù)量把人類事件類劃分為個人事件類和公共事件類。多人參與的事件類為公共事件類,而單個人參與的事件類為個人事件。例如,駕駛和交通事故的區(qū)別。自然事件類中的第二層分為自然力事件和非自然力事件,自然力事件的主體通常是大自然,如臺風、山洪暴發(fā)等;非自然力事件的主體是一切除了人類和大自然的物體,可以是大自然中的物質(zhì),如一氧化碳、石頭等,也可以是人類社會生產(chǎn)出來的物品,如高速公路、汽車等。
在上層本體的第三層,人類事件類根據(jù)事件類的客體劃分為人類客體事件類、非人類客體事件類和不及物事件類。不及物事件類一般描述事件主體內(nèi)部狀態(tài)的變化,不會對其他事物產(chǎn)生影響,如生病和死亡等。自然事件類的第三層也是根據(jù)事件類的客體進行劃分,自然力事件類下面分為人類客體自然力事件類、非人類客體自然力事件類以及不及物自然力事件類,非自然力事件類也是同樣的劃分方法。但是實際情況下,自然事件的客體往往是可以忽略的,因為這些事件大多數(shù)是自發(fā)事件,例如,地震事件和汽車爆炸事件。
第四層則是在第三層事件類基礎(chǔ)上根據(jù)時間來劃分。根據(jù)事件的時間要素,可以分為瞬時事件和持續(xù)事件。這樣劃分有利于分析事件的包含和組成關(guān)系,因為如果持續(xù)事件的時間較長,則在該持續(xù)事件發(fā)生的時間段內(nèi)可能包含了瞬時事件和其他持續(xù)事件。
2.3 事件本體的建立
在事件本體的開發(fā)過程中,上層事件本體是不需要建立的,都是被預(yù)先定義好的抽象類。新建的具體事件類則需要根據(jù)事件類要素來進行劃分,使之歸類到上層事件本體中的某個事件類。并建立具體事件類之間的關(guān)系,形成具體的事件本體。
具體事件類通過擴展OWL語言進行描述。事件關(guān)系包括并發(fā)(concur)、因果(cause)、跟隨(follow)和組成(is_part_of)幾種關(guān)系。這些事件關(guān)系在OWL中通過ObjectProperty類型建立,每個事件類都有若干個ObjectProperty類型的屬性,如因果、跟隨等,用restriction來限制一個事件類在某個ObjectProperty類型上與其他事件類的一一對應(yīng)關(guān)系。Restriction定義了三種類型:allvaluesfrom、somevaluesfrom、hasvalue。Allvaluesfrom表示指定屬性的所有可能取值都只能從指定的類中選取。Somevaluesfrom表示指定屬性的部分值從指定的類中選取,而hasvalue表示必須取規(guī)定的特定值。例如,倒塌事件類定義了一個表示因果關(guān)系的ObjectProperty,cause屬性的約束restriction為“somevaluesfrom地震”,即表示“倒塌”事件部分是由于“地震”引起的。這種方式不僅能夠描述事件類的關(guān)系類型,還能夠描述事件關(guān)系的概率。圖1是包含了上層事件結(jié)構(gòu)的事件本體模型。
事件本體是一個包含所有的事件類及事件類之間關(guān)系的集合。特定事件的要素約束條件可以通過查詢事件本體得到。但是只是通過要素的約束條件很難在符合條件的大量要素中完成要素識別任務(wù)。對于事件要素的識別,可以根據(jù)上下文中與某個事件相關(guān)聯(lián)的要素來推理出這個事件的相關(guān)信息。本文模擬這種聯(lián)系上下文的方式來制定推理規(guī)則,使用事件關(guān)系來建立文章中事件的聯(lián)系。本節(jié)分析了事件類之間的關(guān)系及其各自對要素推理的作用,分別定義了推理規(guī)則,并描述了要素識別的流程。
3.1 針對四類關(guān)系的要素推理規(guī)則
本文的中事件類之間的關(guān)系分為分類關(guān)系和非分類關(guān)系,兩類關(guān)系對要素推理的作用各不相同。對于分類關(guān)系,根據(jù)查詢到某事件在上層事件結(jié)構(gòu)中所屬的抽象事件類,可以獲得該事件的要素約束條件。例如,一個事件類(如打雷)屬于瞬時自然力事件類,那它的開始時間和結(jié)束時間相同,而且它的客體為空。
圖1 事件本體結(jié)構(gòu)圖
非分類關(guān)系在文本事件要素的推理過程中起到聯(lián)接上下文的作用,是要素推理的主要內(nèi)容。經(jīng)過對上層本體中所有第四層次的事件類型特征的研究以及大量案列的分析,根據(jù)事件之間的關(guān)系,我們針對每一種事件類型組合,分別提出了一組事件要素的推理規(guī)則,包括對地點、時間、主體和客體四個要素的推理,形成一個事件要素推理規(guī)則庫。表2是針對兩個Continue_PO_PublicEvent事件類型(簡稱為CPOPE類型,即存在關(guān)系的兩個事件都是屬于多人參與的公共持續(xù)事件)事件之間的關(guān)系所制定的12條推理規(guī)則,同樣,我們針對其它的不同類型事件之間的關(guān)系組合也可以分別制定推理規(guī)則。在這些推理規(guī)則中,Sub(ei)表示ei的主體對象,Obj(ei)表示客體對象,P(ei)表示事件ei的地點要素,ST(ei)表示事件開始時間,ET(ei)表示結(jié)束時間。表2中的推理規(guī)則解釋如下。
(1) 組成關(guān)系
存在組成關(guān)系的兩個事件通常具有相同的地點要素和主體要素,如“救助”和“現(xiàn)場施救”的主體都是“醫(yī)療人員”。在組成關(guān)系中,小事件的客體通常是大事件客體的一部分,例如,“現(xiàn)場施救”的客體“傷員”是“救助”的客體“所有在事故現(xiàn)場受傷的人”的組成部分。由以上規(guī)則還可以推出組成事件類的兄弟子事件類通常具有某些相同的要素(如主體和地點),例如,“救助”的子事件“現(xiàn)場施救”和“趕赴現(xiàn)場”具有相同的主體“醫(yī)療人員”和相同的地點“事故現(xiàn)場”??偨Y(jié)歸納可得到表3中的規(guī)則a到規(guī)則d,即對于CPOPE類型的事件e1和事件e2,若e1是e2的組成事件,規(guī)則a表示e2的時間區(qū)間包含e1的時間區(qū)間;規(guī)則b表示事件e1和e2在相同的地點發(fā)生;規(guī)則c表示事件e1和e2具有相同的主體;規(guī)則d表示e1的客體是e2客體的一部分。
(2) 因果關(guān)系
對于存在因果關(guān)系的兩個CPOPE類型事件,其發(fā)生的地點往往是相同的,時間上起因事件通常發(fā)生在結(jié)果事件之前。規(guī)則e表示起因事件e1的起始時間在結(jié)果事件e2的起始時間之前;f表示起因事件e1和結(jié)果事件e2通常發(fā)生在相同地點;g表示起因事件e1的客體通常是結(jié)果事件e2的主體。
(3) 跟隨關(guān)系
對于存在跟隨關(guān)系的兩個CPOPE類型事件,其發(fā)生的時間通常有先后,而且相隔時間較短,兩個事件在時間區(qū)間上不存在重疊。此外,兩個事件類一般具有相同的主體和地點要素。若e2跟隨e1發(fā)生,規(guī)則h表示事件e1結(jié)束之后事件e2才發(fā)生;i表示事件e1和事件e2的發(fā)生地點是相同的;j表示事件e1和事件e2的主體是相同的。
(4) 并發(fā)關(guān)系
存在并發(fā)關(guān)系的兩個CPOPE類型事件通常是同時發(fā)生,兩個事件的時間要素和地點要素通常是相同的。規(guī)則k表示存在并發(fā)關(guān)系的兩個CPOPE類型事件的地點要素相同。規(guī)則l表示存在并發(fā)關(guān)系的兩個CPOPE類型事件的發(fā)生時間存在重疊。
表2 針對CPOPE×CPOPE事件關(guān)系的要素推理規(guī)則
3.2 事件要素識別過程
本文主要針對新聞報道文本中四個要素(地點、時間、主體、客體)進行識別和填充。對于一篇文章,抽取出其中所有命名實體,地點詞、人物詞和時間詞等能夠表示事件要素的詞語,可構(gòu)建一個二維矩陣,縱向維度的各行表示不同事件,橫向維度的各列表示事件要素詞。矩陣中的各個數(shù)值代表不同的要素類型表征: 0表示要素不隸屬于該事件,1表示地點要素,2和3分別表示開始時間和結(jié)束時間要素,4和5分別表示主體和客體對象要素。通過不斷更新這個矩陣,實現(xiàn)事件要素的填充。例如,Aij描述了一篇文章中所有事件所構(gòu)成的矩陣。
w1w2w3w4w5w6w7w8w9w10
事件要素識別過程主要包含三個階段: 數(shù)據(jù)的預(yù)處理、基于詞位置的要素初步填充、要素的推理。
數(shù)據(jù)的預(yù)處理首先要對文章進行分詞并手工修正分詞過細的結(jié)果,然后標出事件觸發(fā)詞和對應(yīng)的事件要素詞。以句子為單位標出詞在句子中的序號,以便能夠在后面步驟中計算詞的位置關(guān)系。
初步填充階段需要在預(yù)處理階段標出了詞語在文中的段落序號、句子序號、和詞語序號的基礎(chǔ)上,計算觸發(fā)詞和要素詞的距離關(guān)系,將距離最近的詞作為要素初步填充的結(jié)果。對于文中的事件e,初步填充要素的步驟見表3。這里的α、β和γ是用于計算置信度的權(quán)值,分別代表要素詞和事件觸發(fā)詞在同一個句子、同一個段落、不在一個段落。為了保證置信度隨著距離的增加而減小(一般來說,要素詞和觸發(fā)詞在相同句子的置信度比在不同句子的置信度大),將三個置信度權(quán)值分別取值為α=100,β=10,γ=1。
表3 要素初步填充步驟
第三階段利用第二階段填充的結(jié)果,對事件要素進行推理。首先查詢事件所屬的上層事件類,得到該事件的要素約束條件,例如,有些事件的某個要素是缺省的則不填充,有些事件的主體只能是人,則選擇表示人物的命名實體來填充。為了保證推理的準確性,需要從初步填充結(jié)果中選擇置信度最大的事件作為種子事件進行推理。把種子事件作為輸入對事件本體進行查詢,找到與其存在非分類關(guān)系的事件類,然后查詢每一對關(guān)聯(lián)的兩個事件類的上層事件類型,根據(jù)所關(guān)聯(lián)的兩個事件類的上層類型定位要素推理規(guī)則庫,接下來利用推理規(guī)則進行推理。
3.3 實例分析
以下是一段半自動標注后的新聞,ei表示事件觸發(fā)詞,li表示地點詞,ti表示時間詞,pi表示參與者(包括了主體和客體):
新快報訊,8月20日早上6點(t1),阿爾及利亞以東150公里的卜伊拉(l1)發(fā)生汽車炸彈(p1)爆炸(e1)事件,造成11人(p2)死亡(e2)。
當?shù)孛襟w報道稱,包括4名軍事人員在內(nèi)的31人(p3)受傷(e3)。目前(t2),當?shù)?l2)正對傷者(p4)進行救治(e4)。
第一步,通過詞語位置遠近填充的事件要素如表4,conf為置信度。
表4 通過詞語位置遠近填充的事件要素
第二步,通過事件本體中的事件類約束進行推理。
e1is_aInstant_NonNatureForceEvent
(1)
式(1)說明,把e1映射到本體中得到其上層的事件類型為Instant_NonNatureForceEvent,一是可以得出e1是瞬時事件,則開始時間和結(jié)束時間相同,二是該事件描述的是主體自身的變化,沒有客體。由于第一步會把距離最近的要素詞p1填充為e1的客體,不符合Instant_NonNatureForceEvent類型沒有客體的約束,所以第二步修正e1的客體為空。同理,可以得出:
e2is_aInstant_NonObject_SinglePersonEvent
=>e2.ST=e1.ET=t1,e2.OBJECT=null
e3is_aContinue_NonObject_SinglePersonEvent
=>e3.OBJECT=null,e3.ET>e3.ST=t1
e4is_aContinue_PersonObject_PublicEvent
=>e4.OBJECT= 傷者,e4.ET>e4.ST=t2
其中,e4.SUBJECT=醫(yī)療人員,根據(jù)具體的“救治”事件類得出它在本體中的主體要素。
第三步,從事件本體中查詢獲得以下幾種事件關(guān)系:e1causee2、e1causee3、e2concure3、e3causee4。將e1作為種子事件,根據(jù)事件1和事件2的類型,在推理規(guī)則庫中查找相應(yīng)的規(guī)則,然后對其他事件的事件要素進行推理:
e1causee2=>e1.ST
e2concure3=>e2.ST=e3.ST=>e3.ST=e3.ET=t1+
e3causee4=>e3.ST
e3causee4=>e3.LOC=e4.LOC(l2=l1)=>e4.LOC=l1
最后得到的結(jié)果如表5所示。
表5 要素推理結(jié)果
可以看出,通過推理把本身沒有對象要素的事件的對象值設(shè)置為空。更新了事件發(fā)生的時間,并且從本體中填充了默認的要素“醫(yī)務(wù)人員”,將如“目前”、“當?shù)亍钡认鄬r間和地點推理出其絕對的事件和地點,在一定程度上填充了事件要素。
4.1 數(shù)據(jù)集和評價標準
本實驗的數(shù)據(jù)采用突發(fā)事件語料庫(Chinese Emergency Corpus, CEC)[14],其中包含了地震、火災(zāi)、交通事故、恐怖襲擊以及食物中毒五類突發(fā)事件的語料共332篇。事件本體采用文獻[15]中構(gòu)建的突發(fā)事件本體,包含事件類421個、事件間的因果和跟隨等關(guān)系307個。
通過準確率(precision)、召回率(recall)、F值(F-Measure)這三個標準來評價要素填充的效果。
其中,準確率是計算正確填充要素的事件數(shù)占所有事件總數(shù)的比例。
召回率用來計算正確填充某要素的事件數(shù)占包含該要素的事件總數(shù)的比例。
F1值的計算方法如式(1)所示。
4.2 實驗設(shè)計
實驗選取CEC語料中的若干個事件,分別進行主體、客體、地點和時間要素的填充,實驗設(shè)計為兩個部分。
實驗一: 使用鄰近的要素進行填充,也就是根據(jù)事件觸發(fā)詞和要素詞之間的位置關(guān)系來填充。對于報道中的一些格式化的詞語,比如“據(jù)新華社報道”、“某人說”,如果將其作為要素補充的候選,會對實驗結(jié)果產(chǎn)生干擾。此外,這一類事件的描寫通常不是用來描述事情的發(fā)展情況。所以,這類事件在實驗中會被剔除掉。利用分詞工具標注的人稱代詞和命名實體等概念,以及地名和時間等要素也會因為表示的格式不同帶來判斷不一致情況,要對這些詞語進行統(tǒng)一。有些事件的客體是缺省的,例如,“海嘯”的客體為空,所以這一類事件的客體不需要統(tǒng)計結(jié)果。
實驗二: 根據(jù)本文所提出的事件關(guān)系推理規(guī)則,利用推理的結(jié)果來填充事件要素。要素推理需要選取一個置信度較高的事件通過非分類關(guān)系推理出關(guān)聯(lián)事件的要素。文章的標題和第一段中提到的事件通常不會把事件要素缺省,對于這些事件,從第一部分實驗中得到數(shù)據(jù)較為準確。所以實驗二將在實驗一得到較優(yōu)結(jié)果的基礎(chǔ)上分兩種情況進行實驗: (1)選擇置信度最高且出現(xiàn)在第一段中的事件作為種子事件進行推理;(2)選擇置信度最高且出現(xiàn)在其他段落中的事件作為種子事件進行推理。
4.3 實驗結(jié)果分析
實驗一對CEC語料中隨機抽取的195個事件的統(tǒng)計結(jié)果如表6所示。其中,對于地點要素和時間要素的填充結(jié)果,準確率、召回率和F1值都超過了60%。由此可見,利用觸發(fā)詞和事件要素詞的位置關(guān)系實現(xiàn)對這兩種要素的抽取,能初步達到理想的效果。文本中地點要素詞和事件要素詞所涉及的范圍可以根據(jù)其在篇章結(jié)構(gòu)的遠近來初步判斷。而對主體和客體的填充效果不如時間、地點要素,原因包括三點: 第一,文章中主體和客體詞出現(xiàn)的次數(shù)明顯多于主體和客體,容易造成其在句子中的分布互相干擾;第二,主體詞可能在其他事件中充當客體,客體詞也可能在一些事件中成為主體,即主體和客體的標注不像地點詞和時間詞那樣明確;第三,一些事件的主體和客體會出現(xiàn)多個,但是只能填充其中的一個。
表6 不同關(guān)系的鄰近要素填充結(jié)果
從實驗一中得出的置信度最高的事件分布,如圖2。
根據(jù)圖2可以看出,置信度最高和次高的事件通常會出現(xiàn)在文章的第一自然段,其次是第二自然段,其他的自然段分布比較均勻。通常一篇文章的核心事件都是分布在第一自然段,敘述也較為詳細,而且會在一句話中交待該事件的主要要素。分布在其他自然段的置信度高的事件則通常不是文章的核心事件。
實驗一只運用了詞語間的位置關(guān)系,事件的類型、上下文關(guān)系等因素沒有考慮進去,所以實驗二利用本體查詢事件關(guān)系和上層事件類型,通過基于非分類關(guān)系推理更新第一步的填充結(jié)果。實驗結(jié)果如表7。
表7 針對不同種子事件的要素推理填充結(jié)果
圖2 置信度值最高和次高的事件數(shù)量分布圖
由表7中可知,實驗二的事件要素的識別效果比實驗一顯著提高。在各類要素的填充過程中,只要兩個事件存在關(guān)系,即使在文中的位置關(guān)系并不相近,也能夠推理出地點上的相似或者時間上的前后關(guān)系,識別效果得到提高,排除了詞位置關(guān)系的干擾。主體和客體的識別上也避免了實驗一中的不足,特別是當主體連續(xù)執(zhí)行多個事件的時候,能夠過濾掉句子中夾雜的客體詞,把連續(xù)事件的主體統(tǒng)一填充為該主體。此外,實驗二中事件映射到本體中的事件類,獲得要素的約束條件,充分考慮了這些要素詞語的類別和事件類要素缺省的情況。通過實驗二從本體中獲得的事件約束,可以對實驗一的填充結(jié)果進行修正。對于非缺省的要素,通過事件類的要素約束選擇出更合適的要素詞能夠提高實驗的效果。在選取種子事件時,第一種情況的實驗效果要略好于第二種情況。原因是第一種情況的種子事件往往是文中較為重要的事件,與其存在非分類關(guān)系的事件較多,所以通過這類種子事件進行修正的關(guān)聯(lián)事件較多。從實驗結(jié)果可以看出,利用基于事件非分類關(guān)系的推理能夠有效地識別出事件要素,選擇文章首段的事件作為種子,能夠獲得更好的實驗效果。
與文獻[2]采用基于機器學(xué)習的方法所獲得的比較理想的實驗結(jié)果對比,本文方法在地點和時間抽取的準確率和召回率略低,主體和客體的抽取準確率和召回率明顯提高,綜合四種不同要素的抽取,本文方法效果更理想,如表8所示。此外,由于本文采用的實驗數(shù)據(jù)是具有普遍性的新聞文本, 精確度和召回率相比文獻[8]略低,但是降低了對特有語料的依賴性。
表8 準確率和召回率的比較
本文針對傳統(tǒng)事件要素識別方法所存在的缺點,提出了一種基于事件本體的文本事件要素識別和推理方法。建立了面向事件要素推理的包含兩層結(jié)構(gòu)的事件本體; 定義了基于事件類關(guān)系的要素推理規(guī)則。相比基于規(guī)則的方法,本文方法所需要的規(guī)則數(shù)量更少;相比傳統(tǒng)的基于機器學(xué)習的方法,本文的方法對語料的依賴性大大減弱,且對語料的數(shù)量沒有具體的要求。實驗表明,對于新聞報道類的文本,本文所提出的方法能夠有效地提高事件要素的識別效果。需要改進的地方體現(xiàn)在目前事件指示詞和事件要素的自動識別準確度還不能達到較理想的程度,另外事件本體的結(jié)構(gòu)影響要素識別效果,本體中事件要素的約束條件以及針對事件類關(guān)系的推理規(guī)則定義還需進一步完善。
[1] Saeedi P, Faili H. Feature engineering using shallow parsing in argument classification of Persian verbs[C]//Proceedings of the 16th CSI International Symposium on Artificial Intelligence and Signal Processing (AISP 2012), 2012: 333-338.
[2] Wang W, Zhao D Y, Wang D. Chinese news event 5w1h elements extraction using semantic role labeling[C]//Proceedings of the Third International Symposium on Information Processing (ISIP), 2010: 484-489.
[3] 楊爾弘. 突發(fā)事件信息提取研究[D]. 北京語言大學(xué)博士學(xué)位論文, 2005.
[4] Chieu H L, Ng H T. A maximum entropy approach to information extraction from semi-structured and free text[C]//Proceedings of the 18thNational Conference on Artificial Intelligence(AAAI 2002), 2002:786-791.
[5] Chen Z, Ji H. Language specific issue and feature exploration in Chinese event extraction[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, 2009: 209-212.
[6] Ahn D. The stages of event extraction[C]//Proceedings of COLING/ACL 2006 Workshop on Annotating and Reasoning about Time and Events, 2006: 1-8.
[7] 趙妍妍, 秦兵, 車萬翔, 等. 中文事件抽取技術(shù)研究[J]. 中文信息學(xué)報, 2008, 22(1): 3-8.
[8] 丁效, 宋凡, 秦兵, 等. 音樂領(lǐng)域典型事件抽取方法研究[J]. 中文信息學(xué)報, 2011, 25(2): 15-20.
[9] Surdeanu M, Harabagiu S. Infrastructure for open-domain information extraction[C]//Proceedings of the Human Language Technology Conference (HLT 2002), 2002: 325-330.
[10] 周劍輝, 苑春法, 黃錦輝, 等. 金融領(lǐng)域內(nèi)信息抽取規(guī)則的自動獲取, in Advances in Computation of Oriental Languages[C]//Proceedings of the 20th International Conference on Computer Processing of Oriental Languages, Shenyang, China, 2003: 410-416.
[11] 梁晗, 陳群秀, 吳平博. 基于事件框架的信息抽取系統(tǒng)[J]. 中文信息學(xué)報, 2006, 20(2): 40-46.
[12] Tan H Y, Zhao T J, Zheng J H. Identification of Chinese event and their argument roles[C]//Proceedings of IEEE 8th International Conference on Computer and Information Technology Workshops, 2008: 14-19.
[13] 劉宗田, 黃美麗, 周文, 等. 面向事件的本體研究[J]. 計算機科學(xué), 2009, 36(11): 189-192.
[14] CEC-Corpus, https://github.com/daselab/CEC-Corpus[OL].
[15] 仲兆滿. 事件本體及其在查詢擴展中的應(yīng)用[D]. 上海大學(xué)博士學(xué)位論文,2011.
A Text Event Elements Extraction Method Based on Event Ontology
LIU Wei, LIU Feijing, WANG Dong, LIU Zongtian
(School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China)
Extraction of event elements is a challenge in event-based information extraction. Currently, the main solutions are based on machine learning method which is subject to the corpus sparsity. This paper proposes an event element extraction method based on event ontology. Event elements reasoning process includes two steps: Firstly, elements values are initially complemented according to positional relations between event elements words and event indicators words, selecting the event with the highest confidence as the seed event; Secondly, search the seed events to for their event classes restrictions and non-taxonomic relations from event ontology, to complement and revise event elements. The experimental results show that this method can improve the accuracy of event elements extraction.
Event Ontology; Event Elements; Event Elements Reasoning
劉煒(1978-),博士,副研究員,主要研究領(lǐng)域為語義本體、知識表示。E-mail:liuw@shu.edu.cn劉菲京(1989-),碩士研究生,主要研究領(lǐng)域為事件本體建模及本體映射技術(shù)。E-mail:liufeijing0307@163.com王東(1986-),碩士研究生,主要研究領(lǐng)域為本體技術(shù)、事件知識表示等。E-mail:ming123@shu.edu.cn
1003-0077(2016)04-0167-09
2014-10-15 定稿日期: 2015-05-20
國家自然科學(xué)基金(61305053);國家自然科學(xué)基金(61273328)
TP391
A