張亞軍, 劉宗田, 李 強, 周 文
(1.上海大學(xué)計算機工程與科學(xué)學(xué)院,上海200444;2.上海精密計量測試研究所,上海201109)
指代是自然語言中一種常見的語言現(xiàn)象,在篇章和對話中大量出現(xiàn),它使得語言表達簡潔連貫,但在篇章中大量使用指代會增加計算機對篇章的理解難度.指代消解的主要任務(wù)就是識別篇章中對現(xiàn)實世界同一實體的不同表達過程[1].以往大量的研究工作都是集中在非事件的文本中[2],取得了一定的成果.隨著“事件”這一概念的興起,越來越多的學(xué)者開始著手面向事件的研究.事件關(guān)系到多方面的靜態(tài)概念,是比靜態(tài)概念粒度更大的知識表示單元,以事件作為人類知識的基本單元,更接近人類的認(rèn)知過程,更符合客觀實際,受到了越來越多領(lǐng)域研究者的關(guān)注,并逐漸被計算機語言學(xué)、人工智能、信息檢索、信息抽取、自動文摘等知識處理領(lǐng)域所采用.
自20世紀(jì)80年代末,一些信息抽取的國際測評會議開始興起,如信息理解會議(Message Understanding Conference,MUC)、自動內(nèi)容抽取(automatic content extraction,ACE)會議等,這些會議為信息抽取以及指代消解等自然語言處理技術(shù)提供了統(tǒng)一的測試語料和測評方法.這些會議的召開在很大程度上推動了指代消解的發(fā)展,特別是會議提供的測試語料,使得指代消解系統(tǒng)從基于啟發(fā)性規(guī)則的消解方法轉(zhuǎn)向了基于數(shù)據(jù)驅(qū)動的消解方法.例如,MUC語料采用的是標(biāo)準(zhǔn)通用標(biāo)記語言(standard generalized markup language,SGML)標(biāo)注方法[3],用<COREF ID= “x”>,<COREF ID= “x”REF=“y”>分別表示實體、參照表達式的左邊邊界,用</COREF>表示實體、參照表達式的右邊邊界.x從1開始嚴(yán)格單調(diào)遞增,表示實體在文本中的順序標(biāo)號,REF表示該實體的先行語信息,如果y等于某一個x的值,則這個參照表達式的先行語就是ID號為x的實體,若無REF值,則這個實體不存在先行語.而ACE語料與MUC語料不同,以ACE 2005[4]為例,是通過指代鏈描述文本中的指代關(guān)系,將指向同一實體的表達都放在一條具有相同編號的指代鏈中.值得一提的是,ACE語料從ACE 2003開始加入中文語料,目前已達到30萬字的訓(xùn)練語料、5萬字的測試語料,而且加入了對事件提及的評測,這是最早針對中文指代消解的國際測評語料資源,對于中文指代消解的發(fā)展起到了很大的推動作用.2011年,CoNLL提供了針對英文的OntoNotes 4.0[5]語料庫,而且對事件名詞與動詞的共指關(guān)系進行了標(biāo)注,并在2012年推出OntoNotes 5.0[6]語料庫,提供英文、中文以及阿拉伯文的語料進行多語言的共指消解評測.近年來,國內(nèi)對指代消解的研究也逐漸增多,相關(guān)語料庫的構(gòu)建也有很多.例如,趙知緯等[7]在ACE 2005中文語料庫的基礎(chǔ)上構(gòu)建了一個面向信息抽取的中文跨文本指代語料庫,舒佳根等[8]在ACE 2005中文語料和中文維基百科的基礎(chǔ)上構(gòu)建了一個實體鏈接語料庫.
然而,上述語料庫大多不是基于事件的標(biāo)注,雖然ACE語料庫定義了8類事件,并對事件提及進行了評測,但其對事件的理解還停留在篇章層次,沒有細(xì)化到具體的句子,并不能覆蓋所有事件,而且對事件提及的評測并沒有涉及共指消解的問題.OntoNotes語料庫提供的關(guān)于事件的共指關(guān)系僅僅涉及英文,不適合中文的語句分析.國內(nèi)大多數(shù)語料庫也是建立在類似ACE中文語料的基礎(chǔ)上,并沒有以事件作為知識表示單元進行標(biāo)注.事件中涉及多方面的實體,稱為要素,與傳統(tǒng)文本中的靜態(tài)概念一樣,同樣存在大量的指代現(xiàn)象,同時事件本身也存在不少指代,對于面向事件的應(yīng)用來說,這些指代帶來了很多不確定性,需要對它們進行處理和研究,這就需要語料庫的幫助.然而到目前為止,還沒有面向事件的中文指代語料庫.
本工作就是為了彌補這一方面的缺陷,在中文突發(fā)事件語料庫(Chinese emergency corpus,CEC)的基礎(chǔ)上,構(gòu)建了一個面向事件的中文指代語料庫,其中包括了對已存在要素、缺省要素和事件的指代標(biāo)注.與傳統(tǒng)的中文指代語料庫相比,面向事件的中文指代語料庫有其自身的優(yōu)點:①面向事件的中文指代語料庫是建立在事件的基礎(chǔ)上,以事件作為知識表示單元,反映了事物的動態(tài)性,更符合客觀實際,便于計算機模擬大腦工作;②傳統(tǒng)的指代標(biāo)注進行了過多實體類別的劃分,而面向事件的指代標(biāo)注是依托事件和事件要素進行的標(biāo)注,分類少,而且結(jié)構(gòu)清晰;③面向事件的指代標(biāo)注不僅對指向同一實體的要素進行標(biāo)注,而且對基準(zhǔn)類型的指代進行了標(biāo)注,通過這種指代關(guān)系,可以將抽象要素具體化;④基于事件的標(biāo)注使傳統(tǒng)指代中的零指代消解[9]轉(zhuǎn)變?yōu)槿笔∫豙10]的指代消解,使實體要素化,結(jié)合事件的語言表現(xiàn)規(guī)則,更利于缺省要素的識別和消解;⑤傳統(tǒng)的指代消解因缺少必要的篇章知識用于消解,容易受到限制,而面向事件的指代標(biāo)注可以通過與事件關(guān)系[11-12]的結(jié)合,挖掘出更多的篇章知識,提高指代消解系統(tǒng)的性能.雖然受CEC語料的限制,語料庫規(guī)模較小,但本工作的初步研究可以為面向事件的中文指代消解提供一個有效的資源支持,對于面向事件的應(yīng)用來說有十分重要的意義.
定義1 事件(Event)[13]指在某個特定的時間和環(huán)境下發(fā)生的、由若干角色參與、表現(xiàn)出若干動作特征的一件事.形式上,事件可以表示為e,定義為一個六元組:
式中,事件六元組元素稱為事件要素,分別表示動作、對象、時間、環(huán)境、斷言、語言表現(xiàn).本工作僅對對象、時間、環(huán)境三個要素進行指代消解的標(biāo)注研究.
O(對象),指事件的參與對象,包括參與事件的所有角色,這些角色的類型數(shù)目稱為對象序列長度.對象可分別是動作的施動者(主體)和受動者(客體).主體是主導(dǎo)者,是事件的主角,有時是事件的制造者或期望事件的發(fā)生者.客體是事件中的被動者.
T(時間),事件發(fā)生的時間段,從事件發(fā)生的起點到事件結(jié)束的終點,分為絕對時間段和相對時間段兩類.
V(環(huán)境),事件發(fā)生的場所及其特征等.例如,在小池塘里游泳,場所為小池塘,場所特征為水中,其中場所特征是現(xiàn)實世界中隱藏的無形環(huán)境,是人們通過常識在頭腦中經(jīng)過簡單推理得出,并沒有顯示在文本中.
定義2 事件類(Event Class)[13]指具有共同特征的事件的集合,用EC表示,定義如下.
式中:E是事件的集合,稱為事件類的外延;Ci為事件類的內(nèi)涵,表示每個事件在第i個要素上具有的共同特性的集合;cim是事件類中每個事件在第i個要素上具有的一個共同特性.
定義3 事件觸發(fā)詞(Trigger)[14]又稱事件指示詞或事件核心詞,是指文本中可以用來清晰表示所發(fā)生事件的詞.一般情況下,觸發(fā)詞是句子中的主要動詞(也可能是名詞),觸發(fā)詞直接描述了事件.
定義4 先行要素和照應(yīng)要素 面向事件的中文文本中如果存在要素間的指代關(guān)系,表達較為具體的要素稱為先行要素,表達較為抽象的要素稱為照應(yīng)要素.
定義5 先行事件和照應(yīng)事件 面向事件的中文文本中如果存在事件間的指代關(guān)系,表達較為具體的事件稱為先行事件,表達較為抽象的事件稱為照應(yīng)事件.事件的具體和抽象的判別與事件所包含的要素是否齊全有關(guān),即事件的對象、環(huán)境和時間要素是否缺省.
定義6 面向事件的指代消解 在面向事件的文本中尋找先行要素(或先行事件)和照應(yīng)要素(或照應(yīng)事件)之間的關(guān)系,并明確給出照應(yīng)要素(或照應(yīng)事件)所指向的先行要素(或先行事件)的過程.
面向事件的中文指代語料庫是在CEC的基礎(chǔ)上進行的標(biāo)注,共有兩大類指代關(guān)系的標(biāo)注,分別為事件要素(對象、環(huán)境和時間)的指代標(biāo)注和事件的指代標(biāo)注,其中事件要素的指代標(biāo)注又分為已存在要素的指代標(biāo)注和缺省要素的指代標(biāo)注.
CEC是上海大學(xué)語義智能實驗室以從互聯(lián)網(wǎng)上收集的關(guān)于地震、火災(zāi)、交通事故、恐怖襲擊以及食物中毒五類突發(fā)事件的新聞報道作為生語料,經(jīng)過事件和事件要素等人工標(biāo)注,并經(jīng)過統(tǒng)計和分析構(gòu)建的面向事件的中文語料庫,目前共有332篇,具體的統(tǒng)計情況如表1所示.
表1 CEC統(tǒng)計概況Table 1 CEC statistics
為方便計算機處理,CEC語料采用的是XML語言進行的標(biāo)注,而且事件要素分為已存在要素的指代標(biāo)注和缺省要素的指代標(biāo)注,所以指代的標(biāo)注有兩種標(biāo)注形式:第一種形式為屬性(Attribute)標(biāo)注,這種標(biāo)注只針對要素的指代,與事件的標(biāo)注無關(guān),目的是進行事件中缺省要素的標(biāo)注;第二種形式為標(biāo)識(Tag)標(biāo)注,即單獨用一個標(biāo)識進行指代標(biāo)注,目的是進行已存在要素的標(biāo)注和事件的標(biāo)注.
2.2.1 屬性標(biāo)注
屬性標(biāo)注的標(biāo)注位置是在各個要素標(biāo)識的表示順序編號的屬性里:對象要素是在標(biāo)識Participant或Object的屬性sid(主體編號)或oid(客體編號)中進行標(biāo)注;環(huán)境要素是在標(biāo)識Location的屬性lid中進行標(biāo)注;時間要素是在標(biāo)識Time的屬性tid中進行標(biāo)注,下面分別舉例說明.
對于對象要素(見圖1),事件e3與事件e4的主體對象缺失,它們的對象都為事件e2的對象,所以在事件e2的對象屬性sid中同時標(biāo)出事件e3與事件e4的對象標(biāo)號s3,s4,以此表示此對象在事件e3與e4中也充當(dāng)主體對象.有時一個事件的主體也可能在另一個事件中充當(dāng)客體,這時就要用oid進行標(biāo)注,比如事件e2的對象在e3中作為客體,則標(biāo)注為<Participant sid=“s2”oid=“s3”>,或者是一個事件的客體在另一個事件中充當(dāng)客體或主體,也是按以上形式標(biāo)注.Object類型的對象也是如此.
對于環(huán)境要素(見圖1),事件e2的發(fā)生地點同時也是事件e3和事件e4的發(fā)生地點,這時就要在事件e2的環(huán)境要素屬性lid中進行標(biāo)注.
對于時間要素(見圖2),事件e19和事件e20都是在時間編號為t19的時間段內(nèi)發(fā)生的,這時就在事件e19的屬性tid中同時標(biāo)注出t20.
圖1 對象和環(huán)境要素的屬性標(biāo)注Fig.1 Attribute labels of object and environment elements
圖2 時間要素的屬性標(biāo)注Fig.2 Attribute labels of time elements
2.2.2 標(biāo)識標(biāo)注
為了區(qū)別缺省要素的屬性標(biāo)注,加入eAnaphora標(biāo)識用以進行事件中已存在要素以及事件的指代標(biāo)注,詳細(xì)表示為<eAnaphora anaType=“”aid=“”antecedent=“”rid=“”anaphor=“”/>.
(1)屬性anaType表示指代類型,即哪種要素的指代,或是事件的指代.若是對象要素的指代,屬性值為Object;若是時間要素的指代,屬性值為Time;若是環(huán)境要素的指代,屬性值為Location;若是事件的指代,屬性值為Event.
(2)屬性aid表示指代中的先行要素(或先行事件)的順序編號,屬性antecedent表示指代中的先行要素(事件指代標(biāo)注沒有這個屬性).
(3)屬性rid表示指代中的照應(yīng)要素(或照應(yīng)事件)的順序編號,屬性anaphor表示指代中的照應(yīng)要素(事件指代標(biāo)注沒有這個屬性).
所以,標(biāo)識標(biāo)注共有4種類型表示各要素及事件的指代,如圖3所示.
圖3 標(biāo)識標(biāo)注Fig.3 Identification labels
基于CEC的指代標(biāo)注分為語料庫的預(yù)處理、自動標(biāo)注和人工標(biāo)注三個過程,下面對標(biāo)注規(guī)范進行說明.
2.3.1 標(biāo)注規(guī)范說明
標(biāo)注規(guī)范的制定,可以在一定程度上縮小不同標(biāo)注者在標(biāo)注時的差異,減少語料標(biāo)注過程中的錯誤和不一致性,提高標(biāo)注的效率.面向事件的中文文本指代標(biāo)注與傳統(tǒng)文本的指代標(biāo)注是有差別的,對于缺省要素的標(biāo)注在2.2節(jié)已作了說明,這里僅對已存在要素和事件的標(biāo)注作簡要說明.
(1)對象要素:事件中對象要素有兩種語義類別,在語料庫中分別以Participant和Object這兩個標(biāo)識進行標(biāo)注,前者與人有關(guān),后者與物有關(guān),所以它們不屬于一個語義類別,是不能相互指代的.
(2)環(huán)境要素:對于環(huán)境要素的標(biāo)注,除了標(biāo)注指向同一地理位置的要素,還要進行基準(zhǔn)類型的標(biāo)注,即通過先行環(huán)境要素,可以將照應(yīng)環(huán)境要素的地理位置具體化.例如,“香溪洞景區(qū)”←“附近山體”,通過這種指代,可以將照應(yīng)要素的地理位置具體化,可得知具體是在什么地點附近.
(3)時間要素:時間要素與環(huán)境要素類似,除了標(biāo)注指向同一時間的要素,也要進行基準(zhǔn)類型的標(biāo)注.例如,“27日傍晚6時左右”←“隨后”,通過這種指代可以確定隨后是以哪個時間為基準(zhǔn).
以上是針對要素的標(biāo)注規(guī)范說明,事件的指代標(biāo)注與事件要素的指代標(biāo)注是有區(qū)別的,事件包含對象、時間、環(huán)境等各個要素,即事件是由要素組成的.而事件要素的指代沒有考慮事件之間的關(guān)系,只將兩個要素單獨進行指代關(guān)聯(lián).事件之間的指代,需要將各要素綜合起來考慮,有時還需要聯(lián)系上下文,根據(jù)上下文來判斷兩個事件是否表示同一個事件.
規(guī)定兩個事件具有指代關(guān)系的標(biāo)準(zhǔn)如下.
(1)因為事件的觸發(fā)詞直接描述了事件,所以首先比較兩個事件的觸發(fā)詞是否相同或同義,若是,則進行下一步,否則兩事件無指代關(guān)系.
(2)比較兩個事件各要素,因為每個事件必須包含觸發(fā)詞,而其他要素可能缺省,不會出現(xiàn),所以要根據(jù)上下文補全缺省要素,然后判斷兩事件是否具有指代關(guān)系.具有指代關(guān)系的兩事件的各要素必須一致,即指向現(xiàn)實中的同一實體.
通過上述兩步就可以確定事件間的指代關(guān)系.
2.3.2 語料庫的預(yù)處理
CEC中沒有對標(biāo)識為ReportTime的報道時間進行編號,由于ReportTime在時間要素的指代標(biāo)注中可以作為基準(zhǔn)時間,因此在標(biāo)識中加入屬性tid,屬性值為t0.另外,CEC語料在最初標(biāo)注時,沒有考慮到指代消解的研究,所以對于對象要素的標(biāo)注粒度沒有作一定的規(guī)范限定.這里規(guī)定為粗粒度標(biāo)注,即將修飾對象的一些修飾語連同對象一起標(biāo)注,因為這些修飾信息往往包含了對象的職業(yè)、身份等有價值的信息,在以后的對象要素指代消解中,可以將抽象的對象要素具體化.例如,“中國地震局新聞發(fā)言人張宏衛(wèi)”←“張宏衛(wèi)”,這種指代的識別就可以得到照應(yīng)要素的具體身份,對基于事件的推理提供幫助.
2.3.3 自動標(biāo)注
在自動標(biāo)注階段,基于缺省要素標(biāo)注的復(fù)雜性,僅對已存在要素和事件進行標(biāo)注.對于已存在要素,通過簡單的字符串匹配規(guī)則,采用標(biāo)識標(biāo)注形式進行標(biāo)注;對于事件,通過對觸發(fā)詞進行同義詞的檢測方法,采用標(biāo)識標(biāo)注形式進行標(biāo)注.
2.3.4 人工標(biāo)注
在人工標(biāo)注階段,要安排3個人工作.首先,安排兩位標(biāo)注者對自動標(biāo)注階段生成的指代鏈進行校正;然后通過文本進行補全,包括自動標(biāo)注階段沒有識別出的指代,以及缺省要素的指代標(biāo)注;兩位標(biāo)注者在標(biāo)注期間不準(zhǔn)商量,兩位標(biāo)注者完成標(biāo)注后,由第三個人進行仲裁.仲裁者首先找出兩位標(biāo)注者之間的差異,針對這些差異,通過外部知識來解決分歧,確定最終的指代鏈.
2.3.5 指代鏈輸出
經(jīng)過上述步驟后,就會得到最終的標(biāo)注結(jié)果.缺省要素的標(biāo)注結(jié)果已在圖1和2中展示,圖4是已存在要素和事件的標(biāo)注結(jié)果.
圖4 指代鏈Fig.4 Coreference chains
標(biāo)注規(guī)范的制定可以減少語料的不一致,而方便、高效的標(biāo)注系統(tǒng)可以大幅度提高標(biāo)注的效率和準(zhǔn)確性,防止標(biāo)注者出現(xiàn)誤操作.圖5是面向事件的中文指代語料標(biāo)注工具界面,左邊的空白處是對生語料進行事件要素、指代關(guān)系等標(biāo)注的文本框,右邊是添加XML標(biāo)識以及各標(biāo)識的屬性,頂欄是工具欄.為了減輕標(biāo)注者的負(fù)擔(dān),該標(biāo)注軟件提供了自動檢查的功能,可以防止文檔中出現(xiàn)不合法的標(biāo)識,在一定程度上防止錯誤的語料進入語料庫.
圖5 標(biāo)注工具Fig.5 Annotation tool
為了保證語料標(biāo)注的質(zhì)量,兩位標(biāo)注者同時對語料庫進行標(biāo)注,目的是進行標(biāo)注結(jié)果的一致性檢測.本工作采用Passoneau[15]提出的語料庫指代標(biāo)注可靠性計算方法,并根據(jù)Krippendorff[16]的alpha系數(shù)來表示兩位標(biāo)注者標(biāo)注結(jié)果之間的一致性.該方法通過一個距離度量來表示指代鏈之間的相似度,然后通過alpha系數(shù)計算指代鏈之間的相似度距離來表示不同標(biāo)注者標(biāo)注結(jié)果之間的一致性.
Passoneau相似度距離度量原則如下.
(1)當(dāng)兩條指代鏈完全吻合時,距離為0;
(2)當(dāng)一條指代鏈?zhǔn)橇硪粭l指代鏈的子集時,距離為0.33;
(3)當(dāng)兩條指代鏈不互相包含且有公共的非空子集時,距離為0.67;
(4)當(dāng)兩條指代鏈交集為空集時,距離為1.
按照以上原則,根據(jù)兩位標(biāo)注者的標(biāo)注結(jié)果,計算得到alpha系數(shù)為94.6%.Krippendorff認(rèn)為,低于67%的alpha系數(shù)表明標(biāo)注結(jié)果不可靠,因此認(rèn)為兩位標(biāo)注者的標(biāo)注結(jié)果高度一致.
目前已經(jīng)標(biāo)注完的語料共有100篇,其中地震、火災(zāi)、交通事故、恐怖襲擊和食物中毒各20篇.這是第一期的標(biāo)注,旨在確定標(biāo)注流程和規(guī)范,對其中的指代進行了統(tǒng)計分析,在以后的工作中,會進一步基于CEC的剩余部分進行標(biāo)注,并繼續(xù)擴大.
3.2.1 指代分類
通過對已標(biāo)注語料進行統(tǒng)計,對已存在要素的指代可以進行如下分類.
對于對象要素,可以分為如下4類.
(1)表述相同,即存在指代的兩個要素的字符串完全匹配,例如“中國地震局新聞發(fā)言人張宏衛(wèi)”←“中國地震局新聞發(fā)言人張宏衛(wèi)”;
(2)縮略指代,即存在指代的兩個要素中,照應(yīng)要素是先行要素的一部分,例如“滾滾濃煙”←“濃煙”;
(3)表述不同,即存在指代的兩個要素在文字表達上不同,兩個要素間可能一個是另一個的別名,或者根據(jù)上下文,兩個要素都指向同一個實體,例如“中華人民共和國”←“中國”,“修理巷道的20名礦工”←“被困人員”;
(4)代詞類指代,即存在指代的兩個要素間,一個要素為代詞,例如“李女士”←“她”.
對于環(huán)境要素,可以分為5類,其中前4類與環(huán)境要素相同,下面只舉例說明.
(1)表述相同,例如“醫(yī)院”←“醫(yī)院”;
(2)縮略指代,例如“四川省汶川縣”←“四川汶川”;(3)表述不同,例如“四川省汶川縣”←“災(zāi)區(qū)”;
(4)代詞類指代,例如“750~850米處巷道”←“該段”;
(5)基準(zhǔn)指代,此類指代與前4類是不同的,也是面向事件的指代與傳統(tǒng)指代的不同點,前4類中存在指代的兩個要素都是指向同一實體,而此類指代并非指向同一實體,而是以先行要素為基準(zhǔn),來確定照應(yīng)要素的具體位置,例如“香溪洞景區(qū)”←“附近山體”.
對于時間要素,可以分為如下2類.
(1)同一時間,即存在指代的兩個時間要素指向同一時間,例如“昨晚8時30分許”←“此時”;
(2)基準(zhǔn)指代,與環(huán)境要素中的基準(zhǔn)指代相似,是以先行要素為基準(zhǔn)時間來確定照應(yīng)要素的具體時間,例如“27日傍晚6時左右”←“隨后”.
3.2.2 指代統(tǒng)計
在已標(biāo)注的100篇語料中,共有1 767個事件,1 623個對象要素,522個環(huán)境要素,539個時間要素,其中對于已存在要素的指代數(shù)據(jù)如表2所示,缺省要素的指代數(shù)據(jù)如表3所示,各類事件的指代數(shù)據(jù)如表4所示.
表2 已存在要素的指代統(tǒng)計Table 2 Coreference statistics of existing elements 個
表3 缺省要素的指代統(tǒng)計Table 3 Coreference statistics of default elements 個
表4 各類事件的指代統(tǒng)計Table 4 Coreference statistics of several kinds of events 個
3.3.1 已存在要素指代分析
對于事件中對象、環(huán)境和時間的已存在要素的指代,表2已詳細(xì)統(tǒng)計了每個要素的指代數(shù)量,以及每個要素的不同類別的指代數(shù)量.對每種要素中的指代進行分類,可以對后續(xù)研究中實現(xiàn)各個要素指代的自動識別提供幫助,也可以幫助設(shè)計者思考如何設(shè)計算法來達到更優(yōu)異的系統(tǒng)性能.
對象要素和環(huán)境要素的前4類與傳統(tǒng)文本中的指代消解有許多共性,其指代的都是同一實體,這里不再分析,只進行環(huán)境要素的基準(zhǔn)指代和時間要素的分析.
環(huán)境要素中的基準(zhǔn)指代與傳統(tǒng)意義上的指代有所不同,存在指代關(guān)系的兩個要素并不是指向同一實體,而是一種關(guān)聯(lián)關(guān)系,即通過先行環(huán)境要素來確定照應(yīng)環(huán)境要素的具體位置.從表2中可看出,這種類型的指代占整個環(huán)境要素指代的16%,所以其識別與否對于指代消解系統(tǒng)的性能有顯著的影響.在已標(biāo)注的語料中,對這種指代關(guān)系進行統(tǒng)計得出,照應(yīng)環(huán)境要素基本上都是以“周圍”“附近”“外面”這種抽象的地理位置詞開頭,可以通過構(gòu)建一個抽象環(huán)境要素的詞典進行識別,然后再找出其對應(yīng)的先行要素.這僅僅是初步的構(gòu)想,具體實現(xiàn)還要綜合各種因素進行考慮.
時間要素中的基準(zhǔn)指代與環(huán)境要素是類似的,有別于傳統(tǒng)意義上的指代,并且對其識別也與環(huán)境要素類似.在已標(biāo)注語料中,具有此類指代關(guān)系的兩個時間要素,其照應(yīng)要素大多是“昨天”“今天”等抽象時間詞,可通過構(gòu)建一個抽象時間要素詞典進行識別,再找出其對應(yīng)的先行要素.對于同一時間的指代,在標(biāo)注中發(fā)現(xiàn),具有此類指代關(guān)系的兩個時間要素,照應(yīng)要素也是一些抽象的時間詞,比如“現(xiàn)”“當(dāng)時”等,因為語料都是新聞題材類的文本,所以“目前”和“現(xiàn)”大多指代的是新聞的報道時間,而對于“當(dāng)時”,其先行時間一般出現(xiàn)在前一個事件中或與其最近的且包含時間要素的事件中.
3.3.2 缺省要素指代分析
在語料庫中,一個完整的事件應(yīng)該包含對象要素、環(huán)境要素、時間要素和觸發(fā)詞,其中對象要素又包含主體和客體,也就是說,一個完整的事件應(yīng)包含6個部分,而觸發(fā)詞是每個事件必須含有的,其他3個要素可以省略.為了描述各個要素的缺省程度,這里用“缺省度”來衡量:
已標(biāo)注語料中各要素的缺省量如表5所示.
表5 事件中各要素缺省量Table 5 Default number of each elements in events 個
通過計算得到對象要素的缺省度為51%,環(huán)境要素的缺省度為73%,時間要素的缺省度為75%,由此可看出,環(huán)境要素和時間要素的缺省程度較大.但這里對對象要素的統(tǒng)計沒有區(qū)分主體與客體,不能準(zhǔn)確表示對象要素的缺省度,所以又對主體與客體的數(shù)量進行了統(tǒng)計,如表6所示.
表6 事件中主體與客體缺省量Table 6 Default number of subject and object in events 個
這里假設(shè)每個事件都應(yīng)存在主體與客體,從表6中可以得到對象要素中主體的缺省度為57.2%,客體的缺省度為88.5%,客體缺省度遠(yuǎn)遠(yuǎn)大于主體缺省度.
缺省要素的指代消解分為兩個步驟:缺省要素的指代識別和缺省要素的指代消解.對于缺省對象要素的指代識別,其難度要比環(huán)境要素和時間要素要大,因為一個事件肯定發(fā)生在某個時間的某個地點,也就是說一個事件中環(huán)境要素和時間要素只要不存在就可判斷為缺省.而對象要素在一些事件中是可以不存在的,即要對對象要素是否缺省進行識別,而且對象要素又分為主體對象和客體對象,這就進一步加大了識別的難度,要判斷是缺省客體還是缺省主體,還是主體與客體都缺省.從語料庫中發(fā)現(xiàn),對于一些事件,主體和客體的缺省與觸發(fā)詞有關(guān),包含某些特定觸發(fā)詞的事件往往不包含對象要素,有的只缺省主體或者缺省客體,有的主體和客體都缺省,不過這只是初步構(gòu)想,對于對象要素缺省指代識別,還需進一步研究.
將表3和5進行比較發(fā)現(xiàn),各要素標(biāo)注出的缺省指代數(shù)與各要素的缺省量不一致,那是因為缺省要素的標(biāo)注只能根據(jù)篇章中已經(jīng)存在的要素進行缺省要素補全,而一些事件的缺省要素在文中是沒有描述的,這時是不能進行補全的,也就是說缺省指代只能根據(jù)已存在要素在一定程度上補全缺省要素.
3.3.3 事件指代分析
從表4的統(tǒng)計結(jié)果來看,事件的指代數(shù)量還是比缺省要素少,在5個事件類中,交通事故和恐怖襲擊中指代的比例較高,這說明在這兩個題材的新聞報道中,同一事件被重復(fù)提及的概率較大.事件指代的目的與缺省要素的指代一致,是將缺失若干要素的事件通過一篇文章上下文中的具體事件進行補全.只不過事件指代針對的是同一事件,而缺省要素的指代既可以針對同一事件,也可以針對不同事件.
對于事件的指代,從3.3.1節(jié)中提及的關(guān)于事件指代的標(biāo)準(zhǔn)可以看出,事件的指代有兩個關(guān)鍵點:事件觸發(fā)詞和事件要素的組成.對于具有指代關(guān)系的兩個事件,其觸發(fā)詞肯定同義或相同,因為觸發(fā)詞直接描述了事件.只有觸發(fā)詞相同還無法判定,觸發(fā)詞相同只能說明事件間屬于同一個事件類,而不是同一個事件,還要通過判斷兩個事件各自的事件要素的組成,才能最終判定.
面向事件的中文指代語料庫是在CEC的基礎(chǔ)上,采用自動標(biāo)注和人工標(biāo)注的方法構(gòu)建而成,以此進行事件中指代消解的研究.目前已標(biāo)注完成100篇,第一期標(biāo)注的語料已基本完成.本工作在已標(biāo)注語料的基礎(chǔ)上,通過對已存在要素指代、缺省要素指代和事件指代的統(tǒng)計,進行了初步分析,為今后的研究打下基礎(chǔ).
任何語料庫的構(gòu)建都不可能是完美無缺的,肯定會存在一些問題和不足,由于本工作所構(gòu)建的語料庫是基于CEC的,所以規(guī)模較小,在今后還要利用自動或手工的方法進一步擴充,循序漸進地改進,在今后的研究中不斷完善.