張春菊,張雪英,王曙,廖建平 ,陳曉丹
(1. 合肥工業(yè)大學(xué) 土木與水利工程學(xué)院,安徽 合肥,230009;2. 南京師范大學(xué) 虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京,210046)
中文文本的事件時(shí)空信息標(biāo)注
張春菊1,張雪英2,王曙2,廖建平2,陳曉丹2
(1. 合肥工業(yè)大學(xué) 土木與水利工程學(xué)院,安徽 合肥,230009;2. 南京師范大學(xué) 虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京,210046)
基于文本數(shù)據(jù)源的地理空間信息解析研究側(cè)重于地名實(shí)體、空間關(guān)系等空間語義角色的標(biāo)注和抽取,忽略了豐富的時(shí)間信息、主題事件信息及其時(shí)空一體化信息。該文通過分析中文文本中事件信息描述的語言特點(diǎn)和事件的時(shí)空語義特征,基于地名實(shí)體和空間關(guān)系標(biāo)注研究成果,制定了中文文本的事件時(shí)空信息標(biāo)注體系和標(biāo)注模式,并以GATE(General Architecture for Text Engineering)為標(biāo)注平臺(tái),以網(wǎng)頁文本為數(shù)據(jù)源,構(gòu)建了事件時(shí)空信息標(biāo)注語料庫。研究成果為中文文本中地理信息的語義解析提供標(biāo)準(zhǔn)化的訓(xùn)練和測(cè)試數(shù)據(jù)。
中文文本;時(shí)空信息;事件;標(biāo)注體系;標(biāo)注語料庫
地理信息是指與空間地理分布有關(guān)的信息,既包括空間定位和幾何信息,也包括時(shí)間、時(shí)空關(guān)系、物理、化學(xué)和生物等屬性和語義信息[1]。文本是人們時(shí)空認(rèn)知結(jié)果的自然語言表現(xiàn)形式,已成為一種重要的地理信息來源[2]。特別是隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人類信息的主要載體和交流平臺(tái),其所匯聚的信息已經(jīng)覆蓋到人類社會(huì)、經(jīng)濟(jì)、生活等各個(gè)角落,網(wǎng)絡(luò)文本成為地理空間信息的重要收藏地[3],如新聞、博客、論壇、統(tǒng)計(jì)表格、Wiki等。事件是人們認(rèn)識(shí)和理解世界的基本單位,包括時(shí)間、空間和主題三個(gè)基本特征,是文本(特別是網(wǎng)絡(luò)文本)信息表達(dá)的基本粒度和主要形式。事件成為文本數(shù)據(jù)源中地理信息表達(dá)的紐帶。實(shí)現(xiàn)文本中時(shí)空和主題事件信息的語義解析不僅可以為泛在時(shí)空信息動(dòng)態(tài)關(guān)聯(lián)更新,時(shí)空信息實(shí)時(shí)挖掘分析提供數(shù)據(jù)源;而且可以建立自然語言與GIS計(jì)算模型之間的語義映射關(guān)系,將時(shí)間維、空間維和主題維數(shù)據(jù)有機(jī)地、交互地組織,推動(dòng)地理信息檢索、智能導(dǎo)航、LBS等地理信息服務(wù)向動(dòng)態(tài)化、多維化、主題化方向發(fā)展。
在文本描述中,事件時(shí)空信息采用特定類型的詞匯和定性的模式進(jìn)行表達(dá),具有非結(jié)構(gòu)化、語義不確定性、定量與定性描述相結(jié)合的特點(diǎn)。語料庫是帶有特定語言信息的知識(shí)庫,是語言定性、定量分析的金本位,支持特定領(lǐng)域的應(yīng)用系統(tǒng)開發(fā)[4]。標(biāo)注體系構(gòu)建的任務(wù)是對(duì)語言中特定信息進(jìn)行分析,發(fā)現(xiàn)文本中特定領(lǐng)域信息的語言結(jié)構(gòu)(例如,詞、詞組、句法模式等),建立描述它們的元數(shù)據(jù)[5]。不同層次標(biāo)注的語料庫是文本信息解析系統(tǒng)的必備資源,為其提供標(biāo)準(zhǔn)化的訓(xùn)練和測(cè)試數(shù)據(jù)[4,6]。GUM(Generalized Upper Model)、TRML(Toponym Resolution Markup Language)、GeoTagger和TESLA(The Geospatial Language Annotator)等典型標(biāo)記語言,側(cè)重于文本中空間語義(特別是地名實(shí)體)角色的標(biāo)注[7-9]。SpatialML(Spatial Markup Language)和NaturalGML(Natural Geography Markup Language)研究了文本中地名實(shí)體標(biāo)注和空間關(guān)系的結(jié)構(gòu)化表達(dá)方法[10-12],但是忽略了文本中豐富的時(shí)間信息、時(shí)空一體化信息、主題事件信息,及其之間的時(shí)空語義關(guān)系,且尚未形成較為系統(tǒng)的標(biāo)注體系和規(guī)范。語言學(xué)領(lǐng)域研究了主題事件信息標(biāo)注和語料庫構(gòu)建方法,包括事件相關(guān)的實(shí)體、時(shí)間表達(dá)、論元角色、句法、語義等,但是沒有從地理空間概念的角度進(jìn)行時(shí)空語義信息的表達(dá),特別是缺少時(shí)空一體化信息[13-15]。
每個(gè)事件系統(tǒng)都存在一個(gè)從萌芽、前兆、發(fā)生、演化、控制、衰減、直到最后消亡的生命周期,時(shí)空與屬性語義信息貫穿于生命周期的各個(gè)階段。時(shí)空語義表達(dá)事件發(fā)生位置、影響范圍、發(fā)生時(shí)刻,持續(xù)時(shí)間長(zhǎng)短等信息;屬性特征表達(dá)事件在某個(gè)維度上的屬性信息,如強(qiáng)度、規(guī)模,經(jīng)濟(jì)損失、人員傷亡等。在文本描述中,事件與地名、空間關(guān)系、時(shí)間、屬性等信息之間的關(guān)聯(lián)關(guān)系,特別是事件時(shí)空演化過程信息的語義關(guān)系是一個(gè)復(fù)雜的語義不確定性和模糊性的過程,包括同一事件的演化過程和不同事件之間的關(guān)聯(lián)。
人們基于一定的詞匯系統(tǒng)和句法結(jié)構(gòu),可以組織各種各樣的語句對(duì)認(rèn)知空間世界的事件信息進(jìn)行描寫、敘述或說明[16]。一個(gè)事件實(shí)例一般包括名稱、時(shí)間信息、空間位置信息、屬性信息等語言單元,事件的語義表達(dá)通過一定的句法結(jié)構(gòu)來鏈接各個(gè)語言單元。漢語中事件時(shí)空信息描述詞匯較為豐富,部分詞匯在一定程度上直接觸發(fā)事件時(shí)空語義信息。時(shí)間描述通常與表達(dá)時(shí)間單位的詞匯緊密結(jié)合,如“2013年1月1日”中的年、月、日,以及傍晚、去年、周六、五點(diǎn)等。省、山、湖等地名特征字,以及南邊、北郊、靠近、以東等空間關(guān)系詞匯對(duì)空間位置信息的表達(dá)具有強(qiáng)烈的指示作用。地震、暴雨、泥石流等事件類型詞匯,以及死亡、失蹤、震級(jí)、解救、降雨量、重傷等屬性信息詞匯均能夠在一定程度上指示事件的發(fā)生。此外,發(fā)生、爆發(fā)、突發(fā)等動(dòng)詞,以及基本上、很大程度、嚴(yán)重等程度副詞可以輔助于事件時(shí)空信息的判斷。
作為時(shí)空認(rèn)知外在表現(xiàn)的另一載體,GIS中事件時(shí)空與屬性信息存儲(chǔ)在專題數(shù)據(jù)庫中或者以專題地圖的形式展現(xiàn)。圖1為互聯(lián)網(wǎng)地圖和文本兩種形式對(duì)汶川地震時(shí)空信息表達(dá)的示例。
3.1 標(biāo)注體系的基本框架
側(cè)重于事件實(shí)體在文本中的時(shí)空語義表達(dá),同時(shí)考慮信息的兼容、共享與交換性能,本文以XML為標(biāo)記元語言,設(shè)計(jì)了事件時(shí)空信息標(biāo)注體系。由于事件實(shí)體、時(shí)間信息、空間信息、屬性信息及其語義關(guān)系在文本中描述具有各自的特征,其標(biāo)注的基本策略是對(duì)事件描述的相關(guān)語言單元和語義結(jié)構(gòu)分別進(jìn)行表達(dá),標(biāo)注框架如圖2所示。其中,地名實(shí)體采用
圖1 互聯(lián)網(wǎng)地圖(數(shù)據(jù)來源: http: //map.baidu.com/)和文本中汶川地震時(shí)空信息表達(dá)示例
圖2 事件時(shí)空信息標(biāo)注基本框架
3.2 時(shí)間信息標(biāo)注模式
時(shí)間信息告訴人們某事何時(shí)發(fā)生、持續(xù)多長(zhǎng)時(shí)間、發(fā)生頻率等。中文文本中包含大量的相對(duì)時(shí)間和時(shí)間段信息,如昨天、去年、五周等,需要借助于上下文參考時(shí)間才能確定其準(zhǔn)確的時(shí)間信息。結(jié)合中文文本中時(shí)間信息描述特點(diǎn),將時(shí)間短語分類如表1所示。根據(jù)能否直接定位到時(shí)間軸上判斷各時(shí)間類型是絕對(duì)時(shí)間或相對(duì)時(shí)間。絕對(duì)時(shí)間可以直接與日歷時(shí)間相對(duì)應(yīng),如“2007年3月5日”。具體時(shí)間、周或星期時(shí)間、段時(shí)間、時(shí)間詞和參照時(shí)間,由于缺少“年”時(shí)間單位的約束,而無法定位到時(shí)間軸上,稱為相對(duì)時(shí)間。相對(duì)時(shí)間基于參考時(shí)間進(jìn)行推理后,可與日歷時(shí)間對(duì)應(yīng)轉(zhuǎn)換。
表1 中文文本中時(shí)間信息分類
時(shí)間信息采用
(1) 日歷型時(shí)間標(biāo)注
日歷型時(shí)間信息描述較為具體、完整,標(biāo)注內(nèi)容包括時(shí)間值、時(shí)間類型和類型代碼。
截至2013年7月19日,漳州、廈門地區(qū)因強(qiáng)降雨造成死亡1人、失蹤1人。
(2) 日歷型時(shí)間與具體時(shí)間的組合
日歷型時(shí)間與具體時(shí)間的組合,如“2010年的春天”、“2008年5月的星期五”。為了保持時(shí)間信息的完整語義和推理的準(zhǔn)確性,按照時(shí)間單元分別進(jìn)行標(biāo)注,并標(biāo)注所參照的日歷型時(shí)間信息。同理,日歷型時(shí)間與時(shí)間詞、周/星期時(shí)間組合時(shí),其標(biāo)注方法相同。
2008年5月12日 14時(shí)28分04秒,四川汶川、北川,8級(jí)強(qiáng)震猝然襲來,大地顫抖,山河移位,滿目瘡痍,生離死別。
(3) 具體時(shí)間標(biāo)注
尋找具體時(shí)間的上下文信息,若包含日歷型時(shí)間且具有參照關(guān)系,則按照日歷型時(shí)間與具體時(shí)間標(biāo)注規(guī)則進(jìn)行標(biāo)注。若無參照關(guān)系的日歷型時(shí)間,則參照時(shí)間設(shè)置為缺省。
截止16時(shí)35分,最大的降雨量地區(qū)是202.3毫米。
(4) 參照時(shí)間標(biāo)注
參照時(shí)間的標(biāo)注,不僅要標(biāo)注其值,還要標(biāo)注其參照的絕對(duì)時(shí)間,以便于時(shí)間值的推理。特別是當(dāng)其參照的絕對(duì)時(shí)間不是日歷型時(shí)間時(shí),應(yīng)尋找其上下文中最近距離的日歷型時(shí)間。
發(fā)表于南京日?qǐng)?bào)2013年9月2日。8月23日,華潤(rùn)蘇果發(fā)生搶劫案,在此前一天發(fā)生了盜竊事件。
(5) 段時(shí)間標(biāo)注
點(diǎn)時(shí)間和段時(shí)間是由文本表述的時(shí)間尺度決定的。一般情況下,時(shí)間表達(dá)多為點(diǎn)時(shí)間,如“11月30日下午19: 00左右”。如果強(qiáng)調(diào)“多長(zhǎng)時(shí)間”則為段時(shí)間,如“9天”、“l(fā)月14日至22日”。段時(shí)間需要標(biāo)注其起點(diǎn)(StartID)、終點(diǎn)(EndID)和時(shí)間類型。對(duì)于非日歷型時(shí)間的段時(shí)間表達(dá),需要標(biāo)注其參照時(shí)間關(guān)系。
青海省玉樹縣于2010年4月14日晨發(fā)生地震,大小余震不斷,持續(xù)到4月25日。
(6) 時(shí)間修飾成分
例如,“昨天上午10時(shí)45分左右”、“截至昨天下午2時(shí)”、“2008年底前”等時(shí)間描述中,詞匯“左右、截止、前”均是對(duì)時(shí)間的修飾成分。
“昨天 上午 10時(shí)45分 左右”。
(7) 不可標(biāo)注時(shí)間
部分文本描述與時(shí)間有緊密的聯(lián)系,但無法確定其值,如“在、從、自、到、至、才、然后、其次、后來、經(jīng)常、偶爾、多次、通常、反復(fù)、有時(shí)、從來”等。在上下文中不指示一定時(shí)間的時(shí)間詞匯,如“這里的冬天很冷”中的“冬天”。此類時(shí)間描述不予標(biāo)注。
3.3 事件實(shí)體標(biāo)注模式
時(shí)間、空間和屬性是事物本身固有的三個(gè)基本特征,是反映事物狀態(tài)和演變過程的重要構(gòu)件[17],是事件客觀性判斷的依據(jù)。本文事件分類參照《突發(fā)公共事件分類(國(guó)發(fā)〔2005〕11號(hào))》中分類標(biāo)準(zhǔn)。事件實(shí)體標(biāo)注采用
(1) 事件名稱標(biāo)注
對(duì)于蘊(yùn)含具體地理位置、時(shí)間和屬性信息,或通過上下文能夠判斷其具有確定的時(shí)空與屬性信息的事件,則為具名事件,否則視為不具名事件。使用標(biāo)簽form進(jìn)行區(qū)分,NAM表示具體事件,NOM表示非事件。
汶川地震的8度區(qū)面積約27787平方公里。 汶川地震紀(jì)念碑是一座具有強(qiáng)烈震撼力的紀(jì)念碑!
(2) 事件觸發(fā)詞匯標(biāo)注
當(dāng)事件名稱缺失時(shí),觸發(fā)詞匯在一定程度上標(biāo)志事件的發(fā)生,包括描述事件概念類型的詞匯(如地震、暴雨、泥石流等)和屬性信息詞匯(如7.8級(jí)地震)。根據(jù)時(shí)空約束信息判斷觸發(fā)詞匯是否指示具體事件,并使用標(biāo)簽form進(jìn)行區(qū)分。事件描述中經(jīng)常出現(xiàn)“爆發(fā)”、“發(fā)生”等動(dòng)詞,本規(guī)范不對(duì)其標(biāo)注。
從本月12日開始,四川部分地方降大暴雨,引發(fā)多處特大泥石流災(zāi)害。 地震又稱地動(dòng)、地振動(dòng),是地殼快速釋放能量過程中造成振動(dòng)。
(3) 事件觸發(fā)詞匯出現(xiàn)多個(gè)或者缺省
一個(gè)句子可能出現(xiàn)多個(gè)不同的事件觸發(fā)詞匯。當(dāng)該觸發(fā)詞匯指示不同事件,則分別標(biāo)注;若指示同一事件,則任選其一進(jìn)行標(biāo)注。若描述具體事件的句子中,沒有出現(xiàn)事件名稱和相關(guān)觸發(fā)詞匯,則標(biāo)記為事件詞缺省NONE。
北京強(qiáng)暴雨事件引發(fā)房山地區(qū)山洪暴發(fā),據(jù)馬河上游洪峰下泄,不到24小時(shí),已致37人遇難,190萬人受災(zāi)。 經(jīng)過行竊者和老板一番搏斗,書店中一片狼藉,兩個(gè)人躺在地上,遍地是血。
(4) 事件昵稱的標(biāo)注
部分事件描述出現(xiàn)“稱為××”、“視為××”等評(píng)價(jià)、程度信息,不做標(biāo)注。
1998年洪水,是本世紀(jì)發(fā)生的又一次全流域型的特大洪水,稱為“百年不遇之洪水”。
(5) 事件名稱與地名實(shí)體組合
地名實(shí)體經(jīng)常與事件名稱或觸發(fā)詞匯描述連接在一起,或者作為事件名稱的組成部分,表示事件及其發(fā)生位置兩層語義信息。為了保證語義信息的完整性,本文分別標(biāo)注地名實(shí)體、事件名稱或觸發(fā)詞匯,可以存在交叉標(biāo)注現(xiàn)象。
截至2008年9月25日12時(shí),四川汶川地震已確認(rèn)69227人遇難,374643人受傷,失蹤17923人。
(6) 指代事件的標(biāo)注
文本中,經(jīng)常出現(xiàn)上文中描述的事件信息,下文中省略事件的具體名稱或者觸發(fā)詞匯,以“該事件”、“此次災(zāi)難”等指代形式表達(dá)。以段落為單位,對(duì)指代事件及其參照事件和目標(biāo)事件進(jìn)行標(biāo)注。當(dāng)指代事件跨段落時(shí),只標(biāo)注其觸發(fā)詞匯和事件類型,不標(biāo)注其指代關(guān)系。
2008年5月12日14時(shí)28分04秒,汶川地震爆發(fā)。截至2008年9月25日12時(shí),此災(zāi)難已確認(rèn)69227人遇難,374643人受傷,失蹤17923人。
(7) 預(yù)測(cè)性事件
文本中經(jīng)常出現(xiàn)預(yù)測(cè)性事件的描述,如詞匯“預(yù)測(cè)”、“預(yù)報(bào)”、“將”、“未來”等。本文只標(biāo)注已經(jīng)發(fā)生的客觀性事件,對(duì)于預(yù)測(cè)性事件不予標(biāo)注,或者標(biāo)注為NOM并標(biāo)注預(yù)測(cè)性的指示詞匯。
天氣預(yù)報(bào)顯示,17到18日晚、21日至23日,四川包括廣元、綿陽、成都等8個(gè)地區(qū)將有兩次強(qiáng)降雨過程,尤其是21日至23日,局部地區(qū)降雨量甚至將超過200毫米。
(8) 屬性信息標(biāo)注
文本中蘊(yùn)含豐富的事件屬性信息描述。在事件實(shí)體標(biāo)注的基礎(chǔ)上,增加其屬性信息描述。本文中事件的屬性信息標(biāo)注采用最大粒度,不對(duì)其進(jìn)行細(xì)化。
震中位于北緯35.5°、東經(jīng) 99.5°,震源深度10 千米。
3.4 事件單元標(biāo)注模式
事件實(shí)體和時(shí)空信息及其語義關(guān)聯(lián)關(guān)系構(gòu)成完整的事件單元。在時(shí)間信息、地理位置信息(地名、空間關(guān)系)、事件實(shí)體、屬性各個(gè)要素單元標(biāo)注的基礎(chǔ)上關(guān)聯(lián)完整的事件單元。事件單元的判斷與標(biāo)注以段落為單位。事件單元采用
(1) 事件-時(shí)間關(guān)聯(lián)
包括EVEntity(事件實(shí)體)、TIME(時(shí)間信息)和TimeLINK(事件-時(shí)間關(guān)聯(lián))標(biāo)簽信息。
2008年5月12日,四川汶川、北川,8級(jí)強(qiáng)震。
(2) 事件-空間關(guān)聯(lián)
包括標(biāo)簽EVEntity(事件實(shí)體)、GNE(地名實(shí)體)、TLINK(拓?fù)潢P(guān)系)、DLINK(方向和距離關(guān)系)和LocLINK(事件-空間關(guān)聯(lián))。
北京時(shí)間2008年5月12日,四川省汶川縣發(fā)生里氏8.0級(jí)強(qiáng)震,地震烈度達(dá)到9度,嚴(yán)重破壞地區(qū)超過10萬平方千米。
在“事件-時(shí)間”、“事件-空間”關(guān)聯(lián)的基礎(chǔ)上,進(jìn)行事件單元的標(biāo)注。
2008年5月12日,四川省汶川縣發(fā)生8.0級(jí)強(qiáng)震,地震烈度達(dá)到9度,嚴(yán)重破壞地區(qū)超過10萬平方千米。
3.5 事件時(shí)序關(guān)系標(biāo)注模式
事件與事件之間,以及事件與某個(gè)時(shí)間點(diǎn)之間存在時(shí)間上的先后順序關(guān)系,即時(shí)序關(guān)系。事件組成要素和事件單元作為單獨(dú)孤立的事件節(jié)點(diǎn)存在,而時(shí)序關(guān)系將孤立的事件節(jié)點(diǎn)在時(shí)間上進(jìn)行關(guān)聯(lián)。為了保證事件時(shí)序關(guān)系的描述粒度較為適中,時(shí)間邊界較為清晰,本文將事件的時(shí)序關(guān)系分為前(Before)、后(After)和同時(shí)(Simultaneous)三種類型,分別表示一個(gè)事件發(fā)生在另一事件之前、之后、同時(shí)發(fā)生。事件時(shí)序關(guān)系標(biāo)注采用
2008年5月12日,四川汶川特大地震爆發(fā)后,隨著降雨的發(fā)生,北川部分地區(qū)多次發(fā)生泥石流災(zāi)害。
上例中完整的事件時(shí)空信息標(biāo)注結(jié)果如下:
2008年5月12,汶川特大地震爆發(fā)后,隨著降雨的發(fā)生,北川部分地區(qū)多次發(fā)生泥石流災(zāi)害。
4.1 語料庫標(biāo)注
語料標(biāo)注工作是在標(biāo)注規(guī)范的約束下,人工進(jìn)行文本識(shí)別和語義解析的過程。GATE是一個(gè)開源自然語言處理軟件,可接受XSD格式的schema文件,使用戶按照一定標(biāo)注框架對(duì)文本進(jìn)行標(biāo)注,同時(shí)提供標(biāo)注數(shù)據(jù)管理方案,經(jīng)過GATE處理的語料可統(tǒng)一存儲(chǔ)為XML格式。通過大規(guī)模新聞網(wǎng)頁語料的收集獲取、網(wǎng)頁去重與解析,以及分詞、詞性標(biāo)注等預(yù)處理,形成網(wǎng)頁文本源數(shù)據(jù)(約200萬字)。以GATE為標(biāo)注平臺(tái),參考本文設(shè)計(jì)的事件時(shí)空信息標(biāo)注體系,建立事件時(shí)空信息標(biāo)注語料庫(見圖3)。
圖3 基于GATE的事件時(shí)空信息標(biāo)注界面
實(shí)驗(yàn)中隨機(jī)抽取流感、南海軍事演習(xí)、中國(guó)東盟會(huì)議、地震、暴雨、干旱六類事件的350個(gè)文件進(jìn)行統(tǒng)計(jì),共有事件單元標(biāo)注實(shí)例1 057個(gè)。各類事件及其要素單元數(shù)量分布情況為: 流感事件330個(gè)(GNE為974個(gè)、Time為672個(gè)、Attribute為532個(gè)、Eventy為521個(gè)),南海軍事演習(xí)事件151個(gè)(GNE為1 031個(gè)、Time為312個(gè)、Attribute為688個(gè)、Eventy為330個(gè)),中國(guó)東盟會(huì)議事件78個(gè)(GNE為445個(gè)、Time為142個(gè)、Attribute為257個(gè)、Eventy為152個(gè)),暴雨事件139個(gè)(GNE為767個(gè)、Time為296個(gè)、Attribute為368個(gè)、Eventy為285個(gè)),地震事件171個(gè)(GNE為841個(gè)、Time為237個(gè)、Attribute為367個(gè)、Eventy為318個(gè)),干旱事件137個(gè)(GNE為538個(gè)、Time為333個(gè)、Attribute為262個(gè)、Eventy為244個(gè))。事件單元描述與地名、時(shí)間、屬性和事件實(shí)體單個(gè)要素通常呈現(xiàn)一對(duì)多的關(guān)系,一方面因?yàn)槭录旧泶嬖跁r(shí)空語義的變化,涉及多個(gè)地理位置和時(shí)間信息;另一方面文本描述中也存在部分時(shí)空信息與事件實(shí)體不相關(guān)聯(lián)的情況。總體上來講,語料庫語言描述特征帶有一定的普遍性,具有作為標(biāo)準(zhǔn)數(shù)據(jù)的研究和應(yīng)用能力。
4.2 事件時(shí)空信息抽取實(shí)驗(yàn)
(1) 基于規(guī)則模型的時(shí)間信息抽取
基于本文時(shí)間信息語料庫,構(gòu)建時(shí)間詞匯詞典和時(shí)間信息描述模式庫,設(shè)計(jì)時(shí)間信息匹配算法,采用觸發(fā)詞和規(guī)則模型相結(jié)合的方式進(jìn)行時(shí)間信息的抽取[18]。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),準(zhǔn)確率、召回率和F值分別為75.00%、88.24%和81.08%。同時(shí),針對(duì)中文文本中時(shí)間信息描述的模糊、省略、指代等常見現(xiàn)象,設(shè)計(jì)了相對(duì)時(shí)間、特定時(shí)間和時(shí)間段的推理和規(guī)范化算法,進(jìn)行中文文本中時(shí)間信息的語義解析。由于網(wǎng)頁文本中時(shí)間信息描述較為靈活,存在跨段落的省略和指代現(xiàn)象,標(biāo)注者對(duì)時(shí)間信息的參照關(guān)系可能漏標(biāo)或者標(biāo)注錯(cuò)誤,導(dǎo)致時(shí)間表達(dá)模板的數(shù)量和覆蓋性受到限制,從而在一定程度上影響時(shí)間信息的解析效果。
(2) 基于支持向量機(jī)模型的事件分類
事件分類是指判斷文本中描述的事件類型。觸發(fā)詞匯是事件判斷的必要條件,但包含了觸發(fā)詞匯的句子可能是事件,也可能不是事件。例如,“地震是一種正常的自然現(xiàn)象?!?,只是對(duì)地震的一種常識(shí)性描述。同時(shí),部分事件描述文本不包含觸發(fā)詞匯,卻傳遞具體的事件信息,如“9月20日,映秀鎮(zhèn)死亡人數(shù)已經(jīng)達(dá)到30人”。時(shí)間、空間和屬性是事物本身固有的三個(gè)基本特征,是事件客觀性判斷的依據(jù)。根據(jù)事件的時(shí)空表達(dá)特性,基于事件時(shí)空信息標(biāo)注語料,以時(shí)間信息、空間信息、屬性信息、事件名稱等標(biāo)注結(jié)果作為上下文約束特征,采用支持向量機(jī)模型,進(jìn)行中文文本中事件的分類[18]。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在封閉和開放測(cè)試中,分類的準(zhǔn)確率分別為92.30%和80.60%。可以看出,本文標(biāo)注語料具有較好的平衡性,機(jī)器學(xué)習(xí)效果較好。
探討中文文本中事件時(shí)空信息的標(biāo)注體系和語料庫標(biāo)注方法,充分考慮中文文本的語言描述特點(diǎn)和事件信息的時(shí)空語義特征,對(duì)事件的各要素單元及其語義關(guān)聯(lián)進(jìn)行標(biāo)注。以網(wǎng)頁文本為源數(shù)據(jù)的標(biāo)注語料庫,充分考慮語言描述的多樣性、自由性、普遍性,而且達(dá)到較大規(guī)模和較高標(biāo)注質(zhì)量,對(duì)文本中地理信息的語義解析有重要意義。未來研究工作主要包括以下方面:
(1) 主題事件的發(fā)生往往會(huì)引發(fā)后續(xù)的系列次生事件,事件之間存在廣泛的時(shí)序語義關(guān)系。例如,暴雨事件發(fā)生在山區(qū)或者溝谷深壑地區(qū),會(huì)引發(fā)山體滑坡、泥石流等事件。事件之間的時(shí)序關(guān)系描述是一個(gè)復(fù)雜的語義不確定性和模糊性的過程。未來將進(jìn)一步完善事件時(shí)空信息標(biāo)注體系和規(guī)范,特別是事件之間時(shí)序關(guān)系的標(biāo)注。
(2) 我國(guó)地域遼闊、歷史悠久,各個(gè)歷史時(shí)期、不同地域范圍的人們對(duì)事件時(shí)空信息有不同的描述方式。本論文研究主要針對(duì)簡(jiǎn)體中文文本描述中的突發(fā)公共事件,尚未考慮地域方言,香港、澳門、臺(tái)灣地區(qū)的語言表達(dá),以及歷史事件的時(shí)空信息結(jié)構(gòu)化表達(dá)。
(3) 本文構(gòu)建的標(biāo)注語料庫為中文文本中事件時(shí)空信息解析提供標(biāo)準(zhǔn)化的訓(xùn)練和測(cè)試數(shù)據(jù)。未來將基于該語料庫,探索事件時(shí)空信息的結(jié)構(gòu)化表達(dá)和可視化重構(gòu)方法,搭建事件時(shí)空信息的定性描述與GIS定量表達(dá)之間的橋梁。
[1] 閭國(guó)年,袁林旺,俞肇元. GIS技術(shù)發(fā)展與社會(huì)化的困境與挑戰(zhàn)[J].地球信息科學(xué)學(xué)報(bào),2013,15(4): 483-490.
[2] Palkowsky B,MetaCarta I. A New Approach to Information Discovery—Geography Really Does Matter[C]//Proceedings of the SPE Annual Technical Conference and Exhibition,United States,2005: 3231-3234.
[3] Goodchild M F. Twenty Years of Progress: GIScience in 2010[J]. Journal of Spatial Information Science,2013,1: 3-20.
[4] 俞士汶,朱學(xué)鋒,段慧明. 大規(guī)?,F(xiàn)代漢語標(biāo)注語料庫的加工規(guī)范[J]. 中文信息學(xué)報(bào),2000,14(6): 58-65.
[5] 馮志偉. 標(biāo)準(zhǔn)通用置標(biāo)語言SGML及其在自然語言處理中的應(yīng)用[J]. 當(dāng)代語言學(xué)(試刊),1998,4: 1-11.
[6] 俞士汶,段慧明,朱學(xué)鋒等. 北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 中文信息學(xué)報(bào),2002,16(5): 1-23.
[7] Kim J D,Ohta T,Tsujii J I. Multilevel Annotation for Information Extraction Introduction to the GENIA Annotation[J].Linguistic Modeling of Information and Markup Languages,2010,41: 125-142.
[8] Leidner J L. Toponym Resolution in Text: Annotation,Evaluation and Applications of Spatial Grounding of Place Names [D]. Edinburgh: University of Edinburgh,2008.
[9] Blaylock N,Swain B,Allen J. TESLA: A Tool for Annotating Geospatial Language Corpora[C]//Proceedings of the 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,2009: 45-28.
[10] Leidner J L. Toponym Resolution in Text: Annotation,Evaluation and Applications of Spatial Grounding of Place Names[J]. University of Edinburgh,2007,41(2): 124-126.
[11] 張雪英,朱少楠,張春菊.中文文本的地理命名實(shí)體標(biāo)注[J].測(cè)繪學(xué)報(bào),2012,41(1): 115-120.
[12] 張雪英,張春菊,朱少楠.中文文本的地理空間關(guān)系標(biāo)注[J].測(cè)繪學(xué)報(bào),2012,41(3): 468-474.
[13] 鄒紅建. 突發(fā)事件信息的標(biāo)注研究[D]. 碩士論文: 北京語言大學(xué),2008.
[14] 張永奎,張晴,王磊.面向信息處理的突發(fā)事件新聞?wù)Z料庫建設(shè)與應(yīng)用研究[J]. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,32(4): 546-551.
[15] 仲兆滿,劉宗田,周文等. 事件關(guān)系表示模型[J]. 中文信息學(xué)報(bào),2009,23(6): 56-60.
[16] 方經(jīng)民. 空間方位參照的認(rèn)知結(jié)構(gòu)[J]. 世界漢語教學(xué),1999,50 (4): 32-38.
[17] 吳信才,曹志月.時(shí)態(tài)GIS的基本概念、功能及實(shí)現(xiàn)方法[J].中國(guó)地質(zhì)大學(xué)學(xué)報(bào),2002,27(3): 241-250.
[18] 張春菊.中文文本中事件時(shí)空與屬性信息解析方法研究[D].南京師范大學(xué)博士學(xué)位論文,2013.
Annotation of Spatial-Temporal Information of Event in Chinese Text
ZHANG Chunju1,ZHANG Xueying2,WANG Shu2,LIAO Jianping2,CHEN Xiaodan2
(1. School of Civil Engineering,Hefei University of Technology,Hefei,Auhui 230009,China;2. Key Laboratory of Uirtual Geographic Environments,Nanjing Normal University, Nanjing, Jiangsu 210046,China)
Text has become an important data source of geo-spatial information. Currently,researches on structured geo-spatial information expression focused on extraction of spatial information,such as place names and spatial relations in text. However,abundant temporal information,event information and spatial-temporal information are ignored. In this paper,annotation of spatial-temporal information of event in Chinese text is proposed. Firstly,the linguistic characteristics of spatial-temporal information of event in Chinese text are analyzed. Then,an annotation schema is presented,and the annotation specification is decribed in detail.Finally,GATE (General Architecture for Text Engineering) is introduced as the annotation platform,and a large-scale annotated corpus based on the Web data source is developed and evaluated. This study effectively addresses the current lack of related specification and standard data for interpretation of event and spatial-temporal information in Chinese text.
Chinese text; spatial-temporal information; event; annotation schema; annotated corpus
張春菊(1984—),博士,講師,主要研究領(lǐng)域?yàn)榈乩硇畔⒅悄芴幚砼c服務(wù)。E?mail:zcjtwz@sina.com張雪英(1970—),博士,教授,主要研究領(lǐng)域?yàn)榈乩硇畔⒗碚撆c應(yīng)用研究。E?mail:zhangsnowy@163.com王曙(1989—),碩士,博士研究生,主要研究領(lǐng)域?yàn)榈乩硇畔⑿问交c空間化方法。E?mail:shuwang8951@hotmail.com
2014-05-09 定稿日期: 2014-12-23
國(guó)家自然科學(xué)基金(41401451,40971231),國(guó)家863項(xiàng)目(2012AA12A403-3),中央高?;究蒲袠I(yè)務(wù)項(xiàng)目(JZ2014HGBZ0064),江蘇省測(cè)繪地理信息科研項(xiàng)目(JSCHKY201502)
1003-0077(2016)03-0213-10
TP391
A