国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

時(shí)間關(guān)系識(shí)別研究進(jìn)展

2011-10-15 01:37:04譚紅葉鄭家恒梁吉業(yè)
中文信息學(xué)報(bào) 2011年5期
關(guān)鍵詞:表達(dá)式全局語料庫

譚紅葉,鄭家恒,梁吉業(yè)

(1.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,山西太原030006)(2.太原國(guó)家高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū),山西太原030006)

1 概述

文本中時(shí)間關(guān)系(Temporal Relation)識(shí)別是NLP(Natural Language Processing)中語義信息處理的一個(gè)重要任務(wù),是實(shí)現(xiàn)自然語言理解的基礎(chǔ)。近十年來,國(guó)際上召開了許多關(guān)于時(shí)間信息處理方面的會(huì)議,例如,1994開始迄今為止已連續(xù)舉辦了17屆T IMES系列論壇(TIME Symposium Series on Temporal Representation and Reasoning)[1],AAAI2000大會(huì)上推出關(guān)于空間和時(shí)間粒度的分會(huì)(Workshop on Spatial and Temporal Granularity)[2];ACL2006會(huì)議上召開了時(shí)間和事件標(biāo)注與推理分會(huì)(Workshop on Annotation and Reasoning about Time and Events)[3];2007年,時(shí)間關(guān)系的識(shí)別被SEMEval會(huì)議列為一項(xiàng)重要評(píng)測(cè)任務(wù)(Temp-Eval-1)[4]……,這些會(huì)議有力地推動(dòng)了時(shí)間表示和推理方面的研究。與此同時(shí),歐美各國(guó)政府也開始大力支持時(shí)間語義信息的處理。例如,美國(guó)ARDA部門2002年資助了AQUINT計(jì)劃,致力于改進(jìn)問答系統(tǒng)中內(nèi)容理解和時(shí)間語義信息處理的不足。在該計(jì)劃的推動(dòng)下,Brandeis大學(xué)于2003年推出了時(shí)間、事件及時(shí)間關(guān)系標(biāo)注的標(biāo)準(zhǔn) TimeML(Markup Language for Temporal and Event Expressions)和英語TimeBank語料庫,為英文時(shí)間信息的自動(dòng)處理奠定了基礎(chǔ)[5];英國(guó)的醫(yī)療研究委員會(huì)2007年啟動(dòng)了CLEF醫(yī)療服務(wù)項(xiàng)目,旨在自動(dòng)識(shí)別和抽取醫(yī)療報(bào)告中的時(shí)間關(guān)系,為自動(dòng)建立病人的醫(yī)療檔案奠定基礎(chǔ)[6]。

1.1 時(shí)間關(guān)系的定義

時(shí)間關(guān)系指文本所描述事件之間或事件與時(shí)間之間的關(guān)系,主要包括:事件與時(shí)間的錨定關(guān)系(Temporal Anchoring)、事件之間的時(shí)序關(guān)系(Temporal Ordering)等[7]。從處理的文本范圍來看,可分為局部時(shí)間關(guān)系(Local Temporal Relation)和全局時(shí)間關(guān)系(Global Temporal Relation)。其中,局部時(shí)間關(guān)系指一個(gè)句子或鄰近句子中事件的時(shí)間關(guān)系,而全局時(shí)間關(guān)系指在整篇或多篇文本的范圍中確定所有可能的時(shí)間關(guān)系。

時(shí)間關(guān)系的識(shí)別是時(shí)間信息處理的關(guān)鍵部分,屬于語義研究層面,可形式化定義為:為每個(gè)時(shí)間—事件對(duì)<ti,ej>∈T×E或每個(gè)事件—事件對(duì)<ei,ej>∈E×E分配一個(gè)時(shí)間關(guān)系類別標(biāo)記rk∈R,其中T={t1,t2,…,tm}表示預(yù)先識(shí)別的時(shí)間表達(dá)式集合,E={e1,e2,…,en}表示預(yù)先識(shí)別的事件表達(dá)式集合,R={r1,r2,…,rl}表示預(yù)先定義的時(shí)間關(guān)系集合。

Allen提出了13種基本時(shí)間關(guān)系[8],分別為before、overlap、meet、equal、start、finish、during 及其逆關(guān)系(equal沒有逆關(guān)系)。參照Allen的定義,TimeML標(biāo)準(zhǔn)提出了14種時(shí)間關(guān)系,分別為:simultaneous、identical、before、after、immediately before、immediately after、including、being included、during 、being during 、beginning 、being begun 、ending、being ended。表1列出了這兩個(gè)時(shí)間關(guān)系集合的對(duì)照情況,可以看出不同之處在于:(1)TimeML中的simultaneous與identical有重疊,identical可以看作simultaneous的子類,這兩個(gè)類別與Allen的equal對(duì)應(yīng);(2)Allen的overlap在TimeML中沒有定義,而 TimeML中的during關(guān)系和 including關(guān)系與Allen定義中的during關(guān)系對(duì)應(yīng),不過TimeMlL中的during關(guān)系更強(qiáng)調(diào)事件在某一時(shí)段的持續(xù)性。

表1 兩種時(shí)間關(guān)系集合對(duì)應(yīng)表

1.2 相關(guān)術(shù)語

NLP中,與時(shí)間關(guān)系相關(guān)的幾個(gè)術(shù)語有:“時(shí)間鏈”(Timeline或 Temporal Chain)、“時(shí)間結(jié)構(gòu)”(Temporal Structure)、“時(shí)間戳”(Timestamp)和“時(shí)間論元”(Temporal Argument)。其中,“時(shí)間鏈”是指將相關(guān)事件按照時(shí)間先后順序排序后形成的線性序列{e1,e2,…,en},序列中的節(jié)點(diǎn)是事件ei及其描述信息,一般包括:事件標(biāo)識(shí)、事件描述、事件發(fā)生或持續(xù)的時(shí)間信息等;n是鏈的規(guī)模;序列中的(ei,ei+1)表示ei發(fā)生在ei+1之前??梢钥闯觥皶r(shí)間鏈”實(shí)質(zhì)是多個(gè)事件的全局時(shí)序關(guān)系,NLP中時(shí)間關(guān)系識(shí)別的最終目標(biāo)就是建立“時(shí)間鏈”。如果對(duì)“時(shí)間鏈”中包含的信息進(jìn)行擴(kuò)充,例如,增加事件節(jié)點(diǎn)的參與者(論元)信息,補(bǔ)充兩個(gè)事件間其他語義關(guān)系(如:因果關(guān)系),則“時(shí)間鏈”可以擴(kuò)展為“事件語義鏈”或“事件語義圖”。

早期的“時(shí)間鏈”大多為手工建立,并以自然語言的形式來表示。為了區(qū)別這種采用自然語言形式表示的“時(shí)間鏈”,又引入了術(shù)語“時(shí)間結(jié)構(gòu)”來專門表示面向機(jī)器推理的全局時(shí)間關(guān)系,在這種表示形式中,強(qiáng)調(diào)在不同事件之間引入時(shí)間關(guān)系鏈來實(shí)現(xiàn)時(shí)間推理[9]。隨著研究的深入,研究者不再?gòu)?qiáng)調(diào)“時(shí)間鏈”、“時(shí)間結(jié)構(gòu)”這兩個(gè)術(shù)語的細(xì)微差別。

“時(shí)間戳”指與事件存在錨定關(guān)系的時(shí)間[7],即事件與時(shí)間之間存在錨定關(guān)系,與前面所述的temporal anchoring類似?!皶r(shí)間論元”多指與事件有錨定關(guān)系的時(shí)間表達(dá)式,且充當(dāng)事件動(dòng)詞的論元。賓州命題語料庫 Propbank中標(biāo)注了事件的時(shí)間論元,用 ARGM-TMP來標(biāo)記[10]。ACE2005語料庫也標(biāo)注了事件或關(guān)系的時(shí)間論元,并且對(duì)時(shí)間論元進(jìn)行了分類,共涉及到Time-Within,Time-Holds,Time-Starting,Time-Ending,Time-Before,Time-After,Time-At-Beginning,Time-At-End等8種不同類型,但這些語料庫并不關(guān)注事件間的時(shí)間關(guān)系[11]。

2 相關(guān)標(biāo)準(zhǔn)、資源與評(píng)測(cè)

時(shí)間關(guān)系識(shí)別研究取得的幾個(gè)重要成果包括:TimeML標(biāo)準(zhǔn)的產(chǎn)生;時(shí)間關(guān)系標(biāo)注語料庫的建立;時(shí)間關(guān)系評(píng)測(cè)任務(wù)(TempEval)的推出。

2.1 TimeML標(biāo)準(zhǔn)

TimeML標(biāo)準(zhǔn)在美國(guó)AQUINT計(jì)劃的資助下于2003年由Brandeis大學(xué)的James Pustejovsky負(fù)責(zé)推出,有效解決了英文文本中事件、時(shí)間和時(shí)間關(guān)系的標(biāo)注。規(guī)定的標(biāo)注內(nèi)容有:

(1)時(shí)間表達(dá)式(Temporal Expression)的標(biāo)注。采用TIMEX3 XM L標(biāo)記來標(biāo)注,標(biāo)注屬性有:①時(shí)間表達(dá)式標(biāo)識(shí)(TID);②類別(Type),包括:時(shí)間(Time)、日期(Date)、持續(xù)時(shí)間(Duration)、集合時(shí)間(Set,指周期性或規(guī)律性時(shí)間,如:每周);③值(Value),對(duì)時(shí)間表達(dá)式規(guī)范化后的值。時(shí)間規(guī)范化是將時(shí)間表達(dá)式映射成與日歷時(shí)間相對(duì)應(yīng)的時(shí)間點(diǎn),或用起始時(shí)間點(diǎn)和終止時(shí)間點(diǎn)表示的段時(shí)間,具體采用ISO8601標(biāo)準(zhǔn)規(guī)定的表示形式。還有兩個(gè)屬性是可選標(biāo)注屬性:一個(gè)為FunctionInDocument屬性,可能值為文檔創(chuàng)建時(shí)間、修正時(shí)間、到期時(shí)間、發(fā)表時(shí)間、發(fā)行時(shí)間和NONE等,該屬性可以為時(shí)間推理提供參照;另一個(gè)為TemporalFunction屬性,該屬性允許使用一些算法推后進(jìn)行時(shí)間推理,是布爾形式的取值,可能為TRUE或FALSE??梢钥闯?這兩個(gè)可選屬性為后期的時(shí)間推理和時(shí)間計(jì)算提供了依據(jù)。

(2)事件(Event)的標(biāo)注。TimeML中,描述某事件發(fā)生或境況狀態(tài)持續(xù)的語言片段(可能是動(dòng)詞、形容詞、名詞化結(jié)構(gòu)、從句、介詞短語等)都被標(biāo)注成事件。標(biāo)注的屬性主要有:①事件標(biāo)識(shí)(EID);②類型(Class),包括 7 種類型 :Occurrence、State、Reporting、I-Action 、I-State、Aspectual和 Perception 。③與時(shí)間相關(guān)的屬性,包括:時(shí)態(tài)(Tense)、體態(tài)(Aspect)和情態(tài)(Modal)信息。④事件的正負(fù)性屬性(Polarity),可能性取值為pos或neg。

(3)時(shí)間信號(hào)詞(Signal)的標(biāo)注。引入時(shí)間信號(hào)詞是因?yàn)闀r(shí)間關(guān)系的傳遞方式有兩種:一種是通過介詞、連詞等顯式傳遞,如:“John flew to Boston on Friday.”;另一種方式是隱式傳遞,主要通過句法結(jié)構(gòu)或省略關(guān)系來表示,如:“John's flight,Friday at 5,will be crowded.”。顯然,時(shí)間信號(hào)詞的的引入對(duì)確定時(shí)間關(guān)系和時(shí)間推理很有幫助,因此TimeM L中對(duì)顯式表明時(shí)間關(guān)系的介詞、連詞、not和no等正負(fù)傾向詞、時(shí)間數(shù)量詞(如:twice、three times)等進(jìn)行標(biāo)注,并用Signal標(biāo)簽來標(biāo)識(shí),目前標(biāo)注屬性只有標(biāo)識(shí)號(hào)id。

(4)時(shí)間關(guān)系的標(biāo)注。引入SLINK、ALINK和TLINK三種標(biāo)記,實(shí)現(xiàn)了時(shí)間關(guān)系的標(biāo)注,而不考慮具體的時(shí)間關(guān)系傳遞方式。其中SLINK用于事件之間或事件與時(shí)間信號(hào)詞之間的關(guān)系;ALINK表示體事件(Aspectual Event)與論元事件(Argument Event)之間的關(guān)系;TLINK表示事件之間或事件與時(shí)間的關(guān)系,目前時(shí)間關(guān)系的識(shí)別主要就是指TLINK的標(biāo)注,13種T LINK的類型見論文1.1部分。

2.2 相關(guān)語料庫

英文時(shí)間關(guān)系標(biāo)注語料庫主要有:TimeBank語料庫,AQUAINT TimeML語料庫和TempEval評(píng)測(cè)語料庫[12-16]。

TimeBank語料庫根據(jù)TimeML標(biāo)準(zhǔn)人工標(biāo)注建立,目前為止的最新版本是2006年發(fā)布的Time-Bank1.2,包括183篇新聞文本,共標(biāo)注8300個(gè)事件、1400個(gè)時(shí)間表達(dá)式,6000個(gè)時(shí)間關(guān)系(LINK)和2100個(gè)時(shí)間信號(hào)詞[12]。TimeBank被認(rèn)為是時(shí)間關(guān)系的標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù),為研究時(shí)間信息如何組織和傳遞提供了寶貴的經(jīng)驗(yàn)和數(shù)據(jù)基礎(chǔ)。該語料庫是免費(fèi)的,并已納入到語言數(shù)據(jù)協(xié)會(huì)(LDC),編號(hào)為L(zhǎng)DC2006T08。

AQUAINT TimeML語料庫,又稱作Opinion語料庫,包含183篇新聞文本,內(nèi)容和標(biāo)注風(fēng)格與TimeBank1.2非常類似,該語料也可在網(wǎng)上免費(fèi)下載[12]。

TempEval-2007數(shù)據(jù)集基于TimeBank1.2得到,專門為TempEval-2007評(píng)測(cè)推出[13-14]。其中訓(xùn)練集包含162篇文檔,評(píng)測(cè)集包含20篇文檔。與TimeBank的主要不同是:采用簡(jiǎn)化的時(shí)間關(guān)系集合 ,只涉及 before、after、overlap 、before-or-overlap,overlap-or-after,vague等6種時(shí)間關(guān)系,后3種關(guān)系是開始標(biāo)注語料后發(fā)現(xiàn)需要引入來解決難以確定關(guān)系的模糊情況。該語料庫的訓(xùn)練集合可在網(wǎng)上免費(fèi)下載。

TempEval-2010數(shù)據(jù)集涉及到 6種語言:漢語、英語、意大利語、法語、韓語和西班牙語[15-16]。標(biāo)注的 token數(shù)分別為:23000、63000、27000、19000、14000和68000。英語語料庫在TimeBank語料基礎(chǔ)上按照本次評(píng)測(cè)任務(wù)建立。西班牙語的語料庫選自AnCora語料庫,并按照西班牙語的標(biāo)注規(guī)范建立。

除此以外,還有面向醫(yī)藥領(lǐng)域的CLEF語料庫[6]。該語料庫由英國(guó)Sheffield大學(xué)推出,標(biāo)注的文本有三種類型:臨床醫(yī)療記錄、醫(yī)療檢查等圖象報(bào)告和組織病理學(xué)報(bào)告,共涉及到20234個(gè)病人。主要標(biāo)注有:臨床醫(yī)療實(shí)體(如:所用藥物、醫(yī)療檢查等)及其關(guān)系、時(shí)間表達(dá)式、臨床醫(yī)療實(shí)體之間的時(shí)間關(guān)系。時(shí)間關(guān)系涉及到:before、after、overlap和includes。

2.3 TempEval評(píng)測(cè)

在NLP領(lǐng)域,MUC-6,MUC-7和ACE等評(píng)測(cè)會(huì)議提出了針對(duì)時(shí)間表達(dá)式識(shí)別及規(guī)范化(T ERN)的評(píng)測(cè),但不涉及時(shí)間關(guān)系。TempEval評(píng)測(cè)旨在對(duì)時(shí)間關(guān)系進(jìn)行評(píng)測(cè)。由于自動(dòng)識(shí)別文本中的所有的時(shí)間表達(dá)式、事件和時(shí)間關(guān)系是一項(xiàng)非常困難的任務(wù),因此 TempEval-2007進(jìn)行了任務(wù)簡(jiǎn)化,提出了3個(gè)子任務(wù)[13-14]:(A)確定同一句子中的事件—時(shí)間的關(guān)系;(B)確定事件與文檔創(chuàng)建時(shí)間的關(guān)系;(C)確定相鄰句子主要事件的順序關(guān)系(成對(duì)句子的主要事件的關(guān)系,而不是整個(gè)文檔)。TempEval-2007評(píng)測(cè)任務(wù)的簡(jiǎn)化還體現(xiàn)在:①語料預(yù)先標(biāo)注好所需的事件和時(shí)間表達(dá)式,以便于研究者可完全關(guān)注時(shí)間關(guān)系識(shí)別,避免事件和時(shí)間識(shí)別的差異造成的性能差異而影響評(píng)測(cè);②采用縮減的時(shí)間關(guān)系集:before、after、overlap 、before-or-overlap,overlap-or-after,vague,有利于產(chǎn)生可靠的標(biāo)注數(shù)據(jù),有效緩解TimeBank數(shù)據(jù)稀疏的問題;③采用了縮減的事件集合。事件集合的縮減在三個(gè)評(píng)測(cè)任務(wù)中各有不同。任務(wù)A和B只涉及到事件目標(biāo)列表中(E-vent Target List,ET L)的有限事件。具體來說,在TimeBank中出現(xiàn)了20次以上的事件術(shù)語就會(huì)包含在ET L列表中。任務(wù)C則只關(guān)注主要事件,一般為句法占統(tǒng)治地位的動(dòng)詞表示的事件。

TempEval-2007共有六個(gè)參賽隊(duì):分別是美國(guó)科羅拉多大學(xué)[17],美國(guó)的語言計(jì)算公司[18],日本Nara科學(xué)技術(shù)研究所[19],英國(guó)的 Sheffield大學(xué)[20],英國(guó)Wolverhampton大學(xué)[21],歐洲XEROX研究中心[22]。

TempEval-2010提出六項(xiàng)任務(wù):(A)時(shí)間識(shí)別,需要確定Type和Value;(B)事件識(shí)別,需要確定Class,Tense,Aspect,Polarity和Modality信息;(C)同一句子中事件—時(shí)間的關(guān)系,該任務(wù)進(jìn)一步局限于事件在句法上支配時(shí)間或事件與時(shí)間處于同一名詞短語;(D)事件與文檔創(chuàng)建時(shí)間的關(guān)系;(E)相鄰句子中兩個(gè)主要事件的時(shí)序關(guān)系;(F)兩個(gè)事件的時(shí)間關(guān)系,其中一事件在句法上支配另一個(gè)事件??梢钥闯?TempEval-2010有四項(xiàng)時(shí)間關(guān)系任務(wù),其中任務(wù) C、D、E與 TempEval-2007基本一致。TempEval-2010的時(shí)間關(guān)系集合與TempEval-2007相同,語種由英語擴(kuò)大到漢語、英語、意大利語、法語、韓語和西班牙語等六種,參評(píng)者可以選擇參評(píng)任務(wù)和語種。

TempEval-2010中共提交18個(gè)系統(tǒng),其中10個(gè)系統(tǒng)參與了時(shí)間關(guān)系任務(wù),八個(gè)系統(tǒng)為英語語種任務(wù),兩個(gè)為西班牙語任務(wù)。參賽單位分別為:美國(guó)的Rochester大學(xué)[23],美國(guó)的北卡羅萊那州立大學(xué)[24],英國(guó)的 Shef fi eld大學(xué)[25],英國(guó)的 Edinburgh大學(xué)[26],德國(guó)的Heidelberg大學(xué)[27],西班牙的Alicante大學(xué)[28-29],西班牙的馬德里卡洛斯三世大學(xué)[30],比利時(shí)的魯汶大學(xué)[31],印度的 Jadavpur大學(xué)[32]。

TempEval-2007和 TempEval-2010的最佳評(píng)測(cè)結(jié)果如表2所示。

表2 TempEval中最佳評(píng)測(cè)結(jié)果

3 時(shí)間關(guān)系識(shí)別方法

3.1 局部時(shí)間關(guān)系的識(shí)別

局部時(shí)間關(guān)系識(shí)別同全局時(shí)間關(guān)系相比,處理的文本范圍小,難度較低。目前的識(shí)別方法主要有以下三類。

(1)基于規(guī)則的方法。TimeBank語料出現(xiàn)之前,多采用基于規(guī)則的方法大多關(guān)注對(duì)時(shí)間關(guān)系有影響的語言機(jī)制和語言知識(shí)(如:時(shí)態(tài)、體態(tài)、修辭關(guān)系和語用約束等)的研究。一般是預(yù)先建立好規(guī)則集,集合中的規(guī)則描述了如何根據(jù)上下文特征確定時(shí)間關(guān)系和時(shí)間關(guān)系的傳遞規(guī)律。規(guī)則包括兩部分:測(cè)試條件和相應(yīng)的動(dòng)作(如:分類),作用范圍可能是句子或篇章,可以通過人工或自動(dòng)獲取。系統(tǒng)有一個(gè)規(guī)則解釋器讀取規(guī)則并與每個(gè)實(shí)例匹配,然后根據(jù)匹配情況做出相應(yīng)的動(dòng)作。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,目前單純采用規(guī)則的方法比較少。例如,TempEval-2007中,只有歐洲XEROX研究中心的XRCE-T系統(tǒng)采用了這種方法[22]。該系統(tǒng)將時(shí)間處理融入到基于規(guī)則的XIP系統(tǒng)。XIP系統(tǒng)抽取基本的語法關(guān)系,并以依存鏈的形式抽取論元角色。系統(tǒng)擴(kuò)展后,通過介詞短語與謂詞之間的依存鏈來反映事件—時(shí)間的關(guān)系,將時(shí)間分析與深層句法分析聯(lián)系在一起。時(shí)間信息的處理根據(jù)規(guī)則分為幾個(gè)層次:首先利用局部規(guī)則識(shí)別時(shí)間表達(dá)式;然后利用句子級(jí)的規(guī)則確定同一句子中時(shí)間—事件和事件—事件的關(guān)系,最后用篇章級(jí)的規(guī)則來推理得到新的關(guān)系。其他基于規(guī)則方法的研究還有Mani和Wison利用規(guī)則在事件間傳遞時(shí)間信息,比較小的測(cè)試集(8505個(gè)詞)上獲得了 59.4%的準(zhǔn)確率[33];Filatiova和Hovy針對(duì)單一類型的事件獲取時(shí)間戳信息,在172個(gè)句子的測(cè)試集上取得了82%的準(zhǔn)確率[34];Schilder和Habel利用規(guī)則推導(dǎo)時(shí)間關(guān)系,在德文數(shù)據(jù)上獲得了84%的準(zhǔn)確率[35]。不過上述研究由于采用的數(shù)據(jù)集不同,所以難以作出比較。

(2)基于機(jī)器學(xué)習(xí)的方法。TimeBank語料的建立為基于機(jī)器學(xué)習(xí)方法的使用提供了基礎(chǔ)。比較流行的做法是把時(shí)間關(guān)系的識(shí)別看作成對(duì)分類(Pairwise Category)問題,即將事件—事件對(duì)或事件—時(shí)間對(duì)表示成特征向量,然后選擇合適的分類模型(及機(jī)器學(xué)習(xí)方法)進(jìn)行分類。其關(guān)鍵問題是選擇有效的特征和合適的機(jī)器學(xué)習(xí)算法。使用的主要特征有:①詞形和詞性特征,例如,時(shí)間詞、事件詞、介詞、助動(dòng)詞、連詞和事件與時(shí)間之間的詞等;②事件特征,包括時(shí)態(tài)、體態(tài)和情態(tài)、事件類別等;③句法特征,例如,事件和時(shí)間之間的句法樹或依存鏈等;④語義特征,例如,事件動(dòng)詞在句中的語義角色、事件的共指信息等。使用的主要機(jī)器學(xué)習(xí)方法有:ME 、SVM 、Bayes、CRF 等 。 研究表明,不同系統(tǒng)和不同任務(wù)采用不同的特征,不同的機(jī)器學(xué)習(xí)方法有效特征也不同,同一機(jī)器學(xué)習(xí)方法在不同任務(wù)表現(xiàn)也不同。代表性研究有:Mani等在假設(shè)時(shí)間表達(dá)式、事件詞識(shí)別都正確的基礎(chǔ)上,利用最大熵分類模型對(duì)每個(gè)事件對(duì)進(jìn)行時(shí)序關(guān)系的識(shí)別[36];Chambers等提出了一個(gè)兩階段的時(shí)間關(guān)系識(shí)別方法,第一階段學(xué)習(xí)時(shí)態(tài)、體態(tài)、模態(tài)、正負(fù)性、事件類別等事件屬性,第二階段利用第一階段得到的屬性作為特征進(jìn)行事件對(duì)的事件關(guān)系的判別[37]。

另外一種思路是將時(shí)間關(guān)系識(shí)別看做序列標(biāo)注問題。按照文本中的出現(xiàn)順序,事件—事件對(duì)或事件—時(shí)間對(duì)可以被看做一個(gè)序列,因此可采用序列標(biāo)注模型識(shí)別時(shí)間關(guān)系。序列標(biāo)注問題可形式化為:給定一個(gè)觀察序列 x=<x1,x2,…,xn>,通過最大化一個(gè)目標(biāo)函數(shù) f(x)=argmaxF(x,y),得到一個(gè)標(biāo)記序列y=<y1,y2,…,yn>。這里xi為事件—時(shí)間對(duì)<ti,ej>或事件—事件對(duì)<ei,ej>,yi屬于預(yù)先定義的時(shí)間關(guān)系集合R={r1,r2,…,rl}。例如,TempEval-2007中,日本的NAIST系統(tǒng)使用HMM_SVM 序列標(biāo)注模型識(shí)別時(shí)間關(guān)系[19]。

(3)混合方法。就是將機(jī)器學(xué)習(xí)方法和規(guī)則結(jié)合起來識(shí)別時(shí)間關(guān)系。不同的系統(tǒng),規(guī)則用途不同。一種用途是通過刻畫時(shí)間關(guān)系存在和傳遞規(guī)律的規(guī)則來確定時(shí)間關(guān)系。還有一些學(xué)者給規(guī)則賦予了新用途。例如,Mani等利用時(shí)間關(guān)系傳遞規(guī)則建立時(shí)間閉包,擴(kuò)大訓(xùn)練語料規(guī)模,使系統(tǒng)性能獲得了提升[36]。

3.2 全局時(shí)間關(guān)系識(shí)別

時(shí)間關(guān)系識(shí)別的最終目標(biāo)是確定全局時(shí)間關(guān)系,形成時(shí)間鏈,其關(guān)鍵問題為:在全局文本范圍內(nèi),如何在局部時(shí)間關(guān)系間發(fā)現(xiàn)建立新的聯(lián)系,形成相容的全局時(shí)間關(guān)系。目前全局時(shí)間關(guān)系識(shí)別的主要方法有:

(1)利用全局模型確定全局時(shí)間關(guān)系。模型一般包含:①一個(gè)目標(biāo)函數(shù);②一組約束條件,這組約束條件描述和體現(xiàn)了應(yīng)當(dāng)滿足的全局聯(lián)系;③一定的尋優(yōu)策略,通過該策略可找到滿足約束的最優(yōu)解決方案。具體的尋優(yōu)策略為貪心策略和整數(shù)線性規(guī)劃策略。其中貪心策略只可達(dá)到局部最優(yōu),而整數(shù)線性規(guī)劃策略可實(shí)現(xiàn)全局最優(yōu)。Bramsen等最先提出了這種思路,并明確得出整數(shù)線性規(guī)劃策略效果較好的結(jié)論[38]。Chamber和Jurafsky對(duì)此模型進(jìn)行了深入探討[39],發(fā)現(xiàn)局部時(shí)間關(guān)系的連通性對(duì)全局約束模型影響很大。如果局部時(shí)間關(guān)系圖弱連通,則約束難以傳遞,全局模型作用不大。為解決這個(gè)問題,他們引入時(shí)間推理構(gòu)件,充分考慮事件—事件鏈、事件—時(shí)間鏈和時(shí)間—時(shí)間鏈信息,盡可能增強(qiáng)時(shí)間關(guān)系圖的連通性,豐富時(shí)間關(guān)系圖的信息。實(shí)驗(yàn)表明,全局模型可以有效提升時(shí)間關(guān)系識(shí)別的準(zhǔn)確率。

(2)基于事件共享論元(實(shí)體)來建立事件—時(shí)間鏈。該方法由Chamber和Jurafsky提出[40]。他們從事件的共享論元入手來發(fā)現(xiàn)事件之間的聯(lián)系,進(jìn)而對(duì)事件進(jìn)行排序。該方法基于這種假設(shè):共享論元的動(dòng)詞(事件多由動(dòng)詞來體現(xiàn))比那些不共享論元的動(dòng)詞更可能形成一個(gè)敘事鏈。具體實(shí)現(xiàn)時(shí)分為三個(gè)階段:①首先識(shí)別事件與時(shí)間相關(guān)的信息,如:時(shí)態(tài)、體態(tài)等;②然后識(shí)別兩個(gè)事件間的時(shí)間關(guān)系;③最后利用成對(duì)互信息(Pairwise Mutual Information,PMI)來計(jì)算具有共享論元的兩個(gè)事件的關(guān)聯(lián)程度,進(jìn)而完成全局排序,形成一個(gè)有向圖??梢钥闯觯呵皟蓚€(gè)階段是局部時(shí)間關(guān)系的識(shí)別,最后一個(gè)階段是基于共享論元建立時(shí)間鏈。實(shí)驗(yàn)表明:基于事件共享論元的方法比單純基于動(dòng)詞的方法要好得多。

3.3 漢語時(shí)間關(guān)系識(shí)別的研究

從國(guó)內(nèi)的研究情況來看,少數(shù)研究者在漢語時(shí)間關(guān)系方面作出了有益的嘗試[41-44],填補(bǔ)了國(guó)內(nèi)在此項(xiàng)研究的空白。例如,王昀和苑春法針對(duì)金融領(lǐng)域嘗試采用基于轉(zhuǎn)換的方法確定事件的時(shí)間[41];林靜等研究并修改了國(guó)際通用的時(shí)間短語標(biāo)注規(guī)范TIMEX2的中文標(biāo)注草案,開發(fā)了基于正則表達(dá)式的中文時(shí)間自動(dòng)標(biāo)注系統(tǒng),識(shí)別時(shí)間短語和時(shí)間規(guī)范化的F測(cè)度分別達(dá)到90.15%和83.27%[42];林靜和苑春法還研究了時(shí)間關(guān)系的抽取和不同文本間的時(shí)間關(guān)系計(jì)算[43]。李文捷等選擇事件情態(tài)分類和11種時(shí)間指示符作為特征,將機(jī)器學(xué)習(xí)的方法應(yīng)用于時(shí)間關(guān)系的解析[44]。

但從整體來看,針對(duì)中文時(shí)間關(guān)系的研究在國(guó)內(nèi)還未深入和大規(guī)模的展開,關(guān)于時(shí)間信息的處理還處于時(shí)間表達(dá)式的識(shí)別及規(guī)范化等比較底層的方面[45-49],而且時(shí)間信息的處理目標(biāo)關(guān)注于自動(dòng)文摘、機(jī)器翻譯等應(yīng)用。例如,香港理工大學(xué)利用多標(biāo)記分類方法進(jìn)行了時(shí)間表達(dá)式的規(guī)范化研究[45-46];哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室利用依存分析和錯(cuò)誤驅(qū)動(dòng)的方法進(jìn)行了中文時(shí)間表達(dá)式的識(shí)別,并用于時(shí)序多文檔文摘,在ACE2005語料上取得的F測(cè)度為76.57%[49]。

4 未來研究的重點(diǎn)

從TempEval評(píng)測(cè)來看,由于時(shí)間關(guān)系的識(shí)別難度較大,目前大多研究都假定時(shí)間表達(dá)式和事件表達(dá)式識(shí)別正確,并采用金標(biāo)準(zhǔn)數(shù)據(jù)中的已標(biāo)注結(jié)果作為特征,因此時(shí)間關(guān)系識(shí)別取得的性能還很有限。本文認(rèn)為還需要在以下幾方面進(jìn)行深入研究。

(1)提高語料庫的標(biāo)注質(zhì)量

TimeBank語料庫的出現(xiàn)有力推動(dòng)了基于機(jī)器學(xué)習(xí)方法的時(shí)間關(guān)系識(shí)別研究。但據(jù)語料的提供者報(bào)告,由于自然語言中存在大量時(shí)間模糊性,時(shí)間關(guān)系標(biāo)注對(duì)于人來說并不簡(jiǎn)單。因此,其標(biāo)注一致性(Inter Annotator Agreement,IAA)分值較低,其中TLINK標(biāo)注的IAA是0.77(按Kappa統(tǒng)計(jì)量得到的IAA是0.71)[13]。而語料庫的研究者建議語料庫標(biāo)注的IAA分值不應(yīng)低于90%[50],因此,IAA比較低已成為TimeBank上做研究的一個(gè)困難。根據(jù)TempEval的結(jié)果,即便是簡(jiǎn)化的任務(wù),時(shí)間關(guān)系識(shí)別的性能也只保持在50%~60%。

TimeBank語料庫的提供者在TempEval中為此做了一定努力:①采用縮減的時(shí)間關(guān)系集合(見2.2);②每次標(biāo)注時(shí)都為標(biāo)注者顯示一個(gè)事件—時(shí)間對(duì),不要求標(biāo)注者瀏覽整個(gè)文本來發(fā)現(xiàn)所有的時(shí)間關(guān)系,避免忽略掉重要時(shí)間關(guān)系,降低標(biāo)注復(fù)雜性。但事實(shí)并非如此。首先,為兩個(gè)相隔很遠(yuǎn)(多個(gè)句子)的事件標(biāo)注時(shí)間關(guān)系比較困難;其次TempE-val中不允許忽略任何時(shí)間關(guān)系的標(biāo)注,所以增加了標(biāo)注的復(fù)雜性。語料建立者建立了一個(gè)困惑矩陣來檢測(cè)T LINK的不一致,最大不一致主要存在于before與overlap之間以及after和overlap之間,比例為53%。后來引入了before-or-overlap和afteror-overlap關(guān)系,但仍有19%的不一致,最后標(biāo)注者使用vague類別來解決這一問題。

除了標(biāo)注質(zhì)量外,TimeBank的規(guī)模較小。例如,目前的 TimeBank語料庫標(biāo)注規(guī)模只有大約300篇文檔,標(biāo)注時(shí)標(biāo)注者只標(biāo)注了對(duì)文本理解起關(guān)鍵作用的關(guān)系,因此語料中存在大量未標(biāo)注或未知的關(guān)系,為分類器的訓(xùn)練帶來了很大的噪聲。

(2)確定時(shí)間關(guān)系的粒度

從1.1可知,TimeML的時(shí)間關(guān)系是基于Allen的定義確定的,但按照Allen的時(shí)間間隔邏輯形成的時(shí)間關(guān)系集合粒度較細(xì),因此很多研究采用了縮略的時(shí)間關(guān)系集合,可以看做是粗粒度的時(shí)間關(guān)系。例如,Mani和Chamber采用了六個(gè)時(shí)間關(guān)系類型[36-37]:simultaneous,before,ibefore,begins,ends,includes;TempEval中也采用了六個(gè)關(guān)系類型[13]:befroe,after,overlap,before-or-overlap,overlap-or-after,vague,粒度更粗一些。

從語料庫的建設(shè)來看,語料庫的標(biāo)注質(zhì)量與時(shí)間關(guān)系粒度緊密相關(guān)。時(shí)間關(guān)系粒度越細(xì),語料庫加工難度越大,質(zhì)量越難保證,而且數(shù)據(jù)稀疏問題越嚴(yán)重。時(shí)間關(guān)系粒度越粗,雖然上述問題得到緩解,而且可能更適合于時(shí)間關(guān)系出現(xiàn)不太密集的領(lǐng)域。但是時(shí)間關(guān)系粒度究竟如何確定,不同粒度對(duì)研究帶來的影響還尚未見到理論和實(shí)踐的證實(shí)與分析,需要進(jìn)一步研究。

(3)加強(qiáng)漢語時(shí)間關(guān)系的識(shí)別,深入探索全局時(shí)間關(guān)系識(shí)別。

目前,可見文獻(xiàn)大多對(duì)英語時(shí)間關(guān)系識(shí)別討論較多。盡管TempEval-2010增加了其他語種的評(píng)測(cè),但遺憾的是參賽者只參加了英語和西班牙語的評(píng)測(cè)任務(wù),說明其他語種上的研究還十分有限,與英語相差較大。類似地,漢語時(shí)間關(guān)系識(shí)別無論在語料庫建設(shè)還是方法技術(shù)的研究,都相對(duì)薄弱;其次,盡管全局時(shí)間關(guān)系識(shí)別是時(shí)間語義信息處理的最終目標(biāo),但目前大多研究集中于局部時(shí)間關(guān)系的識(shí)別,而且,在局部時(shí)間關(guān)系識(shí)別中(尤其是采用成對(duì)分類思想),每個(gè)對(duì)都被孤立處理,沒有考慮全局約束,得到的關(guān)系可能彼此不相容。因此,我們需要吸收國(guó)外在英語語種上的研究思想和經(jīng)驗(yàn),全面展開全局時(shí)間關(guān)系的識(shí)別研究,大膽創(chuàng)新,從全局的角度建立模型,解決局部沖突,得到相容的全局時(shí)間關(guān)系。

5 結(jié)束語

本文參考大量的文獻(xiàn)資料,對(duì)時(shí)間關(guān)系識(shí)別取得的進(jìn)展進(jìn)行了總結(jié)和分析,主要包括:時(shí)間關(guān)系的定義及其相關(guān)術(shù)語的解釋;時(shí)間關(guān)系識(shí)別在標(biāo)準(zhǔn)、資源和評(píng)測(cè)中的進(jìn)展;研究中采用的多種方法和技術(shù)以及漢語時(shí)間信息處理方面的進(jìn)展;最后探討了研究中存在的問題和未來研究的重點(diǎn)。通過總結(jié)和分析,本文認(rèn)為時(shí)間關(guān)系的識(shí)別不是一個(gè)簡(jiǎn)單問題,其研究還處于一個(gè)比較初級(jí)的階段,距離實(shí)用化還有很長(zhǎng)一段距離。隨著研究的深入,如何提高語料庫標(biāo)注質(zhì)量、合理確定時(shí)間關(guān)系粒度和全局時(shí)間關(guān)系識(shí)別將成為研究的重點(diǎn)。

[1]Claudio Bettini.TIME International Symposium on Temporal Representation and Reasoning[C/OL]//2010.http://time.dico.unimi.it/TIME_Home.html.

[2]Association for the Advancement of Artificial Intelligence.Workshops at the Seventeenth National Conference on Artificial Intelligence[C/OL]//2000.http://www.aaai.org/Workshops/ws00.php.

[3]James Pustejovsky.annotating and reasoning about time and events[C/OL]//2006.http://www.timeml.org/acl2006time/.

[4]James Pustejovsky.Task 15:TempEval Temporal Relation Identification[C/OL]//Jan.12th,2007.http://timeml.org/tempeval/.

[5]Marc Verhagen.TimeM L Corpora[DB/OL].Feb.2006.http://www.timeml.org/site/timebank/timebank.html.

[6]Roberts A.,Gaizauskas R.,Hepple M.et al.Semantic annotation of clinical text:the CLEF corpus.[C]//Proceedings of building and evaluating resources for biomedical text mining:workshop at 6th international conference on language resources and evaluation(LREC-2008).Marrakech,Morocco:ELRA,2008:300-306.

[7]James Pustejovsky,José Casta?o,Robert Ingria etc..Timeml:Robust Specification of Event and Temporal Expressions in Text[C]//Proceeding of 5th International Workshop on Computational Semantics(IWCS-5),Tilburg University,2003.

[8]James.F.Allen.Towards a General Theory of Action and Time[J].Artificial Intelligence.1984,23(2):123-154.

[9]Steven Bethard,James H.Martin,Sara Klingenstein.Finding Temporal Structure in Text:Machine Learning of Syntactic Temporal Relations.International[J].Journal of Semantic Computing.2007,1(4):441-457.

[10]Martha Palmer,Dan Gildea,Paul Kingsbury.The Proposition Bank:A Corpus Annotated with Seman-tic Roles[J].Computational Linguistics Journal.2005,31(1):71-105.

[11]NIST of U.S.Department of Commerce.The ACE 2005 Evaluation Plan[C/OL]//Nov.2008.http://www.itl.nist.gov/iad/mig//tests/ace/2005/.

[12]M arc Verhagen.TimeML Corpora.[DB/OL].Feb.2006.http://www.timeml.org/site/timebank/timebank.html.

[13]Verhagen M.,Gaizauskas R.,Schilder F.et al.The TempEval challenge:Identifying Temporal Relations in Text[C]//Language Resources and Evaluation,2009,43:161-179.

[14]Verhagen M.,Gaizauskas R.,Schilder F.et al.SemEval-2007 Task 15:TempEval temporal relation identification[C]//Proceedings of the 4th International Workshop on Semantic Evaluations(SemEval-2007).Prague,Czech Republic,2007:75-80.

[15]M arc Verhagen,,Roser Saur,Tommaso Caselli.SemEval-2010 Task 13:TempEval-2[C]//Proceedings of the 5th International Workshop on Semantic Evaluation(semEval-2010).Uppsala,Sweden,2010:57-62.

[16]TempEval group.TempEval-2:Evaluating Events,TimeExpressions,and TemporalRelations[C/OL]//October 16th,2009.http://www.timeml.org/tempeval2/.

[17]Steven Bethard,James H.M artin.CU-TMP:Temporal Relation Classification Using Syntactic and Semantic Features[C]//Proceedings of the 4th International Workshop on Semantic Evaluation(SemEval-2007).Prague,Czech Republic,2007:129-132.

[18]Congmin Min,Munirathnam Srikanth,Abraham Fowler.LCC-TE:A Hybrid Approach to Temporal Relation Identification in News Text[C]//Proceedings of the 4th International Workshop on Semantic Evaluation(semEval-2007).Prague,Czech Republic,2007:219-222.

[19]Yuchang Cheng;Masayuki Asahara;Yuji Matsumoto.NAIST.Japan:Temporal Relation Identification Using Dependency Parsed Tree[C]//Proceedings of the 4th International Workshop on Semantic Evaluation(SemEval-2007).Prague,Czech Republic,2007:245-248.

[20]M ark Hepple.Andrea Setzer.Robert Gaizauskas.USFD:Preliminary Exploration of Features and Classifiers for the TempEval-2007 Task[C]//Proceedings of the 4th International Workshop on Semantic Evaluation(semEval-2007).Prague,Czech Republic,2007:438-441.

[21]Georgiana Puscasu.WVALI:Temporal Relation I-dentification by Syntactico-Semantic Analysis[C]//Proceedings of the 4th International Workshop on Semantic Evaluation(semEval-2007).Prague,Czech Republic,2007:484-487.

[22]Caroline Hagège,XavierTannier.XRCE-T:XIP Temporal Module for TempEval campaign[C]//Proceedings of the 4th International Workshop on Semantic Evaluation(semEval-2007).Prague,Czech Republic,2007:492-495.

[23]Naushad UzZaman,James Allen.RIPS and TRIOS System for TempEval-2:Extracting Temporal Information from Text[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Sweden,2010:276-283.

[24]Eun Ha,Alok Baikadi,Carlyle Licata.et al.NCSU:Modeling Temporal Relations with Markov Logic and Lexical Ontology[C]//Proceedings of the 5th International Workshop on Semantic Evaluation.Uppsala,Sweden,2010:341-344.

[25]Leon Derczynski,Robert Gaizauskas.USFD2:Annotating Temporal Expresions and TLINKs for TempE-val-2[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Sweden,2010:337-340.

[26]Claire Grover,Richard Tobin,Beatrice Alex.et al.Edinburgh-LTG:TempEval-2 System Description[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Sweden,2010:333-336.

[27]Jannik Str? tgen,Michael Gertz.HeidelTime:High Quality Rule-Based Extraction and Normalization of Temporal Expressions[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Sweden,2010:321-324.

[28]Hector Llorens,Estela Saquete,Borja Navarro.TIPSem(English and Spanish):Evaluating CRFs and Semantic Roles in TempEval-2[C]//Proceedings of the 5th International Workshop on Semantic Evaluation.Uppsala,Sweden,2010:284-291.

[29]Estela Saquete Boro.ID 392:TERSEO +T2T3 T ransducer.A systems for Recognizing and Normalizing TIMEX3[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Sweden,2010:317-320.

[30]Marí a Teresa Vicente-D í ez,Juliá n Moreno-Schneider,Paloma Martí nez.UC3M System :Determining the Extent,Type and Value of Time Expressions in TempEval-2[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Sweden,2010:329-332.

[31]Oleksandr Kolomiyets, M arie-Francine M oens.KUL:Recognition and Normalization of Temporal Expressions[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Sweden,2010:325-328.

[32]Anup KumarKolya,Asif Ekbal,Sivaji Bandyopadhyay.JU_CSE_TEMP:A First Step towards E-valuating Events,Time Expressions and Temporal Relations[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Sweden,2010:345-350.

[33]I.Mani,G.Wilson.Robust Temporal Processing of News[C]//Proceedings of the 38th Annual Meeting on Association for Computational Linguistics(ACL′2000),Hong Kong,2000,69-76.

[34]E.Filatova,E.H.Hovy.Assigning Time-Stamps to Event-Clauses[C]//Proceedings of ACL Workshop on Temporal and Spatial Reasoning(ACL 2001).M orristown,NJ,USA :ACL,2001:88-95.

[35]Frank Schilder,Christopher Habel.From temporal expressions to temporal information:semantic tagging of news messages[C]//Proceedings of the workshop on Temporal and spatial information processing,Toulose,2001:65-72.

[36]Inderjeet Mani,Marc Verhagen,Ben Wellner et al.M achine Learning of Temporal Relations[C]//Proceedings of ACL2006,Sydney,Australia,2006:753-760.

[37]N.Chambers,Sh.Wang,D.Jurafsky.Classifying temporal relations between events[C]//Proceedings ofACL2007.Prague,, Czech Republic, 2007:173-176.

[38]Philip Bramsen,Pawan Deshpande,YoongKeok Lee.et al.Inducing temporal graphs[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,Sydney,Australia,2006:189-198.

[39]Nathanael Chambers,Dan Jurafsky.Jointly Combining Implicit Constraints Improves Temporal Ordering[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,Honolulu,Hawaii,2008:698-706.

[40]Nathanael Chambers,Dan Jurafsky.Unsupervised Learning of Narrative Event Chains[C]//Proceedings of ACL2008:HLT.2008:789-797.

[41]王昀,苑春法.基于轉(zhuǎn)換的時(shí)間-事件關(guān)系映射[J].中文信息學(xué)報(bào),2004,18(4):23-30.

[42]林靜,曹德芳,苑春法.中文時(shí)間信息的TIM EX2自動(dòng)標(biāo)注[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,48(1):117-120.

[43]林靜,苑春法.漢語時(shí)間關(guān)系抽取與計(jì)算[J].中文信息學(xué)報(bào),2009,23(5):62-67.

[44]Wenjie Li,Kam-Fai Wong,Guihong Cao et al.Applying Machine Learning to Chinese Temporal Relation Resolution[C]//Proceedings of the 42ndAnnual Meeting of the Association for Computational Linguistics.Barcelona,Spain,2004:582-588.

[45]Mingli Wu,Wenjie Li,Qin Lu et al.CTEM P:A Chinese Temporal Parser for Extracting and Normalizing Temporal Information[C]//Proceedings of IJCNLP2005,Korea,2005:694-706.

[46]Mingli Wu,Wenjie Li,Qin Lu.Normalizing Chinese Temporal Expressions with Multi-label Classification[C]//Proceedings of Natural Language Processing and Knowledge Engineering,2005:318-323.

[47]杜津,楊一平,曾雋芳.自然語言時(shí)間信息的模擬與計(jì)算[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(13):2419-2471.

[48]徐永東,徐志明,王曉龍,等.中文文本時(shí)間信息獲取及語義計(jì)算[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,39(3):438-442.

[49]賀瑞芳,秦兵,劉挺,等.基于依存分析和錯(cuò)誤驅(qū)動(dòng)的中文時(shí)間表達(dá)式識(shí)別[J].中文信息學(xué)報(bào),2007,21(5):36-40.

[50]Hovy E.,Marcus M.,Palmer M..OntoNotes:The 90%solution[C]//Proceedings of Human Language Technology of NAACL,Boulder,Colorado,2006:57-60.

猜你喜歡
表達(dá)式全局語料庫
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
一個(gè)混合核Hilbert型積分不等式及其算子范數(shù)表達(dá)式
表達(dá)式轉(zhuǎn)換及求值探析
《語料庫翻譯文體學(xué)》評(píng)介
淺析C語言運(yùn)算符及表達(dá)式的教學(xué)誤區(qū)
落子山東,意在全局
金橋(2018年4期)2018-09-26 02:24:54
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
新思路:牽一發(fā)動(dòng)全局
广河县| 丽江市| 神池县| 饶阳县| 镇康县| 庆云县| 岱山县| 三原县| 嘉荫县| 曲松县| 黑龙江省| 客服| 宣城市| 芦山县| 静宁县| 扎兰屯市| 泰顺县| 舒城县| 南陵县| 郧西县| 贵南县| 左贡县| 合川市| 常德市| 佛山市| 永安市| 崇礼县| 永登县| 寿光市| 明星| 嘉峪关市| 虎林市| 西乡县| 兴国县| 宣汉县| 梅河口市| 新邵县| 夏河县| 伽师县| 大埔区| 嘉义县|