項(xiàng) 威,王 邦
(華中科技大學(xué) 電子信息與通信學(xué)院,湖北 武漢 430074)
事件(event)來(lái)源于認(rèn)知科學(xué),在哲學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域應(yīng)用廣泛。自動(dòng)內(nèi)容抽取(automatic content extraction,ACE)國(guó)際評(píng)測(cè)會(huì)議將事件定義為:發(fā)生在某個(gè)特定時(shí)間點(diǎn)或時(shí)間段,某個(gè)特定地域范圍內(nèi),由一個(gè)或者多個(gè)角色參與的一個(gè)或者多個(gè)動(dòng)作組成的事情或者狀態(tài)的改變[1]。
事件抽取任務(wù)研究從非結(jié)構(gòu)化的自然語(yǔ)言文本中自動(dòng)抽取用戶感興趣的事件信息并以結(jié)構(gòu)化的形式表示[2],對(duì)人們認(rèn)知世界有著深遠(yuǎn)的意義,是信息檢索、知識(shí)圖譜構(gòu)建等實(shí)際應(yīng)用的基礎(chǔ)。事件抽取在相關(guān)公開(kāi)測(cè)評(píng)和語(yǔ)料的推動(dòng)下展開(kāi),按照任務(wù)定義分為框架表示事件抽取和實(shí)例表示事件抽取。早期的事件抽取任務(wù)采用基于模式匹配的方法,隨著機(jī)器學(xué)習(xí)的興起,采用特征工程和神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行事件抽取受到越來(lái)越多的關(guān)注。中文事件抽取還存在中文語(yǔ)言特性方面的問(wèn)題需要解決。
文中首先簡(jiǎn)要介紹了事件抽取的研究意義,再?gòu)氖录槿〉娜蝿?wù)定義和技術(shù)方法兩個(gè)維度全面闡述事件抽取工作,最后展望事件抽取未來(lái)的發(fā)展趨勢(shì)。
現(xiàn)實(shí)世界中發(fā)生的事情都可以被看成事件,人們通過(guò)事件和事件之間的關(guān)系來(lái)認(rèn)知和了解世界。事件抽取對(duì)人們認(rèn)知世界有著深遠(yuǎn)意義和重大應(yīng)用價(jià)值,也是信息檢索、智能問(wèn)答、知識(shí)圖譜構(gòu)建等實(shí)際應(yīng)用的基礎(chǔ)。
事件抽取任務(wù)主要研究從非結(jié)構(gòu)化的自然語(yǔ)言文本中抽取用戶感興趣的事件信息并以結(jié)構(gòu)化的形式表示[2],如什么人,在什么時(shí)間,什么地方,做了什么事情。事件抽取首先得基于觸發(fā)詞識(shí)別出文本中的事件和事件類型,其次要從文本中識(shí)別出事件元素并判斷元素角色。所以事件抽取依賴于命名實(shí)體識(shí)別、關(guān)系抽取等底層自然語(yǔ)言處理任務(wù)的結(jié)果,同時(shí)還需要深層次地分析上下文語(yǔ)義才能完成。
事件抽取在相關(guān)公開(kāi)測(cè)評(píng)和語(yǔ)料的推動(dòng)下展開(kāi),不同的公開(kāi)測(cè)評(píng)和語(yǔ)料關(guān)注的領(lǐng)域和事件粒度不同??蚣鼙硎臼录槿∪蝿?wù)是參照公開(kāi)測(cè)評(píng)事件抽取任務(wù),預(yù)先定義結(jié)構(gòu)化的事件表示框架來(lái)進(jìn)行的事件抽取任務(wù),也稱為限定域事件抽取。實(shí)例表示事件抽取是在沒(méi)有預(yù)先定義結(jié)構(gòu)化的事件表示框架下,通過(guò)事件實(shí)例的觸發(fā)詞和事件元素詞用無(wú)監(jiān)督方法聚類來(lái)進(jìn)行的事件抽取任務(wù),也稱為開(kāi)放域事件抽取。
ACE評(píng)測(cè)會(huì)議的事件抽取任務(wù)是國(guó)際上公認(rèn)最具影響力的事件抽取公開(kāi)評(píng)測(cè),由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(national institute of standards and technology,NIST)于2000年開(kāi)始舉辦,2009年被并入文本分析會(huì)議(text analysis conference,TAC),2005年起事件抽取任務(wù)被納入ACE[3]。美國(guó)國(guó)防高級(jí)研究計(jì)劃委員會(huì)DARPA的DEFT(deep exploration and filtering of text)計(jì)劃制定的ERE(entities,relations,events)標(biāo)準(zhǔn)[4],被視為ACE標(biāo)注的簡(jiǎn)化版本[3]。事件抽取同樣是消息理解會(huì)議(message understanding conference,MUC)和知識(shí)庫(kù)測(cè)評(píng)會(huì)議(knowledge base population,KBP)的重要任務(wù)。中文方面,上海大學(xué)語(yǔ)義智能實(shí)驗(yàn)室構(gòu)建了中文突發(fā)事件語(yǔ)料庫(kù)(Chinese event corpus,CEC),選取了地震、火災(zāi)、交通事故等5類事件的新聞報(bào)道進(jìn)行標(biāo)注。另外還有一些領(lǐng)域事件抽取公開(kāi)評(píng)測(cè),如生物醫(yī)學(xué)領(lǐng)域的事件抽取評(píng)測(cè)BioNLP等。文中主要介紹研究最為廣泛,影響最為深遠(yuǎn)的ACE事件抽取公開(kāi)評(píng)測(cè)。
ACE認(rèn)為事件是事物狀態(tài)的改變或事情的發(fā)生,并將事件抽取任務(wù)定義為從非結(jié)構(gòu)化的文本中識(shí)別并抽取事件信息并結(jié)構(gòu)化表示,包括事件觸發(fā)詞、事件類型、事件元素、元素角色[1]。相關(guān)的術(shù)語(yǔ)說(shuō)明如下:
實(shí)體(entity):語(yǔ)義類別中的一個(gè)或一組對(duì)象,包括人名、地名、組織機(jī)構(gòu)、交通工具等。
事件提及(event mention):描述事件的短語(yǔ)或句子,包括事件觸發(fā)詞和事件元素。
事件觸發(fā)詞(event trigger):最清晰準(zhǔn)確表達(dá)事件發(fā)生的關(guān)鍵詞,通常是動(dòng)詞或名詞。
事件元素(event arguments):參與一個(gè)具體事件的元素提及,包括概念、實(shí)體、數(shù)值、時(shí)間等。
元素角色(argument roles):事件元素與其參與事件的關(guān)系。
在例句1中,事件抽取任務(wù)需要檢測(cè)到一個(gè)生活(life)類型和出生(be-born)子類型的事件,事件觸發(fā)詞“出生”,事件元素“金庸”、“1924年”、“浙江嘉興”及其對(duì)應(yīng)的元素角色“任務(wù)”、“時(shí)間”、“地點(diǎn)”,如圖1所示。
圖1 事件抽取樣例
ACE事件抽取任務(wù)通常分為事件檢測(cè)和元素識(shí)別兩個(gè)子任務(wù):(1)事件檢測(cè),通過(guò)識(shí)別文本中的事件觸發(fā)詞檢測(cè)事件,并判斷事件類型。每種事件類型對(duì)應(yīng)唯一的事件表示框架,例如生活-出生類型事件表示框架為{人物,時(shí)間,地點(diǎn)}。(2)元素識(shí)別,根據(jù)事件表示框架判斷文本中的實(shí)體是否為事件元素,并確定元素角色。
ACE語(yǔ)料沒(méi)有指定具體的領(lǐng)域和場(chǎng)景,主要來(lái)自新聞?wù)Z料,包括新聞專線、廣播新聞等6個(gè)來(lái)源,同時(shí)包含英語(yǔ)、漢語(yǔ)、西班牙語(yǔ)三種語(yǔ)言,由美國(guó)賓夕法尼亞大學(xué)的語(yǔ)言數(shù)據(jù)聯(lián)盟(linguistic data consortium,LDC)標(biāo)注。ACE定義了8種類型和33種子類型事件及其對(duì)應(yīng)的表示框架。
事件抽取任務(wù)往往依賴于文本的命名實(shí)體識(shí)別、共指消解、關(guān)系抽取等自然語(yǔ)言處理任務(wù)結(jié)果,但其并不是事件抽取任務(wù)本身所關(guān)注的。ACE數(shù)據(jù)集同時(shí)對(duì)實(shí)體及其類型、關(guān)系、共指等內(nèi)容進(jìn)行了標(biāo)注,在ACE事件抽取任務(wù)中通常直接使用實(shí)體標(biāo)注內(nèi)容。ACE事件抽取任務(wù)通常采用以下標(biāo)準(zhǔn)評(píng)估正確性[5]:
·如果一個(gè)事件觸發(fā)詞的位置偏移和事件類型與標(biāo)注內(nèi)容匹配,則正確識(shí)別該事件觸發(fā)詞。
·如果一個(gè)事件元素詞的位置偏移和對(duì)應(yīng)事件與標(biāo)注內(nèi)容匹配,則正確識(shí)別該事件元素。
·如果一個(gè)事件元素詞的位置偏移、對(duì)應(yīng)事件及元素角色與標(biāo)注內(nèi)容匹配,則正確識(shí)別并分類該事件元素。
公開(kāi)評(píng)測(cè)極大推動(dòng)了事件抽取的研究和發(fā)展,但公開(kāi)評(píng)測(cè)語(yǔ)料通常面向通用背景,沒(méi)有特定的領(lǐng)域背景,如ACE僅對(duì)新聞?wù)Z料中關(guān)注的33種常用事件類型進(jìn)行了標(biāo)注。雖然有少量的特定領(lǐng)域事件抽取語(yǔ)料,如BioNLP生物醫(yī)學(xué)領(lǐng)域語(yǔ)料等,但不能滿足豐富多樣的實(shí)際應(yīng)用需求。同時(shí)公開(kāi)評(píng)測(cè)語(yǔ)料還存在數(shù)據(jù)量級(jí)小、事件類型稀疏和語(yǔ)料時(shí)效性差等問(wèn)題,目前最優(yōu)性能也無(wú)法滿足知識(shí)圖譜構(gòu)建等應(yīng)用需求。
框架表示事件抽取通過(guò)自頂向下的方式,預(yù)先定義事件表示框架,包括事件類型、事件觸發(fā)詞、事件元素、元素角色等,然后制作相應(yīng)的標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行事件抽取。Petroni等在2018年[5]提出一種從新聞報(bào)道和社交媒體中抽取突發(fā)事件的框架表示,用于公共安全預(yù)警、政府組織決策支持等。文章定義了“洪水”、“風(fēng)暴”、“火災(zāi)”等7種突發(fā)事件類型,并結(jié)合六何分析法(5W1H:Who,What,Where,When,Why,How)設(shè)計(jì)各類事件元素的表示框架。Yang等在2018年[6]提出一種從金融機(jī)構(gòu)的公告信息中抽取金融事件的框架表示方法,用于輔助決策和市場(chǎng)預(yù)測(cè)等。文章定義了“股權(quán)質(zhì)押”、“股權(quán)凍結(jié)”、“股權(quán)回購(gòu)”等9種金融事件類型,和對(duì)應(yīng)的“股東名稱”、“日期”等事件元素的表示框架。劉振等在2018年[7]提出了常見(jiàn)科技政策領(lǐng)域內(nèi)的事件類型與對(duì)應(yīng)的事件表示框架,幫助獲取科研領(lǐng)域內(nèi)有價(jià)值的信息,把握學(xué)科發(fā)展趨勢(shì)。文章列出了“組織設(shè)立”、“會(huì)議”、“宣布事件”等6種科技事件類型,和對(duì)應(yīng)的“機(jī)構(gòu)”、“時(shí)間”、“地點(diǎn)”等事件元素的表示框架。
框架表示事件抽取任務(wù)按照不同的領(lǐng)域背景和應(yīng)用需求自由靈活地構(gòu)建事件框架表示,解決了公開(kāi)評(píng)測(cè)語(yǔ)料的事件類型稀疏,數(shù)據(jù)量級(jí)小等問(wèn)題??蚣鼙硎镜氖录愋涂蓴U(kuò)展性強(qiáng),結(jié)合遠(yuǎn)程監(jiān)督的方法可以自動(dòng)生成大規(guī)模標(biāo)注數(shù)據(jù),提高語(yǔ)料的時(shí)效性[8]。但事件的框架表示通常結(jié)構(gòu)復(fù)雜,通用性差,不同的領(lǐng)域背景和實(shí)際應(yīng)用需要不同的事件框架表示,這都需要耗費(fèi)大量的人力勞動(dòng)和時(shí)間,并且嚴(yán)重依賴領(lǐng)域?qū)<蚁到y(tǒng)。所以框架表示事件的標(biāo)注語(yǔ)料雖然可以保證每種事件類型的數(shù)量,但大部分標(biāo)注語(yǔ)料規(guī)模仍然較小。
實(shí)例表示事件抽取可以面向不同領(lǐng)域背景和應(yīng)用需求的事件,也可以面向通用領(lǐng)域的事件語(yǔ)料。通過(guò)自底向上的方式,利用文本的上下文語(yǔ)境、句法依存結(jié)構(gòu)等信息,采用無(wú)監(jiān)督的方法聚類事件類型和事件元素,自動(dòng)發(fā)現(xiàn)新的事件實(shí)例,不需要人工制作標(biāo)注數(shù)據(jù)。例如,如果事件觸發(fā)詞具有相似的上下文語(yǔ)境,那么它們可能屬于同類事件;如果事件元素與事件觸發(fā)詞具有類似的句法依存結(jié)構(gòu),那么它們可能具有相同的事件元素角色。
Huang等在2016年[9]提出一種自由事件抽取模型,適用于所有語(yǔ)料輸入,利用符號(hào)特征和分布式語(yǔ)義自動(dòng)生成輸入語(yǔ)料的事件表示,檢測(cè)事件并結(jié)構(gòu)化表示。Zhou等在2017年[10]從推特(Twitter)中用無(wú)監(jiān)督模型抽取有價(jià)值的新聞事件并結(jié)構(gòu)化表示,文章假設(shè)相同的事件擁有相似的實(shí)體和詞語(yǔ),用無(wú)監(jiān)督的方法抽取結(jié)構(gòu)化事件信息。Yuan等在2018年[11]利用新聞?wù)Z料中的實(shí)體和實(shí)體類型建立槽值對(duì)(slot-value)來(lái)檢測(cè)事件,相似的實(shí)體槽值對(duì)句子屬于相同的事件類型,最后生成事件結(jié)構(gòu)化的表示框架。
由于語(yǔ)言的結(jié)構(gòu)復(fù)雜性,實(shí)例表示事件抽取很難準(zhǔn)確地獲得語(yǔ)義信息,并且難以用統(tǒng)一的結(jié)構(gòu)化標(biāo)準(zhǔn)表示,需要一定的人工方式加以輔助,其結(jié)果仍然很難應(yīng)用到其他自然語(yǔ)言處理任務(wù)中。
事件抽取任務(wù)對(duì)比如圖2所示。
事件抽取任務(wù)在方法上可以分為基于模式匹配的方法和基于機(jī)器學(xué)習(xí)的方法兩大類?;谀J狡ヅ涞姆椒ㄊ窃谝恍┠J降闹笇?dǎo)下進(jìn)行的某類事件的識(shí)別和抽取方法,在特定領(lǐng)域中表現(xiàn)出了良好的性能。基于機(jī)器學(xué)習(xí)的方法將事件抽取建模成多分類任務(wù),通過(guò)提取的特征進(jìn)行分類完成事件抽取。中文事件抽取中還需考慮語(yǔ)言特性的問(wèn)題,主要通過(guò)建立勘誤表和序列標(biāo)注方法來(lái)解決。
基于模式匹配事件抽取主要分為有監(jiān)督的模式匹配方法和弱監(jiān)督的模式匹配方法兩大類。
有監(jiān)督的模式匹配方法依賴于人工標(biāo)注語(yǔ)料進(jìn)行事件模式學(xué)習(xí)。Ellen等在1993年[12]通過(guò)建立觸發(fā)詞詞典和13種事件匹配模式進(jìn)行事件識(shí)別與抽取,事件匹配模式主要利用事件元素初始描述和事件元素上下文語(yǔ)義進(jìn)行構(gòu)建,并開(kāi)發(fā)了AutoSlog模式匹配事件抽取系統(tǒng),在MUC語(yǔ)料上性能優(yōu)異。Kim等在1995年[13]引入WordNet語(yǔ)義詞典,利用語(yǔ)義框架和短語(yǔ)結(jié)構(gòu)進(jìn)行事件抽取,并開(kāi)發(fā)了PALKA模式匹配事件抽取系統(tǒng)。
圖2 事件抽取任務(wù)對(duì)比
弱監(jiān)督的模式匹配方法只需對(duì)語(yǔ)料進(jìn)行預(yù)分類或制定種子模式的少量人工標(biāo)注工作,然后自動(dòng)進(jìn)行事件模式學(xué)習(xí)。Ellen等在1995年[14]在AutoSlog基礎(chǔ)上開(kāi)發(fā)出AutoSlog-ST系統(tǒng),不需要對(duì)語(yǔ)料中的所有事件元素進(jìn)行標(biāo)注,只需標(biāo)注事件類型,然后利用預(yù)分類語(yǔ)料自動(dòng)學(xué)習(xí)事件模式。姜吉發(fā)在2005年[15]提出一種領(lǐng)域通用事件模式匹配方法IEPAM,將事件抽取模式分為語(yǔ)義模式、觸發(fā)模式、抽取模式,在MUC-7語(yǔ)料的飛行事故事件抽取中獲得優(yōu)異結(jié)果。
模式匹配事件抽取方法在領(lǐng)域事件抽取任務(wù)中性能優(yōu)異,但模板的制作需要耗費(fèi)大量人力和時(shí)間,且模板局限于領(lǐng)域背景,很難在通用領(lǐng)域事件抽取任務(wù)中應(yīng)用。
基于機(jī)器學(xué)習(xí)的方法將事件抽取建模成分類任務(wù),是目前的主流研究方向。尤其是深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò),已經(jīng)成為事件抽取的主要手段,全連接神經(jīng)網(wǎng)絡(luò)[16]、卷積神經(jīng)網(wǎng)絡(luò)[17-18]和循環(huán)神經(jīng)網(wǎng)絡(luò)[19-21]都已經(jīng)成功應(yīng)用到事件抽取任務(wù)中。此外,弱監(jiān)督的方法能夠自動(dòng)生成標(biāo)注語(yǔ)料數(shù)據(jù),緩解數(shù)據(jù)稀疏問(wèn)題,也逐步應(yīng)用到事件抽取任務(wù)中。
(1)基于特征工程的方法。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法將事件抽取任務(wù)建模為多分類問(wèn)題,提取文本的語(yǔ)義特征,然后輸入分類器進(jìn)行事件抽取。Ahn等在2006年[2]率先將事件抽取分為4個(gè)階段的多分類子任務(wù),包括:(1)事件觸發(fā)詞分類,判斷詞語(yǔ)是否為事件觸發(fā)詞和事件類型;(2)事件元素分類,判斷實(shí)體詞語(yǔ)是否為事件元素;(3)事件屬性分類,判斷事件屬性;(4)事件共指消解,判斷兩個(gè)事件實(shí)例是否屬于同一事件。Ahn等用Timbl和MegaM模型進(jìn)行分類,利用詞匯特征、字典特征、句法特征、實(shí)體特征完成觸發(fā)詞分類子任務(wù),利用事件類型、觸發(fā)詞特征、實(shí)體特征、句法特征完成事件元素分類子任務(wù)。常用的機(jī)器學(xué)習(xí)分類模型還有最大熵模型、支持向量機(jī)模型、隱馬爾可夫模型等。
傳統(tǒng)的機(jī)器學(xué)習(xí)事件抽取多分類方法中,各個(gè)階段的子分類任務(wù)是相互獨(dú)立的,導(dǎo)致誤差從前面的環(huán)節(jié)向后面的環(huán)節(jié)傳遞,性能也因此逐級(jí)衰減,并且無(wú)法處理全局的依賴關(guān)系。Li等在2013年[21]和2014年[22]提出基于結(jié)構(gòu)預(yù)測(cè)的事件抽取聯(lián)合模型,從全局特征和整體結(jié)構(gòu)中同時(shí)抽取所有的事件信息,避免了誤差傳遞導(dǎo)致的性能下降。
(2)基于神經(jīng)網(wǎng)絡(luò)的方法。
事件抽取的機(jī)器學(xué)習(xí)傳統(tǒng)方法不僅需要人工設(shè)計(jì)特征,而且需要借助外部的NLP工具抽取特征,并且部分語(yǔ)言和領(lǐng)域缺少相關(guān)的NLP工具。在各種特征的抽取過(guò)程中會(huì)產(chǎn)生誤差,造成誤差的累積和傳播。神經(jīng)網(wǎng)絡(luò)的方法將事件抽取建模成端到端的系統(tǒng),使用包含豐富語(yǔ)言特征的詞向量作為輸入自動(dòng)提取特征,不需要或者極少的依賴外部的NLP工具,避免了人工設(shè)計(jì)特征的繁瑣工作。
Chen等在2015年[23]提出基于動(dòng)態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)的事件抽取方法,利用動(dòng)態(tài)多池化方法學(xué)習(xí)出一個(gè)句子中包含的多個(gè)事件。Feng等在2016年[18]提出用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行事件檢測(cè),但沒(méi)有探索事件元素的抽取方法。Nguyen等在2016年[19]利用雙向LSTM抽取句子中的語(yǔ)義特征,然后聯(lián)合句子結(jié)構(gòu)特征同時(shí)抽取事件觸發(fā)詞和事件元素。
(3)弱監(jiān)督的方法。
弱監(jiān)督的事件抽取方法希望通過(guò)結(jié)構(gòu)化知識(shí)庫(kù)或者少量人工標(biāo)注數(shù)據(jù),自動(dòng)生成大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)。Chen等在2009年[24]提出利用少量人工標(biāo)注數(shù)據(jù)訓(xùn)練模型,在未標(biāo)注數(shù)據(jù)上反復(fù)迭代自動(dòng)擴(kuò)充標(biāo)注數(shù)據(jù)。Liu等在2016年[16]提出利用ACE語(yǔ)料數(shù)據(jù)訓(xùn)練模型,再結(jié)合FrameNet知識(shí)庫(kù)擴(kuò)充標(biāo)注數(shù)據(jù)。Chen等在2017年[9]提出利用Freebase、Wikipedia、FrameNet等知識(shí)庫(kù)的遠(yuǎn)程監(jiān)督方法,自動(dòng)生成大規(guī)模的標(biāo)注數(shù)據(jù)進(jìn)行事件抽取,并將其應(yīng)用到金融領(lǐng)域的事件抽取問(wèn)題中[6]。
中文事件抽取除了方法層面的問(wèn)題外,還存在語(yǔ)言特性層面的問(wèn)題。中文語(yǔ)言特性問(wèn)題主要來(lái)自中文詞句意合特性,中文語(yǔ)言詞語(yǔ)間沒(méi)有顯式間隔,而分詞會(huì)帶來(lái)明顯的錯(cuò)誤和誤差。Chen等在2009年[24]提出中文事件抽取觸發(fā)詞不一致問(wèn)題,并將中文觸發(fā)詞分詞不一致問(wèn)題分為跨詞語(yǔ)(cross-word)不一致和內(nèi)詞語(yǔ)(inside-word)不一致兩種類型,如表1所示。Zeng等在2016年[20]用不同的中文分詞工具對(duì)ACE中文語(yǔ)料進(jìn)行分詞,結(jié)果顯示至少有14%的觸發(fā)詞分詞結(jié)果與語(yǔ)料標(biāo)注不一致。
表1 中文觸發(fā)詞分詞不一致問(wèn)題示例
Chen等在2009年[24]提出兩種方法解決觸發(fā)詞分詞不一致地問(wèn)題:(1)基于詞語(yǔ)的觸發(fā)詞標(biāo)注,通過(guò)在訓(xùn)練集上建立觸發(fā)詞的全局勘誤表修正測(cè)試集中分詞不一致的觸發(fā)詞;(2)基于字符的觸發(fā)詞標(biāo)注,將觸發(fā)詞檢測(cè)轉(zhuǎn)化為序列標(biāo)注問(wèn)題。Zeng等在2016年[20]在Chen等[24]的字符序列標(biāo)注方法地基礎(chǔ)上,使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)[25]抽取句子特征,并結(jié)合卷積神經(jīng)網(wǎng)絡(luò)抽取上下文語(yǔ)義特征完成中文事件抽取,進(jìn)一步提高了性能。Lin等[26]認(rèn)為序列標(biāo)注模型中的字符區(qū)別于詞語(yǔ),無(wú)法準(zhǔn)確表達(dá)句子的語(yǔ)義,提出將每個(gè)字符與上下文的若干字符組合生成多個(gè)候選觸發(fā)詞塊,然后從候選觸發(fā)詞塊中檢測(cè)觸發(fā)詞。
另外,中文事件抽取還存在比英文更加嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。中文語(yǔ)言的復(fù)雜性和靈活性使得相同語(yǔ)義的詞語(yǔ)有更多表達(dá)方式,即同一類型事件觸發(fā)詞可以用更多詞語(yǔ)表達(dá)。因此中文觸發(fā)詞數(shù)量要遠(yuǎn)多于英文,導(dǎo)致測(cè)試集中有更多在訓(xùn)練集中沒(méi)出現(xiàn)過(guò)的未知觸發(fā)詞。Li等在2012年[27]利用中文語(yǔ)言的組合語(yǔ)義和語(yǔ)言一致性識(shí)別未知觸發(fā)詞和分詞錯(cuò)誤觸發(fā)詞,進(jìn)而提高系統(tǒng)性能。
中文事件抽取目前仍然面臨著巨大的挑戰(zhàn)。技術(shù)層面,由于事件復(fù)雜的內(nèi)部結(jié)構(gòu),需要依靠專家系統(tǒng)設(shè)計(jì)事件框架,目前仍然沒(méi)有形成通用的事件框架體系。另外,依靠人工標(biāo)注語(yǔ)料數(shù)據(jù)不僅耗時(shí)費(fèi)力而且成本高昂,導(dǎo)致現(xiàn)有的事件語(yǔ)料數(shù)據(jù)規(guī)模不大、類型較少?,F(xiàn)階段各個(gè)類型的事件抽取任務(wù)性能較低,不能滿足產(chǎn)業(yè)應(yīng)用的需要。語(yǔ)言層面,中文語(yǔ)言表述的靈活多樣給事件抽取任務(wù)帶來(lái)很大的挑戰(zhàn),依賴的底層自然語(yǔ)言處理技術(shù),如分詞、命名實(shí)體識(shí)別、句法分析等在中文語(yǔ)言上的性能都會(huì)影響到事件抽取的結(jié)果。
基于神經(jīng)網(wǎng)絡(luò)的事件抽取方法自動(dòng)提取特征,避免了人工設(shè)計(jì)特征的繁瑣工作。事件抽取任務(wù)被構(gòu)建成端到端的系統(tǒng),使用包含了豐富語(yǔ)言特征的詞向量作為輸入,減少了底層自然語(yǔ)言處理工具帶來(lái)的誤差。中文事件抽取工作目前還處于起步階段,雖然在中文詞語(yǔ)的形態(tài)結(jié)構(gòu)和組合語(yǔ)義的利用方面取得了一些進(jìn)展,但仍亟待開(kāi)發(fā)更多的中文語(yǔ)言特性應(yīng)用到中文事件抽取中。