焦磊,云靜+,劉利民,鄭博飛,袁靜姝
1.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,呼和浩特010080
2.內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研究中心,呼和浩特010080
“事件”是指在某個(gè)特定的時(shí)間片段和地域范圍內(nèi)發(fā)生的,由一個(gè)或多個(gè)角色參與,由一個(gè)或多個(gè)動(dòng)作組成的一件事情[1]。事件抽取作為自然語(yǔ)言處理(natural language processing,NLP)中的一項(xiàng)重要任務(wù),在許多領(lǐng)域中都有著很高的應(yīng)用價(jià)值,給人們帶來了很大的便利。例如,從事件中提取出結(jié)構(gòu)化信息可以填充知識(shí)庫(kù),為信息檢索提供有價(jià)值的信息,以便進(jìn)一步進(jìn)行邏輯推理[2-3]。并且事件抽取也能用于政府公共事務(wù)管理,使相關(guān)人員及時(shí)掌握社會(huì)熱點(diǎn)事件的爆發(fā)和演變,有助于當(dāng)局迅速做出反應(yīng)與決策[4-8]。在金融領(lǐng)域,事件抽取還可以幫助公司快速發(fā)現(xiàn)其產(chǎn)品的市場(chǎng)反應(yīng),并將推斷用于風(fēng)險(xiǎn)分析和交易建議[9-11]。在生物醫(yī)學(xué)領(lǐng)域,事件抽取可以用來識(shí)別科學(xué)文獻(xiàn)中描述的生物分子(例如基因和蛋白質(zhì))的狀態(tài)變化或多個(gè)生物分子之間的相互作用,以了解其性質(zhì)和(或)發(fā)病機(jī)制[12]。簡(jiǎn)而言之,許多領(lǐng)域都可以從事件抽取技術(shù)和系統(tǒng)的進(jìn)步中受益。
傳統(tǒng)的事件抽取方法,需要進(jìn)行特征設(shè)計(jì),著重構(gòu)建有效的特征來捕獲文本中不同組成成分之間的關(guān)系,來提高事件抽取的性能。而深度學(xué)習(xí)事件抽取方法不僅可以自動(dòng)構(gòu)建語(yǔ)義特征,節(jié)省人工成本,還能自動(dòng)組合構(gòu)建更高級(jí)的語(yǔ)義特征,獲得更加豐富的事件信息。近年來眾多研究者利用深度學(xué)習(xí)模型實(shí)現(xiàn)事件抽取,取得很多突破性的進(jìn)展。
面對(duì)眾多的事件抽取方法,文獻(xiàn)[1]較早對(duì)事件抽取方法進(jìn)行歸納整理,為后續(xù)的相關(guān)工作提供了極大的幫助。但該文獻(xiàn)更多是對(duì)事件抽取的任務(wù)進(jìn)行定義,方法總結(jié)較少,對(duì)于發(fā)展趨勢(shì)的描述較為模糊,存在一定的局限性。而當(dāng)前調(diào)研文獻(xiàn)的歸納方法較為簡(jiǎn)單,只是根據(jù)神經(jīng)網(wǎng)絡(luò)的不同而進(jìn)行分類,并不能把握其背后的發(fā)展邏輯。本文通過大量調(diào)研,總結(jié)其方法思想,將深度學(xué)習(xí)事件抽取方法進(jìn)行分類并詳細(xì)介紹,最后總結(jié)對(duì)于事件抽取方法的發(fā)展趨勢(shì)。
事件抽取作為自然語(yǔ)言處理中的一項(xiàng)重要技術(shù),其目標(biāo)是從新聞文本中提取出該新聞包含事件信息的元素,例如時(shí)間、人物、地點(diǎn)等。而封閉域事件抽取則是指事件抽取使用預(yù)定義的事件模式從文本中發(fā)現(xiàn)和提取所需的特定類型的事件并且進(jìn)行實(shí)驗(yàn)的數(shù)據(jù)已通過人為定義標(biāo)注,提供了評(píng)測(cè)的標(biāo)準(zhǔn)。
ACE 2005 是一個(gè)多語(yǔ)言語(yǔ)料庫(kù),新聞數(shù)據(jù)種類及來源較為廣泛,并且由于其任務(wù)定義明確,故其成為事件抽取任務(wù)中最具影響力的標(biāo)桿。國(guó)內(nèi)外的研究大部分都在該數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),此后構(gòu)建的事件抽取數(shù)據(jù)集也大多遵循其事件定義。綜上所述,本文沿用ACE[13]中的術(shù)語(yǔ)定義事件結(jié)構(gòu):
(1)事件提及:描述事件的短語(yǔ)或句子,包括一個(gè)觸發(fā)詞和幾個(gè)論元。
(2)事件觸發(fā)詞:能夠清楚地表達(dá)事件發(fā)生的主詞,通常是動(dòng)詞或名詞。
(3)事件參數(shù):在事件中充當(dāng)參與者或具有特定角色的屬性的實(shí)體、時(shí)間表達(dá)式或值。
(4)參數(shù)角色:指事件參數(shù)與其參與的事件之間的關(guān)系。
文獻(xiàn)[14]首先提出將ACE 事件抽取任務(wù)分為四個(gè)子任務(wù):觸發(fā)詞檢測(cè)、事件類型識(shí)別、事件參數(shù)檢測(cè)和參數(shù)角色識(shí)別。例如,在“5 月14 日,據(jù)《印度經(jīng)濟(jì)時(shí)報(bào)》報(bào)道,IBM 將裁員300 人,主要集中在軟件服務(wù)部門?!边@條新聞中存在“裁員”類型的事件。觸發(fā)詞識(shí)別器會(huì)首先識(shí)別句子中的事件提及并判斷事件類型;接著會(huì)提取出這條新聞中與“裁員”事件相關(guān)的事件參數(shù)(事件參數(shù)檢測(cè))并根據(jù)預(yù)定義好的事件結(jié)構(gòu)標(biāo)注出它們各自的參數(shù)角色。如圖1 所示,圖中左邊是ACE 2005 中預(yù)先定義好的事件結(jié)構(gòu),右邊的事件抽取模型代表觸發(fā)詞檢測(cè)、事件類型識(shí)別、事件參數(shù)檢測(cè)和參數(shù)角色識(shí)別四個(gè)任務(wù),事件抽取模型根據(jù)預(yù)定義事件類型表提取出文本中包含的事件結(jié)構(gòu)。
圖1 封閉域事件抽取示例Fig.1 Example of closed domain event extraction
近年來,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛地應(yīng)用于自然語(yǔ)言處理任務(wù)中,并且取得了良好的處理效果[15-24]。研究者同樣利用深度學(xué)習(xí)方法為事件抽取進(jìn)行建模,并針對(duì)不同的應(yīng)用場(chǎng)景,例如數(shù)據(jù)文本長(zhǎng)度、數(shù)據(jù)量等,提出了不同的解決方案。本文根據(jù)不同的應(yīng)用場(chǎng)景,將深度學(xué)習(xí)事件抽取方法分為句子級(jí)、篇章級(jí)、低資源事件抽取方法三大類,并對(duì)類別中的經(jīng)典方法進(jìn)行詳細(xì)介紹。
在句子級(jí)事件抽取研究中,根據(jù)子任務(wù)之間的相關(guān)性,研究者將事件抽取模型分為以下兩個(gè)模塊:
(1)事件檢測(cè)模塊:識(shí)別句子中的觸發(fā)詞并判斷事件類型。事件檢測(cè)模塊一般包含特征提取層和分類層。特征提取層用來捕獲文本中包含的高級(jí)語(yǔ)義信息,分類層則對(duì)文本中的每個(gè)字/詞進(jìn)行分類。最后根據(jù)分類結(jié)果識(shí)別觸發(fā)詞,完成事件檢測(cè)。
(2)事件參數(shù)提取模塊:識(shí)別句子中的實(shí)體并判斷參數(shù)角色類型。在網(wǎng)絡(luò)結(jié)構(gòu)上,該模塊與事件檢測(cè)模塊類似。但在參數(shù)角色識(shí)別時(shí),模塊要根據(jù)事件類型對(duì)事件參數(shù)進(jìn)行分類。因此在構(gòu)建事件參數(shù)提取模塊時(shí),需要導(dǎo)入事件檢測(cè)模塊的信息。
通過以上內(nèi)容,可以看出兩個(gè)模塊之間具有較強(qiáng)的依賴關(guān)系。構(gòu)建模塊之間的關(guān)聯(lián)不僅是句子級(jí)事件抽取方法的主要挑戰(zhàn),同時(shí)也是各個(gè)研究工作的不同之處。本文將按照不同的關(guān)聯(lián)方法,對(duì)這些句子級(jí)事件抽取方法進(jìn)行分類,并介紹每種分類中的代表性工作。
2.1.1 基于管道方式的事件抽取方法
使用深度學(xué)習(xí)實(shí)現(xiàn)事件抽取的過程中,最初工作者們使用管道(Pipeline)方式的思想實(shí)現(xiàn)事件抽取。即將事件抽取任務(wù)分解為一個(gè)類似流水線任務(wù),對(duì)這兩個(gè)模塊分別建模,先識(shí)別出事件的類型,然后根據(jù)事件類型對(duì)其進(jìn)行事件參數(shù)提取。圖2 為管道模型的處理流程。
圖2 管道式事件抽取模型處理流程Fig.2 Pipeline event extraction model flow chart
而對(duì)于神經(jīng)網(wǎng)絡(luò)的選擇上,研究者最先提出使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行事件抽取。文獻(xiàn)[25]是最早地將神經(jīng)網(wǎng)絡(luò)應(yīng)用于事件抽取的研究工作之一,該方法基于CNN 進(jìn)行建模。本文提出了一種動(dòng)態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)(dynamic multi-pooling convolutional neural networks,DMCNN),該方法通過動(dòng)態(tài)卷積層分別提取單詞和句子級(jí)別的文本特征,從而獲取句子的各個(gè)部分的有效信息。DMCNN 的輸入包含三部分:?jiǎn)卧~嵌入、位置嵌入以及事件類型嵌入。在事件檢測(cè)時(shí),使用DMCNN 對(duì)輸入進(jìn)行卷積提取語(yǔ)義特征后,將單詞級(jí)別特征與句子級(jí)別特征分別池化獲取信息,最后使用Softmax 分類得到觸發(fā)詞,如果存在觸發(fā)詞,則進(jìn)行事件參數(shù)提取。在事件參數(shù)提取過程中,本文同樣使用DMCNN進(jìn)行事件參數(shù)提取。不同的是,在池化過程中,DMCNN 會(huì)對(duì)觸發(fā)詞以及候選的事件參數(shù)以及句子級(jí)別特征分別池化再進(jìn)行分類。
此外也有一些工作者提出了基于CNN 改進(jìn)的模型[26-29]。例如,文獻(xiàn)[27]設(shè)計(jì)了一個(gè)語(yǔ)義增強(qiáng)的模型Dual-CNN(dual-representation convolutional neural network),它在傳統(tǒng)的CNN 中增加了語(yǔ)義層來捕捉上下文信息。文獻(xiàn)[28]提出了一種改進(jìn)的CNN 模型PMCNN(Parallel multi-pooling convolutional neural networks)用于生物醫(yī)學(xué)事件抽取。在獲取文本深層表達(dá)特征時(shí),PMCNN 會(huì)并行執(zhí)行不同大小的濾波器,在不同的細(xì)粒度上對(duì)文本特征進(jìn)行卷積操作,因此它可以捕獲句子的組合語(yǔ)義特征。此外PMCNN 還利用基于依存關(guān)系的嵌入來表示單詞的語(yǔ)義和句法表示,并采用校正的線性單元作為非線性函數(shù)。文獻(xiàn)[29]使用自舉(bootstrapping)的方法構(gòu)建了全局上下文的表示,并將這種表示集成到CNN 事件抽取模型中。
但對(duì)上述使用CNN 的模型來說,因?yàn)镃NN 會(huì)對(duì)連續(xù)的單詞執(zhí)行卷積操作,獲取當(dāng)前單詞與其相鄰單詞的上下文關(guān)系,所以它們不能很好地捕捉到距離較遠(yuǎn)的兩個(gè)單詞之間潛在的相互依賴關(guān)系。而深度學(xué)習(xí)中的另一種經(jīng)典神經(jīng)網(wǎng)絡(luò)——循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)可以利用直接或間接連接的任何兩個(gè)單詞之間的潛在依賴關(guān)系,這使得它能夠廣泛應(yīng)用于許多自然語(yǔ)言處理任務(wù)[30],因此一些研究人員使用RNN 或者CNN+RNN 來進(jìn)行事件抽取。文獻(xiàn)[31]提出了一種方法,首先使用RNN 來獲取文本在時(shí)序上的句子特征,然后使用了一個(gè)卷積層對(duì)文本進(jìn)行卷積操作以獲取短語(yǔ)級(jí)別的文本信息,最后將這兩種特征信息融合后進(jìn)行事件抽取。表1 總結(jié)了上述方法的貢獻(xiàn)及其缺陷不足。
表1 基于管道模型的事件抽取方法總結(jié)Table 1 Summary of event extraction methods based on pipeline model
2.1.2 基于聯(lián)合方式的事件抽取方法
基于聯(lián)合方式的事件抽取方法就是利用觸發(fā)詞與事件參數(shù)之間的關(guān)系,為兩個(gè)模塊構(gòu)建依賴關(guān)聯(lián),使得兩個(gè)模塊可以進(jìn)行信息交互,達(dá)到抽取性能的提升。如圖3 所示,聯(lián)合模型利用觸發(fā)詞與事件參數(shù)之間的關(guān)聯(lián)性為兩個(gè)子任務(wù)構(gòu)建依賴關(guān)系。文獻(xiàn)[32]為事件抽取設(shè)計(jì)了一個(gè)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)(joint event extraction via recurrent neural networks,JRNN),該模型由雙向循環(huán)神經(jīng)網(wǎng)絡(luò)組成,每個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)都由門控神經(jīng)單元(gated recurrent unit,GRU)[33]構(gòu)成。同時(shí),為了構(gòu)建兩個(gè)模塊之間的依賴關(guān)系,文獻(xiàn)[32]利用記憶矩陣保存三種依賴信息:(1)觸發(fā)詞類型之間的依賴信息;(2)事件參數(shù)之間的依賴信息;(3)觸發(fā)詞和事件參數(shù)之間的依賴信息。該方法的聯(lián)合提取階段包括兩部分:編碼部分和預(yù)測(cè)部分。在編碼部分,利用JRNN 捕獲語(yǔ)義特征。在預(yù)測(cè)部分,在聯(lián)合抽取時(shí),先進(jìn)行事件類型檢測(cè),然后將提取出的觸發(fā)詞也當(dāng)作事件參數(shù)提取模塊輸入的一部分進(jìn)行分類。最后對(duì)記憶矩陣進(jìn)行更新,完成聯(lián)合抽取過程。除此之外,句子中單詞之間的關(guān)系也可以用來擴(kuò)充基本的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。例如,文獻(xiàn)[34]通過將兩個(gè)神經(jīng)元的句法依賴連接添加到模型中,設(shè)計(jì)了一個(gè)dbRNN(dependency-bridgeRNN)。除了使用依賴橋之外,句子的句法依賴樹也可以直接用來構(gòu)建樹結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)[35]。在經(jīng)典的Bi-LSTM(bi-directional long short-term memory)的基礎(chǔ)上,文獻(xiàn)[36]通過轉(zhuǎn)換用于中文事件檢測(cè)的句法依賴分析器的原始依賴樹進(jìn)一步構(gòu)建了以目標(biāo)詞為中心的依賴樹。文獻(xiàn)[37]提出用外部實(shí)體本體知識(shí)進(jìn)一步擴(kuò)充依賴樹,用于生物醫(yī)學(xué)事件抽取。文獻(xiàn)[38]通過引入抽象語(yǔ)義表示(abstract meaning representation)圖[39]來減少長(zhǎng)依賴,同時(shí)使用了圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)[40-42]來對(duì)其建模。在輸入層使用Bi-LSTM 對(duì)文本序列、詞性嵌入、實(shí)體標(biāo)簽以及位置信息進(jìn)行編碼,然后使用圖卷積網(wǎng)絡(luò)進(jìn)行句法信息特征提取。在聯(lián)合抽取中使用的方法大體與JRNN 類似,不同的是,在觸發(fā)詞識(shí)別模塊中使用自注意力機(jī)制來提升提取觸發(fā)詞的性能,然后將觸發(fā)詞和特征序列拼接作為事件參數(shù)提取模塊的輸入進(jìn)行分類判斷,損失函數(shù)使用聯(lián)合負(fù)對(duì)數(shù)似然損失函數(shù)。雖然基于聯(lián)合模型的事件抽取方法將子任務(wù)之間的關(guān)系連接起來減少傳播誤差,但與此同時(shí)也產(chǎn)生了訓(xùn)練困難、遷移性較差等問題。表2 總結(jié)了基于聯(lián)合方式的事件抽取方法的貢獻(xiàn)及不足。
表2 基于聯(lián)合模型的事件抽取方法總結(jié)Table 2 Summary of event extraction methods based on joint model
圖3 聯(lián)合模型框架圖Fig.3 Framework diagram of joint model
2.1.3 基于端到端的事件抽取方法
采用端到端(end-to-end)的思想構(gòu)建網(wǎng)絡(luò)模型,以純文本作為輸入,以事件結(jié)構(gòu)作為輸出。相較于上述兩種事件抽取方法,端到端的事件抽取方法模型不再對(duì)某一任務(wù)單獨(dú)設(shè)計(jì)模塊,省去在每個(gè)任務(wù)執(zhí)行前將數(shù)據(jù)重新標(biāo)注輸入的過程,達(dá)到簡(jiǎn)化模型和減少誤差傳播的效果。此外,得益于預(yù)訓(xùn)練語(yǔ)言模型(ELMO[43]、BERT[44]等)強(qiáng)大的語(yǔ)言表征和特征提取能力,研究者可以從閱讀理解、文本生成等不同的角度重新審視事件抽取的任務(wù)結(jié)果,使得事件抽取的發(fā)展進(jìn)入了一個(gè)新的階段。本文從以下三種類型介紹基于端到端的事件抽取方法。
(1)基于序列標(biāo)注的事件抽取方法
序列標(biāo)注(sequence labeling)方法就是利用模型對(duì)文本序列中的每個(gè)位置標(biāo)注一個(gè)相應(yīng)的標(biāo)簽,在NER 中有著廣泛的應(yīng)用[15]。而在事件抽取中,事件參數(shù)本質(zhì)就是一個(gè)在特定類型事件下扮演相應(yīng)角色的實(shí)體。如圖4 所示[45],當(dāng)句子輸入模型后,BERT 捕獲句子中的語(yǔ)義特征并進(jìn)行序列標(biāo)注,然后使用CRF條件隨機(jī)場(chǎng)(conditional random field,CRF)層約束生成的標(biāo)簽,最終得到每個(gè)實(shí)體的標(biāo)注結(jié)果。這種方式簡(jiǎn)化了事件抽取,并且取得了不錯(cuò)的效果。但是面對(duì)事件抽取中角色重疊、同義消除等問題,還具有一定挑戰(zhàn)性。
圖4 BERT+CRF 實(shí)現(xiàn)事件抽取Fig.4 BERT+CRF for event extraction
針對(duì)角色重疊問題,文獻(xiàn)[46]提出了一種基于預(yù)訓(xùn)練語(yǔ)言模型的多層標(biāo)簽指針網(wǎng)絡(luò)(pre-trained language model based multi-layer label pointer-net,BMPN)。BMPN 在進(jìn)行序列標(biāo)注時(shí),每個(gè)事件參數(shù)的起始位置都由一個(gè)頭指針(start)和尾指針(end)組成的二分類網(wǎng)絡(luò)確定,同時(shí)疊加多則二分類網(wǎng)絡(luò),便可以解決角色重疊問題。表3 總結(jié)了基于序列標(biāo)注的事件抽取方法的貢獻(xiàn)及不足。
表3 基于序列標(biāo)注的事件抽取方法總結(jié)Table 3 Summary of event extraction methods based on sequence labeling
(2)基于機(jī)器閱讀理解的事件抽取方法
基于機(jī)器閱讀理解(machine reading comprehension,MRC)的事件抽取方法通過定義問題引導(dǎo)模型在文中找到答案。相較于以往的工作,MRC 方法并不依賴實(shí)體識(shí)別。另外,在不同的事件中,事件參數(shù)可能含有相同的語(yǔ)義相似性。通過MRC 方式能使模型更好地學(xué)習(xí)到不同事件參數(shù)之間的語(yǔ)義相似性,從而提高模型的泛化能力。
文獻(xiàn)[47]是第一個(gè)基于MRC 的事件抽取方法。圖5 為文獻(xiàn)[47]的模型結(jié)構(gòu)圖,整體模型分為觸發(fā)詞識(shí)別和事件參數(shù)抽取兩個(gè)階段,觸發(fā)詞抽取和論元抽取均設(shè)置了問題模板。第一階段,利用預(yù)先設(shè)定的觸發(fā)詞問題模板,識(shí)別文本中的觸發(fā)詞;第二階段,利用預(yù)先設(shè)定的參數(shù)模板識(shí)別事件參數(shù)。文中設(shè)計(jì)了三種抽取模板:針對(duì)觸發(fā)詞抽取階段的問題模板,作者直接將觸發(fā)詞設(shè)計(jì)為問題(question);對(duì)于事件參數(shù)抽取,根據(jù)事件參數(shù)的不同類型進(jìn)行提問,例“who for person”“where for place”等;最后一個(gè)問題模板則是針對(duì)觸發(fā)詞與事件參數(shù)之間的關(guān)系進(jìn)行設(shè)計(jì),例如“[who for person] is the [argument] in[trigger]?”。三個(gè)模板逐層遞進(jìn),充分利用語(yǔ)義信息。而文獻(xiàn)[48]針對(duì)問題模板定義過于復(fù)雜的問題,提出了一種更加抽象的定義方法,將參數(shù)模板定義為“Person-based”“Normal”“Place-based”三類。表4為基于MRC 的事件抽取方法的貢獻(xiàn)及不足。
圖5 基于MRC 的事件抽取方法Fig.5 Event ExtractionbyMRC
表4 基于MRC 的事件抽取方法總結(jié)Table 4 Summary of event extraction methods based on MRC
(3)基于模板提示的事件抽取方法
采用基于模板提示的方法,就是在模板的指導(dǎo)下進(jìn)行事件的識(shí)別和抽取,模型從文本里找到“答案”并填充到問題模板中,屬于序列生成任務(wù)。與MRC 的事件抽取方法類似,該方法并不依賴實(shí)體識(shí)別,同樣具有較強(qiáng)的遷移性。但不同之處在于,基于模板提示的方法直接針對(duì)不同的事件類型構(gòu)建模板,不需要對(duì)觸發(fā)詞以及事件參數(shù)單獨(dú)構(gòu)建,減少了額外的人工操作。
基于模板提示的事件抽取方法遵循序列生成任務(wù)中的Seq2Seq 方法,如圖6 所示,模型將給定輸入序列編碼為隱藏狀態(tài),利用解碼器將該隱藏狀態(tài)解碼為另一個(gè)序列并輸出。文獻(xiàn)[49]提出了一個(gè)基于模板提示的事件參數(shù)識(shí)別模型。該模型架構(gòu)使用了預(yù)訓(xùn)練語(yǔ)言模型BART[50]、T5[51]。在進(jìn)行事件參數(shù)抽取時(shí),首先將模板和文本拼接輸入到BART 編碼器,然后編碼器對(duì)模板中各個(gè)參數(shù)占位符進(jìn)行信息交互,同時(shí)生成文本編碼。最后BART 解碼器根據(jù)文本編碼中的詞匯輸出模板中的占位符生成對(duì)應(yīng)的具體內(nèi)容,完成事件抽取。文獻(xiàn)[52]利用不同粒度的模板信息,構(gòu)建了一個(gè)通用信息抽?。╱niversal information extraction,UIE)模型。該模型設(shè)計(jì)了一種結(jié)構(gòu)化模板,能夠同時(shí)實(shí)現(xiàn)關(guān)系抽取、事件抽取等四種信息抽取任務(wù)。
圖6 基于模板的事件抽取方法Fig.6 Event extraction method based on template
面對(duì)上述方法中人工構(gòu)建的問題模板,文獻(xiàn)[53]認(rèn)為,人工構(gòu)建的模板不一定最優(yōu),并且在抽取時(shí)只考慮當(dāng)前事件類型,忽略了其他事件之間的聯(lián)系。故文獻(xiàn)[53]利用Prefix-Tuning(在保持模型參數(shù)固定的情況下,只對(duì)特定任務(wù)向量?jī)?yōu)化)方法融合上下文及特定事件類型信息的動(dòng)態(tài)前綴,解決上述存在的問題。文獻(xiàn)[54]研究了在抽取設(shè)置下的提示調(diào)優(yōu),并提出了一種新的方法實(shí)現(xiàn)論元抽取的參數(shù)交互。它擴(kuò)展了基于問答的模型來處理多個(gè)參數(shù)抽取并利用了預(yù)訓(xùn)練模型的優(yōu)勢(shì)。該文獻(xiàn)提出了三種類型模板:人工模板、融合模板和軟提示模板。使得模型在句子和文檔層面都具有不錯(cuò)的表現(xiàn),并且簡(jiǎn)化了模板提示式設(shè)計(jì)的要求。表5 總結(jié)了基于模板提示的事件抽取方法的貢獻(xiàn)及不足。
表5 基于模板提示的事件抽取方法總結(jié)Table 5 Summary of event extraction methods based on template
篇章級(jí)事件抽取方法是在文檔層面進(jìn)行事件抽取,更加貼近現(xiàn)實(shí)世界中的實(shí)際需要。由于文檔由多條語(yǔ)句組成,包含更加復(fù)雜的全局語(yǔ)義特征。相較于句子級(jí)事件抽取方法,篇章級(jí)事件抽取方法不能單獨(dú)依靠觸發(fā)詞識(shí)別事件,還需考慮不同句子的語(yǔ)義信息。除此之外,文檔中待抽取的事件參數(shù)較為分散,如何讓篇章級(jí)事件抽取方法準(zhǔn)確識(shí)別事件參數(shù)是一個(gè)亟需解決的問題。
傳統(tǒng)的句子級(jí)事件抽取一般分為觸發(fā)詞識(shí)別和事件參數(shù)提取兩個(gè)過程,而文獻(xiàn)[55]認(rèn)為事件抽取的目標(biāo)是識(shí)別事件類型并提取事件參數(shù),而觸發(fā)詞只是這個(gè)任務(wù)的中間結(jié)果。并且在現(xiàn)實(shí)中,一類事件可能有多個(gè)觸發(fā)詞,若對(duì)數(shù)據(jù)進(jìn)行觸發(fā)詞標(biāo)注會(huì)消耗大量的人工成本。故基于無觸發(fā)詞的篇章級(jí)事件抽取方法成為主要的研究方法。
文獻(xiàn)[56]提出了一個(gè)基于無觸發(fā)詞設(shè)計(jì)的篇章級(jí)別事件抽取模型Doc2EDAG。該模型的核心思想是將文檔級(jí)別的事件表填充任務(wù)(document-level event table filling,DEE)轉(zhuǎn)化為基于實(shí)體的有向無環(huán)圖的路徑擴(kuò)展任務(wù)(entity-based directed acyclic graph,EDAG)。Doc2EDAG 首先將文檔級(jí)別的文本信息編碼并進(jìn)行命名實(shí)體識(shí)別,然后在事件檢測(cè)過程中設(shè)計(jì)了一種無觸發(fā)詞檢測(cè),利用線性分類器對(duì)輸入中可能存在的事件進(jìn)行事件觸發(fā)檢測(cè);在事件參數(shù)提取過程中,首先識(shí)別出每個(gè)實(shí)體的參數(shù)角色并將相同實(shí)體進(jìn)行融合,然后在事件表填充時(shí),根據(jù)事件參數(shù)提取預(yù)定義的順序,使用有向無環(huán)圖的路徑擴(kuò)展方法對(duì)其進(jìn)行填充。另外在有向無環(huán)圖路徑擴(kuò)展中還設(shè)計(jì)了一個(gè)記憶機(jī)制來對(duì)每個(gè)事件參數(shù)進(jìn)行標(biāo)記,以此解決同一事件參數(shù)屬于不同事件類型的問題。圖7為EDAG示意圖。
圖7 EDAG 示意圖Fig.7 Schematic diagram of EDAG
除此之外,研究人員也提出了其他的無觸發(fā)詞事件抽取方法[47-48]。針對(duì)單事件條件,文獻(xiàn)[47]提出了一個(gè)篇章級(jí)事件抽取模型ATTDEE(attention-based document-level event extraction),該模型的主要貢獻(xiàn)在于使用文檔中心句進(jìn)行事件檢測(cè)。該方法認(rèn)為當(dāng)一篇文檔中包含一個(gè)事件時(shí),總是存在一個(gè)提及事件發(fā)生且包含了最多關(guān)鍵參數(shù)的事件中心句,其他事件參數(shù)則有規(guī)律地分布在中心句的周圍。而對(duì)于關(guān)鍵參數(shù)的定義,文獻(xiàn)[57]采用了詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)方法,用于判斷事件參數(shù)在文檔中的重要程度。在抽取階段,利用Transformer 根據(jù)事件參數(shù)的重要程度以及與中心句的距離進(jìn)行抽取,簡(jiǎn)化了單事件抽取過程。而在多事件條件下,文獻(xiàn)[58]利用Transformer 進(jìn)行句子級(jí)編碼,同時(shí)使用圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)將實(shí)體句子之間的關(guān)系連接起來,獲得更加豐富的文檔級(jí)語(yǔ)義信息。另外,受到文獻(xiàn)[56]的啟發(fā),該模型設(shè)計(jì)了一個(gè)追蹤(Tracker)模塊用于多事件填充。Tracker 模塊按照預(yù)定義事件參數(shù)順序,利用約束擴(kuò)展樹的方式進(jìn)行路徑擴(kuò)展,并持續(xù)跟蹤事件提取記錄,在進(jìn)行事件抽取時(shí)查詢?nèi)钟洃?,利用其他記錄的相互依賴信息,預(yù)測(cè)參數(shù)角色,從而提升模型的性能。表6 總結(jié)了基于無觸發(fā)詞的事件抽取方法的貢獻(xiàn)及不足。
表6 篇章級(jí)事件抽取方法總結(jié)Table 6 Summary of document-level event extraction methods
由于深度學(xué)習(xí)方法需要調(diào)整神經(jīng)網(wǎng)絡(luò)中的大量參數(shù),通常數(shù)據(jù)集越大,標(biāo)注質(zhì)量越好,模型的效果就越好。然而,數(shù)據(jù)集的標(biāo)注是一項(xiàng)巨大的工作量,需要消耗大量的成本,因此許多的數(shù)據(jù)集標(biāo)注規(guī)模并不大,存在覆蓋領(lǐng)域小、標(biāo)注質(zhì)量差的問題。近年來,針對(duì)低資源下事件抽取效果差的問題,研究者提出利用小樣本學(xué)習(xí)[59-60]、引入外部知識(shí)[61-63]等方法,來提升事件抽取模型的性能。
2.3.1 小樣本事件抽取方法
小樣本學(xué)習(xí)(few-shot learning,F(xiàn)SL)與傳統(tǒng)監(jiān)督學(xué)習(xí)不同,其思想是讓模型學(xué)習(xí)不同類別之間的差異性,從而獲得區(qū)分不同類別的能力。面對(duì)數(shù)據(jù)較少、樣本分布稀疏等問題,小樣本學(xué)習(xí)可以有效提高模型的識(shí)別性能和泛化能力。在事件抽取的研究中,研究者也提出了一些小樣本學(xué)習(xí)方法,它們的一般過程為:使用訓(xùn)練集預(yù)訓(xùn)練一個(gè)相似判斷網(wǎng)絡(luò),讓其學(xué)習(xí)到不同事件類型之間的差異性。然后利用支持集提供的少量樣本對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),并為標(biāo)簽信息生成特征向量。最后在預(yù)測(cè)階段,輸入一個(gè)查詢文本,模型生成對(duì)應(yīng)的特征向量,將這個(gè)向量與標(biāo)簽向量進(jìn)行比較,得到最終的分類結(jié)果。
目前小樣本學(xué)習(xí)采用K-WayN-Shot(支持集中有K類,每類有N個(gè)樣本)的采樣方法。當(dāng)N值較小時(shí),模型可利用信息不充分,容易產(chǎn)生樣本偏差問題。文獻(xiàn)[59]提出了一種小樣本事件檢測(cè)方法,該方法利用動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)(dynamic memory networks,DMN)進(jìn)行建模。使用DMN 多次從事件提及中提取上下文信息,從而讓模型學(xué)習(xí)更好的類型表示。面對(duì)同樣的問題,文獻(xiàn)[60]認(rèn)為,此前的方法僅僅依賴查詢實(shí)例與支持集之間的相似信息,并沒有考慮支持集中的樣本類別信息。為此,文獻(xiàn)[60]在訓(xùn)練函數(shù)中加入類間和類內(nèi)損失,以此進(jìn)一步增強(qiáng)模型的類型表示能力。
2.3.2 引入外部知識(shí)的事件抽取方法
目前研究使用的數(shù)據(jù)集大多存在數(shù)據(jù)規(guī)模小、類型分布不均的問題,這些問題會(huì)造成模型在稀疏的數(shù)據(jù)上訓(xùn)練較差,而在密集的數(shù)據(jù)上過擬合。對(duì)此,研究者提出利用大型知識(shí)庫(kù)擴(kuò)展訓(xùn)練數(shù)據(jù),從而提升模型識(shí)別性能[61-63]。
文獻(xiàn)[61]認(rèn)為,F(xiàn)rameNet 知識(shí)庫(kù)包含大量的文本框架,每個(gè)文本框架由一個(gè)詞匯單元(lexical unit)和多個(gè)框架元素(frame elements)構(gòu)成,該結(jié)構(gòu)與ACE 2005數(shù)據(jù)集中定義的事件結(jié)構(gòu)十分類似。因此,文獻(xiàn)[61]提出一種將FrameNet 的文本框架映射為ACE 事件結(jié)構(gòu)的方法。首先,使用ACE 2005 數(shù)據(jù)集訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型;然后,使用該模型對(duì)FrameNet 的句子進(jìn)行類型識(shí)別,得到初始分類結(jié)果;最后,根據(jù)預(yù)先設(shè)計(jì)的假設(shè)對(duì)初始分類結(jié)果進(jìn)行修正,得到擴(kuò)展數(shù)據(jù)。
文獻(xiàn)[62]提出利用遠(yuǎn)程監(jiān)督[20]的方法對(duì)訓(xùn)練語(yǔ)料進(jìn)行自動(dòng)標(biāo)注。該方法首先利用Freebase 挑選出每個(gè)事件類型中的關(guān)鍵事件參數(shù),再根據(jù)關(guān)鍵事件參數(shù)確定表達(dá)事件的觸發(fā)詞。獲得初始觸發(fā)詞集合后,通過詞嵌入技術(shù)將其映射到FrameNet 中,篩選出置信度高的觸發(fā)詞。最后使用一種軟遠(yuǎn)程監(jiān)督的方法重新篩選和標(biāo)注句子,從而得到自動(dòng)標(biāo)注的數(shù)據(jù)。
針對(duì)標(biāo)記數(shù)據(jù)的長(zhǎng)尾問題(即某種事件類型僅有少量的標(biāo)記數(shù)據(jù)),文獻(xiàn)[63]提出一種利用開放域觸發(fā)詞知識(shí)增強(qiáng)模型事件檢測(cè)的方法。具體而言,文獻(xiàn)[63]設(shè)計(jì)了一個(gè)師生(Teacher-Student)模型,首先使用WordNet 收集到的開放域觸發(fā)詞知識(shí)訓(xùn)練Teacher模型,然后在Student 模型訓(xùn)練時(shí),使用沒有知識(shí)增強(qiáng)的數(shù)據(jù)來模仿Teacher模型的輸出,并利用KL 散度最小化概率分布之間的差異。最后,將Teacher 模型和Student模型進(jìn)行聯(lián)合優(yōu)化,完成整體模型訓(xùn)練。
本章介紹封閉域事件抽取任務(wù)的數(shù)據(jù)資源。隨著研究的發(fā)展,許多研究機(jī)構(gòu)為事件抽取任務(wù)提供了數(shù)據(jù)支持,根據(jù)任務(wù)定義對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注,將其用于監(jiān)督學(xué)習(xí)下的神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測(cè)試中;數(shù)據(jù)標(biāo)注一般由具有專業(yè)領(lǐng)域知識(shí)的人員完成,標(biāo)注后的數(shù)據(jù)標(biāo)簽可以認(rèn)為是真實(shí)有效的。但是此種標(biāo)注方法存在標(biāo)注過程復(fù)雜、成本高昂的問題,導(dǎo)致許多公共數(shù)據(jù)集的規(guī)模以及覆蓋性不高。
由于數(shù)據(jù)的來源有多種方式,并且需要盡可能貼近現(xiàn)實(shí),在原始數(shù)據(jù)收集時(shí),在收集數(shù)據(jù)時(shí)會(huì)進(jìn)行數(shù)據(jù)分析,對(duì)于獲取到的原始數(shù)據(jù)進(jìn)行主題分類,得到這些數(shù)據(jù)的事件類型,例如人生、事故、組織行為等。然后針對(duì)以上每種事件類型的數(shù)據(jù),會(huì)對(duì)其進(jìn)行下一步的數(shù)據(jù)分析(關(guān)鍵詞分析等),得到事件子類型以及定義事件架構(gòu),最終對(duì)每條數(shù)據(jù)按照標(biāo)準(zhǔn)進(jìn)行標(biāo)注,得到可用的數(shù)據(jù)。
ACE 2005 數(shù)據(jù)集[13]是語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)于2005 年發(fā)布的,ACE 2005 數(shù)據(jù)集定義了8 種事件類型和33 種子類型,為每一種子類型的事件構(gòu)造了一種事件結(jié)構(gòu),其中的參數(shù)角色也不盡相同,所有事件子類型的事件參數(shù)角色總共有36 種。表7 羅列出了ACE 2005 數(shù)據(jù)集中的每種事件類型及其包含的子類型事件。ACE 2005 數(shù)據(jù)集是從新聞專線、廣播新聞、廣播對(duì)話、博客、新聞組、對(duì)話式電話語(yǔ)音6 種媒體收集而成,包括中文、英語(yǔ)、阿拉伯語(yǔ)3 種語(yǔ)言,共標(biāo)注了599 個(gè)文檔和大約6 000 個(gè)事件。表8 提供了它們的數(shù)據(jù)來源統(tǒng)計(jì)。
表7 ACE 2005 數(shù)據(jù)集的事件類型及其子類型Table 7 Event types and subtypes of ACE 2005 dataset
表8 ACE 2005 數(shù)據(jù)集的數(shù)據(jù)來源Table 8 Data source of ACE 2005 dataset 單位:%
TAC-KBP 2015 數(shù)據(jù)集[64]由LDC提供,用 于TAC-KBP 2015 事件跟蹤比賽,數(shù)據(jù)從新聞文章和論壇中收集而成,共有360 個(gè)標(biāo)注文檔,其中158 個(gè)文檔作為先前訓(xùn)練集,202 個(gè)文檔作為比賽正式評(píng)估的測(cè)試集。參考ACE 2005 數(shù)據(jù)集,TAC-KBP 2015 數(shù)據(jù)集定義了9 種事件類型和38 個(gè)子類型事件。在TAC-KBP 2015 數(shù)據(jù)集只有英文一種語(yǔ)言的數(shù)據(jù),但在TAC-KBP 2016 比賽提供的數(shù)據(jù)集中增加了中文和西班牙語(yǔ)數(shù)據(jù)集。
DUEE1.0 數(shù)據(jù)集[45]由百度公司標(biāo)注,用于2020語(yǔ)言與智能技術(shù)競(jìng)賽事件抽取比賽當(dāng)中。DUEE1.0數(shù)據(jù)集是目前公開的規(guī)模最大的句子級(jí)別的中文事件抽取數(shù)據(jù)集。DUEE1.0 數(shù)據(jù)集由19 640 個(gè)事件組成,包含65 個(gè)事件類型的1.7 萬(wàn)個(gè)具有事件信息的句子。數(shù)據(jù)從百度信息流資訊中收集而成,相對(duì)于ACE 2005、TAC-KBP 數(shù)據(jù)集,DUEE1.0 中收集的中文事件包含很多新時(shí)代網(wǎng)絡(luò)用語(yǔ),事件文本語(yǔ)法有著很高的自由度,事件抽取的難度也更大。該任務(wù)也接近于現(xiàn)實(shí)場(chǎng)景,例如,單個(gè)實(shí)例被允許包含多個(gè)事件,不同的事件被允許共享相同的參數(shù)角色,并且一個(gè)事件參數(shù)在不同的事件中被允許扮演不同的參數(shù)角色。
上述3 種數(shù)據(jù)集都是公共領(lǐng)域,包含不同的類型的新聞文本。而對(duì)于一些特定領(lǐng)域,因其含有大量專業(yè)名詞,所以需要對(duì)這些特殊領(lǐng)域進(jìn)行單獨(dú)收集數(shù)據(jù)并標(biāo)注,以提供更加可靠的數(shù)據(jù)支撐。
3.4.1 生物事件數(shù)據(jù)集
BioNLP(BioNLP-ST)生物文本挖掘比賽,其目的是為了從生物醫(yī)學(xué)領(lǐng)域的科學(xué)文獻(xiàn)中提取細(xì)粒度的生物分子事件。該比賽提供了多個(gè)由專業(yè)領(lǐng)域人員標(biāo)注的生物事件數(shù)據(jù)集,例如Genia 數(shù)據(jù)集[65]、BioInfer數(shù)據(jù)集[66]。
3.4.2 金融領(lǐng)域事件數(shù)據(jù)集
針對(duì)金融領(lǐng)域事件,文獻(xiàn)[56]使用遠(yuǎn)程監(jiān)督算法[20]構(gòu)建了一個(gè)大型的文檔級(jí)別金融領(lǐng)域事件抽取數(shù)據(jù)集ChFinAnn,共有32 040 個(gè)標(biāo)注文檔,其中包含5 種金融事件類型。數(shù)據(jù)來源于2008—2018 年共10 年的中國(guó)金融事件新聞。表9 提供該數(shù)據(jù)集的事件類型及其事件參數(shù)類型。
表9 ChFinAnn 數(shù)據(jù)集的事件類型及事件參數(shù)類型Table 9 Event types and event parameters of ChFinAnn dataset
DUEE_fin 數(shù)據(jù)集[45]:由百度公司標(biāo)注,用于2020語(yǔ)言與智能技術(shù)競(jìng)賽事件抽取比賽當(dāng)中。該數(shù)據(jù)集含有1.17 萬(wàn)篇新聞,共標(biāo)注了13 個(gè)事件類型及其對(duì)應(yīng)的92 個(gè)論元角色類別。
上述這些神經(jīng)網(wǎng)絡(luò)模型在不同的語(yǔ)料庫(kù)上進(jìn)行了實(shí)驗(yàn),不太可能對(duì)它們進(jìn)行公平的比較。本章主要將這些方法在不同數(shù)據(jù)集上的結(jié)果進(jìn)行展示。
觸發(fā)詞識(shí)別(trigger detection,TD):識(shí)別出觸發(fā)詞在文本中的位置。
事件類型識(shí)別(trigger identification,TI):識(shí)別出觸發(fā)詞的事件類型與設(shè)定中的事件類型是否一致。
參數(shù)識(shí)別(argument detection,AD):事件參數(shù)是否被正確識(shí)別。
事件參數(shù)類型識(shí)別(argument identification,AI):事件參數(shù)類型被正確識(shí)別。
表10、表11 分別給出了在ACE 2005 數(shù)據(jù)集下中文和英文數(shù)據(jù)集中不同方法報(bào)告的事件提取結(jié)果,判斷指標(biāo)為F1 分?jǐn)?shù)。F1 分?jǐn)?shù)是統(tǒng)計(jì)學(xué)中用來衡量二分類模型精確度的一種指標(biāo),兼顧召回率和精度。TP為真陽(yáng)性(true positive),F(xiàn)N為假陰性(false negative),F(xiàn)P為假陽(yáng)性(false positive)。
通過表10、表11 中結(jié)果可知,針對(duì)英文的事件抽取方法在數(shù)量方面要比中文多,同時(shí)性能也比中文好。造成該結(jié)果的原因在于:一方面,由于事件抽取任務(wù)提出與研究國(guó)外都比國(guó)內(nèi)早,中文數(shù)據(jù)集的缺少以及標(biāo)注質(zhì)量不高,大多數(shù)研究者比較集中于英文事件抽??;另一方面,由于中文與英文語(yǔ)法存在巨大差別,英文的句法結(jié)構(gòu)相對(duì)固定,在抽取過程中較中文更容易捕獲文本特征。雖然近年來例如中文分詞、句法分析等底層子任務(wù)的發(fā)展迅速,但中文沒有顯式分隔,在分詞時(shí)會(huì)產(chǎn)生一定的誤差,對(duì)觸發(fā)詞的判定造成影響。
表10 在ACE 2005 中文數(shù)據(jù)集上的事件抽取性能比較Table 10 Performance comparison of Chinese event extraction on ACE 2005 dataset
表11 在ACE 2005 英文數(shù)據(jù)集上的事件抽取性能比較Table 11 Performance comparison of English event extraction on ACE 2005 dataset
此外,通過實(shí)驗(yàn)結(jié)果可以看到,基于MRC 和模板提示的事件抽取方法[51-58]的性能較之傳統(tǒng)的方法性能并沒有明顯提高,甚至某些方法的性能還有下降。主要原因在于這兩類方法都需要人工定義問題模板,模型的性能很大程度受到人工模板的影響。在后續(xù)的研究中,解決人工模板帶來的誤差問題,提升模板質(zhì)量將是提升這兩類方法性能的關(guān)鍵所在。
表12和表13分別展示了在ChFinAnn和DUEE1.0數(shù)據(jù)集下的不同方法的抽取結(jié)果[46-50]。根據(jù)結(jié)果可以看到,相較于ACE 2005 數(shù)據(jù)集,在ChFinAnn 和DUEE1.0 數(shù)據(jù)集實(shí)驗(yàn)的方法整體性能要更好。原因在于,這兩個(gè)數(shù)據(jù)集的數(shù)據(jù)標(biāo)注質(zhì)量較好,且數(shù)據(jù)量大。另外ChFinAnn 數(shù)據(jù)集屬于金融領(lǐng)域數(shù)據(jù)集,事件類型少,文本語(yǔ)法結(jié)構(gòu)化較為固定。
表12 在DUEE1.0 數(shù)據(jù)集上的事件抽取性能比較Table 12 Performance comparison of event extraction on DUEE1.0 dataset
表13 在ChFinAnn 數(shù)據(jù)集上的事件抽取性能比較Table 13 Performance comparison of event extraction on ChFinAnn dataset
通過上述分析,可以發(fā)現(xiàn)對(duì)于監(jiān)督學(xué)習(xí)下的事件抽取模型,標(biāo)注的數(shù)據(jù)越多,文本中包含的事件參數(shù)越完整,模型就能學(xué)習(xí)到更多的文本語(yǔ)義信息,模型的性能就會(huì)越好。
事件抽取是自然語(yǔ)言處理中的一項(xiàng)重要任務(wù),由于其廣泛的應(yīng)用,事件抽取已經(jīng)得到了廣泛的重視,近年來深度學(xué)習(xí)等許多新技術(shù)的快速發(fā)展,使得事件抽取這項(xiàng)任務(wù)得到了深入的研究。但目前封閉域事件抽取最大的困難和挑戰(zhàn)有以下方面:
(1)由于自然語(yǔ)言的靈活性強(qiáng),復(fù)雜性高,文本轉(zhuǎn)換為詞嵌入時(shí)會(huì)造成一些信息的丟失,造成事件抽取方法性能下降。雖然有大量的研究人員利用各種方式對(duì)文本詞嵌入信息進(jìn)行補(bǔ)充,但這些方法大多基于假設(shè)或特定場(chǎng)景,存在一定的局限性,故語(yǔ)義信息丟失問題仍需探究。
(2)數(shù)據(jù)集有待進(jìn)一步完善?,F(xiàn)有的數(shù)據(jù)集存在覆蓋領(lǐng)域小、包含的事件數(shù)量較少、事件信息較為簡(jiǎn)單以及整體數(shù)據(jù)集的規(guī)模不大等問題。而基于深度學(xué)習(xí)的事件抽取方法非常依賴于大量的、貼近現(xiàn)實(shí)的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,因此導(dǎo)致事件抽取效果還不夠理想。
(3)現(xiàn)有方法大多集中于句子級(jí)別的事件抽取,由于這些方法對(duì)于捕獲文本上下文之間的信息能力不強(qiáng),在面對(duì)角色共享以及共指消解(即同一實(shí)體的不同表達(dá))等實(shí)際問題時(shí),不能很好地解決上述問題,因此當(dāng)前的事件抽取方法并不能滿足現(xiàn)實(shí)生活中對(duì)于長(zhǎng)新聞文本分析的需要。除此之外,事件抽取對(duì)于實(shí)體識(shí)別、關(guān)系抽取等底層任務(wù)的依賴性很高,這些底層任務(wù)出現(xiàn)誤差時(shí)會(huì)給事件抽取帶來級(jí)聯(lián)錯(cuò)誤,影響抽取性能。
雖然存在諸多挑戰(zhàn),但隨著事件抽取受到更多的關(guān)注以及技術(shù)的發(fā)展,這些困難也會(huì)逐漸攻克,未來發(fā)展趨勢(shì)如下:
(1)隨著大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展,利用海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練得到的詞嵌入擁有更多的信息,將預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用到事件抽取上也逐漸受到更多學(xué)者的關(guān)注。
(2)針對(duì)數(shù)據(jù)集缺少的情況,現(xiàn)有的大型知識(shí)庫(kù)例如FrameNet、Freebase、Wikipedia、WordNet 含有豐富的知識(shí),在當(dāng)前的研究中已經(jīng)有學(xué)者使用遠(yuǎn)程監(jiān)督,利用知識(shí)庫(kù)構(gòu)建了大型的數(shù)據(jù)集。故利用知識(shí)庫(kù)的豐富信息提升事件抽取的性能也將會(huì)成為研究的熱點(diǎn)。
(3)隨著研究的深入,利用閱讀理解、序列生成的方式可以避免對(duì)于實(shí)體識(shí)別等技術(shù)的依賴。這些方法將大大促進(jìn)文檔級(jí)事件抽取的發(fā)展,吸引著更多學(xué)者的探索。
作為自然語(yǔ)言處理的重要任務(wù)之一,事件抽取為智慧問答、信息檢索等基于知識(shí)驅(qū)動(dòng)的下游任務(wù)提供了重要支撐。本文首先對(duì)封閉域事件抽取的任務(wù)定義,然后分析、對(duì)比不同的深度學(xué)習(xí)事件抽取方法,列舉當(dāng)前的數(shù)據(jù)支撐,最后總結(jié)出當(dāng)前深度學(xué)習(xí)事件抽取方法存在的困難。在未來,使用大型數(shù)據(jù)庫(kù)補(bǔ)充數(shù)據(jù),對(duì)于預(yù)訓(xùn)練語(yǔ)言模型給予更多關(guān)注,提升特征獲取的方式,使其能夠處理更長(zhǎng)的文本,將是事件抽取的重要研究方向。