吳文濤,李培峰,朱巧明
(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 江蘇省計(jì)算機(jī)信息技術(shù)處理重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
實(shí)體(Entity)和事件(Event)抽取是信息抽取(Information Extraction)的兩個(gè)子任務(wù),這兩個(gè)子任務(wù)密切相關(guān)。事件抽取的任務(wù)是從文本中抽取出預(yù)先定義好的各種類型事件實(shí)例(Event Mention)及其論元(Argument)(1)事件的參與者和屬性,由實(shí)體實(shí)例組成。。其中,實(shí)體是事件的核心組成部分,實(shí)體抽取任務(wù)有助于準(zhǔn)確抽取事件。
例1給出了一個(gè)事件實(shí)例,其中,“reaching”是事件的觸發(fā)詞,所觸發(fā)的事件類型為Attack(攻擊)?!癝cud missiles”是其中的一個(gè)實(shí)體,其實(shí)體類型是WEA(武器),充當(dāng)?shù)慕巧荌nstrument(工具)。這個(gè)實(shí)體的識(shí)別明顯有助于識(shí)別該事件為Attack(攻擊)類型事件。因?yàn)槎鄶?shù)攻擊類型事件都有攻擊的武器。
例1Iraq believed to haveScud missilescapable ofreachingBaghdad.
現(xiàn)有的工作大多數(shù)將實(shí)體抽取和事件抽取作為兩個(gè)單獨(dú)任務(wù),很少關(guān)注兩個(gè)子任務(wù)的相關(guān)性。在事件抽取中,絕大多數(shù)現(xiàn)有工作都假設(shè)文本中的實(shí)體已知[1-5],但這在實(shí)際應(yīng)用中并不成立。Li等[6]先使用命名實(shí)體識(shí)別工具識(shí)別出人物、組織和地點(diǎn)等實(shí)體實(shí)例,然后再將這些抽取的實(shí)體作為輸入來抽取事件,這往往會(huì)導(dǎo)致錯(cuò)誤傳遞。在上述例子中,若命名實(shí)體識(shí)別工具識(shí)別不出“Scud missiles”是武器類實(shí)體,或錯(cuò)誤地將其識(shí)別為人物,就可能導(dǎo)致事件抽取系統(tǒng)無法正確抽取出該Attack事件。另外,少數(shù)研究為實(shí)體抽取和事件抽取建立聯(lián)合學(xué)習(xí)模型,但這些模型往往基于特征工程,依賴復(fù)雜人工特征。另外,這些模型嚴(yán)重依賴于其他任務(wù)(如句法分析和依存分析等),這也會(huì)導(dǎo)致級(jí)聯(lián)錯(cuò)誤。
為了解決上述問題,本文提出了一個(gè)聯(lián)合實(shí)體抽取和事件抽取的混合神經(jīng)網(wǎng)絡(luò)模型(Hybrid Neural Networks for Entity and Event Extraction,HNN-EE)。該模型的核心是實(shí)體抽取和事件抽取共享一個(gè)雙向LSTM層,通過底層共享參數(shù),互相促進(jìn)學(xué)習(xí),獲得實(shí)體和事件之間豐富的關(guān)聯(lián)信息。此外,該模型還采用線性(Conditional Random Field,CRF)層結(jié)構(gòu)來模擬標(biāo)簽之間的交互關(guān)系來解碼整個(gè)句子的標(biāo)簽,并引入自注意力(Self Attention)機(jī)制和門控卷積神經(jīng)網(wǎng)絡(luò)(Gated Convolutional Neural Networks)來捕獲任意詞之間的關(guān)系和提取局部信息,實(shí)現(xiàn)信息的多通道融合。在英文ACE 2005語料庫上的實(shí)驗(yàn)結(jié)果表明,本文的方法明顯優(yōu)于目前最先進(jìn)的基準(zhǔn)系統(tǒng)。
目前,事件抽取的相關(guān)研究工作雖然很多,但為了降低任務(wù)復(fù)雜性,絕大多數(shù)工作假設(shè)文檔中的實(shí)體已經(jīng)被識(shí)別。例如,Ahn[1]使用詞匯、句法特征以及外部知識(shí)庫來抽取事件。Hong等[2]充分利用實(shí)體類型的一致性特征,提出利用跨實(shí)體推理進(jìn)行事件抽取的方法。Chen[3]等將觸發(fā)詞抽取和論元抽取作為兩個(gè)整體任務(wù)來抽取中文事件,進(jìn)而防止錯(cuò)誤傳遞。Li等[6]采用基于結(jié)構(gòu)化感知機(jī)的聯(lián)合模型,將觸發(fā)詞抽取和論元抽取看作一個(gè)整體的序列標(biāo)注任務(wù)。Liu等[7]利用概率軟邏輯模型來編碼全局信息,進(jìn)一步提升了事件抽取性能。
近年來,隨著深度學(xué)習(xí)的發(fā)展,更多的神經(jīng)網(wǎng)絡(luò)模型被引入到事件抽取。Nguyen、Grishman[4]、以及Chen等[5]運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)來避免復(fù)雜的特征工程。Nguyen等[8]提出基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型,同時(shí)抽取觸發(fā)詞和論元。Sha等[9]針對(duì)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型沒有有效地利用依存句法信息,提出了依賴橋的雙向LSTM模型,充分利用句法信息來抽取事件,性能得到明顯提升。Liu等[10]利用已經(jīng)標(biāo)注的論元信息,提出了基于有監(jiān)督的注意力機(jī)制事件抽取方法。
目前,僅有少數(shù)的工作從生文本(實(shí)體信息未知)中抽取事件。Li等[11]提出一個(gè)基于結(jié)構(gòu)化預(yù)測模型,同時(shí)抽取實(shí)體,關(guān)系和事件。Yang等[12]提出篇章內(nèi)的事件和實(shí)體抽取聯(lián)合模型,通過采用聯(lián)合因子圖模型來聯(lián)合學(xué)習(xí)每個(gè)事件內(nèi)部的結(jié)構(gòu)化信息、篇章內(nèi)不同事件間的關(guān)系和實(shí)體信息,明顯提高了實(shí)體和事件的抽取性能。不同于Yang等[12]的工作依賴大量的人工特征,本文的一個(gè)特點(diǎn)是采用混合神經(jīng)網(wǎng)絡(luò)模型通過底層共享來挖掘?qū)嶓w和事件抽取兩個(gè)任務(wù)間的依賴關(guān)系。
為了解決管道模型中的級(jí)聯(lián)錯(cuò)誤和傳統(tǒng)方法中依賴人工特征的問題,本文提出了一個(gè)混合神經(jīng)網(wǎng)絡(luò)模型HNN-EE,其架構(gòu)如圖1所示。
圖1 HNN-EE模型的架構(gòu)
HNN-EE主要通過實(shí)體和事件抽取兩個(gè)任務(wù)在淺層共享參數(shù),協(xié)同訓(xùn)練,互相促進(jìn),提高性能。該模型主要包含以下3個(gè)部分: ①輸入和編碼層; ②實(shí)體抽取模塊; ③事件抽取模塊。首先,在輸入和編碼層部分,輸入包含了詞向量和經(jīng)過卷積、池化后的字符向量。編碼層雙向LSTM可以將序列中每個(gè)詞的上下文信息從前向和后向兩個(gè)方向很好地保留并傳遞下去,提取序列中的全局信息。實(shí)體抽取任務(wù)和事件抽取任務(wù)共享雙向LSTM編碼層,兩個(gè)任務(wù)通過底層共享參數(shù)的形式共同學(xué)習(xí),在訓(xùn)練時(shí)兩個(gè)任務(wù)通過后向傳播算法更新共享參數(shù)來實(shí)現(xiàn)兩個(gè)任務(wù)之間的依賴。編碼層后有兩個(gè)通道,一個(gè)連接到實(shí)體抽取模塊,由線性CRF層來解碼,獲得最佳的實(shí)體標(biāo)簽序列;另一個(gè)送入到自注意力層和門控卷積層,自注意力層捕獲序列內(nèi)部的聯(lián)系,門控卷積神經(jīng)網(wǎng)絡(luò)可以控制信息的流動(dòng),捕獲到重要的局部信息,與經(jīng)過雙向LSTM編碼后的句子向量結(jié)合,提取出句子序列的全局和局部信息,最后進(jìn)入到softmax層進(jìn)行觸發(fā)詞識(shí)別和分類。
在輸入層中,對(duì)于句中每個(gè)詞,本文使用了預(yù)訓(xùn)練的詞向量[13]進(jìn)行初始化,作為事件抽取模塊的輸入。Zadrozny[14]的研究已經(jīng)證明卷積神經(jīng)網(wǎng)絡(luò)能夠從詞的字符表示中有效提取出形態(tài)學(xué)信息(如詞的前綴或后綴)。所以本文對(duì)字符向量進(jìn)行卷積和全局最大池化操作后獲得每個(gè)單詞的字符表示向量,然后字符表示向量與詞向量拼接在一起傳入到下一層雙向LSTM中,作為實(shí)體抽取模塊的輸入。在訓(xùn)練過程中,本文不再更新詞向量的參數(shù)。
對(duì)于實(shí)體抽取,本文使用BIO標(biāo)簽?zāi)J?Begin: 實(shí)體開始單詞,Inside: 實(shí)體其余單詞,Outside: 非實(shí)體單詞)為每個(gè)詞賦予一個(gè)實(shí)體標(biāo)簽,每個(gè)標(biāo)簽包含了實(shí)體中單詞的位置信息。雖然雙向LSTM能夠捕獲到長距離的依賴信息,但是對(duì)于序列標(biāo)注(或一般結(jié)構(gòu)化預(yù)測)任務(wù),有必要考慮相鄰標(biāo)簽之間的依賴性。比如,I-ORG(類型為組織的實(shí)體非開頭詞)后不能跟隨I-PER(類型為人物的實(shí)體非開頭詞)。因此本文對(duì)標(biāo)簽序列使用線性CRF建模,而不是對(duì)每個(gè)標(biāo)簽獨(dú)立解碼。
本文使用y={y1,…,yn}來表示標(biāo)簽序列,Y(x)表示y的可能標(biāo)記序列集合。線性CRF的概率模型定義為p(y|x;W,b),如式(1)所示。
(1)
解碼時(shí)搜索序列標(biāo)簽y*的最高條件概率,如式(2)所示。
y*=argmaxy∈Y(x)P(y|x;W,b)
(2)
對(duì)于線性CRF模型(僅考慮兩個(gè)連續(xù)標(biāo)簽之間的交互),采用維特比算法可以有效進(jìn)行解碼。
事件抽取模塊包括自注意力層和門控卷積層,自注意力層主要學(xué)習(xí)序列內(nèi)部的詞依賴關(guān)系,捕獲序列的內(nèi)部結(jié)構(gòu);門控卷積層主要控制信息流動(dòng),提取更高層的特征。具體如下。
2.3.1 自注意力層
當(dāng)實(shí)體抽取模型識(shí)別出實(shí)體及其類別,本文將實(shí)體的編碼信息送入到自注意力層,它只需要序列本身就可以計(jì)算其表示,也是一個(gè)序列編碼層,尋找序列內(nèi)部的聯(lián)系。Attention的如式(3)所示。
(3)
其中,矩陣Q∈R∈Rn×d、矩陣K∈R∈Rn×d和矩陣V∈R∈Rn×d,d是網(wǎng)絡(luò)中隱藏神經(jīng)元的數(shù)量,該層主要在序列內(nèi)部計(jì)算每個(gè)詞與其他詞的相似度,尋找任意兩個(gè)詞之間的聯(lián)系。
本文引入了Vaswani等[15]提出的多頭注意力(Multi-Head Attention)結(jié)構(gòu),將輸入向量矩陣H∈R∈Rn×d通過不同的線性變換映射成矩陣Q,K,V,然后再做計(jì)算,這個(gè)過程重復(fù)h次,將結(jié)果拼接起來,得到編碼向量,如式(4)~式(6)所示。
2.3.2 門控卷積層
Liu等[16]的研究表明,卷積神經(jīng)網(wǎng)絡(luò)善于從序列對(duì)象中捕獲顯著的特征。本文將經(jīng)過自注意力層編碼后的實(shí)體語義向量和雙向LSTM編碼后的句子隱藏層向量結(jié)合在一起,送入到卷積神經(jīng)網(wǎng)絡(luò)中,來獲取序列的局部信息,實(shí)現(xiàn)信息的多通道融合。對(duì)于卷積子層,本文采用Dauphin等[17]提出的GLU(Gated Linear Unit),與標(biāo)準(zhǔn)卷積相比,門控卷積神經(jīng)網(wǎng)絡(luò)在每層卷積操作后都加上一個(gè)輸出門限,控制信息的流動(dòng),不僅有效地降低梯度彌散的可能性,而且還保留了非線性變換的能力。因此,它在語言建模和機(jī)器翻譯等自然語言處理任務(wù)中都取得了較優(yōu)的效果。給定兩個(gè)卷積核W∈R∈Rk×m×n和V∈R∈Rk×m×n,GLU的輸出計(jì)算如式(7)所示。
GLU(X)=(X*W)⊙σ(X*V)
(7)
其中,m和n分別代表著輸入和輸出的特征圖數(shù)量,k是卷積核寬度,⊙表示矩陣元素之間的點(diǎn)積,σ是sigmoid激活函數(shù)。
本文使用多個(gè)卷積核來捕獲實(shí)體序列中的局部特征,它能夠捕獲各種粒度的N-gram局部語義信息,修復(fù)模型中一些由于詞歧義造成的錯(cuò)誤,為觸發(fā)詞識(shí)別和分類提供了非常重要的信息。本文使用了寬度為k的卷積核生成整個(gè)實(shí)體序列的局部特征X∈R∈Rn*d,其中n是給定句子的長度,d是每個(gè)詞的維度。然后與雙向LSTM生成的隱藏層向量H結(jié)合在一起,作為最終的特征向量,送入到softmax層中生成所有事件類型的概率分布,選取概率最大的事件類型作為最終的結(jié)果。如式(8)、式(9)所示。
其中,H是包含向量ht的矩陣,Ws和bs是softmax函數(shù)的權(quán)重矩陣和偏置值。為了防止過擬合,本文在softmax層前使用了dropout策略。
本文通過采用隨機(jī)梯度下降算法來最小化負(fù)對(duì)數(shù)似然函數(shù)的方式來進(jìn)行模型訓(xùn)練,并采用Adam[18]優(yōu)化器算法來優(yōu)化模型參數(shù)。
為了評(píng)估本文方法的有效性,本文主要在英文ACE 2005語料庫上進(jìn)行實(shí)驗(yàn)。英文ACE 2005語料庫標(biāo)注了33種事件類型(加上“NONE”類別,本文采用34個(gè)類型作為預(yù)定義標(biāo)簽)。本文的數(shù)據(jù)劃分和Li等[6]一致,選取529篇文檔作為訓(xùn)練集,40篇新聞報(bào)道作為測試集,剩下的30篇作為開發(fā)集。另外,本文也采用Li等[6]定義的事件評(píng)估指標(biāo)。事件觸發(fā)詞抽取任務(wù)要求觸發(fā)詞不僅被正確識(shí)別,并且要求觸發(fā)詞被賦予正確的事件類型。對(duì)于實(shí)體,只考慮PER(人物)、ORG(組織)、GPE(政治)、LOC(地點(diǎn))、FAC(設(shè)施)、VEH(交通工具)、WEA(武器)和ACE的TIME(時(shí)間)以及VALUE(數(shù)值)表達(dá)式共9種實(shí)體類型,若實(shí)體被正確識(shí)別并且實(shí)體類型一致,則認(rèn)為實(shí)體抽取正確。
為了進(jìn)一步驗(yàn)證本文方法的有效性,也匯報(bào)了在TAC KBP 2015數(shù)據(jù)集上的結(jié)果。該數(shù)據(jù)集是KBP 2015 Event Nugget評(píng)測人物提供的訓(xùn)練和測試數(shù)據(jù),有38個(gè)子類型和一個(gè)“NONE”類別。訓(xùn)練數(shù)據(jù)為158篇文檔,測試數(shù)據(jù)為202篇文檔。
另外,遵循前人的工作,本文也采用準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值作為實(shí)驗(yàn)性能指標(biāo)。
本文的實(shí)驗(yàn)參數(shù)是在英文ACE 2005語料庫的開發(fā)集中進(jìn)行調(diào)整。為了防止模型過擬合,dropout的比例是0.5,批次大小為50。字符向量隨機(jī)初始化生成,維度為30。卷積核寬度為3,數(shù)量分別為30和300。本文使用預(yù)訓(xùn)練的詞向量[13]來初始化詞向量,維度為300維,雙向LSTM的隱藏層神經(jīng)元數(shù)量為300,多頭注意力的數(shù)量10。
為了驗(yàn)證本文的HNN-EE模型在實(shí)體和事件抽取上的性能,將它和三個(gè)基準(zhǔn)系統(tǒng)做比較: ①Li: Li等[11]提出的結(jié)構(gòu)化預(yù)測框架,該框架同時(shí)解決實(shí)體抽取、關(guān)系抽取和事件抽取三個(gè)信息抽取任務(wù); ②Yang: Yang等[12]提出的實(shí)體和事件聯(lián)合抽取模型,對(duì)文檔中事件、實(shí)體以及它們之間的關(guān)系進(jìn)行聯(lián)合推理; ③HNN-EE(w/o entity): HNN-EE模型不利用任何實(shí)體信息,對(duì)觸發(fā)詞進(jìn)行抽取。表1是四個(gè)系統(tǒng)在英文ACE 2005語料庫上在實(shí)體和事件抽取方面的性能對(duì)比。
表1 ACE 2005語料庫上系統(tǒng)性能對(duì)比(%)
從表1中實(shí)體抽取的結(jié)果中可以看出:
① HNN-EE模型優(yōu)于傳統(tǒng)模型,性能相較于Li和Yang均提高了2.5個(gè)百分點(diǎn),這充分說明了本文方法在實(shí)體抽取方面的有效性。
② 相較于HNN-EE(w/o entity),HNN-EE的實(shí)體抽取性能也取得了明顯提升。這表明兩個(gè)任務(wù)之間存在互補(bǔ)性,本文的模型抓住了它們間的聯(lián)系,使這兩個(gè)任務(wù)互相促進(jìn)。
③ HNN-EE(w/o entity)的實(shí)體抽取性能相較于Li和Yang均提高了1.4個(gè)百分點(diǎn),這表明基于字符-詞向量的雙向LSTM-CRF模型,不但能夠有效地捕獲句子的全局信息,而且還考慮到相鄰標(biāo)簽的約束信息,取得不錯(cuò)性能。
從表1中事件抽取的結(jié)果同樣可以看出:
① HNN-EE(w/o entity)模型在觸發(fā)詞抽取中的性能較Li提升了2.8個(gè)百分點(diǎn),這是因?yàn)殡p向LSTM能夠捕獲到句子的全局信息,對(duì)事件抽取性能提升明顯;比Yang降低了0.7個(gè)百分點(diǎn),這是由于在觸發(fā)詞抽取過程中沒有充分利用到實(shí)體語義信息,忽略了實(shí)體對(duì)觸發(fā)詞的影響,導(dǎo)致性能略低。
② 本文的HNN-EE模型在觸發(fā)詞抽取中的性能均優(yōu)于傳統(tǒng)的聯(lián)合推理模型。與Li相比F1值提高了5.4個(gè)百分點(diǎn);與Yang相比F1值提高1.9個(gè)百分點(diǎn)。這個(gè)實(shí)驗(yàn)結(jié)果證明了本文方法與基于人工設(shè)計(jì)的特征聯(lián)合推理方法相比,具有挖掘?qū)嶓w和觸發(fā)詞之間隱含的深層語義信息的優(yōu)越性。
③ 和HNN-EE(w/o entity)模型相比,HNN-EE模型的F1值提升了2.6個(gè)百分點(diǎn)。主要是因?yàn)镠NN-EE模型中的兩個(gè)任務(wù)之間通過雙向LSTM層共享參數(shù),協(xié)同訓(xùn)練,利用了實(shí)體語義的編碼信息,考慮到觸發(fā)詞和實(shí)體標(biāo)簽的所有組合,捕獲了觸發(fā)詞和實(shí)體之間的依賴關(guān)系。另外,共享LSTM層允許信息在事件和實(shí)體之間傳播,提供了更多的語義一致性信息,減少了錯(cuò)誤傳遞。而在HNN-EE(w/o entity)模型中沒有獲取實(shí)體的編碼信息,從而無法獲取到任何實(shí)體特征,導(dǎo)致性能下降。例如,例2和例3中的觸發(fā)詞都是“l(fā)eave”,但例2中事件類型是Transport(運(yùn)輸),例3中事件類型是End-Position(離職),如果只單獨(dú)考慮觸發(fā)詞“l(fā)eave”,很難識(shí)別出觸發(fā)詞的事件類型。由事件類型和實(shí)體類型對(duì)應(yīng)性分布特點(diǎn)可知,Transport事件中出現(xiàn)的實(shí)體類型主要是GPE(政治),End-Position事件中出現(xiàn)的實(shí)體類型主要是ORG(組織),HNN-EE模型聯(lián)合兩個(gè)任務(wù),挖掘觸發(fā)詞和實(shí)體之間的隱含依賴關(guān)系,兩者之間相互促進(jìn),提高事件抽取性能。
例2Bush gave Saddam 48 hours toleaveBaghdad.
例3Greenspan wants toleaveFederal Reserve.
為了進(jìn)一步驗(yàn)證HNN-EE模型的有效性,本文還設(shè)計(jì)了4個(gè)對(duì)比實(shí)驗(yàn)。具體如表2所示。其中,①Pred_Entity: HNN-EE模型使用Stanford Named Entity Recognition工具來識(shí)別句子中的實(shí)體信息; ②No_Share: HNN-EE模型未共享雙向LSTM編碼層; ③No_Gcnn: HNN-EE模型未使用門控卷積神經(jīng)網(wǎng)絡(luò); ④No_MulAtt: HNN-EE未使用多頭注意力機(jī)制。
表2 ACE 2005數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)(%)
Pred_Entity使用工具識(shí)別出句子中的實(shí)體,導(dǎo)致性能下降了1.5個(gè)百分點(diǎn)。這主要是因?yàn)槊麑?shí)體識(shí)別的性能為51.5個(gè)百分點(diǎn),遠(yuǎn)低于HNN-EE模型中的命名實(shí)體識(shí)別性能,許多人稱代詞的實(shí)體類型無法識(shí)別出。例4中“He”和“his”的實(shí)體類型都是PER(人物),HNN-EE模型均能正確識(shí)別出實(shí)體類型,使得句中包含了豐富的實(shí)體信息,事件抽取模型提取出觸發(fā)詞和實(shí)體之間的關(guān)系,從而正確識(shí)別出觸發(fā)詞“appeal”的事件類型為Appeal(上訴)。
例4Helost anappealcase onhistheft sentence on April 18.
No_Share中未共享雙向LSTM層,可以看出性能下降了2.5個(gè)百分點(diǎn)。這是由于模型沒有通過雙向LSTM層共享參數(shù),兩個(gè)任務(wù)單獨(dú)訓(xùn)練,無法通過更新共享參數(shù)來實(shí)現(xiàn)兩個(gè)子任務(wù)之間的依賴,使得事件抽取任務(wù)中無法包含兩個(gè)任務(wù)的共同特征,導(dǎo)致包含豐富實(shí)體信息的句子中也無法抽取出事件。
No_Gcnn中刪除門控卷積神經(jīng)網(wǎng)絡(luò),未能從序列中提取局部信息,導(dǎo)致性能下降明顯,F(xiàn)1值下降了2.1個(gè)百分點(diǎn)。
No_MulAtt刪除多頭注意力機(jī)制,沒有捕獲序列內(nèi)部詞與詞的依賴關(guān)系,未從序列的不同表示空間里學(xué)習(xí)到更多信息,損失了部分全局信息,導(dǎo)致性能下降了1.6個(gè)百分點(diǎn)。較No_Gcnn模型性能下降略低,原因是雙向LSTM中的記憶模塊能夠充分學(xué)習(xí)到整個(gè)序列的長遠(yuǎn)依賴關(guān)系,捕獲到全局信息,所以刪除多頭注意力機(jī)制對(duì)獲取全局信息影響不大。
為了驗(yàn)證本文方法的有效性,在另外一個(gè)語料庫TAC KBP 2015上做了測試。需要說明的是,KBP語料沒有標(biāo)注實(shí)體,所以無法進(jìn)行實(shí)體抽取任務(wù),本文僅進(jìn)行事件抽取的性能對(duì)比。為了保證一致性,本文使用的訓(xùn)練模型以及超參數(shù)保持不變。本文引入兩個(gè)基準(zhǔn)系統(tǒng),①TAC-KBP: Hong等[19]提出的事件抽取模型; ②GCN-ED: Nguyen等[20]提出的基于實(shí)體池化機(jī)制的圖卷積模型,取得了目前最佳性能。實(shí)驗(yàn)結(jié)果如表3所示。
表3 KBP 2015數(shù)據(jù)集上系統(tǒng)性能對(duì)比(%)
從表3中可以看出,本文的模型與TAC-KBP系統(tǒng)相比,取得了相當(dāng)?shù)男阅?-0.16個(gè)百分點(diǎn)),因?yàn)楸疚哪P椭袥]有擴(kuò)展外部數(shù)據(jù),而TAC-KBP利用了外部語料資源來擴(kuò)充訓(xùn)練數(shù)據(jù),額外獲得了更多的同質(zhì)樣本來輔助提高事件抽取性能。HNN-EE模型與目前性能最好的GCN-ED模型相比,也取得了相當(dāng)?shù)男阅?-0.55個(gè)百分點(diǎn))。這是因?yàn)楸疚哪P洼^為簡單,沒有編碼句法信息,而GCN-ED利用了多層圖卷積網(wǎng)絡(luò)來挖掘深層的句法語義信息,相對(duì)較為復(fù)雜。
本文提出了一個(gè)抽取句子中實(shí)體和事件的聯(lián)合方法,通過模型中雙向LSTM層共享參數(shù),獲取實(shí)體和事件之間的關(guān)系,互相學(xué)習(xí),互相促進(jìn),捕獲到各自任務(wù)的共有和私有特征。模型再通過引入自注意力機(jī)制和門控卷積神經(jīng)網(wǎng)絡(luò)來獲取序列內(nèi)部依賴關(guān)系和局部信息,實(shí)現(xiàn)信息的多層融合。在ACE 2005語料庫上性能得到提升,并且在TAC KBP 2015語料庫上取得了相當(dāng)?shù)男阅?,證明了本文方法的有效性。今后的工作重點(diǎn)將考慮實(shí)體、觸發(fā)詞和論元三者之間的聯(lián)系,去挖掘事件之間的更復(fù)雜關(guān)系。