基于混合神經(jīng)網(wǎng)絡(luò)的實(shí)體和事件聯(lián)合抽取方法

2019-09-05 12:33吳文濤李培峰朱巧明

中文信息學(xué)報(bào) 2019年8期

吳文濤,李培峰,朱巧明

(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006；2. 江蘇省計(jì)算機(jī)信息技術(shù)處理重點(diǎn)實(shí)驗(yàn)室，江蘇蘇州 215006)

0 引言

實(shí)體(Entity)和事件(Event)抽取是信息抽取(Information Extraction)的兩個(gè)子任務(wù)，這兩個(gè)子任務(wù)密切相關(guān)。事件抽取的任務(wù)是從文本中抽取出預(yù)先定義好的各種類型事件實(shí)例(Event Mention)及其論元(Argument)(1)事件的參與者和屬性，由實(shí)體實(shí)例組成。。其中，實(shí)體是事件的核心組成部分，實(shí)體抽取任務(wù)有助于準(zhǔn)確抽取事件。

例1給出了一個(gè)事件實(shí)例，其中，“reaching”是事件的觸發(fā)詞，所觸發(fā)的事件類型為Attack(攻擊)?！癝cud missiles”是其中的一個(gè)實(shí)體，其實(shí)體類型是WEA(武器)，充當(dāng)?shù)慕巧荌nstrument(工具)。這個(gè)實(shí)體的識(shí)別明顯有助于識(shí)別該事件為Attack(攻擊)類型事件。因?yàn)槎鄶?shù)攻擊類型事件都有攻擊的武器。

例1Iraq believed to haveScud missilescapable ofreachingBaghdad.

現(xiàn)有的工作大多數(shù)將實(shí)體抽取和事件抽取作為兩個(gè)單獨(dú)任務(wù)，很少關(guān)注兩個(gè)子任務(wù)的相關(guān)性。在事件抽取中，絕大多數(shù)現(xiàn)有工作都假設(shè)文本中的實(shí)體已知[1-5],但這在實(shí)際應(yīng)用中并不成立。Li等[6]先使用命名實(shí)體識(shí)別工具識(shí)別出人物、組織和地點(diǎn)等實(shí)體實(shí)例，然后再將這些抽取的實(shí)體作為輸入來抽取事件，這往往會(huì)導(dǎo)致錯(cuò)誤傳遞。在上述例子中，若命名實(shí)體識(shí)別工具識(shí)別不出“Scud missiles”是武器類實(shí)體，或錯(cuò)誤地將其識(shí)別為人物，就可能導(dǎo)致事件抽取系統(tǒng)無法正確抽取出該Attack事件。另外，少數(shù)研究為實(shí)體抽取和事件抽取建立聯(lián)合學(xué)習(xí)模型，但這些模型往往基于特征工程，依賴復(fù)雜人工特征。另外，這些模型嚴(yán)重依賴于其他任務(wù)(如句法分析和依存分析等)，這也會(huì)導(dǎo)致級(jí)聯(lián)錯(cuò)誤。

為了解決上述問題，本文提出了一個(gè)聯(lián)合實(shí)體抽取和事件抽取的混合神經(jīng)網(wǎng)絡(luò)模型(Hybrid Neural Networks for Entity and Event Extraction，HNN-EE)。該模型的核心是實(shí)體抽取和事件抽取共享一個(gè)雙向LSTM層，通過底層共享參數(shù)，互相促進(jìn)學(xué)習(xí)，獲得實(shí)體和事件之間豐富的關(guān)聯(lián)信息。此外，該模型還采用線性(Conditional Random Field，CRF)層結(jié)構(gòu)來模擬標(biāo)簽之間的交互關(guān)系來解碼整個(gè)句子的標(biāo)簽，并引入自注意力(Self Attention)機(jī)制和門控卷積神經(jīng)網(wǎng)絡(luò)(Gated Convolutional Neural Networks)來捕獲任意詞之間的關(guān)系和提取局部信息，實(shí)現(xiàn)信息的多通道融合。在英文ACE 2005語料庫上的實(shí)驗(yàn)結(jié)果表明，本文的方法明顯優(yōu)于目前最先進(jìn)的基準(zhǔn)系統(tǒng)。

1 相關(guān)工作

目前，事件抽取的相關(guān)研究工作雖然很多，但為了降低任務(wù)復(fù)雜性，絕大多數(shù)工作假設(shè)文檔中的實(shí)體已經(jīng)被識(shí)別。例如，Ahn[1]使用詞匯、句法特征以及外部知識(shí)庫來抽取事件。Hong等[2]充分利用實(shí)體類型的一致性特征，提出利用跨實(shí)體推理進(jìn)行事件抽取的方法。Chen[3]等將觸發(fā)詞抽取和論元抽取作為兩個(gè)整體任務(wù)來抽取中文事件，進(jìn)而防止錯(cuò)誤傳遞。Li等[6]采用基于結(jié)構(gòu)化感知機(jī)的聯(lián)合模型，將觸發(fā)詞抽取和論元抽取看作一個(gè)整體的序列標(biāo)注任務(wù)。Liu等[7]利用概率軟邏輯模型來編碼全局信息，進(jìn)一步提升了事件抽取性能。

近年來，隨著深度學(xué)習(xí)的發(fā)展，更多的神經(jīng)網(wǎng)絡(luò)模型被引入到事件抽取。Nguyen、Grishman[4]、以及Chen等[5]運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)來避免復(fù)雜的特征工程。Nguyen等[8]提出基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型，同時(shí)抽取觸發(fā)詞和論元。Sha等[9]針對(duì)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型沒有有效地利用依存句法信息，提出了依賴橋的雙向LSTM模型，充分利用句法信息來抽取事件，性能得到明顯提升。Liu等[10]利用已經(jīng)標(biāo)注的論元信息，提出了基于有監(jiān)督的注意力機(jī)制事件抽取方法。

目前，僅有少數(shù)的工作從生文本(實(shí)體信息未知)中抽取事件。Li等[11]提出一個(gè)基于結(jié)構(gòu)化預(yù)測模型，同時(shí)抽取實(shí)體，關(guān)系和事件。Yang等[12]提出篇章內(nèi)的事件和實(shí)體抽取聯(lián)合模型，通過采用聯(lián)合因子圖模型來聯(lián)合學(xué)習(xí)每個(gè)事件內(nèi)部的結(jié)構(gòu)化信息、篇章內(nèi)不同事件間的關(guān)系和實(shí)體信息，明顯提高了實(shí)體和事件的抽取性能。不同于Yang等[12]的工作依賴大量的人工特征，本文的一個(gè)特點(diǎn)是采用混合神經(jīng)網(wǎng)絡(luò)模型通過底層共享來挖掘?qū)嶓w和事件抽取兩個(gè)任務(wù)間的依賴關(guān)系。

2 基于混合神經(jīng)網(wǎng)絡(luò)的實(shí)體和事件抽取模型(HNN-EE)

為了解決管道模型中的級(jí)聯(lián)錯(cuò)誤和傳統(tǒng)方法中依賴人工特征的問題，本文提出了一個(gè)混合神經(jīng)網(wǎng)絡(luò)模型HNN-EE，其架構(gòu)如圖1所示。

圖1 HNN-EE模型的架構(gòu)

HNN-EE主要通過實(shí)體和事件抽取兩個(gè)任務(wù)在淺層共享參數(shù)，協(xié)同訓(xùn)練，互相促進(jìn)，提高性能。該模型主要包含以下3個(gè)部分： ①輸入和編碼層； ②實(shí)體抽取模塊； ③事件抽取模塊。首先，在輸入和編碼層部分，輸入包含了詞向量和經(jīng)過卷積、池化后的字符向量。編碼層雙向LSTM可以將序列中每個(gè)詞的上下文信息從前向和后向兩個(gè)方向很好地保留并傳遞下去，提取序列中的全局信息。實(shí)體抽取任務(wù)和事件抽取任務(wù)共享雙向LSTM編碼層，兩個(gè)任務(wù)通過底層共享參數(shù)的形式共同學(xué)習(xí)，在訓(xùn)練時(shí)兩個(gè)任務(wù)通過后向傳播算法更新共享參數(shù)來實(shí)現(xiàn)兩個(gè)任務(wù)之間的依賴。編碼層后有兩個(gè)通道，一個(gè)連接到實(shí)體抽取模塊，由線性CRF層來解碼，獲得最佳的實(shí)體標(biāo)簽序列；另一個(gè)送入到自注意力層和門控卷積層，自注意力層捕獲序列內(nèi)部的聯(lián)系，門控卷積神經(jīng)網(wǎng)絡(luò)可以控制信息的流動(dòng)，捕獲到重要的局部信息，與經(jīng)過雙向LSTM編碼后的句子向量結(jié)合，提取出句子序列的全局和局部信息，最后進(jìn)入到softmax層進(jìn)行觸發(fā)詞識(shí)別和分類。

2.1 輸入和編碼層

在輸入層中，對(duì)于句中每個(gè)詞，本文使用了預(yù)訓(xùn)練的詞向量[13]進(jìn)行初始化，作為事件抽取模塊的輸入。Zadrozny[14]的研究已經(jīng)證明卷積神經(jīng)網(wǎng)絡(luò)能夠從詞的字符表示中有效提取出形態(tài)學(xué)信息(如詞的前綴或后綴)。所以本文對(duì)字符向量進(jìn)行卷積和全局最大池化操作后獲得每個(gè)單詞的字符表示向量，然后字符表示向量與詞向量拼接在一起傳入到下一層雙向LSTM中，作為實(shí)體抽取模塊的輸入。在訓(xùn)練過程中，本文不再更新詞向量的參數(shù)。

2.2 實(shí)體抽取模塊

對(duì)于實(shí)體抽取，本文使用BIO標(biāo)簽?zāi)Ｊ?Begin：實(shí)體開始單詞，Inside：實(shí)體其余單詞，Outside：非實(shí)體單詞)為每個(gè)詞賦予一個(gè)實(shí)體標(biāo)簽，每個(gè)標(biāo)簽包含了實(shí)體中單詞的位置信息。雖然雙向LSTM能夠捕獲到長距離的依賴信息，但是對(duì)于序列標(biāo)注(或一般結(jié)構(gòu)化預(yù)測)任務(wù)，有必要考慮相鄰標(biāo)簽之間的依賴性。比如，I-ORG(類型為組織的實(shí)體非開頭詞)后不能跟隨I-PER(類型為人物的實(shí)體非開頭詞)。因此本文對(duì)標(biāo)簽序列使用線性CRF建模，而不是對(duì)每個(gè)標(biāo)簽獨(dú)立解碼。

本文使用y={y1,…,yn}來表示標(biāo)簽序列，Y(x)表示y的可能標(biāo)記序列集合。線性CRF的概率模型定義為p(y|x;W,b)，如式(1)所示。

(1)

解碼時(shí)搜索序列標(biāo)簽y*的最高條件概率，如式(2)所示。

y*=argmaxy∈Y(x)P(y|x;W,b)

(2)

對(duì)于線性CRF模型(僅考慮兩個(gè)連續(xù)標(biāo)簽之間的交互)，采用維特比算法可以有效進(jìn)行解碼。

2.3 事件抽取模塊

事件抽取模塊包括自注意力層和門控卷積層，自注意力層主要學(xué)習(xí)序列內(nèi)部的詞依賴關(guān)系，捕獲序列的內(nèi)部結(jié)構(gòu)；門控卷積層主要控制信息流動(dòng)，提取更高層的特征。具體如下。

2.3.1 自注意力層

當(dāng)實(shí)體抽取模型識(shí)別出實(shí)體及其類別，本文將實(shí)體的編碼信息送入到自注意力層，它只需要序列本身就可以計(jì)算其表示，也是一個(gè)序列編碼層，尋找序列內(nèi)部的聯(lián)系。Attention的如式(3)所示。

(3)

其中，矩陣Q∈R∈Rn×d、矩陣K∈R∈Rn×d和矩陣V∈R∈Rn×d，d是網(wǎng)絡(luò)中隱藏神經(jīng)元的數(shù)量，該層主要在序列內(nèi)部計(jì)算每個(gè)詞與其他詞的相似度，尋找任意兩個(gè)詞之間的聯(lián)系。

本文引入了Vaswani等[15]提出的多頭注意力(Multi-Head Attention)結(jié)構(gòu)，將輸入向量矩陣H∈R∈Rn×d通過不同的線性變換映射成矩陣Q，K，V，然后再做計(jì)算，這個(gè)過程重復(fù)h次，將結(jié)果拼接起來，得到編碼向量，如式(4)～式(6)所示。

2.3.2 門控卷積層

Liu等[16]的研究表明，卷積神經(jīng)網(wǎng)絡(luò)善于從序列對(duì)象中捕獲顯著的特征。本文將經(jīng)過自注意力層編碼后的實(shí)體語義向量和雙向LSTM編碼后的句子隱藏層向量結(jié)合在一起，送入到卷積神經(jīng)網(wǎng)絡(luò)中，來獲取序列的局部信息，實(shí)現(xiàn)信息的多通道融合。對(duì)于卷積子層，本文采用Dauphin等[17]提出的GLU(Gated Linear Unit)，與標(biāo)準(zhǔn)卷積相比，門控卷積神經(jīng)網(wǎng)絡(luò)在每層卷積操作后都加上一個(gè)輸出門限，控制信息的流動(dòng)，不僅有效地降低梯度彌散的可能性，而且還保留了非線性變換的能力。因此，它在語言建模和機(jī)器翻譯等自然語言處理任務(wù)中都取得了較優(yōu)的效果。給定兩個(gè)卷積核W∈R∈Rk×m×n和V∈R∈Rk×m×n，GLU的輸出計(jì)算如式(7)所示。

GLU(X)=(X*W)⊙σ(X*V)

(7)

其中，m和n分別代表著輸入和輸出的特征圖數(shù)量，k是卷積核寬度，⊙表示矩陣元素之間的點(diǎn)積，σ是sigmoid激活函數(shù)。

本文使用多個(gè)卷積核來捕獲實(shí)體序列中的局部特征，它能夠捕獲各種粒度的N-gram局部語義信息，修復(fù)模型中一些由于詞歧義造成的錯(cuò)誤，為觸發(fā)詞識(shí)別和分類提供了非常重要的信息。本文使用了寬度為k的卷積核生成整個(gè)實(shí)體序列的局部特征X∈R∈Rn*d，其中n是給定句子的長度，d是每個(gè)詞的維度。然后與雙向LSTM生成的隱藏層向量H結(jié)合在一起，作為最終的特征向量，送入到softmax層中生成所有事件類型的概率分布，選取概率最大的事件類型作為最終的結(jié)果。如式(8)、式(9)所示。

其中,H是包含向量ht的矩陣，Ws和bs是softmax函數(shù)的權(quán)重矩陣和偏置值。為了防止過擬合，本文在softmax層前使用了dropout策略。

本文通過采用隨機(jī)梯度下降算法來最小化負(fù)對(duì)數(shù)似然函數(shù)的方式來進(jìn)行模型訓(xùn)練，并采用Adam[18]優(yōu)化器算法來優(yōu)化模型參數(shù)。

3 實(shí)驗(yàn)

3.1 語料和實(shí)驗(yàn)設(shè)置

為了評(píng)估本文方法的有效性，本文主要在英文ACE 2005語料庫上進(jìn)行實(shí)驗(yàn)。英文ACE 2005語料庫標(biāo)注了33種事件類型(加上“NONE”類別，本文采用34個(gè)類型作為預(yù)定義標(biāo)簽)。本文的數(shù)據(jù)劃分和Li等[6]一致，選取529篇文檔作為訓(xùn)練集，40篇新聞報(bào)道作為測試集，剩下的30篇作為開發(fā)集。另外，本文也采用Li等[6]定義的事件評(píng)估指標(biāo)。事件觸發(fā)詞抽取任務(wù)要求觸發(fā)詞不僅被正確識(shí)別，并且要求觸發(fā)詞被賦予正確的事件類型。對(duì)于實(shí)體，只考慮PER(人物)、ORG(組織)、GPE(政治)、LOC(地點(diǎn))、FAC(設(shè)施)、VEH(交通工具)、WEA(武器)和ACE的TIME(時(shí)間)以及VALUE(數(shù)值)表達(dá)式共9種實(shí)體類型，若實(shí)體被正確識(shí)別并且實(shí)體類型一致，則認(rèn)為實(shí)體抽取正確。

為了進(jìn)一步驗(yàn)證本文方法的有效性，也匯報(bào)了在TAC KBP 2015數(shù)據(jù)集上的結(jié)果。該數(shù)據(jù)集是KBP 2015 Event Nugget評(píng)測人物提供的訓(xùn)練和測試數(shù)據(jù)，有38個(gè)子類型和一個(gè)“NONE”類別。訓(xùn)練數(shù)據(jù)為158篇文檔，測試數(shù)據(jù)為202篇文檔。

另外，遵循前人的工作，本文也采用準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值作為實(shí)驗(yàn)性能指標(biāo)。

本文的實(shí)驗(yàn)參數(shù)是在英文ACE 2005語料庫的開發(fā)集中進(jìn)行調(diào)整。為了防止模型過擬合，dropout的比例是0.5，批次大小為50。字符向量隨機(jī)初始化生成，維度為30。卷積核寬度為3，數(shù)量分別為30和300。本文使用預(yù)訓(xùn)練的詞向量[13]來初始化詞向量，維度為300維，雙向LSTM的隱藏層神經(jīng)元數(shù)量為300，多頭注意力的數(shù)量10。

3.2 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文的HNN-EE模型在實(shí)體和事件抽取上的性能，將它和三個(gè)基準(zhǔn)系統(tǒng)做比較： ①Li： Li等[11]提出的結(jié)構(gòu)化預(yù)測框架，該框架同時(shí)解決實(shí)體抽取、關(guān)系抽取和事件抽取三個(gè)信息抽取任務(wù)； ②Yang： Yang等[12]提出的實(shí)體和事件聯(lián)合抽取模型，對(duì)文檔中事件、實(shí)體以及它們之間的關(guān)系進(jìn)行聯(lián)合推理； ③HNN-EE(w/o entity)： HNN-EE模型不利用任何實(shí)體信息，對(duì)觸發(fā)詞進(jìn)行抽取。表1是四個(gè)系統(tǒng)在英文ACE 2005語料庫上在實(shí)體和事件抽取方面的性能對(duì)比。

表1 ACE 2005語料庫上系統(tǒng)性能對(duì)比(%)

從表1中實(shí)體抽取的結(jié)果中可以看出:

① HNN-EE模型優(yōu)于傳統(tǒng)模型，性能相較于Li和Yang均提高了2.5個(gè)百分點(diǎn)，這充分說明了本文方法在實(shí)體抽取方面的有效性。

② 相較于HNN-EE(w/o entity)，HNN-EE的實(shí)體抽取性能也取得了明顯提升。這表明兩個(gè)任務(wù)之間存在互補(bǔ)性，本文的模型抓住了它們間的聯(lián)系，使這兩個(gè)任務(wù)互相促進(jìn)。

③ HNN-EE(w/o entity)的實(shí)體抽取性能相較于Li和Yang均提高了1.4個(gè)百分點(diǎn)，這表明基于字符-詞向量的雙向LSTM-CRF模型，不但能夠有效地捕獲句子的全局信息，而且還考慮到相鄰標(biāo)簽的約束信息，取得不錯(cuò)性能。

從表1中事件抽取的結(jié)果同樣可以看出:

① HNN-EE(w/o entity)模型在觸發(fā)詞抽取中的性能較Li提升了2.8個(gè)百分點(diǎn)，這是因?yàn)殡p向LSTM能夠捕獲到句子的全局信息，對(duì)事件抽取性能提升明顯；比Yang降低了0.7個(gè)百分點(diǎn)，這是由于在觸發(fā)詞抽取過程中沒有充分利用到實(shí)體語義信息，忽略了實(shí)體對(duì)觸發(fā)詞的影響，導(dǎo)致性能略低。

② 本文的HNN-EE模型在觸發(fā)詞抽取中的性能均優(yōu)于傳統(tǒng)的聯(lián)合推理模型。與Li相比F1值提高了5.4個(gè)百分點(diǎn)；與Yang相比F1值提高1.9個(gè)百分點(diǎn)。這個(gè)實(shí)驗(yàn)結(jié)果證明了本文方法與基于人工設(shè)計(jì)的特征聯(lián)合推理方法相比，具有挖掘?qū)嶓w和觸發(fā)詞之間隱含的深層語義信息的優(yōu)越性。

③ 和HNN-EE(w/o entity)模型相比，HNN-EE模型的F1值提升了2.6個(gè)百分點(diǎn)。主要是因?yàn)镠NN-EE模型中的兩個(gè)任務(wù)之間通過雙向LSTM層共享參數(shù)，協(xié)同訓(xùn)練，利用了實(shí)體語義的編碼信息，考慮到觸發(fā)詞和實(shí)體標(biāo)簽的所有組合，捕獲了觸發(fā)詞和實(shí)體之間的依賴關(guān)系。另外，共享LSTM層允許信息在事件和實(shí)體之間傳播，提供了更多的語義一致性信息，減少了錯(cuò)誤傳遞。而在HNN-EE(w/o entity)模型中沒有獲取實(shí)體的編碼信息，從而無法獲取到任何實(shí)體特征，導(dǎo)致性能下降。例如，例2和例3中的觸發(fā)詞都是“l(fā)eave”，但例2中事件類型是Transport(運(yùn)輸)，例3中事件類型是End-Position(離職)，如果只單獨(dú)考慮觸發(fā)詞“l(fā)eave”，很難識(shí)別出觸發(fā)詞的事件類型。由事件類型和實(shí)體類型對(duì)應(yīng)性分布特點(diǎn)可知，Transport事件中出現(xiàn)的實(shí)體類型主要是GPE(政治)，End-Position事件中出現(xiàn)的實(shí)體類型主要是ORG(組織)，HNN-EE模型聯(lián)合兩個(gè)任務(wù)，挖掘觸發(fā)詞和實(shí)體之間的隱含依賴關(guān)系，兩者之間相互促進(jìn)，提高事件抽取性能。

例2Bush gave Saddam 48 hours toleaveBaghdad.

例3Greenspan wants toleaveFederal Reserve.

3.3 實(shí)驗(yàn)分析

為了進(jìn)一步驗(yàn)證HNN-EE模型的有效性，本文還設(shè)計(jì)了4個(gè)對(duì)比實(shí)驗(yàn)。具體如表2所示。其中，①Pred_Entity： HNN-EE模型使用Stanford Named Entity Recognition工具來識(shí)別句子中的實(shí)體信息； ②No_Share： HNN-EE模型未共享雙向LSTM編碼層； ③No_Gcnn： HNN-EE模型未使用門控卷積神經(jīng)網(wǎng)絡(luò)； ④No_MulAtt： HNN-EE未使用多頭注意力機(jī)制。

表2 ACE 2005數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)(%)

Pred_Entity使用工具識(shí)別出句子中的實(shí)體，導(dǎo)致性能下降了1.5個(gè)百分點(diǎn)。這主要是因?yàn)槊麑?shí)體識(shí)別的性能為51.5個(gè)百分點(diǎn)，遠(yuǎn)低于HNN-EE模型中的命名實(shí)體識(shí)別性能，許多人稱代詞的實(shí)體類型無法識(shí)別出。例4中“He”和“his”的實(shí)體類型都是PER(人物)，HNN-EE模型均能正確識(shí)別出實(shí)體類型，使得句中包含了豐富的實(shí)體信息，事件抽取模型提取出觸發(fā)詞和實(shí)體之間的關(guān)系，從而正確識(shí)別出觸發(fā)詞“appeal”的事件類型為Appeal(上訴)。

例4Helost anappealcase onhistheft sentence on April 18.

No_Share中未共享雙向LSTM層，可以看出性能下降了2.5個(gè)百分點(diǎn)。這是由于模型沒有通過雙向LSTM層共享參數(shù)，兩個(gè)任務(wù)單獨(dú)訓(xùn)練，無法通過更新共享參數(shù)來實(shí)現(xiàn)兩個(gè)子任務(wù)之間的依賴，使得事件抽取任務(wù)中無法包含兩個(gè)任務(wù)的共同特征，導(dǎo)致包含豐富實(shí)體信息的句子中也無法抽取出事件。

No_Gcnn中刪除門控卷積神經(jīng)網(wǎng)絡(luò)，未能從序列中提取局部信息，導(dǎo)致性能下降明顯，F(xiàn)1值下降了2.1個(gè)百分點(diǎn)。

No_MulAtt刪除多頭注意力機(jī)制，沒有捕獲序列內(nèi)部詞與詞的依賴關(guān)系，未從序列的不同表示空間里學(xué)習(xí)到更多信息，損失了部分全局信息，導(dǎo)致性能下降了1.6個(gè)百分點(diǎn)。較No_Gcnn模型性能下降略低，原因是雙向LSTM中的記憶模塊能夠充分學(xué)習(xí)到整個(gè)序列的長遠(yuǎn)依賴關(guān)系，捕獲到全局信息，所以刪除多頭注意力機(jī)制對(duì)獲取全局信息影響不大。

3.4 KBP 2015實(shí)驗(yàn)性能

為了驗(yàn)證本文方法的有效性，在另外一個(gè)語料庫TAC KBP 2015上做了測試。需要說明的是，KBP語料沒有標(biāo)注實(shí)體，所以無法進(jìn)行實(shí)體抽取任務(wù)，本文僅進(jìn)行事件抽取的性能對(duì)比。為了保證一致性，本文使用的訓(xùn)練模型以及超參數(shù)保持不變。本文引入兩個(gè)基準(zhǔn)系統(tǒng)，①TAC-KBP： Hong等[19]提出的事件抽取模型； ②GCN-ED： Nguyen等[20]提出的基于實(shí)體池化機(jī)制的圖卷積模型，取得了目前最佳性能。實(shí)驗(yàn)結(jié)果如表3所示。

表3 KBP 2015數(shù)據(jù)集上系統(tǒng)性能對(duì)比(%)

從表3中可以看出，本文的模型與TAC-KBP系統(tǒng)相比，取得了相當(dāng)?shù)男阅?-0.16個(gè)百分點(diǎn))，因?yàn)楸疚哪Ｐ椭袥]有擴(kuò)展外部數(shù)據(jù)，而TAC-KBP利用了外部語料資源來擴(kuò)充訓(xùn)練數(shù)據(jù)，額外獲得了更多的同質(zhì)樣本來輔助提高事件抽取性能。HNN-EE模型與目前性能最好的GCN-ED模型相比，也取得了相當(dāng)?shù)男阅?-0.55個(gè)百分點(diǎn))。這是因?yàn)楸疚哪Ｐ洼^為簡單，沒有編碼句法信息，而GCN-ED利用了多層圖卷積網(wǎng)絡(luò)來挖掘深層的句法語義信息，相對(duì)較為復(fù)雜。

4 總結(jié)與展望

本文提出了一個(gè)抽取句子中實(shí)體和事件的聯(lián)合方法，通過模型中雙向LSTM層共享參數(shù)，獲取實(shí)體和事件之間的關(guān)系，互相學(xué)習(xí)，互相促進(jìn)，捕獲到各自任務(wù)的共有和私有特征。模型再通過引入自注意力機(jī)制和門控卷積神經(jīng)網(wǎng)絡(luò)來獲取序列內(nèi)部依賴關(guān)系和局部信息，實(shí)現(xiàn)信息的多層融合。在ACE 2005語料庫上性能得到提升，并且在TAC KBP 2015語料庫上取得了相當(dāng)?shù)男阅?，證明了本文方法的有效性。今后的工作重點(diǎn)將考慮實(shí)體、觸發(fā)詞和論元三者之間的聯(lián)系，去挖掘事件之間的更復(fù)雜關(guān)系。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡