安 娜,白雄文,王紅艷,張 萌
(中國航天科工集團第二研究院 七〇六所,北京 100854)
事件抽取任務(wù)[1]由事件類型檢測和事件論元角色識別兩個階段子任務(wù)完成,且兩子任務(wù)是相互依賴的?,F(xiàn)有事件抽取技術(shù)分為管道方式抽取模型[2](pipeline method)和聯(lián)合方式抽取模型[3](joint method)兩個方向。管道式事件抽取模型將觸發(fā)詞識別或事件類型檢測和事件元素(又稱論元)信息抽取看作多個獨立的子任務(wù)執(zhí)行,而多數(shù)情況下,觸發(fā)詞與論元之間存在依賴關(guān)系,這種流水線式子任務(wù)執(zhí)行方式容易產(chǎn)生關(guān)聯(lián)性錯誤,同時下游任務(wù)的信息也無法反饋到上游任務(wù)。而聯(lián)合式模型將兩個子任務(wù)看作一個結(jié)構(gòu)化任務(wù),解決了管道式模型無法捕捉不同事件觸發(fā)詞與角色論元依存關(guān)系問題,并避免了事件抽取子任務(wù)訓(xùn)練過程中存在的級聯(lián)誤差。然而,現(xiàn)有聯(lián)合式事件抽取模型仍然難以挖掘句子的深層特征,導(dǎo)致論元識別任務(wù)存在角色重疊和論元嵌套問題。例如,句子“近日,有媒體報道,海爾4名員工因午休被解除勞動合同”,論元“海爾4名員工”承擔(dān)了“被解雇人員”角色,嵌套論元“海爾”承擔(dān)了“解雇方”角色,屬于典型的論元嵌套問題。針對以上存在的問題,本文對中文事件抽取任務(wù)進行了大量研究,并提出了優(yōu)化算法。
目前,事件抽取技術(shù)方向主要包括基于規(guī)則匹配的事件抽取模型和基于機器學(xué)習(xí)算法的事件抽取模型[4]?;谀J狡ヅ涞氖录槿∧P驮谀承┨囟I(lǐng)域的表現(xiàn)性能較好,但存在模型移植性和泛化能力較差的缺陷?;跈C器學(xué)習(xí)算法的事件抽取模型是通過機器學(xué)習(xí)算法建模事件抽取模型完成事件抽取任務(wù),不會依賴一些特定規(guī)則,所以相比基于模式匹配的事件抽取模型,系統(tǒng)移植性較好,模型泛化能力也較強。隨著司法文書數(shù)據(jù)日益增加的復(fù)雜性,基于機器學(xué)習(xí)算法的事件抽取模型越來越流行。
近年來,研究者對深度學(xué)習(xí)在事件抽取任務(wù)中的應(yīng)用進行了大量研究,進一步推動了事件抽取任務(wù)的研究和發(fā)展。事件抽取模型根據(jù)子任務(wù)訓(xùn)練方式不同分為管道式和聯(lián)合式事件抽取模型。
管道式事件抽取模型首先進行觸發(fā)詞或事件類型檢測,再將其結(jié)果作為輸入進行事件論元抽取,這兩個子任務(wù)模型的訓(xùn)練是分離式進行的。文獻[5]提出了一種新的信息抽取管道模型,該模型使用模式學(xué)習(xí)算法提取事件信息特征,然后使用經(jīng)過訓(xùn)練的隨機森林分類器進行分類,并在時態(tài)數(shù)據(jù)驗證了算法的有效性。文獻[6]使用循環(huán)神經(jīng)網(wǎng)絡(luò)提出一種基于預(yù)訓(xùn)練語言模型的事件抽取模型(pre-trained language model based event extractor,PLMEE),該模型使用LSTM加強文本語義提取能力,并基于多組二分類網(wǎng)絡(luò)實現(xiàn)事件元素識別,提升了論元抽取子任務(wù)模型的性能。然而,管道式事件抽取模型的性能仍然受子任務(wù)級聯(lián)錯誤影響。
為了解決管道式事件抽取模型的缺陷,文獻[7]提出一種基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合事件抽取模型(joint event extraction via recurrent neural networks,JRNN),該模型將事件抽取任務(wù)分為事件觸發(fā)詞和事件角色論元識別兩個階段,并將這兩個階段任務(wù)建模端到端式的神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練和優(yōu)化,同時預(yù)測觸發(fā)詞和事件角色論元。文獻[8]聯(lián)合事件抽取模型(jointly multiple event extraction,JMEE),主要利用圖卷積神經(jīng)網(wǎng)絡(luò)表征單詞向量,并結(jié)合自注意力機制算法完成觸發(fā)詞檢測和相應(yīng)事件元素識別。另外,一種基于條件隨機場的多任務(wù)融合的事件抽取聯(lián)合模型[9],借助對事件類型的標(biāo)注任務(wù),解決了事件抽取聯(lián)合模型中的角色重疊問題。上述研究工作主要集中于分類思想,隨著研究深入,這種傳統(tǒng)思想逐漸轉(zhuǎn)變?yōu)槠渌妒剿枷?。文獻[10]引入閱讀理解思想,通過對注釋手冊的語句進行增量消化來消除論元角色識別存在的詞語歧義問題。文獻[11]提出一種基于問答模式[12]的事件抽取模型,通過事件類型和論元角色設(shè)定相應(yīng)問題,增強模型對文本的語義理解,從上下文中推理事件論元。
綜上所述,目前的大量研究工作僅是在一個方向優(yōu)化事件抽取模型性能,并沒有同時處理上述模型存在的所有問題。因此,本文提出一種端到端式基于雙流注意力機制的閱讀理解式事件抽取模型,選擇BERT預(yù)訓(xùn)練模型[13]進行字詞表征,利用雙流注意力機制算法捕捉事件對應(yīng)句子上下文和問題深層語義,并參考文獻[14]進行問題規(guī)則模板制定,以及采用多層指針網(wǎng)絡(luò)完成問題答案的預(yù)測,即事件論元抽取。最終,結(jié)合事件類型檢測結(jié)果合并作為事件抽取模型的預(yù)測結(jié)果。本文模型的貢獻在于以下:
(1)將事件類型檢測任務(wù)和事件論元識別任務(wù)聯(lián)合訓(xùn)練和優(yōu)化,解決多任務(wù)模型訓(xùn)練中子任務(wù)難以同時達到最優(yōu)的問題;
(2)使用閱讀理解思想進行事件論元識別,針對事件類型和論元設(shè)計相應(yīng)問題,有效改善局部詞語歧義等問題;
(3)基于雙流注意力機制加強模型對事件相關(guān)文本的語義理解能力,從而提升閱讀理解任務(wù)準(zhǔn)確率,進一步提升事件抽取模型性能;
(4)基于多層指針網(wǎng)絡(luò)進行論元預(yù)測,進一步解決事件論元識別任務(wù)中角色重疊及角色論元嵌套等問題。
不同于傳統(tǒng)管道式事件抽取模型,基于雙流注意力機制的閱讀理解式事件抽取模型由事件類型檢測和事件角色論元抽取兩個子任務(wù)組成,并將其構(gòu)建為一個端到端式的基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。如表1所示,待抽取事件schema,同一個事件類型可以對應(yīng)多個事件角色,不同事件類型所包含的事件角色有相同部分,這部分相同的事件角色統(tǒng)稱為通用事件角色,其它不同的事件角色統(tǒng)稱為特定類型事件角色。這樣,根據(jù)事件類型和事件角色類別設(shè)計模型輸入的問題對,實現(xiàn)事件抽取模型訓(xùn)練和優(yōu)化,最終完成事件抽取任務(wù)。
表1 事件schema
本文提出的事件抽取模型總框架如圖1所示。該模型包含問題模板設(shè)計模塊、輸入向量表征模塊、基于多標(biāo)簽分類的事件類型檢測模塊以及基于雙流注意力機制和多標(biāo)簽指針網(wǎng)絡(luò)的事件論元抽取模塊。
圖1 事件抽取模型總框架
本文模型實現(xiàn)流程如下:①根據(jù)表1每個事件類型對應(yīng)事件角色制定問題生成規(guī)則,生成事件對應(yīng)問題和上下文作為事件抽取模型的輸入;②基于BERT預(yù)訓(xùn)練模型獲取上下文和問題的字詞編碼拼接向量;③基于雙流注意力機制計算上下文-問題注意力和問題-上下文注意力,與原始上下文向量及上下文-問題的雙向注意力向量進行多特征融合并輸入多層指針網(wǎng)絡(luò)完成事件論元預(yù)測;④基于多標(biāo)簽分類方式進行事件類型檢測;⑤結(jié)合步驟④事件類型檢測結(jié)果與步驟③事件論元角色預(yù)測結(jié)果定義事件抽取模型總損失函數(shù),完成模型訓(xùn)練和優(yōu)化。
由于中文與英文之間存在語言壁壘問題,受文獻[14]啟發(fā),本文設(shè)計了一套問題模板生成規(guī)則,專門用于中文事件抽取任務(wù),使得基于閱讀理解方式的事件抽取任務(wù)得到快速實現(xiàn)。本文的模板規(guī)則以獲取事件論元和事件類型為目標(biāo)進行問題設(shè)計,將事件類型和論元類型(事件角色)進行整合,針對一種事件類型得到多條標(biāo)簽形態(tài),如司法行為事件的罰款事件類型,對應(yīng)標(biāo)簽為罰款-時間、罰款-執(zhí)法機構(gòu)、罰款-罰款對象、罰款-罰款金額。通過分析,將這些標(biāo)簽大致分為以下3種:
(1)通用性標(biāo)簽
這類標(biāo)簽主要涉及事件發(fā)生的時間、地點、人數(shù)、人物對象等論元(事件角色),具有一定的通用性,即與不同的事件類型進行整合,其表達含義基本相同,因此這類事件論元對應(yīng)的問題設(shè)計,只需要在不同問題之前增加事件類型字符串用于區(qū)分,比如“罰款-時間”對應(yīng)問題為:找到罰款事件發(fā)生的時間,包含年、月、日、天、周、時、分、秒等,“立案-時間”對應(yīng)問題為:找到立案事件發(fā)生的時間,包含年、月、日、天、周、時、分、秒等。
(2)與事件強相關(guān)的標(biāo)簽
這類標(biāo)簽通常與具體事件類型有一定的關(guān)聯(lián),比如罰款-執(zhí)法機構(gòu)、開庭-開庭法院等。因此,這類事件論元對應(yīng)的問題設(shè)計,可能需要提到事件類型的某些屬性,比如“罰款-執(zhí)法機構(gòu)”對應(yīng)問題為:擁有相對獨立的法律地位和組織機構(gòu)的行政機構(gòu)。
(3)無法生成問題的標(biāo)簽
對于一些標(biāo)簽實在無法給出較為合適的問題,可以選擇單純保留其原始論元類型,并與事件類型整合,比如“漲停-漲停股票”對應(yīng)問題為:漲停-漲停股票。
本文針對事件論元和事件類型設(shè)計的問題模板見表2。
采用這種問題生成模板規(guī)則可以間接增加模型輸入數(shù)據(jù)量,假設(shè)一個文本包含m種不同事件類型,每個事件類型平均包含n個可提取內(nèi)容的論元,那么一個文本數(shù)據(jù)可以擴充m×n倍,相當(dāng)于間接做了數(shù)據(jù)增強,從而在一定程
表2 事件論元角色問題模板
度上增強了模型的學(xué)習(xí)能力。
BERT預(yù)訓(xùn)練模型[15]采用基于字粒度的編碼方式,難以完整表示中文詞語之間的語義特征,因此,本文在基于BERT預(yù)訓(xùn)練的字粒度編碼基礎(chǔ)上增加每個詞的詞性標(biāo)注信息,作為事件抽取模型的輸入向量。具體實現(xiàn)如下:
(1)利用中文分詞工具進行輸入文本詞性標(biāo)注,將每個詞語標(biāo)注為B-postag,I-postag,E-postag,S-postag(單個字符)形式作為BERT模型輸入獲取詞表征向量,如“本案由丹陽市公安局偵查終結(jié),以被告人謝某某涉嫌盜竊罪,于2021年7月23日向本院起訴”分詞結(jié)果如圖2所示,對于“公安局”這個詞,以“B-nt I-nt E-nt”作為BERT輸入進行詞向量表征,獲取輸入文本的詞編碼向量hpos。
圖2 詞性標(biāo)注示例
(2)基于BERT預(yù)訓(xùn)練模型獲取輸入文本對應(yīng)每個字符的字編碼向量hb;
(3)字編碼和詞編碼拼接作為最終編碼向量h0,該模塊數(shù)學(xué)表達式如下
h0=Concat([hb,hpos])
(1)
BERT模型的輸入是3種編碼向量直接相加,其中Token編碼表示字符向量或詞向量,Position編碼表示位置信息,因為自注意力機制的模型無法感知每個字之間的位置關(guān)系,所以使用Position編碼給每個字標(biāo)記其順序信息,Segment編碼表示多個句子之間的分割向量,本文僅在每個句子的開頭和結(jié)尾加上[CLS]和[SEP]標(biāo)記。BERT采用微調(diào)的多層雙向Transformer作為編碼器,對于一段文本中的每個字向前向后直接和文本中任何一個字進行編碼,使得每個字都能融合其左右兩邊的語義。每個編碼器由多頭自注意力機制(multi-head self-attention)和全連接前饋神經(jīng)網(wǎng)絡(luò)組成,其中,單個編碼器結(jié)構(gòu)如圖3所示。
圖3 BERT編碼器結(jié)構(gòu)
多頭注意力機制意味著對一段相同文本作多次自注意力計算,而每一次自注意力計算可以獲取句子的不同信息,并將多次自注意力計算結(jié)果拼接在一起,如下數(shù)學(xué)表達式
(2)
上述公式中,q,k,v為詞向量矩陣,wq,wk,wv為投影矩陣,hi為單頭注意機制層輸出,Wo為權(quán)重矩陣,dk為向量維度。
不同于傳統(tǒng)閱讀理解式事件論元抽取方法,本文提出一種基于雙流注意力機制的閱讀理解式事件論元抽取方法。該模型主要有:輸入向量表征、基于上下文-問題的雙流注意力機制層以及基于多層指針網(wǎng)絡(luò)的答案預(yù)測層,其框架結(jié)構(gòu)如圖4所示。上下文-問題的雙流注意力機制層是事件論元抽取模塊的核心,負責(zé)融合上下文和問題之間的語義特征,深層捕捉上下文和問題的關(guān)系特征,從而進一步提升閱讀理解式事件論元抽取任務(wù)的性能。除此之外,為了解決事件論元抽取任務(wù)中存在的角色重疊和角色論元嵌套問題,本文還采用多層指針網(wǎng)絡(luò)堆疊的方式進行模型優(yōu)化,即對于輸入文本中每個字都可以被預(yù)測為某一論元角色的起止位置,且任意兩個字組成的元素也可能被預(yù)測為任意一個論元角色,從而改善事件論元抽取任務(wù)中的角色重疊和角色論元嵌套問題。
圖4 事件論元抽取模塊模型結(jié)構(gòu)
如圖4所示模型結(jié)構(gòu),首先,模型輸入向量表征層分別從字詞兩個不同粒度獲取輸入上下文和問題的編碼向量,得到矩陣H∈Rd×T和U∈Rd×J,作為上下文-問題的雙流注意力機制層的輸入,d表示向量維度。該層分別從兩個方向計算上下文-問題注意力和問題-上下文注意力,具體實現(xiàn)步驟如下:
(1)構(gòu)造一個共享相似度矩陣,其數(shù)學(xué)表達式如下
(3)
(2)利用步驟(1)構(gòu)造的相似度矩陣P分別計算兩個方向的注意力大?。荷舷挛?問題注意力(Context-to-Query,C2Q Attention)和問題-上下文注意力(Query-to-Context,Q2C Attention)。其中,C2Q Attention計算的是Context所有詞對Query中每個詞的注意力大小(相關(guān)性),包含所有Query信息,計算方法為:首先對相似度矩陣P進行行方向歸一化,再對Query進行加權(quán)求和得到C2Q Attention,其數(shù)學(xué)表達式如下
(4)
而Q2C Attention計算的是Query所有詞對Context每個詞的注意力大小,包含所有Context信息,計算方法為:首先獲取相似度矩陣P每列的最大值,再將其進行Softmax歸一化,最后對Context進行加權(quán)并在列方向上迭代T次得到Q2C Attention,其數(shù)學(xué)表達式如下
(5)
(6)
上述公式中,G中每一列向量包含Context和Query的上下文信息。
(3)對注意力機制層的輸出向量G進一步進行征提取,得到輸出矩陣Hc∈Rd×T, 作為多層指針網(wǎng)絡(luò)的輸入完成論元抽取。不同于傳統(tǒng)機器閱讀理解任務(wù)預(yù)測Start和End的方式,本文針對每個字符均使用兩個二分類器進行Start和End預(yù)測,其數(shù)學(xué)表達式如下
(7)
(8)
上述公式中,i,j表示位置對應(yīng)索引值,取值范圍為[0,n],n為問題對應(yīng)字符長度。在得到答案對應(yīng)起止位置集合之后,還需解決論元開始與結(jié)尾位置相匹配問題,本文采用一個二分類模型來預(yù)測它們應(yīng)該被匹配的概率,其數(shù)學(xué)表達式如下
Pistart,jend=sigmoid(W*Concat(Eistart,Ejend)),W∈1×d
(9)
本文基于多標(biāo)簽分類方法進行事件類型檢測,具體實現(xiàn)為:對輸入向量表征模塊的輸出向量H∈Rd×T進行最大池化后接一個全連接層和Softmax層進行多標(biāo)簽分類,其數(shù)學(xué)表達式如下
Xp=maxpooling(H)Pclass=φ(WbXp+b)
(10)
在本文中,事件抽取模型由事件類型檢測子任務(wù)和事件角色論元識別子任務(wù)聯(lián)合構(gòu)建,模型訓(xùn)練并不是對單個子任務(wù)進行單獨優(yōu)化和學(xué)習(xí),而是將事件類型檢測結(jié)果與事件角色論元預(yù)測結(jié)果進行聯(lián)合訓(xùn)練和優(yōu)化,所以獲得事件類型檢測結(jié)果之后,需要重新定義事件角色論元識別任務(wù)的起止位置的預(yù)測概率,其數(shù)學(xué)表達式為
(11)
如果用ystart,yend表示每個token對應(yīng)任意角色論元開始索引和結(jié)束索引的真實標(biāo)簽序列,則每個字符被預(yù)測為開始和結(jié)束索引的損失函數(shù)表達式為
(12)
同理,如果用yse表示開始和結(jié)束位置相匹配的索引序列,則相應(yīng)損失函數(shù)表達式如下
(13)
故而,事件抽取聯(lián)合模型的最終損失函數(shù)表達式如下
Loss=αLstart+βLend+γLstart,end
(14)
式中:ɑ,β,γ作為超參數(shù)來優(yōu)化模型,取值范圍[0,1]。
本文采用目前中文事件任務(wù)中規(guī)模最大的事件抽取數(shù)據(jù)集DuEE作為實驗數(shù)據(jù),該數(shù)據(jù)集定義了65個事件類型,每個事件類型包含相應(yīng)的事件角色,總共有17 000條具有事件信息的句子。其中,表3統(tǒng)計了數(shù)據(jù)集關(guān)聯(lián)的領(lǐng)域類別及每個類別對應(yīng)數(shù)據(jù)數(shù)量。由表3看出,數(shù)據(jù)集所涉及事件類型不僅包含出售/收購、結(jié)婚、辭職等傳統(tǒng)中文事件抽取任務(wù)常見的事件類型,而且包含起訴、拘捕、立案等具備特定司法領(lǐng)域的事件類型,可以更好支持后期工作??紤]實驗的合理性,本文選取12 000條數(shù)據(jù)作為訓(xùn)練集,2000條作為驗證集,1500條作為測試集1,1500條作為測試集2。
表3 DuEE中的事件類型與事件子類型
本文采用Tensorflow[15]深度學(xué)習(xí)框架和Python3編程語言進行實驗環(huán)境部署,在CentOS Linux平臺上使用NVIDIA Tesla V100圖形處理單元(GPU)16 GB顯存。選用BERT預(yù)訓(xùn)練模型,其中模型層數(shù)L為12,隱藏層維度H為768,多頭自注意力機制頭數(shù)A為12,Dropout丟棄率為0.2,Shuffle_buffer為128,Pre_buffer_size為16,并使用交叉熵損失函數(shù)進行訓(xùn)練,使用優(yōu)化器Adam算法[16]進行優(yōu)化。經(jīng)過多次實驗進行參數(shù)調(diào)節(jié),得出本文模型達到最優(yōu)狀態(tài)時的其它主要超參數(shù)為:Batchsize為8,學(xué)習(xí)率為2e-6,訓(xùn)練批次Epoch為10,每個輸入序列最大長度Seq_length為512。
本文提出的基于雙流注意力機制的閱讀理解式事件抽取模型的性能評估由兩部分組成,一部分是事件類型檢測結(jié)果;一部分是事件論元角色識別結(jié)果。事件類型檢測結(jié)果判斷:如果模型預(yù)測的分類類型與標(biāo)注類型相匹配,就認為分類正確。事件角色論元識別結(jié)果判斷:如果模型識別出的論元在事件中充當(dāng)?shù)慕巧c標(biāo)注角色一致,并且識別的論元起止位置與標(biāo)注的起止位置一致,則認為論元識別正確。
本實驗選擇精確度(Precision,P)、召回率(Recall,R)以及F1得分作為模型性能評估指標(biāo),計算公式為
(15)
式中:TP、FP和FN分別表示預(yù)測結(jié)果真的正例值、假的例值和假的負例值。
為了評估基于雙流注意力機制的閱讀理解式事件抽取模型的性能,本文從3個方面進行實驗對比和結(jié)果分析:①依據(jù)文獻[17],對比分析了不同網(wǎng)絡(luò)結(jié)構(gòu)對模型性能的影響,進一步驗證了BERT動態(tài)詞表征模型相比WORD2VEC靜態(tài)詞表征對模型性能的改善效果;②驗證了機器閱讀理解思想對事件抽取模型性能的提升效果,對比分析了管道式模型和聯(lián)合式模型的性能;③對比分析了本文提出的基于雙流注意力機制的閱讀理解式事件抽取模型相比其它模型的優(yōu)勢;④對比分析了采用基于BERT類變體的兩種模型進行事件抽取模型的訓(xùn)練過程,進一步分析了BERT類變體模型對事件檢測任務(wù)的性能影響,驗證了本文模型采用BERT進行輸入向量表征的優(yōu)勢。不同模型得出的性能評估指標(biāo)結(jié)果見表4。
表4 不同模型性能指標(biāo)比較
由表4可以看出,融合CNN與LSTM網(wǎng)絡(luò)結(jié)構(gòu)并進行編碼向量共享的DJEE(WORD2VEC)模型相比NO_CNN(WORD2VEC)模型和NO_CNN(WORD2VEC)模型召回率有很大幅度提升,準(zhǔn)確率也有一定幅度提升,這表明通過CNN提取字符級特征,LSTM提取詞級特征,并融合CNN與LSTM字詞特征的方式可以獲取文本全局和局部特征,并捕捉到更多文本的上下文語義信息,進一步提升了模型的整體性能;BERT+CRF模型相比融合字詞特征的DJEE(WORD2VEC)模型準(zhǔn)確率有很大幅度提升,模型整體性能有很大程度改善,這表明基于BERT預(yù)訓(xùn)練模型進行輸入向量表征可以獲取文本更深層次語義,并且與基于WORD2VEC進行輸入向量表征的模型相比,還可以根據(jù)不同上下文語境動態(tài)地獲取詞語語義信息,同時可以避免LSTM網(wǎng)絡(luò)結(jié)構(gòu)存在的文本序列長期依賴問題。所以,基于BERT預(yù)訓(xùn)練模型進行輸入向量表征可以提升模型的整體性能;BERT+SOFTMAX MRC(JOIN)模型相比BERT+CRF在召回率指標(biāo)上有大幅度提升,這表明閱讀理解思想可以提升事件論元識別任務(wù)的性能,從而改善事件抽取模型的整體性能,在機器閱讀理解任務(wù)中,首先根據(jù)特定文本進行問題對設(shè)計,再讓模型從文本中抽取對應(yīng)答案,這種方式使模型可以同時學(xué)習(xí)問題和上下文文本的語義信息,加深模型的上下文學(xué)習(xí)能力,解決了局部詞語歧義問題。因此,基于閱讀理解方式的事件抽取模型在召回率指標(biāo)上表現(xiàn)更突出,模型的整體性能也較為突出;而管道式模型BERT+SOFTMAX MRC(PIPELINE)相比聯(lián)合式模型BERT+SOFTMAX MRC(JOIN),準(zhǔn)確率、召回率及F1得分均有很大幅度降低,甚至其性能不如上述的其它模型,這表明管道式模型訓(xùn)練過程中存在子任務(wù)誤差傳遞問題,使子任務(wù)無法同時達到最優(yōu)狀態(tài),進而影響模型的整體性能。而聯(lián)合式模型是一種端到端式的訓(xùn)練任務(wù),可以避免模型訓(xùn)練過程中子任務(wù)的誤差傳遞,并在一定程度上更多地捕捉到子任務(wù)之間的依賴關(guān)系,因此具備更強的模型性能;本文提出的ATTENTION+PNet MRC模型相比上述模型,準(zhǔn)確率和召回率都有很大幅度提升,這是因為基于雙流注意力機制獲取上下文和問題之間彼此的關(guān)注度向量,并與原始上下文向量進行多特征融合,可以有效捕捉到當(dāng)前語境下上下文和問題的深層語義信息,加深了模型的語義理解能力。除此之外,基于多層指針網(wǎng)絡(luò)進行角色論元抽取,即文本序列的每個字都有可能被預(yù)測為一個論元的起止位置,一定程度上解決了傳統(tǒng)事件論元識別模型所存在的角色重疊和角色論元嵌套問題。
通過以上實驗分析,本文提出的模型在準(zhǔn)確率和召回率上都有所提升,但模型整體性能還需進一步提升。為了充分利用數(shù)據(jù)集,本文將訓(xùn)練集和驗證集合并起來進行了六折交叉驗證,然后對結(jié)果進行投票融合,其性能見表5。
表5 交叉驗證對模型性能的影響
表5結(jié)果顯示,交叉驗證投票融合方式對模型性能有一定提升,這種方式相當(dāng)于進行了數(shù)據(jù)增強。為了進一步驗證BERT變體預(yù)訓(xùn)練模型對模型性能的影響,本文還選擇了3種預(yù)訓(xùn)練模型BERT、BERT-wwm以及RoBERTa分別作為輸入向量表征層,使用BERT+SOFTMAX MRC模型進行事件類型檢測子任務(wù)訓(xùn)練,并使用參數(shù)F1作為性能評估指標(biāo),實驗結(jié)果見表6。同時,圖5展示了3種編碼機制對應(yīng)模型訓(xùn)練的收斂過程。
表6 不同編碼向量對模型性能的影響
圖5 不同模型訓(xùn)練收斂過程
由表6和圖5可以看出,不同預(yù)訓(xùn)練模型編碼會影響事件抽取模型性能及模型訓(xùn)練時間。從模型性能評估指標(biāo)來看,BERT編碼效果最優(yōu),但是與RoBERTa編碼的結(jié)果相差不大,這表明不同編碼對模型性能確實有一定影響。同時,從模型收斂時間來看,BERT編碼比RoBERTa編碼使模型收斂更快。綜合分析,本文選擇BERT模型編碼,但是RoBERTa編碼模型有著節(jié)省計算資源,訓(xùn)練參數(shù)少,更輕量級以及使用更便捷等優(yōu)勢也可以作為相關(guān)研究者的選擇。
本文提出一種基于雙流注意力機制的閱讀理解式事件抽取模型,基于BERT預(yù)訓(xùn)練模型獲取模型輸入的語義表征向量,將其與上下文和問題的雙向關(guān)注度矩陣進行多特征融合,進一步捕捉上下文-問題文本深層語義信息,并基于多層指針網(wǎng)絡(luò)進行問題答案預(yù)測,最終完成事件論元抽取。本文提出的模型一定程度上避免了傳統(tǒng)事件論元識別任務(wù)中出現(xiàn)的角色重疊和角色論元嵌套問題,實現(xiàn)了端到端式的模型訓(xùn)練效果,提升了事件抽取模型整體性能。
由實驗結(jié)果得知,本文提出模型在DuEE數(shù)據(jù)集上性能表現(xiàn)較好。下一步工作將基于司法領(lǐng)域數(shù)據(jù)對模型進行優(yōu)化改進,以技術(shù)來支持特定領(lǐng)域事件信息抽取等工作。