沈加銳,朱艷輝,金書(shū)川,張志軒,滿芳滕
(1.湖南工業(yè)大學(xué) 軌道交通學(xué)院,湖南 株洲 412007;2.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007)
事件是指發(fā)生在某個(gè)特定的時(shí)間點(diǎn)或者特定的時(shí)間段[1],在特定區(qū)域內(nèi)由一個(gè)或者多個(gè)角色做出一組或者多組動(dòng)作而造成的狀態(tài)改變的行為[2]。事件抽取,旨在將包含有事件信息的非結(jié)構(gòu)化文本和半結(jié)構(gòu)化文本以結(jié)構(gòu)化的形式展示出來(lái)[3-4]。近年來(lái),事件抽取吸引了較多的研究機(jī)構(gòu)和科研工作者們的注意,其中,MUC(Message Understanding Conference) 會(huì) 議、ACE(Automatic Content Extraction)會(huì)議等,就是典型的事件抽取評(píng)測(cè)會(huì)議。在各有關(guān)的事件抽取實(shí)驗(yàn)之中,ACE 2005 數(shù)據(jù)集[5]更是被作為絕大部分實(shí)驗(yàn)的評(píng)測(cè)語(yǔ)料,出現(xiàn)在各個(gè)事件抽取任務(wù)中。此外,常用于事件抽取任務(wù)的測(cè)評(píng)語(yǔ)料還有TAC-KBP(Text Analysis Conference Knowledge Base Population) 語(yǔ)料庫(kù)、TDT(Topic Detection and Tracking)語(yǔ)料庫(kù)和其他特定領(lǐng)域的語(yǔ)料庫(kù),如BioNLP 語(yǔ)料庫(kù)、TimeBANK 語(yǔ)料庫(kù)、CEC(Chinese Electronic Corpora)語(yǔ)料庫(kù)、MUC 語(yǔ)料庫(kù)等[6-7]。
在ACE 中定義的事件包括事件元素與事件觸發(fā)詞兩個(gè)部分。其中,事件觸發(fā)詞是事件語(yǔ)句的核心部分,ACE 將事件抽取任務(wù)分為觸發(fā)詞檢測(cè)、觸發(fā)器/事件類(lèi)型檢測(cè)、參數(shù)檢測(cè)、參數(shù)角色識(shí)別4 個(gè)階段。其中觸發(fā)詞檢測(cè)是檢測(cè)事件是否存在的依據(jù),可用其判斷語(yǔ)句是否具有后續(xù)抽取價(jià)值。觸發(fā)器/事件類(lèi)型檢測(cè)是通過(guò)不同觸發(fā)詞歸類(lèi)事件類(lèi)型,并由研究人事先定義好的模式組成。參數(shù)檢測(cè)類(lèi)似于命名實(shí)體識(shí)別,抽取事件語(yǔ)句中的各種論元實(shí)體。參數(shù)角色識(shí)別將論元實(shí)體分類(lèi)到相應(yīng)角色,如時(shí)間、地點(diǎn)、涉事公司等。
根據(jù)抽取對(duì)象領(lǐng)域的不同,可以將事件抽取分為開(kāi)放領(lǐng)域和專(zhuān)業(yè)(封閉)領(lǐng)域[8-9];根據(jù)文本粒度的不同,可以將事件抽取分為句子級(jí)和篇章級(jí);根據(jù)模型結(jié)構(gòu)的不同,可以將事件抽取分為pipeline 式和聯(lián)合模型式。在開(kāi)放領(lǐng)域中,有更多的數(shù)據(jù)集可選。不同的文本粒度對(duì)事件抽取也有影響,篇章級(jí)包含更多事件,模型進(jìn)行分辨時(shí)難度較大,而細(xì)粒度一般只包含一個(gè)扁平或嵌套事件,抽取準(zhǔn)確性較高。根據(jù)抽取方法的不同,可以將事件抽取分為模式匹配和機(jī)器學(xué)習(xí),例如,文獻(xiàn)[10-12]提出了一種由人工構(gòu)建的事件抽取模式,其通過(guò)對(duì)文本進(jìn)行匹配,從而提取出文本中的事件信息,這種方法可以獲得較高的精確率,但是人工參與程度較高,且受制于模式搭建,不利于新事件的抽取。文獻(xiàn)[13-14]使用機(jī)器學(xué)習(xí)方法,將信息處理重點(diǎn)放在特征項(xiàng)上,通過(guò)詞匯特征、句法特征、語(yǔ)義特征等獲得文本信息,從而提取事件信息,但其對(duì)數(shù)據(jù)標(biāo)注的質(zhì)量有極高的依賴(lài),并且無(wú)法抽取較復(fù)雜的事件。
近年來(lái),隨著深度學(xué)習(xí)不斷地發(fā)展,抽取方法的中心也從模式匹配方向逐漸轉(zhuǎn)移到機(jī)器學(xué)習(xí),再到深度學(xué)習(xí)方法上。文獻(xiàn)[15]提出使用HMM(hidden markov model)與句法分析相結(jié)合的方法,對(duì)事件進(jìn)行抽取。首先,使用句法分析對(duì)中文文本進(jìn)行分析,隨后將得到的句法結(jié)構(gòu)交給HMM 學(xué)習(xí),得到一個(gè)抽取模型,其模型在200 篇網(wǎng)絡(luò)地震文本中的F1值達(dá)86.184。但HMM 與語(yǔ)法分析對(duì)語(yǔ)言的依賴(lài)性較強(qiáng),增加了開(kāi)發(fā)與移植不同語(yǔ)言的難度,其對(duì)于復(fù)雜語(yǔ)法結(jié)構(gòu)也表現(xiàn)較差。文獻(xiàn)[16]抽取了微博交通信息,經(jīng)過(guò)去噪、句子分割、詞性標(biāo)注及命名實(shí)體識(shí)別后,使用CRF(conditional random field)與基于規(guī)則的正則表達(dá)方法抽取文本中的事件信息,結(jié)果F1值為62.5,在標(biāo)準(zhǔn)化的語(yǔ)料庫(kù)上F1值為66.5。但這種方法會(huì)依賴(lài)正則表達(dá)的設(shè)計(jì)好壞,極大限制了在不同任務(wù)中使用同一套模型的效率。
2019年,BERT(bidirectional encoder representations from transformers)模型橫空出世,其有效推動(dòng)了NLP(natural language processing)領(lǐng)域各任務(wù)的發(fā)展。文獻(xiàn)[17]用BERT 微調(diào)稠密詞向量作為中文字詞表示,使用BiLSTM+CRF(bidirectional long short-term memory + conditional random field)方法,在突發(fā)公共衛(wèi)生事件上,以pipeline 方式進(jìn)行事件抽取,建立的模型在該數(shù)據(jù)集上的F1值得分為86.32,相較于只使用BiLSTM+CRF 的F1值78.3,有了較大的提升。但是此種方法使用文本截?cái)鄷r(shí)的大小對(duì)最終的結(jié)果有較大的影響,同時(shí)在多語(yǔ)言文本中難以實(shí)現(xiàn)事件抽??;文獻(xiàn)[18]提出了一個(gè)基于GAT(graph attention networks)的模型,其利用Sentence Community 緩解多事件和角色重疊問(wèn)題,提高了事件的抽取效率,其平均F1值為78.9。但是其對(duì)低頻出現(xiàn)事件抽取表現(xiàn)較差,需要每類(lèi)事件有較多數(shù)據(jù)可供訓(xùn)練;文獻(xiàn)[19]使用BiLSTM+Attention 機(jī)制整合信息的基礎(chǔ)上,利用top-k注意力機(jī)制,構(gòu)建語(yǔ)法依賴(lài)圖,學(xué)習(xí)隱藏的語(yǔ)義上下文表示,抽取事件時(shí)間關(guān)系,其在Micro 數(shù)據(jù)集上的F1值為73.2,相較CAEVO(CAscading EVent Ordering architecture)有較大提升。但是這種方法在整合信息層面有較高要求,在這個(gè)過(guò)程中需要作出大量預(yù)處理工作,以防誤差傳播到語(yǔ)法依賴(lài)圖上[20]。
上述研究均獲得了一定的成果,但是很多工作對(duì)數(shù)據(jù)的依賴(lài)性較強(qiáng)或者需要前期的大量準(zhǔn)備工作,而使用BERT 預(yù)訓(xùn)練模型也未注意到填充文本對(duì)語(yǔ)義表達(dá)的影響。為了解決預(yù)訓(xùn)練模型對(duì)文本填充部分過(guò)分表達(dá)的問(wèn)題,本文擬提出一種序列增強(qiáng)的事件主體抽取方法,用于解決在事件抽取中使用固定文本長(zhǎng)度造成短句子填充過(guò)多,從而引發(fā)語(yǔ)義偏移的問(wèn)題。本研究進(jìn)行了如下創(chuàng)新:
1)融合預(yù)訓(xùn)練模型對(duì)字符級(jí)特征表達(dá)能力和序列模型對(duì)語(yǔ)義的表達(dá)能力,構(gòu)建編碼器-解碼器架構(gòu)實(shí)現(xiàn)事件主體抽取任務(wù);
2)加入Mask 層,增強(qiáng)序列抽取能力,可有效抑制文本填充部分對(duì)語(yǔ)義空間的表達(dá)能力,從而提高最終的識(shí)別精確率;
3)將損失函數(shù)與文本填充部分通過(guò)Mask 層相關(guān)聯(lián),減少了模型過(guò)擬合現(xiàn)象的發(fā)生。
本文提出一種序列增強(qiáng)的事件主體抽取方法,該方法能有效解決抽取過(guò)程中填充文本在訓(xùn)練中錯(cuò)誤傳播的問(wèn)題,模型整體結(jié)構(gòu)見(jiàn)圖1。
圖1 模型整體結(jié)構(gòu)示意圖Fig.1 Model overall structure diagram
為提高事件的主體抽取精確率,模型構(gòu)建編碼器-解碼器-MLP(multi-layer perceptrons)映射層用于解析文本語(yǔ)義。其中:編碼器以BERT 層為主體,將輸入文本以字符級(jí)切分為token,經(jīng)過(guò)BERT 層和Dropout層訓(xùn)練后,得到每個(gè)token的稠密詞向量表達(dá);解碼器以增強(qiáng)序列層為主體;MLP 映射層由使用神經(jīng)元個(gè)數(shù)遞減的全連接層組成。這樣的組織結(jié)構(gòu)有效將各種長(zhǎng)度的文本序列映射到相同語(yǔ)義空間之中,學(xué)習(xí)一種共同的語(yǔ)義表達(dá)。
本文構(gòu)建的編碼器主要由BERT 層、Mask 層、Dropout 層和SpatialDropout 層組成,如圖2所示。
圖2 編碼器結(jié)構(gòu)示意圖Fig.2 Encoder structure diagram
為便于對(duì)文本整體進(jìn)行語(yǔ)義編碼,本文將文本截?cái)?、填充后,以字符為單位劃分token,讓模型學(xué)習(xí)中文文本更細(xì)粒度的語(yǔ)義表達(dá),token 輸入BERT 模型中得到字符級(jí)的向量表達(dá),表達(dá)公式如下:
式中:Ei(i=1,2,··,n)為詞向量;
S為句向量。
Dropout 層以字向量Ei與句向量S的和作為輸入,隨機(jī)舍棄更新,其中更新公式如下:
式(2)~(4)中:Bernoulli函數(shù)生成概率向量r;
p為控制隨機(jī)舍去的概率;
f(·)為使用的相應(yīng)激活函數(shù);
w為可訓(xùn)練權(quán)重;
y為第l層的結(jié)果;
b為l層偏置項(xiàng);
l為神經(jīng)層數(shù)。
本文在編碼器結(jié)構(gòu)中加入了一個(gè)Mask 層,它將原文本對(duì)應(yīng)的位置用1 表示,填充部分用一個(gè)極小的數(shù)值表示,以此形成一個(gè)掩碼序列向量,并將其與BERT 模型微調(diào)后得到的稠密詞向量相加,以此增加文本部分的權(quán)重,降低填充部分的重要性。
本文編碼器結(jié)構(gòu)中的最后一層采用了SpatialDropout,它最早是在圖像領(lǐng)域提出的,與Dropout 相比,它不僅能夠?qū)⒉糠衷刂昧?,還可以隨機(jī)對(duì)某一維度向量全部置零[21]。此外,該方法可以防止模型對(duì)特定特征項(xiàng)過(guò)度依賴(lài),并通過(guò)強(qiáng)制學(xué)習(xí)所有特征來(lái)獲取其語(yǔ)義表達(dá)。
本研究構(gòu)建的解碼器由兩個(gè)雙向序列模型、兩個(gè)Mask 層組成,如圖3所示。
圖3 解碼器結(jié)構(gòu)示意圖Fig.3 Decoder structure diagram
從解碼器角度來(lái)看,Bidirectional-RNN 模型、Bidirectional-GRU(BiGRU)模型、BiLSTM 模型或者是GRU 模型、LSTM 模型,都是可行的序列模型,本文擬通過(guò)實(shí)驗(yàn)證明,采用BiGRU 可以在最終訓(xùn)練結(jié)果上達(dá)到最好的效果。
在經(jīng)過(guò)編碼層后得到的詞向量表達(dá)Ei被用作解碼器的輸入,并通過(guò)第一層BiGRU 處理,以形成新的[E1,E2,E3,…,Ei,…,En],其計(jì)算公式如下:
式(5)~(8)中:
Wz、Wr和W分別為更新門(mén)、重置門(mén)以及候選隱藏狀態(tài)的權(quán)重矩陣。
首先,Ei與Mask 層進(jìn)行點(diǎn)乘操作,用以降低第一層BiGRU 的前半部分中填充部分文本的權(quán)重,并且將其輸入至后半部分BiGRU 中,得到更新后的[E1,E2,E3,…,Ei,…,En];然后通過(guò)Mask 層對(duì)其進(jìn)行處理,以減少填充文本的權(quán)重,從而得出解碼器的輸出結(jié)果。
在經(jīng)過(guò)編碼器和解碼器處理后,模型已學(xué)習(xí)到許多字符信息特征,并通過(guò)設(shè)計(jì)MLP 映射層以抽取出事件主體,其模型結(jié)構(gòu)如圖4所示。
圖4 MLP 層結(jié)構(gòu)示意圖Fig.4 MLP layer structure diagram
如圖4所示,MLP 層前半部分由3 層神經(jīng)元以及2 層Dropout 組成。其中,3 層神經(jīng)元的數(shù)量呈指數(shù)遞減,將高維信息映射至低維以有利于最后的表達(dá)輸出,而2 層Dropout 則可以防止過(guò)擬合。MLP 層后半部分對(duì)應(yīng)2 個(gè)輸出,均由1 個(gè)神經(jīng)元以及1 個(gè)InvMask 層構(gòu)成。在InvMask 層中,該模型將會(huì)將所有的填充部分設(shè)定為微小數(shù)字,并進(jìn)行相減處理;此外,該函數(shù)也會(huì)將神經(jīng)元的輸出內(nèi)容減去InvMask中的反轉(zhuǎn)函數(shù),以得到如下的最后表達(dá)式:
式中:α為掩碼部分掩蓋權(quán)重超參數(shù);
Wven為經(jīng)過(guò)上一層神經(jīng)元后的特征表達(dá);
psi為經(jīng)過(guò)InvMask 層后的輸出。
為了提高事件主體抽取的精確率,本文設(shè)計(jì)了一個(gè)損失函數(shù),其由兩部分組成,分別對(duì)應(yīng)于MLP 層后的ps1和ps2,用于進(jìn)行綜合損失值計(jì)算,并進(jìn)行反向傳播。具體的計(jì)算公式如下。
式(10)(11)中:
seni為第i個(gè)輸入句子,將輸入seni與對(duì)應(yīng)第i個(gè)MLP 層輸出做交叉熵,當(dāng)求得第一部分損失函數(shù)時(shí)i=1,求得第二部分損失函數(shù)時(shí)i=2;
θ(·)為張量均值。
與第一部分損失函數(shù)類(lèi)似,第二部分損失函數(shù)為了減少M(fèi)ask 層對(duì)抽取精確率的影響,需在計(jì)算損失函數(shù)時(shí)減去InvMask 的改變量,公式如下:
第二部分損失值通過(guò)式(10)得到cc2,則第二部分損失函數(shù)表達(dá)式為
最終損失函數(shù)為
每年,CCKS 都發(fā)布各種高質(zhì)量數(shù)據(jù)集,供研究者進(jìn)行實(shí)驗(yàn)。這些數(shù)據(jù)集包括大量可用于事件抽取的數(shù)據(jù),對(duì)于使用不同框架進(jìn)行事件抽取具有顯著的幫助[22-24]。為了證明本文提出方法的有效性,采用CCKS 2022 評(píng)測(cè)任務(wù)九金融領(lǐng)域事件抽取數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其中訓(xùn)練數(shù)據(jù)集共59 143 條,測(cè)試數(shù)據(jù)共15 265 條。數(shù)據(jù)集文本長(zhǎng)度分布如圖5所示。
圖5 數(shù)據(jù)集文本長(zhǎng)度分布圖Fig.5 Dataset text length distribution
由圖5 可以得知,本研究選用的數(shù)據(jù)集文本長(zhǎng)度集中分布在20~140 字符之間。訓(xùn)練數(shù)據(jù)集事件類(lèi)型分布如表1所示。
表1 訓(xùn)練數(shù)據(jù)集類(lèi)型統(tǒng)計(jì)結(jié)果Table 1 Training dataset type statistics
數(shù)據(jù)集中有173 種不同的事件類(lèi)型,但是這些類(lèi)型的數(shù)量分布并不均勻。這是由金融領(lǐng)域事件發(fā)展所決定的,例如高層變動(dòng)、與其他機(jī)構(gòu)合作、資產(chǎn)重組等事件的概率較高,因此其對(duì)應(yīng)的信息也會(huì)更加密集。
本實(shí)驗(yàn)基于TensorFlow 框架搭建模型,并使用GPU 加速訓(xùn)練過(guò)程,以便快速收斂。為此,本模型封裝原有優(yōu)化器以實(shí)現(xiàn)梯度累積功能,將計(jì)算得到的梯度方向保存在內(nèi)存中,在獲取一個(gè)batch 數(shù)據(jù)后,當(dāng)進(jìn)行一定的累加步數(shù)后,根據(jù)之前保存的梯度方向來(lái)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)整,接下來(lái)將所有保存的參數(shù)全部重新歸零,并進(jìn)行迭代訓(xùn)練。具體的實(shí)驗(yàn)硬件配置如下:操作系統(tǒng)為Windows 10×64位;CPU 為i7-10510U@ 2.30 GHz,GPU 為NVIDIA GeForce MX250;內(nèi)存為16 GB;Python版本為3.7.13;TensorFlow 版本為1.14.0。
為了驗(yàn)證本模型在金融領(lǐng)域文本中的事件主體抽取能力,本文設(shè)計(jì)如下對(duì)比實(shí)驗(yàn)方案:
1)BiLSTM+CRF 模型。這是一類(lèi)典型的序列抽取模型,通過(guò)訓(xùn)練語(yǔ)料生成一個(gè)200 維的詞向量,將待抽取文本通過(guò)BiLSTM 表達(dá)出來(lái),再由CRF 對(duì)其進(jìn)行約束,最后得到序列預(yù)測(cè)結(jié)果。
2) BERT+CRF 事件抽取模型。事件先經(jīng)過(guò)BERT 編碼后,將文本語(yǔ)義投影到768 維的特征向量中,然后由CRF 層對(duì)其進(jìn)行約束,最后得到序列預(yù)測(cè)結(jié)果。
3) DMCNN 模型。它是一種pipeline 式抽取方案,其具有自動(dòng)學(xué)習(xí)特征的能力。該模型通過(guò)無(wú)監(jiān)督的方式學(xué)習(xí)詞嵌入以及字典級(jí)別特征表達(dá)能力,并且具備句子級(jí)特征抽取能力。同時(shí),通過(guò)使用動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)事件抽取。
4)序列增強(qiáng)事件抽取模型,即本文所提模型。首先構(gòu)建了一個(gè)中文詞表,供BERT 模型查詢使用。接著,使用tokenizer 對(duì)文本進(jìn)行細(xì)粒度切分,并將其輸入BERT 模型中。然后,將BERT 模型輸出的token 向量作為雙向LSTM 模型的輸入,以學(xué)習(xí)文本的隱藏語(yǔ)義特征。最后,運(yùn)用MLP 層對(duì)這些特征進(jìn)行預(yù)測(cè),得出最終結(jié)果。
除此之外,本文還開(kāi)展了模型對(duì)比實(shí)驗(yàn),比較了基線模型和本研究所提出的模型在信息抽取方面的表現(xiàn)。接著,進(jìn)行了一系列重要的超參數(shù)選取實(shí)驗(yàn),以期望能夠進(jìn)一步改良本文的模型,并且達(dá)到更優(yōu)秀的試驗(yàn)效果。
為了尋求更高的抽取精確率和效率,分別對(duì)序列模型層數(shù)、α值、MLP 層內(nèi)神經(jīng)元個(gè)數(shù)以及文本截取長(zhǎng)度進(jìn)行取值實(shí)驗(yàn)。本實(shí)驗(yàn)采用精確率P作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表2所示。
表2 MLP 層、GRU 層數(shù)、α 值超參數(shù)結(jié)果對(duì)比Table 2 Result comparison between MLP layer,layers of GRU and α values exceeding parameters
在經(jīng)過(guò)BERT 模型微調(diào)后,每個(gè)token 都會(huì)具備高維度的語(yǔ)義表達(dá)能力,這就要求使用更多層數(shù)的神經(jīng)元來(lái)承載信息。從表2所示實(shí)驗(yàn)結(jié)果可以看出,當(dāng)MLP 層神經(jīng)元個(gè)數(shù)為64-4-1 時(shí),由于神經(jīng)元較少,對(duì)特征空間的表達(dá)能力不足,因此精確率僅為46.12%。在提高M(jìn)LP每層神經(jīng)元個(gè)數(shù)到1024-64-8后,精確率提高到81.14%。
在序列模型層數(shù)實(shí)驗(yàn)中發(fā)現(xiàn),隨著層數(shù)的增加,精確率隨之增加,且當(dāng)層數(shù)達(dá)到最大值200 后,精確率開(kāi)始減小。實(shí)驗(yàn)結(jié)果表明,模型層數(shù)GRU 為200時(shí)P值最大,因此本模型最終將序列模型的層數(shù)定為200。
雖然α值會(huì)影響模型對(duì)非文本序列的權(quán)重,但從結(jié)果中發(fā)現(xiàn)α值也并非越大越好,當(dāng)其值超過(guò)一定范圍時(shí),其精度將大幅度下降,根據(jù)實(shí)驗(yàn)結(jié)果顯示,當(dāng)α值為1e10 時(shí),結(jié)果最優(yōu)。
同時(shí),本文設(shè)計(jì)采用不同截取長(zhǎng)度的文本,探究填充長(zhǎng)度對(duì)模型提取事件主體的精確率和運(yùn)行時(shí)間的影響,所得實(shí)驗(yàn)結(jié)果如表3所示。
表3 文本截取填充長(zhǎng)度結(jié)果對(duì)比Table 3 Comparison of text intercept filling length results
根據(jù)前3 個(gè)實(shí)驗(yàn)結(jié)果可以得出,隨著截取文本長(zhǎng)度的增加,訓(xùn)練精度也相應(yīng)增加,但是訓(xùn)練時(shí)間也會(huì)急劇上升。當(dāng)文本長(zhǎng)度從140 字增加到200 字時(shí),訓(xùn)練時(shí)間大幅度上升,而訓(xùn)練精度卻開(kāi)始下降。這是由于當(dāng)將截取文本填充到200 字以后,會(huì)引入大量不相關(guān)的信息對(duì)語(yǔ)義造成干擾。這一實(shí)驗(yàn)結(jié)果進(jìn)一步證明了使用Mask 層的必要性,其可以有效降低語(yǔ)義干擾。權(quán)衡訓(xùn)練效果與運(yùn)行時(shí)間兩個(gè)因素,本文選擇maxlen 值為140 進(jìn)行后續(xù)實(shí)驗(yàn)。
除此之外,模型所采用的BERT 模型是中文的L-12_H-768_A-12 預(yù)訓(xùn)練權(quán)重,其中包含12 層Encoder,768 個(gè)隱藏神經(jīng)單元以及12 個(gè)attention heads??紤]到每一輪的學(xué)習(xí)率應(yīng)該有所不同,本研究使用了warm up 方式來(lái)在不同輪數(shù)時(shí)改變學(xué)習(xí)率:在第一輪,以0.005 的學(xué)習(xí)率開(kāi)始,隨后以step 依次減少,直到0.000 1。Dropout 層都使用20%的舍棄率進(jìn)行隨機(jī)舍棄;SpatialDropout 層則將舍棄率降低到10%。
為了評(píng)估BiLSTM、BiGRU、LSTM 和GRU 這4 種序列模型的表達(dá)能力,在其他參數(shù)不變的情況下,采用10 折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn),最終將表示能力取平均值作為最佳結(jié)果。所得各序列模型的實(shí)驗(yàn)結(jié)果如表4所示。
表4 序列模型結(jié)果對(duì)比Table 4 Comparison of sequence model results
由表4 可知,雙向模型比單向模型具有更好的表達(dá)能力,本文采用的BiGRU 模型比BiLSTM 在理解句子語(yǔ)義邏輯上具有更強(qiáng)的優(yōu)勢(shì)。
BiLSTM+CRF、BERT+CRF、DMCNN 和本文所給出模型的對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。
表5 4 種模型實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparison of experimental results of four models
通過(guò)分析表5所示實(shí)驗(yàn)結(jié)果可以得出,DMCNN模型經(jīng)過(guò)動(dòng)態(tài)卷積層后可以很好地表達(dá)出句子級(jí)的文本理解能力,抽取出事件主體。而簡(jiǎn)單使用BiLSTM 較難對(duì)句子進(jìn)行編碼操作,很難理解句子內(nèi)主體邏輯能力,精確度相較別的模型更低。且結(jié)果顯示,本文模型具有最高的識(shí)別精確率,并且在4 種模型中,F(xiàn)1得分最高。
為了解決填充文本對(duì)語(yǔ)義表達(dá)帶來(lái)的偏差,本文提出了一種增強(qiáng)序列模型,它對(duì)輸入文本中的填充部分與非填充部分進(jìn)行不同的處理,從而使模型能夠更加高效地專(zhuān)注于原始文本部分,進(jìn)而提升文本的表達(dá)能力。該方法結(jié)合了BERT 字符級(jí)的語(yǔ)義映射能力與序列技術(shù)對(duì)文本特征的抽取能力,取得了優(yōu)異的效果。
從實(shí)驗(yàn)數(shù)據(jù)集中的事件類(lèi)型數(shù)量分布來(lái)看,大量不平衡樣本類(lèi)型對(duì)召回率造成影響,因此后續(xù)工作可以從以下方面進(jìn)行優(yōu)化:
1)通過(guò)采用樣本均衡的方法來(lái)緩解樣本類(lèi)型數(shù)量間的不平衡,從而改善效果較差類(lèi)別的召回率。
2)增加注意力機(jī)制,將文本語(yǔ)義空間與類(lèi)型相關(guān)聯(lián),以便更好地提升抽取效果。
3)尋找更細(xì)粒度字符表達(dá)或增加字符表達(dá)能力,提高BERT 模型的訓(xùn)練效果,進(jìn)一步增加文本語(yǔ)義表達(dá)能力。