国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于預(yù)訓(xùn)練模型和特征融合的事件觸發(fā)詞抽取

2021-08-10 09:31耿小航俞海亮
關(guān)鍵詞:編碼向量卷積

張 震,谷 雨,耿小航,俞海亮

(杭州電子科技大學(xué)自動(dòng)化學(xué)院,浙江 杭州 310018)

0 引 言

事件抽取是信息抽取領(lǐng)域的一個(gè)重要研究方向。事件抽取就是從自由文本中檢測(cè)出事件的發(fā)生并提取出事件的要素,對(duì)人們認(rèn)知世界有著深遠(yuǎn)的意義,是信息檢索、知識(shí)圖譜構(gòu)建等實(shí)際應(yīng)用的基礎(chǔ),廣泛應(yīng)用于檢索、問(wèn)答、推薦等應(yīng)用系統(tǒng)[1]。一般將事件抽取分為2個(gè)子任務(wù),即事件觸發(fā)詞抽取和事件元素抽取。事件觸發(fā)詞抽取是指檢測(cè)事件句中的觸發(fā)詞位置并識(shí)別出其所屬事件的類型,事件元素抽取則是識(shí)別出事件句中的事件組成元素及其所對(duì)應(yīng)的元素角色類型。觸發(fā)詞是事件句中的核心詞,是事件類型的決定性因素,事件觸發(fā)詞的抽取在事件抽取任務(wù)中起著關(guān)鍵作用。

目前,關(guān)于事件抽取的研究主要集中在機(jī)器學(xué)習(xí)領(lǐng)域,大致分為基于特征工程的方法和基于深度神經(jīng)網(wǎng)絡(luò)的方法。傳統(tǒng)的事件抽取主要采用人工構(gòu)建特征的方式。Ahn[2]利用詞性、實(shí)體類別等特定特征進(jìn)行事件抽取。Li等[3]不滿足局部特征的構(gòu)建,通過(guò)構(gòu)建全局特征,建立事件抽取模型。McClosky等[4]借助詞性標(biāo)注、句法依存分析等自然語(yǔ)言處理工具來(lái)獲取特征。文獻(xiàn)[5-6]使用跨實(shí)體推理和跨篇章推理的方法進(jìn)行觸發(fā)詞的抽取。隨著深度學(xué)習(xí)的快速發(fā)展,基于海量公開(kāi)文本數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)特征提取方法避免了人工構(gòu)造特征的主觀性,逐步應(yīng)用于事件抽取領(lǐng)域。文獻(xiàn)[7-8]將卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Networks, CNN)應(yīng)用于事件抽取領(lǐng)域,文獻(xiàn)[9]在CNN模型基礎(chǔ)上,使用跳窗卷積神經(jīng)網(wǎng)絡(luò)(Skip-window Convolutional Neural Networks, S-CNNs)來(lái)構(gòu)造事件的全局特征。此外,遞歸神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network, RNN)也逐漸應(yīng)用到事件抽取領(lǐng)域[10],文獻(xiàn)[11]采用RNN模型的變體長(zhǎng)短式記憶模型(Long Short-Term Memory, LSTM)學(xué)習(xí)事件的特征,文獻(xiàn)[12]結(jié)合CNN和雙向LSTM模型挖掘詞語(yǔ)間隱藏關(guān)系信息,提高了事件抽取效率。文獻(xiàn)[13]在雙向RNN基礎(chǔ)上,引入動(dòng)態(tài)注意力機(jī)制,捕捉更豐富的上下文信息。

事件觸發(fā)詞抽取任務(wù)主要存在兩個(gè)問(wèn)題,一是觸發(fā)詞一詞多義,二是同一個(gè)句子中可能存在多個(gè)事件,特征提取的不充分導(dǎo)致抽取事件的缺失。為了解決上述問(wèn)題,本文提出一種基于預(yù)訓(xùn)練模型和多特征融合的事件觸發(fā)詞抽取方法。首先,采用預(yù)訓(xùn)練語(yǔ)言模型雙向Transformers偏碼表示(Bidirectional Encoder Representation from Transformers, BERT)進(jìn)行文本向量化;然后融合CNN提取的詞匯特征和圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)提取的句子特征,進(jìn)行觸發(fā)詞標(biāo)簽預(yù)測(cè),并在ACE2005數(shù)據(jù)集上進(jìn)行測(cè)試,性能指標(biāo)得到了提升。

1 基于預(yù)訓(xùn)練模型和特征融合的觸發(fā)詞抽取模型

與文本分類任務(wù)不同,本文將事件觸發(fā)詞抽取當(dāng)成序列標(biāo)注任務(wù)處理。序列標(biāo)注的流程處理中,輸入的是包含事件的句子,經(jīng)過(guò)模型處理,輸出的是句子序列標(biāo)簽。事件觸發(fā)詞抽取的標(biāo)簽示例如圖1所示。

圖1 觸發(fā)詞抽取標(biāo)簽示例

圖1中,每一個(gè)詞都有對(duì)應(yīng)的標(biāo)簽作為預(yù)測(cè)結(jié)果。因?yàn)榇嬖诳鐔卧~的觸發(fā)詞,本文采用“BIO”標(biāo)注模式。其中,“O”代表非觸發(fā)詞,“B-Attack”代表類型為“Attack”的觸發(fā)詞開(kāi)始位置,“I-Attack”代表類型為“Attack”的觸發(fā)詞的其他位置。

本文提出的事件觸發(fā)詞抽取模型的算法主要包括文本向量化、多特征提取及融合、輸出層等3個(gè)部分,整體結(jié)構(gòu)如圖2所示。

圖2 觸發(fā)詞抽取模型整體結(jié)構(gòu)圖

目前文本向量化的主要方法包括One-hot編碼、詞袋模型(Bag-of-words Model, BOW)、N-gram模型、word2vec模型[14]以及GloVe模型[15]等。但這些方法編碼得到的詞向量均為靜態(tài)詞向量,即單詞的詞向量是固定不變的,無(wú)法解決觸發(fā)詞抽取任務(wù)中一詞多義的問(wèn)題。本文采用BERT預(yù)訓(xùn)練模型進(jìn)行詞向量編碼,使用BERT模型的多層雙向Transformer編碼器,通過(guò)對(duì)單詞上下文信息進(jìn)行編碼,得到動(dòng)態(tài)變化的詞向量,有效解決觸發(fā)詞抽取任務(wù)中一詞多義的問(wèn)題。

特征提取部分由兩部分組成:(1)基于卷積網(wǎng)絡(luò)的詞匯級(jí)別特征提?。?2)基于圖卷積網(wǎng)絡(luò)的句子級(jí)別特征提取。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)捕獲詞匯級(jí)別特征,利用卷積核在單詞及其周圍單詞上下滑動(dòng)來(lái)獲取單詞及其上下文特征。應(yīng)用句法分析挖掘事件句中的隱藏信息,采用圖卷積網(wǎng)絡(luò)來(lái)編碼句法依存關(guān)系從而增強(qiáng)事件的信息表示,以達(dá)到提高觸發(fā)詞抽取效果的目的。

CNN網(wǎng)絡(luò)提取的詞匯級(jí)別特征,僅能表示當(dāng)前單詞及其順序結(jié)構(gòu)上前后單詞的信息;GCN網(wǎng)絡(luò)通過(guò)對(duì)事件句的句法依存關(guān)系進(jìn)行編碼來(lái)表示當(dāng)前單詞以及和當(dāng)前單詞有依存關(guān)系的單詞信息。將詞匯級(jí)別特征和句子級(jí)別特征進(jìn)行融合拼接,既能表示當(dāng)前詞匯的上下文信息,又能表示其關(guān)聯(lián)信息,有效彌補(bǔ)了觸發(fā)詞抽取任務(wù)中特征提取不充分的問(wèn)題。

輸出層的作用是利用融合拼接后的特征進(jìn)行觸發(fā)詞標(biāo)簽預(yù)測(cè),實(shí)現(xiàn)觸發(fā)詞的抽取。與傳統(tǒng)的分類方法不同,序列標(biāo)注問(wèn)題中,預(yù)測(cè)的標(biāo)簽序列之間具有強(qiáng)互相依賴關(guān)系。例如,預(yù)測(cè)觸發(fā)詞標(biāo)簽不允許在“B”標(biāo)簽和“I”標(biāo)簽之間出現(xiàn)“O”標(biāo)簽。本文應(yīng)用條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)模型對(duì)序列標(biāo)簽進(jìn)行約束,防止不合理標(biāo)簽的出現(xiàn)。

2 觸發(fā)詞抽取任務(wù)的實(shí)現(xiàn)

2.1 BERT詞向量表示

BERT預(yù)訓(xùn)練模型是一種新型語(yǔ)言表示模型,可以獲取單詞的動(dòng)態(tài)向量表示[16]。模型在雙向Transformers編碼器基礎(chǔ)上,增加了掩碼語(yǔ)言模型(Masked Language Model, MLM)和下一句預(yù)測(cè)任務(wù)(Next Sentence Prediction, NSP)。MLM通過(guò)隨機(jī)遮蓋語(yǔ)料中15%的信息,使模型最大程度獲取深度的表征能力。具體做法是80%的遮蓋詞匯用[MASK]替代,10%隨機(jī)替換為其他詞,剩余10%保持不變。NSP任務(wù)利用語(yǔ)料中的句子對(duì)A和B訓(xùn)練一個(gè)二分類模型來(lái)表征句子關(guān)系特征。具體做法是將50%句子對(duì)中的B隨機(jī)替換成其他句子,并標(biāo)記為NotNext,剩余50%句子對(duì)的B保持不變,并標(biāo)記為IsNext。

BERT的模型結(jié)構(gòu)主要分為輸入層、編碼層和輸出層。BERT的輸入表示是詞向量、分段向量和位置向量的和。詞向量采用單詞的WordPiece向量編碼[17]。分段向量表示單詞所在句子的位置編碼。位置向量表示單詞在句子中的位置編碼。同時(shí)輸入表示使用[CLS]和[SEP]作為開(kāi)頭和結(jié)尾的標(biāo)志。

BERT編碼層采用多層雙向Transformer編碼器,編碼單元如圖3所示。編碼單元由多頭注意力機(jī)制層和全連接前饋神經(jīng)網(wǎng)絡(luò)層組成。

圖3 Transformer編碼單元

為提取深層語(yǔ)義特征,增大模型空間表達(dá)能力,本文采用多頭注意力機(jī)制層[18]進(jìn)行編碼:

式中,Q,K,V均為詞向量矩陣,hi為單頭注意力機(jī)制層,Wo為權(quán)重矩陣,WQ,WK,WV為投影矩陣。另外,模型中的注意力機(jī)制均采用縮放點(diǎn)積的方式:

(2)

式中,dk為向量維度。通過(guò)自注意力機(jī)制編碼,對(duì)句中的詞向量進(jìn)行加權(quán)組合,可以獲取句子中詞與詞的相互聯(lián)系,從而捕獲句子的結(jié)構(gòu)特征。然后再對(duì)上一步的輸出做殘差連接和歸一化操作。最后將處理后的信息輸入到全連接前饋神經(jīng)網(wǎng)絡(luò)層,重復(fù)進(jìn)行一次殘差連接和歸一化后輸出結(jié)果。

對(duì)于給定的句子,通過(guò)BERT預(yù)訓(xùn)練模型得到句中每個(gè)單詞的向量表示xi∈Rd,其中d表示詞向量的維度。長(zhǎng)度為n的句子表示為X∈Rn×d:

X=[x1,x2,…,xn]

(3)

2.2 基于卷積網(wǎng)絡(luò)的詞匯級(jí)別特征提取

詞匯級(jí)別特征包括單詞特征及其上下文特征。為了提取詞匯級(jí)別特征信息,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。先將不同大小卷積核在句子序列上滑動(dòng)以獲取單詞及其上下文特征,再將這些特征進(jìn)行全局處理,以特征圖的形式表現(xiàn)出來(lái)。

應(yīng)用卷積核w∈Rh×d(窗口大小為h)在文本序列上滑動(dòng)生成新的特征圖:

ci=f(w·xi-h/2:i+h/2+b)

(4)

式中,xi-h/2:i+h/2表示詞向量xi-h/2,xi-h/2+1,…,xi,…,xi+h/2-1,xi+h/2的組合,w∈Rh×d表示單個(gè)維度為h×d的卷積核,f為激活函數(shù),b為常數(shù)項(xiàng)。對(duì)整個(gè)句子的所有單詞進(jìn)行卷積操作,得到整個(gè)句子序列的卷積圖:

g=[c1,c2,…,cn]

(5)

假設(shè)使用m1個(gè)大小不同卷積核,得到特征圖為:

C=[g1,g2,…,gm1]

(6)

式中,C∈Rn×m1表示句子中的n個(gè)單詞經(jīng)過(guò)卷積操作提取出的單詞及其上下文特征。

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)一般通過(guò)對(duì)特征圖進(jìn)行池化層操作以獲取顯著特征,但池化層的操作會(huì)丟失事件句的序列信息。為了保留事件句的原始序列信息,本文不添加池化層操作。

2.3 基于圖卷積網(wǎng)絡(luò)的句子級(jí)別特征提取

圖卷積神經(jīng)網(wǎng)絡(luò)是由Thomas等[19]提出并應(yīng)用于圖數(shù)據(jù),為圖結(jié)構(gòu)數(shù)據(jù)處理提供了嶄新思路,可以用于編碼圖數(shù)據(jù)信息。為了充分挖掘句子的隱藏信息,本文使用圖卷積網(wǎng)絡(luò)來(lái)提取句法依存關(guān)系特征,為事件觸發(fā)詞識(shí)別提供幫助。圖卷積網(wǎng)絡(luò)不僅能表示當(dāng)前節(jié)點(diǎn)信息,而且能聚集更多鄰居節(jié)點(diǎn)的特征信息,通過(guò)句法依存關(guān)系捕獲到單詞的句法上下文信息。

根據(jù)每一個(gè)事件句的句法依存關(guān)系,構(gòu)成簡(jiǎn)單的圖結(jié)構(gòu)。使用自然語(yǔ)言處理工具Stanford CoreNLP生成的句法依存關(guān)系示例如圖4所示。圖4中,構(gòu)造了一個(gè)以單詞作為節(jié)點(diǎn),單詞之間的依存關(guān)系為邊的有向圖。

圖4 利用Stanford CoreNLP生成的依存關(guān)系圖

對(duì)于具有n個(gè)節(jié)點(diǎn)的圖,用鄰接矩陣A∈Rn×n表示圖結(jié)構(gòu)。當(dāng)節(jié)點(diǎn)i和節(jié)點(diǎn)j存在邊,則Aij=1??紤]到節(jié)點(diǎn)自身的影響,給鄰接矩陣A添加自環(huán)操作,令A(yù)ij=1。最后,對(duì)鄰接矩陣進(jìn)行歸一化處理:

(7)

(8)

式中,H(l+1)為圖卷積網(wǎng)絡(luò)第l層的輸出向量,Relu為激活函數(shù),W(l)為權(quán)重矩陣,b(l)為偏置項(xiàng)。圖結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)通過(guò)卷積操作匯聚鄰接節(jié)點(diǎn)的特征,并將其傳入下一層的網(wǎng)絡(luò)作為輸入。使用文本向量化得到的詞向量X∈Rn×d初始化第一層圖卷積網(wǎng)絡(luò)的輸入H(0)。經(jīng)過(guò)l層的卷積神經(jīng)網(wǎng)絡(luò)模型,得到句子級(jí)別的特征H(l+1)∈Rn×m2,其中m2表示句子級(jí)別特征向量的維度。

2.4 輸出層

將卷積網(wǎng)絡(luò)提取的單詞級(jí)別特征C∈Rn×m1和圖卷積網(wǎng)絡(luò)提取的句子級(jí)別特征H(l+1)∈Rn×m2進(jìn)行拼接,得到融合后的事件特征:

F=C⊕H(l+1)

(9)

式中,F(xiàn)∈Rn×(m1+m2)表示事件特征,特征維度為m1+m2,⊕為向量拼接運(yùn)算。將融合后的事件特征F放入分類器進(jìn)行觸發(fā)詞標(biāo)簽預(yù)測(cè)。在此過(guò)程中,需要考慮標(biāo)簽之間的依賴關(guān)系,避免出現(xiàn)標(biāo)簽不合理的情況,加入CRF對(duì)標(biāo)簽序列進(jìn)行建模。

對(duì)于給定的句子序列x=(x1,x2,…,xn)和對(duì)應(yīng)的標(biāo)簽序列y=(y1,y2,…,yn),CRF模型的計(jì)算如下:

(10)

式中,T為轉(zhuǎn)移矩陣,Ti,j表示由標(biāo)簽i轉(zhuǎn)移到j(luò)的概率。Pi,yi表示該詞第yi個(gè)標(biāo)簽的分?jǐn)?shù)。在給定原始句子序列x的條件下產(chǎn)生標(biāo)簽序列y的概率為:

(11)

式中,y′表示真實(shí)的標(biāo)簽值。在訓(xùn)練過(guò)程中,標(biāo)簽序列的對(duì)數(shù)似然函數(shù)為:

(12)

式中,YX表示所有可能的標(biāo)簽集合。預(yù)測(cè)時(shí),由以下公式得到整體概率最大的一組序列。

(13)

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

本文研究的是基于ACE評(píng)測(cè)語(yǔ)料的事件觸發(fā)詞抽取,采用英文ACE2005語(yǔ)料進(jìn)行驗(yàn)證實(shí)驗(yàn)。ACE評(píng)測(cè)語(yǔ)料中定義了8種事件類型,33種子類型。為了對(duì)比實(shí)驗(yàn)的合理性,數(shù)據(jù)集的劃分參照文獻(xiàn)[2]的方法,選取529篇文檔作為訓(xùn)練集,30篇作為驗(yàn)證集,剩下的40篇作為測(cè)試集。

觸發(fā)詞抽取實(shí)驗(yàn)同樣采用和文獻(xiàn)[2]相同的評(píng)價(jià)指標(biāo)和性能指標(biāo)。評(píng)價(jià)指標(biāo)為:觸發(fā)詞抽取位置正確,則表示觸發(fā)詞識(shí)別正確;觸發(fā)詞抽取位置和類型都正確,則表示觸發(fā)詞的類型分類正確。實(shí)驗(yàn)性能指標(biāo)為:準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值(F1 scores)。

3.2 實(shí)驗(yàn)參數(shù)

實(shí)驗(yàn)選用的BERT模型是Google公司提供的BERT-Large。BERT-Large模型層數(shù)L=24,隱藏層維度H=1 024,采用多頭自注意力機(jī)制頭數(shù)A=16,總參數(shù)量個(gè)數(shù)約為3.4×108。卷積網(wǎng)絡(luò)卷積核數(shù)目為30,圖卷積層層數(shù)為2。損失函數(shù)使用交叉熵?fù)p失函數(shù),優(yōu)化器選用Adam算法[20],學(xué)習(xí)率為1E-5。最長(zhǎng)序列長(zhǎng)度為60,批處理大小為12,epoch為20。

3.3 實(shí)驗(yàn)結(jié)果及分析

本文提出基于預(yù)訓(xùn)練模型和多特征融合的事件觸發(fā)詞抽取模型,簡(jiǎn)稱為BCGC模型。為了驗(yàn)證BCGC模型各模塊在觸發(fā)詞抽取中的作用,在相同實(shí)驗(yàn)環(huán)境下,進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

表1 不同模型的實(shí)驗(yàn)結(jié)果 %

從表1可以看出,第4組實(shí)驗(yàn)融合CNN提取的詞匯特征和GCN提取的句子特征進(jìn)行觸發(fā)詞抽取,觸發(fā)詞分類階段效果要優(yōu)于第2組單獨(dú)使用CNN提取特征和第3組單獨(dú)使用GCN提取特征的實(shí)驗(yàn)結(jié)果。因?yàn)镃NN能夠編碼單詞順序結(jié)構(gòu)上下文信息,GCN網(wǎng)絡(luò)可以編碼單詞非順序結(jié)構(gòu)上的關(guān)聯(lián)信息,融合兩種模型提取的特征能更充分地表示事件信息,提升觸發(fā)詞抽取任務(wù)的性能。

第4組實(shí)驗(yàn)與第1組實(shí)驗(yàn)對(duì)比,僅將實(shí)驗(yàn)1中使用的傳統(tǒng)的300維word2vec詞向量替換成BERT表示的詞向量,觸發(fā)詞分類任務(wù)F1值提高了將近4個(gè)百分比。而且,所有使用BERT預(yù)訓(xùn)練模型詞向量表示的模型,實(shí)驗(yàn)效果都要優(yōu)于利用傳統(tǒng)詞向量表示的模型。結(jié)果表明,擁有雙向Transformer編碼的BERT模型具有很強(qiáng)的表征能力,在觸發(fā)詞抽取任務(wù)上表現(xiàn)更出色。

圖5 不同層數(shù)的GCN網(wǎng)絡(luò)的實(shí)驗(yàn)對(duì)比圖

本文分別選取不同層數(shù)的GCN網(wǎng)絡(luò)進(jìn)行對(duì)比試驗(yàn),觸發(fā)詞分類階段的實(shí)驗(yàn)結(jié)果如圖5所示。

由圖5可知,在GCN層數(shù)為2時(shí),觸發(fā)詞分類效果最好,F(xiàn)1值最高。當(dāng)GCN層數(shù)為1時(shí),準(zhǔn)確率最高,但召回率和F1值不高。隨著GCN層數(shù)的增加,P值下降,但R值和F1值回升,說(shuō)明GCN網(wǎng)絡(luò)提取依存關(guān)系特征是有效的,但隨著GCN層數(shù)的增加,聚合節(jié)點(diǎn)特征過(guò)多可能會(huì)對(duì)觸發(fā)詞的抽取造成干擾。

為進(jìn)一步驗(yàn)證本文提出方法的有效性,將基于BCGC模型的觸發(fā)詞抽取方法和其他方法進(jìn)行對(duì)比實(shí)驗(yàn)。對(duì)比方法分為3組,分別為:

(1)傳統(tǒng)組主要通過(guò)人工選擇合適特征進(jìn)行觸發(fā)詞抽取,例如文獻(xiàn)[2]的MaxEnt方法和文獻(xiàn)[3]的J-global方法。

(2)CNN組主要通過(guò)CNN網(wǎng)絡(luò)提取事件特征。例如文獻(xiàn)[8]的DMCNN方法利用候選觸發(fā)詞位置將事件句切分成兩部分,并分別對(duì)每個(gè)部分進(jìn)行動(dòng)態(tài)多池化的卷積操作,從而實(shí)現(xiàn)對(duì)事件特征的提??;文獻(xiàn)[9]的S-CNNs方法提出跳窗卷積神經(jīng)網(wǎng)絡(luò)提取事件全局特征,實(shí)現(xiàn)對(duì)事件的聯(lián)合抽取。

(3)RNN組主要通過(guò)RNN網(wǎng)絡(luò)提取事件特征。例如文獻(xiàn)[10]的JRNN方法提出基于雙向RNN網(wǎng)絡(luò)的聯(lián)合事件抽取,例如文獻(xiàn)[12]的Conv-BiLSTM方法結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短記憶網(wǎng)絡(luò)進(jìn)行觸發(fā)詞抽取。

BCGC事件觸發(fā)詞抽取方法與這些方法的對(duì)比結(jié)果如表2所示。

表2 不同方法對(duì)比實(shí)驗(yàn)結(jié)果 %

由表2可以看出,本文提出的BCGC方法比其他方法更出色,觸發(fā)詞分類階段F1值最少提升了1.6%,召回率也相對(duì)較高,觸發(fā)詞識(shí)別階段實(shí)驗(yàn)結(jié)果也較理想,說(shuō)明本文提出的CNN提取詞匯級(jí)別特征和GCN提取句子級(jí)別特征的融合能充分表示事件特征,促進(jìn)事件觸發(fā)詞抽取任務(wù)性能的提升。對(duì)比CNN組和RNN組,BCGC方法在觸發(fā)詞分類上效果突出,但在觸發(fā)詞識(shí)別上優(yōu)勢(shì)并不明顯,對(duì)比S-CNNs方法的F1值略有下降。S-CNNs方法進(jìn)行事件的聯(lián)合抽取,同時(shí)抽取事件觸發(fā)詞和事件元素,在觸發(fā)詞抽取階段也利用上事件元素的特征信息,促進(jìn)了觸發(fā)詞抽取性能的提升。對(duì)比傳統(tǒng)組,其他3組基于深度學(xué)習(xí)的抽取方法在事件抽取各階段實(shí)驗(yàn)效果更好,說(shuō)明深度學(xué)習(xí)網(wǎng)絡(luò)在特征提取方面比傳統(tǒng)方法更具優(yōu)勢(shì)。

4 結(jié)束語(yǔ)

本文提出了一種基于預(yù)訓(xùn)練模型和多特征融合事件觸發(fā)詞抽取方法,使用BERT預(yù)訓(xùn)練模型表示詞向量,通過(guò)融合CNN網(wǎng)絡(luò)提取的詞匯特征和GCN網(wǎng)絡(luò)提取的句法特征,提高了觸發(fā)詞抽取的效果。本文方法的局限性在于沒(méi)有充分利用事件元素的信息,沒(méi)有探索后續(xù)任務(wù)中事件元素對(duì)觸發(fā)詞抽取任務(wù)的影響。下一步將考慮如何構(gòu)建模型以實(shí)現(xiàn)多任務(wù)聯(lián)合,進(jìn)一步提高事件觸發(fā)詞抽取的實(shí)驗(yàn)性能。

猜你喜歡
編碼向量卷積
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
向量的分解
生活中的編碼
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
長(zhǎng)鏈非編碼RNA APTR、HEIH、FAS-ASA1、FAM83H-AS1、DICER1-AS1、PR-lncRNA在肺癌中的表達(dá)
聚焦“向量與三角”創(chuàng)新題
Genome and healthcare
向量垂直在解析幾何中的應(yīng)用
丽水市| 新龙县| 论坛| 横峰县| 伊川县| 罗平县| 马山县| 沧源| 阳春市| 永清县| 宜州市| 积石山| 乌拉特前旗| 项城市| 独山县| 永清县| 视频| 桃园县| 报价| 陇川县| 洪湖市| 青阳县| 虹口区| 龙胜| 德阳市| 井冈山市| 北票市| 车险| 铜鼓县| 榆中县| 巢湖市| 曲周县| 成武县| 张掖市| 遂溪县| 剑阁县| 两当县| 银川市| 通渭县| 江孜县| 康乐县|