黃培馨,趙 翔,方 陽(yáng),冉旭東,譚 真,肖衛(wèi)東
1(國(guó)防科技大學(xué) 信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙 410073)
2(國(guó)防科技大學(xué) 大數(shù)據(jù)與決策實(shí)驗(yàn)室,長(zhǎng)沙 410073)
3(西北核技術(shù)研究所,西安 710024)
隨著網(wǎng)絡(luò)大數(shù)據(jù)的迅猛發(fā)展,信息檢索和信息抽取等領(lǐng)域大放異彩.事件抽取作為NLP(Natural Language Processing)領(lǐng)域經(jīng)典的信息抽取任務(wù),在商業(yè)、軍事等領(lǐng)域的新聞、情報(bào)工作中應(yīng)用非常廣泛[1,2].事件抽取要求用自動(dòng)的方法,從半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中,將與目標(biāo)相關(guān)的事件以及事件的重要元素識(shí)別出來(lái).事件檢測(cè),作為事件抽取的關(guān)鍵步驟,直接影響到事件以及事件相關(guān)要素的抽取.
事件檢測(cè)任務(wù)的目的是從純文本中識(shí)別出具有特定類型的事件實(shí)例.給定輸入文本,事件檢測(cè)任務(wù)需要確定這個(gè)文本中包含的觸發(fā)詞以及觸發(fā)詞所描述的事件類型.事件的觸發(fā)詞(即event trigger),指在一個(gè)事件指稱中最能指示事件發(fā)生的詞,是決定事件類別的重要特征.事件檢測(cè)包含事件觸發(fā)詞識(shí)別和事件觸發(fā)詞分類兩個(gè)子任務(wù).事件檢測(cè)不僅需要從文本中正確地檢測(cè)事件以保證任務(wù)的精確率,而且要求盡可能全面地檢測(cè)出文本中的全部事件以保證任務(wù)的召回率.
盡管當(dāng)前事件檢測(cè)的研究已經(jīng)取得了比較大的進(jìn)展,但是仍然存在兩個(gè)問(wèn)題會(huì)嚴(yán)重限制當(dāng)前方法的性能:一是數(shù)據(jù)稀疏導(dǎo)致的低召回率問(wèn)題.在訓(xùn)練數(shù)據(jù)有限的情況下,事件類型呈現(xiàn)長(zhǎng)尾分布,有些事件類型的訓(xùn)練樣例出現(xiàn)頻率極低,從這些訓(xùn)練樣例中學(xué)習(xí)出來(lái)的模型,要從某一事件類型的不同表達(dá)形式中識(shí)別出低頻事件類型是具有挑戰(zhàn)性的;二是自然語(yǔ)言的歧義性導(dǎo)致的低精確率.自然語(yǔ)言中存在著多義現(xiàn)象,很多事件觸發(fā)詞也是多義詞.模型從具有多種含義的觸發(fā)詞中辨別出符合上下文語(yǔ)境的正確含義也是十分困難的.鑒于此,本研究尋求利用來(lái)自多語(yǔ)言的豐富信息用于事件檢測(cè).在考慮利用多種語(yǔ)言的信息進(jìn)行事件檢測(cè)之前,需要思考:是否利用多種語(yǔ)言信息有助于事件檢測(cè).首先就一個(gè)例子進(jìn)行討論.圖1展示了語(yǔ)料庫(kù)中一條英文的輸入文本,以及翻譯得到的目標(biāo)語(yǔ)言分別為西班牙語(yǔ)和中文的文本.其中,源語(yǔ)言文本的觸發(fā)詞為“took out”.然而,“took out′”具有多種含義,如“get rid of”,“invite(sb.)out”或者“vent”,這種歧義會(huì)干擾模型正確確定文本的事件類型.若有西班牙語(yǔ)文本(即target language 1)作為補(bǔ)充,源文本事件類型的范圍能夠被縮小.這是因?yàn)閷?duì)應(yīng)的觸發(fā)詞“acabaron”在西班牙語(yǔ)中具有的含義有“dismantle(the old buildings,etc.)”或者“finish(the work,etc.)”.然而,這仍然不足以確定事件類型.通過(guò)額外的中文文本(即target language 2)的補(bǔ)充,事件類型才能夠被確定為Execute.因?yàn)閷?duì)應(yīng)的觸發(fā)詞 “Chaichu”在中文中具有確切的含義“tear down(a building,etc.)”.
圖1 利用多種目標(biāo)語(yǔ)言文本的實(shí)例
由此看出,一個(gè)文本在不同語(yǔ)言中的表達(dá)是具有相似的語(yǔ)義成分和語(yǔ)義結(jié)構(gòu)的.利用額外的語(yǔ)言信息能夠緩解數(shù)據(jù)稀疏.另外,不同語(yǔ)言通常有不同的語(yǔ)法特征,一種語(yǔ)言中的歧義詞在其他語(yǔ)言中可能是無(wú)歧義的,尤其是對(duì)于不同語(yǔ)族的語(yǔ)言.利用多語(yǔ)言文本,用于訓(xùn)練事件分類器的監(jiān)督信號(hào)更容易捕獲.
因此本研究提出在事件檢測(cè)任務(wù)上充分利用多種語(yǔ)言提供的線索.具體地,提出混合注意力網(wǎng)絡(luò)模型(Hybrid Attention Network,HAN),上下文注意力模塊首先分別關(guān)注每種語(yǔ)言文本中的重要詞(如觸發(fā)詞或者對(duì)識(shí)別觸發(fā)詞有益的詞),并給予它們較高的注意力;接著多語(yǔ)言注意力模塊進(jìn)行跨語(yǔ)言的注意力計(jì)算,使得不同語(yǔ)言中的無(wú)歧義信息能夠以監(jiān)督的方式傳遞至源文本,緩解源文本的歧義.在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行充分的實(shí)驗(yàn)證實(shí)了:1)額外的目標(biāo)語(yǔ)言提升了HAN模型的性能;2)相比于現(xiàn)有的最優(yōu)的模型,HAN在諸多性能指標(biāo)上取得了最優(yōu)的結(jié)果.
簡(jiǎn)言之,本研究的主要貢獻(xiàn)是在事件檢測(cè)任務(wù)上充分利用多語(yǔ)言線索,并設(shè)計(jì)了混合注意力網(wǎng)絡(luò)模型HAN,以充分捕獲多語(yǔ)言的上下文信息和多語(yǔ)言之間的互補(bǔ)信息,利用這些信息來(lái)緩解事件檢測(cè)任務(wù)上的數(shù)據(jù)稀疏和自然語(yǔ)言歧義問(wèn)題.
基于特征工程的事件檢測(cè)最初的事件檢測(cè)工作基于特征工程,通常由人工設(shè)計(jì)一系列特征,如詞匯特征和WordNet特征用于事件識(shí)別.接著,一些語(yǔ)義更加豐富的特征,如跨事件特征(Cross-Event)[3]被用于在整個(gè)文檔層提升事件檢測(cè)性能.一些工作利用全局特征進(jìn)行觸發(fā)詞和事件論元的聯(lián)合檢測(cè)(MaxEnt)[4],或者采用概率軟邏輯機(jī)制來(lái)同時(shí)利用局部和全局特征(PSL)[5].為了克服數(shù)據(jù)稀疏問(wèn)題,有工作利用事件要素的特征來(lái)學(xué)習(xí)事件要素與事件觸發(fā)詞之間的相互關(guān)系,用于事件檢測(cè)[6].盡管復(fù)雜的特征工程能夠取得較好的事件檢測(cè)效果,但是這些模型往往依賴人工特征設(shè)計(jì),耗時(shí)費(fèi)力、成本比較高,并且均沒(méi)有利用多語(yǔ)言的特征去進(jìn)一步提高模型的效果.
基于神經(jīng)網(wǎng)絡(luò)的事件檢測(cè)隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,許多研究用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)抽取文本中的潛在特征,避免了復(fù)雜的特征設(shè)計(jì).DMCNN模型引入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來(lái)學(xué)習(xí)用于事件分類的隱藏特征表示[7].在DMCNN模型的基礎(chǔ)上,Skip-CNN通過(guò)建模非連續(xù)的skip-grams來(lái)進(jìn)行事件檢測(cè),取得了更好的效果[8].之后,JRNN結(jié)合了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)和特征工程來(lái)自動(dòng)抽取有效的特征[9].然而,數(shù)據(jù)稀疏問(wèn)題仍然會(huì)限制這些模型效果進(jìn)一步的提升.
基于遠(yuǎn)程監(jiān)督的事件檢測(cè)為了緩解訓(xùn)練數(shù)據(jù)稀疏的問(wèn)題,一些研究使用外部數(shù)據(jù)資源例如Freebase、Frame-Net和 WordNet作為監(jiān)督數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí).DMCNN+FB利用來(lái)自FreeBase的大量知識(shí)來(lái)自動(dòng)標(biāo)注數(shù)據(jù)用于模型訓(xùn)練[10].DMBERT+Boot通過(guò)對(duì)抗訓(xùn)練自動(dòng)構(gòu)建多樣的訓(xùn)練數(shù)據(jù)用于遠(yuǎn)程監(jiān)督的事件檢測(cè)[11].PLMEE使用預(yù)訓(xùn)練的語(yǔ)言模型來(lái)做事件抽取,效果超越了目前大部分的事件抽取方法[12].CLEVE利用來(lái)自大規(guī)模無(wú)監(jiān)督數(shù)據(jù)的信息,進(jìn)行預(yù)訓(xùn)練來(lái)學(xué)習(xí)事件知識(shí)[13].OntoED使用的額外的本體知識(shí),學(xué)習(xí)本體表示用于事件檢測(cè)[14].
多語(yǔ)言方法多語(yǔ)言線索被用在過(guò)如情感分析[15]和命名實(shí)體識(shí)別[16]等任務(wù)中,并且被證實(shí)有價(jià)值.為了應(yīng)對(duì)數(shù)據(jù)稀疏的問(wèn)題,Cross-Lingual利用雙語(yǔ)對(duì)照語(yǔ)料庫(kù)將低置信度的謂詞替換為高置信度的事件觸發(fā)詞[17].LEX+TARNS通過(guò)人工設(shè)計(jì)字符特征等基本特征來(lái)利用多語(yǔ)言信息[18].不同于上面兩種方法通過(guò)復(fù)雜的特征工程來(lái)利用語(yǔ)言資源,GMLATT使用神經(jīng)網(wǎng)絡(luò)模型來(lái)捕獲來(lái)自一種額外語(yǔ)言的信息作為補(bǔ)充[19].不限于融合一種語(yǔ)言,本文提出了一種神經(jīng)網(wǎng)絡(luò)模型,通過(guò)混合注意力機(jī)制和改進(jìn)的預(yù)測(cè)機(jī)制來(lái)充分利用多種語(yǔ)言的信息,并且在實(shí)驗(yàn)中用多種語(yǔ)言來(lái)評(píng)估模型效果;不同于LEX+TARNS受限于只能在字符特征層面使用來(lái)自多種語(yǔ)言的離散特征,本文使用HAN模型來(lái)自動(dòng)地從多語(yǔ)言的整個(gè)文本中學(xué)習(xí)特征,實(shí)現(xiàn)了多語(yǔ)言的充分利用.
模型結(jié)構(gòu)如圖2所示.HAN模型首先在多語(yǔ)言表示層獲取多種目標(biāo)語(yǔ)言文本,進(jìn)行文本的對(duì)齊,并將多語(yǔ)言文本轉(zhuǎn)化為句子序列的向量表示;然后在混合注意力層對(duì)多語(yǔ)言文本并行進(jìn)行上下文注意力的學(xué)習(xí),后通過(guò)多語(yǔ)言注意力機(jī)制進(jìn)行跨多種語(yǔ)言的信息融合;接著,在分類層進(jìn)行事件類型的預(yù)測(cè)分類;最后介紹模型的訓(xùn)練方法.下面將對(duì)這些部分進(jìn)行詳細(xì)介紹.
圖2 混合注意力網(wǎng)絡(luò)模型框架
由于模型的輸入是單一語(yǔ)言文本,首先用翻譯工具(https://translate.google.com/)來(lái)處理每一條輸入文本,獲得多語(yǔ)言的目標(biāo)文本.然后,用Giza++(http://www.fjoch.com/GIZA++.html)來(lái)對(duì)齊多語(yǔ)言文本.由于文本的對(duì)齊是單向的(從源語(yǔ)言對(duì)齊到目標(biāo)語(yǔ)言或從目標(biāo)語(yǔ)言對(duì)齊至源語(yǔ)言),因此Giza++組合對(duì)齊結(jié)果.
接著進(jìn)行句子表示,將每個(gè)輸入分詞wi轉(zhuǎn)化為一個(gè)實(shí)值向量xi,這個(gè)向量是3種特征表示的聯(lián)結(jié):1)詞向量:詞向量能夠捕獲文本中單詞的語(yǔ)義信息,通常被用作各種任務(wù)的基本向量.本文使用典型的Skip-Gram模型預(yù)訓(xùn)練詞向量;2)實(shí)體類型向量:使用標(biāo)注好的實(shí)體信息作為額外特征,隨機(jī)初始化每個(gè)實(shí)體類型的向量并且在訓(xùn)練過(guò)程中不斷更新,不同語(yǔ)言共享實(shí)體向量表;3)位置向量:位置向量表示了上下文分詞wn(即輸入分詞wi的上下文詞)和輸入分詞wi之間的相對(duì)距離i-n,它通過(guò)查找一個(gè)隨機(jī)初始化的位置向量表獲得.由此,輸入文本被轉(zhuǎn)化為一個(gè)向量序列X=(x1,x2,…,xn),其中,每一個(gè)向量都是上述3種特征向量的聯(lián)結(jié).
上下文注意力機(jī)制上下文注意力的目的是生成上下文向量,挖掘多語(yǔ)言上下文的一致信息,以緩解數(shù)據(jù)稀疏問(wèn)題.上下文注意力會(huì)在每種語(yǔ)言上分別進(jìn)行,這里只闡述在源語(yǔ)言文本上的操作.
(1)
(2)
(3)
多語(yǔ)言注意力機(jī)制多語(yǔ)言注意力用于捕獲多種目標(biāo)語(yǔ)言之間的互補(bǔ)線索,并且控制從多種目標(biāo)語(yǔ)言文本到源語(yǔ)言文本的信息傳遞.
圖3 寬度為3的卷積濾波器示意圖
(4)
其中l(wèi)表示經(jīng)過(guò)寬度為3的卷積濾波操作后所提取的特征圖維數(shù).Me-2通過(guò)寬度為2的卷積濾波器經(jīng)過(guò)類似操作獲得.這種卷積可以看作是為不同種語(yǔ)言的句子分配權(quán)重的注意力機(jī)制,可以直接集成到現(xiàn)有的框架中,在不會(huì)引入過(guò)多參數(shù)的情況下有效提升多語(yǔ)言的信息集成.
在進(jìn)行事件類型預(yù)測(cè)時(shí),把事件檢測(cè)任務(wù)形式化為一個(gè)多類分類問(wèn)題,采用一個(gè)SoftMax分類器來(lái)識(shí)別候選觸發(fā)詞,并且使用Csou,Ctar,Me-2和Me-3的聯(lián)結(jié)作為分類器的輸入:
S=softmax(tanh(Wae[Csou,Ctar,Me-2,Me-3]+bae))
(5)
其中,Wae是權(quán)重矩陣,bae是偏置項(xiàng).
給定表示各種事件類型預(yù)測(cè)概率的實(shí)值向量S,候選觸發(fā)詞x屬于事件類型y的概率為:
P(y|x,Θ)=Sy
(6)
其中,Θ表示參數(shù)集合,Sy是向量S的第y個(gè)元素.
(7)
其中,λ是正則化參數(shù).
訓(xùn)練使用隨機(jī)梯度下降方法,并添加了dropout用于正則化.通過(guò)從訓(xùn)練集中隨機(jī)選擇小批次來(lái)迭代訓(xùn)練直至收斂.
為評(píng)估HAN利用多語(yǔ)言線索提升事件檢測(cè)效果的有效性,分別在兩個(gè)事件檢測(cè)基準(zhǔn)數(shù)據(jù)集ACE2005和KBPEval2015上進(jìn)行實(shí)驗(yàn).對(duì)于ACE2005,采用標(biāo)準(zhǔn)數(shù)據(jù)集劃分,即其中的529/30/40個(gè)文檔被用作訓(xùn)練集/開(kāi)發(fā)集/測(cè)試集.對(duì)于KBPEval2015數(shù)據(jù)集,在標(biāo)準(zhǔn)的評(píng)估數(shù)據(jù)集(LDC2015R26)上測(cè)試模型,使用RichERE標(biāo)注數(shù)據(jù)集(LDC2015E73)作為訓(xùn)練集,其中隨機(jī)采樣的30個(gè)文檔用作開(kāi)發(fā)集.
評(píng)估使用官方評(píng)估標(biāo)準(zhǔn),即1)若觸發(fā)詞的偏移量與參照觸發(fā)詞的偏移量匹配,則觸發(fā)詞識(shí)別正確(觸發(fā)詞識(shí)別,Trigger Identification);2)若一個(gè)觸發(fā)詞的事件類型和偏移量與參考觸發(fā)詞的事件類型和偏移量匹配,則觸發(fā)詞被正確分類(觸發(fā)詞分類,Trigger Classification).用準(zhǔn)確率(Precision,P),召回率(Recall,R)和F1值(F1)作為評(píng)價(jià)指標(biāo).用雙尾t檢驗(yàn)來(lái)檢測(cè)顯著性提升,并且在實(shí)驗(yàn)結(jié)果表格種用加粗來(lái)標(biāo)記HAN模型相對(duì)其他基準(zhǔn)模型的顯著提升(p<0.05).
對(duì)于模型的參數(shù)設(shè)置,所有訓(xùn)練數(shù)據(jù)的迭代數(shù)設(shè)為15,神經(jīng)網(wǎng)絡(luò)的dropout率設(shè)為0.6,學(xué)習(xí)率初始化為0.001,mini-batch設(shè)為160,詞向量、實(shí)體類型向量、位置向量的維度分別設(shè)為200、50、5.
為驗(yàn)證多語(yǔ)言信息對(duì)事件檢測(cè)有利,首先探索雙語(yǔ)言的效果.這里選取一個(gè)基準(zhǔn)模型設(shè)置BASE來(lái)進(jìn)行實(shí)驗(yàn)比較,它僅用源語(yǔ)言而不加入任何目標(biāo)語(yǔ)言的信息來(lái)進(jìn)行事件類型的預(yù)測(cè).圖4展示了每種雙語(yǔ)言的設(shè)置(源語(yǔ)言及一種不同的目標(biāo)語(yǔ)言)下的模型在ACE2005和KBPEval2015的開(kāi)發(fā)集上相對(duì)于BASE模型設(shè)置的表現(xiàn)提升.
圖4 不同種雙語(yǔ)言設(shè)置下模型的性能相比于BASE模型設(shè)置在兩個(gè)數(shù)據(jù)集上的提升(均使用英文作為源語(yǔ)言).AR:阿拉伯語(yǔ),DE:德語(yǔ),ES:西班牙語(yǔ),FI:芬蘭語(yǔ),HI:北印度語(yǔ),JA:日語(yǔ),NL:荷蘭語(yǔ),RU:俄語(yǔ),ZN:中文
注意到,所有的雙語(yǔ)言設(shè)置下的模型效果都一致地優(yōu)于只依賴一種源語(yǔ)言進(jìn)行預(yù)測(cè)的BASE模型.在所有雙語(yǔ)言設(shè)置的模型中,中文和日語(yǔ)作為目標(biāo)語(yǔ)言的模型在兩個(gè)基準(zhǔn)數(shù)據(jù)集上性能提升最大,并且在兩個(gè)數(shù)據(jù)集上相對(duì)于BASE分別有高達(dá)11.95%和8.91%的F1指標(biāo)提升.分析原因,可能是這兩種同一語(yǔ)系的語(yǔ)言都有書(shū)寫(xiě)和語(yǔ)義系統(tǒng),便于更好地整合詞語(yǔ)層和結(jié)構(gòu)層的語(yǔ)義成分.并且,這兩種語(yǔ)言與英語(yǔ)的語(yǔ)言體系不同,可以更充分地獲得不同語(yǔ)言之間的互補(bǔ)信息.
接著驗(yàn)證多種語(yǔ)言能為模型帶來(lái)進(jìn)一步的提升.按照?qǐng)D4中增加單個(gè)目標(biāo)語(yǔ)言獲得的性能提升的降序來(lái)依次添加目標(biāo)語(yǔ)言,每次多增加一種目標(biāo)語(yǔ)言,在ACE2005和KBPE-val2015的開(kāi)發(fā)集上進(jìn)行實(shí)驗(yàn).圖5展示了實(shí)驗(yàn)的結(jié)果,可以觀察到隨著加入的目標(biāo)語(yǔ)言的增加,F1指標(biāo)單調(diào)上升.雖然使用更多的目標(biāo)語(yǔ)言能夠提升事件檢測(cè)的效果,但是更多的目標(biāo)語(yǔ)言在造成更大的計(jì)算成本情況下,帶來(lái)的效果提升也趨于飽和.綜合考慮模型效果與計(jì)算成本后選擇了一個(gè)折衷的多語(yǔ)言組合,即使用英語(yǔ)作為源語(yǔ)言,中文和日語(yǔ)作為目標(biāo)語(yǔ)言.這個(gè)折衷方案相比BASE 模型在ACE2005 和KBPEval2015 兩個(gè)數(shù)據(jù)集上分別有15.4% 和11.7% 的F1指標(biāo)的提升.之后的實(shí)驗(yàn)也均用這個(gè)組合來(lái)進(jìn)行實(shí)驗(yàn)測(cè)評(píng).
圖5 融合不同數(shù)量的語(yǔ)言的模型在兩個(gè)數(shù)據(jù)集上的表現(xiàn)
本節(jié)將HAN 與現(xiàn)有的事件檢測(cè)模型進(jìn)行比較.這里選取了一系列先進(jìn)模型用于比較,對(duì)于基于特征工程的事件檢測(cè)模型,選擇MaxEnt[4],Cross-Event[3]和PSL[5];對(duì)于基于神經(jīng)網(wǎng)絡(luò)的事件檢測(cè)模型,選擇DMCNN[7],JRNN[9]和Skip-CNN[8];同時(shí)也選擇了一些基于監(jiān)督學(xué)習(xí)的模型,有DMCNN+FB[10],DMBERT+Boot[11]和PLMEE[12];對(duì)于多語(yǔ)言的方法,選擇了3個(gè)模型Cross-Lingual[17],LEX+TARNS[18]和GMLATT[19],分別為基于特征的雙語(yǔ)言方法,基于特征的多語(yǔ)言方法和基于神經(jīng)網(wǎng)絡(luò)的雙語(yǔ)言方法.以上模型的信息在章節(jié)2中有詳細(xì)介紹,實(shí)驗(yàn)直接應(yīng)用這些模型原本的參數(shù)設(shè)置.為了進(jìn)行公平的比較,也額外添加了一個(gè)HAN 的一個(gè)變體模型BASE+ZN,該變體是圖4中效果最好的雙語(yǔ)言設(shè)置的模型.KBP2015Best[20]是Hong 等人使用的半監(jiān)督學(xué)習(xí)的事件抽取方法,在KBP2015評(píng)測(cè)中取得最好的結(jié)果.表1給出了上述模型在ACE2005和KBPEval2015兩個(gè)數(shù)據(jù)集的測(cè)試集上的實(shí)驗(yàn)結(jié)果.
表1 不同模型在事件檢測(cè)任務(wù)上在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的結(jié)果.★表示模型結(jié)果來(lái)自于原文章
可以發(fā)現(xiàn),HAN 在兩個(gè)數(shù)據(jù)集上的效果都顯著地優(yōu)于現(xiàn)有的基準(zhǔn)模型.與這些模型相比,HAN 在觸發(fā)詞識(shí)別任務(wù)上在兩個(gè)數(shù)據(jù)集分別獲得至少1.9% 和1.7%的F1分?jǐn)?shù)提升,在觸發(fā)詞分類任務(wù)上在兩個(gè)數(shù)據(jù)集分別獲得2.2%和1.8%的F1分?jǐn)?shù)提升.另外,也能觀察到如下的一些信息:1)基于神經(jīng)網(wǎng)絡(luò)的方法普遍比基于特征工程的方法表現(xiàn)更好.這可能是因?yàn)榛谏窠?jīng)網(wǎng)絡(luò)的方法能夠自動(dòng)地從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)綜合的特征.而基于監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法獲得了更多的效果提升因?yàn)檫@些方法能夠利用監(jiān)督信息以在一定程度上緩解數(shù)據(jù)稀疏的問(wèn)題;2)GMLATT,BASE+ZN和HAN這3種模型都比Cross-Lingual 和LEX+TARNS在事件檢測(cè)任務(wù)上表現(xiàn)的更好.這也是在預(yù)料之中,因?yàn)榍?種模型利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更深層特征;3)模型BASE+ZN和GMLATT都是利用英語(yǔ)作為源語(yǔ)言,中文作為目標(biāo)語(yǔ)言,融合來(lái)自這兩種語(yǔ)言的多語(yǔ)言線索,模型BASE+ZN比模型GMLATT 在事件檢測(cè)上有更好的表現(xiàn).分析原因,可能是BASE+ZN中基于CNN的多語(yǔ)言注意力模塊能夠更好地從源語(yǔ)言和多種目標(biāo)語(yǔ)言中捕獲顯著的語(yǔ)義特征;4)模型LEX+TARNS比Cross-Lingual表現(xiàn)更好,HAN比BASE+ZN表現(xiàn)更好,這也說(shuō)明基于神經(jīng)網(wǎng)絡(luò)的模型和基于特征工程的模型都能在一定程度上從多語(yǔ)言線索中獲得補(bǔ)充信息,幫助改進(jìn)事件檢測(cè).
為探索混合注意力模塊效果,本節(jié)進(jìn)行消融分析,觀察混合注意力模塊中兩個(gè)注意力機(jī)制對(duì)模型效果的改善.為此設(shè)計(jì)3個(gè)HAN的變體模型:HAN-Mul去掉多語(yǔ)言注意力模塊,僅使用多種語(yǔ)言文本的上下文表示進(jìn)行預(yù)測(cè);HAN-Con去掉上下文注意力模塊,僅使用多語(yǔ)言的表示進(jìn)行多語(yǔ)言注意力以及預(yù)測(cè);HAN-Hybrid去掉混合注意力模塊,直接用多語(yǔ)言表示來(lái)預(yù)測(cè).在兩個(gè)數(shù)據(jù)集的測(cè)試集上進(jìn)行評(píng)估,表2中展示了模型變體在事件觸發(fā)詞分類任務(wù)上的表現(xiàn).
表2 對(duì)混合注意力模塊做消融實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果
從表中結(jié)果可以觀察到:1)不論是HAN-Mul還是HAN-Con,兩者表現(xiàn)地都比HAN-Hybrid要好,這說(shuō)明上下文注意力機(jī)制和多語(yǔ)言注意力機(jī)制對(duì)集成多語(yǔ)言線索用于事件檢測(cè)都是有效的;2)與HAN-Hybrid相比,HAN-Mul獲得更高的準(zhǔn)確率但是稍低的召回率,HAN-Con獲得了相反的結(jié)果.分析原因可能是由于HAN-Mul利用上下文注意力捕獲上下文中顯著的綜合信息,使得檢測(cè)結(jié)果更加精確;HAN-Con使用多語(yǔ)言注意力集成來(lái)自多種語(yǔ)言的互補(bǔ)信息,緩解數(shù)據(jù)稀疏,使得召回率相對(duì)更高;3)HAN在兩個(gè)基準(zhǔn)數(shù)據(jù)集上在準(zhǔn)確率和召回率上的效果比HAN-Mul和HAN-Con都要好,這說(shuō)明上下文注意力和多語(yǔ)言注意力兩者能夠?yàn)槭录z測(cè)帶來(lái)互補(bǔ)的效果提升.
此外,也探索了第3.1節(jié)中不同的特征組合輸入的影響.為此測(cè)試了以下幾個(gè)僅僅改變混合注意力模塊輸入的特征組合的變體:WE指保留詞向量,去掉實(shí)體類型向量和位置向量;WE+ETE指保留詞向量和實(shí)體類型向量,去掉位置向量;WE+PE指保留詞向量和位置向量,去掉實(shí)體類型向量;ALL表示原有的特征組合模型.為了消除多語(yǔ)言數(shù)據(jù)的影響,使用HAN-Mul作為模型,然后在單語(yǔ)驗(yàn)證集上驗(yàn)證特征組合的效果.表3展示了不同特征組合在事件觸發(fā)詞分類上的結(jié)果.
表3 對(duì)不同的特征組合做消融實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果
從表中可以觀察到ALL在所有指標(biāo)上表現(xiàn)得都比WE+EE和WE+PE要好,這表明實(shí)體類型向量和位置向量?jī)烧邔?duì)于事件檢測(cè)都是有益得,兩者能夠?qū)ψ罱K事件檢測(cè)結(jié)果產(chǎn)生互補(bǔ)的效果.
事件檢測(cè)作為事件抽取任務(wù)的關(guān)鍵一環(huán),在自然語(yǔ)言處理相關(guān)領(lǐng)域的研究工作,如自動(dòng)文摘、自動(dòng)問(wèn)答、信息檢索等領(lǐng)域發(fā)揮著重要作用.本研究從事件檢測(cè)任務(wù)面臨的數(shù)據(jù)稀疏和自然語(yǔ)言歧義這兩個(gè)挑戰(zhàn)出發(fā),提出挖掘利用多語(yǔ)言線索來(lái)提升事件檢測(cè)的效果.研究提出的HAN模型通過(guò)上下文注意力挖掘多語(yǔ)言上下文的一致信息,以緩解數(shù)據(jù)稀疏問(wèn)題;通過(guò)多語(yǔ)言注意力獲得多種目標(biāo)語(yǔ)言之間的互補(bǔ)線索,傳遞至源語(yǔ)言以緩解自然語(yǔ)言歧義的問(wèn)題.在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的綜合性實(shí)驗(yàn)證實(shí)了使用多語(yǔ)言線索的有效性.HAN模型在事件觸發(fā)詞識(shí)別和分類任務(wù)上在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)均顯著提升.
多語(yǔ)言線索以及混合注意力網(wǎng)絡(luò)同樣可以應(yīng)用到其他的信息抽取相關(guān)任務(wù)例如關(guān)系抽取或事件要素抽取等任務(wù)上.如何在降低計(jì)算成本的要求下,高效且充分地利用多語(yǔ)言的信息也是未來(lái)工作中有待進(jìn)一步考慮的問(wèn)題.