国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向文本推理的知識(shí)增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型

2022-02-03 13:12:26凱,杜理,丁效,劉挺,秦兵,付
中文信息學(xué)報(bào) 2022年12期
關(guān)鍵詞:字符圖譜向量

熊 凱,杜 理,丁 效,劉 挺,秦 兵,付 博

(1. 哈爾濱工業(yè)大學(xué) 社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150006;2. 建信金融科技有限責(zé)任公司 基礎(chǔ)技術(shù)中心,北京 100032)

0 引言

文本推理是自然語(yǔ)言處理 (Natural Language Processing) 社區(qū)中具有巨大挑戰(zhàn)性的任務(wù)之一,它要求機(jī)器同時(shí)擁有語(yǔ)義理解能力和利用豐富的知識(shí)進(jìn)行推理的能力。預(yù)訓(xùn)練語(yǔ)言模型比如 BERT[1]的出現(xiàn)使得文本推理任務(wù)有了跨越式的發(fā)展,如閱讀理解[2],事件預(yù)測(cè)[3]等,BERT 使用 Transformer[4]的編碼器在大量無(wú)標(biāo)注的文本上進(jìn)行預(yù)訓(xùn)練,無(wú)標(biāo)注文本中豐富的語(yǔ)言學(xué)和語(yǔ)義知識(shí)使 BERT 具有很強(qiáng)的語(yǔ)義理解能力,在大量的文本推理任務(wù)上僅進(jìn)行微調(diào)就能得到很好的效果。

圖1 閱讀理解數(shù)據(jù)集實(shí)例

之前的研究表明,機(jī)器進(jìn)行文本推理不僅需要較強(qiáng)的語(yǔ)義理解能力,還需要利用豐富的知識(shí)來(lái)支撐機(jī)器進(jìn)行復(fù)雜的推理[5-6]。所以豐富的知識(shí)對(duì)機(jī)器解決文本推理任務(wù)來(lái)說(shuō)非常重要。以機(jī)器閱讀理解任務(wù)中的ReCoRD數(shù)據(jù)集[7]為例,如圖1所示,ReCoRD數(shù)據(jù)集展示的任務(wù)是給定一個(gè)上下文篇章(Passage),需要從上下文篇章中抽取出實(shí)體來(lái)填補(bǔ)問(wèn)題(Question)里面的空缺(×××),ReCoRD已經(jīng)將上下文中包含的實(shí)體標(biāo)注出來(lái)(圖中的下劃線詞),圖1中上下文篇章給出的信息為英國(guó)某動(dòng)物園給熊貓“甜甜”進(jìn)行人工授精,預(yù)計(jì)在8月“甜甜”能產(chǎn)下幼崽。而問(wèn)題給出的信息為幼崽在兩歲的時(shí)候要被送回四川,“×××”這個(gè)時(shí)間點(diǎn)也是它在野外離開父母的時(shí)間。模型需要從上下文中抽取實(shí)體來(lái)回答問(wèn)題。如果我們的機(jī)器有著(四川位于中國(guó))、(熊貓是哺乳動(dòng)物的下位詞)以及(熊貓是野生動(dòng)物的下位詞)這樣的外部知識(shí),結(jié)合對(duì)上下文篇章以及問(wèn)題的理解,機(jī)器就能很容易得到圖1中的答案為中國(guó)。

如何融入知識(shí)也是一個(gè)具有挑戰(zhàn)性的問(wèn)題,前人對(duì)BERT的分析表明,BERT同層的輸出傾向于編碼的信息是不同的[8-9],較低層BERT的輸出傾向于編碼比較低級(jí)的信息,例如語(yǔ)法等一些語(yǔ)言學(xué)的信息,較高層BERT的輸出傾向于編碼更高級(jí)的信息,例如語(yǔ)義信息甚至是抽象信息等。此外,以前融入知識(shí)的方法大部分都是使用檢索-編碼的方法[10-11],對(duì)預(yù)訓(xùn)練語(yǔ)言模型直接融入知識(shí)進(jìn)行文本推理的方法[2]只是在最外層對(duì)知識(shí)進(jìn)行融入,上下文和知識(shí)沒(méi)有進(jìn)行深度交互。所以本文認(rèn)為在已得到知識(shí)的情況下,在什么位置融入知識(shí),以及如何使知識(shí)深度融合到上下文中也是非常關(guān)鍵的。

基于以上分析,我們提出了一個(gè)基于預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)深度融合框架(Pre-trained Language Model Based Knowledge Deep Aggregation Framework,PLM-KDA),使用豐富的知識(shí)對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行增強(qiáng),并對(duì)知識(shí)融入的位置進(jìn)行設(shè)置以使知識(shí)和上下文的充分融合,最終支撐機(jī)器進(jìn)行文本推理。對(duì)比于一系列的基線方法,本文模型達(dá)到了很好的性能表現(xiàn)。本文工作的貢獻(xiàn)可以總結(jié)為以下幾點(diǎn):

(1) 通過(guò)使用預(yù)訓(xùn)練語(yǔ)言模型,對(duì)文本進(jìn)行深層的語(yǔ)義理解;

(2) 通過(guò)在模型中間層的輸出融入知識(shí),使得知識(shí)的融入更加充分;

(3) 通過(guò)對(duì)模型融入豐富的知識(shí),支撐模型進(jìn)行更高效的推理。在機(jī)器閱讀理解和腳本事件預(yù)測(cè)任務(wù)上,模型超越了一系列基線方法。

1 相關(guān)工作

1.1 預(yù)訓(xùn)練模型

最早的預(yù)訓(xùn)練模型可以追溯到詞向量[12](Word2Vec),詞向量通過(guò)無(wú)監(jiān)督的方法,在大量的非結(jié)構(gòu)化文本中進(jìn)行訓(xùn)練得到每個(gè)詞的向量表示。后續(xù)斯坦福大學(xué)通過(guò)引入語(yǔ)料庫(kù)的全局特征以及局部上下文特征對(duì)詞向量進(jìn)行改進(jìn),得到GloVe詞向量[13]。為了解決自然語(yǔ)言文本中多義詞問(wèn)題,ELMo[14]的出現(xiàn)使得相同的詞在不同的上下文中擁有不同的向量表示。

隨著深度學(xué)習(xí)及機(jī)器算力的發(fā)展,大型的預(yù)訓(xùn)練語(yǔ)言模型幾乎占領(lǐng)了自然語(yǔ)言處理絕大部分任務(wù)的榜單。最有代表性的預(yù)訓(xùn)練語(yǔ)言模型有BERT[1],RoBERTa[15],XLNet[16]等。近兩年超大型預(yù)訓(xùn)練語(yǔ)言模型的發(fā)布也使得預(yù)訓(xùn)練語(yǔ)言模型的能力得到進(jìn)一步的提升,代表性的工作有GPT-3[17]等。

1.2 知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型

雖然BERT等預(yù)訓(xùn)練語(yǔ)言模型在文本理解上取得了巨大成功,但是其中缺少了知識(shí)。為了解決預(yù)訓(xùn)練語(yǔ)言模型中知識(shí)缺失的問(wèn)題,Zhang等人[18]使用知識(shí)圖譜嵌入方法TransE[19]將知識(shí)圖譜進(jìn)行編碼并融入到預(yù)訓(xùn)練語(yǔ)言模型中,Sun等人[6]通過(guò)顯式的方法將知識(shí)圖譜的三元組引入到預(yù)訓(xùn)練語(yǔ)言模型中,Yamada等人[20]通過(guò)使用一個(gè)實(shí)體級(jí)的注意力機(jī)制得到深層上下文相關(guān)的實(shí)體表示。為了編碼圖結(jié)構(gòu)的知識(shí)以進(jìn)行文本生成,一些工作對(duì)知識(shí)圖譜的圖結(jié)構(gòu)信息進(jìn)行檢索,并用一個(gè)編碼器將圖結(jié)構(gòu)進(jìn)行編碼[21-23]。

1.3 機(jī)器閱讀理解與腳本事件預(yù)測(cè)

人類進(jìn)行推理時(shí)利用了很多潛在知識(shí)[24],但是機(jī)器原本并不具備這種潛在的知識(shí),所以給機(jī)器提供額外的知識(shí)以進(jìn)行推理是非常重要的。

近些年來(lái),很多閱讀理解數(shù)據(jù)集(CNN/DM[25]、SQuAD[26-27]、MS-MARCO[28]等)的出現(xiàn)推動(dòng)了機(jī)器閱讀理解的發(fā)展。很多新穎的方法被提出用來(lái)解決機(jī)器閱讀理解任務(wù),比如Match-LSTM[29]、AoA Reader[30]以及QANet[31]等,這些端到端神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)比較類似,都是用一個(gè)編碼器對(duì)上下文以及問(wèn)題進(jìn)行編碼,然后經(jīng)過(guò)一個(gè)注意力機(jī)制,最后進(jìn)行預(yù)測(cè)。隨著預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn),這些方法很輕松地被預(yù)訓(xùn)練語(yǔ)言模型超越。

Gronroth-Wilding和Clark[32]在2018年提出從新聞生文本中無(wú)監(jiān)督地歸納出敘事事件鏈的研究,使用事件填空的形式對(duì)模型的性能進(jìn)行評(píng)價(jià),開創(chuàng)了腳本事件預(yù)測(cè)的工作,后續(xù)也有一些序列建模的方法被提出來(lái)解決腳本事件預(yù)測(cè)的問(wèn)題[33-34],但是這些方法忽略了對(duì)事件間關(guān)系的建模。Li 等人[35]首次提出通過(guò)構(gòu)建一個(gè)時(shí)序事理圖譜來(lái)建模事件之間的鄰接關(guān)系,并利用圖神經(jīng)網(wǎng)絡(luò)對(duì)事件圖進(jìn)行建模。Lv 等人[36]使用注意力機(jī)制隱式地建模圖結(jié)構(gòu)的事件關(guān)系,最后使用一個(gè)事件鏈級(jí)別的注意力機(jī)制進(jìn)行事件預(yù)測(cè)。

2 問(wèn)題定義

本文關(guān)注于文本推理的兩個(gè)子任務(wù): 閱讀理解和腳本事件預(yù)測(cè)。

2.1 閱讀理解

基于以上定義,機(jī)器閱讀理解任務(wù)定義為,對(duì)于問(wèn)題查詢中的空缺,模型需要在上下文篇章P的實(shí)體E中選擇一個(gè)正確的實(shí)體ec填入空缺。

考慮到不同實(shí)例中上下文篇章實(shí)體數(shù)量的不均衡,本文將任務(wù)定義為一個(gè)片段抽取的形式,即對(duì)于給定的上下文篇章P與問(wèn)題查詢Q,從上下文篇章P中抽取出一個(gè)實(shí)體片段espan,將其填入問(wèn)題查詢Q中。

2.2 腳本事件預(yù)測(cè)

如圖 2 所示,腳本事件預(yù)測(cè)任務(wù)定義為: 給定X發(fā)生的一系列事件EX=x1,…,xl,其中l(wèi)表示事件的數(shù)量,每個(gè)事件xi=Pi(Si,Oi,Ii)是一個(gè)四元組,Si為主語(yǔ),Pi為謂語(yǔ),Oi為賓語(yǔ),Ii為間接賓語(yǔ)。對(duì)于給定的上下文事件鏈,需要從后續(xù)事件集合CX=c1,…,ck中選擇出可能發(fā)生的后續(xù)事件,其中k為候選事件的數(shù)量,每個(gè)候選事件定義與上下文事件一致。

圖2 腳本事件預(yù)測(cè)數(shù)據(jù)集實(shí)例

3 方法

為了解決如何在預(yù)訓(xùn)練語(yǔ)言模型中融入外部知識(shí)的問(wèn)題,本文提出了一個(gè)基于預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)深度融合框架PLM-KDA,整體的框架結(jié)構(gòu)如圖3所示,PLM-KDA框架主要包括5個(gè)模塊: 編碼器,對(duì)輸入文本進(jìn)行編碼及語(yǔ)義理解;聚合器,閱讀理解任務(wù)中聚合器將檢索到的知識(shí)聚合到上下文的表示中去,腳本事件預(yù)測(cè)任務(wù)中聚合器將字符的表示聚合為事件的表示;更新器,在閱讀理解任務(wù)中建模上下文信息與知識(shí)的充分交互,在腳本事件預(yù)測(cè)任務(wù)中使用檢索到的圖結(jié)構(gòu)知識(shí)對(duì)事件表示進(jìn)行更新;融合器將知識(shí)相關(guān)的上下文表示融合到編碼器中并傳入后續(xù)的編碼層;預(yù)測(cè)器,對(duì)答案進(jìn)行預(yù)測(cè)。本文使用閱讀理解任務(wù)進(jìn)行具體方法的舉例。

圖3 PLM-KDA 框架結(jié)構(gòu)圖

3.1 閱讀理解任務(wù)知識(shí)檢索

對(duì)于每個(gè)候選外部知識(shí)詞,使用知識(shí)圖譜嵌入對(duì)其進(jìn)行初始化表示,如式(1)所示。

(1)

3.2 編碼器

為了將上下文篇章及問(wèn)題查詢文本表示為稠密的向量,并得到上下文相關(guān)的表示,我們使用預(yù)訓(xùn)練語(yǔ)言模型BERT對(duì)上下文篇章及問(wèn)題查詢進(jìn)行編碼,BERT由S層Transformer層堆疊而成,我們將H(i)記為BERT第i層的輸出,首先我們將上下文篇章及問(wèn)題查詢文本拼接在一起輸入到BERT的嵌入層得到一個(gè)初始化的表示,如式(2)所示。

H(0)=Etoken+Eseg+Epos

(2)

其中,H(0)代表輸入文本中每個(gè)字符的初始化表示,Etoken代表字符向量,Eseg代表片段向量,用來(lái)區(qū)分上下文篇章和問(wèn)題查詢,Epos為位置向量,給文本中的字符引入位置信息。最終每個(gè)字符的初始化表示由字符向量、片段向量和位置向量相加得到。

基于得到的字符的初始化表達(dá),定義經(jīng)過(guò)一個(gè)Transformer層后得到的向量更新如式(3)所示。

H(i)=transformeri(H(i -1))

(3)

其中,H(i-1)為經(jīng)過(guò)了i-1層Transformer層后得到的輸入文本的上下文相關(guān)的表示,Transformeri為第i層的Transformer層,H(i)為H(i-1)經(jīng)過(guò)Transformeri得到的向量表示。

由于BERT不同層傾向于編碼不同的信息,而檢索的外部知識(shí)是實(shí)體詞,是比較簡(jiǎn)單的知識(shí),所以選擇BERT哪一層的表示向量來(lái)進(jìn)行知識(shí)的聚合非常重要,在此處本文選擇第S1層輸出的向量表示進(jìn)行知識(shí)的聚合操作,第S1層的輸出可以定義如式(4)所示。

H(S1)=Transformer1→S1(H(0))

(4)

其中,Transformer1→S1為第1層至第S1層 Transformer 層的堆疊,H(S1)∈L×d為經(jīng)過(guò)了S1層 Transformer得到的輸入文本的上下文相關(guān)的表示,d為BERT的隱層維度。

3.3 聚合器

為將候選的外部知識(shí)聚合到輸入文本的上下文表示H(S1)中,本文使用一個(gè)聚合器將外部知識(shí)聚合到H(S1)中。聚合器的輸入為第S1層Transformer層的輸出H(S1)以及輸入文本的候選外部知識(shí)表示E。

(5)

(6)

(7)

其中,Uc∈dkb×d為可訓(xùn)練的向量。

在得到所有候選外部知識(shí)詞以及哨兵向量的權(quán)重后,每個(gè)候選外部知識(shí)詞以及哨兵向量的權(quán)重可以被定義如式(8)所示。

(8)

基于以上結(jié)果,字符ti的候選知識(shí)表示可以聚合如式(9)所示。

(9)

其中,ki∈dkb為字符ti選擇后的知識(shí)聚合表示。最后,我們將ki與ti的上下文表示拼接在一起作為ti更新后的表示d+dkb,這樣字符ti的表示既包含了上下文的信息,也包含了相關(guān)外部知識(shí)的信息。

3.4 更新器

為了使ui中的上下文信息和相關(guān)外部知識(shí)信息充分融合,本文引入一個(gè)注意力機(jī)制,使上下文信息和相關(guān)外部知識(shí)信息進(jìn)行更深入的融合。與Yang等人[2]一樣,同時(shí)建模字符之間直接的交互和間接的交互。

對(duì)于直接的交互,本文根據(jù)Seo等人[39]的方法,對(duì)于第i個(gè)和第j個(gè)字符來(lái)說(shuō),使用一個(gè)線性函數(shù)來(lái)計(jì)算它們的相似度如式(10)所示。

rij=wT[ui,uj,ui⊙uj]

(10)

其中,w∈3d+3dkb為可訓(xùn)練的向量,⊙表示逐點(diǎn)乘法,rij為相似度分?jǐn)?shù),所以我們可以得到一個(gè)相似度矩陣R,其中rij為R第i行第j列的值。然后,根據(jù)相似度矩陣,可以得到權(quán)重矩陣A,并且得到每個(gè)字符關(guān)于字符ti的加權(quán)求和向量i如式(11)所示。

(11)

其中,aij為A中第i行第j列的值,i反映的是所有字符與字符ti直接交互的程度。

(12)

3.5 融合器

為了將更新后的字符表示融入到BERT的表示中并輸入到后續(xù)的Transformer層中,我們選用第S2層Transformer層的輸出S2對(duì)O的表示進(jìn)行融合,首先我們將O映射到d維如式(13)所示。

Od=OUO

(13)

其中UO∈(6d+6dkb)×d為可訓(xùn)練的向量。其次我們使用Vaswani等人[4]提出的多頭注意力機(jī)制,H(S2)為查詢,Od為鍵和值,計(jì)算更新后的表示如式(14)所示。

M=MultiHead(H(S2),Od,Od)

(14)

最后,我們將M輸入到BERT中第S2層之后的transformer層中得到所有字符的最終表示如式(15)所示。

H=Transformer(S2+1)→S(M)

(15)

其中,H∈L×d為融合了上下文以及相關(guān)知識(shí)的字符向量的最終表示。(S2+1)→S表示第S2+1層到S層的Transformer層。

3.6 預(yù)測(cè)器

由于本文將問(wèn)題建模為抽取式問(wèn)題,所以我們通過(guò)預(yù)測(cè)答案片段的開始位置和結(jié)束位置對(duì)答案片段進(jìn)行抽取。具體地,本文使用兩個(gè)線性變換分別預(yù)測(cè)每個(gè)字符為答案片段開始位置的概率以及每個(gè)字符為答案片段結(jié)束位置的概率,兩個(gè)概率的計(jì)算可以表示如式(16)所示。

(16)

最終,使用交叉熵對(duì)模型的損失進(jìn)行估計(jì)如式(17)、式(18)所示。

(17)

LMCNC=∑iCE(pi,yi)

(18)

其中,LReCoRD為閱讀理解任務(wù)的損失函數(shù),CE(CrossEntropy)為交叉熵?fù)p失,LMCNC為腳本事件預(yù)測(cè)任務(wù)的損失函數(shù)。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)及知識(shí)庫(kù)4.1.1 閱讀理解

本實(shí)驗(yàn)選用ReCoRD數(shù)據(jù)集[7]進(jìn)行實(shí)驗(yàn)及評(píng)估。ReCoRD是一個(gè)大規(guī)模的機(jī)器閱讀理解數(shù)據(jù)集,從CNN和Daily Mail中的新聞收集而來(lái),每個(gè)實(shí)例由上下文篇章、問(wèn)題查詢、答案以及上下文篇章中包含的實(shí)體構(gòu)成。數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表1所示。本實(shí)驗(yàn)使用的知識(shí)庫(kù)為WordNet[37],WordNet是存儲(chǔ)上下位關(guān)系的知識(shí)庫(kù),沿用Yang等人[2]的方法,我們使用NLTK[40]工具來(lái)檢索每個(gè)詞在WordNet中的相關(guān)詞作為候選的知識(shí)詞。對(duì)于某一個(gè)詞分詞后得到的字符集合,每個(gè)字符的候選知識(shí)詞與其所在詞的候選知識(shí)詞一致。候選知識(shí)詞進(jìn)行初始化表示時(shí)使用的是訓(xùn)練好的知識(shí)圖譜嵌入[41]。

表1 文本推理數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)

4.1.2 腳本事件預(yù)測(cè)

腳本事件預(yù)測(cè)實(shí)驗(yàn)中,使用的數(shù)據(jù)集為MCNC[32],這是一個(gè)大規(guī)模自動(dòng)構(gòu)建的事件預(yù)測(cè)數(shù)據(jù)集,通過(guò)對(duì)紐約時(shí)報(bào)進(jìn)行信息抽取獲取事件,再將事件根據(jù)同一主角連接在一起得到數(shù)據(jù)樣例,詳細(xì)的數(shù)據(jù)集統(tǒng)計(jì)指標(biāo)如表1所示。本實(shí)驗(yàn)中,使用的知識(shí)是事理圖譜圖結(jié)構(gòu)知識(shí),通過(guò)對(duì)數(shù)據(jù)中事件之間的連接關(guān)系進(jìn)行統(tǒng)計(jì),使用訓(xùn)練集構(gòu)建事理圖譜,它是一個(gè)有向有環(huán)圖。通過(guò)使用輸入事件在事理圖譜中進(jìn)行檢索,得到輸入事件之間的鄰接關(guān)系,將這種圖結(jié)構(gòu)關(guān)系作為知識(shí)對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行增強(qiáng)。

4.2 實(shí)驗(yàn)細(xì)節(jié)

4.2.1 閱讀理解

在我們的實(shí)驗(yàn)中,使用的是預(yù)訓(xùn)練語(yǔ)言模型BERT-base,隱層維度d為768,使用的知識(shí)圖譜嵌入維度dkb為100。S1和S2分別為4和5。學(xué)習(xí)率設(shè)置為5e-6,batch_size為8。每個(gè)詞的知識(shí)詞數(shù)量上限設(shè)置為27。

4.2.2 腳本事件預(yù)測(cè)

本實(shí)驗(yàn)使用的預(yù)訓(xùn)練語(yǔ)言模型為BERT-base,隱層維度d為768,事件在事理圖譜中進(jìn)行檢索的方法使用的是BM25算法[42],若兩個(gè)事件之間檢索不到鄰接關(guān)系,則相應(yīng)鄰接矩陣中的值為0,最后我們將鄰接矩陣進(jìn)行行歸一化。S1和S2分別為7和9,學(xué)習(xí)率為1e-5,batch_size為32。實(shí)驗(yàn)使用的多頭注意力機(jī)制與Vawani等人[4]一致。

4.3 實(shí)驗(yàn)結(jié)果及分析4.3.1 閱讀理解

我們?cè)?ReCoRD 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),相關(guān)基線方法如下:

(1) DOCQA[43]首先根據(jù)TF-IDF檢索到相應(yīng)的篇章,然后使用一個(gè)基于注意力機(jī)制的推理模塊對(duì)缺失的實(shí)體進(jìn)行預(yù)測(cè)。

(2) SAN[44]提出了一個(gè)基于注意力機(jī)制的隨機(jī)答案網(wǎng)絡(luò),模擬機(jī)器閱讀理解中的多步推理過(guò)程。

(3) BERT-base[1]使用預(yù)訓(xùn)練語(yǔ)言模型BERT-base在ReCoRD數(shù)據(jù)集上進(jìn)行微調(diào)。

(4) DOCQA+ELMo使用基于RNN的模型ELMo對(duì)DOCQA的推理模塊進(jìn)行增強(qiáng)。

(5) KT-NET[2]采用注意力機(jī)制從知識(shí)圖譜WordNet中自適應(yīng)地選擇所需知識(shí),然后將所選知識(shí)與BERT融合用于閱讀理解任務(wù)。在本文中,KT-NET是基于BERT-base的。

實(shí)驗(yàn)結(jié)果如表2所示。基于表中結(jié)果,我們可以得到以下結(jié)論:

(1) 基于預(yù)訓(xùn)練語(yǔ)言模型的方法(BERT-base,KT-NET,PLM-KDA)與沒(méi)使用預(yù)訓(xùn)練語(yǔ)言模型的方法(DOCQA,SAN,DOCQA+ELMo)比較,使用了預(yù)訓(xùn)練語(yǔ)言模型的方法有著明顯的性能優(yōu)勢(shì),這表明預(yù)訓(xùn)練語(yǔ)言模型中包含的豐富的語(yǔ)義知識(shí)能夠更好地對(duì)文本進(jìn)行語(yǔ)義理解。

表2 閱讀理解實(shí)驗(yàn)結(jié)果 (單位: %)

(2) 對(duì)比于只使用預(yù)訓(xùn)練語(yǔ)言模型的方法(BERT-base),使用了知識(shí)增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型的方法(KT-NET,PLM-KDA)能夠獲得更好的性能表現(xiàn),說(shuō)明引入豐富的知識(shí)能夠提供額外的信息并幫助解決機(jī)器閱讀理解任務(wù)。

(3) 對(duì)比于在BERT最后一層進(jìn)行知識(shí)融入的方法(KT-NET),PLM-KDA在BERT中間層融入知識(shí),得到了更好的性能表現(xiàn),說(shuō)明在什么位置融入知識(shí)中的信息也是非常重要的。

4.3.2 腳本事件預(yù)測(cè)

我們?cè)贛CNC數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),相關(guān)基線方法如下:

(1) Word2Vec[45]在大規(guī)模的數(shù)據(jù)集上學(xué)習(xí)到了詞向量表示,上下文事件中動(dòng)詞及其他元素的向量被用來(lái)與候選事件中的元素計(jì)算相似度,通過(guò)相似度的值進(jìn)行預(yù)測(cè)。

(2) EventComp[32]使用了一個(gè)孿生神經(jīng)網(wǎng)絡(luò)計(jì)算事件之間的相似度。

(3) PairLSTM[33]將事件的序列信息以及事件對(duì)之間的關(guān)聯(lián)信息融合在一起進(jìn)行后續(xù)事件的預(yù)測(cè)。

(4) SGNN[35]構(gòu)建了一個(gè)敘事事件演化圖譜,即事理圖譜,對(duì)事件之間的鄰接關(guān)系進(jìn)行表示,并提出了一個(gè)縮放的圖神經(jīng)網(wǎng)絡(luò)對(duì)后續(xù)事件進(jìn)行預(yù)測(cè)。

(5) SAN-Net[36]使用事件級(jí)的注意力機(jī)制來(lái)顯式地建模圖結(jié)構(gòu)的事件關(guān)系,最后通過(guò)一個(gè)事件鏈級(jí)的注意力機(jī)制來(lái)進(jìn)行預(yù)測(cè)。

(6) BERT-base[1]使用預(yù)訓(xùn)練語(yǔ)言模型在MCNC數(shù)據(jù)集上進(jìn)行微調(diào)。

(7) ERNIE[18]使用知識(shí)圖譜嵌入方法TransE[19]將知識(shí)圖譜中的圖結(jié)構(gòu)進(jìn)行編碼,將實(shí)體的嵌入當(dāng)作他們模型的輸入。

(8) GraphTransformer[22]在知識(shí)圖譜中檢索結(jié)構(gòu)化的信息并在他們基于Transformer的模型頂端引入了一個(gè)額外的圖編碼器,利用檢索到的結(jié)構(gòu)化信息來(lái)指導(dǎo)文本生成。

所有的實(shí)驗(yàn)結(jié)果如表3所示,根據(jù)實(shí)驗(yàn)結(jié)果,我們能得到如下結(jié)論:

表3 腳本事件預(yù)測(cè)實(shí)驗(yàn)結(jié)果

(1 )與基于事件對(duì)(鏈)的方法(EventComp及PairLSTM)對(duì)比,基于事件圖的方法(SGNN,SAM-Net,ERNIE,GraphTransformer及PLM-KDA)擁有更好的性能,表明圖結(jié)構(gòu)能夠更好地理解事件關(guān)系。

(2) 與無(wú)預(yù)訓(xùn)練語(yǔ)言模型的方法(EventComp,PairLSTM,SGNN及SAN-Net)對(duì)比,使用了預(yù)訓(xùn)練語(yǔ)言模型的方法(ERNIE,GraphTransformer,BERT-base及PLM-KDA)在性能上有較大提升,表明預(yù)訓(xùn)練語(yǔ)言模型能夠更好地理解事件來(lái)幫助后續(xù)事件的預(yù)測(cè)。

(3) 與BERT相比,有圖結(jié)構(gòu)信息增強(qiáng)的模型(GraphTransformer及PLM-KDA)能夠更進(jìn)一步地提升腳本事件預(yù)測(cè)的性能,這是因?yàn)橐雸D結(jié)構(gòu)信息能夠更好地理解事件之間的關(guān)系,并給預(yù)測(cè)過(guò)程提供指導(dǎo)。

(4) 與ERNIE及GraphTransformer對(duì)比,PLM-KDA將圖結(jié)構(gòu)知識(shí)進(jìn)行深層的編碼,對(duì)圖結(jié)構(gòu)信息的融入更高效。

5 結(jié)論

本文提出了一個(gè)基于預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)深度融合框架以進(jìn)行文本推理任務(wù),實(shí)驗(yàn)證明預(yù)訓(xùn)練語(yǔ)言模型中豐富的語(yǔ)言學(xué)知識(shí)能很好地理解文本。由于機(jī)器進(jìn)行文本推理還需要額外的外部知識(shí)進(jìn)行輔助,我們基于此使用了知識(shí)圖譜和事理圖譜對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行增強(qiáng),并且我們?cè)谥虚g層進(jìn)行知識(shí)融入,將預(yù)訓(xùn)練語(yǔ)言模型與豐富的知識(shí)進(jìn)行深層次的融合。實(shí)驗(yàn)結(jié)果表明,我們的PLM-KDA框架對(duì)比于無(wú)預(yù)訓(xùn)練語(yǔ)言模型的方法有著很大的優(yōu)勢(shì),對(duì)比于無(wú)知識(shí)融入的方法也有著較大的優(yōu)勢(shì),并且我們通過(guò)改變知識(shí)融入的位置,使得豐富的知識(shí)和預(yù)訓(xùn)練語(yǔ)言模型融合更加有效。

猜你喜歡
字符圖譜向量
尋找更強(qiáng)的字符映射管理器
向量的分解
聚焦“向量與三角”創(chuàng)新題
繪一張成長(zhǎng)圖譜
字符代表幾
一種USB接口字符液晶控制器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:50
消失的殖民村莊和神秘字符
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動(dòng)對(duì)接你思維的知識(shí)圖譜
向量垂直在解析幾何中的應(yīng)用
万盛区| 泾川县| 武威市| 乡宁县| 秦皇岛市| 香港| 疏勒县| 福海县| 县级市| 海宁市| 开远市| 黔南| 岱山县| 芦山县| 铁岭县| 都昌县| 蓬安县| 陆丰市| 永胜县| 关岭| 泸西县| 宾阳县| 蓝山县| 邹城市| 许昌县| 西峡县| 勃利县| 道真| 上杭县| 宁蒗| 东兰县| 中牟县| 商洛市| 连城县| 册亨县| 玉树县| 柘荣县| 新兴县| 东莞市| 保康县| 英山县|