摘 要:當(dāng)前的開放域信息抽取(OpenIE)方法無法同時(shí)兼顧抽取結(jié)果的緊湊性和模型的性能,導(dǎo)致其抽取結(jié)果不能更好地被應(yīng)用到下游任務(wù)中。為此,提出一個(gè)基于雙仿射注意力進(jìn)行表格填充及迭代抽取的模型。首先,該模型通過雙仿射注意力學(xué)習(xí)單詞之間的方向信息、捕獲單詞對(duì)之間的相互作用,隨后對(duì)二維表格進(jìn)行填充,使句子中的成分相互共享并識(shí)別緊湊成分;其次,使用多頭注意力機(jī)制將謂詞和參數(shù)的表示應(yīng)用于上下文的嵌入中,使謂詞和參數(shù)的提取相互依賴,更好地鏈接關(guān)系成分和參數(shù)成分;最后,對(duì)于含有多個(gè)關(guān)系成分的句子,使用迭代抽取的方式在無須重新編碼的情況下捕獲每次提取之間固有的依賴關(guān)系。在公開數(shù)據(jù)集CaRB和Wire57上的實(shí)驗(yàn)表明,該方法比基線方法實(shí)現(xiàn)了更高的精度和召回率,F(xiàn)1值提升了至少1.4%和3.2%,同時(shí)產(chǎn)生了更短、語義更豐富的提取。
關(guān)鍵詞:開放域信息抽??; 雙仿射注意力; 緊湊性; 多頭注意力; 迭代抽取
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-018-2046-06
doi:10.19734/j.issn.1001-3695.2023.10.0543
Iterative open information extraction based on biaffine attention
Abstract:The current OpenIE methods cannot take into account the compactness of the extraction results and the performance of the model at the same time, which makes the extraction results unable to be better applied to downstream tasks. Therefore, this paper proposed a model that used biaffine attention for table filling and iterative extraction. Firstly, the model learned the directional information between words through biaffine attention, captured the interaction between word pairs, and then filled the two-dimensional table to make the components in the sentence share each other and identify compact components. Secondly, it used the multi-head attention mechanism to apply the representation of predicates and parameters to the context embedding, making the extraction of predicates and parameters dependent on each other and better linking the relationship components and parameter components. Finally, for sentences containing multiple relational components, it used iterative extraction to capture the inherent dependencies between each extraction without recoding. Experiments on the public datasets CaRB and Wire57 show that this method achieves higher precision and recall than baseline methods, improving F1 values by at least 1.4% and 3.2%, while producing shorter and semantically richer extractions.
Key words:open information extraction(OpenIE); biaffine attention; compactness; multi-head attention; iterative extraction
0 引言
OpenIE以一種無監(jiān)督的、領(lǐng)域獨(dú)立的方式,為自然語言文本生成結(jié)構(gòu)化的、機(jī)器可讀的信息表示[1]。這使得OpenIE的抽取結(jié)果被應(yīng)用在一些下游任務(wù)中,例如問答[2]、事件模式歸納[3]、自動(dòng)模式提取[4]等。
盡管OpenIE從基于學(xué)習(xí)和規(guī)則的模型到近幾年基于神經(jīng)網(wǎng)絡(luò)的模型取得了很大的進(jìn)步,但是近幾年流行的OpenIE模型往往以犧牲提取的關(guān)系三元組的緊湊性為代價(jià),只專注于如何從輸入的句子中抽取覆蓋更多的信息,導(dǎo)致模型產(chǎn)生了更多具有附加信息的特定三元組,這使得抽取結(jié)果很難應(yīng)用在下游任務(wù)中。例如,對(duì)于句子“The rest of the group reach a small shop,where the crocodile breaks through a wall and devours Annabelle”,近年比較流行的基于神經(jīng)網(wǎng)絡(luò)的OpenIE模型IMoJIE[5]的抽取結(jié)果為“The rest of the group;reach;a small shop,where the crocodile breaks through a wall and devours Annabelle”和“the crocodile;devours;Annabelle a small shop”。它抽取的結(jié)果中包含特定的修飾語以及完整的從句,這種提取嚴(yán)重限制了OpenIE結(jié)果在識(shí)別相似事實(shí)和合并共享成分事實(shí)等下游任務(wù)中的實(shí)用性。除此之外,在關(guān)注抽取結(jié)果緊湊性的同時(shí),忽略了抽取結(jié)果的精度和召回率,以降低精度和召回率來換取高的緊湊性是不符合OpenIE任務(wù)目標(biāo)的。
因此,本文提出了一種新的流水線式方法,該方法可以在抽取緊湊三元組的同時(shí)提升模型的精度和召回率。具體來說,首先使用雙仿射注意力對(duì)二維表格進(jìn)行填充,以此來捕獲成分之間的相互作用,最大限度地減少邊界檢測(cè)中的歧義并識(shí)別參數(shù)和謂詞成分。隨后,使用多頭注意力機(jī)制串聯(lián)多級(jí)特征,基于謂詞鏈接其相關(guān)參數(shù),使謂詞和參數(shù)相互依賴。最后,對(duì)于含有多個(gè)謂詞的句子,使用迭代抽取的方式捕獲多個(gè)關(guān)系三元組之間的依賴關(guān)系。通過這種方式,提取了緊湊三元組并提升了模型的性能??偟膩碚f貢獻(xiàn)如下:
a)基于雙仿射注意力進(jìn)行表填充,這種模式可以識(shí)別組成邊界及其角色,更好地編碼單詞對(duì)之間的信息,捕獲成分之間的相互作用,并最大限度地減少邊界檢測(cè)中的歧義。
b)基于謂詞鏈接其相關(guān)參數(shù),使謂詞和參數(shù)之間相互依賴,并通過多頭注意力機(jī)制將謂詞和參數(shù)的表示應(yīng)用于上下文的詞嵌入中。
c)使用迭代抽取的方式進(jìn)行關(guān)系三元組的抽取,這種方式能在無須重新編碼的情況下建模每次抽取之間固有的依賴關(guān)系,更好地處理含有多個(gè)謂詞的句子。
1 相關(guān)工作
OpenIE已經(jīng)被廣泛研究了十幾年,2007年文獻(xiàn)[6]首次提出OpenIE任務(wù),并提出了該任務(wù)的首個(gè)模型。隨后,許多基于學(xué)習(xí)和規(guī)則的模型相繼被提出,這些傳統(tǒng)的OpenIE模型在不使用任何訓(xùn)練數(shù)據(jù)集的情況下從句子中提取出關(guān)系三元組,但是其嚴(yán)重依賴于句法或語義解析,因此不可避免地會(huì)受到淺層特征錯(cuò)誤傳播的影響。近年,隨著神經(jīng)網(wǎng)絡(luò)應(yīng)用的發(fā)展,提出了基于神經(jīng)網(wǎng)絡(luò)的OpenIE模型,這些基于神經(jīng)網(wǎng)絡(luò)的模型大致被分為基于序列標(biāo)記和基于序列生成兩大類,成為目前解決OpenIE的主要技術(shù)。
1.1 基于學(xué)習(xí)和規(guī)則的模型
傳統(tǒng)的基于學(xué)習(xí)和規(guī)則的模型,例如TextRunner[6]、NestIE[7]、ClausIE[8]、MinIE[9]、Stanford-OIE[10]等,使用語法或語義解析器結(jié)合規(guī)則從句子中提取關(guān)系三元組。TextRunner是第一個(gè)自監(jiān)督學(xué)習(xí)的OpenIE模型,可以處理非預(yù)設(shè)的關(guān)系,避免了特定領(lǐng)域的訓(xùn)練數(shù)據(jù),具有良好的可擴(kuò)展性,但是無法捕獲長距離關(guān)系,召回率低。NestIE、ClausIE及MinIE專注于尋找緊湊三元組,并表明了緊湊三元組在一些語義任務(wù)中的有用性。NestIE使用的嵌套表示提升了元組的信息度并提升了生成元組的數(shù)量,但是其過度依賴依存解析且嵌套結(jié)構(gòu)中會(huì)出現(xiàn)空參數(shù)。ClausIE降低了抽取的復(fù)雜度,并且可以并行地抽取,但是其未考慮子句之間的關(guān)系。MinIE雖然在提供有效且緊湊抽取的同時(shí)保證了高精度和高召回率,但是其數(shù)字的準(zhǔn)確度較低且忽略了上下文信息。Stanford-OIE將句子拆分簡化成搜索問題,并結(jié)合自然邏輯刪減子句,其高質(zhì)量的抽取有助于下游任務(wù),但是其分類器錯(cuò)誤影響了性能。這些基于學(xué)習(xí)和規(guī)則的傳統(tǒng)模型雖然為OpenIE的發(fā)展作出了很大的貢獻(xiàn)。但是,由于近幾年神經(jīng)網(wǎng)絡(luò)模型的出現(xiàn),基于學(xué)習(xí)和規(guī)則的傳統(tǒng)模型已經(jīng)被近幾年提出的基于神經(jīng)網(wǎng)絡(luò)的模型所替代。
1.2 基于序列標(biāo)記的模型
基于序列標(biāo)記的模型,例如RnnOIE[11]、 SenseOIE[12]、SpanOIE[13]和CompactIE[14]等,將OpenIE視為序列標(biāo)注任務(wù),通常包含用于生成詞向量的嵌入層,用于生成包含上下文特征的隱向量的編碼器,以及通過詞向量和標(biāo)注方案來預(yù)測(cè)標(biāo)簽的解碼器三個(gè)模塊。RnnOIE是首個(gè)監(jiān)督神經(jīng)網(wǎng)絡(luò)模型,通過首先識(shí)別關(guān)系詞再使用序列標(biāo)記獲得它們的參數(shù)的方式來抽取關(guān)系三元組,可以為單個(gè)參數(shù)生成多個(gè)可能的元組并有效識(shí)別隱形謂詞,但是其召回率較低,無法處理復(fù)雜文本。SenseOIE通過在序列標(biāo)記設(shè)置中使用多個(gè)OpenIE模型的提取特征來改進(jìn)RnnOIE。然而,它的訓(xùn)練需要手動(dòng)標(biāo)注黃金提取,這對(duì)于任務(wù)來說是不可擴(kuò)展的,限制了SenseOIE只能在3 000個(gè)句子的數(shù)據(jù)集上進(jìn)行訓(xùn)練。SpanOIE使用跨度選擇模型,是序列標(biāo)記范式的一種變體,使用謂詞模塊首先選擇潛在的候選關(guān)系跨度,然后對(duì)句子中所有可能的關(guān)系跨度分類為主語或賓語。然而,SpanOIE不能提取名義關(guān)系。此外,它僅在單個(gè)OpenIE模型上引導(dǎo)其訓(xùn)練數(shù)據(jù)。CompactIE使用流水線的方式進(jìn)行緊湊成分的識(shí)別和提取,取得了相對(duì)較好的進(jìn)展,但是在很大程度上犧牲了抽取結(jié)果的精度和召回率。這是因?yàn)槠鋵㈥P(guān)系三元組的提取視為獨(dú)立的而不是相互依賴的,忽略了同一個(gè)關(guān)系三元組中謂詞和參數(shù)之間,以及不同關(guān)系三元組之間緊密交織的關(guān)系。
1.3 基于序列生成的模型
基于序列生成的模型使用seq2seq模型一次生成一個(gè)單詞的輸出提取[15~17],生成的序列包含字段標(biāo)定符,并將生成的平面序列轉(zhuǎn)換為元組。NeuralOIE[15]避免了誤差傳播并且可以改變單詞的順序,但是其未考慮復(fù)雜文本結(jié)構(gòu)。Adversarial-OIE[17]引入生成對(duì)抗網(wǎng)絡(luò)GAN來解決訓(xùn)練和推理時(shí)文本生成不一致而導(dǎo)致的暴露偏差問題,但是其模型訓(xùn)練相對(duì)困難,性能隨迭代次數(shù)的增加會(huì)下降。IMoJIE[5]是生成式OpenIE的最新技術(shù),它使用基于BERT的編碼器和迭代解碼器,對(duì)迄今為止生成的抽取結(jié)果進(jìn)行重新編碼。這種重新編碼的方式雖然捕獲了提取之間的依賴項(xiàng),提高了整體的性能,但也使其速度比RnnOIE慢了50倍,并且存在自回歸方法的誤差累計(jì)。
2 模型
本文模型取名為IBiAttOIE,模型的整體架構(gòu)如圖1所示。IBiAttOIE由成分提取和多級(jí)特征融合及迭代抽取兩部分組成。具體來說:a)首先使用雙仿射注意力學(xué)習(xí)單詞對(duì)的方向信息并進(jìn)行表填充,通過這種模式來識(shí)別一句話中的參數(shù)和謂詞成分,最終為其分配成分標(biāo)簽;b)隨后,基于謂詞鏈接其相關(guān)參數(shù),使參數(shù)和謂詞之間相互依賴,更好地鏈接關(guān)系成分和參數(shù)成分;c)最后,對(duì)于含有多個(gè)謂詞的句子,將含有每次抽取信息的上下文嵌入特征與之前的特征串聯(lián)進(jìn)行迭代抽取,這種方式可以在無須重新編碼的情況下建模每次提取之間固有的依賴關(guān)系。
2.1 成分提取
成分提取是本文模型的第一步,其目的是找到一組成分,使每個(gè)成分的跨度是單詞的連續(xù)序列并且具有預(yù)定義類型。在成分提取過程中,首先通過雙仿射注意力對(duì)標(biāo)簽進(jìn)行預(yù)測(cè),隨后對(duì)二維表格進(jìn)行填充。這種模式可以簡化OpenIE任務(wù)并為多級(jí)特征融合及迭代抽取過程提供更多的信息。
2.1.1 使用雙仿射注意力預(yù)測(cè)標(biāo)簽
對(duì)于一個(gè)輸入句子S,為了獲得每個(gè)單詞的上下文表示hi,使用預(yù)訓(xùn)練語言模型BERT作為句子的編碼器,編碼器的輸出為:{h1,h2,…,hi,ht1,ht2,ht3}=BERT({x1,x2,…,xi,xt1,xt2,xt3}),其中xi是每個(gè)單詞的輸入表示,xt1、xt2和xt3是附加的token,分別表示[is]、[of]和[from]。添加最后這三個(gè)標(biāo)記是因?yàn)镺penIE有時(shí)需要預(yù)測(cè)輸入句子中不存在的標(biāo)記,比如“US president Donald Trump gave a speech on Wednesday”將會(huì)有一個(gè)關(guān)系三元組“Donald Trump;[is] president [of];US”。增加附加標(biāo)記使得這種提取成為可能。
為了更好地學(xué)習(xí)單詞之間的方向信息,使用深度雙仿射注意力(deep biaffine attention)機(jī)制[18]學(xué)習(xí)單詞對(duì)之間的相互作用。具體來說,使用兩個(gè)多層感知機(jī)(MLP)來識(shí)別每個(gè)單詞hi的頭部和尾部:
hheadi=MLPhead(hi),htaili=MLPtail(hi)(1)
接下來,使用Biaffine評(píng)分函數(shù)計(jì)算每個(gè)單詞對(duì)的評(píng)分向量:
在獲得評(píng)分向量vi,j后,將其輸入到softmax函數(shù)中來預(yù)測(cè)每個(gè)標(biāo)簽。一句話由參數(shù)argument和謂詞predicate組成,其中參數(shù)argument∈{subject,object},subject表示關(guān)系三元組中的主體,object表示關(guān)系三元組中的客體。標(biāo)簽的空間定義為Y,Y為argument、predicate、object、subject的集合,計(jì)算每個(gè)標(biāo)簽yi,j在標(biāo)簽空間Y上的概率分布:
P(yi,j|S)=softmax(vi,j)(3)
其中:S用于表示輸入的句子。
2.1.2 進(jìn)行表填充
二維表格是根據(jù)每個(gè)標(biāo)簽yi,j在標(biāo)簽空間Y上的概率分布進(jìn)行填充的。具體來說,一個(gè)句子S帶有s個(gè)標(biāo)記,每個(gè)句子S對(duì)應(yīng)一個(gè)表格T|s|×|s|。表T中的每個(gè)單元格(i,j)被分配一個(gè)標(biāo)簽yi,j,每個(gè)單元格的標(biāo)簽都是根據(jù)單詞對(duì)之間的關(guān)系來標(biāo)記的,每個(gè)單元格用Arg(argument)、Sub(subject)、Obj(object)、Pre(predicate)或none標(biāo)簽標(biāo)記,其中none表示單詞對(duì)之間不存在關(guān)系。圖2展示了二維表格填充的示例。
接下來訓(xùn)練這個(gè)二維表格以最小化下面這個(gè)訓(xùn)練目標(biāo):
其中:Yi,j為單元格(i,j)的glod標(biāo)簽。
最后,計(jì)算表中相鄰行和列之間的距離,找到成分的跨度span,然后為每個(gè)跨度span分配一個(gè)標(biāo)簽,并在將輸出結(jié)果傳遞給多級(jí)特征融合及迭代抽取模塊之前,過濾掉屬于none的所有成分。
2.2 多級(jí)特征融合及迭代抽取
OpenIE同一個(gè)關(guān)系三元組中的謂詞和參數(shù)之間的提取以及不同關(guān)系三元組之間的提取是緊密交織的。因此,應(yīng)將關(guān)系三元組的提取視為相互依賴的而不是獨(dú)立的。多級(jí)特征融合及迭代抽取的過程就是基于謂詞鏈接其參數(shù),對(duì)含有多個(gè)謂詞的句子,將此次抽取結(jié)果的上下文嵌入與其他特征進(jìn)行串聯(lián),作為下一次抽取的輸入進(jìn)行迭代抽取。
2.2.1 多級(jí)特征融合
經(jīng)過成分提取過程獲得句子S中的成分標(biāo)簽后,鏈接關(guān)系成分和參數(shù)成分。本文將關(guān)系成分和參數(shù)成分鏈接的任務(wù)定義為依賴于謂詞鏈接其相應(yīng)參數(shù)的問題。在多級(jí)特征融合過程中,使用多頭注意力機(jī)制將謂詞和參數(shù)的表示應(yīng)用于上下文的嵌入中,使謂詞和參數(shù)相互依賴。
2.2.2 迭代抽取
對(duì)于含有多個(gè)謂詞的句子,迭代抽取的目的在于在無須重新編碼的情況下建模每次提取之間固有的依賴關(guān)系。具體來說,將串聯(lián)的特征作為多頭注意力模塊的輸入,多頭注意力模塊由N個(gè)多頭注意力塊組成,每個(gè)多頭注意力塊都由一個(gè)多頭注意力層(multi-head attention layer)和一個(gè)位置前饋層(position-wise feed-forward layer)組成。注意力層與原始Transformer中encoder-decoder的注意力層相同[19]。首先將Xq、Xk、Xv分別變換為Q=XqWq、K=XkWk、V=XvWv,其中Wq、Wk、Wv是權(quán)重矩陣。變換后計(jì)算每個(gè)頭部的注意力,然后將每個(gè)頭部的注意力輸出連接起來并進(jìn)行線性轉(zhuǎn)換:
每個(gè)頭部以h為索引,dmh為多頭注意力的維數(shù);nh表示頭的數(shù)量。位置前饋層由兩個(gè)圍繞ReLU激活函數(shù)的線性變換組成。根據(jù)Transformer之前的相關(guān)工作,在多頭注意力層和位置前饋層應(yīng)用了殘余連接(residual connection)[20]和層歸一化(layer normalization)[21]。隨后,多頭注意力模塊的輸出被輸入到標(biāo)簽分類層,通過標(biāo)簽分類層獲得對(duì)應(yīng)該謂詞的參數(shù)成分。
將維護(hù)到目前為止提取輸出的信息,進(jìn)而捕獲多個(gè)關(guān)系三元組之間固有的依賴關(guān)系。
2.3 訓(xùn)練目標(biāo)
將每一次的預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的交叉熵?fù)p失相加,得到最終的損失函數(shù),用Lce表示。為了提升模型的整體效果,在表填充過程中對(duì)二維表格施加結(jié)構(gòu)性約束,具體為
a)二維表格為正方形,其關(guān)于對(duì)角線對(duì)稱,約束損失為
b)除非表中存在關(guān)系的組成部分,否則不會(huì)出現(xiàn)關(guān)系,即對(duì)于每個(gè)單詞,其成為標(biāo)簽Arg和Pre的概率不低于成為Sub和Obj的概率,約束損失為
c)一個(gè)關(guān)系三元組中必須存在subject,但是可以不存在object,對(duì)于predicate成分的每一列或行,出現(xiàn)在非對(duì)角線上的詞屬于subject成分的最大可能性不低于屬于object成分的最大可能性,約束損失為
其中:t表示單詞成分類型;ρ表示句子S中所有單詞對(duì)的P(yi,j|S)的堆棧;Ysub、Yobj、Yarg、Ypre分別為標(biāo)簽空間Y中subject、object、argument、predicate的成分標(biāo)簽;ζ表示句子中predicate成分跨度的并集。最后,在訓(xùn)練期間,共同優(yōu)化Lentry+Lce+Lsym+Limp+Ltriple。
3 實(shí)驗(yàn)
3.1 訓(xùn)練數(shù)據(jù)集
訓(xùn)練本文提取緊湊三元組的迭代抽取模型需要一個(gè)緊湊三元組的基準(zhǔn)。目前被廣泛采用的OpenIE基準(zhǔn)是通過組合多個(gè)OpenIE模型的提取而創(chuàng)建的,但是它包括之前模型中過度特定的和不正確的抽取。CompactIE設(shè)計(jì)了一種數(shù)據(jù)處理算法,可以從零開始提取緊湊三元組。因此,采用CompactIE提出的基準(zhǔn)作為訓(xùn)練集。它是在OpenIE2016[22]基準(zhǔn)測(cè)試集中的每個(gè)多子句上獲得的一個(gè)為提取緊湊三元組而定制的新的訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集每個(gè)句子的提取量是OpenIE2016的1.25倍,且它的組成成分更緊湊。其中大約1%的句子進(jìn)行驗(yàn)證,其余的句子用于訓(xùn)練。表1是該訓(xùn)練數(shù)據(jù)集的整體情況。
3.2 評(píng)估數(shù)據(jù)集和評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)主要在CaRB和Wire57兩個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估,用于評(píng)價(jià)模型抽取效果的指標(biāo)主要有精度(P)、召回率(R)和由這些評(píng)分函數(shù)計(jì)算的F1值。由于這些數(shù)據(jù)集不是以緊湊三元組為目標(biāo)的,所以,為了進(jìn)行公平比較,排除了至少在一個(gè)成分內(nèi)含有一個(gè)從句的三元組。表2顯示了處理后的數(shù)據(jù)集統(tǒng)計(jì)信息。
數(shù)據(jù)集句子三元組數(shù)據(jù)集句子三元組
Wire5756309CaRB5772101
Wire57數(shù)據(jù)集有著高細(xì)粒度的提取,會(huì)懲罰過度特定的提取,對(duì)緊湊三元組的提取更為嚴(yán)格,CaRB數(shù)據(jù)集的抽取具有更高的質(zhì)量和覆蓋率。但是,CaRB和Wire57數(shù)據(jù)集的評(píng)分函數(shù)都是基于系統(tǒng)提取與事實(shí)基準(zhǔn)的token級(jí)匹配。除此之外,這些基準(zhǔn)是不完整的,這意味著黃金提取結(jié)果并不包括相同事實(shí)的所有可接受的表面表示方式。而BenchIE[23]基準(zhǔn)和評(píng)分范式相對(duì)比較完整,因此實(shí)驗(yàn)使用了BenchIE基準(zhǔn)和評(píng)分范式進(jìn)行以事實(shí)為中心的評(píng)估。
3.3 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)在Python 3.6和PyTorch Lightning[24]環(huán)境下進(jìn)行,在GPU上訓(xùn)練、驗(yàn)證及測(cè)試。由于表格填充模型的模式設(shè)計(jì)不支持成分內(nèi)的連詞,所以在將句子傳遞給本文模型之前,將它們預(yù)處理為更小的無連詞的句子。
為了與之前的工作進(jìn)行公平比較,使用BERT-based-uncased[25]作為本模型的文本編碼器,將batch size設(shè)置為32,學(xué)習(xí)率設(shè)置為5×10-5,多頭注意力塊的數(shù)量為4,位置嵌入層的維度為64,并使用AdamW優(yōu)化器優(yōu)化所有模型。
3.4 實(shí)驗(yàn)結(jié)果及分析
3.4.1 基線模型
為了驗(yàn)證IBiAttOIE在OpenIE任務(wù)上的有效性,與以下基線模型進(jìn)行了對(duì)比:
a)最先進(jìn)的序列標(biāo)記模型OpenIE6[26]和Multi2OIE[27]。OpenIE6模型基于新的迭代網(wǎng)格標(biāo)簽(iterative grid labels,IGL)架構(gòu),將具有重疊跨度的序列標(biāo)注任務(wù)轉(zhuǎn)換成網(wǎng)格標(biāo)注問題以學(xué)習(xí)抽取之間的依存關(guān)系,在保證準(zhǔn)確率的同時(shí),通過加入全局覆蓋約束來進(jìn)一步提高召回率。Multi2OIE模型根據(jù)BERT嵌入層的隱藏狀態(tài)標(biāo)注所有謂詞,然后抽取與每個(gè)已識(shí)別的謂詞相關(guān)聯(lián)的參數(shù),并利用多語言BERT進(jìn)行編碼,消除對(duì)其他語言的數(shù)據(jù)需求。
b)最先進(jìn)的序列生成系統(tǒng)IMoJIE[5]。IMoJIE模型使用基于BERT的編碼器和基于LSTM的迭代解碼器,對(duì)至今生成的所有抽取進(jìn)行重復(fù)編碼,可以捕獲抽取之間的依存關(guān)系,減少了輸出集的總體冗余。此外,還可以根據(jù)輸入文本的長度或復(fù)雜性調(diào)整輸出。
c)用于提取緊湊三元組的傳統(tǒng)非神經(jīng)網(wǎng)絡(luò)式系統(tǒng)NestIE[7]和MinIE[9],及基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)CompactIE[14]。NestIE模型使用bootstrapping方法來學(xué)習(xí)n元元組和嵌套元組的抽取模式,以對(duì)依存解析的結(jié)構(gòu)相匹配。此外,設(shè)計(jì)了一組規(guī)則將生成的元組進(jìn)行鏈接以捕捉上下文信息。MinIE模型為每個(gè)元組提供語義標(biāo)注,如極性、情態(tài)、歸屬和數(shù)量,從同位語和屬有詞中產(chǎn)生由非介詞動(dòng)詞構(gòu)成的隱性抽取,通過設(shè)計(jì)多種模式刪除冗余的單詞來最小化參數(shù),以權(quán)衡準(zhǔn)確度和召回率。CompactIE模型是分步抽取模型,使用端到端流水線方法從單個(gè)句子中抽取關(guān)系三元組。首先提取謂詞和參數(shù),隨后使用分類器確定它們之間的關(guān)系,該模型能夠重用相同的組成部分來生成多個(gè)元組。
3.4.2 主實(shí)驗(yàn)
為了驗(yàn)證IBiAttOIE抽取結(jié)果的緊湊性和模型的性能,將經(jīng)過30個(gè)epoch訓(xùn)練得到的模型在測(cè)試集上進(jìn)行實(shí)驗(yàn),并與上述基線模型進(jìn)行了對(duì)比。為了驗(yàn)證IBiAttOIE抽取結(jié)果的緊湊性,還采用了之前工作[14]提出的評(píng)價(jià)指標(biāo)對(duì)模型抽取結(jié)果的緊湊性進(jìn)行評(píng)估:a)ACL,它表示所生成的三元組中成分的平均長度,這是在語法上對(duì)緊湊性的度量,ACL分?jǐn)?shù)越低表示三元組的緊湊性越高;b)NCC,它表示每個(gè)成分可以作為獨(dú)立三元組提取的子句的平均數(shù)量,NCC分?jǐn)?shù)越低,三元組的緊湊性越高;c)RPA,它表示每個(gè)參數(shù)的重復(fù)次數(shù),RPA分?jǐn)?shù)越高,每個(gè)句子產(chǎn)生的總成分的共享比例越高。表3和4總結(jié)了IBiAttOIE與這些基線模型在CaRB數(shù)據(jù)集和Wire57數(shù)據(jù)集上的性能。
不難發(fā)現(xiàn),IBiAttOIE與其他基線模型相比實(shí)現(xiàn)了更高的精度和召回率,這是由于將謂詞成分和參數(shù)成分鏈接的過程視為相互依賴的,不是獨(dú)立進(jìn)行的,并對(duì)含有多個(gè)謂詞的句子進(jìn)行迭代抽取和特征融合,以此捕獲了多個(gè)關(guān)系三元組之間固有的依賴關(guān)系。IBiAttOIE在ACL評(píng)分上明顯低于其他基于神經(jīng)網(wǎng)絡(luò)的OpenIE系統(tǒng),并與MinIE的ACL評(píng)分接近。NestIE的ACL評(píng)分最低是因?yàn)樗鼘⒕渥臃殖蓭в袆?dòng)詞、名詞、介詞和形容詞中介關(guān)系的小三元組,但是它的細(xì)粒度策略為了提取三元組的緊湊性極大地犧牲了F1值。IBiAttOIE的NCC評(píng)分達(dá)到了最低分?jǐn)?shù),這表明IBiAttOIE抽取的三元組中的成分包含最少的動(dòng)詞從句。因此,這些三元組比其他三元組更適合下游任務(wù)的應(yīng)用。IBiAttOIE的高RPA評(píng)分證明了提出方法的有效性,因?yàn)樗瓜到y(tǒng)能夠重用相同的成分來生成多個(gè)三元組。MinIE模型有更高的RPA評(píng)分,這是因?yàn)樗崛《鄠€(gè)三元組來表示相同的事實(shí),導(dǎo)致唯一成分的重復(fù)率更高。綜上所述,IBiAttOIE能夠產(chǎn)生更短、語義更豐富、在下游任務(wù)實(shí)用性更強(qiáng)的提取。
3.4.3 多頭注意力對(duì)模型性能的影響
在多級(jí)特征融合中使用了多頭注意力機(jī)制,并基于謂詞成分鏈接其參數(shù),為了確定多頭注意力機(jī)制對(duì)模型性能的影響,將使用多頭注意力機(jī)制的實(shí)驗(yàn)結(jié)果與使用BiLSTM的實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比,對(duì)比結(jié)果如表5所示。
通過表5不難發(fā)現(xiàn),使用多頭注意力機(jī)制比使用BiLSTM更能使模型取得好的效果、高的性能。這是因?yàn)槎囝^注意力機(jī)制具有融合句子和謂詞特征的優(yōu)點(diǎn),多頭注意力機(jī)制可以在謂詞和參數(shù)提取之間創(chuàng)建協(xié)同作用,能夠依賴于謂詞鏈接其對(duì)應(yīng)參數(shù),使謂詞和參數(shù)相互依賴。因此,在利用謂詞信息方面,使用多頭注意力機(jī)制優(yōu)于使用BiLSTM簡單連接。
3.4.4 迭代抽取對(duì)模型性能的影響
對(duì)于含有多個(gè)謂詞的句子,采用迭代抽取的方式在無須重新編碼的情況下建模每次提取之間固有的依賴關(guān)系。為了驗(yàn)證本文迭代抽取方式對(duì)模型性能的影響,將使用迭代方式進(jìn)行抽取的模型性能與進(jìn)行簡單重復(fù)抽取的模型性能進(jìn)行了對(duì)比,對(duì)比結(jié)果如表6所示。
通過數(shù)據(jù)不難發(fā)現(xiàn),對(duì)于含有多個(gè)關(guān)系三元組的句子使用迭代抽取的方式能使模型取得更好的性能。這是因?yàn)椋瑢⒚看纬槿〉男畔⒆鳛樾碌奶卣髋c之前的特征串聯(lián)在了一起,使得在每次抽取時(shí)都能獲得在此次抽取之前的相關(guān)信息。這將維護(hù)到目前為止提取輸出的信息,捕獲多個(gè)關(guān)系三元組之間固有的依賴關(guān)系,因此更有助于模型整體性能的提升。
4 案例分析
為了更好地說明本文IBiAttOIE模型,現(xiàn)采取數(shù)據(jù)集中的句子進(jìn)行案例分析,將未進(jìn)行緊湊三元組抽取的系統(tǒng)IMoJIE的抽取結(jié)果以及僅關(guān)注緊湊性的系統(tǒng)CompactIE的抽取結(jié)果與本模型的抽取結(jié)果進(jìn)行了對(duì)比,對(duì)比結(jié)果如圖3所示。
IMoJIE的提取中“where the crocodile breaks through a wall and devours Annabelle”包含了特定的修飾語,甚至是完整的從句,這種提取過于具體和冗長,并且沒有提取出“crocodile;breaks;through a wall”這個(gè)關(guān)系三元組知識(shí)。CompactIE的提取中,將句子中“was not actually born on”這一信息識(shí)別提取成了“was born actually on”,這違背了句子的本意,并且沒有識(shí)別出“superman,is,hero”這個(gè)關(guān)系三元組,這是因?yàn)镃ompactIE沒有正確地識(shí)別單詞的組成邊界以及沒有捕獲單詞之間的依賴關(guān)系。同時(shí)由于沒有對(duì)輸入句子進(jìn)行附加標(biāo)記,所以沒有預(yù)測(cè)出輸入句子中不存在的標(biāo)記。這種抽取結(jié)果會(huì)嚴(yán)重限制OpenIE在一些下游任務(wù)中的應(yīng)用,而本文模型的抽取結(jié)果更緊湊并且覆蓋了更全面的關(guān)系三元組信息,能更好地兼容模型性能和抽取結(jié)果的緊湊性。相比之下,本文模型的抽取結(jié)果在識(shí)別相似事實(shí)和合并共享成分的事實(shí)等下游任務(wù)中更加靈活。
5 結(jié)束語
為了使OpenIE任務(wù)抽取的關(guān)系三元組更緊湊,實(shí)現(xiàn)關(guān)系三元組之間的成分共享,提高模型的精度和召回率,使其更適合應(yīng)用于下游應(yīng)用程序,在成分提取模塊使用雙仿射注意力進(jìn)行表填充來識(shí)別組成邊界及其角色,以找到一句話中的參數(shù)和謂詞成分,最終為其分配成分標(biāo)簽,以此來識(shí)別嵌套成分,提高關(guān)系三元組的緊湊性。在多級(jí)特征融合及迭代抽取模塊使用multi-head attention機(jī)制代替?zhèn)鹘y(tǒng)BiLSTM簡單連接的方式,將謂詞的表示應(yīng)用于上下文的詞嵌入中,并使用迭代抽取的方式在無須重新編碼的情況下建模每次抽取之間固有的依賴關(guān)系,提升模型的精度和召回率。實(shí)驗(yàn)結(jié)果表明,本文模型取得了優(yōu)異的性能。
參考文獻(xiàn):
[1]胡杭樂, 程春雷, 葉青, 等. 開放信息抽取研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023,59(16): 31-49. (Hu Hangle, Cheng Chunlei, Ye Qing, et al. Survey of open information extraction research[J]. Computer Engineering and Applications, 2023,59(16): 31-49.)
[2]Yan Zhao, Tang Duyu, Duan Nan, et al. Assertion-based QA with question-aware open information extraction[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 6021-6028.
[3]Balasubramanian N, Soderland S, Etzioni O. Generating coherent event schemas at scale[C]//Proc of Conference on Empirical Me-thods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 1721-1731.
[4]Nimishakavi M, Saini U S, Talukdar P. Relation schema induction using tensor factorization with side information[EB/OL]. (2016-11-16). https://arxiv.org/abs/1605.04227.
[5]Kolluru K, Aggarwal S, Rathore V, et al. IMoJIE: iterative memory-based joint open information extraction[EB/OL]. (2020-05-17). https://arxiv.org/abs/2005.08178.
[6]Etzioni O, Banko M, Soderland S, et al. Open information extraction from the Web[J]. Communications of the ACM, 2008, 51(12): 68-74.
[7]Bhutani N, Jagadish H V, Radev D. Nested propositions in open information extraction[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 55-64.
[8]Del Corro L, Gemulla R. ClausIE: clause-based open information extraction[C]//Proc of the 22nd International Conference on World Wide Web. New York: ACM Press, 2013: 355-366.
[9]Gashteovski K, Gemulla R, Corro L. MinIE: minimizing facts in open information extraction[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 2620-2630.
[10]Angeli G, Premkumar M J J, Manning C D. Leveraging linguistic structure for open domain information extraction[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 344-354.
[11]Stanovsky G, Michael J, Zettlemo240a9546b1b8ec20e756af30ef3f2bd03c5e31ea8a7a7d429ddaaba152af8c32yer L, et al. Supervised open information extraction[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2018: 885-895.
[12]Roy A, Park Y, Lee T, et al. Supervising unsupervised open information extraction models[C]//Proc of Conference on Empirical Me-thods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 728-737.
[13]Zhan Junlang, Zhao Hai. Span model for open information extraction on accurate corpus[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 9523-9530.
[14]Bayat F F, Bhutani N, Jagadish H V. CompactIE: compact facts in open information extraction [EB/OL]. (2022-06-09). https://arxiv.org/abs/2205.02880.
[15]Cui Lei, Wei Furu, Zhou Ming. Neural open information extraction[EB/OL]. (2018-05-11). https://arxiv.org/abs/1805.04270.
[16]Sun Mingming, Li Xu, Wang Xin, et al. Logician: a unified end-to-end neural approach for open-domain information extraction[C]//Proc of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 556-564.
[17]韓家寶, 王宏志. 基于生成式對(duì)抗網(wǎng)絡(luò)的開放式信息抽?。跩]. 智能計(jì)算機(jī)與應(yīng)用, 2021,11(10): 155-159. (Han Jiabao, Wang Hongzhi. Generative adversarial network based open information extraction[J]. Intelligent Computers and Applications, 2021,11(10): 155-159.)
[18]Dozat T, Manning C D. Deep biaffine attention for neural dependency parsing [EB/OL]. (2017-03-10). https://arxiv.org/abs/1611.01734.
[19]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Proc of the 31st Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[20]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.
[21]Ba J L, Kiros J R, Hinton G E. Layer normalization[EB/OL]. (2016-07-21). https://arxiv.org/abs/1607.06450.
[22]Mausam M. Open information extraction systems and downstream applications[C]//Proc of the 25th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 4074-4077.
[23]Gashteovski K, Yu Mingying, Kotnis B, et al. BenchIE: open information extraction evaluation based on facts, not tokens[EB/OL]. (2022-04-13). https://arxiv.org/abs/2109.06850.
[24]Léchelle W, Gotti F, Langlais P. Wire57 : a fine-grained benchmark for open information extraction[EB/OL]. (2019-08-01). https://arxiv.org/abs/1809.08962.
[25]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [EB/OL]. (2019-05-24). https://arxiv.org/abs/1810.04805.
[26]Kolluru K, Adlakha V, Aggarwal S, et al. OpenIE6: iterative grid labeling and coordination analysis for open information extraction[EB/OL]. (2020-10-07). https://arxiv.org/abs/2010.03147.
[27]Ro Y, Lee Y, Kang P. Multi2OIE: multilingual open information extraction based on multi-head attention with BERT[C]//Proc of Fin-dings of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 1107-1117.