国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

PATB:一種面向聯(lián)合實體和關系抽取的信息聚合器

2023-10-18 13:09:22王愛娟
小型微型計算機系統(tǒng) 2023年10期
關鍵詞:三元組客體注意力

張 亮,盧 玲,王愛娟,楊 武

(重慶理工大學 計算機科學與工程學院,重慶 400050)

1 引 言

自動問答系統(tǒng)、對話生成等自然語言處理(Natural Language Processing,NLP)領域研究及應用的發(fā)展,令知識圖譜[1]及其相關技術的研究一直備受關注.知識圖譜是一種圖數據結構,其最小單元是兩個結點及其關系構成的三元組.自然語言文本中包含大量由主體、客體及主客體之間關系構成的(subject,relation,object)[2]關系三元組,它們呈現了文本中的基本關系事實,是構成知識圖譜的基本單位.通過關系三元組,可進一步進行知識推理等任務,因此,抽取關系三元組是構建大規(guī)模知識圖譜的一項重要而關鍵的基礎任務.

早期的關系三元組抽取多為流水線方法[3,4],將抽取分為實體識別和關系分類兩階段.首先識別實體對(subject,object),再進行關系分類,由于兩階段任務分離,因此實體識別的誤差將傳播至關系分類階段.后續(xù)研究提出了旨在同時提取實體和關系的聯(lián)合方法,但現有聯(lián)合方法普遍采用分離解碼和參數共享方法,較少著眼于實體抽取和關系抽取兩個任務的相關性進行研究.2020年,Wei等[5]提出了一種級聯(lián)式聯(lián)合抽取模型,先抽取主體,再聯(lián)合抽取關系及客體.該方法在較好地解決實體重疊[6]問題的同時,還將主體信息引入到客體和關系抽取階段,通過主體識別和關系及客體識別兩個任務交互,改善了三元組抽取的性能.但該方法僅將主體與原文信息簡單相加,對兩個子任務的交互形式單一.

總體來看,流水線方法難以避免誤差傳播問題,其后的級聯(lián)式聯(lián)合模型既較好地解決了實體重疊問題,也表明令級聯(lián)模型的主體識別和關系及客體識別兩個任務進行交互,可以提升關系三元組抽取的性能,由此啟發(fā)了本文方法的提出.本文認為,級聯(lián)式聯(lián)合抽取模型中的主體抽取、客體及關系抽取兩個任務存在相關性,可基于主體進行信息融合,以提升關系三元組抽取的性能.這種融合含兩個層面,一是在主體中融入其位置信息以增強主體的表示,二是在文本中融入主體的信息以增強文本的表示.由此,提出了一種基于主體位置及注意力的信息聚合器(Position and Attention based Booster,PATB)用于關系三元組抽取任務.本文的主要工作如下:

1)提出了融合位置信息的主體表示方法,將主體的編碼與其頭尾詞的位置編碼融合,更新主體表示;

2)引入注意力機制,計算抽取的主體對文本中各詞的注意力,由此將主體編碼融入文本中,更新文本表示.將更新后的主體及文本表示進行融合,用于后續(xù)的客體及關系抽取;

3)分別在NYT和WebNLG兩個公共數據集上取得了優(yōu)于基線的實驗結果.

2 相關工作

關系三元組抽取主要分流水線方法[7]和聯(lián)合抽取方法.流水線方法將三元組提取分為實體識別和關系提取兩階段,首先提取實體對(subject,object),再對其進行關系分類.由于流水線方法的關系分類訓練使用帶標簽的實體對,但預測使用識別的實體對,因此難以避免由實體識別誤差引起的關系分類誤差.另外,流水線方法將實體和關系提取視為兩個獨立的子任務,忽視了兩個任務的關聯(lián)性.后續(xù)研究提出了旨在同時提取實體和關系的聯(lián)合模型.Yu等[8]提出了一個基于無向、有條件訓練的概率圖模型進行實體和關系聯(lián)合抽取.Makoto Miwa等[9]用BIO(Begin,Inside,Outside)方法標記句子中的詞項,建立實體和關系表以獲得句子表示,將實體和關系抽取視為表格填充問題.前述聯(lián)合模型雖能緩解流水線方法的誤差傳播問題,但其實施需進行復雜的特征工程.深度神經網絡為聯(lián)合方法[10]提供了更廣泛的思路.Pankaj Gupta等[11]提出了一種多任務循環(huán)神經網絡(Table Filling Multi-Task Recurrent Neural Network,TF-MTRNN),將句子序列送入循環(huán)神經網絡(Recurrent Neural Network,RNN)以獲得詞對間的候選依賴關系,再將候選依賴關系填入建模的表中,提升了實體識別及關系分類的性能.Makoto Miwa等[12]提出了一種帶注意力的多層雙向長短時記憶網絡(Bi-directional Long Short-Term Memory,BiLSTM)進行句子序列編碼,改進了關系識別的性能.Zheng等[13]提出了一種序列標記方法,為每個詞分配一個帶實體和關系類型信息的標簽,將實體關系抽取視為序列標記問題,但該方法只考慮一個實體屬于一個三元組的情況,未考慮實體重疊問題.

為提升關系三元組抽取性能,解決實體重疊問題也被研究者普遍關注.Zeng等[14]提出了一種序列到序列(Sequence-to-Sequence,Seq2Seq)的聯(lián)合模型,用端到端(End-to-End,End2End)的復制機制解決實體重疊問題,其F1值較基線提升30%以上.Zeng等[2]將生成三元組視為強化學習過程,通過獎勵策略令模型按照正確的事實生成三元組.T.Fu.等[15]提出了一種基于圖卷積網絡(Graph Convolutional Network,GCN)的聯(lián)合抽取模型,通過BiLSTM和GCN依賴樹,將句子的線性結構和依賴結構融入詞的表示中,在公共數據集NYT和WebNLG上獲得了優(yōu)于其基線的F1值.總體來看,基于深度神經網絡的聯(lián)合抽取方法通過避免誤差傳播和解決實體重疊而提升了三元組提取的性能,但其研究多是用分離解碼和參數共享方法,對實體與關系間的內在關系較少關注和應用.

文獻[5]提出了一種級聯(lián)式抽取框架CasRel(Cascade Relation Extraction).CasRel將關系視為從主體映射到客體的函數,先以半指針標注形式提取主體,再用提取的主體和特定關系的標記器來聯(lián)合提取客體及關系.CasRel較好地解決了實體重疊問題,同時,它通過簡單相加的方式將主體信息引入關系及客體抽取階段,雖然其方式單一,但其思路仍對后續(xù)研究有啟發(fā)意義.與該思路同類的研究還有Wang等[16]用雙編碼器融合詞序列信息和基于表格的特征信息進行關系提取,Sui等[17]將多頭自注意力融入句子信息對關系三元組進行集合預測等.這些研究表明,對聯(lián)合抽取模型,以某種方式將前一階段的信息融入下一階段,有助于提升關系三元組抽取的性能.

總體來看,聯(lián)合模型可以解決流水線方法的誤差傳播問題,基于深度學習的聯(lián)合方法已被廣泛用于關系三元組抽取任務.其中,文獻[5]的級聯(lián)式聯(lián)合抽取模型將主體信息簡單引入客體及關系抽取階段,為級聯(lián)模型中兩階段任務的交互提供了思路,啟發(fā)了本文提出基于主體位置及注意力的PATB信息聚合器,用于級聯(lián)式關系三元組聯(lián)合抽取.

3 信息融合方法分析

文獻[5]的研究表明,對抽取主體與抽取客體及關系這兩級任務的相關性加以利用,可提升關系三元組抽取的性能,這啟發(fā)了本文提出融合主體的信息聚合器PATB.PATB的工作主要有二:1)在主體中融入其位置信息以增強主體的表示;2) 在文本中融入主體信息以增強文本的表示.以下3.1及3.2小節(jié)闡述了主體的位置及主體信息對關系三元組抽取的影響.

3.1 主體的位置分析

在自然語言文本中,主體與客體的相對位置可能隨關系不同呈不同分布.例如,對表1的關系“family”,其句子S1的主體“Almond”與客體“Rosaceae”的詞距為4,句子S2的主體“Celery”與客體“Apiaceae”的詞距為5,主客體的位置距離均較近.對關系“club”,其句子S3中主體“Marcolini”與客體“Verona”的詞距為22,句子S4的主體“Panucci”與客體“Roma”的詞距為15.可見,對關系“family”和“club”,前者的主客體詞距總體大于后者,表明主體的位置與客體及關系存在顯著相關性.

為進一步觀察主體位置與關系及客體的相關性,本文分析了NYT數據集中主體s與客體o的相對位置.令pos(s)、pos(o)分別表示s與o在文本中的絕對位置,so表示s與o的位置關系,so描述如式(1)所示:

(1)

表1 主客體位置詞距示例Table 1 Example of subject object position word spacing

其中,pos1、pos2和pos3分別表示s與o在句中絕對位置的詞距為小于10、10~20及20詞以上.對NYT數據集中預定義的24種關系中的s與o按式(1)進行統(tǒng)計,結果如圖1所示.可見,各關系中主客體的位置均以pos1居多,其詞距為10詞以內,但總體詞距分布并不一致.例如關系r1中距離為pos3的主客體對比例顯著低于關系r13.

圖1 NYT數據集各關系中的主客體的詞距分布Fig.1 Word spacing distribution of subject and object in each relationship of NYT dataset

進一步觀察關系r1、r14、r24的so分布情況如圖2所示.可見關系r1中,主客體的詞距在10詞內的為10~20詞的7.4倍,而關系r14中僅為1.1倍.關系r1和r14的詞距為10~20詞的是20詞以上的1.3和2.6倍,但關系r24僅為0.77倍.顯然,對任意一種關系r,存在條件概率P(so|r),因此根據貝葉斯法則P(r|so)-P(so|r)P(r),在已知主體時,可根據其位置進一步推斷關系r.主體的位置對識別客體也有同樣的影響.由此,本文提出在識別出主體后,在主體的表示中融入其位置信息,得到融合位置信息的主體表示,進一步用于客體和關系提取.

圖2 NYT數據集中關系r1、r14和r24的主客體詞距分布Fig.2 Word spacing distribution of subject and object of relationshipr1,r14 and r24 in NYT dataset

3.2 主體與文本的注意力關系分析

文本中的同一對主體和客體在不同的上下文語境下可能存在不同關系,如表2所示.

表2 同一對主客體間的不同關系示例Table 2 Examples of same subject and object under different relationships

表2中,句子S1和S2的主體均為“The Great Wall”,客體均為“China”,但二者在S1中的關系是“l(fā)ocated in”,在S2中的關系是“belongs to”.分析其原因,在S1中,“The Great Wall”和“China”的關系較多受詞“l(fā)ocated”影響,而在S2中則較多受“of”的影響.這表明,對同一個主體,如果關注文本中不同的詞,可能捕獲該主體在不同關系下所對應的不同客體.因此,在提取到主體后,建立主體與文本中各詞的注意力關系,通過注意力將主體信息融入文本的表示中,有利于捕獲同一主體在不同關系下的客體,這為解決實體關系重疊問題提供了思路.

綜上,關系三元組中的主體在文本中的位置,以及主體與文本中各詞的注意力,對進一步提取關系和客體有顯著影響.由此,本文基于Wei等的級聯(lián)式抽取框架,構建了一個融合主體信息的信息聚合器PATB.PATB在抽取到主體后,一是通過位置增強主體的表示,二是通過計算主體與文本詞的注意力增強文本的表示,由此加強級聯(lián)模型兩階段的交互,提升關系三元組抽取的性能.

4 PATB實體關系聯(lián)合抽取模型

基于PATB的實體關系了聯(lián)合抽取模型如圖3所示,它是級聯(lián)式聯(lián)合抽取模型,含主體抽取器(Subject Extracter)、信息聚合器PATB及關系—客體抽取器(Relation-Object Extracter)三層結構.主體抽取器從文本中抽取主體,PATB對主體及文本表示進行更新,將更新后的主體及文本表示送入關系—客體抽取器進行客體和關系聯(lián)合抽取,得到完整的三元組.主體抽取器(Subject Extracter)檢測候選主體,將其開始和結束位置分別標為1.圖3中示例共有3個主體,Subject Extracter用3種不同灰度的方塊分別標識主體A.Elliott Meisel,Washington和United States of American的起始和結束位置,每一個主體迭代地輸入PATB中.

模型訓練目標為最小化抽取關系三元組的真實概率和模型抽取三元組的實際概率間的差異,損失函數如式(2)所示:

(2)

其中,s、o和r分別表示主體、客體及主客體之間的特定關系,x表示文本,θ為訓練參數集合,pθ為模型抽取關系三元組的概率,KL(p|pθ)表示真實概率p和pθ的KL散度.根據級聯(lián)式抽取思想,將式(2)建模為式(3):

(3)

其中,pθ(s|x)表示從文本中抽取主體的概率,pθ(o|s,x)表示根據已抽取的主體和原文本抽取客體的概率,pθ(o?|s,x)則表示根據已抽取的主體和原文本抽取客體為空的概率.

圖3 基于PATB的實體和關系聯(lián)合抽取級聯(lián)模型Fig.3 Cascade entity relationship extraction model based on PATB

4.1 BERT Encoder

預訓練模型BERT[18]可通過學習詞的上下文語義獲得文本語義的深層表示,在許多深度學習任務中[19]有優(yōu)秀表現,也被廣泛應用于實體關系抽取任務[20].本文用BERT對文本進行編碼,為加速收斂,防止梯度消失或爆炸,將BERT編碼器的輸出送入歸一化層(Layer Normalization),如式(4)所示:

H=LN(BERT(X))

(4)

其中,X={x1,x2,x3,…,xn}表示文本的詞序列,n為文本的詞數,LN表示歸一化層,H表示經過BERT編碼和歸一化后的文本表示,H={h1,h2,h3,…,hn},H∈b×l×d,b表示訓練批次,l表示文本長度,d表示BERT最后一層隱藏層的維度.

4.2 主體抽取器

主體抽取器用于從BERT編碼器產生的向量編碼中抽取出主體.它將識別主體的起始、結束位置分別視為二分類問題,用兩個相同的二進制分類器,分別識別主體的起始和結束位置.如果詞xi所處位置i被識別為主體起始或結束位置,則將該位置標為1,否則標為0,如式(5)、式(6)所示:

(5)

(6)

(7)

4.3 PATB信息聚合器

PATB信息聚合器對抽取的主體及文本的表示進行重編碼,用于進行下一階段的關系及客體抽取.

4.3.1 主體-文本注意力機制

為捕獲主體與文本的詞在不同關系下的語義相關性,本文引入了注意力機制.對抽取的主體,建立主體與文本各詞的注意力關系,通過不同程度地融入主體與文本在特定關系下的潛在客體的語義,增強文本的信息表示.

為進行注意力計算,首先對主體表示S進行維度變換.分別對其起始和結束位置的詞向量進行維度轉換和拼接,如式(8)所示:

S′=CAT[EX(hsta),EX(hend)]

(8)

其中,hsta和hend分別為S′的起始和結束位置的詞向量表示,EX表示將hsta和hend擴充成與文本向量H相同維度,CAT表示向量拼接.經過式(8),得到與文本表示H維度相同的主體表示S′∈b×l×d,對S′與H進行注意力計算如式(9)~式(11)所示:

Att(S′,H)=HS′T

(9)

(10)

(11)

其中,Att為S′與H的點積注意力,α是經softmax函數后的注意力分布.首先計算S′對文本每個詞的點積注意力,再經softmax得到S′對文本中每個詞的注意力分布α,最后將α與S′的點積結果與H相加,得到新的文本表示H′.該過程將主體信息以注意力的形式加權到文本信息中,在主體與潛在的客體間建立關聯(lián),實現了主體信息與文本信息的融合.

4.3.2 Conditional Layer Normalization

受圖像處理中的多信息融合結構(Conditional Batch Normalization,CBN)啟發(fā),Zhang等[21]提出了一種條件層歸一化方法(Conditional Layer Normalization,CLN),其結構如圖4所示.

圖4 CLN結構Fig.4 CLN structure

對輸入的文本特征x,CLN對歸一化結構層中偏置項γ和權重項β增加一個條件函數c.將條件函數c通過不同的線性映射,分別轉換為與LN中權重項γ和偏置項β相同維度,以此體現條件信息,控制模型輸出方向,得到新的x的表示.CLN的計算如式(12)所示:

(12)

其中,x為待歸一化的文本,E[x]和Var[x]分別為x的均值和方差.為防止分母為0出現計算錯誤,ε表示一個大于0的極小常數,cγ和cβ分別為添加在權重項γ和偏置項β上的條件.本文將CLN引入PATB,以文本表示H′為輸入,以主體表示S′為條件.需要注意的是,cγ和cβ均為主體表示S′,引導模型以主體的表示為輸出方向,得到新的文本表示,如式(13)所示:

H″=CLN(H′,S′)

(13)

其中,H″為通過CLN模塊融合主體表示S′后的新的文本表示.

4.3.3 位置信息增強

如前文3.1小節(jié)所述,主體的位置與客體及關系密切相關,為此,提出了融合位置信息的主體表示方法.計算主體起始詞和結束詞的位置向量,將位置向量與主體表示S′拼接,再輸入BiLSTM[22],得到融合位置信息的新的主體表示,計算過程如式(14)所示:

S″=BiLSTM([S′:psta:pend])

(14)

其中,S″表示經位置信息重編碼后的主體表示,psta和pend分別表示主體的起始詞和結束詞的位置向量.

將融合主體信息的文本表示H″和融合位置信息的主體的表示S″相加,得到新的文本表示HS,如式(15)所示:

HS=add(H″,S″)

(15)

其中,HS∈b*l*d,將HS輸入關系—客體抽取器(Relation-Object Extracter)用于關系和客體的聯(lián)合抽取.

4.4 關系—客體抽取器

為解決實體重疊問題,Wei等提出了一種關系—客體聯(lián)合抽取方法,它由一組特定于關系的客體標記器組成.對主體抽取器提取的主體s,客體標記器對每一種關系r,分別識別s在關系r下可能的客體的起始位置和結束位置,將起始位置標為1,否則標為0,最后將起始和結束位置間的文本片段識別為客體.顯然,由于是對每一類關系r分別識別s可能的客體,因此,客體與關系是聯(lián)合確定的,標識了s的客體,也就同時確定了s與客體的關系r.客體起始、結束位置判別方法如式(16)、式(17)所示:

(16)

(17)

(18)

4.5 損失函數

基于PATB的抽取模型是二級級聯(lián)結構,模型首先抽取主體,再在所有關系中分別抽取主體所對應的客體,由此聯(lián)合確定客體和關系.因此,模型以聯(lián)合方式進行訓練,其損失函數如式(19)所示:

(19)

其中,pθ(s|x)表示抽取主體的概率,pθ(o|s,x)表示根據抽取的主體和原文本抽取客體的概率.

5 實驗結果及分析

5.1 數據集

本文實驗在NYT和WebNLG兩個公共數據集上進行.數據集的構成如表3所示.

表3 NYT與WebNLG數據統(tǒng)計Table 3 Statistics of NYT and WebNLG

NYT最初用于遠程關系抽取任務,其數據集含24種關系類型.其中,訓練集的文本數為56195,測試集文本數為5000,驗證集文本數為5000.WebNLG最初用于自然語言生成任務,含246種關系類型,其中,訓練集句子數為5019,測試集句子數為703,驗證集為500.兩個數據集都有重疊的關系三元組,有3類不同的關系模式,分別是正常的關系三元組(Normal)、實體對重疊(Entity Pair Overlap,EPO)和單一實體重疊(Single Entity Overlap,SPO),由此將句子分為#Normal、#EPO、#SEO 3類.需要注意的是,一個文本可能同時包含EPO和SEO兩類重疊關系.

5.2 實驗設置

對本文實驗的參數,BERT編碼器用keras版本的BERTbase(cased)作為預訓練模型,主體抽取器和關系—客體抽取器的閾值σ和τ均設置為0.5.對PATB信息聚合器,其BiLSTM的隱層維度設置為768.訓練使用Adam優(yōu)化器,學習率和批量大小分別設置為1e-5和6,設置dropout為0.25,所有超參數都在驗證集上進行了調整.實驗在顯卡設備NVIDIA GeForce RTX 3090 Ti上進行.實驗用精確率(Pre.)、召回率(Re.)和F1值來評價方法性能.

(20)

(21)

(22)

其中,T表示預測正確的三元組數,P表示預測到的三元組數,G表示目標三元組數.對精確率指標Pre.,僅當提取的三元組(s,r,o)在其關系及主體和客體的最后一個單詞正確時才被視為正確.

5.3 實驗結果與分析

5.3.1 PATB與現有方法比較

為評估PATB的效果,本文選擇以下有代表性的模型進行比較:

CopyR:Zeng等[14]提出的利用復制機制的End2End關系抽取模型.

GraphRel:Tsu-Jui Fu等[15]提出的基于關系圖結構的關系抽取模型.

CopyRRL:Zeng等[2]提出的將強化學習用于關系三元組生成的End2End模型.

CasRel:Wei等[5]提出的二進制標記級聯(lián)模型.

DualDec:Ma等[23]于2021年在CasRel基礎上進行改進,提出一種改變關系三元組抽取順序的聯(lián)合抽取模型.

以上模型與PATB在NYT和WebNLG數據集上的實驗結果如表4所示.

表4 NYT和WebNLG數據集上不同方法的實驗結果Table 4 Experimental results(%)of different methods on NYT and WebNLG data sets

從表4可見,PATB在NYT和WebNLG數據集上取得了優(yōu)于其他基線的結果.對NYT數據集,本文方法的精確率為90.3%、召回率為91.5%,F1值為90.9%,F1值較CasRel提高1.3%,較DualDec方法提高0.4%.本文方法在WebNLG數據集上的精確率為93.6%,召回率為91.4%,F1值為92.5%,其F1值較CasRel提高0.7%,較DualDec方法提高2.5%.實驗結果表明,本文提出的PATB信息聚合器對提升關系抽取的整體性能有積極影響.

5.3.2 消融實驗

為評價融合主體位置信息及融合主體與上下文的注意力信息對PATB方法性能的影響,本文在數據集WebNLG上進行消融實驗,結果如表5所示.其中,PATBPos表示僅融合主體的位置信息,PATBAtt表示僅融合主體與上下文的注意力信息.

表5 PATB在數據集WebNLG中的消融實驗結果Table 5 Ablation experimental results(%)of PATB in WebNLG

從表5可見,PATB在僅融合主體的位置信息和僅融合主體與上下文的注意力信息時,多數評價指標都有不同程度的下降,但是與表4中基線模型CasRel相比,F1值仍然獲得了提升,表明PATB所提出的兩種信息增強方法均能夠提高模型性能.PATB在僅融合主體位置信息時,精確率、召回率和F1值分別為93.0%,91.1%和92.1%,精確率和召回率都略有下降,但精確率仍然保持93%左右.PATB在僅融合主體與上下文的注意力信息時,精確率、召回率和F1值分別為92.1%,91.7%和91.9%,精確率下降明顯,而召回率不降反升.實驗結果表明,僅融合主體位置信息時,上下文中添加了主體位置,由前文3.1分析的主客體位置關系對于抽取關系三元組的影響,且上下文中未添加其他語義信息,故對于精確率影響和召回率的均較小.僅融合上下文的注意力信息時,上下文中融入了主體,包含了額外的語義信息,故可能影響抽取的精確率.從實驗結果總體來看,兩種信息融合方法相互影響,故而從整體上提升了PATB方法提取關系三元組的性能.

5.3.3 信息聚合對單一元素的影響

為進一步分析PATB信息聚合器對提取關系三元組中各元素性能的影響,本文分別對比了PATB與CasRel在NYT和WebNLG數據集上進行單一元素抽取的性能,實驗結果如表6所示,其中,(s,o)表示僅評測抽取主體及客體,不考慮關系;(r)表示僅評測關系,不考慮主體與客體;(s,r,o)表示評測整個關系三元組.

表6 分別抽取關系三元組中不同元素的F1值Table 6 F1 scores of extracting each element of the triples

從表6可見,PATB與CasRel在NYT和WebNLG兩個數據集上的對比無論對單獨抽取主客體(s,o),還是單獨抽取關系(r),其F1值都提高近0.5%.從抽取整個三元組(s,r,o)的效果看,本文方法分別較CasRel提高1.3%和0.7%.實驗表明,利用PATB進行信息重編碼,增強了主體及原文編碼的表示能力,能夠提升抽取客體的召回率及精確率,F1獲得提高,且PATB捕獲了關系三元組中各個不同元素之間的語義聯(lián)系,利用注意力機制將主體信息融入上下文中,加強了主客體之間的關聯(lián),有利于在重編碼的文本表示中識別出客體.

5.3.4 信息聚合對實體重疊問題的影響

為觀察添加PATB信息聚合器后,是否影響模型提取重疊關系三元組的能力,本文分別在NYT和WebNLG數據集上,對包含Normal、EPO和SEO 3種不同關系模式的測試數據進行了實驗,實驗結果如圖5所示.可見,由于Normal、EPO和SEO對應的重疊模式越來越復雜,除CasRel方法外,其余基線方法在3種重疊關系上的F1值均逐漸下降,但PATB方法在3種模式的測試數據上都取得了穩(wěn)定的F1值,且在EPO和SPO情況下,F1值多數在90%以上,比無實體重疊Normal時效果更好.可見,在存在實體關系重疊的復雜語境中,PATB反而進一步提升了三元組抽取的性能.分析其原因,由于PATB建立了同一對主體、客體在不同關系下的注意力,由此對各類關系下的潛在客體進行不同程度地信息融合,提升了原文對主體、客體在不同關系下的語義表示,令PATB在各類重疊情況下仍能保持穩(wěn)定的提取性能.

圖5 對重疊程度不同的句子提取三元組的F1值情況Fig.5 Extracts the F1 score of triples from sentences with different degrees of overlap

5.3.5 信息聚合對提取多個三元組的影響

為觀察PATB方法在復雜語境下的抽取性能,本文驗證了PATB在每一個包含不同關系三元組數量的文本中的抽取性能.實驗將測試數據分為5類,分別是每個文本中含1~5個三元組的情況,實驗結果如圖6所示.

圖6 對含不同關系三元組個數的文本提取的F1值Fig.6 Extracts F1 scores of triples from sentences with different numbers of triples

從對比結果可見,隨著文本中三元組個數增加,大部分基線模型的F1值呈下降趨勢,但PATB方法未受到明顯影響,F1值依然高于基線方法.尤其是,當文本中含5個及以上的關系三元組時,PATB在兩個數據集上的F1值仍能分別達到88.9%和92.7%,相較基線方法分別高出5.2%和1.8%.實驗結果表明,由于PATB通過主體位置、主體與原文的詞注意力,增強了主體及原文的信息表示,令抽取客體時的文本序列中包含更加豐富的三元組關聯(lián)信息,因此,即使文本中關系三元組數量逐漸增加,模型仍然可以維持不錯的效果.可見,在復雜語言結構的語境下,PATB方法仍可發(fā)揮良好的關系三元組提取性能.

6 總 結

在關系三元組抽取任務中,文本及詞的編碼信息的豐富性和完善程度,對任務的最終性能影響至關重要.現有實體關系抽取研究雖已取得豐富成果,但在級聯(lián)式三元組抽取中,對實體抽取與客體及關系抽取兩階段任務的交互存在不足,對實體的位置及上下文語義信息的運用尚不充分,為此,提出了一種融合主體位置和上下文注意力的信息聚合器PATB,用于改善主體和文本的表示,由此構建了級聯(lián)式實體關系聯(lián)合抽取模型.首先抽取主體,再以PATB分別融合主體的位置、融合主體與上下文的注意力信息,對主體和文本的表示進行增強,進一步進行客體及關系的聯(lián)合抽取.實驗表明,基于PATB的級聯(lián)式實體關系抽取方法在NYT和WebNLG數據集上均取得了優(yōu)于基線方法的F1值,在Normal、EPO和SEO這3類重疊模式上的F1值也優(yōu)于基線方法,且在包含多三元組文本的抽取任務中的抽取性能較基線方法更為穩(wěn)定.在下一步工作中,在抽取主體時,考慮不僅抽取主體的起始和結束詞作為主體的表示,而是抽取完整的主體用于后續(xù)的信息融合;并嘗試將PATB用于其他結構復雜的文本中,如文檔級等需考慮上文語義關系的實體關系抽取任務中.

猜你喜歡
三元組客體注意力
基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
讓注意力“飛”回來
特征標三元組的本原誘導子
關于余撓三元組的periodic-模
“揚眼”APP:讓注意力“變現”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
舊客體抑制和新客體捕獲視角下預覽效應的機制*
論著作權客體的演變
論著作權客體的演變
三元組輻射場的建模與仿真
北票市| 临西县| 囊谦县| 尚志市| 宝丰县| 荥经县| 水城县| 荃湾区| 威信县| 娱乐| 清远市| 永修县| 新竹市| 如皋市| 泾阳县| 凌海市| 吐鲁番市| 桂阳县| 丹巴县| 黔江区| 涪陵区| 黑水县| 柯坪县| 通州区| 华安县| 珲春市| 双城市| 河北区| 合川市| 大田县| 疏勒县| 阳谷县| 双城市| 甘谷县| 衡阳县| 霍林郭勒市| 宣化县| 洛宁县| 皋兰县| 凉城县| 泌阳县|