唐楠楠,陳 吉,侯 磊,王 星
1(遼寧工程技術(shù)大學(xué) 電子與信息工程學(xué)院,遼寧 葫蘆島 125105)2(臨沂大學(xué) 信息科學(xué)與工程學(xué)院,山東 臨沂 276000)3(清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084)4(清華大學(xué) 人工智能研究院 知識(shí)智能研究中心,北京 100084)
知識(shí)圖譜[1]本質(zhì)是由實(shí)體結(jié)點(diǎn)相互連接形成的網(wǎng)狀語義知識(shí)庫.隨著信息時(shí)代的發(fā)展,知識(shí)圖譜已滲透到教育、醫(yī)療、金融等領(lǐng)域,在信息搜索[2]、智能問答[3]、推薦系統(tǒng)[4]等應(yīng)用中發(fā)揮著重要的作用.知識(shí)圖譜的構(gòu)建離不開關(guān)系抽取,實(shí)體關(guān)系抽取[5,6]旨在從非結(jié)構(gòu)化文本中抽取結(jié)構(gòu)化的實(shí)體關(guān)系事實(shí).這些事實(shí)以(主語,關(guān)系,賓語)的形式存在,稱為關(guān)系三元組.關(guān)系三元組是構(gòu)成知識(shí)圖譜的基本單位,因此關(guān)系抽取被視作構(gòu)建知識(shí)圖譜的根基[7].
傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取研究通常以基于統(tǒng)計(jì)和基于規(guī)則兩種方法[8]為主.近年來,由于深度學(xué)習(xí)可以較精確地獲取更深層的特征,基于深度學(xué)習(xí)的方法[9,10]成為了實(shí)體關(guān)系抽取領(lǐng)域的研究熱點(diǎn).基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取根據(jù)實(shí)體識(shí)別和關(guān)系分類的完成順序又可分為流水線方法和聯(lián)合抽取方法兩種.流水線方法[11-17]將實(shí)體識(shí)別與關(guān)系抽取視為兩個(gè)獨(dú)立的任務(wù),首先由實(shí)體模型提取實(shí)體,再進(jìn)行實(shí)體間的配對,最后將實(shí)體對進(jìn)行關(guān)系分類,這種方法的優(yōu)點(diǎn)在于靈活性強(qiáng),易于操作,但往往存在誤差積累和交互缺失.聯(lián)合抽取方法[18-27]通過一個(gè)模型同時(shí)實(shí)現(xiàn)實(shí)體抽取和關(guān)系抽取,能更好地整合實(shí)體及其關(guān)系之間的信息,增加兩個(gè)子任務(wù)間的聯(lián)系,可獲得較好的性能.
目前多數(shù)聯(lián)合抽取模型使用雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)編碼[19,20],該網(wǎng)絡(luò)可以捕獲長距離信息,但存在無法挖掘出句子中重點(diǎn)信息的問題,對句子中蘊(yùn)含的語義信息獲取不夠豐富,也不能并行運(yùn)算,計(jì)算效率較低;以往大多數(shù)聯(lián)合抽取模型將關(guān)系視為實(shí)體對上的離散函數(shù)[23-25],這種做法會(huì)由于訓(xùn)練樣本有限,導(dǎo)致同一實(shí)體參與多個(gè)關(guān)系時(shí)很難得到正確的分類,無法較好地解決句子中包含相互重疊的多個(gè)關(guān)系三元組的問題.因此,本文提出了一種融合注意力機(jī)制和指針標(biāo)注的實(shí)體關(guān)系聯(lián)合抽取模型AMPA(Attention Mechanism and Pointer Annotation).本文利用預(yù)訓(xùn)練語言模型BERT編碼詞向量,通過多頭自注意力機(jī)制多維度捕獲句子中的關(guān)鍵信息,注意力模型可以不依賴前一時(shí)刻狀態(tài)進(jìn)行并行計(jì)算,在提高效率的同時(shí)充分獲取長距離豐富的語義信息.模型將關(guān)系建模為主語到賓語的映射函數(shù),通過指針標(biāo)注器先抽取主語,然后在關(guān)系條件下依次對每一個(gè)主語對應(yīng)的賓語進(jìn)行標(biāo)記,通過分層的指針標(biāo)注可以自然地處理三元組重疊問題.在抽取賓語之前將主語的特征采用改進(jìn)的層歸一化方法融合到句子編碼向量中,以此增強(qiáng)表達(dá)能力以及模型中主語與賓語抽取任務(wù)間的依賴性,最終本文的主要工作包括以下3點(diǎn):
1)為了深入獲取句子中詞向量內(nèi)部潛在的語義特征,提出了將多頭注意力機(jī)制與指針網(wǎng)絡(luò)相結(jié)合的AMPA模型,在一定程度解決三元組重疊問題的同時(shí),獲取更加豐富的語義信息,提高語義特征抽取能力.
2)為了增強(qiáng)模型依賴,將抽取的主語特征作為條件信息,通過層歸一化方式融合到特征向量中,該特征融合方法取代簡單的連接,為賓語和關(guān)系的抽取增強(qiáng)表達(dá)能力.
3)本文在公開數(shù)據(jù)集NYT和WebNLG分別進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明AMPA模型的各項(xiàng)評價(jià)指標(biāo)均有較好的表現(xiàn),在兩個(gè)數(shù)據(jù)集上的F1值最高分別可達(dá)到92.1%、92.7%.
基于流水線的方法進(jìn)行關(guān)系抽取是指實(shí)體識(shí)別與關(guān)系分類兩個(gè)任務(wù)分開進(jìn)行,可以描述為對已經(jīng)標(biāo)注好目標(biāo)實(shí)體對的句子進(jìn)行關(guān)系抽取,之后把存在實(shí)體關(guān)系的三元組作為預(yù)測結(jié)果輸出.這類模型主要采用基于CNN[11]、RNN[12]、LSTM[13]及其改進(jìn)模型的網(wǎng)絡(luò)結(jié)構(gòu).Zeng等人[14]提出分段的卷積神經(jīng)網(wǎng)絡(luò)PCNN模型,將句子按照兩個(gè)實(shí)體分割成3段分別進(jìn)行最大池化,來自動(dòng)提取特征,并采用多示例學(xué)習(xí)的方式對遠(yuǎn)程監(jiān)督降噪;Lin等人[15]提出PCNN與注意力機(jī)制的融合方法,通過構(gòu)建句子級注意力加權(quán)的關(guān)系提取向量,有效地降低了錯(cuò)誤標(biāo)記的影響;Shikhar等人[16]提出在圖卷積網(wǎng)絡(luò)GCN基礎(chǔ)上添加實(shí)體類型和關(guān)系別名信息,通過施加軟約束來輔助學(xué)習(xí)提高抽取效果;Peng等人[17]提出動(dòng)態(tài)改變損失函數(shù)的方法,提高遠(yuǎn)程監(jiān)督的準(zhǔn)確率.雖然流水線的方法相對易于實(shí)現(xiàn),靈活性強(qiáng),兩個(gè)模型可以使用獨(dú)立的數(shù)據(jù)集,但是實(shí)體抽取產(chǎn)生的錯(cuò)誤往往會(huì)影響關(guān)系抽取的性能,造成誤差累積;其次它忽略了兩個(gè)任務(wù)之間的內(nèi)在聯(lián)系與依賴關(guān)系;此外因?yàn)槟P托枰葘Τ槿〉膶?shí)體進(jìn)行兩兩配對,然后再進(jìn)行關(guān)系分類,這樣沒有關(guān)系的候選實(shí)體對會(huì)產(chǎn)生實(shí)體冗余,冗余信息不但會(huì)提高錯(cuò)誤率,還會(huì)增加模型計(jì)算的復(fù)雜度.
流水線的方法雖然操作簡單,但是模型的局限性影響了抽取效果,隨后有學(xué)者提出了實(shí)體關(guān)系聯(lián)合抽取的方法.基于聯(lián)合抽取的方法是指將實(shí)體識(shí)別和關(guān)系分類進(jìn)行聯(lián)合建模,即用單一模型抽取出文本中的實(shí)體關(guān)系三元組,這種方法能增強(qiáng)兩個(gè)子任務(wù)之間的聯(lián)系.2016年,Miwa等人[18]首次提出將神經(jīng)網(wǎng)絡(luò)用于聯(lián)合抽取實(shí)體和關(guān)系.Katiyar等人[19]提出將Bi-LSTM用于聯(lián)合提取實(shí)體關(guān)系三元組,但模型存在無法抽取其他關(guān)系類型的問題.Katiyar等人[20]改進(jìn)模型無法擴(kuò)展的問題,將Bi-LSTM與注意力機(jī)制結(jié)合來聯(lián)合抽取,改善了Miwa等人[18]模型中依賴詞性標(biāo)簽等缺點(diǎn),同時(shí)該方法可擴(kuò)展應(yīng)用于提取各種已定義的關(guān)系類型.Bekoulis等人[21]將關(guān)系抽取任務(wù)建模為多頭選擇問題,模型可以不依賴外部自然語言處理工具,在訓(xùn)練中自動(dòng)提取特征.然而,這些模型多數(shù)使用Bi-LSTM網(wǎng)絡(luò),無法并行運(yùn)算,由于模型結(jié)構(gòu)問題導(dǎo)致編碼能力較弱,語義信息獲取不夠豐富.
2017年,Zheng等人[22]提出將聯(lián)合抽取任務(wù)轉(zhuǎn)換成序列標(biāo)注任務(wù),該方法優(yōu)于當(dāng)時(shí)大多數(shù)抽取模型,為關(guān)系抽取打開了新思路,然而該模型忽略了句子中包含相互重疊的多個(gè)關(guān)系三元組的問題.2018年,Zeng[23]首先提出解決三元組重疊問題,通過帶有復(fù)制機(jī)制的Seq2seq模型解決重疊問題,但模型依賴解碼的結(jié)果存在實(shí)體識(shí)別不全的缺點(diǎn).Fu等人[24]采用加權(quán)的圖卷積神經(jīng)網(wǎng)絡(luò)GCN考慮命名實(shí)體和關(guān)系之間的交互.Zeng等人[25]優(yōu)化之前的模型,考慮到關(guān)系事實(shí)的提取順序,將強(qiáng)化學(xué)習(xí)應(yīng)用到模型中,可自動(dòng)生成關(guān)系事實(shí).Yu等人[26]提出將聯(lián)合抽取分解為兩個(gè)相互關(guān)聯(lián)的子任務(wù)的分解策略,更好地捕獲頭尾實(shí)體的相關(guān)性.Wei等人[27]提出了一種新的級聯(lián)二進(jìn)制指針標(biāo)注框架處理重疊問題,為關(guān)系三元組抽取提供了新的視角,但此模型將主語向量取平均后連接到特征向量中,存在特征丟失問題.
綜上所述,現(xiàn)有的聯(lián)合抽取模型已經(jīng)取得了較好的抽取效果,但仍存在語義信息獲取不充分,模型依賴不足的問題,而且多數(shù)模型不能較好地解決三元組重疊的情況.針對現(xiàn)存的問題,本文提出了一種基于多頭注意力機(jī)制和指針標(biāo)注結(jié)合的聯(lián)合抽取模型.
關(guān)系三元組提取的目標(biāo)是識(shí)別句子中所有可能的(s,r,o)三元組,其中s為主語,o為賓語,r為關(guān)系.根據(jù) Seq2Seq 模型的解碼思路,關(guān)系三元組抽取可以表示為公式(1),即先預(yù)測主語s,然后通過主語s預(yù)測對應(yīng)的賓語o,最終傳入主語s、賓語o預(yù)測對應(yīng)的關(guān)系r.
P(s,r,o)=P(s)P(o|s)P(r|s,o)
(1)
從句子x中抽取關(guān)系三元組時(shí),可以設(shè)計(jì)將賓語o和關(guān)系r的預(yù)測合并為一步,即先抽取主語s,再根據(jù)主語s同時(shí)抽取賓語o及關(guān)系r.可以得出三元組抽取的公式(2).
P(s,r,o|x)=P(s|x)P(r,o|s,x)
(2)
理論上,該公式只能從句子中抽取一個(gè)三元組,為了處理多個(gè)主語s、賓語o以及多個(gè)關(guān)系r的情況,本文將三元組抽取問題轉(zhuǎn)化成指針標(biāo)注問題.首先通過指針標(biāo)注從一個(gè)句子中抽取出n個(gè)主語s.然后在抽取賓語o和關(guān)系r時(shí)采用分層的指針標(biāo)注方式,預(yù)先定義好關(guān)系,依次將抽取到的各個(gè)主語s在每一種關(guān)系條件下對賓語o進(jìn)行預(yù)測.最終完整地抽取出句子中所包含的三元組.
本文提出的AMPA模型通過預(yù)訓(xùn)練語言模型BERT編碼詞向量,設(shè)計(jì)多頭自注意力層來豐富語義特征,將序列標(biāo)注轉(zhuǎn)化為指針網(wǎng)絡(luò)標(biāo)注處理三元組實(shí)體重疊問題.模型總體框架如圖1所示,模型可分為BERT詞嵌入層、多頭注意力層和指針網(wǎng)絡(luò)層.其中,向量hN表示BERT編碼的句子向量;向量M為經(jīng)過多頭注意力網(wǎng)絡(luò)層訓(xùn)練的特征向量;0/1標(biāo)記表示該位置是否對應(yīng)起始或結(jié)束.虛線框內(nèi)的部分表示抽取出的主語.以第1個(gè)抽取出的主語“Scarlett Johansson”為例,在“Birth_place”關(guān)系條件下對應(yīng)賓語為“New York”和“the United States”,在其他的關(guān)系條件下沒有對應(yīng)的賓語,所以主語“Scarlett Johansson”可以抽取出(Scarlett Johansson,Birth_place,New York)和(Scarlett Johansson,Birth_place,the United States)兩個(gè)關(guān)系三元組.在每個(gè)主語和每種關(guān)系下依次操作,最終抽取出句子中潛在的全部三元組.
圖1 AMPA實(shí)體關(guān)系三元組抽取模型結(jié)構(gòu)Fig.1 AMPA entity relation triples extraction model structure
2018年,Devlin等人[28]提出了BERT語言模型,該模型是基于多層Transformer[29]的雙向編碼表征模型,以往通過Word2vec、Glove訓(xùn)練的詞向量為靜態(tài)的,BERT模型通過動(dòng)態(tài)地訓(xùn)練詞向量可以充分地學(xué)習(xí)深層表征信息.因此本文采用預(yù)先訓(xùn)練的BERT模型作為詞向量嵌入層來編碼上下文信息.
本文抽取任務(wù)輸入的是單個(gè)句子而不是句子對,所以輸入向量中不包括分割嵌入,因此BERT輸入向量為輸入句子的子詞嵌入和每個(gè)詞的位置嵌入之和.本文將Transformer表示為Trans(·),具體操作可以表示為公式(3)、公式(4).其中WS是子詞嵌入矩陣,WP是位置嵌入矩陣,N是Transformer的數(shù)目,本文中N=12,hα是隱藏層狀態(tài),也就是輸入句子在α層的上下文信息.hN表示最終經(jīng)過N層Transformer編碼得到的句子向量.
h0=WS+WP
(3)
hα=Trans(hα-1),α∈[1,N]
(4)
自注意力機(jī)制[30]可以學(xué)習(xí)句子的內(nèi)部結(jié)構(gòu),通過計(jì)算兩個(gè)詞之間的相似度,學(xué)習(xí)到句子中任意兩個(gè)詞之間潛在的依賴信息.通常采用縮放點(diǎn)積注意力進(jìn)行計(jì)算,如公式(5)所示.
(5)
圖2 多頭自注意力模型Fig.2 Multi-head self-attention model
(6)
M(Q,K,V)=Concat(head1,…,headt)Wo
(7)
本文采用指針標(biāo)注方式解碼.首先通過指針標(biāo)注抽取句子中的所有主語,然后采用分層的指針標(biāo)注抽取關(guān)系和賓語,將每一個(gè)主語作為先驗(yàn)條件,利用層歸一化將主語與句子向量進(jìn)行特征融合,依次在每一種關(guān)系條件下標(biāo)注主語對應(yīng)的賓語.
3.3.1 主語標(biāo)注
將多頭注意力層的輸出向量輸入到兩個(gè)相同的二進(jìn)制指針標(biāo)注器,分別預(yù)測句子中主語的起始位置和結(jié)束位置,通過0/1指針確定該標(biāo)記是否對應(yīng)于主語起始和結(jié)束位置.具體操作如公式(8)、公式(9)所示.
(8)
(9)
(10)
3.3.2 主語特征融合
為了加強(qiáng)模型的依賴性,在抽取賓語時(shí)要考慮主語的特征,但是采用簡單的連接會(huì)導(dǎo)致特征表達(dá)效果不佳.本文把主語特征作為條件采用層歸一化LN(Layer Normalization)方法將主語特征與句子向量進(jìn)行更有效的融合.層歸一化可以避免批歸一化中受批量大小的影響,適用于小批量場景.LN計(jì)算如式(11).
(11)
其中,mi為輸入向量M中對應(yīng)第i個(gè)位置的向量,μ為均值,σ為標(biāo)準(zhǔn)差,ε是接近0的正數(shù),α與β是模型訓(xùn)練參數(shù).本模型改進(jìn)的層歸一化ILN(Improved Layer Normalization)進(jìn)行特征融合時(shí)將主語向量s通過兩個(gè)不同的變換矩陣,轉(zhuǎn)換成與α、β同樣的維度,然后將兩個(gè)變換結(jié)果分別加到α和β上.其計(jì)算過程如公式(12)所示.
(12)
3.3.3 賓語標(biāo)注
賓語標(biāo)注采用分層的指針,首先預(yù)定義若干種關(guān)系,在每一種關(guān)系下都建立兩個(gè)二進(jìn)制指針標(biāo)注器,實(shí)際操作與主語標(biāo)注類似,不同的是輸入向量改為融合了主語特征的句子向量ILN,特定關(guān)系下的詳細(xì)操作如公式(13)、公式(14)所示.
(13)
(14)
(15)
AMPA模型的整體損失值為主語抽取任務(wù)和關(guān)系條件下賓語抽取任務(wù)兩部分任務(wù)的損失之和.損失函數(shù)表示為公式(16).
(16)
其中,|D|表示訓(xùn)練集大小,xj是訓(xùn)練集D中的一個(gè)句子,Tj={(s,r,o)}是句子中的潛在三元組.模型使用Adam優(yōu)化器對損失函數(shù)進(jìn)行優(yōu)化.
為了驗(yàn)證AMPA模型的實(shí)驗(yàn)效果,本文在NYT[31](New York Times)和WebNLG[32]兩個(gè)經(jīng)典的實(shí)體關(guān)系聯(lián)合抽取公共數(shù)據(jù)集上進(jìn)行驗(yàn)證.NYT數(shù)據(jù)集由遠(yuǎn)程監(jiān)督的方式產(chǎn)生,WebNLG數(shù)據(jù)集最初為自然語言處理任務(wù)而創(chuàng)建.為了與先前的模型進(jìn)行公正的對比,本文采用Zeng等人[23]預(yù)處理版本的兩個(gè)數(shù)據(jù)集.其中NYT數(shù)據(jù)集包括24種預(yù)定義的關(guān)系,共有56195個(gè)實(shí)例用于訓(xùn)練,5000個(gè)實(shí)例用于測試,5000個(gè)實(shí)例用于驗(yàn)證.WebNLG數(shù)據(jù)集包括246種預(yù)定義的關(guān)系,總共包含5019個(gè)實(shí)例,測試集包含703個(gè)實(shí)例,驗(yàn)證集包含500個(gè)實(shí)例.根據(jù)句子不同的重疊情況,將句子分為正常情況、實(shí)體對重疊EPO情況和單一實(shí)體重疊SEO情況,具體數(shù)據(jù)如表1所示.
表1 數(shù)據(jù)集統(tǒng)計(jì)Table 1 Statistics of datasets
為了驗(yàn)證AMPA模型的有效性,本文采用準(zhǔn)確率P,召回率R和調(diào)和平均值F1來評估本文的模型,其中F1為主要的評價(jià)指標(biāo).定義模型預(yù)測產(chǎn)生的關(guān)系三元組與真實(shí)的三元組完全相同時(shí)為正確抽取的數(shù)量.評價(jià)指標(biāo)公式具體如公式(17)-公式(19).
(17)
(18)
(19)
AMPA模型在服務(wù)器Ubuntu18.04操作系統(tǒng)上運(yùn)行,處理器為Inter(R)Core i7-6800K@3.40GHZ,運(yùn)行內(nèi)存16GB(RAM),顯卡為GIGA-BYTE GeForce GTX1080Ti.采用TensorFlow1.15和Keras2.2.4搭建深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò).
實(shí)驗(yàn)中初始詞向量的維度為預(yù)訓(xùn)練語言模型BERT的向量維度768.模型采用小批量學(xué)習(xí)訓(xùn)練,批量大小為6.模型采用Adam優(yōu)化器來更新優(yōu)化參數(shù).在驗(yàn)證集上確定參數(shù),當(dāng)驗(yàn)證集上F1結(jié)果連續(xù)15個(gè)訓(xùn)練周期不發(fā)生改變時(shí)停止訓(xùn)練.通過調(diào)整參數(shù)對比結(jié)果,AMPA模型的最優(yōu)參數(shù)如表2所示.
表2 模型參數(shù)值Table 2 Model parameter values
4.3.1 整體結(jié)果
為了驗(yàn)證AMPA模型的有效性,將其與目前較好的幾個(gè)聯(lián)合抽取基線模型進(jìn)行對比,分別為Zheng提出的NovelTagging模型[21]、Zeng 提出的CopyRE模型[22]、Fu提出的GraphRel模型[23]、Zeng提出的CopyRRL模型[24]、Yu提出的ETL-Span模型[25],以及Wei提出的CasRel模型[26].在兩個(gè)數(shù)據(jù)集的對比實(shí)驗(yàn)結(jié)果如表3、表4所示, 加粗字體為最優(yōu)數(shù)據(jù)結(jié)果.
表3 在NYT數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果Table 3 Comparison of experimental results on NYT dataset
表4 在WebNLG數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果Table 4 Comparison of experimental results on WebNLG dataset
通過表3和表4數(shù)據(jù)可見,AMPA模型在3項(xiàng)評價(jià)上的結(jié)果指標(biāo)均超過了基線模型.在NYT和WebNLG數(shù)據(jù)集上,F1得分比最優(yōu)的基線模型分別提高了2.5%和0.9%.特別地,在WebNLG數(shù)據(jù)集上F1值達(dá)到了92.7%.證明了AMPA模型在實(shí)體關(guān)系聯(lián)合抽取中的有效性.本模型性能較優(yōu)是因?yàn)锽ERT語言模型比靜態(tài)編碼能更充分地學(xué)習(xí)表征信息,多頭注意力機(jī)制相比其他網(wǎng)絡(luò)在特征提取方面更優(yōu)秀,主語特征融合可以加強(qiáng)指針標(biāo)注模型中主語和賓語的依賴.對比兩表發(fā)現(xiàn)AMPA模型在NYT數(shù)據(jù)集上的提升更為明顯,而在WebNLG數(shù)據(jù)集上的提升較弱.這與數(shù)據(jù)集的本身性質(zhì)有關(guān),因?yàn)閃ebNLG數(shù)據(jù)集預(yù)定義的關(guān)系較多,而且本身訓(xùn)練數(shù)據(jù)較少,所以WebNLG數(shù)據(jù)集可以達(dá)到較好結(jié)果但提升的空間有限.
4.3.2 消融實(shí)驗(yàn)
為了驗(yàn)證多頭注意力機(jī)制和條件層歸一化對AMPA模型性能的影響,本文在兩個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),對比結(jié)果如表5所示.其中,AMPA-LN表示指針網(wǎng)絡(luò)中將主語向量與句子向量直接連接代替特征融合;AMPA-ATT表示消去多頭注意力網(wǎng)絡(luò).
表5 在兩個(gè)數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果Table 5 Results of ablation experiments on two datasets
對比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)不添加多頭注意力和不采用主語特征融合時(shí),多數(shù)評價(jià)指標(biāo)會(huì)有不同程度的下降.其中多頭注意力網(wǎng)絡(luò)對于準(zhǔn)確率的影響較大,說明注意力網(wǎng)絡(luò)通過豐富特征向量提高了模型的抽取準(zhǔn)確性;觀察數(shù)據(jù)發(fā)現(xiàn),AMPA-LN模型的準(zhǔn)確率和召回率相差懸殊,進(jìn)行主語特征融合后因?yàn)槠湓黾又髡Z與賓語的依賴性,一定程度上使得模型的準(zhǔn)確率和召回率結(jié)果更加平衡.總體來說,多頭注意力機(jī)制和主語特征融合對AMPA模型性能的提升具有明顯效果.
4.3.3 重疊問題實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證AMPA模型具有解決三元組重疊問題的能力,本文將AMPA模型在正常、單個(gè)實(shí)體重疊、實(shí)體對重疊的3種不同重疊模式下與基線模型進(jìn)行對比,在兩個(gè)數(shù)據(jù)集中F1結(jié)果的對比情況如圖3、圖4所示.
圖3 在NYT數(shù)據(jù)集上的不同重疊模式的F1得分Fig.3 F1 scores for different overlapping patterns on the NYT dataset
由圖3可見,在NYT數(shù)據(jù)集中AMPA模型在3種不同重疊模式下的F1值均優(yōu)于其他模型,觀察圖4可見,在WebNLG數(shù)據(jù)集中,AMPA模型在單一實(shí)體重疊和實(shí)體對重疊情況下分別提高了0.3%和1.4%.但在正常情況下的F1得分不及CasRel模型.其次,還可以觀察到,之前的多數(shù)模型在重疊情況下的抽取效果相比正常情況會(huì)有下降趨勢,而AMPA在重疊情況下的結(jié)果相比正常情況表現(xiàn)更好.這是因?yàn)檫@些模型的結(jié)構(gòu)存在缺陷,它們將關(guān)系建模為實(shí)體對上的離散函數(shù),當(dāng)同一實(shí)體參與多種關(guān)系時(shí),模型無法對關(guān)系進(jìn)行正確分類,從而出現(xiàn)三元組缺失的情況.雖然CasRel模型對于重疊情況也有較好的表現(xiàn),但AMPA模型對于處理復(fù)雜句子有更大的優(yōu)勢.原因在于分層的指針標(biāo)注可以通過映射關(guān)系處理重疊問題,而多頭注意力機(jī)制能夠從多個(gè)維度獲取句子的特征信息,可以更好地解讀復(fù)雜句式中的關(guān)鍵信息.同時(shí)在主語賓語標(biāo)注中采用主語特征融合,可以增強(qiáng)模型依賴.綜上所述,AMPA模型可以較好的處理復(fù)雜的文本,對于處理實(shí)體關(guān)系聯(lián)合抽取中存在的三元組重疊問題時(shí)具備有效性.
圖4 在WebNLG數(shù)據(jù)集上的不同重疊模式的F1得分Fig.4 F1 scores for different overlapping patterns on the WebNLG dataset
本文融合多頭注意力機(jī)制和指針網(wǎng)絡(luò)提出了一種可以解決關(guān)系三元組重疊問題的實(shí)體關(guān)系聯(lián)合抽取模型AMPA.該模型通過多頭的注意力機(jī)制多個(gè)維度地捕捉句子中潛在的特征信息,在指針網(wǎng)絡(luò)中添加了主語特征融合層,將主語向量融合到句子向量中,強(qiáng)化了主語抽取與關(guān)系賓語抽取任務(wù)之間的聯(lián)系,提高模型性能.實(shí)驗(yàn)結(jié)果表明,AMPA模型可以解決三元組重疊問題,并且相比基線模型可以在實(shí)體關(guān)系聯(lián)合抽取任務(wù)上取得較好的效果.
該模型雖然取得了一定的效果,但當(dāng)數(shù)據(jù)集存在較大噪聲和長尾問題時(shí),模型訓(xùn)練效果會(huì)產(chǎn)生波動(dòng);并且訓(xùn)練時(shí)間較長,成本較高;由于本模型進(jìn)行聯(lián)合抽取時(shí)涉及順序相關(guān)的步驟,從而不可避免的存在曝光偏差問題.所以在后續(xù)的工作中,將從提高模型抽取效率,增強(qiáng)模型穩(wěn)定性入手改進(jìn)抽取模型,并且尋求一種一階段的重疊實(shí)體關(guān)系聯(lián)合抽取方法,盡可能避免曝光偏差問題帶來的影響,更好地處理重疊問題,進(jìn)一步解決復(fù)雜文本的關(guān)系抽取難題.本研究的模型是對通用數(shù)據(jù)集進(jìn)行實(shí)體關(guān)系抽取,而領(lǐng)域知識(shí)圖譜的構(gòu)建更有意義,特別地,醫(yī)療領(lǐng)域知識(shí)圖譜對于完善醫(yī)療問答系統(tǒng)至關(guān)重要,所以接下來會(huì)深入醫(yī)療領(lǐng)域?qū)﹃P(guān)系抽取模型進(jìn)行改進(jìn),為之后的醫(yī)療領(lǐng)域知識(shí)圖譜工作做好鋪墊.
小型微型計(jì)算機(jī)系統(tǒng)2023年2期