国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

重疊實(shí)體關(guān)系抽取綜述

2022-01-22 07:50:38杭婷婷
關(guān)鍵詞:三元組實(shí)體方法

馮 鈞,張 濤,杭婷婷

河海大學(xué)計(jì)算機(jī)與信息學(xué)院水利部水利大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,南京 211100

近年來(lái)大數(shù)據(jù)得到快速發(fā)展,使得互聯(lián)網(wǎng)上留存海量的無(wú)結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。如何通過(guò)深層次的挖掘這些數(shù)據(jù)得到更有價(jià)值的信息,給用戶(hù)帶來(lái)更好的體驗(yàn),成為了這一領(lǐng)域?qū)W者的熱點(diǎn)問(wèn)題。在這種環(huán)境下,信息抽取技術(shù)也成為了焦點(diǎn),信息抽取任務(wù)主要包括兩大部分:實(shí)體關(guān)系抽?。╡ntity relation extraction)、事件抽取(event extraction)[1]。而實(shí)體關(guān)系抽取作為信息抽取技術(shù)關(guān)鍵任務(wù)之一,自然引起了廣大學(xué)者的關(guān)注。

實(shí)體關(guān)系抽取能夠從文本中提取事實(shí)知識(shí),是自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域中重要的任務(wù)之一,對(duì)知識(shí)圖譜構(gòu)建及其下游應(yīng)用起著支撐作用,例如決策支持、智能問(wèn)答等?,F(xiàn)階段,實(shí)體關(guān)系抽取可以分為兩大類(lèi):基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)[2]。表1中整理了目前實(shí)體關(guān)系抽取方法的優(yōu)缺點(diǎn)。

表1 實(shí)體關(guān)系抽取方法比較Table 1 Comparison of entity relation extraction methods

(1)基于傳統(tǒng)機(jī)器學(xué)習(xí)

基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法主要依賴(lài)于自然語(yǔ)言處理工具來(lái)提取特征,對(duì)提取到的特征采用相對(duì)簡(jiǎn)單的方法就可以獲得較好的效果?;跈C(jī)器學(xué)習(xí)的方法以數(shù)據(jù)集標(biāo)注量又可以劃分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督的方法。①有監(jiān)督的方法:利用人工標(biāo)注語(yǔ)料構(gòu)建語(yǔ)料庫(kù),將關(guān)系抽取任務(wù)視作分類(lèi)任務(wù),對(duì)識(shí)別到的候選實(shí)體預(yù)測(cè)關(guān)系。常用方法主要分為基于特征向量的方法[3]和基于核函數(shù)的方法[4]。②半監(jiān)督的方法:利用少量人工標(biāo)注的數(shù)據(jù)構(gòu)建種子,通過(guò)訓(xùn)練大量未標(biāo)記的語(yǔ)料庫(kù),生成新的實(shí)例進(jìn)而增加新的種子,不斷迭代,擴(kuò)大種子規(guī)模,從而得到預(yù)期的效果[5]。常用的算法主要有自舉(boost strapping)[6]、協(xié)調(diào)訓(xùn)練(co-training)[7]和標(biāo)注傳播(label propagation)的方法[8]。③無(wú)監(jiān)督的方法:雖然半監(jiān)督的方法僅使用少量的語(yǔ)料,但是種子的好壞會(huì)極大影響后續(xù)的結(jié)果,在此問(wèn)題基礎(chǔ)上,研究者采用基于聚類(lèi)的思想,通過(guò)自底向上的方法從語(yǔ)料庫(kù)中抽取出具有相似性關(guān)系的實(shí)體對(duì),在從句中選取合適的詞語(yǔ)標(biāo)記關(guān)系[9]。

(2)基于深度學(xué)習(xí)

由于傳統(tǒng)的機(jī)器學(xué)習(xí)方法依賴(lài)自然語(yǔ)言處理工具抽取特征,可能會(huì)引起特征提取誤差傳播問(wèn)題,極大影響關(guān)系抽取問(wèn)題。為了能夠自動(dòng)化地抽取特征,深度學(xué)習(xí)的方法受到研究者的關(guān)注[10]。深度學(xué)習(xí)關(guān)系抽取目前分為兩大類(lèi)有監(jiān)督和遠(yuǎn)程監(jiān)督。①有監(jiān)督的方法:利用人工標(biāo)注的數(shù)據(jù)集,通過(guò)深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,自動(dòng)獲取句子特征,進(jìn)而得到較好的訓(xùn)練效果。按照實(shí)體關(guān)系抽取的子任務(wù)完成順序不同可以分為流水線(xiàn)(pipeline)方法[11]和聯(lián)合(joint)學(xué)習(xí)方法[12]。②遠(yuǎn)程監(jiān)督的方法:利用遠(yuǎn)程知識(shí)庫(kù)自動(dòng)化抽取大量的實(shí)體對(duì),迅速的擴(kuò)大知識(shí)庫(kù)的規(guī)模。自動(dòng)化抽取假設(shè)句子中實(shí)體對(duì)的關(guān)系與知識(shí)庫(kù)中該實(shí)體的關(guān)系,但是這種數(shù)據(jù)標(biāo)注的過(guò)程會(huì)帶來(lái)大量的噪聲數(shù)據(jù),在抽取過(guò)程會(huì)產(chǎn)生誤差傳播[13]。

基于深度學(xué)習(xí)的聯(lián)合抽取方法很好的解決了機(jī)器學(xué)習(xí)方法中存在的誤差傳播問(wèn)題,并且考慮到實(shí)體識(shí)別和關(guān)系抽取任務(wù)之間的依賴(lài)關(guān)系。但是大部分的模型將任務(wù)限定在單一句子中,并假設(shè)句子中只包含一個(gè)實(shí)體對(duì)。然而,這一假設(shè)是不切合實(shí)際的,句子中包含了更為復(fù)雜的事實(shí)關(guān)系,不同的關(guān)系三元組在一個(gè)句子中可能有重疊。事實(shí)上,在WebNLG數(shù)據(jù)集68.2%的句子存在重疊,這會(huì)導(dǎo)致模型提取三元組不是很精準(zhǔn)?,F(xiàn)階段可以按照實(shí)體重疊程度劃分為三種類(lèi)型,包括正常類(lèi)(normal)、單實(shí)體重疊(single entity overlap,SEO)和實(shí)體對(duì)重疊(entity pair overlap,EPO),如圖1所示。S1 是屬于正常類(lèi),其中只包含了一個(gè)三元組;S2 屬于SEO,句中的實(shí)體Tennessee 同時(shí)與實(shí)體Martha和Monteagle 存在關(guān)系,兩個(gè)三元組發(fā)生了重疊;S3 屬于EPO,句子中的實(shí)體對(duì)發(fā)生了重疊。

圖1 重疊類(lèi)型分類(lèi)Fig.1 Classification of overlapping types

從圖1 中的實(shí)例可以看出,重疊實(shí)體關(guān)系抽取相比經(jīng)典關(guān)系抽取更加具備挑戰(zhàn)性,主要包含以下5 個(gè)挑戰(zhàn):

(1)暴露偏差,模型采用Seq2Seq的方法,但是實(shí)際上任務(wù)間仍舊存在級(jí)聯(lián)關(guān)系。在實(shí)際訓(xùn)練階段,級(jí)聯(lián)任務(wù)均采用真實(shí)數(shù)據(jù)標(biāo)簽輸入進(jìn)行訓(xùn)練,會(huì)導(dǎo)致預(yù)測(cè)階段和訓(xùn)練階段的數(shù)據(jù)出現(xiàn)分布偏差,并產(chǎn)生誤差積累。

(2)交互缺失,模型在建模過(guò)程中忽略的內(nèi)在聯(lián)系可以分為:頭實(shí)體和尾實(shí)體、實(shí)體和關(guān)系、關(guān)系和關(guān)系以及三元組間的內(nèi)在聯(lián)系。有效建模三元組內(nèi)在聯(lián)系,可以減少模型對(duì)數(shù)據(jù)量的要求,減少模型計(jì)算負(fù)擔(dān)。

(3)實(shí)體完全提取,大多數(shù)模型采用部分匹配的方法評(píng)估模型性能,當(dāng)頭實(shí)體最后一個(gè)單詞、尾實(shí)體和關(guān)系被識(shí)別正確時(shí),則視作三元組正確。這種評(píng)估方式不符合事實(shí)且無(wú)法應(yīng)用到實(shí)際場(chǎng)景,如何在提取完整實(shí)體的同時(shí)不影響模型性能,仍然是要面臨挑戰(zhàn)之一。

(4)嵌套實(shí)體識(shí)別,句子中存在嵌套實(shí)體以及復(fù)雜的關(guān)系,使得句子十分復(fù)雜且不易解析。如何有效識(shí)別實(shí)體邊界以及復(fù)雜的關(guān)系是現(xiàn)階段仍面臨的挑戰(zhàn)之一。

(5)圖模型構(gòu)建,圖模型很適用于實(shí)體關(guān)系提取任務(wù),圖的結(jié)構(gòu)在模型整體性能中起著重要作用,而構(gòu)建高質(zhì)量和特定任務(wù)的圖需要具備良好的領(lǐng)域知識(shí)。如何動(dòng)態(tài)構(gòu)建自適應(yīng)圖是極具挑戰(zhàn)性的任務(wù)。

本文將針對(duì)重疊實(shí)體關(guān)系抽取任務(wù),梳理從經(jīng)典關(guān)系抽取任務(wù)到重疊實(shí)體關(guān)系抽取任務(wù)的脈絡(luò),對(duì)其中作者的核心思想、使用的方法以及方法優(yōu)勢(shì)和不足點(diǎn)進(jìn)行總結(jié),進(jìn)而為接下來(lái)的研究方向提出可能性的建議以及未來(lái)可能改進(jìn)的研究方向。據(jù)目前來(lái)看,這是針對(duì)重疊實(shí)體關(guān)系抽取的第一個(gè)全面綜述。

1 重疊實(shí)體關(guān)系抽取方法

2011年,Hoffmann等人[8]首次在模型構(gòu)建過(guò)程中考慮到重疊實(shí)體關(guān)系問(wèn)題,并引入基于多實(shí)例學(xué)習(xí)的概率圖模型解決此問(wèn)題。經(jīng)過(guò)多年后,重疊實(shí)體關(guān)系抽取這一問(wèn)題重要性逐漸被研究者意識(shí)到并采用基于序列到序列(sequence to sequence,Seq2Seq)、基于圖(graphbased)和基于預(yù)訓(xùn)練語(yǔ)言模型(pre-trained language model,PTM)的方法進(jìn)行深入研究。

1.1 基于序列到序列的方法

基于Seq2Seq 的方法最初由Sutskever 等人[14]提出,采用編碼-解碼架構(gòu)解決機(jī)器翻譯問(wèn)題,是自然語(yǔ)言處理領(lǐng)域中運(yùn)用最廣泛的框架之一,如圖2所示?,F(xiàn)在應(yīng)用到關(guān)系抽取領(lǐng)域,該架構(gòu)將非結(jié)構(gòu)化文本轉(zhuǎn)化為詞向量作為輸入序列,通過(guò)編碼獲取上下文表示,再經(jīng)過(guò)解碼,將關(guān)系三元組順序輸出。2017年,Zheng等人[15]提出了一種新穎的標(biāo)注策略(novel tagging),標(biāo)注實(shí)體信息同時(shí)標(biāo)注關(guān)系類(lèi)型,以此將命名實(shí)體識(shí)別和關(guān)系抽取任務(wù)轉(zhuǎn)變?yōu)樾蛄袠?biāo)注任務(wù)。采用簡(jiǎn)單的端到端神經(jīng)網(wǎng)絡(luò)模型就可以有效的抽取出三元組,提高了實(shí)體關(guān)系抽取任務(wù)的F1 值,達(dá)到了42.0%。但該模型忽略了SEO 和EPO 的情況,在此之后,學(xué)者對(duì)重疊實(shí)體關(guān)系抽取任務(wù)展開(kāi)了進(jìn)一步研究,現(xiàn)按照任務(wù)解決方案可以劃分為:基于標(biāo)注策略和基于復(fù)制機(jī)制。

圖2 基于序列到序列的經(jīng)典模型框架Fig.2 Traditional model framework based on Seq2Seq

1.1.1 基于標(biāo)注策略

基于標(biāo)注策略的解決方案主要是受到novel tagging模型的啟發(fā),將實(shí)體關(guān)系抽取兩階段任務(wù)轉(zhuǎn)變?yōu)閷?duì)實(shí)體和關(guān)系開(kāi)始位置和結(jié)束位置的共同標(biāo)注,從而實(shí)現(xiàn)聯(lián)合解碼。后續(xù)學(xué)者經(jīng)過(guò)巧妙調(diào)整標(biāo)注策略使得模型可以解決重疊實(shí)體關(guān)系抽取任務(wù)。現(xiàn)階段標(biāo)注多采用BIESO 標(biāo)注實(shí)體信息,分別表示{實(shí)體開(kāi)始,實(shí)體內(nèi)部,實(shí)體結(jié)束,單個(gè)實(shí)體,無(wú)關(guān)詞},關(guān)系類(lèi)型采用預(yù)定義關(guān)系詞進(jìn)行標(biāo)記。根據(jù)過(guò)往的工作總結(jié),將標(biāo)注策略按照抽取順序分為頭實(shí)體優(yōu)先抽取、關(guān)系優(yōu)先抽取、三元組建模抽取。

Yu等人[16]提出了一種新穎的分解式策略,將抽取任務(wù)分解為頭實(shí)體(head entity,HE)提取、尾實(shí)體關(guān)系(tail entity relation,TER)提取,兩個(gè)任務(wù)共享編碼層。通過(guò)引入基于跨度距離的標(biāo)記方案,進(jìn)一步將兩個(gè)子任務(wù)轉(zhuǎn)變?yōu)槎嘈蛄袠?biāo)注問(wèn)題,對(duì)于句子中的HE 標(biāo)記其位置和類(lèi)型,再根據(jù)HE去預(yù)測(cè)TER,TER包括兩個(gè)子序列標(biāo)注任務(wù),標(biāo)記尾實(shí)體(tail entity,TE)開(kāi)始位置和關(guān)系類(lèi)型,標(biāo)記TE結(jié)束位置和關(guān)系類(lèi)型,最終在WebNLG數(shù)據(jù)集中F1 值達(dá)到了83.1%。田佳來(lái)等[17]人采用分解策略思想的同時(shí)引入了GLU dilated CNN 對(duì)句子進(jìn)行編碼,采用自注意力機(jī)制提高模型抽取能力,并成功將模型運(yùn)用到軍事領(lǐng)域,其F1值達(dá)到了80.84%。分解策略,頭實(shí)體、尾實(shí)體經(jīng)過(guò)兩次解碼獲得,并未考慮到頭尾實(shí)體間的相互作用,基于此趙等人[18]使用多標(biāo)簽策略處理重疊實(shí)體關(guān)系問(wèn)題,并在編碼層加入了詞性信息和句法依存關(guān)系,以及引入多頭注意力機(jī)制,在NYT數(shù)據(jù)集F1值達(dá)到了66.7%。頭實(shí)體優(yōu)先抽取,再判定實(shí)體對(duì)之間的關(guān)系,會(huì)產(chǎn)生大量的冗余實(shí)體,并進(jìn)行了許多不必要的操作。為了進(jìn)一步探索更好的抽取方式,部分學(xué)者采用了關(guān)系優(yōu)先抽取。

(2)關(guān)系優(yōu)先抽取

Lin等人[19]提出了一種基于關(guān)系矩陣約束下的關(guān)系提取模型RERLC,該模型認(rèn)為在同句子內(nèi),相關(guān)性強(qiáng)的關(guān)系對(duì)出現(xiàn)的概率更高。將關(guān)系轉(zhuǎn)變?yōu)橄蛄?,?jīng)過(guò)計(jì)算關(guān)系向量間的夾角計(jì)算相關(guān)度,從而建立關(guān)系矩陣。在序列標(biāo)注的過(guò)程中獲取頭實(shí)體,再經(jīng)關(guān)系矩陣計(jì)算尾實(shí)體。但是,該方法缺乏建模關(guān)系和實(shí)體間的相互作用,并且模型泛化能力不強(qiáng);基于此,Zhuang 等人[20]在關(guān)系優(yōu)先的基礎(chǔ)上,將預(yù)測(cè)的關(guān)系與文本結(jié)合進(jìn)行實(shí)體識(shí)別,結(jié)合實(shí)體對(duì)和關(guān)系獲得關(guān)系。并分析數(shù)據(jù)集,獲得數(shù)據(jù)中特定的規(guī)則,將規(guī)則加入到三元組解碼層,進(jìn)一步提升原有模型的性能,該模型結(jié)合文本,引入數(shù)據(jù)增強(qiáng),提高了模型泛化能力,但是會(huì)因?yàn)殛P(guān)系標(biāo)注錯(cuò)誤引起誤差傳播;在此之上,Yuan 等人[21]構(gòu)建了關(guān)系注意力網(wǎng)絡(luò)提取三元組,首先采用Bi-LSTM對(duì)句子進(jìn)行編碼,再通過(guò)關(guān)系注意力網(wǎng)絡(luò)獲取不同關(guān)系下句子特征表示,經(jīng)過(guò)關(guān)系門(mén)過(guò)濾負(fù)樣本關(guān)系后,提取到對(duì)應(yīng)的實(shí)體。當(dāng)指定關(guān)系識(shí)別出多個(gè)實(shí)體時(shí),采用啟發(fā)式規(guī)則,將距離相近的實(shí)體自動(dòng)結(jié)合成三元組。該方法通過(guò)關(guān)系門(mén)避免了誤差傳播,但該模型在EPO 問(wèn)題效果不佳;Liu 等人[22]相較于文獻(xiàn)[21],設(shè)計(jì)了一種多頭自注意力網(wǎng)絡(luò),充分獲取不同關(guān)系標(biāo)簽下的關(guān)聯(lián)強(qiáng)度。將檢測(cè)到的關(guān)系類(lèi)型與實(shí)體提取模塊的結(jié)果融合,經(jīng)過(guò)預(yù)先定義的閾值判斷三元組。Luo等人[23]將SEO進(jìn)一步劃分為ELS(exclude loop sentences)和ILS(include loop sentences),從而引入了雙向樹(shù)標(biāo)記的方案。首先,將句子中具有相同關(guān)系的三元組分組在一起,按照三元組中實(shí)體和關(guān)系出現(xiàn)的順序建模成二叉樹(shù)結(jié)構(gòu),最后,建立二叉樹(shù)結(jié)構(gòu)和序列標(biāo)簽之間的映射,從而取得了良好的效果。雙向二叉樹(shù)雖然結(jié)構(gòu)新穎,但是該結(jié)構(gòu)難以處理EPO問(wèn)題,模型性能受結(jié)構(gòu)限制。Ma等人[24]設(shè)計(jì)了一種級(jí)聯(lián)雙解碼聯(lián)合提取模型,該模型首先檢測(cè)文本中存在的關(guān)系,并將它們視為額外的映射,提取每個(gè)關(guān)系相應(yīng)的HE 和TE,結(jié)果有著明顯的提升。不管是頭實(shí)體優(yōu)先抽取或者是關(guān)系優(yōu)先抽取,都是將關(guān)系視作離散標(biāo)簽分配給實(shí)體。當(dāng)數(shù)據(jù)量不充足情況下,分類(lèi)器很難準(zhǔn)確分類(lèi),這樣會(huì)導(dǎo)致模型訓(xùn)練效果不佳。在此問(wèn)題之上,出現(xiàn)了三元組建模抽取的方式。

(3)三元組建模抽取

在2020年ACL會(huì)議上,Wei等人[25]設(shè)計(jì)了級(jí)聯(lián)二進(jìn)制標(biāo)記框架CaseRel,使模型學(xué)習(xí)給定關(guān)系下HE 到TE之間的映射函數(shù),從而達(dá)到對(duì)三元組整體建模的效果。主要流程如下:首先,經(jīng)過(guò)兩個(gè)二進(jìn)制分類(lèi)器(開(kāi)始位置分類(lèi)器、結(jié)束位置分類(lèi)器)標(biāo)識(shí)句子中所有可能的實(shí)體。然后,檢查所有可能的關(guān)系,在指定關(guān)系下用分類(lèi)器標(biāo)識(shí)尾實(shí)體,每次標(biāo)記前會(huì)將之前標(biāo)記的數(shù)據(jù)清零。該模型在WebNLG數(shù)據(jù)集上F1值達(dá)到了91.8%,對(duì)比當(dāng)時(shí)最好的模型有著30.2%的提升。該模型設(shè)計(jì)的通用算法框架,為重疊實(shí)體關(guān)系抽取任務(wù)引入新的解決方法,但是該模型需要對(duì)實(shí)體進(jìn)行剪枝,避免復(fù)雜度過(guò)高;Wang 等人[26]在CaseRel 基礎(chǔ)上使用IDCNN(iterated dilated CNN)和Bi-LSTM對(duì)句子進(jìn)行編碼,并采用注意力機(jī)制,以獲得句子中更豐富的語(yǔ)義特征,來(lái)提升模型的效果;Wang等人[27]引入了一種新穎的握手標(biāo)記策略,針對(duì)句子中的任意一個(gè)單詞以及除它以外其他單詞做以下判斷:是否同為一個(gè)實(shí)體的開(kāi)始和結(jié)束,給定關(guān)系下是否分別為兩實(shí)體的頭部,給定關(guān)系下是否為實(shí)體的尾部,根據(jù)以上判斷的結(jié)果進(jìn)行標(biāo)記。該策略通過(guò)回答問(wèn)題的方式很好的解決了復(fù)雜實(shí)體在重疊實(shí)體關(guān)系抽取任務(wù)中的影響,在NYT數(shù)據(jù)集F1值達(dá)到了92.0%。

1.1.2 基于復(fù)制機(jī)制

復(fù)制機(jī)制模仿人類(lèi)在背誦課文時(shí),對(duì)于難以理解的語(yǔ)句進(jìn)行死記硬背的方法。在實(shí)際應(yīng)用過(guò)程中,復(fù)制機(jī)制結(jié)合RNN或LSTM等模型獲取到想要復(fù)制片段語(yǔ)義特征,在輸入序列中定位位置,將其直接復(fù)制到輸出序列中,以應(yīng)對(duì)特定任務(wù)?;趶?fù)制機(jī)制的方法按照復(fù)制內(nèi)容分為單實(shí)體識(shí)別復(fù)制和多實(shí)體識(shí)別復(fù)制。單實(shí)體識(shí)別復(fù)制指的是在復(fù)制的過(guò)程中遇到擁有多個(gè)單詞的實(shí)體時(shí),僅復(fù)制實(shí)體的最后一個(gè)單詞。而多實(shí)體識(shí)別在復(fù)制過(guò)程中可以完成復(fù)制整個(gè)實(shí)體。

產(chǎn)層配方:基漿10m3(密度1.80g·cm-3)+2%細(xì)雷特超強(qiáng)堵漏劑+2%雷特隨鉆堵漏劑+2%中酸溶性橋塞堵漏劑+2%細(xì)酸溶性橋塞堵漏劑+果殼類(lèi)材料,總濃度14%。

(1)單實(shí)體識(shí)別復(fù)制

Zeng 等人[28]提出了一種基于復(fù)制機(jī)制的端到端模型CopyRe,該模型先提取關(guān)系再提取實(shí)體,通過(guò)復(fù)制實(shí)體讓實(shí)體參與到不同的三元組,并針對(duì)不同情況采用了不同的解碼策略:使用單解碼器生成所有的三元組序列;使用多解碼器,其中的每一個(gè)解碼器對(duì)應(yīng)一個(gè)三元組,F(xiàn)1 值提高了4.82%;2019 年,Zeng 等人[29]在自己模型的基礎(chǔ)上,認(rèn)為提取句子中三元組順序?qū)Τ槿〗Y(jié)果有著至關(guān)重要的影響。在實(shí)際訓(xùn)練過(guò)程中,已提取出的三元組作為先驗(yàn)知識(shí)會(huì)極大影響剩下三元組提取??紤]到以上問(wèn)題,在任務(wù)中引入了強(qiáng)化學(xué)習(xí),對(duì)解碼過(guò)程中產(chǎn)生的三元組與已有標(biāo)記三元組進(jìn)行比較,以此設(shè)定獎(jiǎng)勵(lì)機(jī)制,對(duì)模型進(jìn)行多次迭代,模型效果得到了提升。

不管是CopyRe 還是CopyRe-RL 模型,在識(shí)別和復(fù)制實(shí)體時(shí)僅涉及到實(shí)體的最后一個(gè)單詞,會(huì)極大影響關(guān)系類(lèi)型提取。在NYT數(shù)據(jù)集中77.44%的實(shí)體不僅僅包含一個(gè)詞匯,僅復(fù)制單實(shí)體是不切實(shí)際的,有必要將任務(wù)拓展到多實(shí)體識(shí)別復(fù)制。

(2)多實(shí)體識(shí)別復(fù)制

Bai等人[30]通過(guò)多層神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼并結(jié)合自注意力機(jī)制,設(shè)計(jì)了雙指針網(wǎng)絡(luò)結(jié)構(gòu)分別識(shí)別實(shí)體的開(kāi)始位置和實(shí)體的結(jié)束位置,從而讓完整的實(shí)體參與到復(fù)制過(guò)程中,在NYT 數(shù)據(jù)集上F1 值提升了18.9%,但是,該模型并未考慮實(shí)體對(duì)和關(guān)系之間的相互作用;此外,Zeng等人[31]從理論層面剖析了CopyRE出現(xiàn)的問(wèn)題,采用了非線(xiàn)性激活函數(shù)解決首尾實(shí)體順序混亂問(wèn)題,引入多任務(wù)學(xué)習(xí)框架解決實(shí)體識(shí)別不全的問(wèn)題,在當(dāng)時(shí)的多個(gè)數(shù)據(jù)集上達(dá)到了SOTA,但是該模型預(yù)測(cè)三元組數(shù)量受限制。為了進(jìn)一步探索,Wang 等人[32]采用RCNN 對(duì)句子進(jìn)行編碼,通過(guò)設(shè)定變量閾值避免復(fù)制實(shí)體過(guò)程中HE和TE相同,并將模型成功的應(yīng)用在了生物領(lǐng)域,F(xiàn)1值提升了14.4%。Nayak等人[33]針對(duì)于復(fù)制機(jī)制改進(jìn)了兩種方法:①提出一種新的實(shí)體關(guān)系表示方案,三元組內(nèi)采用“;”分隔元組內(nèi)容,三元組間采用“|”分隔。在解碼過(guò)程中每步產(chǎn)生一個(gè)單詞。但是解碼器在解碼過(guò)程中會(huì)預(yù)測(cè)到不存在于當(dāng)前句子或關(guān)系集的標(biāo)記,為了保證僅僅復(fù)制源句子中的實(shí)體,引用了一種排除機(jī)制,將沒(méi)有特殊標(biāo)記的單詞相應(yīng)的SoftMax分?jǐn)?shù)置為0;②考慮到編碼器每一次只提取一個(gè)單詞運(yùn)行速度較慢且浪費(fèi)資源,提出了一種基于指針網(wǎng)絡(luò)的解碼框架,該框架用五元組標(biāo)記實(shí)體,分別是,并且在解碼過(guò)程中每次提取整個(gè)元組。

1.2 基于圖的方法

雖然Seq2Seq 已經(jīng)成為NLP 中處理各種任務(wù)的主要方法,但是有各種各樣的NLP問(wèn)題可以用圖形結(jié)構(gòu)來(lái)更好地表達(dá)。因此,人們對(duì)NLP領(lǐng)域中開(kāi)發(fā)新的圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)技術(shù)興趣激增,其中采用的經(jīng)典模型框架如圖3所示?;趫D的方法按照?qǐng)D結(jié)構(gòu)又可以劃分為靜態(tài)圖方法和動(dòng)態(tài)圖方法。靜態(tài)圖指預(yù)定義的圖結(jié)構(gòu),動(dòng)態(tài)圖指模型在訓(xùn)練過(guò)程中通過(guò)注意力機(jī)制動(dòng)態(tài)的增加節(jié)點(diǎn)來(lái)完善圖。

圖3 基于圖的經(jīng)典模型框架Fig.3 Traditional model framework based on graph

(1)靜態(tài)圖

2018 年,Wang 等人[34]為了解決重疊實(shí)體關(guān)系抽取任務(wù),提出了基于圖結(jié)構(gòu)的聯(lián)合抽取模型,該結(jié)構(gòu)包含一個(gè)新穎的轉(zhuǎn)換系統(tǒng)識(shí)別實(shí)體和關(guān)系,并通過(guò)權(quán)重?fù)p失函數(shù)建立實(shí)體與關(guān)系和關(guān)系與關(guān)系之間的依賴(lài),最終F1值達(dá)到了50.9%,該模型最早引入圖結(jié)構(gòu)解決問(wèn)題,但是提出的轉(zhuǎn)換系統(tǒng)泛化能力不強(qiáng);Hong 等人[35]利用BILSTM獲取實(shí)體和關(guān)系的表示,并設(shè)計(jì)了一種新的關(guān)系感知注意力機(jī)制和關(guān)系感知GCN,用來(lái)獲得兩個(gè)實(shí)體跨度之間的關(guān)系特征,并利用實(shí)體跨度構(gòu)建圖結(jié)構(gòu),模型的F1 值達(dá)到了72.8%,但是該模型存在實(shí)體跨度識(shí)別不全的問(wèn)題;在此基礎(chǔ)上,Wang等人[36]結(jié)合邊界預(yù)測(cè)實(shí)體的開(kāi)始和結(jié)束位置,以加強(qiáng)實(shí)體跨度表示,使用注意機(jī)制來(lái)獲得兩個(gè)實(shí)體跨度之間關(guān)系的特征,構(gòu)成跨度圖,模型最終的F1 值達(dá)到了74.9%;靜態(tài)圖采用預(yù)定義圖結(jié)構(gòu),使得模型性能受限,因此開(kāi)展了動(dòng)態(tài)圖的研究。

(2)動(dòng)態(tài)圖

Fu 等人[37]利用依存句法分析將輸入句子轉(zhuǎn)變?yōu)橐来鏄?shù),將樹(shù)的鄰接矩陣輸入到BI-GCN 中獲取局部特征,從而分別提取到實(shí)體和關(guān)系,為了形式化計(jì)算實(shí)體和關(guān)系間的相互作用程度,引入了加權(quán)GCN,對(duì)每個(gè)已提取到的關(guān)系,計(jì)算任意實(shí)體對(duì)之間邊(關(guān)系)的權(quán)重,從而解決了重疊實(shí)體關(guān)系問(wèn)題,F(xiàn)1 值提高了11.0%,依存樹(shù)直接影響模型的性能,并且模型計(jì)算負(fù)擔(dān)大。Fei等人[38]通過(guò)跨度注意層(span attention)獲取所有候選實(shí)體表示并為每個(gè)關(guān)系形成跨度圖。另外,將這些跨度圖輸入到圖注意力模型(graph attention model,GAT)以動(dòng)態(tài)的學(xué)習(xí)實(shí)體跨度與其關(guān)系邊的相互作用;此外,Duan 等人[39]提出了一種基于多頭自注意力和緊密連接的圖卷積網(wǎng)絡(luò)MA-DCGCN。在該模型中,多頭自注意力機(jī)制專(zhuān)門(mén)用于將權(quán)重分配給實(shí)體之間的多個(gè)關(guān)系類(lèi)型,以確保多個(gè)關(guān)系的概率空間不相互排斥,并自適應(yīng)的提取重疊實(shí)體間的多種關(guān)系。上述模型在將句子轉(zhuǎn)換為圖結(jié)構(gòu)時(shí),將實(shí)體跨度視為節(jié)點(diǎn),關(guān)系視為邊,通過(guò)GCN 對(duì)每個(gè)實(shí)體對(duì)間的關(guān)系進(jìn)行了量化,也導(dǎo)致模型在EPO問(wèn)題上表現(xiàn)不佳。

1.3 基于預(yù)訓(xùn)練語(yǔ)言模型

在2018 年10 月,谷歌提出預(yù)訓(xùn)練語(yǔ)言模型[40],它經(jīng)過(guò)在大規(guī)模未標(biāo)記的語(yǔ)料庫(kù)上運(yùn)行無(wú)監(jiān)督學(xué)習(xí)獲得好的特征表示。根據(jù)特定的NLP 任務(wù),對(duì)PTM 進(jìn)行微調(diào)就能提取到很好的特征表示,并且已經(jīng)在NLP 領(lǐng)域中獲得了廣泛的應(yīng)用,基于預(yù)訓(xùn)練語(yǔ)言模型的框架如圖4 所示。現(xiàn)階段使用最廣泛的預(yù)訓(xùn)練語(yǔ)言模型就是BERT(bidirectional encoder representations from transformers),在微調(diào)過(guò)程中BERT 使用預(yù)訓(xùn)練的參數(shù)進(jìn)行初始化,然后使用來(lái)自下游任務(wù)的標(biāo)記數(shù)據(jù)對(duì)所有參數(shù)進(jìn)行微調(diào)。每個(gè)下游任務(wù)都有單獨(dú)的微調(diào)模型,即使它們使用相同的預(yù)訓(xùn)練參數(shù)進(jìn)行初始化。

圖4 基于預(yù)訓(xùn)練語(yǔ)言模型的框架Fig.4 Framework based on pre-training language models

Li等人[41]利用BERT模型最后兩層輸出的隱藏層信息,構(gòu)建二維矩陣表示特征,在矩陣中掩蓋無(wú)關(guān)實(shí)體,獲取實(shí)體位置信息。對(duì)于輸入語(yǔ)句中存在的每種關(guān)系類(lèi)型,每個(gè)實(shí)體對(duì),獨(dú)立計(jì)算實(shí)體對(duì)是否存在特定關(guān)系的概率,以預(yù)測(cè)句子中存在的多種關(guān)系。雖然模型最終的效果良好,但是,該模型時(shí)間復(fù)雜度高,應(yīng)考慮引入規(guī)則減少計(jì)算負(fù)擔(dān);Sui 等人[42]將聯(lián)合實(shí)體關(guān)系抽取任務(wù)轉(zhuǎn)變?yōu)榧项A(yù)測(cè)問(wèn)題,從而使減少模型預(yù)測(cè)三元組順序帶來(lái)的負(fù)擔(dān),并率先引入了非自回歸編碼器(non-autoregressive decoder)結(jié)合二部圖匹配損失函數(shù)(bipartite match loss),使得模型直接輸出最終的三元組。同樣的,為了直接生成三元組,Liu 等人[43]探索了一種新穎的模型架構(gòu),該模型將transformer和指針網(wǎng)絡(luò)組合以提取實(shí)體和關(guān)系。此外,引入了語(yǔ)法引導(dǎo)的網(wǎng)絡(luò)(syntax-guided network)以明確地將句子的語(yǔ)法信息納入編碼器,幫助模型更加關(guān)注句子的重要單詞。直接生成三元組的模型,雖然減少了模型預(yù)測(cè)三元組順序帶來(lái)的負(fù)擔(dān),但是模型對(duì)數(shù)據(jù)需求更高,并且缺少對(duì)抽取過(guò)程的思考,使結(jié)果顯得并不可靠;在此基礎(chǔ)上,Ye 等人[44]用BERT 對(duì)句子編碼解碼,使用部分因果掩蓋區(qū)分開(kāi)編碼解碼的表示,使用波束搜索算法生成更多的三元組。在此基礎(chǔ)上,提出了一種三元組對(duì)抗訓(xùn)練方法,在訓(xùn)練階段捕獲正樣本和負(fù)樣本的特征,學(xué)習(xí)到的校準(zhǔn)算法在驗(yàn)證階段會(huì)過(guò)濾掉不符合源句子事實(shí)的三元組,提高了結(jié)果的可靠性;Hang等人[45]設(shè)計(jì)了三個(gè)步驟提取重疊實(shí)體關(guān)系,由BERT獲取句子上下文信息共享給下游兩個(gè)子任務(wù),命名實(shí)體識(shí)別任務(wù)將獲取到的參數(shù)轉(zhuǎn)換為對(duì)應(yīng)實(shí)體標(biāo)簽的概率分布,實(shí)體關(guān)系抽取任務(wù)將獲取到的參數(shù)轉(zhuǎn)換為相應(yīng)關(guān)系類(lèi)型的概率分布,以上步驟使得模型在性能上有了提升。但是,模型通過(guò)共享參數(shù)的方法對(duì)下游任務(wù)進(jìn)行訓(xùn)練,更容易產(chǎn)生誤差傳播。

BERT 通過(guò)獲取雙向上下文特征信息,并可以將訓(xùn)練好的模型通過(guò)微調(diào)應(yīng)用到下游任務(wù),在原有的基礎(chǔ)上獲得了很大的提升,但是BERT仍存在許多不足之處。

(1)無(wú)法處理長(zhǎng)文本,BERT 是由12 層transformer搭建而成,對(duì)于長(zhǎng)度超過(guò)512 字符的句子BERT 處理不了,而在實(shí)際應(yīng)用過(guò)程中經(jīng)常出現(xiàn)超過(guò)字符限制的長(zhǎng)句子,會(huì)對(duì)抽取任務(wù)性能產(chǎn)生影響。

(2)BERT 在預(yù)訓(xùn)練階段會(huì)隨機(jī)掩蓋句子中15%的詞,利用上下文對(duì)掩蓋掉的詞進(jìn)行預(yù)測(cè),加深對(duì)上下文信息記憶的程度。當(dāng)采用BERT下游任務(wù)進(jìn)行微調(diào)時(shí),文本中存在噪音數(shù)據(jù),會(huì)導(dǎo)致預(yù)訓(xùn)練階段和微調(diào)過(guò)程存在偏差,影響模型的性能。

2 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

近年來(lái),用于重疊關(guān)系抽取任務(wù)實(shí)驗(yàn)評(píng)估的數(shù)據(jù)集主要包括NYT紐約時(shí)報(bào)數(shù)據(jù)集、WebNLG數(shù)據(jù)集。

2.1 數(shù)據(jù)集

NYT 數(shù)據(jù)集:NYT 數(shù)據(jù)集最初是由遠(yuǎn)程監(jiān)督的方法生成的新聞?wù)Z料庫(kù),廣泛用于重疊實(shí)體關(guān)系抽取任務(wù)??偣灿?4中預(yù)定義的關(guān)系,其中長(zhǎng)度超過(guò)100和不存在三元組的句子被過(guò)濾掉,最終訓(xùn)練集、測(cè)試集和驗(yàn)證集分別包含56 195、5 000、5 000。

WebNLG 數(shù)據(jù)集:最初為自然語(yǔ)言生成任務(wù)而創(chuàng)建,但后來(lái)也應(yīng)用于重疊實(shí)體關(guān)系抽取任務(wù)。這個(gè)數(shù)據(jù)集包含246種預(yù)定義的關(guān)系,數(shù)據(jù)集中的每一個(gè)句子都包含多個(gè)三元組,其訓(xùn)練集、測(cè)試集和驗(yàn)證集分別包含5019、500、703。

現(xiàn)階段研究者使用的數(shù)據(jù)集是由文獻(xiàn)[28]預(yù)處理過(guò)后發(fā)布出來(lái)的。如表2所示,本文統(tǒng)計(jì)了NYT和WebNLG數(shù)據(jù)集中分別屬于Normal、SEO和EPO句子數(shù)量。特別注意的是,同一個(gè)句子可以即屬于SEO又屬EPO。從表中可以看出,NYT 數(shù)據(jù)集中34.13%的句子存在重疊現(xiàn)象,其中51%的句子屬于EPO,76.8%的句子屬于SEO。WebNLG 數(shù)據(jù)集中68.2%的句子存在重疊現(xiàn)象,其中0.06%的句子屬于EPO,99.5%句子屬于SEO。

表2 數(shù)據(jù)集統(tǒng)計(jì)Table 2 Statistics of datasets

2.2 評(píng)價(jià)指標(biāo)

重疊實(shí)體關(guān)系抽取任務(wù)的評(píng)價(jià)指標(biāo)包括:精準(zhǔn)率(Precision)、召回率(Recall)和F值(FMeasure)。Precision是從查準(zhǔn)率對(duì)模型效果進(jìn)行評(píng)估,其公式如下:

Recall 是從查全率對(duì)模型效果進(jìn)行評(píng)估,其公式如下:

其中Precision和Recall是互補(bǔ)關(guān)系,因此通過(guò)F值綜合考慮Precision 和Recall 對(duì)模型總體進(jìn)行評(píng)估,其公式如下:

β是調(diào)節(jié)Precision 和Recall 比重的重要參數(shù),在實(shí)際應(yīng)用過(guò)程中,認(rèn)為Precision 和Recall 同樣重要,所以β=1。所以上式表示為:

表3中收集了不同數(shù)據(jù)集下模型表現(xiàn),以及模型優(yōu)勢(shì)以及不足點(diǎn)。表中大部分模型在WebNLG 數(shù)據(jù)集都能取得良好的效果,而在NYT 數(shù)據(jù)集則相對(duì)不佳。WebNLG數(shù)據(jù)集特點(diǎn)就是SEO,則說(shuō)明現(xiàn)有的大部分模型都能很好地處理SEO,而在EPO表現(xiàn)不是理想。從另一方面說(shuō)明,模型需要更加龐大的數(shù)據(jù)去處理多標(biāo)簽實(shí)體。從表中可以看出,對(duì)三元組整體建模的模型效果一般優(yōu)于缺少三元組內(nèi)在聯(lián)系考慮的模型,采用異質(zhì)圖模型的模型效果要大幅度優(yōu)于同質(zhì)圖。為了進(jìn)一步展現(xiàn)不同實(shí)體重疊程度下模型性能,收集了其中一部分模型進(jìn)行對(duì)比,如圖5 所示。從圖5 中可以看出,在NYT 數(shù)據(jù)集中SEO、EPO 表現(xiàn)最佳的模型分別為T(mén)P-Linker[27]、RFTE[20],在WebNLG數(shù)據(jù)集中SEO、EPO表現(xiàn)最佳的模型分別為RFTE[20]、TP-Linker[27]。

圖5 不同重疊類(lèi)型句子的F1值Fig.5 F1 score on sentences with different overlapping types

表3 不同數(shù)據(jù)集及模型性能Table 3 Different performance of datasets and models

3 未來(lái)研究方向

目前,重疊實(shí)體關(guān)系抽取任務(wù)雖然已經(jīng)取得了巨大的成功,但依舊存在著提升空間,值得學(xué)者們進(jìn)一步探索。通過(guò)對(duì)現(xiàn)有工作進(jìn)行總結(jié),未來(lái)的研究方向包括以下幾個(gè)方面。

3.1 基于序列到序列的模型

基于序列到序列的模型,從標(biāo)注策略到復(fù)制機(jī)制,本質(zhì)上都是調(diào)整抽取策略帶來(lái)性能的提升,并且現(xiàn)有模型的解決思路已經(jīng)達(dá)到了一個(gè)較高的標(biāo)準(zhǔn),很難獲得性能上的大幅度提升。而強(qiáng)化學(xué)習(xí)不同于現(xiàn)有的有監(jiān)督模型,它通過(guò)反饋機(jī)制更新模型。但是,目前只是在重疊實(shí)體關(guān)系抽取領(lǐng)域進(jìn)行了簡(jiǎn)單的嘗試,擁有著無(wú)限可能。

最初于2018 年,F(xiàn)eng 等人[46]使用強(qiáng)化學(xué)習(xí)有效過(guò)濾遠(yuǎn)程監(jiān)督數(shù)據(jù)中的噪聲,后經(jīng)文獻(xiàn)[29]轉(zhuǎn)換獎(jiǎng)勵(lì)機(jī)制使得強(qiáng)化學(xué)習(xí)有效解決重疊實(shí)體關(guān)系抽取問(wèn)題。最為典型的是Takanobu 等人[47]于2019 年AAAI 會(huì)議上提出的模型,與其他人不同的是該模型引入強(qiáng)化學(xué)習(xí)建模實(shí)體和關(guān)系間的交互,利用層次結(jié)構(gòu)解決重疊問(wèn)題。高層次強(qiáng)化學(xué)習(xí)用于基于句子中的特定關(guān)系令牌來(lái)標(biāo)識(shí)關(guān)系。在識(shí)別了關(guān)系之后,使用低級(jí)RL 來(lái)利用序列標(biāo)記方法提取與關(guān)系相關(guān)聯(lián)的兩個(gè)實(shí)體。多次重復(fù)該過(guò)程以提取句子中存在的所有關(guān)系三元組。

總之,強(qiáng)化學(xué)習(xí)在重疊實(shí)體關(guān)系抽取領(lǐng)域已經(jīng)進(jìn)行了初步的嘗試,并且提供了具有可行性的解決方案,但仍然有著很大的提升空間值得學(xué)者探索。

3.2 圖神經(jīng)網(wǎng)絡(luò)模型

研究表明,重疊實(shí)體關(guān)系抽取任務(wù)在引入圖神經(jīng)網(wǎng)絡(luò)模型后,模型性能有了很不錯(cuò)的提升。相比于其他傳統(tǒng)模型,圖結(jié)構(gòu)能更好地挖掘句子中的語(yǔ)義特征,但是根據(jù)已有模型的總結(jié),大多數(shù)模型采用同質(zhì)圖建模。傳統(tǒng)的同質(zhì)圖只含有同種類(lèi)型的邊和節(jié)點(diǎn),實(shí)際任務(wù)中的實(shí)體類(lèi)型多樣、關(guān)系復(fù)雜。在這種情況下,同質(zhì)圖很難學(xué)習(xí)到關(guān)鍵信息,會(huì)導(dǎo)致模型在EPO問(wèn)題上表現(xiàn)不佳。相較于同質(zhì)圖,異質(zhì)圖可以容納更多的節(jié)點(diǎn)和邊的類(lèi)型,在建模過(guò)程中學(xué)習(xí)到潛在的異構(gòu)特征,提升模型性能,所以將同質(zhì)圖擴(kuò)展異質(zhì)圖是必然選擇。常用的異質(zhì)圖網(wǎng)絡(luò)包括HAN(heterogeneous graph attention network)[48]、HetGNN(heterogeneous graph neural network)[49]。Zhao 等人[50]率先引入異質(zhì)圖神經(jīng)網(wǎng)絡(luò),將關(guān)系和單詞同時(shí)視為圖表上的節(jié)點(diǎn),然后通過(guò)消息傳遞機(jī)制迭代融合來(lái)自不同節(jié)點(diǎn)的信息,在獲得單詞和關(guān)系的節(jié)點(diǎn)表示后,進(jìn)行關(guān)系提取步驟生成最終的三元組。但是異質(zhì)圖動(dòng)態(tài)地構(gòu)建圖結(jié)構(gòu)更具有挑戰(zhàn)性,因?yàn)楦囝?lèi)型特征需要從數(shù)據(jù)中獲取。因此,圖模型是未來(lái)熱門(mén)的研究方向之一。

3.3 預(yù)訓(xùn)練語(yǔ)言模型

BERT模型在重疊實(shí)體關(guān)系抽取領(lǐng)域中已經(jīng)取得了驚人的成績(jī),但仍有著許多可以研究的方向。其中包括:模型精細(xì)化調(diào)參、模型結(jié)合知識(shí)圖譜和改進(jìn)模型。

模型精細(xì)化調(diào)參:BERT 模型在通用領(lǐng)域語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,如果讓BERT 參與到特定領(lǐng)域的下游任務(wù),需要對(duì)其進(jìn)行精細(xì)化的調(diào)參,讓其發(fā)揮更好的性能?,F(xiàn)有的調(diào)參策略包含:長(zhǎng)文本處理、層數(shù)選擇、層間學(xué)習(xí)率設(shè)置[51]。

模型結(jié)合知識(shí)圖譜:BERT 通過(guò)掩碼策略經(jīng)過(guò)預(yù)訓(xùn)練可以學(xué)習(xí)到豐富的語(yǔ)義,但是模型并未學(xué)會(huì)如何表示知識(shí),而結(jié)合知識(shí)圖譜使模型可以學(xué)習(xí)到知識(shí),并且對(duì)知識(shí)的表示更加貼合真實(shí)世界[52]。

改進(jìn)模型:提升預(yù)訓(xùn)練語(yǔ)言模型規(guī)模,其中最為典型的模型是RoBERTa,RoBERTa相較于BERT具有更大的訓(xùn)練數(shù)據(jù),每批次數(shù)據(jù)量更大,并且預(yù)訓(xùn)練過(guò)程采用動(dòng)態(tài)掩碼的方式,與之對(duì)應(yīng)的訓(xùn)練時(shí)間也更大,但是模型最終也取得了不錯(cuò)的提升[53]。

總之,現(xiàn)階段預(yù)訓(xùn)練語(yǔ)言模型改進(jìn)方法,已經(jīng)有學(xué)者進(jìn)行了初步的探索,但是在重疊實(shí)體關(guān)系抽取領(lǐng)域還未被廣泛利用,改進(jìn)預(yù)訓(xùn)練語(yǔ)言模型仍然是未來(lái)幾年的研究熱點(diǎn)。

3.4 知識(shí)推理

知識(shí)推理的方法是非常具備潛力的研究方向之一,但目前對(duì)于重疊關(guān)系抽取任務(wù)的探索還比較少,NYT和WebNLG 數(shù)據(jù)集中都具備著十分復(fù)雜的關(guān)系以及隱式三元組存在,十分符合知識(shí)推理的應(yīng)用條件。而現(xiàn)有抽取方法主要專(zhuān)注于可以直接發(fā)現(xiàn)的顯式三元組,但通常忽略缺乏明確表達(dá)的隱式三元組,這將導(dǎo)致構(gòu)建的知識(shí)圖譜嚴(yán)重不完整。實(shí)際上,句子中的其他三元組提供了用于發(fā)現(xiàn)具有隱式關(guān)系的實(shí)體對(duì)的補(bǔ)充信息。此外,可以在現(xiàn)實(shí)世界中以關(guān)系推理模式識(shí)別隱式實(shí)體對(duì)之間的關(guān)系類(lèi)型。在2021 年ACL 會(huì)議上,Chen 等人[54]提出了一個(gè)統(tǒng)一的框架,共同提取顯式和隱式關(guān)系三元組。引入了一個(gè)二進(jìn)制指針網(wǎng)絡(luò),探索可以通過(guò)關(guān)系隱式連接的實(shí)體對(duì),以順序地提取與每個(gè)單詞相關(guān)的重疊三元組,并保留在外部存儲(chǔ)器中先前提取的三元組的信息。為了推斷隱式三元組的關(guān)系類(lèi)型,在模型中引入實(shí)際關(guān)系推理模式,并通過(guò)關(guān)系網(wǎng)絡(luò)捕獲這些模式。

總之,研究知識(shí)推理在重疊關(guān)系抽取的應(yīng)用,可以使模型發(fā)現(xiàn)更多三元組的存在,讓知識(shí)圖譜構(gòu)建的完整度更高,同時(shí)大大降低模型對(duì)標(biāo)注樣本的依賴(lài)程度,在實(shí)際應(yīng)用方面具備重大意義。

4 結(jié)束語(yǔ)

本文詳細(xì)介紹了重疊實(shí)體關(guān)系抽取研究的最新進(jìn)展,包括基于Seq2Seq、基于圖和基于預(yù)訓(xùn)練語(yǔ)言模型的方法,詳細(xì)描述了其方法以及核心思想,闡述了模型中出現(xiàn)的問(wèn)題。此外,本文在總結(jié)了現(xiàn)有模型的優(yōu)缺點(diǎn)的同時(shí),詳細(xì)對(duì)比了模型在不同問(wèn)題上表現(xiàn)的性能。雖然現(xiàn)階段重疊實(shí)體關(guān)系抽取任務(wù)已經(jīng)具備了很高的F1值,但是仍然存在面臨的挑戰(zhàn);本文進(jìn)一步總結(jié)了未來(lái)的研究方向來(lái)推進(jìn)這一任務(wù)。

猜你喜歡
三元組實(shí)體方法
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
特征標(biāo)三元組的本原誘導(dǎo)子
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
關(guān)于余撓三元組的periodic-模
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
可能是方法不對(duì)
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
华蓥市| 凤阳县| 丰都县| 弥渡县| 驻马店市| 曲阜市| 舒兰市| 柳州市| 玉田县| 松阳县| 普定县| 布尔津县| 新干县| 廉江市| 恩平市| 元谋县| 渭源县| 紫阳县| 璧山县| 封丘县| 柘城县| 平邑县| 霍林郭勒市| 新巴尔虎左旗| 读书| 巫溪县| 绥中县| 普宁市| 梅河口市| 德令哈市| 郓城县| 海原县| 聊城市| 绥阳县| 类乌齐县| 中超| 调兵山市| 虹口区| 隆尧县| 泰州市| 南澳县|