摘 要:
端到端實(shí)體關(guān)系抽取任務(wù)可以被分解成命名實(shí)體識別和關(guān)系抽取兩個(gè)子任務(wù),最近的工作多將這兩個(gè)子任務(wù)聯(lián)合建?!,F(xiàn)有的流水線方法驗(yàn)證了在關(guān)系模型中融合實(shí)體類型信息的重要性和管道模型的潛力,但是它們忽略了文本中的某些實(shí)體可能同時(shí)具有多個(gè)類型,這種多義性的情況在中文數(shù)據(jù)集中尤為常見。為解決上述問題,提出了一種實(shí)體級聯(lián)類型機(jī)制,并在此基礎(chǔ)上開發(fā)了一個(gè)更適合中文關(guān)系抽取的管道模型,取名為CENTRELINE。這一流水線方法的實(shí)體模塊是一個(gè)詞-詞關(guān)系分類模型,它以BERT和雙向LSTM作為編碼器、經(jīng)過條件層歸一化后引入空洞卷積,最后通過級聯(lián)類型預(yù)測器輸出實(shí)體及其級聯(lián)類型。關(guān)系模塊的輸入僅由實(shí)體模塊構(gòu)建。該方法在DuIE1.0、DuIE2.0和CMeIE-V2數(shù)據(jù)集上的F1值分別比基線方法提高7.23%、6.93%和8.51%,并在DuIE1.0和DuIE2.0數(shù)據(jù)集上都實(shí)現(xiàn)了最先進(jìn)的性能。消融實(shí)驗(yàn)表明,提出的級聯(lián)類型機(jī)制和根據(jù)中文語言特征改進(jìn)的管道模型,均對關(guān)系抽取性能具有明顯的促進(jìn)作用。
關(guān)鍵詞:中文關(guān)系抽??;管道模型;空洞卷積;實(shí)體級聯(lián)類型
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)09-017-2685-05
doi:10.19734/j.issn.1001-3695.2023.12.0621
Chinese relation extraction pipeline model based on entity cascading types
Rao Dongning, Wu Qianmei, Huang Guanju
(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)
Abstract:
End-to-end entity relation extraction can be decomposed into named entity recognition and relation extraction, most recent works model these two subtasks jointly. Existing pipelined approaches validate the importance of fusing entity type information in the relation model and the potential of pipeline models, but they ignore the possibility that certain entities in the text may have multiple types at the same time, which is particularly common in Chinese datasets. This paper proposed an entity cascading type mechanism to address the aforementioned issues and developed a pipeline model named CENTRELINE, which was more suitable for Chinese relation extraction. This pipelined approach incorporated an entity module, which was a word-word relation classification model. It employed BERT and bi-directional LSTM as encoders, introduced dilated convolution after conditional layer normalization, and finally generated outputs for entities and their cascading types using a cascading type predictor. The input of the relation module was only constructed by the entity module. Surpassing the baseline by 7.23%, 6.93%, and 8.51% on DuIE1.0, DuIE2.0, and CMeIE-V2 datasets, respectively. This method demonstrates improvements in F1 values and achieves state-of-the-art performance on both DuIE1.0 and DuIE2.0 datasets. The results of ablation experiments indicate that both the proposed cascading type mechanism and the pipeline model refined based on Chinese language characteristics can enhance the performance of relation extraction.
Key words:Chinese relation extraction; pipeline model; dilated convolution; entity cascading type
0 引言
實(shí)體關(guān)系抽取是信息抽取的關(guān)鍵任務(wù)之一,它對于知識圖譜、智能問答等自然語言處理應(yīng)用都十分重要[1]。它是指在文本中找出主體與客體之間存在的關(guān)系,并將其表示為實(shí)體關(guān)系三元組,即(主體,關(guān)系,客體)。實(shí)體關(guān)系抽取可以分為流水線方法和聯(lián)合式方法,對應(yīng)管道模型和聯(lián)合模型。管道模型存在交互缺失和誤差累積的問題,而聯(lián)合模型可以充分利用實(shí)體和關(guān)系之間的交互信息[2],所以目前的研究大多采用聯(lián)合模型。然而Zhong等人[3]提出使用簡單的管道模型也可以獲得比聯(lián)合模型更好的效果,這一實(shí)驗(yàn)證明了管道模型具有潛在的優(yōu)越性。具體來說,通過在實(shí)體識別階段取得足夠好的效果,可以減少誤差累積對管道模型性能的影響,從而提高模型的整體性能。
現(xiàn)有的一種提升流水線方法性能的方式是引入實(shí)體的類型信息作為輸入。例如,Zhong等人[3]在句子中顯式插入實(shí)體類型標(biāo)記。Ye等人[4]提出了一種基于懸浮標(biāo)記的片段表示方法。但是它們都默認(rèn)一個(gè)句子中的某個(gè)實(shí)體只對應(yīng)一個(gè)實(shí)體類型,忽略了同一個(gè)實(shí)體在不同的三元組中可能有不同的實(shí)體類型,尤其是中文數(shù)據(jù)集中存在實(shí)體多義性的情況,如表1所示。
由于實(shí)體類型在關(guān)系抽取階段扮演著重要的角色[3],單一而固定的實(shí)體類型可能對關(guān)系的準(zhǔn)確預(yù)測產(chǎn)生限制,所以給模型提供更豐富、完整的實(shí)體類型信息將有助于優(yōu)化三元組的抽取過程。
受文獻(xiàn)[3,5]的啟發(fā),本文在管道模型上預(yù)測和應(yīng)用更詳盡的實(shí)體類型,并提出了基于實(shí)體級聯(lián)類型的中文關(guān)系抽取管道模型(Chinese relation extraction pipeline model based on entity cascading types,CENTRELINE)。具體而言,本文方法首先在實(shí)體識別階段使用了根據(jù)中文數(shù)據(jù)集的特點(diǎn)改進(jìn)的命名實(shí)體識別模型,它以BERT[6]和雙向LSTM[7]作為編碼器、經(jīng)過條件層歸一化(CLN)[8]后引入空洞卷積[9],最后通過級聯(lián)類型預(yù)測器輸出實(shí)體及其級聯(lián)類型。隨后在關(guān)系抽取階段,將級聯(lián)類型作為關(guān)鍵輸入以預(yù)測文本的三元組集合。這一流水線方法的設(shè)計(jì)充分考慮了中文語境下的實(shí)體識別特征和實(shí)體類型的多樣性,為關(guān)系抽取任務(wù)提供了更為精準(zhǔn)和全面的信息支持。
本文的主要貢獻(xiàn)是提出了一種實(shí)體級聯(lián)類型機(jī)制,并把它應(yīng)用到根據(jù)中文數(shù)據(jù)集特點(diǎn)改進(jìn)的實(shí)體識別模塊上,在DuIE1.0、DuIE2.0和CMeIE-V2數(shù)據(jù)集上取得了優(yōu)于基線PURE[3]、ChatIE[10]和BiTT-BERT[11]的抽取結(jié)果,其中在DuIE1.0、DuIE2.0數(shù)據(jù)集上可以實(shí)現(xiàn)最先進(jìn)的性能。
1 相關(guān)研究
實(shí)體關(guān)系抽取是構(gòu)建知識庫的重要步驟,也是許多自然語言處理下游任務(wù)的基礎(chǔ)。經(jīng)典的實(shí)體抽取方法主要分為有監(jiān)督、半監(jiān)督和無監(jiān)督這三類[12],隨著近年深度學(xué)習(xí)的崛起,關(guān)系抽取任務(wù)研究的重點(diǎn)轉(zhuǎn)向了使用深度學(xué)習(xí)方法[13]?;谏疃葘W(xué)習(xí)實(shí)體關(guān)系抽取主要分為有監(jiān)督和遠(yuǎn)程監(jiān)督兩類,其中有監(jiān)督實(shí)體抽取根據(jù)實(shí)體識別(NER)和關(guān)系抽?。≧E)兩個(gè)子任務(wù)完成順序的不同,可細(xì)分為流水線方法和聯(lián)合抽取方法[13]。
聯(lián)合抽取方法指建立統(tǒng)一的模型使得兩個(gè)子任務(wù)彼此交互,它可以分為共享參數(shù)的聯(lián)合抽取模型和聯(lián)合解碼的聯(lián)合抽取模型。例如,王景慧等人[14]提出融合了依存句法信息的關(guān)系導(dǎo)向?qū)嶓w抽取的策略,先確定關(guān)系,再確定關(guān)系相關(guān)的實(shí)體對。Zhao等人[15]提出融合兩階段的流水線方法,同時(shí)進(jìn)行聚類學(xué)習(xí)和關(guān)系標(biāo)注。Luo等人[11]受醫(yī)學(xué)文本中樹狀關(guān)系結(jié)構(gòu)的啟發(fā),提出了一種稱為BiTT的新方案并建立了一個(gè)聯(lián)合關(guān)系提取模型,將醫(yī)學(xué)關(guān)系三元組形成兩個(gè)二叉樹,并將樹轉(zhuǎn)換為詞級標(biāo)簽序列。最近,大型語言模型如GPT-3[16]、ChatGPT在信息抽取任務(wù)上展現(xiàn)了卓越性能。因此,Wei等人[10]通過直接提示大型語言模型來構(gòu)建強(qiáng)大的信息抽取模型ChatIE,它將信息抽取任務(wù)轉(zhuǎn)換為一個(gè)多回合的問答問題。然而,共享參數(shù)的聯(lián)合抽取模型學(xué)習(xí)過程仍然類似流水線方法,并沒有實(shí)現(xiàn)真正的聯(lián)合;聯(lián)合解碼的聯(lián)合抽取模型需要設(shè)計(jì)復(fù)雜的標(biāo)簽或者解碼過程,而且它對重疊的關(guān)系三元組的識別效果不是很好。
流水線方法指先抽取實(shí)體,再抽取關(guān)系,近幾年已有實(shí)驗(yàn)證明了流水線方法取得了比聯(lián)合方法更好的結(jié)果。例如,Zhong等人[3]提出了PURE,它將兩個(gè)獨(dú)立的編碼器分別用于實(shí)體抽取和關(guān)系識別,關(guān)系模型只依賴實(shí)體模型來提供輸入特征。盡管它的設(shè)計(jì)和訓(xùn)練模式很簡單,但實(shí)驗(yàn)證明這個(gè)管道模型在其實(shí)驗(yàn)數(shù)據(jù)集上優(yōu)于所有以前的聯(lián)合模型。Ye等人[4]提出了一種基于懸浮標(biāo)記的片段表示方法,在編碼過程中通過特定策略打包標(biāo)記來考慮片段之間的相互關(guān)系。在命名實(shí)體識別任務(wù)上,Li等人[5]提出了W2NER,通過將命名實(shí)體識別任務(wù)建模為詞-詞關(guān)系分類解決了統(tǒng)一NER的內(nèi)核瓶頸,在14個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上超越了所有當(dāng)前表現(xiàn)最好的基線模型。
中文實(shí)體關(guān)系抽取研究相對于英文研究起步更晚,且進(jìn)展有限,這可能是因?yàn)橹形恼Z境下的語言特點(diǎn)不同[17]。關(guān)系抽取領(lǐng)域中,中文與英文的不同主要體現(xiàn)在三個(gè)方面[18]:首先,中文字符之間通常沒有明確的邊界[17],這使得識別實(shí)體邊界變得更為困難;其次,中文句法結(jié)構(gòu)與英文存在顯著差異,這增加了在分析中文文本時(shí)的復(fù)雜性;最后,中文中句子成分之間的關(guān)系通常缺乏顯性的語法標(biāo)記,需要深入理解上下文語境以正確捕捉實(shí)體之間的聯(lián)系。近年來一些學(xué)者開始致力于構(gòu)建更多樣化且貼近實(shí)際應(yīng)用場景的中文關(guān)系抽取數(shù)據(jù)集,以促進(jìn)該領(lǐng)域的研究和發(fā)展。例如,Li等人[19]構(gòu)建了第一個(gè)大規(guī)模的高質(zhì)量數(shù)據(jù)集DuIE1.0,其中的數(shù)據(jù)均來源于百度百科和百度新聞?wù)?。為了進(jìn)一步推動中文關(guān)系抽取的發(fā)展,Li等人[19]隨后推出了DuIE2.0,擴(kuò)展了數(shù)據(jù)集的規(guī)模、多樣性和復(fù)雜性。Guan等人[20]提出了中文醫(yī)學(xué)信息抽取數(shù)據(jù)集CMeIE,數(shù)據(jù)來自醫(yī)學(xué)教科書和臨床實(shí)踐,經(jīng)過多輪手動注釋構(gòu)建。綜合來看,中文關(guān)系抽取領(lǐng)域展現(xiàn)出廣闊的發(fā)展前景。
2 CENTRELINE
本文提出一種基于實(shí)體級聯(lián)類型的中文關(guān)系抽取管道模型,該模型主要由NER模塊和RE模塊組成。其中,NER模塊接受輸入句子并為每個(gè)片段預(yù)測實(shí)體級聯(lián)類,見圖1上NER部分。對NER模塊預(yù)測出的所有實(shí)體進(jìn)行兩兩配對并在句子中插入實(shí)體對的級聯(lián)類型信息之后,RE模塊將會獨(dú)立處理每一對候選實(shí)體,為每對實(shí)體對預(yù)測關(guān)系類型,見圖1下RE部分。
之前的工作中在訓(xùn)練實(shí)體模型的時(shí)候每個(gè)片段的訓(xùn)練目標(biāo)類型只有一個(gè),本文考慮到實(shí)體的多類型情況,所以在NER模塊的訓(xùn)練階段和預(yù)測階段將實(shí)體類型的數(shù)量擴(kuò)展到了兩個(gè)。具體來說,如果實(shí)體的標(biāo)注類型只有一個(gè),則復(fù)制為兩個(gè)一樣的類型進(jìn)行訓(xùn)練;如果預(yù)測出兩個(gè)類型是一樣的,解碼的時(shí)候則合并為一個(gè)。過去的工作在訓(xùn)練關(guān)系模型時(shí),模型輸入所攜帶的實(shí)體類型信息也只有其中一個(gè),而本文在RE模塊的訓(xùn)練階段把實(shí)體的所有類型信息都插入到了輸入序列中。此外,在訓(xùn)練RE模塊時(shí),選擇將模塊的輸入設(shè)定為訓(xùn)練集中的所有標(biāo)注實(shí)體,而在驗(yàn)證和測試階段則采用NER模塊預(yù)測出的實(shí)體。這一設(shè)計(jì)決策試圖最小化管道模型中兩個(gè)子任務(wù)順序執(zhí)行帶來的誤差傳播。在訓(xùn)練階段使用訓(xùn)練集中的真實(shí)標(biāo)注實(shí)體作為輸入,模型可以更好地適應(yīng)已知實(shí)體關(guān)系,提高模型在訓(xùn)練數(shù)據(jù)上的擬合效果。在驗(yàn)證和測試階段使用NER模塊預(yù)測的實(shí)體是出于對模型在真實(shí)場景中的泛化能力的關(guān)注,使用NER模塊預(yù)測的實(shí)體可以更好地模擬實(shí)際應(yīng)用環(huán)境,提高模型對未知實(shí)體的處理能力。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 數(shù)據(jù)集
本文實(shí)驗(yàn)在DuIE1.0、DuIE2.0、CMeIE-V2三個(gè)中文數(shù)據(jù)集上進(jìn)行,表2顯示了每個(gè)數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)信息。DuIE1.0和DuIE2.0是來自2021年百度舉辦的語言與智能技術(shù)競賽信息抽取賽道的公開數(shù)據(jù)集[19],為了方便與其他模型對比并測試最新的數(shù)據(jù)集,本文使用了兩個(gè)版本的DuIE數(shù)據(jù)集。CMeIE-V2數(shù)據(jù)集是中文醫(yī)療信息處理挑戰(zhàn)榜CBLUE發(fā)布的醫(yī)療數(shù)據(jù)集[20],包含兒科訓(xùn)練語料和百種常見疾病訓(xùn)練語料。
3.2 實(shí)驗(yàn)設(shè)置
本文使用BERT-base-Chinese作為基本編碼器。在NER模塊上不設(shè)置句子最大長度限制;在RE模塊上,設(shè)置DuIE1.0、DuIE2.0數(shù)據(jù)集句子最大長度為256,CMeIE-V2數(shù)據(jù)集句子最大長度為300。實(shí)驗(yàn)在顯卡設(shè)備RTX3090上進(jìn)行,用PyTorch作為編碼框架。
本文采用F1值、查準(zhǔn)率precision和查全率recall作為評價(jià)標(biāo)準(zhǔn)。對于命名實(shí)體識別子任務(wù),如果預(yù)測實(shí)體的邊界和預(yù)測實(shí)體類型都正確,則認(rèn)為預(yù)測實(shí)體是正確的;對于關(guān)系抽取子任務(wù),如果兩個(gè)片段的邊界正確且預(yù)測關(guān)系類型正確,則認(rèn)為預(yù)測關(guān)系是正確的。
3.3 實(shí)驗(yàn)結(jié)果分析
為了評估本文模型在流水線方式上的提升效果,將同為流水線模型的PURE作為基線模型之一。除此之外,本文還將在各個(gè)數(shù)據(jù)集上表現(xiàn)突出的模型作為基線進(jìn)行比較。本文基線模型如下:a)BiTT-BERT[11],使用雙向樹標(biāo)記的關(guān)系抽取聯(lián)合模型;b)RODP[14],融合了依存句法信息的關(guān)系導(dǎo)向?qū)嶓w抽取的策略;c)ChatIE[10],通過與ChatGPT對話進(jìn)行信息抽取;d)PURE[3]。本文方法與基線模型的實(shí)驗(yàn)結(jié)果對比如表3所示,表中部分?jǐn)?shù)據(jù)直接來自原文,所以有空缺值。
本文在三個(gè)不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,其中DuIE2.0比DuIE1.0更傾向于口語,并進(jìn)一步引入了復(fù)雜的關(guān)系。實(shí)驗(yàn)在沒有標(biāo)注的測試集上得到的結(jié)果如表3所示,本文方法在三個(gè)數(shù)據(jù)集上的F1值均有顯著提升。其中,本文方法較PURE在三個(gè)數(shù)據(jù)集上分別提升了7.23%、6.93%和8.51%。相較于在DuIE1.0和DuIE2.0數(shù)據(jù)集表現(xiàn)突出的基線模型,本文方法在DuIE1.0和DuIE2.0數(shù)據(jù)集上的F1值提升了2.94%和4.37%。這表明本文模型在不同領(lǐng)域的數(shù)據(jù)集上都表現(xiàn)良好,具有出色的泛化能力。尤其值得注意的是在兩個(gè)DuIE數(shù)據(jù)集上,本文模型表現(xiàn)明顯超越了當(dāng)前處于領(lǐng)先地位的模型,進(jìn)一步突顯了其卓越的性能和優(yōu)越性。
3.4 消融實(shí)驗(yàn)
本文以PURE為基線模型,對本文方法進(jìn)行消融實(shí)驗(yàn),結(jié)果如表4所示。表4的第1行是基線模型的結(jié)果,第2行是將基線模型的實(shí)體模型替換成W2NER命名實(shí)體識別模型后的實(shí)驗(yàn)結(jié)果,第3行是將基線模型的實(shí)體模型替換成本文改進(jìn)過后的命名實(shí)體識別模型(即NER模塊)后的實(shí)驗(yàn)結(jié)果,第4行是在第3行的基礎(chǔ)上加上級聯(lián)類型機(jī)制的實(shí)驗(yàn)結(jié)果。
如表4所示,如果只是將PURE的實(shí)體模型部分替換成W2NER命名實(shí)體識別模型,那么實(shí)體識別子任務(wù)的結(jié)果將明顯下降,而關(guān)系抽取子任務(wù)的結(jié)果下降更顯著。但是如果將PURE的實(shí)體模型部分替換成本文的NER模塊,關(guān)系模型的結(jié)果將會提升6.91%、5.21%和8.62%,這表明本文對命名實(shí)體識別模型的改進(jìn)是十分關(guān)鍵的。此時(shí)NER模塊的結(jié)果與基線模型實(shí)體模型結(jié)果相近,但是關(guān)系抽取的結(jié)果卻提升了,可能是因?yàn)楦倪M(jìn)后的NER模塊提供了更準(zhǔn)確的實(shí)體類型信息給RE模塊。
改進(jìn)后的NER模塊加上級聯(lián)類型機(jī)制后,實(shí)體識別子任務(wù)在DuIE1.0、DuIE2.0數(shù)據(jù)集上的結(jié)果較未加上級聯(lián)類型機(jī)制時(shí)提升了2.01%和0.95%;關(guān)系抽取子任務(wù)在DuIE1.0和DuIE2.0數(shù)據(jù)集上的結(jié)果提升了0.32%和1.72%。表明本文提出的級聯(lián)關(guān)系機(jī)制在DuIE1.0和DuIE2.0數(shù)據(jù)集上可有效提升三元組抽取性能。關(guān)系抽取子任務(wù)在CMeIE-V2數(shù)據(jù)集上的結(jié)果略微下降了0.11%,可能是因?yàn)獒t(yī)學(xué)數(shù)據(jù)集的結(jié)構(gòu)復(fù)雜,所以性能不能取得提升。
3.5 RE模塊對標(biāo)記進(jìn)行預(yù)處理的方法對比
在本文的NER模塊中,最終會輸出預(yù)測實(shí)體及其級聯(lián)類型給RE模塊,然而如何在RE模塊通過預(yù)處理數(shù)據(jù)把級聯(lián)類型融合到數(shù)據(jù)中是一個(gè)問題。本文嘗試了三種方式,如圖2所示。圖2(a)是預(yù)處理前的句子,(b)到(d)是三種預(yù)處理方式后的句子。
第一種預(yù)處理方式是擴(kuò)展RE模塊生成的例子, 如圖2(b)所示。NER模塊輸出實(shí)體及其級聯(lián)類型后,把同一實(shí)體的不同類型當(dāng)成各自只有一個(gè)類型的多個(gè)同名實(shí)體,然后將這些同名實(shí)體與其他實(shí)體一起進(jìn)行兩兩配對輸入到關(guān)系模型。示例句子預(yù)測出的實(shí)體“千夢輪回”有兩個(gè)類型“網(wǎng)絡(luò)小說”和“圖書作品”,這個(gè)實(shí)體在關(guān)系抽取階段將會被當(dāng)成兩個(gè)實(shí)體,一個(gè)是類型為“網(wǎng)絡(luò)小說”的實(shí)體“千夢輪回”,另一個(gè)是類型為“圖書作品”的實(shí)體“千夢輪回”。這兩個(gè)同名不同類型的實(shí)體分別和另一個(gè)實(shí)體配對,最終生成兩個(gè)例子。
第二種和第三種預(yù)處理方式都是在句子上聯(lián)合標(biāo)記實(shí)體對的所有類型。第一種聯(lián)合標(biāo)記方式是交叉標(biāo)記,即實(shí)體的類型1與類型2的頭尾標(biāo)記彼此交叉,生成實(shí)例如圖2(c)所示。第二種聯(lián)合標(biāo)記方式是包含標(biāo)記,即實(shí)體的一個(gè)類型的頭尾標(biāo)記包含另一個(gè)類型的頭尾標(biāo)記,生成實(shí)例如圖2(d)所示。
不同預(yù)處理方式下的實(shí)驗(yàn)結(jié)果如表5所示。在關(guān)系模型只生成一個(gè)例子的預(yù)處理方式比擴(kuò)展例子的方式能取得更好的結(jié)果,分析其原因是擴(kuò)展例子使得管道模型的實(shí)體冗余缺陷更加明顯,從而降低了模型的性能。另外在兩種不同的聯(lián)合標(biāo)記方式中,DuIE1.0數(shù)據(jù)集上的包含標(biāo)記方式比交叉標(biāo)記方式提升了0.2%,而DuIE2.0數(shù)據(jù)集上并無差別。這說明了不同的聯(lián)合方式對不同數(shù)據(jù)集的效果不一樣,而且兩種聯(lián)合標(biāo)記方式的效果相差不大。
4 結(jié)束語
針對中文實(shí)體關(guān)系抽取任務(wù),提出了一種基于實(shí)體級聯(lián)類型的中文關(guān)系抽取管道模型。它的RE模塊是一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的把命名實(shí)體識別任務(wù)轉(zhuǎn)換為詞-詞關(guān)系分類任務(wù)的模型,并生成了預(yù)測實(shí)體及其級聯(lián)類作為關(guān)系模型的輸入,最終由RE模塊生成三元組。實(shí)驗(yàn)表明,它在DuIE1.0、DuIE2.0、CMeIE-V2三個(gè)數(shù)據(jù)集上取得了比基線模型更好的結(jié)果,其中在DuIE1.0和DuIE2.0數(shù)據(jù)集上可以達(dá)到最好的性能。實(shí)驗(yàn)表明了管道模型具有不遜于聯(lián)合模型的良好性能和潛力。下一步將深入研究預(yù)處理級聯(lián)類型的方式,以更好地發(fā)揮豐富后的實(shí)體類型信息的作用。
參考文獻(xiàn):
[1]Xia Zhentao,Qu Weiguang,Gu Yanhui,et al. Review of entity relation extraction based on deep learning [C]// Proc of the 19th Chinese National Conference on Computational Linguistics. Haikou,China: Chinese Information Processing Society of China,2020: 349-362.
[2]王傳棟,徐嬌,張永. 實(shí)體關(guān)系抽取綜述 [J]. 計(jì)算機(jī)工程與應(yīng)用,2020,56(12): 25-36. (Wang Chuandong,Xu Jiao,Zhang Yong. Survey of entity relation extraction [J]. Computer Engineering and Applications,2020,56(12): 25-36.)
[3]Zhong Zexuan,Chen Danqi. A frustratingly easy approach for entity and relation extraction [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2021: 50-61.
[4]Ye Deming,Lin Yankai,Li Peng,et al. Packed levitated marker for entity and relation extraction [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2022: 4904-4917.
[5]Li Jingye,F(xiàn)ei Hao,Liu Jiang,et al. Unified named entity recognition as word-word relation classification [C]// Proc of AAAI Conference on Artificial Intelligence,2022: 10965-10973.
[6]Devlin J,Chang M W,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2019: 4171-4186.
[7]Lample G,Ballesteros M,Subramanian S,et al. Neural architectures for named entity recognition [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2016: 260-270.
[8]Liu Ruibo,Wei J,Jia Chenyan,et al. Modulating language models with emotions [C]//Proc of Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. Stroudsburg,PA: Association for Computational Linguistics,2021: 4332-4339.
[9]Yu F,Koltun V. Multi-scale context aggregation by dilated convolutions [C]// Proc of the 4th International Conference on Learning Representations. Piscataway,NJ:IEEE Press,2016.
[10]Wei Xiang,Cui Xingyu,Cheng Ning,et al. Zero-shot information extraction via chatting with ChatGPT [EB/OL]. (2024-05-27). https://arxiv.org/abs/2302.10205.
[11]Luo Xukun,Liu Weijie,Ma Meng,et al. A bidirectional tree tagging scheme for joint medical relation extraction [C]// Proc of International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press,2023: 1-8.
[12]Zhou Zhihua. A brief introduction to weakly supervised learning [J]. National Science Review,2018,5(1): 44-53.
[13]鄂海紅,張文靜,肖思琪,等. 深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述 [J]. 軟件學(xué)報(bào),2019,30(6): 1793-1818. (E Haihong,Zhang Wenjing,Xiao Siqi,et al. Survey of entity relationship extraction based on deep learning [J]. Journal of Software,2019,30(6): 1793-1818.)
[14]王景慧,盧玲,段志麗,等. 融合依存信息的關(guān)系導(dǎo)向型實(shí)體關(guān)系抽取方法 [J]. 計(jì)算機(jī)應(yīng)用與研究,2023,40(5): 1410-1415,1440. (Wang Jinghui,Lu Ling,Duan Zhili,et al. Relationship-oriented entity relationship extraction method combining dependent information [J]. Application Research of Computers,2023,40(5): 1410-1415,1440.)
[15]Zhao Jun,Zhang Yongxin,Zhang Qi,et al. Actively supervised clustering for open relation extraction [C]// Proc of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2023: 4985-4997.
[16]Brown T B,Mann B,Ryder N,et al. Language models are few-shot learners [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc. 2020: 1877-1901.
[17]Li Wenjie,Zhang Peng,Wei Furu,et al. A novel feature-based app-roach to chinese entity relation extraction [C]// Proc of ACL-08: HLT,Short Papers. Stroudsburg,PA: Association for Computational Linguistics,2008: 89-92.
[18]邢百西,趙繼舜,劉鵬遠(yuǎn). 中文關(guān)系抽取的句級語言學(xué)特征探究[C]// 第二十屆全國計(jì)算語言學(xué)會議論文集. 北京:中國中文信息學(xué)會,2021: 643-654. (Xing Baixi,Zhao Jishun,Liu Pengyuan. A probe into the sentence-level linguistic features of chinese relation extraction [C]// Proc of the 20th Chinese National Conference on Computational Linguistics. Beijing: Chinese Information Processing Society of China,2021: 643-654.)
[19]Li Shuangjie,He Wei,Shi Yabing,et al. DuIE: a large-scale Chinese dataset for information extraction [C]// Proc of the 8th CCF International Conference on Natural Language Processing and Chinese Computing. Berlin: Springer-Verlag,2019: 791-800.
[20]Guan Tongfeng,Zan Hongying,Zhou Xiabing,et al. CMeIE: construction and evaluation of Chinese medical information extraction dataset [C]//Proc of Natural Language Processing and Chinese Computing. Cham: Springer,2020: 270-282.
收稿日期:2023-12-10;修回日期:2024-02-04 基金項(xiàng)目:廣東省自然科學(xué)基金面上項(xiàng)目(2021A1515012556)
作者簡介:饒東寧(1977—),男,廣東興寧人,副教授,碩導(dǎo),博士,主要研究方向?yàn)橹悄芤?guī)劃、自然語言處理(raodn@gdut.edu.cn);吳倩梅(1998—),女,江西贛州人,碩士研究生,主要研究方向?yàn)樽匀徽Z言處理;黃觀琚(1996—),男,廣東湛江人,碩士研究生,主要研究方向?yàn)樽匀徽Z言處理.