国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于局部注意力機(jī)制的中文短文本實(shí)體鏈接

2021-11-18 02:18張晟旗王元龍王笑月王曉暉閆智超
計(jì)算機(jī)工程 2021年11期
關(guān)鍵詞:消歧注意力實(shí)體

張晟旗,王元龍,李 茹,2,王笑月,王曉暉,閆智超

(1.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006;2.山西大學(xué)計(jì)算機(jī)智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原 030006)

0 概述

自然語(yǔ)言處理任務(wù)中的文本深度語(yǔ)義理解是一項(xiàng)熱門研究課題。自然語(yǔ)言自身存在著模糊性、復(fù)雜性、多義性等多重特點(diǎn),實(shí)體鏈接則是文本深度語(yǔ)義理解的有效解決方法。實(shí)體鏈接是將文本中實(shí)體與知識(shí)庫(kù)的相應(yīng)實(shí)體信息進(jìn)行鏈接的過(guò)程,即通過(guò)實(shí)體指稱項(xiàng)及其所在的上下文的文本信息,借助目標(biāo)知識(shí)圖譜將文本實(shí)體鏈接到知識(shí)圖譜中正確的映射實(shí)體上,從而豐富文本的語(yǔ)義信息[1]。實(shí)體鏈接任務(wù)可分為實(shí)體識(shí)別和實(shí)體消歧2 個(gè)部分。在實(shí)體識(shí)別過(guò)程中,識(shí)別實(shí)體指稱項(xiàng),是指源于待鏈接文本中的實(shí)體。在實(shí)體消歧過(guò)程中,先根據(jù)識(shí)別出的實(shí)體指稱項(xiàng)從知識(shí)庫(kù)中選擇待消歧實(shí)體信息,以生成該實(shí)體指稱項(xiàng)的候選實(shí)體集,再以實(shí)體指稱項(xiàng)的上下文信息為依據(jù)對(duì)候選實(shí)體集中的實(shí)體進(jìn)行消歧。

傳統(tǒng)的實(shí)體鏈接任務(wù)主要對(duì)長(zhǎng)文本進(jìn)行處理,長(zhǎng)文本中有更多更豐富的上下文信息,因而也更有利于鏈接[2]。相比長(zhǎng)文本,短文本的實(shí)體鏈接則更具挑戰(zhàn)性,加之中文自身的靈活性、表達(dá)會(huì)意性、語(yǔ)法結(jié)構(gòu)多樣性等特點(diǎn),使得對(duì)中文短文本的深度理解變得更為困難。傳統(tǒng)的方法主要基于特征工程,這使得模型復(fù)雜、缺乏靈活性,弱化了模型的泛化能力并伴隨產(chǎn)生特征稀疏等問(wèn)題。

本文針對(duì)中文短文本實(shí)體鏈接中的實(shí)體識(shí)別與實(shí)體消歧任務(wù),構(gòu)建一個(gè)基于局部注意力機(jī)制的中文短文本實(shí)體鏈接模型。在實(shí)體消歧過(guò)程中引入局部注意力機(jī)制,以增強(qiáng)實(shí)體鄰近上下文的語(yǔ)義信息,并在實(shí)體識(shí)別過(guò)程中使用半結(jié)構(gòu)半指針的“01”標(biāo)注方式代替?zhèn)鹘y(tǒng)的BIO 標(biāo)注方式對(duì)實(shí)體進(jìn)行標(biāo)注。此外,根據(jù)數(shù)據(jù)集的特點(diǎn)采用容錯(cuò)機(jī)制以提升鏈接結(jié)果的準(zhǔn)確率與容錯(cuò)性。

1 相關(guān)工作

實(shí)體鏈接旨在通過(guò)查找出文本中的實(shí)體并根據(jù)該實(shí)體所在的上下文與知識(shí)庫(kù)中實(shí)體的語(yǔ)義關(guān)系來(lái)完成文本與知識(shí)庫(kù)的鏈接,在此過(guò)程中需要對(duì)每一個(gè)實(shí)體適當(dāng)?shù)叵湟弥R(shí)庫(kù)中的實(shí)體的歧義[3]?,F(xiàn)有的實(shí)體鏈接方法大體可劃分為2 類:一類是級(jí)聯(lián)地對(duì)2 個(gè)任務(wù)進(jìn)行獨(dú)立學(xué)習(xí);另一類則是對(duì)2 個(gè)任務(wù)采用聯(lián)合學(xué)習(xí)的方法。

在早期的實(shí)體鏈接研究中,多數(shù)工作都是基于特征工程的,并且對(duì)實(shí)體識(shí)別與實(shí)體消歧這2 個(gè)任務(wù)是獨(dú)立處理的,即從每個(gè)子任務(wù)入手,根據(jù)任務(wù)的特點(diǎn)分別處理2 個(gè)任務(wù)。此類方法的實(shí)現(xiàn)基于以下2 個(gè)假設(shè)條件:1)前1 個(gè)任務(wù)的結(jié)果完全正確,并可以直接用于后續(xù)任務(wù)中;2)2 個(gè)任務(wù)之間沒有任何依賴關(guān)系。實(shí)體識(shí)別的方法是根據(jù)命名實(shí)體識(shí)別方法改進(jìn),再對(duì)不同類型的文本及實(shí)體特征加入特征選擇,如文獻(xiàn)[4-6]都是基于自己定義的實(shí)體特征與線性鏈條件隨機(jī)場(chǎng)結(jié)合的方法實(shí)現(xiàn)的。隨著深度學(xué)習(xí)的廣泛使用,文獻(xiàn)[7]使用具有長(zhǎng)短時(shí)記憶特點(diǎn)的Bi-LSTM 來(lái)學(xué)習(xí)實(shí)體語(yǔ)義的特征并用于識(shí)別其范圍,文獻(xiàn)[8]使用自注意力機(jī)制來(lái)獲取輸入文本的全局信息,并最終證明自注意力機(jī)制在命名實(shí)體識(shí)別任務(wù)中的有效性。實(shí)體鏈接是一個(gè)相對(duì)下游的任務(wù),其性能受限于命名實(shí)體識(shí)別任務(wù)的準(zhǔn)確性,對(duì)于中文的實(shí)體鏈接任務(wù)而言,還會(huì)受到中文分詞任務(wù)的影響,上游任務(wù)的錯(cuò)誤會(huì)對(duì)實(shí)體鏈接任務(wù)帶來(lái)不可避免的噪音[9]。實(shí)體消歧任務(wù)的主要目標(biāo)是計(jì)算識(shí)別出的實(shí)體與候選實(shí)體間的相似度,在早期也是以特征過(guò)程以及各種相似度計(jì)算方法為主,如文獻(xiàn)[10]對(duì)實(shí)體流行度、語(yǔ)義關(guān)聯(lián)度等多種特征進(jìn)行特征組合,提出半監(jiān)督算法。在深度學(xué)習(xí)方法以其能夠代替手工定義特征等優(yōu)勢(shì)被廣泛使用之后,文獻(xiàn)[11]提出使用實(shí)體表示和局部注意力機(jī)制來(lái)減少手工設(shè)置特征并加強(qiáng)實(shí)體的語(yǔ)義表示。但是這類方法有著明顯的弊端。首先,2 個(gè)任務(wù)是級(jí)聯(lián)進(jìn)行的,第2 個(gè)任務(wù)的準(zhǔn)確率很大程度上依賴于第1 個(gè)任務(wù)的準(zhǔn)確率,這樣會(huì)導(dǎo)致訓(xùn)練過(guò)程中存在著錯(cuò)誤傳遞的問(wèn)題;其次,早期研究人員忽略了2 個(gè)子任務(wù)之間存在著依賴關(guān)系,不應(yīng)當(dāng)看成單獨(dú)訓(xùn)練的任務(wù)進(jìn)行處理。

針對(duì)上述問(wèn)題,國(guó)內(nèi)外研究者提出了聯(lián)合學(xué)習(xí)的方法。聯(lián)合學(xué)習(xí)方法能充分利用多個(gè)任務(wù)間的內(nèi)在依賴關(guān)系,有助于修復(fù)上階段傳播的錯(cuò)誤[12]。文獻(xiàn)[13]根據(jù)中文分詞任務(wù)與中文命名實(shí)體識(shí)別任務(wù)之間的共同特性(即都需要進(jìn)行實(shí)體邊界識(shí)別),使用對(duì)抗學(xué)習(xí)方法來(lái)聯(lián)合訓(xùn)練命名實(shí)體識(shí)別任務(wù)和中文分詞任務(wù),抽取共享的詞邊界信息。文獻(xiàn)[14]使用一個(gè)流行的命名實(shí)體識(shí)別模型以盡可能全地識(shí)別出實(shí)體,避免實(shí)體識(shí)別的效果對(duì)鏈接結(jié)果造成影響,對(duì)于剩余無(wú)需連接的實(shí)體則直接通過(guò)鏈接過(guò)程刪除。文獻(xiàn)[15]將待消歧實(shí)體和待消歧實(shí)體上下文語(yǔ)境映射到同一個(gè)空間,基于概率空間模型并根據(jù)實(shí)體的空間向量進(jìn)行消歧。文獻(xiàn)[16]利用半條件隨機(jī)場(chǎng)對(duì)2 個(gè)任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)。文獻(xiàn)[17]提出對(duì)全局實(shí)體鏈接的動(dòng)態(tài)上下文增強(qiáng)模型(Dynamic Context Augmentation,DCA),將已鏈接的實(shí)體知識(shí)作為動(dòng)態(tài)上下文加入之后消歧過(guò)程的決策之中。文獻(xiàn)[18]提出端到端的實(shí)體鏈接模型RRWEL(Recurrent Random Walk based EL),通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)學(xué)習(xí)局部上下文、實(shí)體指稱項(xiàng)、實(shí)體以及實(shí)體類型信息的語(yǔ)義表征,并使用隨機(jī)游走網(wǎng)絡(luò)對(duì)文檔信息進(jìn)行學(xué)習(xí),結(jié)合局部信息和全局信息得到文檔中每個(gè)實(shí)體指稱項(xiàng)對(duì)應(yīng)的正確實(shí)體。文獻(xiàn)[19]提出一個(gè)基于深度語(yǔ)義匹配模型和CNN 的實(shí)體鏈接模型,在候選實(shí)體生成階段采用構(gòu)造同名字典的方法,并基于上下文進(jìn)行字典擴(kuò)充,通過(guò)匹配來(lái)選擇候選實(shí)體集。

自ELMO 模型[20]提出之后,大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型迅速成為主流方法,而文獻(xiàn)[21]提出的注意力機(jī)制更是奠定了BERT 預(yù)訓(xùn)練語(yǔ)言模型[22]在自然語(yǔ)言處理領(lǐng)域的重要地位。此后,研究者針對(duì)不同任務(wù)對(duì)BERT 模型進(jìn)行了改進(jìn),并取得了較好的效果。文獻(xiàn)[23]將BERT 預(yù)訓(xùn)練語(yǔ)言模型引入實(shí)體鏈接任務(wù),對(duì)實(shí)體指稱項(xiàng)的上下文以及候選實(shí)體的相關(guān)信息進(jìn)行關(guān)聯(lián)度分析,通過(guò)提升語(yǔ)義分析的效果來(lái)優(yōu)化實(shí)體鏈接性能,并采用TextRank 關(guān)鍵詞提取技術(shù)增強(qiáng)目標(biāo)實(shí)體綜合描述信息的主題信息,從而提高文本相似度度量的準(zhǔn)確性,優(yōu)化模型效果。文獻(xiàn)[24]提出結(jié)合全局注意力機(jī)制與局部注意力機(jī)制的思想,前者在每次計(jì)算上下文向量時(shí)需要計(jì)算文本中的所有隱狀態(tài),而后者則僅考慮輸入序列子序列的隱狀態(tài)。本文將局部注意力機(jī)制應(yīng)用到中文短文本的實(shí)體鏈接中,對(duì)待消歧文本與實(shí)體的知識(shí)描述文本進(jìn)行拼接,然后利用局部注意力機(jī)制強(qiáng)化實(shí)體的上下文信息,從而增強(qiáng)短文本的語(yǔ)義信息。

2 本文模型

本文針對(duì)中文短文本的實(shí)體鏈接任務(wù),提出基于局部注意力機(jī)制的中文短文本實(shí)體鏈接模型,通過(guò)完成實(shí)體識(shí)別與實(shí)體消歧來(lái)實(shí)現(xiàn)待消歧文本與知識(shí)庫(kù)信息鏈接的管道模型。為緩解管道模型上游任務(wù)結(jié)果對(duì)下游任務(wù)結(jié)果產(chǎn)生的級(jí)聯(lián)影響,在實(shí)體識(shí)別與實(shí)體消歧任務(wù)的訓(xùn)練過(guò)程中使用共享參數(shù)的方法實(shí)現(xiàn)聯(lián)合學(xué)習(xí),在上游任務(wù)與下游任務(wù)之間利用其內(nèi)在聯(lián)系提升模型效果,減少上游任務(wù)的錯(cuò)誤結(jié)果在下游任務(wù)中的傳播。本文中實(shí)體識(shí)別和實(shí)體消歧的模型都是基于BERT 模型進(jìn)行改進(jìn)的:實(shí)體識(shí)別使用BERT+條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型,并以半結(jié)構(gòu)半指針的“01”標(biāo)注方法代替?zhèn)鹘y(tǒng)的BIO 標(biāo)注方法,通過(guò)“0”和“1”來(lái)獲取實(shí)體表示以及實(shí)體的位置信息;實(shí)體消歧則是在BERT 模型基礎(chǔ)上加入局部注意力層來(lái)重點(diǎn)強(qiáng)化與實(shí)體鄰近的上下文信息并優(yōu)化消歧結(jié)果的容錯(cuò)機(jī)制。

2.1 實(shí)體識(shí)別

本文將實(shí)體識(shí)別任務(wù)作為一個(gè)序列標(biāo)注任務(wù)進(jìn)行處理,使用BERT+CRF 模型對(duì)文本序列中的實(shí)體進(jìn)行位置標(biāo)注。本文模型架構(gòu)如圖1 所示。由于在本部分中考慮到模型訓(xùn)練與預(yù)測(cè)的時(shí)間復(fù)雜度,因此未在模型內(nèi)部架構(gòu)進(jìn)行大規(guī)模調(diào)整改進(jìn),而是選擇使用更高效的半結(jié)構(gòu)半指針的“01”標(biāo)注方法替換傳統(tǒng)的BIO 標(biāo)注方法,半結(jié)構(gòu)半指針的“01”標(biāo)注方法通過(guò)“0”與“1”這2 個(gè)標(biāo)簽作為文本中的實(shí)體首尾位置的標(biāo)記信息,以區(qū)分實(shí)體在文本中的范圍,相較于BIO 標(biāo)注方法更簡(jiǎn)潔更高效。

圖1 實(shí)體識(shí)別模型架構(gòu)Fig.1 Framework of entity recognition model

首先,對(duì)輸入文本的長(zhǎng)度進(jìn)行標(biāo)準(zhǔn)化處理,所有文本長(zhǎng)度以35個(gè)字符為界設(shè)限,少于35個(gè)字符的進(jìn)行零填充,多于35個(gè)字符則將其截?cái)?。在進(jìn)行“01”標(biāo)注時(shí),創(chuàng)建2個(gè)與文本長(zhǎng)度一致的序列并用“0”對(duì)其進(jìn)行初始化,這2個(gè)序列則分別用來(lái)表示實(shí)體位置的首字符的位置與尾字符的位置,并將識(shí)別出的實(shí)體的首尾位置的“0”標(biāo)記改為“1”,通過(guò)對(duì)2個(gè)序列中“1”標(biāo)記的配對(duì)來(lái)識(shí)別實(shí)體。BIO標(biāo)記法與“01”標(biāo)記法的標(biāo)注過(guò)程示例如圖2所示。此前考慮并嘗試其他標(biāo)注方法,如將首尾標(biāo)記序列合為一個(gè)序列,又可分為2種方法:一種是將識(shí)別出的實(shí)體位置全部標(biāo)“1”,其余位置全部標(biāo)“0”;另一種則是將識(shí)別出的實(shí)體的首尾位置標(biāo)“1”,其余位置標(biāo)“0”。這2種方法無(wú)法解決單字實(shí)體的標(biāo)注問(wèn)題,使得單字實(shí)體難以被識(shí)別與表示。BIO標(biāo)注方法需要標(biāo)記出整個(gè)實(shí)體的全部信息,而“01”標(biāo)注方法只需標(biāo)記實(shí)體的首尾位置,有利于降低標(biāo)注實(shí)體錯(cuò)誤的概率,因此,本文采用“01”標(biāo)注方法對(duì)實(shí)體位置進(jìn)行標(biāo)注。

圖2 “01”標(biāo)注與BIO 標(biāo)注示例Fig.2 Example of‘01’annotation and BIO annotation

其次,對(duì)輸入文本中的字向量Ci與每個(gè)字所對(duì)應(yīng)的位置向量Pi進(jìn)行拼接得到文本的向量表示Ti,在Ti組成的輸入序列的相應(yīng)位置加入CLS 與SEP 標(biāo)記并以此序列作為模型輸入,其中:i表示字在句中的位置;n為文本長(zhǎng)度。

經(jīng)過(guò)BERT 模型的編碼后,加入CRF 層用于得到實(shí)體標(biāo)簽預(yù)測(cè),使用CRF 對(duì)整個(gè)序列進(jìn)行全局歸一化處理,得到概率最大的最優(yōu)序列作為最終結(jié)果。

輸入序列為X=(x1,x2,…,xn),輸出序列為Y=(y1,y2,…,yn),對(duì)輸出序列Y中所有的標(biāo)簽序列的概率通過(guò)softmax 計(jì)算。解碼時(shí)使用argmax 函數(shù)對(duì)輸出序列的結(jié)果進(jìn)行預(yù)測(cè),以Yx表示輸入序列X的所有標(biāo)注結(jié)果的序列集合。

實(shí)體識(shí)別結(jié)果中存在特殊符號(hào)以及錯(cuò)別字,造成識(shí)別出的實(shí)體與知識(shí)庫(kù)中實(shí)體無(wú)法匹配,從而導(dǎo)致候選實(shí)體集中實(shí)體缺失。因此,本文引入容錯(cuò)機(jī)制(Fault Tolerance Mechanism,F(xiàn)TM),將識(shí)別出的實(shí)體與數(shù)據(jù)預(yù)處理時(shí)構(gòu)建的id_entity 字典中的實(shí)體進(jìn)行比對(duì),當(dāng)識(shí)別出的實(shí)體與字典中實(shí)體只有f個(gè)字符不同時(shí),將兩者認(rèn)為是同一實(shí)體,并作為候選實(shí)體加入待消歧序列中。容錯(cuò)機(jī)制可以避免因錯(cuò)別字或某些語(yǔ)言差異導(dǎo)致的實(shí)體中某個(gè)字的不匹配而影響實(shí)體消歧的效果,但也會(huì)為實(shí)體消歧增加不少的時(shí)間成本。

2.2 實(shí)體消歧

本文采用管道模型來(lái)處理整個(gè)實(shí)體鏈接任務(wù),為能利用實(shí)體識(shí)別以及實(shí)體消歧2 子任務(wù)的內(nèi)在關(guān)系,通過(guò)共享參數(shù)的方法進(jìn)行聯(lián)合學(xué)習(xí)。本文將實(shí)體消歧任務(wù)直接看作一個(gè)對(duì)文本中實(shí)體與知識(shí)庫(kù)中實(shí)體的相關(guān)性排序問(wèn)題,選擇使用BERT 模型來(lái)對(duì)文本進(jìn)行編碼。考慮到待消歧文本的長(zhǎng)度較短,所包含的供支撐上下文信息的內(nèi)容也大幅減少,將候選實(shí)體的知識(shí)三元組中的所有屬性(predicate)與屬性值(object)進(jìn)行拼接,構(gòu)成該實(shí)體的一條知識(shí)描述文本,并使用知識(shí)描述文本與待消歧文本拼接后作為模型的輸入序列,以豐富詞語(yǔ)的向量表示,也為后續(xù)的消歧工作提供更多的上下文信息。此外,經(jīng)統(tǒng)計(jì)得出知識(shí)描述文本的長(zhǎng)度總體偏長(zhǎng)。因此,考慮時(shí)間復(fù)雜度對(duì)大量過(guò)長(zhǎng)的文本進(jìn)行處理,對(duì)過(guò)長(zhǎng)文本進(jìn)行截?cái)啵渲薪財(cái)嚅撝蹈鶕?jù)對(duì)知識(shí)描述文本的長(zhǎng)度統(tǒng)計(jì)設(shè)為42 個(gè)字符,對(duì)文本長(zhǎng)度大于42 個(gè)字符的文本按比例截?cái)唷?/p>

文本拼接操作使得原來(lái)的短文本的長(zhǎng)度大幅增加,而文本過(guò)長(zhǎng)會(huì)使模型在訓(xùn)練過(guò)程中帶來(lái)長(zhǎng)距離依賴的問(wèn)題,又考慮到模型訓(xùn)練與預(yù)測(cè)的效率,因此,在模型表示層之后加入局部注意力機(jī)制,旨在對(duì)實(shí)體的鄰近上下文信息重點(diǎn)關(guān)注,強(qiáng)化實(shí)體鄰近信息,減弱較遠(yuǎn)無(wú)關(guān)信息的影響,進(jìn)而提升鏈接的準(zhǔn)確率。實(shí)體消歧模型架構(gòu)如圖3 所示。

圖3 實(shí)體消歧模型架構(gòu)Fig.3 Framework of entity disambiguation model

根據(jù)識(shí)別出的實(shí)體的位置信息,將實(shí)體的隱狀態(tài)拼接作為實(shí)體的向量表示Tv,同時(shí)對(duì)序列中對(duì)應(yīng)的隱狀態(tài)進(jìn)行局部注意力機(jī)制計(jì)算得到Av。

其中:a和b分別表示該實(shí)體在句中的首尾位置;j表示滑動(dòng)窗口區(qū)間內(nèi)字符所對(duì)應(yīng)的位置。取CLS 位置的向量表示、候選實(shí)體的向量表示以及實(shí)體的局部注意力計(jì)算后的向量表示進(jìn)行拼接得到Cv,在全連接層利用Sigmoid 激活函數(shù)得到候選實(shí)體的概率得分,最終對(duì)所有候選實(shí)體的概率得分進(jìn)行排序,選擇概率得分最高的實(shí)體作為正確鏈接實(shí)體。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集

使用CCKS2019 和CCKS2020 數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)本文象對(duì)模型進(jìn)行評(píng)估。CCKS2019 數(shù)據(jù)集適用于實(shí)體識(shí)別與實(shí)體消歧模型,而CCKS2020 數(shù)據(jù)集則適用于短文本場(chǎng)景下的多歧義實(shí)體消歧研究,可通過(guò)對(duì)數(shù)據(jù)集的相關(guān)操作,使其也適用于實(shí)體識(shí)別與實(shí)體消歧模型。2 個(gè)數(shù)據(jù)集中的文本內(nèi)容主要來(lái)源于搜索Query、微博、新聞標(biāo)題、視頻標(biāo)題、文章標(biāo)題、用戶對(duì)話內(nèi)容等,主要特征是文本長(zhǎng)度都較短,待鏈接文本的平均長(zhǎng)度分別為25.7 個(gè)和39.8 個(gè)字符。CCKS2020 數(shù)據(jù)集中增加了多模任務(wù)場(chǎng)景下的文本源,同時(shí)調(diào)整了多歧義實(shí)體比例,大幅提升了實(shí)體消歧的難度。CCKS2019 數(shù)據(jù)集中包含90 000 條標(biāo)注數(shù)據(jù),本文隨機(jī)抽取生成70 000 條訓(xùn)練集、10 000 條驗(yàn)證集以及10 000 條測(cè)試集,知識(shí)庫(kù)中包含39 925 條實(shí)體知識(shí)信息;CCKS2020 數(shù)據(jù)集中包含70 000 條訓(xùn)練集、10 000 條驗(yàn)證集以及10 000 條測(cè)試集,知識(shí)庫(kù)中包含324 418 條實(shí)體知識(shí)信息。

3.2 數(shù)據(jù)預(yù)處理

本文任務(wù)是文本與知識(shí)庫(kù)中實(shí)體的鏈接,筆者通過(guò)對(duì)數(shù)據(jù)集中文本的分析發(fā)現(xiàn),源自文本與知識(shí)庫(kù)的同名實(shí)體由于其中存在的某些特殊符號(hào)(如標(biāo)點(diǎn)符號(hào)、英文字母的大小寫等)或者錯(cuò)別字而無(wú)法匹配,最終會(huì)對(duì)實(shí)體消歧的結(jié)果產(chǎn)生影響。因此,先對(duì)文本以及知識(shí)庫(kù)中實(shí)體中包含的特殊符號(hào)進(jìn)行標(biāo)準(zhǔn)化處理。

為方便實(shí)體消歧對(duì)實(shí)體識(shí)別結(jié)果的利用,根據(jù)數(shù)據(jù)集中的信息創(chuàng)建4 個(gè)字典,分別是id_text(知識(shí)庫(kù)中實(shí)體的id 與該實(shí)體的描述文本)、id_entity_type(知識(shí)庫(kù)中實(shí)體的id、實(shí)體名與實(shí)體類型)、id_entity(知識(shí)庫(kù)中實(shí)體id 與實(shí)體名)和entity_id(知識(shí)庫(kù)中實(shí)體名與對(duì)應(yīng)的實(shí)體id)。

3.3 參數(shù)設(shè)置

為避免錯(cuò)誤傳遞帶來(lái)的影響,在進(jìn)行實(shí)體識(shí)別與實(shí)體消歧的訓(xùn)練過(guò)程中使用相同的超參數(shù)設(shè)置。模型中的表示層使用預(yù)訓(xùn)練語(yǔ)言模型BERT 模型對(duì)文本進(jìn)行編碼,在訓(xùn)練過(guò)程中實(shí)體識(shí)別與實(shí)體消歧使用9 折交叉驗(yàn)證法,并用生成的模型進(jìn)行預(yù)測(cè),最終對(duì)實(shí)體的結(jié)果以及鏈接的結(jié)果進(jìn)行投票選擇。在模型中設(shè)置初始學(xué)習(xí)率為0.000 1,學(xué)習(xí)率縮減步長(zhǎng)為0.000 5,dropout 為0.3,局部注意力層中的窗口大小為7,容錯(cuò)度為1。

3.4 評(píng)價(jià)指標(biāo)

本文的實(shí)體識(shí)別及實(shí)體消歧模型均使用準(zhǔn)確率P、召回率R和F1 值F1作為評(píng)價(jià)指標(biāo)。具體計(jì)算方法如下:

其中:CT表示模型得出的正確結(jié)果的總量;PT表示模型得出的所有結(jié)果的總量;DT表示數(shù)據(jù)集中的數(shù)據(jù)的總量。

3.5 結(jié)果分析

在CCKS2019 和CCKS2020 數(shù)據(jù)集上各方法的實(shí)體識(shí)別結(jié)果如表1 所示,主要包括使用BIO 標(biāo)注方法以及“01”標(biāo)注方法的實(shí)體識(shí)別的結(jié)果、模型在不同數(shù)據(jù)集上的效果以及模型在相同參數(shù)設(shè)置下完成一輪訓(xùn)練的平均耗時(shí)。

表1 實(shí)體識(shí)別結(jié)果Table 1 Entity recognition results

表1 所示的實(shí)驗(yàn)結(jié)果表明:

1)BIO 標(biāo)注與“01”標(biāo)注所最終識(shí)別出的實(shí)體結(jié)果相近,而“01”標(biāo)注對(duì)較長(zhǎng)實(shí)體的識(shí)別率更高,這是由于“01”標(biāo)注只標(biāo)注實(shí)體的首尾位置,比起B(yǎng)IO 需要對(duì)整個(gè)實(shí)體進(jìn)行標(biāo)注,標(biāo)注過(guò)程中出錯(cuò)的概率更大,也就導(dǎo)致其對(duì)較長(zhǎng)實(shí)體的識(shí)別效果較差,相反“01”標(biāo)注只判斷某一位置是否為實(shí)體的首尾位置,這樣判斷錯(cuò)誤的概率就相對(duì)減小。

2)在相同的訓(xùn)練參數(shù)設(shè)置下,無(wú)論在哪個(gè)數(shù)據(jù)集下,“01”標(biāo)注方法的訓(xùn)練時(shí)長(zhǎng)都較BIO 標(biāo)注方法的訓(xùn)練時(shí)長(zhǎng)明顯縮短,這也驗(yàn)證了“01”標(biāo)注在模型訓(xùn)練時(shí)的高效性。

3)在2 個(gè)數(shù)據(jù)集中,使用“01”標(biāo)注方法的實(shí)體識(shí)別的準(zhǔn)確率都比BIO 標(biāo)注方法的準(zhǔn)確率要高,說(shuō)明“01”標(biāo)注方法識(shí)別出的實(shí)體更加準(zhǔn)確;而使用BIO 標(biāo)注的實(shí)體識(shí)別的召回率都比“01”標(biāo)注的召回率高,說(shuō)明BIO 標(biāo)注方法能識(shí)別出的實(shí)體數(shù)量更多。但對(duì)比F1 值則得出,BIO 標(biāo)注雖然識(shí)別出的實(shí)體數(shù)量較“01”標(biāo)注得多,但準(zhǔn)確率卻偏低,因此,“01”標(biāo)注方法的總體效果優(yōu)于BIO 標(biāo)注方法。

4)通過(guò)對(duì)相同標(biāo)記方法下不同數(shù)據(jù)集的對(duì)比也發(fā)現(xiàn),CCKS2020 中實(shí)體識(shí)別出的結(jié)果較CCKS2019 的結(jié)果更好,造成這一結(jié)果的原因是CCKS2020 數(shù)據(jù)集中的錯(cuò)別字較少,并且數(shù)據(jù)更加規(guī)范且特殊符號(hào)相對(duì)統(tǒng)一。

5)對(duì)比2 個(gè)數(shù)據(jù)集平均耗時(shí)可知,由于CCKS2020數(shù)據(jù)量比CCKS2019 的數(shù)據(jù)量大,因此CCKS2020 的數(shù)據(jù)集在一輪訓(xùn)練中耗時(shí)較長(zhǎng)。

本文方法實(shí)體識(shí)別的結(jié)果在目前方法的實(shí)體識(shí)別結(jié)果中并不算突出,主要原因是其并未在實(shí)體識(shí)別部分加入過(guò)于復(fù)雜的方法,而是更注重實(shí)體識(shí)別模型的效率。此外,數(shù)據(jù)集中的實(shí)體定義不夠明確,標(biāo)注結(jié)果很大程度上依賴于標(biāo)注人員的主觀性,并且數(shù)據(jù)集中有較多的錯(cuò)別字、簡(jiǎn)寫以及符號(hào)書寫不統(tǒng)一等問(wèn)題,都限制了最終的識(shí)別效果。

實(shí)體消歧模型在不同滑動(dòng)窗口下的實(shí)驗(yàn)結(jié)果如表2 所示。為了確定適當(dāng)?shù)幕瑒?dòng)窗口參數(shù),在消歧模型中對(duì)不同大小的滑動(dòng)窗口進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明:當(dāng)滑動(dòng)窗口大小為7 時(shí),模型在CCKS2019 數(shù)據(jù)集中的F1 值最大,而在CCKS2020 數(shù)據(jù)集中滑動(dòng)窗口為9 時(shí)F1 值最大。在實(shí)體識(shí)別完成后,對(duì)實(shí)體的長(zhǎng)度進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)識(shí)別出的實(shí)體的平均長(zhǎng)度為4.76,結(jié)合不同的滑動(dòng)窗口實(shí)驗(yàn)結(jié)果,考慮到運(yùn)行效率,最終滑動(dòng)窗口設(shè)為7 個(gè)字符。

表2 消岐模型在不同滑動(dòng)窗口下的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of disambiguation model under different sliding windows %

實(shí)體消歧模型中不同容錯(cuò)度下的實(shí)驗(yàn)結(jié)果如表3 所示,其中:BIO 與01 代表標(biāo)注方法;LA 表示局部注意力機(jī)制;FTM 表示容錯(cuò)機(jī)制。由于錯(cuò)別字、特殊符號(hào)的不一致性,導(dǎo)致實(shí)體識(shí)別后的實(shí)體無(wú)法與知識(shí)庫(kù)中的實(shí)體完全匹配,造成候選實(shí)體缺失。為解決這一問(wèn)題,本文引入容錯(cuò)機(jī)制,并針對(duì)不同的容錯(cuò)度進(jìn)行實(shí)驗(yàn)并對(duì)比。實(shí)驗(yàn)結(jié)果表明:當(dāng)容錯(cuò)度設(shè)置為1 時(shí)模型的效果達(dá)到最佳,并且隨著容錯(cuò)度增大使得候選實(shí)體集擴(kuò)大,導(dǎo)致消歧模型運(yùn)行時(shí)間過(guò)長(zhǎng)。當(dāng)容錯(cuò)度過(guò)大時(shí),會(huì)使得候選實(shí)體過(guò)多,對(duì)消歧效率造成干擾,因此,1 個(gè)容錯(cuò)度能最大程度上擴(kuò)充候選實(shí)體集又不加入過(guò)多的無(wú)關(guān)實(shí)體信息,有助于緩解無(wú)法匹配導(dǎo)致的實(shí)體缺失問(wèn)題。

表3 消歧模型在不同容錯(cuò)度下的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of disambiguation model under different fault tolerance %

實(shí)體消歧在CCKS2019 和CCKS2020 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4 所示,主要包括消歧模型在不同數(shù)據(jù)集中的效果、相同數(shù)據(jù)集下BIO 標(biāo)注方法和“01”標(biāo)注方法識(shí)別出的實(shí)體對(duì)消歧的影響,以及相同數(shù)據(jù)集下使用相同標(biāo)注方法時(shí)加入局部注意力機(jī)制(LA)和容錯(cuò)機(jī)制(FTM)的效果。

表4 實(shí)體消歧結(jié)果Table 4 Entity disambiguation results %

由以上實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論:

1)對(duì)比實(shí)驗(yàn)1 和4 與實(shí)驗(yàn)2 和5 可以發(fā)現(xiàn),同在CCKS2019 數(shù)據(jù)集中,使用相同的消歧模型和不同的標(biāo)注方法,“01”標(biāo)注方法由于識(shí)別出的實(shí)體更準(zhǔn)確,因此其消歧的結(jié)果優(yōu)于使用BIO 標(biāo)注方法識(shí)別出的實(shí)體進(jìn)行消歧后的結(jié)果,同時(shí)還表明管道模型中上游任務(wù)的結(jié)果對(duì)下游任務(wù)結(jié)果有影響。

2)對(duì)比實(shí)驗(yàn)1 和2、實(shí)驗(yàn)5、6 和實(shí)驗(yàn)8、9 可以發(fā)現(xiàn),在數(shù)據(jù)集相同且標(biāo)注方法相同的條件下,加入局部注意力機(jī)制的效果明顯優(yōu)于未加入的效果,所有評(píng)價(jià)指標(biāo)的提升都說(shuō)明局部注意力機(jī)制的加入可使消歧結(jié)果得到明顯提高,這主要因?yàn)樽⒁饬C(jī)制對(duì)長(zhǎng)文本的處理能力以及局部上下文信息對(duì)文本語(yǔ)義理解的重要性,即能強(qiáng)化鄰近文本信息的語(yǔ)義關(guān)聯(lián),弱化無(wú)關(guān)信息帶來(lái)的噪聲干擾。

3)實(shí)驗(yàn)4、7、實(shí)驗(yàn)5、8 和實(shí)驗(yàn)6、9 的結(jié)果驗(yàn)證了相同方法在不同數(shù)據(jù)集中消歧模型的有效性,此外也再次表明了局部注意力機(jī)制對(duì)文本語(yǔ)義理解的重要性。

4)對(duì)比實(shí)驗(yàn)2、3、實(shí)驗(yàn)5、6 和實(shí)驗(yàn)8、9 發(fā)現(xiàn),加入容錯(cuò)機(jī)制確實(shí)使得模型的召回率得到較明顯提升,最終結(jié)果也有提升,這也證明數(shù)據(jù)集中的特殊符號(hào)以及錯(cuò)別字等無(wú)法匹配的問(wèn)題較嚴(yán)重,解決這一問(wèn)題能對(duì)最終結(jié)果帶來(lái)不小的提升,從而驗(yàn)證了加入容錯(cuò)機(jī)制的有效性。

5)CCKS2020 的效果提升沒有CCKS2019 的結(jié)果明顯,這是因?yàn)镃CKS2020 數(shù)據(jù)集更加規(guī)范嚴(yán)謹(jǐn)。

4 結(jié)束語(yǔ)

本文面向中文短文本構(gòu)建一個(gè)基于局部注意力機(jī)制的實(shí)體鏈接模型,并在CCKS2019 和CCKS2020數(shù)據(jù)集上進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,局部注意力機(jī)制有助于在實(shí)體消歧過(guò)程中強(qiáng)化實(shí)體上下文信息和減弱無(wú)關(guān)字詞的干擾,并能提升鏈接的效果,也說(shuō)明了局部上下文信息對(duì)語(yǔ)義理解與辨析的重要性。此外,“01”標(biāo)注方法較BIO 標(biāo)注方法對(duì)實(shí)體位置的標(biāo)注有助于提升模型的運(yùn)行速度。后續(xù)將在其他公開的實(shí)體鏈接數(shù)據(jù)集上驗(yàn)證本文模型的有效性,同時(shí)優(yōu)化實(shí)體識(shí)別與實(shí)體消歧的方法,進(jìn)一步提高中文短文本實(shí)體鏈接的準(zhǔn)確率。

猜你喜歡
消歧注意力實(shí)體
讓注意力“飛”回來(lái)
基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
A Beautiful Way Of Looking At Things
基于語(yǔ)言模型的有監(jiān)督詞義消歧模型優(yōu)化研究
昌平区| 调兵山市| 台中市| 岳西县| 卓资县| 邮箱| 九龙县| 泰来县| 双峰县| 东乌珠穆沁旗| 翼城县| 虞城县| 西畴县| 北川| 五常市| 荔浦县| 醴陵市| 湖北省| 确山县| 华安县| 高青县| 定远县| 徐州市| 屏东市| 惠州市| 桂东县| 九江县| 奉贤区| 册亨县| 卢湾区| 巴塘县| 齐齐哈尔市| 科技| 廉江市| 中卫市| 临海市| 合江县| 曲麻莱县| 兴化市| 龙井市| 乡宁县|