黃金杰,趙軒偉,張昕堯,馬敬評(píng),史宇奇
哈爾濱理工大學(xué)自動(dòng)化學(xué)院,哈爾濱 150080
實(shí)體鏈接是面向短文本與知識(shí)相關(guān)聯(lián)的技術(shù)手段,分為候選實(shí)體的生成和候選實(shí)體的消歧[1],旨在將文本中潛在的實(shí)體指稱映射到知識(shí)庫中若干候選實(shí)體集合,并從候選集合中找到最佳目標(biāo)實(shí)體來賦予實(shí)體指稱明確的含義[2]。在數(shù)據(jù)稀疏、缺乏豐富的上下文情況下實(shí)體語義歧義性給實(shí)體鏈接帶來了難題[3];同時(shí)對(duì)于某些領(lǐng)域,實(shí)體鏈接結(jié)果受到其他實(shí)體語義關(guān)聯(lián)影響,這種影響會(huì)導(dǎo)致目標(biāo)對(duì)象不是精準(zhǔn)的知識(shí)信息。所以,短文本實(shí)體鏈接在領(lǐng)域圖譜的實(shí)現(xiàn)面臨了巨大的挑戰(zhàn)[4]。
實(shí)體鏈接技術(shù)主要需要克服指稱檢測(cè)和知識(shí)庫實(shí)體的消歧兩大難題。短文本往往存在語境缺失的特點(diǎn),使文本特征實(shí)體指稱表示比較困難,同時(shí)由于指稱與實(shí)體的字符相似而忽略語義實(shí)體之間的相似度量,也導(dǎo)致最終鏈接效果往往不夠理想。
當(dāng)前,對(duì)于實(shí)現(xiàn)中文文本傳統(tǒng)實(shí)體鏈接主要的方法有深度學(xué)習(xí)法[5]、圖模型法[6]等。針對(duì)深度學(xué)習(xí)方法的實(shí)體鏈接的研究,文獻(xiàn)[7]提出基于神經(jīng)網(wǎng)絡(luò)(DNN)的堆疊去噪自動(dòng)編碼器來學(xué)習(xí)上下文的向量表達(dá),來計(jì)算給定文檔與實(shí)體描述文本表示的相似性度量。直接計(jì)算指稱上下文與候選實(shí)體描述文本的相似性會(huì)因?yàn)槊枋鑫谋据^短、不完整或同義詞情況導(dǎo)致鏈接過程出現(xiàn)錯(cuò)誤。為了解決此問題,文獻(xiàn)[8]提出利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)指稱上下文進(jìn)行建模,并考慮指稱與上下文的語義度量,通過捕捉候選知識(shí)庫實(shí)體信息與指稱上下文的關(guān)系進(jìn)行鏈接。實(shí)體鏈接的結(jié)果有時(shí)會(huì)語義匹配到與指稱不相關(guān)的實(shí)體,模型鏈接效果不是十分顯示。為更好提高指稱與實(shí)體的相似度,文獻(xiàn)[9]利用下文信息和主題信息來消除候選實(shí)體歧義問題,并使用在卷積神經(jīng)網(wǎng)絡(luò)來捕捉指稱上下文與候選實(shí)體之間的語義相似度。但上下文信息的不足易影響實(shí)體鏈接的準(zhǔn)確性,為此文獻(xiàn)[10]提出利用文本指稱上下文的維基百科作為外部補(bǔ)充知識(shí)源,通過長短時(shí)記憶網(wǎng)絡(luò)擴(kuò)展指稱特征向量表示,以提高候選實(shí)體相似度。雖然通過引入第三方知識(shí)庫作為補(bǔ)充知識(shí)源,提高了實(shí)體鏈接的準(zhǔn)確率,但該方法僅僅考慮了維基百科的鏈接關(guān)系,忽略了存在于維基百科中的類別關(guān)系。在文本內(nèi)容之外,文獻(xiàn)[11]在實(shí)體指稱表示的基礎(chǔ)上研究實(shí)體類別層次特征,驗(yàn)證順序標(biāo)記指稱的識(shí)別精度,提高實(shí)體鏈接的整體性能。在文本表層特征的基礎(chǔ)上,增加了文本語義信息的獲取,從文本中可以抽取實(shí)體類型特征,豐富了文本信息。為避免單個(gè)特征在特征抽取過程中被過濾掉,導(dǎo)致融合特征不起作用。文獻(xiàn)[12]聯(lián)合指稱檢測(cè)和深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)實(shí)體消歧,通過融合指稱上下文、實(shí)體類型、實(shí)體描述文本信息等多種語義特征,一定程度上減少了單特征過濾的偶然性,更好地體現(xiàn)了文本的語義性。融合文本多種特征很大程度上依賴于輸入短文本,同時(shí)只考慮當(dāng)前實(shí)體指稱本文,沒有考慮文本中實(shí)體與上下文的局部語義關(guān)系。文獻(xiàn)[13]提出增強(qiáng)型字符嵌入神經(jīng)網(wǎng)絡(luò),將指稱位置和信息嵌入到模型以提高鏈接性能。通過預(yù)訓(xùn)練增強(qiáng)輸入文本字符,預(yù)測(cè)并學(xué)習(xí)不同詞語之間的關(guān)系有效實(shí)現(xiàn)了上下文信息的指稱表示?;谝陨现阜Q表示與實(shí)體的相似性度量為獲取較好語義實(shí)體,使用多特征拼接來增強(qiáng)文本字符語義特征。為此,文獻(xiàn)[14]提出多方法融合的候選生成策略,同時(shí)在字符嵌入深度神經(jīng)網(wǎng)絡(luò)中加入主題語義學(xué)習(xí)指稱、上下文、候選實(shí)體的表示,提高了鏈接候選實(shí)體的準(zhǔn)確率。
上述研究工作往往僅考慮指稱的上下文和實(shí)體描述文本信息,忽略了候選實(shí)體之間的相互關(guān)聯(lián),導(dǎo)致相似度量結(jié)果出現(xiàn)多個(gè)得分相近或相同的候選實(shí)體,無法選取最終的目標(biāo)實(shí)體,為此很多研究者在圖模型的基礎(chǔ)上來探究工作。
針對(duì)圖模型方法的實(shí)體鏈接的研究,文獻(xiàn)[15]提出LINDEN算法構(gòu)造語義相關(guān)圖,綜合考慮實(shí)體對(duì)應(yīng)的維基百科關(guān)聯(lián)和實(shí)體間語義相關(guān)性,通過指稱上下文與實(shí)體文檔共現(xiàn)統(tǒng)計(jì)計(jì)算相似程度。研究在構(gòu)造實(shí)體語義相關(guān)圖時(shí),考量實(shí)體之間相關(guān)度的程度較低,導(dǎo)致消歧文本很大程度上鏈接到概念相關(guān)實(shí)體,造成實(shí)體鏈接準(zhǔn)確率下降。文獻(xiàn)[16]提出將上下文語義、主題等特征融入圖模型的語義相似度度量方法,來實(shí)現(xiàn)候選實(shí)體的選擇。該方法能夠抽取實(shí)體特征,提高了實(shí)體相關(guān)性,有效地實(shí)現(xiàn)歧義文本的實(shí)體鏈接,具有較高的精度和召回率。引入外部海量公開數(shù)據(jù),相比文獻(xiàn)[16]的捕捉實(shí)體之間特征,提高實(shí)體指稱鏈接的精準(zhǔn)性。文獻(xiàn)[17]考慮實(shí)體相似度、流行度、描述文本信息,以中文維基百科作為知識(shí)庫支撐構(gòu)造圖模型,通過對(duì)候選實(shí)體進(jìn)行相似度排序來獲取鏈接實(shí)體。該研究充分利用圖模型結(jié)構(gòu)信息,抽取多種語義特征,來計(jì)算與指稱文本的語義相似度。然而這種方法依賴實(shí)體所在的百科頁面作為知識(shí)源,對(duì)于領(lǐng)域?qū)嶓w消歧而言,適用性較差,實(shí)體鏈接效果不是十分顯著。文獻(xiàn)[18]利用候選實(shí)體構(gòu)造圖譜知識(shí)庫,使用PageRank 算法計(jì)算知識(shí)庫中不同候選實(shí)體的權(quán)重,選取權(quán)重最大實(shí)體作為鏈接實(shí)體。該方法在實(shí)體鏈接時(shí),只是簡單的對(duì)候選實(shí)體進(jìn)行等概率平均分配權(quán)重,無法得到區(qū)分程度較大的鏈接實(shí)體。文獻(xiàn)[19]使用重啟隨機(jī)游走算法優(yōu)化實(shí)體之間的轉(zhuǎn)移概率,通過語義推理模型來預(yù)測(cè)鏈接實(shí)體。但該方法在計(jì)算候選實(shí)體之間的相關(guān)度出現(xiàn)負(fù)值,導(dǎo)致得到的語義相關(guān)度出現(xiàn)錯(cuò)誤,同時(shí)方法沒有有效利用指稱上下文信息,對(duì)文本進(jìn)行消歧。文獻(xiàn)[20]提出深度神經(jīng)網(wǎng)絡(luò)語義模型來表示文本指稱,并通過與語義知識(shí)圖保持實(shí)體一致性,從而在大型知識(shí)圖上捕捉語義相似候選實(shí)體。該方法通過構(gòu)造語義知識(shí)庫來豐富實(shí)體語義信息,同時(shí)關(guān)聯(lián)語義關(guān)系相近的實(shí)體,考慮了知識(shí)庫內(nèi)語義相關(guān)實(shí)體關(guān)系特征。通過文本上下文建模表示指稱,實(shí)現(xiàn)了指稱到實(shí)體的精確鏈接。
以上提出的圖模型方法的研究,能夠很好地利用圖譜知識(shí)庫中實(shí)體之間的語義關(guān)聯(lián)關(guān)系,但由于上下文信息的不充足,不能對(duì)實(shí)體進(jìn)行豐富的語義表示,很難獲取語義相似實(shí)體。
基于以上研究方法,本文在實(shí)體鏈接過程語義知識(shí)缺乏的情況下,指稱會(huì)根據(jù)不同環(huán)境具有多種語義。為此本文利用深度神經(jīng)網(wǎng)絡(luò)來挖掘文本中指稱及其位置搭配關(guān)系,并在預(yù)訓(xùn)練中嵌入候選實(shí)體描述文本,從而實(shí)現(xiàn)基于領(lǐng)域圖譜的指稱語義表達(dá)。為避免關(guān)聯(lián)候選實(shí)體對(duì)實(shí)體鏈接的影響,經(jīng)計(jì)算指稱實(shí)體同一向量空間內(nèi)相似度來獲取得分最高候選實(shí)體。利用Fast-newman算法將知識(shí)圖譜中所有實(shí)體節(jié)點(diǎn)聚類劃分為N個(gè)聚類子圖,定義相似度最高候選實(shí)體所在實(shí)體簇為候選集合,并為集合下的聚類實(shí)體映構(gòu)建實(shí)體關(guān)聯(lián)圖。最終構(gòu)建聚類實(shí)體關(guān)聯(lián)圖,采用偏向重啟隨機(jī)游走算法獲取實(shí)體指稱節(jié)點(diǎn)的平穩(wěn)分布,通過實(shí)體之間關(guān)系權(quán)重對(duì)候選實(shí)體進(jìn)行排序,得出目標(biāo)鏈接實(shí)體。本文提出的模型有效的將文本指稱鏈接到圖譜知識(shí)庫中無歧義實(shí)體上,消除了文本指稱歧義問題;同時(shí)在鏈接過程中,為拉大相關(guān)候選實(shí)體和指稱的相似得分,利用圖譜知識(shí)庫中聚類實(shí)體來構(gòu)造具有結(jié)構(gòu)化語義關(guān)系的關(guān)聯(lián)圖,通過提出的偏向重啟隨機(jī)游走算法提高了實(shí)體鏈接精度。
在語境缺失和不相關(guān)文本的條件下,為實(shí)現(xiàn)實(shí)體指稱在不同的語境中與領(lǐng)域圖譜知識(shí)庫中候選實(shí)體的鏈接,本文提出字符嵌入的實(shí)體消歧模型來挖掘短文本實(shí)體語義信息進(jìn)行實(shí)體消歧。模型通過指稱建模與實(shí)體描述建模將指稱和所有聚類實(shí)體表示連接起來,送入全連接層,再經(jīng)過線性處理對(duì)相似度進(jìn)行評(píng)分,輸出得分最大候選實(shí)體所在聚類簇。
實(shí)體消歧模型輸入短文本以及實(shí)體描述文本詞典,其中實(shí)體描述文本詞典還有所有實(shí)體描述短文本,該短文本由領(lǐng)域指稱詞Mention與其上下文組成。在模型初始階段使用BMES序列標(biāo)記方案,預(yù)測(cè)文本每一個(gè)字符序列位置,每個(gè)字符將會(huì)分配一個(gè)對(duì)應(yīng)的的位置標(biāo)簽。然后通過隨機(jī)初始化BERT 參數(shù)對(duì)這些序列進(jìn)行預(yù)訓(xùn)練獲取帶有位置增強(qiáng)信息的字符向量,并將其傳遞給Tree-LSTM編碼層進(jìn)行編碼。最終,將Tree-LSTM隱藏層的輸出提供給帶有注意力的CNN網(wǎng)絡(luò)抽取文本抽象實(shí)體特征,并固定實(shí)體指稱向量大小,從而對(duì)指稱和實(shí)體進(jìn)行表示。另外在實(shí)體指稱與候選實(shí)體鏈接的過程中,由于候選實(shí)體集合缺少背景語料知識(shí),實(shí)體指稱難以區(qū)分概念相似同時(shí)關(guān)聯(lián)度相近的候選實(shí)體。在實(shí)體建模部分使用Fast-newman 算法對(duì)領(lǐng)域?qū)嶓w進(jìn)行聚類,劃分為不同類別的實(shí)體簇。在同一實(shí)體簇中通過指稱與實(shí)體的一致性得到相似度指標(biāo),并選取評(píng)分最大實(shí)體簇來進(jìn)行候選目標(biāo)實(shí)體的選取。實(shí)體消歧模型如圖1所示。
圖1 實(shí)體消歧模型Fig.1 Entity disambiguation model
加載實(shí)體詞典并使用jieba分詞工具將中文短文本進(jìn)行分割,進(jìn)而實(shí)現(xiàn)文本序列中實(shí)體指稱的完整分割,隨后使用詞向量模型來對(duì)單詞序列進(jìn)行詞向量表達(dá)。傳統(tǒng)方法中一般使用word2vec對(duì)單詞序列進(jìn)行訓(xùn)練來獲得單詞向量,但在缺乏上下文背景知識(shí)的情況下word2vec無法表示同一單詞的不同語義,給下游實(shí)體指稱鏈接的實(shí)現(xiàn)帶來偏差。
隨后Bert 主要使用Transformer 作為核心結(jié)構(gòu),其框架具體如圖2 所示。Transformer 完全使用自注意力機(jī)制來訓(xùn)練詞向量,并通過自注意力計(jì)算出每一個(gè)詞與所有詞之間的關(guān)系,由此得出該詞在句子中的權(quán)重。通過這樣得到的詞向量能夠有效利用上下文信息,增強(qiáng)了文本語義知識(shí)信息。
圖2 Bert預(yù)訓(xùn)練模型結(jié)構(gòu)Fig.2 Pretraining model structure of Bert
為了訓(xùn)練詞表示向量,在預(yù)訓(xùn)練過程中,Bert 使用掩碼[mask]替換文本中部分單詞,讓Transformer編碼器根據(jù)上下文來預(yù)測(cè)這些單詞。隨機(jī)遮住15%的單詞作為訓(xùn)練樣本,并將其中80%單詞用掩碼代替,10%單詞替換為隨機(jī)單詞,另外10%單詞不變。通過Transformer編碼器不斷進(jìn)行預(yù)測(cè),Bert預(yù)訓(xùn)練模型可充分利用詞級(jí)上下文信息,獲得了文本中每個(gè)單詞的表示向量。
為了學(xué)習(xí)文本深層語義,將位置信息增強(qiáng)的詞向量輸入到TreeLSTM。隨著時(shí)間的增加,文本中單詞順序進(jìn)入網(wǎng)絡(luò)中,進(jìn)行線性拼接,由此完成對(duì)上下文信息的編碼表示。模型利用樹形結(jié)構(gòu)學(xué)習(xí)長距離節(jié)點(diǎn)中的語義搭配關(guān)系,根據(jù)分支結(jié)構(gòu)追蹤方向傳播,線性表示節(jié)點(diǎn)隱層輸出。如圖3所示,在“心臟病的治愈患者”的語句中,通過對(duì)“心臟病”進(jìn)行語義增強(qiáng),這個(gè)單詞比其他單詞與上下文的關(guān)聯(lián)度更高。
圖3 TreeLSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of TreeLSTM
對(duì)樹網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)生成隱向量,x是文本的輸入序列,經(jīng)過LSTM 預(yù)測(cè)輸出y。在多層二叉樹部分,xi表示樹型結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)i對(duì)應(yīng)單詞的語義向量,當(dāng)前xi輸入是子節(jié)點(diǎn)傳入父節(jié)點(diǎn)y的隱含值。TreeLSTM的計(jì)算流程如圖4所示。
圖4 TreeLSTM計(jì)算流程圖Fig.4 Calculation flowchart of TreeLSTM
在網(wǎng)絡(luò)中記憶模塊由輸入門、輸出們和多個(gè)遺忘門組成,在反向傳播過程中通過不斷計(jì)算門傳遞來進(jìn)行權(quán)重參數(shù)的更新。其中對(duì)于節(jié)點(diǎn)j、r為節(jié)點(diǎn)i的子集合,hkr表示LSTM 的隱藏層,σ為sigmoid 激活函數(shù),⊙表示向量元素依次相乘,b為偏置向量,W和U為權(quán)重矩陣,tanh為激活函數(shù)。
在每一個(gè)模塊單元中利用輸入門ij將當(dāng)前詞xj信息融入到記憶細(xì)胞cj中來控制當(dāng)前信息的加入,判斷當(dāng)前詞xj對(duì)全局文本的重要性:
TreeLSTM擁有多個(gè)遺忘門fj,分別對(duì)應(yīng)當(dāng)前單元下不同子單元k,由此網(wǎng)絡(luò)可以從子節(jié)點(diǎn)中選擇性的獲取語義更加豐富的實(shí)體節(jié)點(diǎn)信息。遺忘門fj通過將不同時(shí)刻下細(xì)胞狀態(tài)ckr融入到記憶細(xì)胞cj,來判斷所有時(shí)刻單元狀態(tài)對(duì)當(dāng)前時(shí)刻的記憶程度:
再通過tanh 層產(chǎn)生候選記憶細(xì)胞狀態(tài)uj,為后續(xù)細(xì)胞狀態(tài)cj傳遞記憶候選信息,決定記憶文本中重要信息:
有了遺忘門產(chǎn)生的控制信號(hào)ft,候選細(xì)胞狀態(tài)uj,輸入控制信號(hào)ij,從而利用所有時(shí)刻下記憶細(xì)胞狀態(tài)來更新當(dāng)前時(shí)刻細(xì)胞狀態(tài)cj:
利用激活函數(shù)處理細(xì)胞狀態(tài),并與輸出相乘得到隱含層的表示:
TreeLSTM為了捕捉遠(yuǎn)距離實(shí)體信息實(shí)現(xiàn)實(shí)體的精準(zhǔn)表示,通過對(duì)文本中不同位置信息分配權(quán)重,從而去除不相關(guān)信息的影響。設(shè)TreeLSTM 產(chǎn)生短文本的隱藏向量為H=(h1,h2,…,hN),N為序列長度,重新分配第i個(gè)隱藏向量權(quán)重為α:
Newman針對(duì)網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)提出了復(fù)雜網(wǎng)絡(luò)分裂的凝聚Fast-newman 算法[21]。在本文中選擇Fast-newman算法將領(lǐng)域圖譜知識(shí)庫中的實(shí)體進(jìn)行Fast-newman聚類劃分,得到不同類別實(shí)體簇,從而縮小鏈接候選實(shí)體的選擇范圍,有效區(qū)分實(shí)體類型。開始將領(lǐng)域圖譜知識(shí)庫初始劃分為n個(gè)實(shí)體簇(n為實(shí)體節(jié)點(diǎn)數(shù)目),即每一個(gè)實(shí)體節(jié)點(diǎn)可看作一個(gè)獨(dú)立的實(shí)體簇。各實(shí)體節(jié)點(diǎn)之間鏈接邊的總數(shù)為m,其對(duì)稱矩陣E=(eij)表示為:
其中ki表示實(shí)體節(jié)點(diǎn)i邊數(shù),ai表示與實(shí)體節(jié)點(diǎn)i相連邊的數(shù)量占知識(shí)庫中所有邊的比重。
將圖譜數(shù)據(jù)庫聚類劃分成實(shí)體簇,每個(gè)實(shí)體簇由實(shí)體節(jié)點(diǎn)組成,為保證實(shí)體簇中實(shí)體節(jié)點(diǎn)相互連接密切,同時(shí)實(shí)體簇之間連接稀疏。Newman在文獻(xiàn)[21]中引入模塊度Q值,表示圖譜知識(shí)庫劃分后,實(shí)體簇之間的連接數(shù)目與實(shí)體簇內(nèi)部的連接數(shù)目的比例,由此來衡量實(shí)體簇的劃分質(zhì)量。模塊度Q的計(jì)算公式如式所示:
其中Ci為實(shí)體節(jié)點(diǎn)所屬的實(shí)體簇,當(dāng)Ci=Cj時(shí),?(Ci,Cj)=1,否則為0,Q值范圍為[0,1],Q值越大實(shí)體簇聚類效果越好。
初始將每個(gè)實(shí)體節(jié)點(diǎn)看作一個(gè)實(shí)體簇,通過迭代過程不斷合并實(shí)體簇,使Q的函數(shù)值最大化。計(jì)算合并實(shí)體簇所導(dǎo)致的Q值增量ΔQ,使實(shí)體簇沿著ΔQ值增大的方向進(jìn)行更新,直到整個(gè)網(wǎng)絡(luò)合并劃分為一個(gè)實(shí)體簇[22]。最后通過選取局部最大Q值,獲得最好的實(shí)體聚類簇結(jié)構(gòu):
在迭代過程中,隨機(jī)選擇兩個(gè)實(shí)體簇進(jìn)行合并,選取使ΔQ值最大的兩個(gè)實(shí)體簇歸于同一實(shí)體簇,直到實(shí)體簇都合并完畢,這種方式大大減小了網(wǎng)絡(luò)聚類的復(fù)雜程度。
通過將給定短文本和候選實(shí)體描述文本分別作為模型輸入來獲取候選實(shí)體向量表示rm和re,再分別計(jì)算指稱表示向量rm與候選實(shí)體向量re之間的相似度,并對(duì)比實(shí)體指稱與候選實(shí)體語義特征表示的相似性。
在實(shí)體消歧模型中,通過BERT預(yù)訓(xùn)練將位置特征加入到字符序列中,以增強(qiáng)文本中的實(shí)體信息,并傳遞到TreeLSTM-CNN中,輸出具備語義關(guān)系的文本隱含狀態(tài)序列H,使用指稱隱藏序列狀態(tài)C來生成指稱表示rm。將池化層和注意力機(jī)制作用在序列隱藏狀態(tài)上的結(jié)果hpool和hattention,分別連接到指稱隱藏序列狀態(tài)上,生成指稱隱藏狀態(tài)表示G:
其中q為指稱序列隱藏狀態(tài)的頭位置數(shù),r為稱序列隱藏狀態(tài)總個(gè)數(shù)。
最后使用全連接層將指稱隱藏狀態(tài)表示G輸出為最終指稱表示rm。
在實(shí)體表示的生成上,將隱含狀態(tài)序列輸入到注意力機(jī)制的CNN 網(wǎng)絡(luò)來發(fā)現(xiàn)文本中實(shí)體字符特征,并連接全連接層,輸出實(shí)體表示re。
計(jì)算實(shí)體表示re的注意得分αej為:
其中hj表示j時(shí)刻的隱含隱含狀態(tài)。
經(jīng)過訓(xùn)練得到隱藏狀態(tài)hj的權(quán)重αej為:
其中n為總序列數(shù)。
最后通過加權(quán)輸出實(shí)體向量表示re,其中re與rm的向量維度大小相同:
利用實(shí)體指稱與實(shí)體表示,對(duì)實(shí)體表示之間的相似度進(jìn)行測(cè)評(píng)并排序得分。衡量實(shí)體之間相似特征得分w(rm,re)計(jì)算如下。
從公式可以看出,候選實(shí)體越接近真實(shí)實(shí)體指稱語義表達(dá),則評(píng)分越高。
聚類算法對(duì)候選實(shí)體劃分為不同類型實(shí)體簇,利用式(20)計(jì)算指稱與知識(shí)庫中所有實(shí)體的相似程度,選取相似度得分最大實(shí)體的所在實(shí)體簇作為候選實(shí)體集合。
所謂目標(biāo)實(shí)體是指能夠區(qū)分候選實(shí)體中概念相關(guān)實(shí)體,并有效擴(kuò)大聚類候選實(shí)體到指稱的相似距離,防止相似度量結(jié)果出現(xiàn)多個(gè)得分相近或相同的情況,從而精確鏈接到最高語義關(guān)聯(lián)實(shí)體。
為更好地關(guān)聯(lián)聚類實(shí)體,構(gòu)建聚類實(shí)體關(guān)聯(lián)圖,根據(jù)聚類候選實(shí)體關(guān)聯(lián)圖,采用偏向重啟隨機(jī)游走算法不斷進(jìn)行概率轉(zhuǎn)移。通過算法反復(fù)迭代,概率趨于收斂,得出平穩(wěn)概率分布矩陣,由此得到指稱到候選實(shí)體的概率得分,并選取得分最高候選實(shí)體作為實(shí)體鏈接目標(biāo)實(shí)體。若得分低于閾值,則返回NIL。具體過程流圖如圖5所示。
圖5 候選實(shí)體輸出流程圖Fig.5 Flowchart of candidate entity output
知識(shí)圖譜中任意兩個(gè)實(shí)體節(jié)點(diǎn)之間存在關(guān)系,將會(huì)拉近實(shí)體之間距離,進(jìn)而提高實(shí)體節(jié)點(diǎn)的語義關(guān)聯(lián)。定義與實(shí)體節(jié)點(diǎn)i連接邊的數(shù)目為實(shí)體節(jié)點(diǎn)的度,度包含入度分布和出度分布,隨機(jī)選取實(shí)體簇中任意實(shí)體節(jié)點(diǎn),計(jì)算度分布矩陣。
實(shí)體相關(guān)特征反映實(shí)體集合之間的相關(guān)度,本文通過與實(shí)體節(jié)點(diǎn)連接的關(guān)系邊及實(shí)體間共現(xiàn)得分,來統(tǒng)計(jì)聚類實(shí)體的關(guān)聯(lián)程度。在已存在關(guān)系知識(shí)的基礎(chǔ)上,僅依靠聚類實(shí)體的顯性關(guān)系,遠(yuǎn)不能反映實(shí)體關(guān)聯(lián)特征,為此使用關(guān)系補(bǔ)全的方法,補(bǔ)全聚類實(shí)體的隱性關(guān)系。由此構(gòu)造聚類實(shí)體關(guān)聯(lián)圖如圖6所示。
圖6 聚類實(shí)體關(guān)聯(lián)圖Fig.6 Association graph of cluster entity
在關(guān)聯(lián)圖中先計(jì)算實(shí)體度分布ki,其中各節(jié)點(diǎn)的度值分別為ka=kb=kc=ke=3,kd=kf=2,贅去度值小于1的實(shí)體節(jié)點(diǎn)。網(wǎng)絡(luò)節(jié)點(diǎn)鄰接矩陣A的表示如下所示:
根據(jù)顯性連接信息預(yù)測(cè)未連接實(shí)體間關(guān)聯(lián)性,即ea/ed,ea/ee,eb/ee,eb/ef,ec/ed,ec/ef,ed/ef產(chǎn)生隱性關(guān)聯(lián)邊的可能性大小。針對(duì)無連接邊的情況,如果出現(xiàn)兩個(gè)實(shí)體與同一個(gè)實(shí)體相連接,則兩個(gè)實(shí)體存在語義聯(lián)系;如果兩實(shí)體節(jié)點(diǎn)不存在實(shí)體關(guān)系,則自動(dòng)補(bǔ)全實(shí)體間的關(guān)系連線。
綜上,關(guān)聯(lián)圖中候選實(shí)體的相關(guān)度如式所示:
其中,Ea與Eb分別表示與實(shí)體節(jié)點(diǎn)a、b存在關(guān)系的所有實(shí)體節(jié)點(diǎn),|Ea|表示與節(jié)點(diǎn)a存在關(guān)系的實(shí)體集合數(shù)目,|Eb|表示與節(jié)點(diǎn)b存在關(guān)系的實(shí)體集合數(shù)目,E表示所有實(shí)體節(jié)點(diǎn)集合。
基于關(guān)聯(lián)圖中聚類實(shí)體的語義相關(guān)性,另外使用openKG公開網(wǎng)絡(luò)[23],搜索該關(guān)聯(lián)圖中聚類實(shí)體。將任意聚類實(shí)體及其搜索到的相關(guān)實(shí)體,組合成實(shí)體詞語條目集合t,Occur(e)代表任意聚類候選實(shí)體出現(xiàn)的代表集合。
候選實(shí)體間的語義相關(guān)度計(jì)算如式所示:
其中Occur(ei)∩Occur(ej)為兩聚類候選實(shí)體同現(xiàn)候選代表集合,Occur(ei)∪Occur(ej)為所有聚類候選代表集合。
根據(jù)上述兩種實(shí)體相關(guān)性表達(dá)式,得出聚類實(shí)體相關(guān)性線性組合如式所示:
其中α和β為超參數(shù)。
本文引入關(guān)聯(lián)性特征可以大大減少鏈接過程中關(guān)聯(lián)實(shí)體的干擾,有效區(qū)分概念相近的候選實(shí)體,增大相近候選實(shí)體得分距離,提高了實(shí)體鏈接的準(zhǔn)確性。
解決相似得分最高實(shí)體與其他聚類實(shí)體的關(guān)聯(lián)性影響,本文將指稱實(shí)體相似特征、候選實(shí)體間語義相關(guān)特征融入到聚類實(shí)體關(guān)聯(lián)圖,實(shí)現(xiàn)特征融合的偏向性隨機(jī)游走算法,從而獲取指稱鏈接目標(biāo)實(shí)體。利用1.1 節(jié)實(shí)體詞典及jieba 分詞方法分割出的字符串指稱,計(jì)算算法中任意兩實(shí)體間的轉(zhuǎn)移概率。算法最終通過迭代過程,得到指稱到候選實(shí)體的平穩(wěn)概率分布,并由排序?qū)W習(xí)得出概率排序結(jié)果。算法的特點(diǎn)是根據(jù)關(guān)聯(lián)圖中實(shí)體特征,進(jìn)行不同概率轉(zhuǎn)移,實(shí)現(xiàn)傾向性隨機(jī)游走。算法迭代過程既考慮到指稱相似,又顧及實(shí)體關(guān)聯(lián)性,從而精確獲取目標(biāo)實(shí)體。實(shí)驗(yàn)算法如下所示:
算法偏向隨機(jī)算法游走
從當(dāng)前網(wǎng)絡(luò)關(guān)聯(lián)圖中初始節(jié)點(diǎn)出發(fā),并以?的概率游走到下一個(gè)節(jié)點(diǎn),或以1-?返回初始狀態(tài),此時(shí)節(jié)點(diǎn)的狀態(tài)與周圍鄰居節(jié)點(diǎn)的度k有關(guān)。通過鄰居節(jié)點(diǎn)的度比例大小,預(yù)測(cè)實(shí)體節(jié)點(diǎn)的重要程度,并以轉(zhuǎn)移概率w偏向其比例最大的鄰居節(jié)點(diǎn),重復(fù)上述流程達(dá)到平穩(wěn)分布。算法替換任意兩個(gè)實(shí)體節(jié)點(diǎn)間均勻等概率轉(zhuǎn)移,通過指稱實(shí)體相似度w(rm,rei),以及候選實(shí)體的語義相關(guān)度Entity(ei,ej),構(gòu)造線性組合來計(jì)算算法轉(zhuǎn)移概率。
指稱到實(shí)體轉(zhuǎn)移概率wme如式所示:
其中Nm表示與指稱節(jié)點(diǎn)相連接的所有候選實(shí)體節(jié)點(diǎn)的集合,Ne表示與候選實(shí)體相鄰的指稱節(jié)點(diǎn)和其他候選實(shí)體節(jié)點(diǎn)的集合,ei表示任意實(shí)體,kβ ei表示任意實(shí)體節(jié)點(diǎn)的度調(diào)節(jié)參數(shù),A、B為超參數(shù)。
實(shí)體到指稱轉(zhuǎn)移概率wem如式所示:
其中E、F為超參數(shù)。
實(shí)驗(yàn)過程收斂后,根據(jù)實(shí)體指稱到每個(gè)候選實(shí)體的轉(zhuǎn)移概率大小,考查了候選實(shí)體的鏈接性能強(qiáng)弱。在t+1 時(shí)刻,節(jié)點(diǎn)轉(zhuǎn)移到實(shí)體關(guān)聯(lián)圖中其他節(jié)點(diǎn)的概率計(jì)算如式所示:
其中使用T表示關(guān)聯(lián)圖的節(jié)點(diǎn)轉(zhuǎn)移概率矩陣,rt表示第t時(shí)刻概率分布情況,?為概率參數(shù),1-?代表重啟隨機(jī)概率,s為初始狀態(tài)向量。
當(dāng)隨機(jī)過程收斂即函數(shù)rt+1 ≈rt時(shí),趨于穩(wěn)態(tài),得到穩(wěn)態(tài)時(shí)刻的解如式所示:
此時(shí)根據(jù)指稱指向候選實(shí)體的概率分?jǐn)?shù),選定目標(biāo)候選實(shí)體:
其中r(e)表示平穩(wěn)概率分布中指向候選實(shí)體e的分值。
本文實(shí)驗(yàn)采用的數(shù)據(jù)包括領(lǐng)域圖譜數(shù)據(jù)集和短文本語料數(shù)據(jù)集。領(lǐng)域圖譜數(shù)據(jù)來源于openKG 發(fā)布的OMAHA 七巧板醫(yī)學(xué)術(shù)語集。該醫(yī)學(xué)領(lǐng)域知識(shí)庫由實(shí)體、關(guān)系和屬性組成,抽取數(shù)據(jù)中5 200個(gè)疾病類型作為領(lǐng)域圖譜的實(shí)體,關(guān)系數(shù)量為6 500個(gè),每個(gè)實(shí)體都含有其疾病概念的描述文本。為便于領(lǐng)域圖譜實(shí)體的可視化,將.xml 格式數(shù)據(jù)映射到neo4j 圖形知識(shí)庫中。實(shí)體領(lǐng)域數(shù)據(jù)圖譜如圖7 所示。通過Fastnewman 聚類對(duì)知識(shí)庫中候選實(shí)體進(jìn)行劃分,得到每一個(gè)實(shí)體的類別屬性如表1 所示。其中userID、diseaseID 為實(shí)體索引,label為實(shí)體標(biāo)簽,disease_types 為領(lǐng)域?qū)嶓w標(biāo)簽名稱,rating表示關(guān)聯(lián)度。
圖7 可視化知識(shí)庫Fig.7 Visual knowledge base
表1 聚類實(shí)體知識(shí)庫Table 1 Cluster entity knowledge base
根據(jù)CCKS2019&醫(yī)渡云[24]公開的病歷結(jié)構(gòu)化Yidu-S4K數(shù)據(jù)集,采集領(lǐng)域疾病相關(guān)數(shù)據(jù)共8 000條(平均字符長度為30),并以比例7∶3 分別作為實(shí)體消歧模型的訓(xùn)練集和測(cè)試集。為了解決中文短文本鏈接中的指稱語義模糊的問題,使用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行指稱表示。再經(jīng)過特征關(guān)聯(lián)圖模型減小實(shí)體關(guān)聯(lián)性影響,使指稱表示準(zhǔn)確鏈接到本地領(lǐng)域圖譜最佳目標(biāo)實(shí)體對(duì)象上。
在實(shí)驗(yàn)訓(xùn)練前加載候選實(shí)體jieba 詞典,使用方案標(biāo)記法對(duì)中字符位置進(jìn)行標(biāo)記,處理后能夠完成文本中實(shí)體指稱的完整分割。將短文本字符序列輸入到BERT詞模型中生成字符向量。
抽取測(cè)試集合中500句短文本,分別進(jìn)行實(shí)體鏈接實(shí)驗(yàn)。為驗(yàn)證本文模型相似度特征的有效性,進(jìn)行4種模型的的實(shí)驗(yàn)。模型1(BiLSTM+CNN)為文獻(xiàn)[13]使用聯(lián)合優(yōu)化BERT-ENE 的深度神經(jīng)網(wǎng)絡(luò)模型(BiLSTM+CNN)計(jì)算指稱與候選實(shí)體之間的相似度;模型2(TreeLSTM+CNN)構(gòu)建字符嵌入的BERT 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練指稱表示,并計(jì)算指稱相似度;模型3(聚類實(shí)體+TreeLSTM+CNN)通過Fast-newman 聚類算法構(gòu)建候選實(shí)體簇,并結(jié)合實(shí)體消歧模型計(jì)算指稱相似度;模型4(聚類實(shí)體關(guān)聯(lián)圖+TreeLSTM+CNN)在實(shí)驗(yàn)3 的基礎(chǔ)上進(jìn)一步融合候選實(shí)體語義相關(guān)特征并構(gòu)建實(shí)體關(guān)聯(lián)圖,計(jì)算指稱相似度。4種模型的的實(shí)體鏈接效果如表2所示。
表2 實(shí)體鏈接平均準(zhǔn)確率對(duì)比Table 2 Average accuracy comparison of entity link
對(duì)于相同測(cè)試集,模型2的實(shí)體平均鏈接準(zhǔn)確率比模型1 高0.3%,實(shí)驗(yàn)表明使用TreeLSTM 網(wǎng)絡(luò)在抽取實(shí)體指稱特征方面性能更好,這是由于在不同背景知識(shí)下網(wǎng)絡(luò)更容易對(duì)單詞之間的語義關(guān)系搭配進(jìn)行學(xué)習(xí),能夠更好地捕捉單詞的語義信息。相比較模型1 而言,在BiLSTM 的方法中,詞向量序列的計(jì)算量不斷加大,還由于缺乏指稱與上下文的關(guān)系導(dǎo)致實(shí)體指稱的歧義性。模型2采用TreeLSTM將隱藏序列表示擴(kuò)展在樹結(jié)構(gòu)中,使用忘記門機(jī)制省略無關(guān)子樹。通過捕捉實(shí)體指稱與文本中其他單詞的關(guān)系來增強(qiáng)位置信息,獲取有用的實(shí)體語義信息。
與模型2 的結(jié)果相比,模型3 實(shí)體鏈接準(zhǔn)確率提高了3.23個(gè)百分點(diǎn),指稱向量表示與模型2得分最高實(shí)體所屬實(shí)體簇進(jìn)行相似度計(jì)算。結(jié)果說明引入Fast-newman 聚類實(shí)體關(guān)聯(lián)圖,可進(jìn)一步縮小實(shí)體鏈接范圍,并提高實(shí)體鏈接準(zhǔn)確率。
與其他3 種模型相比,本文提出的模型4 的實(shí)體鏈接平均準(zhǔn)確率是最高的,到達(dá)了83.98%。在模型4 中,特征關(guān)聯(lián)圖結(jié)合了實(shí)體局部相關(guān)性與指稱全局相似性特征,有效解決缺少上下文背景下短文本數(shù)據(jù)中指稱表示及實(shí)體關(guān)聯(lián)導(dǎo)致鏈接不一致的影響,為實(shí)驗(yàn)?zāi)P蛯?shí)體消歧及實(shí)體選擇的結(jié)果減小了誤差。
在候選實(shí)體鏈接實(shí)驗(yàn)過程,實(shí)驗(yàn)參數(shù)設(shè)置分為神經(jīng)網(wǎng)絡(luò)模型參數(shù)設(shè)置與關(guān)聯(lián)圖參數(shù)設(shè)置。
在實(shí)體消歧模型中,使用Adam 優(yōu)化器對(duì)模型進(jìn)行優(yōu)化,設(shè)置學(xué)習(xí)率為0.01,批量大小為120,訓(xùn)練次數(shù)epoch 為32 個(gè)樣本,定義文本最大長度為40,層的數(shù)目layers 默認(rèn)為1,初始詞嵌入向量的維度為300,指稱與上下文窗口長度設(shè)置為10,并將描述文本與指稱的窗口設(shè)置為20。
根據(jù)聚類實(shí)體關(guān)聯(lián)性,使用實(shí)體邏輯邊距離及實(shí)體共現(xiàn)相關(guān)距離相組合表示聚類實(shí)體相關(guān)特征。相關(guān)性特征公式(24)包括α、β兩個(gè)參數(shù),不斷增大參數(shù)α值通過實(shí)驗(yàn)訓(xùn)練結(jié)果選擇最優(yōu)參數(shù),參數(shù)訓(xùn)練結(jié)果如圖8所示。觀察訓(xùn)練結(jié)果當(dāng)α=0.52 時(shí),實(shí)體間的關(guān)聯(lián)程度最大,實(shí)體間相關(guān)度達(dá)到最優(yōu)值。
圖8 實(shí)體相關(guān)度參數(shù)設(shè)置Fig.8 Parameter setting of entity relevancy
通過聚類實(shí)體關(guān)聯(lián)圖隨機(jī)節(jié)點(diǎn)間的轉(zhuǎn)移概率式(25)、(26)和式(27),選取最優(yōu)參數(shù)A、C、E,分別獲取最大轉(zhuǎn)移概率wme、wem、wij,根據(jù)參數(shù)變化測(cè)量概率變化大小,具體情況如圖9所示。
圖9 關(guān)聯(lián)圖轉(zhuǎn)移概率參數(shù)設(shè)置Fig.9 Transfer probability parameter setting of correlation graph
根據(jù)折線曲線變化選取A=0.40 ,同理選取C=0.50,E=0.52。關(guān)聯(lián)圖綜合指稱相似及實(shí)體相關(guān)特征,考慮實(shí)體語義信息,通過偏向重啟隨機(jī)算法,最大概率使實(shí)體指稱節(jié)點(diǎn)傾向于相似最高候選實(shí)體,大大提高了目標(biāo)實(shí)體的預(yù)測(cè)精準(zhǔn)度。
為判別實(shí)體鏈接的最終效果,實(shí)驗(yàn)指標(biāo)從精確率P、召回率R、調(diào)和平均值F1 三方面評(píng)判最終實(shí)體鏈接的有效性。利用測(cè)量數(shù)據(jù),對(duì)基于特征關(guān)聯(lián)圖的實(shí)體消歧模型進(jìn)行訓(xùn)練,鏈接候選實(shí)體。若實(shí)體指稱在圖譜知識(shí)庫中不存在候選實(shí)體,則鏈接結(jié)果定義為NIL。使用Tnil表示在圖譜知識(shí)庫中鏈接到NIL的指稱集合;使用Treal表示在圖譜知識(shí)庫中鏈接到候選實(shí)體的指稱集合。另一方面,使用人工的方法根據(jù)測(cè)量數(shù)據(jù)在圖譜知識(shí)庫中對(duì)實(shí)體指稱進(jìn)行實(shí)體鏈接,以Snil表示人工鏈接到NIL的實(shí)體指稱集合;以Sreal表示人工鏈接到圖譜知識(shí)庫候選實(shí)體的指稱集合。
分別統(tǒng)計(jì)系統(tǒng)與人工鏈接知識(shí)庫候選實(shí)體的數(shù)目,進(jìn)而計(jì)算指稱鏈接到圖譜知識(shí)庫中實(shí)體的精確率Preal、召回率Rreal。
其中Treal∩Sreal表示預(yù)測(cè)結(jié)果與實(shí)際實(shí)體相一致的實(shí)體指稱集合,Snil∪Sreal表示為實(shí)際鏈接到圖譜知識(shí)庫的實(shí)體指稱集合。
根據(jù)精確率Preal和召回率Rreal,計(jì)算指稱鏈接結(jié)果為實(shí)體的調(diào)和平均值Freal為:
另外針對(duì)鏈接結(jié)果為NIL,計(jì)算準(zhǔn)確率Pnil、召回率Rnil:
其中Tnil∩Snil表示預(yù)測(cè)結(jié)果判定為實(shí)際NIL 的實(shí)體指稱集合。
根據(jù)準(zhǔn)確率Pnil和召回率Rnil,計(jì)算指稱鏈接為NIL的調(diào)和平均值Fnil為:
綜上,根據(jù)調(diào)和平均值衡量系統(tǒng)綜合效果,如果精確率越高,系統(tǒng)鏈接到實(shí)際候選實(shí)體的準(zhǔn)確率就越高;如果系統(tǒng)遺失實(shí)際候選實(shí)體的數(shù)目越少,系統(tǒng)召回率越高。
為驗(yàn)證實(shí)體鏈接的最終效果,設(shè)計(jì)基于聚類實(shí)體關(guān)聯(lián)圖的實(shí)體語義消歧實(shí)驗(yàn)。文獻(xiàn)[13]在不考慮候選實(shí)體相關(guān)度的情況下使用長短時(shí)記憶網(wǎng)絡(luò)來實(shí)現(xiàn)實(shí)體鏈接。文獻(xiàn)[10]在實(shí)體鏈接中使用帶有雙重注意力機(jī)制的長短時(shí)記憶網(wǎng)絡(luò)來完成指稱實(shí)體與實(shí)體的語義表示,并構(gòu)建最新本地知識(shí)庫,獲取指稱到實(shí)體的鏈接。文獻(xiàn)[25]考慮實(shí)體稠密及稀疏性定義無向候選實(shí)體相關(guān)連接圖,通過提出的MINTREE對(duì)實(shí)體指稱和候選實(shí)體形成最小生成樹的語義距離權(quán)值,并用生成樹的權(quán)值來度量鏈接候選實(shí)體的匹配程度。通過上述實(shí)驗(yàn)并于本文方法實(shí)驗(yàn)進(jìn)行對(duì)比,得到的最終性能指標(biāo)如表3 所示。實(shí)驗(yàn)對(duì)比顯示本文提出的模型在準(zhǔn)確率、召回率、F1 值都高于其他3種模型實(shí)驗(yàn)結(jié)果。
表3 模型實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of model experimental results%
實(shí)驗(yàn)說明首先在指稱與候選實(shí)體相似度特征表示上,與文獻(xiàn)[13]相比較,本文中位置信息增強(qiáng)的TreeLSTM+CNN能夠更好地捕捉實(shí)體信息并實(shí)現(xiàn)指稱與候選實(shí)體的語義關(guān)聯(lián)表示。與文獻(xiàn)[10]相比,本文使用聚類算法考慮候選實(shí)體的類別特征,在引入候選實(shí)體關(guān)聯(lián)性的條件下,構(gòu)建實(shí)體關(guān)聯(lián)圖,結(jié)合實(shí)體消歧模型完成實(shí)體指稱與候選實(shí)體的鏈接。與文獻(xiàn)[25]相比較,本文提出的模型鏈接效果在驗(yàn)證集下,F(xiàn)指標(biāo)值上提高了3.1個(gè)百分點(diǎn)。在實(shí)體鏈接上,本文采用偏向重啟隨機(jī)游走算法實(shí)現(xiàn)基于聚類實(shí)體關(guān)聯(lián)圖的實(shí)體語義消歧。在隨機(jī)轉(zhuǎn)移過程中實(shí)體指稱自動(dòng)傾向最大相關(guān)實(shí)體,通過計(jì)算圖網(wǎng)絡(luò)中各實(shí)體的平穩(wěn)概率分布提高實(shí)體鏈接匹配程度。綜上比較,實(shí)驗(yàn)結(jié)果驗(yàn)證本文提出的方法具有可行性,能夠有效提高實(shí)體鏈接性能。
為解決實(shí)體鏈接問題,本文提出了深度神經(jīng)網(wǎng)絡(luò)與關(guān)聯(lián)圖相結(jié)合的實(shí)體鏈接模型。首先對(duì)短文本中的實(shí)體進(jìn)行指稱表示,捕捉實(shí)體指稱與實(shí)體間的語義相似特征。然后利用Fast-newman 聚類算法對(duì)圖譜知識(shí)庫中的實(shí)體進(jìn)行劃分,通過相似度計(jì)算獲得候選實(shí)體集合并在同一空間下構(gòu)造實(shí)體相關(guān)特性的實(shí)體關(guān)聯(lián)圖,減小了候選實(shí)體相關(guān)性對(duì)鏈接的影響。最后,采用偏向轉(zhuǎn)移隨機(jī)游走算法,實(shí)現(xiàn)實(shí)體指稱的精準(zhǔn)鏈接。實(shí)驗(yàn)表明該模型能夠有效減小關(guān)聯(lián)性對(duì)目標(biāo)實(shí)體鏈接的影響,從而提高實(shí)體鏈接的性能。