王 瑞,李弼程,杜文倩
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門 361021)
伴隨大數(shù)據(jù)時(shí)代的來臨,網(wǎng)絡(luò)文本的爆炸式增長帶來了嚴(yán)重的“信息過載”問題。互聯(lián)網(wǎng)數(shù)據(jù)中存在的海量冗余信息、虛假信息和噪聲信息導(dǎo)致用戶查詢和瀏覽有用信息變得愈發(fā)困難。因此快速準(zhǔn)確地匹配目標(biāo)信息變得尤為重要。為了準(zhǔn)確地獲取目標(biāo)信息,需要處理海量無用內(nèi)容。這一問題源于自然語言表達(dá)的多義性,具體來講,同一實(shí)體可以用不同的文本表達(dá)(多樣性),同一文本也可以表達(dá)不同的實(shí)體(歧義性)。實(shí)體消歧是海量文本分析的核心技術(shù)之一,主要解決實(shí)體名的歧義性和多樣性問題,為解決信息過載問題提供了有限的技術(shù)手段。另外,實(shí)體作為知識圖譜的基本單元,是承載文本信息的重要語言單位,而消除實(shí)體的歧義在知識圖譜構(gòu)建的過程中發(fā)揮著承上啟下的作用。所以,實(shí)體消歧是知識圖譜構(gòu)建和補(bǔ)全的關(guān)鍵技術(shù)。
目前已經(jīng)有很多方法被提出用于實(shí)體消歧,根據(jù)模型的差異,實(shí)體消歧方法可以劃分成基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
在基于機(jī)器學(xué)習(xí)的方法中,實(shí)體消歧的核心是計(jì)算實(shí)體之間的相似度,在此基礎(chǔ)上選擇特定實(shí)體提及的目標(biāo)實(shí)體。Milne等[1]利用實(shí)體統(tǒng)計(jì)信息、名字統(tǒng)計(jì)信息進(jìn)行目標(biāo)實(shí)體消歧。Han等[2]利用百科數(shù)據(jù)作為背景知識,通過百科知識輔助消歧。Ji等[3]考慮到一段文本中實(shí)體之間的相互關(guān)聯(lián),提出用全局推理算法尋找全局最優(yōu)決策。另外,為解決語料標(biāo)注問題,近年來已經(jīng)開始研究高效的弱監(jiān)督或無監(jiān)督策略。Shen等[4]對實(shí)體流行度、語義關(guān)聯(lián)度等特征進(jìn)行特征組合,利用最大間隔算法計(jì)算各個(gè)特征的權(quán)重,進(jìn)而通過排序算法完成對實(shí)體的消歧。此外,Agichtein等[5]提出的半監(jiān)督算法、Etzioni等[6]提出的遠(yuǎn)距離監(jiān)督算法以及Shi等[7]提出的基于海量數(shù)據(jù)冗余性的自學(xué)習(xí)方法也從一定程度上解決了語料標(biāo)注的問題。
在基于深度學(xué)習(xí)的方法中,實(shí)體消歧的核心是構(gòu)建多類型、多模態(tài)上下文及知識的統(tǒng)一表示,并對多源信息、多源文本之間的聯(lián)系進(jìn)行建模。深度學(xué)習(xí)方法通過將不同類型的信息映射到相同的特征空間,并具有高效的端到端訓(xùn)練算法,給上述任務(wù)提供了強(qiáng)有力的工具。Francis等[8]在原有的神經(jīng)網(wǎng)絡(luò)語言模型的基礎(chǔ)上,加入了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型,較大程度上改進(jìn)了實(shí)體消歧的效果。Ganea等[9]提出多源異構(gòu)證據(jù)的向量表示學(xué)習(xí)方法,對不同來源知識庫中的知識進(jìn)行統(tǒng)一空間的表示,進(jìn)而完成實(shí)體消歧。Sil等[10]提出對證據(jù)信息進(jìn)行向量表示,基于表示向量學(xué)習(xí)不同證據(jù)之間的相似度,繼而進(jìn)行相似度融合,最終完成實(shí)體消歧。毛二松等[11]提出利用Skip-Gram模型進(jìn)行詞向量訓(xùn)練,并利用詞向量進(jìn)行相似度計(jì)算,實(shí)現(xiàn)實(shí)體鏈接與消歧。懷寶興等[12]提出將待消歧實(shí)體和待消歧實(shí)體上下文語境映射到同一個(gè)空間,基于概率空間模型,根據(jù)實(shí)體的空間向量進(jìn)行消歧。馮沖等[13]利用Skip-Gram模型進(jìn)行詞向量訓(xùn)練,并基于微博的短文本特征提出語義分類的方法,完成實(shí)體消歧。
綜上所述,基于機(jī)器學(xué)習(xí)的方法需要借助豐富的標(biāo)注語料完成實(shí)體消歧,基于深度學(xué)習(xí)的方法需要借助性能良好的消歧模型完成實(shí)體消歧。但是,目前實(shí)體消歧方法存在如下兩個(gè)問題:
(1) 由于傳統(tǒng)的有監(jiān)督機(jī)器學(xué)習(xí)算法需要大量的標(biāo)注語料,而現(xiàn)有的標(biāo)注語料難以滿足實(shí)體消歧的需求。詞向量訓(xùn)練模型使用無標(biāo)注的文本作為輸入數(shù)據(jù),將詞組表征成低維的向量表示,可以有效解決缺少標(biāo)注語料的問題。然而,傳統(tǒng)詞向量模型由于缺少對于上下文語序等必要因素的考慮,導(dǎo)致詞向量的語義表征能力不強(qiáng),需要進(jìn)一步改進(jìn)。
(2) 在實(shí)體消歧的過程中,目前主流方法選用上下文語義特征、實(shí)體流行度特征、實(shí)體關(guān)聯(lián)度特征等進(jìn)行命名實(shí)體消歧。上述特征均是從實(shí)體背景文檔的全局特征出發(fā),計(jì)算待消歧實(shí)體和候選實(shí)體之間的相似度,沒有考慮實(shí)體的局部特征。潛在狄利克雷分布(latent dirichlet allocation,LDA)主題模型可以獲取實(shí)體背景文檔的主題信息,將其結(jié)合詞向量技術(shù)生成主題詞向量,可以對背景文檔的局部主題特征進(jìn)行表征,較好地解決傳統(tǒng)模型僅考慮實(shí)體全局特征的缺陷。
因此,本文提出基于上下文詞向量和主題模型的實(shí)體消歧方法。實(shí)驗(yàn)表明,相比現(xiàn)有的主流消歧方法,該方法是有效的。
本文方法包括三個(gè)部分: 上下文詞向量模型訓(xùn)練、候選實(shí)體生成和實(shí)體消歧,其流程如圖1所示。
首先,為解決傳統(tǒng)詞向量模型僅考慮詞共現(xiàn)特征導(dǎo)致的語義表達(dá)能力不強(qiáng)的問題,在原有Skip-Gram模型的基礎(chǔ)上增加表征上下文語序的方向向量,利用無標(biāo)注語料訓(xùn)練詞向量模型,將每個(gè)詞表示為n維的向量;其次,獲得實(shí)體指稱項(xiàng)的背景文檔,獲得候選實(shí)體在知識庫中存儲的背景知識,并使用上述詞向量模型,將二者均表征為向量形式,針對實(shí)體的全局特征,分別計(jì)算上下文相似度和類別主題相似度;然后,基于詞向量模型以及LDA主題模型,結(jié)合文檔的主題特征,訓(xùn)練主題詞向量,針對實(shí)體的局部特征,進(jìn)行實(shí)體主題相似度計(jì)算;最后,按一定比例融合三種相似度特征,得到待消歧實(shí)體與候選實(shí)體的最終相似度,選取相似度最高的候選實(shí)體作為待消歧的最終實(shí)體。
圖1 實(shí)體消歧流程圖
Mikolov等[14]提出的連續(xù)詞袋模型和Skip-Gram模型是目前詞向量訓(xùn)練的常用模型,都可用于大規(guī)模語料的向量化訓(xùn)練,其中Skip-Gram模型在語義表征層面上效果更佳。但是傳統(tǒng)Skip-Gram模型未考慮當(dāng)前詞的上下文詞序?qū)τ谡Z言模型的影響。詞序是影響語言生成的一個(gè)重要因素,一個(gè)詞語左側(cè)或右側(cè)的詞語應(yīng)該對當(dāng)前詞語產(chǎn)生不同的影響。針對該問題,本文設(shè)計(jì)了一種上下文詞向量模型,在Skip-Gram模型的基礎(chǔ)上加入方向向量來表達(dá)語序[15]。
實(shí)體消歧的核心是語義相似度計(jì)算,詞向量的表達(dá)能力越強(qiáng),攜帶的語義信息會越多,兩個(gè)實(shí)體之間的特征區(qū)分度就越大,相似度計(jì)算結(jié)果就越精確。相比傳統(tǒng)的訓(xùn)練模型,上下文詞向量模型可以攜帶更多的語義信息,進(jìn)而能夠提高相似度計(jì)算的準(zhǔn)確性。具體步驟如下:
首先,定義預(yù)測上下文詞的概率函數(shù),用于計(jì)算當(dāng)前輸入詞t與上下文詞t+i之間的共現(xiàn)概率,其定義如式(1)所示。
(1)
其中,V表示語料中詞語的個(gè)數(shù),wt表示詞語t的詞嵌入,w′t+i表示詞語t+i的詞嵌入,w與w′分別表示輸入詞嵌入與輸出詞嵌入。
然后,定義softmax函數(shù)g(t+i,t)度量上下文詞t+i與輸入單詞t之間的詞序關(guān)聯(lián)。softmax函數(shù)g(t+i,t)的定義如式(2)所示。
(2)
其中,δ表示任意上下文詞t+i相對于t的方向向量,借助負(fù)采樣的原理,每次讓一個(gè)訓(xùn)練樣本僅僅更新一部分的權(quán)重,所以函數(shù)g(t+i,t)的更新如式(3)所示。
然后,根據(jù)上述定義的softmax方法定義基于上下文詞向量模型的目標(biāo)函數(shù)LDSG,如式(5)所示。
(5)
其中,c表示詞向量的窗口大小f(wt +i,wt)=p(wt +i|wt)+g(wt +i,wt)。
最后,根據(jù)上述的目標(biāo)函數(shù),使用隨機(jī)梯度下降和反向傳播算法來優(yōu)化模型。其中,詞向量的窗口大小為5,詞向量的維度為200,模型的初始學(xué)習(xí)率為0.03。
候選實(shí)體借助zhishi.me(1)http://zhishi.me/百科數(shù)據(jù)獲取。zhishi.me 通過從開放的百科數(shù)據(jù)中抽取結(jié)構(gòu)化數(shù)據(jù),融合了三大中文百科: 百度百科、互動(dòng)百科以及維基百科中的數(shù)據(jù),首次嘗試構(gòu)建中文通用知識圖譜,其數(shù)據(jù)組織如圖2所示。
圖2 zhishi.me數(shù)據(jù)組織圖
以往的研究表明,維基百科可以提供構(gòu)建候選實(shí)體有用的特征信息,但是維基百科中的部分中文實(shí)體存在更新不及時(shí)的問題。zhishi.me綜合了維基百科、百度百科以及互動(dòng)百科的知識,使得實(shí)體的內(nèi)容更加豐富。zhishi.me提供了客觀有用的百科知識,如百科實(shí)體頁面、百科重定向頁面、百科消歧頁面、超鏈接以及類別特征,可供構(gòu)建候選實(shí)體使用。
候選實(shí)體生成的步驟如下: 首先,人工標(biāo)注含有歧義的實(shí)體,作為待消歧實(shí)體;其次,根據(jù)待消歧實(shí)體百科實(shí)體頁面提供的信息,獲取待消歧實(shí)體在百科中的實(shí)體名稱;再次,利用百科消歧頁面尋找與待消歧實(shí)體名稱相同但指代不同的實(shí)體;最后,將所獲得的與待消歧實(shí)體名稱相同的所有實(shí)體作為候選實(shí)體。
實(shí)體消歧的重點(diǎn)是計(jì)算待消歧實(shí)體與候選實(shí)體的相似度。全局特征是指實(shí)體的整體屬性,用于描述實(shí)體的上下文、類別等整體特征。常見的全局特征包括上下文特征、類別特征和實(shí)體流行度特征等。全局特征具有表示直觀、不變性良好等特點(diǎn),但語義丟失、多義詞表示困難是其缺點(diǎn)所在。局部特征是從實(shí)體的局部區(qū)域中抽取的特征。實(shí)體的局部特征主要是實(shí)體在特定語義場景下的主題信息。針對實(shí)體的全局特征,本文采用實(shí)體上下文相似度和實(shí)體主題類別相似度描述;針對實(shí)體的局部特征,本文采用基于主題詞向量的主題相似度描述。
2.3.1 實(shí)體上下文相似度
首先,獲取待消歧實(shí)體的背景文本,分詞、去停用詞后,根據(jù)2.1節(jié)訓(xùn)練的詞向量模型,將處理的結(jié)果進(jìn)行詞向量表征,得到待消歧實(shí)體的上下文語境。同時(shí),根據(jù)zhishi.me的離線數(shù)據(jù),獲得候選實(shí)體在知識庫存儲的摘要及全文信息,進(jìn)行數(shù)據(jù)預(yù)處理,并使用上下文詞向量模型進(jìn)行詞向量表征,得到候選實(shí)體的上下文語境。通過對處理好的向量進(jìn)行余弦相似度計(jì)算,確定實(shí)體指稱項(xiàng)和候選實(shí)體的實(shí)體上下文相似度。
針對待消歧的實(shí)體entity,背景文檔經(jīng)過分詞和去停用詞之后,將實(shí)體指稱項(xiàng)上下文表示為E(entity)={word1,word2,…,wordk},其中k表示實(shí)體指稱項(xiàng)的上下文詞的個(gè)數(shù)。使用訓(xùn)練好的詞向量模型將文本進(jìn)行詞向量表示,向量表示為w(wordi)={w1,w2,w3,…,wn},其中n表示詞向量的維度,wordi表示第i個(gè)上下文詞語。針對候選實(shí)體,通過在知識庫中獲得實(shí)體的摘要和全文信息,同樣使用詞向量訓(xùn)練模型進(jìn)行向量化操作,向量表示為E(entity′)={word′1,word′2,…,word′m},其中m表示實(shí)體候選項(xiàng)的上下文詞語的個(gè)數(shù)。使用訓(xùn)練好的詞向量模型進(jìn)行向量化表示,向量表示為w(word′j)={w1,w2,w3,…,wn},其中n表示詞向量的維度,word′j表示第j個(gè)上下文詞語。通過計(jì)算余弦相似度的方法計(jì)算候選實(shí)體與實(shí)體指稱項(xiàng)的上下文相似度,余弦值越大,相似度越高。相似度計(jì)算式如式(6)所示。
sim1(entity,entity′)
(6)
2.3.2 基于實(shí)體上下文主題的類別主題相似度
實(shí)體主題作為描述實(shí)體的重要特征,表示實(shí)體語義的相關(guān)性。主題就是概念的集合,它也可以表示為若干相關(guān)的詞語。用數(shù)學(xué)語言描述,主題就是詞語的條件概率分布。
主題和類別作為實(shí)體抽象出來的概念,在一定程度上所包含的語義信息是相似的。可將實(shí)體主題信息與實(shí)體對應(yīng)的類別信息進(jìn)行語義相似度計(jì)算,類別主題的相似度就是計(jì)算通過主題模型獲取的上下文主題以及知識庫中實(shí)體對應(yīng)類別之間的相似度,其計(jì)算流程圖如圖3所示。
圖3 類別主題相似度計(jì)算流程圖
基于實(shí)體上下文主題的類別主題相似度計(jì)算過程步驟如下:
(1) 對待消歧實(shí)體的背景文檔進(jìn)行預(yù)處理。預(yù)處理后,獲取所有預(yù)處理的名詞類詞語,使用LDA主題模型獲取待消歧實(shí)體上下文的主題,通過實(shí)驗(yàn)選取適當(dāng)?shù)闹黝}個(gè)數(shù)作為待消歧實(shí)體的主題特征。
(2) 每個(gè)實(shí)體在知識庫中都有對應(yīng)的類別信息,獲取知識庫中候選實(shí)體的類別信息。
(3) 使用余弦相似度計(jì)算公式計(jì)算每個(gè)主題詞與類別詞之間的距離,計(jì)算x個(gè)待消歧實(shí)體主題與候選實(shí)體y個(gè)類別的相似度sim′y(x),選取相似度最大的一項(xiàng)作為基于實(shí)體上下文主題的類別主題相似度,如式(7)所示。
sim2(entity,entity′)=max{sim′y(x)}
(7)
以“蘋果”為例,在知識庫中存在“蘋果”的三種主要類別,分別是“科技公司”“薔薇科植物”以及“愛情電影”。假設(shè)使用LDA抽取的文本主題為“喬布斯”“美國”以及“互聯(lián)網(wǎng)”,那么使用詞向量的余弦相似度計(jì)算實(shí)體的類別主題相似度,結(jié)果如表1所示。從表中可以看出,主題對應(yīng)的相似度最高的類別是“科技公司”,說明該方法是可行的。
表1 “蘋果”各主題類別相似度計(jì)算結(jié)果
2.3.3 基于主題詞向量的實(shí)體主題相似度
LDA主題模型在文本主題識別方面發(fā)揮著重要作用,但是LDA主題模型的概率分布只描述了語料庫的統(tǒng)計(jì)關(guān)系。在實(shí)際應(yīng)用中,概率并不是特征表示的最佳選擇。在實(shí)體消歧過程中,由于實(shí)體的名稱可能存在一詞多義的情況,所以實(shí)體的含義不能僅通過整個(gè)文檔的主題來表達(dá)。針對此問題,本文融合詞義信息及主題信息,提出在同一個(gè)語義向量空間中,使用嵌入表示的方法學(xué)習(xí)主題表示的主題詞向量。
主題詞向量模型(topical word embeddings,TWE),其中主題詞是指以特定主題為背景的詞。TWE的基本思想是“允許每個(gè)詞在不同的主題下有不同的嵌入向量”。例如,“小米”這個(gè)詞在食物主題下表示一個(gè)谷作物,而在IT主題下代表一家IT公司。由于主題詞向量采用“主題-詞”序列的訓(xùn)練方式,將主題和詞共同表示為低維的向量。每個(gè)主題詞向量下的詞語都攜帶了各自的主題信息。相比于全局的主題信息,每個(gè)詞語攜帶的主題信息更能表達(dá)該詞語的語境。所以,利用主題詞向量計(jì)算實(shí)體主題的相似度,能夠有效減少一詞多義帶來的相似度計(jì)算誤差,提高實(shí)體消歧結(jié)果的精確度。
基于主題詞向量的相似度計(jì)算過程包括兩個(gè)部分: 主題詞向量訓(xùn)練以及相似度計(jì)算。步驟如下:
(1) 對待消歧實(shí)體和候選實(shí)體的背景文檔進(jìn)行數(shù)據(jù)預(yù)處理,包括中文分詞和去停用詞;
(2) 使用LDA主題模型對文檔的上下文語境進(jìn)行主題建模,參數(shù)推理使用Gibbs抽樣算法,獲取每個(gè)詞語對應(yīng)的主題詞。
(3) 基于2.1節(jié)訓(xùn)練的詞向量模型,將主題zt融入基于上下文詞向量模型中[16]。然后基于上下文主題詞向量,通過給定當(dāng)前詞t和當(dāng)前詞的主題zt,預(yù)測上下文主題詞(zt-2,zt-1,zt+1,zt+2)。將背景文檔處理成為詞語—主題序列Document={t1:z1,t2:z2,…,tM:zM},其中M表示文檔中詞語—主題序列的個(gè)數(shù),zi是從LDA中推斷出的wi的主題詞。
(4) 主題詞向量模型的訓(xùn)練,通過設(shè)置投影矩陣,將主題和詞語嵌入同一個(gè)語義空間,并定義目標(biāo)函數(shù)L(D)如式(8)所示。
+log(p(t+i|zt)+g(t+i,zt)))
(8)
(5) 考慮到簡單和有效的解決方案,遵循Word2Vec中使用的優(yōu)化方案。最終主題詞向量的維度為100,窗口大小為5。
(6) 實(shí)體指稱項(xiàng)的背景文檔對應(yīng)的主題詞向量為tw={tw1,…,twk},實(shí)體候選項(xiàng)的背景文檔對應(yīng)的主題詞向量為tw′={tw′1,…,tw′m},使用余弦相似度計(jì)算基于主題詞向量的實(shí)體主題相似度[17],定義基于主題詞向量的實(shí)體主題相似度,定義如式(9)所示。
(9)
綜上所述,三種相似度特征之間的比較如表2所示。
表2 三種特征相似度之間的比較
2.3.4 相似度融合
為了保證實(shí)體消歧的效果,需要考慮以最優(yōu)的比例對上述的三種相似度進(jìn)行融合。利用實(shí)體上下文相似度、類別主題相似度以及實(shí)體主題相似度,定義最終的相似度計(jì)算如式(10)所示。
sim(entity,entity′)=αsim1(entity,entity′)
+βsim2(entity,entity′)
+λsim3(entity,entity′)
(10)
其中,sim1(entity,entity′)表示實(shí)體上下文相似度,sim2(entity,entity′)表示類別主題相似度,sim3(entity,entity′)表示實(shí)體主題相似度。
相似度融合的步驟為: 按照α+β+λ=1的原則,固定實(shí)體上下文相似度特征的權(quán)重,調(diào)整其他兩項(xiàng)的值,即依次固定α=0.1,0.2,…,0.8,改變β和λ的值,得到不同特征權(quán)重組合下實(shí)體消歧的準(zhǔn)確率。例如,固定α=0.1,分別計(jì)算β=0.1,λ=0.8;β=0.2,λ=0.7等一系列實(shí)體消歧的準(zhǔn)確率,取準(zhǔn)確率最高的一組值作為α、β、λ的最終取值。
首先,人工整理了歧義實(shí)體庫。最初人工整理包含歧義詞的實(shí)體,如“蘋果”“小米”“辣椒”等;接著根據(jù)zhishi.me數(shù)據(jù)中的disambiguation關(guān)鍵字獲取包含歧義詞的全部實(shí)體。例如,“蘋果”實(shí)體在歧義實(shí)體庫中被表示為: 蘋果(蘋果公司、蘋果植物、蘋果電影)。
然后,根據(jù)歧義實(shí)體庫中的信息,獲取zhishi.me的中文離線數(shù)據(jù),提取每個(gè)實(shí)體的維基百科、互動(dòng)百科以及百度百科的頁面信息,共10萬條。對語料進(jìn)行數(shù)據(jù)預(yù)處理,提取每個(gè)實(shí)體的摘要和全文信息。另外,本文從第三方網(wǎng)站(新華網(wǎng)、人民網(wǎng)等新聞門戶網(wǎng)站以及新浪微博等社交網(wǎng)站)爬取與歧義實(shí)體相關(guān)的貼文,共5萬篇,作為詞向量模型的訓(xùn)練語料。
最后,人工選取包含歧義實(shí)體的文本1 000篇,每個(gè)樣本中人工標(biāo)記出歧義實(shí)體的正確含義,如文中出現(xiàn)“蘋果市值”,將其標(biāo)注為“蘋果(公司)市值”。將其作為待消歧的實(shí)體指稱項(xiàng),記為待消歧實(shí)體指稱集。并根據(jù)歧義實(shí)體庫,人工構(gòu)建待消歧實(shí)體候選集合,記為待消歧實(shí)體候選集,用于驗(yàn)證實(shí)驗(yàn)結(jié)果。其中,實(shí)驗(yàn)數(shù)據(jù)的基本信息如表3所示。
另外,為了測試本文方法在公開數(shù)據(jù)集上的表現(xiàn),選用KBP評測2011作為公開數(shù)據(jù)集。其中,KBP2011數(shù)據(jù)包括2 250個(gè)實(shí)體指稱。除此之外,獲取所有實(shí)體指稱在英文維基的數(shù)據(jù)作為知識庫背景知識。
本文基于Pycharm以及Anaconda 3.5在Windows 10環(huán)境下實(shí)現(xiàn)。實(shí)驗(yàn)過程包括基于上下文詞向量模型訓(xùn)練、文本向量化、候選實(shí)體生成、LDA主題提取、實(shí)體類別獲取、相似度計(jì)算以及相似度融合等過程。
語料的預(yù)處理過程采用HanLP(2)http://hanlp.linrunsoft.com/分詞工具完成,包括分詞、去停用詞等過程,采用召回率(Recall)、準(zhǔn)確率(Precise)與F1值對實(shí)驗(yàn)結(jié)果進(jìn)行評估,定義如式(11)~式(13)所示。
(11)
(12)
(13)
本文共進(jìn)行了以下5個(gè)實(shí)驗(yàn)。
1) 詞向量訓(xùn)練效率實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證本文詞向量模型的可用性,選取Skip-Gram[14](SG)詞向量訓(xùn)練模型以及Structrual Skip Gram[18](SSG)模型進(jìn)行訓(xùn)練速度與不同上下文窗口大小的比較。三個(gè)模型的對比如表4所示。
表4 詞向量模型對比
在上表中:
(1) SG: 利用一個(gè)詞與其相鄰詞之間的關(guān)系,利用當(dāng)前詞預(yù)測上下文詞出現(xiàn)的概率;
(2) SSG: 在上述SG模型的基礎(chǔ)上,設(shè)置不同的投影層矩陣,使其攜帶語序信息,與本文方法的區(qū)別在于本文只增加一個(gè)上下文方向向量用于表征語序特征。
分別選用窗口大小c=1,2,3,4,5,6,7,8,9,10,分析各個(gè)訓(xùn)練模型的訓(xùn)練速度與窗口大小的關(guān)系,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 訓(xùn)練速度與不同窗口大小比較
實(shí)驗(yàn)結(jié)果表明,本文方法詞向量的訓(xùn)練速度基本與SG模型相同,相比于SSG模型有較大的改進(jìn)。原因在于本文方法僅增加了表征詞序的上下文方向向量,相當(dāng)于只增加了一個(gè)輸入向量,沒有改變神經(jīng)網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)。所以,SG模型的空間復(fù)雜度為O(2|V|d),本文方法的空間復(fù)雜度為O(3|V|d),而SSG由于為每個(gè)投影層設(shè)置不同的投影矩陣,其空間復(fù)雜度為O((2c+1)|V|d),其中d表示詞向量的維度,c表示滑動(dòng)窗口個(gè)數(shù)。
另外,SG模型的時(shí)間復(fù)雜度為O(2c(n+1)V·ζ),本文方法的時(shí)間復(fù)雜度為O(2c(n+2)V·ζ),而SSG由于為每個(gè)投影層設(shè)置不同的投影矩陣,其時(shí)間復(fù)雜度為O(4c2(n+1)V·ζ),其中,ζ表示進(jìn)行一次詞嵌入更新需要的時(shí)間開銷,n表示負(fù)采樣樣本的個(gè)數(shù)。
綜上所述,本文的詞向量訓(xùn)練方法可以在增加詞向量語義表達(dá)能力的同時(shí),時(shí)空復(fù)雜度基本與Skip-Gram模型相同,盡可能避免復(fù)雜度較高的問題。
2) 基于實(shí)體上下文主題的類別主題相似度方法中,主題個(gè)數(shù)n對于消歧結(jié)果的影響
為了獲取最優(yōu)的消歧結(jié)果,需要在類別主題相似度計(jì)算中確定主題n的個(gè)數(shù)?;诖诉M(jìn)行了10組不同的實(shí)驗(yàn),分別選取n=1,2,3,4,5,6,7,8,9,10時(shí),研究主題個(gè)數(shù)對消歧結(jié)果的影響,結(jié)果如圖5所示。
圖5 不同主題個(gè)數(shù)的消歧結(jié)果
由圖5可知,當(dāng)主題個(gè)數(shù)n=7時(shí),F(xiàn)1值達(dá)到最大值90.3%。原因在于,當(dāng)主題個(gè)數(shù)太少時(shí),主題與類別之間的組合相對較少,相似性的度量僅局限在少有的幾個(gè)主題與類別之間,對于實(shí)體指稱項(xiàng)的描述不夠充分,在語義上區(qū)分不夠明顯,導(dǎo)致實(shí)體消歧的準(zhǔn)確率不高,從而使得F1值較低。當(dāng)主題個(gè)數(shù)太多時(shí),會將語義相差較大的詞語或者無區(qū)分度的詞語引入到相似度的計(jì)算中,導(dǎo)致最終消歧結(jié)果精度的下降。
3) 相似度特征組合實(shí)驗(yàn)結(jié)果分析
在實(shí)體消歧的過程之中,實(shí)體上下文相似度(A_1)、基于實(shí)體上下文主題的類別主題相似度(A_2)、基于主題詞向量的實(shí)體主題相似度(A_3)對于實(shí)體消歧的貢獻(xiàn)不盡相同,對于最終實(shí)體相似度計(jì)算的作用也不同。由于相似度特征組合對召回率無影響,所以該部分的實(shí)驗(yàn)只針對準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 不同相似度特征組合實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果可知:
(1) 僅利用單一的相似度特征準(zhǔn)確率比使用相似度特征組合方法低。原因在于單一的特征存在自身的局限性,比如在挑選最終候選實(shí)體時(shí),使用實(shí)體上下文相似度和基于實(shí)體上下文主題的類別主題相似度僅考慮待消歧實(shí)體的全局特征,基于主題詞向量的實(shí)體主題相似度僅考慮待消歧實(shí)體局部特征,三者均過于片面。
(2) 使用A_1+A_3和A_2+A_3的準(zhǔn)確率高于A_1+A_2的準(zhǔn)確率,原因在于使用A_1+A_2特征組合的方法僅考慮了待消歧實(shí)體的全局特征,而使用A_1+A_3和A_2+A_3則是綜合考慮了全局特征以及局部特征,因此準(zhǔn)確率相對較高。
(3) 使用A_1+A_2+A_3的相似性度量方法準(zhǔn)確率最高。原因在于,綜合三種特征,實(shí)體的上下文信息特征是從實(shí)體的具體內(nèi)容出發(fā)對實(shí)體進(jìn)行描述,實(shí)體的類別與主題信息是在上下文的基礎(chǔ)上的抽象與概括,基于主題詞向量的信息是針對詞和詞的主題建模,充分考慮了歧義詞的一詞多義性在同一文檔中出現(xiàn)的概率。因此,綜合三種信息的相似度度量,準(zhǔn)確率較高。
4) 特征權(quán)重組合實(shí)驗(yàn)結(jié)果分析
在實(shí)體消歧的過程之中,實(shí)體上下文相似度權(quán)重(α)、基于實(shí)體上下文主題的類別主題相似度權(quán)重(β)、基于主題詞向量的實(shí)體主題相似度權(quán)重(λ)對于最終實(shí)體相似度計(jì)算的作用不同。通過組合不同的特征權(quán)重進(jìn)行對比實(shí)驗(yàn),選取一組最優(yōu)的權(quán)重組合。由于相似度特征權(quán)重組合對召回率無影響,所以該部分的實(shí)驗(yàn)同樣只針對準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如圖7所示。
實(shí)驗(yàn)結(jié)果表明,當(dāng)α=0.4,β=0.2,λ=0.4時(shí),實(shí)體消歧的準(zhǔn)確率最高。主要原因在于,實(shí)體上下文相似度與主題相似度包含更多的語義信息,在進(jìn)行實(shí)體消歧的過程中,起了較為重要的作用。而類別主題相似度包含的語義信息相對較少,所以其權(quán)重若是很高,則會丟失一部分語義信息,造成消歧結(jié)果較低。
5) 本方法與主流方法的對比實(shí)驗(yàn)
為驗(yàn)證本文方法的可行性,針對本文構(gòu)建的數(shù)據(jù)集以及公開數(shù)據(jù)集,對比5種主流實(shí)體消歧方法的召回率,準(zhǔn)確率以及F1值,5種方法分別是Wikify[19]、Random Walk[20]、Knowledge Base[21]、基于語義分類的實(shí)體鏈接方法[13](semantic classification based on word emmbedding,SCWE)以及Skip-Gram+LDA[22],實(shí)驗(yàn)結(jié)果如表5所示。
圖7 特征權(quán)重組合實(shí)驗(yàn)結(jié)果
方法KBP2011本文自建語料召回率/%準(zhǔn)確率/%F1值/%召回率/%準(zhǔn)確率/%F1值/%Wikify65.260.262.669.070.369.6Random Walk69.565.667.585.282.483.8Knowledge Base67.766.967.382.975.679.0SCWE75.573.774.685.781.483.5Skip-Gram+LDA73.672.573.090.588.489.0本文方法73.477.375.291.289.590.3
(1) Wikify: Wikify進(jìn)行實(shí)體消歧的基本思想是統(tǒng)計(jì)詞語在維基百科文本中鏈接到對應(yīng)概念的概率,鏈接概率較大的將被確認(rèn)為是候選鏈接。
(2) Random Walk: Random Walk進(jìn)行實(shí)體消歧的基本思想是基于隨機(jī)游走算法定義維基概念相似度計(jì)算方法,并將該方法應(yīng)用于實(shí)體指稱項(xiàng)和實(shí)體候選項(xiàng)的相似性計(jì)算之中。
(3) Knowledge Base: Knowledge Base進(jìn)行實(shí)體消歧的基本思想是知識庫中獲取先驗(yàn)知識,結(jié)合獲取的先驗(yàn)知識以及一系列的證據(jù)信息(實(shí)體流行度等)進(jìn)行實(shí)體消歧。
(4) SCWE: 基于語義分類的實(shí)體鏈接方法進(jìn)行實(shí)體消歧的基本思想是訓(xùn)練詞向量模型,將實(shí)體聚類獲得類別標(biāo)簽作為特征,再通過多分類模型預(yù)測目標(biāo)實(shí)體的主題類別特征,結(jié)合實(shí)體流行度特征進(jìn)行實(shí)體消歧。
(5) Skip-Gram+LDA: Skip-Gram+LDA進(jìn)行實(shí)體消歧的基本思想是采用傳統(tǒng)的Skip-Gram模型進(jìn)行詞向量的訓(xùn)練,然后借助LDA主題模型獲取背景文檔的主題,兩者相結(jié)合定義相似性度量方法,進(jìn)而完成實(shí)體消歧。該方法與本文的區(qū)別在于: 首先,該方法選用的是Skip-Gram模型進(jìn)行詞向量的訓(xùn)練,本文對該模型進(jìn)行了優(yōu)化;其次,該方法的上下文相似度計(jì)算使用TF-IDF進(jìn)行詞權(quán)值計(jì)算,本文采用詞向量的方法進(jìn)行計(jì)算;再次,該方法使用聚類的方式獲取類別信息,本文使用從知識庫中查找實(shí)體類別的方法獲取實(shí)體的類別信息。最后,該方法沒有使用主題詞向量進(jìn)行相似度計(jì)算。
由表5可知,在公開數(shù)據(jù)集KBP2011上,本文方法的準(zhǔn)確率和F1值都比主流方法要高,但是召回率沒有達(dá)到最優(yōu)。上述5種方法均使用百科知識發(fā)現(xiàn)候選實(shí)體,但本文使用待消歧實(shí)體名在百科中自動(dòng)發(fā)現(xiàn)候選實(shí)體,在大多數(shù)情況下與人工構(gòu)建差別不大,但是對于KBP2011的某些人物實(shí)體,本文方法并不能準(zhǔn)確發(fā)現(xiàn)其候選實(shí)體。在自建語料庫中,本文的三個(gè)指標(biāo)均達(dá)到了最優(yōu),原因是本文采用zhishi.me進(jìn)行候選實(shí)體的生成,其他方法均是使用維基百科進(jìn)行候選實(shí)體生成,zhishi.me融合了三大百科信息,對于實(shí)體的描述也更加詳細(xì)。另外,本文綜合考慮了實(shí)體的全局和局部特征,改進(jìn)了輸入的詞向量,在語義層面提高了相似度計(jì)算的精度,所以本文的準(zhǔn)確率也較高。最后,自建語料的準(zhǔn)確性和公開語料準(zhǔn)確性差異比較大。主要原因在于: ①KBP2011數(shù)據(jù)集中部分實(shí)體過于少見,在知識庫中找不到對應(yīng)的候選實(shí)體或者候選實(shí)體與該實(shí)體對應(yīng)不上,導(dǎo)致消歧結(jié)果降低。另外,部分人物實(shí)體的候選實(shí)體過多且相互之間區(qū)分度很小,導(dǎo)致最終消歧出錯(cuò); ②自建語料庫經(jīng)過了嚴(yán)格的人工篩選和標(biāo)注,為之后的候選實(shí)體生成以及實(shí)體消歧提供了良好的數(shù)據(jù)支撐; ③雖然兩者均為實(shí)體消歧語料,但是自建語料是基于中文構(gòu)建的語料,KBP2011是英文語料。區(qū)別在于中文語料擁有百度百科、維基百科以及互動(dòng)百科三大平臺的知識,而英文語料只有維基百科的知識,從一定程度上也解釋了英文語料的召回率及準(zhǔn)確率低的問題。
本文針對現(xiàn)有的實(shí)體消歧方法中詞向量模型表達(dá)能力弱以及缺少對局部主題信息考慮的情況,提出基于上下文詞向量和主題模型的實(shí)體消歧方法。在原有Skip-Gram詞向量訓(xùn)練模型的基礎(chǔ)上,增加了表示上下文詞序的方向向量,并且基于該方法訓(xùn)練詞向量模型與主題詞向量模型?;谏鲜鲈~向量和主題詞向量模型進(jìn)行三種相似度特征的計(jì)算,進(jìn)而融合三種相似度,確定最終的消歧實(shí)體。實(shí)驗(yàn)表明,相比于現(xiàn)有的方法,本文方法實(shí)體消歧效果更有效。
下一步工作首先是針對語料庫進(jìn)行擴(kuò)展,并定義完善的標(biāo)注體系,更好地輔助實(shí)體消歧;其次是在實(shí)體消歧的基礎(chǔ)上,針對事件中包含多個(gè)實(shí)體的問題,綜合考慮各個(gè)實(shí)體的權(quán)重,為事件消歧設(shè)計(jì)消歧模型;再次是利用現(xiàn)有的深度學(xué)習(xí)模型自動(dòng)學(xué)習(xí)實(shí)體的特征,以尋求實(shí)體消歧更優(yōu)的特征,改進(jìn)實(shí)驗(yàn)結(jié)果;最后是綜合實(shí)體消歧的方法,結(jié)合事件抽取,為事件知識圖譜的構(gòu)建提供有效的前期支撐。