馬瑩瑩,吳幼龍,唐華,2,3
(1 上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院, 上海 201210; 2 中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所, 上海 200050; 3 中國科學(xué)院大學(xué), 北京 100049) (2020年2月17日收稿; 2020年4月3日收修改稿)
近年來,隨著數(shù)據(jù)信息化程度不斷上升,網(wǎng)絡(luò)數(shù)據(jù)庫容量不斷增加,如何在數(shù)據(jù)庫中迅速地搜尋到準(zhǔn)確的信息成為亟需解決的問題。由于自然語言具有多義性、復(fù)雜性和模糊性的多重特點(diǎn),因此需要將文本中提到的實(shí)體與其知識庫中的實(shí)體連接起來。實(shí)體鏈接主要是要解決實(shí)體間的歧義問題,在網(wǎng)絡(luò)檢索、信息提取和知識庫填充等問題中有著廣泛的應(yīng)用。實(shí)體語義表達(dá)的模糊性和數(shù)據(jù)容量的日益增加,給實(shí)體歧義辨別帶來很大的挑戰(zhàn)。
實(shí)體歧義分為2種:一種是多詞同義,指多個(gè)詞語代表同一個(gè)意思;另一種是一詞多義,是指一個(gè)實(shí)體名稱可以指代多個(gè)不同的實(shí)體。作者姓名消歧是實(shí)體消歧中的一個(gè)重要應(yīng)用,已知同名作者的所有文章集合,需要通過文章的一些屬性特征對文章進(jìn)行聚類,使每一個(gè)聚類僅包含一個(gè)作者的文章。作者姓名消歧任務(wù)在作者文獻(xiàn)檢索、學(xué)術(shù)畫像分析中有著重要的價(jià)值。例如,在學(xué)術(shù)檢索時(shí),研究者需要在文獻(xiàn)數(shù)據(jù)庫中尋找名為“Charles”的學(xué)者的文獻(xiàn),但是由于“Charles”在數(shù)據(jù)庫中對應(yīng)著很多不同的實(shí)體,系統(tǒng)返回了所有名為“Charles”的作者撰寫的文獻(xiàn),這會(huì)大大降低文獻(xiàn)檢索結(jié)果的有效性和準(zhǔn)確性,從而降低網(wǎng)絡(luò)搜索的性能。如果將搜索結(jié)果分組在一起,則搜索的有效性可以大大提高。另外,當(dāng)計(jì)算學(xué)者影響力的時(shí)候,需要準(zhǔn)確了解每一位學(xué)者的文章類型及數(shù)目。因此,作者姓名消歧問題是近年來研究者的研究熱點(diǎn)之一。
目前,已經(jīng)有一些文獻(xiàn)研究作者姓名消歧問題。一些學(xué)者將作者姓名消歧視為分類任務(wù),預(yù)測每篇論文的正確標(biāo)簽或預(yù)測2篇文章是否由同一作者撰寫。分類任務(wù)需要大量標(biāo)簽,所以這類任務(wù)通常是有監(jiān)督的。
例如,Wang等[1]提出基于增強(qiáng)樹的分類方法,通過文檔的標(biāo)題、作者、機(jī)構(gòu)、摘要等屬性判斷2篇文章是否由同一作者撰寫。深度神經(jīng)網(wǎng)絡(luò)模型[2]也被用于提取文檔屬性特征進(jìn)行分類。其他一些方法利用了外部數(shù)據(jù)。如Han等[3]提出樸素貝葉斯概率生成模型和支持向量機(jī)模型并將這2種方法分別應(yīng)用于從Web收集的數(shù)據(jù)和DBLP數(shù)據(jù)庫。
另外一些工作采用無監(jiān)督的聚類方法。無監(jiān)督的姓名消歧任務(wù)是將文獻(xiàn)分為幾個(gè)簇,使得每個(gè)簇僅包括由一個(gè)作者所撰寫的文獻(xiàn)。
Cen等[4]通過優(yōu)化線性回歸模型對成對文章相似性進(jìn)行建模,提出一種具有自適應(yīng)停止準(zhǔn)則的層次聚類方法?;贒empster-Shafer理論(DST)的分層聚類方法[5]將每個(gè)文檔嵌入到低維向量空間中進(jìn)行聚類,通過定義2個(gè)文檔各個(gè)特征之間的相似度來計(jì)算它們文檔之間的相似度,將相似度大于閾值的文檔劃分到同一個(gè)簇中。另外一些學(xué)者利用概率模型表示文檔之間的相似性[6-8]。
監(jiān)督方法需要大量的標(biāo)記數(shù)據(jù),而人工標(biāo)記需要昂貴的人力和財(cái)力。但是對于無監(jiān)督算法,要找到最佳數(shù)目的聚類或者合適的相似性閾值具有一定的挑戰(zhàn)性。因此也有許多學(xué)者提出半監(jiān)督算法。
Levin等[9]提出一種結(jié)合分類和聚類方法的2階段算法。在第1階段,他們應(yīng)用基于論文引用及其他的高精度規(guī)則自動(dòng)生成用于有監(jiān)督訓(xùn)練的標(biāo)記數(shù)據(jù)。在第2階段,將正例和負(fù)例用作有監(jiān)督的分類器,該分類器用于預(yù)測2篇文章是否由同一作者撰寫,最后將分類器的預(yù)測結(jié)果用作聚類中的相似性度量。Louppe等[10]在此基礎(chǔ)上提出用于預(yù)處理的區(qū)域策略,將很有可能屬于同一作者的文獻(xiàn)放置于同一區(qū)域。
隨著近2年圖網(wǎng)絡(luò)研究的興起,由于作者及其刊物可以自然地構(gòu)建作者-作者網(wǎng)絡(luò)和文檔-文檔網(wǎng)絡(luò),因此一些基于圖的方法也被用于姓名消歧任務(wù)。譜聚類[11]可以將圖劃分為幾個(gè)部分從而進(jìn)行聚類。Zhang等[12]提出結(jié)合全局度量學(xué)習(xí)和局部鏈接圖模型,通過文檔的屬性特征學(xué)習(xí)文檔的低維表征。Zhang和Hasan[13]將文章信息預(yù)處理為3個(gè)圖網(wǎng)絡(luò):作者-作者圖,文檔-文檔圖和作者-文檔圖,并將文檔數(shù)據(jù)投影到低維空間中。GHOST模型[14]利用作者圖來計(jì)算圖節(jié)點(diǎn)對之間的相似度。除此之外,還有基于文章對的圖網(wǎng)絡(luò)(ADANA)[15]和基于標(biāo)題與共同作者的圖網(wǎng)絡(luò)(GFAD)[16]。
當(dāng)前研究方法存在一些問題:1)監(jiān)督方法因?yàn)槭褂昧藰?biāo)注信息,所以消歧性能一般會(huì)好于無監(jiān)督方法。但是由于數(shù)據(jù)集規(guī)模通常較大,人工標(biāo)注所有的標(biāo)簽會(huì)耗費(fèi)大量的人力和時(shí)間。2)現(xiàn)有的大多數(shù)研究方法通常只基于文獻(xiàn)的屬性特征或者基于文獻(xiàn)關(guān)系、作者關(guān)系的研究。利用文獻(xiàn)屬性特征的方法通常采用大量的屬性特征并制定相應(yīng)的規(guī)則,在數(shù)據(jù)有缺失的時(shí)候會(huì)導(dǎo)致規(guī)則失效。基于關(guān)系圖的研究往往忽略文檔的基礎(chǔ)屬性特征,降低了消歧的效果。3)目前作者姓名消歧問題中大多數(shù)研究方法都是應(yīng)用于小規(guī)模數(shù)據(jù)集,通常只包含10~20個(gè)作者文獻(xiàn)集,本研究希望將研究方法應(yīng)用于更大規(guī)模的數(shù)據(jù)集。
本文針對更大規(guī)模的數(shù)據(jù)集(100個(gè)待消歧作者姓名),提出一種基于文獻(xiàn)屬性特征和關(guān)系圖網(wǎng)絡(luò)的姓名消歧方法(如圖1所示)。該方法同時(shí)考慮文檔的屬性特征以及多個(gè)關(guān)系網(wǎng)絡(luò)的信息,通過無監(jiān)督學(xué)習(xí)的方法尋找文檔表征向量,使用簇?cái)?shù)標(biāo)簽進(jìn)行層次聚類,取得良好的姓名消歧效果。在作者數(shù)據(jù)集AMiner上的測試結(jié)果表明:該方法優(yōu)于使用大量文檔標(biāo)簽和簇?cái)?shù)的半監(jiān)督方法[12],也優(yōu)于其他基于圖網(wǎng)絡(luò)的方法[13-14]。另外,本文通過可視化的方式增加了模型的可解釋性。
圖1 基于特征編碼和圖網(wǎng)絡(luò)的姓名消歧方法Fig.1 Name disambiguation on encoding attributes and graph topology
在姓名消歧任務(wù)中,i代表一個(gè)作者姓名。消歧任務(wù)就是找到合適的函數(shù)將與這個(gè)姓名相關(guān)的文檔劃分到不同的類別中,使得每個(gè)類別中僅包含同一作者的文檔。給定一個(gè)文檔集合i,任務(wù)是將文檔劃分為K個(gè)不相交的簇其中,表示第k個(gè)作者。對于不同待消歧的作者姓名,這里K是不同的。用函數(shù)表示為
Φ(i)→i.
(1)
Word2vec模型被廣泛用于單詞表示學(xué)習(xí)中。本文利用word2vec的模型之一CBOW[17]用于學(xué)習(xí)文檔的向量表示。
假設(shè)有一系列訓(xùn)練詞w1,w2,…,wT,CBOW模型通過某單詞周圍其他單詞的出現(xiàn)頻率預(yù)測這個(gè)單詞的出現(xiàn)頻率。該模型根據(jù)訓(xùn)練語料庫中預(yù)定義上下文窗口內(nèi)詞的出現(xiàn)頻率來學(xué)習(xí)單詞向量。目標(biāo)是最大化出現(xiàn)在預(yù)定義上下文窗口中的單詞的共現(xiàn)概率,概率函數(shù)表示為
(2)
其中c代表預(yù)定義窗口大小。
(3)
對于每一個(gè)待消歧的作者姓名i,表示其對應(yīng)的待消歧的文獻(xiàn)集合。首先構(gòu)建i對應(yīng)的文檔圖網(wǎng)絡(luò)=(,ε),文檔d∈可以表示網(wǎng)絡(luò)節(jié)點(diǎn),利用2.1節(jié)中的文檔向量表征構(gòu)建,ε用于表示節(jié)點(diǎn)之間是否存在邊,本文用鄰接矩陣A表示。
(4)
其中
圖2 變分圖自動(dòng)編碼器Fig.2 Variational graph auto-encoder
(5)
μ=[μ1,μ2,…]=GCNμ(X,A)是圖卷積網(wǎng)絡(luò)輸出各個(gè)向量的平均值構(gòu)成的矩陣,σ=[logσ1,logσ2,…]=GCNσ(X,A)代表標(biāo)準(zhǔn)差矩陣。2層卷積神經(jīng)網(wǎng)絡(luò)可以表示為
(6)
(7)
其中
(8)
KL[q(Z|X,A)‖p(Z)].
(9)
如果僅利用圖自動(dòng)編碼器,在引入節(jié)點(diǎn)關(guān)系的時(shí)候只考慮到文檔特征之間的相關(guān)性。當(dāng)出現(xiàn)表1所示情況時(shí),無法判斷文檔1和文檔2是否由同一作者所撰寫。引入文檔3和前2個(gè)文檔之間的關(guān)系后,因?yàn)?篇文章的所有合作者都是文檔3的作者,所以可以判斷出2篇文章屬于同一作者。
本文研究希望通過利用合作者關(guān)系進(jìn)一步推斷文檔相似性,并將合作者關(guān)系網(wǎng)絡(luò)信息嵌入文檔表征向量Z中。提取網(wǎng)絡(luò)結(jié)構(gòu)信息的方法有Deepwalk[18]、GCN[19]等。本文通過構(gòu)建作者-作者網(wǎng)絡(luò)、文檔-作者網(wǎng)絡(luò)和文檔-文檔網(wǎng)絡(luò),聚集有關(guān)系的作者和文檔向量。
表1 合作者相關(guān)聯(lián)的文檔Table 1 Related documents refer to one-hop co-author
(10)
p(
(11)
對于文檔-文檔網(wǎng)絡(luò),希望這個(gè)概率更大,所以需要最大化這個(gè)概率
(12)
類似地,對于作者-作者網(wǎng)絡(luò)和作者-文檔網(wǎng)絡(luò):
(13)
(14)
目標(biāo)是將3個(gè)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息嵌入文檔表征向量中,優(yōu)化函數(shù)為
(15)
其中:A為合作者構(gòu)成的矩陣,Z代表微調(diào)后的待消歧文檔矩陣。通過訓(xùn)練圖嵌入模型,文檔表征向量中包含了文獻(xiàn)屬性特征及3個(gè)圖網(wǎng)絡(luò)的拓?fù)湫畔ⅰ?/p>
對圖網(wǎng)絡(luò)嵌入模型訓(xùn)練后的文檔表征向量應(yīng)用層次聚類算法[20]。該算法將訓(xùn)練樣本中的每一個(gè)數(shù)據(jù)點(diǎn)都當(dāng)作一個(gè)簇,然后計(jì)算每2個(gè)樣本點(diǎn)之間的距離并合并距離最近的簇,直到滿足終止條件。本文將終止條件設(shè)置為簇個(gè)數(shù)等于真實(shí)聚類個(gè)數(shù)。
本文使用在線學(xué)術(shù)搜索和數(shù)據(jù)挖掘系統(tǒng)AMiner[21]上采樣的100個(gè)作者姓名數(shù)據(jù)集,每個(gè)姓名都對應(yīng)著與這個(gè)姓名相關(guān)聯(lián)的文檔,采樣數(shù)據(jù)集共包含27 128篇文獻(xiàn)和1 066個(gè)真實(shí)作者。
超參數(shù)設(shè)置上,CBOW模型中,文檔表征向量維度設(shè)置為100,預(yù)定義上下文窗口為5。變分圖自編碼器中,逆文檔頻率的閾值為25,第1層圖卷積網(wǎng)絡(luò)輸出維數(shù)為200,第2層圖卷積網(wǎng)絡(luò)輸出維度設(shè)置為100,學(xué)習(xí)率為0.01,迭代200次。圖網(wǎng)絡(luò)嵌入模型中,學(xué)習(xí)率為0.05,正則化參數(shù)為0.01。
在仿真實(shí)驗(yàn)中,對比本文方法與其他幾個(gè)基于圖網(wǎng)絡(luò)的姓名消歧方法。Zhang等[12]提出一種合并全局表示學(xué)習(xí)和局部嵌入學(xué)習(xí)的方法(Aminer)。在全局表示學(xué)習(xí)中,需要引入標(biāo)簽信息構(gòu)建正負(fù)樣本。在局部嵌入學(xué)習(xí)方法中使用圖自動(dòng)編碼器。Zhang和Hasan[13]將作者-作者、作者-文檔、文檔-文檔網(wǎng)絡(luò)信息壓縮至低維空間。GHOST模型[14]只考慮作者合著關(guān)系,在每個(gè)合作者間建立網(wǎng)絡(luò),通過選擇有效路徑計(jì)算作者節(jié)點(diǎn)之間的相關(guān)性劃分作者聚類。并查集方法通過合作者和隸屬機(jī)構(gòu)的嚴(yán)格匹配在文檔間建立圖連接,將所有有連接關(guān)系的文檔節(jié)點(diǎn)構(gòu)成一個(gè)集群。
本文使用pairwise Precision、Recall和F1值[22]對模型進(jìn)行性能比較。對100個(gè)消歧作者數(shù)據(jù)集計(jì)算每個(gè)指標(biāo)的平均值。表2顯示不同的消歧方法在AMiner數(shù)據(jù)集上的仿真結(jié)果。可以看到,本文提出的方法在表中15個(gè)姓名中有11個(gè)都表現(xiàn)最佳,平均F1值比Aminer 算法[12]提高3.87%,比Zhang和Hasan[13]的算法高25%,比GHOST模型[14]高33.85%。
圖3是一個(gè)待消歧文檔數(shù)據(jù)集通過本文方法與Aminer學(xué)習(xí)后的文檔表征向量的2維空間可視化,圖3(a)、3(b)中不同的顏色表示不同的真實(shí)集群。圖3(c)、3(d)為預(yù)測集群分布。在此數(shù)據(jù)集上,本文提出的方法的F1值為0.633 8,Aminer方法僅為0.538 2。從圖3(d) 虛線內(nèi)的樣本可以看出,Aminer方法學(xué)習(xí)后的文檔表征向量在向量空間中距離較遠(yuǎn),樣本并沒有被正確歸類。而本文提出的方法通過將相似的表征向量聚集在一起,如圖3(a)的橙色散點(diǎn)表示,輸出的文檔表征向量更加接近,圖3(c)中并沒有將這些散點(diǎn)劃分錯(cuò)誤,從而實(shí)現(xiàn)了更好的聚類效果。
表2 幾種基于圖網(wǎng)絡(luò)的姓名消歧方法的聚類結(jié)果Table 2 Clustering results of different graph-based name disambiguation methods
圖3 不同姓名消歧方法聚類結(jié)果的可視化Fig.3 Visualization of clustering results of different name disambiguation methods
從表2中可以看到對于其中的4個(gè)姓名Aminer方法更好,為進(jìn)一步分析其中的原因,本文選取作者姓名為“Rong Yu”的文檔集合并對本文方法與Aminer模型的聚類結(jié)果進(jìn)行比較。
圖4為在這個(gè)文檔數(shù)據(jù)集上2種方法聚類結(jié)果的可視化對比。從圖4(b)中的藍(lán)色散點(diǎn)可以看出,通過Aminer方法學(xué)習(xí)文檔向量表征后,屬于這個(gè)作者的文檔向量主要集中在2個(gè)區(qū)域,而本文的方法將更多的點(diǎn)集中到左側(cè)橢圓虛線框內(nèi),如圖4(a)所示,這意味著本文方法將更多的文檔劃分到了正確的類中。但是因?yàn)楸疚姆椒▽⒑芏辔臋n向量從右側(cè)虛線框內(nèi)移出,導(dǎo)致其余的文檔向量在向量空間中太過分散,從圖4(c)中可以看出,這些文檔向量被劃分為3個(gè)不同的類。在圖4(d)中,這些文檔向量雖然也被劃分到另一個(gè)類別中,但是根據(jù)聚類方法中pairwiseF1值的計(jì)算方法可知,這些文檔向量組成的兩兩文檔對在預(yù)測集和真實(shí)集中仍然都屬于同一個(gè)類別,仍算作True-Positive文檔對。因此在作者姓名為“Rong Yu”的文檔數(shù)據(jù)集上,Aminer的F1值高于本文提出的方法。
圖5為使用word2vec構(gòu)建文檔向量表征后直接對該文檔集合中的文檔向量進(jìn)行聚類的結(jié)果可視化。從藍(lán)色散點(diǎn)可以看出,進(jìn)行文檔向量表征后屬于同一作者的文檔向量就被劃分到了向量空間中不相連的2個(gè)區(qū)域中,從文檔屬性特征分析,代表這個(gè)作者的文章有2個(gè)強(qiáng)屬性特征,他的大部分文章都與其中一個(gè)屬性相關(guān),例如他可能有2個(gè)不同的研究方向,這2部分文章的特征詞并不相關(guān),所以在特征編碼后與他相關(guān)的文檔向量分布在2個(gè)區(qū)域。而本文方法在引入關(guān)系信息后使得模型能夠區(qū)分出其中一部分文檔。但是由于并不能覆蓋到所有的文檔,在屬性特征關(guān)系弱的數(shù)據(jù)集中,文檔向量分布較為分散,本文的方法會(huì)導(dǎo)致一部分文章被劃分到多個(gè)不同的類別中,而Aminer方法雖然也沒有將這些文檔劃分到正確的類別中,但是保留了它們彼此之間的聯(lián)系,使得這些文檔被劃分為同一個(gè)類別,所以本文方法的聚類結(jié)果的F1值相對較低。
圖4 Rong Yu文檔集合上的聚類結(jié)果對比Fig.4 Comparison of clustering results on the document set of Rong Yu
圖5 文檔向量表征后的聚類結(jié)果Fig.5 Clustering results after document representation
為了展示本文方法中文檔向量表征、變分圖自編碼器、圖嵌入模型各自的作用與聚類效果,本節(jié)將每個(gè)組件分開評估。圖自動(dòng)編碼器和圖網(wǎng)絡(luò)嵌入模型建立于構(gòu)建了文檔向量表征之后。如表3所示,圖自編碼器和圖網(wǎng)絡(luò)嵌入分別將模型的F1值提高了0.064 1和0.048 3。而本文提出的綜合方法取得了最高的準(zhǔn)確率和召回率。圖6為每個(gè)子模型訓(xùn)練后學(xué)習(xí)的文檔向量的低維可視化,這里使用真實(shí)標(biāo)簽在文檔表征空間的分布,不同顏色代表不同作者所撰寫的文檔向量。由圖6可以看出,圖自編碼器將綠色點(diǎn)和藍(lán)色點(diǎn)聚集在了一起,而圖網(wǎng)絡(luò)嵌入使這些點(diǎn)更加接近使得模型可以更準(zhǔn)確地聚類。同時(shí),圖網(wǎng)絡(luò)嵌入模型將離群的黃色點(diǎn)移動(dòng)到了正確的區(qū)域,所以本文的模型對異常值有一定效果。
表3 組件性能分析Table 3 Clustering results of each component
圖6 各組件聚類結(jié)果可視化Fig.6 Visualization of clustering results of each component
本文基于圖網(wǎng)絡(luò)提出一種新的作者姓名消歧方法,該方法通過文檔表征、圖自動(dòng)編碼器和圖嵌入模型來編碼所有論文的屬性特征和作者及論文的關(guān)系圖拓?fù)浣Y(jié)構(gòu)。采樣于數(shù)據(jù)挖掘系統(tǒng)AMiner的數(shù)據(jù)集被用于驗(yàn)證本文提出的圖網(wǎng)絡(luò)姓名消歧方法,仿真結(jié)果證明本文提出的模型優(yōu)于目前其他幾種基于圖網(wǎng)絡(luò)的姓名消歧方法。