盛曉光 王 穎 錢 力③ 王 穎
①(中國科學院大學人工智能學院 北京 100049)
②(中國科學院文獻情報中心 北京 100190)
③(中國科學院大學圖書情報與檔案管理系 北京 100190)
作者姓名歧義一直是國內(nèi)外出版界和學術(shù)界的難點問題。近年來科學論文數(shù)量呈指數(shù)級增長,重名現(xiàn)象越來越嚴重,特別是名稱縮寫、拼音一音多字等問題影響著文獻檢索系統(tǒng)以及學術(shù)評價的準確性。為消除歧義,許多研究機構(gòu)提出了人名標識系統(tǒng)以期通過唯一標識來區(qū)分作者,如開放研究者與貢獻者身份識別碼(Open Researcher and Contributor IDentifier, ORCID)[1]、Thomson Reuters的ResearchID[2]等。然而,人名標識系統(tǒng)的應用范圍有限,大量科學出版物中并未明確標注作者身份識別碼。因此,通過自動化方法解決論文中作者歧義問題仍然是同名消歧的主要手段,也是國內(nèi)外學者的研究熱點之一。常用的作者消歧方法往往將問題轉(zhuǎn)化為機器學習的聚類問題或分類問題,如利用SVM[3]、層次聚類[4]、譜聚類[5]等機器學習算法進行處理。隨著深度學習技術(shù)的發(fā)展,越來越多研究人員采用網(wǎng)絡嵌入方法(Network Embedding)進行作者同名消歧[6,7],從論文數(shù)據(jù)中抽取特征以便于聚類或分類任務。此外,具有表征學習能力的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)快速發(fā)展,在計算機視覺[8,9]、自然語言處理[10]等領(lǐng)域都取得了巨大成功,而圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network, GCN)由于能夠有效處理具有豐富關(guān)系結(jié)構(gòu)的任務,常用于處理圖節(jié)點表示學習、圖節(jié)點分類、邊預測、圖分類等問題[11-14]。鑒于此,本文提出了一種基于圖卷積半監(jiān)督學習的論文作者同名消歧方法,融合作者、機構(gòu)、題目、關(guān)鍵詞等論文屬性信息,借助BERT語義表示方法和圖卷積神經(jīng)網(wǎng)絡,探索作者消歧方法,以提高作者與成果的匹配效果。
Zhang等人[6]將當前同名消歧的研究方法分為兩類:基于特征的消歧方法和基于連接/圖的消歧方法。
基于特征的消歧方法應用較早,根據(jù)文檔的特征向量學習文檔之間的距離函數(shù),將相近的特征向量歸入相同類別,實現(xiàn)同名消歧。Huang等人[15]提出了一個有效的綜合框架來解決名稱消歧問題,分別利用Blocking技術(shù)檢索具有相似名稱作者的候選類,使用在線主動選擇支持向量機算法(LASVM)計算論文之間的距離度量進行DBSCAN聚類。Yoshida等人[16]提出一種基于bootstrapping的兩階段聚類算法來改善低查全率,其中第1階段的聚類結(jié)果用于提取第2階段聚類中使用的特征。Han等人[3]提出了基于SVM和貝葉斯網(wǎng)絡的有監(jiān)督消歧方法,利用論文合作者、題目出版物名稱等特征對同名作者進行消歧。Zhu等人[17]使用多層聚類的方式進行同名消歧,如分別利用Email信息、論文合作者、論文題目等進行動態(tài)的作者聚類。
基于連接/圖的消歧方法利用圖的拓撲結(jié)構(gòu)或者聚合來自鄰居節(jié)點的信息,例如Fan等人[18]提出了一種僅使用合作者關(guān)系的同名消歧框架GHOST,通過合作關(guān)系構(gòu)造圖,根據(jù)圖中待排歧作者間有效路徑的數(shù)目和長度計算相似度,再對相似度矩陣聚類實現(xiàn)同名消歧。Tang等人[19]利用隱馬爾可夫隨機域?qū)y(tǒng)一概率框架下的節(jié)點特征和邊特征進行建模。Zhang等人[7]提出一種基于網(wǎng)絡嵌入的解決方案,構(gòu)建作者-作者、作者-論文、論文-論文3個圖,利用各種匿名網(wǎng)絡的鏈接結(jié)構(gòu),將每個文檔表示為低維向量空間,以解決名稱消歧任務。Hermansson等人[20]提出了一種基于局部鄰域結(jié)構(gòu)的匿名圖實體消歧方法,基于局部鄰域結(jié)構(gòu)利用Graph Kernels計算圖中節(jié)點之間的相似度,并用SVM執(zhí)行分類任務。Zhang等人[6]采用結(jié)合全局監(jiān)督和局部上下文的表示學習方法,采用該技術(shù)的名稱消歧模塊應用在AMiner系統(tǒng)中能夠高效處理十億級規(guī)模的消歧問題。
本文結(jié)合兩種消歧方法的優(yōu)勢,一方面利用論文文本屬性信息如題目、關(guān)鍵詞等計算語義特征向量,再通過合作關(guān)系和同機構(gòu)關(guān)系構(gòu)建論文網(wǎng)絡,將卷積用于圖結(jié)構(gòu)進行半監(jiān)督學習,達到作者消歧的目的。
圖卷積神經(jīng)網(wǎng)絡是一種最為典型的圖神經(jīng)網(wǎng)絡。圖卷積半監(jiān)督學習利用卷積操作將節(jié)點的特征向量和節(jié)點間的圖結(jié)構(gòu)結(jié)合在一起,節(jié)點的特征向量每經(jīng)過1次圖卷積操作,就通過圖結(jié)構(gòu)利用臨近節(jié)點更新自己的特征向量,從而使相似的節(jié)點具有相似的特征向量[21]。此過程適用于作者同名消歧任務,待消歧論文通過相互關(guān)聯(lián)構(gòu)建網(wǎng)絡并通過圖卷積網(wǎng)絡不斷更新特征向量實現(xiàn)論文聚類任務。
基于這一思路,本文提出一種基于圖卷積半監(jiān)督學習的作者同名消歧方法框架如圖1所示。首先,將論文的題目、關(guān)鍵字作為文本輸入預先訓練好的SciBERT模型得到每篇論文的語義表示向量;其次,利用論文的作者和機構(gòu)信息構(gòu)建論文合作網(wǎng)絡與機構(gòu)關(guān)聯(lián)網(wǎng)絡,分別獲得鄰接矩陣;然后,從論文合作網(wǎng)絡中采集偽標簽,獲得正樣本集和負樣本集;將待消歧論文的BERT語義向量、論文合作網(wǎng)絡和論文機構(gòu)關(guān)聯(lián)網(wǎng)絡以及正、負樣本集作為輸入,利用圖卷積神經(jīng)網(wǎng)絡進行半監(jiān)督學習,獲得論文最終節(jié)點向量;最后使用層次凝聚類算法將論文節(jié)點向量聚類劃分,實現(xiàn)對論文作者同名消歧。
圖1 研究框架
由于研究人員在一段時間內(nèi)的研究方向相對穩(wěn)定,論文的題目、關(guān)鍵詞、摘要、出版物名稱等文本特征也可用于表征作者的研究內(nèi)容并用于區(qū)分從事不同研究的同名作者。目前,廣泛使用的文本向量構(gòu)建方法包括n-gram, NNLM, word2vec等。2018年Google發(fā)布了BERT預訓練語言模型[22],在自然語言處理的11個任務上大幅刷新了精度。隨后,Beltagy等人[23]推出了專門為科學論文訓練的SciBERT預訓練語言模型,更適用于科學論文的自然語言處理任務。為充分利用論文文本特征,本文將論文的題目、關(guān)鍵詞作為文本輸入,利用SciBERT模型得到每篇論文的語義表示向量。
設每篇論文的題目和關(guān)鍵詞拼接獲得的句子輸入為d,則B E R T 輸入為[CLS,d,SEP],C L S 和SEP標識符分別作為句子的起始符和分隔符,經(jīng)過分詞獲得句子的token序列{tok1,tok2,...,tokN},依次輸入到BERT模型中。BERT以雙向Transformer的Encoder作為模型的基本組成單元(如圖2中BERT層),能夠聯(lián)合所有層中左右兩個方向的上下文信息進行訓練,利用多頭注意力機制進行更多層面的特征提取,最后得到含有豐富語義特征的序列向量,即輸出為該論文的語義表示向量,設為dS,向量維數(shù)為BERT的默認隱含元個數(shù)768,記為H。則待消歧同名作者論文集合的語義表示向量矩陣XH×K=(dS1,dS2,...,dSK),其中dSi為第i篇論文的語義表示向量,K為論文的數(shù)量。
圖2 基于BERT預訓練模型的論文語義表示
為獲得同名作者論文之間的關(guān)聯(lián)信息,本文分別構(gòu)建論文合作網(wǎng)絡}ca和論文機構(gòu)關(guān)聯(lián)網(wǎng)絡}ci,如圖3所示。
圖3 論文合作網(wǎng)絡和機構(gòu)關(guān)聯(lián)網(wǎng)絡
定義1:論文合作網(wǎng)絡}ca=
表征論文節(jié)點之間的合作關(guān)系,其中P表示網(wǎng)絡中節(jié)點集,節(jié)點類型為論文,α表示節(jié)點之間的合作關(guān)系邊集合,如果論文節(jié)點P1和P2之間的待消歧作者的共同合作者數(shù)量大于1,則定義這兩個論文節(jié)點在論文合作網(wǎng)絡中存在邊a12。
定義2:論文機構(gòu)關(guān)聯(lián)網(wǎng)絡}ci=
表征論文節(jié)點之間的機構(gòu)關(guān)聯(lián)關(guān)系,其中P表示網(wǎng)絡中節(jié)點集,節(jié)點類型為論文,i表示節(jié)點之間的機構(gòu)關(guān)聯(lián)邊集合,如果論文節(jié)點P1和P2的作者存在相同的所屬單位則這兩個論文節(jié)點在論文機構(gòu)關(guān)聯(lián)網(wǎng)絡中存在邊i12。
由此分別構(gòu)建了論文之間的無權(quán)無向圖 gca和gci,用Aca和Aci分別表示論文合作網(wǎng)絡和論文機構(gòu)關(guān)聯(lián)網(wǎng)絡的鄰接矩陣。
為了得到GCN訓練的初始標簽數(shù)據(jù),本文利用已構(gòu)建的論文網(wǎng)絡采集偽標簽。通過對比合作關(guān)系和機構(gòu)關(guān)聯(lián)關(guān)系,可以發(fā)現(xiàn)存在相同合作者的同名作者為同一人的概率相比同機構(gòu)而言更大,為此從論文合作網(wǎng)絡 gca中采集偽標簽。具體做法為定義集合eij ∈ξ+為圖gca存在的邊集合,即邊eij在圖gca的鄰接矩陣中為1。同時隨機采樣同等數(shù)量不存在的邊集合eij ∈ξ?,即eij在圖gca的鄰接矩陣中為0。將ξ+作為正樣本集,ξ?作為負樣本集。
通過上述步驟分別獲取了待消歧論文的BERT語義向量、論文合作網(wǎng)絡和論文機構(gòu)關(guān)聯(lián)網(wǎng)絡以及正、負樣本集。在此基礎上,使用圖卷積半監(jiān)督方法進一步學習每一個論文的節(jié)點表示。設圖卷積神經(jīng)網(wǎng)絡的輸入特征為BERT語義表示向量X、論文合作網(wǎng)絡鄰接矩陣Aca、論文機構(gòu)關(guān)聯(lián)網(wǎng)絡鄰接矩陣Aci。
對于論文合作網(wǎng)絡gca,記A?ca為正則化的鄰接矩陣,兩層的圖卷積表示為
為了更好地保留論文數(shù)據(jù)語義信息的作用,本文添加了一個全連接層,對BERT語義表示向量X進行映射,獲取其語義的表示向量
其中,U為全連接層的參數(shù),Zbe為基于BERT語義表示的節(jié)點嵌入表示。
由此獲得了3個方向節(jié)點嵌入表示Zca,Zci和Zbe,融合這3個方向的節(jié)點嵌入表示作為最終的論文節(jié)點向量進行半監(jiān)督學習
其中,β1,β2和β3分別是權(quán)重參數(shù),本文選擇權(quán)重分別為0.001,1,3。
半監(jiān)督學習的目標是最小化正樣本集中節(jié)點連接的距離,同時最大化負樣本集中節(jié)點對的距離,損失函數(shù)定義為
其中,d(·)為距離函數(shù),采用歐氏距離計算,lam為調(diào)和參數(shù)。
對上述獲得整體的節(jié)點嵌入向量Z,使用層次凝聚類算法對圖中的n個論文進行聚類。層次凝聚類算法是一種凝聚型的聚類方法,相對于劃分型的聚類方法更側(cè)重于保留節(jié)點間已存在的相似性,而不至于忽略一些不夠顯著的關(guān)聯(lián),適用于本文提出的作者消歧方法。
基于上述研究框架和具體方法,本文設計了如表1所示的實現(xiàn)算法,以同名作者的論文集合為輸入,執(zhí)行算法后輸出這些論文的聚類集合。
表1 基于圖卷積半監(jiān)督學習的作者同名消歧算法
由于學術(shù)論文來源不同,論文元數(shù)據(jù)信息往往存在缺少或不規(guī)范的情況。對于規(guī)模比較大的高校,不同分支機構(gòu)甚至同一分支機構(gòu)往往存在中英文同名學者。此外,部分學術(shù)數(shù)據(jù)服務商還將一些不同分支機構(gòu)(如A大學計算機學院、A大學人工智能學院等)的數(shù)據(jù)統(tǒng)一處理為“A大學”,進一步加大了同名消歧的難度。為此,本節(jié)以從公開學術(shù)數(shù)據(jù)庫獲得的某高校論文數(shù)據(jù)為實驗數(shù)據(jù),對本節(jié)提出的方法進行實驗驗證。通過與該高校教育管理數(shù)據(jù)對比,待消歧的作者姓名數(shù)據(jù)集中,包括856個校內(nèi)同名導師姓名(實際對應2285名導師)、52個同分支機構(gòu)同名導師姓名(實際對應108名導師)。從中隨機選取20個待消歧作者(實際對應96名導師)作為測試集(表2)。
表2 待消歧作者測試集
20個待消歧作者的論文量共計3753篇,包括中文論文2473篇,英文論文1280篇,部分中文論文包含英文元數(shù)據(jù),具有英文題目的論文合計2921篇。在實驗前,對待消歧論文進行預處理,將中文姓名統(tǒng)一為英文姓名,利用機構(gòu)規(guī)范庫將中文機構(gòu)統(tǒng)一為英文機構(gòu)名,區(qū)分中英文題目、摘要、關(guān)鍵詞、出版物名稱,使用百度通用翻譯API1)將中文翻譯為英文,并統(tǒng)一處理縮寫、停用詞、特殊字符等。
本文實驗開發(fā)環(huán)境為Python3.6, CUDA 10.01,使用PyTorch 1.1.0, Transformers 2.1.1,Gensim 3.8.1, Numpy 1.18.1等工具。硬件環(huán)境為Intel Xeon十核處理器、64GB內(nèi)存、NVIDIA Geforce RTX 2080Ti顯卡。
4.2.1 與其他方法對比分析
為綜合評價本文方法,分別與匿名圖網(wǎng)絡嵌入消歧方法[7]、多維網(wǎng)絡嵌入消歧方法[24]以及基于合作者和共現(xiàn)關(guān)鍵詞等規(guī)則的基礎消歧方法進行比較。選用常用的Pairwise Precision, Recall,F1-score作為評估指標,實驗結(jié)果如表3所示。
從表3可以看出,本文方法在20個待消歧作者的11個子任務中都取得了最優(yōu)效果,并且在所有子任務的平均指標上也取得了最優(yōu)效果,F(xiàn)1值相比其他3種方法分別提升了3.57, 2.7和32.98。匿名圖網(wǎng)絡嵌入消歧方法在子任務(Jia Liu, Jie Liu, Jun Liu, Yunshan Wang, Xu Zhao)中消歧效果更優(yōu)。多維網(wǎng)絡嵌入消歧方法在子任務(Wei Li, Bin Wang, Lin Wang, Ming Zhu)中消歧效果更優(yōu)。
表3 對比實驗結(jié)果(%)
從待消歧論文規(guī)模上比較,本文方法在論文量較大的任務(如Tao Zhang, Jun Yang, Ming Li)上效果好于其他方法。而在論文量較小的任務 (Wei Li, Jia Liu, Jie Liu, Yunshan Wang, Lin Wang,Xu Zhao, Ming Zhu)上匿名圖網(wǎng)絡嵌入消歧方法和多維網(wǎng)絡嵌入消歧方法的效果稍優(yōu),本文方法次之。
從待消歧類別上比較,歧義類別較多的幾組任務Ming Li, Peng Zhang, Tao Zhang上,本文方法較優(yōu),而匿名圖網(wǎng)絡嵌入消歧方法在消歧類別較少任務Jia Liu, Jie Liu, Yunshan Wang上更優(yōu),多維網(wǎng)絡嵌入消歧方法在消歧類別較少任務Wei Li, Lin Wang, Ming Zhu上更優(yōu),本文方法在消歧類別較少的Tao Huang子任務上效果更優(yōu)。
綜合比較論文規(guī)模和消歧類別上各任務的消歧效果,本文方法的適應性更強,所以綜合表現(xiàn)最好,表明其具有良好的細粒度區(qū)分能力和數(shù)據(jù)規(guī)模處理能力。
4.2.2 組件貢獻分析
為評估本文使用模型各組成部分在聚類中的作用,分別僅利用BERT模型計算論文節(jié)點的語義表示向量進行聚類,設定語義向量為0并且僅使用圖卷積網(wǎng)絡計算合作者和機構(gòu)關(guān)系進行聚類,以及綜合使用兩個組件,即利用圖卷積網(wǎng)絡對節(jié)點向量優(yōu)化后進行論文聚類,對比結(jié)果如表4所示。
表4結(jié)果顯示如果僅用文本語義表示向量表示論文,聚類結(jié)果平均F1值為57.03,而利用圖卷積網(wǎng)絡利用合作關(guān)系和機構(gòu)相似關(guān)系進行優(yōu)化后,平均F1值提升了24.51。如果僅使用圖卷積網(wǎng)絡計算合作者和機構(gòu)相似網(wǎng)絡進行消歧,平均F1值為75.76,相比僅使用文本語義表示向量表示論文,提升效果顯著,這說明聯(lián)合使用合作關(guān)系和機構(gòu)關(guān)聯(lián)進行圖卷積學習對于作者同名消歧的貢獻度高于論文本身的文本特征。
表4 組件聚類結(jié)果對比(%)
4.2.3 論文文本語義表示分析
為評估采用不同語言模型進行論文文本語義表示的消歧效果,本文在實驗數(shù)據(jù)集上分別使用Word2Vec模型、Google的BERT-base-uncased基礎預訓練模型和BERT-base-multilangual-uncased多語言預訓練模型、哈工大的中文BERTwwm-Chinese預訓練模型以及科學論文SciBERT模型開展實驗,對比結(jié)果如表5所示。從Word2Vec,BERT-base-multilangual-uncased, BERT-wwm-Chinese 3個模型針對原始中英文論文題目和關(guān)鍵詞進行語義表示的實驗可以看出BERT-base-multilangual的執(zhí)行效果較好。而對比BERT-base-uncased和SciBERT模型針對論文原有和翻譯后的英文題目、關(guān)鍵詞的實驗顯示SciBERT模型的執(zhí)行效果較好,并且整體性能最優(yōu)。
表5 使用不同文本語義表示模型的消歧結(jié)果對比(%)
此外,為評估論文文本屬性對消歧效果的影響,分別針對題目、關(guān)鍵詞、摘要、出版物名稱的聯(lián)合使用進行實驗,實驗結(jié)果如表6所示。從實驗結(jié)果可以發(fā)現(xiàn)利用題目和關(guān)鍵詞的消歧效果要高于其他,盡管摘要存在更多的信息,但也同時帶來了干擾,而題目和關(guān)鍵詞含有的領(lǐng)域主題詞密度更高,因而效果更好。
表6 針對不同文本內(nèi)容的消歧結(jié)果對比(%)
4.2.4 特征權(quán)重分析
在圖卷積神經(jīng)網(wǎng)絡訓練中,最終節(jié)點嵌入表示向量融合了合作關(guān)系、機構(gòu)關(guān)聯(lián)、語義表示3個方向的節(jié)點嵌入表示,如公式(4)。其中每一個方向的向量使用權(quán)重參數(shù)β1,β2和β3。通過組合不同的特征權(quán)重進行對比實驗,選擇一組最優(yōu)組合,實驗結(jié)果如圖4所示,當β1=0.001,β2=1和β3=3時消歧效果最好。
圖4 權(quán)重組合性能對比
在調(diào)參過程中可以發(fā)現(xiàn)β1相比其他兩個權(quán)重對性能的影響更大。如圖5所示,在Liang Wang,Tao Zhang, Ming Li和Feng Zhao 4個子任務,β1從1下降到0.01過程中查準率提升明顯,并且在0.001時達到最優(yōu)。β1參數(shù)跨度較大的原因在于同一個人的合作者較少或存在縮寫名稱相同的合作者,查準率降低。而式(5)中損失函數(shù)調(diào)和參數(shù)lam的對比實驗結(jié)果如圖6所示,當lam=0.6時性能最優(yōu)。
圖5 β1權(quán)重調(diào)節(jié)查準率對比
圖6 調(diào)和參數(shù)lam對比實驗結(jié)果
本文提出一種基于圖卷積半監(jiān)督學習的論文作者同名消歧方法,利用圖卷積神經(jīng)網(wǎng)絡在圖半監(jiān)督學習方面的優(yōu)勢解決作者同名消歧問題。該方法一方面利用了論文中表示研究主題的題目和關(guān)鍵字計算論文語義表示向量,另一方面利用論文的作者和機構(gòu)信息構(gòu)建論文之間關(guān)系網(wǎng)絡,將論文語義表示向量和網(wǎng)絡鄰接矩陣作為圖卷積神經(jīng)網(wǎng)絡的輸入開展半監(jiān)督學習,通過合作網(wǎng)絡中采集的偽標簽獲得正樣本集和負樣本集計算每次訓練的損失函數(shù),經(jīng)過深度學習獲得論文節(jié)點的嵌入表示向量進行聚類。
通過對比實驗可以發(fā)現(xiàn)本文方法相比其他方法可以取得更好的消歧效果,在不同論文規(guī)模和消歧類別上的適應能力和處理能力更強。本文還對比了文本特征語義向量計算、論文合作/機構(gòu)關(guān)系網(wǎng)絡圖卷積學習兩個組件的貢獻,不同語義表示模型、文本元素以及特征權(quán)重對消歧效果的影響,探究本文方法各個組成部分的影響,以期為進一步研究和改進提供參考。
本文研究也存在一些不足:(1)由于本文研究面向科教大數(shù)據(jù)融合的具體應用,尚未在常用測試集如DBLP, Arnetminer, CiteSeerX等上開展實驗;(2)本文方法僅從合作網(wǎng)絡隨機采集偽標簽,偽標簽的學習以及影響分析有待于進一步研究和實驗;(3)本文方法的執(zhí)行效率有待進一步優(yōu)化,以實際應用于大規(guī)模數(shù)據(jù)融合中。這幾方面也成為接下來研究的重點。