張新征 雷鵬飛 李玉坤 車向東
(1.天津市普迅電力信息技術有限公司 天津 300384)(2.天津理工大學計算機與通信工程學院 天津 300384)
面向論文檢索的同名作者區(qū)分方法
張新征1雷鵬飛2李玉坤2車向東2
(1.天津市普迅電力信息技術有限公司 天津 300384)(2.天津理工大學計算機與通信工程學院 天津 300384)
作者同名問題為論文檢索帶來了困難。論文研究了論文檢索中的作者同名問題,提出了一種面向文獻檢索的同名作者區(qū)分框架,并在此框架基礎上提出了基于作者的單位、合作者、論文發(fā)表期刊信息對同名作者進行區(qū)分的方法。實驗結果證明了論文所提出的方法的有效性。
同名作者; 文獻檢索; 區(qū)分
Class Number TP391
隨著互聯(lián)網的發(fā)展,很多數(shù)字學術圖書館隨之產生,如DBLP,CitSeer,PubMed,ACM DL,IEEE DL,知網、萬方等。這些數(shù)字學術圖書館為文獻檢索帶來了便利,并且為研究者提供了研究科學家合作網絡的充足的數(shù)據集。但是如何對于大量文獻的集合進行有效的檢索依然是一個挑戰(zhàn)性的問題。Lee et al.[1]認為主要挑戰(zhàn)來自于數(shù)據輸入的錯誤,包括檢索詞格式輸入的錯誤以及輸入標準的缺失,作者的同名問題以及出版地點縮寫的問題等。在這些問題中作者同名問題因其固有的難度,已經引起數(shù)字圖書館研究者的極大關注。
在現(xiàn)實世界中會有這樣的情形。當用戶希望通過輸入一個作者的名稱從計算機文獻數(shù)據庫DBLP中找到需要的文章時,常常會得到大量的同名作者的文章,用戶需要花費更多時間從中找出特定的一個作者的文章。比如,用戶在DBLP中輸入作者名稱“Dong Xin”。其返回的結果中包含Xin Dong、Xin Luna Dong、Dong Xin、Tian-Xin Dong、Jing-Xin Dong等作者名字。此時用戶面臨兩個問題: 1) 按照從實際生活中獲取的信息,“Xin Dong”和”Xin Luna Dong”這兩個名字對應的是現(xiàn)實世界中的同一個人,然而卻被列為兩個條目; 2) 當選擇“Dong Xin”時,所有作者為“Dong Xin”的文章會返回,但其對應的可能是現(xiàn)實世界中不同的人。前者可以稱為“異名同人”,后者可以稱為“同名異人”。
實際上,重名問題早已有之,研究者們也在這個問題上花費了大量的時間,嘗試了多種方法。Lizhu Zhou et al.提出了一種稱為GHOST的解決問題的框架[2]。Tang Jie et al.使用了一種統(tǒng)一的概率模型來形式化該問題[3]。
Wu Jiang et al.提出了一種遞歸加強的重名區(qū)分方法結合了合作者和所在單位的信息并特別關注了合作信息和作者所在單位的變動問題[4]。Yang Xia et al.提出了一種面向中文的同名區(qū)分方法(PND)[5]。Stasa Milojevic使用模擬的書目數(shù)據集對重名區(qū)分方法的準確性得出切實的估計[6]。Ferreira et al.提出了兩步區(qū)分法:SAND(Self-training Associative Name Disambiguation)[7]。Yoshida提出了使用自學習的兩階段聚簇算法來改善低召回率問題并且實現(xiàn)了一個用于對Web檢索結果進行重名區(qū)分的系統(tǒng)[8]。Byung-Won On et al.提出了可擴展的圖分割算法[9]。Pei Li et al.針對該問題提出了考慮記錄的時間順序并作出全局決策的聚簇算法[10]。
盡管已經存在一些關于作者重名區(qū)分的工作。然而由于問題的復雜性,同名問題依然沒有得到很好的解決?;诖?本文提出了一個輕量級的在線方法,來解決在文獻檢索中的作者同名區(qū)分問題。
本文主要貢獻如下: 1) 提出了面向文獻檢索的同名區(qū)分框架。 2) 提出了三個層次的解決同名區(qū)分的方法。
2.1 同名作者問題定義
確定作者身份包含兩個層面的意義:多人同名和一人多名。很多人同名的現(xiàn)象在現(xiàn)實生活中是很普遍的。在一些拉丁語系的國家,使用首字母和縮寫也經常見到。在中國,同名也是很常見的問題。當用戶輸入特定的作者名字來檢索文獻時,會返回很多的文章,盡管這些文章對應的是現(xiàn)實世界中不同的人
分析發(fā)現(xiàn)有時一個人也會對應幾個不同的名字。例如,“Xin Dong“,”X.Dong”和“Xin Luna Dong”對應的是同一個人。出現(xiàn)這個問題的原因主要分為兩個方面: 1) 拉丁國家的名字在簡寫時經常省略首中間名字; 2) 同一個名字會存在多種不同的表示方式。因此分類方法必須考慮作者名字不同的表示方式。
本文所要解決的問題是:對于一個論文集,當用戶輸入作者名稱N時,將會返回所有作者中包含此名字N的文章,本文所要解決的問題就是對返回的文章進行劃分,使每一個劃分中的作者名字N對應現(xiàn)實世界中的同一個人。除此之外,不同的作者名稱可能對應的是現(xiàn)實世界中的同一個人。所以這些文章也應該被分在同一個子集中。
圖1通過一個示例對本文研究的問題進行了說明。假設用查找作者為“Xin Dong”的文章,系統(tǒng)返回的文章有4篇{Paper1,Paper2,Paper3, Paper4},其中Paper1對應的作者為“Dong Xin”;Paper2和Paper3對應的作者為“Xin Dong”;Paper4對應的作者名字為“Xin Luna Dong”。而現(xiàn)實世界的情況是:這四篇論文中的作者對應現(xiàn)實世界中不同的3個人,如圖1所示。本文的目的是找到一種方法將輸入作者名字后檢索得到的文章分為若干類,使每一類中的文章對應現(xiàn)實世界中的同一個人。
圖1 研究問題描述示例
2.2 初步解決思路
此問題可以形式化表示如下:令N為用戶輸入的作者名稱,S為作者中包含N的論文集合。并且S表示為一個集合{Pi|1
根據人們的日常經驗可以得出如下結論: 1) 不同文章的同名作者對應同一單位,那么其可能是同一個人; 2) 有相同合作者的同名作者很可能是同一個人; 3) 在相同的期刊或者會議上發(fā)表文章的文章的同名作者很可能是同一個人。基于以上結論,本文提出根據單一屬性來對重名作者進行區(qū)分的初步方法。
首先是根據論文合作者來進行分類。令N為用戶輸入的作者名,假定P1和P2為用戶輸入N時的檢索結果,如果兩篇文章中N的合作者存在交集,則這兩篇文章的作者就被認定為同一個人。
此處,將每一個作者的名字作為一個標志,使用Jaccard距離來計算論文合作者的相似度。P1,P2為兩篇文章,P1.Au.Na代表文章P1的作者集,P1.Au.Na-{N}代表文章P1中名字為N的合作者,同樣,P2.Au.Na-{N}代表文章P2中名字為N的作者的合作者。則Jaccard距離可以根據以下公式計算:
如果Jac>0,則認為這兩篇文章對應的同名作者對應的是現(xiàn)實中的同一個人。
第二種初步方法是基于作者的單位,如果兩個同名作者的工作單位相同,則這兩個同名作者被當做同一個人。其所著文章被分為同一類。
第三種初步方法是基于論文所發(fā)表的期刊或者會議,如果兩篇文章發(fā)表在同一個期刊或者會議上,在某種程度上,這將意味著兩篇文章有著相似的研究方向,因此他們很可能是同一個人。
由于問題的復雜性,上述初步方法的分類效果并不太好。例如,如果某一作者更換單位,則其可能會被分到不同類中。另外現(xiàn)實中不同的同名作者和相同的人合作過,這些不同的同名作者會被錯誤地分在同一類中。
針對在第2節(jié)提出的基于單屬性的初步方法的不足,本文提出了更為有效的解決方法。這種方法分為三個步驟:首先,產生文章的初始集合;其次,根據作者所在單位將文章分為不同的子集;最后,根據論文合作者和文章所發(fā)表的期刊或會議對第二步產生的子集進行聚類。
3.1 初始文章集合的產生
為了使檢索結果更加完整,首先需要找出與所輸入的作者名字相對應的所有的名字。獲得同名作者初始集的方法為:當用戶輸入一個名字N時,首先獲得一個N可能的其他表示形式所組成的候選集。以DBLP中的論文為例,作者的名字經常是保持固定的,所以大多數(shù)情況下作者名字的形式是規(guī)范的。但是在一些文章中,作者有中間名字,但是也有很多文章的作者沒有中間名字。
本文提出了如下方法來根據用戶的輸入來產生可能的同名作者集。令“X(Y)Z”為用戶輸入的作者名,其中Y為可省略的內容,所以可能的同名作者集為:{“XZ”,“ZX“,”Z*X”,”X*Z”},此處“*”指作者的中間名字可能是任意字符串。如果未省略“Y”,可能的同名作者集為{“XYZ”,“XZ”,“ZX”}。例如,如果用戶輸入的作者名為“Xin Luna Dong”,可以得到可能的同名作者集:{“Xin Luna Dong”,“Xin Dong”,“Dong Xin”}。如果用戶輸入的作者名為“Xin Dong”,則可能的同名作者集為:{"Xin Dong","Dong Xin","Xin*Dong"}。
基于可能的同名作者集,能夠得到文章初始集。方法如下:對于任意文章Pi,如果Pi的一位作者包含于可能的同名作者集,則Pi將會被加入初始集?;诔跏技?本文提出了一種為返回的文章集合基于名字進行分類的算法,算法分為兩步: 1) 使用嚴格的規(guī)則將文章集合分為若干子集,保證每一個子集對應的是同一個作者; 2) 根據下文提到的多種規(guī)則將子集合并,得到最終分類結果。
3.2 基于作者所在單位進行分類
首先是根據論文合作者來進行分類。令N為用戶輸入的作者名,假定P1和P2為用戶輸入N時的檢索結果,如果兩篇文章中N的合作者存在交集,則這兩篇文章的作者就被認定為同一個人。這種方法的目的是將返回的初始文章集合分為若干子集{Si},每一個Si代表一個文章的集合,在這個集合中,同名作者極有可能代表的是現(xiàn)實世界中的同一個人。依據生活經驗,可以知道同一單位中存在同名的人的概率是很低的,據此可以根據作者所在單位產生同名作者集。
由于DBLP中并不包含文章作者的所在單位,因此最大的挑戰(zhàn)是如何獲得作者的單位信息。本文提出了一種方法來找到并抽取DBLP中文章作者的工作單位并實現(xiàn)了系統(tǒng)iSearchPapers。對于如何獲取作者工作單位信息的工作,因與本文并無太大關系,因此不作過多介紹?;诖丝梢缘玫轿恼翽1、P2所對應的作者的單位信息并進行比較,如果二者相同則認為P1、P2對應作者為現(xiàn)實世界中同一個人。
分析發(fā)現(xiàn):作者的工作單位可能有不同的書寫格式。同一個單位可能有不同的表示方式,可能會有縮寫或者省略的情況。例如"University of Washington"可以表示為:"Univ. Washington"或者“WU”,“Google”可以表示為“Google Inc.”,因此如果僅僅通過字符串匹配來確定作者的工作單位是否相同,可能出現(xiàn)錯誤。為此,本文在對作者所在單位的名稱的確定過程中,通過提取單位名稱字符串中的代表詞來代表該單位,以此來對作者工作單位進行標識,在此過程中借鑒了TF-IDF的思想。首先,對于一個特定的作者名字。該作者所對應的所有單位名稱字符串使用IKAnalyzer分詞器進行分詞,去除停用詞,得到分詞詞庫,進而統(tǒng)計每個詞的出現(xiàn)頻率。對于每一個工作單位字符串,對其選擇代表詞的主要思想是:對于分詞結果中的每一個詞在分詞詞庫中進行查找,找出該工作單位所對應的每一個詞在詞庫中的詞頻,詞頻較小的詞語被選為代表詞。將具有代表性的詞挑選出來后,在對作者的工作單位進行比較時使用代表詞來代替工作單位的詳細信息,據此可以根據工作單位將初始文章集合分為不同的子集,如算法1所示。
算法1 分類方法
輸入:所要研究的作者名稱A
輸出:A所對應文章的分類結果S
1.根據A得到A的可能同名作者集A′
2.對于A′中所有名稱獲得同名作者文章初始集P,P中文章數(shù)目N,P中元素表示為Pj
3.獲取P中所有元素Au.Af屬性的代表詞集合W,W元素個數(shù)T,W中元素表示為Wj
4.定義i=1,j=1
5.Forifrom 1 toT
6. Forjfrom 1 toN
7. 選出Pj.Au.Af的代表詞Wj
8. If(Wi=Wj)
9. 將Pj插入集合Si中
10. end if
11. end for
12.end for
3.3 基于合作者和論文發(fā)表情況的聚簇
利用算法1所得的子集包含如下特性: 1) 同一個子集的同名作者極有可能代表現(xiàn)實世界中的同一個人。 2) 由于作者可能更換單位,不同子集中的同名作者有可能代表現(xiàn)實世界的同一人,因此需要將算法1的結果子集中的文章進行合并。
基于第2節(jié)的發(fā)現(xiàn),可以對算法1進一步改進。在聚簇方法中考慮了兩種屬性:論文合作者和論文發(fā)表信息。用論文發(fā)表的會議或者期刊來近似表示論文作者的研究領域。算法2顯示了聚簇算法的主要過程。輸入為所有子集,目的是得到最終的聚簇結果,聚簇過程中,對聚簇結果中的每一個子集Ri,將其與初始集合S中的子集Si進行比較,如果二者中元素的合作者或論文發(fā)表情況存在重疊,則將Si中的對應元素插入Ri中,否則將Si作為一個獨立的類插入R中。使用貪心算法來將對應現(xiàn)實世界中同一個人的作者的文章進行合并。
算法2 聚簇方法
輸入:所有的子集的集合S,S中子集的個數(shù)m
輸出:聚簇后的子集集合R
1.定義i=1,j=0表示R集合動態(tài)增長
2.對于S中的每一個子集Si,Si中任一元素為s,Ri中任一元素為r
3. While(S≠φ,j=j+1)
4. forifrom 1 tom
5. forkfrom 1 toj-1
6. If ((Si.s.Au.Co∩Rk.r.Au.Co≠φorSi.s.Jc∩Rj.r.Jc)≠φ)
7.Rk=Rk∪Si
8. end if
9. 如果Si和所有Rj到Rj-1都不能合并,則Rj=Si
10. end for
11. end for
12. end while
4.1 實驗數(shù)據集
本文使用眾所周知的計算機領域文獻集合DBLP所收錄的ACM出版的學術論文來作為實驗數(shù)據集。由于本文的方法是基于作者的單位信息。然而,DBLP并沒有包含作者的單位信息,所以作者開發(fā)了原型系統(tǒng)來從原始數(shù)據中集成同名作者的單位信息。例如,如果一篇文章發(fā)表在ACM,就從ACM的網站中抽取論文作者單位信息,并作為一篇文章的一個屬性存入數(shù)據庫。由于DBLP中有大量的作者,從中選取了一部分樣本來進行實驗。表1顯示了選取的作者,包括作者姓名、文章數(shù)量、發(fā)表日期和文章所在數(shù)據源。
表1 實驗中選取的同名作者
在實驗中通過手工的方法獲得實驗的基準數(shù)據,作為實驗結果的對比。過程如下:對于表1中的每一個作者,通過輸入作者名來找出所有的文章。通過手工的方法對文章進行分類。從作者個人主頁,多個文獻集合如:Google scholar, ACM digital library, IEEE digital library等來查找作者信息,并對同名作者進行區(qū)分,獲得基準數(shù)據。本文使用Recall,Precision,F-Measure來評估所提出方法的有效性。
2) 刪除矩陣的第i行以及第j列,對剩余的(m-1)(n-1)重新組成矩陣,選擇矩陣中的最大值并得到更多分類對應關系;
3) 繼續(xù)第1)、2)步直到從矩陣中所得到的對應關系總數(shù)為min(m,n),由于m,n可能不相等,當C或C′中元素數(shù)目較小者中所有元素均參與運算,算法結束。
得到對應關系后對本文所提出的方法的有效性進行評估,本文使用Recall,Precision和F-measure來進行評估,計算方法如下:
Precision=TP/(TP+FP)
(2)
Recall=TP/(TP+FN)
(3)
F-measure=2*Precision/(Precision+Recall)
(4)
式中,TP代表被正確分類的文章的數(shù)目,FP表示文章數(shù),FN表示漏報文章數(shù)。
4.2 實驗結果
本文用人工的方法將樣本中的名字和結果進行分類并作為基準。另外,根據基準數(shù)據對本文所提出的分類方法的分類結果進行了評估。使用Recall和Precision來對分類結果進行評估。
首先,計算對應于同名作者的分類結果的Recall和Precision。最終的Recall和Precision為樣本中所有作者的論文分類的的Recall和Precision的平均值。圖2顯示了最終的實驗結果。
從實驗結果可以看出本文所提出的方法的Recall,Precision和F-Measure均為0.9以上。通過將本算法的分類結果與手工分類結果進行對比,發(fā)現(xiàn)樣本中的某些名字的手工分類結果與通過算法進行分類的結果存在不同。表明所提出的分類方法還存在一些不足。另外由于判斷同名作者是現(xiàn)實世界中的同一個人的標準是同名作者是否有相同的合作者。然而不能排除合作者中也有同名不同人的現(xiàn)象。
圖2 同名作者區(qū)分的實驗結果
4.3 實驗結果分析
通過分析沒有被正確分類的文章,發(fā)現(xiàn)有兩類錯誤。 1) 文章被錯誤地分類了; 2) 某一類中的文章不完整。
對于第一個問題,分析發(fā)現(xiàn)出在第一次對子類合并的時候,根據本文提出的方法,如果兩類文章有相同的文章發(fā)表期刊屬性,應該將二者合并,所以當兩個同名作者在同一個期刊上發(fā)表文章時兩篇文章應該歸為同一個類中,盡管這兩個作者不是同一個人。
第二個問題是同名作者的文章被分為很多類,如果同名作者更換了單位、合作者或者發(fā)表文章的期刊或會議,那么他/她的信息更換前后所寫的文章可能不會有交集。
此外,實驗發(fā)現(xiàn),不同的作者的同名區(qū)分結果也有一些差別,因此本文所提出的方法依然有一些不足,我們將在以后對其進行完善。
本文提出了針對文獻檢索的作者同名區(qū)分框架。首先根據用戶的輸入產生一組可能的作者名字集合;其次根據作者名字集合在系統(tǒng)中返回文章集合;最后對文章集合進行分類,并在分類結果的基礎上使用合作者和論文出處對分類結果進行聚類,得到最終文章分類結果。上述只是初步工作,在以后的工作中,會對文中所提出的方法進行改進,進一步提高其有效性。
[1] Dongwon Lee, Jaewoo Kang, Prasenjit Mitra, et al. On. Are your citations clean?[J]. Comm. ACM,2007,50(12):33-38.
[2] Xiaoming Fan, Jianyong Wang, Xu Pu, et al. On Graph-Based Name Disambiguation[J]. Journal of Data and Information Quality(JDIQ),2011,2(2):1-23.
[3] Jie Tang, Alvis Cheuk M. Fong, Bo Wang, et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library[J]. IEEE Trans. Knowl. Data Eng(TKDE),2012,24(6):975-987.
[4] Jiang Wu, Xiu-Hao Ding. Author name disambiguation in scientific collaboration and mobility cases[J]. Scientometrics,2013,96(3):683-697.
[5] Xia Yang, Peng Jin, Wei Xiang. Exploring Word Similarity to Improve Chinese Personal Name Disambiguation[C]//Web Intelligence/IAT Workshops,2011:197-200.
[6] Stasa Milojevic: Accuracy of simple, initials-based methods for author name disambiguation[J]. J. Informetrics (JOI),2013,7(4):767-773.
[7] Anderson A. Ferreira, Adriano Veloso, Marcos André Gon?alves, et al. Laender: Effective self-training author name disambiguation in scholarly digital libraries[C]//JCDL’10,2010:39-48.
[8] Minoru Yoshida, Masaki Ikeda, Shingo Ono, et al. Person name disambiguation by bootstrapping[C]//SIGIR’10,2010:10-17.
[9] Byung-Won On, Ingyu Lee, Dongwon Lee. Scalable clustering methods for the name disambiguation problem[J]. Knowl. Inf. Syst.(KAIS),2012,31(1):129-151.
[10] Pei Li, Haidong Wang, Christina Tziviskou, et al. Chronos: Facilitating History Discovery by Linking Temporal Records[J]. 2012,PVLDB 5(12):2006-2009.
A Method of Same Name Author Distinguishment towards Paper Retrieval
ZHANG Xinzheng1LEI Pengfei2LI Yukun2CHE Xiangdong2
(1. Tianjin Richsoft Electric Power Information Technology Co., Ltd, Tianjin 300384) (2. School of Computer and Communication Engineering, Tianjin University of Technology, Tianjin 300384)
The problem that different authors share the same name brings difficulties for paper retrieval. This paper studies this problem and puts forward a framework towards same name disambiguation in paper retrieval. On the basis of this, the paper also proposes a method based on author’s unit, collaborators and paper periodical information.The experimental results shows the effectiveness of the proposed method in this paper.
authors with same name, paper retrieval, distinguish
2016年8月11日,
2016年9月25日
國家自然科學基金項目(編號:61170027);天津市應用基礎與前沿技術研究計劃(編號:15JCYBJC46500)資助。
張新征,男,工程師,研究方向:信息化技術及管理。雷鵬飛,男,碩士,研究方向:信息集成與信息檢索。李玉坤,男,博士,研究方向:數(shù)據集成、數(shù)據庫與信息檢索。車向東,男,碩士,研究方向:信息集成與信息檢索。
TP391
10.3969/j.issn.1672-9722.2017.02.005