沈 喆,王 毅,鞠秀芳,成 穎
(1. 南京大學(xué)信息管理學(xué)院,南京 210023;2. 南京大學(xué)中國社會科學(xué)研究評價中心,南京 210093)
目前,作者名歧義已經(jīng)對科學(xué)計量與評價研究的可靠性、信息檢索的查全與查準(zhǔn)率等產(chǎn)生了較大的負(fù)面影響[1]。為此,在作者個體層面建立完整且準(zhǔn)確的學(xué)術(shù)成果集,即實現(xiàn)作者名消歧(author name disambiguation,AND) 已成為學(xué)界的迫切需求。鑒于AND 提供的重要數(shù)據(jù)支撐作用,學(xué)界已經(jīng)對其開展了相當(dāng)豐富的研究,研究成果的概貌可見之于 Smalheiser 等[2]、Elliott[3]、Hussain 等[4]、San‐yal 等[5]學(xué)者的綜述。不過,現(xiàn)有研究與實踐尚難以支撐后繼應(yīng)用的需要,比如,ORCID、ResearchID等作者身份標(biāo)識碼存在普及率不高的問題;個人或研究團隊主頁等外源性數(shù)據(jù)普遍存在數(shù)據(jù)不完整、更新不及時以及網(wǎng)頁的異構(gòu)造成的可用性低等問題;基于機器學(xué)習(xí)的消歧模型的F1 值普遍差強人意且泛化能力弱[6],以AMiner 數(shù)據(jù)庫為例,其研究團隊利用網(wǎng)絡(luò)表示學(xué)習(xí)等方法建構(gòu)的消歧模型的F1值僅達到了0.68[7]。
高層次科研人才作為國家科技核心競爭力和科學(xué)事業(yè)發(fā)展的領(lǐng)軍人物,現(xiàn)有的計量以及科技人才評價等研究多聚焦于此,如諾貝爾獎獲得者[8-10]、中國科學(xué)院院士[11]、長江學(xué)者[12-13]、國家杰出青年科學(xué)基金獲得者(下文簡稱“杰青”)[14]等。相關(guān)研究重點探討了人才的產(chǎn)出規(guī)律、成長軌跡以及影響因素等。顯然,高AND 精確率和召回率的數(shù)據(jù)集是相關(guān)研究得到可靠結(jié)論的重要前提。目前,有關(guān)諾貝爾獎獲得者的成果已經(jīng)有開放的數(shù)據(jù)集,具體到院士、長江學(xué)者以及杰青等我國的高層次科研人才尚未見類似的成果,現(xiàn)有研究主要通過人工核驗等方式收集少量樣本數(shù)據(jù)[11-14]。諾貝爾獎獲得者等他山之石雖可攻玉,但以我國的高層次科研人才為對象的研究對國家的人才及團隊的評價、潛在優(yōu)秀人才的發(fā)現(xiàn)和培養(yǎng)、學(xué)科建設(shè)與發(fā)展等方面均會有更直接的價值。因此,有必要構(gòu)建以院士、長江學(xué)者以及杰青等為代表的高層次科研人才學(xué)術(shù)成果的開放數(shù)據(jù)集。
目前,采用機器學(xué)習(xí)、圖模型等的消歧方法在AND 上的表現(xiàn)均沒有達到實用的要求[6],而基于規(guī)則方法具有高效率和高精確率等優(yōu)點;從實用性的角度出發(fā),本研究擬采用基于規(guī)則的方法開展研究工作。擁有較強影響力和知名度的高層次科研人才的履歷、研究方向和學(xué)術(shù)成果等外部數(shù)據(jù)對于提高消歧模型的精確率和召回率有重要作用,且相關(guān)信息易于從網(wǎng)絡(luò)搜集,可以保證本研究的順利開展??紤]到不同類型高層次科研人才的成長性,本研究擬以杰青為例開展研究工作。據(jù)此,本研究擬采用上述外部數(shù)據(jù)并結(jié)合文獻元數(shù)據(jù),采用“先面向精確率,后面向召回率”的逐步優(yōu)化策略,構(gòu)建基于規(guī)則的“兩步法”消歧模型,為解決高層次科研人才的學(xué)術(shù)文獻AND 提供一條可行的路徑。
Ferreira 等[15]提出,一人多名(synonyms)和一名多人(homonyms)是引發(fā)作者名歧義的兩個主要原因。前者多源于拼寫變體或錯誤,隨婚姻、宗教、性別等因素改名以及使用多個筆名等;后者則主要源于少數(shù)姓氏的流行和名字的常見性等[2],在亞洲國家尤為突出,并且,期刊常使用姓氏+名首字母的方式表示作者信息,進一步加劇了一名多人的情況[5]。值得注意的是,隨著我國科研實力和國際地位的提升,我國學(xué)者發(fā)表的外文文獻數(shù)量高速增長,但同音不同字、拼寫不規(guī)范、復(fù)姓、多音字等姓名翻譯問題使得國內(nèi)學(xué)者外文文獻中的姓名存在歧義的程度更為嚴(yán)重[16]。同時,元數(shù)據(jù)缺失或不完整、多作者、多學(xué)科以及跨機構(gòu)的合作等也為AND 帶來了更大的挑戰(zhàn)[2]。目前,常見的AND 系統(tǒng)框架通常包括特征提取、特征表示以及模型訓(xùn)練與預(yù)測等模塊。
(1)特征提取。AND 的特征主要來源于文獻數(shù)據(jù)庫中的元數(shù)據(jù)和外源性數(shù)據(jù)。元數(shù)據(jù)提供了消歧的常用特征,如作者層面的合作關(guān)系、地址以及郵箱等,文獻層面的標(biāo)題、出版物名、摘要以及關(guān)鍵詞等。外源性數(shù)據(jù)包括從科研機構(gòu)、ResearchGate、ORCID 等平臺的個人主頁中提取的成果列表、學(xué)者ID,以及從搜索引擎的檢索結(jié)果中挖掘出的網(wǎng)頁共現(xiàn)關(guān)系等。由于元數(shù)據(jù)不同程度的缺失、個體學(xué)習(xí)或工作單位的變動、跨學(xué)科研究的增多等原因,外部數(shù)據(jù)有助于解決元數(shù)據(jù)特征明顯不同時的合并問題。
(2)特征表示。Huang 等[17]根據(jù)表示模型的數(shù)學(xué)理論基礎(chǔ),將特征表示分為基于集合論、代數(shù)、概率、圖結(jié)構(gòu)以及混合方法等5種。具體到AND,常見的集合論模型方法包括Jaccard 系數(shù)[18]、N-gram[19]、Jaro-Winkler 相似度[20]以及 Hamming 距離[21]等,代數(shù)模 型 方 法 則 包 括 One-Hot 編 碼[22]、 TF-IDF[23]、word2vec[7,24]、doc2vec[25-26]和語義指紋[27]等,概率模型主要使用特征共現(xiàn)的頻率刻畫對象間的關(guān)聯(lián)強度[28-33],圖結(jié)構(gòu)模型常見的有多特征網(wǎng)絡(luò)[34]以及異構(gòu)網(wǎng)絡(luò)[25-26,35],混合模型的主流方法包括成對似然排序[25,36-39]、 DeepWalk[40-41]、 node2vec[42]以 及 圖 卷積[7,26,43]等。
(3)模型訓(xùn)練與預(yù)測。模型訓(xùn)練與預(yù)測模塊將識別待消歧文獻所歸屬的作者實體。Ferreira 等[15]歸納了兩種實現(xiàn)思路,一是分組(grouping),依據(jù)共性特征歸并事先未知的作者實體文獻集;二是指派(assignment),根據(jù)特征相似度將文獻指派給已知的實體,該方法所需人工標(biāo)注工作量較大。現(xiàn)有AND 研究多集中于分組方法,可劃分成基于機器學(xué)習(xí)、基于圖和基于啟發(fā)式規(guī)則三類。
基于機器學(xué)習(xí)的模型在AND 中應(yīng)用廣泛,不過鑒于有監(jiān)督的分類方法存在較多缺陷,如過度依賴標(biāo)注數(shù)據(jù)的規(guī)模和質(zhì)量、訓(xùn)練數(shù)據(jù)分布不均等[44],現(xiàn)有研究中無監(jiān)督的聚類方法更為多見,包括層次聚類[25,36,41-43]、譜聚類[24]、AP 聚類[37]、K-means[45]等。聚類方法的難點在于確定聚類數(shù)或者聚類結(jié)束的條件,多數(shù)研究僅設(shè)定了一個相似度閾值,即當(dāng)簇間距離均低于閾值時停止。部分研究提出了更多的思路,例如,根據(jù)標(biāo)注數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型估計不同數(shù)據(jù)規(guī)模的合適聚類數(shù)[7];在特征網(wǎng)絡(luò)圖中,簇間沒有邊相連則停止聚類[26]等。此外,使用多特征聚類時需要判斷不同特征的重要性,有研究在少量標(biāo)注數(shù)據(jù)中訓(xùn)練邏輯回歸分類器,以確定不同特征的區(qū)分能力[29,46];Xu 等[47]基于每個特征都完成一次聚類,計算F1 值占比賦予權(quán)重。代表性的相關(guān)研究如表1 所示。
表1 基于機器學(xué)習(xí)模型的AND研究
基于圖的模型依據(jù)路徑識別同一作者實體,具體采用的判斷條件包括有效路徑強度之和高于閾值[35]、最短路徑的距離低于閾值[50]等。此外,采用連通分量方法將有邊相連的節(jié)點歸并成同一類的思路對網(wǎng)絡(luò)圖的構(gòu)建提出了更高的要求,文獻[19,51]結(jié)合了機器學(xué)習(xí)方法用于決定網(wǎng)絡(luò)中邊的連接。代表性的相關(guān)研究如表2 所示。
基于規(guī)則的模型相較于時間復(fù)雜度高的機器學(xué)習(xí)和圖模型,擁有高效準(zhǔn)確的優(yōu)勢。該模型的關(guān)鍵在于確定處理順序的優(yōu)先級以及合理的特征組合。例如,劉林[52]認(rèn)為同一作者實體在不同機構(gòu)的發(fā)文時間窗應(yīng)該不同。Hazra 等[53]則認(rèn)為不同機構(gòu)的同一實體,其研究高峰年以及活躍區(qū)間可以相似,即存在研究者同時就職于多個單位的情況。Sun 等[54]認(rèn)為在細(xì)分領(lǐng)域下作者重名的可能性很小,使用兩次聚類細(xì)化研究領(lǐng)域的描述,將其作為區(qū)分不同作者的主要依據(jù)。Cota 等[55]基于合作者姓名、論文題名以及期刊名提出了兩步法消歧策略,第一步通過合著者將同名作者進行鏈接并據(jù)此聚類,第二步通過論文題名以及期刊名的相似度迭代歸并第一步中生成的聚簇。Schulz 等[56]基于合作者、參考文獻以及被引文獻的相似度提出了三步法消歧策略。第一步,相似度超過閾值的作者生成作者對簇;第二步,基于聚簇的相似度對第一步生成的作者對簇進行歸并;第三步,歸并獨著作者。Backes[29]的模型首先計算了論文題名、摘要以及作者機構(gòu)等特征的相似度,其次根據(jù)TF-IDF 的思想對特征進行加權(quán),最后歸并得分高于閾值的作者。Caron 等[57]提出的消歧模型計算了各特征的相似度,并根據(jù)特征對消歧的重要性進行賦權(quán),并將超過閾值的作者進行歸并。代表性的相關(guān)研究如表3 所示。
學(xué)界圍繞AND 已積累了較為豐富的研究成果,現(xiàn)有研究主要涉及特定學(xué)科、綜合學(xué)科以及特定機構(gòu)的學(xué)者,較少有研究針對高層次科研人才這一特定群體。相關(guān)實證研究顯示,外源性數(shù)據(jù)在面向所有類型學(xué)者的姓名消歧時作用有限[23,34],主要原因在于采集難度大[52]、數(shù)據(jù)缺失嚴(yán)重[45],同時可靠性也難以保證[19]。鑒于高層次科研人才辨識度比較高的優(yōu)勢,其AND 研究中所需的相關(guān)外源性數(shù)據(jù)更易于獲得,且更加全面、可靠,在消歧中能夠發(fā)揮更重要的作用。由表1 可見,基于機器學(xué)習(xí)的AND研究的F1 多在0.7 以下,新近的一項較優(yōu)的研究[49]也僅0.78;表2 顯示的結(jié)果讓人欣喜,比如,其中一項研究[35]的F1 達到了0.96,不過,閱讀該項工作的實驗數(shù)據(jù)描述表發(fā)現(xiàn),作者為“李強”的文獻量僅為44,與萬方數(shù)據(jù)的實際檢索結(jié)果有較大差距,提示該數(shù)據(jù)應(yīng)是在受限語境下的檢索結(jié)果,因此,該項工作在非受限的場景下是否依然有如此優(yōu)異的表現(xiàn)尚需要進一步研究的證實。表3 提示,基于規(guī)則的F1 多優(yōu)于基于機器學(xué)習(xí),其中一項工作的F1達到了接近實用要求的0.90。
表2 基于圖模型的AND研究
表3 基于規(guī)則的AND研究
綜上,鑒于基于機器學(xué)習(xí)算法AND 研究的F1值普遍難以滿足應(yīng)用需要的現(xiàn)狀,以及科學(xué)計量與人才評價等研究對數(shù)據(jù)質(zhì)量的高要求,本研究擬充分發(fā)揮基于規(guī)則模型在精確率方面的優(yōu)勢。目前,基于規(guī)則的現(xiàn)有實證研究多基于計算機、物理或醫(yī)學(xué)等單一領(lǐng)域的數(shù)據(jù)庫,而應(yīng)用于大型綜合數(shù)據(jù)集(如Web of Science)時表現(xiàn)難以保證,并且華人學(xué)者外文文獻消歧的相關(guān)研究較少。由于Web of Sci‐ence(WoS)等綜合性數(shù)據(jù)庫姓名歧義程度大幅提高的現(xiàn)狀,如基于合著關(guān)系的消歧策略的有效性難以充分彰顯[18,36]等,本研究擬采用多特征融合的策略首先面向精確率展開研究工作。同時,針對基于規(guī)則的方法在召回率上表現(xiàn)欠佳的問題,如針對跨學(xué)科研究、單位變動等引發(fā)的姓名歧義問題,本研究擬綜合采用現(xiàn)有研究中廣泛使用的基于元數(shù)據(jù)的多特征組合方法,并結(jié)合外源性數(shù)據(jù)以提高模型的召回率,建構(gòu)“先面向精確率,后面向召回率”的“兩步法”消歧模型。
目前,基于規(guī)則的AND 研究中存在一步法(Backes[29]、 Caron 等[57])、 兩 步 法 (Cota 等[55]) 以及三步法(Schulz 等[56])等不同的策略。其中,一步法難以同時滿足AND 對高精確率與召回率的要求,雖然 Caron 等[57]研究中的 F1 高于 Schulz 等[56],宜考慮是后者采用的特征集較小所致;而兩步法以及三步法提供的柔性機制更符合AND 的需要,能更好地兼顧精確率與召回率。需要說明的是,Schulz 等[56]雖比Cota 等[55]增加了獨著作者的消歧環(huán)節(jié),不過該環(huán)節(jié)也可在第一和第二步完成,并非必需。就精確率以及召回率兩個指標(biāo)而言,未消歧數(shù)據(jù)集的召回率可達100%,因此召回率在AND 研究中非首選目標(biāo);這樣,精確率必然成為AND 研究的首要著眼點,即在保證高精確率的前提下兼顧召回率,也就自然地形成了本研究的兩步法消歧模型。
據(jù)此,本研究提出的方法總體思路如圖1 所示。第一步,面向精確率。①本研究首先根據(jù)履歷信息排除與目標(biāo)作者經(jīng)歷不同的學(xué)者,降低待消歧文獻量;②利用郵箱、基金號、合著關(guān)系、出版物名和所屬學(xué)科類別等特征,對同一機構(gòu)內(nèi)的重名作者消歧;③將相關(guān)聯(lián)的文獻劃分成不同實體的文獻集;④為了從重名的不同實體中識別出目標(biāo)作者文獻集,進一步引入基金名、外部數(shù)據(jù)中的代表作和研究方向特征進行優(yōu)化。
圖1 高層次科研人才兩步法姓名消歧模型
第二步,面向召回率。本研究依據(jù)第一步已確認(rèn)作者身份的文獻集,對誤檢漏檢的文獻做進一步處理。①郵箱可以快速準(zhǔn)確地識別出同一作者的文獻;②與初步擴充的文獻集進行比對,采用合著關(guān)系、地址、基金號等元數(shù)據(jù)特征,以及履歷機構(gòu)、研究方向等外部特征的合理組合進行判斷;③形成目標(biāo)作者的完整消歧文獻集。
3.2.1 文獻數(shù)據(jù)庫
根據(jù)作者名對文獻數(shù)據(jù)進行分區(qū)(blocking)通常是消歧的第一步,旨在降低后續(xù)消歧任務(wù)的復(fù)雜度以及非同名數(shù)據(jù)的干擾,現(xiàn)有研究多采用姓全拼+名首字母(last name-first initial,LNFI)的方式進行劃分。對華人學(xué)者的外文文獻進行消歧時,需要注意的是,WoS 數(shù)據(jù)庫自2006 年11 月開始提供作者姓氏+名全拼(last name-first name,LNFN)的信息[58],即數(shù)據(jù)集中存在LNFI 和LNFN 格式并存的現(xiàn)象。根據(jù)作者名是否完整可以將數(shù)據(jù)集分成LNFN 數(shù)據(jù)集與LNFI 數(shù)據(jù)集,即可以從LNFN 數(shù)據(jù)集中直接剔除縮寫一致但全拼不一致的數(shù)據(jù)。為避免不同拼寫形式導(dǎo)致的誤刪,本研究保留了先姓后名、先名后姓以及包含常用連字符的拼寫變體。經(jīng)預(yù)處理后,原始文獻數(shù)據(jù)集被一拆為三:第一部分,姓名全拼和目標(biāo)作者姓名相同的數(shù)據(jù)集Dfull,用于消歧的第一階段以保證精確率,并在第二階段進行二次判斷;第二部分,僅提供了姓名縮寫的數(shù)據(jù)集Dabbr,用于第二階段以提高召回率;第三部分,姓名全拼和目標(biāo)作者姓名不一致的數(shù)據(jù)集Ddiff,可直接剔除。另外,Ddiff可用于識別Dabbr中與Ddiff為同一作者的數(shù)據(jù)Ddiff_rel,在第二階段中將Ddiff_rel數(shù)據(jù)也直接剔除。
3.2.2 外源性數(shù)據(jù)
百度百科是目前最大的中文網(wǎng)絡(luò)百科全書,截止到2021 年2 月,已收錄22791094 個詞條[59]。得益于百度百科詞條的質(zhì)量保障機制,如關(guān)鍵信息需要權(quán)威參考資料支持,多主體的編輯、審核與完善團隊等[60],詞條內(nèi)容的可信度較高,可用于獲取擁有一定學(xué)術(shù)成就的學(xué)者的履歷、代表作和研究方向信息。對于百科詞條這一外源性數(shù)據(jù)的預(yù)處理過程為:
(1)收集并解析百科人物詞條數(shù)據(jù):為避免姓名歧義問題,在爬取詞條時根據(jù)其內(nèi)容是否同時包含依托單位和所獲榮譽進行篩選。
(2)機構(gòu)名提?。夯诼臍v信息提取出學(xué)者學(xué)習(xí)或工作過的機構(gòu)名稱,目前較為成熟的命名實體識別技術(shù)(named entity recognition,NER)可以實現(xiàn)從文本中提取機構(gòu)名,同時輔以自定義的語料庫以達到更高的精確率。本研究采用百度LAC(lexi‐cal analysis of Chinese)中文詞法分析工具對履歷文本進行機構(gòu)實體的識別,并采集我國教育部發(fā)布的國內(nèi)外大學(xué)名單、丁香醫(yī)生網(wǎng)站提供的國內(nèi)醫(yī)院名單生成自定義詞典對模型進行優(yōu)化。未直接采用字典法匹配的原因在于國外大學(xué)名有多種譯法,如加利福尼亞大學(xué)又稱“加州大學(xué)”,字典法不能一一列舉;此外,各研究中心、實驗室、海外醫(yī)院等機構(gòu)名均難以獲得完整的名單。
(3)機構(gòu)名翻譯:面向外文文獻數(shù)據(jù)消歧時,需要將中文履歷中包含的機構(gòu)名翻譯成英文,鑒于現(xiàn)有翻譯軟件的準(zhǔn)確率難以保證,本研究采用從機構(gòu)的百科詞條中獲取其對應(yīng)英文名的方式進行中英文轉(zhuǎn)換。
3.3.1 特征區(qū)分能力
從元數(shù)據(jù)和外部數(shù)據(jù)中提取出的特征,其區(qū)分不同實體的能力不同。其中,郵箱與代表作本身不存在歧義,前者可以準(zhǔn)確歸并同一作者的成果,后者可以識別出目標(biāo)作者的文獻;合著關(guān)系是AND中廣泛使用的特征,有學(xué)者[18,36,50,53]直接將具有共同合著者的文獻歸并為同一作者實體;部分研究利用了機構(gòu)對作者加以區(qū)分[29,39,45],履歷的機構(gòu)信息能夠排除經(jīng)歷不同的學(xué)者,有助于解決人員流動問題,而WoS 提供的地址信息大部分詳細(xì)到二級機構(gòu)及郵編,使得完整地址的相似度以及提取出的郵編也具有較強的消歧作用;資助基金號可以反映同一基金資助的文獻間緊密的關(guān)聯(lián),基金名則可以識別出受特定基金資助的文獻,可用于確認(rèn)作者身份。本研究將上述特征設(shè)定為強特征。
考慮到同一研究領(lǐng)域存在同名作者的可能性較高,本研究將與研究方向相關(guān)的特征設(shè)定為弱特征,包括文獻元數(shù)據(jù)中的標(biāo)題、出版物名以及WoS提供的出版物所屬的二級學(xué)科類別列表;外源性數(shù)據(jù)中的學(xué)者研究方向,可用于排除不同領(lǐng)域的同名學(xué)者。
各特征的區(qū)分能力如表4 所示,除郵箱和代表作外,僅依據(jù)單一特征難以完全消解歧義。本研究擬根據(jù)消歧過程中需解決主要問題的不同,進行強弱特征的合理組合。
表4 各特征區(qū)分不同實體的能力
3.3.2 第一步消歧
1)不同機構(gòu)間的重名消歧
為排除與目標(biāo)作者經(jīng)歷不同的同名作者,本研究采用發(fā)文機構(gòu)與履歷信息中的機構(gòu)進行匹配。為保證后續(xù)處理的準(zhǔn)確性,首先基于Dfull進行篩選,以縮小待消歧文獻量。具體匹配過程中,WoS 提供的地址信息對常用詞進行了一定程度的縮寫,如“univ”“coll”“hosp”分別表示“university”“col‐lege”“hospital”。由于數(shù)據(jù)量龐大,窮舉所有縮寫規(guī)則的可行性很低,不過,WoS 提供了部分文獻一級機構(gòu)的全稱,可用于構(gòu)建機構(gòu)英文名全稱和縮寫的映射表。對于存在全稱的數(shù)據(jù),進行完全匹配;對于全稱缺失的情況,采用編輯距離大于閾值的條件判斷是否為同一機構(gòu)。本研究選取了中位數(shù)、眾數(shù)以及均值等多個閾值進行測試,最終發(fā)現(xiàn)將閾值設(shè)定為機構(gòu)名全稱和縮寫映射表中編輯距離的均值(0.783),可以保證第一步所得結(jié)果的高精確率。
2)同一機構(gòu)內(nèi)的重名消歧
考慮到從履歷中提取的是一級機構(gòu),僅能和WoS 地址信息中的一級機構(gòu)進行匹配,且華人學(xué)者中廣泛存在的同音不同字現(xiàn)象提高了重名概率,因而,履歷中包含的幾個機構(gòu)內(nèi)的重名問題是消歧需要解決的重點之一。通過郵箱可以準(zhǔn)確地識別出同一作者的文獻,不過,作者郵箱也會隨單位變動而發(fā)生改變,且當(dāng)目標(biāo)不是第一作者或通信作者時數(shù)據(jù)缺失嚴(yán)重。
鑒于上述問題,模型通過強弱特征的組合識別出同一實體,即在合著關(guān)系這一強特征基礎(chǔ)上,為避免可能存在的合著者重名的影響,本研究結(jié)合地址、基金號和研究方向三個特征進行限制;具體地,擁有相同合著者,并且地址、基金號或研究方向三者其一相同的文獻歸并為同一作者實體的成果。
3)消歧結(jié)果優(yōu)化
經(jīng)過上述兩步的處理,每個作者的全拼數(shù)據(jù)集可以劃分出多個不同的同名作者實體文獻集。在此基礎(chǔ)上,需要從中識別出目標(biāo)作者實體,可用于判斷的條件包括:①文獻集是否包含了從百科詞條中收集到的該學(xué)者成果題名;②文獻基金信息中是否含有標(biāo)注了所獲榮譽名的文獻;③在上述特征缺失的情況下,基于同一機構(gòu)中存在相同研究方向的同名作者的概率極低這一消歧研究中常見的假設(shè)[28,54,61],模型根據(jù)文獻內(nèi)容特征與研究方向信息進行判斷,具體采用文獻的題名、出版物名和出版物所屬學(xué)科類別與外部數(shù)據(jù)中目標(biāo)作者的研究方向信息進行文本余弦相似度的計算,其相似度之和最高的文獻集合則為目標(biāo)作者所著,得到的初步消歧結(jié)果記為Dconfirm。
3.3.3 第二步消歧
1)召回數(shù)據(jù)集
為提高模型召回率,消歧模型的第二階段根據(jù)已識別出的文獻集Dconfirm及相關(guān)特征數(shù)據(jù)在Dabbr中進行篩選與增補,同時,鑒于履歷信息存在更新不及時、機構(gòu)識別和翻譯的遺漏和錯誤等,未通過履歷篩選的Dfull同樣需要二次判斷。為了壓縮Dabbr的規(guī)模,本研究首先在Dabbr中剔除與Ddiff存在相同郵箱或基金號的數(shù)據(jù)Ddiff_rel。
最終待消歧數(shù)據(jù)Dremain范圍包括Dfull-Dconfirm以及Dabbr-Ddiff_rel兩個部分。
2)召回算法
首先,依據(jù)已識別數(shù)據(jù)Dconfirm的作者郵箱在Dremain中快速召回同一作者的文獻,并匯總?cè)隓con‐firm。考慮到在縮寫數(shù)據(jù)中,合著者與同名實體合作的概率增加,本研究僅采用標(biāo)注了目標(biāo)作者的郵箱信息作為判據(jù)。
其次,對于郵箱特征缺失的數(shù)據(jù),本研究依據(jù)已識別數(shù)據(jù)Dconfirm采用更多特征組合判斷Dremain剩余文獻的歸屬。使用的強特征包括是否有共同合著者、基金號、完整地址的相似性,以及發(fā)文機構(gòu)是否為履歷中的機構(gòu)等;弱特征涉及出版物名及其所屬學(xué)科領(lǐng)域是否相同,以及標(biāo)題、出版物及所屬領(lǐng)域和外源性數(shù)據(jù)中的研究方向是否相似等。
最后,鑒于大規(guī)模數(shù)據(jù)中華人學(xué)者的外文名存在更高的重名風(fēng)險以及完整地址和基金號等特征的不同程度缺失,為避免存疑單個特征造成的誤檢漏檢,本研究發(fā)現(xiàn)將滿足任意兩個強特征或一強一弱特征作為判斷條件,既沒有降低精確率,同時也提高了召回率。
最終,目標(biāo)作者的消歧文獻集合為Dcomplete。
本研究采用杰青數(shù)據(jù)驗證兩步法模型的有效性。依據(jù)1997—2019 年4107 位杰青的姓名,采集了WoS 數(shù)據(jù)庫收錄的文獻題錄共計5017168 條,其中僅提供縮寫作者名(Dabbr)的數(shù)據(jù)占27%,提供姓名全拼(LNFN)的數(shù)據(jù)集中,與目標(biāo)杰青姓名一致的數(shù)據(jù)(Dfull)占23%,不一致的數(shù)據(jù)(Ddiff)占50%。除作者列表、標(biāo)題、出版物名外,各特征的缺失比例不同,在Dabbr中缺失最為嚴(yán)重(圖2)。
圖2 不同數(shù)據(jù)集中各特征的缺失情況
本節(jié)將對消歧模型中的主要步驟逐步進行評估,并根據(jù)結(jié)果不斷調(diào)整模型以實現(xiàn)最優(yōu)。
(1)依據(jù)履歷機構(gòu)縮小消歧范圍。根據(jù)學(xué)者工作或?qū)W習(xí)過的機構(gòu)信息進行初篩后,篩選結(jié)果中少量學(xué)者的文獻量極低,甚至為零,其主要原因在于:①中文姓名存在多音字以及非常規(guī)筆名的情況,如“單”“仇”“伯”“樂”等字的讀音以及“Rau, P. L. P.”“Chan, R. C. K”“W Hsu”等個性化的筆名,在WoS 中使用姓名檢索文獻時未將上述問題考慮在內(nèi),導(dǎo)致39 人的姓名和機構(gòu)無法匹配;②共有7 名學(xué)者的數(shù)據(jù)中提供姓名全拼的文獻小于5 篇;③部分機構(gòu)的簡寫和全稱差距過大或有多種英譯名,例如,“中國人民解放軍總醫(yī)院”中的People's Liberation Army,其簡寫為“PLA”,“中國氣象科學(xué)研究院”既有“Chinese Academy of Meteo‐rological Sciences”,也有“China Meteorological Ad‐ministration”。對此,更新履歷機構(gòu)信息和全稱簡寫映射表,重新進行機構(gòu)篩選,最終待消歧文獻量從人均2635 篇降至132 篇左右(圖3)。
圖3 履歷機構(gòu)篩選后的待消歧文獻量
(2) 同機構(gòu)內(nèi)不同實體的劃分及目標(biāo)實體識別。采用郵箱、基金號以及合著關(guān)系輔以研究方向的判斷條件可以較為準(zhǔn)確地劃分同名的不同實體。這一過程中,有73%的杰青其確認(rèn)的文獻量約占機構(gòu)篩選后文獻量的70%。
(3)基于初步篩選結(jié)果進一步增補。鑒于初步篩選后的數(shù)據(jù)較為準(zhǔn)確,提供的目標(biāo)作者的郵箱可以準(zhǔn)確快速地補充遺漏文獻,為后續(xù)過程提供更多可依據(jù)的信息;不過郵箱特征缺失嚴(yán)重,對提高召回率的貢獻有限,因而采用多特征組合條件對剩余數(shù)據(jù)進行再次補充。本研究針對的是高層次科研人才,這類學(xué)者為科研事業(yè)做出了較大的貢獻,通常學(xué)術(shù)成果豐碩;本研究結(jié)果統(tǒng)計可得,90%的杰青成果數(shù)大于30 篇,54%的杰青成果數(shù)超過100 篇。需要指出的是,3 個強特征均缺失,即僅有一個作者且無機構(gòu)和基金信息的5 萬余條文獻數(shù)據(jù)無法判斷其所屬的作者實體。
(4)性能評估。Caron 等[57]提出的消歧模型在Tekles 等[62]的AND 比較實驗中表現(xiàn)最優(yōu),本研究將其作為基線方法(簡稱為Caron 法),以驗證本研究模型的消歧性能。除了表4(兩步法,表4 特征集)列出的特征外,Caron 法還采用了引用關(guān)系特征,故本研究將引用關(guān)系特征補充至表4 作為兩步法的另一種實現(xiàn)(兩步法,表4 特征集+引用關(guān)系特征),具體做法借鑒Caron 的權(quán)重思想,將自引、4篇(含)以上的引文耦合和共被引設(shè)置為強特征,4 篇以下的引文耦合和共被引設(shè)置為弱特征,本研究將對3 種方法的性能進行比較。
本研究使用精確率(P)、召回率(R)與調(diào)和平均值(F1)評價消歧模型的性能,通過隨機選取的10 名杰青的文獻數(shù)據(jù)進行人工消歧,可得兩步法(表4 特征集)的模型表現(xiàn),如表5 所示。由表5可以發(fā)現(xiàn),在待消歧規(guī)模以及特征缺失程度不同的情況下,第一步消歧的結(jié)果均能實現(xiàn)近100%的精確率;第二步消歧過程使召回率也得到了較大幅度的提升,達到了0.883,最終的消歧模型的精確率穩(wěn)定在0.991,平均F1 值為0.933。
表5 基于規(guī)則的兩步法(表4特征集)作者名消歧模型表現(xiàn)結(jié)果評估
基線方法與采用兩個不同特征集的兩步法實驗結(jié)果如表6 所示。總體上,兩步法的F1 值均高于Caron 等[57]的方法。整體而言,兩步法(表4 特征集)與Caron 法的召回率差異甚微,從兩者采用的特征來看,前者采用了作者履歷特征,后者采用了引用關(guān)系特征,其他基本相同;而當(dāng)兩步法同時采用了履歷特征+引用關(guān)系特征后,其召回率已明顯優(yōu)于Caron 法。該結(jié)果表明,兩步法采用作者履歷信息+引用關(guān)系特征與其他特征結(jié)合的方式提高了對跨學(xué)科研究、單位變動等作者的識別能力。從精確率來看,Caron 法的表現(xiàn)不夠穩(wěn)定,比如,最低的P值僅為0.335,其原因在于低引文耦合與其他弱特征匹配的得分高于閾值會使非目標(biāo)作者文獻被納入。由此可見,特征的消歧能力與閾值同時影響著模型的性能。Tekles 等[62]的研究給出了不同待消歧文獻數(shù)量下的最佳閾值,但當(dāng)文獻量較少即閾值較低,且同時匹配的弱特征較多時,Caron 法無法準(zhǔn)確識別同一作者的文獻。而兩步法由于需要弱特征和強特征的同時滿足,且補充了引用關(guān)系特征,其精確率較基線方法有很大提升且性能穩(wěn)定。由表6 可見,兩種兩步法實現(xiàn)的F1 值均優(yōu)于Caron 法,從而顯示了兩步法在AND 方面的優(yōu)勢。
表6 基線方法與采用兩個不同特征集的兩步法實驗結(jié)果對比
本研究設(shè)計的兩步法消歧模型符合計算機科學(xué)“自頂向下,逐步精化”以致問題解決的基本原則。第一步面向精確率的消歧包括基于履歷機構(gòu)的初步篩選,以及使用多特征限制的合著關(guān)系進行實體的劃分。不同于現(xiàn)有研究選取的特征集較小,本研究采用多特征組合的條件判斷降低了同名合著者的干擾,保證了劃分不同同名實體的準(zhǔn)確性。不過,難以避免的是過度分裂的問題,例如,難以識別人才流動造成的合著網(wǎng)絡(luò)沒有交集的文獻,對此,引用關(guān)系特征的引入從一定程度上進行了彌補。
第二步面向召回率的消歧旨在依據(jù)高精確度的結(jié)果,使用多特征組合找到更多目標(biāo)作者的文獻,其中若地址信息包含了履歷中的機構(gòu)并且有共同合著者或相同研究方向,則可判斷為該學(xué)者的成果,充分利用了履歷信息。未將這一條件直接應(yīng)用于第一步的原因在于,劃分不同實體是一個“滾雪球”過程,在網(wǎng)絡(luò)中尋找連通分量,若在節(jié)點間建立了錯誤的邊,則會導(dǎo)致大量的錯誤數(shù)據(jù)被導(dǎo)入,進而使后續(xù)操作建立于錯誤的基礎(chǔ)之上。相比之下,在最后補充階段使用強弱特征結(jié)合的條件提高了模型的召回率,同時避免了因極少量數(shù)據(jù)的誤判而引起錯誤的連鎖反應(yīng)。另外,強弱特征的結(jié)合是模型的另一個特點,同名的不同實體多個弱特征相似易帶來錯誤的結(jié)果,該問題可以通過提高閾值來解決,不過,在歧義程度不同的情況下閾值如何設(shè)定仍需進一步研究。
近年來,學(xué)界圍繞AND 仍在持續(xù)不斷地改進原有方法或提出新思路,通過對前人研究成果的梳理發(fā)現(xiàn),研究改進主要集中于特征表示方法和機器學(xué)習(xí)模型。諸多學(xué)者采用了網(wǎng)絡(luò)表示學(xué)習(xí)方法[36-43]將合著網(wǎng)絡(luò)、引文網(wǎng)絡(luò)或者文本相似度網(wǎng)絡(luò)中的特征表示從高維轉(zhuǎn)變?yōu)榈途S向量以便于計算,不過該類方法對AND 性能的提升作用并不明顯,模型精確率最高僅0.8 左右。鑒于這類方法尚不成熟,本研究采用多特征融合的方式避免了單特征本身存在的歧義問題,并利用基于規(guī)則的策略保證了模型的精確率和效率。
另外,機器學(xué)習(xí)模型在AND 中應(yīng)用廣泛,有監(jiān)督的分類算法通過對訓(xùn)練數(shù)據(jù)的學(xué)習(xí),避免了人為地、依靠經(jīng)驗確定不同特征權(quán)重的不足,能夠達到較高的精確率。不過,模型性能很大程度上依賴于學(xué)習(xí)數(shù)據(jù)的質(zhì)量,在缺乏來自各學(xué)科的學(xué)者成果黃金標(biāo)準(zhǔn)數(shù)據(jù)集(golden standard dataset) 的情況下,現(xiàn)有研究的標(biāo)注數(shù)據(jù)多源于ORCID、谷歌學(xué)術(shù)主頁等外部數(shù)據(jù)或人工標(biāo)注的少量數(shù)據(jù),這些收集方法存在數(shù)據(jù)缺失以及耗時費力等缺點,且訓(xùn)練數(shù)據(jù)還存在分布不均的問題,如負(fù)例數(shù)據(jù)量常遠(yuǎn)大于正例,其結(jié)果只是增加了計算量卻沒有顯著提升消歧性能[44]。不依靠訓(xùn)練數(shù)據(jù)的無監(jiān)督聚類算法更為常用,部分學(xué)者對于如何確定聚類數(shù)或停止聚類的閾值條件這一難點做出了有價值的探索,但F1 值僅0.7 左右[7,26],在大量常用名和同音名的華人學(xué)者外文文獻數(shù)據(jù)集中,估計同名的不同實體數(shù)難度更大。此外,聚類算法的時間復(fù)雜度高,不斷增長的文獻數(shù)據(jù)對計算性能提出了越來越高的要求。面向高精確率和高召回率的消歧需求,機器學(xué)習(xí)模型仍難以達到實用的要求。本研究針對高層次科研人才這一已知身份的作者名進行消歧,避免了聚類算法中確定聚類數(shù)的難點,且采用基于規(guī)則的方法能夠大幅度提高處理速度。基于兩步法的多特征融合的規(guī)則模型更重要的優(yōu)勢體現(xiàn)在,在部分特征缺失的情況下可根據(jù)不同的特征組合進行判斷,避免了機器學(xué)習(xí)模型學(xué)習(xí)不充分導(dǎo)致的欠擬合問題。
履歷數(shù)據(jù)在現(xiàn)有AND 研究中受到的關(guān)注較少,在面向所有層次科研人才的消歧研究中,全面收集學(xué)者履歷信息的可行性較低,也有研究[63]僅對某一機構(gòu)內(nèi)的學(xué)者進行消歧,均未能發(fā)揮履歷信息降低待消歧數(shù)據(jù)規(guī)模和識別機構(gòu)變動的作用。有研究[14,64]通過人工收集學(xué)者的履歷信息,保障了信息的完整性和準(zhǔn)確性,但規(guī)模非常有限且不易于推廣應(yīng)用。針對高層次科研人才這一研究價值更高的群體,履歷信息更易于獲得,比如,以本研究的實驗數(shù)據(jù)為例,90%的杰青都可以從百度百科詞條中獲取教育或工作經(jīng)歷信息。需要指出的是,百科人物詞條存在著更新不及時、信息不全面的問題,數(shù)據(jù)質(zhì)量相比于問卷調(diào)查和學(xué)者主頁較差,不過后者大規(guī)模收集的可行性低,而易于爬取、結(jié)構(gòu)相近且便于信息抽取的百科詞條是更為完善的解決方案。
另外,NER 技術(shù)的限制和翻譯不準(zhǔn)確的問題造成了部分機構(gòu)信息的丟失,例如?!癇ascom Palmer眼科研究所”“John Innes 研究中心”等詞典法難以列舉出的機構(gòu)和中英文混雜的寫法,對NER 識別的準(zhǔn)確率有細(xì)微的影響;外文文獻的消歧需要將中文機構(gòu)名進行翻譯,中譯英的多種形式也使得匹配過程中存在誤差。本研究主要通過郵箱、合著者、基金號和研究方向等多特征組合進行判斷,以彌補履歷信息缺失造成的遺漏。
本研究針對高層次科研人才,在已知學(xué)者履歷和研究方向的前提下,建立了一個基于規(guī)則的“兩步法”消歧模型;兩組不同特征集的實驗顯示,模型的F1 值分別達到了0.93 和0.95,較現(xiàn)有研究有較大提升。鑒于百度百科數(shù)據(jù)易于獲取,模型的推廣和易用性也體現(xiàn)了一定的優(yōu)勢,為研究高層次科研人才所需的消歧數(shù)據(jù)提供了可操作性和準(zhǔn)確性兼具的解決方案。
需要指出的是,本研究以杰青作為研究案例,僅僅是因為杰青等高層次科研人才的辨識度比較高,能夠方便地從百度百科等途徑獲得其履歷等相關(guān)信息而已;就原理而言,本研究的模型可以推廣到所有類型科技人才的消歧研究與實踐,待他日其他類型科技人才的履歷便于獲得后即可使用本研究的模型。
另外,本研究也存在一些有待改進之處,包括NER 技術(shù)的查全查準(zhǔn)率、中譯英的翻譯準(zhǔn)確性、摘要關(guān)鍵詞等可以更準(zhǔn)確提供研究方向的特征缺失等,對面向所有學(xué)者消歧研究的借鑒價值尚需進一步探索,AND 任務(wù)的全面解決仍需要科研人員、管理部門以及文獻數(shù)據(jù)庫的共同努力。