侯海東 洪騰龍 徐建良
摘要:針對(duì)科研管理部門進(jìn)行SCI論文統(tǒng)計(jì)時(shí)依賴人工判斷識(shí)別作者、工作繁重且容易出錯(cuò)等問(wèn)題,通過(guò)深入分析SCI論文文獻(xiàn)特征,設(shè)計(jì)一種利用論文作者姓名和署名單位進(jìn)行作者自動(dòng)識(shí)別的方法?;谥袊?guó)海洋大學(xué)2012-2016年發(fā)表的SCI論文數(shù)據(jù)進(jìn)行實(shí)驗(yàn)和結(jié)果分析,針對(duì)作者識(shí)別過(guò)程中出現(xiàn)的作者重名問(wèn)題,利用字符串模糊匹配和作者間合著關(guān)系對(duì)識(shí)別方法進(jìn)行改進(jìn),再通過(guò)實(shí)驗(yàn)對(duì)比改進(jìn)前后的作者識(shí)別結(jié)果,評(píng)估改進(jìn)方法。實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法取得了比較理想的效果,達(dá)到了更高的識(shí)別精度。
關(guān)鍵詞:作者識(shí)別;重名消歧;合著關(guān)系;模糊匹配
DOIDOI:10.11907/rjdk.w173297
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):1672-7800(2018)008-0057-04
英文摘要Abstract:Author recognition in the statistics of papers indexed by SCI is done in the mannual way and in order to solve the problem of heavy and error-prone work in the process of manual author identification,we analyzed the document characteristics of papers indexed by SCI and designed a method which uses the authors' names and institutions to recognize authors automatically.Based on the SCI papers published by Ocean University of China from 2012 to 2016,we carried out the experiment and analyzed the results.Because the homonym problem that different persons share the same name occurred in the course of automatic author identification,the string fuzzy matching and author's co-authorship networks were applied to improve the recognition method.This study evaluates the improved method by comparing the results before and after improvement by experiment.The experimental results show that the improved method achieves better results and higher accuracy rate.
英文關(guān)鍵詞Key Words:author recognition;name disambiguation;co-authorship network;fuzzy matching
0 引言
近年來(lái),我國(guó)高校越來(lái)越重視師生和科研人員學(xué)術(shù)論文被SCI收錄的情況[1-3],同時(shí)也積極推進(jìn)各自機(jī)構(gòu)知識(shí)庫(kù)等學(xué)術(shù)成果管理系統(tǒng)的建設(shè)和實(shí)踐[4-5]。目前,科研管理機(jī)構(gòu)在對(duì)SCI論文信息進(jìn)行收集和統(tǒng)計(jì)的過(guò)程中,通常采用兩種方式:由作者自行提交論文信息,科研管理部門審核后匯總;由科研管理部門收集整理論文信息,交由作者確認(rèn)后匯總。但是,科研管理部門在進(jìn)行SCI論文統(tǒng)計(jì)時(shí),對(duì)論文作者的識(shí)別很大程度上依賴人工逐一判斷確認(rèn),工作量大、工作枯燥且容易出錯(cuò)。尤其中文作者拼音寫法具有多樣性,易出現(xiàn)重名、引發(fā)混淆,從而導(dǎo)致科研管理部門獲取了大批SCI論文數(shù)據(jù)卻無(wú)法快速、準(zhǔn)確地找出論文實(shí)際作者的問(wèn)題。因此,設(shè)計(jì)一種能夠自動(dòng)識(shí)別論文作者的方法顯得尤為重要。
作者身份識(shí)別技術(shù)廣泛應(yīng)用于文學(xué)作品、網(wǎng)絡(luò)評(píng)論的作者身份鑒別,近年來(lái)成為國(guó)內(nèi)外學(xué)者研究和關(guān)注的熱點(diǎn)[6-8]??梢圆捎靡宰髡邽闃?biāo)志的文本分類算法實(shí)現(xiàn)作者身份識(shí)別,即從文本中提取代表作者風(fēng)格的識(shí)別特征,在評(píng)估不同文本風(fēng)格特征相似度的基礎(chǔ)上,綜合各項(xiàng)特征參數(shù)比較結(jié)果,識(shí)別作者身份[9]。目前采用此種方法進(jìn)行作者身份識(shí)別的研究較多。如郭舒[10]選擇文獻(xiàn)信息中的文獻(xiàn)標(biāo)題、合作者和出版物名稱作為特征集合,進(jìn)行文本聚類實(shí)現(xiàn)作者身份消歧。另一種解決作者身份識(shí)別問(wèn)題的方法采用文獻(xiàn)特征中作者姓名和署名單位等信息,與已有的作者信息匹配進(jìn)行作者識(shí)別。劉巍等[11]通過(guò)采集作者的別名、所在機(jī)構(gòu)以及任職時(shí)間等數(shù)據(jù)信息,根據(jù)從知識(shí)作品中提取的作者署名、機(jī)構(gòu)名稱、發(fā)表年限等信息進(jìn)行匹配,但在識(shí)別過(guò)程中沒(méi)有處理作者重名的情況;于健等[12]設(shè)計(jì)的SCI論文作者甄別軟件利用作者單位的地址字段提取該機(jī)構(gòu)作者,并根據(jù)作者全、簡(jiǎn)稱字段與機(jī)構(gòu)人員名單中的全、簡(jiǎn)稱形式完成作者匹配,對(duì)于存在重名現(xiàn)象的作者采用作者自己輸入自定義唯一關(guān)鍵詞或合作者的方法實(shí)現(xiàn)識(shí)別區(qū)分。
針對(duì)科研管理系統(tǒng)在統(tǒng)計(jì)論文時(shí)存在的問(wèn)題,本文在深入分析和挖掘論文文獻(xiàn)信息的基礎(chǔ)上,初步設(shè)計(jì)一種利用文獻(xiàn)中作者姓名和署名單位等信息進(jìn)行作者識(shí)別的方法,并通過(guò)實(shí)驗(yàn)對(duì)方法的有效性進(jìn)行評(píng)估。對(duì)于在作者識(shí)別過(guò)程中發(fā)現(xiàn)的作者署名單位標(biāo)注不規(guī)范和因署名方式相同導(dǎo)致作者重名的問(wèn)題,提出利用字符串模糊匹配方法和基于合著關(guān)系的作者消歧方法對(duì)程序加以改進(jìn),達(dá)到了94.82%的查準(zhǔn)率。
1 論文作者自動(dòng)識(shí)別方法初步設(shè)計(jì)
1.1 論文作者身份識(shí)別流程
論文作者身份識(shí)別的關(guān)鍵問(wèn)題是通過(guò)提取論文文獻(xiàn)中作者姓名和所屬單位名稱等信息,與已有的作者信息進(jìn)行匹配來(lái)識(shí)別作者身份。
論文作者身份識(shí)別過(guò)程主要分為兩個(gè)階段:預(yù)處理階段和識(shí)別作者階段,如圖1所示。
(1) 預(yù)處理階段。從論文文獻(xiàn)信息中提取待識(shí)別作者的元數(shù)據(jù),包括作者姓名、所在單位、論文發(fā)表時(shí)間等信息,提取信息所需字段及說(shuō)明,如表1所示。
(2)識(shí)別作者階段。根據(jù)提取的待識(shí)別信息,包括作者姓名、所在單位、論文發(fā)表時(shí)間,與數(shù)據(jù)庫(kù)中已有的專家姓名、所在部門、任職時(shí)間等信息進(jìn)行匹配,查找候選作者。待識(shí)別作者的查找流程如圖2所示。
在預(yù)處理階段需要提取作者的姓名和所在單位,能否準(zhǔn)確提取這兩種信息直接影響作者識(shí)別的準(zhǔn)確率。
1.2 作者姓名與所屬單位提取方法
1.2.1 作者姓名提取方法
SCI論文的中文作者的姓名寫法具有多樣性[13],可能是姓氏在前名字在后,也可能是名字在前姓氏在后,同時(shí)名字還有可能是縮寫形式,比如“Song HuiQiao”、“HuiQiao Song”、“Song H.Q.”等。但數(shù)據(jù)庫(kù)中存儲(chǔ)的專家姓名格式為姓名拼音全稱、姓名拼音簡(jiǎn)寫(姓氏全拼+逗號(hào)+名字所有單字首字母),因此為了后續(xù)姓名匹配方便,需要在提取論文作者姓名的過(guò)程中將作者姓名按數(shù)據(jù)庫(kù)中相應(yīng)的格式規(guī)范化。作者姓名提取方法如圖3所示。
1.2.2 作者單位提取方法
作者單位信息是論文作者署名的必要組成部分,在文獻(xiàn)檢索、信息傳遞等方面起到了重要作用[14]。SCI論文中作者署名單位信息通常包括單位名稱、所在地名稱、郵政編碼、省份名稱、國(guó)別。在單位名稱中,作者通常會(huì)標(biāo)注自己所在部門。因此對(duì)于本單位的下屬部門,可以整理其常見(jiàn)的名稱寫法,根據(jù)這些部門名稱在作者署名單位信息中進(jìn)行匹配。如果該部門名稱出現(xiàn)在作者的署名單位信息里,則提取為該作者的所屬單位。
1.3 實(shí)驗(yàn)評(píng)估
本文選取中國(guó)海洋大學(xué)2012-2016年發(fā)表的SCI論文,共7 381篇作為測(cè)試數(shù)據(jù),通過(guò)與人工識(shí)別數(shù)據(jù)進(jìn)行比較,計(jì)算論文作者識(shí)別的查準(zhǔn)率、查全率和F1值,分析該論文作者識(shí)別方法的有效性。全部論文的作者總?cè)藬?shù)為39 173人,使用本方法進(jìn)行作者識(shí)別后,正確識(shí)別的作者38 143人,未找到的校內(nèi)作者有1 030人,與實(shí)際作者重名但未分辨出的作者4 592人。經(jīng)過(guò)計(jì)算,論文作者識(shí)別的查準(zhǔn)率為89.25%,查全率為97.37%,F(xiàn)1值為9314%。
對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,得出以下結(jié)論:
(1) 論文作者識(shí)別的查全率主要依賴于人員單位信息的準(zhǔn)確性,數(shù)據(jù)庫(kù)中人員信息缺失導(dǎo)致部分校內(nèi)作者未找到。對(duì)于人員信息缺失而導(dǎo)致未找到的校內(nèi)作者,添加該作者的人員信息后即可識(shí)別該作者。
(2)識(shí)別結(jié)果中存在的作者重名現(xiàn)象影響查準(zhǔn)率。由于作者姓名拼寫形式相同,導(dǎo)致識(shí)別結(jié)果存在不少重名作者的現(xiàn)象。而且部分作者在標(biāo)注自己的署名單位時(shí)存在不規(guī)范的情況,使用的單位名稱不是常用名稱或者拼寫錯(cuò)誤。這樣采用字符串精確匹配無(wú)法提取作者署名單位,從而只能在全校范圍內(nèi)查找該作者,增加了作者重名數(shù)量。因此下一步需要針對(duì)這兩個(gè)問(wèn)題改進(jìn)作者識(shí)別方法。
2 論文作者自動(dòng)識(shí)別方法后續(xù)改進(jìn)
2.1 基于模糊匹配的作者單位提取方法
由于論文文獻(xiàn)信息中作者單位標(biāo)注不夠統(tǒng)一和規(guī)范,同一個(gè)單位或部門往往有幾種不同的標(biāo)注形式,因此提取作者所屬單位信息時(shí),適合采用粗粒度的模糊匹配算法。
從實(shí)驗(yàn)結(jié)果來(lái)看,采用模糊匹配算法對(duì)作者單位提取方法進(jìn)行改進(jìn)后,重名作者數(shù)量減少,作者查準(zhǔn)率提高,主要原因在于利用模糊匹配方法提取作者所在單位后,縮小了作者查找范圍,降低了重名現(xiàn)象發(fā)生的概率。
2.2 基于合著關(guān)系的重名作者消歧
合作者關(guān)系是眾多文獻(xiàn)特征元素中最具辨識(shí)度的特征元素之一[16],因此可以利用作者間的合著關(guān)系消歧重名作者。作者合著網(wǎng)絡(luò)是以作者為節(jié)點(diǎn)、以作者間合著關(guān)系為鏈接而形成的網(wǎng)絡(luò)。利用合著關(guān)系進(jìn)行消歧的基本思路是:通過(guò)合著關(guān)系構(gòu)建作者的關(guān)聯(lián)網(wǎng)絡(luò),然后計(jì)算重名作者的合著者集合與論文作者集合的Jaccard相似度[17-18],來(lái)消歧重名作者。基于合著關(guān)系的重名作者消歧方法如圖4所示。
利用中國(guó)海洋大學(xué)歷年人工標(biāo)注作者姓名的SCI論文數(shù)據(jù),采用上述方法挖掘、構(gòu)建作者合著網(wǎng)絡(luò)。在使用模糊匹配方法對(duì)程序改進(jìn)的基礎(chǔ)上,利用作者合著關(guān)系對(duì)重名作者進(jìn)行消歧后,實(shí)驗(yàn)對(duì)比結(jié)果如表3所示。
從實(shí)驗(yàn)結(jié)果來(lái)看,采用作者合著關(guān)系進(jìn)行消歧后,重名作者數(shù)量減少了一半,達(dá)到了94.82%的查準(zhǔn)率。
3 結(jié)語(yǔ)
本文設(shè)計(jì)了一種通過(guò)作者姓名和所在單位實(shí)現(xiàn)SCI論文作者自動(dòng)識(shí)別的方法。針對(duì)識(shí)別過(guò)程中重名作者較多的問(wèn)題,提出利用模糊匹配方法和作者合著關(guān)系對(duì)程序進(jìn)行改進(jìn),效果比較理想,可提高科研論文管理效率。這種方法也可直接應(yīng)用于與WOS文獻(xiàn)數(shù)據(jù)字段格式相同的其它數(shù)據(jù)庫(kù),同時(shí)其設(shè)計(jì)思想也適用于EI等其它數(shù)據(jù)庫(kù)。
目前,對(duì)于論文作者識(shí)別結(jié)果的確認(rèn)和重名作者的處理,還沒(méi)有一個(gè)完善的人工干預(yù)系統(tǒng)。因此在下一步的工作中可以考慮加入論文認(rèn)領(lǐng)服務(wù)機(jī)制,以實(shí)現(xiàn)作者和論文的準(zhǔn)確關(guān)聯(lián)。
參考文獻(xiàn):
[1] 魏曉,劉洋.東北大學(xué)2006—2015年SCI論文統(tǒng)計(jì)分析[J].圖書情報(bào)導(dǎo)刊,2016,1(12):138-142.
[2] 杜春芳.SCIE收錄科技論文統(tǒng)計(jì)分析——以河南科技大學(xué)為例[J].內(nèi)蒙古科技與經(jīng)濟(jì),2016(10):60-62.
[3] 周環(huán),蘇莉娜.基于Web of Science的河北大學(xué)科研論文統(tǒng)計(jì)分析[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2015,25(1):130-133.
[4] 朱立祿,宋世俊,王琳.國(guó)內(nèi)外機(jī)構(gòu)知識(shí)庫(kù)建設(shè)現(xiàn)狀及建議[J].現(xiàn)代情報(bào),2017,37(3):109-115.
[5] 姚曉霞,聶華,顧立平,等.我國(guó)教育科研機(jī)構(gòu)知識(shí)庫(kù)建設(shè)現(xiàn)狀調(diào)查與分析[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(5):1-9.
[6] 祁瑞華,霍躍紅,胡潤(rùn)波.文本作者身份識(shí)別研究綜述[J].圖書情報(bào)工作,2015(16):143-148.
[7] GAMON M.Linguistic correlates of style:authorship classification with deep linguistic analysis features[C].International Conference on Computational Linguistics,2004:611.
[8] FAN M,QIAN T,CHEN L,et al.Authorship attribution with very few labeled data:a co-training approach[C]Macau:International Conference on Web-Age Information Managemen,2014.
[9] 李曉軍,劉懷亮,杜坤.一種基于復(fù)雜網(wǎng)絡(luò)模型的作者身份識(shí)別方法[J].圖書情報(bào)工作,2015,59(18):102-107.
[10] 郭舒.文獻(xiàn)數(shù)據(jù)庫(kù)中作者名消歧算法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,29(7):69-74.
[11] 劉巍,祝忠明,張旺強(qiáng),等.機(jī)構(gòu)知識(shí)庫(kù)中作者標(biāo)識(shí)與作品認(rèn)領(lǐng)機(jī)制的研究與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(3):8-13.
[12] 于健,吳霞,趙春梅.SCI論文作者甄別軟件設(shè)計(jì)及應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(4):78-84.
[13] 姚戈,王淑華.科技期刊著者姓名規(guī)范控制及身份識(shí)別分析和探討[J].中國(guó)科技期刊研究,2015,26(1):41-46.
[14] 王萬(wàn)紅.科技期刊作者單位英文信息的標(biāo)注分析[J].中國(guó)科技期刊研究,2010,21(5):721-723.
[15] 何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗(yàn)技術(shù)研究與應(yīng)用[J].飛行器測(cè)控學(xué)報(bào),2015,34(4):389-394.
[16] 朱云霞.中文文獻(xiàn)題錄數(shù)據(jù)作者重名消解問(wèn)題研究[J].圖書情報(bào)工作,2014,58(23):143-148.
[17] 王婭茜.基于節(jié)點(diǎn)相似度的網(wǎng)絡(luò)社團(tuán)挖掘研究[D].成都:電子科技大學(xué),2015.
[18] 姜雅文,賈彩燕,于劍.基于節(jié)點(diǎn)相似度的網(wǎng)絡(luò)社團(tuán)檢測(cè)算法研究[J].計(jì)算機(jī)科學(xué),2011,38(7):185-189.
(責(zé)任編輯:江 艷)