提高引文分析中作者信息有效性的方法研究

2016-05-13 11:54陳麗群沈彥君

圖書館界 2016年2期

陳麗群+沈彥君

[摘要]針對引文評價中存在作者信息有效性的問題，分析了造成引文中作者信息統(tǒng)計混淆的原因和消除混淆的方法，提出了根治作者信息統(tǒng)計混淆的方法，從而實現(xiàn)作者信息與引文信息的一一對應。

[關(guān)鍵詞]作者信息；混淆；作者標識符；ORCID；引文分析

[中圖分類號]G250.252[文獻標志碼]B[文章編號]1005-6041（2016）02-0064-04

近年來，引文評價越來越為我國大學、科研院所及評價機構(gòu)所重視，但是有關(guān)引文評價的有效性的質(zhì)疑一直沒有停止過。目前，科學界對引文的認識還存在不少誤區(qū)，不少科研人員和研究機構(gòu)將引文評價等同于論文作者的學術(shù)水平評價，將被引頻次的多寡和發(fā)表期刊影響因子的高低等同于論文質(zhì)量的好壞。其實，引文評價是有關(guān)作者及其論文的影響力大小的評價，質(zhì)量高低和影響力的大小是兩個不同的概念。尤其應引起重視的是，在引文信息統(tǒng)計中如何提高作者統(tǒng)計信息的唯一性、有效性和完整性，只有消除不同作者信息的混淆，避免同一作者信息的遺漏，才能提高引文評價和分析的準確性、有效性和可靠性。

1引文評價中存在作者信息有效性的問題

引文評價始于1927年，Gross夫婦通過引文對化學專業(yè)期刊進行排行[1]。1971年Zunde認為引文分析有三個主要的應用領(lǐng)域：1）科學家、科學出版物和科學機構(gòu)的定性和定量評價；2）探究科學技術(shù)的發(fā)展歷史；3）文獻的查找和檢索[2]。

在引文分析應用于作者評價時，人們總期望作者信息能夠達到唯一，從而準確地獲得引文分析的結(jié)果，但在數(shù)據(jù)庫的實際引文檢索和分析評價中，由于存在引文作者信息的有效性問題，通常會遇到作者信息因異人同名、同人異名，以及異名同構(gòu)（英文的全稱、縮寫，姓與名的書寫順序）等信息混淆問題，引起引文作者歸屬的歧義、混淆，有時遺漏作者應有的信息，有時加進了其他作者的信息，甚至產(chǎn)生錯誤的信息，從而導致引文分析結(jié)果的誤差。

這樣，不僅對文獻檢索、Web檢索和數(shù)據(jù)庫整合等造成影響，而且對引文分析的結(jié)果也會產(chǎn)生麻煩，影響引文計量中論文被引頻次統(tǒng)計、作者排名結(jié)果、作者h指數(shù)測定和同被引圖譜輸出等的準確性和有效性。

2造成引文中作者信息統(tǒng)計混淆的原因

2.1 引文中作者姓名的構(gòu)成

目前國際上主要的引文著錄規(guī)范有：

（1）溫哥華體例（Vancouver Style），也叫“作者—數(shù)字體例”（Author-Number Style）。它通常用于醫(yī)學和科學期刊，目前國際上已有500多家醫(yī)學期刊采用[3]。我國的引文著錄標準——《文后參考文獻著錄規(guī)則》（GB/T 7714-2005），也參照該體例。

（2）哈佛體例（Harvard Style），也叫“作者—日期體例”（Author-Date Style）。它主要應用于人類學、商業(yè)、經(jīng)濟和社會政治等社會科學，也用于建筑學、計算機、數(shù)學、衛(wèi)生保健和戲劇等科學和人文學科[4]。

（3）牛津體例（Oxford Style），也叫“文獻—注釋體例”（Documentary-Note Style）。它采用腳注、尾注或頁邊注的形式，多用于人文學科[5]。

這些國際上的引文著錄規(guī)范，均強調(diào)引文信息著錄的一致性。在引文著錄時，要求作者姓名采用“姓全稱+名首字母”的方式。這種方式會引起識別、檢索統(tǒng)計的困難，產(chǎn)生異人同名和異名同構(gòu)等問題。

2.2 數(shù)據(jù)庫中引文作者誤檢和漏檢的原因

2.2.1 作者信息中的異人同名。在現(xiàn)實中異人同名現(xiàn)象相當普遍。據(jù)美國人口普查局統(tǒng)計，1億個人只用了9萬個不同的名字[6]，表明了在美國存在異人同名現(xiàn)象的普遍性。在國內(nèi)，作者名字的異人同名現(xiàn)象也相當普遍，例如：截至2012年3月12日，在CNKI中檢索作者“陳建”，檢中結(jié)果為652條，涉及論文4 455篇，其中有被引頻次的就有324人，涉及論文1 323篇；有的甚至發(fā)生在同一個單位里，例如作者“陳益君”這個名字，僅浙江大學就有三人。他們的論文被引用，在引文分析時會出現(xiàn)誤檢。

2.2.2 作者信息中的同人異名。作者在發(fā)表論文時，有時還會采用別名、筆名，有時甚至會出現(xiàn)印刷的錯誤。例如：作者“葉鷹”，就曾用“葉福翔”發(fā)表過多篇有關(guān)哲學方面的學術(shù)論文。又如：在《圖書與情報》1998年第4期上發(fā)表的“期刊是否都要精裝入藏”一文的作者“粟慧”就錯誤地印刷成“栗慧”，在相關(guān)的數(shù)據(jù)庫檢索中作者信息也就呈現(xiàn)為“栗慧”。他們的論文被引用，在引文分析時會出現(xiàn)漏檢。

2.2.3 引文著錄規(guī)范產(chǎn)生作者新的異人同名和異名同構(gòu)。由于國外的引文著錄規(guī)范均要求作者名字在引文著錄時采用姓全稱+名首字母的方式，這種方式會導致姓相同，名全稱不同，而名的首字母縮寫相同的情形，引起檢索統(tǒng)計新的誤差。例如：如果作者“陳建”在國外發(fā)表論文，引文著錄時采用Chen J或者J Chen，而用“Chen J或者J Chen”拼寫的作者可以是陳靜、陳進、陳健、陳娟等等，這樣就產(chǎn)生了更多的異人同名和異名同構(gòu)。他們的論文被引用，在引文統(tǒng)計分析時無疑會出現(xiàn)更多的誤檢。

3消除作者信息統(tǒng)計混淆的方法研究進展

在引文信息中，由于普遍存在作者異人同名和同人異名現(xiàn)象，勢必會造成引文中作者評價結(jié)果的不準確性。于是在引文著錄規(guī)范得到廣泛遵循的情況下，學術(shù)界針對引文中作者信息統(tǒng)計混淆的問題，從不同的角度進行了研究，通過軟件一定程度上消除了作者信息混淆的問題。

引文中作者信息統(tǒng)計混淆的本質(zhì)在于引文作者的歧義，要消除作者統(tǒng)計混淆的方法就是要解決引文中作者名字的歧義。綜觀現(xiàn)有的學術(shù)研究成果，對引文中消除作者信息統(tǒng)計混淆的研究主要有三條途徑，即無關(guān)聯(lián)信息的作者名字消歧、單關(guān)聯(lián)信息的作者名字消歧和多關(guān)聯(lián)信息的作者名字消歧。

3.1 無關(guān)聯(lián)信息的作者名字消歧

2004年Hong Yoojin等為系統(tǒng)支持作者或出版物名字規(guī)范控制問題，總結(jié)出了三種名字關(guān)聯(lián)的變化，即A變成B、A分成B和C、A和B合并成C[7]。鑒于目前幾乎所有的對引文作者的分析評價都采用姓氏加名的首字母的現(xiàn)狀，Masada、Strotmann等通過人名的全稱來解決引文作者名字的混淆問題，實驗結(jié)果顯示效果很好，尤其是針對中國和韓國的作者[8-9]。

3.2 單關(guān)聯(lián)信息的作者名字消歧

許多與作者相關(guān)聯(lián)的信息，都可以作為引文作者名字消除混淆的判斷依據(jù)。采用單關(guān)聯(lián)信息解決引文中作者名字消除混淆的研究主要集中在基于合作者、Web網(wǎng)頁或主題特征等。On Byung-Won和Kang In-su等通過合作者身份來辨別作者身份[10—11]。Tan Yee Fan通過稀有Web網(wǎng)站上的網(wǎng)頁來消除作者歧義[12]。Song Yang、Pereira和Kai-Hsiang Yang等從主題的角度聚焦于Web頁或科學文獻[13—15]。Jia Zhu利用社會網(wǎng)絡(luò)[16]。這些單關(guān)聯(lián)信息能在一定程度上消除作者名字的混淆問題。

3.3 多關(guān)聯(lián)信息的作者名字消歧

與引文作者相關(guān)聯(lián)的信息很多，包括合作者、篇名、論文主題、出版物名稱、E-mail、作者單位和相關(guān)Web網(wǎng)頁等，因此采用多關(guān)聯(lián)信息進行作者名字消除混淆的研究是最受關(guān)注的。Han Hui等利用合作者名字、篇名和刊名/會議錄名稱等關(guān)聯(lián)信息消除混淆[17—19]。Torvik等對MEDLINE的引文作者依據(jù)篇名、刊名、同被引名字、MESH、語言、作者單位和名字歸屬等關(guān)聯(lián)信息消除混淆[20—22]。McRae-Spencer等通過自引、合作者身份和文獻出處的分析消除混淆[23]。Cota等基于合作者、篇名、出版物名字沿革等關(guān)聯(lián)信息消除書目引文的名字混淆[24—25]。Kai-Hsiang Yang等基于主題關(guān)聯(lián)意味著兩篇引文的研究主題相似，而Web關(guān)聯(lián)意味著在Web頁中共現(xiàn)[26]，來消除混淆。

其實，作者的姓名構(gòu)成是復雜多樣化的，但是同一個單位中研究相同學科領(lǐng)域問題的同名或異名同構(gòu)的作者情況就很少，或者幾乎不存在，尤其是中國作者，如果我們在數(shù)據(jù)庫檢索中采用“姓名+學科+單位地址或籍貫”就能較好地控制異人同名和同人異名引起的信息檢索誤差，但是由于存在作者單位變更的現(xiàn)象以及早先的論文中缺乏作者籍貫信息的情況，還是存在部分難以解決的問題，必須采取其他更為有效的方法加以解決。

4根治作者信息統(tǒng)計混淆的方法

4.1 實現(xiàn)引文作者的一一對應

早在1998年，G.Cleveland就認為：數(shù)字圖書館時代名字的重要性就像傳統(tǒng)圖書館時代的ISBN號一樣[27]，因此要根治引文作者信息統(tǒng)計混淆的問題，必須做到引文作者的一一對應。

美國出版商協(xié)會（AAP）和美國全國研究創(chuàng)新聯(lián)合會（CNRI）在1998年就倡議實施數(shù)字對象唯一標識符（DOI）。經(jīng)過10余年的發(fā)展，目前Elsevier、Blackwell、John Wiley和Springer等國外的大型出版商大多采用它來標識數(shù)字對象，使數(shù)字對象達到一一對應。目前DOI已得到業(yè)界和學術(shù)界的廣泛認同。

在推動DOI普遍應用的同時，致力于唯一性的作者標識符（Author IDentifier，AID）的研究也已得到業(yè)界和學術(shù)界的重視。AID的較早設(shè)想是1999—2000年南非比勒陀利亞大學的Synman等倡議的建立國際標準作者號碼ISAN（International Standard Author Number），并提議每個作者個人身份號碼的長度均為18個字符，即由“作者單位（2B）+作者國別（2B）+作者發(fā)表的語種（3B）+出版年（4B）+ISAN給出的連續(xù)號（6B）+校驗碼（1B）”組成，并在此基礎(chǔ)上建立了ISAN模型，較之傳統(tǒng)的NACO（Name Authority Cooperative Program）模型，作者認為：盡管ISAN模型的實現(xiàn)需要較多的改動，但對名字的標準化是最有效的方法[28—30]。這一設(shè)想得到了Cruz等人的認同，并在2000年提出呼吁：存取控制的實現(xiàn)是1999年Snyman等提議的用ISAN標識每位作者，ISAN可由國家書目規(guī)范內(nèi)機構(gòu)給予維護，每個國家規(guī)范機構(gòu)在國際間分享其數(shù)據(jù)[31]。現(xiàn)在看來，Snyman等用ISAN來規(guī)范每位作者名字唯一性的設(shè)想是極具超前性和創(chuàng)造性的，可惜當時沒有引起業(yè)界和學術(shù)界的足夠重視。

4.2 作者唯一標識符

由于作者名字混淆導致作者錯誤歸屬的問題一直存在，而且在數(shù)字圖書館時代已更顯突出，因此作者名字的唯一性有必要嵌入到學術(shù)研究的生態(tài)系統(tǒng)中。為了能像DOI那樣，消除作者信息統(tǒng)計混淆這一實際問題，2009年11月，湯姆森路透社和自然出版集團在美國麻省劍橋就作者名字歧義問題召開了首次AID峰會，作為非營利機構(gòu)的ORCID（Open and Researcher & Contributors ID）也在2010年8月正式誕生，并開始接納參與者。ORCID的目標就是旨在解決作者在學術(shù)交流中作者信息的歧義問題，在ORCID注冊后成為研究者唯一的ID，并和其他現(xiàn)有作者的ID建立開放透明的鏈接。這些ID和他們之間的關(guān)系能被鏈接到研究者的成果，這樣就可以提高科學發(fā)現(xiàn)的進程，提高研究資金的效率和研究群體內(nèi)的相互合作，現(xiàn)由14個組織參與管理。截至2012年3月8日，ORCID成員已發(fā)展到280多個，分別來自40個不同的國家和地區(qū)，例如：美國、英國、德國、加拿大、澳大利亞、巴西、印度、法國、西班牙和瑞士等，其中學術(shù)機構(gòu)占41%、出版社占15%、公司占15%、非營利組織占11%、學術(shù)團體占10%、政府機構(gòu)占4%及其他組織占4%。我國的中國科技信息研究所、科學出版社和香港大學3個單位也已加入其中。目前，ORCID已經(jīng)受到全球關(guān)注，引文作者信息統(tǒng)計混淆的問題也必將迎刃而解。

5結(jié)語

引文中消除作者信息統(tǒng)計混淆的方法，通過軟件雖然能在一定程度上減少其統(tǒng)計混淆，但在數(shù)字圖書館時代，真正要解決引文中作者信息統(tǒng)計混淆的問題，必須像ISBN、ISSN和DOI那樣，給每個不同的引文作者一個唯一的作者標識符，ORCID無疑是目前較好的解決方案，值得我們期待。應當指出的是作者唯一標識符的施行需要時間的積累和出版機構(gòu)積極地參與，同時也還面臨著諸多的實際困難。

[參考文獻]

[1]Gross P L，Gross E M.College libraries and chemical education[J].Science，1927（66）：385—389.

[2]Zunde P.Structural models of complex information sources[J].Information Storage and Retrieval，1971（7）：1—18.

[3]Curtin University Library.Vancouver referencing[EB/OL].[2012-03-17].http：//wenku.baidu.com/view/c68ab9d4b14e852458fb575d.html.

[4]University Western Sydney Library.Harvard Referencing Style Guide[EB/OL].[2012-03-17].http：//library.uws.edu.au/FILES/cite_Harvard.pdf.

[5]The documentary-note（Oxford） referencing style[EB/OL].[2012-03-17].http：//www.deakin.edu.au/current-students/assets/resources/study-support/study-skills/oxford.pdf.

[6]Artiles J，Gonzalo J，Verdejo F.A testbed for people searching strategies in the WWW[C].Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval，2005：569—570.

[7]Hong Y，On Byung-Won，Lee Dongwon.System Support for Name Authority Control Problem in Digital Libraries：OpenDBLP Approach[J].Lecture Notes in Computer Science，2004（3232）：134—144.

[8]Masada T，Takasu A，Adachi J.Citation Data Clustering for Author Name Disambiguation[C/OL].Proceedings of the 2nd international conference on Scalable information systems，2007：http：//www.cis.nagasaki-u.ac.jp/～masada/masadaINFOSCALE2007.pdf.

[9]Strotmann A，Zhao D.Author name ambiguity problem in biomedical research fields：Implications for bibliographic databases and bibliometric studies[C].3rd International Conference on Qualitative and Quantitative Methods in Libraries，2011：25—26.

[10]On B W，Lee D，Kang J，et al.Comparative study of name disambiguation problem using a scalable blocking-based framework[C].Proceedings of the 5th ACM/IEEE Joint Conference on Digital Libraries，2005：344—353.

[11] Kang In-su，Na Seung-hoon，Lee Seungwoo，et al.On co-authorship for author disambiguation[J].Informa- tion processing & management，2009，45（1）：84—97.

[12]Tan Yee Fan，Kan Min Yen，Lee Dongwon.Search engine driven author disambiguation[C/OL].Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries，New York，NY，USA，2006：314—315.http：//nike.psu.edu/publications/jcdl06b.pdf.

[13]Song Yang，Huang Jian，Councill I G.Efficient topic- based unsupervised name disambiguation[C/OL].Proceedings of the 7th ACM/IEEE-CS joint con- ference on Digital libraries，2007.http：//research.microsoft.com/apps/pubs/i/pdf.jpg.

[14]Pereira D A，Ribeiro-Neto B，Ziviani N，et al.Using web information for author name disambiguation[C/OL].Proceedings of the 9th ACM/IEEE-CS joint conference on Digital libraries，2009.http：//grupoweb.upf.es/fows2009/slides/Ziviani-FoWS09.pdf.

[15]Yang Kai-Hsiang，Wu Yi-Hsuan.Author Name Di- sambiguation in Citations[C].2011 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology，Lyon，F(xiàn)rance，August 22—27，2011（3）：335—338.

[16]Jia Zhu，Gabriel Pui Cheong Fung，Xiaofang Zhou.Anddy：A System for Author Name Disambiguation in Digital Library[J].Lecture Notes in Computer Science，2010（5982）：444—447.

[17]Han Hui，Giles L，Zha Hongyuan，et al.Two supervised learning approaches for name disambiguation in author citations[C/OL].ACM/IEEE-CS Joint Conference on Digital Libraries（JCDL'04），Tucson，Arizona，USA，2004：296—305.http：//clgiles.ist.psu.edu/papers/JCDL-2004-author-disambiguation.pdf.

[18]Han Hui，Zha Hongyuan，Giles C L.Name Disambiguation in Author Citations using a Kway Spectral Clustering Method[C/OL].International Conference on Digital Libraries，Denver，CO，7—11 June 2005：334—343.http：//clgiles.ist.psu.edu/papers/JCDL-2005-K-Way-Spectral-Clustering.pdf.

[19]Han Hui，Xu Wei，Zha Hongyuan.A hierarchical naive Bayes mixture model for name disambiguation in author citations[C].Proceedings of the 2005 ACM symposium on Applied computing，New York，NY，USA，2005：1065—1069.

[20]Torvik V I，Weeber M，Swanson D R，et al.A probabilistic similarity metric for Medline records：A model for author name disambiguation[J].Journal of the American Society for Information Science and Technology，2005，56（2）：140—158.

[21]Torvik V I，Smalheiser N R.Author Name Disambiguation in MEDLINE[J].ACM Transactions on Knowledge Discovery from Data.2009，3（3）：11—40.

[22]Smalheiser N R，Torvik V I.Author name disambiguation [J/OL].Annual Review of Information Science and Technology，2009，43（1）：1—43.http：//arrowsmith.psych.uic.edu/arrowsmith_uic/tutorial/ARIST_preprint.pdf.

[23]McRae-Spencer D M，Shadbolt N R.Also by the same author：AKTiveAuthor，a citation graph approach to name disambiguation[C/OL].Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries，2006：5—54.http：//eprints.ecs.soton.ac.uk/12704/1/sp080-mcraespencer.pdf.

[24]Cota R G，Gon alves M A，Laender A H F.A Heuris- tic-based Hierarchical Clustering Method for Author Name Disambiguation in Digital Libraries[C/OL].Proceedings of the 22nd Brazilian Symposium on Databases，Jo o Pessoa，Brazil，2007：20—34.http：//www.lbd.dcc.ufmg.br：8080/colecoes/sbbd/2007/SBBD02.pdf.

[25]Cota R G，F(xiàn)erreira A A，Nascimento C，et al.An unsupervised heuristic-based hierarchical method for name disambiguation in bibliographic citations[J].Journal of the American Society for Information Science and Technology.2010，61（9）：1853—1870.

[26]Yang Kai-Hsiang，Peng Hsin-Tsung，Jiang Jian-Yi，et al.Author Name Disambiguation for Citations Using Topic and Web Correlation[J/OL].Lecture Notes in Computer Science，2008，5173：185—196.http：//www.iis.sinica.edu.tw/papers/hoho/7642-F.pdf.

[27]Cleveland G.Digital libraries：definitions，issues and challenges[R/OL].IFLA Universal Dataflow and Tele- communications Core Programme.Occasional Paper 8，1998.http：//www.ifla.org/VI/5/op/udtop8/udtop8.htm.

[28]Snyman M M M，van Rensburg M J.Reengineering name authority control[J].Electronic Library，1999，17（5）：307—311.

[29]Snyman M M M，van Rensburg M J.NACO versus ISAN：prospects for name authority control[J].Elec- tronic Library，2000，18（1）：63—68.

[30]Snyman M M M，van Rensburg M J.Revolutionizing Name Authority Control[C].Proceedings of the 5th ACM Conference on Digital Libraries，2000：185—194.

[31]Cruz J M B，Klink M J R，Krichel T.Personal data in a large digital library[C/OL].Proceedings of the 4th European Conference on Research and Advanced Technology for Digital Libraries，2000：127.http：//openlib.org/home/krichel/phoenix.a4.pdf.

圖書館界2016年2期

圖書館界的其它文章: 試論智慧城市背景下智慧圖書館建設(shè); 平衡計分卡在圖書館資源建設(shè)績效評估中的應用研究; 高校圖書館專題圖書推薦研究; 高校機構(gòu)知識庫建設(shè)的意義、困境與出路; 20世紀上半期中國赴歐美留學生的國外圖書館活動; 社會轉(zhuǎn)型期視域下的圖書館服務研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

提高引文分析中作者信息有效性的方法研究