■付中靜
1)新鄉(xiāng)醫(yī)學院期刊社《眼科新進展》編輯部,河南省新鄉(xiāng)市金穗大道601號 453003
2)河南省科技期刊研究中心,河南省新鄉(xiāng)市金穗大道601號 453003
期刊被引頻次是期刊學術(shù)質(zhì)量和學術(shù)影響力的重要評價指標,論文被引用說明論文具有價值,但是由于引用行為和引用動機不同,有些作者閱讀的論文并沒有被引用,這部分論文的價值如何去體現(xiàn)呢?下載量就應(yīng)運而生,下載量可以測度上網(wǎng)期刊論文的擴散速率,可以研究期刊在網(wǎng)絡(luò)環(huán)境下的傳播效率。用下載量和被引頻次衡量期刊的質(zhì)量已得到期刊界同行的充分認可[1-2]。國外學者早就提出,高影響力論文一般是指那些被引頻次較高和被引周期較長的論文,方紅玲[3]認為高影響力論文包括高被引和高下載量以及核心論文(研究前沿論文)。有關(guān)國內(nèi)數(shù)據(jù)庫的研究較多,丁佐奇[4]對CJNM和JCPU被引頻次TOP20論文進行分析,發(fā)現(xiàn)兩種期刊高被引論文多數(shù)在發(fā)表后2~4年被引達到高峰,被引頻次和下載量之間的相關(guān)性不強。王麗[5]對中國知網(wǎng)收錄醫(yī)藥衛(wèi)生科技類高被引論文與高下載量論文進行分析,發(fā)現(xiàn)下載量與被引頻次無明顯相關(guān)性。國外已有學者[6-7]對Science Direct數(shù)據(jù)庫論文下載量和被引頻次的相關(guān)性進行研究。由于Web of Science數(shù)據(jù)庫一直沒有提供下載量指標,因此這方面的研究曾經(jīng)一度呈現(xiàn)空白。
直到2015年9月,湯森路透發(fā)布了5.19版WoS數(shù)據(jù)庫平臺,新增了“文獻級別用量指標”,提供論文的使用次數(shù)(Usage count),包括2013年2月至檢索日期的使用次數(shù)和最近180天的使用次數(shù)。孫學軍提出“文獻級別用量指標”其實就是論文的下載量[8],這一指標的增加有望彌補WoS數(shù)據(jù)庫中論文下載量研究的空白。但是該使用次數(shù)是對論文全文鏈接進行訪問或者對記錄進行保存的次數(shù),捕捉了用戶嘗試獲取full-text的各種操作,同時包括將論文保存到 endnote(包括 endnote online和endnote desktop)的動作,這些記錄先于下載而發(fā)生,并受到不同機構(gòu)獲取全文能力的限制[9],因此就WoS數(shù)據(jù)庫平臺來講,點擊和保存的行為反映了作者的使用動機,他們意味著用戶的興趣和行動,其使用次數(shù)不等于下載量。Wang等[10]較早對WoS數(shù)據(jù)庫中圖情領(lǐng)域5種期刊論文的使用次數(shù)展開分析,研究論文的使用模式,發(fā)現(xiàn)學者們更傾向于使用較新的文獻,但是老的文獻更會得到較多引用和較少的使用,較老的高被引論文使用次數(shù)也較大,希望從一個新的視角觀察文獻計量指標。
目前普遍認為文章被閱讀次數(shù)越多,就越可能被引用,但是由于受學科領(lǐng)域、分析角度和統(tǒng)計方法不同的影響,關(guān)于二者之間的關(guān)系觀點不一[11-12]。WoS數(shù)據(jù)庫的使用次數(shù)和下載量有相似之處,但是兩者并不完全相同,論文被使用說明論文具有一定價值,但是由于各種原因的限制,并沒有將論文下載下來,這部分被使用的論文價值如何去體現(xiàn)呢?WoS數(shù)據(jù)庫中論文使用次數(shù)和被引頻次關(guān)系如何呢?哪些類型論文更容易被引用呢?不同年度表現(xiàn)規(guī)律如何?目前未發(fā)現(xiàn)國內(nèi)學者對此進行分析?;诖宋覀冞M行了下面的研究。
登陸WoS數(shù)據(jù)庫,選擇高級檢索功能,以“WC=INFORMATION SCIENCE& LIBRARY SCIENCE”為檢索詞,限制出版時間為2013~2015年,更多設(shè)置選項中選擇SSCI數(shù)據(jù)庫,進行檢索,數(shù)據(jù)收集時間2016年1月20日。(1)按照被引頻次進行降序排列,將被引頻次TOP5%論文(被引頻次排行位于前5%的論文)添加到標記結(jié)果列表,并將數(shù)據(jù)信息導入EXCEL表。(2)按照使用次數(shù)進行降序排列(如無特殊說明,本文中使用次數(shù)均為2013年2月至檢索日期的使用次數(shù)),將使用次數(shù)TOP5%論文(使用次數(shù)排行位于前5%的論文)——添加到標記結(jié)果列表,并將數(shù)據(jù)信息導入EXCEL表。
收集被引頻次TOP5%、使用次數(shù)TOP5%、兩者重合文獻使用次數(shù)(U1)、使用次數(shù)(180天)(U2)、被引頻次等數(shù)據(jù)信息。按照以下方法進行分析:(1)分析不同文獻類型的數(shù)量、U1、U2、被引頻次分布情況;(2)采用SPSS22.0軟件分析數(shù)據(jù):單因素方差分析比較不同年度U1、U2和被引頻次差異性。Spearman相關(guān)性檢驗方法分析論文U1、U2和被引頻次之間的相關(guān)性。P<0.05為差異有統(tǒng)計學意義。
2013~2015年SSCI收錄信息科學與圖書情報學論文 28990篇,被引頻次 TOP5%、使用次數(shù)TOP5%論文1450篇,兩者重合603篇(表1)。主要文獻類型是Article,均達90%以上;其次是Review,遠低于 Article。篇均被引頻次:Review最高,Editorial Material和Article稍低,Letter最低。篇均使用次數(shù):被引頻次TOP5%論文篇均使用次數(shù)Review和Article差異不大,Editorial Material較低,Letter最低;使用次數(shù) TOP5%論文、重合文獻Editorial Material最高,Review和Article差異不大,前者Letter和Book Review較低,News Item僅1篇,且最低。
表1 三種排序下不同類型文獻的使用次數(shù)、被引頻次
603篇重合文獻語種全部為英語,Article為主要的文獻類型,58.41%的高被引論文(或高U1論文)未被高使用或高引用。被引頻次最高(72)的是2013年發(fā)表于MISQUARTISO的 Article,U1為78,可能和引文時間窗口較長有一定關(guān)系。U1最高(427)的是2013年發(fā)表于INFORM SYSTRESISO的Article,被引頻次29,說明該論文被大量使用,但是引用卻較少,可能被引高峰尚未出現(xiàn),這種反常表現(xiàn)是否會引起U1和被引頻次相關(guān)性較弱呢?2015年發(fā)表的論文被引頻次最高者為The influence of social networking sites on health behavior change:a systematic review and meta-analysis,排行 132 位(被引頻次12),之后排行較靠前的4篇分別為262位、263位、267位、484位,未發(fā)現(xiàn)2015年發(fā)表論文被引頻次明顯超過2013年者。僅1篇論文的U1(58)低于被引頻次(62),2013年發(fā)表于 J AM MED INFORM ASSNISO的Review,可能與數(shù)據(jù)庫數(shù)據(jù)不準確或者作者的不良引用行為(間接引用)有關(guān);也可能會因作者所在機構(gòu)購買權(quán)限限制,通過其他途徑(Google scholar、百度學術(shù)等)獲取該論文并作為參考文獻附于文后,該文發(fā)表與WoS收錄的期刊等也會導致被引頻次大于U1。
整體比較顯示,U1三年間差異不顯著(表2,P>0.05),U2三年間差異顯著(P=0.000),被引頻次三年間差異顯著(P=0.001)。兩兩比較結(jié)果顯示,U2:2015年>2014年>2013年,2013年與2014年(P=0.000)、2013年與 2015年(P=0.000)、2014年與2015年(P=0.005)差異均有統(tǒng)計學意義;被引頻次:2013年 >2014年 >2015年,2013年與2014年(P=0.002)、2013年與2015年(P=0.000)、2014年與2015年(P=0.001)差異均有統(tǒng)計學意義。
Spearman相關(guān)性分析結(jié)果表明,U1、U2和被引頻次3~72(9.02±6.79)均存在弱相關(guān)性(表3),U1和被引頻次相關(guān)性稍強,差異不大。對各年度進行分析發(fā)現(xiàn),2013年,U1和被引頻次、U2和被引頻次均具有相關(guān)性(r1=0.284,P1=0.000;r2=0.357,P2=0.000);2014年,U1和被引頻次、U2和被引頻次均具有相關(guān)性(r1=0.239,P1=0.005;r2=0.214,P2=0.012);2015年U1和被引頻次、U2和被引頻次均無相關(guān)性(均為P>0.05)。
表2 不同年度重合文獻U1、U2、被引頻次比較
表3 重合文獻U1、U2和被引頻次相關(guān)性
被引頻次TOP5%論文1450篇,英語語種1449篇,西班牙語1篇,Article為主要的文獻類型。U1、被引頻次最高的是二者重合文獻中最高者。被引頻次顯著大于U1者為2013年發(fā)表于INFORM SYST RESISO的Article,兩者相差398,在被引頻次TOP5%論文中,29篇論文的U1低于被引頻次,大量使用過的論文未獲得引用。
整體比較顯示,U1、U2、被引頻次三年間差異均顯著(均為P<0.05,表4)。兩兩比較結(jié)果顯示,U1:2013年>2014年、2013年>2015年,差異有統(tǒng)計學意義(P=0.006、P=0.000);U2:2015年 >2014年>2013年,差異均有統(tǒng)計學意義(均為P=0.000);被引頻次:2013年>2014年 >2015年,差異均有統(tǒng)計學意義(均為P=0.000)。
Spearman相關(guān)性分析結(jié)果表明,U1、U2和被引頻次3~72(7.76±5.77)之間均存在弱相關(guān)性(表5),U1和被引頻次相關(guān)性稍強。對各年度進行分析發(fā)現(xiàn),2013年,U1和被引頻次、U2和被引頻次均具有相關(guān)性(r1=0.268,P1=0.000;r2=0.260,P1=0.000);2014年,U1和被引頻次、U2和被引頻次均具有相關(guān)性(r1=0.177,P1=0.001;r2=0.187,P1=0.000);2015年U1和被引頻次、U2和被引頻次均無相關(guān)性(均為P>0.05)。
表4 不同年度被引頻次TOP5%論文U1、U2、被引頻次比較
表5 被引頻次TOP5%論文U1、U2和被引頻次相關(guān)性
使用次數(shù)TOP5%論文1450篇,英語1440篇,葡萄牙語2篇,西班牙語8篇,Article為主要的文獻類型。U1最高(749)者是發(fā)表于 TELEMAT INFORMISO 的 Article——Brain-computer interface:The next frontier of telemedicine in human-computer interaction,被引頻次為1,2015年2月發(fā)表,這種反常的情況是否反映了該領(lǐng)域的熱點,讀者比較感興趣,但是由于發(fā)表時間較短,被引頻次還未表現(xiàn)出來?被引頻次最高的是重合文獻中最高者。僅1篇論文的U1低于被引頻次,為重合文獻中同一篇論文。
整體比較顯示,U1三年間差異不顯著(P>0.05,表6),U2、被引頻次三年間差異均顯著(均為P<0.05)。兩兩比較結(jié)果顯示,U2:2015年>2014年>2013年,差異均有統(tǒng)計學意義(均為 P=0.000);被引頻次:2013年 >2014年>2015年,差異均有統(tǒng)計學意義(均為P=0.000)。
Spearman相關(guān)性分析結(jié)果表明,U1和被引頻次0~72(4.56±5.88)之間存在弱相關(guān)性(表7),U2和被引頻次之間無相關(guān)性。對各年度進行分析發(fā)現(xiàn),2013年,U1和被引頻次、U2和被引頻次均具有相關(guān)性(r1=0.318,P1=0.000;r2=0.352,P2=0.000);2014年,U1和被引頻次、U2和被引頻次均具有相關(guān)性(r1=0.132,P1=0.003;r2=0.169,P2=0.000);2015年177篇論文被引頻次很低,100篇論文被引頻次為0,讀者較多使用新發(fā)表的論文,使用次數(shù)每天都更新,但是這些論文被引頻次還未表現(xiàn)出來,U1和被引頻次無相關(guān)性(P>0.05),U2和被引頻次負相關(guān)(r= -0.106,P=0.016)。
表6 不同年度使用次數(shù)TOP5%論文U1、U2、被引頻次比較
表7 使用次數(shù)TOP5%論文U1、U2和被引頻次相關(guān)性
2013~2015年SSCI數(shù)據(jù)庫收錄信息科學與圖書情報學被引頻次 TOP5%(1450篇)、使用次數(shù)TOP5%論文(1450篇)以及兩者重合文獻(603篇),不同類型文獻的被引用或使用情況也不同,Article顯示度都比較高,說明Article是高影響力論文的主要文獻類型,Review次之,也是不可忽視的文獻類型,與WoS數(shù)據(jù)庫的文獻類型分布特征相似,再次驗證Article具有較高的權(quán)威性和參考價值,是編輯組稿的主要方向[13]。
論文的引用可能更加標準化、規(guī)范化,只有被引用才能有真正的使用感;而閱讀和下載可能是比較非正式的、潛在的使用。本研究發(fā)現(xiàn),三種類別的論文排序中,U2三年間差異顯著,2015年>2014年>2013年(均為P<0.05);被引頻次三年間差異顯著,2013年>2014年>2015年(均為P<0.05)。反映了該領(lǐng)域論文引文時間窗口越長,被引頻次越高,最近180天學者們更傾向于使用新近發(fā)表的文獻。和Wang等[10]對WoS數(shù)據(jù)庫中信息科學與圖書情報學領(lǐng)域的5種期刊論文的使用次數(shù)的研究相似,可能由于新文獻更能引起讀者的興趣,獲得引用的時間窗口較短,而老文獻有較長時間被引機會,但是受讀者關(guān)注較少。
由于引用行為和引用動機的不同,有些引用并沒有下載的過程,可能是由于閱讀了紙質(zhì)期刊,或者引用其他論文的參考文獻;有些高下載量的論文可能由于文章的題名或者摘要吸引了作者,作者并沒有下載就直接進行了引用;比如本研究重合文獻中僅1篇論文的 U1低于被引頻次,被引頻次TOP5%論文中29篇論文的U1低于被引頻次,這些論文有可能未被閱讀或下載卻直接被引用;當然其余大部分論文U1高于被引頻次,和有些學者所提出的有些論文雖被閱讀或下載但是并沒有引用行為發(fā)生的觀點相似[14],因此對使用次數(shù)的研究可以更能反映到作者或讀者的興趣,使用可能比引用更具快速獲取、方便收集、范圍廣的優(yōu)勢。
被引頻次TOP5%、使用次數(shù)TOP5%、兩者重合文獻中,U1、U2和被引頻次之間相關(guān)性不夠強,提示了論文使用與被引用之間存在的共性較弱,和不同年度表現(xiàn)有關(guān)。陸偉等[15]對CNKI收錄19種圖情領(lǐng)域期刊的研究表明,論文發(fā)表初期下載量與被引頻次的相關(guān)性并不強,但是隨著出版時間的延長,相關(guān)性逐漸增強,后又趨于平緩。本研究對各年度分析也發(fā)現(xiàn),2013年、2014年引文時間窗口1~3年,U1、U2和被引頻次具有相關(guān)性,且2013年相關(guān)性強于2014年,說明引文時間窗口越長這種相關(guān)性越大。數(shù)據(jù)收集時間為2016年1月,而2015年發(fā)表的論文引文時間窗口最長才1年,許多論文被引頻次尚未收集到,由于讀者最近180天較多使用2015年發(fā)表的論文,尤其是按照使用次數(shù)排行,56%論文被引頻次為0,U2和被引頻次負相關(guān),引用和使用存在時間差,這可能是造成U2和被引頻次無相關(guān)性的主要原因。
Jahandideh等[16]對Science Direct的下載量能否反映論文學術(shù)質(zhì)量進行了探討,發(fā)現(xiàn)文章在一定時期內(nèi)下載量較高很可能是預兆著一段時期后高被引。使用次數(shù)直接反映期刊論文被讀者使用的情況,剛發(fā)表不久的論文沒有足夠長的時間累積引用,而“文獻級別用量指標”可以為此類論文的價值評估提供一些參考,特別是對建筑史學、修辭學等引文活動少的學科,或者是對護理學、經(jīng)濟學等產(chǎn)生引用效應(yīng)較慢的傳統(tǒng)學科來說更能反映讀者的興趣[9]。
被引和下載(或使用)是引文分析中最具代表性的績效評價指標,可能受到學科領(lǐng)域、文獻類型、出版日期的影響[6,17]。(1)不同學科領(lǐng)域論文被引和下載(或使用)不同,Moed等[7]發(fā)現(xiàn) Science Direct數(shù)據(jù)庫不同學科領(lǐng)域下載量、下載量與Scopus數(shù)據(jù)庫被引頻次的相關(guān)性有很大差異,頂級論文存在下載量和被引頻次都較高的現(xiàn)象,可能和不同學科領(lǐng)域的讀者和作者數(shù)量不同,文獻類型和內(nèi)容不同有關(guān)。(2)不同類型文獻的被引用或被使用也不同,本研究中被引頻次TOP5%、使用次數(shù)TOP5%、兩者重合文獻中Article數(shù)量較多,Review次之。但是Review篇均被引頻次較高,Article稍低,部分 Editorial Material不可忽視。Review和Article篇均使用次數(shù)差異不大,部分 Editorial Material篇均使用次數(shù)不可忽視。有學者對不同類型文獻對 IF的貢獻進行研究[13],發(fā)現(xiàn) Article和Review的貢獻較高。根據(jù)學科特色,有針對性地加強不同類型文獻的選題策劃,可能更有利于期刊的影響力的提升。(3)論文發(fā)表時間越早被引用的可能性就越大,本研究中2013年出版的論文最多,被引頻次也最高,和Wang等[10]研究發(fā)現(xiàn)較老的文獻獲得較多的引用的觀點相似。引文分析具有相對滯后性,有文獻認為論文發(fā)表后2~4年達引用高峰[3-4],而使用次數(shù)可以較早反映論文價值,將科學評價活動提前。但是由于WoS數(shù)據(jù)庫中使用次數(shù)的記錄從2013年2月開始,因此本文統(tǒng)計分析時的時間跨度雖約為3年,但是部分論文發(fā)表后被引時間較短,被引高峰可能未表現(xiàn)出來,這也是本研究的局限之處,接下來將規(guī)避這一局限性,增加被引觀察時間,從長期表現(xiàn)規(guī)律來進一步研究。
本文初步觀察WoS數(shù)據(jù)庫收錄信息科學與圖書情報學領(lǐng)域的論文使用次數(shù)和被引頻次,發(fā)現(xiàn)論文引文時間窗口越長,被引頻次越高,最近180天內(nèi)學者們更傾向于使用較新的文獻,還揭示了被引頻次和使用次數(shù)之間的共性,共性大小與引文時間窗口有關(guān),由于不同學科領(lǐng)域論文被引頻次和使用次數(shù)不同,是否仍然存在這種規(guī)律呢?還需要多學科領(lǐng)域的長時間研究來論證。
[1]劉武英,段秀成.編輯出版領(lǐng)域最高被引論文特征分析——以2010—2014年編輯出版類核心期刊為例[J].科技與出版,2016(2):96-100.
[2]Martinez M,Herrera M,Contreras E,et al.Characterizing highly cited papers in Social Work through H-Classics[J].Scientometrics,2015,102(2):1713 -1729.
[3]方紅玲.我國科技期刊論文被引量和下載量峰值年代——多學科比較研究[J].中國科技期刊研究,2011,22(5):708-710.
[4]丁佐奇.科技論文被引頻次與下載頻次的相關(guān)性分析[J].中國科技期刊研究,2010,21(4):467 -470.
[5]王麗.中國知網(wǎng)數(shù)據(jù)庫中高被引文獻與高下載文獻類型分析——以醫(yī)藥衛(wèi)生科技類文獻為例[J].編輯學報,2015,27(5):503-506.
[6]Guerrero-Bote VP,Moya-Anegón F.Relationship between downloads and citations at journal and paper levels,and the influence of language[J].Scientometrics, 2014,101(2):1043 -1065.
[7]Moed HF,Halevi G.On full text download and citation distributions in scientific-scholarly journals[J].Journal of the Association for Information Science and Technology,2016,67(2):412-431.
[8]孫學軍.SCI新增功能“文獻級別用量指標”是個什么東東?[EB/OL].[2015-10-10].http://blog.sciencenet.cn/blog-41174-926981.html.
[9]段鑫龍.Web of Science-5.19更新介紹[EB/OL].[2015-10-10].http://v.qq.com/x/page/n0168gbqol0.html?ptag=blog_sciencenet_cn.
[10]Wang XW,F(xiàn)ang ZC, Sun XL.Usage patterns of scholarly articles on Web of Science:a study on Web of Science usage count[J].Scientometrics, 2016,10 9(2):917 -926.
[11]李文靜.圖書情報學核心期刊Web全文下載與被引對比分析[J].情報雜志,2010,31(2):30 -33,43.
[12]劉雪立,方紅玲,苗媛,等.五種綜合性眼科學期刊論文下載量與被引量的關(guān)系及部分論文的量引背離現(xiàn)象[J].中國科技期刊研究,2010,21(5):629 -632.
[13]付中靜.國際權(quán)威期刊非可被引文獻的引證特征以及對影響因子的貢獻[J].中國科技期刊研究,2016,27(3):324-329.
[14]秦衛(wèi)平,趙美玲,秦凱.高被引論文與研究熱點探析——以馬克思主義學科為例[J].科技管理研究,2013,(22):96-99.
[15]陸偉,錢坤,唐祥彬.文獻下載頻次與被引頻次的相關(guān)性研究——以圖書情報領(lǐng)域為例[J].情報科學,2016,34(1):3-8.
[16]Jahandideh S,Abdolmaleki P,Asadabadi EB.Prediction of future citations of a research paper from number of its internetdownloads[J].Medical Hypotheses,2007, 69(2):458 -459.
[17]張立偉,姜春林,劉學,等.圖書情報學高被引論文引用現(xiàn)象的實證研究[J].圖書情報工作,2014,58(16):116-121.