宗張建
(南京醫(yī)科大學 圖書館,江蘇 南京 211166)
引文是表征期刊學術影響力的重要方式。 1955年,E.Garfield 首次基于“引用關系”提出影響因子的概念;1963 年,E.Garfield 與H.Irving 創(chuàng)立期刊影響因子(JIF);1976 年,E.Garfield 創(chuàng)辦的科學信息研究所出版了第一期期刊引證報告(JCR),報告提供了詳細的期刊引用數(shù)據(jù),并發(fā)布了完整的影響因子列表[1]。 至此,這種利用引文分析評估期刊影響力的方法得到了期刊出版乃至科研人員的廣泛關注,影響因子也成為影響最大、使用最廣泛的期刊影響力計量指標。 然而,影響因子也存在諸多局限,如不能排除自引操縱、評價周期過短、引文同質對待、不能跨學科比較等。 因此,近年來JCR 相繼推出他引影響因子(JIF Without Self Cites)、五年影響因子(5 Year JIF)、特征因子(Eigenfactor)、論文影響力(Article Influence Score)、影響因子百分位(JIF Percentile)等計量指標,用以補充和豐富期刊評價指標庫。 2021 年,JCR 再增加了一個新指標——Journal Citation Indicator(JCI)??祁Nò补嫘Q,該指標通過對不同科研領域、文獻類型以及引用比率進行標準化處理,以便于跨學科解釋和比較[2]。
引文標準化(Standardization)處理是消除文獻發(fā)表時間、類型以及學科差異的有效方法。 JCI 作為JCR 新提出指標,其計算原理、與影響因子的差異、指標數(shù)值分布特點、與其他期刊影響力指標相關度等均需進一步深入分析。 本文從JCI 計算原理入手,通過實證數(shù)據(jù)分析指標數(shù)值分布特征以及與影響因子的區(qū)別,并通過相關性檢驗,進一步分析JCI 與其他期刊計量指標的關系。
學科規(guī)范化引文影響力指標(Category Normalized Citation Impact,CNCI)是JCI 的上游指標,該指標可實現(xiàn)論文級別的被引頻次標準化[3]。 具體是,對于單篇論文i,當其僅歸屬于一個學科領域時,其CNCI值是通過其實際被引次數(shù)除以同文獻類型、同出版年、同學科領域文獻的期望被引次數(shù)獲得的。 計算公式如下:
但當一篇論文i歸屬于n個學科領域時,則該篇論文的CNCI 值為每個學科領域實際被引頻次與期望被引次數(shù)比值的平均值:
式中:ci為單篇論文被引頻次;e表示同學科同出版年同文獻類型的論文平均被引次數(shù)(基線);f,t,d分別表示學科領域、年份和文獻類型;n為論文歸屬的學科數(shù)量。
CNCI 排除了出版年、學科領域與文獻類型對被引頻次的影響,是一個無偏影響力指標。 在實踐中,通常還可以通過計算一組論文集CNCI 的平均數(shù),實現(xiàn)不同分析對象(如國家、機構等)學術成果影響力的比較。 JCI 的定義就是期刊過去3 年發(fā)表的所有論文和綜述的CNCI 平均值[2],計算方式如下。
式中,θ表示JCR 出版年。 CNCI 的基準值是1,當論文CNCI 值高于1 時,表明論文引用超過全球平均水平;當論文CNCI 值低于1 時,則表明論文引用低于全球平均水平。 同理,數(shù)值1 也是衡量期刊引用表現(xiàn)的基準值。 當JCI 值高于1 時,表明該期刊超過所有期刊的平均引用水平;當JCI 低于1 時,即表明該期刊引用表現(xiàn)未達到平均引用水平。
為了了解JCI 數(shù)值的基本特點,本文選擇數(shù)學學科(Mathematics)期刊為研究對象。 在2020 年度JCR中,數(shù)學學科是期刊數(shù)量最多的學科,較大的樣本量可保證研究的穩(wěn)健性[4]。 但需注意的是,2020 年度JCR 較往期出現(xiàn)較大變化。 變化之一就是擴大了JCR 收錄期刊的范圍,不僅包含原有的SCI/SSCI 期刊,同時還將ESCI 等索引期刊納入。 如2020 年度JCR 收錄的471 本數(shù)學學科期刊中,SCIE 收錄期刊有330 本,ESCI 期刊則有141 本。 但ESCI 期刊沒有獲得期刊影響因子以及相關衍生指標數(shù)據(jù)。 此外,部分SCIE 期刊也存在少數(shù)指標數(shù)據(jù)缺失的情況。 因此,為了保證分析數(shù)據(jù)的完整性,本次研究盡量納入全部樣本數(shù)據(jù),并利用SPSS 18.0 對相關數(shù)據(jù)進行分析。各指標的描述統(tǒng)計如表1 所示。
表1 指標描述統(tǒng)計
對471 本樣本期刊JCI 數(shù)據(jù)進行正態(tài)性檢驗,頻數(shù)分布圖(見圖1)和正態(tài)Q-Q 圖(見圖2)均提示JCI數(shù)值不服從正態(tài)分布。 以基準值1 為分界值,471 本期刊中,JCI 低于基準值的期刊有350 本,占全部期刊的74.3%;JCI 等于或高于基準值1 的期刊有121 本,占全部期刊的25.7%。 即使在SCIE 期刊中,也有216 本期刊JCI 值低于1,占全部SCIE 期刊的65.5%。 因此,JCI 數(shù)值呈偏態(tài)分布,引用水平低于平均水平的期刊占多數(shù)。
圖1 JCI 頻數(shù)分布圖
圖2 JCI 的正態(tài)Q-Q 圖
進一步比較JCI 與影響因子的統(tǒng)計學特征,以330 本同時包含兩項指標數(shù)據(jù)的SCI 期刊為研究對象,對比分析兩項指標極值、極差、均值、標準差、偏度和峰度的差異。 結果(見表2)顯示,JCI 數(shù)值分布的極差、均值以及標準差均小于影響因子。 這表明,JCI的離散性較小,且JCI 的值比影響因子更為集中,JCI減弱了具有較高影響因子期刊的優(yōu)勢。 此外,JCI 數(shù)值的偏度和峰度稍高于影響因子,表明JCI 數(shù)據(jù)的不對稱性和陡峭性高于影響因子。
表2 JCI 與影響因子的統(tǒng)計學特征分析
為了分析JCI 與其他文獻計量指標的關系,本文采用斯皮爾曼(Spearman) 相關系數(shù)進行分析。Spearman 相關系數(shù)可用于非正態(tài)分布數(shù)值的相關性檢驗。 分析結果(見表3)顯示,JCI 與影響因子、5 年影響因子、他引影響因子以及影響因子百分位高度正相關,相關系數(shù)在0.9 左右;與總被引頻次、即年指標、特征因子、標準化特征因子、論文影響分值中度正相關;與載文量、引用半衰期相關度較低。 此外,被引半衰期的相關系數(shù)沒有通過統(tǒng)計檢驗。
表3 相關系數(shù)
相較于影響因子,JCI 的優(yōu)點表現(xiàn)在兩個方面。首先,JCI 延長了期刊引用區(qū)間。 影響因子計算的引用區(qū)間是2 年,而JCI 將引用區(qū)間延長為3 年,這在一定程度降低了不同主題領域引用行為的差異。 其次,JCI 采用了論文出版后所有的引用,并將其進行標準化處理,而影響因子只采用了論文在JCR 當年的引用,且未經(jīng)過標準化處理。 經(jīng)過標準化處理后的數(shù)據(jù)可以按照一個統(tǒng)一的標準進行比較,增強了數(shù)據(jù)的可比性。
但從指標特征本質上看,JCI 與影響因子一樣,均屬于平均數(shù)指標。 影響因子可認為是期刊論文平均被引頻次;而JCI 則是期刊的標準化平均被引頻次,其分母為期刊論文集合的論文數(shù)量,分子是標準化的論文總被引頻次。 這一點或許解釋了JCI為何與影響因子及其相關衍生指標高度正相關的原因。 因此,JCI 在指標設計上仍存在與影響因子類似的缺陷。 首先,JCI 作為平均數(shù)指標,容易受期刊高被引論文和零被引論文引用極值的影響。其次,JCI 沒有對期刊的自引情況進行相應的處理,因此JCI 不能排除自引操縱。 最后,JCI 存在引文同質對待。 JCI 將每一條引文的作用都看成是相同的,沒有區(qū)分不同引用的權重,因而沒有體現(xiàn)高影響力引文在期刊評價中的重要性。
盡管科睿唯安聲稱JCI 作為一個單一的期刊級別指標,為輕松地進行跨學科解釋和比較提供了可能。 但TheScholarlyKitchen編輯P.Davis 依然從計算結果的科學性、透明度以及可重復性提出了質疑[5]。JCI 的第一個挑戰(zhàn)是計算結果的科學性。 JCI 的計算嚴重依賴期刊學科劃分體系,而Web of Science(WoS)的期刊分類多基于“刊與刊”的關系。 目前,WoS 數(shù)據(jù)庫使用235 個學科類別,但隨著科學的發(fā)展,期刊的主題可能隨著時間而變化。 此外,大約三分之一的期刊被分配到多個主題類別中。 種類繁多的主題可能對JCI 的計算造成混亂。 JCI 的第二個挑戰(zhàn)是數(shù)據(jù)透明度和可重復性。 JCI 依賴學科數(shù)據(jù)集的平均引用次數(shù),但對于大多數(shù)用戶而言,用于重新創(chuàng)建指標的整個數(shù)據(jù)集和方法基本上是不可行的。