駱維花
(湖南農(nóng)業(yè)大學(xué) 繼續(xù)教育學(xué)院,湖南 長(zhǎng)沙 410128)
2005 年11 月15 日,J.E.Hirsch 提出h 指數(shù)概念:發(fā)表Np 篇論文中有h 篇每篇至少被引h 次,其余Np-h 篇論文每篇被引均小于或等于h 次,即一位研究者的h 指數(shù)等于其至多發(fā)表了h 篇且每篇至少被引h 次的論文。[3]h 指數(shù)具有數(shù)學(xué)簡(jiǎn)單性、數(shù)值穩(wěn)健性、結(jié)合產(chǎn)出與影響、數(shù)據(jù)容易獲取等優(yōu)點(diǎn),[4]被應(yīng)用到各領(lǐng)域的研究。2012 年4 月1 日,谷歌推出Google Scholar Metrics,即基于h 指數(shù)衍生了H-core、H-median。H-core 即h 核心,指高于h 指數(shù)的被引頻次,H-median 即H-core 中位數(shù),指基于H-core,涵蓋的所有文章獲得引用次數(shù)的中位值,用于H-core 核心論文評(píng)價(jià)。如某刊中5 篇論文被引頻次分別為:17,9,6,3,2,其h 指數(shù)為3,H-core 為17,9,6,H-median 為9。[5]被引頻次17,9 和6 的論文為h 核心論文,高于H-media 中位數(shù)9 的論文為核心中的核心,即被引頻次17 的論文。2014 年6 月30 日,Google Scholar Metrics(以下簡(jiǎn)稱谷歌)公布2009-2013年5 年間,英、中、葡等9 種語(yǔ)言h5 指數(shù)前100 名期刊和h5 中位數(shù)。用戶點(diǎn)擊任意h5 鏈接,可查閱構(gòu)成該刊h5 核心論文題錄、引用頻次和排序、引用鏈接和發(fā)表年份等,訪問(wèn)網(wǎng)址http://scholar.wen.lu/,文獻(xiàn)來(lái)源為期刊論文、部分計(jì)算機(jī)科學(xué)以及電子工程類的會(huì)議論文和部分預(yù)印本。[6]
科學(xué)、公正并合理評(píng)價(jià)期刊質(zhì)量一直是業(yè)界熱衷探討的話題。國(guó)內(nèi)外先后推出的科學(xué)引文索引(SCI)、社會(huì)科學(xué)引文索引(SSCI)、中文社會(huì)科學(xué)引文索引(CSSCI)、中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)等為篩選優(yōu)質(zhì)期刊提供了參考。2005 年,J.E.Hirsch提出用于評(píng)價(jià)個(gè)人研究成果的h 指數(shù),很快應(yīng)用到期刊、機(jī)構(gòu)等領(lǐng)域并衍生了g 指數(shù)、hg 指數(shù)等h 型指數(shù)。2014 年6 月30日,Google Scholar Metrics 公布了2009-2013 年5 年間9 種語(yǔ)言期刊被引前100 的排名,即h5。[1][2]文章以此h5 排名前100中文期刊為樣本,測(cè)算同一中文期刊在百度學(xué)術(shù)和CNKI 期刊h5,并分析三者之間差異性和關(guān)聯(lián)性,以期為豐富中文期刊h指數(shù)研究提供實(shí)證資料,并在此基礎(chǔ)上探討學(xué)術(shù)搜索引擎引文分析存在的問(wèn)題。
采用文獻(xiàn)調(diào)研和對(duì)比分析的方法,首先從谷歌平臺(tái)上,下載中文期刊前100 名的h5 指數(shù)導(dǎo)入excel。然后在CNKI、百度學(xué)術(shù)檢索平臺(tái)上,分別檢索100 種中文刊名,時(shí)間2009-2013 年,檢索出對(duì)應(yīng)期刊論文被引頻次按降序排列,根據(jù)h 指數(shù)定義,測(cè)算各期刊h5,并計(jì)算谷歌與CNKI、百度學(xué)術(shù)與CNKI 期刊h5 差值,輸入excel。同時(shí),探討h5 與影響因子間(impact factor,IF)的關(guān)系,測(cè)算100 種期刊影響因子輸入excel。谷歌h5 計(jì)為Gh,CNKI h5 計(jì)為Ch,百度學(xué)術(shù)h5 計(jì)為Bh,Gh與Ch 的差值計(jì)為G-C,Bh 與Ch 的差值計(jì)為B-C(為保證表達(dá)簡(jiǎn)潔性,文后出現(xiàn)的Gh、Ch、Bh、G-C、B-C、IF 簡(jiǎn)稱均為以上含義,不再贅述)。最后,整理分析數(shù)據(jù)。
選擇谷歌公布的h5 前100 名中文期刊為研究樣本,以CNKI《中國(guó)引文數(shù)據(jù)庫(kù)》(以下簡(jiǎn)稱CNKI)測(cè)算得到的h5 作為中文期刊h5 比較依據(jù),分析并評(píng)價(jià)谷歌h5 和百度學(xué)術(shù)h5(通過(guò)“百度學(xué)術(shù)搜索”測(cè)算所得,訪問(wèn)網(wǎng)址xueshu.baidu.com[7]),統(tǒng)計(jì)時(shí)間2009-2013 年(為保證數(shù)據(jù)可比性,CNKI 未被收錄期刊暫不分析)。
2014 年8 月20 日對(duì)Gh、Bh、Ch、G-C、B-C 及IF 進(jìn)行統(tǒng)計(jì)并匯總(表1、表2)。
表1.中文期刊h 指數(shù)比較
*注:此處為Google Scholar Metrics2014 年公布的中文期刊前100 排序,Gh 為其公布的期刊h5。
Gh 前10 期刊為《經(jīng)濟(jì)研究》、《中華醫(yī)院感染學(xué)雜志》、《中華護(hù)理雜志》、《電力系統(tǒng)自動(dòng)化》、《會(huì)計(jì)研究》、《電網(wǎng)技術(shù)》、《新華文摘》、《管理世界》、《地理學(xué)報(bào)》、《農(nóng)業(yè)工程學(xué)報(bào)》。Ch 前10 期刊為《經(jīng)濟(jì)研究》、《會(huì)計(jì)研究》、《管理世界》、《電力系統(tǒng)自動(dòng)化》、《金融研究》、《電網(wǎng)技術(shù)》、《中國(guó)工業(yè)經(jīng)濟(jì)》、《中國(guó)社會(huì)科學(xué)》、《中國(guó)法學(xué)》、《數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究》。Bh 前10 期刊為《經(jīng)濟(jì)研究》、《會(huì)計(jì)研究》、《管理世界》、《金融研究》、《電力系統(tǒng)自動(dòng)化》、《生態(tài)學(xué)報(bào)》、《中國(guó)法學(xué)》、《中國(guó)社會(huì)科學(xué)》、《中國(guó)工業(yè)經(jīng)濟(jì)》、《中華醫(yī)院感染學(xué)雜志》?!督?jīng)濟(jì)研究》在三者中均排第一。從期刊排名所屬學(xué)科看,三者排名差異性不顯著,學(xué)科分布涉及經(jīng)濟(jì)學(xué)、醫(yī)藥衛(wèi)生和電力電信科技。
表2.中文期刊h 指數(shù)與IF 比較*
*注:此處排名是根據(jù)2013 年IF(即影響因子)計(jì)算實(shí)際值大小排序。計(jì)算公式IF=(該期刊前兩年(2011、2012 年)發(fā)表論文在統(tǒng)計(jì)當(dāng)年(2013 年)被引用總次數(shù))/該刊在前兩年內(nèi)(2011、2012 年)發(fā)表的論文總數(shù)。
Gh 與Ch、Bh 與Ch 前10“排名”(根據(jù)排名差值比較)差值顯示:所有期刊排名中,只有《經(jīng)濟(jì)研究》在三者中排名相同?!峨娋W(wǎng)技術(shù)》Gh 與Ch 中排名相同(第6)。Bh 與Ch 排名相同的期刊有《會(huì)計(jì)研究》(第2)、《管理世界》(第3)。其它期刊在三者h(yuǎn)5 排名差異性較大。
所有期刊h5 差值中,谷歌和CNKI 平均差值(即G-C 平均差值)為6.52(差值和652 與100 種期刊相除,以下同),百度和CNKI 平均差值(即B-C 平均差值)為3.95。期刊h5 差值整體差異性不大,但谷歌比百度差異性明顯。Gh>Ch 期刊6 種,Gh<Ch 期刊70 種,18 種期刊Gh 與Ch 相同。這表明同一種期刊,70%以上期刊Gh 低于Ch。Bh>Ch 期刊有3種,Bh<Ch 期刊85 種,6 種期刊Bh 與Ch 相同。這表明同一種期刊,85%以上期刊Bh 低于Ch。
經(jīng)濟(jì)學(xué)科期刊7 種,平均h5(所有h5 值相加除期刊數(shù),以下同)谷歌31.4,CNKI 46.5,百度學(xué)術(shù)43.2。醫(yī)學(xué)類期刊17 種,平均h5 谷歌26.8,CNKI24.6,百度學(xué)術(shù)25.1。電子電信科技類期刊7 種,平均h5 值谷歌31,CNKI 41.1,百度學(xué)術(shù)38.3。圖書(shū)情報(bào)類期刊7 種,平均h5 谷歌25,CNKI27.3,百度學(xué)術(shù)25.6。教育類期刊10 種,平均h5 谷歌27,CNKI32.4,百度學(xué)術(shù)28.4。從統(tǒng)計(jì)已有學(xué)科平均h5 分布看,除醫(yī)學(xué)類期刊,CNKI 期刊平均h5 高于谷歌和百度學(xué)術(shù)期刊平均h5。學(xué)科平均h5 分布,百度學(xué)術(shù)差異性不大,CNKI 經(jīng)濟(jì)類、電子電信科技類平均h5 相差10 以上。學(xué)科內(nèi)部引文規(guī)律不同使得期刊所屬學(xué)科排名存在差異性。
基于h 指數(shù)的某一期刊高被引頻次反映了期刊的靜態(tài)影響,而IF 反映了期刊被引頻次的動(dòng)態(tài)影響。從2013 年IF(表2)可知,一般來(lái)說(shuō),IF 與期刊學(xué)術(shù)價(jià)值、影響力正相關(guān)。
100 種期刊中,《經(jīng)濟(jì)研究》h5、IF 均排第一,再次說(shuō)明該刊論文整體質(zhì)量非常高。比較前10 種期刊h5、IF 排名可知,除《經(jīng)濟(jì)研究》、《會(huì)計(jì)研究》外,其余期刊排名差值在10 以上。實(shí)際上,90%以上期刊Gh 與IF 排名差值均在10 以上。影響原因有二。其一,高水平高被引文章可提升期刊h5,低被引文章影響期刊h5;其二,IF 不但受論文被引頻次影響,還受論文發(fā)表數(shù)量影響。期刊出版周期短、刊載論文量高可影響期刊IF?!吨腥A醫(yī)院感染學(xué)雜志》屬醫(yī)學(xué)期刊,高被引論文多,2009-2013 年高被引論文47 篇以上達(dá)到了被引47 次(Gh 排第2),而2011-2012 年發(fā)表論文5310 篇,7284 次被引用在2013年。因此,論文基數(shù)大,影響該刊的平均IF(排第71)。
Gh、Ch、Bh 總排名中,《經(jīng)濟(jì)研究》都排第一,排名前10 的期刊所屬學(xué)科基本為經(jīng)濟(jì)、醫(yī)學(xué)和電力電信科技。這說(shuō)明h5 排名情況反映了國(guó)家的研究熱點(diǎn)和發(fā)展趨向,我國(guó)在這些領(lǐng)域研究突出、成果頗多。首先,我國(guó)處于改革攻堅(jiān)、經(jīng)濟(jì)發(fā)展關(guān)鍵期,不論是微觀的個(gè)量經(jīng)濟(jì)活動(dòng),還是宏觀的市場(chǎng)機(jī)制調(diào)控,為政府、企業(yè)和經(jīng)濟(jì)部門決策、發(fā)展提供的各種經(jīng)濟(jì)主張一直是我國(guó)學(xué)術(shù)研究的熱潮。生老病死雖是無(wú)法改變的生命運(yùn)動(dòng)規(guī)律,但是關(guān)注以治療預(yù)防生理疾病、提高人體生理機(jī)體健康為目的的醫(yī)學(xué)領(lǐng)域的研究,是大眾普遍關(guān)心的話題。另外,涉及國(guó)計(jì)民生的電力電信科技領(lǐng)域研究也反映出了公眾的呼聲。相比之下,其它學(xué)科h5 不高,除與學(xué)科間差異有關(guān)外,也因?yàn)椴糠謱W(xué)科不注重創(chuàng)新使得學(xué)科活躍指數(shù)不高。
上文3.1.4 分析可知,三者平均h5,醫(yī)學(xué)領(lǐng)域差異性最小,相關(guān)度最高。這是由于醫(yī)學(xué)學(xué)科具體期刊Gh、Bh 和Ch 指數(shù)差值相對(duì)于其他學(xué)科小。而這又是由于數(shù)據(jù)源的影響。谷歌、百度學(xué)術(shù)的醫(yī)學(xué)學(xué)科中引用數(shù)據(jù)來(lái)源除CNKI、維普等數(shù)據(jù)庫(kù)的學(xué)術(shù)期刊,還包括大量開(kāi)放存取資源。另外,也收錄了一些政府醫(yī)學(xué)信息中心等網(wǎng)站發(fā)布有關(guān)醫(yī)學(xué)、健康領(lǐng)域報(bào)告的被引情況。涵蓋大量的網(wǎng)頁(yè)資源是谷歌、百度學(xué)術(shù)與專業(yè)數(shù)據(jù)庫(kù)文獻(xiàn)來(lái)源的不同之處。
除《經(jīng)濟(jì)研究》外,Gh、Ch 和Bh 指數(shù)排名均不一致,差異性較大。Gh 和Ch 排名平均差值為6.52,Bh 和Ch 平均差值3.95。同一種期刊,70%以上Gh 低于Ch,85%以上期刊Bh 低于Ch。筆者認(rèn)為,與專業(yè)引文數(shù)據(jù)庫(kù)相比,谷歌和百度學(xué)術(shù)期刊論文引用次數(shù)偏低是主因。三方面因素造成這種主因出現(xiàn)。
第一,傳統(tǒng)CNKI 作為中文專業(yè)數(shù)據(jù)庫(kù)更新速度明顯優(yōu)于學(xué)術(shù)搜索引擎。以《軟件學(xué)報(bào)》中,敖莉等人發(fā)表的“重復(fù)數(shù)據(jù)刪除技術(shù)”一文為例,通過(guò)訪問(wèn)谷歌的《軟件學(xué)報(bào)》h5 指數(shù)鏈接,得到該文被引頻次為30,而測(cè)算CNKI 期刊h5 為83,百度學(xué)術(shù)h5 為64。逐一比較可知,周平等發(fā)表在2014 年第3 期《計(jì)算機(jī)工程與設(shè)計(jì)》的“基于兩級(jí)分塊的文件同步方法”一文引用該文情況,谷歌未計(jì)入被引數(shù)據(jù)統(tǒng)計(jì),僅收錄到了2014 年1 月份。百度學(xué)術(shù)被引頻次提示雖為64,但不提供被引頻次鏈接,故此處不具體分析。
第二,數(shù)據(jù)來(lái)源問(wèn)題。CNKI 引文數(shù)據(jù)來(lái)源于CNKI 收錄海量的期刊、博碩士學(xué)位論文、會(huì)議、專利等各種文獻(xiàn)。引文分析只有保證了數(shù)據(jù)源,才能做到數(shù)據(jù)分析的準(zhǔn)確性。以《圖書(shū)館學(xué)研究》中,林燕發(fā)表的“嵌入式館員——圖書(shū)館用戶服務(wù)新理念”一文為例,谷歌引文頻次為25,CNKI 引文頻次為27。逐一比較可知,25 篇均為期刊論文引用,CNKI 多出的2條 “泛在知識(shí)環(huán)境下數(shù)字圖書(shū)館服務(wù)研究”、“高校圖書(shū)館學(xué)科服務(wù)體系研究”均為碩士學(xué)位論文引用。百度學(xué)術(shù)雖提供檢索結(jié)果被引頻次排序功能,但部分不提供引文鏈接,故在此不具體分析。
結(jié)合h5 和IF,對(duì)期刊進(jìn)行靜態(tài)與動(dòng)態(tài)相結(jié)合的分析,才能定性和定量并客觀、公正的評(píng)價(jià)期刊學(xué)術(shù)價(jià)值和影響力。發(fā)表在具體期刊中高被引論文可提升期刊h 指數(shù)和IF,低被引論文影響h 指數(shù)和IF。《經(jīng)濟(jì)研究》2011 年-2012 年發(fā)表論文394篇,發(fā)表論文在2013 年被引達(dá)3265 次,測(cè)算IF 在100 種期刊中排名第一,h5 也排第一。高被引論文量影響h5,而論文發(fā)表量的多少對(duì)h5 影響不大,但對(duì)IF 的影響較大。《社會(huì)學(xué)研究》h5 排名靠后(第45),但I(xiàn)F 排第5(見(jiàn)表2)。究其原因,該刊為雙月刊,整體2009-2013 年高被引論文(Gh27,Ch40,Bh36)不多,但2011-2012 年該刊發(fā)表論文149 篇,2013 年被引811 次。論文篇數(shù)低,被引頻次高,IF 高。
100 種期刊中,h5 與IF 排名相差最大的3 種期刊《中華醫(yī)院感染學(xué)雜志》(相差69,以下同)、《中國(guó)實(shí)用婦科與產(chǎn)科雜志》(58)、《護(hù)理研究》(57)。三者均是h5 排名靠前,但I(xiàn)F 排名靠后。因此,h5 是測(cè)度期刊論文中高被引頻次論文的學(xué)術(shù)影響力,而IF 是以期刊所有論文平均被引頻次為基礎(chǔ),是衡量論文的平均學(xué)術(shù)影響力。另外,h5 測(cè)算論文被引頻次時(shí)間跨度2009 年-2013 年,IF 時(shí)間跨度為1 年。由表2 可知,h5 作為衡量期刊影響力評(píng)價(jià)指標(biāo)存在不足,應(yīng)與IF 綜合來(lái)衡量期刊總體的學(xué)術(shù)影響力。
h5 整體偏低。Gh、Bh 整體低于Ch,這與其數(shù)據(jù)來(lái)源有重要關(guān)系。谷歌、百度學(xué)術(shù)收錄文獻(xiàn)資源類型有限,CNKI 收錄期刊論文、學(xué)位論文、會(huì)議論文、專利等多種文獻(xiàn)。文獻(xiàn)源類型有限必然影響被引頻次,進(jìn)而影響h5。因此,谷歌、百度學(xué)術(shù)暫不可能取代專業(yè)引文檢索工具。
h5 過(guò)于集中,h 值分布不均衡。Gh 跨度從59 到23(最高到最低相差36,以下同)、Bh 跨度從78 到24(54),相比Ch 跨度從85 到28(57)低。其中Bh 跨度又高于Ch。Gh 存在相同h 值情況頗多、分布不均衡,相比Ch 值跨度大,h 值分布均衡來(lái)說(shuō),Gh 和Bh 在h 指數(shù)跨度和h 值良好分布上不占優(yōu)勢(shì)。而CNKI 作為專業(yè)中文期刊引文評(píng)價(jià)工仍具有不可替代的地位。
h5 統(tǒng)計(jì)數(shù)據(jù)科學(xué)性。文獻(xiàn)源影響h5 的統(tǒng)計(jì)分析。對(duì)于谷歌發(fā)布的中文期刊h5 以及通過(guò)測(cè)算百度學(xué)術(shù)期刊h5,均只能作為中文期刊h5 的參考。引文統(tǒng)計(jì)分析是基于嚴(yán)謹(jǐn)?shù)奈墨I(xiàn)源進(jìn)行的科學(xué)統(tǒng)計(jì)活動(dòng)。但谷歌在統(tǒng)計(jì)數(shù)據(jù)更新周期、數(shù)據(jù)不足上存在一定問(wèn)題。百度學(xué)術(shù)根本不提供被引頻次鏈接提示,科學(xué)性就更不足了。
h5 與IF 對(duì)被引頻次分析存在差異性。在學(xué)術(shù)搜索引擎基礎(chǔ)上,谷歌推出的Google Scholar Metrics 服務(wù)提供h5 以及通過(guò)百度學(xué)術(shù)h5 的測(cè)算,雖能靜態(tài)反映中文期刊被引情況,但不能動(dòng)態(tài)評(píng)價(jià)期刊平均被引率。h5 與IF 對(duì)被引頻次分析存在明顯差異性。因此,Gh、Bh 應(yīng)與IF 結(jié)合,綜合評(píng)價(jià)期刊。
Google Scholar Metrics 中文期刊h5 的權(quán)威性。為實(shí)現(xiàn)谷歌使命“整合全球信息,使人人都能訪問(wèn)并從中受益”[8],谷歌不斷推陳出新,從早期的谷歌學(xué)術(shù)搜索、圖書(shū)搜索,到現(xiàn)在的Google Scholar Metrics。引文分析作為嚴(yán)謹(jǐn)?shù)目茖W(xué)活動(dòng),在不能最大范圍保證中文文獻(xiàn)數(shù)據(jù)源前提下,基于被引頻次發(fā)布h5 指數(shù)的權(quán)威性值得思考。
2014 年,谷歌h5 發(fā)布與“百度學(xué)術(shù)搜索”上線發(fā)生在同一年同一月。不論是一種機(jī)緣巧合還是相互之間的默契,作為一種免費(fèi)學(xué)術(shù)搜索引擎期刊評(píng)價(jià)工具,他們具有操作簡(jiǎn)單、使用方便的優(yōu)點(diǎn)。但是,免費(fèi)學(xué)術(shù)搜索取代傳統(tǒng)專業(yè)檢索工具,尤其是免費(fèi)引文搜索取代傳統(tǒng)的引文數(shù)據(jù)庫(kù)仍然存在較多問(wèn)題。作為多語(yǔ)種引文檢索和分析的平臺(tái),Google Scholar Metrics仍具有重要的參考借鑒作用,但“百度學(xué)術(shù)搜索”則任重道遠(yuǎn)。
[1]Google scholar.Google Scholar Metrics[EB/OL].http://scholar.google.com.hk,2015-01-06.
[2]Google scholar metrics.Coverage of Publications[EB/OL].http://scholar.google.com.hk,2015-02-06.
[3]J.E.Hirsch.An index to quantify an individual’s scientific research output[J].Proceedings of the National Academy of Sciences of the USA,2005,(46):16569:16572.http://polymer.bu.edu,2015-02-07.
[4]葉鷹,唐健輝,趙星,等.H 指數(shù)及其變體[M].北京:科學(xué)出版社,2011:7.
[5]Google scholar metrics.Available Metrics[EB/OL].http://scholar.google.com.hk,2015-02-07.
[6]Coverage.Google Scholar Metrics[EB/OL].http://scholar.google.com.hk,2015-01-30.
[7]百度百科.百度學(xué)術(shù)[EB/OL].http://baike.baidu.com.2015-02-25.
[8]Google.Google 大全[EB/OL].https://google.com.hk.2015-02-20.