王嘉 孫謹芳 么鴻雁 劉劍君
?
·流行病學與統(tǒng)計學方法·
文獻計量學定律及其在結(jié)核病防治領域的應用
王嘉 孫謹芳 么鴻雁 劉劍君
文獻計量學是用來研究分析文獻的一種重要的方法學理論。文獻計量學的關鍵是定量,采用情報學與數(shù)學、統(tǒng)計學相結(jié)合的研究手段采集和處理數(shù)據(jù),用定量化方法對文獻特征進行分析處理。作者以結(jié)核病領域為例,通過實例介紹文獻計量學的基本定律及發(fā)展規(guī)律。
文獻計量學; 結(jié)核; 醫(yī)學信息學應用
文獻計量學是以文獻體系和文獻計量特征為研究對象,采用數(shù)學、統(tǒng)計學等計量研究方法,研究文獻情報的分布結(jié)構(gòu)、數(shù)量關系、變化規(guī)律和定量管理,并進而探討科學技術(shù)的某些結(jié)構(gòu)、特征和規(guī)律的一門學科[1]。文獻計量學的關鍵是定量,采用情報學與數(shù)學、統(tǒng)計學相結(jié)合的研究手段采集和處理數(shù)據(jù),用定量化方法對文獻特征進行分析處理。筆者以結(jié)核病防控領域為例,對文獻計量學基本定律和方法的應用加以綜述。
(一)布拉福德定律
布拉福德定律是英國著名文獻學家S.C.Bradford于1934年在Engineering雜志上發(fā)表的題為“Sourceofinformationonspecificsubjects”文章[2]中,率先提出的描述文獻分散規(guī)律的定律。布拉德福定律是文獻計量學的重要定律之一,它和洛特卡定律、齊普夫定律一起被并稱為文獻計量學的三大定律[3]。
該定律將科技期刊按其刊載專業(yè)論文的數(shù)量,以遞減順序排列,則可分出若干區(qū)域。其中,第一區(qū)域期刊中發(fā)表的文章數(shù)量占到全部文章發(fā)表數(shù)量的1/3。一般我們認為第一區(qū)域為核心期刊區(qū)域,所有在第一區(qū)域內(nèi)的期刊為核心期刊。這是一種簡便的確定該學術(shù)領域核心期刊的定律和方法。徐海琴等[4]發(fā)表的《我國肺結(jié)核10年文獻計量學分析》中顯示,2000—2009年我國共發(fā)表肺結(jié)核文獻16 018篇,分布在1029種雜志中;其中,發(fā)文量大于100篇的雜志共計21種,發(fā)文4882篇,占全部發(fā)文的30.48%,此21種雜志為結(jié)核病文獻發(fā)表的核心期刊。
學科內(nèi)核心期刊的確定,有助于讀者更有針對性的去閱讀期刊,查詢文獻。但布拉福德定律使用有嚴格的限制條件:(1)論文的學科、專業(yè)領域或課題范圍應當清晰劃定;(2)被分析學科、領域或課題的期刊清單及對這些期刊中刊載的相關論文的統(tǒng)計應當充分;(3)被分析期刊的時間應當清晰限定,以保證有關文獻數(shù)據(jù)統(tǒng)計的一致性。
(二)洛特卡定律
1926年,美國統(tǒng)計學家洛特卡在JournaloftheWashingtonAcademyofSciences上發(fā)表了題為“Thefrequencydistributionofscientificproductivity”的論文,提出“科學生產(chǎn)率”的概念,即指在一定時間內(nèi)科學工作者在科學上所表現(xiàn)出的能力和工作效果,通常用其生產(chǎn)的科學文獻數(shù)量來衡量[5]。該文首次揭示了科學論文作者與論文數(shù)量之間的關系,即寫2篇論文的作者數(shù)量約為寫1篇論文的作者數(shù)量的1/4;寫3篇論文的作者數(shù)量約為寫1篇論文作者數(shù)量的1/9;寫n篇論文的作者數(shù)量約為寫1篇論文作者數(shù)量的1/n2;而寫1篇論文作者的數(shù)量約占所有作者數(shù)量的60%。洛特卡定律可用于確定核心作者群,而核心作者群是指發(fā)文量較多、影響較大的作者群體[6]。
作者是期刊實現(xiàn)可持續(xù)發(fā)展的堅實基礎和無形資產(chǎn),作者隊伍的狀況很大程度上決定了期刊的質(zhì)量和學科的發(fā)展方向。而核心作者更是期刊質(zhì)量穩(wěn)固和持續(xù)發(fā)展的堅實基礎,反映出期刊在某一學科研究上的持續(xù)影響和輻射強度[7]。
常用的確定核心作者的方式是選用基于普賴斯定律和綜合指數(shù)法的測評方法,入選核心作者候選人的評價指標包括最低發(fā)文數(shù)和最低被引頻次[8]。范永德等[9]分析發(fā)現(xiàn),2004—2013年《中國防癆雜志》刊登論文第一作者共計1480名,其中核心作者群包括125名,發(fā)文426篇,占發(fā)文總數(shù)的20.37%(426/2091),核心作者發(fā)文被引3803次,占總被引頻次的43.40%(3803/8762)。
還有一種比較簡單的確認核心作者的方式,是通過統(tǒng)計作者發(fā)文數(shù)量來描述高產(chǎn)作者,在一定意義上也可以理解為核心作者。如王軍芳[10]發(fā)表的《PubMed收錄肺結(jié)核的放射診斷相關文獻的計量學分析》顯示,10 位作者發(fā)表5 篇以上的肺結(jié)核的放射診斷相關文獻,他們是該領域的多產(chǎn)作者,也是最活躍的研究者。
(三)齊普夫定律
美國語言學家齊普夫(G.K.Zipf)于1935年研究發(fā)現(xiàn)了關于文獻的詞頻分布規(guī)律。齊夫定律是以英語為基礎的詞頻統(tǒng)計規(guī)律,是詞頻分析研究的理論基礎。應用齊普夫定律及其參數(shù),可以預測關鍵詞的數(shù)量,計算各詞匯的重要程度,通過對于某一領域某一時間段內(nèi)關鍵詞的檢索及分析,可以確定該領域這一時間段內(nèi)研究方向及熱點。
云科等[11]發(fā)表的《HIV/AIDS合并結(jié)核研究熱點的文獻計量分析》顯示,通過檢索5875篇與TB/HIV 相關文獻,統(tǒng)計出大于100的高頻主題詞35個,再通過對高頻主題詞的共詞聚類分析,得出近10年TB/HIV領域研究熱點集中在藥物治療、診斷、流行病學、防治及免疫學5個方面。徐海琴等[4]發(fā)表的《我國肺結(jié)核10年文獻計量學分析》中顯示,通過主題詞頻次表可以總結(jié)出肺結(jié)核診斷研究熱點為:誤診、痰、影像學檢查;并存病或伴發(fā)病研究熱點為:糖尿病和HIV感染;治療的研究熱點為:藥物耐藥性;此外流行病學相關主題詞出現(xiàn)頻次較高。
(一)文獻增長規(guī)律
隨著科學的不斷發(fā)展,科學文獻的增長也成為一種客觀的社會現(xiàn)象。文獻增長研究廣泛應用于知識度量與知識管理、科學評價、科技政策制定和科技管理、信息研究、信息管理當中。著名科學家與科學史學家普賴斯(D.Price)提出了科學文獻的指數(shù)增長規(guī)律。普賴斯在其著作《巴比倫以來的科學》中考察統(tǒng)計了科學期刊的增長情況,發(fā)現(xiàn)科學期刊的數(shù)量大約每50年增長10倍。他以科技文獻量為縱軸,以歷史年代為橫軸繪制曲線,發(fā)現(xiàn)不同年代的科技文獻量的變化過程表現(xiàn)為一根光滑的曲線,這條曲線十分近似地展示了科技文獻量指數(shù)增長的規(guī)律。就結(jié)核病防治領域文獻發(fā)表情況來看,Ramos等[12]分析發(fā)現(xiàn),1997—2006年結(jié)核病文獻年均發(fā)表增長速率為4.7%。
(二)文獻老化規(guī)律
科技文獻發(fā)表之后,隨著時間的推移,相對于科學技術(shù)的迅速發(fā)展,其內(nèi)容會越來越“落伍”。文獻的老化就在于其隨“年齡”增長,會逐漸失去作為科技情報源的價值,利用率愈來愈低,甚至失去生命力。1958年,美國學者貝爾納(J.D.Bernal)首先提出利用“半衰期”(half life)來衡量文獻老化速度。文獻老化的應用研究有助于指導文獻信息源選擇、采集,評價館藏文獻的老化程度,評價文獻價值等。
么鴻雁等[13]發(fā)表的《1991—2002年〈中國防癆雜志〉的文獻計量學分析》顯示,將12年間《中國防癆雜志》778篇論著的3252條引用文獻進行普賴斯指數(shù)分析(期刊所引用文獻中近2年的文獻所占的比例),共有1530 條是近5年內(nèi)發(fā)表的。仲衛(wèi)功[14]發(fā)表的《〈中華結(jié)核和呼吸雜志〉2001至2005年引文分析及評價》顯示,《中華結(jié)核和呼吸雜志》文獻引用峰值出現(xiàn)在文獻發(fā)表后的第3~4年,引用半衰期為5.35年。
(三)文獻引用規(guī)律
科學研究的過程中,必然要借鑒前人或他人的相關研究成果。因此,科學文獻間也存在一種必然聯(lián)系。這種相互聯(lián)系突出表現(xiàn)為文獻間的相互引用。文獻引證關系分析是文獻引用規(guī)律研究的基礎,除了文獻間的直接引用關系之外,引文分析理論還著重考察文獻的其他最具代表性的間接引證關系,包括引文耦合(2篇或多篇文獻同時引用1篇或多篇相同文章)、同被引(2篇或多篇文獻共同被后來的1篇或多篇文獻所引用)、自引(著者引用自己以前的著述)等,從而研究科學引文的分布結(jié)構(gòu)和規(guī)律性。引文分析使用的主要工具是由美國著名的情報學家Eugene Garfield所創(chuàng)辦,美國科學信息研究所編制出版的《科學引文索引》(science citation index, SCI)。
論文的影響力主要體現(xiàn)在是否被引用。被引頻次的高低反映論文被同行重視的程度及論文在科學發(fā)展和學術(shù)交流中所起的作用和影響力。同時,也間接反映該論文的學術(shù)水平和價值。一般認為,被引頻次與論文質(zhì)量呈正相關。一篇論文被引頻次越高,說明該論文受關注的程度越高,學術(shù)影響力越大。
么鴻雁等[13]發(fā)表的《1991—2002年〈中國防癆雜志〉的文獻計量學分析》顯示,《中國防癆雜志》的平均自引率為18.4%。期刊自引是指期刊在其刊載文獻中,引用該刊以前所刊載的文獻的現(xiàn)象?;艚饦s[15]發(fā)表的《基于Web of Science的耐多藥結(jié)核文獻計量分析》顯示,已發(fā)表的耐多藥結(jié)核病文獻中世界衛(wèi)生組織發(fā)表的文獻被引頻率最高,達到41.24次,美國文獻總量和總的被引頻次均最高,而我國的耐多藥結(jié)核病文獻篇均被引頻次為15.26次。
文獻計量學作為一門獨立的學科已日漸成熟。未來,文獻計量學將從理論、方法和應用方面進一步加強學科體系的構(gòu)建,同時,針對已有公式進行進一步的探討,其發(fā)展也將逐步實業(yè)化和國際化。
同時,20世紀90年代中期,伴隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和網(wǎng)絡信息資源的激增,基于文獻計量學發(fā)展而來的一種新型的網(wǎng)絡信息計量工具,即網(wǎng)絡計量學也應運而生。網(wǎng)絡計量學是采用數(shù)學、統(tǒng)計學等各種定量方法,對網(wǎng)上信息的組織、存貯、分布、傳遞、相互引證和開發(fā)利用等進行定量描述和統(tǒng)計分析,以便揭示其數(shù)量特征和內(nèi)在規(guī)律的一門新興分支學科[16]。目前,網(wǎng)絡計量學比較常用的搜索引擎有Alta Vista、All the web、Google、Excite和ISI數(shù)據(jù)庫等。利用這些搜索引擎,可以開展文獻資料的網(wǎng)絡影響因子分析、鏈接關系分析,以及網(wǎng)絡計量學其他方面的研究。
[1] 國務院信息化工作辦公室“政府信息資源開發(fā)利用政策研究課題組”. 加強我國政府信息資源開發(fā)利用的若干問題. 中國信息界, 2005, 4(2):44-45.
[2] Bradford SC. Sources of information on specific subjects.J Inf Sci, 1985, 10(4): 173-180.
[3] 袁軍鵬.科學計量學高級教程. 北京:科學技術(shù)文獻出版社, 2010.
[4] 徐海琴, 馮博, 徐世俠.我國肺結(jié)核10年文獻計量學分析.中華臨床醫(yī)師雜志(電子版),2010,4(11):140-142.
[5] Lotka AJ. The frequency distribution of scientific productivity. J Wash Acad Sci, 1926, 16(12): 317-323.
[6] 徐紅星.《中國科技期刊研究》2008—2012年核心作者群的分析研究. 中國科技期刊研究, 2013, 24(6): 1074-1078.
[7] 鐘文娟. 從論文作者群統(tǒng)計看對外漢語期刊學術(shù)影響力——以《世界漢語教學》為例. 科技管理研究, 2011, 31(19): 64-68.
[8] 鐘文娟. 基于普賴斯定律與綜合指數(shù)法的核心作者測評——以《圖書館建設》為例. 科技管理研究, 2012, 32(2): 57-60.
[9] 范永德, 張曉進, 郭萌, 等. 《中國防癆雜志》近10年核心作者群及期刊主要評價指標變化情況分析. 中國防癆雜志, 2014, 36(9): 749-754.
[10] 王軍方.PubMed 收錄肺結(jié)核的放射診斷相關文獻的計量學分析. 臨床心身疾病雜志,2014, 20 (z1):72.
[11] 云科, 徐俊杰, 楚振興, 等. HIV/AIDS合并結(jié)核研究熱點的文獻計量分析. 國際病毒學雜志,2010,17(4):125-128.
[12] Ramos JM, Padilla S, Masiá M, et al.A bibliometric analysis of tuberculosis research indexed in PubMed, 1997—2006. Int J Tuberc Lung Dis, 2008, 12(12):1461-1468.
[13] 么鴻雁, 施侶元.1991—2002年《中國防癆雜志》的文獻計量學分析. 中國防癆雜志,2004,26(2):65-68.
[14] 仲衛(wèi)功.《中華結(jié)核和呼吸雜志》2001至2005年引文分析及評價.中華結(jié)核和呼吸雜志, 2007, 30(1):48-51.
[15] 霍金榮.基于Web of Science的耐多藥結(jié)核文獻計量分析.中國防癆雜志,2009,31(11):628-632.
[16] 張洋, 邱均平. 網(wǎng)絡信息計量學的興起及其哲學思考. 情報雜志, 2005, 24(1):2-5.
(本文編輯:李敬文)
Laws of bibliometric and the application in tuberculosis prevention and cure
WANGJia,SUNJin-fang,YAOHong-yan,LIUJian-jun.
ChineseCenterforDiseaseControlandPrevention,Beijing102206,China
LIUJian-jun,Email:liujj@chinacdc.cn
Bibliometrics is an important methodology for literature study and analysis. Quantitative analysis is the key of bibliometrics. It combines information science, mathematics and statistics to collect and process the data, and use quantitative method to analyze the literature characteristics. We introduce the fundamental law and development of Bibliometrics, by applying it in the field of tuberculosis prevention and cure.
Bibliometrics; Tuberculosis; Medical information applications
10.3969/j.issn.1000-6621.2016.04.004
中國疾病預防控制中心青年科研基金課題(2015A204)
102206 北京,中國疾病預防控制中心
劉劍君,Email:liujj@chinacdc.cn
2016-03-07)