□楊魯捷
在讀者對(duì)期刊全文數(shù)據(jù)庫(kù)依賴(lài)程度越來(lái)越高的大背景下,期刊全文數(shù)據(jù)庫(kù)收錄年限相符度的問(wèn)題應(yīng)引起圖書(shū)館工作者的關(guān)注。根據(jù)數(shù)據(jù)庫(kù)官方網(wǎng)站提供的信息:清華大學(xué)主辦的“中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)”(簡(jiǎn)稱(chēng)清華庫(kù))所收最早的期刊為1915年出版,部分期刊回溯到創(chuàng)刊[1];維普資訊的“中文科技期刊數(shù)據(jù)庫(kù)”(簡(jiǎn)稱(chēng)維普庫(kù))從 1989年起收[2];萬(wàn)方數(shù)據(jù)的“萬(wàn)方學(xué)術(shù)期刊數(shù)據(jù)庫(kù)”(簡(jiǎn)稱(chēng)萬(wàn)方庫(kù))從1998年開(kāi)始收錄[3]。使用“收錄年限”、“收錄期刊年限”作為檢索詞,在上述三庫(kù)中檢索得到 20篇左右的相關(guān)文獻(xiàn),這些論文[4-8]提到數(shù)據(jù)庫(kù)收錄年限問(wèn)題時(shí),除石光 2008年在《中文期刊全文數(shù)據(jù)庫(kù)收錄圖書(shū)情報(bào)學(xué)期刊的比較研究》一文涉及收錄年限完整性的問(wèn)題外,其他文獻(xiàn)總是直接引用數(shù)據(jù)庫(kù)供應(yīng)商的宣傳,沒(méi)有對(duì)數(shù)據(jù)庫(kù)實(shí)際收錄期刊年限進(jìn)行調(diào)查,但石光的研究?jī)H限于對(duì)圖書(shū)情報(bào)類(lèi)期刊收錄完整性的比較,并不掌握期刊全文庫(kù)收錄年限相符度的整體情況。
僅根據(jù)數(shù)據(jù)庫(kù)供應(yīng)商提供的信息,往往會(huì)給很多用戶(hù)造成這樣一種印象——這些期刊全文數(shù)據(jù)庫(kù)收錄的成千上萬(wàn)種期刊,都是從某某年開(kāi)始收錄,非常完整,有了這些數(shù)據(jù)庫(kù)就等于擁有了從某某年開(kāi)始至今的全部期刊,一年都不會(huì)缺漏,印本期刊的管理就可以放松要求了……。但是一個(gè)眾所周知的事實(shí)是——并非所有的期刊都是從1915年或 1989年創(chuàng)刊并一直存在,數(shù)據(jù)庫(kù)收錄某刊也未必能從該刊的創(chuàng)刊年開(kāi)始收錄。甚至還存在一種情況,某刊存在,同時(shí)也在數(shù)據(jù)庫(kù)設(shè)定的收錄范圍內(nèi),但數(shù)據(jù)庫(kù)卻未收錄。例如,1981年創(chuàng)刊的《大學(xué)圖書(shū)館學(xué)報(bào)》,清華、維普、萬(wàn)方三庫(kù)分別從 1983年、1989年、1998年起收,而1992年創(chuàng)刊的《國(guó)家圖書(shū)館學(xué)刊》,清華、維普、萬(wàn)方三庫(kù)實(shí)際起收年則為1992年、2000年和2001年。由此二例即可看出,期刊全文數(shù)據(jù)庫(kù)的實(shí)際收錄年限與其官方網(wǎng)站上提供的收錄年限未必相符,在數(shù)據(jù)庫(kù)中,與宣稱(chēng)的收錄年限不符的期刊有多少,占收錄期刊的多大比例,尚未有人作過(guò)統(tǒng)計(jì),這正是本文研究的問(wèn)題。
為了檢驗(yàn)數(shù)據(jù)庫(kù)收錄年限的相符程度,筆者提出了“收錄年限相符度”的概念,“收錄年限相符度”(Indexed Year Match Degree)縮寫(xiě)為“IYMD” ,是指數(shù)據(jù)庫(kù)收錄期刊中與數(shù)據(jù)庫(kù)公布的收錄年限相符的刊種數(shù)(n)與數(shù)據(jù)庫(kù)收錄的全部刊種數(shù)(N)之比。后文均以“IYMD”代表該概念?!癐YMD”需要實(shí)際統(tǒng)計(jì)才能獲得,不可想當(dāng)然地認(rèn)為IYMD=100%。對(duì)于收錄期刊種數(shù)眾多的綜合型數(shù)據(jù)庫(kù)而言,更要使用抽樣統(tǒng)計(jì)的方法進(jìn)行計(jì)算。本文以三大中文期刊全文數(shù)據(jù)庫(kù)為例對(duì)數(shù)據(jù)庫(kù)的“IYMD”問(wèn)題進(jìn)行研究,并以實(shí)例演示“IYMD”的計(jì)算方法。
根據(jù)2009年10月份獲得的三庫(kù)期刊導(dǎo)航的數(shù)據(jù),清華庫(kù)收錄期刊7531種[9],維普庫(kù)收錄期刊15870種[10],萬(wàn)方庫(kù)收錄期刊 6414種[11],由于涉及期刊種數(shù)眾多,故本文采用了抽樣統(tǒng)計(jì)的方法計(jì)算三庫(kù)的“IYMD”,并對(duì)影響“IYMD”的重要因素進(jìn)行分析。
圖1 樣本數(shù)量計(jì)算公式
上圖所示公式是不重復(fù)抽樣時(shí),計(jì)算整體成數(shù)應(yīng)抽樣本數(shù)量的計(jì)算公式。成數(shù)是指一數(shù)為另一數(shù)的幾成,泛指比例[12]。公式中:“n”為在一定的極限誤差和置信度要求下,應(yīng)抽取的樣本數(shù)量,本次統(tǒng)計(jì)中極限誤差設(shè)定為±5%,置信度要求是95%;“N”是總體數(shù)量;“Δ p”是統(tǒng)計(jì)項(xiàng)目允許的抽樣誤差范圍;“z”是標(biāo)準(zhǔn)正態(tài)分布雙側(cè)臨界值,該值與統(tǒng)計(jì)項(xiàng)目要求的概率置信度對(duì)應(yīng),在95%的置信度要求下 ,“z”值為 1.96;“ P” 是總體成 數(shù),根據(jù)統(tǒng)計(jì)學(xué) 知識(shí),如果過(guò)去進(jìn)行過(guò)此方面調(diào)查,可取最大值,如果沒(méi)有進(jìn)行此方面調(diào)查 ,取 p=0.5;“Q”=1-P。
按該公式計(jì)算得到,考察三庫(kù)“IYMD”需要抽取期刊的種數(shù)分別為:清華庫(kù)366種,維普庫(kù)376種,萬(wàn)方庫(kù)362種。
具體的選刊和統(tǒng)計(jì)過(guò)程中分為三個(gè)階段:階段一,構(gòu)建三庫(kù)收錄期刊數(shù)據(jù)表;階段二,根據(jù)“成數(shù)樣本容量計(jì)算公式”計(jì)算得到應(yīng)抽取樣本刊的種數(shù),對(duì)三庫(kù)收錄期刊按刊名排序后進(jìn)行等間隔抽樣;階段三,對(duì)抽樣選取的期刊,逐刊檢索并記錄其在相應(yīng)數(shù)據(jù)庫(kù)中實(shí)際收錄年限,記錄完成后進(jìn)行“IYMD”計(jì)算。
2.2.1 構(gòu)建三庫(kù)收錄期刊數(shù)據(jù)庫(kù)
根據(jù)三庫(kù)期刊導(dǎo)航信息,將三庫(kù)收錄期刊目錄導(dǎo)入數(shù)據(jù)庫(kù)程序,可以構(gòu)建三庫(kù)收錄期刊的數(shù)據(jù)表。由于涉及數(shù)據(jù)多,本文僅將三庫(kù)收錄期刊數(shù)據(jù)表的截圖放在文中,如圖2。本文采集數(shù)據(jù)的時(shí)間是2009年10月。
2.2.2 選擇期刊、獲取期刊收錄年限數(shù)據(jù)
在數(shù)據(jù)庫(kù)收錄期刊表整理完畢后,先按期刊刊名首字母字順排列,再按照一定的間隔選取期刊、核對(duì)其實(shí)際收錄年份。間隔確定依據(jù)的公式是s=INT(N/n)-1,其中“s”代表間隔 ,“N”代表“數(shù)據(jù)庫(kù)收錄期刊種數(shù)”,“n”代表“應(yīng)抽取期刊種數(shù)”,“INT”為將數(shù)值向下取整為最接近的整數(shù)。以清華庫(kù)為例,清華庫(kù)收錄期刊按刊名拼音首字母排序后,等距選取期刊的間隔為19(19=INT(7531/366)-1)。將三庫(kù)收錄期刊均按此法選取對(duì)應(yīng)種數(shù)的期刊后,逐一在數(shù)據(jù)庫(kù)中檢索并記錄其實(shí)際收錄年限,得到圖3。
圖2 三庫(kù)收錄期刊表截圖
圖3 三庫(kù)選取期刊及收錄年限記錄表截圖
經(jīng)檢索得到三庫(kù)收錄期刊的實(shí)際年限信息后,即可通過(guò)計(jì)算得到三庫(kù)的“IYMD”,計(jì)算結(jié)果記錄在表1中。刊的創(chuàng)刊年的檢索、記錄,比較三方面的關(guān)系,得到如圖4所示三個(gè)數(shù)據(jù)表,以表中數(shù)據(jù)為依據(jù),對(duì)各種關(guān)系類(lèi)型的期刊比例進(jìn)行統(tǒng)計(jì),結(jié)果記錄在表2中。
表1 數(shù)據(jù)庫(kù)收錄期刊年限相符度記錄表
圖4 三庫(kù)收錄年限、實(shí)際收錄年、期刊創(chuàng)刊年關(guān)系比較過(guò)程截圖
根據(jù)統(tǒng)計(jì),可以得到如下結(jié)果:按照三庫(kù)公布的收錄時(shí)限,清華庫(kù)的“IYMD”是 73.8%,維普庫(kù)的“IYMD”是 31.7%。萬(wàn)方庫(kù)如果按1998年為收錄起始年,“IYMD”僅為7.5%,即使將萬(wàn)方庫(kù)的起始年定為1999年,其“IYMD”也僅僅達(dá)到23.8%。
影響“IYMD”的主要因素有:①數(shù)據(jù)庫(kù)收錄年限、實(shí)際收錄年份與期刊創(chuàng)刊年的關(guān)系;②數(shù)據(jù)庫(kù)對(duì)更名刊的處理方式;③建庫(kù)依據(jù)的印本資源;④其他可能因素。因素③是指建庫(kù)過(guò)程中使用紙本期刊資源的完整性,由于三庫(kù)分別以清華大學(xué)圖書(shū)館、中國(guó)科技情報(bào)所重慶分所、中國(guó)科學(xué)技術(shù)信息研究所的紙本期刊資源為依據(jù),且三庫(kù)均可使用國(guó)內(nèi)開(kāi)展的文獻(xiàn)傳遞服務(wù),因此三庫(kù)可使用的印本期刊資源實(shí)際上是相同的,本文不作深究。其他可能的影響因素待后續(xù)工作進(jìn)行研究,本文重點(diǎn)對(duì)第 1、第2兩個(gè)因素進(jìn)行研究。
3.2.1 數(shù)據(jù)庫(kù)收錄年限標(biāo)準(zhǔn)、實(shí)際收錄年份、期刊創(chuàng)刊年關(guān)系比較
根據(jù)統(tǒng)計(jì)學(xué)的定義,統(tǒng)計(jì)數(shù)據(jù)庫(kù)“收錄年限”、“實(shí)際收錄年份”與“期刊創(chuàng)刊時(shí)間”三方面各類(lèi)型關(guān)系的比例也屬于計(jì)算“成數(shù)”的范疇,因此獲取三庫(kù)三方面各關(guān)系類(lèi)型信息所需抽取的期刊種數(shù)仍為366種、376種與 362種,本文仍使用統(tǒng)計(jì)“IYMD”時(shí)抽取的期刊為樣本進(jìn)行統(tǒng)計(jì)。通過(guò)對(duì)三庫(kù)選取期
在獲取了三庫(kù)選定期刊的創(chuàng)刊時(shí)間、實(shí)際收錄年限后,對(duì)比三庫(kù)收錄期刊的公示年限,本文對(duì)三庫(kù)中不在公示年限的期刊,也就是“起收年晚于收錄標(biāo)準(zhǔn)”的期刊作進(jìn)一步分析。結(jié)果匯總在表3中。
通過(guò)對(duì)“收錄年限”、“實(shí)際收錄年份”與“期刊創(chuàng)刊年”三者關(guān)系的比較,發(fā)現(xiàn)三庫(kù)都存在一定比例的“應(yīng)收未收”的期刊,也就是期刊已經(jīng)創(chuàng)刊并發(fā)行,在數(shù)據(jù)庫(kù)應(yīng)收錄年限范圍內(nèi),但數(shù)據(jù)庫(kù)未收錄的期刊。三庫(kù)存在這種現(xiàn)象的期刊所占比例分別為9.8%、23.1%、80.1%。
表2 三庫(kù)收錄年限、實(shí)際收錄年、期刊創(chuàng)刊年關(guān)系記錄表
表3 不在收錄公示年限的期刊比例
3.2.2 更名刊處理方式對(duì)收錄年限的影響
為探討數(shù)據(jù)庫(kù)對(duì)更名刊處理方式的不同是否會(huì)對(duì)收錄年限造成影響,筆者按統(tǒng)計(jì)學(xué)的要求,對(duì)三庫(kù)共收的更名刊的處理方式以及不同處理方式所占的比例進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果匯總在表4
表4 三庫(kù)對(duì)更名刊的處理方式匯總表
總結(jié)三庫(kù)對(duì)更名刊的處理方式,得到的結(jié)果是:清華庫(kù) 93.9%的期刊使用了自動(dòng)跳轉(zhuǎn)功能,新、老刊名的檢索結(jié)果指向的是同一條記錄。維普庫(kù)中能檢索到的老刊名雖不自動(dòng)跳轉(zhuǎn)到新刊名,但新老刊名原文鏈接使用相同的記錄。萬(wàn)方庫(kù)收錄年限較短,65.6%的更名刊僅收錄了期刊更名后的部分,另外32.8%的期刊能跳轉(zhuǎn)到新刊名,老刊名不獨(dú)立列出。維普庫(kù)和萬(wàn)方庫(kù)均有個(gè)別期刊更名前后使用兩條記錄表示,但比例很小,均小于 1%。綜合而言,更名刊處理方式對(duì)數(shù)據(jù)庫(kù)判斷期刊收錄年限相符度影響不大。
(1)現(xiàn)有的中文期刊全文數(shù)據(jù)庫(kù)收錄年限相符度偏低的現(xiàn)象應(yīng)引起圖書(shū)館工作者、尤其是期刊工作者的重視,萬(wàn)萬(wàn)不可主觀地認(rèn)為使用了期刊全文數(shù)據(jù)庫(kù)就擁有了全部期刊文獻(xiàn),更不能因?yàn)橘?gòu)買(mǎi)了全文數(shù)據(jù)庫(kù)就放松對(duì)印本期刊的收藏和管理,只有在可靠的經(jīng)濟(jì)、技術(shù)、法律保障前提下,才能考慮用數(shù)字化期刊完全替代印本期刊。
(2)圖書(shū)館用戶(hù)對(duì)期刊全文數(shù)據(jù)庫(kù)的依賴(lài)程度越來(lái)越高,因此提高數(shù)據(jù)庫(kù)質(zhì)量的要求日益緊迫,數(shù)據(jù)庫(kù)開(kāi)發(fā)商應(yīng)義不容辭地對(duì)“應(yīng)收未收”的期刊進(jìn)行補(bǔ)全,以提高期刊全文數(shù)據(jù)庫(kù)的收錄質(zhì)量。
(3)在本文研究過(guò)程中筆者注意到,不僅存在收錄年限相符度問(wèn)題,收錄期刊的連續(xù)性也存在問(wèn)題。也就說(shuō)數(shù)據(jù)庫(kù)中存在漏年、漏期現(xiàn)象,應(yīng)引起重視。
1 中國(guó)學(xué)術(shù)期刊(光盤(pán)版)電子雜志社.“中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)”簡(jiǎn)介.[2009-10-01].http://epub.cnki.net/grid2008/jianjie/introduction.ashx?dbprefix=CJFQ
2 維普資訊.中文科技期刊數(shù)據(jù)庫(kù)機(jī)構(gòu)鏡像版首頁(yè).[2009-10-01].http://202.197.191.202/index.asp
3 萬(wàn)方數(shù)據(jù)有限公司.萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)——幫助中心.[2009-10-01].http://www.wanfangdata.com.cn/help/index.html
4 石光.中文期刊全文數(shù)據(jù)庫(kù)收錄圖書(shū)情報(bào)學(xué)期刊的比較研究.農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2008(3):121-124
5 彭曉慶等.中國(guó)期刊網(wǎng)、萬(wàn)方數(shù)字化期刊與中文科技期刊數(shù)據(jù)庫(kù)內(nèi)容性能之比較.中國(guó)索引,2007(1):48-52
6 李樹(shù)民,許靜.中國(guó)三大全文數(shù)據(jù)庫(kù)收錄醫(yī)藥類(lèi)專(zhuān)業(yè)期刊比較分析.農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2007(7):162-165
7 杜云祥等.國(guó)內(nèi)5大中文生物醫(yī)學(xué)期刊數(shù)據(jù)庫(kù)文獻(xiàn)收錄比較研究.預(yù)防醫(yī)學(xué)情報(bào)雜志,2006(2):162-166
8 顧立茵.網(wǎng)上三大中文期刊數(shù)據(jù)庫(kù)特點(diǎn)功能比較.現(xiàn)代情報(bào),2005(1):135-137
9 中國(guó)學(xué)術(shù)期刊(光盤(pán)版)電子雜志社.中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)期刊導(dǎo)航.[2009-10-02].http://acad.cnki.net/Kns55/oldnavi/n_Navi.aspx?NaviID=100
10 維普資訊.中文科技期刊數(shù)據(jù)庫(kù)期刊導(dǎo)航.[2009-10-02].http://202.197.191.202/Visitnew.asp
11 萬(wàn)方數(shù)據(jù)有限公司.萬(wàn)方數(shù)據(jù)學(xué)術(shù)期刊期刊導(dǎo)航.[2009-10-02].http://c.wanfangdata.com.cn/periodical.aspx
12 范秀榮,蘇繼偉.統(tǒng)計(jì)學(xué).成都:西南財(cái)經(jīng)大學(xué)出版社,2007:206-209