●郭 強,趙 瑾,劉思源,張 芳,劉新新,王玲玉
(1.鄭州大學 信息管理系,鄭州 450001;2.中國人民解放軍炮兵學院 軍事運籌教研室,合肥 230031)
對期刊下載次數(shù)進行研究有一定的理論及實際意義。第一,從學術價值評價的角度,引文分析作為一種評價的方法有其局限性。例如,使用但未被引用的文獻的學術價值應當如何去衡量,畢竟作者在最終成果中引用的文獻往往只是其科研活動中所使用過的文獻的一部分,而下載次數(shù)在一定程度上能夠與文獻的被閱讀次數(shù)或者是受利用的程度相對應,當然這需要在網(wǎng)絡環(huán)境下。再如,引文分析具有相對的滯后性,而利用文獻的下載次數(shù)則有可能使對學術價值的評價有所提前。第二,下載次數(shù)是網(wǎng)絡資源的基本屬性,對下載次數(shù)的考察是網(wǎng)絡計量學理論研究的組成部分,而且探討下載次數(shù)所服從的規(guī)律會有助于對用戶信息需求行為的理解,從而為資源配置的優(yōu)化提供定量依據(jù)。對下載次數(shù)的已有研究主要包括對期刊下載頻次在期刊中分布狀況的考察,以及下載頻次與其它評價指標之間的比較研究和等級相關分析,[1-3]其中的原始數(shù)據(jù)均取自《中國學術期刊網(wǎng)絡計量測試報告》以及《中國學術期刊綜合引證報告》。本文則側(cè)重于隨學科屬性的不同下載次數(shù)在期刊中分布狀況的差異,需要指出在對分布狀況進行比較的過程中會涉及到期刊下載次數(shù)的概率分布。
如果將期刊的下載次數(shù)視為隨機變量,那么考察該變量的概率分布則具有較為基礎的理論意義?!吨袊鴮W術期刊網(wǎng)絡出版總庫》的鏡像站版已對其入庫期刊按照學科性質(zhì)進行了分類,并且能夠提供各期刊的下載次數(shù),在這里我們將其作為數(shù)據(jù)來源,并得到下載次數(shù)在期刊中的頻次分布。如圖1所示,統(tǒng)計時間為2009年3月。
圖1 期刊按下載次數(shù)的分布圖
圖1對不同的學科屬性分別進行了考察,包括理工與人文,也包括學科界限較為明晰的農(nóng)業(yè)科技以及相對模糊的信息科學,目的是希望得到一些具有共性的規(guī)律。從直觀上來看,下載次數(shù)在期刊中并不服從正態(tài)分布,而是與負指數(shù)分布較為吻合,曲線擬合的結(jié)果也從側(cè)面說明了這一點。比如對于基礎科學類,擬合曲線為y=79.637exp(-x/8.768)-0.133,且判定系數(shù)為0.978;對于社會科學類,擬合曲線為y=103.085exp(-x/6.896)+0.119,且判定系數(shù)高達 0.998,對于圖中其余的學科屬性均具有類似的情形,其中x和y分別為下載次數(shù)和相應學科的期刊百分比。
下載次數(shù)的頻次(概率)分布是對該隨機變量進行統(tǒng)計分析的基礎,由此種種較為成熟的統(tǒng)計分析方法才能夠得以運用,畢竟每種方法都有其適用范圍。例如對期刊的學術價值或是影響力等進行綜合評價,在建立評價指標體系的過程中,不僅需要考察單個指標自身的性質(zhì),也需要考察指標之間的相互關系,從而對各指標的權(quán)重進行確定。因此需要對下載次數(shù)與其它文獻計量指標,比如期刊的被引次數(shù)等,進行統(tǒng)計相關分析。一種方法是簡單相關分析,但是該方法要求所考察的隨機變量需要服從正態(tài)分布,對于期刊的下載次數(shù)與被引次數(shù),盡管可以按照該方法,由所采集的期刊樣本集來得到兩個變量的樣本對集合,并進行相應的相關系數(shù)計算以及假設檢驗,但是期刊的下載次數(shù)與被引次數(shù)作為隨機變量未必服從正態(tài)分布。實際上,統(tǒng)計數(shù)據(jù)的經(jīng)驗考察結(jié)果往往表現(xiàn)為,對于下載次數(shù)較高(低)的期刊,其數(shù)量相對較少(多),從直觀上頻次的分布特征是與負指數(shù)分布較為吻合的,且能夠較好地通過假設檢驗,對于期刊的被引次數(shù)同樣有類似的情形。需要指出,期刊的下載次數(shù)是諸多影響因素共同作用的結(jié)果,包括期刊自身的學術質(zhì)量、期刊所屬學科的性質(zhì)與發(fā)展狀況、網(wǎng)絡環(huán)境的改善與數(shù)字技術的更新以及用戶的偏好等,所以下載次數(shù)的分布狀況從直觀上會有其復雜性;其次,雖然經(jīng)驗考察具有方法上的直觀優(yōu)勢,但是在對一般性規(guī)律進行探討時會有其局限性,對經(jīng)驗結(jié)果的深入理解以及對下載次數(shù)分布規(guī)律的本質(zhì)探求需要對下載次數(shù)進行諸如基礎模型的構(gòu)建等解釋性研究。盡管經(jīng)驗分析會有其不足,但是其結(jié)果至少能夠從側(cè)面反映,對于考察下載次數(shù)與其它文獻計量指標的統(tǒng)計相關程度而言,簡單相關分析會有其方法上的局限性,從而需要考慮到等級相關分析。[1,3]因為該方法適用于所考察的隨機變量不服從正態(tài)分布或其分布為未知的情形。
圖1給出了在特定學科中對應于不同下載次數(shù)的期刊數(shù)量,從另外一個角度來看,圖1也是給出了在該學科中期刊具有不同的下載次數(shù)的概率分布,從而是將期刊的下載次數(shù)視為離散型隨機變量,并給出了相應的分布列,由此可以求得在該學科中期刊下載次數(shù)的期望值,或是對期刊的下載次數(shù)進行估計,以及對不同學科屬性的期刊下載特性進行比較。畢竟對于圖書館而言,不同學科屬性的期刊效費比會有所不同,電子資源的購買與維護等成本需要與該電子資源的受利用程度相匹配,[4]而受利用的程度在不嚴格的意義下可以用下載次數(shù)來進行表征,這也是對電子期刊的下載狀況進行考察的另外一個原因,特別是隨著網(wǎng)絡技術以及數(shù)字技術的發(fā)展,電子期刊因其在使用上所具有的便捷優(yōu)勢,使得圖書館往往會面臨到這樣的矛盾:一方面,用戶對電子資源的使用偏好會導致對電子資源的使用量的逐漸增加,另一方面還需要考慮到電子資源的購置成本以及它對傳統(tǒng)期刊購置經(jīng)費的影響,[4]所以需要考察各類型電子期刊的效費比,以期為電子期刊的購置提供判據(jù),目的是為了在經(jīng)費給定的約束條件下實現(xiàn)資源配置的最優(yōu)化。利用期刊下載次數(shù)的概率分布可以得到一些有意義的結(jié)論,諸如有80%的把握能夠保證某學科期刊的下載次數(shù)不低于某數(shù)值,由此可用來估計該學科期刊的下載次數(shù)的下限,或者是某學科期刊的下載次數(shù)不低于某個計劃數(shù)值的概率,即P(d≥a) =1-F(a),其中d為下載次數(shù),a為計劃數(shù)值,可以由該學科電子期刊的購置成本來進行計算,F(xiàn)為隨機變量d的分布函數(shù),具體的時間范圍則要與概率分布的統(tǒng)計時間范圍相一致。需要指出,圖1的原始數(shù)據(jù)是取自CNKI鏡像站,原始數(shù)據(jù)需要具有共同討論的基礎才能夠進行相互間的比較,鏡像站所提供的下載次數(shù)是期刊從其開始提供下載到統(tǒng)計截至時間的總的下載次數(shù),但是不同期刊的入網(wǎng)時間會有差異,對于這種情形,在這里是采用統(tǒng)計對象為期刊的大樣本集合且考察時間為足夠長的方法,來盡可能消除由這種差異所帶來的影響,畢竟截止于CNKI五年規(guī)劃 (1999—2004) 的結(jié)束期,[5]CNKI在期刊網(wǎng)絡出版方面的發(fā)展已經(jīng)相對較為成熟,期刊的入網(wǎng)率也相對較高,從而能夠近似保證原始數(shù)據(jù)相互之間的可比性。同時,如果期刊的下載量足夠大,那么由誤操作或是由人為提升下載次數(shù)等因素所帶來的對統(tǒng)計特性的影響也可以忽略不計。另外,在圖1中是對下載次數(shù)的取值范圍進行了分區(qū),并對各個小區(qū)間上的期刊分布狀況分別進行了考察,因此是對下載次數(shù)進行了離散處理,這種方法有其直觀性,但是也有其不足之處,畢竟期刊的下載次數(shù)在理論上是可以連續(xù)取值的,所以將下載次數(shù)視為連續(xù)型隨機變量會更為合適。由此可以考察相應的連續(xù)型分布函數(shù)以及概率密度函數(shù),而且這種連續(xù)性也使得微積分等數(shù)學工具可以運用進來,從而對下載次數(shù)的研究也可以更具可拓性。
布拉德福定律是文獻計量學的基本規(guī)律,描述的是論文在所屬期刊中的分布狀況,體現(xiàn)了文獻在相應期刊中的集中與分散狀況的對立與統(tǒng)一。與期刊論文類似,期刊的下載次數(shù)同樣可以視為期刊的信息產(chǎn)出,由此,進一步地,能否按照布拉德福定律來對期刊的下載次數(shù)進行考察,目的是為了得到關于下載次數(shù)的規(guī)律性認識,同時也能夠使布拉德福定律的相關研究建立在更為寬泛的基礎之上,對于該定律的理解也可以更為深入。
考察下載次數(shù)在期刊中的分布狀況,如果按照布拉德福定律的分區(qū)描述,則需要考察以下命題是否成立,給定有限長的考察時段,將特定學科或是主題的期刊按照在該時段內(nèi)被下載的次數(shù)降序排列;若對所得期刊列表進行分區(qū),且使各分區(qū)對應的累積下載頻次相同,則各分區(qū)的期刊累積數(shù)會構(gòu)成等比數(shù)列。也即若將總的下載次數(shù)p等分,則存在實數(shù)r與k使得期刊列表中的前r份期刊、其后的rk以及后續(xù)的rk2、一直到最后的rkp-1份期刊都對應相同的累積下載頻次M/p,且r+rk+rk2+...+rkp-1=N,其中M為下載總次數(shù),k為布拉德福常數(shù),N為期刊總數(shù)。也可以對累積下載頻次與期刊累積數(shù)之間的函數(shù)關系進行考察,并進行相應的曲線擬合,[1-3]在這里我們采取同樣的方法,但是更加側(cè)重于不同學科屬性之間的相互比較。
仍然利用圖1的原始數(shù)據(jù),同樣是因為選取期刊大樣本,且截止到2004年CNKI的期刊數(shù)字化生產(chǎn)能力能夠達到每月6000種,已經(jīng)占到了當時期刊總量的75%,具有較高的期刊入網(wǎng)率,[5]再加上考察時間較長等原因,所以在這里是忽略了期刊入網(wǎng)時間的差異所帶來的影響,從而近似認為數(shù)據(jù)集合中各期刊的起始考察時間相同,故能夠近似滿足在布拉德福定律中針對各期刊的相同考察時段這一要求。那么,作為下載次數(shù)在相應期刊中分布狀況的一種表現(xiàn),由圖1中的原始數(shù)據(jù)可以得到期刊的累積下載頻次與期刊累積數(shù)之間的關系如圖2所示,其中n為期刊累積數(shù)。
圖2 累積下載頻次與期刊累積數(shù)的關系圖
在圖2中,不同學科屬性的Lnn與m之間的函數(shù)關系從直觀上都能夠與傳統(tǒng)布拉德福定律的圖像描述相吻合,而且格魯斯下垂也能夠納入進來。同時曲線擬合的結(jié)果也與布魯克斯公式相一致。例如對于基礎科學類期刊,在布拉德福定律的分區(qū)描述中取p為3來確定期刊的核心區(qū),所得核心以及非核心區(qū)的累計下載頻次m與期刊累積數(shù)n之間的擬合關系分別為m=1866965.344n0.647以及m=18310431.901Lnn-53447472.841,核心與非核心區(qū)擬合結(jié)果的判定系數(shù)分別是0.977與0.994,且經(jīng)F檢驗,是在顯著性水平為0.05的條件下m與n之間分別存在冪函數(shù)以及對數(shù)函數(shù)關系。類似地,對于農(nóng)業(yè)科技類期刊,核心與非核心區(qū)的擬合曲線分別為m=1108608.572n0.606以及m=12777331.067Lnn-40878815.751,且判定系數(shù)分別高達0.999與0.996,同樣能夠很好地通過假設檢驗,其它學科屬性的期刊集合具有相似的擬合情形,所以從統(tǒng)計數(shù)據(jù)上看,可以認為下載次數(shù)在期刊中的布拉德福分布特性達到了顯著水平,而這與下載次數(shù)的已有結(jié)論是相吻合的,[1-3]這種一致性也能夠從側(cè)面反映出原始數(shù)據(jù)的選取具有一定的合理性。
圖2描述了期刊累積數(shù)與累積下載頻次之間的關系,更確切地說,是累積下載頻次隨期刊累積數(shù)的增長情況,從直觀上看,圖2所顯示的函數(shù)關系有一定的聚類特征,分別是{社會科學類、農(nóng)業(yè)科技類、哲學與人文類},{基礎科學類、信息科學類},以及{工程科技類}。在期刊累積數(shù)偏低的區(qū)域,基礎科學類與信息科學類期刊的累積下載頻次相對較高,一種可能的解釋是,這兩類學科屬性往往會吸引更多的研究資源,從而產(chǎn)出的文獻也會相對較多,所以與學科對應的下載頻次或是累積下載頻次亦會相對較高。而對于工程科技類期刊,盡管從其學科屬性上來看應當具有類似的情形,但實際上,與期刊累積數(shù)偏低區(qū)域?qū)睦鄯e下載次數(shù)卻相對較少,且歸屬于{社會科學類、農(nóng)業(yè)科技類、哲學與人文類}的情形,究其原因可能是由于該類學科有其自身獨特的性質(zhì)。在圖2中,期刊首先是按照下載次數(shù)降序排列,然后才是對期刊累積數(shù)以及累積下載頻次的計算,所以期刊累積數(shù)偏低的區(qū)域是與下載頻次較高的期刊相對應的,因此對于工程科技類期刊,圖2實際上是反映了按下載次數(shù)排名靠前的期刊,對應的論文數(shù)量相對較少。由于從直觀上看,期刊的下載頻次同樣可以作為對期刊學術價值的一種側(cè)面反映而被納入到評價指標體系,而且按照上述的等級相關分析,對于本文所采用的鏡像站原始數(shù)據(jù)集而言,期刊的下載頻次與其被引頻次之間存在一定的正相關性,所以不妨在這里近似認為期刊的下載頻次能夠在一定程度上與期刊的學術價值相對應。由此,圖2也意味著對于工程科技類中評價較高的期刊,其論文數(shù)量會相對較少,一種可能的原因是:工程科技類的優(yōu)秀成果并不一定總是以論文形式來給出的,相反,專利、程序包、實驗系統(tǒng),以及技術報告等成果形式所占的比例往往會很高,工程科技類學科屬性所具有的這種特征使得該學科的優(yōu)秀研究成果在其表現(xiàn)形式上可以有更多的選擇方式,從而會造成從論文形式中的分流;另一個原因則是與工程科技類學科屬性所可能具有的涉密性有關,保密要求會限制相關成果以論文等形式來公開發(fā)表,從而進一步增加了采取專利、內(nèi)部科研報告等非公開形式的可能性,而且優(yōu)秀的工程科技類成果往往會伴隨著較高的密級。這類科研成果僅就其自身的學術質(zhì)量而言本可以發(fā)表在評價較高的期刊上,但是實際上會受到一定的出版限制,所以對于工程科技類學科屬性,在期刊累積數(shù)偏低的區(qū)域,科研產(chǎn)出并未像基礎科學以及信息科學類那樣更多地以論文形式來體現(xiàn)。
類似地,由于期刊是按照下載次數(shù)降序排列的,所以期刊累積數(shù)的逐漸居中也就意味著期刊的類型是從評價較高的期刊逐漸向評價一般的期刊來進行轉(zhuǎn)變。在圖2中期刊累積數(shù)居中的階段,工程科技類學科的累積下載頻次開始脫離{社會科學類、農(nóng)業(yè)科技類、哲學與人文類}區(qū)域,并向{基礎科學類、信息科學類}區(qū)域過渡,一方面的原因是由于工程科技類的階段性成果以及一般的成果采取專利、技術報告等具有總結(jié)意義的產(chǎn)出形式在通常情況下并不合適,相反以論文作為科研產(chǎn)出在此時則顯得相對較為適宜。同時,階段性或是一般的成果更可能地是發(fā)表在評價相對一般的期刊上,所以此時其他成果形式的分流作用會逐漸減弱,或者說與期刊累積數(shù)偏低的區(qū)域相比論文形式的產(chǎn)出得到了有效釋放,評價一般的期刊的論文數(shù)量也會相對較多,從而下載次數(shù)以及累積下載次數(shù)也會相應地有所增加。另一方面的原因則是在期刊累積數(shù)居中的階段,階段性或是一般的工程科技類成果與優(yōu)秀的成果相比,其密級在通常情況下會相對較低,相應地,這類科研成果在其產(chǎn)出形式上所受到的出版限制也會有所減弱,從而在一定程度上會造成從內(nèi)部科研報告等非公開形式向期刊論文形式的回流,由此論文的數(shù)量會相應有所增加,對期刊的下載量也會有正面的影響。
在期刊累積數(shù)偏高的區(qū)域,工程科技類期刊的累積下載頻次已經(jīng)歸屬于{基礎科學類、信息科學類}所在的區(qū)域,究其原因,相類似地可能是由于論文產(chǎn)出的進一步釋放,而另一方面則是考慮到該學科屬性自身的實際發(fā)展規(guī)模,從而所得期刊下載頻次的經(jīng)驗表象具有一定的合理性。
另外,傳統(tǒng)的布拉德福定律描述了文獻在所屬期刊中的集中與分散現(xiàn)象,相類似地,期刊下載次數(shù)的布拉德福分布特性則意味著,對于特定的學科或主題,存在少部分的期刊下載頻次會相對較高,同時也存在著大量的期刊,其下載次數(shù)會相對較少。以上圖2考察的是期刊與下載頻次這兩個對象的累積數(shù),體現(xiàn)的是兩變量的絕對量之間的關系,為了更好地反映下載次數(shù)在期刊中的分布狀況,則需要考察這兩個變量的相對量,也即下載頻次累積百分比與期刊累積百分比之間的關系,如圖3所示。
圖3 下載頻次與期刊的累積百分比關系圖
從直觀上看,累積比重之間的函數(shù)關系是隨著學科屬性的不同而在較為狹窄的范圍內(nèi)變動,變動范圍的上下界分別為農(nóng)業(yè)科技類以及哲學與人文類的情形,與圖2類似,所得累積比重之間的關系是建立在對期刊按照下載次數(shù)降序排列的基礎之上,所以函數(shù)關系向上彎曲的程度越高則意味著下載次數(shù)在期刊中的分布就越集中,極限的情況是圖中點(0,0)、(0,1)以及(1,1)的連線,對于這種情形,僅一份期刊能夠就與其所屬學科的總的下載次數(shù)相對應。若不嚴格地,在圖3中,期刊與下載頻次累積百分比之間的關系受學科因素的影響似乎并不顯著,一種可能的原因是由于科學的統(tǒng)一性,理論與實踐共同形成的正反饋機制不僅促使著人們對自然以及社會的規(guī)律性內(nèi)容進行探求,而且也推動著已有規(guī)律性認識的分化與綜合,這種認識上的分化或是認識精細程度的增加會孕育著相應專門學科的產(chǎn)生,所以種種學科有其同一性的基礎,而且專門學科的進一步細化或是分支現(xiàn)象也不影響這種性質(zhì)。學科的發(fā)展往往會經(jīng)歷萌芽、成長以及成熟等階段,學科從其獨立到最終的成熟,研究方法上的形而下學趨勢會使得研究對象更具多樣性,而研究內(nèi)容的寬泛化則可能會導致學科的進一步分化,以至該學科的下屬分支學科的產(chǎn)生,比如牛頓—萊布尼茨公式體現(xiàn)了微積分的基本內(nèi)涵,如果按照這種內(nèi)涵并將考察變量的取值范圍從實數(shù)域拓展到復數(shù)域,則相應地會有復變函數(shù)的產(chǎn)生,畢竟復數(shù)域有其自身獨特的性質(zhì),而該過程的驅(qū)動力仍然是理論與實踐所形成的正反饋機制,仍然是出自對自然規(guī)律的進一步認識,畢竟對于復數(shù)域的連續(xù)性考察有其實際意義。較為根本地,對學科間具備同一性的認同也是建立在對大統(tǒng)一理論存在的信仰基礎之上的。而對于不同的學科屬性,學科之間的同一性會使得下載次數(shù)在期刊中的分布狀況有趨于一致的傾向,最起碼地,如果考察極端的情形,即所討論的學科實為同一學科或者是具有相同的學科屬性,那么下載次數(shù)在期刊中的分布狀況當然也會相同,累積比重之間的函數(shù)關系則相互重合。更何況,隨著學科之間交叉程度的上升,相互間的同一性趨勢也會逐漸增強。進一步地,例如存在兩類屬性不同的學科,按照上文中對布拉德福定律的分區(qū)描述,如果給定分區(qū)數(shù)p,所得的參數(shù)k則可以用來對下載次數(shù)在期刊中分散或是集中的程度做近似的描述,對于這兩類學科,不妨設相應的參數(shù)分別為k1和k2,假設存在某一學科,且該學科的期刊與下載次數(shù)為這兩類學科的并集,或者說是將這兩類學科按照同一學科來進行處理,則此時需要對該學科(屬性)的期刊以及相應的下載次數(shù)重新進行分區(qū),將初始兩學科的期刊列表合并且同樣按照下載次數(shù)降序排列。如果此時仍然服從布拉德福定律,那么可以求得該學科的k參數(shù),假設埃格希和魯索給出的k=(eγym)1/p對于下載頻次也同樣適用,其中ym相應地為期刊的最大下載頻次,γ為歐拉常數(shù),那么在p給定的情況下該學科的k值應取k1或是k2。由此該學科與除了初始兩學科以外的其它學科之間的k值差異沒有得到擴大,而且初始兩學科的k值差異在該學科中也得到了消除。所以從整體上看,各學科間集中或是分散程度的區(qū)別會有所減少,從而從側(cè)面說明了學科之間的同一性對于學科之間k值差異的縮減作用,以及同一性對于k值的變化有其約束作用。
造成圖3中下載次數(shù)在期刊中的分布狀況隨學科的不同變化相對不大的另外一個原因,則可能與期刊下載次數(shù)這個統(tǒng)計變量自身有關。隨著網(wǎng)絡與數(shù)字技術的發(fā)展,各個學科所面臨的相同下載環(huán)境使得期刊的下載特征可能會具有一定的共性;另一方面,期刊的下載次數(shù)反映的是期刊的受利用程度,由于各個學科之間的交叉與融合,期刊的使用會存在一定的聯(lián)動性,從而與期刊的被引頻次相比,關于下載次數(shù)的累積比重之間的函數(shù)關系會有趨于一致的傾向,畢竟期刊的被引頻次是與期刊的學術價值相對應。再者,在各類學科中,下載次數(shù)在期刊中的分散程度在一般情況下要比被引頻次的分散程度要高,究其原因,首先是因為這兩者分別是與期刊的利用以及學術價值兩個概念相對應,與后者相比,前一個概念自身就具有相對較強的期刊分散性;另一方面則是由于在網(wǎng)絡環(huán)境下評價一般的期刊的獲取便捷性、分散性的增加意味著排序靠后的期刊受到了更多的重視,而這部分期刊恰恰是多具交叉或是融合特性的期刊,而非專門面向某個學科的期刊,所以各學科期刊的受利用程度或是下載次數(shù)的聯(lián)動性會進一步得到增強。
從理論上說,期刊下載次數(shù)的概率分布對于下載次數(shù)的統(tǒng)計性質(zhì)研究會具有一定的基礎意義,例如這里對下載次數(shù)在期刊中的布拉德福分布所進行的考察就會對其有所涉及。針對所選取的原始數(shù)據(jù),不同學科屬性的期刊下載次數(shù)從直觀上都能夠較為顯著地表現(xiàn)出布拉德福分布的特征,當然具體的分布狀況也會隨著學科屬性的不同而存在一定的差異,需要對這種學科性差異進行分析與解釋,以期對下載次數(shù)這個隨機變量可以有更為深入的認識,畢竟從直觀上看,下載次數(shù)的統(tǒng)計性質(zhì)與期刊所屬學科包括學科的類型以及學科的不同發(fā)展階段、期刊及其論文的學術價值、網(wǎng)絡以及數(shù)字技術的發(fā)展等因素具有較強的相關性,或者說期刊下載次數(shù)所表現(xiàn)出來的統(tǒng)計性質(zhì)是這些影響因素所共同作用的結(jié)果,對各個自變量的變化所導致的因變量的改變進行考察是為進一步建立變量相互之間的定量關系作準備。
圖4 下載頻次與期刊的累積百分比關系圖(截取自圖3)
在圖3中,盡管學科因素的影響從直觀上看并不是十分顯著,但若是更為精確地,對于期刊與下載次數(shù)的累積比重之間的函數(shù)關系,仍然需要對其所受到的學科因素的影響來進行探討,畢竟對于不同的學科屬性,下載次數(shù)的集中或是分散的程度也會有所不同。另外,圖3中較為狹窄的變化范圍也從側(cè)面反映了學科之間統(tǒng)一性以及差異性的對立與統(tǒng)一。
在圖4中,學科屬性自上而下依次為哲學與人文類、社會科學類、基礎科學類、信息科學類、工程科技類以及農(nóng)業(yè)科技類,對于這種學科之間的排列關系以及從直觀上可能會存在的聚類關系等表象還需要作進一步的探討,而且需要指出,經(jīng)驗考察的精確度提高往往需要對原始數(shù)據(jù)進行更為嚴格的選取,包括選取的范圍、原則以及過程等,從而使統(tǒng)計結(jié)果或是所得經(jīng)驗表象可以更具合理性,置信度也能夠得到提高。
[1]張洋.期刊Web下載總頻次的布拉德福分布研究[J].圖書情報知識,2006(6):38-42,60.
[2]萬錦堃,等.期刊論文被引用及其Web全文下載的文獻計量分析[J].現(xiàn)代圖書情報技術,2005(4):58-62.
[3]龐景安.中文科技期刊下載計量指標與引用計量指標的比較研究[J].情報理論與實踐,2006,29(1):44-48.
[4]劉麗麗編譯,強自力審校.利用電子期刊使用量的比較研究評價“大宗交易”[EB/OL].[2009-04-19].http://162.105.140.111/info/detail.asp?str-TypeCode=publish_73&lngID=430.
[5]王明亮,等.中國知識基礎設施工程五年規(guī)劃的可行性研究[C]//第二屆海峽兩岸科技資訊研討會暨第十三屆全國計算機情報管理學術研討會論文集.北京:中國科學技術情報學會,1999:113-122.