毛國敏,蔣知瑞,任 蕾,生冬梅,孫振凱,袁志祥,張 放,宋勝合,葛之江
(1.《CT理論與應(yīng)用研究》編輯部,北京 100081;2.《北京口腔醫(yī)學》編輯部,北京 100050;3.中國地震局 工程力學研究所,黑龍江 哈爾濱150080; 4.《國際地震動態(tài)》編輯部,北京 100081;5.《災害學》編輯部,陜西 西安 710068 ;6.《圖學學報》編輯部,北京 100191;7.《地震》編輯部,北京 100036; 8.《航天器工程》編輯部,北京 100094)
漂移冪律函數(shù)在期刊論文被引數(shù)次分布研究中的應(yīng)用
毛國敏1,蔣知瑞1,任 蕾2,生冬梅3,孫振凱4,
袁志祥5,張 放6,宋勝合7,葛之江8
(1.《CT理論與應(yīng)用研究》編輯部,北京 100081;2.《北京口腔醫(yī)學》編輯部,北京 100050;3.中國地震局 工程力學研究所,黑龍江 哈爾濱150080; 4.《國際地震動態(tài)》編輯部,北京 100081;5.《災害學》編輯部,陜西 西安 710068 ;6.《圖學學報》編輯部,北京 100191;7.《地震》編輯部,北京 100036; 8.《航天器工程》編輯部,北京 100094)
運用非線性迭代計算方法模擬,獲得更接近實際情況的期刊論文被引次數(shù)密度分布情況,即期刊論文被引次數(shù)的概率密度服從漂移冪律分布,并對期刊論文被引次數(shù)的冪律分布做了改進,解決了期刊論文被引次數(shù)冪律分布中存在的兩個問題。從實際情況來看,這種改進是合理的,可為今后有效合理地利用期刊計量指標提供科學的依據(jù)。
論文被引次數(shù);冪律分布;漂移冪律函數(shù);概率密度分布;模擬
在運用數(shù)理原理對觀察對象做統(tǒng)計分析時,一般對數(shù)據(jù)的分布有一定要求,很多數(shù)理模型如方差分析和回歸分析要求數(shù)據(jù)服從正態(tài)分布[1-2]。在我們以往觀察和研究期刊計量指標的關(guān)系時,發(fā)現(xiàn)多數(shù)指標的偏度系數(shù)和峰度系數(shù)的絕對值遠大于0,即指標變量的分布遠離正態(tài)函數(shù),這就為有效合理利用這些指標做進一步深入分析帶來了困難[3-4]。當指標數(shù)據(jù)分布為非中心對稱時,一般不能直接利用原始數(shù)據(jù)做分析,需要對原始數(shù)據(jù)的分布有所了解,并在此基礎(chǔ)上做必要的變換,才能做有關(guān)的統(tǒng)計分析。本文分析期刊論文被引次數(shù)的分布問題,因為期刊論文被引次數(shù)是期刊評價中非常重要的一個指標。
事實上,許多自然和社會事件的分布并不服從正態(tài)分布,而存在冪律現(xiàn)象[5-13],比如地震的震級與頻度關(guān)系服從冪律分布。統(tǒng)計物理學家把服從冪律分布的現(xiàn)象稱為無標度現(xiàn)象,即系統(tǒng)中個體的尺度相差懸殊,缺乏一個優(yōu)選的規(guī)模[8]。筆者通過對3種期刊進行分析和檢證,得出期刊論文被引次數(shù)的分布也存在冪律現(xiàn)象的結(jié)論,同時發(fā)現(xiàn)目前有關(guān)冪律研究文獻中存在的兩個問題,并指出這兩個問題可能的原因以及解決辦法[4]。曹盼盼等人通過對中國名人的書信時間進行統(tǒng)計分析,建立寫信間隔時間所服從的漂移冪律分布模型[14];閆小勇等人解析了合作網(wǎng)絡(luò)參與者節(jié)點度分布與節(jié)點增長速度指數(shù)之間的關(guān)系,得到網(wǎng)絡(luò)參與者節(jié)點度分布可以用漂移冪律分布近似[15];江健等人發(fā)現(xiàn)社會通信網(wǎng)絡(luò)節(jié)點度、介數(shù)和拓撲勢的累積分布均服從漂移冪律分布[16];王志如等人選取漂移冪律函數(shù)等3種函數(shù)對地鐵網(wǎng)絡(luò)度分布進行擬合,分析了地鐵網(wǎng)絡(luò)無標度特性[17]。
筆者依據(jù)分布函數(shù)和密度函數(shù)的定義,根據(jù)論文被引次數(shù)的概率隨被引次數(shù)的增加迅速下降的特點,認為期刊論文被引的概率y與被引次數(shù)x的常數(shù)冪存在簡單的比例關(guān)系[4]:y=f(x)=kxq,即期刊論文被引次數(shù)的概率密度服從冪律分布,在雙對數(shù)坐標下,lny與lnx滿足線性關(guān)系:lny=lnk+qlnx。
期刊論文被引次數(shù)的概率密度服從冪律分布,能夠很好地解釋論文低被引次數(shù)的規(guī)模大、概率高,隨著被引次數(shù)的增加,被引概率快速減小,高被引的概率僅占很小部分這一客觀現(xiàn)象[4]。但是,還存在兩個問題:
其一,為了避免0和負數(shù)沒有對數(shù)的問題,不能直接使用原數(shù)據(jù),必須對原數(shù)據(jù)做適當?shù)奶幚怼9P者對論文被引次數(shù)的概率做了1~100的標準化處理,盡管這樣不會改變原數(shù)據(jù)的分布特征,但與通常概率在0~1之間的表達有所不同[4]。
其二,觀察圖1(d)、圖2(a)和圖3(a),在雙對數(shù)坐標下,原始數(shù)據(jù)并不嚴格散布在一條直線附近,而是略有彎曲,其他文獻也存在類似的問題[8,19]。
為解決這兩個問題,有必要對期刊論文被引次數(shù)密度的冪律分布加以改進。因此,可利用漂移冪律函數(shù)來進一步分析期刊論文被引次數(shù)的分布問題。
為了驗證本方法的適用性,選用不同學科類別、載文規(guī)模和學術(shù)影響力的3種期刊論文被引次數(shù)資料,其中A刊是《CT理論與應(yīng)用研究》,在中國學術(shù)期刊影響因子年報中的學科類別為自動化技術(shù)計算機技術(shù)(TP)類或軍事醫(yī)學與特種醫(yī)學(R8)類,2013年起科學類別更改為綜合性科學技術(shù)(N/Q,T/X)類或綜合性醫(yī)藥衛(wèi)生(R)類,學術(shù)影響力一般,載文規(guī)模較小[20];B刊為某地球物理(P)類精品期刊,學術(shù)影響力較大,載文規(guī)模中等;C刊為某高校學報,學術(shù)影響力較大,載文規(guī)模較大(見表1)。
表1 3種期刊論文被引次數(shù)數(shù)據(jù)基本統(tǒng)計情況表
為了便于比較,所用數(shù)據(jù)與參考文獻[4]相同,A刊僅刪除了一條歧義記錄。表1為3種期刊論文被引次數(shù)數(shù)據(jù)的一些基本統(tǒng)計量,從表1中的偏度和峰度系數(shù)的絕對值遠大于0可知,3種期刊的論文被引次數(shù)的分布遠偏離正態(tài)分布,呈左偏、尖峰態(tài)。原始數(shù)據(jù)來源于參考文獻[21]~[22](對數(shù)據(jù)感興趣的讀者可向作者索取)。
(一)原理
實際上,很多現(xiàn)實事件的分布規(guī)律都難以用單一的分布函數(shù)來擬合,很可能是多種函數(shù)的混合模型。因此,利用漂移冪率函數(shù)來擬合期刊論文被引次數(shù)的分布,以便對期刊論文被引次數(shù)服從冪律分布做進一步的改進。
漂移冪率是對冪律分布作簡單修正的一種分布形式,數(shù)學表達式為[14-18]:
y=f(x)=k(x+a)q
(1)
當參數(shù)a=0時為冪律分布。對式(1)兩邊取對數(shù):
lny=b+qln(x+a)
(2)
式(1)、(2)中參數(shù)的關(guān)系有:b=lnk,k=expb。
(二)分析方法
表3為3種期刊標準化數(shù)據(jù)的模型參數(shù)估計,其中A刊的各參數(shù)b、a、q的估計值分別為6.164、2.177、-1.983,通過計算k=475.368。這樣,得到A刊標準化數(shù)據(jù)的論文被引次數(shù)概率密度分布的經(jīng)驗公式:
(3)
在雙對數(shù)坐標中概率密度函數(shù)的經(jīng)驗公式為:
(4)
表2 數(shù)據(jù)標準化為1~100的漂移冪律模型檢驗表
注:均方和=平方和/自由度;F值=回歸均方和/殘差均方和;R2為模型的擬合優(yōu)度,R2=1-殘差平方和/已更正的總平方和。
表3 數(shù)據(jù)標準化為1~100的模型參數(shù)估計及誤差表
注:k=expb
圖1為A刊冪律擬合、漂移冪律擬合概率分布圖,其中圖1(a)和圖1(d)為漂移冪律模型與冪律模型的比較,圖1(a)為標準化(被引次數(shù)標準化為1~100,概率標準化為1~100)被引次數(shù)概率密度分布圖(y1-x1圖);圖1(d)為雙對數(shù)坐標中的密度分布圖(lny1-lnx1圖)。從圖1(a)可見,漂移冪律分布除第1個點比冪律分布擬合略差之外,其他部分與原數(shù)據(jù)擬合良好,比冪律分布有較大的改進。很明顯,在雙對數(shù)坐標中漂移冪律擬合點并不是一條直線,而是略有彎曲的曲線(圖1(d)),與數(shù)據(jù)擬合得非常好,與冪律分布模型相比有明顯改進,擬合效果更佳。
(a)y1-x1圖 (b)y-x圖 (c)y-xa圖
(d)lny1-lnx1圖 (e)lny-lnx圖 (f)lny-lnxa圖圖1 A刊冪律擬合、漂移冪律擬合概率密度分布圖
表4 實際數(shù)據(jù)的模型檢驗表
注:均方和=平方和/自由度;F值=回歸均方和/殘差均方和;R2為模型的擬合優(yōu)度,R2=1-殘差平方和/已更正的總平方和。
表5 實際數(shù)據(jù)的模型參數(shù)估計及其檢驗表
注:k=expb
表5為3種期刊實際數(shù)據(jù)的模型參數(shù)估計及其檢驗,其中A刊各參數(shù)b、a、q的估計值分別為0.124、1.540和-1.983,k=1.131,從而得到A刊實際數(shù)據(jù)的論文被引次數(shù)概率密度分布的經(jīng)驗公式:
yA=1.131(x+1.540)-1.983
(5)
在雙對數(shù)坐標中概率密度函數(shù)的經(jīng)驗公式為:
lnyA=0.124-1.983(x+1.540)
(6)
圖1(b)和圖1(e)分別為實際數(shù)據(jù)漂移冪律模型的概率密度分布和雙對數(shù)坐標的分布圖。從圖1(b)可見,漂移冪律模型與原數(shù)據(jù)擬合良好;在對數(shù)坐標中,數(shù)據(jù)散布在一條略有彎曲的曲線附近(圖1(e));令xai=x+a,在lny-lnxa圖中,即在被引次數(shù)做平移后的雙對數(shù)坐標中,擬合數(shù)據(jù)分布在一條直線上(圖1(f))。
(a)lny1-lnx1圖 (b)lny-lnx圖 (c)lny-lnxa圖圖2 雙對數(shù)坐標中B刊冪律擬合、漂移冪律擬合概率密度分布圖
(a)lny1-lnx1圖 (b)lny-lnx圖 (c)lny-lnxa圖圖3 雙對數(shù)坐標中C刊冪律擬合、漂移冪律擬合概率密度分布圖
上述分析表明,A刊論文被引次數(shù)的密度分布服從漂移冪律分布。盡管漂移冪律模型只做了一個簡單修正,但是解決了冪律分布不能直接使用原數(shù)據(jù)、在雙對數(shù)坐標下原始數(shù)據(jù)并不嚴格散布在一條直線附近而是略有彎曲的兩個問題。
3.模型驗證。為了進一步驗證期刊論文被引次數(shù)服從漂移冪律的適用性,再利用B刊和C刊的數(shù)據(jù)進行模擬,類似于上述分析過程,經(jīng)檢驗(表2、表4中B刊和C刊欄)說明選用模型也是可行的。各模型參數(shù)也通過統(tǒng)計檢驗(表3、表5中B刊和C刊欄),B刊和C刊實際數(shù)據(jù)的論文被引次數(shù)概率密度的經(jīng)驗公式分別為:
yB=3.861(x+4.311)-1.966
(7)
yC=12.007(x+3.827)-2.580
(8)
在雙對數(shù)坐標中有:
lnyB=1.351-1.966ln(x+4.311)
(9)
lnyC=2.486-2.580ln(x+3.827)
(10)
圖2、圖3分別為雙對數(shù)坐標中B刊和C刊冪律擬合、漂移冪律擬合概率密度分布圖。從圖2(a)和圖3(a)可以看出,漂移冪律模型比冪律分布模型有較大的改進[4];漂移冪律模型無需對數(shù)據(jù)做標準化處理,即可得到實際數(shù)據(jù)的密度分布,見圖2(b)和圖3(b);在被引次數(shù)做平移后的雙對數(shù)坐標中,擬合數(shù)據(jù)分布在一條直線上(圖2(c)和圖3(c))。
通過上述分析,得出改進的期刊論文被引次數(shù)密度分布的函數(shù)形式,不同學科類別、載文規(guī)模和學術(shù)影響力的3種期刊論文被引次數(shù)概率密度均服從漂移冪律分布,這種簡單的分布形式有可能具有普適性,實際情況是否如此,還有待于進一步驗證。
期刊論文被引次數(shù)服從漂移冪律分布的物理意義:
第二,從密度函數(shù)y=f(x)=k(x+a)q可知,當被引次數(shù)為0時,概率f(0)=kaq,即kaq為期刊論文0被引的概率。
理論上,隨機變量的密度函數(shù)或分布函數(shù),包涵了該變量的全部信息。獲得變量的密度函數(shù),就等于掌握了變量的內(nèi)在規(guī)律,只有對變量的分布有所了解,才能合理、有效地利用數(shù)據(jù)進行各種分析。因此,期刊指標的分布規(guī)律研究是一項基礎(chǔ)性工作。
一個好的理論模型必須具備幾個條件:其一,能夠解釋客觀現(xiàn)象,即理論模型能否正確且廣泛地解釋某種特定的觀測現(xiàn)象;其二,理論必須是可驗證的,可驗證性是理論能否具有科學特性的條件之一,能夠被檢驗的理論才具有科學的特性,也才能對其所可能犯的錯誤做修正,使此理論能更正確地預測客觀現(xiàn)象;其三,理論必須具備簡單性,在既有解釋程度之下,能夠以較少的概念和關(guān)系來呈現(xiàn)客觀現(xiàn)象。簡約原則是模型理論建構(gòu)的一個重要原則,簡約原則要求研究者能夠以一個比較簡單的模型來解釋復雜的關(guān)系。
本文通過對3種期刊的模擬,對冪律分布做了改進,認為期刊論文被引次數(shù)的概率密度服從漂移冪律分布,能夠解釋論文低被引次數(shù)的規(guī)模大、概率高,隨著被引次數(shù)的增加,被引概率快速減小,高被引的概率僅占很小部分這一客觀現(xiàn)象,同時解決了冪律分布不能直接使用原數(shù)據(jù)、在雙對數(shù)坐標下原始數(shù)據(jù)并不嚴格散布在一條直線附近而是略有彎曲的兩個問題。
漂移冪律模型雖然也很簡單,但是比冪律模型多了一個參數(shù),它是以犧牲簡約性為代價,而獲得更接近實際的論文被引次數(shù)密度分布函數(shù),從實際情況來看這種改進是合理的,可為今后有效合理地利用期刊計量指標,提供科學的依據(jù)。
[1] 張潤楚. 多元統(tǒng)計分析[M]. 北京:科學出版社, 2006.
[2] 汪冬華. 多元統(tǒng)計分析與SPSS應(yīng)用[M]. 上海:華東理工大學出版社, 2010.
[3] 毛國敏, 蔣知瑞, 任蕾, 等. 運用結(jié)構(gòu)方程模型研究期刊指標的結(jié)構(gòu)[J]. 中國科技期刊研究, 2013, 24(1).
[4] 毛國敏, 蔣知瑞, 任蕾, 等. 期刊論文被引頻次的冪律分布研究[J]. 中國科技期刊研究, 2014, 25(2).
[5]LuET,HamiltonRJ.AvalanchesoftheDistributionofSolarFlares[EB/OL]. [2013-07-26].http://articles.adsabs.harvard.edu/cgi-bin/nph-iarticle_query?1991ApJ...380L..89L&data_type=PDF_HIGH&whole_paper=YES&type=PRINTER&filetype=.pdf.
[6] 吳忠良.SARS疫情的標度性質(zhì)及其物理意義[J]. 防災減災工程學報, 2003, 23(2).
[7] 宋衛(wèi)國, 劉廣義, 于彥飛, 等. 小尺度森林火災的漸近冪律分布[J]. 火災科學, 2003, 12(2).
[8] 胡海波, 王林. 冪律分布研究簡史[J]. 物理, 2005, 34(12).
[9] 韋洛霞, 李勇, 康世勇, 等. 漢語詞組網(wǎng)的組織結(jié)構(gòu)與無標度特性[J]. 科學通報, 2005, 50(15).
[10]李洪波, 姚令侃, 李仕雄, 等. 砂堆雪崩冪律分布現(xiàn)象的解釋[J]. 四川大學學報: 工程科學版, 2007, 39(4).
[11]方正, 王杰. 自然與社會環(huán)境中的冪律現(xiàn)象和雙帕累托對數(shù)正態(tài)分布[J]. 山東科學, 2011, 24(3).
[12]聶銳, 黃傳峰. 基于語言分類的WWW網(wǎng)絡(luò)中社會經(jīng)濟指標冪律分布[J]. 科技導報, 2005, 23(7).
[13]GutenbergB,RichterCF,FrequencyofearthquakesinCalifornia[OL]. [2013-07-26].http://bssa.geoscienceworld.org/content/34/4/185.full.pdf+html.
[14]曹盼盼, 閻春寧. 人類通信模式的冪律分布和Zipf定律[J]. 復雜系統(tǒng)與復雜性科學,2009,6(4).
[15]閆小勇, 王明生. 增長速度對合作網(wǎng)絡(luò)參與者節(jié)點度分布的影響[J]. 物理學報, 2010, 59(2).
[16]江健, 淦文燕, 趙東杰, 等. 基于拓撲勢的社會通信網(wǎng)局域中心性分析[J]. 系統(tǒng)工程學報, 2010, 25(6).
[17]王志如, 梁作論, 袁競峰, 等. 地鐵網(wǎng)絡(luò)無標度特性分析[J]. 東南大學學報:自然科學版, 2013, 43(4).
[18]ChangH,SubBB,ZhouaYP,etal.AssortativityandActDegreeDistributionofSomeCollaborationNetworks[J].PhysicaA:StatisticalMechanicsandItsApplications, 2007, 383(2).
[19]RednerS.HowPopularisYourPaper?AnEmpiricalStudyoftheCitationDistribution[EB/OL]. [2013-07-26].http://arxiv.org/pdf/cond-mat/9804163.pdf.
[20]中國科學文獻計量評價研究中心, 清華大學圖書館. 中國學術(shù)期刊影響因子年報(自然科學與工程技術(shù))2011年(第9卷)[M]. 北京: 《中國學術(shù)期刊(光盤版)》電子雜志社,2011.
[21]中國知網(wǎng). 中國學術(shù)文獻評價參考系統(tǒng): 單篇引文分析[EB/OL]. [2013-07-22].http://www.xkpg.cnki.net/eval/brief/result.aspx?dbPrefix=EVAL.
[22]中國知網(wǎng). 中國學術(shù)文獻評價參考系統(tǒng): 單篇引文分析[EB/OL]. [2013-07-26].http://www.xkpg.cnki.net/eval/brief/result.aspx?dbPrefix=EVAL.
(責任編輯:郭詩夢)
Application of Shifted Power Law Function to the Study of Distribution on Cited Times for Periodical Articles
MAO Guo-min1, JIANG Zhi-rui1, REN Lei2, SHENG Dong-mei3, SUN Zhen-kai4,
YUAN Zhi-xiang5, ZHANG Fang6, SONG Sheng-he7, GE Zhi-jiang8
(1.Editorial Department of CT Theory and Applications, Beijing 100081, China;2.Editorial Department Beijing Journal of Stomatology, Beijing 100050, China;3.Institute of Engineering Mechanics, China Earthquake Administration, Harbin 150280, China;4.Editorial Department of Recent Developments in World Seismology, Beijing 100081, China;5.Editorial Department of Journal of Catastrophology, Xi'an 710068, China;6.Editorial Department of Journal of Graphics, Beijing 100191, China;7.Editorial Department of Earthquake, Beijing 100036;8.Editorial Department of Spacecraft Engineering,Beijing 100094, China)
Density distribution of credible article citation number was calculated (obtained) with the nonlinear iterative calculation method. The probability density for periodical articles cited numbers follows Shifted Power Law distribution. Two problems were worked out after the Power Law distribution of cited times for articles had been improved. The reasonable improvement provides basis for correctly using the periodical measurement index in future.
citation frequency of articles; power-law distribution; shifted power-law function; probability density distribution; simulation
2015-03-12;修復日期:2015-04-05
毛國敏,男,江蘇無錫人,理學學士,副編審,研究方向:科技期刊編輯,數(shù)理統(tǒng)計。
F224.0
A
1007-3116(2015)08-0063-06