明均仁,黨永杰(1. 中國科學(xué)技術(shù)信息研究所,北京 10008;2. 武漢工程大學(xué)管理學(xué)院,武漢 40205;. 華中師范大學(xué)計(jì)算機(jī)學(xué)院,武漢 40079)
基于科研貢獻(xiàn)度加權(quán)的作者合作網(wǎng)絡(luò)對(duì)比研究*
明均仁1,2,黨永杰3
(1. 中國科學(xué)技術(shù)信息研究所,北京 100038;2. 武漢工程大學(xué)管理學(xué)院,武漢 430205;3. 華中師范大學(xué)計(jì)算機(jī)學(xué)院,武漢 430079)
針對(duì)作者合作網(wǎng)絡(luò)分析中高估作者對(duì)論文的科研貢獻(xiàn)度和忽略單篇論文對(duì)整個(gè)網(wǎng)絡(luò)邊權(quán)的貢獻(xiàn)度問題,分別利用作者署名順序?qū)W(wǎng)絡(luò)節(jié)點(diǎn)加權(quán)和引用排列組合的思想通過遍歷作者關(guān)系對(duì)邊加權(quán)。以《情報(bào)科學(xué)》2008-2013年刊發(fā)論文中的核心作者群構(gòu)建作者合作加權(quán)網(wǎng)絡(luò),從節(jié)點(diǎn)強(qiáng)度、最短路徑、聚集系數(shù)、“富人俱樂部”系數(shù)等4個(gè)角度分析網(wǎng)絡(luò)特征,并通過與頻次加權(quán)網(wǎng)絡(luò)相關(guān)特征對(duì)比分析驗(yàn)證基于科研貢獻(xiàn)度加權(quán)方法的必要性和可行性。結(jié)果表明科研貢獻(xiàn)度加權(quán)方法能夠更加真實(shí)地反映作者的個(gè)體特征及其網(wǎng)絡(luò)結(jié)構(gòu)特征。
加權(quán)網(wǎng)絡(luò);網(wǎng)絡(luò)特征;作者合作網(wǎng)絡(luò);復(fù)雜網(wǎng)絡(luò)
隨著科學(xué)研究的多元化及學(xué)科的交叉、融合趨勢的發(fā)展,科學(xué)研究的形式已從個(gè)體研究發(fā)展為由課題負(fù)責(zé)人領(lǐng)導(dǎo)下的群體研究[1],科研合作成為學(xué)術(shù)交流的重要表現(xiàn)形式,其成果主要表現(xiàn)為研究人員合作發(fā)表期刊論文[2],這種共同署名一篇論文的多位科研人員之間的關(guān)系就是作者合作關(guān)系。由于研究領(lǐng)域的專業(yè)化、研究內(nèi)容的深入化,跨學(xué)科、跨機(jī)構(gòu)、跨地區(qū)的尋求相關(guān)專業(yè)領(lǐng)域有共同研究方向的科研合作對(duì)象進(jìn)行科研合作,已成為科研項(xiàng)目取得重大突破的智力保障。
隨著近年來科研產(chǎn)出的爆發(fā)式增長,作者合作現(xiàn)象引起了相關(guān)學(xué)者的密切關(guān)注。最初,對(duì)作者合作現(xiàn)象的研究主要表現(xiàn)為利用傳統(tǒng)文獻(xiàn)計(jì)量學(xué)方法對(duì)合作論文的比重、不同作者數(shù)論文的數(shù)量和比例等問題進(jìn)行分析,如汪冰[3]將作者合作的類型概括為師生、同行、同事等類型,并統(tǒng)計(jì)了論文分布狀況。隨著社會(huì)網(wǎng)絡(luò)分析方法的興起,相關(guān)學(xué)者通過該方法從網(wǎng)絡(luò)視角分析作者合作關(guān)系,如邱均平、王菲菲[4]對(duì)我國競爭情報(bào)領(lǐng)域的作者合作關(guān)系進(jìn)行了深層次探索,鄭曦等[5]分析了鏈接分析領(lǐng)域的作者合作網(wǎng)絡(luò)特征,朱慶華等等[6]對(duì)《情報(bào)學(xué)報(bào)》期刊的合作網(wǎng)絡(luò)進(jìn)行了實(shí)證研究。然而,這些研究往往利用二值化數(shù)據(jù)構(gòu)建無權(quán)網(wǎng)絡(luò)或者利用絕對(duì)發(fā)文量和作者間合作發(fā)文的絕對(duì)耦合頻次對(duì)節(jié)點(diǎn)和邊簡單加權(quán),忽視了作者對(duì)論文的科研貢獻(xiàn)度問題和單篇論文對(duì)整個(gè)網(wǎng)絡(luò)的貢獻(xiàn)度問題。
本文基于單篇論文對(duì)整個(gè)網(wǎng)絡(luò)貢獻(xiàn)一個(gè)單位點(diǎn)權(quán)和邊權(quán)的思想,構(gòu)建基于科研貢獻(xiàn)度加權(quán)的作者合作網(wǎng)絡(luò),通過與耦合頻次加權(quán)的網(wǎng)絡(luò)進(jìn)行對(duì)比分析,結(jié)果表明本文所述加權(quán)方法有利于構(gòu)建科學(xué)合理的作者合作網(wǎng)絡(luò),有利于客觀真實(shí)地衡量作者間合作關(guān)系強(qiáng)弱,有利于正確分析作者在網(wǎng)絡(luò)中的地位。
2.1 加權(quán)網(wǎng)絡(luò)的模型表示
本文對(duì)加權(quán)網(wǎng)絡(luò)的建模通過加權(quán)圖GW表示,GW=(N,V),其中表示節(jié)點(diǎn)的集合,Nm表示待標(biāo)記的作者,Wm表示節(jié)點(diǎn)Nm的權(quán)值,即加權(quán)后作者的相對(duì)發(fā)文量,n代表集合中的作者數(shù)目,用于表示作者合作網(wǎng)絡(luò)規(guī)模的大?。槐硎具叺募?,Lm表示待標(biāo)記的邊,Wm表示邊Lm的權(quán)值,即對(duì)應(yīng)節(jié)點(diǎn)間共同發(fā)文數(shù)的加權(quán)值,i代表集合中的邊數(shù)目。
2.2 科研貢獻(xiàn)度加權(quán)方法概述
在“點(diǎn)—線—面(網(wǎng))”的遞進(jìn)層次關(guān)系結(jié)構(gòu)中,節(jié)點(diǎn)與邊作為網(wǎng)絡(luò)的構(gòu)成要素,個(gè)體特征權(quán)值如何設(shè)置直接影響網(wǎng)絡(luò)整體結(jié)構(gòu)特征。對(duì)節(jié)點(diǎn)與邊基于科研貢獻(xiàn)度加權(quán)的方法如下。
2.2.1 節(jié)點(diǎn)加權(quán)方法
作者合作網(wǎng)絡(luò)中往往采用絕對(duì)發(fā)文量作為節(jié)點(diǎn)的權(quán)值,這種不區(qū)分作者對(duì)論文的科研貢獻(xiàn)度的方法不僅會(huì)高估作者的科研水平,導(dǎo)致一些經(jīng)?!皰烀被蚴鹈樞蚩亢蟮目蒲腥藛T的科研貢獻(xiàn)度“虛高”的問題,而且會(huì)高估署名順序靠后的作者在整個(gè)作者合作網(wǎng)絡(luò)中的地位。孫麗娟[7]提出根據(jù)作者署名的先后順序衡量相關(guān)作者的科研貢獻(xiàn)度,對(duì)作者順序位置的倒數(shù)作為該作者貢獻(xiàn)度大小的系數(shù);蘇新寧[8]在《中國人文社會(huì)科學(xué)學(xué)術(shù)影響力報(bào)告》中將每篇論文的作者總權(quán)重設(shè)為1,按照參與合作的作者數(shù)固定分配每位作者的權(quán)重。本文比較認(rèn)同單篇論文貢獻(xiàn)一個(gè)單位權(quán)值的觀點(diǎn),在分析過程中引用《中國人文社會(huì)科學(xué)學(xué)術(shù)影響力報(bào)告》中提出的計(jì)算作者發(fā)文量的標(biāo)準(zhǔn),將其應(yīng)用到對(duì)作者科研貢獻(xiàn)度的衡量,具體計(jì)算標(biāo)準(zhǔn)如表1所示。
表1 合作者科研貢獻(xiàn)度
2.2.2 邊加權(quán)方法
如果采用作者間合作頻次作為作者合作網(wǎng)絡(luò)中邊的權(quán)重,則多作者署名論文會(huì)對(duì)整個(gè)網(wǎng)絡(luò)貢獻(xiàn)多個(gè)單位的邊權(quán)重,且署名人數(shù)越多虛假貢獻(xiàn)越大。本文認(rèn)為單篇論文對(duì)整個(gè)作者合作網(wǎng)絡(luò)貢獻(xiàn)一個(gè)單位的邊權(quán)重,而且不同作者數(shù)量論文中的個(gè)體邊對(duì)整個(gè)網(wǎng)絡(luò)中邊的權(quán)重貢獻(xiàn)具有差異性,暫不考慮同一論文中不同邊之間權(quán)值的大小差異的前提下,邊的權(quán)重[9]定義為公式(1):
由公式(1)可知邊的累積權(quán)值不只由對(duì)應(yīng)的兩個(gè)作者共同發(fā)表的論文數(shù)量決定,還受論文署名人數(shù)多少的影響。其中WVW為作者V和W之間的邊的權(quán)重;nk表示論文k署名的作者數(shù)目(假設(shè)單篇論文不存在同名作者問題);當(dāng)作者V在論文M中出現(xiàn)時(shí)δkv等于1,否則為0,當(dāng)作者W在論文M中出現(xiàn)時(shí)δkw等于1,否則為0。具體處理過程為:(1)運(yùn)用公式(1)對(duì)每篇論文進(jìn)行分析并生成一個(gè)邊集合s和與之對(duì)應(yīng)的加權(quán)邊向量d;(2)對(duì)每篇論文生成的邊集合去重處理,得到一個(gè)關(guān)于邊的總集合S:S={L1,L2,L3,…,Li},L代表具體的邊,i代表樣本論文庫中存在作者合作關(guān)系即邊的總數(shù)量;(3)根據(jù)每篇論文的加權(quán)邊向量d,統(tǒng)計(jì)出所有邊在整個(gè)樣本論文庫中的累積加權(quán)值,從而得到所有邊的加權(quán)邊向量D:D={W1,W2,W3,…,Wi},i仍代表邊的總數(shù)量,Wj代表第j(0<j≤i)條邊Lj的累積加權(quán)值。
2.3 網(wǎng)絡(luò)特征指標(biāo)
2.3.1 節(jié)點(diǎn)強(qiáng)度
無權(quán)網(wǎng)絡(luò)中節(jié)點(diǎn)度指與節(jié)點(diǎn)相連接節(jié)點(diǎn)數(shù)的總和,反映了節(jié)點(diǎn)在網(wǎng)絡(luò)中的資源獲取能力,是衡量節(jié)點(diǎn)網(wǎng)絡(luò)地位的重要特征。度分布用來描述節(jié)點(diǎn)度的分布情況,即網(wǎng)絡(luò)中度數(shù)為某一特定值的節(jié)點(diǎn)數(shù)與節(jié)點(diǎn)總數(shù)的比值。加權(quán)網(wǎng)絡(luò)中對(duì)節(jié)點(diǎn)度進(jìn)行自然推廣為節(jié)點(diǎn)強(qiáng)度Si,節(jié)點(diǎn)度分布可以推廣為節(jié)點(diǎn)強(qiáng)度分布。節(jié)點(diǎn)強(qiáng)度的值為與節(jié)點(diǎn)相連的所有邊權(quán)值之和,定義為公式(2):
其中,N為網(wǎng)絡(luò)中與節(jié)點(diǎn)連接的邊的總數(shù),Wij為邊的權(quán)值。一般情況下節(jié)點(diǎn)強(qiáng)度越大的節(jié)點(diǎn)在網(wǎng)絡(luò)中的“地位”越高。平均節(jié)點(diǎn)強(qiáng)度反映的是網(wǎng)絡(luò)中各節(jié)點(diǎn)間連接關(guān)系的頻繁程度和緊密程度,平均節(jié)點(diǎn)強(qiáng)度越大,說明網(wǎng)絡(luò)中節(jié)點(diǎn)間的關(guān)系越緊密[10]。平均節(jié)點(diǎn)強(qiáng)度S定義為公式(3):
2.3.2 最短路徑長度
最短路徑長度作為描述網(wǎng)絡(luò)特征的重要參數(shù)之一,指的是兩點(diǎn)之間所有連通的路徑中距離之和最小的一條或幾條路徑。無權(quán)網(wǎng)絡(luò)中的最短路徑即為條數(shù)最少的路徑,加權(quán)網(wǎng)絡(luò)因?yàn)榫嚯x不滿足三角不等式,兩邊距離之和不一定大于第三邊,所以邊數(shù)最少的路徑不一定是最短路徑,此外加權(quán)網(wǎng)絡(luò)中節(jié)點(diǎn)之間的連接根據(jù)權(quán)重不同具有“傾向性”,因此不能根據(jù)邊權(quán)重直接選擇路徑,一般利用平均權(quán)重對(duì)邊權(quán)進(jìn)行歸一化處理:(1)將所有邊的權(quán)值之和除以邊數(shù),即求出網(wǎng)絡(luò)中邊的平均權(quán)值;(2)將每條邊的權(quán)值除以邊的平均權(quán)值;(3)對(duì)步驟(2)中結(jié)果求倒,并將其作為節(jié)點(diǎn)間的路徑長度。例如,在由A、B、C三者相互連接組成的無權(quán)網(wǎng)絡(luò)中,A、B間的最短路徑即為連接二者的邊;圖1(a)所示的加權(quán)網(wǎng)絡(luò)中AB(BA)、AC(CA)、BC(CB)三條邊的權(quán)重分別為1、3、5,利用前文所述方法對(duì)其歸一化處理后結(jié)果如圖1(c),A、B間的直接路徑長度為3(1/(1/3)),經(jīng)過C點(diǎn)的A、B間的間接路徑長度為1.6 (1/(3/3)+1/(5/3)),雖然A、B間存在權(quán)重為1直接連接,但是通過中間節(jié)點(diǎn)C連接A、B的路徑有很高的權(quán)重,因此A、B間通過C合作的概率可能比A、B間直接合作的概率大。對(duì)加權(quán)網(wǎng)絡(luò)的邊權(quán)重進(jìn)行歸一化處理不僅有助于明確統(tǒng)計(jì)量的物理意義,還可以比較不同權(quán)重范圍網(wǎng)絡(luò)的平均路徑長度[11]。
圖1 邊權(quán)歸一化處理演示圖
2.3.3 聚集系數(shù)
聚集系數(shù)是統(tǒng)計(jì)網(wǎng)絡(luò)聚類特性的物理量,反映了節(jié)點(diǎn)鄰居節(jié)點(diǎn)間聯(lián)系的緊密程度,值越大說明鄰接點(diǎn)之間的聯(lián)系越緊密。無權(quán)網(wǎng)絡(luò)中節(jié)點(diǎn)i的聚類系數(shù)Ci定義為公式(4):
ti為與節(jié)點(diǎn)i的鄰接點(diǎn)間實(shí)際相連的邊數(shù),ki為節(jié)點(diǎn)i的鄰接點(diǎn)的總數(shù),這些鄰接點(diǎn)間最多可能有/2條邊。整個(gè)網(wǎng)絡(luò)的聚集系數(shù)即為所有節(jié)點(diǎn)i的聚集系數(shù)的平均值。加權(quán)網(wǎng)絡(luò)應(yīng)該根據(jù)邊權(quán)重對(duì)比哪些鄰接點(diǎn)更加重要,節(jié)點(diǎn)之間更有可能形成連接關(guān)系,為此Onnela將加權(quán)網(wǎng)絡(luò)的聚集系數(shù)定義為公式(5):
其中Wij、Wjk、Wki均為利用網(wǎng)絡(luò)中的最大權(quán)重標(biāo)準(zhǔn)化后的權(quán)重,如果所有權(quán)重相同,則公式(5)與公式(4)的運(yùn)算結(jié)果相同。加權(quán)網(wǎng)絡(luò)聚集系數(shù)在運(yùn)算過程中既考慮了鄰接點(diǎn)中邊的數(shù)量,又考慮在網(wǎng)絡(luò)中的相對(duì)權(quán)重,可以反映網(wǎng)絡(luò)拓?fù)渲羞厵?quán)重高低的相對(duì)水平。加權(quán)網(wǎng)絡(luò)的聚集系數(shù)從不同粒度反映網(wǎng)絡(luò)的聚集程度,最小粒度角度能夠反映單節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)間的緊密程度,整個(gè)加權(quán)網(wǎng)絡(luò)的聚集系數(shù)能夠求出更粗粒度下網(wǎng)絡(luò)的緊密程度,一般而言,連接越緊密、連接強(qiáng)度越高,則聚集系數(shù)越高[12]。
2.3.4 “富人俱樂部”系數(shù)
網(wǎng)絡(luò)中度數(shù)較大的節(jié)點(diǎn)稱為“富節(jié)點(diǎn)”,這些節(jié)點(diǎn)之間的相互連接稱之為“富人俱樂部”,描述的是網(wǎng)絡(luò)中節(jié)點(diǎn)度較大的核心層節(jié)點(diǎn)的連接情況,“富人俱樂部”系數(shù)屬于聚集系數(shù)的一種特殊情況,從不同角度描述了網(wǎng)絡(luò)的整體結(jié)構(gòu)層次性。富人俱樂部系數(shù)Φ(r)表示最富有r個(gè)節(jié)點(diǎn)的總鏈路數(shù)Er與這r個(gè)節(jié)點(diǎn)之間總的可能存在的共享鏈路數(shù)的最大值r(r-1)/2的比值,當(dāng)Φ (r)=0,不存在富人俱樂部現(xiàn)象;當(dāng)Φ(r)=1,網(wǎng)絡(luò)所有節(jié)點(diǎn)與其他節(jié)點(diǎn)都直接相連,形成一個(gè)完全連通圖。加權(quán)網(wǎng)絡(luò)的“富人俱樂部”系數(shù)計(jì)算過程中首先確定核心節(jié)點(diǎn)的數(shù)量,然后求出這些節(jié)點(diǎn)間的邊權(quán)重之和與同樣數(shù)量的權(quán)重最大的邊的權(quán)重之和,二者之比即為加權(quán)網(wǎng)絡(luò)的“富人俱樂部”系數(shù)。
3.1 數(shù)據(jù)來源及數(shù)據(jù)預(yù)處理
本文選擇CNKI中國期刊全文數(shù)據(jù)庫為數(shù)據(jù)來源,選定2008-2013年間《情報(bào)科學(xué)》期刊所有論文作為樣本數(shù)據(jù),共有2397篇論文,1612篇合作論文,合作率為67.3%,說明作者合作現(xiàn)象的普遍性及對(duì)其分析的必要性。不同作者數(shù)的論文分布情況如圖2所示,合作論文中97.5%的論文是2-4位作者間的合作,4位以上作者合作論文數(shù)較少,說明本文引用的科研貢獻(xiàn)度衡量方法對(duì)樣本數(shù)據(jù)具有適用性。
圖2 論文分布圖
1612篇合作論文中包含2722位合作作者,根據(jù)普賴斯定律選定發(fā)文數(shù)在4篇及以上的183位作者進(jìn)行分析,去除其中的60位孤立節(jié)點(diǎn),最終確定123位作者組成的核心作者群作為本文的具體研究對(duì)象,利用耦合頻次加權(quán)和前文所述根據(jù)貢獻(xiàn)度加權(quán)的作者合作網(wǎng)絡(luò)展示分別如圖3(a)、圖3(b)所示,二者均為無向連接圖,節(jié)點(diǎn)代表作者,節(jié)點(diǎn)間的連線代表二者具有合作關(guān)系,邊的權(quán)值用于衡量作者間合作關(guān)系的強(qiáng)弱。對(duì)比可知兩個(gè)圖中的節(jié)點(diǎn)數(shù)和邊數(shù)總量相同,但是邊的權(quán)值有所不同,例如圖3(a)中余肖生、劉向與馬費(fèi)成教授分別有1和3次的合作頻次,而圖3(b)中對(duì)應(yīng)兩條邊的權(quán)重分別為1和0.8,二者反映的作者合作關(guān)系強(qiáng)弱相互矛盾,究其原因是原始數(shù)據(jù)中余肖生與馬費(fèi)成教授存在一次合作且論文中僅有他們二人署名,而劉向與馬費(fèi)成教授存在三次合作關(guān)系但論文中署名作者較多,因此圖3 (b)更能客觀真實(shí)地反映作者間合作關(guān)系的強(qiáng)弱,更有利于科學(xué)合理分析網(wǎng)絡(luò)結(jié)構(gòu)特征。在科研產(chǎn)出總量同為1篇論文的情況下,多作者間的合作必然會(huì)影響作者間的合作深度,合作者較少時(shí)作者間的關(guān)系更加緊密,因此利用耦合頻次加權(quán)存在一定程度的不合理性,同時(shí)驗(yàn)證了本文所述邊加權(quán)方法的合理性。
圖3 (a)頻率加權(quán)作者合作網(wǎng)絡(luò)圖
圖3?。╞)貢獻(xiàn)度加權(quán)作者合作網(wǎng)絡(luò)圖
3.2 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分析
網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)是指網(wǎng)絡(luò)形狀,即節(jié)點(diǎn)間物理連接的特征。圖3(a)、圖3(b)中的網(wǎng)絡(luò)節(jié)點(diǎn)間連接較為分散、連通性不好,沒有形成一個(gè)大規(guī)模相互連接的網(wǎng)絡(luò),主要包含幾個(gè)規(guī)模相對(duì)較大的子網(wǎng)和多個(gè)雙核子網(wǎng),前文所述兩種加權(quán)方式構(gòu)建的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)一致,具體包含以下幾種類型:
(1)雙核型拓?fù)?。即網(wǎng)絡(luò)中僅有兩個(gè)節(jié)點(diǎn)之間互相連接,一方面可能僅有兩個(gè)作者合作發(fā)文,這種情況前文所述的兩種加權(quán)方式的邊權(quán)值相同;或者由于其他合作作者不在樣本數(shù)據(jù)選擇的核心作者群范圍內(nèi)導(dǎo)致。圖3(a)、圖3(b)中都含有13個(gè)雙核型子網(wǎng),涉及26個(gè)節(jié)點(diǎn),約占總節(jié)點(diǎn)數(shù)的1/5。
(2)環(huán)形拓?fù)?。即網(wǎng)絡(luò)中的節(jié)點(diǎn)首尾相連形成一個(gè)閉合的環(huán),節(jié)點(diǎn)只與前后兩個(gè)節(jié)點(diǎn)首尾連接。如圖中劉高勇、汪會(huì)玲、胡吉明三者形成一個(gè)閉合的子網(wǎng),他們之間相互存在合作關(guān)系。在大于3個(gè)節(jié)點(diǎn)的環(huán)形網(wǎng)絡(luò)中節(jié)點(diǎn)間不存在相互連接,否則即為網(wǎng)狀拓?fù)洹?/p>
(3)星形拓?fù)?。即各?jié)點(diǎn)都與中心節(jié)點(diǎn)連接,而這些普通節(jié)點(diǎn)間沒有連接。在作者合作網(wǎng)絡(luò)中這種結(jié)構(gòu)基本不存在,普通節(jié)點(diǎn)間一般會(huì)存在一定程度的合作關(guān)系。
(4)網(wǎng)狀拓?fù)?。?jié)點(diǎn)間的連接不受限制,沒有規(guī)律,結(jié)構(gòu)較為復(fù)雜。圖3(a)、圖3(b)中以畢強(qiáng)、靖繼鵬等為中心的節(jié)點(diǎn)數(shù)較多的子網(wǎng)都屬于網(wǎng)狀拓?fù)?,這類網(wǎng)絡(luò)節(jié)點(diǎn)間存在多條路徑相連。
3.3 個(gè)體特征對(duì)比分析
3.3.1 節(jié)點(diǎn)權(quán)重對(duì)比分析
頻次加權(quán)和貢獻(xiàn)度加權(quán)分別采用作者參與發(fā)表論文的絕對(duì)發(fā)文量和按照作者署名順序加權(quán)后的相對(duì)發(fā)文量作為節(jié)點(diǎn)權(quán)值,相對(duì)發(fā)文量≤絕對(duì)發(fā)文量,二者雖然都是反映作者科研能力的指標(biāo),但相對(duì)發(fā)文量更能客觀真實(shí)地反映作者學(xué)術(shù)造詣的“真實(shí)”水平。圖4為樣本數(shù)據(jù)中123位作者的發(fā)文量對(duì)比分析結(jié)果,二者均呈現(xiàn)“長尾分布”現(xiàn)象,絕大多數(shù)作者的發(fā)文量都處于較低水平。利用SPSS統(tǒng)計(jì)樣本數(shù)據(jù)中絕對(duì)發(fā)文量和相對(duì)發(fā)文量的相關(guān)系數(shù)為0.936,呈顯著正相關(guān)關(guān)系,因?yàn)殡m然按照作者署名順序確定每位作者的權(quán)重,在絕對(duì)發(fā)文量提高的情況下,相對(duì)發(fā)文量也根據(jù)署名順序有不同程度的提高。
圖4 發(fā)文量對(duì)比分析圖
3.3.2 邊權(quán)重對(duì)比分析
作者合作網(wǎng)絡(luò)的邊連接分析從最初的二值化數(shù)據(jù)到根據(jù)合作頻次設(shè)置邊權(quán)值,有效地確定了邊鏈接強(qiáng)度,挖掘了更多的網(wǎng)絡(luò)特征[13]。對(duì)邊的頻次加權(quán)和貢獻(xiàn)度加權(quán)后權(quán)值的關(guān)系如同絕對(duì)發(fā)文量與相對(duì)發(fā)文量,加權(quán)規(guī)則有所不同,同樣二者也具有顯著正相關(guān)關(guān)系。合作次數(shù)越多合作關(guān)系越緊密,但是隨著次數(shù)的增加,新的合作關(guān)系對(duì)作者間關(guān)系緊密程度的貢獻(xiàn)遞減,呈邊際效用遞減規(guī)律,且合作次數(shù)與緊密程度存在非線性關(guān)系。
3.4 網(wǎng)絡(luò)靜態(tài)特征對(duì)比分析
首先,分析樣本數(shù)據(jù)的節(jié)點(diǎn)強(qiáng)度及強(qiáng)度分布。樣本數(shù)據(jù)中123個(gè)節(jié)點(diǎn)間共存在231條邊,頻次加權(quán)與貢獻(xiàn)度加權(quán)兩種方式的節(jié)點(diǎn)強(qiáng)度分布分別如圖5(a)和5 (b)所示,二者均呈現(xiàn)冪律分布的特性,大部分作者與其他作者存在弱合作關(guān)系,僅有少量作者與其他作者存在強(qiáng)合作關(guān)系。圖5(a)中靖繼鵬和孫建軍的節(jié)點(diǎn)強(qiáng)度都為15,其中靖繼鵬與8個(gè)作者存在合作關(guān)系,孫建軍與5個(gè)作者存在合作關(guān)系,整個(gè)網(wǎng)絡(luò)的平均節(jié)點(diǎn)強(qiáng)度約為3.89,說明每個(gè)作者平均與其他作者存在3.89次絕對(duì)合作次數(shù)。圖5(b)中由于節(jié)點(diǎn)強(qiáng)度的精度較高,分布比較分散,大部分節(jié)點(diǎn)的節(jié)點(diǎn)強(qiáng)度仍較低。整個(gè)網(wǎng)絡(luò)的節(jié)點(diǎn)平均強(qiáng)度約為1.66,說明每個(gè)作者平均與其合作對(duì)象有1.66次的加權(quán)合作次數(shù),樣本數(shù)據(jù)源有限的情況下該值屬于中高水平,主要是因?yàn)樽髡叩暮献鲗?duì)象較少和絕對(duì)合作次數(shù)較多。此外,對(duì)節(jié)點(diǎn)度、節(jié)點(diǎn)度分布、節(jié)點(diǎn)強(qiáng)度、節(jié)點(diǎn)強(qiáng)度分布等定義進(jìn)行推廣還可以定義邊權(quán)、邊權(quán)分布等內(nèi)容,由此可以得出整個(gè)加權(quán)網(wǎng)絡(luò)的拓?fù)涮卣?,分析方法類似,本文不再贅述?/p>
圖5?。╝)頻次統(tǒng)計(jì)加權(quán)節(jié)點(diǎn)強(qiáng)度分布圖
其次,分析樣本數(shù)據(jù)的最短路徑。利用前文所述方法將兩種加權(quán)方式的邊權(quán)歸一化處理后的距離可視化展示分別如圖6(a)、圖6(b)所示,與圖3(a)、圖3(b)中利用結(jié)構(gòu)相似性衡量作者關(guān)系強(qiáng)弱的方式相反,二者從相異性的角度衡量作者間的路徑長度,對(duì)比可知圖6(b)更能準(zhǔn)確反映作者間的合作路徑長度,進(jìn)而可以求出任意二者間的最短路徑長度以及在最短路徑的基礎(chǔ)上計(jì)算平均路徑長度、介數(shù)、效率等網(wǎng)絡(luò)中的其他全局變量。
圖5 (b)科研貢獻(xiàn)度加權(quán)節(jié)點(diǎn)強(qiáng)度分布圖
圖6?。╝)頻次加權(quán)距離圖
圖6?。╞)貢獻(xiàn)度加權(quán)距離圖
再次,分析樣本數(shù)據(jù)的聚集系數(shù)。利用公式(5)計(jì)算兩種加權(quán)方式中整個(gè)網(wǎng)絡(luò)(G)和以畢強(qiáng)(G1)、過仕鵬(G2)、馬費(fèi)成(G3)為核心節(jié)點(diǎn)的三個(gè)子網(wǎng)的聚集系數(shù)如圖7所示,兩種加權(quán)方式中整個(gè)網(wǎng)絡(luò)的聚集系數(shù)都很低,主要是因?yàn)榫W(wǎng)絡(luò)中存在大量雙核型子網(wǎng)和大量節(jié)點(diǎn)的連接邊較少,說明整個(gè)網(wǎng)絡(luò)中節(jié)點(diǎn)間的緊密程度不高;與G1、G2網(wǎng)絡(luò)相比,G3網(wǎng)絡(luò)的聚集程度較高,說明G3網(wǎng)絡(luò)中內(nèi)部連接較為緊密,因?yàn)镚3網(wǎng)絡(luò)規(guī)模較小且單邊連接的節(jié)點(diǎn)相對(duì)較少,而G1、G2網(wǎng)絡(luò)呈現(xiàn)很強(qiáng)的星型網(wǎng)絡(luò)特征,因而網(wǎng)絡(luò)聚集系數(shù)較小。
圖7 聚集系數(shù)對(duì)比分析圖
最后,分析樣本數(shù)據(jù)的“富人俱樂部”系數(shù)。由圖3(a)、圖3(b)可知,樣本數(shù)據(jù)中幾大核心節(jié)點(diǎn)間均無直接合作關(guān)系,說明不存在富人俱樂部現(xiàn)象。高速公路、動(dòng)車、高鐵等新型交通運(yùn)輸方式的推廣縮短了科研人員間的相對(duì)距離,有線、無線等網(wǎng)絡(luò)技術(shù)的發(fā)展促使科研人員交流方式多樣化,客觀上為跨區(qū)域、跨機(jī)構(gòu)的合作提供了便利,在一定程度上提高了跨區(qū)域、跨機(jī)構(gòu)合作的論文比例,但是機(jī)構(gòu)內(nèi)部合作仍然占主導(dǎo)地位,特別是網(wǎng)絡(luò)地位較高的“富節(jié)點(diǎn)”也往往選擇機(jī)構(gòu)內(nèi)師生間、同事間的合作方式。
社會(huì)網(wǎng)絡(luò)分析方法為作者合作關(guān)系分析提供了新的研究視角,目前已普遍應(yīng)用于各學(xué)科領(lǐng)域的作者合作網(wǎng)絡(luò)分析中,并已經(jīng)形成了固定的研究思路和研究范式。本文通過實(shí)證對(duì)比分析驗(yàn)證,在作者合作網(wǎng)絡(luò)分析中利用科研貢獻(xiàn)度加權(quán)能夠在一定程度上解決耦合頻次加權(quán)造成的虛假貢獻(xiàn)問題,然而本文在分析過程中僅分析了加權(quán)網(wǎng)絡(luò)中節(jié)點(diǎn)的個(gè)體特征和靜態(tài)特征,針對(duì)作者合作網(wǎng)絡(luò)的動(dòng)態(tài)特征及動(dòng)態(tài)網(wǎng)絡(luò)演化機(jī)制,需要對(duì)其進(jìn)行進(jìn)一步的后續(xù)研究。
[1] 孫麗娟.科技論文作者署名排序與通訊作者[J].中國科技期刊研究,2005(2):242-244.
[2] 沈耕宇,黃水清,王東波.以作者合作共現(xiàn)為源數(shù)據(jù)的科研團(tuán)隊(duì)發(fā)掘方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013(1):57-62.
[3] 汪冰.中國情報(bào)學(xué)期刊論文合著現(xiàn)象研究與思考[J].情報(bào)科學(xué),1992(2):8-16.
[4] 邱均平,王菲菲.基于SNA的國內(nèi)競爭情報(bào)領(lǐng)域作者合作關(guān)系研究[J].圖書館論壇,2010(6):34-40.
[5] 鄭曦,孫建軍.鏈接分析領(lǐng)域的作者合作網(wǎng)絡(luò)及其分析[J].圖書情報(bào)工作,2009(2):29-33.
[6] 李亮,朱慶華.社會(huì)網(wǎng)絡(luò)分析方法在合著分析中的實(shí)證研究[J].情報(bào)科學(xué),2008(4):549-556.
[7] 孫麗娟.科技論文作者署名排序與通訊作者[J].中國科技期刊研究,2005(2):242-244.
[8] 蘇新寧.中國人文社會(huì)科學(xué)學(xué)術(shù)影響力報(bào)告[M].北京:中國社會(huì)科學(xué)出版社,2007.
[9] 王星.大數(shù)據(jù)分析:方法與應(yīng)用[M].北京:清華大學(xué)出版社,2013.
[10] 蘇凱,汪李峰,等.一種靈活的加權(quán)復(fù)雜網(wǎng)絡(luò)演化模型及其仿真[J].系統(tǒng)仿真學(xué)報(bào),2009(1):266-272.
[11] 姚尊強(qiáng),尚可可,等.加權(quán)網(wǎng)絡(luò)的常用統(tǒng)計(jì)量[J].上海理工大學(xué)學(xué)報(bào),2012(1):18-26.
[12] 呂天陽,謝文艷,等.加權(quán)復(fù)雜網(wǎng)絡(luò)社團(tuán)的評(píng)價(jià)指標(biāo)及其發(fā)現(xiàn)算法分析[J].物理學(xué)報(bào),2012(21):1-10.
[13] 孫海生.基于加權(quán)網(wǎng)絡(luò)模型的國際科學(xué)合作研究[J].情報(bào)雜志,2014(7):91-97.
黨永杰,男,1988年生,博士研究生,研究方向:電子商務(wù)、數(shù)據(jù)挖掘。
Comparative Study of Author Collaboration Network Based on Scientific Contribution Degree
MING JunRen1,2, DANG YongJie3
(1. Institute of Scientific and Technical Information of China, Beijing 100038, China; 2. School of Management, Wuhan Institute of Technology, Wuhan 430205, China;3. Department of Computer, Central China Normal University, Wuhan 430079, China)
For the problems in the analysis of co-authors network, like over-estimation of authors' scientific contributions to the articles and the ignorance of single article's contribution to the whole network edge weight, we separately use author signature in order to measure network nodes and thoroughly cover authors' relationship for edge weight by citing permutation and combination ideology. We construct the author cooperation weight network on the core authors in Information Science published papers in 2008-2013, and analyze the network's characteristics from four perspectives such as node strength, shorted path, clustering factor and “rich man's club”. Then we analyze and validate the necessity and feasibility to construct author cooperation weight network model by contrast to entitled network related features. The results show that weight network model can more truly reflect authors' personal and their network structural characteristics.
Weighted Network; Network Character; Author Collaboration Network; Complex Network
G201
10.3772/j.issn.1673-2286.2016.1.005
* 本研究得到湖北省教育廳科學(xué)技術(shù)研究項(xiàng)目“基于威客模式的知識(shí)共享平臺(tái)及其運(yùn)營機(jī)制設(shè)計(jì)”(編號(hào):Q20151515)資助。
明均仁,男,1981年生,博士,副教授,研究方向:數(shù)字信息服務(wù)與文本挖掘等,E-mail:ming_junren@qq.com。
2015-12-31)