楊建梅 曾進群 張建功
(1.華南理工大學(xué) 工商管理學(xué)院,廣東 廣州 510640;2.華南理工大學(xué) 環(huán)境與能源學(xué)院,廣東 廣州 510006)
《科學(xué)》雜志近期發(fā)表了知識團隊生產(chǎn)的相關(guān)研究成果[1],而物理學(xué)界從本世紀(jì)初開始就一直重視科學(xué)家的合作結(jié)構(gòu)與功能的研究[2].開源軟件社區(qū)就是一種網(wǎng)絡(luò)上的基于團隊合作的知識生產(chǎn)組織,但是對開源社區(qū)的研究才剛剛起步[3].按照筆者的定義[4-5],這種社區(qū)是一個人類活動系統(tǒng),其結(jié)構(gòu)不再是層級部門的結(jié)構(gòu),而是由其基本活動形成的活動結(jié)構(gòu).在這種思想的指導(dǎo)下,文中的社區(qū)組織結(jié)構(gòu)包含以下3 種類型:人員參與項目開發(fā)活動而形成的生產(chǎn)結(jié)構(gòu),伴隨生產(chǎn)活動的與bug 有關(guān)的質(zhì)量保障活動結(jié)構(gòu),以及搜集對軟件產(chǎn)品需求及其他信息的溝通活動結(jié)構(gòu).生產(chǎn)、質(zhì)量保障與了解需求的活動,是非商業(yè)的、開放的大眾生產(chǎn)社區(qū)的最為重要的活動,從這3 個維度可以揭示出這種組織結(jié)構(gòu)的特點.
近年來異質(zhì)性一詞頻頻在文獻中出現(xiàn),但是較多的是口語化采用,即使是專業(yè)性采用,也往往局限在各自學(xué)科的語境下,對何為異質(zhì)性、異質(zhì)性分類以及如何測量異質(zhì)性鮮有一般性的簡明闡述.在復(fù)雜網(wǎng)絡(luò)學(xué)界,有的人認為冪率分布指數(shù)的絕對值大時異質(zhì)性強,有的人卻有完全相反的看法.下面先給出筆者對異質(zhì)性的一些思考.
長期以來,人們認為我們生活的世界僅僅是高斯正態(tài)分布的世界.在高斯世界,事件之間具有加法獨立性.這些事件的數(shù)據(jù)點產(chǎn)生的鐘形分布曲線由均值與方差就可以完全描述.因為其數(shù)據(jù)點以99.7%的概率落在均值加減3 倍標(biāo)準(zhǔn)差的范圍內(nèi),而標(biāo)準(zhǔn)正態(tài)分布的期望為0,標(biāo)準(zhǔn)差僅為1,所以可以認為在高斯世界,事件的屬性是同質(zhì)的,就像人的身高那樣,存在一個典型的高度,也就是說具有代表性的尺度.
1897年意大利經(jīng)濟學(xué)家帕累托研究個人收入時,發(fā)現(xiàn)20%的人口占據(jù)了80%的社會財富的所謂帕累托分布.帕累托分布完全不同于正態(tài)分布,由于研究對象的數(shù)據(jù)極不均勻,其均值和方差失去意義,這樣在個人收入中就不存在一個財富值可以作為個人財富的代表尺度.帕累托分布不僅存在于經(jīng)濟領(lǐng)域,還廣泛地存在于其他領(lǐng)域,因此我們生活的世界不僅有高斯世界,還包括異質(zhì)的無代表性尺度的帕累托世界,在今天的互聯(lián)網(wǎng)與大數(shù)據(jù)時代尤其如此.
異質(zhì)性來源于帕累托分布,受帕累托分布以及各種專業(yè)文獻的啟發(fā),文中認為異質(zhì)性具有多樣性與非均勻性兩方面的含義.這里的多樣性指的是對象的某個指標(biāo)的取值范圍廣因而差異大,非均勻性指的是各種取值出現(xiàn)的頻率具有較大的差異.這樣,對象的某種指標(biāo)僅取值的范圍廣還不能說具有異質(zhì)性,因為它可能是均勻分布的;同樣,僅取值的頻率有較大差異,也不能說具有異質(zhì)性,因為它的取值范圍可能很窄.因此,對于一個研究對象來說,只有當(dāng)其某種指標(biāo)的取值范圍廣,而且其分布也不均勻時,才能稱得上在某方面具有異質(zhì)性.簡言之,異質(zhì)性等于多樣性加非均勻性.
互聯(lián)網(wǎng)時代造就了更多的連接關(guān)系.統(tǒng)計物理學(xué)家巴拉巴斯發(fā)現(xiàn),由實際連接關(guān)系形成的大規(guī)模網(wǎng)絡(luò),不像隨機網(wǎng)絡(luò)那樣,節(jié)點具有大致相同的連接,而是少數(shù)節(jié)點具有大量的連接、大量的節(jié)點僅具有少數(shù)的連接[6].這樣,節(jié)點之間連接關(guān)系的多寡就具有了異質(zhì)性.基于巴拉巴斯的發(fā)現(xiàn),筆者將異質(zhì)性分為兩類:屬性異質(zhì)性與關(guān)系異質(zhì)性.比反映財富屬性異質(zhì)性的帕累托分布大約晚100年的巴拉巴斯的無尺度復(fù)雜網(wǎng)絡(luò)模型,為分析關(guān)系的異質(zhì)性提供了工具.
對象屬性的異質(zhì)性可直接用帕累托分布來測量.在帕累托分布中X 是隨機變量,對X 的累積分布函數(shù),復(fù)雜網(wǎng)絡(luò)學(xué)界常用以下形式:
概率密度函數(shù)
式中,x 為任何一個大于xmin的數(shù),xmin為X 最小的可能值(正數(shù)),k 為正的參數(shù).圖1 所示的累積分布的示意圖摘自維基百科,這里畫的是常見的累積分布表達式F(x)=P(X≤x)的曲線.帕累托分布屬于冪律分布,冪律分布在雙對數(shù)坐標(biāo)下是一條斜率為負數(shù)的直線,因此屬性的異質(zhì)性可通過累積分布圖,尤其是雙對數(shù)坐標(biāo)下的累積分布圖是否是長尾的冪律分布來確定.由圖1 可以看出:k 越小分布越均勻,但取值的范圍廣、差異大;k 越大分布越不均勻,但取值的范圍窄、差異小.兼顧多樣性(取值有數(shù)量級的差別)與非均勻性兩個條件,并考慮復(fù)雜網(wǎng)絡(luò)有關(guān)度分布冪指數(shù)的研究,這里用k 是否在1~3 之間來判斷異質(zhì)性(概率密度的冪指數(shù)比k 大1,若用概率密度指數(shù),則是在2~4 之間),這意味著屬性的冪律分布并不總是表示其存在著異質(zhì)性.
圖1 帕累托累積分布示意圖[7]Fig.1 Pareto cumulative distribution function[7]
與屬性不同,在測量大規(guī)?;顒雨P(guān)系的異質(zhì)性時,首先要確定關(guān)系是什么,并建立描述此關(guān)系的復(fù)雜網(wǎng)絡(luò)模型[8-11],在找到復(fù)雜網(wǎng)絡(luò)的相關(guān)特征參數(shù)后,再使用分析屬性變量異質(zhì)性的方法去分析這些特征參數(shù),以測量關(guān)系的異質(zhì)性.
下面以CodePlex 為例,分析開源軟件大眾生產(chǎn)社區(qū)結(jié)構(gòu)的異質(zhì)性.由于結(jié)構(gòu)是關(guān)系的總合,因此用到的是關(guān)系的異質(zhì)性測量方法,不同的關(guān)系可以從不同的角度來揭示結(jié)構(gòu)的異質(zhì)性.此外,在數(shù)據(jù)缺少時還可使用傳統(tǒng)的定性方法作為輔助分析手段.
CodePlex 是微軟建置的開源軟件社區(qū)(http:∥www.codeplex.com),2006年開始運作,截至2012年11月,社區(qū)共有32118 個項目,其中最活躍的有C#、Sharepoint 等子社區(qū),每個子社區(qū)的主頁都分8 個欄目記錄了所有數(shù)據(jù).我們用火車頭軟件,挖掘了Codeplex C#子社區(qū)(下文簡稱社區(qū))從2006年5月至2012年7月間的下列數(shù)據(jù):1)所有生產(chǎn)記錄,共計198616 條,包含項目2136 個,參與者3233 人;2)所有bug 討論記錄,共計6 萬多條;3)所有溝通記錄,共144342 條.社區(qū)組織的結(jié)構(gòu)是由其基本活動形成的網(wǎng)絡(luò)結(jié)構(gòu),將參與者與項目看成節(jié)點,將活動形成的聯(lián)系看成邊,就得到了相關(guān)活動結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)模型.這里的靜態(tài)復(fù)雜網(wǎng)絡(luò)模型基于2006年5月至2012年7月的全部記錄,而動態(tài)網(wǎng)絡(luò)模型以半年為一期,基于2006年下半年到2012年上半年的記錄.由于篇幅所限,復(fù)雜網(wǎng)絡(luò)模型的大量數(shù)學(xué)計算在下文中將不予列出.
從生產(chǎn)模式與網(wǎng)絡(luò)結(jié)構(gòu)兩個方面來分析生產(chǎn)結(jié)構(gòu)的異質(zhì)性.
(1)模型構(gòu)建 為分析生產(chǎn)模式,首先建立了生產(chǎn)者與項目的二分布爾復(fù)雜網(wǎng)絡(luò)模型.網(wǎng)絡(luò)是點與邊的集合,將Codeplex C#社區(qū)的所有生產(chǎn)者定義為底部節(jié)點,所有項目定義為頂部節(jié)點,如果一個生產(chǎn)者在2006年5月至2012年7月之間開發(fā)過某個項目,那么就在他們之間連一條邊,這樣就得到了該社區(qū)的2006-2012年間的生產(chǎn)者與項目的二分布爾復(fù)雜網(wǎng)絡(luò)模型,簡稱2006-2012 二分布爾網(wǎng)絡(luò).2006-2012 二分布爾網(wǎng)絡(luò)共有5 369 個節(jié)點,其中頂部節(jié)點2136 個、底部節(jié)點3233 個,3785 條邊.為動態(tài)分析生產(chǎn)結(jié)構(gòu),文中還按照同樣的思路,建立了從2006年下半年到2012年上半年、以半年為一期的、生產(chǎn)者與項目的二分布爾網(wǎng)絡(luò)序列模型.
(2)分析思路 筆者認為,生產(chǎn)模式體現(xiàn)在生產(chǎn)者對項目的生產(chǎn)關(guān)系所形成的生產(chǎn)圈子中,而連通圖是生產(chǎn)圈子的數(shù)學(xué)描述,因此通過分析二分布爾網(wǎng)絡(luò)的連通圖來尋找開源社區(qū)的生產(chǎn)模式.
(3)連通圖的發(fā)現(xiàn) 網(wǎng)絡(luò)中的連通圖是其內(nèi)部任意節(jié)點對之間都有路徑相連的網(wǎng)絡(luò)子圖,網(wǎng)絡(luò)常常含有多個獨立的連通子圖.經(jīng)計算,2006-2012二分布爾網(wǎng)絡(luò)共有1614 個連通圖,其中的1 039 個連通圖是由1 個項目與1 個生產(chǎn)者形成的(見圖2中的A 型);299 個是1 個項目與多個生產(chǎn)者節(jié)點形成的(見圖2 中的B 型),這樣含有1 個項目的連通圖共有1338 個;而130 個連通圖則是由多個項目節(jié)點形成的(見圖2 中的C 型),剩下的146 個連通圖是1 個生產(chǎn)者開發(fā)2 個及以上項目形成的(見圖2中的D 型).
圖2 洞穴式與網(wǎng)絡(luò)式生產(chǎn)模式Fig.2 Cave and network-based pattern
圖2 中A 型生產(chǎn)模式就像1 個人在挖1 個洞,B 型就像多個人在挖1 個洞,它們都僅含1 個項目“洞”,因此都可形象地稱為洞穴式生產(chǎn)模式[12];而C 型與D 型(尤其是C 型)與A、B 型截然不同,是多個項目的多“洞”網(wǎng)絡(luò)化生產(chǎn)模式,在網(wǎng)絡(luò)化模式中不同項目節(jié)點之所以能夠相連,是因為有人開發(fā)了2 個及以上的項目.2006-2012 二分網(wǎng)絡(luò)中,規(guī)模最大的C 型含有239 個節(jié)點,其中項目節(jié)點29個,生產(chǎn)者節(jié)點211 個.
(4)結(jié)論 對2006-2012 二分布爾網(wǎng)絡(luò)連通圖的分析說明,開源大眾生產(chǎn)模式是洞穴與網(wǎng)絡(luò)式并存的,1614 個生產(chǎn)圈子中有82.9%(1388/1614)的生產(chǎn)方式是洞穴式.進一步統(tǒng)計分析還顯示,2006-2012 二分布爾網(wǎng)絡(luò)1 614 個連通圖規(guī)模的累積分布,是k 為1.5 的冪律分布(可決系數(shù)R2=0.89),也就是說,大多數(shù)連通圖包含的節(jié)點很少,少數(shù)的連通圖包含的節(jié)點很多,而節(jié)點數(shù)很少的連通圖都是僅有1 個項目節(jié)點的洞穴式生產(chǎn)圈子,因此可以說,開源大眾生產(chǎn)模式是洞穴與網(wǎng)絡(luò)式共存,具有明顯的異質(zhì)性,但是以洞穴式為主.
時間序列的二分布爾網(wǎng)絡(luò)根據(jù)每半年實際發(fā)生的生產(chǎn)行為建立.從2006年7月到2012年6月,實際有開發(fā)行為的人數(shù)從140 人增加到828 人,涉及的項目數(shù)從81 個增加到566 個,但是在生產(chǎn)圈子中,網(wǎng)絡(luò)型占有的比例卻基本穩(wěn)定在10%~12%左右.網(wǎng)絡(luò)型的比例雖然不高,但是畢竟占有10%以上,因此支持了2006-2012 二分布爾網(wǎng)絡(luò)模型的分析結(jié)論(即開源大眾生產(chǎn)模式是洞穴式與網(wǎng)絡(luò)式并存,具有明顯的異質(zhì)性).
3.2.1 二分網(wǎng)絡(luò)的異質(zhì)性
在2006-2012 生產(chǎn)者與項目的二分布爾網(wǎng)絡(luò)模型的基礎(chǔ)上,以生產(chǎn)者參與相應(yīng)項目的累計次數(shù)作為相關(guān)邊的權(quán)重就得到生產(chǎn)者與項目的二分加權(quán)網(wǎng)絡(luò)模型.節(jié)點的邊權(quán)之和就是該節(jié)點的權(quán)重.二分網(wǎng)絡(luò)頂部節(jié)點度值表示項目的生產(chǎn)者人數(shù),底部節(jié)點度值表示生產(chǎn)者參加的項目數(shù).二分網(wǎng)絡(luò)頂部節(jié)點的權(quán)值表示項目被生產(chǎn)的次數(shù),底部節(jié)點的權(quán)值表示生產(chǎn)者對所有項目的生產(chǎn)次數(shù).圖3 顯示出二分網(wǎng)絡(luò)的度或權(quán)的累積分布與隨機網(wǎng)絡(luò)零模型有明顯不同,加權(quán)網(wǎng)絡(luò)與布爾網(wǎng)絡(luò)的累積權(quán)和度都呈現(xiàn)冪律分布,除底部節(jié)點的度之外,它們的取值都有數(shù)量級的差別,且k 大約在1~3 之間,因此可以說二分網(wǎng)絡(luò)的結(jié)構(gòu)具有異質(zhì)性.
圖3 二分網(wǎng)絡(luò)節(jié)點度與權(quán)的累積分布Fig.3 Cumulative distribution of node degree and weight in bipartite network
底部節(jié)點度表示生產(chǎn)者開發(fā)的項目的個數(shù),由于人的能力的同質(zhì)性,雖然仍是冪律分布,但按文中的標(biāo)準(zhǔn)就不具有異質(zhì)性了.
3.2.2 合作網(wǎng)絡(luò)的異質(zhì)性
3.2.1 節(jié)是從生產(chǎn)者與生產(chǎn)任務(wù)的關(guān)系來看生產(chǎn)結(jié)構(gòu),下面將從生產(chǎn)者之間的合作關(guān)系來看生產(chǎn)結(jié)構(gòu),這需要建立生產(chǎn)者合作關(guān)系的網(wǎng)絡(luò)模型.
(1)模型構(gòu)建 將2006-2012 生產(chǎn)者與項目的二分布爾網(wǎng)絡(luò)向底部生產(chǎn)者節(jié)點投影,就得到生產(chǎn)者的布爾合作網(wǎng)絡(luò).布爾合作網(wǎng)絡(luò)節(jié)點間的連邊表示這對生產(chǎn)者至少共同開發(fā)過一個項目.進一步找出兩個生產(chǎn)者共同開發(fā)的每一個項目各自的生產(chǎn)次數(shù),然后以較小的生產(chǎn)次數(shù)作為他們在這個項目上的合作強度,并以他們共同開發(fā)的所有項目的合作強度之和作為兩個生產(chǎn)者之間連邊的權(quán)重,這樣就得到生產(chǎn)者的加權(quán)合作網(wǎng)絡(luò).
(2)從權(quán)與度值看異質(zhì)性 加權(quán)合作網(wǎng)絡(luò)的節(jié)點最大權(quán)值為5221,權(quán)值為0 的節(jié)點共有1185 個,占節(jié)點總數(shù)的36.7%,累積權(quán)值呈k 為0.85(R2=0.90)的冪律分布;而度呈分段冪律分布.以上說明,36.7%的節(jié)點的合作強度為0,而節(jié)點的最大合作強度為5221,因此從合作強度來看網(wǎng)絡(luò)近似具有異質(zhì)性(圖4).
圖4 合作網(wǎng)絡(luò)的累積度與權(quán)的分布Fig.4 Cumulative distribution of node degree and weight in cooperation network
(3)從拓撲指標(biāo)看異質(zhì)性 布爾合作網(wǎng)絡(luò)反映了合作關(guān)系的結(jié)構(gòu).經(jīng)計算3233 節(jié)點布爾合作網(wǎng)絡(luò)的介數(shù)呈現(xiàn)k 為0.36 的冪律分布(R2= 0.86),而緊密度值較集中,集聚系數(shù)大多分布在0 或1.點的介數(shù)表示通過該點的最短路的條數(shù),介數(shù)的計算結(jié)果表示從中介位置來看網(wǎng)絡(luò)存在著多樣性但不具有非均勻性,因此布爾合作網(wǎng)絡(luò)從3 個拓撲指標(biāo)來看都不具有異質(zhì)性.
(4)從連通圖看異質(zhì)性 加權(quán)合作網(wǎng)絡(luò)共有3233 節(jié)點、25 188 條邊,其中1 185 個孤立點.除過孤立點外,共有429 個連通圖,最大連通圖有210 個節(jié)點,占非孤立點的比例為10.25%,6 632 條邊,這些連通圖所含節(jié)點的數(shù)量呈冪律分布,累積分布的k 為1.27(R2=0.95),因此從連通圖的規(guī)模來看網(wǎng)絡(luò)具有異質(zhì)性.
(5)從社團結(jié)構(gòu)看異質(zhì)性 從連通圖規(guī)??串愘|(zhì)性,是從節(jié)點之間有無連接通路的角度來看的,而從社團結(jié)構(gòu)看異質(zhì)性,則進一步從連通圖內(nèi)部連接關(guān)系的多寡與強弱來看.社團內(nèi)部節(jié)點之間的聯(lián)系比社團之間節(jié)點的聯(lián)系既多又強.經(jīng)分析發(fā)現(xiàn),社團的實際背景就是項目的團隊.社團劃分有許多算法[13],最新算法是與隨機圖比較的Potts 算法[14].Potts 算法有0 階(保持平均度不變)與1 階(保持度序列不變)零模型算法.Q 值是衡量社團性強弱的指標(biāo),一般以Q=0.3 作為網(wǎng)絡(luò)具有明顯社團結(jié)構(gòu)的最低標(biāo)準(zhǔn).采用Potts 的1 階零模型算出布爾與加權(quán)合作網(wǎng)絡(luò)的最大連通圖分別有10 個與11 個社團,最大社團含有50 或51 個節(jié)點,而最小的社團僅有2 個節(jié)點,所以不同社團之間在規(guī)模上也存在著多樣性(如表1 所示).
表1 合作網(wǎng)絡(luò)社團結(jié)構(gòu)1)Table 1 Community structure in the cooperation network
(6)從富人俱樂部看異質(zhì)性 社會上富人和富人來往多的現(xiàn)象被稱為富人俱樂部現(xiàn)象,通常采用以下指標(biāo)來判斷[15]:
式中:r 表示財富,財富大于等于r 的富人為俱樂部成員;Wl,rank是邊權(quán)(交往強度),表示排序為第l 大的邊的權(quán)值,W>r是俱樂部內(nèi)的邊權(quán)之和;E>r是俱樂部成員之間的邊數(shù);φw(r)表示俱樂部內(nèi)的邊權(quán)之和與整個網(wǎng)絡(luò)邊權(quán)從大到小排列的同樣邊數(shù)的邊權(quán)之和的比值.進一步以相應(yīng)的隨機化網(wǎng)絡(luò)為比較對象就得到ρw(r),若ρw(r)大于1,則表明實際的加權(quán)網(wǎng)絡(luò)存在富人俱樂部現(xiàn)象.
以節(jié)點權(quán)表示財富指標(biāo)r,從圖5 可以看出,加權(quán)合作網(wǎng)絡(luò)存在著明顯的富人俱樂部現(xiàn)象,尤其是在r 大于2000 以后.這說明合作活躍的生產(chǎn)者主要是在彼此之間進行合作的,因此活躍者之間的合作強度與其他類型的合作強度之間存在著差異性.
圖5 加權(quán)合作網(wǎng)絡(luò)的富人俱樂部系數(shù)Fig.5 Rich club coefficient curve of the weighted cooperative network
開源軟件的生產(chǎn)必然伴隨著信息的流通,因此開源社區(qū)不僅是生產(chǎn)的平臺,也是信息溝通的平臺.Codeplex C#社區(qū)有兩個信息溝通的版塊:issues 欄目下的bug 討論版塊與discussions 欄目下的更一般的信息溝通版塊.
為分析bug 討論結(jié)構(gòu)的異質(zhì)性,首先需要建立bug 討論關(guān)系的復(fù)雜網(wǎng)絡(luò)模型.與生產(chǎn)、項目的二分關(guān)系不同,bug 帖子與討論人的二分關(guān)系主要是網(wǎng)絡(luò)模式,而且對于社區(qū)結(jié)構(gòu)來說,帖子遠沒有項目重要,因此不需要建立帖子與討論人的二分網(wǎng)絡(luò)模型.這樣Bug 討論網(wǎng)絡(luò)以參與bug 討論的人為節(jié)點(刪除了僅提交了bug 但沒有人回應(yīng)的人),在bug 的提交人與回復(fù)人之間建立有向邊,方向指向回復(fù)人,有向邊的權(quán)等于這種提交與回復(fù)關(guān)系的次數(shù).按照上述規(guī)則,2006年5月至2012年7月整個時間段的bug 討論加權(quán)有向網(wǎng)絡(luò)共有5842 個節(jié)點、5741 條邊.
bug 討論有向加權(quán)網(wǎng)的節(jié)點的入度表示該節(jié)點回復(fù)過多少人所提出的bug,入權(quán)表示該節(jié)點回復(fù)過多少次別人所提出的bug;出度表示回復(fù)過該節(jié)點所提交的bug 的人數(shù),出權(quán)表示回復(fù)過該節(jié)點提交的bug 的次數(shù).一般來說,入度或入權(quán)越大,表示節(jié)點所解決的bug 越多;出度或出權(quán)越大,表明節(jié)點所提出的bug 越多.
2006-2012年bug 討論有向加權(quán)網(wǎng)的5 842 個節(jié)點中,入度為0 的節(jié)點共有2 876 個,占總數(shù)的49.2%,最大的入度與入權(quán)值分別為49 與89;出度為0 的節(jié)點共有2377 個,占總數(shù)的40.6,最大的出度與出權(quán)值分別為117 與344.剔除這些出度或入度為0 的節(jié)點后,累積度和權(quán)的冪律分布如圖6 所示.從圖6 可見,節(jié)點的度或權(quán)的取值都有著數(shù)量級的差異,且出度與出權(quán)的k 在1~2 之間,入權(quán)的k為1.91,而入度的k 接近2,因此bug 討論結(jié)構(gòu)從節(jié)點討論廣度(度)與強度(權(quán))來看都具有異質(zhì)性,不過節(jié)點的回復(fù)bug 的多樣性略小于提交的,與強度有關(guān)的異質(zhì)性大于廣度.
圖6 bug 討論有向加權(quán)網(wǎng)的累積度和權(quán)的分布Fig.6 Cumulative distribution of node degree and weight in directed and weighted bug discussion network
經(jīng)計算5842 個節(jié)點的bug 討論網(wǎng)絡(luò),其節(jié)點的介數(shù)呈冪律分布,累積分布的k 為0.48(R2=0.88);緊密度分布與布爾合作網(wǎng)絡(luò)的相似,而集聚系數(shù)與布爾合作網(wǎng)絡(luò)的雙峰不同,呈多峰分布,且多在0.5 以下.bug 討論網(wǎng)絡(luò)從介數(shù)來看具有多樣性,而從3 個拓撲指標(biāo)來看都不具有異質(zhì)性(如圖7所示).
圖7 bug 討論網(wǎng)絡(luò)拓撲指標(biāo)的直方圖Fig.7 Topology index histogram of bug discussion network
5842 個節(jié)點的bug 討論有向加權(quán)網(wǎng)絡(luò)共有860 個連通圖(有邊就算連通).最大連通圖有2 630 個節(jié)點,占總節(jié)點數(shù)的45%,規(guī)模最小的含2 個節(jié)點(不包括孤立節(jié)點),但連通圖的規(guī)模呈指數(shù)分布(指數(shù)為-0.00167,R2=0.81),說明從連通圖規(guī)模來看bug 討論網(wǎng)不具有異質(zhì)性.另外,生產(chǎn)結(jié)構(gòu)的二分網(wǎng)絡(luò)與加權(quán)合作網(wǎng)絡(luò)的最大連通圖的節(jié)點比例分別僅為4.45%與10.25%,可見生產(chǎn)結(jié)構(gòu)有較大的碎片性,而bug 討論網(wǎng)絡(luò)的整體性較強,這進一步說明開源社區(qū)的bug 討論結(jié)構(gòu)與生產(chǎn)結(jié)構(gòu)之間也有差異:bug 討論的圈子大而生產(chǎn)合作的圈子小.這是由生產(chǎn)的專業(yè)性與信息溝通的廣泛性造成的.
為分析信息溝通結(jié)構(gòu)的異質(zhì)性,首先需要建立溝通關(guān)系的復(fù)雜網(wǎng)絡(luò)模型.文中不僅建立了2006年5月至2012年7月的整個時間段的溝通關(guān)系網(wǎng)絡(luò)模型,也建立了以半年為一期的時間序列溝通網(wǎng)絡(luò)模型,后者具體的時段劃分與生產(chǎn)者和項目的時間序列二分網(wǎng)絡(luò)一樣.模型中溝通者為節(jié)點,如果兩個溝通者討論過共同的主題,則它們之間就有一條邊,這樣得到的是無權(quán)的溝通網(wǎng)絡(luò)模型;進一步以討論次數(shù)代替生產(chǎn)次數(shù),采用與加權(quán)合作網(wǎng)絡(luò)同樣的邊權(quán)生成方法,就得到加權(quán)的溝通網(wǎng)絡(luò)模型.2006-2012 時段的溝通關(guān)系網(wǎng)絡(luò)共有個26481 個節(jié)點(包括孤立節(jié)點)、467622 條邊.
溝通網(wǎng)絡(luò)節(jié)點的度表示溝通者溝通過的人數(shù),26481 個節(jié)點2006-2012 溝通關(guān)系網(wǎng)絡(luò)的度呈冪律分布,累積分布的k 為1.52(R2=0.86)(見圖8).邊權(quán)表示兩人之間溝通的強度,節(jié)點權(quán)是邊權(quán)之和,代表了節(jié)點的總溝通強度.從時間序列溝通網(wǎng)絡(luò)分布的相關(guān)數(shù)據(jù)可知,各時段網(wǎng)絡(luò)的節(jié)點權(quán)也都呈現(xiàn)冪律分布,累積分布的k 值接近,從1.01~2.00(R2從0.92~0.97),且各有數(shù)量級的差別.權(quán)值最大的溝通者是項目的核心人員或者項目的發(fā)起人.以上說明,溝通網(wǎng)絡(luò)的節(jié)點在溝通的廣度與強度方面都存在異質(zhì)性,核心成員與一般成員之間的差異最大.
圖8 2006-2012 溝通網(wǎng)絡(luò)累積度分布圖Fig.8 Cumulative distribution of node degree in communication network in 2006-2012
26481 個節(jié)點2006-2012 溝通關(guān)系網(wǎng)絡(luò)的介數(shù)、緊密度與集聚系數(shù)的分布見圖9.介數(shù)呈冪律分布,累積分布的k 為0.39(R2=0.74),說明溝通網(wǎng)絡(luò)在中介位置方面存在多樣性.同樣,溝通網(wǎng)絡(luò)從這3 個拓撲指標(biāo)來看不存在異質(zhì)性.
圖9 2006-2012 溝通網(wǎng)絡(luò)拓撲指標(biāo)的直方圖Fig.9 Topology index histogram of communication network in 2006-2012
以2011年上半年為例,其溝通網(wǎng)絡(luò)共4 125 個節(jié)點、14690 條邊,經(jīng)計算共分為833 個連通圖(包含孤立點),833 個連通圖中最大規(guī)模的含有2458 個節(jié)點,占總節(jié)點數(shù)的59.6%.規(guī)模最小的僅含1 個節(jié)點(但有577 個),連通圖節(jié)點個數(shù)呈冪律分布,累積分布的k 為0.94(R2=0.80).這說明溝通網(wǎng)絡(luò)從連通圖規(guī)模來看近似具有異質(zhì)性.但與bug 討論網(wǎng)絡(luò)一樣,與生產(chǎn)網(wǎng)絡(luò)相比,信息溝通網(wǎng)絡(luò)的整體性也較強,這也是由生產(chǎn)的專業(yè)性與信息溝通的廣泛性造成的.
采用Potts 算法,得到每半年溝通網(wǎng)絡(luò)最大連通圖的社團分析結(jié)果,發(fā)現(xiàn)無權(quán)溝通網(wǎng)絡(luò)存在社團(Q大于0.3),但從各種零模型的Q 值在0.1 附近可知,與加權(quán)生產(chǎn)網(wǎng)絡(luò)不同,加權(quán)溝通網(wǎng)絡(luò)沒有社團,這說明生產(chǎn)與溝通的強度結(jié)構(gòu)存在差異性.
采用與加權(quán)生產(chǎn)網(wǎng)絡(luò)同樣的分析方法,發(fā)現(xiàn)加權(quán)溝通網(wǎng)絡(luò)也具有顯著的富人俱樂部現(xiàn)象.2008年下半年的分析結(jié)果如圖10 所示.圖10 說明活躍的溝通者主要是在彼此之間進行溝通,活躍者之間的溝通與其他類型的溝通之間存在著異質(zhì)性.
圖10 加權(quán)溝通網(wǎng)絡(luò)的富人俱樂部現(xiàn)象Fig.10 Rich club phenomenon in weighted communication network
在對異質(zhì)性進行思考的基礎(chǔ)上,建立了開源社區(qū)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)模型,在對復(fù)雜網(wǎng)絡(luò)的參數(shù)進行分析中,找出可反映社區(qū)結(jié)構(gòu)異質(zhì)性的參數(shù).以上結(jié)果匯集在表2 中.
Codeplex C# 開源社區(qū)結(jié)構(gòu)的異質(zhì)性.首先,連通圖分析反映出,存在兩種性質(zhì)不同的生產(chǎn)模式:洞穴式與網(wǎng)絡(luò)式,且生產(chǎn)的二分與合作網(wǎng)絡(luò)的連通圖規(guī)模都呈現(xiàn)出異質(zhì)性與碎片性;bug 討論結(jié)構(gòu)與溝通結(jié)構(gòu)則不同,它們以網(wǎng)絡(luò)式為主且大多數(shù)成員都處于最大連通圖內(nèi),從而具有整體性;信息溝通連通圖的規(guī)模具有異質(zhì)性,但bug 討論網(wǎng)絡(luò)的連通圖規(guī)模具有同質(zhì)性,由此可見,從連通圖來看,生產(chǎn)結(jié)構(gòu)的異質(zhì)性最強,信息溝通結(jié)構(gòu)次之.其次,3 種活動結(jié)構(gòu)網(wǎng)絡(luò)的節(jié)點的權(quán)都有很好的冪律擬合且滿足異質(zhì)性標(biāo)準(zhǔn),因此從節(jié)點的各種強度來看社區(qū)都具有異質(zhì)性,而bug 討論結(jié)構(gòu)的節(jié)點強度最符合異質(zhì)性的標(biāo)準(zhǔn).度的冪律分布說明,社區(qū)從項目的參與人數(shù)、bug 發(fā)帖人數(shù)與回帖人數(shù)以及溝通的人數(shù)方面也具有異質(zhì)性.再次,社區(qū)的各種結(jié)構(gòu)的介數(shù)盡管存在多樣性,但是介數(shù)、緊密度與集聚系數(shù)這些重要的拓撲指標(biāo)都不具有異質(zhì)性.最后,加權(quán)合作網(wǎng)絡(luò)與加權(quán)溝通網(wǎng)絡(luò)都具有顯著的富人俱樂部現(xiàn)象;生產(chǎn)網(wǎng)絡(luò)、無權(quán)溝通網(wǎng)絡(luò)的最大連通圖存在著社團結(jié)構(gòu),這些也反映出社區(qū)結(jié)構(gòu)的異質(zhì)性.
開源社區(qū)結(jié)構(gòu)異質(zhì)性復(fù)雜網(wǎng)絡(luò)分析的具體步驟如下:開源社區(qū)結(jié)構(gòu)的異質(zhì)性常常體現(xiàn)在復(fù)雜網(wǎng)絡(luò)模型的度、權(quán)等指標(biāo)以及連通圖、社團結(jié)構(gòu)與富人俱樂部等方面,所以在建立社區(qū)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)模型后,先用生產(chǎn)者與項目的二分網(wǎng)絡(luò)連通圖去分析生產(chǎn)結(jié)構(gòu)在生產(chǎn)模式方面的異質(zhì)性,然后從度、權(quán)等指標(biāo)的分布去探討其他各種網(wǎng)絡(luò)結(jié)構(gòu)在節(jié)點關(guān)系的廣度、強度以及信息中介地位方面表現(xiàn)出的異質(zhì)性,再從連通圖的規(guī)模以及最大連通圖內(nèi)社團的規(guī)模,分別看關(guān)系有無以及關(guān)系的密切性反映出的結(jié)構(gòu)異質(zhì)性,最后用富人俱樂部方法從節(jié)點強度與成對關(guān)系的強度(邊權(quán))來看結(jié)構(gòu)的異質(zhì)性.
我們認為,有關(guān)Codeplex C#社區(qū)的結(jié)論對開源社區(qū)是否具有普遍意義還需要多個案例的驗證,但由此社區(qū)總結(jié)出的開源社區(qū)結(jié)構(gòu)異質(zhì)性的復(fù)雜網(wǎng)絡(luò)分析步驟卻具有普適性.
文中用冪律分布來測量異質(zhì)性,另一方面,物理學(xué)的自組織臨界態(tài)(復(fù)雜態(tài),相變態(tài))也是由冪律分布體現(xiàn)的,這樣通過冪律分布,異質(zhì)性與物理學(xué)的自組織臨界性就聯(lián)系在一起了.我們認為這就是組織異質(zhì)性研究的物理背景.另外,世界上,有的組織是他組織的,有的組織是自組織的,大眾生產(chǎn)社區(qū)是一種典型的自組織的組織.自組織的組織會自發(fā)地向臨界態(tài)(吸引子)進化,所以臨界性是自組織進化程度的判據(jù),由此可知組織異質(zhì)性研究的意義.
[1]Wuchty S,Jones B F,Uzzi B.The increasing dominance of teams in production of knowledge[J].Science,2007,316(5827):1036-1039.
[2]Newman M.Scientific collaboration networks network construction and fundamental results [J].Physical Review E,2001,64:016131.
[3]Crowston K,Wei K,Howison J,et al.Free/libre open source software development:what we know and what we do not know[J].ACM Computing Surveys,2012,44(2):7-35.
[4]楊建梅.組織的系統(tǒng)結(jié)構(gòu)定義探討[J].系統(tǒng)工程學(xué)報,2002,17(5):441-444.Yang Jian-mei.Research on definition of system structure of organization[J].Journal of System Engineering,2002,17(5):441-444.
[5]楊建梅.人類活動系統(tǒng)的復(fù)雜性[J].華南理工大學(xué)學(xué)報:社會科學(xué)版,2011,13(4):1-1.Yang Jian-mei.Complexity of human activity systems[J].Journal of South China University of Technology:Social Science Edition,2011,13 (4):1-1.
[6]Barabasi A.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.
[7]維基百科.Pareto distribution [EB/OL].http:∥zh.wikipedia.org/wiki/Pareto DistributionCDF.png.
[8]方衛(wèi)東,李坤,張建功.香港恒生指數(shù)的波動性分析[J].華南理工大學(xué)學(xué)報:自然科學(xué)版,2008,36(12):138-141.Fang Wei-dong,Li Kun,Zhang Jian-gong.Analysis of fluctuation of Hong Kong Hang Seng index[J].Journal of South China University of Technology:Natural Science Edition,2008,36(12):138-141.
[9]Yang Jianmei,Lu Lvping,Xie Wangdan,et al.On competitive relationship networks:a new method for industrial competition analysis[J].Physica A,2007,382(2):704-714.
[10]Yang Jianmei,Wang Wenjie,Chen Guanrong.A two-level complex network model and its application[J].Physica A,2009,388(12):2435-2449.
[11]Yang Jianmei,Yao Canzhong,Ma Weicheng,et al.A study of the spreading scheme for viral marketing based on a complex network model[J].Physica A,2010,389(4):859-870.
[12]Krishnamurthy S.Cave or community an empirical exa-mination of 100 mature open source projects [J/OL].First Monday,2002,7(6).http:∥www.firstmonday.dk/issues/issue7_6/krishnamurthy
[13]Lancichinetti A,Radicchi F,Ramasco J.Statistical significance of communities in networks[J].Physical Review E ,2010,81(4):046110.
[14]Reichardt J,Bomholdt S.Detecting fuzzy community structures in complex networks with a Potts model[J].Phys Rev Lett,2004,93(21):218701.
[15]Opsahl T,Colizza V.Prominence and control:the weighted rich-club effect[J].Phys Rev Lett,2008,101(6):168702.