林德明,陳璐璐
(大連理工大學(xué) 科學(xué)學(xué)與科技管理研究所WISE實(shí)驗(yàn)室,大連 116023)
科學(xué)知識(shí)網(wǎng)絡(luò)自相似性的實(shí)證研究
林德明,陳璐璐
(大連理工大學(xué) 科學(xué)學(xué)與科技管理研究所WISE實(shí)驗(yàn)室,大連 116023)
科學(xué)計(jì)量學(xué)的研究都是以科學(xué)知識(shí)的自相似性作為理論假設(shè)的,尤其是科學(xué)知識(shí)圖譜更是以科學(xué)文獻(xiàn)等在空間上的自相似性為前提,因此對(duì)科學(xué)知識(shí)網(wǎng)絡(luò)自相似性的檢驗(yàn)與證明是必不可少的。應(yīng)用科學(xué)計(jì)量學(xué)與復(fù)雜網(wǎng)絡(luò)分析的方法,選取網(wǎng)絡(luò)的平均聚類系數(shù)、平均最短路徑和平均度三個(gè)特征指標(biāo),建立科學(xué)知識(shí)網(wǎng)絡(luò)的自相似模型,并對(duì)合作網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)與共被引網(wǎng)絡(luò)的自相似性進(jìn)行定性與定量的分析,從而驗(yàn)證了科學(xué)文獻(xiàn)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的局部與整體具有自相似。
科學(xué)文獻(xiàn);科學(xué)知識(shí)網(wǎng)絡(luò);自相似性;科學(xué)計(jì)量學(xué);知識(shí)圖譜
科學(xué)計(jì)量學(xué)是應(yīng)用數(shù)理統(tǒng)計(jì)和計(jì)算機(jī)技術(shù)等方法對(duì)科學(xué)技術(shù)本身進(jìn)行定量分析的一門交叉學(xué)科,其定量分析的對(duì)象為科學(xué)知識(shí),文獻(xiàn)等是科學(xué)知識(shí)的重要載體。但是在實(shí)際研究過程中獲取所有知識(shí)總體是不現(xiàn)實(shí)的,因此利用選取期刊或是關(guān)鍵詞檢索獲得數(shù)據(jù)樣本,成為科學(xué)計(jì)量學(xué)研究的最主要途徑 。這種途徑是建立在科學(xué)知識(shí)具備自相似性的假設(shè)前提下的,即樣本和總體的相似。
伴隨著科學(xué)技術(shù)的迅猛發(fā)展,科學(xué)知識(shí)也在大規(guī)模地?cái)U(kuò)張,例如每年SCI數(shù)據(jù)庫的文獻(xiàn)增長量就達(dá)到100多萬篇,巨大而復(fù)雜的科學(xué)知識(shí)數(shù)據(jù),為科學(xué)計(jì)量學(xué)提出了極大的挑戰(zhàn)。然而,復(fù)雜網(wǎng)絡(luò)分析、計(jì)算機(jī)技術(shù)、信息可視化等相關(guān)技術(shù)和方法的發(fā)展為科學(xué)計(jì)量學(xué)注入了新鮮的血液[1][2],使得科學(xué)知識(shí)圖譜[3][4]與知識(shí)可視化技術(shù)[5]成為了科學(xué)計(jì)量學(xué)的新航向,并在反恐主義研究領(lǐng)域分析[6]、科技期刊引文環(huán)境[7]等諸多領(lǐng)域得到廣泛應(yīng)用。然而,對(duì)于某一學(xué)科領(lǐng)域來說數(shù)據(jù)量過于龐大,展現(xiàn)所有數(shù)據(jù)的知識(shí)圖譜是現(xiàn)有技術(shù)無法實(shí)現(xiàn)的,所以知識(shí)圖譜的繪制只能選擇一部分高被引或其他告知標(biāo)志的文獻(xiàn),正是由于自相似性假設(shè)的存在,使得高被引文獻(xiàn)的知識(shí)圖譜也能反映總體的一部分特征。
因此,無論是科學(xué)計(jì)量學(xué)還是科學(xué)知識(shí)圖譜的研究都以科學(xué)知識(shí)自相似性的存在作為理論前提的。1990年Van Raan意識(shí)到科學(xué)知識(shí)的相似性,率先驗(yàn)證了科學(xué)知識(shí)的分形結(jié)構(gòu),并證明了隨著共被引文獻(xiàn)規(guī)模的增加,其分?jǐn)?shù)維數(shù)呈指數(shù)分布形式增加[8][9][10]。隨后Brunk GG[11]、Bailon-Moreno R[12]等在此基礎(chǔ)上,對(duì)科學(xué)知識(shí)系統(tǒng)的分形結(jié)構(gòu)進(jìn)行了探討。以上研究都局限于分形結(jié)構(gòu)的研究,關(guān)注科學(xué)論文在時(shí)間上的擴(kuò)散與增長,對(duì)于其它自相似結(jié)構(gòu)尤其是共被引網(wǎng)絡(luò)等空間結(jié)構(gòu)的自相似并沒有涉及,并且缺乏對(duì)自相似性的檢驗(yàn)與證明。除此之外,通過文獻(xiàn)的大量檢索鮮見科學(xué)知識(shí)自相似性的研究,在國內(nèi)的文獻(xiàn)中并沒有檢索到相關(guān)研究。
同時(shí),自相似性在數(shù)據(jù)通信[13]、人類生物網(wǎng)絡(luò)[14]以及復(fù)雜網(wǎng)絡(luò)等諸多領(lǐng)域被研究,C.M.Song與S.Havlin[15]等人利用重構(gòu)化理論來揭示復(fù)雜網(wǎng)絡(luò)的自相似分形特征;R.Guimera 與L.Danon[16]在研究中利用郵件系統(tǒng)來揭示社區(qū)結(jié)構(gòu)的自相似分形特征;陶少華[17][18]等分別研究了基于信息維數(shù)與容量維數(shù)的復(fù)雜網(wǎng)絡(luò)的自相似性,建立了基于自相似分型特征的網(wǎng)絡(luò)演化模型,并且說明動(dòng)態(tài)增長的復(fù)雜網(wǎng)絡(luò)的確是自相似的,這些研究為本項(xiàng)目提供了啟示與參考。
本文主要研究科學(xué)文獻(xiàn)在空間上的自相似性,選取科學(xué)文獻(xiàn)所組成的知識(shí)網(wǎng)絡(luò)中平均聚類系數(shù)、平均最短路徑、平均度三個(gè)基本指標(biāo),隨著網(wǎng)絡(luò)規(guī)模的變化情況,建立模型驗(yàn)證科學(xué)文獻(xiàn)在網(wǎng)絡(luò)拓?fù)淇臻g中的自相似性,從而為解釋科學(xué)規(guī)律,明確科學(xué)計(jì)量學(xué)中的數(shù)據(jù)選擇尺度提供參考。
2.1 指標(biāo)選取
自相似性是指某一物體的局部可能在一定條件下或過程中,在某一方面例如狀態(tài)、結(jié)構(gòu)、信息、功能、時(shí)間、能量等都表現(xiàn)出與整體的相似性,即具有尺度不變性??臻g自相似性是一種非常普遍的現(xiàn)象,通常被理解為系統(tǒng)的部分和整體在空間形態(tài)和結(jié)構(gòu)上存在某種相似性。而科學(xué)文獻(xiàn)空間的自相似性是指由科學(xué)文獻(xiàn)的作者、關(guān)鍵詞或者參考文獻(xiàn)等所組成的空間結(jié)構(gòu)的局部與整體具有某種相同的性質(zhì)。目前,在科學(xué)文獻(xiàn)的計(jì)量分析中,科學(xué)知識(shí)網(wǎng)絡(luò),包括合作網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)等是科學(xué)文獻(xiàn)空間上拓?fù)浣Y(jié)構(gòu)最好的表現(xiàn)形式。
隨著對(duì)復(fù)雜網(wǎng)絡(luò)研究的深入,研究者提出了許多特征指標(biāo),來描述各種不同類型的復(fù)雜網(wǎng)絡(luò)的共同特征,同時(shí)也用來衡量各種復(fù)雜網(wǎng)絡(luò)演化模型的準(zhǔn)確性和有效性。目前,研究比較充分的統(tǒng)計(jì)特性有平均聚類系數(shù)、平均最短路徑、平均度等[19]。
(1)平均聚類系數(shù):假設(shè)網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)i有ki條邊將它與其它節(jié)點(diǎn)相連,這ki個(gè)節(jié)點(diǎn)稱為節(jié)點(diǎn)i的鄰居節(jié)點(diǎn),在這ki個(gè)鄰居節(jié)點(diǎn)之間最多可能有ki(ki-1)/2條邊。節(jié)點(diǎn)i的ki個(gè)鄰居節(jié)點(diǎn)之間實(shí)際存在的邊數(shù)Ni和最多可能有的邊數(shù)ki(ki-1)/2之比就定義為節(jié)點(diǎn)i的聚類系數(shù),記為Ci。整個(gè)網(wǎng)絡(luò)的聚類系數(shù)定義為網(wǎng)絡(luò)中所有節(jié)點(diǎn)i的聚類系數(shù)Ci的平均值,記為C。聚類系數(shù)用來衡量網(wǎng)絡(luò)中節(jié)點(diǎn)間連接的緊密程度。
(2)平均最短路徑:網(wǎng)絡(luò)中任何兩個(gè)節(jié)點(diǎn)i和j之間的距離pij為從其中一個(gè)節(jié)點(diǎn)出發(fā)到達(dá)另一個(gè)節(jié)點(diǎn)所要經(jīng)過的連邊的最少數(shù)目。網(wǎng)絡(luò)的平均最短距離P為網(wǎng)絡(luò)中所有節(jié)點(diǎn)對(duì)之間距離的平均值。網(wǎng)絡(luò)的平均最短路徑D主要用來衡量網(wǎng)絡(luò)的傳輸效率。
(3)平均度:網(wǎng)絡(luò)中某個(gè)節(jié)點(diǎn)i的度ki定義為與該節(jié)點(diǎn)相連接的其它節(jié)點(diǎn)的數(shù)目,也就是該節(jié)點(diǎn)的鄰居數(shù)。通常情況下,網(wǎng)絡(luò)中不同節(jié)點(diǎn)的度并不相同,所有節(jié)點(diǎn)i的度ki的的平均值稱為網(wǎng)絡(luò)的(節(jié)點(diǎn))平均度,記為
2.2 模型建立
圖1 合作網(wǎng)絡(luò)的子網(wǎng)絡(luò)圖
以合作網(wǎng)絡(luò)為例,圖1為某一領(lǐng)域節(jié)點(diǎn)數(shù)分別為600和1000時(shí)的合作網(wǎng)絡(luò)的子網(wǎng)絡(luò)圖??梢郧宄庇^地看出,兩個(gè)網(wǎng)絡(luò)圖的整體結(jié)構(gòu)是相似的,隨著節(jié)點(diǎn)的增加,B的結(jié)構(gòu)并沒有實(shí)質(zhì)的改變。我們可以說當(dāng)N達(dá)到600時(shí),網(wǎng)絡(luò)已經(jīng)呈現(xiàn)平穩(wěn)的態(tài)勢(shì),這時(shí)節(jié)點(diǎn)的增加并不會(huì)改變整體網(wǎng)絡(luò)的性質(zhì),可以說明局部與整體具有自相似性。
根據(jù)以上定義,對(duì)于指標(biāo)y,如果網(wǎng)絡(luò)N具有自相似性,則y隨網(wǎng)絡(luò)規(guī)模的變化趨勢(shì)
選取材料處理技術(shù)作為案例,從Web of Science中下載該領(lǐng)域1990年到2010年的文獻(xiàn),共11609篇,然后利用Bibexcel分別形成合作網(wǎng)絡(luò),共詞網(wǎng)絡(luò)和共被引網(wǎng)絡(luò),應(yīng)用以上模型對(duì)三類科學(xué)知識(shí)網(wǎng)絡(luò)進(jìn)行分析。
合作網(wǎng)絡(luò)是科學(xué)文獻(xiàn)的作者通過合作關(guān)系建立的科學(xué)知識(shí)網(wǎng)絡(luò),網(wǎng)絡(luò)中的節(jié)點(diǎn)可以是作者、機(jī)構(gòu)、國家等科學(xué)知識(shí)的生產(chǎn)者,如果兩個(gè)作者、機(jī)構(gòu)、國家在文獻(xiàn)的作者中出現(xiàn),則他們存在合作,記;可以表示他們的合作次數(shù)或強(qiáng)度,且。本文中的合作網(wǎng)絡(luò)為作者合作網(wǎng)絡(luò),圖2中橫坐標(biāo)為網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)即作者數(shù),其中作者按照發(fā)文量由大到小排列,例如n=10表示只選取發(fā)文量前10所組成的合作網(wǎng)絡(luò);縱坐標(biāo)分別為平均聚類系數(shù)、平均最短路徑和平均度三個(gè)網(wǎng)絡(luò)特征指標(biāo)。
圖2 合作網(wǎng)絡(luò)的特征指標(biāo)差分序列的變化曲線
圖3 共詞網(wǎng)絡(luò)的特征指標(biāo)差分序列的變化曲線
共詞網(wǎng)絡(luò)是科學(xué)文獻(xiàn)中的關(guān)鍵詞或主題詞通過共現(xiàn)關(guān)系建立的科學(xué)知識(shí)網(wǎng)絡(luò),詞是是對(duì)科學(xué)知識(shí)最直接的描述,共詞網(wǎng)絡(luò)中的節(jié)點(diǎn)可以是文獻(xiàn)中標(biāo)注的關(guān)鍵詞,亦可以是來自于文獻(xiàn)的題目、摘要甚至文獻(xiàn)內(nèi)部中的、能夠清晰描述知識(shí)內(nèi)容的主題詞。
如果兩個(gè)詞在同一篇文獻(xiàn)中出現(xiàn),則,他們?cè)诰W(wǎng)絡(luò)存在邊的連接;可以表示他們共同出現(xiàn)的頻次或強(qiáng)度。本文中的共詞網(wǎng)絡(luò)為關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),圖3中橫坐標(biāo)為網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)即關(guān)鍵詞數(shù),其中關(guān)鍵詞按照頻次由大到小排列,例如n=10表示出現(xiàn)頻次前10所組成的共詞網(wǎng)絡(luò);縱坐標(biāo)分別為平均聚類系數(shù)、平均最短路徑和平均度三個(gè)網(wǎng)絡(luò)特征指標(biāo)。
從圖3可以看出,共詞網(wǎng)絡(luò)的平均聚類系數(shù)、平均最短路徑與平均度都與分別在n=62、n=132和n=132以后趨近于0,所以共詞網(wǎng)絡(luò)具備自相似性。
圖4 共被引網(wǎng)絡(luò)的特征指標(biāo)差分序列的變化曲線
從圖4可以看出,共被引網(wǎng)絡(luò)的平均聚類系數(shù)、平均最短路徑與平均度都與分別在 n=72、n=112 和n=132 以后圍繞著0上下波動(dòng),雖然波動(dòng)的幅度比較大,但是序列的均值仍近似為0,并且方差非常小,所以共被引網(wǎng)絡(luò)基本具備自相似性。
由于科學(xué)知識(shí)規(guī)模的大規(guī)模擴(kuò)張,科學(xué)計(jì)量學(xué)受到了極大的挑戰(zhàn)。無論是科學(xué)計(jì)量學(xué)方法還是新興的科學(xué)知識(shí)圖譜都是以科學(xué)知識(shí)的自相似性為理論前提的,但是通過對(duì)國內(nèi)外文獻(xiàn)的檢索發(fā)現(xiàn),對(duì)科學(xué)文獻(xiàn)相似性的檢驗(yàn)與深入研究并不多見。本文以科學(xué)文獻(xiàn)所組成的科學(xué)知識(shí)網(wǎng)絡(luò)在空間的自相似性為研究對(duì)象,首先建立科學(xué)知識(shí)網(wǎng)絡(luò)的自相似性模型,然后在此基礎(chǔ)上提出網(wǎng)絡(luò)特征指標(biāo)收斂性檢驗(yàn)的自相似性驗(yàn)證方法,最后以材料處理技術(shù)領(lǐng)域在1990年到2010年間的11609篇論文為實(shí)例,對(duì)其合作網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)和共被引網(wǎng)絡(luò)的自相似性進(jìn)行了驗(yàn)證。研究表明作者合作網(wǎng)絡(luò)與共詞網(wǎng)絡(luò)具備比較顯著的空間相似性,而共被引網(wǎng)絡(luò)基本具備自相似性,并且網(wǎng)絡(luò)特征指標(biāo)中平均聚類系數(shù)收斂的速度遠(yuǎn)快于其他指標(biāo),平均最短路徑與平均度的收斂速度基本相近。
[1] E Otte, R Rousseau. Social network analysis: a powerful strategy, also for the information sciences[J]. Journal of information science, 2002, 28 (6): 441-453.
[2] Chen C. Mapping Scientific Frontiers: The Quest for Knowledge Visualization[M]. London: Springer-Verlag, 2002.
[3] K B?rner, C Chen, KW Boyack. Visualizing Knowledge Domains. Annual Review of Information Science & Technology[D], B. Cronin, Editor. Information Today, Inc. American Society for Information Science and Technology: Medford, NJ, 2007, 179-255.
[4] 劉則淵,陳悅,侯海燕等. 科學(xué)知識(shí)圖譜方法與應(yīng)用[M]. 北京:人民出版社,2008.
[5] Chen C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology. 2006, 57(3): 359-377.
[6] EF Reid, HC Chen. Mapping the contemporary terrorism research domain[J]. International journal of human-cumputer studies, 2007, 65 (1): 42-56.
[7] 周萍,Leydesdorff L,武夷山. 中國科技期刊引文環(huán)境的可視化[J]. 中國科技期刊研究,2005,16(6):773-780.
[8] Van Raan. Fractal dimension of co-citations[J]. Nature, 1990, 347 (10): 626.
[9] Van Raan. Fractal geometry of information space as represented by co-citation clustering[J]. Scientometrics, 1991, 20 (3): 439-449.
[10] Van Raan. On growth, ageing, and fractal differentiation of science[J], Scientometrics 2000, 47(2): 347-362.
[11] GG. Brunk. Swarming of innovations, fractal patterns, and the historical time series of US patents[J]. Scietometrics, 2003, 56 (1): 61-80.
[12] R Bailon-Moreno, E Jurado-Alameda, R Ruiz-Banos, et al. The unified scientometrics model, fractality and transfractality[J]. Scietometrics, 2005, 63 (2): 231-257.
[13] 邵立松,竇文華. 自相似網(wǎng)絡(luò)通信量模型研究綜述[J]. 電子與信息學(xué)報(bào),2005,27(10):1671-1676.
[14] 黃海生,丁德武,吳璞等. 幾種人類生物網(wǎng)絡(luò)的自相似性實(shí)證研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,47(16):128-130.
[15] Song Chao-ming, S Havlin, HA Makse. Self-similarity of complex networks[J]. Nature, 2005, (433): 392-395.
[16] R Guimera, L Danon, A Dlaz-Guilera, et al.Self-similar community structure in a network of human interactions [J]. Physical Review E, 2003, 68 (6): 065103.
[17] 陶少華,劉玉華,許凱華等. 基于信息維數(shù)的復(fù)雜網(wǎng)絡(luò)自相似性研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2007, 43(15):108-110.
[18] 陶少華,劉玉華,許凱華等. 基于容量維數(shù)的復(fù)雜網(wǎng)絡(luò)自相似性研究[J]. 計(jì)算機(jī)工程, 2008, 34(2):175-177.
[19] 汪小帆,李翔,陳關(guān)榮. 復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用 [M]. 北京:清華大學(xué)出版社,2006.
(責(zé)任編輯:張 萌)
Empirical Study on the Spatial Self-similarity of Scientific Knowledge Network
LIN Deming,CHEN Lulu
(WISE Lab, Institute of Science Studies and S&T Management, Dalian University of Technology, Dalian 116023)
Self-similarity of scientific knowledge is the theoretical hypothesis of scientometrics. Especially the mapping knowledge is even based on the spatial self-similarity of scientific literatures. Therefore it is essential to investigate the selfsimilarity of scientific knowledge network. We applied scientometics and complex network analysis to study the self-similarity of cooperative network, co-word network and co-citation network qualitatively and quantitatively, where select three characteristic indices which are the average clustering coefficient, average shortest path and the average degree of the network to establish a selfsimilarity model. In the resuilt, prove that the local network topology and global network topology of the scientific literature are selfsimilarity.
:Scientific literature;Scientific knowledge network;Self-similarity;Scientometrics;Mapping knowledge domain
G302;F224
A
10.3969/j.issn1003-8256.2015.01.006
遼寧省教育廳科學(xué)研究一般項(xiàng)目“科學(xué)引文共被引網(wǎng)絡(luò)的科學(xué)計(jì)量研究”(W2012018)、國家自然科學(xué)基金資助項(xiàng)目“基于蟻群覓食模型的科學(xué)知識(shí)的復(fù)雜性演化機(jī)理研究”(71003011)
林德明(1978-),男,漢族,黑龍江哈爾濱人,大連理工大學(xué)公共管理與法學(xué)學(xué)院科學(xué)學(xué)與科技管理研究所,副教授,研究方向?yàn)榭萍颊吲c科技管理;陳璐璐(1989-),女,漢族,遼寧撫順人,大連理工大學(xué)公共管理與法學(xué)學(xué)院科學(xué)學(xué)與科技管理研究所碩士研究生,研究方向?yàn)榭萍颊吲c科技管理。