薛辰
〔摘要〕本文利用Web of Science數(shù)據(jù)庫(kù),對(duì)國(guó)際大數(shù)據(jù)研究領(lǐng)域的文獻(xiàn)進(jìn)行收集,分別按照論文的年代、著者、國(guó)別與機(jī)構(gòu)進(jìn)行統(tǒng)計(jì)分析,并利用SPSS軟件對(duì)文獻(xiàn)的高頻關(guān)鍵詞進(jìn)行聚類(lèi)分析和多維尺度分析,利用Ucinet軟件予以可視化呈現(xiàn),總結(jié)了國(guó)際大數(shù)據(jù)研究的現(xiàn)狀與熱點(diǎn),以期對(duì)國(guó)內(nèi)大數(shù)據(jù)的研究提供有益的參考和借鑒。
〔關(guān)鍵詞〕大數(shù)據(jù);共詞分析法;聚類(lèi)分析;多維尺度分析;可視化
DOI:10.3969/j.issn.1008-0821.2013.09.026
〔中圖分類(lèi)號(hào)〕TP391;G250.252〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2013)09-0129-06
2011年5月,麥肯錫全球研究院(McKinsey Global Institute)發(fā)布了研究報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》(Big data,The next frontier for innovation,competition,and productivity)[1]。2012年1月在瑞士達(dá)沃斯舉行的世界經(jīng)濟(jì)論壇上,“大數(shù)據(jù)”是討論的主題之一,論壇上發(fā)布的題為《大數(shù)據(jù),大影響》(Big Data,Big Impact)的報(bào)告中提出,“數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類(lèi)別,就像貨幣或黃金一樣。[2]”2012年3月29日,美國(guó)政府在白宮網(wǎng)站上發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》(Big Data Research and Development Initiative),該倡議涉及聯(lián)邦政府的6個(gè)部門(mén),這些部門(mén)承諾將投資超過(guò)兩億美元,來(lái)大力推動(dòng)和改善大數(shù)據(jù)的提取、存儲(chǔ)、分析、共享和可視化。
無(wú)論是美國(guó)政府的倡議,麥肯錫的研究報(bào)告,還是世界經(jīng)濟(jì)論壇的議題,都預(yù)示著人們,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。大數(shù)據(jù)正在撬動(dòng)全世界的神經(jīng),大到一個(gè)國(guó)家、企業(yè),小到每一個(gè)獨(dú)立存在的個(gè)人,都將成為大數(shù)據(jù)時(shí)代的貢獻(xiàn)者和受益者。那么,大數(shù)據(jù)究竟是什么?維基百科將大數(shù)據(jù)解釋為“是指無(wú)法在一定時(shí)間內(nèi)用通常的軟件工具進(jìn)行捕獲、管理的數(shù)據(jù)集合”[3]。關(guān)于數(shù)據(jù)量究竟要達(dá)到多少才可以被稱(chēng)之為大數(shù)據(jù),目前尚無(wú)統(tǒng)一說(shuō)法。一般認(rèn)為,大數(shù)據(jù)的數(shù)量級(jí)應(yīng)該是“太字節(jié)”,即240。大數(shù)據(jù)之“大”,并不僅僅在于其“容量之大”,更多的意義在于,人們可以“分析和使用”的數(shù)據(jù)在大量增加,通過(guò)這些數(shù)據(jù)的交換、整合和分析,人類(lèi)可以發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值,帶來(lái)“大知識(shí)”、“大科技”、“大利潤(rùn)”和“大發(fā)展”[4]。
目前國(guó)內(nèi)學(xué)者中,楊繹以國(guó)內(nèi)文獻(xiàn)為研究基礎(chǔ),以關(guān)鍵詞分析為主要方法,對(duì)目前國(guó)內(nèi)期刊和報(bào)紙上有關(guān)“大數(shù)據(jù)”的文獻(xiàn)進(jìn)行了研究[5]。韓芳芳等以CNKI為數(shù)據(jù)源,從文獻(xiàn)、作者、關(guān)鍵詞3個(gè)角度分析我國(guó)大數(shù)據(jù)領(lǐng)域的相關(guān)文獻(xiàn)。筆者認(rèn)為很有必要對(duì)國(guó)際大數(shù)據(jù)領(lǐng)域文的獻(xiàn)進(jìn)行分析,從而把握國(guó)際大數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀與熱點(diǎn),以供國(guó)內(nèi)學(xué)者參考借鑒。
1數(shù)據(jù)來(lái)源與研究方法
Web of Science(簡(jiǎn)稱(chēng)WOS)是美國(guó)湯姆森集團(tuán)開(kāi)發(fā)的產(chǎn)品,是大型綜合性、多學(xué)科期刊引文索引數(shù)據(jù)庫(kù)。WOS收錄了世界上經(jīng)過(guò)同行專(zhuān)家評(píng)審的有影響力的文獻(xiàn),選用WOS作為數(shù)據(jù)源進(jìn)行研究可以保證研究資料的權(quán)威性。本文選取WOS數(shù)據(jù)庫(kù)下3個(gè)子庫(kù)Science Citation Index Expanded(SCI-EXPANDED,科學(xué)引文索引擴(kuò)展版)、Social Sciences Citation Index(SSCI,社會(huì)科學(xué)引文索引)、Arts & Humanities Citation Index(A&HCI,人文藝術(shù)科學(xué)引文索引),檢索年限為“所有年份”,數(shù)據(jù)庫(kù)更新日期為2013年4月5日,以“big data”為檢索詞進(jìn)行“主題”檢索,共檢得171篇大數(shù)據(jù)領(lǐng)域的相關(guān)文獻(xiàn)(檢索日期:2013年4月10日)。
本文借助SPSS 190軟件,采用共詞分析法對(duì)國(guó)際大數(shù)據(jù)的研究熱點(diǎn)進(jìn)行分析。共詞分析法(Co-term Analysis)最早是在20世紀(jì)70年代中后期由法國(guó)文獻(xiàn)計(jì)量學(xué)家提出的,其思想來(lái)源于文獻(xiàn)計(jì)量學(xué)中的引文耦合與共被引的概念。共詞分析法的基本原理是,統(tǒng)計(jì)一組詞(關(guān)鍵詞或者主題詞)兩兩在同一篇文獻(xiàn)中出現(xiàn)的次數(shù),以此作為基礎(chǔ)進(jìn)行聚類(lèi)分析,從而得出這些詞語(yǔ)之前的親疏遠(yuǎn)近的關(guān)系,進(jìn)而分析出這些詞語(yǔ)所代表的學(xué)科或者主題的結(jié)構(gòu)變化情況[7]。共詞分析法研究的是某一學(xué)科領(lǐng)域中當(dāng)前的學(xué)術(shù)文獻(xiàn)所集中關(guān)注的主題,很適合于分析某一學(xué)科的研究熱點(diǎn)和知識(shí)結(jié)構(gòu)[8]。
2013年9月1第33卷第9期1現(xiàn)?代?情?報(bào)1Journal of Modern Information1Sep,20131Vol.33No92013年9月1第33卷第9期1國(guó)際大數(shù)據(jù)研究論文的計(jì)量分析1Sep,20131Vol.33No92文獻(xiàn)計(jì)量分析
2.1年代分析
通過(guò)對(duì)文獻(xiàn)發(fā)表時(shí)間的分析,可以勾勒出國(guó)際大數(shù)據(jù)研究領(lǐng)域的發(fā)展軌跡,揭示其發(fā)展的總體趨勢(shì)。將在數(shù)據(jù)庫(kù)中檢索得到的論文按照年度進(jìn)行歸類(lèi),如表1所示。
從表1可以看出,國(guó)際大數(shù)據(jù)研究可以分為兩個(gè)時(shí)期:第一時(shí)期從1974-2007年,是起步探索時(shí)期。這一時(shí)期的研究成果比較零散,數(shù)量較少,除2006年有3篇外,其余年份均在2篇或以下。第二時(shí)期是從2008年至今,是快速增長(zhǎng)期。2008年的文獻(xiàn)量突然增長(zhǎng)到11篇,究其原因,是因?yàn)?008年9月《Nature》雜志開(kāi)設(shè)了“大數(shù)據(jù)”專(zhuān)刊,發(fā)表了10篇有關(guān)大數(shù)據(jù)研究的文章,從大數(shù)據(jù)的技術(shù)、發(fā)展方向以及對(duì)人類(lèi)的挑戰(zhàn)等多個(gè)角度介紹了大數(shù)據(jù)的相關(guān)問(wèn)題。這10篇文獻(xiàn)也被后來(lái)的文章多次引用,揭開(kāi)了國(guó)際上研究大數(shù)據(jù)熱潮的序幕。2012年文獻(xiàn)量達(dá)到歷史性的84篇,是第一時(shí)期文獻(xiàn)量最多的2006年的近30倍。這與2011年麥肯錫研究中心發(fā)布的大數(shù)據(jù)研究報(bào)告以及2012年初奧巴馬發(fā)布的大數(shù)據(jù)倡議息息相關(guān)。由于數(shù)據(jù)庫(kù)的收錄具有滯后性以及檢索時(shí)間是4月份,2013年的數(shù)據(jù)不全,卻已經(jīng)有29篇文獻(xiàn),可以預(yù)測(cè)未來(lái)幾年國(guó)際大數(shù)據(jù)研究還會(huì)繼續(xù)保持快速增長(zhǎng)的趨勢(shì)。