劉瑋,馬續(xù)補(bǔ),秦春秀,陳穎
(西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,陜西 西安 710071)
伴隨著云計(jì)算、社交網(wǎng)絡(luò)、移動(dòng)商務(wù)、物聯(lián)網(wǎng)等新興信息技術(shù)的快速滲透,數(shù)據(jù)量急劇增長(zhǎng),大數(shù)據(jù)已經(jīng)成為新一代信息技術(shù)的核心與競(jìng)爭(zhēng)前沿[1]。大數(shù)據(jù)技術(shù)和大數(shù)據(jù)分析已經(jīng)被成功應(yīng)用于許多領(lǐng)域,如健康醫(yī)療、商業(yè)分析、互聯(lián)網(wǎng)金融、社交媒體用戶(hù)行為分析、輿情分析、電子商務(wù)以及制造業(yè)等[2]。大數(shù)據(jù)研究已經(jīng)成為學(xué)術(shù)界和產(chǎn)業(yè)界最熱門(mén)的主題之一。大數(shù)據(jù)應(yīng)用是大數(shù)據(jù) 5個(gè)基礎(chǔ)研究方向之一,是科研項(xiàng)目關(guān)注最多的方向,包括各學(xué)科、各領(lǐng)域的基于數(shù)據(jù)的新方法、新范式、新理論等,用于支撐基于大數(shù)據(jù)的科學(xué)研究方法、社會(huì)發(fā)展方式、經(jīng)濟(jì)建設(shè)模式和國(guó)防安全手段[3]。社會(huì)科學(xué)的各個(gè)領(lǐng)域是大數(shù)據(jù)研究重要的應(yīng)用場(chǎng)景,也是大數(shù)據(jù)解釋階段的主要依據(jù),大數(shù)據(jù)是社會(huì)科學(xué)研究面臨的機(jī)遇和挑戰(zhàn)。
White、Luo、Gu等學(xué)者采用文獻(xiàn)計(jì)量方法分析了醫(yī)療領(lǐng)域大數(shù)據(jù)研究的規(guī)律[4-6],國(guó)內(nèi)學(xué)者采用文獻(xiàn)計(jì)量方法分析了計(jì)算機(jī)領(lǐng)域、經(jīng)濟(jì)管理領(lǐng)域的大數(shù)據(jù)研究現(xiàn)狀[7-8],對(duì)大數(shù)據(jù)工具、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)可視化等具體問(wèn)題進(jìn)行文獻(xiàn)計(jì)量分析[9-11]。現(xiàn)有研究多關(guān)注某個(gè)特定研究主題或具體學(xué)科中大數(shù)據(jù)研究規(guī)律,本文嘗試對(duì)包含諸多具體學(xué)科的廣義的社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)研究現(xiàn)狀進(jìn)行分析,以辨別大數(shù)據(jù)研究在整個(gè)社會(huì)科學(xué)中的發(fā)展規(guī)律和知識(shí)基礎(chǔ)。
科學(xué)文獻(xiàn)是科學(xué)活動(dòng)的主要產(chǎn)出形式,也是科學(xué)計(jì)量和文獻(xiàn)計(jì)量研究的重要數(shù)據(jù)來(lái)源。學(xué)術(shù)期刊是發(fā)表研究成果、進(jìn)行學(xué)術(shù)交流、獲得學(xué)術(shù)地位的重要媒介[12]??紤]我國(guó)社會(huì)科學(xué)研究現(xiàn)狀,學(xué)者更擅長(zhǎng)母語(yǔ)寫(xiě)作[13-14],因此本文采用多個(gè)文獻(xiàn)數(shù)據(jù)庫(kù)作為國(guó)內(nèi)和國(guó)際社會(huì)科學(xué)大數(shù)據(jù)研究現(xiàn)狀分析的數(shù)據(jù)來(lái)源。通過(guò)對(duì)期刊論文的文獻(xiàn)計(jì)量分析,發(fā)現(xiàn)研究特點(diǎn)和規(guī)律。英文文獻(xiàn)數(shù)據(jù)來(lái)自WOS(Web of Science)的社會(huì)科學(xué)引文索引(Social Sciences Citation Index,SSCI);中文文獻(xiàn)數(shù)據(jù)來(lái)自中文社會(huì)科學(xué)引文索引(Chinese Social Sciences Citation Index,CSSCI)和中國(guó)知網(wǎng)(CNKI)。
選擇“big data”和“大數(shù)據(jù)”作為檢索詞,數(shù)據(jù)庫(kù)檢索時(shí)間是2019年1月20日。在SSCI中檢索主題=“big data”,得到4320篇文獻(xiàn),為數(shù)據(jù)集1;在CSSCI中檢索標(biāo)題=“大數(shù)據(jù)”或關(guān)鍵詞=“大數(shù)據(jù)”,得到3132篇文獻(xiàn),為數(shù)據(jù)集2;在CNKI中檢索標(biāo)題=“大數(shù)據(jù)”或關(guān)鍵詞=“大數(shù)據(jù)”,且來(lái)源類(lèi)別為CSSCI,得到5010篇文獻(xiàn),為數(shù)據(jù)集3,作為分析時(shí)的馬充數(shù)據(jù)。表1列出了數(shù)據(jù)集1和2的具體數(shù)值。
波普爾的“三個(gè)世界”學(xué)說(shuō)和科學(xué)計(jì)量之父普賴(lài)斯的科學(xué)學(xué)理論,解釋了科學(xué)計(jì)量和文獻(xiàn)計(jì)量能夠幫助人們通過(guò)對(duì)特定領(lǐng)域文獻(xiàn)(集合)進(jìn)行計(jì)量,繪制、生成和解讀知識(shí)圖譜,從而改變?nèi)祟?lèi)打開(kāi)世界的方式[15]。文獻(xiàn)計(jì)量和科學(xué)計(jì)量方法已經(jīng)被廣泛應(yīng)用于科學(xué)學(xué)和科研管理等研究領(lǐng)域。本文通過(guò)對(duì)社會(huì)科學(xué)大數(shù)據(jù)研究的文獻(xiàn)計(jì)量分析,梳理了大數(shù)據(jù)研究現(xiàn)狀和發(fā)展規(guī)律;通過(guò)對(duì)引文來(lái)源聚類(lèi),分析了社會(huì)科學(xué)大數(shù)據(jù)研究的知識(shí)基礎(chǔ);通過(guò)分析不同數(shù)據(jù)源,對(duì)比了國(guó)內(nèi)外研究的異同。主要采用引文分析和共被引分析方法,使用了VOSviewer和HisCite軟件工具。
引文分析法是文獻(xiàn)計(jì)量和科學(xué)計(jì)量領(lǐng)域廣泛使用的方法[16]。引文分析法的基本假設(shè)是科學(xué)研究的積累性、連馬性和繼承性,具體表現(xiàn)為文獻(xiàn)之間的引用和被引用關(guān)系。文獻(xiàn)的引用和被引用,使得大量文獻(xiàn)分群聚類(lèi),構(gòu)成文獻(xiàn)聚類(lèi)、學(xué)科聚類(lèi)分析的理論基礎(chǔ)。
HisCite是科學(xué)引文索引(Science Citation Index,SCI)創(chuàng)始人加菲爾德開(kāi)發(fā)的文獻(xiàn)計(jì)量可視化軟件,能夠用圖示的方式展示文獻(xiàn)之間的引用關(guān)系,繪制出某研究領(lǐng)域的發(fā)展歷史,找到該領(lǐng)域的重要文獻(xiàn)以及最新的重要文獻(xiàn)[17]。
VOSviewer是Van Eck N J和Waltman L開(kāi)發(fā)的繪制文獻(xiàn)圖譜的軟件工具,通過(guò)相似度計(jì)算、VOS繪圖技術(shù)和轉(zhuǎn)換、旋轉(zhuǎn)和映射,該工具能清晰展示文獻(xiàn)計(jì)量中的共現(xiàn)關(guān)系,是一款能用于較大規(guī)模數(shù)據(jù)集合的文獻(xiàn)計(jì)量可視化分析工具[18]。
通過(guò)文獻(xiàn)數(shù)量的增長(zhǎng)變化規(guī)律來(lái)判斷和預(yù)測(cè)科學(xué)知識(shí)的增長(zhǎng)狀況,繼而探索科學(xué)發(fā)展規(guī)律是科學(xué)史和科學(xué)學(xué)研究中常用的方法[16]。普賴(lài)斯指數(shù)模型和邏輯模型是兩個(gè)重要的文獻(xiàn)增長(zhǎng)模型。分析1990-2015年之間WOS數(shù)據(jù)庫(kù)中“大數(shù)據(jù)應(yīng)用”相關(guān)文獻(xiàn)的數(shù)量分布[10],可認(rèn)為該領(lǐng)域文獻(xiàn)在2012-2015年之間符合普賴(lài)斯指數(shù)增長(zhǎng)規(guī)律。
表1:社會(huì)科學(xué)大數(shù)據(jù)研究文獻(xiàn)數(shù)量分布
對(duì)表1的數(shù)據(jù)進(jìn)行文獻(xiàn)增長(zhǎng)分析,取累積量為縱軸,時(shí)間為橫軸,實(shí)線(xiàn)為實(shí)際觀測(cè)值,虛線(xiàn)為擬合后的指數(shù)曲線(xiàn)。數(shù)據(jù)集1和2的指數(shù)模型擬合效果最好,R2>0.9,數(shù)據(jù)集1的指數(shù)擬合見(jiàn)圖1。文獻(xiàn)數(shù)量變化符合指數(shù)增長(zhǎng)模型和邏輯模型的前期增長(zhǎng)階段。
圖1中,2017年文獻(xiàn)累積量的實(shí)際值略低于預(yù)測(cè)值,2018年的文獻(xiàn)累積量明顯低于預(yù)測(cè)值,是否意味著2017年之后文獻(xiàn)增長(zhǎng)速度降低呢?我們對(duì)比了2018年2月以同樣檢索條件獲得的數(shù)據(jù)集,指數(shù)擬合曲線(xiàn)見(jiàn)圖2。對(duì)比兩個(gè)圖的變化,我們認(rèn)為觀測(cè)值低于預(yù)測(cè)值主要因?yàn)槲墨I(xiàn)數(shù)據(jù)庫(kù)更新時(shí)滯,是否出現(xiàn)文獻(xiàn)增長(zhǎng)加速度變緩即出現(xiàn)邏輯模型的拐點(diǎn),還需要更長(zhǎng)時(shí)間的觀察。這個(gè)現(xiàn)象在CSSCI的檢索結(jié)果中同樣出現(xiàn)。因此,大數(shù)據(jù)研究仍處于加速增長(zhǎng)期,大數(shù)據(jù)還在繼馬向社會(huì)科學(xué)研究的各個(gè)領(lǐng)域滲透。
圖1:大數(shù)據(jù)相關(guān)文獻(xiàn)的增長(zhǎng)曲線(xiàn)(2019.1)
圖2:大數(shù)據(jù)相關(guān)文獻(xiàn)的增長(zhǎng)曲線(xiàn)(2018.2)
SSCI和CSSCI均包括社會(huì)科學(xué)中的諸多具體學(xué)科,大數(shù)據(jù)對(duì)各個(gè)具體學(xué)科的滲透程度不同。表2列出數(shù)據(jù)集1中發(fā)文最多的7個(gè)類(lèi)別,考慮源刊數(shù)量,文獻(xiàn)在類(lèi)別1中的集中度最高。類(lèi)別3和5屬于SCIE,原因是部分期刊屬于雙檢索,如MISQUARTERLY。在SSCI和SCIE中,一個(gè)期刊可以屬于多個(gè)類(lèi)別,如MIS QUARTERLY同時(shí)屬于表2中的類(lèi)別1/2/3,因此,表2中各類(lèi)別的文獻(xiàn)量之間存在重復(fù)統(tǒng)計(jì)。盡管如此,依然可認(rèn)為SSCI中大數(shù)據(jù)研究文獻(xiàn)產(chǎn)出主要集中在7個(gè)類(lèi)別,其中屬于SSCI的類(lèi)別有5個(gè),INFORMATION SCIENCE & LIBRARY SCIENCE領(lǐng)域產(chǎn)生的大數(shù)據(jù)研究文獻(xiàn)最多。
表2:SSCI文獻(xiàn)的學(xué)科類(lèi)別分布(數(shù)據(jù)集1)
表3:CSSCI中文獻(xiàn)的學(xué)科類(lèi)別分布(數(shù)據(jù)集2)
表3列出了數(shù)據(jù)集2中發(fā)文最多的5個(gè)學(xué)科。同樣考慮源刊數(shù)量,文獻(xiàn)在類(lèi)別1中的集中度最高,即中文CSSCI數(shù)據(jù)庫(kù)中,來(lái)自圖書(shū)館、情報(bào)與文獻(xiàn)學(xué)的大數(shù)據(jù)研究文獻(xiàn)最多。
為了識(shí)別國(guó)內(nèi)和國(guó)際在社會(huì)科學(xué)大數(shù)據(jù)研究中的主要發(fā)文機(jī)構(gòu)及其影響力,我們對(duì)各研究機(jī)構(gòu)的發(fā)文量和被引量進(jìn)行統(tǒng)計(jì)。對(duì)數(shù)據(jù)集1的發(fā)文機(jī)構(gòu)進(jìn)行統(tǒng)計(jì),即截止2019年1月發(fā)文數(shù)量最多的10個(gè)機(jī)構(gòu)及其發(fā)文量,見(jiàn)圖 3。UNIVERSITY OF CALIFORNIA SYSTEM 發(fā)文量最多,UNIVERSITY OF LONDON緊隨其后,中科院和武漢大學(xué)分別居第4和第9位。
圖3: SSCI中發(fā)文量最多的10個(gè)研究機(jī)構(gòu)
引用通常被作為衡量科學(xué)研究成果影響力的重要指標(biāo)之一。HisCite采用LCS(local Citation Score)和GCS(Global Citation Score)兩個(gè)引用指標(biāo)測(cè)量一篇文獻(xiàn)在當(dāng)前數(shù)據(jù)庫(kù)和所有WOS數(shù)據(jù)庫(kù)中的被引數(shù)量,可認(rèn)為是該文獻(xiàn)在本領(lǐng)域和整個(gè)學(xué)術(shù)界的影響力[17]。數(shù)據(jù)集1導(dǎo)入HisCite,統(tǒng)計(jì)數(shù)據(jù)集1中研究機(jī)構(gòu)的論文數(shù)量和被引情況。由于文獻(xiàn)被引用存在時(shí)滯,且文獻(xiàn)發(fā)表后不一定被引用,表4的論文數(shù)量不大于圖3的數(shù)量。表4列出被引文獻(xiàn)數(shù)量不少于36篇的機(jī)構(gòu)。LCS引用最高的是MIT、哈佛大學(xué)和賓夕法尼亞大學(xué)。MIT的篇均被引達(dá)到12.4,以0.9%的文獻(xiàn)數(shù)量獲得了6.5%的LCS引用。GCS引用最高的是哈佛大學(xué)和MIT,篇均被引約36。中科院由2018年同期的第7位升至第3位,但篇均LCS被引不到0.5。武漢大學(xué)由第16位升至第6位,篇均LCS被引約0.75。清華大學(xué)由第19名升至第12位,篇均被引不到0.4。
表4:主要發(fā)文機(jī)構(gòu)和被引情況(SSCI)
檢索CNKI數(shù)據(jù)庫(kù)得到數(shù)據(jù)集3,統(tǒng)計(jì)其發(fā)文最多的8個(gè)機(jī)構(gòu)及其文獻(xiàn)被引用數(shù)量,如表5所示。中國(guó)人民大學(xué)在社會(huì)科學(xué)領(lǐng)域的研究成果產(chǎn)出不僅數(shù)量多,而且影響力顯著高于其他高校。
表5:主要發(fā)文機(jī)構(gòu)及引用情況(CSSCI)
Kuhn認(rèn)為,科學(xué)范式是某個(gè)學(xué)科領(lǐng)域中公認(rèn)的重要的概念[19]。文獻(xiàn)引用關(guān)系和共被引網(wǎng)絡(luò)能反映知識(shí)繼承、傳遞和發(fā)展脈絡(luò),能刻畫(huà)出學(xué)科結(jié)構(gòu)、特征和演化過(guò)程。陳超美認(rèn)為,知識(shí)基礎(chǔ)(INTELLECTUAL BASE)是研究前沿所指向的引證文獻(xiàn)[20]。知識(shí)基礎(chǔ)由前期研究?jī)?nèi)容和某個(gè)領(lǐng)域的結(jié)構(gòu)組成,知識(shí)基礎(chǔ)對(duì)于更好的理解研究前沿很重要[21]。本文采用陳超美對(duì)于研究前沿和知識(shí)基礎(chǔ)的定義,通過(guò)引文關(guān)系和共被引聚類(lèi)分析社科領(lǐng)域大數(shù)據(jù)研究的知識(shí)基礎(chǔ),并通過(guò)研究前沿和知識(shí)基礎(chǔ)的關(guān)系分析社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)研究的特點(diǎn)和規(guī)律。如圖4所示,研究前沿即通過(guò)檢索獲得的數(shù)據(jù)集,而知識(shí)基礎(chǔ)是研究前沿指向的引證文獻(xiàn)的共被引聚類(lèi)。本文在分析中主要以社會(huì)科學(xué)中的具體學(xué)科為分析對(duì)象,將數(shù)據(jù)集1和2分別導(dǎo)入VOSviewer,對(duì)知識(shí)基礎(chǔ)的來(lái)源期刊(引文來(lái)源)聚類(lèi)。
圖4:研究前沿和研究基礎(chǔ)的關(guān)系
1.基于SSCI的知識(shí)基礎(chǔ)分析
對(duì)數(shù)據(jù)集1進(jìn)行分析,選擇被引次數(shù)大于120次的230種引文來(lái)源,根據(jù)共被引強(qiáng)度進(jìn)行聚類(lèi),聚成6類(lèi),如圖5所示。分別是紅色區(qū)域(區(qū)域1,68個(gè)節(jié)點(diǎn)),綠色區(qū)域(區(qū)域4和5,共43個(gè)節(jié)點(diǎn)),藍(lán)色區(qū)域(區(qū)域2,37個(gè)節(jié)點(diǎn)),黃色區(qū)域(區(qū)域6,35個(gè)節(jié)點(diǎn)),紫色區(qū)域(區(qū)域3,31個(gè)節(jié)點(diǎn)),青色區(qū)域(16個(gè)節(jié)點(diǎn),比較分散)。區(qū)域1包括了表2中屬于類(lèi)別1/2/3/4的期刊;區(qū)域4包括了多學(xué)科科學(xué)期刊;區(qū)域5是醫(yī)學(xué)類(lèi)期刊;區(qū)域2以計(jì)算機(jī)類(lèi)期刊為主,包括了表2中類(lèi)別2/5的期刊;區(qū)域3以交通、地理、環(huán)境類(lèi)期刊為主,包括表2中類(lèi)別6的期刊;區(qū)域6以新聞、傳播類(lèi)報(bào)刊為主,表2中類(lèi)別7的期刊出現(xiàn)在黃色區(qū)域。
圖5:基于SSCI的知識(shí)基礎(chǔ)聚類(lèi)
圖5中,較大節(jié)點(diǎn)表示該引文來(lái)源被引次數(shù)較高,節(jié)點(diǎn)之間的連線(xiàn)和距離表示兩個(gè)引文來(lái)源之間的共被引強(qiáng)度。分析高被引文獻(xiàn)來(lái)源和聚類(lèi)結(jié)果,可以發(fā)現(xiàn)以下特征:(1)在社會(huì)科學(xué)大數(shù)據(jù)研究中,有六大知識(shí)基礎(chǔ)。第一,INFORMATION SCIENCE & LIBRARY SCIENCE、MANAGEMENT、COMPUTER SCIENCE & INFORMATION SYSTEMS和BUSINESS,這些學(xué)科期刊被引次數(shù)多,共被引強(qiáng)度高,共同構(gòu)成了社會(huì)科學(xué)大數(shù)據(jù)研究在信息科學(xué)圖書(shū)館學(xué)、管理學(xué)、信息系統(tǒng)和商業(yè)領(lǐng)域的重要知識(shí)基礎(chǔ)。第二,計(jì)算機(jī)通信相關(guān)的期刊中介性強(qiáng),通常與其他學(xué)科的文獻(xiàn)一起被引用,構(gòu)成了社會(huì)科學(xué)大數(shù)據(jù)研究的技術(shù)基礎(chǔ)。第三,交通、環(huán)境類(lèi)期刊構(gòu)成了地理類(lèi)大數(shù)據(jù)研究的重要知識(shí)基礎(chǔ);第四,science、plos one、nature和 p natl acad sci usa屬于高被引期刊 TOP5(第 5個(gè)是 MIS QUARTERLY),是 SCIE中的multidisciplinary sciences期刊,共同構(gòu)成了社會(huì)科學(xué)大數(shù)據(jù)研究的核心知識(shí)基礎(chǔ);第五,醫(yī)學(xué)類(lèi)期刊僅與第四部分聯(lián)系緊密,構(gòu)成了醫(yī)學(xué)大數(shù)據(jù)研究的重要知識(shí)基礎(chǔ);第六,新聞、傳播類(lèi)期刊及其他文獻(xiàn)源,構(gòu)成了媒體大數(shù)據(jù)研究的重要知識(shí)基礎(chǔ)。
被引最多的27種文獻(xiàn)來(lái)源中,有2種不屬于SSCI和SCIE收錄期刊,雙檢索4種,只被SCIE檢索13種,只被SSCI檢索8種。即通過(guò)SSCI檢索到的大數(shù)據(jù)研究文獻(xiàn),代表了社會(huì)科學(xué)領(lǐng)域當(dāng)前的研究前沿,其對(duì)應(yīng)的知識(shí)基礎(chǔ)既來(lái)自SSCI的具體研究領(lǐng)域,又廣泛的吸收了SCIE的研究成果,特別是計(jì)算機(jī)通信類(lèi)和多學(xué)科科學(xué)類(lèi)的文獻(xiàn)源。
社會(huì)科學(xué)大數(shù)據(jù)研究文獻(xiàn)更傾向于引用什么?首先,作者傾向于引用本研究領(lǐng)域的論文,表2中的類(lèi)別1/2/3/4/6/7與圖中知識(shí)基礎(chǔ)聚類(lèi)有較強(qiáng)的相關(guān)性。其中類(lèi)別1/2/4合計(jì)發(fā)文占比29.1%,而8種高被引SSCI來(lái)源期刊中,屬于這三個(gè)類(lèi)別的期刊分別有5種。其次,作者引用非本領(lǐng)域論文,傾向于計(jì)算機(jī)通信類(lèi)和多學(xué)科科學(xué)類(lèi)文獻(xiàn)。
2.基于CSSCI的知識(shí)基礎(chǔ)分析
對(duì)數(shù)據(jù)集2進(jìn)行分析,選擇被引次數(shù)大于20次的57種引文來(lái)源,按照共被引強(qiáng)度進(jìn)行聚類(lèi),聚成4類(lèi),如圖6所示。分別是紅色區(qū)域(區(qū)域1,21個(gè)節(jié)點(diǎn)),綠色區(qū)域(區(qū)域2和5,共20個(gè)節(jié)點(diǎn)),藍(lán)色區(qū)域(區(qū)域3,9個(gè)節(jié)點(diǎn)),黃色區(qū)域(區(qū)域4,7個(gè)節(jié)點(diǎn))。
區(qū)域1的文獻(xiàn)來(lái)源除了1種旅游學(xué)刊和2種英文期刊,其余18種均屬于表3中的類(lèi)別1,即圖書(shū)館、情報(bào)和文獻(xiàn)學(xué);區(qū)域2和5包括計(jì)算機(jī)通信類(lèi)期刊、管理學(xué)期刊和較多的英文文獻(xiàn)源;區(qū)域3全部屬于表3中類(lèi)別3,即新聞與傳播學(xué)期刊;區(qū)域4全部屬于表3中類(lèi)別2,即教育學(xué)期刊。
圖6中,分析高被引文獻(xiàn)來(lái)源和聚類(lèi)結(jié)果,可以發(fā)現(xiàn):(1)圖書(shū)館、情報(bào)和文獻(xiàn)學(xué)期刊是中文社會(huì)科學(xué)大數(shù)據(jù)研究的主要知識(shí)基礎(chǔ);(2)管理學(xué)和計(jì)算機(jī)通信類(lèi)期刊具有較高的中介性,構(gòu)成了中文社會(huì)科學(xué)大數(shù)據(jù)研究的重要知識(shí)基礎(chǔ);(3)新聞和傳播學(xué)期刊是大數(shù)據(jù)研究在媒體行業(yè)應(yīng)用的重要知識(shí)基礎(chǔ);(4)教育學(xué)期刊是大數(shù)據(jù)研究在教育行業(yè)應(yīng)用的重要知識(shí)基礎(chǔ);(5)Harvard business review、science等英文文獻(xiàn)源已經(jīng)成為中文社會(huì)科學(xué)大數(shù)據(jù)研究的知識(shí)基礎(chǔ)。
被引最多的20種期刊中圖書(shū)館、情報(bào)和文獻(xiàn)學(xué)有9種;教育學(xué)有1種;新聞和傳播學(xué)有2種;計(jì)算機(jī)通信類(lèi)有3種;多學(xué)科期刊1種;其余是英文文獻(xiàn)源。即通過(guò)CSSCI檢索到的大數(shù)據(jù)研究文獻(xiàn),代表了中文社會(huì)科學(xué)領(lǐng)域當(dāng)前的研究前沿,其對(duì)應(yīng)的知識(shí)基礎(chǔ)既來(lái)自社會(huì)科學(xué)的具體研究領(lǐng)域,又吸收了自然科學(xué)的研究成果。
中文社會(huì)科學(xué)大數(shù)據(jù)研究文獻(xiàn)更傾向于引用什么?首先,作者傾向于引用本研究領(lǐng)域的論文,表3中的類(lèi)別1/2/3與圖6中知識(shí)基礎(chǔ)聚類(lèi)有較強(qiáng)的相關(guān)性。類(lèi)別1/2/3合計(jì)發(fā)文占比51.6%,而20種高被引期刊中,屬于這三類(lèi)的期刊有 12種。其次,圖書(shū)館、情報(bào)和文獻(xiàn)學(xué)更傾向于同時(shí)引用本學(xué)科、計(jì)算機(jī)通信、多學(xué)科、管理學(xué)以及英文文獻(xiàn)源,其知識(shí)基礎(chǔ)更廣泛。
國(guó)內(nèi)外相關(guān)研究成果產(chǎn)出數(shù)量表明,社會(huì)科學(xué)研究對(duì)大數(shù)據(jù)的關(guān)注經(jīng)歷了 2012-2014年的爆發(fā)期,目前依然處于加速增長(zhǎng)期;從高被引論文的引用歷史分析,當(dāng)前的研究更多體現(xiàn)出科學(xué)的積累性和繼承性,即受范式制約的常規(guī)科學(xué)階段。
CSSCI和SSCI的收錄范圍廣泛,包含較多的具體學(xué)科,如法學(xué)、管理學(xué)、教育學(xué)、環(huán)境科學(xué)、經(jīng)濟(jì)學(xué)、歷史學(xué)、新聞與傳播學(xué)、哲學(xué)、心理學(xué)、社會(huì)學(xué)等等。具體學(xué)科對(duì)大數(shù)據(jù)問(wèn)題的關(guān)注度有明顯差異,SSCI中 INFORMATION SCIENCE & LIBRARY SCIENCE,MANAGEMENT,BUSINESS,ENVIRONMENTAL STUDIES和COMMUNICATION的研究成果最多;CSSCI中圖書(shū)館學(xué)、情報(bào)與文獻(xiàn)學(xué),新聞學(xué)與傳播學(xué),教育學(xué),經(jīng)濟(jì)學(xué)和法學(xué)的研究成果最多。國(guó)內(nèi)和國(guó)際社會(huì)科學(xué)大數(shù)據(jù)研究在具體學(xué)科分布上有共同點(diǎn),也存在顯著差異。圖書(shū)館學(xué)、情報(bào)和文獻(xiàn)學(xué)與 INFORMATION SCIENCE &LIBRARY SCIENCE是社會(huì)科學(xué)大數(shù)據(jù)研究的最重要的力量。
從被引用文獻(xiàn)及其來(lái)源角度分析,SSCI中大數(shù)據(jù)研究的知識(shí)基礎(chǔ)既包含文獻(xiàn)高產(chǎn)出的具體類(lèi)別(即表2中的類(lèi)1/2/4/6/7既是高文獻(xiàn)產(chǎn)出類(lèi)別,也是高被引文獻(xiàn)和知識(shí)基礎(chǔ)類(lèi)別);也有來(lái)自計(jì)算機(jī)通信相關(guān)的具體學(xué)科,特別是IS領(lǐng)域;SCIENCE等多學(xué)科科學(xué)期刊成為特別突出的公共的知識(shí)基礎(chǔ)。CSSCI中大數(shù)據(jù)研究的知識(shí)基礎(chǔ)包含文獻(xiàn)高產(chǎn)出的具體類(lèi)別(即表3中的類(lèi)1/2/3既是高文獻(xiàn)產(chǎn)出類(lèi)別,也是高被引文獻(xiàn)和知識(shí)基礎(chǔ)類(lèi)別);也有來(lái)自計(jì)算機(jī)通信相關(guān)的具體學(xué)科;中科院院刊、SCIENCE等多學(xué)科科學(xué)期刊,管理科學(xué)學(xué)報(bào)等管理學(xué)期刊成為公共的知識(shí)基礎(chǔ)。
國(guó)內(nèi)大數(shù)據(jù)研究的文獻(xiàn)產(chǎn)出更加集中在圖書(shū)館、情報(bào)和文獻(xiàn)學(xué),教育學(xué)和新聞與傳媒學(xué)等具體學(xué)科(文獻(xiàn)產(chǎn)出合計(jì)超過(guò)50%),高被引文獻(xiàn)和知識(shí)基礎(chǔ)也集中在這三個(gè)學(xué)科(高被引文獻(xiàn)源占12/20)。大數(shù)據(jù)對(duì)于社會(huì)科學(xué)研究的滲透不夠廣泛,其知識(shí)基礎(chǔ)也較局限在這三個(gè)領(lǐng)域。國(guó)內(nèi)社會(huì)科學(xué)大數(shù)據(jù)研究對(duì)于社會(huì)科學(xué)中其他學(xué)科、自然科學(xué)領(lǐng)域研究成果的吸收程度不夠(數(shù)據(jù)集1中的TOP27文獻(xiàn)源中,來(lái)自SCIE的期刊多于來(lái)自SSCI的期刊)。
數(shù)據(jù)集1的資助基金主要來(lái)自國(guó)家自然科學(xué)基金NSFC、美國(guó)國(guó)家自然科學(xué)基金NSF、中央高?;究蒲袠I(yè)務(wù)費(fèi)、英國(guó)ESRC、美國(guó)NIH基金等。數(shù)據(jù)集2的資助基金主要來(lái)自國(guó)家社會(huì)科學(xué)基金和國(guó)家自然科學(xué)基金,前者是后者的兩倍。國(guó)家級(jí)別的研究基金依然是文獻(xiàn)產(chǎn)出最主要資助來(lái)源,我國(guó)自然科學(xué)研究基金、高校基本科研業(yè)務(wù)費(fèi)的持馬投入在WOS平臺(tái)已經(jīng)有顯著的成果產(chǎn)出,中科院、武漢大學(xué)和清華大學(xué)的論文數(shù)量已經(jīng)明顯增加,但是被引次數(shù)較少,國(guó)際影響力不足。中文發(fā)表的研究成果主要來(lái)自國(guó)家社科基金的支持,在國(guó)內(nèi),中國(guó)人民大學(xué)的成果數(shù)量和影響力最強(qiáng)。
社會(huì)科學(xué)大數(shù)據(jù)研究在未來(lái)仍是熱點(diǎn),具體學(xué)科的大數(shù)據(jù)應(yīng)用研究既受到本領(lǐng)域研究的影響,也受到信息技術(shù)發(fā)展的影響。大數(shù)據(jù)必然更廣更深的影響我國(guó)社會(huì)科學(xué)研究的各個(gè)學(xué)科。
[1] 王海濤,毛睿,明仲.大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)展望[J].大數(shù)據(jù),2018(2):97-104.
[2] KIM G H,TRIMI S, CHUNG J H.Big data applications in the government sector:a comparative analysis among leading countries[J].Commun ACM,2014(3):78-85.
[3] 朱揚(yáng)勇,熊贇.大數(shù)據(jù)的若干基礎(chǔ)研究方向[J].大數(shù)據(jù),2017(2):104-114.
[4] WHITE S.A review of big data in healthcare: challenges and opportunities[J].Open Access Bioinformatics,2014(6):13-18.
[5] LUO J,MIN W,GOPUKUMAR D,et al.Big Data Application in Biomedical Research and Health Care:A Literature Review[J].Biomedical Informatics Insights,2016(8):1-10.
[6] GU D,LI J, LI X,et al.Visualizing the knowledge structure and evolution of big data research in healthcare informatics[J].International Journal of Medical Informatics,2017,98:22-32.
[7] 況俞竹,洪玫,曾嘉彥.基于文獻(xiàn)計(jì)量的大數(shù)據(jù)研究現(xiàn)狀分析[J].數(shù)據(jù)挖掘,2016(3):125-137.
[8] 王岑嵐,尤建新.大數(shù)據(jù)文獻(xiàn)評(píng)述:基于軟件Citespace的可視化研究[J].科技管理研究,2017,37(21):180-189.
[9] 趙丹,王晰巍,李嘉興,等.國(guó)內(nèi)外大數(shù)據(jù)工具學(xué)術(shù)論文比較研究——基于文獻(xiàn)計(jì)量方法[J].情報(bào)科學(xué),2016(6):133-137.
[10] 張姣姣,劉云,程旖婕.基于文獻(xiàn)計(jì)量學(xué)定律的大數(shù)據(jù)應(yīng)用領(lǐng)域發(fā)展規(guī)律研究[J].知識(shí)管理論壇,2016(5):384-392.
[11] 陳軍,謝衛(wèi)紅,陳揚(yáng)森,等.國(guó)內(nèi)外大數(shù)據(jù)可視化學(xué)術(shù)論文比較研究——基于文獻(xiàn)計(jì)量與 SNA 方法[J].科技管理研究,2017,37(8):44-53.
[12] NO H J,AN Y,PARK Y.A structured approach to explore knowledge flows through technology-based business methods by integrating patent citation analysis and text mining[J].Technological Forecasting & Social Change,2015,97:181-192.
[13] 侯海燕,郭芳琪,孫太安,等.基于 VOSviewer的山東省生物技術(shù)領(lǐng)域國(guó)內(nèi)及國(guó)際研究現(xiàn)狀分析[J].科學(xué)與管理,2018,209(2):29-37.
[14] ZHOU P,THIJS B,GLANZEL W,et al. Is China also becoming a giant in social sciences[J].Scientometrics,2009,79(3):593-621.
[15] 陳悅,陳超美,劉則淵,等. CiteSpace知識(shí)圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,33(2):242-253.
[16] 邱均平.信息計(jì)量學(xué)[M].武漢:武漢大學(xué)出版社,2007:64.
[17] APRILIYANTI I D,ALON I.Bibliometric analysis of absorptive capacity[J].International Business Review,2017,26(5):896-907.
[18] VAN ECK N J,WALTMAN L.Vosviewer:A Computer Program for Bibliometric BACKHAUS K,KAI L,KOCH M.The Mapping[J].Scientometrics,2010,84(2):523-538.
[19] structure and evolution of business-to-business marketing:A citation and co-citation analysis[J].Industrial Marketing Management,2011,40(6):940-951.
[20] CHEN C.CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J].J Am Soc Inf Sci Technol,2005(3):359-377.
[21] HOCHULL CHOE,DUK HEE LEE,HEE DAE KIM IL WON SEO.Structural properties and inter-organizational knowledge flows of patent citation network:The case of organic solar cells[J].Renewable and Sustainable Energy Reviews,2016,55:361-370.
西安電子科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2019年1期