鄧仲華 宋秀芬
(武漢大學(xué)信息管理學(xué)院,武漢,430072)
基于知識圖譜的國內(nèi)外大數(shù)據(jù)研究對比分析
鄧仲華宋秀芬
(武漢大學(xué)信息管理學(xué)院,武漢,430072)
[摘要]本文以CNKI和WOS為數(shù)據(jù)源,從文獻(xiàn)計(jì)量角度,對2008~2013年國內(nèi)外大數(shù)據(jù)領(lǐng)域的文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析。利用可視化分析工具生成國內(nèi)外大數(shù)據(jù)研究成果的年限分布表、關(guān)鍵詞共現(xiàn)矩陣、關(guān)鍵詞共現(xiàn)圖譜和關(guān)鍵詞共現(xiàn)聚類圖譜,對比分析了國內(nèi)外大數(shù)據(jù)領(lǐng)域研究的異同。
[關(guān)鍵詞]大數(shù)據(jù)知識圖譜共現(xiàn)網(wǎng)絡(luò)Ucinet 從出現(xiàn)頻次不能看出各個關(guān)鍵詞之間的關(guān)系,為此需要對關(guān)鍵詞進(jìn)行共詞分析[16]。共詞分析對文獻(xiàn)中詞對的共現(xiàn)頻率進(jìn)行量化分析,兩兩統(tǒng)計(jì)他們在同一篇文獻(xiàn)中出現(xiàn)的次數(shù),如果兩個主題詞在眾多的文獻(xiàn)中出現(xiàn)的頻率高,說明他們之間的關(guān)系密切[17]。
1引言
社會媒體、云計(jì)算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、智慧城市等新興技術(shù)的發(fā)展推動了人類社會數(shù)據(jù)量呈指數(shù)級增長,人們正被數(shù)據(jù)洪流所包圍,大數(shù)據(jù)時代已經(jīng)到來。大數(shù)據(jù)已滲透到各個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為與物質(zhì)資產(chǎn)和人力資本相提并論的重要生產(chǎn)要素,美國稱大數(shù)據(jù)為“21世紀(jì)的新石油”。大數(shù)據(jù)已在政府公共服務(wù)、醫(yī)療服務(wù)、零售業(yè)、制造業(yè)、以及個人位置服務(wù)等領(lǐng)域得到了廣泛應(yīng)用,并產(chǎn)生巨大的社會價值和產(chǎn)業(yè)空間。麥肯錫公司認(rèn)為大數(shù)據(jù)將成為未來提高競爭力、生產(chǎn)力、創(chuàng)新能力以及創(chuàng)造消費(fèi)者盈余的下一個前沿領(lǐng)域[1]。有效管理和利用大數(shù)據(jù)已成為學(xué)術(shù)界、工業(yè)界和政府機(jī)構(gòu)的關(guān)注熱點(diǎn)。
大數(shù)據(jù)的潛在價值迫切需要深入地研究大數(shù)據(jù)的關(guān)鍵技術(shù)、安全、穩(wěn)私等問題,國外大數(shù)據(jù)研究時間比國內(nèi)早,對比分析國內(nèi)外大數(shù)據(jù)研究的異同,為國內(nèi)學(xué)者研究大數(shù)據(jù)提供參考與借鑒。因此,本文在現(xiàn)有國內(nèi)外大數(shù)據(jù)研究文獻(xiàn)的基礎(chǔ)上,利用關(guān)鍵詞共現(xiàn)與多維尺度分析法對比了國內(nèi)外大數(shù)據(jù)研究熱點(diǎn)、研究前沿和行業(yè)應(yīng)用研究等的異同。
2文獻(xiàn)綜述
大數(shù)據(jù)不是一個新詞,大數(shù)據(jù)還被稱為“海量數(shù)據(jù)”、“巨量數(shù)據(jù)”,早在1980年,著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》中將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂章”。具有4V(Volume、Variety、Value、Velocity)特征的大數(shù)據(jù)最早出現(xiàn)在2008年《Nature》雜志的Big Data專刊,該??亩嗥恼路謩e從互聯(lián)網(wǎng)經(jīng)濟(jì)、超級計(jì)算、生物醫(yī)藥等多角度介紹“大數(shù)據(jù)”帶來的技術(shù)挑戰(zhàn)、技術(shù)現(xiàn)狀以及未來的發(fā)展趨勢[2]。2008年10月,卡耐基·梅隆大學(xué)Randal E.Bryant、加利福尼亞大學(xué)伯克利分校Randy H.Katz和華盛頓大學(xué)Edward D.Lazowska聯(lián)合發(fā)表了一份有影響力的白皮書《Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society(大數(shù)據(jù)計(jì)算:在商務(wù)、科學(xué)和社會領(lǐng)域創(chuàng)建革命性突破)》,該白皮書闡述了數(shù)據(jù)影響科學(xué)、商業(yè)、社會、國家安全的背景下,解決大數(shù)據(jù)問題所需的技術(shù)(識別、收集、存儲、分析)以及面臨的技術(shù)與應(yīng)用挑戰(zhàn)[3]。2011年5月,麥肯錫公司發(fā)布了關(guān)于大數(shù)據(jù)的調(diào)研報(bào)告《Big data: The next frontier for innovation, competition, and productivity(大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿)》,詳細(xì)列舉了大數(shù)據(jù)的核心技術(shù),深入分析了大數(shù)據(jù)行業(yè)應(yīng)用,明確提出了大數(shù)據(jù)的發(fā)展策略,指出了大數(shù)據(jù)研究地位以及未來社會價值,說明企業(yè)家已開始關(guān)注大數(shù)據(jù)的社會價值[4]。2012年1月,達(dá)沃斯世界經(jīng)濟(jì)論壇發(fā)表了一份報(bào)告《Big data, big impact: New possibilities for international development(大數(shù)據(jù)大作用:國際發(fā)展新的可能性)》,該報(bào)告宣稱移動設(shè)備生成的數(shù)據(jù)成為經(jīng)濟(jì)發(fā)展的工具,數(shù)據(jù)已成為一種像貨幣或黃金一樣的新經(jīng)濟(jì)資產(chǎn)類別,號召政府、高校、研究院和企業(yè)的專家共同迎接挑戰(zhàn)[5]。2012年2月,Steve Lohr在《The New York Times》發(fā)表文章《The age of big data》,該文章指出大數(shù)據(jù)正在對各個領(lǐng)域產(chǎn)生影響,數(shù)據(jù)驅(qū)動型決策的預(yù)見能力已經(jīng)在公共衛(wèi)生、經(jīng)濟(jì)發(fā)展和經(jīng)濟(jì)預(yù)測、社交網(wǎng)絡(luò)等領(lǐng)域中發(fā)揮作用[6]。美國20余位知名專家于2012年3月聯(lián)合發(fā)布白皮書《Challenges and opportunities with big data(大數(shù)據(jù)的挑戰(zhàn)和機(jī)遇)》,闡述了大數(shù)據(jù)處理流水線的各個階段,針對其中的諸多技術(shù)挑戰(zhàn)提供了重要的解決思路。2012年3月,美國奧巴馬政府發(fā)布了《Big data research and development initiative(大數(shù)據(jù)研究和發(fā)展倡議)》,并宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計(jì)劃”[7]。2012年7月,Scott Adams利用漫畫通俗易懂地解釋了大數(shù)據(jù)含義“它無所不在,無所不知”。2012年,維克托·邁爾-舍恩伯格和肯尼思·庫克耶的著作《Big data: A revolution that will transform how we live, work, and think(大數(shù)據(jù)時代:生活、工作與思維的大變革)》舉例說明大數(shù)據(jù)正在對各個領(lǐng)域發(fā)展發(fā)揮舉足輕重的作用[8]。自2008年以來,學(xué)術(shù)界、產(chǎn)業(yè)界、新聞媒體界等密切關(guān)注大數(shù)據(jù)問題[9]。
從國內(nèi)現(xiàn)有文獻(xiàn)資料來看,從文獻(xiàn)計(jì)量角度研究大數(shù)據(jù)的文獻(xiàn)有三篇,楊繹于2012年在《基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究》文中以CNKI為數(shù)據(jù)源,基于社會網(wǎng)絡(luò)分析方法建立高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),得出國內(nèi)大數(shù)據(jù)研究熱點(diǎn)[10]。王新才、丁家友2013年發(fā)表《大數(shù)據(jù)知識圖譜:概念、特征、應(yīng)用與影響》,文章以國內(nèi)文獻(xiàn)為研究基礎(chǔ),利用可視化工具Gephi生成知識圖譜來闡明大數(shù)據(jù)的發(fā)展脈絡(luò)、應(yīng)用范圍、特征、應(yīng)用與影響[11]。錢心緣在《國內(nèi)外大數(shù)據(jù)研究進(jìn)展——從文獻(xiàn)計(jì)量學(xué)角度分析》文中以柱狀圖和表格形式展現(xiàn)了大數(shù)據(jù)文獻(xiàn)年代分布、引文量年代分布、學(xué)科分布等[12]。以上文獻(xiàn)研究了國內(nèi)大數(shù)據(jù)的研究熱點(diǎn)、文獻(xiàn)分布情況、發(fā)展脈絡(luò)、應(yīng)用與影響等,缺乏對國內(nèi)外大數(shù)據(jù)研究現(xiàn)狀的對比分析。因此,本文在以上研究基礎(chǔ)上,利用知識圖譜直觀地展示了國內(nèi)外大數(shù)據(jù)的研究結(jié)構(gòu)與趨勢。
3數(shù)據(jù)來源與研究方法
本研究國外數(shù)據(jù)來源選取Web of Science,主題=“big data”,時間跨度=2008-2013,文獻(xiàn)類型=ARTICLE,索引=SCI-EXPANDED,檢索時間為2014年1月12日,共檢索到2784條,將檢索的全部文獻(xiàn)題錄信息以Txt格式保存。國內(nèi)數(shù)據(jù)源則選取CNKI《中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫》,檢索條件為:主題=“大數(shù)據(jù)”,時間跨度=2008-2013,期刊來源=核心期刊,精確匹配,檢索時間同上,共檢索到2229篇文獻(xiàn),用自編程序刪除重復(fù)文獻(xiàn)后得到2190篇,獲得全部文獻(xiàn)的題錄信息包括篇名、作者、機(jī)構(gòu)、關(guān)鍵詞、摘要、基金、刊名、年、期、分類號等以Endnote格式保存。本文后續(xù)研究圍繞以上兩種數(shù)據(jù)來展開。
本文的研究方法采用關(guān)鍵詞共現(xiàn)與多維尺度分析法,主要研究工具包括:文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具SATI、Ucinet軟件、SPSS軟件[13]。
本文將CNKI中Endnote格式和WOS中Txt格式的文獻(xiàn)題錄信息分別導(dǎo)入到文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具SATI,該軟件對文獻(xiàn)題錄信息依次進(jìn)行抽取字段、統(tǒng)計(jì)頻次與生成共現(xiàn)矩陣,將共現(xiàn)矩陣直接導(dǎo)入Ucinet和SPSS軟件中進(jìn)行處理分析,采用關(guān)鍵詞共現(xiàn)與多維尺度分析方法對表征文獻(xiàn)外部特征的時間、作者、機(jī)構(gòu)、研究主題等數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,利用知識圖譜直觀地反映國內(nèi)外大數(shù)據(jù)的研究現(xiàn)狀[14]。
4數(shù)據(jù)分析
從表1數(shù)據(jù)可以看出,國內(nèi)與國外發(fā)文量都呈現(xiàn)逐年增長趨勢,特別是2013年的文獻(xiàn)量增長速度較快,反映了大數(shù)據(jù)研究正處于快速發(fā)展階段。從文獻(xiàn)數(shù)量年度分布來看,2012年以前,國內(nèi)的文獻(xiàn)數(shù)量遠(yuǎn)小于國外,2013年國內(nèi)文獻(xiàn)數(shù)量增長速度約為128%,發(fā)文量超過國外。2013年被稱為中國的“大數(shù)據(jù)元年”,政府與企業(yè)對大數(shù)據(jù)領(lǐng)域投資力度與關(guān)注度進(jìn)一步加強(qiáng),科技部于2013年2月1日公布了國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃),2014年度重點(diǎn)支持方向之一即為大數(shù)據(jù)計(jì)算的基礎(chǔ)研究,因此,大數(shù)據(jù)引起了不同領(lǐng)域的高度關(guān)注,不同領(lǐng)域的學(xué)者競相涌入大數(shù)據(jù)領(lǐng)域,可見,未來國內(nèi)外大數(shù)據(jù)領(lǐng)域的發(fā)文量將呈持續(xù)增長趨勢[15]。
表1 國內(nèi)外文獻(xiàn)年度分布統(tǒng)計(jì)表
本文對文獻(xiàn)中的關(guān)鍵詞進(jìn)行提取,匯總各篇文獻(xiàn)的關(guān)鍵詞,加以統(tǒng)計(jì)分析。在國內(nèi)2190篇文獻(xiàn)中提取7046個關(guān)鍵詞,表2是國內(nèi)大數(shù)據(jù)研究文獻(xiàn)中排名前20的高頻關(guān)鍵詞,其中大數(shù)據(jù)、海量數(shù)據(jù)、數(shù)據(jù)挖掘、云計(jì)算出現(xiàn)的頻次較高;國外2784篇文獻(xiàn)中提取7925個關(guān)鍵詞,表3是國外大數(shù)據(jù)研究文獻(xiàn)中排名前20的高頻關(guān)鍵詞,文獻(xiàn)中出現(xiàn)頻次較高關(guān)鍵詞有:Data mining(數(shù)據(jù)挖掘)、Classification(分類)、Big data(大數(shù)據(jù))、Clustering(聚類)。從國內(nèi)外高頻關(guān)鍵字來看,國內(nèi)外對大數(shù)據(jù)研究的重點(diǎn)內(nèi)容基本相似。
表2 國內(nèi)大數(shù)據(jù)研究排名前20關(guān)鍵詞列表
表3 國外大數(shù)據(jù)研究排名前20關(guān)鍵詞列表
在共詞分析中,為了便于對共現(xiàn)頻率的運(yùn)算,利用SATI軟件生成共詞矩陣,由于受到網(wǎng)絡(luò)結(jié)點(diǎn)的限制,本文只對排名前100的關(guān)鍵詞進(jìn)行共詞分析,形成一個100×100的共詞矩陣。如表4、5所示,該矩陣是對稱矩陣,表中對角線上的數(shù)值為該關(guān)鍵詞在文獻(xiàn)中出現(xiàn)總的頻次,表中非主對角線單元格上的數(shù)值為兩個關(guān)鍵詞共現(xiàn)的次數(shù)[18]。僅從表中的高頻詞不能體現(xiàn)論文研究的主題,通過同時出現(xiàn)在一篇文獻(xiàn)中的兩個關(guān)鍵詞就比較容易判斷文章的主題脈絡(luò),同時根據(jù)兩兩關(guān)鍵詞出現(xiàn)頻次的高低可以發(fā)現(xiàn)論文的研究熱點(diǎn)。在表4中,大數(shù)據(jù)出現(xiàn)了196次,通過組配與其它高頻詞在同一篇文獻(xiàn)中出現(xiàn)的次數(shù),發(fā)現(xiàn)大數(shù)據(jù)與云計(jì)算共現(xiàn)的頻次是28,與數(shù)據(jù)挖掘共現(xiàn)的頻次是17,表明共有28篇文獻(xiàn)的關(guān)鍵詞同時標(biāo)引了大數(shù)據(jù)和云計(jì)算,17篇文獻(xiàn)的關(guān)鍵詞同時標(biāo)引了大數(shù)據(jù)和數(shù)據(jù)挖掘。研究大數(shù)據(jù)與云計(jì)算的文獻(xiàn)較多,這是因?yàn)榇髷?shù)據(jù)與云計(jì)算的關(guān)系相當(dāng)于硬幣的正反面,相輔相成,形影不離,未來還需深入探索云計(jì)算與大數(shù)據(jù)的關(guān)系。
表4 國內(nèi)大數(shù)據(jù)研究關(guān)鍵詞100×100共詞矩陣(部分)
表5 國外大數(shù)據(jù)研究關(guān)鍵詞100×100共詞矩陣(部分)
除去對角線上的高頻詞是自身出現(xiàn)的頻次以外,像大數(shù)據(jù)與云計(jì)算、大數(shù)據(jù)與數(shù)據(jù)挖掘、數(shù)據(jù)挖掘與云計(jì)算、海量數(shù)據(jù)與數(shù)據(jù)挖掘、MapReduce與云計(jì)算等同時出現(xiàn)的頻次較高,說明這些組合研究是大數(shù)據(jù)研究主題中的熱點(diǎn)。
從表5國外大數(shù)據(jù)研究的關(guān)鍵詞100×100共詞矩陣來看,關(guān)鍵詞共現(xiàn)的頻次較低,Data mining(數(shù)據(jù)挖掘)與Classification(分類)、Clustering(聚類)、Big data(大數(shù)據(jù))分別共現(xiàn)的頻次是5、5、4,可見國外學(xué)者對大數(shù)據(jù)研究比較成熟,不再局限于概念、技術(shù)等介紹,而是將大數(shù)據(jù)的技術(shù)、方法、工具應(yīng)用到醫(yī)療衛(wèi)生服務(wù)、零售業(yè)、公共管理服務(wù)、制造業(yè)及個人位置服務(wù)等領(lǐng)域來進(jìn)行研究,國外對大數(shù)據(jù)的研究具有可行性與可操作性。
從國內(nèi)外大數(shù)據(jù)文獻(xiàn)的關(guān)鍵詞共現(xiàn)分析來看,雖然國內(nèi)外大數(shù)據(jù)研究均處于初級階段,但國外對大數(shù)據(jù)研究時間較國內(nèi)長,研究角度具體而實(shí)用,而國內(nèi)學(xué)者在借鑒國外文獻(xiàn)的基礎(chǔ)上,對大數(shù)據(jù)概念、特征、技術(shù)(數(shù)據(jù)挖掘、分類法、聚類法、神經(jīng)網(wǎng)絡(luò)、可視化等)、影響、挑戰(zhàn)(集成、分析、安全、隱私等問題)、行業(yè)應(yīng)用(新聞媒體、圖書館、銀行、電子商務(wù)、保險業(yè)等)等方面開展較廣范圍的研究,在未來的研究中,國內(nèi)研究者需深入地挖掘大數(shù)據(jù)關(guān)鍵技術(shù)、支撐技術(shù)、處理工具等方面。
共現(xiàn)網(wǎng)絡(luò)分析是文獻(xiàn)集中的詞匯對或名詞短語共同出現(xiàn)形成一個共詞網(wǎng)絡(luò),顯示這些詞對的關(guān)系及規(guī)律,實(shí)現(xiàn)對學(xué)科結(jié)構(gòu)、研究熱點(diǎn)、學(xué)科發(fā)展動態(tài)的分析[19]。
采用SATI建立關(guān)鍵詞共現(xiàn)矩陣,導(dǎo)入Ucinet中形成共現(xiàn)網(wǎng)絡(luò)圖譜。具體步驟如下:第一步,將CNKI下載Endnote格式和WOS下載Txt格式的題錄信息導(dǎo)入SATI中并轉(zhuǎn)化為xml格式數(shù)據(jù);第二步,對xml格式數(shù)據(jù)進(jìn)行關(guān)鍵詞提取、頻次統(tǒng)計(jì);第三步,選擇Matrix中Co-Occurrence Matrix(Valued)分析功能建立100×100關(guān)鍵詞共現(xiàn)多值矩陣;第四步,將關(guān)鍵詞矩陣導(dǎo)入Ucinet中,建立高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜;第四步,利用Ucinet進(jìn)行中心性分析,分析關(guān)鍵詞之間的橫向關(guān)系,確定大數(shù)據(jù)領(lǐng)域研究的熱點(diǎn)。圖中每個節(jié)點(diǎn)代表一個關(guān)鍵詞,點(diǎn)的大小表示關(guān)鍵詞在社會網(wǎng)絡(luò)中的中心度大小,節(jié)點(diǎn)之間的距離反映兩者之間的親疏關(guān)系,通過K-cores的分析,圖中間聚集的節(jié)點(diǎn)代表K值最大的關(guān)鍵詞處于研究中核心位置,也是大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)與核心[20]。處于共現(xiàn)網(wǎng)絡(luò)邊緣的節(jié)點(diǎn)代表主題關(guān)注度較低,從一定程度上體現(xiàn)了大數(shù)據(jù)研究的一些前沿問題。
從圖1、2可以看出,國內(nèi)外對大數(shù)據(jù)領(lǐng)域研究熱點(diǎn)具有相同點(diǎn):①國內(nèi)外共詞網(wǎng)絡(luò)都是以大數(shù)據(jù)、數(shù)據(jù)挖掘?yàn)橹行南蛩闹茌椛洌芯课墨I(xiàn)圍繞大數(shù)據(jù)、數(shù)據(jù)挖掘來展開;②國內(nèi)外在大數(shù)據(jù)領(lǐng)域共同研究熱點(diǎn)主要有:大數(shù)據(jù)(數(shù)據(jù)、數(shù)據(jù)化、海量數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù))、數(shù)據(jù)挖掘、數(shù)據(jù)處理、數(shù)據(jù)分析、MapReduce、聚類、云計(jì)算、支持向量機(jī)、可視化、社會網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等。
通過對比國內(nèi)外共詞網(wǎng)絡(luò)發(fā)現(xiàn),國內(nèi)外在大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)略有差別,主要體現(xiàn)在以下方面:①國外側(cè)重關(guān)注大數(shù)據(jù)分析關(guān)鍵技術(shù):Algorithms(算法)、Optimization(優(yōu)化)、Text mining(文本挖掘)、Classification(分類)等;國內(nèi)側(cè)重關(guān)注大數(shù)據(jù)處理的關(guān)鍵技術(shù):分布式系統(tǒng)、分布式計(jì)算、并行計(jì)算、數(shù)據(jù)壓縮、Hadoop、數(shù)據(jù)倉庫、元數(shù)據(jù)、商業(yè)智能、非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)庫等[23]。②國外關(guān)注大數(shù)據(jù)行業(yè)應(yīng)用角度主要有:生物信息學(xué)(Bioinformatics)、圖像(Mage segmentation、Imaging、Design)、癌癥(Cancer)等;國內(nèi)關(guān)注大數(shù)據(jù)應(yīng)用的角度主要有:媒體(新聞報(bào)道、新媒體、傳統(tǒng)媒體)、圖書館(數(shù)字圖書館)、商業(yè)應(yīng)用(企業(yè)、數(shù)據(jù)中心、電力系統(tǒng)、商業(yè)銀行、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、信息服務(wù)、物聯(lián)網(wǎng))等,這說明根據(jù)不同國家背景及發(fā)展?fàn)顩r,國內(nèi)外學(xué)者關(guān)注大數(shù)據(jù)的行業(yè)應(yīng)用角度有所差異[24-26]。③國外關(guān)注大數(shù)據(jù)前沿問題有:Taxonomy(分類學(xué))、Remote sensing(遙感)、High-performance Computing(高性能計(jì)算法)、Bayesian(貝葉斯統(tǒng)計(jì)法)、Statistical analysis(統(tǒng)計(jì)分析法)、LIDAR(激光雷達(dá))、Meta analysis(綜合分析法)、Monitoring(監(jiān)測)、Proteomics(蛋白質(zhì)組學(xué))、Identification(識別)、Principal component analysis(主成份分析法)、Global existence(整體存在性)、Stability(穩(wěn)定性)[27];國內(nèi)關(guān)注大數(shù)據(jù)前沿問題有:空間數(shù)據(jù)庫、DSP、無損壓縮、數(shù)據(jù)流、數(shù)據(jù)新聞、無線傳感器網(wǎng)絡(luò)、服務(wù)質(zhì)量、任務(wù)調(diào)度、高光譜圖像等??梢?,國外關(guān)注大數(shù)據(jù)研究前沿涉及到關(guān)鍵技術(shù)的基礎(chǔ)理論探索,國內(nèi)大數(shù)據(jù)研究前沿涉及到數(shù)據(jù)處理技術(shù)問題,國外大數(shù)據(jù)的研究前沿將是國內(nèi)學(xué)者未來研究熱點(diǎn),也就是說,未來我國需重點(diǎn)研究大數(shù)據(jù)的基礎(chǔ)理論[28]。
通過對高頻關(guān)鍵詞相異矩陣進(jìn)行多維尺度分析,得到大數(shù)據(jù)研究群組的可視化結(jié)果[29]。具體步驟如下:第一步,將XML格式數(shù)據(jù)采用SATI軟件中(Co-Occurrence Matrix(Dissimilarity)) 分析功能建立100×100關(guān)鍵詞相異矩陣,第二步,將關(guān)鍵詞相異矩陣導(dǎo)入SPSS分析軟件,利用SPSS中的Scale菜單中的多維尺度分析功能(ALSCAL)進(jìn)行分析,將距離數(shù)據(jù)的形狀設(shè)為正對稱,度量標(biāo)準(zhǔn)的區(qū)間設(shè)為Euclidean距離,度量水平選擇序數(shù)。如圖3、4所示,高頻關(guān)鍵詞之間的距離,反映其所代表的相關(guān)程度,距離越小,反映詞頻之間相似度越大,研究內(nèi)容越集中;距離越大反映研究主題越獨(dú)立,主題之間的關(guān)聯(lián)性越小,多維尺度分析結(jié)果體現(xiàn)了關(guān)鍵詞的分布既有交叉相互滲透,又具有群組分布的獨(dú)立性。
由于國內(nèi)外大數(shù)據(jù)研究處于初步階段,研究主題范圍較廣,筆者根據(jù)研究主題的相關(guān)程度將國內(nèi)外大數(shù)據(jù)研究團(tuán)隊(duì)大致分為三大研究群組:理論研究、技術(shù)研究、行業(yè)應(yīng)用研究,群組之間有交叉,體現(xiàn)了學(xué)術(shù)界對大數(shù)據(jù)領(lǐng)域研究不斷拓寬,且研究主題之間相互滲透。國內(nèi)外研究群組的側(cè)重點(diǎn)有所不同,國外學(xué)者側(cè)重研究大數(shù)據(jù)關(guān)鍵技術(shù)與理論,而國內(nèi)學(xué)者則側(cè)重研究大數(shù)據(jù)的行業(yè)應(yīng)用與處理技術(shù),可見,國內(nèi)學(xué)術(shù)界對大數(shù)據(jù)的研究還處于探索與借鑒階段,未來需要深入研究大數(shù)據(jù)的關(guān)鍵技術(shù),特別是大數(shù)據(jù)分析技術(shù)的研究。
圖1 國內(nèi)大數(shù)據(jù)領(lǐng)域關(guān)鍵詞共現(xiàn)圖譜
圖2 國外大數(shù)據(jù)領(lǐng)域關(guān)鍵詞共現(xiàn)圖譜
國內(nèi)三大研究群組為:①大數(shù)據(jù)的理論研究,涉及到大數(shù)據(jù)的概念、數(shù)據(jù)政策、數(shù)據(jù)共享、數(shù)據(jù)安全、發(fā)展趨勢、關(guān)鍵技術(shù)介紹等方面,體現(xiàn)大數(shù)據(jù)理論的關(guān)鍵詞有:數(shù)據(jù)、大數(shù)據(jù)、海量數(shù)據(jù)、大數(shù)據(jù)量、發(fā)展趨勢、本體、服務(wù)質(zhì)量、無損壓縮、海量數(shù)據(jù)處理、信息化等[30];②大數(shù)據(jù)的技術(shù)研究,涉及到關(guān)鍵詞:分類法,聚類法、數(shù)據(jù)分析、數(shù)據(jù)處理、并行計(jì)算、數(shù)據(jù)倉庫、數(shù)據(jù)采集等,國內(nèi)相關(guān)技術(shù)研究主要集中于數(shù)據(jù)挖掘技術(shù);③大數(shù)據(jù)的行業(yè)應(yīng)用研究,大數(shù)據(jù)應(yīng)用行業(yè)有金融業(yè)、電信業(yè)、互聯(lián)網(wǎng)行業(yè)、零售業(yè)、制造業(yè)、醫(yī)療保健、制藥業(yè)、媒體業(yè)及科學(xué)領(lǐng)域等,而行業(yè)應(yīng)用研究的重點(diǎn)是媒體、圖書館、互聯(lián)網(wǎng)等領(lǐng)域,體現(xiàn)行業(yè)應(yīng)用的關(guān)鍵詞有:新媒體、媒體、新聞報(bào)道、傳統(tǒng)媒體、數(shù)據(jù)應(yīng)用、商業(yè)銀行、互聯(lián)網(wǎng)企業(yè)、移動互聯(lián)網(wǎng)、數(shù)字圖書館、圖書館、信息服務(wù)、知識服務(wù)等[31]??梢?,國內(nèi)大數(shù)據(jù)研究團(tuán)隊(duì)重點(diǎn)關(guān)注大數(shù)據(jù)行業(yè)應(yīng)用與技術(shù)研究,大數(shù)據(jù)理論研究的文獻(xiàn)較少。而行業(yè)應(yīng)用研究則是概述媒體、圖書館、互聯(lián)網(wǎng)等領(lǐng)域的應(yīng)用現(xiàn)狀、發(fā)展趨勢、經(jīng)濟(jì)效益等,目前較少文獻(xiàn)研究行業(yè)的具體方面,如;基于大數(shù)據(jù)的圖書館推薦系統(tǒng)與基于大數(shù)據(jù)的用戶購買行為的相關(guān)主題的文獻(xiàn)較少,也就是說,國內(nèi)大數(shù)據(jù)行業(yè)應(yīng)用研究主題比較抽象,需朝著實(shí)用性方向努力;技術(shù)研究則重點(diǎn)關(guān)注處理技術(shù)(云計(jì)算、數(shù)據(jù)倉庫、商業(yè)智能等),少量文獻(xiàn)關(guān)注分析技術(shù)(預(yù)測模型、情緒分析、分類、聚類、神經(jīng)分析等)。
圖3 國內(nèi)大數(shù)據(jù)研究的多維尺度分析
圖4 國外大數(shù)據(jù)研究的多維尺度分析
國外三大研究群組為:①國外大數(shù)據(jù)理論研究,國際學(xué)者應(yīng)用不同學(xué)科領(lǐng)域理論來研究大數(shù)據(jù),關(guān)鍵詞表現(xiàn)為:Multivariate(多變量)、Galaxies(星系)、Gaussian process(高斯過程)、Modelling(模擬)、Kernel methods(核方法)、Variable selection(變化選擇)、Taxonomy(分類學(xué))、Entropy(熵)、Reliability(可靠性)、Navier-Stokes equation (Navier-Stokes方程)、Bayesian(貝葉斯定理)、Ontology(實(shí)體論)、Proteomic(蛋白質(zhì)組學(xué))、Identification(識別)、Mass-spectrometry(質(zhì)譜法)、Neural network(神經(jīng)網(wǎng)絡(luò))、Water quality(水質(zhì))、Evolution(演變)、Correlation(關(guān)聯(lián))、Emote sensing(遙感)、GIS(地理信息系統(tǒng))等[32];②大數(shù)據(jù)關(guān)鍵技術(shù)研究,大數(shù)據(jù)關(guān)鍵技術(shù)有分析技術(shù)和處理技術(shù),其中大數(shù)據(jù)分析關(guān)鍵技術(shù)主要包括:A/B測試、關(guān)聯(lián)規(guī)則挖掘、分類、數(shù)據(jù)聚類、眾包、數(shù)據(jù)融合和集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機(jī)器學(xué)習(xí)、自然語言處理、神經(jīng)網(wǎng)絡(luò)、神經(jīng)分析、優(yōu)化、模式識別、預(yù)測模型、回歸、情緒分析、信號處理、空間分析、統(tǒng)計(jì)、監(jiān)督式學(xué)習(xí)、無監(jiān)督式學(xué)習(xí)、模擬、時間序列分析、時間序列預(yù)測模型、可視化技術(shù)等;大數(shù)據(jù)處理的關(guān)鍵技術(shù)主要包括:Big table、商業(yè)智能、云計(jì)算、數(shù)據(jù)倉庫、數(shù)據(jù)集市、分布式系統(tǒng)、Dynamo、GFS、Hadoop、HBase、Mashup、元數(shù)據(jù)、非關(guān)系型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、R語言、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、SQL、流處理、可視化技術(shù)等;③國外大數(shù)據(jù)行業(yè)應(yīng)用研究,主要集中在圖像處理、癌癥治療和社會網(wǎng)絡(luò)等方面,體現(xiàn)行業(yè)應(yīng)用的關(guān)鍵詞有:GPU(圖形處理器)、Surveys(調(diào)查)、Time series(時間序列)、Chemometrics(化學(xué)計(jì)量學(xué))、Image segmentation(圖象分割法)、Image processing(圖象處理)、Dimensionality reduction(降維)、Social networks(社會網(wǎng)絡(luò))、Imaging(成像)、Pattern recognition regression(模式識別回歸)、LIDAR(激光雷達(dá))等。可見,國外大數(shù)據(jù)研究團(tuán)隊(duì)重點(diǎn)關(guān)注理論與技術(shù),而行業(yè)應(yīng)用的文獻(xiàn)較少。技術(shù)研究范圍包括采集、處理、存儲、分析、結(jié)果呈現(xiàn)技術(shù),大數(shù)據(jù)研究文獻(xiàn)重點(diǎn)體現(xiàn)了處理與分析技術(shù);理論研究深入地剖析了大數(shù)據(jù)所涉及到的基礎(chǔ)知識(實(shí)體論、分類學(xué)、核方法、質(zhì)譜法等),國外大數(shù)據(jù)理論研究的時間較早,研究成果較成熟,理論研究是大數(shù)據(jù)研究的基石,理論研究為技術(shù)與行業(yè)應(yīng)用研究服務(wù)。
5結(jié)語
結(jié)合近幾年來大數(shù)據(jù)的發(fā)展現(xiàn)狀,利用知識圖譜工具對比分析了國內(nèi)外大數(shù)據(jù)研究成果的異同,得出以下結(jié)論:
(1)國內(nèi)外大數(shù)據(jù)研究的相同點(diǎn)
第一,大數(shù)據(jù)研究熱度不斷攀升。自2008年大數(shù)據(jù)的概念被提出后,大數(shù)據(jù)引起了政府界、產(chǎn)業(yè)界和學(xué)術(shù)界的高度關(guān)注,2008—2013年大數(shù)據(jù)領(lǐng)域發(fā)文量變化趨勢說明大數(shù)據(jù)研究熱度逐年上升且2013年增長速度較快,未來國內(nèi)外大數(shù)據(jù)研究成果將會大幅度提升。
第二,大數(shù)據(jù)的應(yīng)用范圍越來越廣。大數(shù)據(jù)已在醫(yī)療業(yè)、公共服務(wù)業(yè)、零售業(yè)、制造業(yè)和通訊業(yè)等創(chuàng)造價值,大數(shù)據(jù)具有能源價值的特征推動著更廣范圍的應(yīng)用,未來研究將在更多領(lǐng)域中挖掘大數(shù)據(jù)的潛在價值。
第三,大數(shù)據(jù)研究熱點(diǎn)基本相同。從共詞網(wǎng)絡(luò)的分析來看,共詞網(wǎng)絡(luò)都是以大數(shù)據(jù)、數(shù)據(jù)挖掘?yàn)橹行?,向四周輻射,共同的研究熱點(diǎn)有:大數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)處理、聚類、云計(jì)算、數(shù)據(jù)分析等。
(2)國內(nèi)外大數(shù)據(jù)研究的差異
第一,由理論研究轉(zhuǎn)向?qū)嵺`應(yīng)用的效果不同。國外大數(shù)據(jù)在實(shí)踐應(yīng)用中取得較好效果,而國內(nèi)需向國外學(xué)習(xí)經(jīng)驗(yàn),挖掘大數(shù)據(jù)的行業(yè)應(yīng)用價值。比如:國外在疾病的治療與預(yù)測、圖像處理和個人位置服務(wù)等領(lǐng)域已取得了顯著成效,而國內(nèi)剛剛著手研究圖像識別與分割的相關(guān)技術(shù)。
第二,大數(shù)據(jù)研究的側(cè)重點(diǎn)不同。國外學(xué)者側(cè)重研究大數(shù)據(jù)關(guān)鍵技術(shù)和基礎(chǔ)理論,而國內(nèi)學(xué)者主要針對大數(shù)據(jù)現(xiàn)狀、數(shù)據(jù)挖掘技術(shù)、行業(yè)應(yīng)用來探討,未來需深入研究大數(shù)據(jù)關(guān)鍵技術(shù),比如:A/B測試、關(guān)聯(lián)規(guī)則挖掘、分類、眾包、集成學(xué)習(xí)、自然語言處理、神經(jīng)分析、回歸分析、模式識別、機(jī)器學(xué)習(xí)、空間分析、數(shù)據(jù)融合與集成、神經(jīng)網(wǎng)絡(luò)等。
第三,大數(shù)據(jù)應(yīng)用的研究角度不同。國外學(xué)者則偏重研究圖像處理、癌癥治療、商業(yè)價值等方面,國內(nèi)學(xué)者則注重研究媒體(新聞報(bào)道、新媒體、傳統(tǒng)媒體、媒體)、圖書館(數(shù)字圖書館、圖書館)和商業(yè)應(yīng)用(企業(yè)、數(shù)據(jù)中心、電力系統(tǒng)、商業(yè)銀行、互聯(lián)網(wǎng)、信息服務(wù)、物聯(lián)網(wǎng))等方面。
第四,大數(shù)據(jù)研究的層次不同。國外大數(shù)據(jù)研究成果較國內(nèi)成熟,國內(nèi)學(xué)者在借鑒國外大數(shù)據(jù)研究的基礎(chǔ)上,部分文獻(xiàn)介紹了大數(shù)據(jù)概念、技術(shù)、工具等,而大數(shù)據(jù)核心內(nèi)容(基礎(chǔ)理論、分析技術(shù))研究力度不夠。
未來國內(nèi)學(xué)者對大數(shù)據(jù)研究需進(jìn)一步拓展廣度與深度,注重研究大數(shù)據(jù)的關(guān)鍵技術(shù),同時加大現(xiàn)有研究成果向?qū)嵺`應(yīng)用轉(zhuǎn)化的力度,大數(shù)據(jù)研究成果將對各個領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
參考文獻(xiàn)
[1]馬建光,姜巍. 大數(shù)據(jù)的概念、特征及其應(yīng)用[J]. 國防科技,2013(2): 10-17
[2]Nature.Big Data[EB/OL].[2014-01-20].http://www.nature.com/news/specials/bigdata/index.html,2012
[3]Bryant R E,Katz R H,Lazowska E D.Big-Data computing: Creating revolutionary breakthroughs in commerce,science,and society[R/OL]. [2014-01-20].http://www.era.org/ccc/docs/init/Big_Data.pdf,2012
[4]Manyika J,Chui M,Brown B.Big data:The next frontier for innovation, competition, and productivity[EB/OL]. [2014-01-20].http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next frontier for innovation,2012
[5]World Economic Forum.Big data, big impact:New possibilities for international development[EB/OL]. [2014-01-20].http://www3.weforum.org/docs/WEF_ TC_ MFS_BigDataBigImpact_Briefing_2012.pdf,2012
[6]Lohr S.The age of big data[EB/OL].[2014-01-20]. [2014-01-20].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted =all,2012
[7]World Economic Forum.Big data, big impact:New possibilities for international development[EB/OL].[2014-01-20]. http://www3.weforum.org/docs/WEF_ TC_ MFS_BigDataBigImpact_Briefing_2012.pdf,2012
[8]IBM.What is big data[EB/OL].[2014-01-20].http://www-01.ibm.com/software/data/bigdata/,2012
[9]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013(1): 146-169
[10] 楊繹.基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究[J]. 圖書館雜志. 2012(09): 29-32
[11] 王新才,丁家友.大數(shù)據(jù)知識圖譜:概念、特征、應(yīng)用與影響[J]. 情報(bào)科學(xué),2013(9): 10-14
[12] 錢心緣.國內(nèi)外大數(shù)據(jù)研究進(jìn)展——從文獻(xiàn)計(jì)量學(xué)角度分析[J]. 中國科技信息,2013(19): 85-87
[13] 劉啟元,葉鷹.文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實(shí)現(xiàn)——以中外圖書情報(bào)學(xué)為例[J]. 信息資源管理學(xué)報(bào),2012(1): 50-58
[14] 劉璇,張朋柱,胡海波. 國內(nèi)知識管理領(lǐng)域科研合作網(wǎng)絡(luò)研究[J]. 科技進(jìn)步與對策,2013(15): 138-145
[15] 陳蘭蘭.基于社會網(wǎng)絡(luò)分析和共詞分析的國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究[J]. 圖書與情報(bào),2013(5): 129-132
[16] 邰峻,李博,梁麗華.國內(nèi)元數(shù)據(jù)研究共詞圖譜分析[J]. 情報(bào)雜志,2013(10):106-110
[17] 葉平浩. 基于社會網(wǎng)絡(luò)分析的知識組織研究圖譜[J]. 科技管理研究,2013(8): 148-152
[18] 埃絲特·戴森.大數(shù)據(jù)利弊之辯[J]. 中國經(jīng)濟(jì)報(bào)告,2013(6):23-24
[19] Science. Special online collection: Dealing with data[EB/OL].[2014-01-20].http://www.sciencemag.org/site/special/data/,2012
[20] 王珊,王會舉,覃雄派.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào),2011(10): 1741-1752
[21] 李洪洋. 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全研究[J]. 電子技術(shù)與軟件工程,2013(20): 250
[22] Agrawal D,Bernstein P,Bertino E.Challenges and opportunities with big data-A community white paper developed by leading researchers across the United States[EB/OL].[2014-01-20].http://cra.org/ccc/docs/init/bigdata whitepaper.pdf,2012
[23] 嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2013(4): 168-172
[24] UN Global Pulse.Big Data for Development:Challenges & Opportunities[EB/OL].[2014-01-20].http://www.unglobalpulse.org/project s/BigDataforDevelopment,2012
[25] Barwick H.The "four Vs" of Big Data. Implementing Information Infrastructure Symposium[EB/OL]. [2014-01-20].http://www.computerworld.com.au/article/396198/iiis_four_vs_big_dat a/,2012
[26] 鐘瑛,張恒山.大數(shù)據(jù)的緣起、沖擊及其應(yīng)對[J]. 現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報(bào)),2013(7):104-109
[27] 韓翠峰.大數(shù)據(jù)時代圖書館的服務(wù)創(chuàng)新與發(fā)展[J]. 圖書館,2013(1): 121-122
[28] IBM.What is big data[EB/OL].[2014-01-20].http://www-01.ibm.com/software/data/bigdata/,2012
[29] 方方.“大數(shù)據(jù)”趨勢下商業(yè)銀行應(yīng)對策略研究[J]. 新金融,2012(12): 25-28
[30] 黃哲學(xué),曹付元,李俊杰. 面向大數(shù)據(jù)的海云數(shù)據(jù)系統(tǒng)關(guān)鍵技術(shù)研究[J]. 網(wǎng)絡(luò)新媒體技術(shù),2012(6): 20-26
[31] 王天泥.大數(shù)據(jù)視角下圖書館的發(fā)展對策[J]. 圖書館學(xué)刊,2013(3): 42-44
[32] 楊海燕.大數(shù)據(jù)時代的圖書館服務(wù)淺析[J]. 圖書與情報(bào),2012(4): 120-122
Comparative Analyses on Domestic and Overseas Big Data Based on Mapping Knowledge
Deng ZhonghuaSong Xiufen
(School of Information Management, Wuhan University, Wuhan 430072, China)
[Abstract]Using CNKI and WOS as the searching tools, this paper makes an analysis from bibliometrics perspective on papers of big data at home and abroad, published during the period 2008-2013. With visualization tools forming a distribution table of keywords co-occurrence matrix, keywords co-occurrence network and keywords co-occurrence clustering map, the paper compares and analyses similarity and difference on big data from international aspect.
[Key words]Big dataKnowledge MapCo-occurrence networksUcinet
(收稿日期:2014-06-29)
DOI:10.13365/j.jirm.2015.04.089
[中圖分類號]G311
[文獻(xiàn)標(biāo)識碼]A
[文章編號]2095-2171(2015)04-0089-09
[作者簡介]鄧仲華,男,教授,博士生導(dǎo)師,研究方向?yàn)橹R組織與信息系統(tǒng);宋秀芬,女,博士生,研究方向?yàn)橹R組織與信息系統(tǒng),Email:songxiufenlook@126.com。
[基金項(xiàng)目]本文系國家自然科學(xué)基金資助項(xiàng)目“大數(shù)據(jù)環(huán)境下面向科學(xué)研究第四范式的信息資源云研究”(71373191)的研究成果。