趙蓉英,余波
(1.武漢大學(xué)中國科學(xué)評價研究中心,武漢 430072;2.武漢大學(xué)信息資源研究中心,武漢 430072;3.武漢大學(xué)信息管理學(xué)院,武漢 430072)
國外大數(shù)據(jù)管理研究熱點主題可視化分析*
趙蓉英1,2,3,余波1,2,3
(1.武漢大學(xué)中國科學(xué)評價研究中心,武漢 430072;2.武漢大學(xué)信息資源研究中心,武漢 430072;3.武漢大學(xué)信息管理學(xué)院,武漢 430072)
本文以Web of Science中大數(shù)據(jù)管理研究文獻作為數(shù)據(jù)源,利用文獻計量方法分析大數(shù)據(jù)管理研究現(xiàn)狀和熱點主題。運用信息可視化軟件CitespaceV對所收集的文獻進行學(xué)科主題詞共現(xiàn)分析和聚類分析,探尋隱藏在大數(shù)據(jù)管理主題研究聚類網(wǎng)絡(luò)下有關(guān)研究熱點的相關(guān)知識結(jié)構(gòu),揭示大數(shù)據(jù)管理研究領(lǐng)域熱點主題的發(fā)展脈絡(luò)和趨勢,以期為大數(shù)據(jù)管理研究在各學(xué)科領(lǐng)域的研究和發(fā)展提供參考。
數(shù)據(jù)管理;研究熱點;知識圖譜;可視化
“大數(shù)據(jù)”一詞代表眾多自主和獨立來源的數(shù)據(jù)集,具有量大、復(fù)雜和快速增長等特性。隨著計算機技術(shù)、互聯(lián)網(wǎng)技術(shù),特別是萬維網(wǎng)技術(shù)的發(fā)展,大數(shù)據(jù)在政務(wù)、醫(yī)療、商務(wù)、安全和氣候等方面發(fā)揮越來越重要的作用。2008年,Nature出版了??疊igData,從多個方面強調(diào)海量數(shù)據(jù)帶來的挑戰(zhàn)。2011年,Science發(fā)布Dealing with data,闡述了科學(xué)研究中大數(shù)據(jù)處理和數(shù)據(jù)科學(xué)管理等問題。2011年6月,麥肯錫咨詢公司對大數(shù)據(jù)分析、應(yīng)用、管理和挑戰(zhàn)等問題進行詳細(xì)地闡述。2012年3月,美國聯(lián)邦政府宣布投資2億多美元用以大數(shù)據(jù)研發(fā),并強調(diào)大數(shù)據(jù)與互聯(lián)網(wǎng)、超級計算等具有同樣重要的國際戰(zhàn)略意義。計算硬件、網(wǎng)絡(luò)和大規(guī)模并行處理框架的快速發(fā)展,以及計算基礎(chǔ)設(shè)施成本的降低促成大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)等計算技術(shù)已快速生成大量的數(shù)據(jù)[1]。在大數(shù)據(jù)應(yīng)用和管理方面,Zhang等介紹了大數(shù)據(jù)驅(qū)動產(chǎn)品生命周期管理框架所應(yīng)對的挑戰(zhàn),提出數(shù)據(jù)生命周期管理框架及整體數(shù)據(jù)管理的解決方案[2];Boone等介紹了企業(yè)已深刻認(rèn)識到大數(shù)據(jù)分析的重要性,強調(diào)改進服務(wù)部門數(shù)據(jù)管理實踐的方法[3]。
大數(shù)據(jù)的大規(guī)模效應(yīng)給數(shù)據(jù)的收集、存儲、管理和應(yīng)用帶來極大挑戰(zhàn),大數(shù)據(jù)的管理方式將面臨一系列變革。大數(shù)據(jù)的管理、技術(shù)和應(yīng)用存在很多爭議和疑問,需要進一步探索和創(chuàng)新。國內(nèi)學(xué)者對大數(shù)據(jù)分析與管理進行了深入地研究,在社會、經(jīng)濟各個層面都展開分析。因此,對國外大數(shù)據(jù)分析與管理領(lǐng)域研究熱點進行分析與探討具有重要的意義。
本文數(shù)據(jù)來源于Web of Science,檢索時間為2017年7月12日。利用數(shù)據(jù)庫的高級檢索功能進行來源文獻檢索,以“big data”和“data management”為檢索詞,限定“標(biāo)題”檢索,檢索國外關(guān)于大數(shù)據(jù)管理研究的所有文獻。通過數(shù)據(jù)清洗,最后獲得393篇有效文獻作為研究的數(shù)據(jù)樣本。本文對原始文獻信息進行處理后,采用文獻內(nèi)容分析方法結(jié)合知識圖譜可視化軟件CitespaceV對大數(shù)據(jù)管理研究文獻進行深入分析,構(gòu)建該領(lǐng)域關(guān)鍵詞知識圖譜,通過文獻進行可視化處理生成研究熱點網(wǎng)絡(luò)圖譜。
關(guān)鍵詞、主題詞等代表了文獻的核心與精髓,是對文獻內(nèi)容的高度概括和凝練。對關(guān)鍵詞、主題詞等進行共現(xiàn)分析,分析其共同出現(xiàn)的頻次和關(guān)系,從而揭示某一學(xué)科領(lǐng)域的知識結(jié)構(gòu)演變情況、研究熱點及科學(xué)研究前沿等。利用CitespaceV構(gòu)建國外大數(shù)據(jù)管理領(lǐng)域研究熱點知識圖譜。在CitespaceV初始界面選擇“TimeSlicing”為所有年限,選擇“Year Per Slice”以一年為一個時間段,節(jié)點類型為關(guān)鍵詞,得到包括120個節(jié)點和282條連線的研究熱點網(wǎng)絡(luò)知識圖譜(見圖1)。
圖1 大數(shù)據(jù)管理研究熱點網(wǎng)絡(luò)知識圖譜
其中圓點代表關(guān)鍵詞,圓點大小反映了熱點的強弱。圓點間的連線表示熱點間的共現(xiàn),連線間的密集程度代表兩個主題間聯(lián)系的緊密程度。通過對CitespaceV中發(fā)現(xiàn)集群和標(biāo)簽標(biāo)題集群可視化操作,得到許多不規(guī)則的多邊形集群。所有集群將聯(lián)系緊密的關(guān)鍵詞聚成一簇,并根據(jù)關(guān)鍵詞的意義進行分類和標(biāo)注,標(biāo)注的排序代表該集群主題研究熱點的程度。
通過該軟件可視化后臺數(shù)據(jù)networksummarytable進一步分析,得到大數(shù)據(jù)管理研究領(lǐng)域熱點關(guān)鍵詞的頻次和突發(fā)詞數(shù)據(jù)信息,剔除意義不明確的關(guān)鍵詞后得到表1。
大數(shù)據(jù)管理領(lǐng)域研究熱點關(guān)鍵詞主要集中在2013—2016年。中心性最強的詞為big data(0.44),system(0.26)、knowledge management(0.17)和cloud computing(0.16)次之。
2013年熱點關(guān)鍵詞有big data(大數(shù)據(jù))、cloud computing(云計算)、data analytics(數(shù)據(jù)分析)、ehealth(電子健康)、home monitoring(家庭監(jiān)控)、data warehousing(數(shù)據(jù)倉庫)、ambient assisted living(環(huán)境輔助生活)、electronic health record(電子健康記錄)等。這反映了國外在2013年的研究主要集中在大數(shù)據(jù)技術(shù)及其應(yīng)用管理的發(fā)展階段,大數(shù)據(jù)凸顯了數(shù)據(jù)分析的重要性和緊迫性。其中,國外大數(shù)據(jù)在電子健康記錄方面應(yīng)用廣泛,充分體現(xiàn)數(shù)據(jù)分析的便捷和高效。
表1 大數(shù)據(jù)管理研究高頻關(guān)鍵詞和突發(fā)詞(部分)
2014年熱點關(guān)鍵詞有system(系統(tǒng))、big data management(大數(shù)據(jù)管理)、storage(存儲)、security(安全性)、management(管理)、design(設(shè)計)等。通過這些熱點關(guān)鍵詞發(fā)現(xiàn),國外在該領(lǐng)域的研究開始遇到數(shù)據(jù)安全和管理方面的挑戰(zhàn),進一步重視大數(shù)據(jù)的安全性和管理。
2015年熱點關(guān)鍵詞有knowledge management(知識管理)、business intelligence(商業(yè)智能)、data mining(數(shù)據(jù)挖掘)、smart grid(智能電網(wǎng))、neural network(神經(jīng)網(wǎng)絡(luò))、cloud(云)、project management(項目管理)、innovation(創(chuàng)新)、information technology(信息技術(shù))等。這些高頻關(guān)鍵詞體現(xiàn)了大數(shù)據(jù)管理與信息技術(shù)的融合,表明信息技術(shù)對數(shù)據(jù)管理的重要性。
2016年熱點關(guān)鍵詞有analytics(分析)、kinetic theory(動力學(xué)理論)、crowd dynamics(人群動態(tài))、knowledge(知識)、risk management(風(fēng)險管理)、emergency management(應(yīng)急管理)、impact(影響)、intelligence(情報)、supply chain management(供應(yīng)鏈管理)、machine learning(機器學(xué)習(xí))、big data technology(大數(shù)據(jù)技術(shù))、cloud computing(云計算)等。隨著大數(shù)據(jù)形式的多樣化和信息技術(shù)的發(fā)展,大數(shù)據(jù)管理已滲透到社會經(jīng)濟、醫(yī)療、安全等各個行業(yè)。
通過2013—2016年的熱點關(guān)鍵詞可以發(fā)現(xiàn),大數(shù)據(jù)分析等一直是該領(lǐng)域研究的熱點,這充分體現(xiàn)出大數(shù)據(jù)管理與數(shù)據(jù)分析密不可分。同時還發(fā)現(xiàn)數(shù)據(jù)管理與云計算、數(shù)據(jù)挖掘及知識管理密切相關(guān)。
CitespaceV可通過中介中心性來衡量和發(fā)現(xiàn)文獻的重要性,中心度高的節(jié)點通常代表網(wǎng)絡(luò)中重要的節(jié)點。通過關(guān)鍵詞聚類和主題分析有利于發(fā)現(xiàn)該領(lǐng)域研究的重點和熱點。結(jié)合關(guān)鍵詞的中心性深入探測熱點主題,最終得到big data management(#0)、big data management system(#1)、system framework(#2)、human behavior(#3)、big data technologies(#4)、management platform construction(#5)、action classes(#6)、measuring strategic big data management(#7)8個主題。
為進一步分析熱點主題,本文在對國外該領(lǐng)域知識圖譜分析的基礎(chǔ)上,結(jié)合文獻調(diào)研結(jié)果,對該領(lǐng)域8個熱點主題進行整合后得到的熱點主題為大數(shù)據(jù)分析與管理系統(tǒng)(整合#0和#1)、大數(shù)據(jù)與信息技術(shù)(整合#2和#4)、大數(shù)據(jù)安全與隱私管理(整合#3和#5)、大數(shù)據(jù)行業(yè)應(yīng)用與管理(整合#6和#7)。
目前,國外大數(shù)據(jù)分析與管理系統(tǒng)領(lǐng)域研究主題較多。大數(shù)據(jù)的信息源呈現(xiàn)出自主性,并出現(xiàn)多樣化異構(gòu)數(shù)據(jù),如社交媒體數(shù)據(jù)、網(wǎng)絡(luò)開放數(shù)據(jù)、傳感器數(shù)據(jù)等。多源異構(gòu)數(shù)據(jù)對采集、存儲、處理、分析和管理帶來前所未有的挑戰(zhàn)。分布式處理技術(shù)是數(shù)據(jù)分析的有效途徑。國外政府和相關(guān)機構(gòu)通過無線網(wǎng)絡(luò)與云計算分析和管理大數(shù)據(jù),研究云計算環(huán)境中大數(shù)據(jù)聚合與高效管理的相關(guān)性來提高數(shù)據(jù)的分析和管理效率[4]。
大數(shù)據(jù)分析與管理系統(tǒng)結(jié)合本體論、語義處理、云計算等視角從大量數(shù)據(jù)集中挖掘有價值的數(shù)據(jù)來進行科學(xué)分析與管理。另外,數(shù)據(jù)建模是大數(shù)據(jù)分析與管理的創(chuàng)新。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)管理需要通過原始方法解決數(shù)據(jù)復(fù)雜性建模和架構(gòu)問題,利用建模和開發(fā)系統(tǒng)技術(shù)來處理大數(shù)據(jù)的管理模式[5]。對于大數(shù)據(jù)的數(shù)據(jù)捕獲、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)可視化等復(fù)雜性問題需要建立新的管理和服務(wù)模式來提升利用效率,同時,大數(shù)據(jù)建模、管理系統(tǒng)和可視化等將提升數(shù)據(jù)管理策略[6]。目前,研究人員通過調(diào)查大數(shù)據(jù)在管理、金融、通信等領(lǐng)域的影響,以探尋更好的大數(shù)據(jù)分析與管理系統(tǒng)的方法[7]。
大數(shù)據(jù)管理離不開信息技術(shù),通過改進技術(shù)以及大數(shù)據(jù)數(shù)量、速度和多樣性管理的特點,以提供大數(shù)據(jù)集成技術(shù)的上下文感知智能服務(wù)。通過信息技術(shù)來提升數(shù)據(jù)管理,Gil等提出基于本體、語義鏈接和云計算的多種架構(gòu)綜合智能服務(wù)[8]。
通過強調(diào)存儲、預(yù)處理、處理和安全性來調(diào)查大數(shù)據(jù)管理的可行技術(shù),數(shù)據(jù)技術(shù)仍然需進一步提升[9]。MapReduce等分布式處理技術(shù)在移動設(shè)備中的應(yīng)用可分析出系統(tǒng)故障,阻止使用移動設(shè)備應(yīng)用程序的處理。Park等提出一種基于利用率和移動速率的分組技術(shù)和階段分組方法,可有效減少組管理的開銷[10]。因此,通過設(shè)計分類法來分析這些技術(shù)的關(guān)鍵方面,總結(jié)大數(shù)據(jù)管理技術(shù)的不同層面來提高數(shù)據(jù)技術(shù)和管理。
在大數(shù)據(jù)時代,數(shù)據(jù)安全和隱私管理一直是國內(nèi)外關(guān)注的焦點。數(shù)據(jù)安全涉及經(jīng)濟、社會、文化等各個領(lǐng)域。
國外基于安全云計算的數(shù)據(jù)框架體現(xiàn)在智能電網(wǎng)的大數(shù)據(jù)信息管理,在現(xiàn)代能源基礎(chǔ)設(shè)施方面發(fā)揮關(guān)鍵作用。智能電網(wǎng)通過安全數(shù)據(jù)技術(shù)創(chuàng)新,提升電力服務(wù)效率?;诎踩朴嬎愕闹悄茈娋W(wǎng)大數(shù)據(jù)信息管理框架[11]除了為信息管理和大數(shù)據(jù)分析提供不同類型的計算服務(wù)外,還提供身份的加密、簽名和代理重新加密等安全服務(wù)。
大數(shù)據(jù)已進入行業(yè)管理和應(yīng)用層面,大數(shù)據(jù)管理是企業(yè)系統(tǒng)/平臺的發(fā)展趨勢。社會各行業(yè)都可以通過大數(shù)據(jù)的應(yīng)用和管理來提高企業(yè)效益,盡可能降低企業(yè)成本。研究和分析大數(shù)據(jù)在運營或供應(yīng)鏈管理中的應(yīng)用,輔助戰(zhàn)略運作策略的制定[12]。
首先,通過對國外大數(shù)據(jù)管理領(lǐng)域熱點主題的可視化研究,得到該領(lǐng)域研究的熱點關(guān)鍵詞,包括大數(shù)據(jù)、云計算、大數(shù)據(jù)管理與分析、數(shù)據(jù)倉庫、電子健康記錄、知識管理、商業(yè)智能、數(shù)據(jù)挖掘、數(shù)據(jù)安全和隱私、大數(shù)據(jù)技術(shù)、供應(yīng)鏈管理等。結(jié)合文獻調(diào)研,可發(fā)現(xiàn)大數(shù)據(jù)管理領(lǐng)域研究正關(guān)注大數(shù)據(jù)分析與知識管理的結(jié)合[13]。
其次,通過熱點關(guān)鍵詞聚類分析發(fā)現(xiàn),該領(lǐng)域研究的熱點主題大致可分為大數(shù)據(jù)分析與管理系統(tǒng)、大數(shù)據(jù)與信息技術(shù)、大數(shù)據(jù)安全與隱私管理、大數(shù)據(jù)行業(yè)應(yīng)用與管理。這4類主題涉及政務(wù)、醫(yī)療、商務(wù)、安全和氣候等多個方面。大數(shù)據(jù)分析和管理面臨新的機遇與挑戰(zhàn),其處理方法根據(jù)不同層面的信息需求在不斷深化和更新。同時,大數(shù)據(jù)管理也將隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)發(fā)展而不斷改進數(shù)據(jù)管理方式,以此滿足不同層面團體和個人的需求。
最后,大數(shù)據(jù)管理研究將繼續(xù)呈現(xiàn)多元化研究方向。時間性是大數(shù)據(jù)管理的新研究方向,已經(jīng)開發(fā)的時間關(guān)注模型不適合處理大數(shù)據(jù)的新特征,大數(shù)據(jù)管理方法和建議亟待進一步更新[14]。從數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)使用經(jīng)驗理論角度考慮,企業(yè)對大數(shù)據(jù)分析的要求是提升企業(yè)數(shù)據(jù)質(zhì)量[15]。
國外大數(shù)據(jù)管理領(lǐng)域研究正處于多元化發(fā)展和不斷深化的過程中,該領(lǐng)域引起不同行業(yè)和學(xué)界的高度重視,特別是政務(wù)、商務(wù)、醫(yī)療、安全和氣候等行業(yè)的廣泛關(guān)注和研究;隨著互聯(lián)網(wǎng)技術(shù)的更新和大數(shù)據(jù)的不斷累積,大數(shù)據(jù)管理有待進一步探索和完善;大數(shù)據(jù)分析和管理將在不同領(lǐng)域開拓新的應(yīng)用空間,為各領(lǐng)域提供更好的數(shù)據(jù)管理和服務(wù)平臺。
[1] GIL D,SONG I Y,ALDAND J F,et al.Big Data.New approaches of modelling and management[J].Computer Standards & Interfaces,2017,54(11):61-63.
[2] ZHANG Y,REN S,LIU Y,et al.A framework for big data driven product lifecycle management[J].Journal of Cleaner Production,2017,159(8):229-240.
[3] BOONE C A,SKIPPER J B,HAZEN B T.A framework for investigating the role of big data in service parts management[J].Journal of Cleaner Production,2017,153(1):687-691.
[4] ORIKE S,BROWN D.Big data management:an investigation into wireless and cloud computing[J].International Journal of Interdisciplinary Telecommunications and Networking,2016,8(4):34-50.
[5] GIL D,SONG I Y.Modeling and management of big data: challenges and opportunities[J].Future Generation Computer Systems,2016,63(10):96-99.
[6] GIL D,TRUJILL O,SONG I Y.Big data trends: modelling,management and visualization[J].Expert Systems,2016,33(4):362-363.
[7] OHSHIMA N,KESHAVARZ H,WAN H H,et al.Study of open issues on big data management[C]//Proceedings of the 11th International Conference on Innovation and Management.[S.1.]:[s.n.],2014:1245-1246.
[8] GIL D,FERRáNDEZ A,MORAMORA H,et al.Internet of things: a review of surveys based on context aware intelligent services[J].Sensors,2016,16(7):1069.
[9] SIDDIQA A,HASHEM I A T,YAQOOB I,et al.A survey of big data management: taxonomy and state-of-the-art[J].Journal of Network &Computer Applications,2016,71(8):151-166.
[10] PARK J S,KIM H,JEONG Y,et al.Two-phase grouping-based resource management for big data processing in mobile cloud computing[J].International Journal of Communication Systems,2014,27(6):839-851.
[11] ALELAIWI A.A collaborative resource management for big IoT data processing in Cloud[J].Cluster Computing-The Journal of Networks Software Tools and Applications,2017,20(2):1791-1799.
[12] ADDO-TENKORANG R,HELO P T.Big data applications in operations/supply-chain management: a literature review[J].Computers & Industrial Engineering,2016,101(11):528-543.
[13] HOTA C,UPADHYAYA S,AI-KARAKI J N.Advances in secure knowledge management in the big data era[J].Information Systems Frontier,2015,17(5):983-986.
[14] CUZZOCREA A.Temporal aspects of big data management: state-of-theart analysis and future research directions[J].International Symposium on Temporal Representation and Reasoning,2016,22(1):180-185.
[15] KWON O,LEE N,SHIN B.Data quality management, data usage experience and acquisition intention of big data analytics[J].International Journal of Information Management,2014,34(3):387-394.
《科技報告體系構(gòu)建研究》
為推進我國科技報告制度建設(shè),強化科技報告資源共享服務(wù),賀德方研究員率領(lǐng)中國科學(xué)技術(shù)信息研究所科技報告研究團隊,進行了國家社會科學(xué)基金重點項目“中國科技報告資源體系構(gòu)建”(11ATQ006)研究,并對20多年來中國科學(xué)技術(shù)信息研究所相關(guān)研究和實踐進行了歸納、凝練、整理和補充,最終形成了《科技報告體系構(gòu)建研究》。
本書作為國家社會科學(xué)基金重點項目的主要研究成果,總結(jié)了科技報告產(chǎn)生發(fā)展的管理歷程、凝練了科技報告制度的建設(shè)路徑、制訂了科技報告資源的整合方案,提出了科技報告體系的構(gòu)建模式,歸納了科技報告實踐的操作過程。本書對各級科技計劃管理人員強化科技計劃項目過程管理具有借鑒作用,對科研人員撰寫高質(zhì)量科技報告具有指導(dǎo)作用,對各類科研機構(gòu)做好科技報告呈交、推進科技項目的規(guī)范管理和機構(gòu)知識庫建設(shè)具有參考價值,對圖書信息機構(gòu)做好科技報告深層次加工和收藏利用具有引導(dǎo)作用,也可供高校信息管理、科技政策與管理等專業(yè)研究生學(xué)習(xí)參考。
《科技報告體系構(gòu)建研究》于2014年12月由科學(xué)技術(shù)文獻出版社出版,定價78.00元。
Visualization Analysis of Hot Topics of Big Data Management in Foreign
ZHAO RongYing1,2,3, YU Bo1,2,3
(1.Research Center for Chinese Science Evaluation, Wuhan University, Wuhan 430072, China; 2.Center for Studies of Information Resources, Wuhan University,Wuhan 430072, China; 3.School of Information Management, Wuhan University, Wuhan 430072, China)
This paper takes big data management research literature in the Web of Science database as the data source, using bibliometric methods to analyze the current situation and hot topics of big data management. Using the information visualization software CitespaceV to carry on the subject co-occurrence and the cluster analysis, explores the relevant knowledge structure of research hotspots that are hidden in big data management subject research cluster networks, revealing the trend of hot topics in big data management research field, so as to provide a reference for the research and development of big data management research in various disciplines.
Data Management; Research Hotspots; Knowledge Maps; Visualization
2017-10-31)
G251
10.3772/j.issn.1673-2286.2017.12.011
* 本研究得到國家社會科學(xué)基金項目“中國學(xué)者國際學(xué)術(shù)論文影響力評價研究”(編號:16BTQ055)資助。
趙蓉英,女,1961年生,博士生導(dǎo)師,研究方向:信息計量與科學(xué)評價,E-mail:zhaorongying@126.com。
余波,男,1981年生,博士研究生,研究方向:信息計量與科學(xué)評價。