孫晨霞 施羽暇
(1. 北京印刷學(xué)院新聞與出版學(xué)院,北京 102600; 2.中國(guó)信息通信研究院政策與經(jīng)濟(jì)研究所數(shù)字經(jīng)濟(jì)研究部,北京 100191)
大數(shù)據(jù)這一科技術(shù)語(yǔ)并不是近幾年才出現(xiàn)的。2008年9月,Nature雜志推出Bigdata:ThenextGoogle???,討論大數(shù)據(jù)技術(shù)用于處理未來(lái)可能會(huì)遇到的問(wèn)題,其中便首次使用了“大數(shù)據(jù)”的說(shuō)法[1]。而首次提出大數(shù)據(jù)的定義是在2011年,麥肯錫全球研究院 ( MGI) 在其發(fā)布的《大數(shù)據(jù): 創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》 (Bigdata,Thenextfrontierforinnovation,competition,andproductivity)研究報(bào)告中清晰表述:大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫(kù)工具獲取、儲(chǔ)存、管理和分析能力的數(shù)據(jù)集[2]。
隨著信息和通信技術(shù)的發(fā)展,大數(shù)據(jù)不再只是一個(gè)概念,而是逐漸融入人們生產(chǎn)和生活的方方面面,社會(huì)呈現(xiàn)出萬(wàn)物互聯(lián)的趨勢(shì)。大數(shù)據(jù)技術(shù)的繁榮與各個(gè)國(guó)家的政策和經(jīng)濟(jì)投入密切相關(guān)。2020年3月,數(shù)據(jù)首次被納入生產(chǎn)要素范圍,成為繼土地、勞動(dòng)力、資本和技術(shù)之外的第五大生產(chǎn)要素[3]。數(shù)字技術(shù)發(fā)展到今天,計(jì)算機(jī)算法越來(lái)越復(fù)雜、穩(wěn)定和科學(xué),數(shù)據(jù)的產(chǎn)生、傳輸和處理的方式也發(fā)生了翻天覆地的變化,深刻地影響著人們的生活方式。大數(shù)據(jù)的基礎(chǔ)技術(shù)是基于云計(jì)算對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、管理、挖掘和分析,核心技術(shù)包括數(shù)據(jù)采集、機(jī)器學(xué)習(xí)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)庫(kù)等。大數(shù)據(jù)技術(shù)意味著數(shù)字化進(jìn)程的新階段,驅(qū)動(dòng)人類社會(huì)發(fā)展,推動(dòng)社會(huì)生產(chǎn)格局的調(diào)整?!?021年IDC全球大數(shù)據(jù)支出指南V1》(IDCWorldwideBigDataandAnalyticsSpendingGuide, 2021V1)[4]中,對(duì)全球大數(shù)據(jù)市場(chǎng)的未來(lái)發(fā)展做出推斷,稱到2025年IT投資規(guī)模將得到巨幅增長(zhǎng),數(shù)額將超過(guò)3500億美元,其復(fù)合增長(zhǎng)率(CAGR)也將達(dá)到12.8%左右。IDC中國(guó)新興科技研究組分析師王麗萌認(rèn)為,隨著互聯(lián)網(wǎng)經(jīng)濟(jì)的升級(jí)和加速發(fā)展,政府、企業(yè)等終端用戶正在廣泛開(kāi)展數(shù)字化轉(zhuǎn)型,完善數(shù)據(jù)全生命周期管理,運(yùn)用大數(shù)據(jù)分析和解決方案提升管理決策水平、改善內(nèi)外部用戶體驗(yàn)、支持創(chuàng)新應(yīng)用,中國(guó)大數(shù)據(jù)市場(chǎng)支出將在五年內(nèi)穩(wěn)定增長(zhǎng)。政府、企業(yè)對(duì)大數(shù)據(jù)技術(shù)投之以更多的關(guān)注。
信息和數(shù)據(jù)規(guī)模增長(zhǎng),人們的思維方式也受到大數(shù)據(jù)技術(shù)的影響發(fā)生改變,學(xué)界也涌現(xiàn)出大量大數(shù)據(jù)領(lǐng)域的相關(guān)研究。隨著國(guó)內(nèi)外研究深度和廣度的不斷延伸,形成了復(fù)雜的研究網(wǎng)絡(luò),這些龐雜的文獻(xiàn)數(shù)據(jù)信息亟須梳理和總結(jié)。知識(shí)圖譜法和文獻(xiàn)計(jì)量分析方法中的共詞共現(xiàn)法是分析學(xué)術(shù)領(lǐng)域研究態(tài)勢(shì)的基本方法,科技術(shù)語(yǔ)和高被引論文可以在一定程度上代表學(xué)科領(lǐng)域的研究?jī)?nèi)容,顯示出該學(xué)科領(lǐng)域的學(xué)者對(duì)某一方向的重視程度和研究?jī)A向。因此,本文以VOSviewer可視化軟件為工具,以Web of Science核心合集檢索到的大數(shù)據(jù)領(lǐng)域的高被引論文為數(shù)據(jù)源,構(gòu)建關(guān)于大數(shù)據(jù)領(lǐng)域的科技術(shù)語(yǔ)知識(shí)圖譜,然后對(duì)該領(lǐng)域的前沿和熱點(diǎn)進(jìn)行挖掘、分析和解讀。
研究數(shù)據(jù)來(lái)源于2015—2021年Web of Science核心合集中大數(shù)據(jù)領(lǐng)域的文獻(xiàn),通過(guò)主題字段檢索,檢索標(biāo)題、摘要、作者關(guān)鍵詞和Keywords Plus,以“big data technology”作為主題詞,截止到2022年4月9日,共檢索出8944篇文獻(xiàn),為了使數(shù)據(jù)分析的結(jié)果更有意義,對(duì)這些文獻(xiàn)進(jìn)行清洗,過(guò)濾掉信函、會(huì)議摘要、綜述論文、被撤回論文等無(wú)效文獻(xiàn),最終以7169篇文獻(xiàn)為樣本。然后根據(jù)被引頻次從高到低進(jìn)行排序,選取出前1000篇高被引論文。最后將這些文獻(xiàn)數(shù)據(jù)信息以純文本文件的格式導(dǎo)出,作為本文的數(shù)據(jù)源。
主要采用文獻(xiàn)計(jì)量分析方法和知識(shí)圖譜法,以Web of Science核心合集中的論文為研究對(duì)象,以大數(shù)據(jù)技術(shù)為主要研究領(lǐng)域,時(shí)間跨度為2015—2021年,借助科學(xué)知識(shí)圖譜軟件VOSviewer對(duì)從Web of Science導(dǎo)出的文獻(xiàn)數(shù)據(jù)信息進(jìn)行Author keywords和Keywords plus共現(xiàn)可視化,從而確定大數(shù)據(jù)技術(shù)的研究熱點(diǎn),構(gòu)建關(guān)鍵詞共現(xiàn)矩陣,并通過(guò)呈現(xiàn)出的聚類譜系圖、標(biāo)簽視圖、密度視圖進(jìn)行聚類分析,以便直觀和動(dòng)態(tài)地揭示大數(shù)據(jù)技術(shù)的知識(shí)結(jié)構(gòu)和演化路徑,從而實(shí)現(xiàn)對(duì)2015—2021年大數(shù)據(jù)技術(shù)文獻(xiàn)的前沿和熱點(diǎn)研究。
將1000篇高被引論文作為源數(shù)據(jù)導(dǎo)入VOSviewer軟件,共析出5130個(gè)關(guān)鍵詞,關(guān)鍵詞的選取規(guī)則為:共現(xiàn)次數(shù)達(dá)到5次及以上,共得到252個(gè)關(guān)鍵詞。但是軟件自動(dòng)合并出的結(jié)果中存在一些未達(dá)到共現(xiàn)分析要求的無(wú)效關(guān)鍵詞以及重復(fù)關(guān)鍵詞,需要進(jìn)行手動(dòng)篩選。在新建txt文檔中加入如下關(guān)鍵詞處理規(guī)則:(1)去除語(yǔ)義過(guò)于籠統(tǒng)、意義過(guò)于寬泛以及無(wú)意義的詞,如big data、things和0等;(2)統(tǒng)一單詞單復(fù)數(shù),如network與networks,model與models;(3)合并同義詞,如:network與Internet,industry 4與industry 4.0。最終得到174個(gè)符合共現(xiàn)要求的關(guān)鍵詞。
Web of Science 核心合集2015—2021年共發(fā)表了23 540篇大數(shù)據(jù)相關(guān)論文,圖1是2015—2021年該領(lǐng)域所發(fā)表的相關(guān)研究的逐年趨勢(shì)。可以看出,近幾年大數(shù)據(jù)相關(guān)研究文獻(xiàn)的發(fā)表數(shù)量呈現(xiàn)出逐年穩(wěn)定上升的趨勢(shì),學(xué)界對(duì)大數(shù)據(jù)技術(shù)的研究在7年間從每年331篇上升到2075篇。
圖1 2015—2021年大數(shù)據(jù)相關(guān)研究論文逐年分布
大數(shù)據(jù)相關(guān)研究論文近年來(lái)的持續(xù)增長(zhǎng),究其原因,主要在于大數(shù)據(jù)技術(shù)進(jìn)入各行各業(yè),從而導(dǎo)致全社會(huì)出現(xiàn)了對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用需求。從國(guó)家層面講,大數(shù)據(jù)技術(shù)已經(jīng)成為國(guó)家建設(shè)數(shù)字強(qiáng)國(guó)的強(qiáng)大驅(qū)動(dòng)力;從企業(yè)層面而言,大數(shù)據(jù)技術(shù)在生產(chǎn)、傳播和反饋信息方面具有突出作用;在科研領(lǐng)域,大量學(xué)科領(lǐng)域均有基于大數(shù)據(jù)技術(shù)的應(yīng)用研究。除此之外,也離不開(kāi)人們對(duì)數(shù)據(jù)本身的采集、管理、處理、分析等技術(shù)需求。社會(huì)生產(chǎn)活動(dòng)需要用到大數(shù)據(jù)技術(shù)以及大數(shù)據(jù)的思維方式,因此,對(duì)大數(shù)據(jù)技術(shù)的需求與日俱增。大數(shù)據(jù)技術(shù)產(chǎn)生自數(shù)據(jù)庫(kù),集大成于分布式系統(tǒng),現(xiàn)在又重新落地于數(shù)據(jù)庫(kù)系統(tǒng)。近年來(lái),人們不斷追求和改進(jìn)現(xiàn)有的技術(shù),推動(dòng)了對(duì)大數(shù)據(jù)技術(shù)的研究。如今新型分布式關(guān)系數(shù)據(jù)庫(kù)技術(shù)和以分布式計(jì)算為特征的云計(jì)算技術(shù)將我們帶入人工智能和信息化社會(huì),大數(shù)據(jù)技術(shù)的相關(guān)研究仍在繼續(xù),在大數(shù)據(jù)領(lǐng)域相關(guān)研究文獻(xiàn)數(shù)量逐年上升的大趨勢(shì)和分布式計(jì)算的技術(shù)背景下,未來(lái)幾年對(duì)數(shù)據(jù)庫(kù)和云計(jì)算的研究將持續(xù)增長(zhǎng)。
高被引論文之所以被多次引用,一方面在于其研究具有一定的代表性,學(xué)者們普遍認(rèn)可論文成果在學(xué)術(shù)領(lǐng)域的貢獻(xiàn);另一方面也和論文關(guān)注的領(lǐng)域發(fā)展較快有關(guān)。因此,高被引論文可以在很大程度代表人們對(duì)某一問(wèn)題研究的重視程度和研究?jī)A向。表1列出了2015—2021年Web of Science 核心合集中大數(shù)據(jù)領(lǐng)域排名前10的高被引論文??梢钥闯觯髷?shù)據(jù)領(lǐng)域的三個(gè)主要研究方向?yàn)榇髷?shù)據(jù)挖掘、大數(shù)據(jù)運(yùn)維、云計(jì)算。2021年我國(guó)圍繞大數(shù)據(jù)技術(shù)的資金投入繼續(xù)增加,大數(shù)據(jù)技術(shù)在實(shí)踐落地的過(guò)程中也存在風(fēng)險(xiǎn)和挑戰(zhàn),在數(shù)據(jù)的運(yùn)營(yíng)和維護(hù)過(guò)程中,如何有效地管理和應(yīng)用大數(shù)據(jù)技術(shù),以及在大數(shù)據(jù)的價(jià)值轉(zhuǎn)化過(guò)程中切實(shí)保障用戶數(shù)據(jù)信息的安全,也是大數(shù)據(jù)領(lǐng)域需要研究和解決的問(wèn)題。
表1 2015—2021年大數(shù)據(jù)領(lǐng)域排名前10的高被引論文列表
(續(xù)表1)
VOSviewer可以對(duì)文獻(xiàn)知識(shí)單元進(jìn)行關(guān)系構(gòu)建,對(duì)數(shù)據(jù)信息進(jìn)行可視化分析,從而繪制出可以展現(xiàn)某一領(lǐng)域的知識(shí)結(jié)構(gòu)、演進(jìn)和前沿?zé)狳c(diǎn)的知識(shí)圖譜,實(shí)現(xiàn)對(duì)關(guān)鍵詞共現(xiàn)的聚類分析。將上述2015—2021年大數(shù)據(jù)領(lǐng)域高被引論文的174個(gè)關(guān)鍵詞導(dǎo)出到txt文檔,接著在Excel文檔中整理這些關(guān)鍵詞數(shù)據(jù),依照出現(xiàn)頻次重新排序,選取前20個(gè)高頻關(guān)鍵詞,得到大數(shù)據(jù)領(lǐng)域高被引論文關(guān)鍵詞頻次表(見(jiàn)表2)。
表2 大數(shù)據(jù)領(lǐng)域高被引論文的前20個(gè)高頻關(guān)鍵詞
VOSviewer軟件可以生成聚類譜系圖,將經(jīng)過(guò)數(shù)據(jù)預(yù)處理的174個(gè)符合共現(xiàn)分析要求的關(guān)鍵詞導(dǎo)入軟件,設(shè)置聚類規(guī)則為最小聚類中包含的關(guān)鍵詞不少于25個(gè),通過(guò)統(tǒng)計(jì)和梳理大數(shù)據(jù)領(lǐng)域的高被引論文中各個(gè)關(guān)鍵詞出現(xiàn)的頻次,以及各個(gè)關(guān)鍵詞之間的關(guān)聯(lián)程度,以展現(xiàn)大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)和結(jié)構(gòu)分布。圖2是VOSviewer對(duì)樣本數(shù)據(jù)分析生成的關(guān)鍵詞聚類譜系圖,圖中的結(jié)點(diǎn)表示在大數(shù)據(jù)領(lǐng)域高被引論文中共現(xiàn)的關(guān)鍵詞,結(jié)點(diǎn)的大小表示該詞共現(xiàn)的頻次高低,結(jié)點(diǎn)越大,體現(xiàn)出其研究熱度越高。
圖2 2015—2021年大數(shù)據(jù)領(lǐng)域關(guān)鍵詞聚類譜系圖
圖譜中有174個(gè)標(biāo)簽,3017條連接線,總體關(guān)聯(lián)強(qiáng)度為6567??梢钥闯?,2020—2021年間,大數(shù)據(jù)領(lǐng)域的研究形成了3個(gè)聚類,分別圍繞“大數(shù)據(jù)開(kāi)發(fā)與挖掘”(紅色)、“大數(shù)據(jù)分析與管理”(藍(lán)色)、“大數(shù)據(jù)運(yùn)維與云計(jì)算”(綠色)這三個(gè)技術(shù)方向進(jìn)行研究。
3.1.1 聚類一:大數(shù)據(jù)的開(kāi)發(fā)與挖掘
這個(gè)類簇包含73個(gè)關(guān)鍵詞,其中系統(tǒng)(system)、框架(framework)、計(jì)算機(jī)應(yīng)用(applications)、算法(algorithm)、模型(model)、機(jī)器學(xué)習(xí)(machine learning)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks)這些詞的結(jié)點(diǎn)最大,是這個(gè)聚類的中心結(jié)點(diǎn)。而分布式計(jì)算系統(tǒng)(MapReduce)、數(shù)據(jù)融合(data fusion)、智慧農(nóng)業(yè)(smart farming)、數(shù)字醫(yī)療保健事業(yè)(digital health)、智能電網(wǎng)(smart grid)、清潔生產(chǎn)(cleaner production)、碳排放(CO2emissions)等詞,在該聚類的網(wǎng)絡(luò)邊緣。
從圖2還可以看出,系統(tǒng)一詞的結(jié)點(diǎn)最大,可見(jiàn)對(duì)于系統(tǒng)的開(kāi)發(fā)是大數(shù)據(jù)領(lǐng)域的一個(gè)研究熱點(diǎn)。大數(shù)據(jù)挖掘技術(shù)通過(guò)建模和構(gòu)造相關(guān)算法便于人們?cè)诤A繑?shù)據(jù)中獲取信息。其中,算法是由基本運(yùn)算和規(guī)定運(yùn)算順序構(gòu)成的運(yùn)算規(guī)則和步驟[5]。機(jī)器學(xué)習(xí)是對(duì)計(jì)算機(jī)模擬人類神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)行為的研究,計(jì)算機(jī)可以根據(jù)算法智能地進(jìn)行大數(shù)據(jù)挖掘與分析,從而構(gòu)建、豐富和完善自身知識(shí)網(wǎng)絡(luò)結(jié)構(gòu),并通過(guò)建立數(shù)據(jù)模型,實(shí)現(xiàn)對(duì)同類型數(shù)據(jù)的預(yù)測(cè)分析。深度學(xué)習(xí)是一種含多隱層的多層感知器,起源于機(jī)器學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)屬于深度學(xué)習(xí)的范疇[6]。而機(jī)器學(xué)習(xí)屬于人工智能的范疇,是人工智能的一個(gè)研究分支。在大數(shù)據(jù)時(shí)代,憑借大規(guī)模的數(shù)據(jù)信息,通過(guò)構(gòu)建數(shù)據(jù)模型,不斷改善人工智能對(duì)數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性,研究更加科學(xué)合理的數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)人類神經(jīng)網(wǎng)絡(luò)的模擬,構(gòu)造大數(shù)據(jù)網(wǎng)絡(luò)體系,從而獲取信息。隨著在采集、挖掘過(guò)程中的數(shù)據(jù)沉淀和積累,融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能和機(jī)器學(xué)習(xí)的大數(shù)據(jù)挖掘技術(shù)也不斷得到優(yōu)化。
近年來(lái),人們?cè)絹?lái)越重視大數(shù)據(jù)技術(shù)和以大數(shù)據(jù)技術(shù)為支撐的人工智能技術(shù)。根據(jù)調(diào)查,11.1%的企業(yè)對(duì)大數(shù)據(jù)技術(shù)和人工智能技術(shù)的累計(jì)投資超過(guò)5億美元,有84.1%的企業(yè)在大數(shù)據(jù)技術(shù)和人工智能方面已開(kāi)展工作[7]。可以預(yù)見(jiàn),這樣的趨勢(shì)在未來(lái)仍將繼續(xù)。大數(shù)據(jù)技術(shù)的應(yīng)用包括多個(gè)領(lǐng)域,如在農(nóng)業(yè)、醫(yī)療保健事業(yè)和電網(wǎng)技術(shù)等方面的應(yīng)用,此外,還可以看到,在大數(shù)據(jù)開(kāi)發(fā)、大數(shù)據(jù)挖掘這兩個(gè)技術(shù)方向的理論研究到技術(shù)落地的應(yīng)用研究過(guò)程中,對(duì)大數(shù)據(jù)技術(shù)的清潔生產(chǎn)和碳排放也很關(guān)注。從大數(shù)據(jù)、大環(huán)保到大治理,大數(shù)據(jù)技術(shù)在環(huán)境管理和決策過(guò)程中發(fā)揮了越來(lái)越重要的作用。
3.1.2 聚類二:大數(shù)據(jù)分析與管理
這個(gè)類簇包含49個(gè)關(guān)鍵詞,有大數(shù)據(jù)分析(big data analysis)、工業(yè)4.0(industry 4.0)、服務(wù)(service)、信息系統(tǒng)(information systems)、持續(xù)性(sustainability)、創(chuàng)新(innovation)、供應(yīng)鏈管理(supply chain management)等結(jié)點(diǎn)較大的詞,還有專業(yè)化生產(chǎn)系統(tǒng)(manufacturing systems)、數(shù)據(jù)科學(xué)(data science)、情感分析(sentiment analysis)、業(yè)務(wù)分析(business analytics)、競(jìng)爭(zhēng)優(yōu)勢(shì)(competitive advantage)、用戶認(rèn)可(user acceptance)等結(jié)點(diǎn)較小的詞。
大數(shù)據(jù)分析和管理技術(shù)與工業(yè)4.0的時(shí)代背景密切相關(guān)。工業(yè)4.0時(shí)代具有智能化、個(gè)性化、虛擬與現(xiàn)實(shí)相融合的特征[8]。人們的需求通過(guò)在網(wǎng)絡(luò)留下的數(shù)據(jù)信息表現(xiàn)出來(lái),通過(guò)大數(shù)據(jù)整合分析,可以實(shí)現(xiàn)產(chǎn)品生產(chǎn)和分發(fā)的定制化。社會(huì)生產(chǎn)朝著個(gè)性化定制、服務(wù)性產(chǎn)品和數(shù)據(jù)要素驅(qū)動(dòng)產(chǎn)業(yè)新業(yè)態(tài)和新模式創(chuàng)新的方向前進(jìn)和發(fā)展,企業(yè)在工業(yè)4.0時(shí)代需要應(yīng)用大數(shù)據(jù)分析和管理技術(shù),繪制目標(biāo)群體的用戶畫像,通過(guò)對(duì)數(shù)據(jù)加工、系統(tǒng)分析,實(shí)現(xiàn)從大數(shù)據(jù)到具體信息又到服務(wù)的轉(zhuǎn)化,進(jìn)而做出科學(xué)決策,獲得企業(yè)在自己產(chǎn)業(yè)領(lǐng)域的競(jìng)爭(zhēng)優(yōu)勢(shì)。此外,還有對(duì)大數(shù)據(jù)技術(shù)的績(jī)效評(píng)估和數(shù)據(jù)管理。信息數(shù)據(jù)的生產(chǎn)沒(méi)有盡頭,但是并非所有的數(shù)據(jù)都具有信息價(jià)值,也并非所有的數(shù)據(jù)都可以實(shí)現(xiàn)信息到服務(wù)的價(jià)值轉(zhuǎn)換,如何對(duì)數(shù)據(jù)進(jìn)行科學(xué)和可持續(xù)的管理以及對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),在工業(yè)4.0時(shí)代受到廣泛關(guān)注。
3.1.3 聚類三:大數(shù)據(jù)運(yùn)維與云計(jì)算
這個(gè)類簇包含52個(gè)關(guān)鍵詞,其中,互聯(lián)網(wǎng)(internet)、云計(jì)算(cloud computing)、物聯(lián)網(wǎng)(iot)、安全(security)、架構(gòu)(architecture)、區(qū)塊鏈技術(shù)(blockchain technology)、信息與通信技術(shù)(ict)是該聚類的中心結(jié)點(diǎn)。此外,處于網(wǎng)絡(luò)邊緣的結(jié)點(diǎn)主要有:數(shù)據(jù)共享(data sharing)、數(shù)據(jù)隱私(data privacy)、邊緣計(jì)算(edge computing)、霧計(jì)算(fog computing)、云(cloud)、智慧城市(smart city)等。
信息網(wǎng)絡(luò)系統(tǒng)與物理網(wǎng)絡(luò)信息系統(tǒng)進(jìn)行融合,出現(xiàn)物聯(lián)網(wǎng)、工業(yè)物聯(lián)網(wǎng)等新興概念。社交媒體每天都制造大量的數(shù)據(jù)信息?!段覀兙烤巩a(chǎn)生了多少數(shù)據(jù)?》一文曾預(yù)測(cè),到2055年全世界將產(chǎn)生高達(dá)175 ZB的數(shù)據(jù)[9]。分布式計(jì)算使企業(yè)可以更加方便快捷地處理社交媒體上規(guī)模巨大的數(shù)據(jù)信息,通過(guò)大數(shù)據(jù)應(yīng)用程序?qū)?shù)據(jù)進(jìn)行挖掘和分析,從而繪制用戶畫像,提供個(gè)性化的服務(wù)和服務(wù)性產(chǎn)品。在碎片化信息時(shí)代,數(shù)據(jù)也是碎片式的,如何面對(duì)這些碎片式的數(shù)據(jù)構(gòu)建數(shù)據(jù)模型是大數(shù)據(jù)技術(shù)發(fā)展應(yīng)用的一個(gè)挑戰(zhàn),并且在構(gòu)建數(shù)據(jù)模型的過(guò)程中,數(shù)據(jù)源并非全部真實(shí)可靠,有些信息涉及個(gè)人隱私或國(guó)家機(jī)密,難以獲取完整的數(shù)據(jù)信息,因此數(shù)據(jù)質(zhì)量難以保證。此外,互聯(lián)網(wǎng)帶來(lái)了數(shù)據(jù)的流動(dòng)共享,人們?cè)诨ヂ?lián)網(wǎng)中的所有行為都會(huì)留下數(shù)據(jù)信息印記,而數(shù)據(jù)信息的傳播不再受限于空間和時(shí)間,可以大量無(wú)成本擴(kuò)散,對(duì)數(shù)據(jù)的隱私保護(hù)與安全帶來(lái)巨大挑戰(zhàn)。同時(shí),數(shù)據(jù)的流動(dòng)共享還帶來(lái)數(shù)據(jù)泄露的風(fēng)險(xiǎn),無(wú)論從個(gè)人數(shù)據(jù)權(quán)利出發(fā)還是從國(guó)家數(shù)據(jù)利益出發(fā),都需要對(duì)數(shù)據(jù)流動(dòng)共享給予一定的限制。構(gòu)建大數(shù)據(jù)監(jiān)控報(bào)警體系,可以保證數(shù)據(jù)的可靠與安全。
人們的生活與互聯(lián)網(wǎng)的關(guān)聯(lián)程度比以往更加緊密,例如以數(shù)字化為特征的智慧城市建設(shè),實(shí)現(xiàn)數(shù)據(jù)信息安全是建設(shè)智慧城市的重要內(nèi)容和評(píng)價(jià)標(biāo)準(zhǔn)之一。根據(jù)美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院的統(tǒng)計(jì),云計(jì)算涉及的安全問(wèn)題主要在虛擬機(jī)隔離、數(shù)據(jù)保護(hù)、云計(jì)算體系結(jié)構(gòu)、身份訪問(wèn)與控制等多個(gè)方面[10]。云計(jì)算是以分布式計(jì)算為特征的技術(shù),通過(guò)云計(jì)算,各種數(shù)據(jù)和信息可以從一臺(tái)計(jì)算機(jī)提供給另一臺(tái)計(jì)算機(jī)。在云計(jì)算環(huán)境中,虛擬的操作系統(tǒng)建立在服務(wù)器上,數(shù)據(jù)信息都儲(chǔ)存在服務(wù)器中,比如用戶上傳的身份認(rèn)證信息。數(shù)據(jù)信息一旦被上傳到云中,用戶便不再擁有對(duì)數(shù)據(jù)的控制權(quán),一旦服務(wù)器遭到入侵,用戶數(shù)據(jù)就會(huì)被盜取,從而造成數(shù)據(jù)泄露。此外,區(qū)塊鏈技術(shù)與比特幣密切相關(guān),通過(guò)對(duì)數(shù)據(jù)的層層處理改變數(shù)據(jù)存儲(chǔ)形式,將區(qū)塊鏈技術(shù)應(yīng)用到數(shù)據(jù)隱私保護(hù)與安全,數(shù)據(jù)在網(wǎng)絡(luò)中的流動(dòng)將會(huì)更有保障。
使用VOSviewer軟件對(duì)2020—2021年大數(shù)據(jù)領(lǐng)域關(guān)鍵詞進(jìn)行演化分析,生成關(guān)鍵詞標(biāo)簽視圖(圖3)。視圖中結(jié)點(diǎn)的顏色表示關(guān)鍵詞出現(xiàn)的平均年份,結(jié)點(diǎn)的大小表示關(guān)鍵詞共現(xiàn)頻次的高低。從2015年到2021年顏色逐漸由藍(lán)到黃,從中可以看出大數(shù)據(jù)領(lǐng)域研究熱點(diǎn)的演變。
圖3 2015—2021年大數(shù)據(jù)領(lǐng)域關(guān)鍵詞標(biāo)簽視圖
圖3中,近幾年大數(shù)據(jù)研究的關(guān)鍵詞大多集中出現(xiàn)在2018年,有較高共現(xiàn)頻次的關(guān)鍵詞集中分布在2017—2018年。2015—2016年有關(guān)大數(shù)據(jù)的論文發(fā)表數(shù)量較少。由于大數(shù)據(jù)技術(shù)發(fā)展極快,相關(guān)的研究論文越來(lái)越多,到2021年大數(shù)據(jù)相關(guān)研究的論文數(shù)量從每年331篇增長(zhǎng)至2075篇,出現(xiàn)的高共現(xiàn)頻次的關(guān)鍵詞有:系統(tǒng)(system)、挑戰(zhàn)(challenges)、大數(shù)據(jù)分析(big data analysis)、物聯(lián)網(wǎng)(iot)、云計(jì)算(cloud computing)、工業(yè)4.0(industry 4.0)、框架(framework)、模型(model)、算法(algorithm)、機(jī)器學(xué)習(xí)(machine learning)、隱私(privacy)、區(qū)塊鏈技術(shù)(blockchain technology)??梢钥闯觯髷?shù)據(jù)分析、數(shù)據(jù)管理、數(shù)據(jù)模型、云計(jì)算的研究熱度比較高,是大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)。此外,2019—2021年間出現(xiàn)了邊緣計(jì)算(edge computing)、安全(security)、數(shù)據(jù)隱私(data privacy)、企業(yè)績(jī)效(firm performance)、數(shù)字雙胞胎(digital twin)、工業(yè)4.0(industry 4.0)、人工智能(artificial intelligence)、區(qū)塊鏈技術(shù)(blockchain technology)、循環(huán)經(jīng)濟(jì)(circular economy)等關(guān)鍵詞,對(duì)大數(shù)據(jù)技術(shù)的研究更加深入,理論研究的廣度和深度進(jìn)一步提高,從對(duì)單一技術(shù)到技術(shù)群,再到“技術(shù)+管理” “技術(shù)+運(yùn)維”,可以看出,數(shù)據(jù)安全與隱私保護(hù)方面的技術(shù)受到重視,相關(guān)技術(shù)的研究是近年來(lái)的新興熱點(diǎn)。
關(guān)鍵詞密度視圖可以對(duì)相關(guān)領(lǐng)域的研究重點(diǎn)予以可視化。通過(guò)對(duì)2020—2021年大數(shù)據(jù)領(lǐng)域關(guān)鍵詞密度視圖進(jìn)行熱力分析,可以了解大數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀。如圖4中,可以看出大數(shù)據(jù)分析(big data analytics)、系統(tǒng)(system)、機(jī)器學(xué)習(xí)(machine learning)、挑戰(zhàn)(challenge)、物聯(lián)網(wǎng)(iot)、工業(yè)4.0(industry 4.0)、云計(jì)算(cloud computing)這些詞的密度最高,可見(jiàn)大數(shù)據(jù)的開(kāi)發(fā)、挖掘、分析、管理、運(yùn)維與云計(jì)算這幾個(gè)技術(shù)方向的研究最受學(xué)者關(guān)注。
圖4 2020—2021年大數(shù)據(jù)領(lǐng)域關(guān)鍵詞密度視圖
對(duì)科技術(shù)語(yǔ)和高被引論文進(jìn)行統(tǒng)計(jì)分析并加以解讀,能夠了解學(xué)科領(lǐng)域的研究前沿和熱點(diǎn)。借助計(jì)量分析法以及科學(xué)知識(shí)圖譜分析,通過(guò)知識(shí)圖譜軟件VOSviewer對(duì)大數(shù)據(jù)領(lǐng)域2015—2021年高被引論文中的關(guān)鍵詞進(jìn)行可視化呈現(xiàn),并對(duì)其進(jìn)行共現(xiàn)分析解讀,最終得出如下結(jié)論:
(1)近年來(lái)大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)主要集中在三個(gè)方向。一是大數(shù)據(jù)開(kāi)發(fā)與挖掘。如大數(shù)據(jù)處理系統(tǒng)、應(yīng)用程序、建模、算法以及與大數(shù)據(jù)相關(guān)的數(shù)據(jù)庫(kù)技術(shù)、人工智能與機(jī)器學(xué)習(xí);二是大數(shù)據(jù)分析與管理。大數(shù)據(jù)并不是簡(jiǎn)單的建模、算法,也不只是對(duì)數(shù)據(jù)的挖掘整理,而是通過(guò)系統(tǒng)分析將數(shù)據(jù)轉(zhuǎn)化為信息,為國(guó)家、企業(yè)和個(gè)人做出科學(xué)決策提供依據(jù);三是大數(shù)據(jù)運(yùn)維和云計(jì)算技術(shù)。大數(shù)據(jù)是海量的,人們接收的數(shù)據(jù)信息與日俱增,與此同時(shí)每個(gè)人又都是大數(shù)據(jù)生產(chǎn)的參與者,人們的生活與大數(shù)據(jù)的聯(lián)系更加緊密,機(jī)構(gòu)與個(gè)人數(shù)據(jù)的隱私與安全越來(lái)越得到重視。
(2)大數(shù)據(jù)技術(shù)研究在推進(jìn)數(shù)字化社會(huì)的進(jìn)程中起到重要作用。大數(shù)據(jù)開(kāi)發(fā)與挖掘、大數(shù)據(jù)分析與管理、大數(shù)據(jù)運(yùn)維與云計(jì)算在數(shù)字化社會(huì)的建設(shè)進(jìn)程中必不可少。大數(shù)據(jù)開(kāi)發(fā)與挖掘的研究能夠推動(dòng)機(jī)器學(xué)習(xí)更加完善,促進(jìn)構(gòu)建智能化知識(shí)網(wǎng)絡(luò),推動(dòng)人工智能的發(fā)展;對(duì)云計(jì)算技術(shù)和區(qū)塊鏈技術(shù)的研究能夠?yàn)閿?shù)據(jù)安全提供保障,推動(dòng)智慧城市的建設(shè)。
(3)數(shù)字化、智能化、網(wǎng)絡(luò)化是大數(shù)據(jù)技術(shù)的未來(lái)發(fā)展方向,數(shù)據(jù)安全是大數(shù)據(jù)領(lǐng)域未來(lái)的研究熱點(diǎn)。從2015—2021年大數(shù)據(jù)領(lǐng)域高被引論文關(guān)鍵詞的演化分析也可以看到,近年來(lái),尤其是2019—2021年,隨著對(duì)數(shù)字技術(shù)研究的深入,學(xué)者對(duì)循環(huán)經(jīng)濟(jì)和數(shù)字安全更加重視,在數(shù)字化、智能化和網(wǎng)絡(luò)化的時(shí)代背景下,數(shù)據(jù)技術(shù)也朝數(shù)字化、智能化和網(wǎng)絡(luò)化的方向發(fā)展,數(shù)字安全是智慧城市的評(píng)價(jià)標(biāo)準(zhǔn),也是數(shù)字化社會(huì)的評(píng)價(jià)標(biāo)準(zhǔn)。數(shù)字安全將成為未來(lái)大數(shù)據(jù)領(lǐng)域的重要研究方向之一,相關(guān)的區(qū)塊鏈技術(shù)將成為研究熱點(diǎn)。