国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國際大數(shù)據(jù)研究主題的可視化分析*

2014-10-12 02:55:02王一博郭鑫王繼民
數(shù)字圖書館論壇 2014年7期
關(guān)鍵詞:可視化聚類領(lǐng)域

王一博,郭鑫,王繼民

(1. 北方工業(yè)大學信息工程學院計算機系,北京 100144;2. 北京大學信息管理系,北京 100871)

國際大數(shù)據(jù)研究主題的可視化分析*

王一博1,郭鑫2,王繼民2

(1. 北方工業(yè)大學信息工程學院計算機系,北京 100144;2. 北京大學信息管理系,北京 100871)

隨著大數(shù)據(jù)時代的來臨,有關(guān)大數(shù)據(jù)的理論、技術(shù)、方法與應(yīng)用的研究已成為當前產(chǎn)、學、研的研究熱點。以Web of Science數(shù)據(jù)庫的文獻信息為數(shù)據(jù)源,對大數(shù)據(jù)領(lǐng)域的論文關(guān)鍵詞進行共詞分析,構(gòu)建高頻關(guān)鍵詞共現(xiàn)關(guān)系網(wǎng)絡(luò),可視化地展示該網(wǎng)絡(luò)的“核心-邊緣結(jié)構(gòu)”,通過聚類分析將這一領(lǐng)域的研究內(nèi)容劃分為14個類團,并利用戰(zhàn)略坐標圖揭示該領(lǐng)域的各個研究主題及其發(fā)展趨勢,以期為相關(guān)研究提供參考。

大數(shù)據(jù);數(shù)據(jù)可視化;社會網(wǎng)絡(luò)分析;聚類分析;戰(zhàn)略坐標圖

隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算技術(shù)的快速發(fā)展,以及視頻監(jiān)控、智能終端、應(yīng)用商店的普及,全球數(shù)據(jù)量出現(xiàn)了爆炸式增長。Gartner提出,目前半結(jié)構(gòu)和非結(jié)構(gòu)化的數(shù)據(jù),諸如文檔、表格、網(wǎng)頁、音頻、圖像和視頻等占全球網(wǎng)絡(luò)數(shù)據(jù)量的85%左右,大數(shù)據(jù)隱含著巨大的社會、經(jīng)濟和科研價值,并且整個互聯(lián)網(wǎng)絡(luò)體系架構(gòu)也將面臨革命性的改變[1]。

麥肯錫將大數(shù)據(jù)定義為:無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合[2]。大數(shù)據(jù)的特點通常用4個V來概括,即Volume(規(guī)模性)、Velocity(高速性)、Variety(多樣性)和Value(價值密度低),這被認為是大數(shù)據(jù)有別于傳統(tǒng)數(shù)據(jù)集的特征。在大量數(shù)據(jù)的背后,有復雜的定位、訪問、檢索、存取、交換等活動,現(xiàn)有的網(wǎng)絡(luò)環(huán)境、存儲及搜索條件,都難以適應(yīng)這種新的變化。隨著大數(shù)據(jù)的快速發(fā)展與進步,人類的生產(chǎn)生活方式正在發(fā)生根本性的變革[3]。

2012年3月,美國聯(lián)邦政府宣布投入2億多美元啟動大數(shù)據(jù)的研發(fā)任務(wù),并把大數(shù)據(jù)定義為和歷史上的互聯(lián)網(wǎng)、超級計算同等重要的國家戰(zhàn)略[4]。我國也對大數(shù)據(jù)的理論與應(yīng)用開展了深入系統(tǒng)的研究,目前大數(shù)據(jù)已經(jīng)滲透到社會經(jīng)濟各個層面,受到了各個學科的高度關(guān)注。因此,對國際范圍內(nèi)大數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀進行分析具有重要意義。本文基于Web of Science數(shù)據(jù)庫(WoS)中以“big data”為主題的論文題錄信息,通過聚類分析、社會網(wǎng)絡(luò)分析等方法,對國際范圍內(nèi)的大數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀和研究熱點進行可視化分析,以期為我國學者對大數(shù)據(jù)領(lǐng)域的深入研究提供參考和借鑒。

1 數(shù)據(jù)準備

1.1 數(shù)據(jù)收集

本文以美國科學情報研究所(Institute for Scientific Information,ISI) 出版的國際權(quán)威引文數(shù)據(jù)庫WoS(Web of Science with Conference Proceedings: SCI-EXPANDED;SSCI;A&HCI;CPCI-S;CPCI-SSH)為文獻信息源,以“主題”為檢索項,檢索式為“big data”,時間跨度為2009年-2014年,即近6年的文獻數(shù)據(jù),因為2009年之前論文較少(僅有52篇),且與目前意義的“大數(shù)據(jù)”含義不完全相同。檢索得到文獻1330篇。之后對數(shù)據(jù)進行篩選,除去錯檢項后,得到期刊文獻(包括Article,Article;Book Chapter,Article; Proceedings Paper)1113 篇,占文獻總數(shù)的83.68%。

1.2 數(shù)據(jù)清洗

關(guān)鍵詞是為了文獻標引工作從報告、論文中選取出來的用以表示全文主題內(nèi)容信息的單詞或術(shù)語。Web of Science論文的關(guān)鍵詞分兩種,一種是作者關(guān)鍵詞(DE字段),另一種是增補關(guān)鍵詞(ID字段)。增補關(guān)鍵詞是ISI根據(jù)參考文獻的標題中摘取的主題詞[5]。為了全面反映大數(shù)據(jù)領(lǐng)域主題的研究,本文采用了將二者相結(jié)合的辦法,即將兩種關(guān)鍵詞進行合并,并刪除重復的內(nèi)容。在本次研究中,有819篇文獻給出了作者關(guān)鍵詞,有531篇給出了增補關(guān)鍵詞,有373篇既有作者關(guān)鍵詞也有增補關(guān)鍵詞。對數(shù)據(jù)進行處理后,得到關(guān)鍵詞3,061個,累計頻次為3,975次。

隨后,筆者利用自己編寫的計算機程序,對下載的WoS題錄信息中的關(guān)鍵詞進行詞頻統(tǒng)計。人工去除主題過于寬泛的通用詞匯,如big data(大數(shù)據(jù))、component(組件)、algorithms(算法)等。此外,還需要對同義詞進行合并處理。主要通過詞頻統(tǒng)計表人工制定了一些映射規(guī)則,并利用計算機程序?qū)⒃撘?guī)則應(yīng)用于原題錄信息中的關(guān)鍵詞替換。部分映射規(guī)則如表1所示。

表1 映射規(guī)則(部分)

1.3 高頻關(guān)鍵詞

完成替換后,再次進行詞頻統(tǒng)計,并按照詞頻降序排列,取頻次大于4的50個詞作為高頻關(guān)鍵詞,部分關(guān)鍵詞的詞頻列表如表2所示。

1.4 共詞矩陣

共詞矩陣呈現(xiàn)的是詞與詞之間的共現(xiàn)次數(shù),根據(jù)表2所示的高頻關(guān)鍵詞列表,筆者利用計算機程序統(tǒng)計得到高頻關(guān)鍵詞的共現(xiàn)矩陣,部分結(jié)果如表3所示。

表3 高頻詞共現(xiàn)矩陣(部分)

在共詞矩陣中,對角線上的數(shù)值即為該詞出現(xiàn)的總頻次。

1.5 相關(guān)矩陣和相異矩陣

在實際共詞分析過程中,關(guān)鍵詞共現(xiàn)頻次受到各自詞頻大小的影響。為了消除初始共詞矩陣絕對值差異的影響,準確揭示關(guān)鍵詞之間的共現(xiàn)關(guān)系,本文利用Ochiia系數(shù)將共詞矩陣轉(zhuǎn)換為相關(guān)矩陣,結(jié)果如表4 所示。Ochiia系數(shù)的計算公式如下:

表2 高頻關(guān)鍵詞表(部分)

為方便處理,用“1”與相關(guān)矩陣中的各數(shù)值相減,得到表示兩詞之間相異程度的相異矩陣,結(jié)果如表5所示。

表4 相關(guān)矩陣(部分)

表5 相異矩陣(部分)

在相異矩陣中,數(shù)值接近1表示相異程度較高,數(shù)值接近0則表示相異程度較低。

2 可視化分析

2.1 關(guān)鍵詞共現(xiàn)的核心—邊緣結(jié)構(gòu)

關(guān)鍵詞共現(xiàn)矩陣可轉(zhuǎn)化為高頻關(guān)鍵詞之間的共現(xiàn)關(guān)系網(wǎng)絡(luò),在該網(wǎng)絡(luò)中,結(jié)點表示高頻關(guān)鍵詞,邊及其權(quán)值為關(guān)鍵詞的共現(xiàn)次數(shù)[6]。核心—邊緣結(jié)構(gòu)分析是根據(jù)網(wǎng)絡(luò)中結(jié)點之間聯(lián)系的緊密程度,將網(wǎng)絡(luò)中的結(jié)點分為兩個區(qū)域:核心區(qū)域和邊緣區(qū)域。處于核心區(qū)域的結(jié)點在網(wǎng)絡(luò)中占有比較重要的地位,核心—邊緣結(jié)構(gòu)分析的目的是研究社會網(wǎng)絡(luò)中哪些結(jié)點處于核心地位, 哪些結(jié)點處于邊緣位置,它是對網(wǎng)絡(luò)“位置”結(jié)構(gòu)進行量化的分析[7,8]?;诒?得到的關(guān)鍵詞共現(xiàn)關(guān)系網(wǎng)絡(luò),利用社會網(wǎng)絡(luò)分析軟件UCINET和Pajek進行核心—邊緣網(wǎng)絡(luò)結(jié)構(gòu)的計算和呈現(xiàn),結(jié)果如圖1所示。

圖1顯示:有10個關(guān)鍵詞處于核心位置,包括big data analysis(大數(shù)據(jù)分析)、Hadoop、MapReduce、data visualization(數(shù)據(jù)可視化)、cloud computing(云計算)、storage(存儲)、clustering(聚類)、performance(性能)、data mining(數(shù)據(jù)挖掘)、privacy(隱私)。在這些核心關(guān)鍵詞中,結(jié)點度值最大且相連邊的權(quán)值最大的關(guān)鍵詞都是cloud computing(云計算)。統(tǒng)計顯示:平均每個核心關(guān)鍵詞出現(xiàn)在63.3篇文獻中??梢哉f,這10個核心關(guān)鍵詞在大數(shù)據(jù)研究領(lǐng)域占有比較重要的位置。

2.2 聚類結(jié)果分析

根據(jù)數(shù)據(jù)對象的特征屬性,聚類分析可將數(shù)據(jù)對象集合劃分為若干個不同的類團或簇,使得同一類團中的數(shù)據(jù)對象具有較大的相似性,不同類團中的數(shù)據(jù)對象具有較大的相異性[9]。將相異矩陣導入統(tǒng)計分析軟件SPSS中進行層次聚類,得到聚類結(jié)果。根據(jù)聚類樹狀圖,在閾值為9.5處進行劃分,可將這50個高頻詞分成14個詞團,個別英文詞過長無法在SPSS聚類圖中顯示,故刪去這些詞后的少許字母,聚類結(jié)果如圖2所示。

為使結(jié)果呈現(xiàn)更加直觀,筆者將部分關(guān)鍵詞譯為中文,具體如下文所示:

K1:性能,高性能計算;

K2:元數(shù)據(jù)、數(shù)據(jù)安全、存儲、HDFS(Hadoop分布式文件系統(tǒng));

圖1 核心-邊緣結(jié)構(gòu)圖

圖2 聚類結(jié)果圖

K3:隱私、匿名化、并行計算、架構(gòu)、數(shù)據(jù)管理;

K4:社會媒體、Twitter;

K5:大數(shù)據(jù)分析、大數(shù)據(jù)預測、教育、供應(yīng)鏈管理;

K6:數(shù)據(jù)庫、NoSQL(非關(guān)系型的數(shù)據(jù)庫);

K7:聚類、GPU(圖形處理器)、PCA(主成分分析);

K8:基因組學、生物信息學、分類;

K9:云計算、Hadoop(分布式系統(tǒng)基礎(chǔ)架構(gòu))、MapReduce(一種編程模型)、最優(yōu)化;

K10:可伸縮性、HBase(分布式存儲系統(tǒng))、本體、RDF(資源描述框架);

K11:分布式計算、設(shè)計、實驗;

K12:數(shù)據(jù)可視化、數(shù)據(jù)挖掘、機器學習、社會網(wǎng)絡(luò)、時間序列、決策、商業(yè)智能、文本挖掘;

K13:eScience、移動計算、數(shù)據(jù)集、OpenFlow(一種新型網(wǎng)絡(luò)交換模型);

K14:互聯(lián)網(wǎng)、物聯(lián)網(wǎng)。

2.3 戰(zhàn)略坐標圖

戰(zhàn)略坐標圖可以概括地展現(xiàn)一個領(lǐng)域的結(jié)構(gòu),它把每一個研究主題放置到一個坐標系的四個象限中,進而描述各主題內(nèi)部的聯(lián)系情況和各主題間的相互影響的情況。該坐標系的橫軸表示向心度,縱軸表示密度[9],所有的主題詞團都將劃分到四個象限中。

對詞團密度和向心度的計算有不同的方法,本文采用的計算公式為:

其中,Eij是關(guān)鍵詞i和關(guān)鍵詞j共現(xiàn)的次數(shù),K代表通過聚類分析得到的某一詞團,n是該詞團所含關(guān)鍵詞的數(shù)目。

根據(jù)3.2節(jié)得到的聚類結(jié)果和高頻詞共現(xiàn)矩陣,利用上述計算公式,對每個詞團的密度和向心度進行計算。隨后,利用SPSS軟件對計算結(jié)果進行Z-score規(guī)范化,并根據(jù)規(guī)范化結(jié)果繪制戰(zhàn)略坐標圖,結(jié)果如圖3所示。

從戰(zhàn)略坐標圖3可以看出, 第一象限包括K1、K5和K9三個詞團,第二象限僅包含K14詞團,其他詞團均位于第三象限。

圖3 戰(zhàn)略坐標圖

K1詞團主要研究的是高性能計算。雖然大數(shù)據(jù)技術(shù)得到了快速的發(fā)展,但仍然面臨著許多問題。比如,大數(shù)據(jù)的存儲和處理都給計算機系統(tǒng)帶來沉重的負荷,傳統(tǒng)的計算方式已經(jīng)不能適應(yīng)大數(shù)據(jù)的處理。而高性能計算能夠有效降低海量數(shù)據(jù)處理系統(tǒng)的壓力,提高系統(tǒng)運行效率??梢哉f,高性能計算完美契合了大數(shù)據(jù)在運算能力、高性能存儲等方面的需求。K5詞團研究的是大數(shù)據(jù)的應(yīng)用。業(yè)界普遍認為,“大數(shù)據(jù)”擁有“大價值”。使用大數(shù)據(jù)進行商業(yè)分析、趨勢預測,以及在供應(yīng)鏈管理方面的應(yīng)用,成為許多學者關(guān)注的問題。K9詞團主要研究的是大數(shù)據(jù)的處理工具與技術(shù)。云計算和大數(shù)據(jù)具有緊密的聯(lián)系,云計算為大數(shù)據(jù)提供了基礎(chǔ)架構(gòu)平臺,大數(shù)據(jù)的處理和應(yīng)用可在這個平臺上運行?;贛apReduce框架開發(fā)的Hadoop則是現(xiàn)今公認的處理大數(shù)據(jù)最有效的工具。

從戰(zhàn)略坐標圖中可以看到,K9這一詞團無論是密度還是向心度都遠高于其他詞團,這也就意味著該詞團內(nèi)部聯(lián)系緊密,且與其余各詞團有廣泛的聯(lián)系??梢哉J為,大數(shù)據(jù)研究工具Hadoop和云計算處理技術(shù)是大數(shù)據(jù)領(lǐng)域最為核心的研究內(nèi)容。根據(jù)核心—邊緣的分析結(jié)果,云計算、Hadoop和MapReduce都屬于核心關(guān)鍵詞,這也印證了核心地位。除此之外,大數(shù)據(jù)的應(yīng)用方式和高性能計算也是大數(shù)據(jù)領(lǐng)域較為核心的研究內(nèi)容。

K14詞團研究的是物聯(lián)網(wǎng)。物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng)絡(luò),其用戶端延伸和擴展到了任何物品與物品之間,進行信息交換和通信。同時,物聯(lián)網(wǎng)的數(shù)據(jù)幾乎都是半結(jié)構(gòu)化甚至是非結(jié)構(gòu)化的,并且增長率非常高。作為大數(shù)據(jù)的重要來源,物聯(lián)網(wǎng)已經(jīng)得到了許多學者的關(guān)注。從戰(zhàn)略坐標圖可以看到,K14詞團密度較高,向心度略低,這意味著對于物聯(lián)網(wǎng)本身的研究已相對成熟。

剩余幾個詞團的向心度和密度都比較低,處于大數(shù)據(jù)研究領(lǐng)域的邊緣位置,尚未成熟。比如,K3詞團研究的是大數(shù)據(jù)帶來的隱私問題,K10研究的是大數(shù)據(jù)的信息表示問題。此外,還有一些研究主題是大數(shù)據(jù)在某些具體領(lǐng)域中的應(yīng)用,比如K4詞團研究了大數(shù)據(jù)在社交網(wǎng)絡(luò)中的應(yīng)用,K8詞團研究了大數(shù)據(jù)在醫(yī)療領(lǐng)域中的應(yīng)用,等等。

3 結(jié)語

本文基于WoS收錄的有關(guān)大數(shù)據(jù)(Big data)的研究論文,利用社會網(wǎng)絡(luò)分析、聚類分析、戰(zhàn)略坐標圖等研究方法,通過可視化手段對國際范圍內(nèi)大數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀進行分析和解讀,揭示了該領(lǐng)域若干研究主題及其發(fā)展現(xiàn)狀。研究結(jié)果顯示,大數(shù)據(jù)的處理技術(shù)與工具如云計算技術(shù)、物聯(lián)網(wǎng)技術(shù)、MapReduce、Hadoop、大數(shù)據(jù)分析與預測、高性能計算等研究主題是大數(shù)據(jù)領(lǐng)域的核心研究內(nèi)容。

基于文獻信息對大數(shù)據(jù)研究主題進行預測是本文下一步分析的重點內(nèi)容。

[1] 陳如明.大數(shù)據(jù)時代的挑戰(zhàn):價值與應(yīng)對策略[J].移動通信,2012(17):14-15.

[2] 嚴霄鳳,張德馨.大數(shù)據(jù)研究[J].計算機技術(shù)與發(fā)展,2013(4):168-172.

[3] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(1):146-169.

[4] 李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012(6):647-657.

[5] 朱慶華,彭希羨,劉璇.基于共詞分析的社會計算領(lǐng)域的研究主題[J].情報理論與實踐,2012(12):7-11.

[6] 岳洪江,劉思峰.國外管理學博士論文研究主題的可視化分析[J].科學學與科學技術(shù)管理,2008,29(3):91-94.

[7] 張世怡,劉春茂.中文網(wǎng)站社會網(wǎng)絡(luò)分析方法的實證研究[J].情報科學,2011(2):246-252.

[8] 劉軍.整體網(wǎng)分析講義:UCINET軟件實用指南[M].格致出版社,2009.

[9] HAN Jiawei, KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,等譯.北京:機械工業(yè)出版社,2007.

Visualization Analysis of the Achievements in International Big Data Domain

WANG YiBo1, GUO Xin2, WANG JiMin2
(1. College of Information Engineering, North China University of Technology, Beijing 100144, China;2. Department of Information Management, Peking University, Beijing 100871, China)

With the explosion of Internet data, the era of big data is coming. Taking WoS (Web of Science) as data source, this paper analyzes the key words of big data domain through co-word analysis, and determines periphery structure of co-word network by using social network analysis, which visually shows co-word network.We divide the research topic of this field into 14 groups by applying clustering analysis, and reveal the core research topics of big data field by combining with strategic diagram, thus to provide some experience and reference in theory and application of big data.

Big data; Visualization analysis; Social network analysis; Clustering analysis; Strategy coordinate diagram

2014-06-17)

G350

10.3772/j.issn.1673—2286.2014.07.009

*本研究得到北京市科技計劃項目“科學知識圖譜方法在新興產(chǎn)業(yè)發(fā)展態(tài)勢分析中的應(yīng)用研究”(編號:ZI21108002212058)資助。

王一博,男,1992年生,北方工業(yè)大學信息工程學院計算機系本科生。

郭鑫,男,1992年生,北京大學信息管理系本科生。

王繼民,男,1966年生,北京大學信息管理系副教授,研究方向:文本信息處理、Web挖掘、復雜網(wǎng)絡(luò)等,通訊作者,E-mail:wjm@pku.edu.cn。

猜你喜歡
可視化聚類領(lǐng)域
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
領(lǐng)域·對峙
青年生活(2019年23期)2019-09-10 12:55:43
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于改進的遺傳算法的模糊聚類算法
新常態(tài)下推動多層次多領(lǐng)域依法治理初探
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
法库县| 黔西县| 宜春市| 梅河口市| 岳池县| 浦城县| 谢通门县| 泰宁县| 鄂温| 孟村| 益阳市| 尚义县| 大悟县| 双流县| 类乌齐县| 镇江市| 武宁县| 广宁县| 临清市| 广丰县| 西平县| 邹城市| 阳春市| 丰顺县| 分宜县| 泰宁县| 新闻| 格尔木市| 武穴市| 临西县| 藁城市| 麻栗坡县| 卓资县| 台山市| 酒泉市| 南安市| 西和县| 时尚| 科尔| 安西县| 合江县|