蔣健 舒暢
【摘要】:[目的/意義]對國內(nèi)大數(shù)據(jù)技術(shù)的研究成果進(jìn)行梳理與計量分析,有助于從不同角度了解注意研究狀況、發(fā)文情況,對后續(xù)的研究具有一定的參考價值。[方法/過程]本文利用共詞分析法、VOS viewer聚類分析、社會網(wǎng)絡(luò)分析等方法,研究關(guān)鍵詞之間的聯(lián)系,探討近年來大數(shù)據(jù)技術(shù)的前沿與熱點問題。[結(jié)果/結(jié)論]結(jié)果表明,近兩年國內(nèi)對于大數(shù)據(jù)技術(shù)的研究主要有數(shù)據(jù)挖掘和數(shù)據(jù)分析技術(shù),文章最后針對大數(shù)據(jù)技術(shù)和其應(yīng)用領(lǐng)域的研究現(xiàn)狀和未來研究方向
【關(guān)鍵詞】:大數(shù)據(jù) 共詞分析 多維尺度分析 VOS viewer
一引言
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等通信技術(shù)的快速發(fā)展,人類社會已進(jìn)入大數(shù)據(jù)時代。在國家政策的導(dǎo)向和信息技術(shù)自身發(fā)展的需求兩個作用下,以“大數(shù)據(jù)”維為主題的研究熱潮迅速引起。近年來,國內(nèi)外學(xué)者從各個層面各個角度基于“大數(shù)據(jù)”展開了激烈的討論與研究,也產(chǎn)生了很多有影響力的研究成果。為了更好的把握大數(shù)據(jù)的前沿動態(tài)與熱點領(lǐng)域,對“大數(shù)據(jù)”主題的研究成果進(jìn)行梳理和分析是很有必要的
本文從可視化角度,通過收集中國知網(wǎng)(CNKI)中以“大數(shù)據(jù)”為主題的高質(zhì)量期刊論文,利用文獻(xiàn)計量、共詞分析方法和多維尺度分析方法等對大數(shù)據(jù)技術(shù)領(lǐng)域的研究主題進(jìn)行梳理,揭示國內(nèi)該領(lǐng)域的前沿與熱點問題,以期揭示大數(shù)據(jù)技術(shù)的前沿動態(tài)和研究熱點,為大數(shù)據(jù)理論與應(yīng)用的深入研究提供一定的參考和借鑒。
二、數(shù)據(jù)來源與研究方法
(一)數(shù)據(jù)來源
為了得到可靠、準(zhǔn)確的數(shù)據(jù),本為選取CNKI學(xué)術(shù)期刊中以主題=“大數(shù)據(jù)技術(shù)的應(yīng)用” ,來源類別=“SCI來源期刊”or“CSSCI”or“核心期刊”的期刊論文為數(shù)據(jù)來源,得到291篇大數(shù)據(jù)領(lǐng)域的研究論文。
(二)研究方法
本文采用Endnote、VOS viewer、Excel作為研究工具,通過Endnote和Excel對數(shù)據(jù)進(jìn)行基礎(chǔ)分析,統(tǒng)計關(guān)鍵詞頻,構(gòu)建高頻關(guān)鍵詞共詞網(wǎng)絡(luò);SPSS對共詞矩陣進(jìn)行多維尺度分析,統(tǒng)計研究熱點;VOS viewer進(jìn)行社會網(wǎng)絡(luò)分析,探究研究方向。
三、大數(shù)據(jù)技術(shù)研究文獻(xiàn)計量分析
(一)詞頻分析
通過對文獻(xiàn)集中的關(guān)鍵字段進(jìn)行統(tǒng)計分析,從291篇論文中共提取816個關(guān)鍵詞。然后進(jìn)行數(shù)據(jù)篩選與清洗,由于本文主題是大數(shù)據(jù)技術(shù),故從關(guān)鍵詞中剔除“大數(shù)據(jù)”、“大數(shù)據(jù)技術(shù)”、“大數(shù)據(jù)時代”,得到詞頻統(tǒng)計不低于5的關(guān)鍵詞,詞頻分布具體如表1所示。通過對關(guān)鍵詞詞頻進(jìn)行統(tǒng)計分析,發(fā)現(xiàn)“數(shù)據(jù)挖掘”、“數(shù)據(jù)分析”、“電子政務(wù)”、“云計算”等大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域出現(xiàn)次數(shù)較多,這在一定程度上反映出大數(shù)據(jù)技術(shù)在這四個領(lǐng)域的應(yīng)用較為頻繁。
(二)高頻關(guān)鍵詞共詞矩陣
為了全面揭示大數(shù)據(jù)技術(shù)的結(jié)構(gòu)、研究熱點及研究動態(tài)。構(gòu)建了如表2的30*30的高頻詞共現(xiàn)矩陣(部分)。在共詞矩陣中,兩個關(guān)鍵詞共同出現(xiàn)次數(shù)越多,說明兩個關(guān)鍵詞聯(lián)系越緊密,越能體現(xiàn)主題的研究內(nèi)容。其中,矩陣對角線為關(guān)鍵詞的詞頻,上三角或下三角表示兩個關(guān)鍵共同出現(xiàn)的次數(shù)。
(三)多維尺度分析
一般來說,多維尺度分析比較適合用相異矩陣,為了避免高頻詞共現(xiàn)矩陣中詞頻差異過大導(dǎo)致多元分析受到影響,本文采用Ochiia系數(shù)法將共詞矩陣轉(zhuǎn)化為相關(guān)矩陣,繼而用1減去相關(guān)系數(shù),得到相異矩陣,在SPSS中進(jìn)行多維尺度分析,得到關(guān)鍵詞的多維尺度關(guān)系圖,如圖1所示。其中:
可以看出,大數(shù)據(jù)技術(shù)的應(yīng)用包括4個類團(tuán)。第一類:應(yīng)用于區(qū)域鏈、商業(yè)銀行、精準(zhǔn)扶貧、隱私保護(hù)等信息化建設(shè)。第二類:應(yīng)用于高校和互聯(lián)網(wǎng)的信息采集,人工智能技術(shù)逐漸引起重視。第三類:應(yīng)用于圖書館、智能電網(wǎng)、互聯(lián)網(wǎng)金融、電子政務(wù)的云計算技術(shù)。第四類:應(yīng)用于教育大數(shù)據(jù)、高校思想政治教育、數(shù)字出版的大數(shù)據(jù)平臺和數(shù)據(jù)處理技術(shù)
(四)社會網(wǎng)絡(luò)分析
在VOS viewer中,為了獲得使聚類結(jié)果更加精確細(xì)致,選取詞頻不低于2的關(guān)鍵詞進(jìn)行分析,通過篩選與梳理,剔除“策略”、“發(fā)展”等關(guān)鍵詞,合并“數(shù)據(jù)分析”、“大數(shù)據(jù)分析”等關(guān)鍵詞,獲得有效關(guān)鍵詞81個,生成高頻關(guān)鍵詞聚類圖如圖1。根據(jù)聚類結(jié)果,將高頻關(guān)鍵詞劃分為4類最為合適。第一類:包括產(chǎn)業(yè)融合、人工智能、共享經(jīng)濟、區(qū)域鏈、技術(shù)架構(gòu)、數(shù)據(jù)模型6個關(guān)鍵詞。主要涉及人工智能技術(shù)在產(chǎn)業(yè)融合與共享經(jīng)濟領(lǐng)域的應(yīng)用。第二類:包括互聯(lián)網(wǎng)金融、商業(yè)銀行、貿(mào)易流通、征信體系、轉(zhuǎn)型升級、金融業(yè)務(wù)、銀行7個關(guān)鍵詞。體現(xiàn)大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用。第三類:包括公共治理、國家治理、數(shù)據(jù)異化、數(shù)據(jù)治理、立法數(shù)據(jù)化5個關(guān)鍵詞。體現(xiàn)大數(shù)據(jù)在立法、公共治理方面的應(yīng)用,針對數(shù)據(jù)異化問題進(jìn)行數(shù)據(jù)處理,構(gòu)建電子政務(wù)體系。第四類:包括圖書館、數(shù)據(jù)采集、服務(wù)創(chuàng)新、知識服務(wù)、閱讀推廣、高校圖書館6個關(guān)鍵詞。體現(xiàn)大數(shù)據(jù)技術(shù)在圖書館建設(shè)中的數(shù)據(jù)采集、閱讀推廣以及服務(wù)創(chuàng)新方面的應(yīng)用。
四、結(jié)果分析
多維尺度分析和VOS viewer聚類分析的目的都是為了探索數(shù)據(jù)之間的近似程度,但是聚類分析更加側(cè)重于分組,而多維尺度分析的最終結(jié)果則是圖形,其形成的類團(tuán)有一定的主觀意愿影響。因此,二者結(jié)果略有不同但又大體一致。本文采用共詞分析方法,對文獻(xiàn)高頻關(guān)鍵詞進(jìn)行統(tǒng)計分析,從不同層次分析大數(shù)據(jù)技術(shù)的應(yīng)用,得出結(jié)論如下:
(1)多維尺度分析顯示,在不同的領(lǐng)域,大數(shù)據(jù)技術(shù)的技術(shù)手段略有不同,包括人工智能技術(shù)、云計算技術(shù)、信息化建設(shè)以及基于大數(shù)據(jù)平臺的數(shù)據(jù)處理技術(shù)。隨著信息社會的不斷發(fā)展,這些大數(shù)據(jù)技術(shù)逐漸成為了主流技術(shù)。所以未來關(guān)于這些技術(shù)的進(jìn)一步發(fā)展,在不同領(lǐng)域的應(yīng)用,依然是一個值得深入研究的課題。
(2)VOS viewer聚類顯示,目前大數(shù)據(jù)技術(shù)主要應(yīng)用于產(chǎn)業(yè)融合、互聯(lián)網(wǎng)金融、公共治理和圖書館4個方面。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,其應(yīng)用領(lǐng)域越來越寬泛,適用領(lǐng)域越來越多,下一步的研究重點應(yīng)該放在進(jìn)一步擴展大數(shù)據(jù)應(yīng)用領(lǐng)域,將大數(shù)據(jù)技術(shù)與專業(yè)領(lǐng)域完美結(jié)合,形成專業(yè)化大數(shù)據(jù)技術(shù)。
【參考文獻(xiàn)】:
【1】童子頤.國內(nèi)大數(shù)據(jù)研究熱點分析[J].情報探索,2015(07):38-41+46.
【2】王一博,郭鑫,王繼民.基于詞共現(xiàn)的大數(shù)據(jù)研究主題分析[J].圖書館論壇,2014,34(08):96-102.
【3】王宇燦,李一飛,袁勤儉.國際大數(shù)據(jù)研究熱點及前沿演化可視化分析[J].工程研究-跨學(xué)科視野中的工程,2014,6(03):282-293.
【4】陳紅琳,魏瑞斌,張瑋,張宇航.基于共詞分析的國內(nèi)文本情感分析研究[J].現(xiàn)代情報,2019,39(06):91-101.
【5】楊冰. 學(xué)習(xí)分析的研究熱點、主題與發(fā)展趨勢解析——基于共詞分析的可視化研究[A]. 教育部高等學(xué)校教育技術(shù)專業(yè)教學(xué)指導(dǎo)委員會.走向智慧時代的教育創(chuàng)新發(fā)展研究--第16屆教育技術(shù)國際論壇暨首屆智慧教育國際研討會論文集[C].教育部高等學(xué)校教育技術(shù)專業(yè)教學(xué)指導(dǎo)委員會:江蘇省教育信息化工程技術(shù)研究中心,2017:4.
作者簡介:
1.蔣健,男。(1998-),安徽財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,本科生,專業(yè):信息管理與信息系統(tǒng)
2.舒暢,女,(1998-),安徽財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,本科生,專業(yè):計算機科學(xué)與技術(shù)