收稿日期:2023-08-19
DOI:10.19850/j.cnki.2096-4706.2024.06.022
摘? 要:在“數(shù)據(jù)爆炸”的當(dāng)代,數(shù)據(jù)的價(jià)值與日俱增,數(shù)據(jù)創(chuàng)造價(jià)值,數(shù)據(jù)科學(xué)作為一門目前全國(guó)最火爆的學(xué)科,其目的是從大量數(shù)據(jù)中提取出有價(jià)值的信息用于生產(chǎn)活動(dòng)。文章基于CiteSpace采用文獻(xiàn)計(jì)量法,對(duì)CNKI和Web of Science兩大通用主流文獻(xiàn)庫(kù)進(jìn)行分析,總結(jié)了數(shù)據(jù)科學(xué)領(lǐng)域國(guó)內(nèi)外近十五年研究熱點(diǎn)與技術(shù)前沿的推進(jìn)情況。研究結(jié)果顯示,該領(lǐng)域的當(dāng)前熱點(diǎn)有卷積神經(jīng)網(wǎng)絡(luò)等,其熱點(diǎn)算法有分類算法,如支持向量機(jī),熱點(diǎn)框架有PaddlePaddle等。文章還比較了近年國(guó)內(nèi)外機(jī)器學(xué)習(xí)研究的側(cè)重與發(fā)展規(guī)模,積極探討了數(shù)據(jù)科學(xué)基礎(chǔ)技術(shù)的研究熱點(diǎn),為該領(lǐng)域今后研究提供了方向借鑒。
關(guān)鍵詞:CiteSpace;數(shù)據(jù)科學(xué);機(jī)器學(xué)習(xí);熱點(diǎn)前沿;文獻(xiàn)計(jì)量法
中圖分類號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2024)06-0095-08
Research Hotspot and Advance of the Frontier of Data Science at Home and Abroad
—Visualization Analysis of CNKI and WOS Literature Based on CiteSpace
ZHANG Jinquan
(School of Information and Communications Engineering, University of Electronic Science and Technology of China,
Chengdu? 611731, China)
Abstract: In the modern era of “data explosion”, the value of data is increasing day by day, and data creates value. Data science, as the most popular subject in China, aims to extract valuable information from a large number of data for production activities. In this paper, based on CiteSpace, the bibliometrics method is used to analyze two general mainstream bibliothems, CNKI and Web of Science, and summarize the advancement of research hotspots and technological frontiers in the field of Data Science at home and abroad in the past 15 years. The research results show that the current hotspots in this field include Convolutional Neural Networks, hotspot algorithms include classification algorithms such as Support Vector Machines, and hotspot frameworks include PaddlePaddle and so on. This paper also compares the focus and development scale of Machine Learning research at home and abroad in recent years, and actively discusses the research hotspot of Data Science basic technology, and provides a reference for future research in this field.
Keywords: CiteSpace; Data Science; Machine Learning; hot frontier; bibliometric method
0? 引? 言
近年來(lái),“大數(shù)據(jù)”逐漸成為大眾耳熟能詳?shù)臒衢T詞匯。當(dāng)“大數(shù)據(jù)”依次取代“信息”成為一個(gè)新時(shí)代的標(biāo)志[1],大數(shù)據(jù)的價(jià)值和重要性也被越來(lái)越多人認(rèn)知。“數(shù)據(jù)科學(xué)”作為一門應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的多學(xué)科多技術(shù)融合的新興學(xué)科[2],其實(shí)很早就被提及。在20世紀(jì)60年代,“數(shù)據(jù)科學(xué)”一詞就已經(jīng)出現(xiàn)[3],但直到20世紀(jì)90年代,才有了它準(zhǔn)確的名稱——“Data Science”[4]。目前,我國(guó)在數(shù)據(jù)科學(xué)領(lǐng)域的研究方興未艾,國(guó)外同領(lǐng)域則有著較為深入的研究。同時(shí),作為數(shù)據(jù)科學(xué)門下的一個(gè)分支,也是如今非常流行的一種機(jī)器學(xué)習(xí),深度學(xué)習(xí)開始盛行并逐漸成為統(tǒng)計(jì)學(xué)領(lǐng)域一種重要模型建立理念。深度學(xué)習(xí)的概念起初由多倫多大學(xué)的Hinton教授于2006年提出[5]。此后的同一年里,該教授和他的學(xué)生又提出關(guān)于深度學(xué)習(xí)的另一觀點(diǎn):含多隱層的人工神經(jīng)網(wǎng)絡(luò)具有很優(yōu)秀的特征學(xué)習(xí)能力,甚至可以對(duì)處理后的數(shù)據(jù)有更加直觀的展示,最終得到的網(wǎng)絡(luò)數(shù)據(jù)更有利于分類或可視化;通過(guò)研究國(guó)內(nèi)外機(jī)器學(xué)習(xí)成果,有助于我們反映數(shù)據(jù)科學(xué)的發(fā)展情況,為前沿發(fā)展方向提供新思路。
數(shù)據(jù)科學(xué)的實(shí)際操作便是對(duì)大量數(shù)據(jù)進(jìn)行處理,提取得到可以使用的有價(jià)值信息。海量數(shù)據(jù)的復(fù)雜性和快速變化給人們檢索提取有效信息帶來(lái)了困難,由此可視化方法應(yīng)運(yùn)而生[6]。目前,國(guó)際上被廣泛使用的可視化軟件眾多,如Thomson Reuters公司開發(fā)的Pajek [7],陳超美教授團(tuán)隊(duì)開發(fā)的CiteSpace [8]等。文章基于文獻(xiàn)計(jì)量法對(duì)數(shù)據(jù)科學(xué)(深度學(xué)習(xí))相關(guān)的論文文獻(xiàn)進(jìn)行分析,其中包括但不限于關(guān)鍵詞聚類分析、共現(xiàn)分析、突變分析等。通過(guò)梳理重要主題及進(jìn)展,以期為數(shù)據(jù)科學(xué)的相關(guān)研究熱點(diǎn)與前沿提供參考。
1? 基本概念
數(shù)據(jù)科學(xué)、人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)經(jīng)常被科研學(xué)者提及,但事實(shí)上,這些概念經(jīng)常被混淆,雖然它們的邊界確實(shí)具有一定的模糊性,但其側(cè)重的關(guān)鍵點(diǎn)卻不盡相同,如圖1所示(來(lái)源:Towards Data Science)。在此,文章給出一些非權(quán)威但仍具參考價(jià)值的定義。
圖1? 數(shù)據(jù)科學(xué)交叉學(xué)科知識(shí)簡(jiǎn)圖
數(shù)據(jù)科學(xué)側(cè)重于產(chǎn)生見解。在伯克利確立開設(shè)的數(shù)據(jù)科學(xué)本科項(xiàng)目中,學(xué)校對(duì)項(xiàng)目給出了如下解釋:數(shù)據(jù)科學(xué)學(xué)位項(xiàng)目結(jié)合了計(jì)算推理與推導(dǎo),以某些現(xiàn)實(shí)生活中的數(shù)據(jù)為基礎(chǔ)得到結(jié)論。數(shù)據(jù)科學(xué)家來(lái)源于社會(huì)中的所有領(lǐng)域,所有的研究范疇和各種不同的背景。他們通過(guò)數(shù)學(xué)和科學(xué)的思維以及計(jì)算編程的力量去理解并解決商業(yè)和社會(huì)方向的問(wèn)題。數(shù)據(jù)科學(xué)的目標(biāo)與人類的目標(biāo)尤為契合:去獲取見解和理解力。
例如,數(shù)據(jù)科學(xué)家可能會(huì)使用一些簡(jiǎn)單的工具:他們計(jì)算報(bào)告百分比,并根據(jù)SQL查詢制作線性圖。他們也可以使用非常復(fù)雜的方法:使用分布式數(shù)據(jù)存儲(chǔ)來(lái)分析數(shù)以萬(wàn)億計(jì)的數(shù)據(jù)記錄,開發(fā)尖端的統(tǒng)計(jì)技術(shù),并構(gòu)建交互式可視化模型。無(wú)論他們使用什么,目標(biāo)都是更好地解讀他們的數(shù)據(jù)。
人工智能,可謂稱得上是當(dāng)下最為熱門的科學(xué)開拓領(lǐng)域。特別是21世紀(jì)20年代OpenAI公司開發(fā)的ChatGPT,推動(dòng)了人工智能領(lǐng)域研究新的熱潮??偟膩?lái)說(shuō),人工智能可以稱得上是計(jì)算機(jī)科學(xué)的一個(gè)子集?!叭斯ぶ悄堋钡母拍钫Q生于20世紀(jì)60年代,它的設(shè)計(jì)目的是為了解決對(duì)人類而言相對(duì)較為困難卻對(duì)計(jì)算機(jī)較為容易的工作[9]。詳細(xì)來(lái)說(shuō),一般認(rèn)為強(qiáng)人工智能應(yīng)該能做人類所能做的任何事。其中包括但不限于制訂規(guī)劃、到處移動(dòng)、識(shí)別物體與聲音、說(shuō)話、翻譯、商業(yè)辦公、繪畫、作曲等。
機(jī)器學(xué)習(xí)被認(rèn)為是人工智能的一方面:給定一些可用離散術(shù)語(yǔ)描述的人工智能問(wèn)題,并給出關(guān)于這個(gè)世界的大量信息,在沒有程序員進(jìn)行編程的情況下弄清楚“正確”的行為。典型的是,需要一些外部流程判斷行為是否正確。在數(shù)學(xué)術(shù)語(yǔ)中,也就是函數(shù):饋入輸入,產(chǎn)生正確的輸出。所以整個(gè)問(wèn)題就是以自動(dòng)化的方式建立該數(shù)學(xué)函數(shù)的模型。機(jī)器學(xué)習(xí)涵蓋了多種算法與技術(shù),如樸素貝葉斯、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、Ensembles、關(guān)聯(lián)規(guī)則、決策樹、邏輯回歸等[10]。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)細(xì)微的研究方向,它源于對(duì)神經(jīng)網(wǎng)絡(luò)的研究,即通過(guò)海量數(shù)據(jù)用以訓(xùn)練從而構(gòu)建相關(guān)模型來(lái)學(xué)習(xí)特征數(shù)據(jù),深度學(xué)習(xí)能夠發(fā)現(xiàn)大數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)。其中,較常用的模型或算法有自動(dòng)編碼器、限制波爾茲曼機(jī)、深信度網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。
2? 研究設(shè)計(jì)
2.1? 數(shù)據(jù)來(lái)源
分析使用的原始數(shù)據(jù)主要來(lái)自CNKI(知網(wǎng))及Web of Science平臺(tái)上的核心數(shù)據(jù)庫(kù),包括SSCI、ESCI等。為確保研究文獻(xiàn)的客觀性和科學(xué)性,國(guó)內(nèi)外資料的收集分別選取了“數(shù)據(jù)科學(xué)”“機(jī)器學(xué)習(xí)”和
“Data Science”“Machine Learning”“Datafication”。時(shí)間跨度則為過(guò)去十五年(2007—2023年),篩選得到了累計(jì)82 164條檢索結(jié)果,選擇導(dǎo)出格式為全著錄格式分次導(dǎo)入,作為研究分析的源文件。
2.2? 研究方法與工具
使用文獻(xiàn)計(jì)量法,搜集數(shù)據(jù)庫(kù)的文獻(xiàn)數(shù)據(jù),對(duì)其進(jìn)行除重清晰,并以不同的視角進(jìn)行計(jì)量分析,并以可視化的圖譜用以輔助分析和直觀表達(dá)。使用到的知識(shí)圖譜工具為陳超美教授開發(fā)的CiteSpace,該工具在過(guò)去的十幾年里已被廣泛應(yīng)用于科學(xué)文獻(xiàn)的計(jì)量領(lǐng)域。文章試圖基于CiteSpace挖掘數(shù)據(jù)科學(xué)領(lǐng)域的時(shí)空分布、研究熱點(diǎn)及研究前沿。
2.3? 研究流程
如圖2所示,研究流程具體可表示為以下三個(gè)步驟。首先,對(duì)數(shù)據(jù)樣本進(jìn)行文獻(xiàn)計(jì)量分析并通過(guò)CiteSpace軟件進(jìn)行網(wǎng)絡(luò)圖譜的多維分析,從時(shí)空等多重維度,初步了解國(guó)內(nèi)外深度學(xué)習(xí)研究熱點(diǎn)的基本情況;其次,對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行Keyword(關(guān)鍵詞)分析,從可視化的角度展示出數(shù)據(jù)科學(xué)領(lǐng)域當(dāng)前的熱點(diǎn)分析和前沿推進(jìn);最后,探討對(duì)比國(guó)內(nèi)外深度學(xué)習(xí)的研究,并做出總結(jié)展望。
3? 研究熱點(diǎn)基本情況
文章對(duì)數(shù)據(jù)科學(xué)領(lǐng)域的研究熱點(diǎn)進(jìn)行分析。基于某領(lǐng)域的研究熱點(diǎn)通常是指在某一時(shí)期該領(lǐng)域發(fā)表文獻(xiàn)中出現(xiàn)的高頻次、高中心度和高強(qiáng)度的主題詞。根據(jù)共詞分析法,文章基于數(shù)據(jù)科學(xué)領(lǐng)域近十五年的文獻(xiàn)繪制關(guān)鍵詞共現(xiàn)圖譜,并統(tǒng)計(jì)其中的高頻關(guān)鍵詞,明確近十五年(2007—2023年)數(shù)據(jù)科學(xué)領(lǐng)域的研究熱點(diǎn),進(jìn)而分析其推進(jìn)進(jìn)程。
數(shù)據(jù)科學(xué)領(lǐng)域關(guān)鍵詞共現(xiàn)知識(shí)圖譜中共有節(jié)點(diǎn)
N(753)個(gè),連線E(1 696)條,中心度Density=
0.006。依據(jù)分析結(jié)果,近十五年數(shù)據(jù)科學(xué)(涵蓋機(jī)器學(xué)習(xí))的研究熱點(diǎn)(火熱程度依次遞減)主要為大數(shù)據(jù)、人工智能、深度學(xué)習(xí)、數(shù)據(jù)挖掘、課程培養(yǎng)、情感分析、隨機(jī)森林、知識(shí)圖譜、神經(jīng)網(wǎng)絡(luò)、算法、統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析、可視化、云計(jì)算、學(xué)習(xí)分析、預(yù)測(cè)等。
通過(guò)對(duì)于關(guān)鍵詞的聚類處理,出現(xiàn)了11個(gè)類別。其中最大群集(#0)有8個(gè)成員,輪廓值為0.84。其聚類標(biāo)簽為機(jī)器學(xué)習(xí)。第二大聚類群集(#1)有9個(gè)成員,輪廓值為0.823。它被LLR算法標(biāo)記為大數(shù)據(jù)。
以此類推,聚類標(biāo)簽依次為機(jī)器學(xué)習(xí)、大數(shù)據(jù)、人工智能、數(shù)據(jù)科學(xué)、知識(shí)圖譜、情感分析、信息抽取、數(shù)據(jù)挖掘、金融科技、復(fù)雜網(wǎng)絡(luò)、學(xué)習(xí)科學(xué)。將這些熱點(diǎn)詞進(jìn)行逐一整理,以找出近十五年的研究熱點(diǎn)。
在最近的十五年范圍內(nèi),數(shù)據(jù)科學(xué)領(lǐng)域流行的熱門詞匯的呈現(xiàn)結(jié)果如表1所示。
分析如下:
表中排名第一的熱點(diǎn)詞匯為大數(shù)據(jù)。海量、高增長(zhǎng)率和多樣化大數(shù)據(jù)的信息篩查和有效價(jià)值提取離不開新的數(shù)據(jù)處理模式。在國(guó)內(nèi),大數(shù)據(jù)與數(shù)據(jù)科學(xué)被劃分為一門高校開設(shè)的本科專業(yè)名稱。對(duì)于數(shù)據(jù)科學(xué)的檢索,大數(shù)據(jù)詞匯屢屢被提及。同時(shí),作為21世紀(jì)20年代以來(lái)的新興技術(shù),大數(shù)據(jù)成為包括數(shù)據(jù)科學(xué)在內(nèi)的各大領(lǐng)域的研究熱點(diǎn)。
表中排名第二的詞匯為機(jī)器學(xué)習(xí)。在前文中已經(jīng)對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)做了一定程度上的定義區(qū)分。機(jī)器學(xué)習(xí)與熱點(diǎn)排名第十的算法等均有一些相關(guān)性。對(duì)于數(shù)據(jù)科學(xué)中數(shù)據(jù)的處理,升維降維等,均需要機(jī)器學(xué)習(xí)的算法原理與技術(shù)支撐。直白來(lái)說(shuō),數(shù)據(jù)科學(xué)離不開機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)的發(fā)展是數(shù)據(jù)科學(xué)的基礎(chǔ)支撐。
表1? 2007—2023年數(shù)據(jù)科學(xué)領(lǐng)域文獻(xiàn)高頻關(guān)鍵詞統(tǒng)計(jì)結(jié)果
排名 頻次/次 關(guān)鍵詞 最早引用時(shí)間/年
1 8 642 大數(shù)據(jù) 2012
2 8 126 機(jī)器學(xué)習(xí) 2007
3 6 579 人工智能 2007
4 6 249 數(shù)據(jù)科學(xué) 2007
5 4 168 新工科 2018
6 3 522 情感分析 2010
7 3 011 隨機(jī)森林 2007
8 2 965 知識(shí)圖譜 2017
9 2 234 神經(jīng)網(wǎng)絡(luò) 2008
10 1 876 算法 2009
11 1 552 可視化 2012
12 1 421 分類回歸 2008
13 1 292 支持向量機(jī) 2008
14 1 310 深度學(xué)習(xí) 2016
15 1 292 決策樹 2008
16 1 148 預(yù)測(cè)模型 2020
17 1 008 因果推斷 2021
18 899 區(qū)塊鏈 2018
19 733 數(shù)據(jù)管理 2016
20 556 復(fù)雜網(wǎng)絡(luò) 2013
表中排名第三的詞匯是人工智能。數(shù)據(jù)科學(xué)對(duì)于大數(shù)據(jù)的快速有效處理,大大拓寬了人工智能的發(fā)展前景。毫無(wú)疑問(wèn),人工智能將是社會(huì)發(fā)展和數(shù)據(jù)科學(xué)發(fā)展的熱點(diǎn)方向。當(dāng)下,人工智能已經(jīng)被廣泛應(yīng)用于交通、數(shù)字媒體及服務(wù)行業(yè)[11]。
表中排名第四的是數(shù)據(jù)科學(xué),這是由于我們以數(shù)據(jù)科學(xué)為索引查找文獻(xiàn),故出現(xiàn)頻次較高,可以忽略。但可以指出的是,數(shù)據(jù)科學(xué)并非頻次最高的排名詞匯,這是由于數(shù)據(jù)科學(xué)在國(guó)內(nèi)領(lǐng)域中發(fā)展還不為成熟,文獻(xiàn)中大多采用機(jī)器學(xué)習(xí)、大數(shù)據(jù)等其他詞匯對(duì)數(shù)據(jù)科學(xué)加以修飾的結(jié)果。
表中排名第七的是隨機(jī)森林。隨機(jī)森林算法是決策樹算法的一個(gè)延伸推進(jìn),它選用了隨機(jī)的數(shù)據(jù)集來(lái)提升決策樹的分析準(zhǔn)確性。自從Leo Breiman開創(chuàng)隨機(jī)森林算法后,該算法的研究長(zhǎng)期處于推進(jìn)狀態(tài)[12]。隨機(jī)森林可以有效處理大量數(shù)據(jù),包括海量的不相關(guān)數(shù)據(jù),用于進(jìn)行風(fēng)險(xiǎn)評(píng)估等。
表中排名第九的熱點(diǎn)詞匯是神經(jīng)網(wǎng)絡(luò)。近年來(lái),神經(jīng)網(wǎng)絡(luò)算法屢屢取得突破。比較出名的有遞歸神經(jīng)網(wǎng)絡(luò),包括時(shí)間遞歸與結(jié)構(gòu)遞歸。神經(jīng)網(wǎng)絡(luò)算法的研究推進(jìn),無(wú)疑為深度學(xué)習(xí)、數(shù)據(jù)科學(xué)的發(fā)展提供了助力。
表中排名第十三的是支持向量機(jī)。作為一種二元分類算法,支持向量機(jī)主要思想是將一組多類型的N維地方點(diǎn)線性可分成兩種類型。這種劃分使用的直線到各點(diǎn)的最近距離需要盡可能的大。一般來(lái)說(shuō),支持向量機(jī)的發(fā)展經(jīng)歷了三起三落。當(dāng)前,支持向量機(jī)被廣泛應(yīng)用于人臉面部識(shí)別剪接位點(diǎn)處理及一些特殊圖片處理問(wèn)題。
4? 研究熱點(diǎn)可視化結(jié)果及分析
4.1? 時(shí)空分析圖譜
4.1.1? 時(shí)間線圖譜分析
通過(guò)對(duì)國(guó)內(nèi)數(shù)據(jù)科學(xué)文獻(xiàn)的關(guān)鍵詞進(jìn)行時(shí)間線圖譜可視化,可以得到數(shù)據(jù)科學(xué)領(lǐng)域的研究主題隨時(shí)間的變化情況,從而得到各個(gè)時(shí)間段的熱點(diǎn)主題的相關(guān)分布情況。
如圖3所示,在關(guān)鍵詞時(shí)間線圖譜中,首先對(duì)于眾多關(guān)鍵詞進(jìn)行了聚類操作,對(duì)于11個(gè)類別下的關(guān)鍵詞進(jìn)行了時(shí)間上的切分處理。顏色越鮮艷,代表研究的時(shí)間越近,同時(shí)也說(shuō)明研究的火熱程度更高。從圖上可以發(fā)現(xiàn),機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)科學(xué)早在時(shí)間線2007年便已經(jīng)出現(xiàn),而大數(shù)據(jù)是在約2012年成為研究的熱點(diǎn),并在之后保持火熱狀態(tài)。深度學(xué)習(xí)、隨機(jī)森林等熱點(diǎn)詞匯也在近十五年內(nèi)頻繁出現(xiàn)。
4.1.2? 發(fā)文機(jī)構(gòu)空間圖譜分析
圖4反映了數(shù)據(jù)科學(xué)于國(guó)內(nèi)的文獻(xiàn)發(fā)表機(jī)構(gòu)情況。其中,出現(xiàn)頻次最高的機(jī)構(gòu)是武漢大學(xué)信息管理學(xué)院(89篇),其次是南京大學(xué)信息管理學(xué)院(63篇),如表2所示。
對(duì)武漢大學(xué)信息管理學(xué)院合作機(jī)構(gòu)進(jìn)行網(wǎng)絡(luò)分析。如圖5所示,可見武漢大學(xué)信息管理學(xué)院就數(shù)據(jù)科學(xué)的研究與西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院、電子科技大學(xué)中國(guó)科教評(píng)價(jià)研究院、華中師范大學(xué)信息管理學(xué)院等多個(gè)機(jī)構(gòu)開展過(guò)合作??梢?,這些高校在數(shù)據(jù)科學(xué)領(lǐng)域的合作關(guān)系較為密切。圖中偏紅的色調(diào)代表研究時(shí)間距現(xiàn)在越近,因此,中國(guó)人民大學(xué)信息資源管理學(xué)院與華中師范大學(xué)信息管理學(xué)院對(duì)于數(shù)據(jù)科學(xué)的研究在該圖中表現(xiàn)為近期開展的研究。這些高校間的合作關(guān)系,一定程度上能夠進(jìn)一步發(fā)揮各高校的優(yōu)勢(shì)學(xué)科、促進(jìn)數(shù)據(jù)科學(xué)的快速發(fā)展。
圖4? 2007—2023年數(shù)據(jù)科學(xué)國(guó)內(nèi)發(fā)文機(jī)構(gòu)圖譜
表2? 2007—2023年CNKI數(shù)據(jù)科學(xué)相關(guān)文獻(xiàn)機(jī)構(gòu)發(fā)文數(shù)排名表
排名 發(fā)文數(shù)/篇 最早發(fā)文時(shí)間/年 發(fā)文機(jī)構(gòu)
1 89 2010 武漢大學(xué)信息管理學(xué)院
2 63 2013 南京大學(xué)信息管理學(xué)院
3 30 2009 武漢大學(xué)信息資源研究中心
4 28 2014 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心
5 27 2013 中國(guó)科學(xué)院大學(xué)
6 26 2015 中國(guó)人民大學(xué)信息資源管理中心
7 21 2019 中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院
8 20 2008 中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院
9 20 2016 南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院
10 19 2018 江蘇省數(shù)據(jù)工程和知識(shí)服務(wù)中心
11 19 2009 北京大學(xué)信息管理系
圖5? 武漢大學(xué)信息管理學(xué)院機(jī)構(gòu)合作網(wǎng)絡(luò)圖譜
4.2? 關(guān)鍵詞共現(xiàn)及突變?cè)~檢測(cè)圖譜
4.2.1? 關(guān)鍵詞共現(xiàn)分析
生成熱點(diǎn)關(guān)鍵詞共現(xiàn)圖譜如圖6所示,關(guān)鍵詞的節(jié)點(diǎn)越大,說(shuō)明該關(guān)鍵詞的被引用頻次就越高。根據(jù)熱點(diǎn)關(guān)鍵詞出現(xiàn)的頻次排名,聯(lián)系表1,在20個(gè)熱點(diǎn)關(guān)鍵詞中,除去少數(shù)情況,這些關(guān)鍵詞基本遵循頻次越高中心性越高的規(guī)律。而與研究領(lǐng)域數(shù)據(jù)科學(xué)密切相關(guān)的大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)等詞匯,均表現(xiàn)出明顯的高頻高中心性的特點(diǎn)。這些詞匯在數(shù)據(jù)科學(xué)研究領(lǐng)域作用較大,對(duì)研究有著舉足輕重的作用。此外,數(shù)據(jù)科學(xué)的構(gòu)建離不開算法、數(shù)據(jù)管理,這些都在關(guān)鍵詞共現(xiàn)圖譜中得到了表現(xiàn)。
圖6? 2007—2023年數(shù)據(jù)科學(xué)領(lǐng)域關(guān)鍵詞共現(xiàn)知識(shí)圖譜
如圖7所示,對(duì)數(shù)據(jù)科學(xué)關(guān)鍵詞進(jìn)行基于LLR的聚類,可以得到11個(gè)類別。其中“學(xué)習(xí)科學(xué)”一類的論文時(shí)間基本集中在2010年左右(連線顏色為灰色),在此不做考慮。由聚類圖可見,數(shù)據(jù)科學(xué)的類別緊靠大數(shù)據(jù)和數(shù)據(jù)挖掘表明這幾類的密切程度極大。同時(shí)機(jī)器學(xué)習(xí)和人工智能節(jié)點(diǎn)的最外圍表現(xiàn)出明顯的紅色,說(shuō)明這兩個(gè)類別是當(dāng)下數(shù)據(jù)科學(xué)研究的核心熱點(diǎn)主題??梢哉f(shuō)明,當(dāng)前主流開展的數(shù)據(jù)科學(xué)研究基本在這兩個(gè)類別的范圍之內(nèi)。此外,金融科技、知識(shí)圖譜、信息抽取沒有表現(xiàn)出明顯的節(jié)點(diǎn),說(shuō)明這些是數(shù)據(jù)科學(xué)的廣泛應(yīng)用層面,其熱點(diǎn)程度不如機(jī)器學(xué)習(xí)與人工智能,是過(guò)去十五年中數(shù)據(jù)科學(xué)應(yīng)用領(lǐng)域的粗略概括。
4.2.2? 突變?cè)~檢測(cè)分析
利用CiteSpace的突變檢測(cè)(Burst Detection)功能,對(duì)數(shù)據(jù)科學(xué)CNKI庫(kù)近十五年的文獻(xiàn)的全部關(guān)鍵詞進(jìn)行探測(cè),利用詞頻的時(shí)間分布與變化趨勢(shì),獲得突變?cè)~的演變進(jìn)展,演進(jìn)情況如圖8所示。
圖8? 2007—2023年數(shù)據(jù)科學(xué)研究領(lǐng)域突變?cè)~檢測(cè)圖譜
在2007—2023年間共出現(xiàn)了28個(gè)突變?cè)~,即數(shù)據(jù)挖掘、本體、科學(xué)院、信息抽取、可視化、云計(jì)算、數(shù)據(jù)、大數(shù)據(jù)、數(shù)據(jù)科學(xué)、統(tǒng)計(jì)學(xué)、第四范式、數(shù)據(jù)分析、社會(huì)科學(xué)、學(xué)習(xí)分析……這些突變?cè)~一起組成了近十五年數(shù)據(jù)科學(xué)領(lǐng)域研究的前沿與新興領(lǐng)域。
把這28個(gè)突變?cè)~分成三個(gè)時(shí)期,從而更好地分析數(shù)據(jù)科學(xué)十五年來(lái)的演進(jìn)進(jìn)程。2007—2012年,國(guó)內(nèi)的數(shù)據(jù)科學(xué)主要應(yīng)用在信息抽取、數(shù)據(jù)挖掘等方面,主要由科學(xué)院進(jìn)行研究;2012—2017年,隨著大數(shù)據(jù)概念被提出[13],數(shù)據(jù)科學(xué)作為一門學(xué)習(xí)分析的新興專業(yè),統(tǒng)計(jì)學(xué)等關(guān)鍵詞在這一時(shí)期作為研究熱點(diǎn);2017—2023年,在這一時(shí)期,數(shù)字經(jīng)濟(jì)、可解釋性、文本分析、預(yù)測(cè)模型成為數(shù)據(jù)科學(xué)的研究熱點(diǎn),至今仍保持著熱度。由此可知,目前數(shù)據(jù)科學(xué)領(lǐng)域的研究側(cè)重點(diǎn)在集成學(xué)習(xí)、機(jī)器學(xué)習(xí)領(lǐng)域[14],數(shù)據(jù)科學(xué)仍處于不斷發(fā)展和應(yīng)用階段,也有待更加快速、便捷算法的更新迭代。
5? 國(guó)內(nèi)外深度學(xué)習(xí)(數(shù)據(jù)科學(xué))研究比較
5.1? 基于Web of Science核心庫(kù)的文獻(xiàn)分析
如圖9所示,WOS數(shù)據(jù)科學(xué)領(lǐng)域關(guān)鍵詞共現(xiàn)知識(shí)圖譜中共有節(jié)點(diǎn)N(108)個(gè),連線E(389)條,中心度Density=0.067 3。分析結(jié)果如圖10所示,近十五年數(shù)據(jù)科學(xué)的研究熱點(diǎn)依次為Artificial Intelligence、Machine Learning、Big Data、Deep Learning、Information、Trust、Health Care、Classification、Computer Version等。
圖9? WOS數(shù)據(jù)科學(xué)領(lǐng)域關(guān)鍵詞共現(xiàn)知識(shí)圖譜
圖10? WOS數(shù)據(jù)科學(xué)關(guān)鍵詞聚類圖
如表3所示,通過(guò)對(duì)關(guān)鍵詞的聚類處理,出現(xiàn)了6個(gè)類別。
表3? WOS核心期刊庫(kù)數(shù)據(jù)科學(xué)文獻(xiàn)關(guān)鍵詞聚類結(jié)果
聚類ID 輪廓值 聚類標(biāo)簽
#0 0.872 Machine learning
#1 0.923 Deep learning
#2 0.887 Molecular imaging
#3 0.992 Comprehensibility
#4 0.907 Causability
#5 0.963 Synapses
5.2? 研究比較
對(duì)比CNKI和Web of Science核心期刊庫(kù)的可視化結(jié)果,可以發(fā)現(xiàn)以下特點(diǎn)。
國(guó)內(nèi)數(shù)據(jù)科學(xué)的研究熱點(diǎn)基本涵蓋國(guó)外研究的熱點(diǎn),如機(jī)器學(xué)習(xí)、大數(shù)據(jù)、深度學(xué)習(xí)、可理解性等,同時(shí)其分析結(jié)果也含有新工科等一些偏學(xué)科建設(shè)的關(guān)鍵詞信息[15]。一方面,這是因?yàn)槲墨I(xiàn)去臟化處理作篩除時(shí)保留了一些關(guān)聯(lián)性不強(qiáng)的文獻(xiàn),具有一定的客觀性;另一方面,國(guó)內(nèi)將“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”列為二級(jí)學(xué)科,是其研究索引結(jié)果中包含了較多教育學(xué)的文獻(xiàn)內(nèi)容所致。
國(guó)內(nèi)數(shù)據(jù)學(xué)科研究更多偏向于現(xiàn)有原理的技術(shù)應(yīng)用,因此結(jié)果降維聚類后含有交叉學(xué)科的聚類標(biāo)簽。而國(guó)外數(shù)據(jù)學(xué)科研究更多專注于理論方向上的研究,如深度學(xué)習(xí)、機(jī)器學(xué)習(xí)算法等。
6? 前沿研究難題
新的科學(xué)的范式往往來(lái)源于數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn),即大數(shù)據(jù)問(wèn)題[16]。雖然大量的數(shù)據(jù)中常常隱藏著非常多的有用價(jià)值,能夠?yàn)榭茖W(xué)進(jìn)步和社會(huì)生產(chǎn)提供幫助,但同時(shí)大數(shù)據(jù)也面臨著許多的挑戰(zhàn)。隨著信息增長(zhǎng)的速度以指數(shù)函數(shù)速度增長(zhǎng),海量數(shù)據(jù)對(duì)人們?cè)斐蓸O大困擾,無(wú)論是數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ),還是數(shù)據(jù)分析、數(shù)據(jù)可視化,都存在著眾多的挑戰(zhàn)與困難[17]。文章結(jié)合一些綜述性文獻(xiàn),對(duì)數(shù)據(jù)科學(xué)前沿面臨的難題作一個(gè)簡(jiǎn)單整理。
數(shù)據(jù)的初步處理。大數(shù)據(jù)樣本的獲得,往往需要多個(gè)來(lái)源,而多數(shù)的來(lái)源彼此獨(dú)立。它們匯集而形成大量、復(fù)雜且不斷增長(zhǎng)的數(shù)據(jù)集[18],這就使得如何選擇最有價(jià)值的來(lái)源并有效融合信息成了數(shù)據(jù)科學(xué)領(lǐng)域的核心問(wèn)題。
數(shù)據(jù)的深度挖掘。圖片、音頻、視頻等文件數(shù)據(jù)大多屬于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),對(duì)于這類數(shù)據(jù)的挖掘處理,需要通過(guò)大數(shù)據(jù)的語(yǔ)義理解與分析。大數(shù)據(jù)語(yǔ)義分析技術(shù)將為基于網(wǎng)絡(luò)大數(shù)據(jù)的理解提供關(guān)鍵支持,是眾多大數(shù)據(jù)應(yīng)用的基礎(chǔ)[19]。這就需要在大數(shù)據(jù)自然語(yǔ)言識(shí)別和非結(jié)構(gòu)化數(shù)據(jù)的集成技術(shù)上取得突破。
數(shù)據(jù)的分析與利用。數(shù)據(jù)采集、存儲(chǔ)、管理與深度處理等最終目的是要挖掘出數(shù)據(jù)的價(jià)值,這也是數(shù)據(jù)科學(xué)興起與發(fā)展的根本[20]。數(shù)據(jù)科學(xué)的研究目的是為了對(duì)海量數(shù)據(jù)進(jìn)行處理和分析,從異構(gòu)數(shù)據(jù)中獲取有價(jià)值的知識(shí),為決策服務(wù),而決策通常是多維的,需要數(shù)據(jù)分析人員能夠從數(shù)據(jù)的多維角度對(duì)數(shù)據(jù)進(jìn)行處理分析,并整合成能夠?yàn)闆Q策提供有效價(jià)值服務(wù)的信息,因此數(shù)據(jù)科學(xué)如何進(jìn)行可視化輔助分析人員提取有效信息也就非常關(guān)鍵了。
個(gè)人數(shù)據(jù)的保護(hù)。數(shù)據(jù)科學(xué)的發(fā)展,可以較大程度提高對(duì)以往看似無(wú)用數(shù)據(jù)的利用率,提取有價(jià)值的可處理信息。因此,伴隨著數(shù)據(jù)科學(xué)的不斷迭代進(jìn)步,就給如何保護(hù)原始個(gè)人數(shù)據(jù)庫(kù)信息帶來(lái)了挑戰(zhàn)。
7? 結(jié)? 論
文章對(duì)國(guó)內(nèi)CNKI和國(guó)外Web of Science核心庫(kù)2007—2023年期間數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)領(lǐng)域?yàn)殛P(guān)鍵詞進(jìn)行了知識(shí)圖譜分析,使用CiteSpace軟件工具繪制了時(shí)空分析圖譜、關(guān)鍵詞共現(xiàn)圖譜以及突變?cè)~檢測(cè)圖譜,并對(duì)各個(gè)圖譜進(jìn)行分析,得出了數(shù)據(jù)科學(xué)領(lǐng)域的研究進(jìn)展和研究熱點(diǎn)。從國(guó)內(nèi)研究的關(guān)鍵詞共現(xiàn)來(lái)看,數(shù)據(jù)科學(xué)的研究熱點(diǎn)集中在大數(shù)據(jù)、人工智能、數(shù)據(jù)挖掘、算法、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)和預(yù)測(cè)等。突變?cè)~檢測(cè)圖譜則表明數(shù)據(jù)科學(xué)的當(dāng)前熱點(diǎn)集中在集成學(xué)習(xí)、文本分析和預(yù)測(cè)模型。其中深度學(xué)習(xí)的深度置信網(wǎng)絡(luò),也是該領(lǐng)域目前的研究熱點(diǎn)之一。此外文章還對(duì)比分析了國(guó)內(nèi)外深度學(xué)習(xí)研究熱點(diǎn)的區(qū)別,陳述了當(dāng)前數(shù)據(jù)科學(xué)領(lǐng)域前沿面臨的難題。
總體而言,數(shù)據(jù)科學(xué)領(lǐng)域的一些理論尚待完善,各種新型應(yīng)用也處于探索研究階段。同時(shí),文章還存在著一定局限性,主要受限于期刊數(shù)據(jù)仍存在“去臟化”的上限空間,使用CiteSpace的一些剪枝功能的參數(shù)還能做到進(jìn)一步優(yōu)化與調(diào)試等。文章對(duì)文獻(xiàn)的關(guān)鍵詞等基本信息進(jìn)行現(xiàn)有篩除,獲得了數(shù)據(jù)科學(xué)當(dāng)前的熱點(diǎn)方向,后續(xù)前沿領(lǐng)域的前進(jìn)方向還需在文章結(jié)果的基礎(chǔ)上做進(jìn)一步的優(yōu)化分析,總而得到更具指導(dǎo)意義的結(jié)論。
參考文獻(xiàn):
[1] 周傲英,錢衛(wèi)寧,王長(zhǎng)波.數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時(shí)代的新興交叉學(xué)科 [J].大數(shù)據(jù),2015,1(2):90-99.
[2] 陳振沖,賀田田.數(shù)據(jù)科學(xué)人才的需求與培養(yǎng) [J].大數(shù)據(jù),2016,2(5):95-106.
[3] DONOHO D. 50 Years of Data Science [J].Journal of Computational and Graphical Statistics,2017,26(4):745-766.
[4] CAO L B. Data Science: A Comprehensive Overview [J].ACM Computing Surveys,2017,50(3):1-42.
[5] HINTON G E,OSINDERO S,TEH Y-W. A Fast Learning Algorithm for Deep Belief Nets [J].Neural Computation,2006,18(7):1527-1554.
[6] 史紀(jì)元.基于CiteSpaceⅢ輸血醫(yī)學(xué)研究領(lǐng)域知識(shí)圖譜分析 [D].西安:第四軍醫(yī)大學(xué),2015.
[7] 李杰,陳超美.CiteSpace:科技文本挖掘及可視化 [M].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2016.
[8] 劉則淵,陳超美,侯海燕,等.邁向科學(xué)學(xué)大變革的時(shí)代 [J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2009,30(7):5-12.
[9] 陳悅,陳超美,劉則淵,等.CiteSpace知識(shí)圖譜的方法論功能 [J].科學(xué)學(xué)研究,2015,33(2):242-253.
[10] 周金俠.基于Citespace Ⅱ的信息可視化文獻(xiàn)的量化分析 [J].情報(bào)科學(xué),2011,29(1):98-101+112.
[11] 莊詩(shī)夢(mèng),王東波.深度學(xué)習(xí)領(lǐng)域研究熱點(diǎn)與前沿分析——基于CiteSpace的信息可視化分析 [J].河北科技圖苑,2018,31(1):73-82.
[12] 葉文豪,王東波.基于知識(shí)圖譜的國(guó)外數(shù)據(jù)科學(xué)研究狀況分析 [J].河北科技圖苑,2017,30(6):73-83.
[13] 張??。w文斌,葉權(quán)慧,等.機(jī)器學(xué)習(xí)領(lǐng)域研究熱點(diǎn)與前沿演進(jìn)——基于CiteSpace的可視化分析 [J].軟件導(dǎo)刊,2019,18(9):5-8+225.
[14] 徐建國(guó),劉泳慧,劉夢(mèng)凡.國(guó)內(nèi)深度學(xué)習(xí)領(lǐng)域研究進(jìn)展與熱點(diǎn)分析——基于CiteSpace與VOSviewer的綜合應(yīng)用 [J].軟件導(dǎo)刊,2021,20(1):234-237.
[15] 李嘉雯,李玉斌,袁子涵.國(guó)外近十年深度學(xué)習(xí)研究進(jìn)展——基于CiteSpace知識(shí)圖譜的可視化研究 [J].軟件,2019,40(2):147-151.
[16] 朝樂門,邢春曉,張勇.數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì) [J].計(jì)算機(jī)科學(xué),2018,45(1):1-13.
[17] CHEN C L P,ZHANG C-Y. Data-intensive Applications, Challenges, Techniques and Technologies: A Survey on Big Data [J].Information Sciences,2014,275:314-347.
[18] WU X D,ZHU X Q,WU G-Q,et al. Data Mining with Big Data [J].IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107.
[19] 唐杰,陳文光.面向大社交數(shù)據(jù)的深度分析與挖掘 [J].科學(xué)通報(bào),2015,60(Z1):509-519.
[20] 王曰芬,謝清楠,宋小康.國(guó)外數(shù)據(jù)科學(xué)研究的回顧與展望 [J].圖書情報(bào)工作,2016,60(14):5-14.
作者簡(jiǎn)介:張錦佺(2002—),男,漢族,湖南長(zhǎng)沙人,本科在讀,研究方向:數(shù)據(jù)科學(xué)與大數(shù)據(jù)、深度學(xué)習(xí)、信息化應(yīng)用。