聶文梅,劉宏英,宋曉霞,李 勇
(山西大同大學(xué)計(jì)算機(jī)與網(wǎng)絡(luò)工程學(xué)院,山西大同 037009)
隨著大數(shù)據(jù)時(shí)代各行業(yè)對數(shù)據(jù)分析需求的持續(xù)增加,通過機(jī)器學(xué)習(xí)高效地獲取知識(shí),已逐漸成為當(dāng)今機(jī)器學(xué)習(xí)技術(shù)發(fā)展的主要推動(dòng)力,機(jī)器學(xué)習(xí)成為一種支持和服務(wù)技術(shù)。如何基于機(jī)器學(xué)習(xí)對復(fù)雜多樣的數(shù)據(jù)進(jìn)行深層次地分析,更高效地利用信息成為當(dāng)前大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)研究的主要方向[1]。無論是軍事領(lǐng)域還是民用領(lǐng)域,機(jī)器學(xué)習(xí)都被廣泛應(yīng)用。同樣在高校教育中,以智慧教育引領(lǐng)教育教學(xué)的創(chuàng)新,成為信息時(shí)代的必然趨勢[2]。如何利用技術(shù)支持和促進(jìn)個(gè)性化教學(xué)[3]的開展,已經(jīng)成為智慧教育研究領(lǐng)域的訴求。機(jī)器學(xué)習(xí)作為人工智能領(lǐng)域最核心、最熱門的技術(shù),能夠基于大量數(shù)據(jù)的自動(dòng)識(shí)別模式發(fā)現(xiàn)規(guī)則,預(yù)測學(xué)生的學(xué)習(xí)表現(xiàn)[4],為滿足智慧教育和個(gè)性化學(xué)習(xí)的需求提供了可能。響應(yīng)時(shí)代號(hào)召,應(yīng)用機(jī)器學(xué)習(xí)技術(shù)挖掘、開發(fā)和利用高校大數(shù)據(jù)是我國教育現(xiàn)代化的必然要求。
目前,關(guān)于國內(nèi)教育大數(shù)據(jù)的相關(guān)研究很多,諸如文獻(xiàn)[5]通過文獻(xiàn)分析法對我國教育大數(shù)據(jù)的研究現(xiàn)狀進(jìn)行歸納,總結(jié)出我國教育大數(shù)據(jù)概念、技術(shù)、應(yīng)用及科學(xué)性四個(gè)方面的內(nèi)容。文獻(xiàn)[6]利用CiteSpace 和文獻(xiàn)分析我國高等教育大數(shù)據(jù)的研究熱點(diǎn)及發(fā)展趨勢。文獻(xiàn)[7]對近年來國外基于真實(shí)數(shù)據(jù)的機(jī)器學(xué)習(xí)教育應(yīng)用案例研究成果進(jìn)行了梳理和歸納。然而,從研究內(nèi)容角度,多數(shù)文獻(xiàn)是從教育大數(shù)據(jù)、思想政治教育或者某種學(xué)科角度出發(fā)進(jìn)行研究,研究國內(nèi)高等教育大數(shù)據(jù)現(xiàn)狀的文獻(xiàn)較少,關(guān)于機(jī)器學(xué)習(xí)在高校大數(shù)據(jù)中的應(yīng)用現(xiàn)狀與趨勢研究的文獻(xiàn)幾乎沒有。從研究方法上,許多學(xué)者對其進(jìn)行了可視化分析,但多數(shù)可視化分析方法比較單一,諸如文獻(xiàn)[6]采用可視化工具CiteSpace 進(jìn)行研究現(xiàn)狀分析。單一的分析方法不能達(dá)到多個(gè)維度的研究效果。
為此,采用文獻(xiàn)計(jì)量法、科學(xué)知識(shí)圖譜法并結(jié)合對比分析技術(shù),對國內(nèi)高校大數(shù)據(jù)&機(jī)器學(xué)習(xí)相關(guān)文獻(xiàn)進(jìn)行了多層次多維度的研究,探測機(jī)器學(xué)習(xí)在高校大數(shù)據(jù)的應(yīng)用現(xiàn)狀與趨勢,以期為機(jī)器學(xué)習(xí)在高校大數(shù)據(jù)中的進(jìn)一步研究、處理和應(yīng)用提供參考。
我們首先描述研究使用的數(shù)據(jù)、方法和可視化分析工具。其次,詳細(xì)介紹采用的分析框架。
大量關(guān)于大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能的實(shí)證研究文獻(xiàn)日益成為教育界的熱門話題,并引起了研究人員的關(guān)注。使用系統(tǒng)的方法回顧和收集有代表性的研究文獻(xiàn)數(shù)據(jù)集在揭示研究進(jìn)展、識(shí)別現(xiàn)有研究差距和為未來研究提供議程方面特別有用。在評(píng)估研究進(jìn)展時(shí),選擇不同的數(shù)據(jù)庫、采用不同的研究方法和研究周期可能會(huì)產(chǎn)生不同的結(jié)果。
用于評(píng)估的數(shù)據(jù)庫來自搜索引擎和流行數(shù)據(jù)庫,如谷歌學(xué)術(shù)、Scopus、EBSCOHost 和Web of Science 等。每個(gè)數(shù)據(jù)提供者都有自己的優(yōu)勢。McKercher 認(rèn)為,谷歌學(xué)術(shù)由于其龐大的數(shù)據(jù)庫和易用性,對引文分析非常有用。他從Google Scholar 獲得了包括54 種酒店和旅游期刊在內(nèi)的數(shù)據(jù),并使用Publish 或Perish 軟件評(píng)估期刊的影響[8]。Lee 等利用谷歌學(xué)術(shù)的數(shù)據(jù),對選定文獻(xiàn)中的作者、篇幅、協(xié)作和引用次數(shù)進(jìn)行了研究[9]。然而,谷歌學(xué)術(shù)因其不準(zhǔn)確和重復(fù)問題而受到批評(píng)[10]。目前Web of Science 的科學(xué)數(shù)據(jù)庫因?yàn)槠涓采w面廣且具有權(quán)威性被作為常用研究數(shù)據(jù)源[11-12]。然而它的登錄門檻使很多研究者望洋興嘆。CNKI作為世界上全文信息量規(guī)模最大的數(shù)字圖書館也為文獻(xiàn)的檢索提供了支持。陳星等以CNKI 期刊數(shù)據(jù)庫為檢索數(shù)據(jù)源對國內(nèi)教育大數(shù)據(jù)進(jìn)行了現(xiàn)狀和趨勢分析[13]??紤]到主要研究的是國內(nèi)高校教育大數(shù)據(jù),所以采用了信息量大且容易獲取數(shù)據(jù)的CNKI作為數(shù)據(jù)源的收集地。
文獻(xiàn)計(jì)量學(xué)方法通常用于系統(tǒng)調(diào)查文獻(xiàn)的影響。文獻(xiàn)的影響一般取決于幾個(gè)特點(diǎn)。例如,研究人員使用引用計(jì)數(shù)作為一個(gè)重要的指標(biāo)來突出影響。一些可量化的元素,如字?jǐn)?shù)、作者和合作網(wǎng)絡(luò),也可用于評(píng)估文獻(xiàn)[9]。
評(píng)估結(jié)果的建模和可視化有助于獲得直觀、全面的結(jié)果,以揭示研究狀態(tài)和不斷發(fā)展的研究趨勢??紤]到一個(gè)單一的屬性只能從一個(gè)維度描述文章,不足以對整個(gè)研究進(jìn)展進(jìn)行評(píng)價(jià)。而CiteSpace 是一款應(yīng)用于科學(xué)文獻(xiàn)中識(shí)別并顯示科學(xué)發(fā)展新趨勢和新動(dòng)態(tài)的工具。它是在文獻(xiàn)計(jì)量結(jié)構(gòu)的基礎(chǔ)上發(fā)展起來的,如共引分析和趨勢網(wǎng)絡(luò)[14]。以前的研究中它被用來檢測和可視化科學(xué)文獻(xiàn)中出現(xiàn)的趨勢和模式。同時(shí)引文和被引文分別代表了研究前沿和學(xué)術(shù)基礎(chǔ)[15-16]。因此,在對所選文獻(xiàn)數(shù)據(jù)集進(jìn)行CiteSpace建模之后,可以構(gòu)建一個(gè)可視化的共引網(wǎng)絡(luò)。從多個(gè)角度分析所研究問題的現(xiàn)狀、前沿和發(fā)展趨勢。
為了研究基于機(jī)器學(xué)習(xí)高校大數(shù)據(jù)相關(guān)研究的現(xiàn)狀和進(jìn)展,我們提出了一個(gè)如圖1的分析框架。利用期刊文獻(xiàn)中產(chǎn)生的共引網(wǎng)絡(luò)和不同主題文獻(xiàn),研究出版數(shù)量的對比來評(píng)估相關(guān)文獻(xiàn)。
圖1 文獻(xiàn)評(píng)估研究框架
文獻(xiàn)評(píng)估步驟如下:
(1)檢索科學(xué)文獻(xiàn)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)收集。數(shù)據(jù)來自于CNKI 數(shù)據(jù)庫中2010-2020 年10 年的學(xué)術(shù)期刊全文。每個(gè)記錄都包含出版物的若干相關(guān)屬性,如作者、引文計(jì)數(shù)、已出版期刊和引用參考文獻(xiàn)。
(2)數(shù)據(jù)初步分析指對收集到的數(shù)據(jù)集進(jìn)行預(yù)處理,去掉無用和重復(fù)的數(shù)據(jù)。對特定的數(shù)據(jù)屬性進(jìn)行檢查,確定文獻(xiàn)研究影響的有用指標(biāo)。
(3)網(wǎng)絡(luò)分析是對初步分析后的數(shù)據(jù)使用可視化工具CiteSpace 進(jìn)行分析。設(shè)計(jì)一個(gè)科學(xué)網(wǎng)絡(luò)知識(shí)圖譜,主要關(guān)注科學(xué)文獻(xiàn)之間的聯(lián)系。該網(wǎng)絡(luò)圖譜旨在評(píng)估以下指標(biāo):共引、聚類和趨勢。
(4)利用傳統(tǒng)對比分析方法對機(jī)器學(xué)習(xí)、高校大數(shù)據(jù)相關(guān)研究文獻(xiàn)進(jìn)行對比分析。
在CNKI 數(shù)據(jù)庫中檢索收集了兩個(gè)數(shù)據(jù)集,分別為數(shù)據(jù)集1和數(shù)據(jù)集2。對數(shù)據(jù)集1利用CiteSpace進(jìn)行了網(wǎng)絡(luò)分析,對數(shù)據(jù)集2進(jìn)行了對比分析。
數(shù)據(jù)收集的數(shù)據(jù)源是國內(nèi)最大的知識(shí)資源平臺(tái)CNKI 數(shù)據(jù)庫,選擇其中的核心期刊、SCI 期刊和EI 期刊的相關(guān)論文,數(shù)據(jù)源的時(shí)間范圍從2010 年至2020年。每個(gè)數(shù)據(jù)記錄包括以下出版物屬性:作者、已出版期刊、出版年份、關(guān)鍵字、摘要、引用計(jì)數(shù)和引用參考文獻(xiàn),這些屬性對于識(shí)別當(dāng)前出版物的影響很有價(jià)值。為了收集到完整的數(shù)據(jù)集,保證研究結(jié)果的準(zhǔn)確性,選擇檢索遵守以下數(shù)據(jù)收集規(guī)則。首先,關(guān)鍵詞應(yīng)該與特定的主題有實(shí)質(zhì)性的關(guān)聯(lián)。其次,搜索引擎應(yīng)該返回權(quán)威和準(zhǔn)確的結(jié)果。因此,我們分別使用了三種檢索主題,“機(jī)器學(xué)習(xí)&大數(shù)據(jù)”、“教育大數(shù)據(jù)&高?!币约啊皺C(jī)器學(xué)習(xí)&高?!睂NKI 數(shù)據(jù)庫進(jìn)行檢索,并經(jīng)過搜索去掉無用重復(fù)的數(shù)據(jù),得到289條、440 條和10條,總計(jì)739條。該數(shù)據(jù)集作為網(wǎng)絡(luò)分析的研究對象數(shù)據(jù)集1。另外,又分別使用“教育大數(shù)據(jù)”“高校&大數(shù)據(jù)”“機(jī)器學(xué)習(xí)”和“高校&機(jī)器學(xué)習(xí)”四種主題進(jìn)行檢索,經(jīng)過數(shù)據(jù)初步分析處理后產(chǎn)生數(shù)據(jù)集2,其包含4 652條紀(jì)錄。
利用可視化分析工具CiteSpace 對數(shù)據(jù)集1 進(jìn)行關(guān)鍵詞共現(xiàn)分析來得到研究熱點(diǎn)。通過關(guān)鍵詞突現(xiàn)分析得到各個(gè)階段的研究前沿。通過對研究機(jī)構(gòu)進(jìn)行共現(xiàn)聚類分析了解該研究領(lǐng)域空間域的研究情況。最后引入時(shí)間維度,利用時(shí)線圖從時(shí)空角度進(jìn)一步了解研究領(lǐng)域的發(fā)展情況及發(fā)展趨勢。
2.2.1 關(guān)鍵詞共現(xiàn)分析
關(guān)鍵詞是從摘要或論文中提煉的,最能反映文獻(xiàn)的主題內(nèi)容,是論文核心內(nèi)容的高度概括。它能有效地展現(xiàn)某一研究領(lǐng)域的熱點(diǎn)內(nèi)容和主題分布,從而揭示該學(xué)科的研究結(jié)構(gòu)。采用關(guān)鍵詞共現(xiàn)分析方法對收集的數(shù)據(jù)集進(jìn)行共詞挖掘分析。通過統(tǒng)計(jì)同一詞組在同一組文獻(xiàn)中出現(xiàn)的次數(shù),測度關(guān)鍵詞頻次的高低分布和兩兩之間的親疏關(guān)系,進(jìn)而研究基于機(jī)器學(xué)習(xí)的高校大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)。
圖2 是對收集到的數(shù)據(jù)集1 進(jìn)行關(guān)鍵詞共現(xiàn)分析得到的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)知識(shí)圖譜,時(shí)區(qū)選擇2010年到2020 年,時(shí)間切片1 年,每個(gè)切片閾值選擇TOP 50。從中可以看出高校大數(shù)據(jù)的研究熱點(diǎn)為:大數(shù)據(jù)、機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)。
圖2 關(guān)鍵詞共現(xiàn)知識(shí)圖譜
為了更有效、準(zhǔn)確、全面地把握高校大數(shù)據(jù)的研究熱點(diǎn),從Citespace后臺(tái)導(dǎo)出圖3關(guān)鍵詞出現(xiàn)頻次及中心度前12 的具體數(shù)據(jù)。從中可見,中心度大于0.1的關(guān)鍵點(diǎn)除了與圖2 相一致的大數(shù)據(jù)、機(jī)器學(xué)習(xí)、人工智能和大數(shù)據(jù)時(shí)代,還有思想政治教育,說明思想政治教育也是教育的一個(gè)研究熱點(diǎn)。而且還可看出高校研究位于第七位,與位于第一、二位的大數(shù)據(jù)和機(jī)器學(xué)習(xí)從出現(xiàn)次數(shù)上還是有一定差距的。
圖3 TOP 12高頻和高中心度關(guān)鍵詞圖
2.2.2 關(guān)鍵詞突現(xiàn)分析
突現(xiàn)詞是指在較短時(shí)間內(nèi)出現(xiàn)較多或使用頻率較高的詞。根據(jù)突現(xiàn)詞的詞頻變化趨勢可以有效地判斷研究領(lǐng)域的前沿趨勢。CiteSpace 將這種突變信息視為一種可用來度量更深層變化的手段。從圖4中的CiteSpace突現(xiàn)分析結(jié)果可以看出,2010-2014年我國高校大數(shù)據(jù)的前沿主要是反饋體系構(gòu)建和大學(xué)生心理健康,其中大學(xué)生心理健康突現(xiàn)率為3.09,體現(xiàn)了當(dāng)時(shí)教育研究對大學(xué)生心理健康的關(guān)注度較高。2014-2017 年高校大數(shù)據(jù)研究前沿傾向于高校思想政治教育。2018 年開始人工智能又成為高校教育領(lǐng)域的一個(gè)極大研究前沿,其突現(xiàn)率超過了4.9,超過其他研究前沿。
圖4 引用突現(xiàn)TOP4的文獻(xiàn)主題
2.2.3 研究機(jī)構(gòu)共現(xiàn)聚類分析
在研究結(jié)構(gòu)的共現(xiàn)聚類分析中,Modularity 為0.819 2,意味著聚類結(jié)構(gòu)顯著。網(wǎng)絡(luò)參數(shù)N=38,E=25,Density=0.035 6 表明研究機(jī)構(gòu)共現(xiàn)性較低,說明各機(jī)構(gòu)之間合作較少,各自為政。圖5顯示了共引次數(shù)最高的前十個(gè)機(jī)構(gòu),從高到低依次為浙江工商大學(xué)經(jīng)濟(jì)學(xué)院、武漢大學(xué)信息管理學(xué)院、中山大學(xué)地球科學(xué)與工程學(xué)院、中山大學(xué)地球環(huán)境與地球資源研究中心、廣東省地質(zhì)過程與礦產(chǎn)資源探查重點(diǎn)實(shí)驗(yàn)室、華中師范大學(xué)馬克思主義學(xué)院、中國科學(xué)院大學(xué)、吉林大學(xué)管理學(xué)院等,說明這些機(jī)構(gòu)在機(jī)器學(xué)習(xí)、高校大數(shù)據(jù)的相關(guān)研究較多,但從引用數(shù)量看都沒超過個(gè)位數(shù),可見國內(nèi)高校大數(shù)據(jù)方面的研究并沒有形成大規(guī)模的專門研究團(tuán)體,研究機(jī)構(gòu)整體較分散。
圖5 研究機(jī)構(gòu)共現(xiàn)聚類知識(shí)圖譜
2.2.4 趨勢分析
時(shí)線圖將時(shí)間與關(guān)鍵詞相聯(lián)系,從時(shí)間維度上體現(xiàn)知識(shí)的演進(jìn)過程,可以清晰地展示知識(shí)研究的更新和相互影響。圖6 為基于數(shù)據(jù)集1 的時(shí)線圖譜。由圖可見,2010 年出現(xiàn)了關(guān)于大數(shù)據(jù)的相關(guān)研究。2012 年引入機(jī)器學(xué)習(xí)。2013 年出現(xiàn)深度學(xué)習(xí),同時(shí)對教育理念進(jìn)行了劃時(shí)代的變革。2014 年進(jìn)入了大數(shù)據(jù)時(shí)代,出現(xiàn)大量關(guān)于高校圖書館、高校思想政治教育、MOOC 教育和高校創(chuàng)新性研究。2016 年更多的關(guān)于高校和高等教育研究出現(xiàn),而且開始引入人工智能,同時(shí)也出現(xiàn)了個(gè)性化教育研究,使用大數(shù)據(jù)技術(shù)進(jìn)行學(xué)習(xí)分析。2018 年提出了智慧校園、教育大數(shù)據(jù)和教育大數(shù)據(jù)挖掘,使用Tensorflow 對教育大數(shù)據(jù)進(jìn)行處理。2019 年提出了智慧教育,使用人工智能技術(shù)對高校學(xué)生、教育管理、教育改革等進(jìn)行研究。從以上分析可見,國內(nèi)高校大數(shù)據(jù)的相關(guān)研究經(jīng)歷了一個(gè)從理論研究逐步向?qū)嵺`研究發(fā)展的過程,從大數(shù)據(jù)技術(shù)到大數(shù)據(jù)與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能相結(jié)合的過程。
圖6 關(guān)鍵詞共現(xiàn)知識(shí)圖譜
通過對比分析,探討基于機(jī)器學(xué)習(xí)的高校大數(shù)據(jù)研究與相關(guān)領(lǐng)域的關(guān)系。我們使用數(shù)據(jù)集2 分別從“教育大數(shù)據(jù)”“高校&大數(shù)據(jù)”“機(jī)器學(xué)習(xí)”和“高校&機(jī)器學(xué)習(xí)”這四個(gè)領(lǐng)域,對2010 至2020 年10 年間學(xué)者們的相關(guān)研究文獻(xiàn)量進(jìn)行了對比分析,結(jié)果如圖7 所示。圖7 表明機(jī)器學(xué)習(xí)的研究在這十年間整體呈現(xiàn)一個(gè)上升態(tài)勢,于2019年達(dá)到最高點(diǎn),說明機(jī)器學(xué)習(xí)一直是解決實(shí)際問題的一種有效方式,一直是學(xué)者們研究的熱點(diǎn)。與之相比,教育大數(shù)據(jù)和高校&大數(shù)據(jù)的相關(guān)研究雖然也在逐年上升,但上升幅度較小,最高點(diǎn)都不足機(jī)器學(xué)習(xí)的1/4。而高校&機(jī)器學(xué)習(xí)在2015-2019 年間幾乎沒有什么變化。結(jié)果表明機(jī)器學(xué)習(xí)在高校大數(shù)據(jù)中的應(yīng)用研究比較少,在其他領(lǐng)域卻得到了充分的應(yīng)用和研究。分析表明基于機(jī)器學(xué)習(xí)的高校大數(shù)據(jù)研究的必要性。
圖7 2010-2020年高校大數(shù)據(jù)相關(guān)文獻(xiàn)比較分析圖
通過對高校大數(shù)據(jù)、機(jī)器學(xué)習(xí)及其相關(guān)領(lǐng)域研究文獻(xiàn)的分析得出:①機(jī)器學(xué)習(xí)、大數(shù)據(jù)、深度學(xué)習(xí)和人工智能是學(xué)者們的研究熱點(diǎn),高校大數(shù)據(jù)的研究還有待進(jìn)一步加強(qiáng);②2014 年到2017 年高校教育研究前沿傾向于高校思想政治教育;從2018年開始,人工智能又成為教育領(lǐng)域的一個(gè)極大研究前沿;③國內(nèi)高校大數(shù)據(jù)的研究團(tuán)體較為分散,相互合作較少,沒有形成有影響的較大研究團(tuán)體;④國內(nèi)高校大數(shù)據(jù)的相關(guān)研究經(jīng)歷了一個(gè)從理論研究逐步向?qū)嵺`研究發(fā)展的過程,從大數(shù)據(jù)技術(shù)到大數(shù)據(jù)與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能相結(jié)合的過程。智慧教育是高校教育的發(fā)展趨勢,用機(jī)器學(xué)習(xí)處理高校大數(shù)據(jù)是時(shí)代發(fā)展的必然;⑤機(jī)器學(xué)習(xí)的相關(guān)研究在2016 年以后急劇上升,然而機(jī)器學(xué)習(xí)在高校大數(shù)據(jù)中的應(yīng)用較少,所以我們有必要加強(qiáng)基于機(jī)器學(xué)習(xí)的高校大數(shù)據(jù)研究。
此文是首次基于機(jī)器學(xué)習(xí)高校大數(shù)據(jù)的研究,并且收集了兩個(gè)近10 年的相關(guān)文獻(xiàn)數(shù)據(jù)集,分別對其進(jìn)行了可視化分析和傳統(tǒng)對比分析。這項(xiàng)研究借助于現(xiàn)有的文獻(xiàn),并提供實(shí)證結(jié)果。因此,研究為高校大數(shù)據(jù)中的機(jī)器學(xué)習(xí)應(yīng)用研究提供了未來的方向。
這項(xiàng)研究也有一些局限性。盡管我們收集了近10 年的共計(jì)5 391 篇參考文獻(xiàn),但由于我們使用CNKI 數(shù)據(jù)庫和CiteSpace 可視化建模分析工具,所以無法進(jìn)行共被引知識(shí)圖譜分析。未來希望在條件許可的情況下對其進(jìn)行更全面詳盡地分析,為以后的相關(guān)研究提供更準(zhǔn)確的研究參考。