崔新偉+李家森+沙嘉祥
摘要:本文利用R語(yǔ)言對(duì)Moodle平臺(tái)的數(shù)據(jù)進(jìn)行分析研究。對(duì)平臺(tái)模塊訪(fǎng)問(wèn)總體情況、學(xué)生學(xué)習(xí)時(shí)間分布統(tǒng)計(jì)、師生交互網(wǎng)絡(luò)等進(jìn)行圖形化的直觀展示。該研究有利于教師掌握學(xué)生學(xué)習(xí)的總體情況,有針對(duì)性的指導(dǎo)和督促學(xué)生。
關(guān)鍵詞:R語(yǔ)言;Moodle;數(shù)據(jù)挖掘
一、引言
隨著近年來(lái)網(wǎng)絡(luò)課程、在線(xiàn)學(xué)習(xí)等應(yīng)用的興起,學(xué)習(xí)平臺(tái)逐漸積累了大量的用戶(hù)基本數(shù)據(jù)、行為數(shù)據(jù)、網(wǎng)絡(luò)痕跡數(shù)據(jù)等信息。而"用數(shù)據(jù)說(shuō)話(huà)"、"用數(shù)據(jù)決策"等已經(jīng)成為信息時(shí)代倡導(dǎo)的未來(lái)發(fā)展基石。因此,如何利用大量的數(shù)據(jù)挖掘出有價(jià)值的信息,成為研究者重點(diǎn)要解決的問(wèn)題。
二、R語(yǔ)言簡(jiǎn)介
R語(yǔ)言是一種為統(tǒng)計(jì)計(jì)算和圖形顯示而設(shè)計(jì)的語(yǔ)言環(huán)境,是貝爾實(shí)驗(yàn)室(Bell Labortory)的Rick Becker、John Chambers和Allan Wilks開(kāi)發(fā)的S語(yǔ)言的一種實(shí)現(xiàn),提供了一系列統(tǒng)計(jì)和圖形顯示工具。它是一套開(kāi)源的數(shù)據(jù)分析解決方案,由一個(gè)龐大且活躍的全球性研究型社區(qū)維護(hù)。本文主要應(yīng)用R語(yǔ)言的如下優(yōu)勢(shì):
(1)R可以輕松地從各類(lèi)型的數(shù)據(jù)源導(dǎo)入數(shù)據(jù),包括文本文件、數(shù)據(jù)庫(kù)管理系統(tǒng)、統(tǒng)計(jì)軟件,乃至專(zhuān)門(mén)的數(shù)據(jù)倉(cāng)庫(kù)。它同樣可以將專(zhuān)門(mén)的數(shù)據(jù)輸出并寫(xiě)到這些系統(tǒng)中。
(2)具有高效的開(kāi)放性,R不僅提供功能豐富的內(nèi)置函數(shù)供用戶(hù)調(diào)用,也允許用戶(hù)編寫(xiě)自己定義的函數(shù)來(lái)擴(kuò)充功能。
(3)R擁有頂尖水準(zhǔn)的制圖功能。如果希望復(fù)雜數(shù)據(jù)可視化,那么R擁有最全面且最強(qiáng)大的一系列可用功能。
R是一個(gè)體系龐大的應(yīng)用軟件,主要包括核心的R標(biāo)準(zhǔn)包和各專(zhuān)業(yè)領(lǐng)域的其他包。R在數(shù)據(jù)分析、數(shù)據(jù)挖掘領(lǐng)域具有特別優(yōu)勢(shì)。
三、R語(yǔ)言數(shù)據(jù)分析
1.moodle平臺(tái)模塊總體訪(fǎng)問(wèn)情況研究
首先利用爬蟲(chóng)爬取到Moodle平臺(tái)用戶(hù)訪(fǎng)問(wèn)數(shù)據(jù)兩萬(wàn)余條,部分?jǐn)?shù)據(jù)展示如表1所示:
利用R語(yǔ)言提取moudle列數(shù)據(jù),即平臺(tái)模塊列,并對(duì)提取數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì),得出各模塊的詞頻數(shù)如表2所示:
利用R語(yǔ)言強(qiáng)大的繪圖功能,使用ggplot()函數(shù)對(duì)各模塊訪(fǎng)問(wèn)詞頻數(shù)繪制圓形餅狀圖,這樣可以直觀地展現(xiàn)用戶(hù)對(duì)各模塊訪(fǎng)問(wèn)情況,繪制出Moodle平臺(tái)模塊訪(fǎng)問(wèn)總體情況餅狀圖如圖1所示:
在該課程學(xué)習(xí)的過(guò)程中,師生訪(fǎng)問(wèn)平臺(tái)模塊的頻次統(tǒng)計(jì)餅狀圖,用以找出學(xué)生更熱衷于哪一版塊的學(xué)習(xí)內(nèi)容。從圖1可更加直觀的看出,師生最常訪(fǎng)問(wèn)的模塊是forum(26.3%)論壇區(qū),課堂的討論參與的人次數(shù)較多。其次是course(24.5%)課程模塊,再次是assignment(22.6%)作業(yè)模塊,然后是resource(16.1%)資源模塊??梢?jiàn),學(xué)生在該平臺(tái)的訪(fǎng)問(wèn)行為,都是比較集中地圍繞學(xué)習(xí)活動(dòng)進(jìn)行的。
2.學(xué)生學(xué)習(xí)時(shí)間分布統(tǒng)計(jì)
熱力圖是一種非常常用的統(tǒng)計(jì)圖形,該圖將兩個(gè)變量(一般是離散變量)的交叉匯總信息以顏色的形式展現(xiàn)出來(lái),而映射給顏色變量的是連續(xù)型數(shù)值變量,下面就以例子說(shuō)明熱力圖的優(yōu)勢(shì):
熱力圖可以通過(guò)stats包的heatmap()函數(shù)繪制,也可以通過(guò)ggplot2包中的geom_tile()函數(shù)或geom_raster()函數(shù)繪制,本文使用ggplot2包中的函數(shù)實(shí)現(xiàn)。
首先將所需數(shù)據(jù)進(jìn)行提取,分別提取出月份、小時(shí)、分鐘信息,部分?jǐn)?shù)據(jù)展示如表3所示:
通過(guò)對(duì)ggplot2包的調(diào)用,調(diào)用geom_tile()函數(shù),繪制學(xué)習(xí)時(shí)間分布熱力圖,如圖2所示:
進(jìn)一步按照月份進(jìn)行分類(lèi),分析學(xué)生學(xué)習(xí)訪(fǎng)問(wèn)時(shí)間是否與月份有關(guān)。在按照月份進(jìn)行分類(lèi)的同時(shí),按上、下午進(jìn)行分類(lèi),分析學(xué)生學(xué)習(xí)訪(fǎng)問(wèn)時(shí)間是否與上、下午有關(guān)。進(jìn)而細(xì)化到時(shí)間點(diǎn),分析學(xué)生學(xué)習(xí)訪(fǎng)問(wèn)時(shí)間黃金時(shí)段。利用R語(yǔ)言繪制學(xué)習(xí)時(shí)間分布圓餅圖如圖3所示:
由圖3可看出學(xué)生學(xué)習(xí)時(shí)間安排與月份無(wú)關(guān),多數(shù)學(xué)生更偏向于下午學(xué)習(xí),而每日學(xué)生學(xué)習(xí)的黃金時(shí)段為上午八點(diǎn)到十點(diǎn),下午兩點(diǎn)到四點(diǎn)。進(jìn)而通過(guò)此信息,可在此時(shí)段保證各科均有老師在線(xiàn)答疑,而其他時(shí)段,可輪流值班的安排方案,最大限度的提高教師指導(dǎo)學(xué)生的效率。
3.師生交互網(wǎng)絡(luò)分析
從Moodle平臺(tái)獲取的師生交互數(shù)據(jù)如圖4所示:
例如id=2的用戶(hù),他發(fā)了id=5的留言。在圖4中有8個(gè)回復(fù),分別是用戶(hù)id=2、30、92、66、89、49、69、2這幾個(gè)用戶(hù)。說(shuō)明id=2的用戶(hù),跟id=2、30、92、66、89、49、69、2的這幾個(gè)用戶(hù)有交互。去掉其中自己跟自己的交互,可將用戶(hù)的交互用圖5表示:
首先做數(shù)據(jù)篩選,整理出交互數(shù)據(jù)部分如表4所示:
利用R語(yǔ)言做交互分析,繪制師生交互網(wǎng)絡(luò)圖,如圖6所示:
圖6中線(xiàn)的透明度代表交互的強(qiáng)度,具體來(lái)說(shuō)就是回帖的數(shù)量越多,線(xiàn)的顏色就越深。其中2號(hào)代表老師,用紅色表示。其他代號(hào)為學(xué)生,用藍(lán)色表示。從圖中可直觀看出學(xué)生與學(xué)生,老師與學(xué)生之間的交互情況,進(jìn)發(fā)現(xiàn)哪些學(xué)生平時(shí)思考較多,哪些學(xué)生平時(shí)思考較少,從而使教師更加有針對(duì)性的教學(xué)。例如128、158號(hào)學(xué)生與大家交互較多,積極交流課程學(xué)習(xí)內(nèi)容,而在圖中沒(méi)有出現(xiàn)的學(xué)生與大家交互很少,基本沒(méi)有交流課程內(nèi)容。
四、結(jié)論
通過(guò)對(duì)研究樣本的詳細(xì)分析,實(shí)現(xiàn)Moodle平臺(tái)數(shù)據(jù)挖掘的研究。利用R語(yǔ)言,對(duì)平臺(tái)模塊訪(fǎng)問(wèn)總體情況、學(xué)生學(xué)習(xí)時(shí)間分布統(tǒng)計(jì)、師生交互網(wǎng)絡(luò)等進(jìn)行直觀展示。從而,發(fā)現(xiàn)哪些模塊學(xué)生關(guān)注度較高、哪些時(shí)間段是學(xué)生學(xué)習(xí)的黃金時(shí)段、哪些學(xué)生在平臺(tái)上的交互頻繁等情況,幫助教師更加有效的進(jìn)行教學(xué)與輔導(dǎo)。本文的研究成果,也為類(lèi)似網(wǎng)絡(luò)課程的學(xué)習(xí)與效果評(píng)價(jià)等提供參考。
參考文獻(xiàn)
[1]侯亞軍.R語(yǔ)言在數(shù)據(jù)挖掘中的運(yùn)用[J].應(yīng)用技術(shù)研究,2013
[2]李明.R語(yǔ)言與網(wǎng)站分析[M].北京:機(jī)械工業(yè)出版社,2014
[3]Matthew A.Russell.社交網(wǎng)站的數(shù)據(jù)挖掘與分析[M].北京:機(jī)械工業(yè)出版社,2015
作者簡(jiǎn)介:
崔新偉,女(1980.9-),漢族,河北唐山人,碩士,講師,研究方向:數(shù)據(jù)挖掘
項(xiàng)目資助:中央基本科研業(yè)務(wù)費(fèi)資助項(xiàng)目(JSJ1201,3142012053);2014年華北科技學(xué)院教研基金資助(計(jì)算機(jī)相關(guān)專(zhuān)業(yè)網(wǎng)絡(luò)編程課教學(xué)研究);河北省物聯(lián)網(wǎng)數(shù)據(jù)采集與分析工程技術(shù)中心建設(shè)項(xiàng)目