嚴(yán) 志
(長沙民政職業(yè)技術(shù)學(xué)院軟件學(xué)院,長沙 410000)
隨著高校數(shù)字化建設(shè)及信息化管理時代的到來,傳統(tǒng)教育模式及教育方法在新技術(shù)的沖擊下正在發(fā)生悄然變革,探索從海量教育數(shù)據(jù)中挖掘?qū)W生學(xué)習(xí)規(guī)律和學(xué)習(xí)方式,讓真實的教學(xué)數(shù)據(jù)幫助教師實現(xiàn)教學(xué)工作方式轉(zhuǎn)變,讓管理者主動把握學(xué)生的行為特點和規(guī)律,讓教學(xué)與管理實現(xiàn)科學(xué)化、智能化、精準(zhǔn)化與個性化。
傳統(tǒng)的高校教育教學(xué)工作中,對學(xué)生學(xué)習(xí)生活狀態(tài)的把控和判斷主要依賴相關(guān)授課老師或輔導(dǎo)員的經(jīng)驗和主觀判斷,隨著高校信息化建設(shè)的發(fā)展,各類信息系統(tǒng)的運用為大數(shù)據(jù)技術(shù)分析高校學(xué)生的學(xué)習(xí)生活規(guī)律提供了數(shù)據(jù)基礎(chǔ),同時也為創(chuàng)新高校教育教學(xué)工作提供了可能性。沈貴慶利用大數(shù)據(jù)平臺對學(xué)生學(xué)習(xí)行為數(shù)據(jù)進(jìn)行存儲,采用數(shù)據(jù)挖掘算法和云計算技術(shù)獲取學(xué)生學(xué)習(xí)隱形行為。王改花等采用數(shù)據(jù)挖掘工具對網(wǎng)絡(luò)學(xué)習(xí)者進(jìn)行聚類分析,將學(xué)生群體分為4類,得出學(xué)習(xí)行為與學(xué)習(xí)效果密切相關(guān);胡學(xué)鋼等通過認(rèn)知跟蹤模型分析學(xué)生作答習(xí)題的得分表現(xiàn),追蹤學(xué)生隨時間變化的認(rèn)知狀態(tài),從而預(yù)測學(xué)生在未來時間的作答表現(xiàn)。張進(jìn)良等以在線教育平臺為載體構(gòu)建智能化學(xué)習(xí)環(huán)境,建立以數(shù)據(jù)支持的在線學(xué)習(xí)行為研究,通過對學(xué)習(xí)行為數(shù)據(jù)的挖掘與分析,促進(jìn)學(xué)生自主反思、自主發(fā)現(xiàn)問題,為學(xué)習(xí)者提供個性化學(xué)習(xí)服務(wù)。徐蕾等梳理歸納了國內(nèi)外教育大數(shù)據(jù)在服務(wù)教師教學(xué)、輔助學(xué)生學(xué)習(xí)、優(yōu)化高層決策、協(xié)助學(xué)校管理等方面的研究現(xiàn)狀,提出了教育大數(shù)據(jù)在實時統(tǒng)籌學(xué)生動態(tài)發(fā)展、優(yōu)化教師教學(xué)質(zhì)量、動態(tài)規(guī)劃資源分配、高校智能決策四方面的技術(shù)路徑選擇。目前,美國教育部門構(gòu)建“學(xué)習(xí)分析系統(tǒng)”,通過數(shù)據(jù)驅(qū)動學(xué)校,分析變革教育,幫助預(yù)測學(xué)生未來的學(xué)習(xí)行為,為教育工作者提供更多、更好、更精確的信息。澳大利亞臥龍崗大學(xué)開發(fā)了社會網(wǎng)絡(luò)可視化工具,構(gòu)建在校大學(xué)生日常學(xué)習(xí)行為分析系統(tǒng)。
教育大數(shù)據(jù)的研究對象包括教育管理者、教師、學(xué)生和家長,其本質(zhì)還是改善管理效率,優(yōu)化教師教學(xué)方法以及提高學(xué)生成績。通過學(xué)生學(xué)習(xí)生活中一系列重要的信息,使用大數(shù)據(jù)分析和可視化手段將其完整地呈現(xiàn)出來,為評優(yōu)評先、教學(xué)質(zhì)量提升及貧困生鑒別等提供服務(wù),優(yōu)化高校決策機(jī)構(gòu)與教師對教育資源的配置,進(jìn)一步提升教師的教學(xué)質(zhì)量與學(xué)生的成長環(huán)境。教育大數(shù)據(jù)使得教學(xué)信息在高校決策者、教師、學(xué)生與家長之間完整無阻地流動,讓教學(xué)效果變得可見,讓決策過程有據(jù)可依,其對教學(xué)質(zhì)量提升具有重大的意義。本文以教育數(shù)據(jù)為依托,構(gòu)建教育可視化分析系統(tǒng),通過密度聚類算法分析學(xué)情與考勤、學(xué)情穩(wěn)定性,挖掘教育規(guī)律,為信息化決策提供依據(jù)。
學(xué)情分析系統(tǒng)的主要原理是:將MOOC課程資源數(shù)據(jù)、第三方網(wǎng)絡(luò)數(shù)據(jù)源搜集整理,數(shù)據(jù)經(jīng)整理后以規(guī)范化的數(shù)據(jù)保存到關(guān)系數(shù)據(jù)庫或文件中,對要研究的數(shù)據(jù)進(jìn)行聚類分析,再使用可視化框架工具如echarts等以圖形方式展示,系統(tǒng)的核心框架如圖1所示。
圖1 系統(tǒng)框架
在圖1所示框架中,將第三方數(shù)據(jù)和MOOC數(shù)據(jù)爬取存儲到關(guān)系數(shù)據(jù)庫中,然后通過SQL語句對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,形成數(shù)據(jù)匯總分析,然后再執(zhí)行聚類算法分析,形成規(guī)范化的可視化數(shù)據(jù),并將結(jié)果顯示到Web前端,系統(tǒng)用戶通過可視化系統(tǒng)查看數(shù)據(jù)分析結(jié)果,方便用戶查看學(xué)情效果。
以普通教師為例,通過數(shù)據(jù)可視化系統(tǒng)可以查看所在班級的成績、學(xué)習(xí)幫扶推薦、班級消費、班級考勤,其主要功能如圖2所示。
圖2 教學(xué)管理框架
本文采用線上資源課程數(shù)據(jù)結(jié)合第三方數(shù)據(jù)源作為本系統(tǒng)的數(shù)據(jù)源模型,搜集整理后的數(shù)據(jù)表格包含文章表、成績表、學(xué)生表、教師表、考勤表、考勤類別表、消費記錄表等數(shù)據(jù)。物理表模型如圖3所示。
圖3 物理表模型
給定集合,包含了個對象={,,,…,X},其中每個對象包含個維度屬性,DBSCAN算法基于一組“鄰域”參數(shù)(,MinPts)來刻畫樣本分布的緊密程度。
●-鄰域:對X∈,其-鄰域包含樣本集中與X的距離不大于的樣本,即(X)={X∈|dist(X,X)≤},其中距離函數(shù)dis(t)是歐式距離。
●核心對象(core-object):若X的-鄰域至少包含個樣本,即||(X)≥,則稱是一個核心對象。
●密度直達(dá)(directly density-reachable):若X位于X的-鄰域中,且X是核心對象,則稱X由X密度直達(dá)。
●密度可達(dá)(density-reachable):對X與X,若存在樣本序列,,,…,p,其中=X,p=X,且p由p密度直達(dá),則稱X由X密度直達(dá)。
●密度相連(density-connected):對X與X,若存在X使得X與X均由X密度可達(dá),則稱X與X密度相連。
如圖4所示,設(shè)定=3,虛線代表-鄰域,則是核心對象,由密度直達(dá),由密度可達(dá),與密度相連。
圖4 DBSCAN聚類關(guān)系
DBSCAN算法在數(shù)據(jù)集中任選一個核心對象為種子,由該節(jié)點計算密度可達(dá)生成的聚類簇,遍歷數(shù)據(jù)集中所有核心對象形成最終聚類簇。該算法具體過程如下所示:
輸入:樣本集D={,,,...,x}
鄰域參數(shù)(,)
過程:
1:初始化核心對象集合:Ω=?
2:for j=1,2,…,do
通過考勤表t_kq、學(xué)生表t_student和成績表t_chengji三個表之間的關(guān)系,查找出學(xué)習(xí)成績與學(xué)生考勤之間的關(guān)系,形成考勤成績元組模型:
x={_,_,_,_};其中:考勤學(xué)生學(xué)號,:考勤方式,:考核課程平均分,:個人考試成績。
將考勤數(shù)據(jù)形成樣本集D={x,x,…,x}輸入到DBSCAN密度查詢算法進(jìn)行聚類分析得到圖5所示結(jié)果。其中縱軸0代表平均成績,橫軸代表遲到次數(shù)。通過考勤次數(shù)與學(xué)科成績的聚類關(guān)系得出,成績較好的學(xué)生考勤數(shù)據(jù)較好。
圖5 考勤次數(shù)與成績分布
圖6給出了考勤數(shù)據(jù)與學(xué)生成績的比例,從中可以看出遲到次數(shù)較少的優(yōu)等生比例較高,遲到次數(shù)達(dá)到20次以上差等生的比例接近100%。
圖6 考勤與成績優(yōu)劣關(guān)系
通過研究成績表的各科課程平均成績和個人標(biāo)準(zhǔn)差成績,對學(xué)生成績的穩(wěn)定性進(jìn)行探究。
選擇數(shù)據(jù)元組
x={_,_,_,_},其中:課程編號,:課程平均成績,:課程個人成績,:學(xué)科成績標(biāo)準(zhǔn)差。
采用DBSCAN算法進(jìn)行分析得到學(xué)生學(xué)科成績的穩(wěn)定性,如圖7所示。標(biāo)準(zhǔn)差接近20的為非穩(wěn)定成績?nèi)后w,標(biāo)準(zhǔn)差在10以內(nèi)的群體為學(xué)習(xí)成績穩(wěn)定群體。
圖7 學(xué)生學(xué)科成績穩(wěn)定性分析
本系統(tǒng)采用前端可視化框架,數(shù)據(jù)分析使用密度DBSCAN聚類算法,數(shù)據(jù)源基于在線課程和第三方數(shù)據(jù)結(jié)合而成。通過分析系統(tǒng)架構(gòu)及聚類算法的原理,挖掘分析成績與考勤的關(guān)系、學(xué)生的成績穩(wěn)定性,為大數(shù)據(jù)學(xué)情分析提供了案例。由于統(tǒng)計的數(shù)據(jù)不夠精細(xì),以上分析不一定代表實際的結(jié)果,為使大數(shù)據(jù)更加精準(zhǔn)地為教學(xué)服務(wù),需要充分記錄詳盡數(shù)據(jù),分析比較各類算法,得到更精準(zhǔn)的分析結(jié)果,為服務(wù)學(xué)校管理提供幫助。