高 慧
(鐘山職業(yè)技術(shù)學院,江蘇 南京 210049)
近年來,大數(shù)據(jù)技術(shù)快速發(fā)展,并對社會的各個領域產(chǎn)生了深刻的影響。大數(shù)據(jù)具有Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)的特性。大數(shù)據(jù)潛在價值的重要表現(xiàn)是數(shù)據(jù)之間的關(guān)聯(lián)性,一項重要的思維轉(zhuǎn)換就是從傳統(tǒng)的因果分析向相關(guān)性分析轉(zhuǎn)換。[1]“大數(shù)據(jù)+”已經(jīng)深入到各行各業(yè),大數(shù)據(jù)對教育領域也產(chǎn)生了重大影響,并不斷與教育進行深入融合,促進智慧教育的發(fā)展。
教育大數(shù)據(jù)是大數(shù)據(jù)的一個子集,特指教育領域的大數(shù)據(jù),是整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的,一切用于教育發(fā)展并可創(chuàng)造巨大潛在價值的數(shù)據(jù)集合。[2]教育大數(shù)據(jù)在教育領域發(fā)揮著巨大的作用,是教育領域不可忽視的驅(qū)動力。通過教育大數(shù)據(jù),教學管理人員可以科學實施教育決策、改進教育質(zhì)量評價;教師可以全面了解學生知識掌握情況、智能獲取教學方法建議,根據(jù)學生的學習情況,給不同的學生推薦不同的學習內(nèi)容、學習方法建議并進行學習預警,實現(xiàn)個性化學習。大數(shù)據(jù)技術(shù)與教育領域深度融合以推動教育智慧化是未來的發(fā)展趨勢。
隨著信息技術(shù)的發(fā)展,在線學習已成為新一代的學習方式,學生自主掌握學習進度,可在任何時間、任何地點進行學習,實現(xiàn)個性化的學習。在線學習行為指學習者圍繞著一定的學習目標進行在線學習,這種學習目標可以是自行制訂,也可以是教師指定,在學習活動中所表現(xiàn)出來的各種顯性或隱性行為的集合。[3]在線學習行為可以理解成學習者在學習平臺上產(chǎn)生的所有信息的總和。傳統(tǒng)學習的學習行為大多發(fā)生在課堂上,主要由教師引導整個教學過程的進行,學習行為以群體學習為主,表現(xiàn)形式較為單一。在線學習是非線性化的,克服了傳統(tǒng)學習中單一的學習行為模式,實現(xiàn)了向多元化的學習行為發(fā)展。
在線學習行為過于龐雜,在線環(huán)境下學生的學習行為很多,如登錄、瀏覽、點擊、上傳、下載、發(fā)帖、回帖、做作業(yè)、作業(yè)提交等等。對在線學習進行分類,可更好地對在線學習行為進行分析,有利于在線學習行為的研究。根據(jù)學生在學習平臺上的學習過程,大致可把學習行為分為如下幾類:
(1)課程訪問行為:學生登錄在線學習平臺進行訪問。
(2)課程資源學習行為:學生通過在線學習平臺上的各種資源,如視頻、文檔、PPT等進行學習的行為。
(3)討論交流行為:學生在討論區(qū)與教師或其他學生相互討論、交流的行為。
(4)測試作業(yè)行為:學生參與、完成在線學習中的測試與作業(yè)任務。
學習行為分析從根本上說來,是收集和測量學習過程中產(chǎn)生的學習行為數(shù)據(jù),將學習行為分析的結(jié)果反饋給學習利益相關(guān)者,更好地理解學習發(fā)生的過程,更好地對在線學習用戶提供引導與干預、改進授課教師的教學決策和教學資源的組織方式、為平臺管理者提供有效的管理決策。[4]傳統(tǒng)課堂上,教師通常依據(jù)教學經(jīng)驗觀察學生的上課表現(xiàn)、作業(yè)成績等來對學生進行分析,發(fā)現(xiàn)有問題的學生,及時提醒干預。在線學習過程中會產(chǎn)生大量的學習行為數(shù)據(jù),如登錄時間、登錄次數(shù)、在線學習時長、觀看課程視頻時長、測試分數(shù)、測試時長、討論次數(shù)等等。通過對這些學習行為數(shù)據(jù)的統(tǒng)計、分析,可以了解學生的學習特點、學習習慣等特性,跟蹤學習進程、適時引導干預,讓在線教育更加個性化、智能化、科學化。
在線學習分析的數(shù)據(jù)源于學習過程和學習環(huán)境,數(shù)據(jù)分析主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)表示、數(shù)據(jù)應用等方面。學習分析的應用主要體現(xiàn)在學習的評價、學習成績的預測和教學的干預三個方面,以下為具體實踐內(nèi)容。
本實驗依據(jù)“好大學在線”慕課平臺產(chǎn)生的學生行為數(shù)據(jù),探究學習行為與學生考試成績之間的關(guān)系,通過學生的學習行為記錄來預測學生最終的考試成績,從而發(fā)現(xiàn)哪些因素會對學生的學習成績有顯著影響,并在考前針對有可能成績不佳的學生發(fā)出預警,讓教師可以重點關(guān)注提醒。
整體實驗框架如圖1所示。
圖1 通過學習行為預測成績的系統(tǒng)運行框架
數(shù)據(jù)采集是學習分析最底層的部分,是數(shù)據(jù)分析非常重要的一個環(huán)節(jié)。學習行為數(shù)據(jù)可采用xAPI數(shù)據(jù)標準進行采集,xAPI提供了以學生為中心的采集學習行為的數(shù)據(jù)模型。LMS學習平臺可以根據(jù)xAPI規(guī)定的標準,生成以“主詞、動詞、受詞”格式的事件報告,并且還可以在這些主謂賓中添加各種細節(jié)。典型的xAPI的學習數(shù)據(jù)描述范例如:“王某某參加了高數(shù)第一章考試,獲得98分”或者“劉某某學習了大學英語第三章知識,完成了40%學習任務”。
本次實驗共采集了“好大學在線cnmmoc.org”慕課平臺五門課程共8870人次有效學習記錄,5門課程分別為創(chuàng)新創(chuàng)業(yè)基礎課程、關(guān)愛生命、唐詩宋詞、中醫(yī)藥與傳統(tǒng)文化、自我認知與情緒管理。采集的數(shù)據(jù)包括在學習過程中產(chǎn)生的具有明顯特征的結(jié)構(gòu)化數(shù)據(jù)與在學習過程交互中產(chǎn)生的不易量化的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。有效的數(shù)據(jù)源才會得出有效的結(jié)果,原始數(shù)據(jù)為學生每一次登錄學習網(wǎng)站發(fā)生的具體學習動作,采集過程中十分注意數(shù)據(jù)的一致性與準備性,從而確保數(shù)據(jù)的準確性。采集的數(shù)據(jù)類型詳見表1。
表1 學習行為數(shù)據(jù)
在實驗中發(fā)現(xiàn),課程實際成績分布差異較大,實驗結(jié)果可能存在偏差,但受限于數(shù)據(jù)量,本次實驗將這些課程總計后以正態(tài)分布擬合。在后續(xù)更新中,希望能累積同一類課程進行模型迭代。
數(shù)據(jù)處理的任務需要對大量的雜亂的數(shù)據(jù)進行處理、存儲,并對數(shù)據(jù)進行過濾和篩選,以確保采集到的數(shù)據(jù)與學習高度相關(guān)。在特征工程中,主要從學生觀看視頻、閱讀文檔、完成測試三個方面的學習動作共衍生了390余特征。過濾掉空值超過30%的列后剩下50列,保留的特征如圖2所示。驗中并未直接刪去這些特征,而是對它們重新編碼。結(jié)果發(fā)現(xiàn)存在部分變量對樣本分布有極大影響。其中距離考試3個月前有過學習行為的學生明顯會取得更優(yōu)秀的成績,不合格率不足3%,比總體分布下降了11%。這說明距離考試時間越短的登錄、作業(yè)、答疑等學習行為,對考試成績的影響越加顯著。
圖2 過濾后的50 列特征值
計算特征之間的兩兩相關(guān)性,然后保留相關(guān)系數(shù)大于等于0.8,且不等于1的特征,總計38個,部分特征字段如圖3所示。
圖3 相關(guān)系數(shù)大于等于0.8,且不等于1 的特征
利用關(guān)鍵參數(shù)和成績關(guān)系特征重要性計算,可以得出成績和一下參數(shù)的特種重要性圖形,如圖4所示,其中距離考試90天的登錄次數(shù),視頻播放次
圖4 學習行為在XGBoost 模型中特征重要性
通過分析這些特征發(fā)現(xiàn)部分特征對最終成績顯示出了一定的影響力,例如兩個月內(nèi)最大學習時長,兩個月內(nèi)總學習時長,考前兩周的完成作業(yè)比例,平均學習時長,登錄次數(shù)等。隨著這些變量增大,學生成績分布也趨向更好的方向。但仍有相當一部分學生在學習動作發(fā)生很少的情況下取得了高分。這說明一方面可能影響這部分學生成績的因素并不在線上,另一方面可能確實存在部分學生在沒有認真學習的情況下也取得了優(yōu)良成績。這個部分的數(shù)據(jù)不在本文研究的范疇,本文研究的是通用規(guī)律,即什么特征的在線學習行為能導致什么成績。
此外,在特征分析中,部分特征存在過于稀疏問題。但為防止遺漏可能存在的顯著影響變量,實數(shù)、整體登錄次數(shù)和成績的關(guān)系最為重要。
本次實驗中選取了XGBoost、隨機森林、邏輯回歸等算法對上面篩選的特征數(shù)據(jù)進行擬合,模型最終表現(xiàn)差異不大。
XGBoost模型準確率為0.67,表現(xiàn)如下:
圖5 XGBoost 模型準確率
隨機森林模型準確率為0.65,表現(xiàn)如圖6所示:
圖6 隨機森林模型準確率
邏輯回歸模型準確率為0.65。
利用數(shù)據(jù)特征工程,舍棄了大量和成績無關(guān)的行為記錄,篩選了重要特征,并利用XGBoost和隨機森林進行了模型訓練,生成訓練好的模型文件。
在本次研究中,采用模型融合方式,當兩個算法同時認定某同學的學習行為會帶來高分(掛科)則認定該預測可能性為“1”,以此來提升算法模型的準確度,其關(guān)鍵代碼如下(其中rf.model為xgboost.model分別是上文所述生成的隨機森林模型文件以及XGBoost模型文件):
模型將采用Flask框架封裝為Web服務部署在服務器端,通過接口的方式傳輸數(shù)據(jù)。Flask是一個輕量級的Python語言的框架,可以靈活地引入各種Flask擴展包來實現(xiàn)各種Web功能,如郵件、表單、數(shù)據(jù)庫等。本文采用Flask來實現(xiàn)對Request對象的訪問,獲取Post數(shù)據(jù)。方便網(wǎng)頁傳遞參數(shù)并獲取預測結(jié)果。
實驗最后預測的準確率為70%左右。特征圖及相關(guān)系數(shù)顯示衍生變量與預測結(jié)果多為弱相關(guān)。想進一步提高準確率,需要從特征工程入手,通過咨詢有經(jīng)驗的一線教師,構(gòu)造更有效的變量。
隨著在線教育的發(fā)展,學習行為分析在教育領域中的應用越來越廣泛。傳統(tǒng)教育數(shù)據(jù)單一,不能全面展現(xiàn)學生的行為。大規(guī)模信息網(wǎng)絡技術(shù)在教育領域的應用,降低了教育數(shù)據(jù)收集、整理、分析和挖掘的門檻,正在逐步形成和積累著前所未有的教育大數(shù)據(jù)資源,為我們開展以計算技術(shù)為手段的全新智慧教育研究,提供了豐富的研究素材、建模手段和實驗環(huán)境。[5]本文主要基于教育大數(shù)據(jù),從學習者在線學習行為角度出發(fā),對在線學習行為進行分析,以預測學生最終的考試成績,研究樣本數(shù)量、特征工程的構(gòu)建、模型的訓練都需進一步優(yōu)化。同時,由于在線學習行為本身的復雜性,網(wǎng)絡環(huán)境下對學習行為的分析具有很大的研究空間與價值??梢钥隙ǖ氖?,通過大數(shù)據(jù)創(chuàng)建個性化、智慧化的教育是未來教育發(fā)展的必然趨勢,也充滿挑戰(zhàn),大數(shù)據(jù)必定會對教育領域產(chǎn)生深遠影響,使學校、教育管理者、教師、學生等受益。