關(guān)鍵詞:慕課平臺(tái):輟學(xué)預(yù)測(cè)模型:機(jī)器學(xué)習(xí);深度學(xué)習(xí);分類預(yù)測(cè)
一、引言
慕課(Massive Open Online Course簡(jiǎn)稱MOOC)是大規(guī)模開放式在線課程的總稱,慕課平臺(tái)是在線學(xué)習(xí)環(huán)境的總稱。不同于傳統(tǒng)在線課程,慕課對(duì)所有的潛在學(xué)習(xí)者開放,學(xué)習(xí)者可以免費(fèi)或以較低費(fèi)用注冊(cè)并參與課程學(xué)習(xí)。在信息技術(shù)與教育教學(xué)深度融合的大背景下,以慕課為契機(jī)的教育教學(xué)變革已然成為現(xiàn)代教育的大趨勢(shì),世界各地的慕課平臺(tái)迅速發(fā)展,引得世界各所知名大學(xué)傾情加盟,越來越多的用戶也相繼加入大規(guī)模在線課程的學(xué)習(xí),顯著增強(qiáng)了知識(shí)傳播效率,對(duì)全球高等教育產(chǎn)生重要影響。2020年受疫情影響,國(guó)內(nèi)也掀起了一場(chǎng)大規(guī)模在線學(xué)習(xí)熱潮,各個(gè)國(guó)內(nèi)慕課平臺(tái)陸續(xù)出現(xiàn)了大量?jī)?yōu)質(zhì)課程。
但隨著線上教育普及程度的提高,暴露出慕課在發(fā)展過程中存在的問題。相比于傳統(tǒng)的課堂授課,線上學(xué)習(xí)環(huán)境更自由,無學(xué)習(xí)壓力,導(dǎo)致慕課輟學(xué)現(xiàn)象非常嚴(yán)重,某些平臺(tái)的輟學(xué)率甚至高達(dá)90%,嚴(yán)重阻礙了慕課高質(zhì)量發(fā)展。輟學(xué)現(xiàn)象的存在,無論是對(duì)于平臺(tái)本身的發(fā)展還是學(xué)生、授課教師、校方都存在消極影響。
慕課高輟學(xué)率問題受到國(guó)內(nèi)外教育界高度重視,其中:王勃然等人基于學(xué)習(xí)者視域,發(fā)現(xiàn)導(dǎo)致慕課高輟學(xué)率的主要因素有學(xué)習(xí)目標(biāo)、社會(huì)互動(dòng)、學(xué)習(xí)自主、評(píng)價(jià)機(jī)制和學(xué)習(xí)期望;劉倩和李穎從投資理論的視角,對(duì)在線課程與學(xué)習(xí)者的關(guān)系進(jìn)行積極的重新詮釋,發(fā)現(xiàn)在線課程的“輟學(xué)”可被視為學(xué)習(xí)者的主動(dòng)選擇,反映了教學(xué)策略和課程資源的局限性;Goopio,J.a(chǎn)mp;Cheung,C.對(duì)更廣泛教育領(lǐng)域的慕課文獻(xiàn)進(jìn)行了系統(tǒng)性回顧,考察了MOOC的輟學(xué)現(xiàn)象和保留策略,包括提供更好的學(xué)習(xí)體驗(yàn)、增加學(xué)習(xí)支持、加強(qiáng)社交互動(dòng)等;盧曉航等使用滑動(dòng)窗口模型,動(dòng)態(tài)地追蹤課程學(xué)習(xí)者輟學(xué)行為并進(jìn)行輟學(xué)預(yù)測(cè),模型預(yù)測(cè)準(zhǔn)確率高,效果穩(wěn)定,其中支持向量機(jī)(SVM)和長(zhǎng)短期記憶(LSTM)方法建模效果較好;孫霞等人使用卷積長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(CNN-LSTM)輟學(xué)預(yù)測(cè)模型,追蹤學(xué)習(xí)者在不同學(xué)習(xí)階段的狀態(tài)變化,從而動(dòng)態(tài)地監(jiān)控學(xué)習(xí)者在不同階段的輟學(xué)行為:Ram B.Basnet等人發(fā)現(xiàn),在慕課平臺(tái)輟學(xué)率預(yù)測(cè)問題中,機(jī)器學(xué)習(xí)分類器與深度學(xué)習(xí)分類器的分類效果相當(dāng)。
新時(shí)代教育對(duì)于慕課高質(zhì)量發(fā)展的需要與突出的高輟學(xué)率現(xiàn)象之間的矛盾,引發(fā)我們的高度關(guān)注。本文將使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)分類算法,以周為單位,根據(jù)學(xué)生每周的學(xué)習(xí)行為特征,對(duì)下周學(xué)生的輟學(xué)情況作出預(yù)測(cè),動(dòng)態(tài)地追蹤學(xué)生在整個(gè)課程周期內(nèi)的輟學(xué)情況,以便校方或平臺(tái)能夠采取及時(shí)的干預(yù)措施,保證學(xué)生的學(xué)習(xí)積極性和完成率,形成良好的線上教育氛圍。
二、模型與方法
(一)機(jī)器學(xué)習(xí)方法
1.邏輯回歸(LG)
與普通線性回歸不同,通常意義上的邏輯回歸要求因變量服從二項(xiàng)分布。邏輯回歸模型是一種廣義的線性回歸分析模型,建立在線性回歸的基礎(chǔ)上,使用邏輯函數(shù)估計(jì)概率來測(cè)量分類因變量與自變量之間的關(guān)系。邏輯回歸線性回歸式:
這個(gè)過程也稱邏輯變換。
本文的分類模型將因變量y=0記作未輟學(xué),將因變量y=1記作輟學(xué),若經(jīng)過邏輯變換的結(jié)果a(x)≥0.5,則輸出結(jié)果為該生輟學(xué),若經(jīng)過邏輯變換的結(jié)果a(x)lt;0.5,則輸出結(jié)果為該生未輟學(xué)。
2.支持向量機(jī)(SVM)
基礎(chǔ)支持向量機(jī)是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其主要思想是找到一個(gè)超平面(決策面),盡可能使分類間隔最大化,即分類錯(cuò)誤風(fēng)險(xiǎn)最小化和分類邊界最大化,如圖1所示。
3.決策樹(DT)
決策樹是一種常見的監(jiān)督學(xué)習(xí)算法,一般有兩個(gè)步驟:一是利用訓(xùn)練集從最頂層的根節(jié)點(diǎn)開始,向下依次判斷,形成一棵決策樹:二是利用建立好的決策樹對(duì)樣本集進(jìn)行分類。
(二)深度學(xué)習(xí)方法
1.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
RNN是一種專門用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以在分層結(jié)構(gòu)中實(shí)現(xiàn)預(yù)測(cè),也可以利用組成向量對(duì)輸出進(jìn)行分類。算法步驟包括參數(shù)初始化、前向傳播、損失計(jì)算、反向傳播、參數(shù)更新、重復(fù)訓(xùn)練、模型評(píng)估等。
2.卷積神經(jīng)網(wǎng)絡(luò)(CNN)
CNN是一種專門用于處理具有網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)模型,通過卷積、池化等操作來提取輸入數(shù)據(jù)的特征,特征經(jīng)過全連接層進(jìn)行分類或回歸,利用損失函數(shù)評(píng)估模型輸出與真實(shí)標(biāo)簽的差異,并通過反向傳播更新參數(shù)、優(yōu)化模型。它是一種強(qiáng)大的深度學(xué)習(xí)模型,在計(jì)算機(jī)視覺領(lǐng)域有著廣泛的應(yīng)用。
3.長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)
LSTM是基于RNN的一種改進(jìn)型結(jié)構(gòu),更適合處理長(zhǎng)序列數(shù)據(jù)。相較于RNN的隱藏單元,LSTM的隱藏單元的內(nèi)部結(jié)構(gòu)更加復(fù)雜,信息在沿著網(wǎng)絡(luò)流動(dòng)的過程中,通過增加線性干預(yù)使得LSTM能夠?qū)π畔⒂羞x擇地添加或者減少。LSTM能夠保持信息的長(zhǎng)期儲(chǔ)存,因此是實(shí)際應(yīng)用中更為有效的序列模型。
LSTM中每一個(gè)神經(jīng)元內(nèi)部加入了輸入門、輸出門和忘記門,LSTM網(wǎng)絡(luò)的基本單元如圖2所示。這些門控單元使得LSTM能夠更好地處理長(zhǎng)期依賴關(guān)系,同時(shí)有效地控制梯度流動(dòng),從而提高了模型的性能和訓(xùn)練效率。在訓(xùn)練過程中,LSTM使用誤差函數(shù)計(jì)算預(yù)測(cè)輸出與實(shí)際標(biāo)簽之間的差異,并利用梯度下降算法調(diào)整各個(gè)門控單元的參數(shù),使得模型逐漸優(yōu)化,從而更好地適應(yīng)序列數(shù)據(jù)的特征。
4.卷積長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(CNN-LSTM)
CNN-LSTM算法將卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)相結(jié)合,前者用于提取輸入數(shù)據(jù)的局部特征,后者用于捕獲序列中的長(zhǎng)期依賴關(guān)系。CNN的主要優(yōu)勢(shì)在于無需人工監(jiān)督即可自動(dòng)識(shí)別相關(guān)特征,LSTM的主要優(yōu)勢(shì)在于能夠有效地發(fā)掘序列中的時(shí)間依賴關(guān)系,結(jié)合兩者可以實(shí)現(xiàn)高效的特征提取和序列建模。
三、慕課輟學(xué)分類預(yù)測(cè)模型的建立
(一)數(shù)據(jù)來源
本文數(shù)據(jù)集來自KDD Cup 2015(http:∥www.kdd-cup2015. com),來源于中國(guó)最大的慕課平臺(tái)之一——“學(xué)堂在線”。該數(shù)據(jù)集中名為“enrollment-train”的表格記錄了學(xué)習(xí)者在2013年10月至2014年8月的課程注冊(cè)信息,名為“l(fā)og_train”的表格記錄了來自39門課程的79186名學(xué)生的120542條課程活動(dòng)日志。本文提取學(xué)生人數(shù)最多的課程“8lUZttljjwBFYMj5u38WNKCSVA4IJSDv”的所有數(shù)據(jù)進(jìn)行分類模型訓(xùn)練,所得模型在所有課程間具有可推廣性。
本文所提取的數(shù)據(jù)包含在2013年12月11日至2014年1月9日約五周的時(shí)間內(nèi)12004名學(xué)生共652701條學(xué)習(xí)行為記錄,示例數(shù)據(jù)如表1所示。
本表格包含用戶ID、事件發(fā)生時(shí)間、事件訪問來源、事件、事件操作對(duì)象,其中事件訪問來源有2種,分別是瀏覽器和服務(wù)器,事件有7種,分別是完成作業(yè)、觀看視頻、訪問課程內(nèi)容、查看維基百科、參與課程討論、訪問課程其它內(nèi)容、關(guān)閉頁(yè)面。
(二)數(shù)據(jù)預(yù)處理
將所有學(xué)習(xí)者共30天的學(xué)習(xí)行為數(shù)據(jù)按照時(shí)間分為五周,前28天按照每周七天分為四周,最后兩天歸為第五周,將五周分別命名為week0-week4。本文欲提取week (t)的學(xué)習(xí)行為特征,對(duì)week(t+1)的學(xué)生是否輟學(xué)的情況進(jìn)行預(yù)測(cè),五周數(shù)據(jù)共需要進(jìn)行四次模型訓(xùn)練。為保障分類的準(zhǔn)確率,對(duì)于未開始學(xué)習(xí)的學(xué)生,不參與到模型訓(xùn)練當(dāng)中。
如此便能通過所訓(xùn)練的分類預(yù)測(cè)模型,根據(jù)學(xué)生本周的學(xué)習(xí)行為,預(yù)測(cè)出下周學(xué)生是否會(huì)輟學(xué),動(dòng)態(tài)地追蹤學(xué)生在整個(gè)課程周期內(nèi)的輟學(xué)情況,便于平臺(tái)或授課教師提前采取干預(yù)措施,保障下一周的課程出勤率。
(三)因變量提取
本文將輟學(xué)定義為:從本周開始不再存在學(xué)習(xí)行為。若某學(xué)生某周存在學(xué)習(xí)行為,則記為1,若某學(xué)生某周不存在學(xué)習(xí)行為,則記為0,便能得到每名學(xué)生每周是否存在學(xué)習(xí)行為匯總表,示例如表2所示。
不同于根據(jù)學(xué)生是否存在學(xué)習(xí)行為直接定義學(xué)生是否輟學(xué),本文根據(jù)該表格,先進(jìn)行反向的周輟學(xué)標(biāo)簽提取,從week4到week0倒序地查看每周每名學(xué)牛是否存在學(xué)習(xí)行為.杏看該學(xué)牛從哪一周開始不存在任何學(xué)習(xí)行為。再進(jìn)行正向的周輟學(xué)標(biāo)簽提取,從week0到week4順序地查看每周每名學(xué)生是否存在學(xué)習(xí)行為,查看該學(xué)生從哪一周開始學(xué)習(xí)。最后根據(jù)正向反向周學(xué)習(xí)特征,綜合提取學(xué)生在整個(gè)學(xué)習(xí)周期內(nèi)的輟學(xué)標(biāo)簽,示例如表3所示。
將標(biāo)簽為“未輟學(xué)”記為0,標(biāo)簽為“輟學(xué)”記為1,標(biāo)簽為“未開始”則記為2,在后續(xù)的預(yù)測(cè)當(dāng)中,只有標(biāo)簽為0或1才作為因變量y參與分類模型的訓(xùn)練,即在進(jìn)行每一周輟學(xué)情況的分類預(yù)測(cè)之前,都根據(jù)標(biāo)簽篩選進(jìn)入分類器訓(xùn)練的樣本。
(四)自變量提取
本文根據(jù)每名學(xué)生的學(xué)習(xí)行為數(shù)據(jù),進(jìn)行自變量提取?;谠紨?shù)據(jù)采用頻數(shù)統(tǒng)計(jì)方法,通過7種類型的活動(dòng)和2種類型的訪問來源分別提取第t周的30個(gè)典型行為特征,所構(gòu)建指標(biāo)體系如表4所示,包含總頻數(shù)和平均頻數(shù)。計(jì)算總頻數(shù)和平均頻數(shù)都有助于更全面地了解學(xué)生的學(xué)習(xí)行為特征,提供了不同層面的信息和視角。
(五)劃分訓(xùn)練集和測(cè)試集
本文欲使用week (t)的學(xué)習(xí)行為特征作為自變量,用week (t+1)的學(xué)生是否輟學(xué)的情況作為因變量,訓(xùn)練分類預(yù)測(cè)模型,并劃分訓(xùn)練集和測(cè)試集評(píng)估模型的分類效果,因此五周數(shù)據(jù)共需要進(jìn)行四次模型訓(xùn)練。本文所提取的自變量和因變量匯總表示例如表5所示,本文一共得到四張匯總表,每個(gè)模型都經(jīng)過四次訓(xùn)練。
設(shè)置train-test-split函數(shù)中的stratify參數(shù),根據(jù)y=0和y=l的原始比例,將數(shù)據(jù)集按照3:7劃分為訓(xùn)練集和測(cè)試集。
(六)模型訓(xùn)練和評(píng)價(jià)指標(biāo)
本文選用機(jī)器學(xué)習(xí)分類模型LG、SVM、DT和深度學(xué)習(xí)算法RNN、CNN、LSTM、CNN-LSTM進(jìn)行分類預(yù)測(cè),并選用準(zhǔn)確率(Accuracy)作為模型效果的評(píng)估指標(biāo),由混淆矩陣:
True Positive(TP):將正類預(yù)測(cè)為正類數(shù);
True Negative(TN):將負(fù)類預(yù)測(cè)為負(fù)類數(shù);
四、實(shí)驗(yàn)結(jié)果分析
不同的分類預(yù)測(cè)模型的每個(gè)預(yù)測(cè)步驟的準(zhǔn)確率如表5所示,其中“0-1”表示用week0的學(xué)習(xí)行為特征預(yù)測(cè)weekl是否輟學(xué),繪制折線圖如圖3所示。
如圖3所示,第一步分類預(yù)測(cè)的準(zhǔn)確率基本達(dá)到0.68,最后一步分類預(yù)測(cè)的準(zhǔn)確率基本達(dá)到0.87,隨著課程的持續(xù)進(jìn)行,能夠獲得更多的樣本數(shù)據(jù)和特征,分類預(yù)測(cè)模型的準(zhǔn)確率越高。
決策樹的表現(xiàn)相對(duì)較差,準(zhǔn)確率最低。這可能是因?yàn)闆Q策樹在處理數(shù)值型數(shù)據(jù)時(shí)容易出現(xiàn)過擬合的問題,而且很難捕捉到不同特征之間的相關(guān)性。
邏輯回歸和支持向量機(jī)的表現(xiàn)相似,準(zhǔn)確率高于決策樹,但略低于CNN、RNN、LSTM和CNN-LSTM。這可能是因?yàn)檫壿嫽貧w和支持向量機(jī)在處理數(shù)值型數(shù)據(jù)時(shí)可以較好地捕捉線性關(guān)系,但對(duì)于更復(fù)雜的關(guān)系可能表現(xiàn)不佳。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)可以捕捉到數(shù)據(jù)中的時(shí)間序列信息和空間信息,從而更好地處理本文數(shù)據(jù)。
五、總結(jié)與展望
本文將課程的所有參與者的學(xué)習(xí)行為數(shù)據(jù)按時(shí)間分為五周,分別進(jìn)行頻數(shù)統(tǒng)計(jì)提取出與輟學(xué)相關(guān)的30個(gè)自變量,根據(jù)每周是否存在學(xué)習(xí)行為,提取出是否輟學(xué)的標(biāo)簽作為因變量,選用傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型進(jìn)行每周學(xué)生輟學(xué)情況的預(yù)測(cè)。以準(zhǔn)確率作為模型分類效果的判別標(biāo)準(zhǔn),總體來說,隨著課程的推進(jìn)分類效果越來越好,決策樹的分類效果最差,四種神經(jīng)網(wǎng)絡(luò)模型分類預(yù)測(cè)效果優(yōu)良,尤其是CNN-LSTM。
對(duì)于慕課平臺(tái)學(xué)生輟學(xué)情況預(yù)測(cè)問題,為提高分類的準(zhǔn)確率,可以利用網(wǎng)格搜尋法調(diào)整模型參數(shù),選取性能最好的參數(shù)組合作為最終模型的參數(shù);使用集成學(xué)習(xí)方法,將多個(gè)分類器集成起來;進(jìn)行特征選擇,選擇最具有區(qū)分性的特征作為自變量;使用更深層次的神經(jīng)網(wǎng)絡(luò)模型,如CNN和RNN的變體,注意力機(jī)制等,從而更好地處理數(shù)據(jù)中的關(guān)聯(lián)信息和復(fù)雜信息;或使用遷移學(xué)習(xí)方法,從已有的任務(wù)中學(xué)習(xí)到通用的特征應(yīng)用于新的任務(wù)中。