高婕梅 韓駿 劉菁
摘 要 首先提出MOOCs平臺(tái)高注冊(cè)率和高流失率成明顯反差這一嚴(yán)重現(xiàn)象,進(jìn)而提出改進(jìn)MOOCs平臺(tái)的一些建議,使得可以收集更多的有關(guān)學(xué)習(xí)者信息的數(shù)據(jù),緊接著通過這些數(shù)據(jù)運(yùn)用Clementine平臺(tái)中的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分析技術(shù)來(lái)研究MOOCs學(xué)習(xí)者的流失狀況,建立起MOOCs學(xué)習(xí)者流失的基本模型。最后通過輸入需要預(yù)測(cè)的學(xué)習(xí)者的基本數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)流失預(yù)測(cè),如果發(fā)現(xiàn)該學(xué)習(xí)者有流失的可能性,即可采取必要的措施來(lái)挽留學(xué)習(xí)者。
關(guān)鍵詞 Clementine平臺(tái);神經(jīng)網(wǎng)絡(luò);MOOCs平臺(tái);學(xué)習(xí)者流失
中圖分類號(hào):G434 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1671-489X(2016)04-0001-06
Loss Analysis and Prediction of MOOCs based on Clementine Neural Network//GAO Jiemei, HAN Jun, LIU Jing
Abstract In this paper, we first propose the serious phenomenon of the high registration rate and high loss rate of MOOCs platform, and then put forward some suggestions to improve the MOOCs platform, so that we can collect more information about the learner, and then use Clementine neural network data analysis technology to study the loss of learners on MOOCs platform, and establish the basic neural network model of MOOCs. Finally, input the basic data of the learners through the neural network to predict whether the learners will loss. If it is found that the learner has the possibility of loss, then it is necessary to take the necessary measures to retain the learners.
Key words Clementine; neural network; MOOCs platform; lost learners
近兩年來(lái)MOOCs無(wú)論在國(guó)內(nèi)還是在國(guó)外得到飛速發(fā)展,各大學(xué)都在爭(zhēng)先恐后建立自己的MOOCs課程,但同時(shí)大規(guī)模的注冊(cè)學(xué)習(xí)者卻與大規(guī)模的流失率和小規(guī)模的通過率形成明顯的反差。據(jù)統(tǒng)計(jì),Coursera平臺(tái)上的課程完成率只有7%~9%,可見大部分注冊(cè)學(xué)習(xí)者在中途流失了。其中效果比較好的課程是斯坦福大學(xué)于2011年夏季開設(shè)的“人工智能”,注冊(cè)學(xué)習(xí)者多達(dá)16萬(wàn)名,然而只有2.3萬(wàn)名學(xué)習(xí)者完成學(xué)業(yè),通過率只有14%[1];杜克大學(xué)開設(shè)的“生物電學(xué):定量方法”課程注冊(cè)學(xué)生多于1萬(wàn)名,最后只有261名學(xué)生獲得成績(jī)證書,通過率不到3%;Edx平臺(tái)上的“電路與電子”課程注冊(cè)學(xué)生人數(shù)超過15萬(wàn),但是最終只有7157名取得證書,完成率為4.62%[2]。那么這種高注冊(cè)率和低通過率的反差能給后續(xù)課程的開設(shè)者提供什么反思呢?能否讓MOOCs不再重蹈精品課程建設(shè)的覆轍呢?為了降低MOOCs的流失率,同時(shí)提高其通過率,本研究引入Clementine平臺(tái)中的神經(jīng)網(wǎng)絡(luò)模型對(duì)MOOCs學(xué)習(xí)者的流失進(jìn)行分析與預(yù)測(cè),并對(duì)MOOCs平臺(tái)的建設(shè)和課程開發(fā)者提供一些有效的建議。
1 Clementine
Clementine是一款數(shù)據(jù)挖掘平臺(tái),通過此平臺(tái)可以快速建立預(yù)測(cè)性模型,并將其應(yīng)用于后續(xù)活動(dòng)之中,從而起到改進(jìn)決策的作用。Clementine中提供了許多優(yōu)秀的人工智能、統(tǒng)計(jì)分析模型,比如決策列表、數(shù)值預(yù)測(cè)器、時(shí)間序列、回歸、二元分類器、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等[3]。此外,Clementine平臺(tái)是基于圖形化界面的,把這些高深的挖掘算法和技術(shù)封裝起來(lái),整個(gè)數(shù)據(jù)挖掘的全流程都可以從界面上處理和觀察,使得人們更加易于操作。
本研究選擇Clementine平臺(tái)中的神經(jīng)網(wǎng)絡(luò)模型對(duì)MOOCs學(xué)習(xí)者的流失進(jìn)行分析和預(yù)測(cè)。神經(jīng)網(wǎng)絡(luò)是模仿人類的大腦結(jié)構(gòu)和功能。此模型中的處理單元是通過模擬大量類似人腦中的神經(jīng)元的抽象形式,其處理方式是模仿人腦的信息加工處理方式把處理單元相互連接而作用,通過各組成部分非同步化的轉(zhuǎn)變,進(jìn)而實(shí)現(xiàn)信息的整體處理任務(wù),同時(shí)也使其具有高速的信息處理能力[4]。
Clementine平臺(tái)中的神經(jīng)網(wǎng)絡(luò)屬于BP(Back Propa-gation)神經(jīng)網(wǎng)絡(luò),一般包括輸入層、中間層、輸出層。輸入層各神經(jīng)元負(fù)責(zé)接收來(lái)自外界的輸入信息,并傳遞給中間層;中間層是內(nèi)部信息處理層,負(fù)責(zé)信息變換,可以設(shè)計(jì)為單隱層或者多隱層結(jié)構(gòu);最后一個(gè)隱層把信息傳遞到輸出層進(jìn)一步處理。BP神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)從輸入到輸出的任意復(fù)雜的非線性映射關(guān)系,并具有良好的泛化能力,能夠完成復(fù)雜模式識(shí)別的任務(wù)[5]。
2 MOOCs平臺(tái)的改進(jìn)
目前,包括“三座大山”(Edx、Udacity、Cours-era)在內(nèi)的許多MOOCs平臺(tái),學(xué)習(xí)者注冊(cè)時(shí)不需要填寫太多的信息,主要包括用戶名和電子郵箱。雖然這樣簡(jiǎn)化了注冊(cè)步驟,使得學(xué)習(xí)者操作簡(jiǎn)單,但同時(shí)也失去了解學(xué)習(xí)者具體情況的機(jī)會(huì)。(雖然有一些研究者做過對(duì)MOOCs學(xué)習(xí)的問卷調(diào)查,但是他們都是通過線下廣泛發(fā)放問卷而并沒有針對(duì)某門課的學(xué)習(xí)者進(jìn)行特殊研究。)MOOCs之所以有如此多的學(xué)習(xí)者流失,就是因?yàn)槠渥钪匾囊粋€(gè)特點(diǎn)——“為學(xué)習(xí)者提供個(gè)性化學(xué)習(xí)”并沒有得到真正的體現(xiàn)。為了能夠提供個(gè)性化的學(xué)習(xí),就需要對(duì)學(xué)習(xí)者特征進(jìn)行分析,那么MOOCs平臺(tái)當(dāng)前收集到的學(xué)習(xí)者的信息是遠(yuǎn)遠(yuǎn)不夠的。
為了能夠降低某一門MOOCs的流失率,本研究建議學(xué)習(xí)者開始學(xué)習(xí)該門課程之前,必須做一個(gè)問卷表,后臺(tái)可以收集問卷數(shù)據(jù),根據(jù)收集到的樣本數(shù)據(jù),將已流失學(xué)習(xí)者和未流失學(xué)習(xí)者的屬性特征作為研究對(duì)象,將數(shù)據(jù)組成訓(xùn)練數(shù)據(jù)集,利用Clementine平臺(tái)中的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,建立MOOCs學(xué)習(xí)者流失分析模型。Clementine同時(shí)提供分析模型結(jié)果值,這個(gè)值便可以說明MOOCs學(xué)習(xí)者是否有流失的可能。為了驗(yàn)證模型建立的準(zhǔn)確性,可以建立與上述訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)相似的數(shù)據(jù)集合組成檢驗(yàn)數(shù)據(jù)集,進(jìn)行驗(yàn)證和模型評(píng)估。待驗(yàn)證后,即可以用建立的分析模型對(duì)現(xiàn)有的MOOCs學(xué)習(xí)者進(jìn)行流失預(yù)測(cè),并給出結(jié)果[6]。根據(jù)預(yù)測(cè)的結(jié)果,教師可以了解到學(xué)生流失的可能性,并做出相應(yīng)的預(yù)防性措施。
表1是為了了解每位學(xué)習(xí)者的一些具體情況而設(shè)計(jì)的問卷表,學(xué)習(xí)者在MOOCs平臺(tái)上開始學(xué)習(xí)一門課程之前必須進(jìn)行填寫,以便于該門課程的教師可以收集到數(shù)據(jù),進(jìn)而對(duì)學(xué)生流失群體進(jìn)行研究。
3 基于Clementine神經(jīng)網(wǎng)絡(luò)的MOOCs學(xué)習(xí)者流失模型的構(gòu)建與預(yù)測(cè)
數(shù)據(jù)指標(biāo)體系的構(gòu)建 根據(jù)表1的問卷可以提取出MOOCs學(xué)習(xí)者流失預(yù)測(cè)的指標(biāo)體系,又因?yàn)镃lementine神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的建立必須知道該學(xué)生最終是否流失,所以在問卷信息的基礎(chǔ)上必須再加上是否流失這一指標(biāo)。最終形成表2所示MOOCs學(xué)習(xí)者流失預(yù)測(cè)的指標(biāo)體系。其中第一欄是指標(biāo),第二欄備注中把每一項(xiàng)指標(biāo)可能的值量化為數(shù)字,便于下文研究中預(yù)測(cè)模型的構(gòu)建。
建立數(shù)據(jù)庫(kù) 根據(jù)MOOCs學(xué)習(xí)者流失預(yù)測(cè)的指標(biāo)體系,在MySQL數(shù)據(jù)庫(kù)中構(gòu)建表3,并設(shè)置各個(gè)字段的屬性。由于本研究是對(duì)現(xiàn)有的MOOCs平臺(tái)提出的改進(jìn)建議,并未進(jìn)行真正的實(shí)施,沒有得到真實(shí)的數(shù)據(jù),因此在基于Clementine神經(jīng)網(wǎng)絡(luò)的MOOCs學(xué)習(xí)者流失模型的構(gòu)建過程中,使用的數(shù)據(jù)都是通過在問卷網(wǎng)中發(fā)放問卷收集而來(lái),問卷雖然沒有能夠針對(duì)具體某一門課程,但是仍然可以在一定程度上反映出MOOCs學(xué)習(xí)過程中學(xué)習(xí)者的流失狀況,并且與真實(shí)的數(shù)據(jù)具有一致性,所以可為后續(xù)的研究提供一定的借鑒。
建立神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型 首先在Clementine中建立神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程,如圖1所示。建立好流程后便可以開始進(jìn)行具體的操作。
第一步:使用Clementine中的sql節(jié)點(diǎn),連接MySQL數(shù)據(jù)庫(kù),選擇表moocsinfo導(dǎo)入訓(xùn)練集數(shù)據(jù),如圖2所示。
第二步:使用過濾節(jié)點(diǎn),過濾掉對(duì)訓(xùn)練沒有用的輸入輸出字段。本研究中過濾掉姓名user_nm字段,如圖3所示。
第三步:使用抽樣節(jié)點(diǎn),抽取樣本數(shù)據(jù)如圖4所示。由于每門MOOCs的注冊(cè)學(xué)習(xí)者人數(shù)非常多,在Clementine中建立神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)過程中可以進(jìn)行取樣,采樣方法有多種,可以根據(jù)具體情況選擇合適的抽樣方法,本研究中采用隨機(jī)抽樣。
第四步:使用類型節(jié)點(diǎn),設(shè)置訓(xùn)練集的輸入,輸出字段如圖5所示。該訓(xùn)練集中用戶是否流失字段is_flowaway是訓(xùn)練集的輸出字段。其他過濾后的字段作為訓(xùn)練集的輸入字段。
第五步:使用神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)訓(xùn)練數(shù)據(jù),如圖6所示。
設(shè)置完成之后,基于該訓(xùn)練集訓(xùn)練出的MOOCs神經(jīng)網(wǎng)絡(luò)如圖7、圖8所示。圖7中估計(jì)的準(zhǔn)確性為99.755%。輸入層是10個(gè)神經(jīng)元,隱藏層1:3個(gè)神經(jīng)元,輸出層1個(gè)神經(jīng)元。在真實(shí)的情況下訓(xùn)練的數(shù)據(jù)越多,訓(xùn)練出的模型會(huì)更加接近真實(shí)情況,這樣預(yù)測(cè)的數(shù)據(jù)才更準(zhǔn)確。圖8中是訓(xùn)練出來(lái)的MOOCs神經(jīng)網(wǎng)絡(luò)中數(shù)據(jù)指標(biāo)變量重要性的排列,根據(jù)變量的重要性便可得出影響MOOCs學(xué)習(xí)者流失率的重要因素。
影響MOOCs學(xué)習(xí)者流失率的重要因素分析:在圖8所示的MOOCs神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型中,變量重要性排行中最高學(xué)位(degree)居第一,原因是在收集到的問卷中,真正完成過一門MOOCs的學(xué)生,其最高學(xué)歷大部分是碩士或者本科,也就是說這種學(xué)習(xí)群體更容易堅(jiān)持學(xué)習(xí)完成完整的一門MOOCs;第二是自主學(xué)習(xí)能力(selfstudy),因?yàn)镸OOCs是一種在線學(xué)習(xí)且沒有教師的監(jiān)督,需要學(xué)習(xí)者有較強(qiáng)的自主學(xué)習(xí)能力才能完成;第三是學(xué)科背景(user_subject),因?yàn)獒槍?duì)具體某一門MOOCs需要學(xué)習(xí)者有此門課程的一些學(xué)科背景知識(shí),只有已經(jīng)具備一定學(xué)科背景的人,才能夠更好地完成該課程。通過對(duì)變量重要性的分析發(fā)現(xiàn),該研究中得出的MOOCs神經(jīng)網(wǎng)絡(luò)模型與實(shí)際的預(yù)期基本一致,也就是說具有一定程度的準(zhǔn)確性,當(dāng)然由于指標(biāo)的選取不是很準(zhǔn)確,可能會(huì)存在一定的誤差。
MOOCs學(xué)習(xí)者流失預(yù)測(cè) 使用上面建立的MOOCs神經(jīng)網(wǎng)絡(luò)模型對(duì)新的MOOCs學(xué)習(xí)者進(jìn)行預(yù)測(cè),在上述過程中只需要改變圖中sql節(jié)點(diǎn)的輸入數(shù)據(jù)為所需要預(yù)測(cè)的學(xué)習(xí)者的真實(shí)數(shù)據(jù)即可。在使用MOOCs神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)之后,還可以使用表節(jié)點(diǎn)、多重散點(diǎn)圖節(jié)點(diǎn)、直方圖節(jié)點(diǎn),進(jìn)行必要的數(shù)據(jù)查看與分析,如圖9所示。
雙擊圖9中的表節(jié)點(diǎn)得到圖10,根據(jù)圖10的最后一個(gè)字段¥N-is_flowaway可以看到通過模型預(yù)測(cè)后該MOOCs學(xué)習(xí)者是否流失。其中前一列is_flowaway是預(yù)測(cè)數(shù)據(jù)真實(shí)的流失狀況,二者對(duì)比可以驗(yàn)證出預(yù)測(cè)值與真實(shí)值基本一致。
4 挽留MOOCs即將流失學(xué)習(xí)者的對(duì)策
通過Clementine神經(jīng)網(wǎng)絡(luò)對(duì)MOOCs平臺(tái)上某門課程的學(xué)習(xí)者進(jìn)行流失模型的構(gòu)建,該門課程的教師一方面可以從其中得出影響學(xué)習(xí)者流失的重要變量,如果是信息技術(shù)能力,那么開課教師需要為其提供一些信息技術(shù)的知識(shí);如果是學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī),那么教師在授課過程中或者練習(xí)測(cè)驗(yàn)中應(yīng)該更注重激發(fā)學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī)。另一方面可以通過對(duì)新注冊(cè)的學(xué)生進(jìn)行流失率的計(jì)算,如果得出其流失的可能性比較大,則可以通過電話、視頻、郵件等與其進(jìn)行溝通,提醒上課時(shí)間并為其定時(shí)提供特殊的學(xué)習(xí)資料和輔導(dǎo),真正做到個(gè)性化的服務(wù)。
5 總結(jié)
本研究在MOOCs平臺(tái)大數(shù)據(jù)的背景下,提出使用Cle-mentine神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)MOOCs每門課的注冊(cè)學(xué)習(xí)者進(jìn)行流失率的分析與預(yù)測(cè),來(lái)避免流失率嚴(yán)重這一現(xiàn)象。但是由于并沒有真實(shí)的MOOCs平臺(tái)能用來(lái)進(jìn)行改進(jìn)和收集實(shí)驗(yàn)數(shù)據(jù),因此,該研究只是在模擬的數(shù)據(jù)上進(jìn)行操作,同時(shí)如果在技術(shù)允許的條件下可以收集更多的數(shù)據(jù)指標(biāo),比如學(xué)習(xí)者的定期點(diǎn)擊率、學(xué)習(xí)者每次上網(wǎng)學(xué)習(xí)的實(shí)際時(shí)間等,這些就能為準(zhǔn)確預(yù)測(cè)流失率提供強(qiáng)大的依據(jù)。希望本文能夠?yàn)楹罄m(xù)的研究者和MOOCs平臺(tái)的開發(fā)者提供一些新的改進(jìn)方法。
參考文獻(xiàn)
[1]姜藺,韓錫斌,稱建鋼.MOOCs學(xué)習(xí)者特征及學(xué)習(xí)效果分析研究[J].中國(guó)電化教育,2013(11):54-55.
[2]劉楊,黃振中,張羽,等.中國(guó)MOOCs學(xué)習(xí)者參與情況調(diào)查報(bào)告[J].清華大學(xué)教育研究,2013(4):27-34.
[3]基于clementine神經(jīng)網(wǎng)絡(luò)的電信客戶流失預(yù)測(cè)[EB/OL].
[2015-08-29].http://wenku.baidu.com/link?url=Ej0xifLjasTvvVMGS01Ym7WohOHCcvgkhGvIcHumS_4YrZhWKskX7oaWkaAUAt097FdhniDv8TadgfP3ZDTCrJf7oU9DZmfpZFLeneUg86W.
[4]林盾,張偉平.人工神經(jīng)網(wǎng)絡(luò)在教育資源管理中的應(yīng)用[J].現(xiàn)代教育技術(shù),2009(7):120-121.
[5]遲春佳.BP神經(jīng)網(wǎng)絡(luò)在高校圖書館網(wǎng)站評(píng)價(jià)中的應(yīng)用[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2008(15):79-80.
[6]王忠.數(shù)據(jù)挖掘技術(shù)Clementine在電信客戶流失問題上的應(yīng)用[J].技術(shù)應(yīng)用,2010(9):89-93.