国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的中文MOOC教育學(xué)員流失預(yù)測研究

2019-08-02 05:10王曉芳賈宗維
中國教育信息化·高教職教 2019年6期
關(guān)鍵詞:流失機(jī)器學(xué)習(xí)預(yù)測

王曉芳 賈宗維

摘 ? 要:MOOC教育自2013年引入國內(nèi)高等教育領(lǐng)域,得到了大面積的推廣普及,隨之而來的問題是學(xué)員流失嚴(yán)重,這一現(xiàn)象已然成為學(xué)界共同關(guān)注的研究問題。本文以國內(nèi)最大的中文MOOC教育“學(xué)堂在線”數(shù)據(jù)集為研究對(duì)象,通過數(shù)據(jù)清洗、篩選、特征優(yōu)化提取,分別應(yīng)用三類典型的機(jī)器學(xué)習(xí)模型進(jìn)行學(xué)員流失預(yù)測研究,實(shí)驗(yàn)對(duì)比分析表明,使用具有時(shí)間序列特點(diǎn)的優(yōu)化特征值進(jìn)行算法預(yù)測,其結(jié)果在準(zhǔn)確度、召回率、F-Scroe等評(píng)估指標(biāo)方面較特征優(yōu)化前有大幅提高。

關(guān)鍵詞:機(jī)器學(xué)習(xí);MOOC;流失;預(yù)測

中圖分類號(hào):G434 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2019)11-0047-05

一、引言

2013年10月清華大學(xué)基于 edX 平臺(tái)的開源代碼,開發(fā)建設(shè)的第一個(gè)中文MOOC平臺(tái)“學(xué)堂在線”正式上線,開啟了中國MOOC教育的先河。[1]教育以一種全新的視角呈現(xiàn)在世人面前,上至高等教育,下至中小學(xué)教育,MOOC給整個(gè)教育領(lǐng)域帶來了巨大的影響。[2]

截至2018年12月底,全球已有900多所大學(xué)加入MOOC,上線1.14萬門課程,注冊(cè)學(xué)員數(shù)達(dá)1.01億,其中學(xué)堂在線平臺(tái)擁有1400萬學(xué)員。[3]如此眾多的MOOC課程產(chǎn)生了前所未有的、海量的、多樣化的教育大數(shù)據(jù),國內(nèi)外研究人員已在學(xué)習(xí)行為分析、效果評(píng)估、學(xué)員流失、教學(xué)模式等方面開展了諸多卓有成效的應(yīng)用研究。Akshay Agrawal和Shane Leonard[4]以機(jī)器學(xué)習(xí)算法分析研究了學(xué)生對(duì)論壇不同主題的關(guān)注程度,Ravichandran等[5]利用論壇分?jǐn)?shù)建立回歸模型用于預(yù)測學(xué)員最終成績,哈佛大學(xué)Ho A D.Harvard X和 MITx[6]研究了edX平臺(tái)上17門課程在線學(xué)員的課程注冊(cè)與完成率之間的相互關(guān)系。國內(nèi)學(xué)者王雪宇等[7]分析對(duì)比了中美學(xué)習(xí)者M(jìn)OOC學(xué)習(xí)行為,并對(duì)學(xué)員的輟學(xué)進(jìn)行了預(yù)測研究,盧曉航等[8]利用滑動(dòng)窗口模型動(dòng)態(tài)預(yù)測Coursera平臺(tái)上學(xué)員的輟學(xué)行為,獲得了較高的準(zhǔn)確率。近期學(xué)堂在線發(fā)布了39門課程,共計(jì)800多萬條學(xué)員學(xué)習(xí)日志記錄,為中文MOOC教育學(xué)員流失分析研究提供了重要數(shù)據(jù)支撐。

二、數(shù)據(jù)分析

1.數(shù)據(jù)集描述

學(xué)堂在線公布數(shù)據(jù)集采用CSV格式發(fā)布,該格式主要應(yīng)用在程序間相互轉(zhuǎn)移表格數(shù)據(jù),在科學(xué)研究和商業(yè)領(lǐng)域被廣泛應(yīng)用。數(shù)據(jù)集共包含5類8個(gè)CSV格式文件,分為訓(xùn)練集、測試集、課程基本信息、開課周期、驗(yàn)證集等。數(shù)據(jù)集情況說明如表1所示。

其中,數(shù)據(jù)集中enrollment_train,enrollment_test、log_train和log_test、true_train主要文件各字段涵義說明如表2所示。

2.數(shù)據(jù)預(yù)處理

(1)加密字段數(shù)字化映射

通過對(duì)數(shù)據(jù)集的觀察發(fā)現(xiàn),多個(gè)文件中username、course_id列是以加密字符顯示,為了后續(xù)數(shù)據(jù)處理,需要把這些加密字符映射為不同的數(shù)字化形式,通過Python中的dictionary對(duì)這些字符進(jìn)行一對(duì)一字典數(shù)字化處理。最終形成如圖1所示的情況。

(2)date.csv文件記錄了課程的開始和結(jié)束時(shí)間,通過增加一列day_num數(shù)值型數(shù)據(jù),用來統(tǒng)計(jì)每門課程持續(xù)的天數(shù),以方便后續(xù)特征提取時(shí)使用。結(jié)果如圖2所示。

(3)將數(shù)據(jù)文件date.csv分別與enrollment_test.csv、enrollment_train.csv進(jìn)行左連接處理,新生成的文件將包含MOOC學(xué)員所選每門課程的編號(hào)、起止時(shí)間、開課天數(shù)等數(shù)據(jù)信息,同樣作為后續(xù)特征提取使用。

(4)學(xué)員對(duì)課程的每一種學(xué)習(xí)事件的產(chǎn)生時(shí)間與課程的起始時(shí)間間隔,反映了每位學(xué)員對(duì)每門課程的學(xué)習(xí)積極程度,這一重要的學(xué)習(xí)行為特征將是學(xué)員流失預(yù)測的主要因素。通過對(duì)數(shù)據(jù)文件的操作,增加interval數(shù)值列用于存放該數(shù)據(jù),操作結(jié)果如圖3所示。

(5)對(duì)數(shù)據(jù)文件truth_trian、enrollment_train連接處理,生成enrollment_dropout文件,并增加course_num、nondropout_num、dropout三列。前者表示學(xué)員選課門數(shù),后者表示學(xué)員持續(xù)學(xué)習(xí)(未流失)課程門數(shù)。假如后者大于前者的一半,則置dropout(流失)為0,否則為1。操作結(jié)果如圖4所示。

三、特征提取

1.基本特征選擇

通過對(duì) “學(xué)堂在線”公開日志訓(xùn)練數(shù)據(jù)集進(jìn)行分析和處理操作,篩選反映學(xué)習(xí)行為狀態(tài)的四個(gè)基本特征,分別是選課門數(shù)、持續(xù)學(xué)習(xí)課程門數(shù)、是否輟學(xué)、持續(xù)課程與選課總數(shù)的占比關(guān)系。 具體在數(shù)據(jù)集中用course_num、nondropout_num、dropout、nondrop_precent表示,詳細(xì)描述如表3所示。

2.特征優(yōu)化擴(kuò)選

(1)關(guān)鍵事件

學(xué)堂在線對(duì)學(xué)員學(xué)習(xí)行為事件通過event屬性值不同,表現(xiàn)為七種情形,分別是problem = 1、video = 2、access =3、wiki=4、discussion=5、navigate=6、page_close=7,其中acess、navigate、page_close情形與學(xué)員的學(xué)習(xí)行為聯(lián)系不緊密,暫不考慮,故選取四種關(guān)鍵事件,分別是1、2、4、5。

(2)有效特征

通過對(duì)日志數(shù)據(jù)研究發(fā)現(xiàn),學(xué)員每天學(xué)習(xí)所產(chǎn)生的各種事件都會(huì)持續(xù)一段時(shí)間,如果該事件不是點(diǎn)播視頻(event=2)且持續(xù)時(shí)長超過60分鐘,則認(rèn)為這是一個(gè)無效事件,忽略并重新計(jì)算新的事件持續(xù)時(shí)長。由此我們可以確定每位學(xué)員每天學(xué)習(xí)產(chǎn)生的事件總數(shù)、關(guān)鍵事件總數(shù)、所有事件持續(xù)時(shí)長總和共3種有效特征,基于此再分別計(jì)算30天發(fā)生的情況,共計(jì)產(chǎn)生90個(gè)有效特征。具體描述如表4所示。

(3)統(tǒng)計(jì)特征

為了更加準(zhǔn)確地反映學(xué)員在線學(xué)習(xí)的真實(shí)寫照,每10天看成一個(gè)階段進(jìn)行統(tǒng)計(jì)分析,將30天分割為3個(gè)階段,分階段統(tǒng)計(jì)每個(gè)學(xué)員所有學(xué)習(xí)事件的Min(最小值)、Max(最大值)、Sum(求和)、Mean(平均值)、std(離散值)等統(tǒng)計(jì)量,形成新的有效統(tǒng)計(jì)特征。如表5所示。

通過以上特征工程處理,得到114個(gè)反映學(xué)員MOOC學(xué)習(xí)行為的主要特征值,其中包含4個(gè)基本特征、90個(gè)有效特征和20個(gè)統(tǒng)計(jì)特征。

四、學(xué)員流失預(yù)測

1.模型選擇

機(jī)器學(xué)習(xí)算法是目前數(shù)據(jù)挖掘領(lǐng)域的主流分析算法。其主要思想就是如何使計(jì)算機(jī)從給定的數(shù)據(jù)中學(xué)習(xí)法則,即從觀察到的數(shù)據(jù)(樣本)中找到規(guī)律,并使用學(xué)習(xí)的規(guī)則(模型)來預(yù)測未知或無法觀測的數(shù)據(jù)。學(xué)堂在線日志數(shù)據(jù)集中分析獲取的訓(xùn)練數(shù)據(jù)均具有清晰的標(biāo)簽和結(jié)果,在一系列特征優(yōu)選的前提下,通過Python語言分別實(shí)現(xiàn)Logistic regression、Random forests、Gradient boosting三種機(jī)器學(xué)習(xí)模型進(jìn)行學(xué)堂在線學(xué)員流失預(yù)測對(duì)比研究。

2.實(shí)驗(yàn)環(huán)境

硬件環(huán)境:Intel(R) Core(TM) i7-4600U CPU @ 2.60GHz/8G內(nèi)存;

軟件環(huán)境:Windows10專業(yè)版(1803)/Python3.6(64位);

第三方庫:NumPy、Pandas、Sklearn。

3.模型預(yù)測

通過公布的學(xué)堂在線日志數(shù)據(jù)集利用機(jī)器學(xué)習(xí)模型預(yù)測學(xué)員流失的概率,但是對(duì)于如何確定學(xué)員是否真正流失,官方給出的定義是:如果學(xué)員在未來10天內(nèi)沒有任何學(xué)習(xí)事件產(chǎn)生,則認(rèn)為該學(xué)員從平臺(tái)流失?;诖?,分別選用4個(gè)基本特征和114個(gè)具有時(shí)間序列特點(diǎn)的優(yōu)化特征,通過Python編程實(shí)現(xiàn)Logistic regression、Random forests、Gradient boosting三種機(jī)器學(xué)習(xí)模型,然后進(jìn)行學(xué)員流失預(yù)測對(duì)比分析。預(yù)測結(jié)果對(duì)比如表6所示。

通過表6可知,對(duì)于具有時(shí)間序列特點(diǎn)的優(yōu)化特征,三種機(jī)器學(xué)習(xí)模型上都表現(xiàn)為準(zhǔn)確率顯著提升,而時(shí)間均在可以接受的范圍內(nèi),故實(shí)驗(yàn)評(píng)估部分主要從優(yōu)化特征提取前后預(yù)測模型在精確率、召回率、F-Score等評(píng)估指標(biāo)方面對(duì)比研究。

五、實(shí)驗(yàn)評(píng)估

1.評(píng)估指標(biāo)

假設(shè)學(xué)員流失的樣本數(shù)記為P,學(xué)員繼續(xù)學(xué)習(xí)(未放棄)的樣本數(shù)記為N,正確預(yù)測到學(xué)員流失的樣本數(shù)定義為TP,正確預(yù)測到學(xué)員未放棄的樣本數(shù)定義為TN,學(xué)員本身是流失而預(yù)測為繼續(xù)學(xué)習(xí)的樣本數(shù)量記為FP,反之,學(xué)員本身未放棄課程,而預(yù)測為流失的樣本數(shù)量記為FN。具體說明如表7所示。由此可得預(yù)測模型的準(zhǔn)確率、召回率、精確率等評(píng)價(jià)指標(biāo)。

2.模型評(píng)估

由表8數(shù)據(jù)可以得出,不同預(yù)測模型在優(yōu)化特征提取之后的精確率、召回率和F值三類指標(biāo)都有大幅提升,說明學(xué)員學(xué)習(xí)行為中關(guān)鍵事件的統(tǒng)計(jì)信息對(duì)學(xué)員流失預(yù)測起到至關(guān)重要的作用。學(xué)員在MOOC平臺(tái)上的關(guān)鍵事件總數(shù)和持續(xù)時(shí)長統(tǒng)計(jì),很大程度上反映了學(xué)員對(duì)所選課程的興趣和互動(dòng)性;另一方面,從時(shí)間序列上對(duì)學(xué)員學(xué)習(xí)行為事件的分階段統(tǒng)計(jì)的特征值反映了學(xué)員近期學(xué)習(xí)的變化情況,同樣對(duì)學(xué)員流失的預(yù)測起到積極正面的作用。

由此可見,特征提取的手段、特征數(shù)量對(duì)分類預(yù)測模型的結(jié)果有極大影響,此外,Gradient boosting(梯度提升)算法在預(yù)測的準(zhǔn)確率和執(zhí)行時(shí)間都有較好的表現(xiàn),明顯優(yōu)于其他兩種方法。

六、結(jié)束語

實(shí)驗(yàn)結(jié)果表明,機(jī)器學(xué)習(xí)方法及優(yōu)化特征提取對(duì)學(xué)員流失問題有極高的準(zhǔn)確率,能夠幫助教師及時(shí)跟進(jìn)學(xué)生、改進(jìn)教學(xué)策略、把握課堂進(jìn)度。通過提取有效和高效的統(tǒng)計(jì)特征,進(jìn)而提高預(yù)測模型精度,以便幫助MOOC平臺(tái)及時(shí)更新課程授課方案,從而降低學(xué)員流失率,提升在線教學(xué)質(zhì)量和教學(xué)效果,最終實(shí)現(xiàn) MOOC 的預(yù)期價(jià)值和意義。

參考文獻(xiàn):

[1]王書瑤,王小根,晉步.中外MOOC 課程對(duì)比研究——以edX 和“學(xué)堂在線”為例[J].軟件導(dǎo)刊,2014(7):154-156.

[2]汪基德,馮瑩瑩,汪瀅.MOOC熱背后的冷思考[J].教育研究,2014(9):104-111.

[3]By The Numbers: MOOCs in 2018[DB/OL].https://www.classcentral.com/report/mooc-stats-2018/.

[4]秦昌博.中文MOOC論壇課程中情緒分析及知識(shí)難點(diǎn)的挖掘研究[D].北京:北京郵電大學(xué),2017.

[5]Ravichandran P, Kaur A. Impact of Discussion Forums on the Final Scores of Post Graduate Students at Open University Malaysia[J].ASEAN Journal of Open Distance Learning 2013,5(1).

[6]Ho A D.Harvard X, MITx. The First Year of Open Online Courses, Fall 2012-Summer 2013[J].Social Science Electronic Publishing,2014.

[7]王雪宇,鄒剛,李驍,王玉龍.中美MOOC學(xué)習(xí)者學(xué)習(xí)行為分析——基于edX公開數(shù)據(jù)集和國防科技大學(xué)夢(mèng)課數(shù)據(jù)集[J].計(jì)算機(jī)教育,2016(6):116-120.

[8]盧曉航,王勝清,黃俊杰,陳文廣,閆增旺.一種基于滑動(dòng)窗口模型的MOOCs輟學(xué)率預(yù)測方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017(4):67-75.

[9]Bengio Y,Grandvaler Y.No Unbiased Estimator of the Variance of k-Fold Cross-Validation[J].Journal of Machine Learning Research,2004,5(3):1089-1105.

(編輯:王天鵬)

猜你喜歡
流失機(jī)器學(xué)習(xí)預(yù)測
無可預(yù)測
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
在華日企現(xiàn)地管理人才現(xiàn)狀及對(duì)策研究
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究