国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于二元邏輯回歸模型的MOOC退課預(yù)測

2017-12-25 18:55郭文鋒樊超郭新東
計算機時代 2017年12期
關(guān)鍵詞:學(xué)習(xí)行為相關(guān)性分析

郭文鋒 樊超 郭新東

摘 要: MOOC(Massive Open Online Courses)作為一種新的教學(xué)模式正發(fā)展得如火如荼,但學(xué)員退課率一直高居不下,直接影響了MOOC教師以及MOOC平臺的發(fā)展。本研究以“學(xué)堂在線”平臺學(xué)員的學(xué)習(xí)行為數(shù)據(jù)為基礎(chǔ),對影響退課的七種學(xué)習(xí)行為進行相關(guān)性分析,為了避免多重指標(biāo)帶來的多重共線性問題,根據(jù)相關(guān)性較小的原則選擇其中的五種學(xué)習(xí)行為。最后采用二元邏輯回歸模型進行建模并預(yù)測學(xué)員的退課情況。實驗表明,選取的五種學(xué)習(xí)行為對退課影響顯著,預(yù)測準(zhǔn)確率較高。本研究為MOOC教師盡早采取教學(xué)干預(yù)提供了一定的理論依據(jù)。

關(guān)鍵詞: MOOC; 學(xué)習(xí)行為; 相關(guān)性分析; 二元邏輯回歸; 退課預(yù)測

中圖分類號:G434 文獻標(biāo)志碼:A 文章編號:1006-8228(2017)12-50-04

Predicting the MOOC dropout rate with binary logistic regression model

Guo Wenfeng1, Fan Chao1, Guo Xindong2

(1. College of Arts and Sciences, Shanxi Agricultural University, Taigu, Taigu 030801, China;

2. College of Information Science and Engineering, Shanxi Agricultural University)

Abstract: Although MOOC develops prosperously as a new teaching model, the dropout rate of trainee remains high all the time. This will directly influence the development of MOOC teachers and MOOC platforms. According to the data from xuetangx.com, this study analyzes the correlation of seven learning behaviors affecting dropout. To avoid multicollinearity generated from multiple indicators between seven learning behavior, five of them are selected based on the rule of little correlation. Binary logistic regression model is used to predict the dropout rate. Experiments demonstrate that the selected five learning behaviors have significant influence to the dropout and the accuracy of prediction is higher. The study offers a theoretic basis for MOOC teachers to take teaching intervention as soon as possible.

Key words: MOOC; learning behavior; correlation analysis; binary logistic regression; dropout prediction

0 引言

MOOC(Massive Open Online Courses),大型開放式網(wǎng)絡(luò)課程,簡稱“慕課”,是近幾年由美國一些著名大學(xué)發(fā)起的網(wǎng)絡(luò)學(xué)習(xí)平臺。與傳統(tǒng)的課堂學(xué)習(xí)相比,MOOC具有如下特點:①采用各種社交網(wǎng)絡(luò)工具,形式多樣化;②課程的學(xué)習(xí)不受空間和時間的限制;③課程對學(xué)員的學(xué)歷沒有任何限制;④更強調(diào)學(xué)員的學(xué)習(xí)自主性。

目前對MOOC的研究基本可以歸結(jié)為三類。

⑴ 通過分析學(xué)習(xí)行為發(fā)現(xiàn)規(guī)律,改善MOOC教學(xué)活動以及評價體系。

Yousef等通過對在線課程、遠程課程和MOOC的相關(guān)文獻分析,提出了一套包含75個評價指標(biāo)的MOOC質(zhì)量保障標(biāo)準(zhǔn)[1]。童小素等在借鑒已有評價規(guī)范的基礎(chǔ)上,采用文獻調(diào)研法和專家訪談法,建立了一套質(zhì)量評價指標(biāo)體系,其中包括3個一級指標(biāo)和26個二級指標(biāo)[2]。秦瑾若等通過MOOC與傳統(tǒng)網(wǎng)絡(luò)課程教學(xué)活動的對比,提出基于深度學(xué)習(xí)理論的MOOC學(xué)習(xí)活動設(shè)計,并將其應(yīng)用于“現(xiàn)代教育技術(shù)”課程中[3]。樊超等從人類動力學(xué)的角度對MOOC在線學(xué)習(xí)行為進行分析發(fā)現(xiàn),用戶的選課量和選課人數(shù)存在很大差異,在線學(xué)習(xí)具有陣發(fā)和重尾的特征,以及在線學(xué)習(xí)時間和次數(shù)服從冪律分布[4]。

⑵ 通過對學(xué)習(xí)行為進行統(tǒng)計分析,進而提出整改意見。

李帥等以東北大學(xué)MOOC平臺上的《高級語言課程設(shè)計》課程為數(shù)據(jù)集,對學(xué)生的知識點學(xué)習(xí)情況、在網(wǎng)站上的逗留時間以及觀看視頻的行為動作(快進/退、全屏、跳轉(zhuǎn)課程、暫停、滾動條滾動、文本模塊間跳轉(zhuǎn))進行了統(tǒng)計分析[5]。吳江等分別從選課、退課、課程參與和成績四個方面對愛課程網(wǎng)絡(luò)平臺上的一門課程的學(xué)習(xí)者行為進行統(tǒng)計分析[6]。王萍等基于edX平臺的數(shù)據(jù)集,采用統(tǒng)計分析方法,對學(xué)習(xí)者類型、特征、行為進行分析研究[7]。徐舜平等借鑒數(shù)據(jù)挖掘中的回歸分析方法,對“學(xué)堂在線”平臺的一門課程“電路原理”學(xué)習(xí)行為數(shù)據(jù)進行研究[8]。

⑶ 通過對學(xué)習(xí)行為與學(xué)習(xí)效果之間的關(guān)系進行分析,建立模型對學(xué)習(xí)效果進行預(yù)測。

蔣卓軒等針對北京大學(xué)在Coursera上開設(shè)的6門慕課,通過分析學(xué)習(xí)行為特點將學(xué)習(xí)者進行分類,并通過學(xué)習(xí)者的若干典型行為特征對學(xué)習(xí)成果進行預(yù)測[9]。伍杰華等以edX在線學(xué)習(xí)網(wǎng)站上2012-2013年學(xué)生學(xué)習(xí)的信息為基礎(chǔ),對學(xué)習(xí)者的性別、學(xué)歷、國籍、課程交互次數(shù)、課程訪問天數(shù)、播放視頻次數(shù)、學(xué)習(xí)章節(jié)數(shù)做了統(tǒng)計分析,最后采用機器學(xué)習(xí)的SVM和KNN算法進行建模并對完課率進行了預(yù)測[10]。李曼麗等以“學(xué)堂在線”平臺的一門課程的學(xué)習(xí)數(shù)據(jù)為基礎(chǔ),采用Tobit和Logit兩個定量分析模型,分別對MOOC學(xué)習(xí)者的課程參與和完成情況進行深入分析[11]。Jiang, S.等以學(xué)習(xí)者第一周的MOOC完成課后作業(yè)和在線討論為研究對象,采用邏輯回歸方法預(yù)測學(xué)習(xí)者獲得證書的概率[12]。

綜上所述,目前關(guān)于學(xué)習(xí)行為對退課影響的研究比較少, MOOC較高的退課率嚴重影響了MOOC的持續(xù)發(fā)展。本文試圖通過分析學(xué)員的七種學(xué)習(xí)行為與退課的關(guān)系,采用二元邏輯回歸模型對學(xué)員的退課進行預(yù)測,為MOOC的教學(xué)改革提供一定的理論依據(jù)。

1 邏輯回歸模型

邏輯回歸模型是機器學(xué)習(xí)中一種重要的分類模型,由于其算法簡單、高效且容易被推廣而被廣泛應(yīng)用。例如預(yù)測用戶點擊某商品后是否會購買,預(yù)測學(xué)生成績及格與否等。這些都屬于二分類問題。除此之外,邏輯回歸也被推廣至多類的分類問題。本文主要研究MOOC的學(xué)員是否會退課,故選擇邏輯回歸模型的二元邏輯回歸方法。

一般地,線性回歸函數(shù)為:y=f(x)=θTX,其中X=(x1,x2,…,xm)T為樣本點,θ=(θ1,θ2,…,θm)T為參數(shù)向量。函數(shù)是樣本X的各個屬性的線性組合,參數(shù)θ表示了X中各個屬性對結(jié)果的影響程度。

二元邏輯回歸模型可以表示為:,其中y∈{0,1},。決策函數(shù)為:。

為了找到參數(shù)θ,可以采用最大似然估計,即使得最大。

2 實例研究

本文選取“學(xué)堂在線”MOOC平臺的學(xué)員學(xué)習(xí)記錄(包括選課記錄和行為記錄)為數(shù)據(jù)集,采用二元邏輯回歸模型對學(xué)員的退課情況進行分析,并對退課進行預(yù)測。

2.1 MOOC數(shù)據(jù)描述

“學(xué)堂在線”MOOC平臺于2013年10月10日正式向全球發(fā)布,是教育部在線教育研究中心的研究交流和成果應(yīng)用平臺。本文采用的數(shù)據(jù)集為“學(xué)堂在線”為KDD-2015 CUP競賽提供的公開數(shù)據(jù)。

數(shù)據(jù)記錄了2013年10月27日至2014年8月1日“學(xué)堂在線”MOOC平臺的部分學(xué)員的選課記錄和行為記錄,其中包括112,448名學(xué)員、39門課程、200,905人次選課記錄和13,545,124條行為記錄,且每個學(xué)員至少選修過一門課程。

其中,行為記錄包括七種學(xué)習(xí)行為:完成課后作業(yè)(problem)、觀看課程視頻(video)、訪問課程內(nèi)容(access)、訪問課程wiki(wiki)、參與課程論壇討論(discussion)、訪問課程其他部分(navigation)和關(guān)閉網(wǎng)頁(page_close)。為了研究七種不同學(xué)習(xí)行為對退課的影響,本文對每個學(xué)員在整個學(xué)習(xí)期間的七種學(xué)習(xí)行為分別進行匯總,得到每個學(xué)員每種行為的總次數(shù),分別記為:X1、X2、X3、X4、X5、X6和X7。

2.2 變量選擇

首先研究不同學(xué)習(xí)行為與退課(1表示退課,0表示繼續(xù)學(xué)習(xí))的線性相關(guān)性。七種學(xué)習(xí)行為與退課的皮爾遜積矩相關(guān)系數(shù)如表1所示。

從表1可以看出,七種學(xué)習(xí)行為與退課的相關(guān)系數(shù)都是負數(shù),即學(xué)習(xí)行為發(fā)生的總次數(shù)越多,退課率越低,與實際情況相符。按相關(guān)系數(shù)的絕對值進行排序,X4(wiki)和X5(discussion)與退課相關(guān)性最小,說明訪問課程wiki和參與論壇討論對退課影響較小。

其次,為了避免變量之間的多重共線性問題,本文對七種學(xué)習(xí)行為兩兩計算皮爾遜積矩相關(guān)系數(shù),將相關(guān)系數(shù)≥0.8認定為高度相關(guān)的變量,應(yīng)將高度相關(guān)的一對變量中的一個予以排除。七種學(xué)習(xí)行為之間的皮爾遜積矩相關(guān)系數(shù)如表2所示。

從表2可以看出,X2(video)和X3(access)之間的相關(guān)系數(shù)為0.81,因為觀看課程視頻可能會涉及課程內(nèi)容,如觀看課程視頻與閱讀教材相結(jié)合,所以觀看視頻越多,訪問課程內(nèi)容也會越多。X2(video)和X7(page_close)之間的相關(guān)系數(shù)為0.82,因為觀看課程視頻與關(guān)閉網(wǎng)頁高度相關(guān),課程視頻位于一個網(wǎng)頁上,觀看完視頻會關(guān)閉網(wǎng)頁,所以觀看視頻越多,關(guān)閉網(wǎng)頁自然越多。

這里我們排除X3(access)和X7(page_close)這兩個變量,下一節(jié)我們將選取X1(problem)、X2(video)、X4(wiki)、X5(discussion)和X6(navigation)這五個變量(學(xué)習(xí)行為)對退課進行建模。

2.3 預(yù)測模型建立

本文采用二元邏輯回歸模型,預(yù)測MOOC學(xué)員的退課情況。假設(shè)P(P∈[0,1])為學(xué)員的退課率,則(1-P)為不退課率。P/(1-P)為學(xué)員退課的邏輯回歸比,對其取自然對數(shù)為ln[P/(1-P)]。

假設(shè)自變量為Z1(problem)、Z2(video)、Z3(wiki)、Z4(discussion)和Z5(navigation),因變量為P,則邏輯線性回歸方程為:,其中θi(i=0,1,2,3,4,5)為邏輯回歸系數(shù)。則根據(jù)上式可得,學(xué)員退課發(fā)生的概率為:。根據(jù)決策函數(shù)(見1.邏輯回歸模型)可知,當(dāng)P>0.5時,預(yù)測為學(xué)員退課(結(jié)果為1);否則,預(yù)測為學(xué)員不退課(結(jié)果為0)。

2.4 預(yù)測結(jié)果

為了評價二元邏輯回歸模型對MOOC退課的預(yù)測性能,本文采用的評價指標(biāo)有準(zhǔn)確率(accuracy)、查準(zhǔn)率(precision)、查全率(recall)、F1和AUC。

為了計算指標(biāo)值,本文引入二分類混淆矩陣。即把退課(1)作為正類,不退課(0)作為負類。則分類結(jié)果的混淆矩陣如表3所示。

從表4可以看出,盡管MOOC數(shù)據(jù)集存在類別偏斜的情況,即正例與負例的數(shù)量之比為95581:24961,但accuray仍然達到了0.84。同時,precision值與recall值比較接近,所以F1值較接近最大值,說明二元邏輯回歸模型較好地對MOOC的退課情況進行了預(yù)測。

為了評價預(yù)測模型的泛化能力,本文引入ROC曲線。ROC曲線的橫坐標(biāo)為假正例率、縱坐標(biāo)為真正例率。ROC曲線下面積(AUC)的大小決定了模型的泛化能力,AUC越大說明模型的泛化能力越強。

從圖1可以看出,實線即為二元邏輯回歸模型的ROC曲線(AUC=0.78,即陰影區(qū)域面積),虛線為隨機模型對應(yīng)的ROC曲線(AUC=0.5,即虛線下方區(qū)域面積)。由于0.78>0.5,說明二元邏輯回歸模型較好地預(yù)測了實例。同時也說明了本文選取的五個變量(學(xué)習(xí)行為)是比較合適的,它們較好地反映了數(shù)據(jù)集的特征。

3 總結(jié)與討論

本文研究七種不同學(xué)習(xí)行為對退課的影響,通過相關(guān)分析,選擇其中對退課影響最顯著的五種,然后建立預(yù)測模型——二元邏輯回歸模型并對退課情況作出預(yù)測。在這五種學(xué)習(xí)行為中,①訪問課程的其他部分(navigation)、觀看課程視頻(video)以及完成課后作業(yè)(problem)對退課影響最大。可以推斷,要完整學(xué)完一門課程,除了觀看課程視頻,還要做課后作業(yè),以及參考課程的其他內(nèi)容。為了提高課程的完課率,MOOC平臺可以針對觀看視頻次數(shù)少,完成課后作業(yè)少的學(xué)員實施教學(xué)干預(yù)。②參與課程論壇討論(discussion)對退課影響較小,原因可能是MOOC平臺提供的是文字形式的討論方式,不利于有效交流與溝通。為此,MOOC平臺可以設(shè)置視頻或語音形式的討論模式。

本文的不足之處是,MOOC數(shù)據(jù)集對學(xué)員以及課程信息進行隱藏,使得本文無法深入理解學(xué)員的不同學(xué)習(xí)行為對課程退課的影響以及影響程度。今后將選取不同MOOC學(xué)習(xí)平臺以及多學(xué)科課程數(shù)據(jù)作為研究對象,探索學(xué)習(xí)行為對不同學(xué)科課程退課情況的影響,為MOOC教學(xué)干預(yù)提供借鑒和參考。

參考文獻(References):

[1] Yousef A M F, Chatti M A, Schroeder U, et al. What Drives

a Successful MOOC? An Empirical Examination of Criteria to Assure Design Quality of MOOCs[C]// IEEE, International Conference on Advanced Learning Technologies. IEEE,2014:44-48

[2] 童小素,賈小軍.MOOC質(zhì)量評價體系的構(gòu)建探究[J].中國遠

程教育:綜合版,2017.5:63-71

[3] 秦瑾若,傅鋼善.基于深度學(xué)習(xí)理論的MOOC學(xué)習(xí)活動設(shè)計

——以“現(xiàn)代教育技術(shù)”課程為例[J].現(xiàn)代教育技術(shù),2017.5:12-18

[4] 樊超,宗利永.MOOC在線學(xué)習(xí)行為的人類動力學(xué)分析[J].開

放教育研究,2016.22(2):53-58

[5] 李帥,張巖峰,于戈等.MOOC平臺學(xué)習(xí)行為數(shù)據(jù)的采集與分

析[J].中國科技論文,2015.20:2373-2376

[6] 吳江,馬磐昊.MOOC學(xué)習(xí)者行為分析研究——以愛課程平

臺的一門慕課為例[J].知識管理論壇,2015.3.

[7] 王萍.基于edX開放數(shù)據(jù)的學(xué)習(xí)者學(xué)習(xí)分析[J].現(xiàn)代教育技

術(shù),2015.25(4):86-93

[8] 徐舜平,趙慶剛,許健等.基于數(shù)據(jù)挖掘的MOOC學(xué)習(xí)過程監(jiān)

測指標(biāo)分析——以“電路原理”課程為例[J]. 現(xiàn)代教育技術(shù),2017.27(3):119-126

[9] 蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)

測[J].計算機研究與發(fā)展,2015.52(3):614-628

[10] 伍杰華,付慧平.MOOC學(xué)習(xí)行為的統(tǒng)計、預(yù)測與展望[J].工

業(yè)和信息化教育,2017.2:81-89

[11] 李曼麗,徐舜平,孫夢嫽.MOOC學(xué)習(xí)者課程學(xué)習(xí)行為分析

——以“電路原理”課程為例[J].開放教育研究,2015.21(2):63-69

[12] Jiang, S., Warschauer, M., & Williams, A. et al.(2014).

Predicting MOOC Performance with Week 1 Behavior[A]. Proceedings of the 7th International Conference on Educational Data Mining[C].Worcester: Worcester Polytechnic Institute:273-275

猜你喜歡
學(xué)習(xí)行為相關(guān)性分析
基于學(xué)習(xí)行為數(shù)據(jù)的在線學(xué)習(xí)時間規(guī)律探析
人民幣匯率變動與中國入境旅游相關(guān)性分析(2002—2016)
上市公司財務(wù)指標(biāo)與股票價格的相關(guān)性實證分析
淘寶星店成長中的粉絲力量
中國城市化與經(jīng)濟發(fā)展水平關(guān)系研究
網(wǎng)絡(luò)遠程教育學(xué)習(xí)行為及效果的分析研究
慕課環(huán)境下的學(xué)習(xí)者
英德市| 南宁市| 鸡东县| 珲春市| 敦化市| 交口县| 阿勒泰市| 民乐县| 察雅县| 明水县| 佛冈县| 平遥县| 辉县市| 华宁县| 夏河县| 玛沁县| 长丰县| 石阡县| 余姚市| 宁武县| 新营市| 鲁甸县| 桑日县| 河源市| 永川市| 潍坊市| 桐庐县| 手游| 县级市| 上栗县| 和顺县| 德江县| 铜陵市| 伽师县| 南靖县| 屯留县| 新乡县| 汝州市| 东山县| 乌海市| 呼伦贝尔市|