夏曉峰
DOI:10.16644/j.cnki.cn33-1094/tp.2016.07.013
摘 要: 從學(xué)習(xí)分析系統(tǒng)角度研究MOOC教育中低通過率與有效學(xué)習(xí)的問題。通過分析學(xué)習(xí)者學(xué)習(xí)活動(dòng)情況,在MOOC社區(qū)取樣大量原始數(shù)據(jù),生成平臺(tái)學(xué)習(xí)數(shù)據(jù),采用一個(gè)基于Hadoop的MOOC學(xué)習(xí)分析系統(tǒng)對數(shù)據(jù)進(jìn)行分析和挖掘,促進(jìn)學(xué)習(xí)者進(jìn)行有效學(xué)習(xí)。為了評估該系統(tǒng)的有效性,開發(fā)一種分析方法來識(shí)別那些容易輟學(xué)、低延遲的在線學(xué)習(xí)者,以使得MOOC服務(wù)商能夠有效地進(jìn)行教學(xué)策略調(diào)整,提高了課程通過率。
關(guān)鍵詞: 大規(guī)模開放在線課程; 云計(jì)算; 分布式系統(tǒng); 分析系統(tǒng)
中圖分類號:TP393.02 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2016)07-45-04
Construction of MOOC learning analysis system based on Hadoop
Xia Xiaofeng
(Department of Computer Science, Shaozhou Normal College, Shaoguan University, Shaoguan, Guangdong 512009, China)
Abstract: Study on the problems of low pass rate and effective learning in MOOC (massive open online courses) education from the perspective of the learning analysis system. Through the analysis of learners' learning activities, sampling a large number of original data in MOOC community to generate the platform's learning data, a Hadoop based MOOC learning analysis system is used for data analysis and data mining to promote learners for effective learning. In order to evaluate the effectiveness of the system, an analytical method is developed to identify those online learners who are easy to drop out of school, so that the MOOC service providers can effectively adjust the teaching strategies, and improve the pass rate of the course.
Key words: MOOC; cloud computing; Hadoop; analysis system
0 引言
隨著云計(jì)算技術(shù)的推廣與應(yīng)用,云計(jì)算已經(jīng)為新一代在線教育系統(tǒng)奠定了基礎(chǔ),它改變了現(xiàn)代的教育模式,基于無限的網(wǎng)絡(luò)資源,任何教育機(jī)構(gòu)可以通過全球在線學(xué)習(xí)資源分享教學(xué)經(jīng)驗(yàn)。目前全球MOOC(大規(guī)模開放在線課程)[1]有三大巨頭。edX[2]是由麻省理工大學(xué)和哈佛哈佛大學(xué)聯(lián)合推出的非盈利在線教育平臺(tái),它現(xiàn)在提供150多門跨領(lǐng)域、高標(biāo)準(zhǔn)、具有創(chuàng)新技術(shù)的免費(fèi)課程,現(xiàn)有全球46所著名大學(xué)加盟,北京大學(xué)、清華大學(xué)位列其中,參加學(xué)習(xí)的學(xué)員超過180萬。Coursera[3]是由美國斯坦福大學(xué)兩名計(jì)算機(jī)科學(xué)教授吳恩達(dá)(Andrew Ng)和達(dá)芙妮·科勒(Daphne Koller)創(chuàng)辦的大型免費(fèi)公開網(wǎng)絡(luò)在線課程項(xiàng)目,它現(xiàn)在提供600多門課程,門類豐富,但良莠不齊,現(xiàn)在全球108所大學(xué)加盟,復(fù)旦大學(xué)、上海交通大學(xué)、北京大學(xué)正式加盟,參加學(xué)習(xí)的學(xué)員超過600萬。Udacity[4]是由斯坦福教授塞巴斯蒂安·特倫(Sebastian Thrun)推出了包括科學(xué)、數(shù)學(xué)、編程、計(jì)算機(jī)科學(xué)和企業(yè)家精神訓(xùn)練等在線免費(fèi)課程,現(xiàn)在提供38門課程,非常精致,參加學(xué)習(xí)的學(xué)員超過160萬。
免費(fèi)網(wǎng)絡(luò)公開課,全新商業(yè)模式,這吸引著全世界目光,許多學(xué)習(xí)者渴望獲得世界名校的免費(fèi)課程,許多學(xué)習(xí)者注冊或參加MOOC學(xué)習(xí)。自2012年免費(fèi)公開課的模式推出至今已經(jīng)有兩年多,MOOC遭遇了成長的煩惱:2013年12月5日賓夕法尼亞大學(xué)教育研究生院公布了對全球100萬名MOOC的學(xué)習(xí)者進(jìn)行了調(diào)查,結(jié)果顯示,注冊的學(xué)習(xí)者只有大約一半聽過一堂課,只有4%的用戶完成了全部課程[5]。
在本文中,通過采集學(xué)習(xí)者在MOOC網(wǎng)絡(luò)學(xué)習(xí)過程中產(chǎn)生的大數(shù)據(jù),利用云計(jì)算技術(shù)中的一個(gè)可編寫和運(yùn)行分布式應(yīng)用的處理大規(guī)模數(shù)據(jù)的開源框架Hadoop[6-7]構(gòu)建一個(gè)學(xué)習(xí)分析系統(tǒng),利用該系統(tǒng)去分析學(xué)習(xí)者在線狀況,幫助相關(guān)MOOC服務(wù)商提高結(jié)課率,改善教學(xué)和學(xué)習(xí)的環(huán)境。
1 大數(shù)據(jù)與Hadoop概念
大數(shù)據(jù)的定義是大量的非結(jié)構(gòu)化的信息和內(nèi)容,可以從“無限”活動(dòng)在互聯(lián)網(wǎng)上,一般非傳統(tǒng)來源,如web[8]日志、點(diǎn)擊流、社交媒體、電子郵件、傳感器、圖像和視頻。能夠分析和利用大數(shù)據(jù)的實(shí)時(shí)情報(bào)可以為相關(guān)產(chǎn)品提供了巨大的機(jī)會(huì),甚至政治決策服務(wù)。一些在線教育活動(dòng)可以受益于大數(shù)據(jù),對情緒分析、活動(dòng)分析、欺詐檢測均可以通過大數(shù)據(jù)的挖掘進(jìn)行,學(xué)習(xí)分析和大數(shù)據(jù)結(jié)合在未來的在線教育中將扮演一個(gè)重要的角色。
Hadoop能對海量數(shù)據(jù)執(zhí)行分布式處理,它的核心就是HDFS和Map Reduce。若干個(gè)數(shù)據(jù)節(jié)點(diǎn)(Datanode)加一個(gè)名稱節(jié)點(diǎn)(Namenode)構(gòu)成HDFS,對相關(guān)文件被客戶端訪問的管理、文件或目錄的管理、數(shù)據(jù)塊與相應(yīng)數(shù)據(jù)節(jié)點(diǎn)的映射關(guān)系的管理等均由名稱節(jié)點(diǎn)負(fù)責(zé),每個(gè)節(jié)點(diǎn)一般設(shè)置一個(gè)數(shù)據(jù)節(jié)點(diǎn),由它負(fù)責(zé)管理該節(jié)點(diǎn)上的存儲(chǔ)[9]。Map Reduce將整個(gè)任務(wù)過程分為Map階段和Reduce階段,Map將用戶的輸入數(shù)據(jù)以鍵/值對形式通過用戶自定義的映射過程轉(zhuǎn)變?yōu)橐唤M中間鍵值對的集合,Reduce則對中間生成的臨時(shí)中間鍵值對作為輸入進(jìn)行處理,并輸出最終結(jié)果[10]。
2 MOOC特點(diǎn)
MOOC是“大規(guī)模開放在線課程”的英文縮寫(中國稱為慕課),即:Massive(大規(guī)模),是指學(xué)習(xí)者對課程注冊與訪問數(shù)量多;Open(開放),指有學(xué)習(xí)需求的學(xué)習(xí)者,均可以上線學(xué)習(xí);Online(在線),指的是學(xué)習(xí)時(shí)間、地點(diǎn)不受限制,24小時(shí)開放,通過網(wǎng)絡(luò)作業(yè)、討論、互動(dòng)和評價(jià)獲得相關(guān)知識(shí);Course(課程),MOOC的課程設(shè)計(jì)類似于大學(xué)課程,但MOOC將課程重新分解,重新再造,使之適應(yīng)在線教育。
MOOC作為一種嶄新的教學(xué)模式,它將課程重新分解,重新再造,使之適應(yīng)在線教育。它主要有以下幾個(gè)方面的特點(diǎn)。
2.1 教學(xué)理念的轉(zhuǎn)變
“以教師為中心”是現(xiàn)行的傳統(tǒng)教育理念,MOOC則是“以學(xué)生為中心”,翻轉(zhuǎn)課堂,教師只是活動(dòng)的導(dǎo)師,網(wǎng)絡(luò)課堂是師生互動(dòng)的場所,通過提供適當(dāng)?shù)慕虒W(xué)材料引導(dǎo)學(xué)習(xí)者之間進(jìn)行交流,學(xué)習(xí)者可以根據(jù)個(gè)人需求,掌控學(xué)習(xí)節(jié)奏與方式,會(huì)更加努力、勤奮、主動(dòng)、個(gè)性化地參與其中,并獲取想要得到的知識(shí)。
2.2 教學(xué)規(guī)模的改變
傳統(tǒng)大學(xué)課程一般只有幾十到幾百位學(xué)習(xí)者,而一門慕課課程動(dòng)輒上萬人,目前最多的一門課程有240000位學(xué)習(xí)者參與,MOOC完全突破了班級規(guī)模限制,打破了傳統(tǒng)教學(xué)模式班級的概念。
2.3 學(xué)習(xí)的伸縮性改變
傳統(tǒng)的學(xué)習(xí)者依照各門課程的教學(xué)大綱安排進(jìn)行學(xué)習(xí),缺乏靈活性。MOOC中的學(xué)習(xí)者可以根據(jù)自己的時(shí)間、對該門課程的掌握情況,利用分段時(shí)間進(jìn)行學(xué)習(xí),自我掌控學(xué)習(xí)進(jìn)度,完成相應(yīng)的課程學(xué)習(xí)。
2.4 開放性的改變
傳統(tǒng)的大學(xué)是在教室、實(shí)驗(yàn)室、圖書館等場所進(jìn)行學(xué)習(xí),而且各個(gè)大學(xué)之間相應(yīng)課程是不對外開放的。MOOC學(xué)習(xí)者只要擁有一臺(tái)電腦或移動(dòng)終端,只要可以上網(wǎng),就可以學(xué)習(xí)各種優(yōu)質(zhì)課程,并與來自世界各地的學(xué)習(xí)者進(jìn)行充分的交流,這些MOOC課程資源是對所有人開放的。
2.5 學(xué)習(xí)方式的改變
傳統(tǒng)教育以45分鐘為一個(gè)單元進(jìn)行課堂教學(xué),MOOC視頻課程被切割成5-15分鐘的“微課程”,學(xué)習(xí)者可以通過在線資源和一些額外的學(xué)習(xí)材料,發(fā)現(xiàn)和闖關(guān)課程中許多個(gè)教學(xué)小問題,并在平臺(tái)上直接提出自己的想法和疑惑,會(huì)有師生共同討論或提供解答,學(xué)習(xí)者的學(xué)習(xí)興趣和主動(dòng)性會(huì)得到極大的提升。
2.6 教育技術(shù)的改變
傳統(tǒng)的教育多數(shù)基于多媒體教室或傳統(tǒng)板書,學(xué)習(xí)者接受的是本地教育,MOOC則是借助云計(jì)算技術(shù)、移動(dòng)平臺(tái)技術(shù)、數(shù)據(jù)挖掘技術(shù)構(gòu)成一個(gè)虛擬網(wǎng)絡(luò)在線教育時(shí)空,通過這些技術(shù)解決了地域問題,讓學(xué)習(xí)者不再停留在自己所在學(xué)校和地域的影響。
3 MOOC學(xué)習(xí)模式分析
第一步分析由MOOC生成的大數(shù)據(jù)的生命周期,第二步對學(xué)習(xí)者進(jìn)行分類,第三步MOOC環(huán)境中“未完成”學(xué)習(xí)者的識(shí)別模式。
3.1 MOOC生成的大數(shù)據(jù)的生命周期
如圖1所示,大數(shù)據(jù)的生命周期在MOOC可以描述如下。
⑴ 獲得數(shù)據(jù):在相關(guān)網(wǎng)站源頭定期通過查看網(wǎng)絡(luò)發(fā)帖、學(xué)習(xí)者調(diào)查、用戶資料、網(wǎng)絡(luò)社交媒體等獲取數(shù)據(jù)。
⑵ 整合數(shù)據(jù):將各種數(shù)據(jù)按照規(guī)則進(jìn)行整合,并將整合后的數(shù)據(jù)傳輸?shù)揭粋€(gè)大數(shù)據(jù)平臺(tái),為后期數(shù)據(jù)處理做好準(zhǔn)備。
⑶ 分析數(shù)據(jù):在大數(shù)據(jù)平臺(tái)上使用各種分析模塊對整合后的數(shù)據(jù)進(jìn)行處理。
⑷ 優(yōu)化數(shù)據(jù):將數(shù)據(jù)挖掘的分析結(jié)果給MOOC服務(wù)商,使得服務(wù)商可以對學(xué)習(xí)者進(jìn)行有效的幫助和管理。
3.2 MOOC學(xué)習(xí)者
基于MOOC環(huán)境中學(xué)習(xí)者學(xué)習(xí)過程中的行為,對學(xué)習(xí)者進(jìn)行分組定義為下面幾種類型。
⑴ 注冊者:只是簡單注冊了MOOC課程,但是基本不在線,這類注冊學(xué)習(xí)者的數(shù)量通常是最大的。
⑵ 瀏覽者:簡單瀏覽MOOC課程,但是沒有真正參與相關(guān)的探索、討論、評價(jià)、測評。
⑶ 中途退課者:大部分學(xué)習(xí)者屬于這一類,他們通過從MOOC課程中獲取他們需要的課程資源幫助他們的學(xué)習(xí),但是沒有完成整個(gè)課程的學(xué)習(xí)。
⑷ 被動(dòng)參與者:這些學(xué)習(xí)者瀏覽每門課程材料、觀看講座、參加測試、參加互動(dòng),但是不參與課程考核。
⑸ 積極參與者:全程參與MOOC課程的學(xué)習(xí),并通過MOOC課程的評估和考核。
對于學(xué)習(xí)分析系統(tǒng),我們主要研究注冊者、瀏覽者、中途退課者、被動(dòng)參與者這四類學(xué)習(xí)者,將這四類學(xué)習(xí)者列為“未完成”學(xué)習(xí)者。
3.3 MOOC環(huán)境中“未完成”學(xué)習(xí)者的識(shí)別模式
通過分析學(xué)習(xí)者的行為和活動(dòng),如觀看視頻、下載課程、互動(dòng)參與測驗(yàn)和調(diào)查等,觀察交互性和持久性這兩個(gè)指標(biāo),基本可以識(shí)別“未完成”學(xué)習(xí)者。
持久性表示學(xué)習(xí)者在線相對穩(wěn)定的時(shí)間,主要從學(xué)習(xí)者觀看視頻和下載課程兩個(gè)方面進(jìn)行考量。交互性表示學(xué)習(xí)者參與程度,主要從在線回答問題和參與調(diào)查程度進(jìn)行考量。
4 MOOC學(xué)習(xí)分析系統(tǒng)架構(gòu)
4.1 MOOC學(xué)習(xí)分析系統(tǒng)架構(gòu)
圖2描述了一個(gè)MOOC學(xué)習(xí)分析系統(tǒng)架構(gòu),利用一個(gè)基于私有云的Hadoop,從相關(guān)的MOOC服務(wù)商數(shù)據(jù)平臺(tái)以較小時(shí)間間隙大量捕捉和使用學(xué)習(xí)者學(xué)習(xí)的數(shù)據(jù),設(shè)計(jì)一個(gè)學(xué)習(xí)分析系統(tǒng),幫助MOOC服務(wù)商用來調(diào)整授課內(nèi)容,為學(xué)習(xí)者提供更好的服務(wù)。
大數(shù)據(jù)集成組件負(fù)責(zé)捕捉數(shù)據(jù),數(shù)據(jù)源依據(jù)不同學(xué)習(xí)者的參與,同時(shí)兼顧學(xué)習(xí)者的行為和偏好,第一步收集數(shù)據(jù),第二步從MySQL數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入到Hadoop的分布式文件系統(tǒng)HDFS,第三步處理Hadoop作業(yè),然后提取MySQL表中的分析結(jié)果出口轉(zhuǎn)移到分析引擎。
系統(tǒng)的核心部組件是分析引擎部分,分析引擎是將Hadoop組件部署到私有云,通過HDFS對數(shù)據(jù)分類管理,然后通過分布式處理框架Map Reduce處理大量的MOOC用戶的數(shù)據(jù),由Map Reduce作業(yè)過程來分析所有獲取的數(shù)據(jù)并輸出數(shù)據(jù)處理結(jié)果。最后,MOOC學(xué)習(xí)分析系統(tǒng)實(shí)現(xiàn)利用一個(gè)用戶界面來訪問相應(yīng)的學(xué)習(xí)分析應(yīng)用程序,同時(shí)允許用戶通過一個(gè)Web界面提交學(xué)習(xí)分析工作和研究結(jié)果。
4.2 MOOC學(xué)習(xí)分析系統(tǒng)實(shí)施
本節(jié)首先描述實(shí)驗(yàn)環(huán)境和基礎(chǔ)設(shè)施的部署;然后為了顯示該系統(tǒng)的有效性,設(shè)置一個(gè)小規(guī)模場景實(shí)現(xiàn)對“未完成”學(xué)習(xí)者的識(shí)別,并進(jìn)行系統(tǒng)結(jié)果評價(jià)。
4.2.1 實(shí)驗(yàn)裝置
在小范圍內(nèi)通過基于Hadoop的私有云部署,由1個(gè)主節(jié)點(diǎn)資源管理器和8個(gè)區(qū)域服務(wù)器從節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)都是一臺(tái)配置為主頻2.5GHz、RAM內(nèi)存4GB和磁盤空間500GB的虛擬機(jī),分配給HDFS、數(shù)據(jù)集成組件和Map Reduce應(yīng)用程序,以此來識(shí)別“未完成”學(xué)習(xí)者。在實(shí)驗(yàn)過程中,使用的樣本數(shù)據(jù)集是從斯坦福大學(xué)Class2go開源平臺(tái)上的私有云采集。
4.2.2 評價(jià)
利用收集的數(shù)據(jù),通過實(shí)驗(yàn)來評估MOOC學(xué)習(xí)分析系統(tǒng)的性能,表1給出了使用MOOC學(xué)習(xí)分析系統(tǒng)時(shí)用來標(biāo)識(shí)“未完成”學(xué)習(xí)者不同節(jié)點(diǎn)數(shù)目。
一般MOOC課程的平均持續(xù)時(shí)間為5周,發(fā)現(xiàn)Map Reduce執(zhí)行應(yīng)用程序時(shí)針對不同數(shù)量級別的并行MOOC學(xué)習(xí)節(jié)點(diǎn),結(jié)果有明顯的差異。當(dāng)學(xué)習(xí)者的數(shù)量很小,MOOC學(xué)習(xí)分析系統(tǒng)只有一點(diǎn)小優(yōu)勢,8節(jié)點(diǎn)加速略高于1節(jié)點(diǎn),達(dá)到1.64,這說明本系統(tǒng)對學(xué)習(xí)者數(shù)量較小時(shí)分析結(jié)果沒有優(yōu)勢;然而當(dāng)大量的數(shù)以百萬計(jì)的學(xué)習(xí)者參與時(shí),學(xué)習(xí)分析加速使用8節(jié)點(diǎn)達(dá)到1節(jié)點(diǎn)的7.47,這種現(xiàn)象可以解釋為:即使進(jìn)入MOOC學(xué)習(xí)者的數(shù)量非常巨大,但是用MOOC學(xué)習(xí)分析系統(tǒng)可以比較理想地的識(shí)別“未完成”學(xué)習(xí)者。
5 結(jié)束語
通過MOOC學(xué)習(xí)分析系統(tǒng)實(shí)施,重點(diǎn)加強(qiáng)對終止或延遲在線學(xué)習(xí)的人群的監(jiān)控,提前介入對該群體的幫扶和引導(dǎo),降低MOOC高輟學(xué)率,通過數(shù)據(jù)表明該分析系統(tǒng)可以提升完成學(xué)習(xí)的比例,對“未完成”學(xué)習(xí)者繼續(xù)完成學(xué)習(xí)起到一定的推動(dòng)作用。隨著MOOC項(xiàng)目在全球的迅速推廣,基于Hadoop和Map Reduce應(yīng)用程序來自動(dòng)識(shí)別“未完成”學(xué)習(xí)者的學(xué)習(xí)分析系統(tǒng)還可以繼續(xù)研究下去,將來可以結(jié)合相關(guān)的網(wǎng)站進(jìn)行深度數(shù)據(jù)挖掘,并通過用戶接口讓MOOC服務(wù)商可以使用分析系統(tǒng)調(diào)整教學(xué)策略,提高結(jié)課率。這個(gè)系統(tǒng)還有不完善地方,將來還會(huì)繼續(xù)改進(jìn)與完善。
參考文獻(xiàn)(References):
[1] 王穎,張金磊,張寶輝.大規(guī)模網(wǎng)絡(luò)開放課程(M00C)典型項(xiàng)目
特征分析及啟示[J].遠(yuǎn)程教育雜志,2013.4:67-75
[2] 陳曉清.技術(shù)聯(lián)姻教育:edX網(wǎng)絡(luò)課程的創(chuàng)建、運(yùn)行于挑戰(zhàn)[J].
江蘇高教,2014.2:77-80
[3] 易蓉,張炯強(qiáng).復(fù)旦交大加入全球最大在線課程聯(lián)盟[N].新民
晚報(bào),2013.7.9(A7).
[4] 李青,侯忠霞,王濤.大規(guī)模開放在線課程網(wǎng)站的商業(yè)模式分
析[J].開放教育研究,2013.19(5):71-78
[5] Penn GSE Study Shows MOOCs Have Relatively Few
Active Users, With Only a Few Persisting to Course End[EB/OL].http://www.gse.upenn.edu/pressroom/press-
releases/2013/12/penn-gse-study-shows-moocs-have-
relatively-few-active-users-only-few-persisti
[6] Dean J, Ghemawat S.MapReduce: Simplified Data
Processingon Large Clusters[C]//Proc. of the 6th Symposium on Operating System Design and Implementation. Berkeley, USA:[s.n.], 2004:137-150
[7] White T. Cluster Specification Hadoop: The Definitive
Guide[M].[s.1.]:O'Reilly Media,2009:255-259
[8] 程煒,楊宗凱,樂春暉.基于Web Service的一種分布式體系結(jié)
構(gòu)[J].計(jì)算機(jī)應(yīng)用研究,2002.3:105-107,111
[9] 李春艷,何一舟,戴彬.Hadoop平臺(tái)的多隊(duì)列作業(yè)調(diào)度優(yōu)化
方案研究[J].計(jì)算機(jī)應(yīng)用研究,2014.31(3):705-707,738
[10] 李天目.云計(jì)算技術(shù)架構(gòu)與實(shí)踐[M].清華大學(xué)出版社,
2013.