陳子健 朱曉亮
摘要:該文采用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法,研究從教育數(shù)據(jù)中挖掘影響在線學(xué)習(xí)者學(xué)業(yè)成績(jī)的因素并構(gòu)建分類預(yù)測(cè)模型。首先,通過計(jì)算所有單個(gè)數(shù)據(jù)屬性和學(xué)業(yè)成績(jī)類別之間的相關(guān)系數(shù)和計(jì)算所有屬性的信息增益率兩種方法共同確定學(xué)業(yè)成績(jī)的影響因素。然后,提出采用集成學(xué)習(xí)的方法構(gòu)建集成式學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型,并比較多種算法構(gòu)建的單一分類模型和集成分類模型的性能。最后,進(jìn)一步采用嵌套集成學(xué)習(xí)的方法構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型,并對(duì)模型的性能進(jìn)行評(píng)估。研究成果可以為在線學(xué)習(xí)者學(xué)業(yè)成績(jī)影響因素研究和預(yù)測(cè)建模研究提供借鑒,也有助于推進(jìn)在線學(xué)習(xí)學(xué)業(yè)預(yù)警、學(xué)業(yè)成績(jī)預(yù)測(cè)和評(píng)價(jià)的實(shí)踐。
關(guān)鍵詞:教育數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);預(yù)測(cè)建模;學(xué)業(yè)成績(jī);在線學(xué)習(xí)
一、引言
在線教育已經(jīng)逐漸被人們認(rèn)可和接受,特別是在K12教育、語(yǔ)言類教育和職業(yè)技能培訓(xùn)領(lǐng)域發(fā)展迅速。截至2016年12月,中國(guó)在線教育用戶規(guī)模達(dá)1.38億,較2015年底增加2750萬(wàn)人,年增長(zhǎng)率為25.0%。不同于面對(duì)面的課堂教學(xué)情境,在線學(xué)習(xí)中師生處于分離狀態(tài),且學(xué)習(xí)者數(shù)量龐大。如何對(duì)在線學(xué)習(xí)者的學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè),依據(jù)預(yù)測(cè)結(jié)果實(shí)施學(xué)業(yè)預(yù)警,并為教學(xué)決策提供依據(jù),是在線教育需要解決的一個(gè)問題。利用教育數(shù)據(jù)挖掘技術(shù),通過數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績(jī)預(yù)測(cè)模型,即從數(shù)據(jù)中自動(dòng)學(xué)習(xí)預(yù)測(cè)模型是目前研究的熱點(diǎn)。然而,采用決策樹、人工神經(jīng)網(wǎng)絡(luò)等算法訓(xùn)練的單一預(yù)測(cè)模型性能不穩(wěn)定,對(duì)數(shù)據(jù)變化比較敏感。針對(duì)上述問題,本文基于“集體決策優(yōu)于個(gè)體決策”的假設(shè),嘗試采用集成學(xué)習(xí)(EnsembleLearning)方法構(gòu)建集式模型。在實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)上,進(jìn)一步采用嵌套集成學(xué)習(xí)方法構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型,并對(duì)模型的性能進(jìn)行評(píng)估分析。
二、概念界定及相關(guān)研究
(一)概念界定與分析
教育數(shù)據(jù)挖掘(Edueational Data Mining,EDM)是數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用。根據(jù)國(guó)際教育數(shù)據(jù)挖掘工作組網(wǎng)站的定義,教育數(shù)據(jù)挖掘是指運(yùn)用不斷發(fā)展的方法和技術(shù),探索特定教育環(huán)境中的各類數(shù)據(jù),挖掘出有價(jià)值的信息,以幫助教師更好地理解學(xué)生,并改善他們所學(xué)習(xí)的環(huán)境,為教育者、學(xué)習(xí)者、管理者等教育工作者提供服務(wù)。EDM與學(xué)習(xí)分析(Learning Analytics,LA)交叉,但是兩者又存在差異:(1)EDM強(qiáng)調(diào)自動(dòng)發(fā)現(xiàn),側(cè)重建立模型和發(fā)現(xiàn)模式,多采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù);LA盡管也強(qiáng)調(diào)自動(dòng)發(fā)現(xiàn),但同時(shí)還需要人為干預(yù),多采用統(tǒng)計(jì)分析技術(shù)。(2)EDM起源于智能輔導(dǎo)領(lǐng)域,強(qiáng)調(diào)預(yù)測(cè)學(xué)習(xí)者的學(xué)業(yè)成績(jī)和關(guān)注預(yù)測(cè)建模;LA也包括這些要素,但它更強(qiáng)調(diào)系統(tǒng)干預(yù),注重個(gè)性化和自適應(yīng)。(3)LA側(cè)重于描述已發(fā)生的事件或其結(jié)果,而EDM側(cè)重于發(fā)現(xiàn)新知識(shí)與新模型。
預(yù)測(cè)建模(Predictive Modeling)是指根據(jù)現(xiàn)有數(shù)據(jù)先建立一個(gè)模型,利用模型可以對(duì)未來(lái)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。本研究中的學(xué)業(yè)成績(jī)預(yù)測(cè)建模主要是利用已知學(xué)生學(xué)業(yè)成績(jī)類別的訓(xùn)練數(shù)據(jù)訓(xùn)練得到一個(gè)分類函數(shù)或分類模型(即分類器),并評(píng)估模型的性能。學(xué)業(yè)成績(jī)預(yù)測(cè)的目的是將學(xué)習(xí)者在學(xué)習(xí)過程中的相關(guān)數(shù)據(jù)輸入預(yù)測(cè)模型,預(yù)測(cè)學(xué)習(xí)者在學(xué)習(xí)結(jié)束時(shí)可能的成績(jī)類別,為是否進(jìn)行學(xué)業(yè)預(yù)警和調(diào)整教學(xué)策略提供依據(jù)。
(二)相關(guān)研究
教育數(shù)據(jù)量的急劇增長(zhǎng)、數(shù)據(jù)類型的多樣性、數(shù)據(jù)的可獲取性以及數(shù)據(jù)挖掘技術(shù)的發(fā)展等多種因素共同推動(dòng)了教育數(shù)據(jù)研究的發(fā)展。學(xué)習(xí)者模型、學(xué)業(yè)成績(jī)預(yù)測(cè)、行為模式發(fā)現(xiàn)、學(xué)習(xí)反饋與評(píng)價(jià)等是當(dāng)前教育數(shù)據(jù)研究的主要熱點(diǎn),已有的學(xué)業(yè)成績(jī)預(yù)測(cè)相關(guān)研究,根據(jù)其研究的側(cè)重點(diǎn)大致可以分為三類。
1.學(xué)業(yè)成績(jī)預(yù)測(cè)與評(píng)價(jià)的理論模型研究
美國(guó)佛羅里達(dá)農(nóng)工大學(xué)的Ohia博士在Nichol的五步模型的基礎(chǔ)上,提出了采集學(xué)業(yè)成績(jī)相關(guān)數(shù)據(jù)并進(jìn)行評(píng)價(jià)的六步模型一FAMOUS,模型名稱由六個(gè)關(guān)鍵步聚的首字母組成。蔚瑩等對(duì)QFD(質(zhì)量功能展開)模型進(jìn)行適當(dāng)?shù)恼{(diào)整,提出基于QFD的學(xué)生學(xué)習(xí)能力評(píng)估理論模型。張濤等參考Kirkpatrick評(píng)估模型建立了翻轉(zhuǎn)課堂環(huán)境下的學(xué)習(xí)績(jī)效評(píng)價(jià)理論模型。武法提等基于學(xué)習(xí)行為分析模型和學(xué)習(xí)結(jié)果分類理論設(shè)計(jì)了學(xué)業(yè)成績(jī)預(yù)測(cè)框架,包括學(xué)習(xí)內(nèi)容分析、學(xué)習(xí)行為分析和學(xué)習(xí)預(yù)測(cè)分析三個(gè)模塊。金義富等在討論學(xué)業(yè)預(yù)警系統(tǒng)設(shè)計(jì)框架的基礎(chǔ)上,提出了課程、課堂、課外“三位一體”預(yù)警信息發(fā)現(xiàn)與生成模型LAOMA。
2.學(xué)業(yè)成績(jī)影響因素研究
Carmel McNaught等關(guān)注香港高校中e-Learning學(xué)習(xí)過程和學(xué)業(yè)成績(jī)預(yù)測(cè),探索學(xué)習(xí)設(shè)計(jì),特別是學(xué)習(xí)設(shè)計(jì)中的策略設(shè)計(jì)與學(xué)習(xí)環(huán)境設(shè)計(jì),與學(xué)業(yè)成績(jī)之間的關(guān)系。Galbraith,Craig S調(diào)查116門課程的學(xué)生評(píng)教與學(xué)生學(xué)業(yè)成績(jī)的相關(guān)數(shù)據(jù),研究學(xué)生評(píng)教與學(xué)業(yè)成績(jī)和教學(xué)效能之間有無(wú)相關(guān)性。Gary Pike等使用美國(guó)“全國(guó)大學(xué)生學(xué)習(xí)參與度調(diào)查”(NSSE)數(shù)據(jù),并引入學(xué)生特征和院系特征,調(diào)查教育支出、學(xué)習(xí)參與度和學(xué)生自我報(bào)告學(xué)業(yè)成績(jī)之間的聯(lián)系。J.Fredericks Volkwein等通過40個(gè)機(jī)構(gòu)的203個(gè)工程項(xiàng)目的數(shù)據(jù),研究評(píng)價(jià)標(biāo)準(zhǔn)與學(xué)生經(jīng)歷和學(xué)業(yè)成績(jī)的關(guān)系。趙艷等運(yùn)用相關(guān)分析、多元回歸分析方法得出了影響中小學(xué)教師遠(yuǎn)程培訓(xùn)效果的主要因素。趙慧瓊等利用多元回歸分析法分析學(xué)習(xí)者在線學(xué)習(xí)行為數(shù)據(jù),判定影響學(xué)業(yè)成績(jī)的預(yù)警因素。劉銘、馬小強(qiáng)等采用質(zhì)性研究方法,通過訪談、現(xiàn)場(chǎng)觀察和實(shí)物收集等手段,從學(xué)習(xí)者的視角挖掘了學(xué)習(xí)者參與云教室學(xué)習(xí)并取得績(jī)效的影響因素。傅鋼善等以陜西師范大學(xué)“現(xiàn)代教育技術(shù)”網(wǎng)絡(luò)課程為例,探討學(xué)習(xí)者的行為特征與學(xué)業(yè)成績(jī)的關(guān)系。吳青等選擇遠(yuǎn)程教學(xué)平臺(tái)的學(xué)習(xí)行為數(shù)據(jù),采用關(guān)聯(lián)規(guī)則算法挖掘?qū)W習(xí)風(fēng)格、學(xué)習(xí)行為和學(xué)習(xí)成就之間的內(nèi)在規(guī)律。
3.學(xué)業(yè)成績(jī)預(yù)測(cè)和評(píng)價(jià)的數(shù)學(xué)建模
LC Duque等采用問卷收集數(shù)據(jù),利用象限分析、ANOVA測(cè)試和結(jié)構(gòu)方程模型組成的多重方法研究學(xué)業(yè)成績(jī)和滿意度的建模。Arsad等使用人工神經(jīng)網(wǎng)絡(luò)方法建模,預(yù)測(cè)馬來(lái)西亞瑪拉工業(yè)大學(xué)工程學(xué)專業(yè)學(xué)生的學(xué)業(yè)成績(jī)。模型以學(xué)習(xí)者的基礎(chǔ)課程的學(xué)分積點(diǎn)作為輸入,以學(xué)分積點(diǎn)的平均值作為輸出。陸柳生等提出基于離群點(diǎn)檢測(cè)的學(xué)生學(xué)習(xí)狀態(tài)分析方法,對(duì)學(xué)生考試成績(jī)數(shù)據(jù)進(jìn)行挖掘,判定學(xué)生學(xué)習(xí)狀態(tài)是否異常。施儉等在分析教育數(shù)據(jù)挖掘技術(shù)及應(yīng)用的基礎(chǔ)上,建立以關(guān)聯(lián)規(guī)則挖掘和聚類分析為核心的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的數(shù)據(jù)挖掘模型,可以從學(xué)習(xí)數(shù)據(jù)中判定學(xué)生網(wǎng)絡(luò)學(xué)習(xí)效果。舒忠梅等利用神經(jīng)網(wǎng)絡(luò)算法建立17個(gè)輸入節(jié)點(diǎn),7個(gè)隱藏節(jié)點(diǎn),1個(gè)輸出節(jié)點(diǎn)的三層神經(jīng)網(wǎng)絡(luò)模型對(duì)學(xué)生的學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè)。
通過文獻(xiàn)分析,發(fā)現(xiàn)國(guó)內(nèi)外學(xué)術(shù)界在學(xué)業(yè)成績(jī)預(yù)測(cè)和評(píng)價(jià)方面已經(jīng)做了不少研究工作。但是現(xiàn)有研究,特別是國(guó)內(nèi)研究,主要集中在:(1)從理論視角研究學(xué)業(yè)成績(jī)預(yù)測(cè)和評(píng)估的框架模型,實(shí)證研究稍顯不足,缺乏對(duì)理論框架的詳細(xì)驗(yàn)證;(2)基于理論演繹推導(dǎo)和經(jīng)驗(yàn),建立某些因素與學(xué)業(yè)成績(jī)之間存在相關(guān)性的假設(shè),再采用問卷和訪談等方法收集數(shù)據(jù),分析驗(yàn)證假設(shè);這種方式只能證明選定因素與學(xué)業(yè)成績(jī)之間存在相關(guān)性,但難以確定選定因素與學(xué)業(yè)成績(jī)之間數(shù)量關(guān)系;(3)部分研究者采用決策樹、神經(jīng)網(wǎng)絡(luò)等算法建立學(xué)業(yè)成績(jī)預(yù)測(cè)模型,但是建立的模型往往是單一的分類器,由于算法本身特性的原因,單個(gè)分類器的性能容易受數(shù)據(jù)變化的影響。
本研究嘗試使用數(shù)據(jù)驅(qū)動(dòng)的建模方法,從數(shù)據(jù)中挖掘影響在線學(xué)習(xí)者學(xué)業(yè)成績(jī)的因素,通過機(jī)器學(xué)習(xí)從數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類預(yù)測(cè)模型。針對(duì)單一分類預(yù)測(cè)模型容易受數(shù)據(jù)變化影響而表現(xiàn)出分類性能不穩(wěn)定的問題,采用集成學(xué)習(xí)的方法構(gòu)建集成式預(yù)測(cè)模型。在比較多種算法構(gòu)建的單一分類器和集成分類器的分類性能的基礎(chǔ)上,進(jìn)一步提出采用嵌套集成學(xué)習(xí)的方法構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型,并對(duì)模型的性能進(jìn)行評(píng)估,以期為在線學(xué)習(xí)者的學(xué)業(yè)成績(jī)預(yù)測(cè)建模提供借鑒。
三、數(shù)據(jù)來(lái)源及學(xué)業(yè)成績(jī)影響因素的選擇確定
(一)數(shù)據(jù)來(lái)源
本研究使用約旦大學(xué)e-Learning學(xué)業(yè)成績(jī)數(shù)據(jù)集(xAPI-Edu-Data)。數(shù)據(jù)來(lái)自Kalboard 360學(xué)習(xí)管理系統(tǒng),并在學(xué)習(xí)管理系統(tǒng)內(nèi)嵌入學(xué)習(xí)者活動(dòng)跟蹤工具ExperienceAPI(xAPI)采集學(xué)習(xí)者行為相關(guān)數(shù)據(jù)。采集到的原始數(shù)據(jù)共500條記錄,其中20條記錄中存在缺失值,剔除含缺失值的數(shù)據(jù),最后保留480條有效記錄。學(xué)習(xí)者中男生305名,女生175名,主要來(lái)自科威特、約旦等中東國(guó)家,也有少量來(lái)自突尼斯、美國(guó)、墨西哥、委內(nèi)瑞拉等歐洲和美洲國(guó)家。每條數(shù)據(jù)記錄包括16個(gè)屬性(如表1所示),除了與學(xué)習(xí)者自身相關(guān)的人口統(tǒng)計(jì)學(xué)特征,學(xué)習(xí)背景特征和學(xué)習(xí)行為特征之外,數(shù)據(jù)集中還包括與學(xué)習(xí)者父母相關(guān)的數(shù)據(jù),如學(xué)習(xí)者的學(xué)習(xí)主要由父親還是母親負(fù)責(zé),學(xué)習(xí)者父母是否完成問卷調(diào)查以及學(xué)習(xí)者父母對(duì)教學(xué)的滿意度。數(shù)據(jù)采集的時(shí)間跨度為兩個(gè)學(xué)期,其中245名學(xué)習(xí)者的記錄是第一個(gè)學(xué)期采集的,235名學(xué)者的數(shù)據(jù)是第二個(gè)學(xué)期采集的。依據(jù)學(xué)習(xí)者最終的成績(jī)將學(xué)習(xí)者的學(xué)業(yè)成績(jī)劃分為三個(gè)層次,其中,70分以下為低水平(Low),70~89分為中等水平(Middle),90分以上為高水平(High)。
數(shù)據(jù)集中同時(shí)包含定類屬性和數(shù)值屬性,為避免數(shù)值屬性取值范圍的差異對(duì)分類預(yù)測(cè)的干擾,首先對(duì)數(shù)值屬性進(jìn)行歸一化處理,使所有的數(shù)值屬性的取值范圍處于[0,1]區(qū)間內(nèi)。
(二)學(xué)業(yè)成績(jī)影響因素的選擇確定
學(xué)業(yè)成績(jī)影響因素的選擇確定在數(shù)據(jù)挖掘中表現(xiàn)為數(shù)據(jù)屬性子集的選擇確定。原始數(shù)據(jù)集中通常包含一些不相關(guān)或冗余的屬性,例如學(xué)生的學(xué)號(hào)與學(xué)生的學(xué)業(yè)成績(jī)顯然不存在相關(guān)性。去除冗余和不相關(guān)的特征可以提升分類的準(zhǔn)確率,并且在屬性子集上學(xué)習(xí)到的預(yù)測(cè)模型也更好理解。屬性子集選擇的目標(biāo)是找出最小屬性集,并使得數(shù)據(jù)子集的概率分布盡可能地接近原始數(shù)據(jù)的分布。屬性子集選擇的理想方法是:將所有可能的屬性子集作為數(shù)據(jù)挖掘算法的輸入,然后選取產(chǎn)生最好結(jié)果的子集。然而,由于涉及n個(gè)屬性的子集多達(dá)2n個(gè),這種方法一般行不通,需要其它策略。
本研究采用對(duì)原始數(shù)據(jù)中所有的單個(gè)屬性進(jìn)行評(píng)估并排序,然后依據(jù)排序結(jié)果來(lái)選擇屬性子集的方法。具體實(shí)現(xiàn)是借助Weka,采用兩種方法對(duì)數(shù)據(jù)集的屬性進(jìn)行評(píng)估和排序。第一種方法是計(jì)算所有單個(gè)屬性和學(xué)業(yè)成績(jī)類別之間的皮爾森相關(guān)系數(shù),并依據(jù)皮爾森系數(shù)的大小進(jìn)行排序,系數(shù)值越大表示該屬性與學(xué)業(yè)成績(jī)類別之間的相關(guān)性越強(qiáng)。第二種方法是計(jì)算所有屬性的信息增益率,并根據(jù)信息增益率的大小對(duì)屬性進(jìn)行排序,屬性的信息增益率越大表示該屬性對(duì)學(xué)業(yè)成績(jī)進(jìn)行分類的能力越強(qiáng)。兩種屬性評(píng)估方法的排序結(jié)果如下頁(yè)表2所示。第1列是屬性的相關(guān)系數(shù)或信息增益比率,第2列是屬性的序號(hào),第3列則是屬性的名稱。從下頁(yè)表2可以發(fā)現(xiàn),雖然兩種屬性評(píng)估方法的排序結(jié)果有差異,但兩種方法的排序結(jié)果的前9項(xiàng)組成的屬性子集具有一致性。從相關(guān)系數(shù)和信息增益率的數(shù)值大小可以判斷這9項(xiàng)也是影響學(xué)業(yè)成績(jī)的主要影響因素,因此將其作為預(yù)測(cè)建模的自變量。
四、預(yù)測(cè)算法與實(shí)驗(yàn)設(shè)計(jì)
(一)預(yù)測(cè)算法
分類和回歸是兩類主要的預(yù)測(cè)問題,分類是預(yù)測(cè)離散的值,回歸是預(yù)測(cè)連續(xù)的值。本研究主要是預(yù)測(cè)在線學(xué)習(xí)者在學(xué)習(xí)結(jié)束時(shí)學(xué)業(yè)成績(jī)的類別,類別∈{Low,Middle,High}。分類一般分為兩個(gè)步驟,首先利用已知類別標(biāo)簽的數(shù)據(jù)集訓(xùn)練分類模型,并評(píng)估模型,該步聚也稱作有監(jiān)督的學(xué)習(xí);然后利用模型將未知類別的數(shù)據(jù)對(duì)象映射到某個(gè)給定的類別。目前,常用的分類算法有貝葉斯網(wǎng)絡(luò)(BN)、決策樹(DT)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)等。
傳統(tǒng)分類建模方法是將原數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集用于學(xué)習(xí)模型,驗(yàn)證集用于模型調(diào)參,測(cè)試集來(lái)檢驗(yàn)?zāi)P偷男阅?。這樣學(xué)習(xí)到的往往是一個(gè)單一分類器。基于“集體決策優(yōu)于個(gè)體決策”的假設(shè),本研究采用集成學(xué)習(xí)方法對(duì)原始數(shù)據(jù)進(jìn)行二次抽樣以得到多個(gè)訓(xùn)練集,使用特定算法在每個(gè)訓(xùn)練集建立一個(gè)分類器(基分類器),每個(gè)基分類器分別預(yù)測(cè)未知樣本的類別,最后對(duì)基分類器的分類結(jié)果進(jìn)行某種組合來(lái)決定最終的類別。集成學(xué)習(xí)的邏輯視圖如圖1所示。常見的集成學(xué)習(xí)方法有裝袋(Bagging)和提升(Boosting),另外隨機(jī)森林算法也是一種集成學(xué)習(xí)方法。
1.裝袋(Bagging)
通過對(duì)原數(shù)據(jù)集進(jìn)行有放回的抽樣構(gòu)建出大小和原數(shù)據(jù)集D一樣大小的新數(shù)據(jù)集D1,D2,D3……,然后用這些新的數(shù)據(jù)集訓(xùn)練多個(gè)基分類器C1,C2,C3……。因?yàn)槭怯蟹呕氐某闃?,所以在同一個(gè)訓(xùn)練集中同一個(gè)樣本可能會(huì)出現(xiàn)多次,也可能有的樣本不會(huì)出現(xiàn)。裝袋算法對(duì)所有基分類器的預(yù)測(cè)值進(jìn)行多數(shù)表決,將得票最高的類別指派給測(cè)試樣本。
2.提升(Boosting)
提升為每一個(gè)訓(xùn)練樣本賦一個(gè)權(quán)重,在每一輪提升過程結(jié)束時(shí)自動(dòng)調(diào)整權(quán)重。開始時(shí)所有樣本的權(quán)重都等于是1/N,抽到的概率都一樣,抽樣得到的訓(xùn)練集經(jīng)過訓(xùn)練得到一個(gè)分類器。利用分類器對(duì)原始數(shù)據(jù)集中所有樣本進(jìn)行分類,然后增加錯(cuò)誤分類樣本的權(quán)重(對(duì)錯(cuò)分?jǐn)?shù)據(jù)進(jìn)行懲罰),減少正確分類樣本的權(quán)重,使分類器在后續(xù)迭代中關(guān)注那些難以分類的樣本。
3.隨機(jī)森林(Random Forest)
隨機(jī)森林是一種專門為決策樹基分類器設(shè)計(jì)的集成學(xué)習(xí)方法。它集成多棵決策樹的預(yù)測(cè),其中每棵樹都是基于隨機(jī)向量的一個(gè)獨(dú)立集合的值產(chǎn)生。隨機(jī)森林得到基分類器Ci的算法主要分為兩步:(1)對(duì)原始訓(xùn)練集采用有放回的自助抽樣,得到和原始訓(xùn)練集大小一致的訓(xùn)練集,與裝袋方法一致;(2)隨機(jī)選取分裂屬性集。在每個(gè)內(nèi)部節(jié)點(diǎn),從M個(gè)屬性中隨機(jī)選取F(F(二)實(shí)驗(yàn)設(shè)計(jì)
采用十折交叉驗(yàn)證方法將原始數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集,分別使用BN、DT、ANN和SVM四種算法在訓(xùn)練集上訓(xùn)練單一分類器,然后分別以四種算法訓(xùn)練基分類器,采用三種集成學(xué)習(xí)方法構(gòu)建集成分類器。比對(duì)單一分類器和集成分類器的性能,檢驗(yàn)集成分類器能否提升分類性能,是否對(duì)所有基分類器有效。在上一步實(shí)驗(yàn)的基礎(chǔ)上,嘗試采用嵌套集成學(xué)習(xí)方法構(gòu)建學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型,優(yōu)化模型參數(shù),評(píng)估模型對(duì)學(xué)業(yè)成績(jī)分類預(yù)測(cè)的效果。實(shí)驗(yàn)在安裝Weka 3.8的PC(Intel(R)Core(TM)i5-6600cpu@3.30GHz,8G RAM)上完成。完整的實(shí)驗(yàn)流程如下頁(yè)圖2所示,其中數(shù)據(jù)預(yù)處理和屬性選擇在“學(xué)業(yè)成績(jī)影響因素的選擇確定”階段已經(jīng)完成。
五、實(shí)驗(yàn)結(jié)果與分析
(一)單一分類器與集成分類器性能比較
實(shí)驗(yàn)采用BN、DT、ANN和SVM四種算法訓(xùn)練得到4個(gè)單一分類器;將4個(gè)單一分類器作為基分類器,分別采用裝袋和提升方法訓(xùn)練得到8個(gè)集成分類器;以DT分類器為基分類器,采用隨機(jī)森林算法訓(xùn)練得到1個(gè)集成分類器,共計(jì)13個(gè)分類器。各個(gè)分類器的性能指標(biāo)如表3所示。表中所有指標(biāo)是分類器對(duì)Low、Middle、High三個(gè)學(xué)業(yè)成績(jī)類別進(jìn)行預(yù)測(cè)的平均值。
結(jié)果顯示,對(duì)于貝葉斯網(wǎng)絡(luò)(BN)、決策樹(DT)和人工神經(jīng)網(wǎng)絡(luò)(ANN)三種算法,通過構(gòu)建集成分類器都能不同程度地提升分類性能,真正率、精度和召回率都有所提升,假正率都有所降低。以ANN算法為例,單一分類器的精度是0.722,而裝袋方法訓(xùn)練得到的集成分類器的精度是0.769,提升方法訓(xùn)練得到的集成分類器的精度是0.767。雖然精度提升幅度不明顯,但是如果測(cè)試樣本數(shù)量較大,能夠正確分類的實(shí)例數(shù)還是會(huì)有較大差異。相比而言,在幾種不同類型的基分類器中,集成學(xué)習(xí)對(duì)于ANN類型的基分類器性能提升最為顯著f提升6.5%),通過隨機(jī)森林方法得到的DT類型的集成分類器性能最好。實(shí)驗(yàn)結(jié)果同時(shí)顯示,對(duì)于SVM算法,構(gòu)建集成分類器并不能提高分類性能,反而相對(duì)于單一分類器,性能有輕微的降低。
(二)學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型構(gòu)建與分析
依據(jù)前面實(shí)驗(yàn)結(jié)果,選擇分類性能最好的隨機(jī)森林集成分類器作為基分類器,采用裝袋方法訓(xùn)練集成分類器,即進(jìn)行集成學(xué)習(xí)的嵌套,并對(duì)訓(xùn)練過程中的參數(shù)進(jìn)行調(diào)整,構(gòu)建學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型。
學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型(嵌套集成分類器)的性能摘要如表4所示。
分類器能對(duì)480個(gè)實(shí)例中的380個(gè)實(shí)例進(jìn)行正確分類,分類的準(zhǔn)確率為79.1667%,分類的準(zhǔn)確性有了進(jìn)一步提高。kappa系數(shù)為0.6785,一般認(rèn)為kappa系數(shù)處于[0.6,0.8]就可以判定為分類性能較好。分類器的真正率(TP Rate)、召回率(Recall)、精度(Precision)、受試者操作特征曲線面積(ROC Area)等各項(xiàng)指標(biāo)如表5所示。各項(xiàng)指標(biāo)顯示分類器對(duì)學(xué)業(yè)成績(jī)類別集合{Low,Middle,High}中的Low預(yù)測(cè)更為準(zhǔn)確,其精度為0.857,表示分類器預(yù)測(cè)為學(xué)業(yè)成績(jī)差的學(xué)習(xí)者中有85.7%學(xué)習(xí)者在學(xué)習(xí)結(jié)束時(shí)的學(xué)業(yè)成績(jī)是較差的。ROC Area=0.968(如下頁(yè)圖3所示),隨機(jī)分類時(shí)ROC Area=0.5,ROC Area值介于0.5和1之間,ROC Area越接近1越好。ROC Area=0.968表示分類器性能很好??傮w來(lái)說(shuō),分類器對(duì)Class=Low的分類性能最好,對(duì)Class=High的分類性能次之,對(duì)Class=Middle的分類性能最差。
分類預(yù)測(cè)模型對(duì)學(xué)業(yè)成績(jī)類別Class=Low的分類預(yù)測(cè)更為準(zhǔn)確也符合實(shí)際應(yīng)用,因?yàn)榉诸愵A(yù)測(cè)的主要目的之一就是為了及早發(fā)現(xiàn)學(xué)業(yè)成績(jī)可能較差的學(xué)習(xí)者,及時(shí)進(jìn)行干預(yù)。如下頁(yè)表6所示的分類器混淆矩陣的行代表真實(shí)的類別,列代表分類器的預(yù)測(cè)結(jié)果?;煜仃囷@示,127個(gè)真實(shí)類別為L(zhǎng)ow的實(shí)例中,108個(gè)預(yù)測(cè)正確,19個(gè)錯(cuò)誤預(yù)測(cè)為Middle,沒有實(shí)例錯(cuò)誤預(yù)測(cè)為High;211個(gè)真實(shí)類別為Middle的實(shí)例中163個(gè)預(yù)測(cè)正確,18個(gè)實(shí)例錯(cuò)誤預(yù)測(cè)為L(zhǎng)ow,30個(gè)實(shí)例錯(cuò)誤預(yù)測(cè)為High;142個(gè)真實(shí)類別為High的實(shí)例中,109個(gè)預(yù)測(cè)正確,33個(gè)錯(cuò)誤預(yù)測(cè)為Middle,沒有實(shí)例錯(cuò)誤預(yù)測(cè)為L(zhǎng)ow。
六、結(jié)論與討論
學(xué)習(xí)者學(xué)業(yè)成績(jī)的預(yù)測(cè)和評(píng)價(jià)是全世界教育研究者共同關(guān)注的話題,而在線教育的快速發(fā)展又賦予它新的使命,即如何對(duì)在線學(xué)習(xí)者的學(xué)業(yè)成績(jī)進(jìn)行預(yù)測(cè),以便及時(shí)提供預(yù)警和其它干預(yù)措施。在大數(shù)據(jù)時(shí)代,學(xué)習(xí)者在線學(xué)習(xí)過程中會(huì)積累海量結(jié)構(gòu)性和非結(jié)構(gòu)性的數(shù)據(jù),可以通過數(shù)據(jù)挖掘技術(shù)探尋在線學(xué)習(xí)者學(xué)業(yè)成績(jī)的影響因素,也可以通過機(jī)器學(xué)習(xí)的方法從數(shù)據(jù)中自動(dòng)學(xué)習(xí)到學(xué)業(yè)成績(jī)預(yù)測(cè)模型。
針對(duì)本研究所使用的數(shù)據(jù)集,在學(xué)業(yè)成績(jī)影響因素的挖掘過程中發(fā)現(xiàn)學(xué)習(xí)者行為對(duì)學(xué)業(yè)成績(jī)影響最大,父母的參與度與態(tài)度對(duì)學(xué)業(yè)成績(jī)的影響次之,學(xué)習(xí)者人口統(tǒng)計(jì)學(xué)方面的特征對(duì)學(xué)業(yè)成績(jī)的影響最小。該發(fā)現(xiàn)對(duì)在線教育平臺(tái)的設(shè)計(jì)和在線教育的數(shù)據(jù)采集具有借鑒意義。要實(shí)現(xiàn)真正個(gè)性化在線教育,實(shí)現(xiàn)對(duì)學(xué)業(yè)成績(jī)的精準(zhǔn)預(yù)測(cè)和提供及時(shí)干預(yù),首先需要通過在線教育平臺(tái)的功能設(shè)計(jì)實(shí)現(xiàn)對(duì)學(xué)習(xí)者相關(guān)數(shù)據(jù)的自動(dòng)采集;其次,數(shù)據(jù)的采集類別除了現(xiàn)在普遍關(guān)注的人口統(tǒng)計(jì)學(xué)方面的特征數(shù)據(jù),還需特別注重對(duì)學(xué)習(xí)者行為特征數(shù)據(jù)的采集。隨著情感計(jì)算技術(shù)在教育中的應(yīng)用,學(xué)習(xí)者情感特征數(shù)據(jù)也需要進(jìn)行采集;另外,對(duì)于不同類型的在線學(xué)習(xí)者,影響其學(xué)業(yè)成績(jī)的因素不同,需要采集的數(shù)據(jù)類別也存差異;例如,本研究中的K12階段的中小學(xué)生不同于大學(xué)生等成人學(xué)習(xí)者,中小學(xué)生父母的行為和態(tài)度也是預(yù)測(cè)學(xué)習(xí)者學(xué)業(yè)成績(jī)時(shí)需要考慮的一個(gè)重要方面。
對(duì)于通過機(jī)器學(xué)習(xí)從數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類預(yù)測(cè)模型的問題,本研究假設(shè)相比于單一分類模型,學(xué)習(xí)多個(gè)基分類器,然后對(duì)基分類器的結(jié)果進(jìn)行組合的集成學(xué)習(xí)方法可以提升預(yù)測(cè)模型的性能。研究發(fā)現(xiàn),對(duì)于貝葉斯網(wǎng)絡(luò)(BN)、決策樹(DT)、人工神經(jīng)網(wǎng)絡(luò)(ANN)三種算法,通過集成學(xué)習(xí)構(gòu)建集成分類模型確實(shí)都能不同程度地提升分類預(yù)測(cè)的性能;但是對(duì)于支持向量機(jī)(SVM)算法,學(xué)習(xí)到的集成分類模型并沒有提升分類預(yù)測(cè)的性能,反而相比于單一分類模型,分類性能有所降低。理論上講,集成學(xué)習(xí)可以或多或少地提升分類性能,但提升的幅度與基分類器的穩(wěn)定性有關(guān),對(duì)于不穩(wěn)定的基分類的性能提升更加明顯。對(duì)于SVM算法,集成學(xué)習(xí)降低模型的分類性能的原因在于:SVM算法得到基分類器本身比較穩(wěn)定,集成學(xué)習(xí)算法對(duì)分類性能的提升并不明顯;同時(shí),由于集成學(xué)習(xí)算法在訓(xùn)練基分類器時(shí),因?yàn)樗惴ū旧淼奶匦詴?huì)使得訓(xùn)練子集可能存在重復(fù)樣本,導(dǎo)致基分類器性能降低,從而使得整個(gè)模型的分類性能輕微下降。
在確認(rèn)集成學(xué)習(xí)方法可以提升學(xué)業(yè)成績(jī)分類預(yù)測(cè)模型性能的前提下,本研究進(jìn)一步采用嵌套集成學(xué)習(xí)的方法從數(shù)據(jù)中自動(dòng)學(xué)習(xí)分類預(yù)測(cè)模型。用隨機(jī)森林算法訓(xùn)練基分類器,采用裝袋算法對(duì)基分器的預(yù)測(cè)值進(jìn)行多數(shù)表決,并對(duì)模型的性能進(jìn)行分析。研究發(fā)現(xiàn):通過嵌套集成方法學(xué)習(xí)到的模型的分類精度得到了進(jìn)一步提高。需要說(shuō)明的是模型分類精度的高低除了受算法本身優(yōu)劣性的影響之外,還受分類的類別數(shù)量的影響。分類的類別越多,準(zhǔn)確分類的難度越大,例如本研究中將學(xué)業(yè)成績(jī)的預(yù)測(cè)結(jié)果劃分為三個(gè)類別,平均精度是79.2%;但如果只將預(yù)測(cè)結(jié)果劃分二個(gè)類別,分類的精度將得到較大幅度的提升。假設(shè)是對(duì)學(xué)業(yè)成績(jī)預(yù)測(cè)結(jié)果為“差”的學(xué)習(xí)者進(jìn)行預(yù)警,則只需將預(yù)測(cè)結(jié)果劃分為“差”和“不差”兩個(gè)類別,分類的準(zhǔn)確度得到大幅提升,如下頁(yè)圖4所示。在下頁(yè)圖4的混淆矩陣中,列代表預(yù)測(cè)類別,行代表真實(shí)類別,預(yù)測(cè)類別和真實(shí)類別一致代表預(yù)測(cè)正確。a代表學(xué)業(yè)成績(jī)預(yù)測(cè)結(jié)果為差(class=Low),b代表預(yù)測(cè)結(jié)果不為差(Class≠Low,即Class=High'Class=Middle)。預(yù)測(cè)結(jié)果為差的樣本中,109個(gè)樣本預(yù)測(cè)正確,18個(gè)預(yù)測(cè)錯(cuò)誤;預(yù)測(cè)結(jié)果不為差的樣本中,335個(gè)樣本預(yù)測(cè)正確,18個(gè)樣本預(yù)測(cè)錯(cuò)誤;預(yù)測(cè)準(zhǔn)確度為92.5%((109+335)/(109+18+335+18)=0.925)。
最后,對(duì)于數(shù)據(jù)驅(qū)動(dòng)的在線學(xué)習(xí)者學(xué)業(yè)成績(jī)預(yù)測(cè)建模問題,模型分類預(yù)測(cè)的準(zhǔn)確性除了受到上面分析中提到的算法優(yōu)劣性、分類類別數(shù)量的影響之外,還和原始數(shù)據(jù)集有較大關(guān)系。因?yàn)閿?shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)建模首先需要在原始數(shù)據(jù)的屬性集中篩選出影響學(xué)業(yè)成績(jī)的主要屬性,然后再以選定的屬性作為自變量,以學(xué)業(yè)成績(jī)?yōu)橐蜃兞拷?shù)學(xué)模型。那么原始數(shù)據(jù)的屬性集能否涵蓋影響學(xué)業(yè)成績(jī)的全部主要因素,對(duì)構(gòu)建的預(yù)測(cè)模型的精確性有影響。數(shù)據(jù)集中的噪聲也會(huì)影響模型分類準(zhǔn)確度的提升。