国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于教育數(shù)據(jù)挖掘的大學(xué)生實驗課成績預(yù)測研究

2019-09-09 07:39丁國勇秦新國王雪
中國教育信息化·高教職教 2019年7期
關(guān)鍵詞:預(yù)測模型

丁國勇 秦新國 王雪

摘? ?要:大數(shù)據(jù)背景下對高校教育數(shù)據(jù)價值的挖掘與利用,有助于促進高校的教學(xué)與管理。文章采集學(xué)生社會與人口統(tǒng)計特征、學(xué)生個人特征和學(xué)生投入等相關(guān)數(shù)據(jù),構(gòu)建了一個大學(xué)生實驗課成績預(yù)測模型,評估了決策樹、貝葉斯網(wǎng)絡(luò)、支持向量機等算法的有效性,并提出部署預(yù)測模型的相關(guān)建議。

關(guān)鍵詞:教育數(shù)據(jù)挖掘;實驗課成績;預(yù)測模型

中圖分類號:G642.47 文獻標(biāo)志碼:A 文章編號:1673-8454(2019)13-0041-04

21世紀以來,信息技術(shù)、網(wǎng)絡(luò)技術(shù)、存儲技術(shù)等的快速發(fā)展以及“互聯(lián)網(wǎng)+”、云計算、物聯(lián)網(wǎng)、人工智能、機器學(xué)習(xí)等技術(shù)的大規(guī)模應(yīng)用,在許多方面產(chǎn)生了深刻變革,正如鄔賀銓院士所說:“數(shù)據(jù)量與日俱增,數(shù)據(jù)處理能力不斷增強,數(shù)據(jù)的資源屬性更加明晰,具有可開發(fā)的價值”[1],我們已經(jīng)進入了維克托·邁爾-舍恩伯格所定義的“大數(shù)據(jù)時代”[2]。教育大數(shù)據(jù)是大數(shù)據(jù)的一個子集。如何從長期積累的海量教育大數(shù)據(jù)“金礦”中,通過教育數(shù)據(jù)挖掘技術(shù)挖掘出有價值的“知識”,從而指導(dǎo)管理決策和反饋教學(xué),已成為高校的現(xiàn)實需要。教育數(shù)據(jù)挖掘的主要技術(shù)方法包括預(yù)測、聚類、關(guān)系挖掘、人類判斷過程簡化等,其中預(yù)測是指建立從多個自變量推斷單一因變量的模型。[3]本文通過收集學(xué)生社會與人口統(tǒng)計特征、學(xué)生個人特征和學(xué)生投入等教育數(shù)據(jù),構(gòu)建一個大學(xué)生實驗課成績預(yù)測模型,并評價其有效性,探索教育數(shù)據(jù)挖掘在高校實驗教學(xué)中的具體應(yīng)用。

一、研究回顧

1.國外相關(guān)研究

國外有不少利用教育數(shù)據(jù)挖掘預(yù)測學(xué)生學(xué)業(yè)表現(xiàn)的研究和案例。Garcia(2011)等通過樸素貝葉斯分類器對大一學(xué)生學(xué)業(yè)表現(xiàn)優(yōu)秀(High)和學(xué)業(yè)表現(xiàn)較低(Low)的預(yù)測正確率達到70%。[4] Ashkan Sharabiani等(2014)建立貝葉斯網(wǎng)絡(luò)分類模型,將學(xué)生性別、種族、年齡、身份以及之前相關(guān)課程成績作為輸入變量,預(yù)測2門課程成績的正確率分別達到70.4%、73.1%。[5] Garima Sharma、K Santosh(2017)基于學(xué)生先前的課程學(xué)習(xí)成績和作業(yè)成績,利用決策樹算法ID3構(gòu)建的學(xué)業(yè)預(yù)測模型,對70名學(xué)生學(xué)業(yè)表現(xiàn)低、一般和好的預(yù)測正確率分別達到79%、97%和67%。[6]Sajadin Sembiring等(2011)構(gòu)建了一個支持向量機分類模型,將興趣、學(xué)習(xí)行為、家庭支持、時間投入、信心等作為輸入變量,對1000名來自三個不同專業(yè)的學(xué)生學(xué)業(yè)表現(xiàn)進行分類預(yù)測,預(yù)測學(xué)業(yè)表現(xiàn)較低(Poor)的正確率達到93.7%,預(yù)測學(xué)業(yè)表現(xiàn)良好(Good)的正確率為最低,但也達到了61%。[7]

2.國內(nèi)相關(guān)研究

國內(nèi)關(guān)于教育數(shù)據(jù)挖掘的研究相對要晚于和少于國外的研究。葛道凱等(2012)最早編寫了《教育數(shù)據(jù)挖掘:方法與應(yīng)用》的著作,并依據(jù)數(shù)據(jù)來源將教育數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域細分為E-Learning數(shù)據(jù)挖掘(數(shù)據(jù)來源于教學(xué)和學(xué)習(xí)軟件系統(tǒng))、E-Management數(shù)據(jù)挖掘(數(shù)據(jù)來源于各種教育管理系統(tǒng)如招生管理、學(xué)籍管理、教務(wù)管理、師資)和E-Research數(shù)據(jù)挖掘(數(shù)據(jù)來源于文獻數(shù)據(jù)庫、政策數(shù)據(jù)庫、語料庫等),并通過案例詳細介紹每個領(lǐng)域的典型應(yīng)用。[8]黃景碧(2012)構(gòu)建了一個數(shù)據(jù)驅(qū)動的教育決策支持系統(tǒng),通過教育數(shù)據(jù)挖掘分析學(xué)習(xí)績效數(shù)據(jù),為教育決策提供支持。[9]舒忠梅等(2014)通過教育數(shù)據(jù)挖掘分析大學(xué)生學(xué)習(xí)效果和學(xué)習(xí)滿意度。[10]彭濤(2015)通過教育數(shù)據(jù)挖掘構(gòu)建了一個學(xué)生表現(xiàn)預(yù)測模型。[11]施佺等(2016)建立了網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的教育數(shù)據(jù)挖掘模型,并以大學(xué)英語教學(xué)管理平臺為例,借助統(tǒng)計分析與可視化、關(guān)聯(lián)規(guī)則算法和聚類算法,分析了網(wǎng)絡(luò)學(xué)習(xí)過程中產(chǎn)生的大量學(xué)習(xí)數(shù)據(jù),并根據(jù)分析結(jié)果給出了網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)督與管理的思考和建議。[12]這些學(xué)者的研究都證明了教育數(shù)據(jù)挖掘技術(shù)在預(yù)測學(xué)生學(xué)業(yè)表現(xiàn)和學(xué)習(xí)效果中的有效性。國內(nèi)對于實驗課成績的研究主要在于評價體系和評定比例等,[13][14]對于教育數(shù)據(jù)挖掘在高校實驗課成績預(yù)測中的應(yīng)用,雖提出了一些思路,[15]但沒有提供具體應(yīng)用案例。

二、數(shù)據(jù)來源與數(shù)據(jù)采集

1.數(shù)據(jù)來源

本研究探討的是大學(xué)生實驗課成績預(yù)測模型的構(gòu)建,因此預(yù)測目標(biāo)(因變量)為大學(xué)生的實驗課成績。因為學(xué)生在校期間存在多門實驗課程,故將每一位學(xué)生實驗課程成績平均值作為目標(biāo)變量,并計算所有學(xué)生的成績平均值和標(biāo)準差,根據(jù)“均值±標(biāo)準差”將學(xué)生實驗課成績分為“高”、“一般”和“低”三個類別。

大學(xué)生實驗課成績的影響因素具有復(fù)雜性和不確定性,本研究主要探討實驗課程教學(xué)過程之外的關(guān)聯(lián)因素,參考喬治·庫的“大學(xué)生成功要素模型”[16],從社會及人口統(tǒng)計特征、個人特征和學(xué)生投入三個維度來考慮預(yù)測指標(biāo),共采集21個自變量,具體如表1所示。

2.數(shù)據(jù)采集

大學(xué)生實驗課成績預(yù)測模型的因變量和自變量來自于多個數(shù)據(jù)源,比如學(xué)生的基本信息來自于教學(xué)管理信息系統(tǒng),學(xué)生的體質(zhì)測試成績來自于體質(zhì)測試平臺,學(xué)術(shù)講座、志愿服務(wù)等數(shù)據(jù)來自于學(xué)生管理系統(tǒng),圖書借閱等來自于圖書館管理系統(tǒng)等,因此需要構(gòu)建一個“整合型教育數(shù)據(jù)系統(tǒng)”(Intergrated Educational Data System)。整合型教育數(shù)據(jù)系統(tǒng)基于這樣一個理念——“將技術(shù)和組織運營規(guī)則相結(jié)合,整理合并從不同渠道收集到的數(shù)據(jù),從而產(chǎn)生有意義的、有價值的信息”。整合型教育數(shù)據(jù)系統(tǒng)通過將分散在高校各類管理信息系統(tǒng)、業(yè)務(wù)系統(tǒng)的數(shù)據(jù)集中存儲到統(tǒng)一的數(shù)據(jù)庫中,統(tǒng)一進行管理和分析,可以提升教育數(shù)據(jù)挖掘分析的效率與效果。整合型教育數(shù)據(jù)系統(tǒng)具有數(shù)據(jù)倉庫(Data WareHouse)的一些基本特征,比如面向主題、非易失性等,從某種意義上來說是一種數(shù)據(jù)集市(Data Market)。整合型教育數(shù)據(jù)系統(tǒng)從各關(guān)聯(lián)系統(tǒng)中抽取數(shù)據(jù),并進行數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準化、缺失值處理等操作,以保證經(jīng)過處理后的數(shù)據(jù)能夠直接用作預(yù)測模型的“原材料”。

本研究以某大學(xué)為例,構(gòu)建了一套整合型教育數(shù)據(jù)系統(tǒng),采集了大三學(xué)生數(shù)據(jù)共3449條,約占該校大三年級全部學(xué)生數(shù)的85%。3449條數(shù)據(jù)中包括所有自變量和因變量,并已進行標(biāo)準化處理。變量包括標(biāo)志變量、分類變量、有序變量、連續(xù)變量等類型,比如性別為標(biāo)志型變量,只有兩種類別,男、女;地區(qū)為名義型變量,有三種類別,東部省份、中部省份和西部省份;學(xué)術(shù)講座、志愿服務(wù)、圖書借閱、社團參與等4個變量為有序型變量,用1、2、3 分別代表參與程度;非實驗課GPA、舍友GPA為連續(xù)型變量,用0.0~5.0之間的小數(shù)表示。因變量實驗課成績?yōu)槊x型變量。

三、大學(xué)生實驗課成績預(yù)測模型構(gòu)建與評估

1.模型構(gòu)建

本研究使用SPSS Modeler作為建立預(yù)測模型的工具軟件。SPSS Modeler原名Clementine,全面支持數(shù)據(jù)挖掘CRISP-DM的標(biāo)準流程,可提供數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù)理解、數(shù)據(jù)抽取加載轉(zhuǎn)換、數(shù)據(jù)分析、建模、評估、部署等全過程的功能。SPSS Modeler的特點是圖形化的數(shù)據(jù)探索方式,數(shù)據(jù)挖掘的所有過程都通過可視化的方法進行操作,直觀明了。SPSS Modeler提供一系列的數(shù)據(jù)挖掘算法,可用于建立多種類型的數(shù)據(jù)模型,包括數(shù)據(jù)探索類模型、決策樹模型、神經(jīng)網(wǎng)絡(luò)模型、聚類模型、關(guān)聯(lián)性分析模型、時間序列分析模型等。SPSS Modeler用工作流的方式將教育數(shù)據(jù)挖掘的過程以可視化的方式呈現(xiàn),包括數(shù)據(jù)源的鏈接、數(shù)據(jù)的篩選、預(yù)測變量和目標(biāo)變量的選擇、數(shù)據(jù)分區(qū)、建模算法選擇等。

本研究中,數(shù)據(jù)來源為從整合型教育數(shù)據(jù)系統(tǒng)中導(dǎo)出的Excel文件;在“類型”節(jié)點中對21個自變量(輸入)和1個因變量(目標(biāo))的類型進行了設(shè)置;在“分區(qū)”節(jié)點中設(shè)置了訓(xùn)練集為70%,測試集為30%;建模算法選擇決策樹(C5.0)、貝葉斯網(wǎng)絡(luò)和支持向量機三種,運行結(jié)果存放在“鉆石”節(jié)點中,運行流程如圖1所示。

2.運行結(jié)果

經(jīng)過運行,三種建模算法的運行結(jié)果呈現(xiàn)方式各不相同,決策樹C5.0算法的運行結(jié)果是以多叉樹形式呈現(xiàn)的,共有6層19個節(jié)點,如圖2所示。

貝葉斯網(wǎng)絡(luò)算法的運行結(jié)果以有向無環(huán)圖的方式呈現(xiàn),最左端節(jié)點為目標(biāo)變量,其他節(jié)點均為自變量,節(jié)點與節(jié)點之間用有向邊連接,每一條邊代表著一張條件概率表,表示上一級節(jié)點的值對本節(jié)點值影響的概率。模型運行生成的貝葉斯網(wǎng)絡(luò)如圖3所示。

與決策樹、貝葉斯網(wǎng)絡(luò)等“白盒”算法相比,支持向量機算法并不能顯示或輸出運行過程,屬于“黑盒”算法??梢钥吹?,選擇不同的建模算法,其運行結(jié)果不盡相同。如果需要解釋因變量與自變量以及自變量之間的相互關(guān)系,則應(yīng)該選擇“白盒”算法,如果不關(guān)心過程只需要結(jié)果,可以選擇“黑盒”算法。

3.模型評估

對三種建模算法的正確率進行分析,決策樹C5.0算法訓(xùn)練集正確率為77.76%,測試集為79.02%,貝葉斯網(wǎng)絡(luò)算法訓(xùn)練集為79.46%,測試集為77.67%,支持向量機算法訓(xùn)練集為 92.90%,測試集為64.39%??梢?,在三種建模算法中,支持向量機在訓(xùn)練集中的正確率最高,達到了92.90%,但在測試集中的正確率最低,存在一定的過擬合現(xiàn)象,決策樹算法和貝葉斯網(wǎng)絡(luò)算法在訓(xùn)練集和測試集的正確率都在80%附近。預(yù)測模型的ROC圖也表明支持向量機算法在訓(xùn)練集中的信息增益最高,如圖4所示。

與國內(nèi)外相關(guān)研究中構(gòu)建預(yù)測模型的正確率相比,本模型中各算法在測試集中的平均正確率在73.70%,屬于一個有效的模型,但正確率還存在提升的空間。

四、大學(xué)生實驗課成績預(yù)測模型的優(yōu)化和部署

1.模型優(yōu)化

本研究中構(gòu)建的大學(xué)生實驗課成績預(yù)測模型,通過模型評估已證明了其有效性,但還可以從兩個角度進行優(yōu)化。一是進行預(yù)測變量的調(diào)整。目前該預(yù)測模型中21個預(yù)測變量(自變量)均是通過業(yè)務(wù)管理信息系統(tǒng)收集的客觀數(shù)據(jù),我們還可以進行實驗課教學(xué)的有關(guān)問卷調(diào)查,通過調(diào)查采集學(xué)生對實驗課的自我評價等主觀數(shù)據(jù),將主、客觀數(shù)據(jù)結(jié)合來提高模型的預(yù)測正確率。二是通過更多的數(shù)據(jù)進行驗證。目前該預(yù)測模型僅在一所學(xué)校一個年級學(xué)生中進行了檢驗,如果要使預(yù)測模型具有普遍適用性,還需要在不同類型學(xué)校的不同年級不同專業(yè)進行重復(fù)性驗證,并根據(jù)對象特點適當(dāng)調(diào)整自變量,以使之具備通用性。

2.模型部署

大學(xué)生實驗課成績預(yù)測模型的部署有兩種方式——離線預(yù)測模型和在線預(yù)測模型。離線預(yù)測模型中,數(shù)據(jù)從業(yè)務(wù)系統(tǒng)中被收集、存儲到獨立于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)倉庫中,通過通用的教育數(shù)據(jù)挖掘軟件,采用人工方式進行分析,并將預(yù)測結(jié)果反饋給實驗課教師和教學(xué)管理人員,該種部署方式的優(yōu)點是簡單、易實現(xiàn),缺點是存在數(shù)據(jù)流轉(zhuǎn)周期。在線預(yù)測模型則是將教育數(shù)據(jù)挖掘算法代碼重寫,直接嵌入到相關(guān)業(yè)務(wù)系統(tǒng)中,數(shù)據(jù)在業(yè)務(wù)系統(tǒng)內(nèi)部流轉(zhuǎn),該種部署方式的優(yōu)點是即時預(yù)測,缺點是需要重構(gòu)業(yè)務(wù)系統(tǒng),存在一定難度。在對預(yù)測結(jié)果時效性要求不高時,我們一般可以選擇部署離線預(yù)測模型進行預(yù)測,在課程開設(shè)時將學(xué)生實驗課成績的預(yù)測結(jié)論反饋給實驗課教師和相關(guān)學(xué)生,對那些成績預(yù)測結(jié)論為“低”的學(xué)生提前給予警示和個別化輔導(dǎo),以促進高校實驗課教學(xué)質(zhì)量的提升。

參考文獻:

[1]鄔賀銓.大數(shù)據(jù)思維[J].科學(xué)與社會,2014(1):1-13.

[2]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013:1.

[3]徐鵬,王以寧,劉艷華,張海.大數(shù)據(jù)視角分析學(xué)習(xí)變革——美國《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進教與學(xué)》報告解讀及啟示[J].遠程教育雜志,2013(6):11-17.

[4]Garcia E P I,Mora P M.Model Prediction of Academic Performance for First Year Students[C].Mexican International Conference on Artificial Intelligence.IEEE Computer Society,2011.

[5]Ashkan Sharabiani etal.An enhanced bayesian network model for prediction of students academic performance in engineering programs[C].Global Engineering Education Conference.IEEE,2014.

[6]Garima Sharma,K Santosh.Analysis and Prediction of Students Academic Performance in University Courses[J].International Journal of Computer Applications,2017,160(4):40-44.

[7]S.Sembiring,M.Zarlis,D.Hartama.PREDICTION OF STUDENT ACADEMIC PERFORMANCE BY AN APPLICATION OF DATA MINING TECHNIQUES[C].International Conference on Management and Artificial Intelligence,2011(6):110-114.

[8]葛道凱,張少剛,魏順平.教育數(shù)據(jù)挖掘:方法與應(yīng)用[M].北京:教育科學(xué)出版社,2012.

[9]黃景碧.數(shù)據(jù)驅(qū)動的教育決策支持系統(tǒng)(DDEDSS)設(shè)計與開發(fā)研究[D].上海:華東師范大學(xué),2012.

[10]舒忠梅,屈瓊斐. 基于教育數(shù)據(jù)挖掘的大學(xué)生學(xué)習(xí)成果分析[J].東北大學(xué)學(xué)報(社會科學(xué)版),2014(3):309-314.

[11]彭濤,丁凌云.基于教育數(shù)據(jù)挖掘?qū)W生表現(xiàn)預(yù)測模型構(gòu)建研究[J].黑龍江高教研究,2015(11):55-58.

[12]施佺,錢源,孫玲.基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管研究[J].現(xiàn)代教育技術(shù),2016(6):87-93.

[13]鄭曉東,聞春敖,王曉萍,劉向東,劉旭.世界著名大學(xué)光電類實驗課成績評價體系初探[J].實驗室研究與探索,2011(7):115-117,147.

[14]趙庚升,陶田,馮岑明,項培軍.高校實驗課成績考核與評定探討[J].實驗室研究與探索,2015(7):246-249.

[15]丁國勇,錢靜珠.教育數(shù)據(jù)挖掘在高校實驗教學(xué)中的應(yīng)用研究[J].實驗室研究與探索,2018(1):204-207.

[16]Kuh G D.What Matters to Student Success:A Review of the Literature[C].Commissioned? Report for the National Symposium on Postsecondary Student Success:Spearheading a Dialog on Student Success,2006:8.

(編輯:王天鵬)

猜你喜歡
預(yù)測模型
基于矩陣理論下的高校教師人員流動趨勢預(yù)測
基于支持向量回歸的臺灣旅游短期客流量預(yù)測模型研究
基于神經(jīng)網(wǎng)絡(luò)的北京市房價預(yù)測研究
石阡县| 衡阳市| 准格尔旗| 万宁市| 高密市| 平泉县| 玛多县| 新乡市| 涿鹿县| 图木舒克市| 五峰| 五指山市| 兴隆县| 秭归县| 元朗区| 呼伦贝尔市| 和平县| 资中县| 防城港市| 阳春市| 五华县| 婺源县| 荣成市| 玉环县| 扎赉特旗| 本溪| 富宁县| 慈利县| 奉贤区| 景谷| 绍兴市| 江门市| 嘉义市| 潜山县| 绿春县| 娱乐| 金山区| 太和县| 将乐县| 漳浦县| 龙游县|