国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識(shí)點(diǎn)決策樹的學(xué)生學(xué)習(xí)成績(jī)預(yù)測(cè)研究

2020-11-16 02:27王小越吳筱萌
數(shù)字教育 2020年5期
關(guān)鍵詞:預(yù)測(cè)模型決策樹

王小越 吳筱萌

摘 要:傳統(tǒng)教學(xué)中教師無(wú)法及時(shí)關(guān)注每個(gè)學(xué)生的知識(shí)掌握情況,對(duì)學(xué)生學(xué)習(xí)狀況有更深入的了解,學(xué)生也無(wú)法準(zhǔn)確對(duì)自己學(xué)習(xí)過(guò)程中出現(xiàn)的癥狀進(jìn)行及時(shí)診斷。本研究以七年級(jí)數(shù)學(xué)為例,嘗試進(jìn)行學(xué)生數(shù)學(xué)知識(shí)點(diǎn)掌握程度的分析,并基于數(shù)學(xué)知識(shí)點(diǎn)掌握程度和成績(jī)等級(jí)數(shù)據(jù),采用決策樹C5.0算法構(gòu)建學(xué)習(xí)成績(jī)預(yù)測(cè)模型并驗(yàn)證了模型的有效性。這對(duì)教師的教和學(xué)生的學(xué),以及后續(xù)開展關(guān)于知識(shí)點(diǎn)和學(xué)習(xí)成績(jī)的研究都有一定參考意義。

關(guān)鍵詞:決策樹;數(shù)學(xué)知識(shí)點(diǎn);預(yù)測(cè)模型

中圖分類號(hào):G434文獻(xiàn)標(biāo)志碼:A文章編號(hào):2096-0069(2020)05-0070-05

收稿日期:2020-03-27

作者簡(jiǎn)介:王小越(1992— ),女,河北唐山人,助教,碩士,研究方向?yàn)閷W(xué)習(xí)科學(xué)與技術(shù)、學(xué)習(xí)分析、信息技術(shù)教育等;吳筱萌(1966— ),女,北京人,副教授,博士生導(dǎo)師,研究方向?yàn)榫W(wǎng)絡(luò)遠(yuǎn)程教育、信息技術(shù)的教學(xué)應(yīng)用、課程教學(xué)與教師發(fā)展、信息技術(shù)教育研究等。

引言

《中國(guó)教育現(xiàn)代化2035》明確提出要“利用現(xiàn)代技術(shù)加快推動(dòng)培養(yǎng)模式改革,實(shí)現(xiàn)規(guī)模化教育與個(gè)性化培養(yǎng)的有機(jī)結(jié)合”[1]。其有機(jī)結(jié)合的基礎(chǔ)在于,計(jì)算機(jī)能夠掌握不同學(xué)習(xí)者的不同特征,并進(jìn)行分析、預(yù)測(cè),給出適當(dāng)建議。

傳統(tǒng)教學(xué)中,教師對(duì)學(xué)生學(xué)習(xí)情況的掌握仍然只能憑借書面測(cè)驗(yàn)和印象進(jìn)行大概評(píng)估,缺乏精準(zhǔn)性和科學(xué)性,無(wú)法深入地了解每個(gè)學(xué)生的學(xué)習(xí)狀況以及對(duì)特定知識(shí)的掌握情況,為學(xué)生提供個(gè)性化指導(dǎo)和教學(xué)。學(xué)生無(wú)法通過(guò)作業(yè)、考試成績(jī)等準(zhǔn)確地判斷自己是否真正學(xué)會(huì)并運(yùn)用特定知識(shí)或概念解決實(shí)際問(wèn)題,不能全面了解自己學(xué)科知識(shí)的掌握情況。在這樣的背景下,本文以七年級(jí)數(shù)學(xué)為例,以為學(xué)生提供個(gè)性化學(xué)習(xí)分析和預(yù)測(cè)學(xué)習(xí)狀態(tài)為目標(biāo),嘗試依據(jù)學(xué)生平時(shí)作業(yè)和測(cè)試成績(jī)相關(guān)數(shù)據(jù)進(jìn)行學(xué)生數(shù)學(xué)知識(shí)點(diǎn)掌握程度的分析,并基于七年級(jí)數(shù)學(xué)知識(shí)點(diǎn)掌握程度數(shù)據(jù),采用決策樹C5.0算法構(gòu)建了數(shù)學(xué)學(xué)習(xí)成績(jī)預(yù)測(cè)模型,并檢驗(yàn)?zāi)P偷挠行浴?/p>

一、研究基礎(chǔ)概述

(一)知識(shí)點(diǎn)及掌握程度相關(guān)研究

周越、徐繼紅在結(jié)合了學(xué)習(xí)研究的主要經(jīng)典理論、現(xiàn)代心理學(xué)的知識(shí)觀以及其他學(xué)者的觀點(diǎn)后,認(rèn)為在課程內(nèi)容體系中,能夠與教學(xué)目標(biāo)進(jìn)行直接對(duì)應(yīng)的單一命題就是知識(shí)點(diǎn)[2]。關(guān)于知識(shí)點(diǎn)掌握程度的分析,已有研究主要采用以下方法:

(1)知識(shí)點(diǎn)正確率[3];

(2)習(xí)題得分率[4];

(3)相似性度量[5];

(4)認(rèn)知診斷模型中的DINA模型的EM算法[6];

(5)利用“試題-知識(shí)點(diǎn)-應(yīng)答情況”表對(duì)學(xué)生數(shù)學(xué)知識(shí)點(diǎn)狀態(tài)進(jìn)行表征,來(lái)確定掌握和未掌握的知識(shí)點(diǎn)[7]。

(二)決策樹算法

決策樹算法C5.0是學(xué)習(xí)分析領(lǐng)域使用最廣、最流行的分類預(yù)測(cè)技術(shù)之一。相較于其他學(xué)習(xí)分析算法,決策樹算法C5.0的優(yōu)點(diǎn)如下:(1)可以處理連續(xù)型的高維數(shù)據(jù),可按照目標(biāo)類別進(jìn)行數(shù)據(jù)分類。(2)能夠產(chǎn)生易于理解的知識(shí),形成的預(yù)測(cè)模型可解釋性強(qiáng)。(3)工作效率較高,且通常情況下會(huì)具有較高的正確率,為用戶提供可信度較高的信息。決策樹算法C5.0的主要內(nèi)容如下:

設(shè)S是訓(xùn)練樣本集,s為樣本個(gè)數(shù)。假定樣本集S中目標(biāo)變量可取m個(gè)不同值,則樣本集S中具有m個(gè)不同的樣本子集Ci(i=1,2,…,m),si為樣本子集Ci在S中的個(gè)數(shù),樣本集S所期望的信息熵為:

若某個(gè)屬性A有v個(gè)不同值,則屬性A可將樣本集S劃分為v個(gè)樣本子集(S1,S2,…,Sv),|Sj|為樣本子集Sj的個(gè)數(shù),則屬性A 實(shí)際所需的信息熵為:

屬性A的信息熵越小,表明該屬性對(duì)樣本集S劃分的純度越高。則屬性A的信息增益(樣本集S原來(lái)所需的信息熵與利用屬性A進(jìn)行劃分后所需的信息熵之差)為:

如果以屬性A具有的值作為基準(zhǔn)對(duì)樣本集S 進(jìn)行劃分,其初始的信息量為:

那么屬性A 的信息增益率(信息增益與初始信息量之比)為:

C5.0算法就是通過(guò)不斷選擇信息增益率最大的屬性來(lái)作為決策節(jié)點(diǎn),進(jìn)行決策樹的構(gòu)造。

本研究中七年級(jí)數(shù)學(xué)知識(shí)點(diǎn)較多,要處理這種知識(shí)點(diǎn)過(guò)多的高維度屬性特征的數(shù)據(jù)集,并按照特定的目標(biāo)成績(jī)類別進(jìn)行數(shù)據(jù)分類、構(gòu)建可解釋的學(xué)習(xí)成績(jī)預(yù)測(cè)模型,需要采用決策樹算法C5.0進(jìn)行實(shí)現(xiàn)。

二、樣本選擇及數(shù)據(jù)預(yù)處理

本研究采用了2017年常州市某中學(xué)七年級(jí)的6套在線暑假數(shù)學(xué)作業(yè)作為數(shù)據(jù)來(lái)源。6套暑假數(shù)學(xué)作業(yè)由該校老師編制。每套作業(yè)共30題。每套作業(yè)完成人數(shù)分別為1142人、979人、926人、858人、829人、814人。通過(guò)數(shù)據(jù)核查處理后,最終篩選出752人的做答數(shù)據(jù)。

假期作業(yè)一般是一個(gè)學(xué)期知識(shí)學(xué)習(xí)的總結(jié)與復(fù)習(xí),本研究假設(shè)此6套數(shù)學(xué)作業(yè)中的知識(shí)點(diǎn)匯總基本代表了七年級(jí)數(shù)學(xué)下學(xué)期知識(shí)點(diǎn)的總體。本研究邀請(qǐng)到常州市某數(shù)學(xué)教研員,對(duì)試卷的知識(shí)點(diǎn)進(jìn)行了標(biāo)注,共65個(gè)知識(shí)點(diǎn)。

三、知識(shí)點(diǎn)掌握程度計(jì)算及學(xué)習(xí)成績(jī)預(yù)測(cè)模型構(gòu)建分析

(一)知識(shí)點(diǎn)掌握程度計(jì)算

數(shù)學(xué)知識(shí)點(diǎn)掌握程度的計(jì)算是學(xué)習(xí)成績(jī)預(yù)測(cè)模型構(gòu)建的基礎(chǔ)。數(shù)學(xué)知識(shí)點(diǎn)掌握程度的計(jì)算主要存在兩個(gè)難點(diǎn):一是知識(shí)點(diǎn)對(duì)錯(cuò)如何確定,二是針對(duì)知識(shí)點(diǎn)應(yīng)該采取怎樣的計(jì)算方式來(lái)分析掌握程度。

本研究中常州市某中學(xué)七年級(jí)6套暑假數(shù)學(xué)作業(yè)中的試題均為單選題,考查的知識(shí)點(diǎn)可能包含一個(gè)或多個(gè),大體可分為四類,試題類型及相關(guān)說(shuō)明如表1所示。

考慮到考查多個(gè)知識(shí)點(diǎn)試題類型的多樣性,并且無(wú)法直接判斷學(xué)生到底掌握哪個(gè)知識(shí)點(diǎn),未掌握哪個(gè)知識(shí)點(diǎn),本研究將知識(shí)點(diǎn)掌握對(duì)錯(cuò)評(píng)定的標(biāo)準(zhǔn)定為:題目答對(duì)則該題目對(duì)應(yīng)的一個(gè)或多個(gè)知識(shí)點(diǎn)掌握,題目答錯(cuò)則該題目對(duì)應(yīng)的一個(gè)或多個(gè)知識(shí)點(diǎn)未掌握。

如前所述,已有研究中關(guān)于數(shù)學(xué)知識(shí)點(diǎn)掌握程度的分析中多采用計(jì)算知識(shí)點(diǎn)正確率的方法、計(jì)算得分率的算法或相似性度量方法。針對(duì)本數(shù)據(jù)樣本,這些計(jì)算方法存在一定的問(wèn)題。例如,計(jì)算得分率算法將題目分值作為一個(gè)重要變量,分值的高低往往代表了試題的難度或不同的考查能力,比如分值越高表明題目本身越難或考查了知識(shí)點(diǎn)綜合運(yùn)用能力。但本研究中的作業(yè)試題分值一樣,無(wú)法體現(xiàn)題目分值的意義,喪失了分值在知識(shí)點(diǎn)掌握程度分析時(shí)的重要作用。相似性度量方法主要是在學(xué)生沒(méi)有學(xué)習(xí)某些知識(shí)點(diǎn)時(shí),根據(jù)該學(xué)生已學(xué)習(xí)的知識(shí)點(diǎn)情況,在其他將所有知識(shí)點(diǎn)都學(xué)完的學(xué)生中找出與該學(xué)生已學(xué)習(xí)知識(shí)點(diǎn)情況最相似的一個(gè)人,然后通過(guò)計(jì)算來(lái)估算出該學(xué)生對(duì)未學(xué)習(xí)知識(shí)點(diǎn)的掌握程度,本研究數(shù)據(jù)中的知識(shí)點(diǎn)都是學(xué)生學(xué)完的,所以此方法對(duì)本研究知識(shí)點(diǎn)掌握程度的計(jì)算也不太適用。

為此,本研究對(duì)知識(shí)點(diǎn)掌握程度的計(jì)算方法是統(tǒng)計(jì)知識(shí)點(diǎn)的正確率,即每個(gè)知識(shí)點(diǎn)的掌握程度等于該知識(shí)點(diǎn)被正確答對(duì)的個(gè)數(shù)除以該知識(shí)點(diǎn)出現(xiàn)的總個(gè)數(shù),每個(gè)學(xué)生的每個(gè)知識(shí)點(diǎn)的掌握程度的值介于0~1之間,數(shù)值越接近于1表明學(xué)生對(duì)該知識(shí)點(diǎn)掌握得越好,反之,越差。

決策樹的目標(biāo)屬性為分類類型,需要對(duì)學(xué)生成績(jī)進(jìn)行離散化處理。每套作業(yè)滿分為100分,設(shè)90~100分為A、80~89分為B、70~79分為C、60~69分為D、59分及以下為E。將學(xué)生6套作業(yè)的得分累計(jì)求和,并對(duì)成績(jī)按百分制的固定區(qū)間法的六倍進(jìn)行成績(jī)等級(jí)離散處理,即540~600分為A、480~539分為B、420~479分為C、360~419分為D、359分及以下為E。

通過(guò)在Visual Studio 2010中編寫公式算法程序,計(jì)算出每個(gè)學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度,以及對(duì)學(xué)生的成績(jī)等級(jí)屬性構(gòu)造后,生成了學(xué)生的“知識(shí)點(diǎn)-成績(jī)”等級(jí)表,其數(shù)據(jù)格式舉例如表2所示。

(二)學(xué)習(xí)成績(jī)預(yù)測(cè)模型構(gòu)建分析

本研究采用IBM SPSS Modeler 18.0軟件C5.0技術(shù)進(jìn)行成績(jī)預(yù)測(cè)模型的適應(yīng)性參數(shù)的決策樹擬合。根據(jù)表2數(shù)據(jù),以65個(gè)知識(shí)點(diǎn)掌握程度的0~1之間的連續(xù)值作為輸入變量X,成績(jī)等級(jí)作為輸出變量Y,基于Pearson分布,找出非重要的預(yù)測(cè)屬性2個(gè),最后進(jìn)入模型構(gòu)建的知識(shí)點(diǎn)共有63個(gè)。

經(jīng)過(guò)預(yù)測(cè)屬性篩選后,采用交叉驗(yàn)證方法,折疊10次。該方法常被用于評(píng)估模型預(yù)測(cè)的效果,以80%的知識(shí)點(diǎn)掌握程度數(shù)據(jù)作為訓(xùn)練集,以20%的知識(shí)點(diǎn)掌握程度數(shù)據(jù)作為測(cè)試集。運(yùn)行后,構(gòu)建了具有35條規(guī)則的決策樹模型,其中對(duì)應(yīng)成績(jī)等級(jí)A的規(guī)則有2條,對(duì)應(yīng)成績(jī)等級(jí)B的規(guī)則有13條,對(duì)應(yīng)成績(jī)等級(jí)C的規(guī)則有10條,對(duì)應(yīng)成績(jī)等級(jí)D的規(guī)則有6條,對(duì)應(yīng)成績(jī)等級(jí)E的規(guī)則有4條??紤]到規(guī)則較多,本文以對(duì)應(yīng)成績(jī)等級(jí)A的規(guī)則集為例進(jìn)行呈現(xiàn),如圖1。

決策樹規(guī)則集結(jié)果顯示,成績(jī)等級(jí)A對(duì)應(yīng)的規(guī)則1中有11個(gè)樣本數(shù)據(jù)符合規(guī)則,其中81.8%被正確預(yù)測(cè);成績(jī)等級(jí)A對(duì)應(yīng)的規(guī)則2中有74個(gè)樣本數(shù)據(jù)符合規(guī)則,其中87.8%被正確預(yù)測(cè)。35條決策樹規(guī)則集顯示,規(guī)則集中共包括610個(gè)樣本數(shù)據(jù)(占總樣本的81.8%),預(yù)測(cè)成績(jī)等級(jí)A、B、C、D、E的人數(shù)分別為85、218、97、63和147人。在63個(gè)知識(shí)點(diǎn)中,只有“代入消元法解二元一次方程組”“三角形的內(nèi)角和”“不等式的基本性質(zhì)”等19個(gè)知識(shí)點(diǎn)掌握程度進(jìn)入模型,說(shuō)明在這63個(gè)知識(shí)點(diǎn)中此19個(gè)知識(shí)點(diǎn)對(duì)學(xué)生的學(xué)習(xí)成績(jī)有較大影響。在19個(gè)知識(shí)點(diǎn)中,“代入消元法解二元一次方程組”在35條規(guī)則集中均有出現(xiàn),是決策樹第一個(gè)最佳決策節(jié)點(diǎn),表明該知識(shí)點(diǎn)的掌握程度對(duì)學(xué)生的學(xué)習(xí)成績(jī)具有更大的影響。以該知識(shí)點(diǎn)掌握程度值0.62為臨界值,知識(shí)點(diǎn)掌握程度大于0.62的學(xué)生成績(jī)等級(jí)為A、B、C、D、E的人數(shù)分別為85、211、80、16和5人,說(shuō)明學(xué)生對(duì)該知識(shí)點(diǎn)掌握程度超過(guò)0.62時(shí)成績(jī)等級(jí)最大可能為B,其次是A。所以,學(xué)生需在教師進(jìn)一步講解以及自己深入理解該知識(shí)點(diǎn)解題方法的同時(shí),不斷練習(xí)該知識(shí)點(diǎn)的相關(guān)題目以掌握解題方法,將該知識(shí)點(diǎn)的掌握程度提升到0.62以上才有可能提升學(xué)習(xí)成績(jī)。除“代入消元法解二元一次方程組”外,其他18個(gè)知識(shí)點(diǎn)及其重要性排序依次為不等式(組)的解集、三角形的內(nèi)角和、不等式的基本性質(zhì)、真命題與假命題、三角形的外角、平行線的性質(zhì)、整式的加減、冪的乘方與積的乘方、多項(xiàng)式乘多項(xiàng)式、有理數(shù)比較大小、二元一次方程組的應(yīng)用、同位角內(nèi)錯(cuò)角同旁內(nèi)角的識(shí)別、多邊形的內(nèi)角和、單項(xiàng)式乘多項(xiàng)式、二元一次方程(組)的基本概念、科學(xué)記數(shù)法、中線高線角平分線、因式分解的概念。IBM SPSS Modeler 18.0軟件C5.0技術(shù)中的變量重要性排序表明了知識(shí)點(diǎn)掌握程度對(duì)學(xué)生學(xué)習(xí)成績(jī)的影響,重要性越高,該知識(shí)點(diǎn)對(duì)學(xué)生的學(xué)習(xí)成績(jī)影響越大。

模型的有效性是檢驗(yàn)?zāi)P褪欠窨捎玫闹饕椒?,本研究利用SPSS Modeler中的分析功能進(jìn)行評(píng)估,結(jié)果顯示訓(xùn)練集正確率為81.26%,測(cè)試集正確率為80.61%??梢钥闯?,無(wú)論是訓(xùn)練集還是測(cè)試集的模型評(píng)估正確率均在80%以上,表明此模型具有較好的可行性、有效性。

四、討論與展望

本研究以某校七年級(jí)學(xué)生暑假數(shù)學(xué)作業(yè)為數(shù)據(jù)集,對(duì)七年級(jí)下學(xué)期數(shù)學(xué)知識(shí)點(diǎn)掌握程度進(jìn)行了計(jì)算,在此基礎(chǔ)上,采用決策樹C5.0算法構(gòu)建了學(xué)習(xí)成績(jī)預(yù)測(cè)模型——規(guī)則集。模型中訓(xùn)練集和測(cè)試集正確率均在80%以上,效果良好,說(shuō)明該模型在實(shí)際應(yīng)用中能夠給出較佳的預(yù)測(cè),這也表明可以利用決策樹算法對(duì)知識(shí)點(diǎn)和學(xué)習(xí)成績(jī)之間的關(guān)系進(jìn)行深入挖掘。

通過(guò)該方法構(gòu)建的規(guī)則集模型直觀、易于理解,可以發(fā)現(xiàn)哪些知識(shí)點(diǎn)對(duì)于學(xué)生學(xué)習(xí)成績(jī)的影響比較重要,對(duì)教師的教學(xué)有指導(dǎo)意義。針對(duì)學(xué)生平時(shí)的學(xué)習(xí)成績(jī),如果能夠通過(guò)這種方法去分析知識(shí)點(diǎn)掌握情況并構(gòu)建學(xué)習(xí)成績(jī)預(yù)測(cè)模型,每個(gè)學(xué)生都可以準(zhǔn)確找到自己的薄弱知識(shí)點(diǎn),從而有針對(duì)性地加強(qiáng)薄弱知識(shí)點(diǎn)的學(xué)習(xí)以提高自己的學(xué)習(xí)成績(jī)。對(duì)于中考、高考的試卷分析采用這種方法,可以幫助找到更重要的知識(shí)點(diǎn),供教師和學(xué)生參考。

由于本研究所獲得的學(xué)生作業(yè)數(shù)據(jù)有限,以此構(gòu)建的知識(shí)點(diǎn)掌握情況預(yù)測(cè)學(xué)生成績(jī)模型的適用性有待進(jìn)一步提升。未來(lái)可選擇一個(gè)學(xué)區(qū)的階段性考試數(shù)據(jù)以增加數(shù)據(jù)量,通過(guò)引入知識(shí)點(diǎn)相關(guān)的描述性因素和多種試題類型以更精確地計(jì)算學(xué)生知識(shí)點(diǎn)掌握程度,提高學(xué)習(xí)成績(jī)預(yù)測(cè)模型的可行性和拓展性。

Abstract: In traditional teaching,teachers can not pay attention to each students knowledge mastery timely and provide personalized guidance and teaching,and students also cannot diagnose their symptoms appeared in their own learning process timely and precisely.This research,taking mathematics of grade seven as an example,tries to analyze the mastery degree of math knowledge point,and,based on the mastery degree of math knowledge point and grading data of academic record,adopts decision tree C5.0 algorithm to construct prediction model of academic record,and validates the effectiveness of this model,which is of certain significance of reference to teachersteaching and studentsstudy,and also the research related to the knowledge point and academic record carried out later.

Key words: decision tree;math knowledge point;prediction model

猜你喜歡
預(yù)測(cè)模型決策樹
簡(jiǎn)述一種基于C4.5的隨機(jī)決策樹集成分類算法設(shè)計(jì)
一種改進(jìn)的MEP決策樹剪枝算法
決策樹學(xué)習(xí)的剪枝方法
基于矩陣?yán)碚撓碌母咝=處熑藛T流動(dòng)趨勢(shì)預(yù)測(cè)
基于支持向量回歸的臺(tái)灣旅游短期客流量預(yù)測(cè)模型研究
基于神經(jīng)網(wǎng)絡(luò)的北京市房?jī)r(jià)預(yù)測(cè)研究
中國(guó)石化J分公司油氣開發(fā)投資分析與預(yù)測(cè)模型研究
基于IOWHA法的物流需求組合改善與預(yù)測(cè)模型構(gòu)建
基于預(yù)測(cè)模型加擾動(dòng)控制的最大功率點(diǎn)跟蹤研究
決策樹在施工項(xiàng)目管理中的應(yīng)用
尼勒克县| 蒲城县| 西平县| 瑞金市| 霍山县| 科技| 昆明市| 乌拉特前旗| SHOW| 蓬溪县| 正宁县| 铁岭县| 义马市| 重庆市| 绥滨县| 蓬溪县| 阳朔县| 龙陵县| 威信县| 黑水县| 个旧市| 兴义市| 新兴县| 阿鲁科尔沁旗| 南通市| 梨树县| 信宜市| 井陉县| 丹棱县| 临安市| 香格里拉县| 建阳市| 元谋县| 遂昌县| 天全县| 手游| 扬州市| 临沭县| 宜城市| 古田县| 湘西|