国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“互聯(lián)網(wǎng)+”教育背景下網(wǎng)課學(xué)習(xí)效果評(píng)價(jià)的決策樹(shù)建模

2022-11-22 22:50:43郭海兵劉亞帥
中國(guó)新通信 2022年16期
關(guān)鍵詞:決策樹(shù)互聯(lián)網(wǎng)

郭海兵 劉亞帥

摘要:在“互聯(lián)網(wǎng)+”的教育背景下,由于線上學(xué)習(xí)的方式難以隨時(shí)觀察學(xué)生學(xué)習(xí)狀況,因此如何有效地觀測(cè)學(xué)生的網(wǎng)課學(xué)習(xí)效果是當(dāng)前必須要研究的一個(gè)話題。本次研究以江西財(cái)經(jīng)大學(xué)“計(jì)量經(jīng)濟(jì)學(xué)”課程為研究對(duì)象,主要通過(guò)Mooc學(xué)習(xí)平臺(tái)后臺(tái)和人為爬取兩種方式來(lái)獲取數(shù)據(jù),運(yùn)用ID3算法,以學(xué)習(xí)效率為因變量,計(jì)算各個(gè)屬性的信息熵和信息增益,進(jìn)行遞歸,進(jìn)而出建立決策樹(shù)模型,對(duì)學(xué)生的網(wǎng)課學(xué)習(xí)效果進(jìn)行一個(gè)大致評(píng)價(jià)。

關(guān)鍵詞:“互聯(lián)網(wǎng)+”;MOOC在線學(xué)習(xí)平臺(tái);ID3算法;決策樹(shù)

一、引言

在面臨著疫情的突發(fā)情況,我國(guó)大多數(shù)大學(xué)生在家通過(guò)網(wǎng)絡(luò)平臺(tái)進(jìn)行學(xué)習(xí)交流,近年來(lái),在線教育平臺(tái)得到了快速的發(fā)展,但如何評(píng)價(jià)學(xué)生在線學(xué)習(xí)效果的問(wèn)題一直沒(méi)有得到有效的解決。針對(duì)這個(gè)問(wèn)題,本次研究學(xué)生利用網(wǎng)絡(luò)平臺(tái)進(jìn)行學(xué)習(xí)時(shí)效果欠佳是由于觀看視頻過(guò)程中哪一個(gè)或者幾個(gè)行為共同影響導(dǎo)致。

本次研究以江西財(cái)經(jīng)大學(xué)計(jì)量經(jīng)濟(jì)學(xué)課程為研究對(duì)象,運(yùn)用ID3算法,計(jì)算各屬性的信息熵和信息增益,不斷遞歸,尋找最優(yōu)分割點(diǎn),建立決策樹(shù)模型,對(duì)學(xué)生的網(wǎng)課學(xué)習(xí)效果進(jìn)行一個(gè)大致評(píng)價(jià)。

二、算法概述

決策樹(shù)是一種常用的數(shù)據(jù)挖掘分類(lèi)模型,呈樹(shù)型結(jié)構(gòu),這是一種從機(jī)器學(xué)習(xí)領(lǐng)域中不斷發(fā)展的用于分類(lèi)的函數(shù)逼近方法,決策樹(shù)模型具有計(jì)算速度快,結(jié)果容易解釋?zhuān)€(wěn)健性強(qiáng)的優(yōu)點(diǎn)。ID3算法是決策樹(shù)模型的基礎(chǔ)算法之一,其基本思想是:通過(guò)分析屬性的信息增益,找到最具有判別能力的劃分屬性,將樣本劃分為多個(gè)子集,每個(gè)子集按照類(lèi)似的方法繼續(xù)遞歸劃分,最終得到?jīng)Q策樹(shù)。ID3算法的核心問(wèn)題就是如何判斷出最優(yōu)的劃分屬性,該算法運(yùn)用屬性分割前后的熵進(jìn)行比較,計(jì)算信息增益,以此來(lái)度量屬性的判別能力。相關(guān)計(jì)算公式如下:

(一)樣本分類(lèi)所需信息量

假設(shè)S是一個(gè)集合,包含有s個(gè)樣本,有m個(gè)不同的類(lèi)別屬性值Ci,其中i=1,2,...,m。

給定了概率p1,p2,...,pm,其中,則對(duì)樣本分類(lèi)所需信息量為:

(1)

(二)樣本分類(lèi)所需期望信息

假設(shè)屬性A中有n個(gè)不同的取值,即a1,a2,...,an,根據(jù)屬性A劃分樣本集S,分為n個(gè)不同的集合,即S1,S2,...,Sn,用sij代表樣本集中屬于sj的類(lèi)別Ci的樣本數(shù),此時(shí),樣本量的計(jì)算公式為:

(2)

其中,表示第j個(gè)子集的權(quán)重。E(A)值越小,表示集合被劃分得越徹底。

(三)信息增益

信息增益是指兩個(gè)信息量之間的差距,計(jì)算公式如下:

(3)

計(jì)算每個(gè)屬性的信息增益,然后進(jìn)行比較,得到信息增益最大的屬性,即具有最優(yōu)判斷能力的屬性,選擇該屬性作為根節(jié)點(diǎn),遞歸建立決策樹(shù),直至全部數(shù)據(jù)都屬于同一類(lèi)為止。

三、數(shù)據(jù)預(yù)處理

本次研究以江西財(cái)經(jīng)大學(xué)的“計(jì)量經(jīng)濟(jì)學(xué)”課程為研究對(duì)象,課程共有13個(gè)章節(jié),數(shù)據(jù)的獲得途徑主要是通過(guò)MOOC學(xué)習(xí)平臺(tái)后臺(tái),也包括老師結(jié)課后對(duì)于學(xué)生的評(píng)價(jià)和數(shù)據(jù)爬取等途徑。首先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理,剔除掉了異常值,即課程只學(xué)習(xí)一半等異常情況,只統(tǒng)計(jì)完整學(xué)習(xí)并進(jìn)行了課程測(cè)試的數(shù)據(jù),收集到共100條數(shù)據(jù),數(shù)據(jù)屬性信息表如表1所示。

“學(xué)習(xí)效率”指標(biāo),此數(shù)據(jù)由結(jié)課后老師對(duì)于學(xué)生的評(píng)價(jià)所得,取值為高、中、低,分別用1、2、3表示,據(jù)表2顯示,期望為2.04,說(shuō)明每位學(xué)生的學(xué)習(xí)效率并不存在較大的差別。

“觀看時(shí)長(zhǎng)”指標(biāo),單位為小時(shí)(h),指的是整個(gè)課程的觀看總時(shí)間,最能反映出學(xué)生的學(xué)習(xí)態(tài)度,期望為39.63小時(shí),最大值為54.54,最小值28.35,標(biāo)準(zhǔn)差5.03,說(shuō)明此樣本的觀看時(shí)長(zhǎng)離散程度較大。

“測(cè)試成績(jī)”指標(biāo),最能反映學(xué)生學(xué)習(xí)情況的指標(biāo),最大值91.1,最小值51.6,說(shuō)明學(xué)生之間的學(xué)習(xí)情況具有較大的差距。

“測(cè)試耗費(fèi)時(shí)間”指標(biāo),單位為分鐘(min),期望36.54,最長(zhǎng)耗費(fèi)時(shí)間50.4,最短耗費(fèi)時(shí)間22.1,側(cè)面反映出學(xué)生對(duì)于知識(shí)的掌握程度具有較大的差距。

“平均暫停次數(shù)”指標(biāo),即總暫停次數(shù)與章節(jié)總數(shù)的比值,期望21.76,最大值42,最小值8,說(shuō)明學(xué)生們觀看視頻時(shí)的專(zhuān)心程度有很大不同。

“平均回復(fù)次數(shù)”指標(biāo),總回復(fù)次數(shù)與章節(jié)總數(shù)的比值,均值2.95,最小值1,最大值5,說(shuō)明學(xué)生們?cè)谂c老師互動(dòng)的頻繁程度上沒(méi)有較大差別。

最后,本文根據(jù)數(shù)據(jù)的分布情況,將連續(xù)數(shù)據(jù)離散化,詳情如表3所示。

四、模型的建立與求解

本文通過(guò)運(yùn)用ID3算法,以學(xué)習(xí)效率為因變量,其余為自變量,建立決策樹(shù)模型,以此來(lái)判斷學(xué)生的網(wǎng)課學(xué)習(xí)效果。

(一)計(jì)算分類(lèi)屬性的信息量

令自變量屬性集合A={觀看時(shí)長(zhǎng),測(cè)試成績(jī),測(cè)試耗費(fèi)時(shí)間,平均暫停次數(shù),平均回復(fù)次數(shù)},因變量屬性由三個(gè)取值,C={高,中,低},說(shuō)明這是一個(gè)多分類(lèi)問(wèn)題。數(shù)據(jù)集D中取值為“高”有13個(gè),取值為“中”有70個(gè),取值為“低”有17個(gè) ,根據(jù)公式可計(jì)算出分類(lèi)屬性信息量:

(4)

(二)計(jì)算屬性的信息增益

對(duì)于觀看時(shí)長(zhǎng)屬性,取值共有“長(zhǎng)”和“短”兩種,對(duì)應(yīng)個(gè)數(shù)分別為45、55。取值為“長(zhǎng)”所對(duì)應(yīng)的學(xué)習(xí)效率屬性{高、中等、低}個(gè)數(shù)分別為{7、28、10},取值為“短”所對(duì)應(yīng)的學(xué)習(xí)效率屬性{高、中等、低}個(gè)數(shù)分別為{6、42、7},觀看時(shí)長(zhǎng)屬性的信息熵,信息增益分別為:

同理可以計(jì)算出其他屬性的信息熵和信息增益分別為:

比較所有屬性的信息增益,可以發(fā)現(xiàn),屬性測(cè)試成績(jī)的信息增益值最大,即測(cè)試成績(jī)屬性包含的信息對(duì)于分類(lèi)效益最大,應(yīng)該選擇測(cè)試成績(jī)屬性作為分裂屬性,由此便可得出根節(jié)點(diǎn),如圖1所示。

(三)遞歸建立決策樹(shù)模型

以測(cè)試成績(jī)作為根節(jié)點(diǎn),可以將數(shù)據(jù)分為{高,中,低}三個(gè)子集,然后繼續(xù)遞歸計(jì)算每個(gè)屬性的信息熵和信息增益。

對(duì)于測(cè)試成績(jī)?yōu)楦叩淖蛹礈y(cè)試成績(jī)>90的子集,對(duì)于學(xué)習(xí)效率屬性{高、中、低}個(gè)數(shù)分別為{8,2,0},按照遞歸的方式計(jì)算信息Info(測(cè)試成績(jī)高)=0.42。

以此計(jì)算其他屬性的信息熵和信息增益,即:

比較所有屬性的信息增益,可以發(fā)現(xiàn),屬性觀看時(shí)長(zhǎng)的信息增益值最大,即觀看時(shí)長(zhǎng)屬性包含的信息對(duì)于分類(lèi)效益最大,應(yīng)該選擇觀看時(shí)長(zhǎng)屬性作為分裂屬性,由此便可得出根節(jié)點(diǎn),如圖2所示。

同理可得,對(duì)于測(cè)試成績(jī)?yōu)橹械淖蛹?,屬性平均回?fù)次數(shù)信息增益值最大,選其為根節(jié)點(diǎn);對(duì)于測(cè)試成績(jī)?yōu)榈偷淖蛹繗w為一類(lèi),直接得到葉子節(jié)點(diǎn)。

繼續(xù)遞歸下去,直至數(shù)據(jù)都?xì)w為一類(lèi),便得到了決策樹(shù),如圖3所示。

通過(guò)上面建立的決策樹(shù)模型可以得出以下結(jié)論:1.測(cè)試成績(jī)低于60分的學(xué)生視為在線學(xué)習(xí)效率低;2.測(cè)試成績(jī)?cè)?0到90分且平均回復(fù)次數(shù)超過(guò)兩次的同學(xué)學(xué)習(xí)效率視為中等;3.測(cè)試成績(jī)?cè)?0到90分,平均回復(fù)次數(shù)小于2次且測(cè)試耗費(fèi)時(shí)間大于30分鐘視為學(xué)習(xí)效率低下;4.測(cè)試成績(jī)?cè)?0到90分,平均回復(fù)次數(shù)小于2次且測(cè)試耗費(fèi)時(shí)間小于30分鐘視為學(xué)習(xí)效率中等;5.測(cè)試成績(jī)大于90分且觀看時(shí)長(zhǎng)小于40小時(shí)的同學(xué)視為學(xué)習(xí)效率高;6.測(cè)試時(shí)間大于90分,觀看時(shí)長(zhǎng)大于40小時(shí)且測(cè)試耗費(fèi)時(shí)間小于30分鐘視為學(xué)習(xí)效率高;7.測(cè)試時(shí)間大于90分,觀看時(shí)長(zhǎng)大于40小時(shí)且測(cè)試耗費(fèi)時(shí)間大于30分鐘視為學(xué)習(xí)效率中等。

五、模型的評(píng)價(jià)

根據(jù)往常研究者對(duì)于學(xué)生學(xué)習(xí)效果的研究更注重于最后的成績(jī),然而卻忽視了學(xué)生過(guò)程性的學(xué)習(xí)行為,一名學(xué)生的學(xué)習(xí)效果不佳是否和他上課期間的各種行為密切相關(guān),這就是本次研究主要需要討論的話題。本次研究運(yùn)用ID3算法,計(jì)算各屬性的信息熵和信息增益,不斷遞歸,尋找最優(yōu)分割點(diǎn),建立決策樹(shù)模型。

決策樹(shù)模型生成的規(guī)則易于理解,計(jì)算量相對(duì)于其他模型不大,且能夠處理連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù);但模型考慮因素不夠全面,學(xué)生的學(xué)習(xí)效果會(huì)受到多個(gè)因素的影響,本次研究也僅僅考慮了觀看時(shí)長(zhǎng)、測(cè)試成績(jī)、測(cè)試耗費(fèi)時(shí)間、平均暫停次數(shù)和平均回復(fù)次數(shù)五個(gè)自變量,來(lái)探討學(xué)生的網(wǎng)課學(xué)習(xí)效果。綜上所述,本次研究已經(jīng)達(dá)到預(yù)期效果。在此模型的基礎(chǔ)上,可以從屬性的選取、算法的改進(jìn)等方面對(duì)模型進(jìn)一步的優(yōu)化。

作者單位:郭海兵? ? 劉亞帥? ? 江蘇海洋大學(xué)理學(xué)院

參? 考? 文? 獻(xiàn)

[1] 劉國(guó)鈞,陳紹業(yè),王鳳翥.圖書(shū)館目錄[M].北京:高等教育出版社,1957.

[2] 傅承義,陳運(yùn)泰,祁貴中.地球物理學(xué)基礎(chǔ)[M].北京:科學(xué)出版社,1985.447.

[3] 華羅庚,王元.論一致分布與近似分析[J].中國(guó)科學(xué),1973⑷:339-357.

[4] CORDER S P.The significance of learners error[J]. International Review of Applied Linguistic,1967,5(4):161-170.

[5] 李迎春.數(shù)據(jù)挖掘中決策樹(shù)分類(lèi)算法的研究[D].湖南師范大學(xué),2015.05.

[6] 孫靜雯,王紅旗,張欣,等.基于決策樹(shù)分類(lèi)的根河市土地利用變化及驅(qū)動(dòng)力分析[J].中國(guó)人口·資源與環(huán)境,2014,24(03):449-452.

[7] 楊洋,決策樹(shù)ID3算法及其改進(jìn)[J].軟件導(dǎo)刊,2016,15(08):46-48.

[8] 楊霖,周軍,梅紅巖,等.ID3改進(jìn)算法研究[J].軟件導(dǎo)刊, 2017,16(08):21- 24.

[9] 鐘敏.決策樹(shù)算法在高校教學(xué)信息系統(tǒng)應(yīng)用初探[J].武漢工程職業(yè)技術(shù)學(xué)院學(xué)報(bào),2021,33(2):31-33.

[10] 張軍,王芬芬.決策樹(shù)在高校學(xué)生學(xué)業(yè)預(yù)警中的應(yīng)用研究談[J].無(wú)線互聯(lián)技術(shù),2020,(20):171-172.

猜你喜歡
決策樹(shù)互聯(lián)網(wǎng)
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于改進(jìn)決策樹(shù)的故障診斷方法研究
“互聯(lián)網(wǎng)+”環(huán)境之下的著作權(quán)保護(hù)
今傳媒(2016年9期)2016-10-15 22:15:57
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
今傳媒(2016年9期)2016-10-15 22:09:11
從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
今傳媒(2016年9期)2016-10-15 22:06:04
互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目的實(shí)施
考試周刊(2016年79期)2016-10-13 23:23:28
以高品質(zhì)對(duì)農(nóng)節(jié)目助力打贏脫貧攻堅(jiān)戰(zhàn)
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
基于決策樹(shù)的復(fù)雜電網(wǎng)多諧波源監(jiān)管
巴塘县| 富顺县| 大竹县| 衡山县| 烟台市| 巨鹿县| 邯郸市| 湘乡市| 孟连| 黑水县| 南和县| 巴彦淖尔市| 旅游| 方正县| 松溪县| 丰都县| 玉龙| 张北县| 林口县| 壶关县| 大方县| 盐源县| 陆河县| 金寨县| 长岛县| 阜新| 永福县| 衢州市| 高台县| 湖北省| 海兴县| 嘉鱼县| 马尔康县| 蒙城县| 洱源县| 乌鲁木齐市| 汕尾市| 大渡口区| 介休市| 乐亭县| 成安县|