国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于興趣度關(guān)聯(lián)規(guī)則的在線(xiàn)學(xué)習(xí)行為分析方法

2019-05-25 01:00:16胡延雪懷麗波崔榮一
關(guān)鍵詞:置信度學(xué)習(xí)效果數(shù)據(jù)挖掘

胡延雪, 懷麗波, 崔榮一

( 延邊大學(xué) 工學(xué)院, 吉林 延吉 133002 )

0 引言

隨著教育信息化的推進(jìn),數(shù)字化學(xué)習(xí)已經(jīng)成為當(dāng)今學(xué)習(xí)者的重要學(xué)習(xí)方式.同時(shí),數(shù)據(jù)挖掘技術(shù)的應(yīng)用促進(jìn)了學(xué)習(xí)分析從傳統(tǒng)的經(jīng)驗(yàn)性向客觀性發(fā)展,為研究學(xué)習(xí)者的個(gè)性化發(fā)展提供了新的技術(shù)支持[1].近年來(lái),如何采用數(shù)據(jù)挖掘技術(shù)對(duì)全數(shù)據(jù)環(huán)境進(jìn)行分析以獲得直接、客觀的教育評(píng)價(jià)和學(xué)習(xí)分析成為學(xué)者們關(guān)注的研究熱點(diǎn).

教育數(shù)據(jù)挖掘是基于大量的學(xué)生個(gè)體相關(guān)數(shù)據(jù)信息的基礎(chǔ)上,分析挖掘出隱含于這些數(shù)據(jù)背后的各類(lèi)信息,使其更加具有針對(duì)性和個(gè)性化[2].常用的教育數(shù)據(jù)挖掘方法有聚類(lèi)分析、決策樹(shù)、關(guān)聯(lián)規(guī)則等.其中,聚類(lèi)分析方法常用于學(xué)習(xí)行為特征分析[3]、判斷影響成績(jī)的因素[4]、尋找成績(jī)?cè)u(píng)價(jià)中存在的問(wèn)題[5]等.決策樹(shù)算法常用于建立學(xué)生成績(jī)分析預(yù)測(cè)模型[6-7].關(guān)聯(lián)規(guī)則常用于對(duì)不同學(xué)生課程的成績(jī)進(jìn)行關(guān)聯(lián)分析,找出課程間的相互影響關(guān)系,為學(xué)生推薦課程或分析影響成績(jī)的重要因素等[8-10].目前,相關(guān)研究大多僅用數(shù)據(jù)挖掘中的單一算法對(duì)成績(jī)進(jìn)行分析,得到的結(jié)果不夠明確,難以直接用于指導(dǎo)改善學(xué)習(xí)行為.例如,通過(guò)決策樹(shù)可以找出影響分類(lèi)的關(guān)鍵因素,卻無(wú)法得知各項(xiàng)間的關(guān)聯(lián);而關(guān)聯(lián)規(guī)則可得到各項(xiàng)間的關(guān)聯(lián),卻無(wú)法說(shuō)明它們之間的內(nèi)在影響關(guān)系.本文以在線(xiàn)課堂環(huán)境下用戶(hù)的學(xué)習(xí)行為數(shù)據(jù)為研究對(duì)象,采用含興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法對(duì)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析,尋找學(xué)習(xí)者的學(xué)習(xí)行為與學(xué)習(xí)效果之間的深層關(guān)系,以為學(xué)習(xí)者提供明確的學(xué)習(xí)指導(dǎo).

1 相關(guān)算法概述

1.1 聚類(lèi)分析

聚類(lèi)是將抽象對(duì)象的集合組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程.聚類(lèi)生成的類(lèi)是一組數(shù)據(jù)對(duì)象的集合,聚類(lèi)分析的原理是使屬于同一類(lèi)別的個(gè)體之間距離盡可能小,而不同類(lèi)別的個(gè)體之間距離盡可能大.目前主要的聚類(lèi)算法可以劃分為:劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法[11].K-means算法是一種典型的扁平聚類(lèi)算法,是劃分法中應(yīng)用最為廣泛的算法之一.該算法的主要目標(biāo)是最小化各元素到其簇中心的歐式距離平方的平均值,具有簡(jiǎn)單、快速的優(yōu)點(diǎn),可以對(duì)大型的數(shù)據(jù)集合進(jìn)行快速分類(lèi).聚類(lèi)準(zhǔn)則函數(shù)用于衡量聚類(lèi)結(jié)果,通常是用數(shù)據(jù)集中所有對(duì)象與各自所在簇的簇中心誤差平方和來(lái)計(jì)算.當(dāng)平方誤差和足夠小時(shí),即表示可以結(jié)束聚類(lèi)操作.聚類(lèi)準(zhǔn)則函數(shù)的表達(dá)式為

(1)

其中ci表示第i類(lèi)數(shù)據(jù)對(duì)象的集合,p是簇ci中的數(shù)據(jù)對(duì)象,mi是簇ci的平均值,k表示該數(shù)據(jù)集可以劃分為k個(gè)簇.聚類(lèi)分析可作為數(shù)據(jù)挖掘的一個(gè)模塊,也可作為其他挖掘算法的預(yù)處理步驟.

1.2 關(guān)聯(lián)規(guī)則

傳統(tǒng)關(guān)聯(lián)規(guī)則[12]是表示項(xiàng)集X與項(xiàng)集Y的某種相關(guān)性,形如X?Y的蘊(yùn)涵式,由支持度s和置信度c決定.規(guī)則X?Y在事務(wù)集D中成立.支持度s是D中事務(wù)包含X和Y的百分比,即概率P(X∩Y), 其表達(dá)式為

s(X?Y)=P(X∩Y).

(2)

置信度c是D中事務(wù)包含X的同時(shí)也包含Y的百分比,即條件概率P(Y|X),其表達(dá)式為

(3)

Apriori是經(jīng)典的關(guān)聯(lián)規(guī)則算法之一,其包括尋找頻繁項(xiàng)集和尋找強(qiáng)規(guī)則兩部分.尋找頻繁項(xiàng)集是算法核心,包含連接、剪枝兩步操作.Apriori算法的基本思想是通過(guò)多遍掃描數(shù)據(jù)庫(kù)找出全部頻繁項(xiàng)集,從1-項(xiàng)頻繁集開(kāi)始,遞歸地產(chǎn)生2-項(xiàng)頻繁集、3-項(xiàng)頻繁集,如此下去直到產(chǎn)生所有的頻繁項(xiàng)集.最后,利用頻繁項(xiàng)集構(gòu)造出滿(mǎn)足最小置信度的強(qiáng)規(guī)則.

傳統(tǒng)關(guān)聯(lián)規(guī)則算法主要考慮支持度和置信度指標(biāo),通過(guò)滿(mǎn)足大于最小支持度和置信度來(lái)獲得強(qiáng)關(guān)聯(lián)規(guī)則,但該方法有時(shí)難以解釋其規(guī)則的實(shí)際意義.因此,學(xué)者們引入了“興趣度”度量值,修剪無(wú)用的規(guī)則.目前興趣度模型主要有基于模板的興趣度模型、基于概率相關(guān)性的興趣度模型、基于信息量的興趣度模型和基于差異思想的興趣度模型等[13],這些模型由于是從不同的角度對(duì)興趣度進(jìn)行評(píng)價(jià),因此只適用于不同的實(shí)際問(wèn)題.

基于概率相關(guān)性的興趣度模型[14]是從統(tǒng)計(jì)獨(dú)立性檢查的角度出發(fā),在關(guān)聯(lián)規(guī)則的置信度和支持度基礎(chǔ)上增加一個(gè)新的相關(guān)性約束,以將不滿(mǎn)足條件的關(guān)聯(lián)規(guī)則刪除.X和Y的相關(guān)性計(jì)算公式為

(4)

式(4)中的相關(guān)性計(jì)算值作為興趣度,其體現(xiàn)的是X和Y的密切程度.In tr(X?Y)=1, 表示X和Y相互獨(dú)立,它們之間沒(méi)有相關(guān)性,此時(shí)P(X∪Y)=P(X)P(Y); In tr(X?Y)>1, 表示X與Y為正相關(guān),X的出現(xiàn)會(huì)促進(jìn)Y的出現(xiàn); In tr(X?Y)<1, 表示X與Y為負(fù)相關(guān),X的出現(xiàn)會(huì)減少Y的出現(xiàn).在實(shí)際應(yīng)用中,當(dāng)關(guān)聯(lián)規(guī)則的后件為單數(shù)據(jù)項(xiàng)時(shí)具有較為明確的決策指導(dǎo)意義,因此為保證規(guī)則的應(yīng)用價(jià)值,在算法實(shí)現(xiàn)過(guò)程中只挖掘形如X?Y的關(guān)聯(lián)規(guī)則,這樣可以減少大量的冗余關(guān)聯(lián)規(guī)則,提高算法效率.

2 基于興趣度的學(xué)習(xí)行為分析方法

2.1 基于興趣度的學(xué)習(xí)行為分析

傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法在分析學(xué)習(xí)效果的影響因素時(shí),通常僅考慮支持度和置信度指標(biāo)[15],而且置信度只考慮X出現(xiàn)時(shí)Y的出現(xiàn)概率,而未考慮X未出現(xiàn)時(shí)Y的出現(xiàn)概率,因此在挖掘時(shí)會(huì)得到大量的冗余規(guī)則,難以實(shí)用.因此,本文采用含有興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法對(duì)學(xué)習(xí)行為進(jìn)行分析,以獲得屬性間更多的信息.

假設(shè)學(xué)生的一系列學(xué)習(xí)行為屬性為集合A={A1,A2,…,Am}, 每個(gè)屬性有k個(gè)不同等級(jí)的具體取值.根據(jù)實(shí)際學(xué)習(xí)情況,屬性不同k取值不同.假設(shè)學(xué)生的每條學(xué)習(xí)行為數(shù)據(jù)對(duì)應(yīng)的學(xué)習(xí)成績(jī)?yōu)閆, 并且Z按分?jǐn)?shù)值劃分為n個(gè)等級(jí),即Z={Z1,Z2,…,Zn}.在分析學(xué)習(xí)行為過(guò)程中,本文引入基于概率相關(guān)性的興趣度模型思想,通過(guò)計(jì)算興趣度值分析學(xué)習(xí)行為屬性與學(xué)習(xí)成績(jī)之間的深層關(guān)系.一般情況下,學(xué)習(xí)行為總量為某一具體常數(shù),則屬性間的興趣度計(jì)算過(guò)程可由式(5)所示:

(5)

2.2 具體算法步驟

數(shù)據(jù)挖掘的過(guò)程一般包括4個(gè)部分:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和結(jié)果解釋.關(guān)聯(lián)規(guī)則算法是通過(guò)挖掘頻繁項(xiàng)集來(lái)發(fā)現(xiàn)屬性間的聯(lián)系,但若數(shù)據(jù)量大產(chǎn)生的規(guī)則也就越多,用戶(hù)很難觀察到某些細(xì)化區(qū)域的隱含規(guī)則,因此本文將聚類(lèi)分析作為數(shù)據(jù)挖掘的一個(gè)步驟.首先對(duì)樣本數(shù)據(jù)進(jìn)行聚類(lèi)將區(qū)域細(xì)化,然后對(duì)不同簇類(lèi)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,以此提高挖掘效率.

本文采用基于興趣度的關(guān)聯(lián)規(guī)則算法進(jìn)行學(xué)習(xí)行為分析的主要步驟如下:

1)獲取用戶(hù)的原始學(xué)習(xí)行為數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)離散化等操作,預(yù)處理后的數(shù)據(jù)存入數(shù)據(jù)庫(kù),形成樣本數(shù)據(jù)集;

2)采用K-means算法進(jìn)行聚類(lèi),利用公式(1)選取聚類(lèi)簇?cái)?shù),將數(shù)據(jù)區(qū)域細(xì)則化,生成相互區(qū)分的類(lèi).以學(xué)習(xí)成績(jī)作為學(xué)習(xí)效果的依據(jù),對(duì)各類(lèi)學(xué)習(xí)行為和學(xué)習(xí)效果進(jìn)行歸納分析;

3)采用基于興趣度的關(guān)聯(lián)規(guī)則算法對(duì)各區(qū)域數(shù)據(jù)進(jìn)行挖掘,利用式(2)和式(3)得到影響學(xué)習(xí)效果的學(xué)習(xí)行為因素,然后根據(jù)式(5)計(jì)算結(jié)果,分析學(xué)習(xí)行為與學(xué)習(xí)效果之間的深層聯(lián)系.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)預(yù)處理

實(shí)驗(yàn)數(shù)據(jù)來(lái)自edX平臺(tái)提供的MITx的2013年春季編號(hào)為8.02x的課程學(xué)習(xí)記錄,該數(shù)據(jù)集含有學(xué)習(xí)者從注冊(cè)到最后結(jié)業(yè)成績(jī)的所有學(xué)習(xí)數(shù)據(jù),共計(jì)18 579條.實(shí)驗(yàn)主要提取的學(xué)習(xí)特征分別是:是否訪(fǎng)問(wèn)課件標(biāo)簽(A),訪(fǎng)問(wèn)課程是否過(guò)半(B),互動(dòng)次數(shù)(C),視頻播放次數(shù)(D),互動(dòng)的章節(jié)數(shù)(E),論壇發(fā)帖數(shù)(F),是否獲得證書(shū)(G),成績(jī)結(jié)果(Z).為提高數(shù)據(jù)挖掘的效率,首先進(jìn)行數(shù)據(jù)預(yù)處理操作,將原始數(shù)據(jù)離散化,獲得的部分學(xué)習(xí)特征數(shù)據(jù)如表1所示.

表1 學(xué)習(xí)特征表

表1中,每一行數(shù)值代表某一名學(xué)習(xí)者的全部學(xué)習(xí)特征,各特征項(xiàng)的屬性見(jiàn)表2.

表2 特征值的屬性

3.2 聚類(lèi)分析

實(shí)驗(yàn)以Eclipse環(huán)境為平臺(tái),用Python作為開(kāi)發(fā)語(yǔ)言,采用K-means算法對(duì)獲得的學(xué)習(xí)特征進(jìn)行聚類(lèi)分析.首先,通過(guò)聚類(lèi)準(zhǔn)則函數(shù)確定最佳的聚類(lèi)簇?cái)?shù),其結(jié)果如圖1所示.

圖1 聚類(lèi)的數(shù)目

由圖1可以看出,曲線(xiàn)呈不斷下降趨勢(shì),但結(jié)合實(shí)際情況可知聚類(lèi)數(shù)不可能取無(wú)限小的值,否則失去研究意義.當(dāng)簇的數(shù)目為3時(shí),曲線(xiàn)變化率最大,即聚類(lèi)效果最好,因此本實(shí)驗(yàn)選取聚類(lèi)數(shù)為3.聚類(lèi)結(jié)果如表3所示,表中列舉了每類(lèi)含有的主要特征項(xiàng),括號(hào)內(nèi)的數(shù)值為具體人數(shù).

從表3可以看出,第1類(lèi)消極型學(xué)習(xí)者幾乎沒(méi)有瀏覽過(guò)課件和視頻等學(xué)習(xí)內(nèi)容,并且?guī)缀鯖](méi)有過(guò)互動(dòng),學(xué)習(xí)質(zhì)量很差,沒(méi)有獲得證書(shū).第2類(lèi)被動(dòng)型學(xué)習(xí)者雖然大多數(shù)瀏覽過(guò)課件和視頻,以及有過(guò)互動(dòng)學(xué)習(xí)經(jīng)歷,但大多數(shù)沒(méi)能堅(jiān)持學(xué)習(xí)到課程的一半,學(xué)習(xí)效果并不理想,也沒(méi)能獲得證書(shū).第3類(lèi)主動(dòng)型學(xué)習(xí)者都瀏覽過(guò)課件和視頻,互動(dòng)和發(fā)帖數(shù)較多,而且能夠堅(jiān)持長(zhǎng)時(shí)間學(xué)習(xí),因此這類(lèi)學(xué)習(xí)者的學(xué)習(xí)效果較好,大多獲得了相應(yīng)的課程證書(shū).

表3 聚類(lèi)結(jié)果

注:第1類(lèi)約占總?cè)藬?shù)的25%,第2類(lèi)約占總?cè)藬?shù)的70%,第3類(lèi)約占總?cè)藬?shù)的5%.

3.3 關(guān)聯(lián)規(guī)則分析

為找出影響學(xué)習(xí)效果的重要因素,分別采用傳統(tǒng)的Apriori算法和含有興趣度的改進(jìn)算法對(duì)不同類(lèi)型學(xué)習(xí)者的學(xué)習(xí)特征數(shù)據(jù)進(jìn)行挖掘,獲得的關(guān)聯(lián)規(guī)則數(shù)目如表4所示.

表4 不同關(guān)聯(lián)規(guī)則算法的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果顯示,采用含興趣度的算法獲得的強(qiáng)規(guī)則數(shù)目比傳統(tǒng)Apriori算法減少了40.9%.學(xué)習(xí)成績(jī)作為學(xué)習(xí)效果的重要體現(xiàn),分析與其相關(guān)的強(qiáng)規(guī)則可獲知學(xué)習(xí)者的學(xué)習(xí)行為與學(xué)習(xí)效果之間的關(guān)系.由于大多數(shù)學(xué)習(xí)者屬于被動(dòng)型學(xué)習(xí)類(lèi)型,因此本文以被動(dòng)型學(xué)習(xí)者為例進(jìn)行分析.被動(dòng)型學(xué)習(xí)類(lèi)型的部分強(qiáng)規(guī)則如表5所示.

表5 部分強(qiáng)規(guī)則

由表5中的置信度可知,所選擇的學(xué)習(xí)特征都是影響學(xué)習(xí)成績(jī)的重要因素.由G0 ?Z0的興趣度為1.0可知,是否獲得證書(shū)和成績(jī)的關(guān)系是相互獨(dú)立的,不能以成績(jī)優(yōu)劣決定是否能獲得證書(shū).學(xué)習(xí)特征A、D與Z之間的興趣度值均小于1,即訪(fǎng)問(wèn)課件、播放視頻與成績(jī)的關(guān)系為負(fù)相關(guān),說(shuō)明當(dāng)增多訪(fǎng)問(wèn)課件、播放視頻等行為時(shí),成績(jī)?yōu)?分的情況會(huì)減少;而特征B、C、E、F與Z之間的興趣度值均大于1,即訪(fǎng)問(wèn)課程的次數(shù)不過(guò)半,互動(dòng)次數(shù)少、學(xué)習(xí)的章節(jié)數(shù)少、不發(fā)帖討論等與成績(jī)的關(guān)系為正相關(guān),說(shuō)明這些情況的出現(xiàn)會(huì)增加成績(jī)?yōu)?分的情況.

4 結(jié)論

本文以在線(xiàn)課堂的用戶(hù)學(xué)習(xí)行為數(shù)據(jù)為研究對(duì)象,通過(guò)引入興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法研究了學(xué)習(xí)行為因素與學(xué)習(xí)效果之間的關(guān)系.實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)關(guān)聯(lián)規(guī)則本文方法可有效去除冗余規(guī)則,并且可得出規(guī)則前后件的具體聯(lián)系,有利于指導(dǎo)用戶(hù)改善學(xué)習(xí)行為.影響學(xué)習(xí)效果的因素較為復(fù)雜,本文僅對(duì)在線(xiàn)學(xué)習(xí)用戶(hù)的部分學(xué)習(xí)行為因素進(jìn)行了分析,今后將考慮網(wǎng)絡(luò)環(huán)境、學(xué)習(xí)資源等其他因素對(duì)學(xué)習(xí)行為因素的影響,以及提高數(shù)據(jù)挖掘算法的準(zhǔn)確率,以更有效地分析學(xué)習(xí)行為因素之間的深層關(guān)系,提高在線(xiàn)學(xué)習(xí)用戶(hù)的學(xué)習(xí)效果.

猜你喜歡
置信度學(xué)習(xí)效果數(shù)據(jù)挖掘
疫情期間線(xiàn)上學(xué)習(xí)效果評(píng)價(jià)分析
“百詞斬”對(duì)于大學(xué)英語(yǔ)四級(jí)詞匯學(xué)習(xí)效果的實(shí)證研究
民族文匯(2022年14期)2022-05-10 03:08:22
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
基于學(xué)習(xí)性評(píng)價(jià)原則提高研究性學(xué)習(xí)效果的研究
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
蓮心寶寶有話(huà)說(shuō)
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
隆林| 健康| 金山区| 林甸县| 水城县| 淮北市| 囊谦县| 保山市| 南平市| 阿合奇县| 惠安县| 台南市| 内乡县| 钟山县| 屏东市| 茂名市| 温宿县| 澄城县| 理塘县| 册亨县| 个旧市| 江孜县| 嘉义市| 天峨县| 绍兴县| 冷水江市| 宜兴市| 五家渠市| 沂南县| 虎林市| 荔波县| 尚志市| 平邑县| 日喀则市| 通河县| 禹州市| 任丘市| 泰兴市| 阜宁县| 河西区| 民乐县|