国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的教學(xué)評價系統(tǒng)設(shè)計與開發(fā)

2015-10-19 11:27方芳張澎
電腦知識與技術(shù) 2015年20期
關(guān)鍵詞:決策樹教學(xué)評價數(shù)據(jù)挖掘

方芳 張澎

摘要:該文將針對教師教學(xué)評價系統(tǒng)開發(fā)和使用中存在的主要問題,如數(shù)據(jù)處理不合理,功能不完善等問題進(jìn)行分析,提出聯(lián)機(jī)分析處理技術(shù)、利用數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù),對要評測的數(shù)據(jù)進(jìn)行采樣分析處理。重點(diǎn)討論以CART算法為中心的決策樹生成算法,利用其屬性的相關(guān)性并對算法進(jìn)行了相應(yīng)的改進(jìn)。測試數(shù)據(jù)證明:改進(jìn)后的算法對所生成的規(guī)則集的數(shù)量和大小有優(yōu)化作用,有效地縮短處理的時間,使用改進(jìn)后的算法,對教學(xué)評價數(shù)據(jù)進(jìn)行知識挖掘,得到?jīng)Q策規(guī)則,用以輔助學(xué)校相關(guān)決策的改進(jìn)和制定。

關(guān)鍵詞:數(shù)據(jù)挖掘;教學(xué)評價;聯(lián)機(jī)分析處理;決策樹

中圖分類號:G642 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)20-0001-03

Design and Development of Teaching Evaluation System that Based on Data Mining

FANG Fang,ZHANG Peng

(Department of Compute Science, Xiangnan University, Chenzhou 423000, China)

Abstract: On account of the low degree of automation and scientific data processing in existing teaching evaluation system, the data warehouse technology, online analytical processing as well as data mining techniques can be used for the evaluation of the data sampling processing. With focusing on the CART (Classification and Regression Trees algorithm) based decision tree generation algorithm, made use of its properties related to overcome shortcomings of it and then improve the algorithm itself. Through tests to demonstrate the improved algorithm can effectively shorten the processing time and reduce the size and number of the generated rule sets. By taking advantage of the improved algorithm, to help data mining on knowledge of teaching and then using generated decision rules to improve school-related decision-making and formulation.

Key words: data mining; teaching evaluation; online analytical processing; decision tree

1 概述

數(shù)據(jù)倉庫和OLAP技術(shù)在教學(xué)管理系統(tǒng)中的實(shí)際應(yīng)用是在最近才被關(guān)注。目前相關(guān)的研究主要集中在如何去構(gòu)建學(xué)校的數(shù)據(jù)倉庫,利用OLAP技術(shù)對數(shù)據(jù)進(jìn)行處理和分析,怎樣以學(xué)校內(nèi)部各個數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)為基礎(chǔ),其目的是提高學(xué)校的教育能力和水平。

文獻(xiàn)[1]主要討論了粗糙集的基礎(chǔ)理論用于教學(xué)評價數(shù)據(jù)處理地方法和決策樹分類挖掘,為了讓算法再好的應(yīng)用于所開發(fā)的系統(tǒng)中,對ID3數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),使其能更好的實(shí)現(xiàn)輔助決策功能。文獻(xiàn)[2]分析了一種基于用戶舉的權(quán)重推薦模型,以此模型為基礎(chǔ)對關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn)從而提出MWFP算法。文獻(xiàn)[3] 對各種影響教學(xué)水平提高的原因及教學(xué)評價的各項(xiàng)指標(biāo)進(jìn)行了分析,使用數(shù)據(jù)挖掘的方法影響和提示教師教學(xué)水平因素構(gòu)建的教學(xué)評價決策樹模型。文獻(xiàn)[4]其OLAP解決方案采用的是ORACLE業(yè)務(wù)智能系統(tǒng)采用B/S架構(gòu)方式,能夠方便維護(hù)和部署。

本文通過OLAP技術(shù)可以發(fā)現(xiàn)教學(xué)評價結(jié)果和教師性別、學(xué)歷、年齡、教齡、職稱之間的關(guān)系,教師性別與學(xué)生異同對評價結(jié)果的一些影響,學(xué)生考試成績和評測結(jié)果與學(xué)生基本信息之間的關(guān)系等。通過改進(jìn)的CART決策樹生成算法進(jìn)行數(shù)據(jù)挖掘,尋找出教學(xué)評價過程中各元素與教學(xué)評價結(jié)果之間的關(guān)系。

2 CART決策樹數(shù)據(jù)挖掘的算法和改進(jìn)

CART算法是決策樹算法的典型代表,采用的策略是先生成二叉決策樹,然后進(jìn)行修剪處理。二叉樹的生成采用好的方法可以提高決策樹生的效率,在分類準(zhǔn)確性的基礎(chǔ)上修剪處理又可以減小決策樹的規(guī)模,進(jìn)一步提高了可應(yīng)用的范圍和理解性。了進(jìn)一步簡化決策樹的結(jié)構(gòu),在CART的基礎(chǔ)上又提出了一種基于屬性歸約的CART算法。為了方便用戶根據(jù)自身實(shí)際需求調(diào)整閾值,有更高的決策準(zhǔn)確率,CART算法還考慮了決策屬性和測試屬性之間的聯(lián)系,用專業(yè)的分類經(jīng)驗(yàn)作指導(dǎo),加快了決策樹的分類的閾值可調(diào)和生成。

通過改進(jìn)后的CART決策樹算法步驟如下:

1)對于訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理應(yīng)用與選擇目標(biāo)關(guān)系密切的數(shù)據(jù)集體,對“臟數(shù)據(jù)”進(jìn)行清理生成符合CART算法處理的數(shù)據(jù)集。

2)如果待處理數(shù)據(jù)通過決策樹中間節(jié)點(diǎn)的屬性判別被認(rèn)為是大于某決策閾值,則此閾值的分支處生成一個葉子節(jié)點(diǎn)進(jìn)行標(biāo)注。

3)對全部測試數(shù)據(jù)屬性進(jìn)行分析計算得到?jīng)Q策屬性和每一個測試屬性之間的相關(guān)性。

4)選擇相關(guān)度比較小的測試屬性集test_attribute。

5)假設(shè)D為數(shù)據(jù)樣本集合,對其每一個樣本數(shù)據(jù)去除test_attribute。

6)調(diào)用CART(D)進(jìn)行一些處理。

針對改進(jìn)后的CART算法性能進(jìn)行分析,其方法是利用UCI實(shí)驗(yàn)數(shù)據(jù)庫中的根本依次使用改進(jìn)后的CART算法和常規(guī)CART算法進(jìn)行處理,分析處理后的結(jié)果證明改進(jìn)算法的有效性。

無關(guān)屬性對于決策樹算法準(zhǔn)確率與效率的影響比較大。通過實(shí)驗(yàn)證明,在標(biāo)準(zhǔn)的數(shù)據(jù)集中增加一個無關(guān)的二值屬性使決策樹生成算法的性能顯著下降,所有在應(yīng)用決策算法之前,需要對屬性集進(jìn)行數(shù)據(jù)縮減處理和減少數(shù)據(jù)維數(shù),提高算法的效率和準(zhǔn)確率。

實(shí)驗(yàn)數(shù)據(jù)基本特征,如表1所示:

表1 實(shí)驗(yàn)數(shù)據(jù)特征描述

[數(shù)據(jù)庫名稱\&樣本總數(shù)\&屬性個數(shù)\&類別個數(shù)\&Balloons\&85\&4\&2\&Mushroom \&8223\&24\&2\&Breast-cancer\&277\&8\&2\&promoters\&157\&58\&2\&]

從執(zhí)行時間上看,改進(jìn)后的CART算法優(yōu)于普通CART算法,改進(jìn)的CART算法在進(jìn)行決策樹生成之前,對樣本數(shù)據(jù)進(jìn)行了處理去除與目標(biāo)相關(guān)性不大的屬性提高決策樹的生成效率。對比常規(guī)CART算法和改進(jìn)后的CART算法,針對每一數(shù)據(jù)集處理的準(zhǔn)確率和時間。在具體對比實(shí)驗(yàn)中,對于不同的數(shù)據(jù)庫采用了不同的分類閾值。

表2 實(shí)驗(yàn)結(jié)果

[數(shù)據(jù)庫名稱\& CART算法\&改進(jìn)后的CART算法\&采用分類閾值\&執(zhí)行時間\&準(zhǔn)確率\&執(zhí)行時間\&準(zhǔn)確率\&Balloons\&70.5%\&0.1\&76.94% \&0.06\&71.1%\&Mushroom\&80%\&0.16\&99.01%\&0.15\&97.25%\&Breast-cancer\&70%\&0.06\&67.12%\&0.04\&70.26%\&promoters\&80%\&0.05\&76.41%\&0.05\&80.18%\&]

在決策樹構(gòu)建過程中,判斷和分析某一節(jié)點(diǎn)上屬于某一類的數(shù)據(jù)樣本值比例,如大于設(shè)定的閾值則停止分類,生成最終決策節(jié)點(diǎn),這一處理方法可以提高決策樹建立和后修剪過程。與傳統(tǒng)CART算法相比較,改進(jìn)后的CART算法增加了構(gòu)建決策樹之前的數(shù)據(jù)處理操作,以目標(biāo)與屬性之間的相關(guān)性為指導(dǎo)分析,去除樣本數(shù)據(jù)中與決策目標(biāo)無關(guān)或相關(guān)性不強(qiáng)的屬性,使生成決策樹的數(shù)據(jù)更加簡潔提高了生成效率。

3 數(shù)據(jù)挖掘處理過程

基于CART決策樹方法的數(shù)據(jù)挖掘,主要的目標(biāo)是研究教學(xué)評價過程中,各個不同的指標(biāo)與最終教學(xué)評價結(jié)果之間的關(guān)系。整個過程需要經(jīng)過四個階段:數(shù)據(jù)預(yù)處理,決策樹生成,規(guī)則生成,準(zhǔn)確性評估。

3.1 數(shù)據(jù)準(zhǔn)備和預(yù)處理階段

數(shù)據(jù)挖掘的基礎(chǔ)和對象是數(shù)據(jù)倉庫中的數(shù)據(jù)。在教學(xué)評價系統(tǒng)中,以教學(xué)評價結(jié)果數(shù)據(jù)庫表為分析對象,研究不同的評價指標(biāo)與最終評價結(jié)果分類之間的關(guān)系,因此,在數(shù)據(jù)準(zhǔn)備階段,主要是從教學(xué)評價結(jié)果表中提取的評價結(jié)果數(shù)據(jù),具體如圖1所示:

圖1 數(shù)據(jù)挖掘數(shù)據(jù)源表

3.2 決策樹生成的階段

通過改進(jìn)后的CART算法從預(yù)處理數(shù)據(jù)中抽取了5112的個樣本數(shù)據(jù)來構(gòu)建決策樹,然后對經(jīng)過預(yù)處理后的數(shù)據(jù)進(jìn)行了相應(yīng)分析,包括了1個結(jié)果類項(xiàng)Total和10個影響因素項(xiàng)。各個屬性項(xiàng)的取值與相關(guān)信息被存儲到文件中供CART算法調(diào)用。

3.3 模型準(zhǔn)確性的評估

常用的分類準(zhǔn)確性評估技術(shù)的方法主要有兩種,分別是保持和確認(rèn)交叉。本文所研究的“教學(xué)評價指標(biāo)——分類”模型主要是對在線學(xué)習(xí)進(jìn)行形成性評估成績界定的,要滿足以下兩個要求:

1)對于大小不一樣的樣本集的成績評估具有比較好的穩(wěn)定性;

2)模型(分類規(guī)則集合R")在成績評估上有一定的準(zhǔn)確性。

表3 測試數(shù)據(jù)集的評估結(jié)果表

[測試樣本

被分類別\&該分類樣本數(shù)\&原類別為

A的樣本數(shù)\&原類別為

B的樣本數(shù)\&原類別為

C的樣本數(shù)\&原類別為

D的樣本數(shù)\&分類

正確率\&A\&1895\&1743\&121\&26\&5\&91.98%\&B\&3629\&183\&3240\&171\&35\&89.28%\&C\&3587\&33\&223\&3103\&228\&86.51%\&D\&889\&9\&45\&70\&765\&86.06%\&總計\&10000\&1969\&3628\&3371\&1032\&88.46%\&]

將采用保持方法對模型進(jìn)行準(zhǔn)確性的評估。

通過對教學(xué)評價進(jìn)行的數(shù)據(jù)分析,本文設(shè)定了10個描述教學(xué)評價的指標(biāo)項(xiàng)目,建立數(shù)據(jù)挖掘的“教學(xué)評價指標(biāo)——分類”模型分析表。

分類結(jié)果的準(zhǔn)確性測試:表3所示。

圖2為樣本分類正確率的對比表。

圖2 樣本分類正確率對比表

對“教學(xué)評價指標(biāo)——分類”模型分析得出以下結(jié)論:

評估結(jié)果權(quán)重比由大到小的教學(xué)指標(biāo)依次是: TEffect:教學(xué)效果;TMethod:教學(xué)方法;TContent:教學(xué)內(nèi)容; TAttitude:教學(xué)態(tài)度;CAura:課堂氣氛;TSpeake:教學(xué)講課; HomeWork:作業(yè)指導(dǎo);TWrite:板書情況; TAppear:教師儀表;TStock:備課情況。

根據(jù)數(shù)據(jù)挖掘與分析,得到八條準(zhǔn)確率最高的教師教學(xué)評價評估標(biāo)準(zhǔn)規(guī)則:

1、if TEffect<9, then total=”差”;

2、if TEffect >9 and TEffect <9.5 and TMethod>9 and TMethod<9.5 and TAttitude<9, then total=”中”;

3、if TEffect >9 and TEffect <9.5 and TAttitude<9 and TContent>9 and TContent<9.5, then total=”中”;

4、if TEffect >9 and TEffect <9.5 and TContent>9 and TContent<9.5 and TMethod<9 and TAura>9.5, then total=”中”;

5、if TEffect>9.5,TMethod>9.5, then total=”優(yōu)”;

6、if TEffect >9 and TEffect <9.5 and TMethod>9 and TMethod<9.5 and TContent>9.5, then total=”優(yōu)”;

7、if TEffect >9.5 and TMethod>9 and TMethod<9.5 and TAttitude >9.5, then total=”優(yōu)”;

8、if TEffect >9 and TEffect <9.5 and TMethod>9.5 and TContent>9.5, then total=”優(yōu)”;

4 規(guī)則分析

根據(jù)以上數(shù)據(jù)挖掘得到規(guī)則分析如下:

規(guī)則一說明,教學(xué)的效果是評價教師教學(xué)水平的最為重要的標(biāo)準(zhǔn),由于教學(xué)效果是一個綜合性的指標(biāo),該指標(biāo)如果不到9分,則教師的教學(xué)水平一定為是“差”。

規(guī)則二說明,在教學(xué)效果達(dá)到9分以上時,如果教學(xué)方法可以有良好的表現(xiàn),則教學(xué)態(tài)度即使不到9分,教學(xué)水平可被評定為“中”,說明了教學(xué)方法的重要性。

規(guī)則三說明,在教學(xué)效果達(dá)到9分以上時,如果教學(xué)內(nèi)容達(dá)到良好,而教學(xué)的態(tài)度不足9分,教師的水平被認(rèn)定為“中”,提醒教師要注重平時的教學(xué)態(tài)度,不能讓學(xué)生產(chǎn)生逆反心理。

規(guī)則四說明,在教學(xué)效果達(dá)到9分以上時,教學(xué)內(nèi)容達(dá)到良好,課堂氣氛得分在9.5以上時,即使教學(xué)方法小于9分,教學(xué)水平可被評價為“中”,教師注意課堂氣氛的活躍。

規(guī)則五說明,當(dāng)教學(xué)效果和教學(xué)的方法都達(dá)到9.5分以上時,教師的教學(xué)水平可被認(rèn)定為“優(yōu)”,要求教師提高教學(xué)效果和方法。

規(guī)則六說明,在教學(xué)效果和教學(xué)方法的得分都處于9分到9.5分之間時,如果教師的教學(xué)內(nèi)容突出,則其教學(xué)水平可被認(rèn)定為“優(yōu)”。

規(guī)則七說明,在教學(xué)效果達(dá)到9.5以上,教學(xué)方法處于中等水平時,如果教學(xué)態(tài)度較好,則可被認(rèn)定為“優(yōu)”,說明學(xué)生對和藹可親的教師較為認(rèn)可。

規(guī)則八說明,如果教學(xué)效果處于中等水平,教學(xué)方法較好的情況下,如果教學(xué)內(nèi)容比較精彩,則其教學(xué)水平的認(rèn)定為“優(yōu)”,說明精彩的教學(xué)內(nèi)容更容易吸引學(xué)生。

5 結(jié)論

根據(jù)數(shù)據(jù)倉庫構(gòu)建的流程和聯(lián)機(jī)分析處理的過程,結(jié)合決策樹數(shù)據(jù)挖掘算法,設(shè)計并開發(fā)了基于數(shù)據(jù)挖掘的教學(xué)評價多維處理系統(tǒng)。改進(jìn)后的CART算法能有效地縮短處理的時間并減少所生成的規(guī)則集的大小和數(shù)量。

參考文獻(xiàn):

[1] 韓成勇.基于數(shù)據(jù)倉庫技術(shù)的高職院校學(xué)評教數(shù)據(jù)分析決策支持系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J].科技信息, 2009(26): 215-216.

[2] 胡海員. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在招生決策中的應(yīng)用研究[D].南京: 東南大學(xué), 2006.

[3] 袁華. 基于OLAP技術(shù)的高校決策系統(tǒng)研究與設(shè)計[D]. 上海:復(fù)旦大學(xué), 2010.

[4] 盧晶晶. 基于數(shù)據(jù)挖掘的教學(xué)評價系統(tǒng).[D]. 南京: 河海大學(xué), 2009.

[5] Yonatan Aumann, Yehuda Lindell, Journal of Intelligent Information Systems, A Statistical Theory for Quantitative Association Rules, 2010,20(3):255-283.

猜你喜歡
決策樹教學(xué)評價數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
信息技術(shù)—Internet實(shí)用教程教學(xué)設(shè)計的思考與實(shí)踐
對農(nóng)村小學(xué)數(shù)學(xué)課堂教學(xué)評價的認(rèn)識和看法
網(wǎng)絡(luò)環(huán)境下高職英語課程多維度評價方式研究
小學(xué)數(shù)學(xué)“反思型” 教學(xué)的探索與實(shí)踐
基于決策樹的出租車乘客出行目的識別
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用