国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于ID3的計(jì)算機(jī)等級考試成績分析方法

2013-06-07 07:32司馬宇
關(guān)鍵詞:決策樹增益預(yù)處理

曾 旭,司馬宇

(1.遵義醫(yī)學(xué)院 醫(yī)學(xué)信息工程系,貴州 遵義 563003;2.遵義醫(yī)學(xué)院 網(wǎng)絡(luò)技術(shù)中心,貴州 遵義 563003)

計(jì)算機(jī)等級考試是經(jīng)國家教育部批準(zhǔn),由教育部考試中心主辦,面向社會,用于考察應(yīng)試人員計(jì)算機(jī)應(yīng)用知識與技能的計(jì)算機(jī)水平考試體系。該考試是根據(jù)不同部門應(yīng)用計(jì)算機(jī)的需要、國內(nèi)計(jì)算機(jī)技術(shù)的發(fā)展?fàn)顩r以及中國計(jì)算機(jī)教育、教學(xué)和普及的現(xiàn)狀確定的;它以應(yīng)用能力為主,劃分等級,分別考核,為專業(yè)人員擇業(yè)、人才流動提供其計(jì)算機(jī)應(yīng)用知識與能力水平的證明。

自醫(yī)療信息化建設(shè)提出以來,醫(yī)療衛(wèi)生領(lǐng)域傳統(tǒng)的紙質(zhì)存檔辦公方式已經(jīng)成為阻礙該行業(yè)發(fā)展的重要因素之一。為了加快醫(yī)療信息化建設(shè)的步伐,醫(yī)學(xué)院校培養(yǎng)擁有辦公自動化操作能力的醫(yī)務(wù)人員已成為不可忽視的大學(xué)本科培養(yǎng)目標(biāo),因此在遵義醫(yī)學(xué)院的本科課程設(shè)置中專門強(qiáng)調(diào)了計(jì)算機(jī)等級考試的教學(xué)與考核。為了讓學(xué)生有的放矢地學(xué)習(xí)和考核,遵義醫(yī)學(xué)院醫(yī)學(xué)信息工程系收集了相關(guān)的考核數(shù)據(jù)并利用數(shù)據(jù)挖掘技術(shù)作出了分析,分析結(jié)果為后期教學(xué)工作的開展起到了很好的指導(dǎo)作用。

1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘[1]是從大量數(shù)據(jù)中發(fā)現(xiàn)有趣模式,其中數(shù)據(jù)可以存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中。數(shù)據(jù)挖掘的類型包括分類規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、預(yù)測分析、總結(jié)規(guī)則挖掘、聚類規(guī)則挖掘、偏差分析和趨勢分析等。其中分類算法作為數(shù)據(jù)挖掘中獲取和提取知識的重要方法,在數(shù)據(jù)挖掘中起著重要作用。其中決策樹算法以其直觀性強(qiáng)、數(shù)據(jù)分析效率高等優(yōu)點(diǎn)而倍受關(guān)注。

1.1 決策樹概念

決策樹由葉子結(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)以及分叉構(gòu)成。樹的分叉表示檢驗(yàn)的結(jié)果,樹的內(nèi)部結(jié)點(diǎn)表示某種檢驗(yàn)屬性,分類則用葉子結(jié)點(diǎn)表示[2]。

決策樹的學(xué)習(xí)算法本質(zhì)是貪心算法。決策樹的構(gòu)建過程是由上到下、分而治之。從根結(jié)點(diǎn)開始,對給定的數(shù)據(jù)樣本進(jìn)行測試,根據(jù)測試所得結(jié)果將數(shù)據(jù)樣本劃分成若干子樣本集,每個子樣本集合構(gòu)成新子結(jié)點(diǎn)。迭代該建樹過程,直到滿足給定的終止條件。一個構(gòu)建好的決策樹,從根節(jié)點(diǎn)開始到葉子結(jié)點(diǎn),每個分支對應(yīng)一條規(guī)則。

1.2 決策樹算法

20世紀(jì)70年代,機(jī)器學(xué)習(xí)研究者J.Ross Quinlan開發(fā)了決策樹算法,稱作ID3[4-6]。Quinlan后來提出了C4.5,成為新的監(jiān)督學(xué)習(xí)算法的性能比較基準(zhǔn)。1984年幾位統(tǒng)計(jì)學(xué)家出版了分類與回歸樹(CART)。以上兩類基礎(chǔ)算法促進(jìn)了決策樹歸納的研究。

本文的數(shù)據(jù)分析算法采用ID3,其算法描述如下:

輸入:樣本samples;候選屬性的集合attribute_list.

輸出:判定樹.

2 ID3對評分結(jié)果的分析

將ID3決策樹規(guī)則的挖掘算法應(yīng)用于遵義醫(yī)學(xué)院計(jì)算機(jī)等級考試模擬評分系統(tǒng)中,根據(jù)現(xiàn)有的考試成績可獲得決策樹規(guī)則?,F(xiàn)以2010級臨床專業(yè)某班級40名學(xué)生的考試成績?yōu)槔?,采用決策樹規(guī)則對Typing、Word、Windows、Choice、Excel和Internet 6種題型間的決策樹規(guī)則進(jìn)行挖掘??荚嚁?shù)據(jù)共包含40條記錄,原表的基本結(jié)構(gòu)和表中的部分?jǐn)?shù)據(jù)如表1所示。

表1 原始數(shù)據(jù)

2.1 數(shù)據(jù)預(yù)處理

為了更好地進(jìn)行決策樹挖掘,需對給定成績進(jìn)行預(yù)處理[7-10],預(yù)處理過程是:將得分率低于0.6的題預(yù)處理為未達(dá)標(biāo),否則預(yù)處理為達(dá)標(biāo),預(yù)處理結(jié)果見表2。具體處理方法如下:

Choice題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于12分),“達(dá)標(biāo)”(12-20分)。

Windows題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于6分),“達(dá)標(biāo)”(6-10分)。

Typing題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于9分),“達(dá)標(biāo)”(9-15分)。

Word題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于15分),“達(dá)標(biāo)”(15-25分)。

Excel題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于12分),“達(dá)標(biāo)”(12-20分)。

Internet題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于6分),“達(dá)標(biāo)”(6-10分)。

表2 預(yù)處理后數(shù)據(jù)

2.2 構(gòu)造決策樹

根據(jù)ID3算法原理,按照2010級臨床專業(yè)學(xué)生是否通過考試來構(gòu)造決策樹模型,采用以下幾個步驟。

步驟1:計(jì)算2010級臨床專業(yè)成績樣本分類所需的期望信息

將樣本分成兩類:設(shè)C1是考試通過的類,C2是考試未通過的類,則S1=22,S2=18,總計(jì)S=40。

計(jì)算給定成績樣本分類所需的期望信息:

步驟2:計(jì)算每個考試題型的信息增益

(1)計(jì)算“Choice”題型的信息增益

對于“Choice題”=“達(dá)標(biāo)”的情況

對于“Choice題”=“未達(dá)標(biāo)”的情況

計(jì)算出按“Choice題”劃分給定樣本所需的期望信息為:

這種劃分的信息增益是:

(2)計(jì)算“Windows題”題型的信息增益

對于“Windows題”=“達(dá)標(biāo)”的情況

對于“Windows題”=“未達(dá)標(biāo)”的情況

計(jì)算出按“Windows題”劃分給定樣本所需的期望信息為:

這種劃分的信息增益是:

(3)計(jì)算“Typing題”題型的信息增益

對于“Typing題”=“達(dá)標(biāo)”的情況

對于“Typing題”=“未達(dá)標(biāo)”的情況

計(jì)算出按“Typing題”劃分給定樣本所需的期望信息為:

這種劃分的信息增益是:

(4)計(jì)算“Word題”題型的信息增益

對于“Word題”=“達(dá)標(biāo)”的情況

對于“Word題”=“未達(dá)標(biāo)”的情況

計(jì)算出按“Word題”劃分給定樣本所需的期望信息為:

這種劃分的信息增益是:

(5)計(jì)算“Excel題”題型的信息增益

對于“Excel題”=“達(dá)標(biāo)”的情況

對于“Excel題”=“未達(dá)標(biāo)”的情況

計(jì)算出按“Excel題”劃分給定樣本所需的期望信息為:

這種劃分的信息增益是:

(6)計(jì)算“Internet題”題型的信息增益

對于“Internet題”=“達(dá)標(biāo)”的情況

對于“Internet題”=“未達(dá)標(biāo)”的情況

計(jì)算出按“Internet題”劃分給定樣本所需的期望信息為:

這種劃分的信息增益是:

步驟3:確定測試題型

由于“Excel題”的信息增益最高,它被選為測試題型,用于建立第一個結(jié)點(diǎn),并將樣本分成兩個部分,然后對每一棵子樹按照上述方法遞歸計(jì)算,最后生成的決策樹如圖1所示。

2.3 提取決策樹分類規(guī)則

在本例中可提取出以下分類規(guī)則:

(1)If “Excel題”=“達(dá)標(biāo)” then “通過”

(2)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” then “未通過”

圖1 生成決策樹

(3)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” then “未通過”

(4)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”then “未通過”

(5)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”and “Word題”=“未達(dá)標(biāo)”then “未通過”

(6)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”and “Word題”=“未達(dá)標(biāo)” and “Internet題”=“未達(dá)標(biāo)”then “未通過”

(7)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”and “Word題”=“未達(dá)標(biāo)” and “Internet題”=“達(dá)標(biāo)”then “通過”

3 結(jié)束語

由提取的決策樹規(guī)則,可得出以下幾個結(jié)論:

(1)“Excel題”考試“達(dá)標(biāo)”的同學(xué)熟練掌握了計(jì)算機(jī)操作的相關(guān)題型,能夠在考試過程中獲得高分并順利通過考試。

(2)“Excel題”考試“未達(dá)標(biāo)”的同學(xué),必須在其他5類題型中獲得高分,方可通過考試。

對2010級臨床專業(yè)考生在計(jì)算機(jī)等級考試中6種題型的得分情況進(jìn)行決策樹挖掘,所得結(jié)論能夠幫助學(xué)生發(fā)現(xiàn)“Excel題”為關(guān)鍵性題型,便于學(xué)生在學(xué)習(xí)過程中把握考試的重點(diǎn)。與此同時(shí),教師也需在教學(xué)過程中突出“Excel題”的講解,幫助學(xué)生把握考試的關(guān)鍵題型并提升過級率。此結(jié)論對考生和教師來說均具有較強(qiáng)的指導(dǎo)性。

[1]K P Soman, Shyam Diwadar,V Ajay.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2003.1-3.

[2]向文燕.ID3算法在英語成績分析中的應(yīng)用研究[J].柳州職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011,11(2):31-34.

[3]Jiawei Han, Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.192.

[4]王永梅,胡學(xué)鋼.決策樹中ID3算法的研究[J].安徽大學(xué)學(xué)報(bào),2011,35(3):71-75.

[5]陳偉,程黃金.ID3算法構(gòu)造學(xué)生專升本考生以成績分析決策樹[J].電腦知識與技術(shù),2009,5(3):744-746.

[6]吳陳,林炎鐘.C4.5算法在高校教師評價(jià)中的應(yīng)用研究[J].信息技術(shù),2011,(1):133-136.

[7]鄺濤.基于決策樹技術(shù)在高校成績分析中的應(yīng)用研究[J].新鄉(xiāng)學(xué)院學(xué)報(bào),2011,28(1):49-51.

[8]何小明.基于OLAP與數(shù)據(jù)挖掘的高考招生數(shù)據(jù)分析[J].計(jì)算機(jī)科學(xué),2012,39(6):175-178.

[9]劉美玲.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(5):1130-1133.

[10]王丹.數(shù)據(jù)挖掘技術(shù)在高職院校教學(xué)管理中的應(yīng)用[J].廣東技術(shù)師范學(xué)院學(xué)報(bào),2010, (3):58-60.

猜你喜歡
決策樹增益預(yù)處理
求解奇異線性系統(tǒng)的右預(yù)處理MINRES 方法
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
高COD二噻烷生產(chǎn)廢水預(yù)處理研究
基于單片機(jī)的程控增益放大器設(shè)計(jì)
基于Multisim10和AD603的程控增益放大器仿真研究
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
程控增益射頻寬帶放大器
基于決策樹的出租車乘客出行目的識別
基于模糊關(guān)聯(lián)規(guī)則和決策樹的圖像自動標(biāo)注