曾 旭,司馬宇
(1.遵義醫(yī)學(xué)院 醫(yī)學(xué)信息工程系,貴州 遵義 563003;2.遵義醫(yī)學(xué)院 網(wǎng)絡(luò)技術(shù)中心,貴州 遵義 563003)
計(jì)算機(jī)等級考試是經(jīng)國家教育部批準(zhǔn),由教育部考試中心主辦,面向社會,用于考察應(yīng)試人員計(jì)算機(jī)應(yīng)用知識與技能的計(jì)算機(jī)水平考試體系。該考試是根據(jù)不同部門應(yīng)用計(jì)算機(jī)的需要、國內(nèi)計(jì)算機(jī)技術(shù)的發(fā)展?fàn)顩r以及中國計(jì)算機(jī)教育、教學(xué)和普及的現(xiàn)狀確定的;它以應(yīng)用能力為主,劃分等級,分別考核,為專業(yè)人員擇業(yè)、人才流動提供其計(jì)算機(jī)應(yīng)用知識與能力水平的證明。
自醫(yī)療信息化建設(shè)提出以來,醫(yī)療衛(wèi)生領(lǐng)域傳統(tǒng)的紙質(zhì)存檔辦公方式已經(jīng)成為阻礙該行業(yè)發(fā)展的重要因素之一。為了加快醫(yī)療信息化建設(shè)的步伐,醫(yī)學(xué)院校培養(yǎng)擁有辦公自動化操作能力的醫(yī)務(wù)人員已成為不可忽視的大學(xué)本科培養(yǎng)目標(biāo),因此在遵義醫(yī)學(xué)院的本科課程設(shè)置中專門強(qiáng)調(diào)了計(jì)算機(jī)等級考試的教學(xué)與考核。為了讓學(xué)生有的放矢地學(xué)習(xí)和考核,遵義醫(yī)學(xué)院醫(yī)學(xué)信息工程系收集了相關(guān)的考核數(shù)據(jù)并利用數(shù)據(jù)挖掘技術(shù)作出了分析,分析結(jié)果為后期教學(xué)工作的開展起到了很好的指導(dǎo)作用。
數(shù)據(jù)挖掘[1]是從大量數(shù)據(jù)中發(fā)現(xiàn)有趣模式,其中數(shù)據(jù)可以存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中。數(shù)據(jù)挖掘的類型包括分類規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、預(yù)測分析、總結(jié)規(guī)則挖掘、聚類規(guī)則挖掘、偏差分析和趨勢分析等。其中分類算法作為數(shù)據(jù)挖掘中獲取和提取知識的重要方法,在數(shù)據(jù)挖掘中起著重要作用。其中決策樹算法以其直觀性強(qiáng)、數(shù)據(jù)分析效率高等優(yōu)點(diǎn)而倍受關(guān)注。
決策樹由葉子結(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)以及分叉構(gòu)成。樹的分叉表示檢驗(yàn)的結(jié)果,樹的內(nèi)部結(jié)點(diǎn)表示某種檢驗(yàn)屬性,分類則用葉子結(jié)點(diǎn)表示[2]。
決策樹的學(xué)習(xí)算法本質(zhì)是貪心算法。決策樹的構(gòu)建過程是由上到下、分而治之。從根結(jié)點(diǎn)開始,對給定的數(shù)據(jù)樣本進(jìn)行測試,根據(jù)測試所得結(jié)果將數(shù)據(jù)樣本劃分成若干子樣本集,每個子樣本集合構(gòu)成新子結(jié)點(diǎn)。迭代該建樹過程,直到滿足給定的終止條件。一個構(gòu)建好的決策樹,從根節(jié)點(diǎn)開始到葉子結(jié)點(diǎn),每個分支對應(yīng)一條規(guī)則。
20世紀(jì)70年代,機(jī)器學(xué)習(xí)研究者J.Ross Quinlan開發(fā)了決策樹算法,稱作ID3[4-6]。Quinlan后來提出了C4.5,成為新的監(jiān)督學(xué)習(xí)算法的性能比較基準(zhǔn)。1984年幾位統(tǒng)計(jì)學(xué)家出版了分類與回歸樹(CART)。以上兩類基礎(chǔ)算法促進(jìn)了決策樹歸納的研究。
本文的數(shù)據(jù)分析算法采用ID3,其算法描述如下:
輸入:樣本samples;候選屬性的集合attribute_list.
輸出:判定樹.
將ID3決策樹規(guī)則的挖掘算法應(yīng)用于遵義醫(yī)學(xué)院計(jì)算機(jī)等級考試模擬評分系統(tǒng)中,根據(jù)現(xiàn)有的考試成績可獲得決策樹規(guī)則?,F(xiàn)以2010級臨床專業(yè)某班級40名學(xué)生的考試成績?yōu)槔?,采用決策樹規(guī)則對Typing、Word、Windows、Choice、Excel和Internet 6種題型間的決策樹規(guī)則進(jìn)行挖掘??荚嚁?shù)據(jù)共包含40條記錄,原表的基本結(jié)構(gòu)和表中的部分?jǐn)?shù)據(jù)如表1所示。
表1 原始數(shù)據(jù)
為了更好地進(jìn)行決策樹挖掘,需對給定成績進(jìn)行預(yù)處理[7-10],預(yù)處理過程是:將得分率低于0.6的題預(yù)處理為未達(dá)標(biāo),否則預(yù)處理為達(dá)標(biāo),預(yù)處理結(jié)果見表2。具體處理方法如下:
Choice題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于12分),“達(dá)標(biāo)”(12-20分)。
Windows題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于6分),“達(dá)標(biāo)”(6-10分)。
Typing題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于9分),“達(dá)標(biāo)”(9-15分)。
Word題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于15分),“達(dá)標(biāo)”(15-25分)。
Excel題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于12分),“達(dá)標(biāo)”(12-20分)。
Internet題預(yù)處理規(guī)則:分段預(yù)處理為“未達(dá)標(biāo)”(小于6分),“達(dá)標(biāo)”(6-10分)。
表2 預(yù)處理后數(shù)據(jù)
根據(jù)ID3算法原理,按照2010級臨床專業(yè)學(xué)生是否通過考試來構(gòu)造決策樹模型,采用以下幾個步驟。
步驟1:計(jì)算2010級臨床專業(yè)成績樣本分類所需的期望信息
將樣本分成兩類:設(shè)C1是考試通過的類,C2是考試未通過的類,則S1=22,S2=18,總計(jì)S=40。
計(jì)算給定成績樣本分類所需的期望信息:
步驟2:計(jì)算每個考試題型的信息增益
(1)計(jì)算“Choice”題型的信息增益
對于“Choice題”=“達(dá)標(biāo)”的情況
對于“Choice題”=“未達(dá)標(biāo)”的情況
計(jì)算出按“Choice題”劃分給定樣本所需的期望信息為:
這種劃分的信息增益是:
(2)計(jì)算“Windows題”題型的信息增益
對于“Windows題”=“達(dá)標(biāo)”的情況
對于“Windows題”=“未達(dá)標(biāo)”的情況
計(jì)算出按“Windows題”劃分給定樣本所需的期望信息為:
這種劃分的信息增益是:
(3)計(jì)算“Typing題”題型的信息增益
對于“Typing題”=“達(dá)標(biāo)”的情況
對于“Typing題”=“未達(dá)標(biāo)”的情況
計(jì)算出按“Typing題”劃分給定樣本所需的期望信息為:
這種劃分的信息增益是:
(4)計(jì)算“Word題”題型的信息增益
對于“Word題”=“達(dá)標(biāo)”的情況
對于“Word題”=“未達(dá)標(biāo)”的情況
計(jì)算出按“Word題”劃分給定樣本所需的期望信息為:
這種劃分的信息增益是:
(5)計(jì)算“Excel題”題型的信息增益
對于“Excel題”=“達(dá)標(biāo)”的情況
對于“Excel題”=“未達(dá)標(biāo)”的情況
計(jì)算出按“Excel題”劃分給定樣本所需的期望信息為:
這種劃分的信息增益是:
(6)計(jì)算“Internet題”題型的信息增益
對于“Internet題”=“達(dá)標(biāo)”的情況
對于“Internet題”=“未達(dá)標(biāo)”的情況
計(jì)算出按“Internet題”劃分給定樣本所需的期望信息為:
這種劃分的信息增益是:
步驟3:確定測試題型
由于“Excel題”的信息增益最高,它被選為測試題型,用于建立第一個結(jié)點(diǎn),并將樣本分成兩個部分,然后對每一棵子樹按照上述方法遞歸計(jì)算,最后生成的決策樹如圖1所示。
在本例中可提取出以下分類規(guī)則:
(1)If “Excel題”=“達(dá)標(biāo)” then “通過”
(2)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” then “未通過”
圖1 生成決策樹
(3)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” then “未通過”
(4)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”then “未通過”
(5)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”and “Word題”=“未達(dá)標(biāo)”then “未通過”
(6)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”and “Word題”=“未達(dá)標(biāo)” and “Internet題”=“未達(dá)標(biāo)”then “未通過”
(7)If “Excel題”=“未達(dá)標(biāo)” and“Windows題”=“未達(dá)標(biāo)” and “Typing題”=“未達(dá)標(biāo)” and “Choice題”=“未達(dá)標(biāo)”and “Word題”=“未達(dá)標(biāo)” and “Internet題”=“達(dá)標(biāo)”then “通過”
由提取的決策樹規(guī)則,可得出以下幾個結(jié)論:
(1)“Excel題”考試“達(dá)標(biāo)”的同學(xué)熟練掌握了計(jì)算機(jī)操作的相關(guān)題型,能夠在考試過程中獲得高分并順利通過考試。
(2)“Excel題”考試“未達(dá)標(biāo)”的同學(xué),必須在其他5類題型中獲得高分,方可通過考試。
對2010級臨床專業(yè)考生在計(jì)算機(jī)等級考試中6種題型的得分情況進(jìn)行決策樹挖掘,所得結(jié)論能夠幫助學(xué)生發(fā)現(xiàn)“Excel題”為關(guān)鍵性題型,便于學(xué)生在學(xué)習(xí)過程中把握考試的重點(diǎn)。與此同時(shí),教師也需在教學(xué)過程中突出“Excel題”的講解,幫助學(xué)生把握考試的關(guān)鍵題型并提升過級率。此結(jié)論對考生和教師來說均具有較強(qiáng)的指導(dǎo)性。
[1]K P Soman, Shyam Diwadar,V Ajay.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2003.1-3.
[2]向文燕.ID3算法在英語成績分析中的應(yīng)用研究[J].柳州職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011,11(2):31-34.
[3]Jiawei Han, Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.192.
[4]王永梅,胡學(xué)鋼.決策樹中ID3算法的研究[J].安徽大學(xué)學(xué)報(bào),2011,35(3):71-75.
[5]陳偉,程黃金.ID3算法構(gòu)造學(xué)生專升本考生以成績分析決策樹[J].電腦知識與技術(shù),2009,5(3):744-746.
[6]吳陳,林炎鐘.C4.5算法在高校教師評價(jià)中的應(yīng)用研究[J].信息技術(shù),2011,(1):133-136.
[7]鄺濤.基于決策樹技術(shù)在高校成績分析中的應(yīng)用研究[J].新鄉(xiāng)學(xué)院學(xué)報(bào),2011,28(1):49-51.
[8]何小明.基于OLAP與數(shù)據(jù)挖掘的高考招生數(shù)據(jù)分析[J].計(jì)算機(jī)科學(xué),2012,39(6):175-178.
[9]劉美玲.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(5):1130-1133.
[10]王丹.數(shù)據(jù)挖掘技術(shù)在高職院校教學(xué)管理中的應(yīng)用[J].廣東技術(shù)師范學(xué)院學(xué)報(bào),2010, (3):58-60.