徐敏
摘要:教學(xué)管理決策在高校教育中是一項重要的工作。目前,高校內(nèi)部運行的各種管理系統(tǒng)和各類數(shù)據(jù)庫,已經(jīng)積累了包括學(xué)籍管理系統(tǒng)、成績管理系統(tǒng)在內(nèi)的海量數(shù)據(jù)。本文主要研究如何采用數(shù)據(jù)挖掘技術(shù)在學(xué)院教務(wù)管理系統(tǒng)中,對海量數(shù)據(jù)進行發(fā)掘和應(yīng)用,為人才培養(yǎng)提供比較客觀的決策支持。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;ID3算法
中圖分類號:G471 文獻標(biāo)志碼:A 文章編號:1674-9324(2017)14-0009-02
一、前言
隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘正成為一個日益受到重視的熱點研究領(lǐng)域,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。據(jù)相關(guān)資料調(diào)查顯示,在一個大型企業(yè)數(shù)據(jù)庫中,只有其中百分之七的數(shù)據(jù)能夠得到很好的應(yīng)用。同樣,高校內(nèi)部運行的各種管理系統(tǒng)和各類數(shù)據(jù)庫,已經(jīng)積累了海量的數(shù)據(jù),然而隱藏在這些海量數(shù)據(jù)中的深層次的模式一直沒有得到充分的發(fā)掘和應(yīng)用,學(xué)校管理者只能通過簡單數(shù)據(jù)查詢和排序等傳統(tǒng)數(shù)據(jù)庫技術(shù)功能獲得表面的信息。我們努力想要解決的是,如何對那些龐大的海量數(shù)據(jù)進行高層次的處理,從中找出管理者關(guān)心的規(guī)律和模式,以此幫助管理者更好地把現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為可供使用的知識進行決策和研究,來提高學(xué)校管理決策的科學(xué)性,提高管理水平和辦學(xué)質(zhì)量。
二、決策樹分類算法
決策樹(Decision Tree)學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法。它著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形成的分類規(guī)則,它的一個最大優(yōu)點就是在學(xué)習(xí)過程中不需要使用者了解很多背景知識(這也同時是它最大的缺點),只要訓(xùn)練例子能夠用“屬性—結(jié)論”式的方式表達出來,就能使用該算法來學(xué)習(xí)。決策樹算法中最著名的算法是Quinlan提出的ID3算法。他把C.E.Shannon的信息論引入到了決策樹算法中,把信息熵作為選擇測試屬性的標(biāo)準,對訓(xùn)練樣本集進行分類,并構(gòu)造決策樹來預(yù)測如何由測試屬性對整個樣本空間進行劃分。ID3算法采用信息量作為測試屬性的選擇標(biāo)準來分割訓(xùn)練樣本集并最終生成決策樹。
三、數(shù)據(jù)的收集和整理
本研究利用數(shù)據(jù)挖掘技術(shù)中的ID3算法,在教務(wù)管理系統(tǒng)中,實現(xiàn)一個專業(yè)方向選擇輔助指導(dǎo)的模塊,大學(xué)生在修完職業(yè)基礎(chǔ)課后,能更好地按自身的特點選擇專業(yè)方向。
在大學(xué)生專業(yè)方向輔助指導(dǎo)中,我們將以服裝系為例使用決策樹分類挖掘技術(shù)中的ID3算法,通過學(xué)生大學(xué)一年級專業(yè)基礎(chǔ)課的學(xué)習(xí)成績,配合問卷調(diào)查,預(yù)測學(xué)生最適合選擇的專業(yè)方向。
我們以華南女子學(xué)院服裝專業(yè)學(xué)生在大一期間的成績?yōu)橥诰驍?shù)據(jù)源(共194個樣本),根據(jù)學(xué)生各科的學(xué)習(xí)成績信息,剔除了成績表中與專業(yè)發(fā)展方向無顯著相關(guān)性的屬性,如體育等課程屬性,選擇7門具有代表性的專業(yè)基礎(chǔ)課作為基礎(chǔ)數(shù)據(jù)進行處理。
其次,對訓(xùn)練表中的每一列成績屬性的值進行離散化處理。我們將成績分成三個部分,用A表示[80,100]之間的分數(shù),用B表示[70,79]之間的分數(shù),用C表示[0,69]之間的分數(shù)。
除了學(xué)習(xí)成績之外,我們還需要考慮影響學(xué)生專業(yè)方向選擇的其他因素,服裝系的專業(yè)方向具體劃分為三個方面:制板與工藝方向;造型設(shè)計方向;市場營銷方向。
學(xué)生在大一修完專業(yè)基礎(chǔ)課后,自行選擇專業(yè)方向。為了更好地了解學(xué)生選擇專業(yè)方向的動機、階段性學(xué)習(xí)的完成情況,以及大學(xué)二年級工學(xué)結(jié)合的專業(yè)實踐后對自己所選方向的滿意度,我們設(shè)計了問卷調(diào)查調(diào)查:①學(xué)生的個人興趣:A.手工制作;B.創(chuàng)意設(shè)計;C.人際交往。②選擇專業(yè)方向時是否按興趣來選擇。③經(jīng)過一年的專業(yè)學(xué)習(xí),覺得現(xiàn)在的專業(yè)方向是否合適自己。
通過數(shù)據(jù)收集、數(shù)據(jù)整理之后,我們實際可以使用的數(shù)據(jù)記錄為182條,由于在系統(tǒng)實現(xiàn)過程中,我們還需要預(yù)留一部分數(shù)據(jù)進行數(shù)據(jù)分析準確度測試,因此,在放入訓(xùn)練數(shù)據(jù)集進行決策樹模型生成訓(xùn)練的實際數(shù)據(jù)記錄為146條。
四、利用ID3算法構(gòu)造學(xué)生成績分析決策樹
(一)信息增益的計算
首先我們先利用公式計算出信息熵,參加數(shù)據(jù)挖掘的記錄有146條,經(jīng)過兩年的專業(yè)學(xué)習(xí)后,認為自己更適合學(xué)習(xí)制板與工藝方向的有58人,認為自己更適合學(xué)習(xí)造型設(shè)計方向的有48人,覺得自己更適合市場營銷方向的有32人,不確定方向的8人。
下面計算信息增益值。
利用公式:信息增益值I(S/A)=H(S)-H(S/A)
經(jīng)過整理后,參加數(shù)據(jù)挖掘的屬性有9個,通過計算得到的Gain(S,xq)最大,即個人興趣對分類最有幫助,所以選擇興趣對決策樹的結(jié)構(gòu)進行首次分區(qū),產(chǎn)生4分枝。
(二)遞歸創(chuàng)建決策樹
選擇興趣作為測試屬性之后訓(xùn)練實例集分為4個子集,生成4個子節(jié)點,對每個子節(jié)點遞歸采用上述過程進行分類直至每個節(jié)點中各個實例屬于同類。
以“興趣=手工制作”為例。
選擇手工制作的同學(xué)一共有56人,經(jīng)過兩年的專業(yè)學(xué)習(xí)后,認為自己更適合學(xué)習(xí)制板與工藝方向的有42人,更適合學(xué)習(xí)造型設(shè)計方向的有8人,更適合市場營銷方向的有4人,不確定方向的2人。
通過計算得到的Gain(S_xq.手工制作,sjyl)最大,即“服裝結(jié)構(gòu)設(shè)計原理(簡稱設(shè)計原理)”的信息對分類最有幫助,所以選擇“服裝結(jié)構(gòu)設(shè)計原理”的成績對決策樹的結(jié)構(gòu)進行再次分區(qū),產(chǎn)生3個分枝。
計算選擇興趣為“手工制作”的學(xué)生里,設(shè)計原理成績大等于80分,其余的6門課程成績相應(yīng)的信息增益值,發(fā)現(xiàn)興趣選擇手工制作的所有設(shè)計原理成績大等于80分的同學(xué)在兩年的學(xué)習(xí)后認為自己最適合工藝方向因此不再另做計算。于是,我們研究興趣為“手工制作”且設(shè)計原理成績介于70—80分之間,其余6門成績的信息增益值計算。通過計算得到的Gain(S_xq.手工制作_sjyl.介于70—80分,jcgy)最大,按照信息增益最大的原則選擇“基礎(chǔ)工藝”的成績?yōu)楦Y(jié)點,并將樣本分成3部分,然后對每一棵子樹按照以上方法遞歸計算。由于決策樹的構(gòu)建是一個遞歸的計算,而本研究采用數(shù)據(jù)結(jié)點較多,因此我們在Microsoft Visual Studio 2005環(huán)境下用C#語言編程,利用程序生成其余的決策樹。
(三)樹剪枝
在實際應(yīng)用中,部分數(shù)據(jù)因數(shù)量太少以至于不能產(chǎn)生目標(biāo)函數(shù)的有代表性的采樣,導(dǎo)致我們使用決策樹算法生成的決策樹很多分支反映的是訓(xùn)練數(shù)據(jù)集中的異常。因此我們設(shè)置生成決策樹的最小樣本值為4,進行預(yù)剪枝處理。為了降低剪枝后的冗余,在剪枝后,如果有某個葉子結(jié)點下的所有屬性值指向的結(jié)果都相同,則認為該葉子結(jié)點是冗余的葉子結(jié)點,將被刪除,其屬性值將作為該結(jié)點原父節(jié)點的屬性值被保留。
由此決策樹導(dǎo)出相關(guān)規(guī)則如下。
1.if (興趣=手工制作and服裝結(jié)構(gòu)設(shè)計原理≥80) then 適合工藝方向
2.if (xq=='手工制作' and服裝結(jié)構(gòu)設(shè)計原理=='介于80~70' and基礎(chǔ)工藝≥80' and成衣工藝≥80and 款式效果圖≥80' and款式設(shè)計≥80') then 適合工藝方向
3.if (xq=='手工制作' and 服裝結(jié)構(gòu)設(shè)計原理=='介于80~70' and基礎(chǔ)工藝≥80 and成衣工藝≥80 and款式效果圖≥80 and款式設(shè)計<70) then 適合工藝方向
本次參與數(shù)據(jù)挖掘的屬性較多,從而導(dǎo)出的規(guī)則也相當(dāng)多,由于篇幅有限,這里不再一一羅列,我們將留做測試的36條數(shù)據(jù)運用到?jīng)Q策樹得出的所有規(guī)則里,經(jīng)過測試有31條規(guī)則命中,準確率為86.1%。
五、應(yīng)用開發(fā)運行環(huán)境
利用ID3算法得出的知識規(guī)則,我們在教務(wù)管理系統(tǒng)上增加了學(xué)生選擇專業(yè)方向的頁面。
硬件環(huán)境:PIII以上的微機
操作系統(tǒng):Windows 2000
數(shù)據(jù)庫系統(tǒng):SQL SERVER 2000
編程語言:ASP
采用B/S 模式
六、小結(jié)
本文主要討論的是使用ID3算法生成決策樹,最后由決策樹產(chǎn)生分類規(guī)則,完成了根據(jù)學(xué)生興趣以及專業(yè)課成績來判斷適合選擇的專業(yè)方向的決策樹模型建立。最后應(yīng)用所獲得的規(guī)則,實現(xiàn)了教務(wù)管理系統(tǒng)中的專業(yè)方向選擇系統(tǒng)。
參考文獻:
[1]白雪.決策樹分類算法的研究及其在教學(xué)評估中的應(yīng)用[J].電腦開發(fā)與應(yīng)用.2007,(02):24-26.
[2]陳文偉,黃金才,趙新顯著.數(shù)據(jù)挖掘技術(shù)[M].北京:工業(yè)大學(xué)出版社,2002:7.
[3]欒麗華.決策樹分類技術(shù)研究[J].計算機工程,2004,9:94-96.
[4]李強.創(chuàng)建決策樹算法的比較研究-ID3,C4.5,C5.0算法的比較[J].甘肅科學(xué)學(xué)報,2006,(12):84-87.
[5]馬瑜,王有剛.ID3算法應(yīng)用研究[J].信息技術(shù).2006,(12):84-86.
[6]李道國,苗奪謙,俞冰.決策樹剪枝算法的研究與改進[J].計算機工程,2005,(8):19-21.