冷泳林
(渤海大學(xué) 遼寧 錦州 121001)
學(xué)生評教作為衡量高校教學(xué)質(zhì)量的重要手段之一,已經(jīng)在全國各高校普遍應(yīng)用。評教產(chǎn)生的數(shù)據(jù)被反饋給教學(xué)管理部門,并將其作為教師績效考核和評職的依據(jù)之一,教學(xué)管理部門并沒有對評價(jià)對象本身與評教結(jié)果間隱含的信息進(jìn)行深入挖掘。數(shù)據(jù)挖掘技術(shù)作為一種新興的先進(jìn)的數(shù)據(jù)分析工具,正被廣泛應(yīng)用在各個(gè)領(lǐng)域[1-4]?;跀?shù)據(jù)挖掘技術(shù)的教學(xué)質(zhì)量評教系統(tǒng)也進(jìn)行了較多的研究[5-7],但對評價(jià)結(jié)果的分析及應(yīng)用方面研究較少?;诖?,文中使用真實(shí)的評教樣本,利用決策樹經(jīng)典ID3算法對評教對象與評教結(jié)果之間的關(guān)系進(jìn)行深入研究構(gòu)造決策樹,從中挖掘出有用的信息,并將研究結(jié)果運(yùn)用于實(shí)際,為教學(xué)管理者提供了更多的參考數(shù)據(jù)。
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程,是知識發(fā)現(xiàn)的重要步驟。它是由數(shù)據(jù)庫、概率統(tǒng)計(jì)、人工智能等學(xué)科相融合而形成的一門交叉學(xué)科。數(shù)據(jù)挖掘過程一般包含如下幾個(gè)步驟:
1)數(shù)據(jù)清理與集成,收集到的原始數(shù)據(jù)存在雜亂、重復(fù)和不完整性特征,因此我們要通過該步驟清除數(shù)據(jù)噪聲和與挖掘主題明顯無關(guān)的數(shù)據(jù),得出需要分析的數(shù)據(jù)集合;
2)數(shù)據(jù)選擇與轉(zhuǎn)換,其作用就是將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式;
3)數(shù)據(jù)挖掘,它是知識挖掘的一個(gè)基本步驟,其作用就是利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識;
4)模式評估與表示,其作用就是根據(jù)一定評估標(biāo)準(zhǔn)從挖掘結(jié)果篩選出有意義的模式知識,并利用可視化和知識表達(dá)技術(shù),向用戶展示所挖掘出的相關(guān)知識。
決策樹就是一個(gè)類似流程圖的屬性結(jié)構(gòu),其中樹的每個(gè)內(nèi)部節(jié)點(diǎn)代表對一個(gè)屬性(取值)的測試,其分支就代表測試的每個(gè)結(jié)果;而樹的每個(gè)葉節(jié)點(diǎn)就代表一個(gè)類別。構(gòu)造決策樹的基本算法是貪心算法,它以自頂向下遞歸的各個(gè)擊破方式構(gòu)造決策樹。一種著名的決策樹算法是J.R.Quinlan的ID3算法,算法的基本策略如下:
1)創(chuàng)建一個(gè)節(jié)點(diǎn)。如果樣本都在同一類,則算法停止,把該節(jié)點(diǎn)改成樹葉節(jié)點(diǎn),并用該類標(biāo)記。
2)否則,選擇一個(gè)能夠最好的將訓(xùn)練集分類的屬性,該屬性作為該節(jié)點(diǎn)的測試屬性。
3)對測試屬性中的每一個(gè)值,創(chuàng)建相應(yīng)的一個(gè)分支,并據(jù)此劃分樣本。
4)使用同樣的過程,自頂向下的遞歸,直到滿足下面的3個(gè)條件中的一個(gè)時(shí)就停止遞歸。
設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號屬性具有m個(gè)不同值,定義 m 個(gè)不同類 Ci(i=1,2,…,m)。 設(shè) si是類 Ci中的樣本數(shù)。對一個(gè)給定的樣本分類所需要的期望信息由下式給出:
其中,pi是任意樣本屬性Ci的概率,并用si/s估計(jì)。
設(shè)屬性A具有v個(gè)不同值的屬性{a1,a2,…,av}??梢杂脤傩?A 將 S 劃分為 v 個(gè)子集{S1,S2,…,SV};其中,Sj包含 S 中這樣一些樣本,它們在A上具有值aj。如果A選作測試屬性(即最好的分裂屬性),則這些子集對應(yīng)于由包含集合S的節(jié)點(diǎn)生長出來的分枝。
設(shè)sij是子集Sj中類Ci的樣本數(shù)。根據(jù)由A劃分成子集的熵或期望信息由下時(shí)給出:
在 A 上分枝將獲得的編碼信息是 Gain(A)=I(s1,s2,…,sm)-E(A)
Gain(A)稱為信息增益,它是由于知道屬性A的值而導(dǎo)致的熵的期望壓縮。具有最高信息增益的屬性選作給定集合S的測試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記,對屬性的每個(gè)值創(chuàng)建分枝,并據(jù)此劃分樣本。
文中所使用的數(shù)據(jù)以作者所在學(xué)院學(xué)生評教系統(tǒng)中的數(shù)據(jù)為基礎(chǔ),將教師的基本信息表和評教結(jié)果表合成后形成如表1所示的原始數(shù)據(jù)表。在原始數(shù)據(jù)表中根據(jù)數(shù)據(jù)挖掘的基本步驟首先對數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清理和集成,生成78條有效記錄;其次由于數(shù)據(jù)表中工作年限和評教得分為數(shù)值型數(shù)據(jù),因此需對這兩個(gè)屬性進(jìn)行數(shù)據(jù)轉(zhuǎn)換即離散化處理,工作年限字段按8,17劃分成a、b、c 3個(gè)階段,評教得分按90,60分為優(yōu)秀、及格和不及格3段,離散化的數(shù)據(jù)如表2所示。
對離散化的數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì)后得到各屬性樣本分布表如表3所示。
表1 原始數(shù)據(jù)Tab.1 Original data
表2 離散化數(shù)據(jù)Tab.2 Discretization data
表3 樣本分布表Tab.3 Sample distribution table
根據(jù)上述數(shù)據(jù)預(yù)處理得到的數(shù)據(jù)源,其中S=78,4個(gè)屬性分別是學(xué)歷、工作年限、職稱和評教得分,根據(jù)評教得分的不同取值{優(yōu)秀,及格,不及格},將樣本分成3個(gè)不同的類(即m=3)。設(shè)類 C1對應(yīng)于“優(yōu)秀”,類 C2對應(yīng)于“及格”,類 C3對應(yīng)于 “不及格”, 則 S1=59,S2=16,S3=3,P1=59/78,P2=16/78,P3=3/78,因此計(jì)算出評教得分所需的期望信息為:
下面計(jì)算每個(gè)屬性的熵:
1)學(xué)歷
對于學(xué)歷為“本科”:s11=44,s21=12,s31=3,P11=44/59,P21=12/59,P31=3/59
對于學(xué)歷為“研究生”:S12=15,S22=4,S32=0,P12=15/19,P22=4/19,P32=0/19
如果樣本按“學(xué)歷”劃分,對一個(gè)給定的樣本分類所需的期望信息為:
因此,這種劃分的信息增益是:
Gain(學(xué)歷)=I(s1,s2,s3)-E(學(xué)歷)=0.016
同理可計(jì)算:
2)工作年限
Gain(工作年限)=I(s1,s2,s3)-E(工作年限)=0.068
3)職稱
Gain(職稱)=I(s1,s2,s3)-E(職稱)=0.081
經(jīng)過比較,職稱屬性具有最高的信息增益,可以得出決策樹的第一層節(jié)點(diǎn)為職稱,然后建立第一層節(jié)點(diǎn)。其它節(jié)點(diǎn)依次類推,直到所有的屬性值都已經(jīng)訪問過,就完成了決策樹的建立。
當(dāng)創(chuàng)建決策樹時(shí),由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分支反應(yīng)的是訓(xùn)練集中的異常,因此必須對決策樹進(jìn)行剪枝.剪枝是一種克服噪聲的基本技術(shù),同時(shí)它也能使決策樹得到簡化而變得更容易理解。ID3算法的剪枝有兩種策略:預(yù)先剪枝和后剪枝。預(yù)先剪枝法是在生成決策樹過程中,選取一個(gè)適當(dāng)?shù)拈撝?,但該閾值的選取是困難的,如果閾值過高,會導(dǎo)致決策樹過分簡化,而較低又會使決策樹剪枝太少。后剪枝法是在生成一個(gè)完整的決策樹后減去分支。本文采用后剪枝法對生成的決策樹進(jìn)行剪枝后得到如圖1所示的決策樹。
圖1 剪枝后的決策樹Fig.1 Decision tree pruning
從圖1生成的決策樹分析,可以挖掘出以下幾類信息:1)影響教學(xué)質(zhì)量分類的主要因素是職稱,職稱越高其教學(xué)質(zhì)量越好。2)職稱是助教,同時(shí)學(xué)歷為本科,由于工作時(shí)間短且學(xué)歷低,教學(xué)質(zhì)量優(yōu)秀所占的比例少,由此反映出這一部分教師需提高自身的學(xué)歷和知識儲備,多學(xué)習(xí),多聽課不斷完善自己。3)講師、副教授屬于教學(xué)中的骨干力量,所占人數(shù)最多,由此也反映出學(xué)歷、職稱與教學(xué)質(zhì)量成正比的關(guān)系。因此這一部分教師應(yīng)作為教學(xué)中的主力,充實(shí)到教學(xué)一線,而且多幫助年輕教師。4)該部門教師學(xué)歷為研究生的教師工作年限主要集中在a和b段,c段學(xué)歷不高,為提高部門的綜合競爭能力,該部分教師也應(yīng)該在允許的范圍內(nèi)提高自己的學(xué)歷。
利用ID3算法對學(xué)生評教數(shù)據(jù)和教師的基本信息集成后生成決策樹并對其進(jìn)行分析,從中找出影響教師評教結(jié)果的因素,為教學(xué)管理部門提供決策支持的依據(jù),對于提高教師的整體教學(xué)效果有很大的幫助。
[1]劉美玲,李熹,李永勝.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(5):1130-1133.
LIU Mei-ling,LI Xi,LI Yong-sheng.Application of datamining in university teaching and management[J]. Computer Engineering and Design, 2010,31(5):1130-1133.
[2]余臘生,李強(qiáng).數(shù)據(jù)挖掘在質(zhì)量管理系統(tǒng)中的應(yīng)用研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(10):2327-2334.
YU La-sheng,LI Qiang.Research on application of data mining in quality supervising and management system[J].Computer Engineering and Design,2010,31(10):2327-2334.
[3]葉明全,武長榮,胡學(xué)鋼.基于粗糙集的醫(yī)療數(shù)據(jù)挖掘研究與應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(21):232-234.
YE Ming-quan,WU Chang-rong,HU Xue-gang.Research and application on medical data mining based on rough sets[J].Computer Engineering and Design,2010,46(21):232-234.
[4]王偉輝,耿國華,陳莉.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)業(yè)務(wù)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2008,25(3):123-125.
WANG Wei-hui,GENG Guo-hua,CHEN Li.Application of data mining to insurance business[J].Computer Applications and Software,2008,25(3):123-125.
[5]王佳欣,王旭輝.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)評教系統(tǒng)[J].河南工程學(xué)院學(xué)報(bào):自然科學(xué)版,2009,21(3):50-52.
WANG Jia-xin,WANG Xu-hui.Teaching evaluation system through network based on data mining[J].Journal of Henan Institute of Engineering:Natural Science Editon,2009,21(3):50-52.
[6]郭曉利,郭平,馮力.基于數(shù)據(jù)挖掘技術(shù)的教學(xué)質(zhì)量評價(jià)系統(tǒng)的實(shí)現(xiàn)[J].東北電力大學(xué)學(xué)報(bào):自然科學(xué)版,2006,26(3):70-73.
GUO Xiao-li,GUO Ping,F(xiàn)ENG Li.Implementation of data mining technology in analysis and appraisal system of teaching quality[J].Journal of Northeast Dianli University Natural Science Edition,2006,26(3):70-73.
[7]付海艷,符謀松,張誠一.粗糙集理論在高校教學(xué)質(zhì)量評價(jià)分析中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(36):214-216.
FU Hai-yan,F(xiàn)U Mou-song,ZHANG Cheng-yi.Application of rough set theory to instruction quality evaluation and analysis[J].Computer Engineering and applications,2007,43 (36):214-216.