●左榮欣 陳昭穩(wěn)
近年來(lái),隨著數(shù)據(jù)庫(kù)技術(shù)的快速發(fā)展和管理系統(tǒng)的廣泛應(yīng)用,收集到的數(shù)據(jù)越來(lái)越多,這使得在數(shù)據(jù)庫(kù)中查找有用信息變得非常重要。因此,數(shù)據(jù)挖掘技術(shù)作為解決這一問(wèn)題的有效方法越來(lái)越受到人們的關(guān)注,并取得了很大的成就。如今,它廣泛應(yīng)用于商業(yè)、金融、工業(yè)和商業(yè)。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和應(yīng)用,數(shù)據(jù)挖掘技術(shù)在高等教育中的應(yīng)用將對(duì)提高教學(xué)管理水平起到重要作用。
教學(xué)評(píng)價(jià)是根據(jù)教育目標(biāo)和標(biāo)準(zhǔn)對(duì)學(xué)校教學(xué)進(jìn)行系統(tǒng)研究和評(píng)價(jià),以評(píng)價(jià)學(xué)習(xí)過(guò)程中活動(dòng)和學(xué)習(xí)結(jié)果的價(jià)值。它是學(xué)校教育管理的重要組成部分,是衡量教育效果的重要工具。每學(xué)期,學(xué)校都會(huì)進(jìn)行教育評(píng)估調(diào)查,收集大量數(shù)據(jù)。然而,目前的教育評(píng)價(jià)主要是基于教師晉升和員工評(píng)價(jià)的數(shù)值計(jì)算。本文分析了各種數(shù)據(jù)挖掘方法,將決策樹(shù)算法應(yīng)用于高校教學(xué)評(píng)價(jià),并進(jìn)行數(shù)據(jù)挖掘,研究影響教育效果的因素及其關(guān)系,以更好地理解教師教學(xué)質(zhì)量評(píng)價(jià)與各類(lèi)屬性之間關(guān)系。
決策樹(shù)(Decision Tree)是機(jī)器學(xué)習(xí)中一種常見(jiàn)的算法,它的思想非常樸素,就像我們平時(shí)利用選擇做決策的過(guò)程。決策樹(shù)是一種基本的分類(lèi)與回歸方法,當(dāng)被用于分類(lèi)時(shí)叫做分類(lèi)樹(shù),被用于回歸時(shí)叫做回歸樹(shù)。
一般情況下,一棵決策樹(shù)包含一個(gè)根節(jié)點(diǎn)、若干個(gè)內(nèi)部節(jié)點(diǎn)和若干個(gè)葉結(jié)點(diǎn)。
根節(jié)點(diǎn):包含樣本全集,從根節(jié)點(diǎn)到每個(gè)葉結(jié)點(diǎn)的路徑對(duì)應(yīng)了一個(gè)判定測(cè)試序列。
內(nèi)部節(jié)點(diǎn):表示一個(gè)特征和屬性。每個(gè)內(nèi)部節(jié)點(diǎn)都是一個(gè)判斷條件,并且包含數(shù)據(jù)集中,滿(mǎn)足從根節(jié)點(diǎn)到該節(jié)點(diǎn)所有條件的數(shù)據(jù)的集合。根據(jù)內(nèi)部節(jié)點(diǎn)的屬性測(cè)試結(jié)果,內(nèi)部節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)的集合別分到兩個(gè)或多個(gè)子節(jié)點(diǎn)中。
葉節(jié)點(diǎn):表示一個(gè)類(lèi),對(duì)應(yīng)于決策結(jié)果。葉節(jié)點(diǎn)為最終的類(lèi)別,如果該數(shù)據(jù)被包含在該葉節(jié)點(diǎn),則屬于該類(lèi)別。
如下圖中,其中圓和方框分別表示內(nèi)部節(jié)點(diǎn)和葉結(jié)點(diǎn)。
簡(jiǎn)而言之,決策樹(shù)是一個(gè)利用樹(shù)的模型進(jìn)行決策的預(yù)測(cè)模型,表現(xiàn)出的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系,簡(jiǎn)單明了,非常容易理解。
我們決策樹(shù)學(xué)習(xí)的目的是為了產(chǎn)生一棵泛化能力強(qiáng),也就是能夠高效、有效處理未見(jiàn)示例的決策樹(shù)。
一般來(lái)說(shuō),使用決策樹(shù)進(jìn)行分類(lèi)可以分為兩個(gè)階段。在第一階段,應(yīng)通過(guò)遞歸生成決策樹(shù)形成序列來(lái)構(gòu)建決策樹(shù)。在第二階段,應(yīng)使用決策樹(shù)模型對(duì)輸入數(shù)據(jù)進(jìn)行分類(lèi)。建立決策樹(shù)的過(guò)程非常重要。本質(zhì)上,決策樹(shù)的生成是一種貪婪算法。對(duì)每個(gè)未分類(lèi)節(jié)點(diǎn)進(jìn)行測(cè)試,以找到從頂部節(jié)點(diǎn)開(kāi)始的一組示例屬性(測(cè)試屬性)。根據(jù)測(cè)試結(jié)果,將訓(xùn)練實(shí)例劃分為幾個(gè)子集,每個(gè)子集形成一個(gè)新節(jié)點(diǎn),并重復(fù)訓(xùn)練,直到達(dá)到新節(jié)點(diǎn)的閉合條件。建立決策樹(shù)的一個(gè)重要部分是測(cè)試特征的選擇和樣本集的分布。為此,不同的決策樹(shù)算法使用不同的方法。一些決策樹(shù)算法已經(jīng)逐漸發(fā)展起來(lái),如CLSJID3、CHAID、CART、FACT、C4.5、GINI、SEE、SLIQ、SPRINT等。最著名的算法是昆蘭提出的ID3和C4.5算法。
ID3算法是一種基于熵減法理論的描述性屬性?xún)?yōu)化選擇方法。要測(cè)試的屬性是當(dāng)前樣本集中信息值最高的屬性。由于待測(cè)試屬性的值不同,樣本被劃分為盡可能多的子集,并且與樣本對(duì)應(yīng)的新節(jié)點(diǎn)被添加到?jīng)Q策樹(shù)中。這種方法減少了對(duì)項(xiàng)目進(jìn)行分類(lèi)所需的測(cè)試數(shù)量,并確保只能使用一個(gè)簡(jiǎn)單(不一定是最簡(jiǎn)單的)樹(shù)。
在上圖中,pi是屬于C概率的任意樣本;使用s/s進(jìn)行估算。注:對(duì)數(shù)函數(shù)基于2,因?yàn)樾畔⒁远M(jìn)制編碼。
在上面的公式中,I(S1j,S2j,…,被作為第j個(gè),這是樣本在sj中屬于Ci的概率。這樣,通過(guò)使用屬性A劃分當(dāng)前分支節(jié)點(diǎn)的相應(yīng)樣本集獲得的信息增益為:
ID3算法根據(jù)信息論理論,采用劃分后樣本集的不確定性作為衡量劃分樣本子集的好壞程度,用“信息增益值”度量不確定性——信息增益值越大,不確定性就更小,這就促使我們找到一個(gè)好的非葉子節(jié)點(diǎn)來(lái)進(jìn)行劃分。通過(guò)ID3算法,計(jì)算各個(gè)影響因子的信息增益值,逐步建立各個(gè)影響因子的一棵決策樹(shù)。
考慮到目前的技術(shù)水平,本文重點(diǎn)介紹了ID3算法,該算法應(yīng)用范圍廣,使用方便,在教學(xué)評(píng)價(jià)系統(tǒng)中常用作決策樹(shù)?;诂F(xiàn)有的評(píng)價(jià)結(jié)果和教師的先驗(yàn)知識(shí),我們旨在開(kāi)發(fā)一個(gè)優(yōu)秀教師教學(xué)質(zhì)量評(píng)價(jià)模型。
分類(lèi)數(shù)據(jù)分析的階段通常包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分類(lèi)、分類(lèi)規(guī)則分析和知識(shí)應(yīng)用。在本文中,該階段用于描述開(kāi)發(fā)教學(xué)評(píng)估決策樹(shù)模型的過(guò)程。
高校教學(xué)越來(lái)越重視教學(xué)質(zhì)量,越來(lái)越多地使用數(shù)據(jù)挖掘技術(shù)來(lái)管理教育教學(xué)質(zhì)量。通過(guò)將教學(xué)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)應(yīng)用于教育政策,高校教學(xué)領(lǐng)導(dǎo)有了做出正確決策的堅(jiān)實(shí)基礎(chǔ)。作為高校教學(xué)信息管理不斷完善的一部分,越來(lái)越多的評(píng)估數(shù)據(jù)被收集到在線質(zhì)量評(píng)估系統(tǒng)中。評(píng)估數(shù)據(jù)庫(kù)與其他數(shù)據(jù)庫(kù)和大學(xué)教學(xué)的廣泛信息相連接。了解這些來(lái)源,不僅可以為高校教學(xué)管理部門(mén)提供評(píng)估結(jié)果,還可以提供其他重要信息。
我們使用關(guān)聯(lián)規(guī)則對(duì)決策樹(shù)的預(yù)測(cè)模型進(jìn)行了測(cè)試,結(jié)果基本一致,這部分反映了預(yù)測(cè)模型的高可靠性和適用性。
首先,對(duì)教師的年齡、職稱(chēng)、學(xué)歷、性別和評(píng)價(jià)結(jié)果進(jìn)行ID3算法分析,分析表明,它們與現(xiàn)實(shí)是一致的,即教師年齡越大教學(xué)質(zhì)量評(píng)價(jià)越高;教師職稱(chēng)越高,教師的教學(xué)質(zhì)量評(píng)價(jià)越高;教師的教學(xué)和實(shí)踐經(jīng)驗(yàn)越豐富,教學(xué)質(zhì)量評(píng)價(jià)越高;教師的性別對(duì)教學(xué)質(zhì)量評(píng)價(jià)影響不大。然而,數(shù)據(jù)分析表明,教師學(xué)歷與評(píng)價(jià)結(jié)果之間的關(guān)系是不對(duì)稱(chēng)的,原因如下:首先,我國(guó)高校年紀(jì)較大的教師,雖然他們的學(xué)歷不高,但是他們的教學(xué)質(zhì)量評(píng)價(jià)較高。而近年來(lái),新招聘的年輕教師,他們的學(xué)歷是比較高的,但由于他們教師實(shí)踐經(jīng)歷不足,在教學(xué)質(zhì)量評(píng)價(jià)中,他們的教學(xué)質(zhì)量評(píng)價(jià)不高。即使是年齡相仿,本科畢業(yè)就來(lái)學(xué)校工作與研究生畢業(yè)來(lái)校工作,因?yàn)楸究飘厴I(yè)生比研究生畢業(yè)的教師的工作經(jīng)歷要多,在教學(xué)質(zhì)量評(píng)價(jià)中,他們兩者之間比較,并沒(méi)有多大區(qū)別。
其次,對(duì)實(shí)際教學(xué)中的學(xué)生人數(shù)、課程類(lèi)型進(jìn)行分析表明,30人以下的班級(jí)教學(xué)質(zhì)量評(píng)價(jià)較高,人數(shù)增多,教學(xué)質(zhì)量評(píng)價(jià)則下降;選修課和必修課進(jìn)行比較,選修課的教學(xué)質(zhì)量評(píng)價(jià)低于必修課。實(shí)踐課與理論課比較,實(shí)踐課教學(xué)質(zhì)量評(píng)價(jià)低于理論課教學(xué)質(zhì)量評(píng)價(jià)。原因是實(shí)踐課在教學(xué)組織和教學(xué)手段使用上,存在更大的難度,評(píng)價(jià)主體不便于科學(xué)評(píng)價(jià)實(shí)踐課,所以評(píng)價(jià)質(zhì)量較低。
再次,對(duì)教學(xué)方法和教學(xué)資源建設(shè)進(jìn)行分析表明,教學(xué)方法手段的有效應(yīng)用能提升教學(xué)質(zhì)量評(píng)價(jià)數(shù)據(jù),如采用信息化教學(xué)手段則比不應(yīng)用信息化教學(xué)手段的教學(xué)質(zhì)量評(píng)價(jià)數(shù)據(jù)高,采用實(shí)際案例教學(xué)比不采用實(shí)際案例教學(xué)的教學(xué)質(zhì)量評(píng)價(jià)要高,采用學(xué)生自學(xué)后再請(qǐng)學(xué)生講解的方法與教師自己講述內(nèi)容的方法比較,前者教學(xué)質(zhì)量評(píng)價(jià)更高。教師建立并充分恰當(dāng)使用教學(xué)資源的教學(xué)質(zhì)量評(píng)價(jià)較高,因?yàn)橛兄趯W(xué)生課前自學(xué),課中答疑解惑,解決課程難點(diǎn)和重點(diǎn)。
教學(xué)質(zhì)量是教育效果的外在表現(xiàn)。教學(xué)質(zhì)量評(píng)價(jià)旨在指導(dǎo)、支持、激勵(lì)和規(guī)范教學(xué)質(zhì)量。它是學(xué)校管理的重要組成部分,是評(píng)價(jià)教育績(jī)效的重要工具。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于質(zhì)量評(píng)估具有重要的現(xiàn)實(shí)意義,因?yàn)樗鼮楦咝i_(kāi)展和支持課堂評(píng)估、提高教學(xué)質(zhì)量提供了定量依據(jù)。為了更好地描述優(yōu)秀教師所需的條件,該模型需要補(bǔ)充某些指標(biāo),如工作量、研究技能等。此外,還可以使用其他數(shù)據(jù)挖掘算法(如相關(guān)規(guī)則)來(lái)提取教學(xué)信息,需要進(jìn)一步分析。數(shù)據(jù)挖掘技術(shù)已經(jīng)在許多領(lǐng)域得到了應(yīng)用,其早期應(yīng)用表明,它在教學(xué)中具有很大的潛力,可以幫助解決當(dāng)前教育系統(tǒng)中的問(wèn)題?;诮逃拇筅厔?shì),數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的數(shù)據(jù)分析具有非常廣闊的前景。利用決策樹(shù)和相關(guān)規(guī)則建立高校教學(xué)評(píng)價(jià)框架,能夠達(dá)到綜合研究高校教學(xué)質(zhì)量評(píng)價(jià)的目的。