馮麗慧 馮立智
摘要:數(shù)據(jù)挖掘技術(shù)自產(chǎn)生以來,己經(jīng)被廣泛應用于多種領域,并得到了充分的驗證,顯示了其重要的經(jīng)濟和社會價值。利用數(shù)據(jù)挖掘技術(shù)快速而準確的提取有價值的教學信息,提高畢業(yè)論文教學質(zhì)量是一項系統(tǒng)工程。研究目的在于探索如何在當前的教學條件下提高學生畢業(yè)論文教學質(zhì)量,及時發(fā)現(xiàn)對教學管理有用的知識,并將這些知識應用于本科學生畢業(yè)論文教學工作實踐中,為學校管理者提供有用的信息,進而獲得更好的管理效益。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;C4.5算法;教學管理;高校教學
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2012)30-7150-04
隨著數(shù)字信息化社會的飛速發(fā)展,計算機技術(shù)和數(shù)據(jù)庫管理系統(tǒng)被廣泛應用于科學探索、商業(yè)、金融業(yè)、電子商務、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫技術(shù),通過對教務管理的大量數(shù)據(jù)進行多層次、多維度的加工處理,從而實現(xiàn)人性化管理,為科學決策提供支持。
畢業(yè)論文在教學體系中占有十分重要的位置,是本科生培養(yǎng)計劃中衡量教學質(zhì)量的重要指標。提高畢業(yè)論文教學質(zhì)量是一項系統(tǒng)工程,為研究在當前的教學條件下如何提高畢業(yè)論文教學質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對影響畢業(yè)論文成績管理的多方面因素進行了深入分析和挖掘,以期發(fā)現(xiàn)對學校畢業(yè)論文教學管理有用的知識,將這些知識應用于本科學生畢業(yè)論文教學實踐中,為學校管理者提供有用的信息,進而獲得更好的管理效益,為學校未來的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過分析每一個具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫研究中的一個很有應用價值的新領域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點:其一是處理大型數(shù)據(jù);其二應用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個對大量數(shù)據(jù)處理的過程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個多學科交叉領域,它由人工智能、機器學習的方法起步,并與統(tǒng)計分析方法、模糊數(shù)學和可視化技術(shù)相融合,以數(shù)據(jù)庫為研究對象,圍繞面對應用,為決策者提供服務。
數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計分析方法、歸納學習方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學方法。歸納學習法是目前重點研究的方向,本文根據(jù)給定的訓練樣本數(shù)據(jù)集,采用歸納學習法中的決策樹技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學習為基礎的歸納推算法,著眼于從一組無序的,無規(guī)則的事例中推斷出類似條件下會得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個布爾函數(shù)[5]。決策樹歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎,可以應用于分析數(shù)據(jù),同樣也可以用來作預測。建模過程中,即樹的生長過程是不斷的把數(shù)據(jù)進行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個互不交叉的子集,通常用來形成分類器和預測模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結(jié)構(gòu),是一種知識的表現(xiàn)形式。為了對未知樣本進行分類,生成具體的分類規(guī)則,信息樣本的各個屬性值要在決策樹上進行測試。主要分為兩個階段:在第一階段中生成樹。決策樹最上面的節(jié)點為根節(jié)點,是整個決策樹的開始,然后遞歸的進行數(shù)據(jù)分區(qū),每次切分對應一個問題,也對應著一個節(jié)點;在第二階段中對樹進行修剪,此過程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹的過匹配,進而保證生成決策樹的有效性和合理性。當一個節(jié)點中的所有數(shù)據(jù)都屬于同一類別,或者沒有屬性可以再用于數(shù)據(jù)進行分割時,分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運用信息熵理論,選擇當前樣本中具有信息增益值的屬性作為測試屬性,對樣本的劃分則依據(jù)測試屬性的取值[6]。C4.5算法是在ID3算法基礎上發(fā)展起來的,它繼承了ID3算法的全部優(yōu)點,并增加了新的功能改進了ID3算法中的不足,可以進行連續(xù)值屬性處理并處理未知值的訓練樣本。在應用單機的決策樹算法中,C4.5算法不僅分類準確而且執(zhí)行速度快。
C4.5通過兩個步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計算各個屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點,自頂向下生成決策樹。C4.5算法構(gòu)造決策樹的基本策略如下:
首先計算出給定樣本所需的期望信息,設S為一個包含s個數(shù)據(jù)樣本的集合,對于類別屬性,可以取m個不同取值,分別對應于m個不同的類別[Ci(i∈1,2,...,m)]。假設類別[Ci]中的樣本個數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計。
接著,計算當前樣本集合所需用的信息熵,設一個屬性A具有n個不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測試屬性,設[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計算的熵為:
然后利用屬性A對當前分支結(jié)點進行相應樣本集合劃分計算信息增益:
最后,求信息增益率,表達式為:
C4.5算法的偽代碼如下:
輸入:訓練樣本Samples;目標屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創(chuàng)建根節(jié)點root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結(jié)點樹root;
4)If Attributes為空Then;
5)返回單結(jié)點樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測試屬性列表Attributes中的屬性;
8)IF測試屬性是連續(xù)的Then;
9)對測試屬性進行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計算測試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對已建立的決策樹計算每個結(jié)點的分類錯誤,進行剪枝,并返回根結(jié)點Root。
3 畢業(yè)論文成績管理系統(tǒng)的設計和實現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對學生的成績數(shù)據(jù)進行提煉,所產(chǎn)生的結(jié)果和信息會對以后的教學管理工作提供有用的信息,進而獲得更好的管理效益。解決問題的重點在于怎樣對學生的畢業(yè)論文成績進行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹技術(shù)挖掘信息時,主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘?qū)ο螅鞔_挖掘目標是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績,旨在通過對大量成績數(shù)據(jù)進行各層次的挖掘,全面了解具體影響學生畢業(yè)論文成績的各方面因素,正確的針對問題擬定分析過程。
2)獲取相關(guān)知識:數(shù)據(jù)是挖掘知識最原始的資料,根據(jù)確定的數(shù)據(jù)分析對象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領域問題的數(shù)據(jù)收集完成之后,與目標信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對學生進行調(diào)查才能的得到。
3)數(shù)據(jù)預處理:此過程中是對已收集的大量數(shù)據(jù)進行整合與檢查。因為存放在數(shù)據(jù)庫中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對數(shù)據(jù)庫中數(shù)據(jù)進行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對預處理后的數(shù)據(jù)建立分析模型,對于特定的任務,需要選擇合適的算法來建立一個準確的適合挖掘算法的分析模型。本文采用決策樹技術(shù)進行分類建模來解決相應的問題。
5)分類挖掘知識和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實現(xiàn)的功能和任務來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當?shù)某绦蛟O計語言來實現(xiàn)該算法,對凈化和轉(zhuǎn)換過得數(shù)據(jù)訓練集進行挖掘,獲得有價值的分析信息。
6)知識表示:將數(shù)據(jù)挖掘得到的分析信息進一步的解釋和評價,生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應用于實踐。
7)知識應用:將分析得到的規(guī)則應用到教學管理中,教師可以利用所得到的知識針對性的開展畢業(yè)設計的教學活動,進一步指導教學工作,提高教學水平和學生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學生畢業(yè)論文成績主要的因素不是指導教師的職稱,學生的基礎及感興趣程度,而是指導教師的學歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學校教學管理工作應加重對教師的素質(zhì)及能力培養(yǎng),合理的分配每個教師的畢業(yè)論文指導工作,不僅能夠有效的完成畢業(yè)課題指導工作,更有助于學生整體論文質(zhì)量的提高。
在高校教學數(shù)字化的時代趨勢下,利用數(shù)據(jù)挖掘技術(shù)來挖掘提取教學工作中的全面而有價值信息,可以為教育管理者的教學工作提供有效的參考信息,改進教學管理方法,提高教學質(zhì)量和學生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻:
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應用[D].上海:上海師范大學,2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學系統(tǒng)中的應用[J].計算機工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應用[J].計算機應用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡內(nèi)基梅隆大學.機器學習[D].曾華軍,張銀奎,譯,北京:機械工業(yè)出版社,2003.
[5] Porter B W, Holte E R. Concept Learnin gand He uristic Classification in Weak Theory Domains[D].A rtificial Intelligence.1989,45(2):229-293.
[6] Quinlan J R. Induction of Decision Tree[J].Machine Learning,1986(1):81-106.