江敏 徐艷
摘要:作為教育信息化的重要組成部分,高校教學(xué)管理系統(tǒng)中收集了大量的教學(xué)信息,但大多沒(méi)有得到很好的挖掘和研究,所以數(shù)據(jù)挖掘在高校教學(xué)管理系統(tǒng)中的應(yīng)用具有現(xiàn)實(shí)意義。該文介紹了數(shù)據(jù)挖掘技術(shù)的基本原理和解決問(wèn)題的方法,并討論了一種將數(shù)據(jù)挖掘技術(shù)與高校教學(xué)管理系統(tǒng)相結(jié)合的方法,提高了高校教學(xué)管理的工作效率,實(shí)現(xiàn)了教學(xué)資源安排的合理性,在高校教學(xué)信息化建設(shè)方面做出了新的探索。
關(guān)鍵詞:教學(xué)管理;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;決策樹(shù)
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)24-5741-05
The Applications of Data Mining Techniques in Education Management in Universities
JIANG Min, XU Yan
(Taizhou Teachers College, Taizhou 22530, China)
Abstract: As an important part of informatization construction in education, college teaching management system has collected a lot of teaching information, but most of them have not been mined and researched very well, so the applications of data mining in the education management system has practical significance. This article has described the basic principles of data mining techniques and problem-solving methods, and discussed a method of combining data mining technology and college teaching management system, improved the efficiency of teaching management, realized rational arrangements of teaching resources, made new explorations in the teaching informatization con struction.
Key words: education management; data mining; association rules; decision tree
近年來(lái),隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,高校的教學(xué)信息管理系統(tǒng)得到了長(zhǎng)足的發(fā)展和廣泛的應(yīng)用。目前,國(guó)內(nèi)各高校都已經(jīng)不同程度地配備了信息化的教學(xué)管理系統(tǒng),這些教學(xué)管理系統(tǒng)大都應(yīng)用了數(shù)據(jù)庫(kù)技術(shù)和網(wǎng)絡(luò)通信技術(shù),基本上都包含了學(xué)生管理、教師管理、課程管理和成績(jī)管理等功能模塊。
在教學(xué)管理系統(tǒng)中,教學(xué)過(guò)程中產(chǎn)生的大量記錄和數(shù)據(jù)在數(shù)據(jù)庫(kù)中存儲(chǔ)和管理,改善了傳統(tǒng)的紙張記錄方式易丟失、易損壞和不方便查詢等缺點(diǎn),同時(shí)節(jié)省了紙張,在提高管理效率的同時(shí)可以做到經(jīng)濟(jì)、環(huán)保;另一方面,教學(xué)管理系統(tǒng)中網(wǎng)絡(luò)技術(shù)的應(yīng)用,使得教學(xué)信息的傳輸、處理和查詢工作可以在遠(yuǎn)程完成,提高了教學(xué)管理的靈活性。信息化教學(xué)管理系統(tǒng)的出現(xiàn)為高校的教學(xué)管理工作提供了極大的方便,提高了高校管理工作的運(yùn)行效率,降低了辦學(xué)成本。
但是,在教學(xué)管理系統(tǒng)的應(yīng)用過(guò)程中,系統(tǒng)中會(huì)保存海量的數(shù)據(jù),例如學(xué)生和教師的基本信息、學(xué)生的成績(jī)等。如果不能得到有效的、有機(jī)的利用,這些海量的數(shù)據(jù)只是簡(jiǎn)單地保存在管理系統(tǒng)的數(shù)據(jù)庫(kù)中,將很可能使得海量的數(shù)據(jù)變成了無(wú)用的垃圾,即造成了所謂的“數(shù)據(jù)爆炸、知識(shí)貧乏”的現(xiàn)象。其實(shí),這些海量的數(shù)據(jù)的內(nèi)部和相互之間往往具有一些潛在的聯(lián)系和客觀的規(guī)律,有效地發(fā)現(xiàn)和利用這些聯(lián)系和規(guī)律對(duì)教學(xué)質(zhì)量的分析評(píng)估、高校管理的決策支持等工作會(huì)產(chǎn)生極大的幫助,從而使得教學(xué)管理系統(tǒng)發(fā)揮更大的作用。而數(shù)據(jù)挖掘技術(shù),就是一種分析海量數(shù)據(jù)中隱藏的關(guān)系和規(guī)律,并從中獲得有用信息的技術(shù)。
1數(shù)據(jù)挖掘技術(shù)概述
1.1數(shù)據(jù)挖掘的概念
隨著信息技術(shù)的快速發(fā)展和廣泛應(yīng)用,各行各業(yè)應(yīng)用數(shù)據(jù)庫(kù)系統(tǒng)保存和管理著海量的數(shù)據(jù),但是目前大多數(shù)的數(shù)據(jù)庫(kù)系統(tǒng)只能夠提供一些簡(jiǎn)單的數(shù)據(jù)管理和處理功能。另一方面,隨著社會(huì)的發(fā)展,數(shù)據(jù)的重要性日益顯著,人們對(duì)數(shù)據(jù)分析和處理方面的需求愈加強(qiáng)烈,而這些需求利用傳統(tǒng)的、人工的數(shù)據(jù)分析方法和數(shù)據(jù)庫(kù)系統(tǒng)是很難做到的。隨著各行業(yè)中數(shù)據(jù)量爆炸性的增長(zhǎng),“數(shù)據(jù)爆炸、知識(shí)貧乏”的現(xiàn)象愈加嚴(yán)重。所以,面對(duì)海量的數(shù)據(jù),人們迫切希望有一種科學(xué)系統(tǒng)的技術(shù)可以用來(lái)分析和處理這些數(shù)據(jù),從而發(fā)現(xiàn)海量數(shù)據(jù)蘊(yùn)含的有價(jià)值的信息來(lái)為決策服務(wù)。
數(shù)據(jù)挖掘(Data Mining),是指從海量的數(shù)據(jù)或數(shù)據(jù)庫(kù)中分析和提取出人們感興趣的知識(shí)的過(guò)程。這些知識(shí)是一些潛在的有價(jià)值的信息,一般可以以概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等幾種形式存在[1]。對(duì)于數(shù)據(jù)挖掘,另一種比較權(quán)威的定義是:數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程[2]。
通俗地講,數(shù)據(jù)挖掘就是對(duì)海量的數(shù)據(jù)進(jìn)行分析并從中挖掘知識(shí)的過(guò)程?!巴诰颉鄙鷦?dòng)地表示了從大量的未加工的、價(jià)值不高的數(shù)據(jù)中發(fā)現(xiàn)有用的、價(jià)值高的數(shù)據(jù)的過(guò)程?!爸R(shí)”可以認(rèn)為是概念、規(guī)則、規(guī)律和模式,即從海量的、繁雜的數(shù)據(jù)中提取得到的有價(jià)值的、人們感興趣的信息。這些“知識(shí)”可以被人們用于發(fā)現(xiàn)數(shù)據(jù)規(guī)律、提供決策支持等,而數(shù)據(jù)挖掘技術(shù)正是實(shí)現(xiàn)這一過(guò)程的有效手段。
數(shù)據(jù)挖掘技術(shù)是涉及到多個(gè)技術(shù)和領(lǐng)域的交叉,包括數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)、模式識(shí)別、信息檢索、高性能計(jì)算技術(shù)等。隨著信息技術(shù)的迅猛發(fā)展,各行業(yè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)量將繼續(xù)保持指數(shù)級(jí)的增長(zhǎng),對(duì)于海量數(shù)據(jù)分析和處理的需求也將不斷增加,數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用必將有更大的發(fā)展。
1.2數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘技術(shù)的分析方法,即數(shù)據(jù)挖掘的任務(wù)分類,主要有以下幾種:
1.2.1關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析用來(lái)找到大量數(shù)據(jù)中數(shù)據(jù)項(xiàng)之間的相關(guān)性。它的一般表示形式為:A=> B,即滿足A的數(shù)據(jù)項(xiàng)也很可能會(huì)滿足B。根據(jù)不同的關(guān)聯(lián)規(guī)則可以反映數(shù)據(jù)的不同規(guī)律,并用來(lái)預(yù)測(cè)事件的發(fā)生或發(fā)展的趨勢(shì)。一個(gè)關(guān)聯(lián)規(guī)則的覆蓋量是關(guān)聯(lián)規(guī)則能夠正確預(yù)測(cè)的實(shí)例數(shù)量,稱為支持。準(zhǔn)確率或置信度,是將正確預(yù)測(cè)的實(shí)例數(shù)量表示為它在關(guān)聯(lián)規(guī)則應(yīng)用所涉及的全部實(shí)例中占據(jù)的比例[3],即給定關(guān)聯(lián)規(guī)則預(yù)測(cè)準(zhǔn)確的概率。關(guān)聯(lián)規(guī)則分析應(yīng)用廣泛,例如著名的“尿布與啤酒”的故事,人們?cè)诜治雒绹?guó)沃爾瑪超市的銷售記錄時(shí),發(fā)現(xiàn)男性顧客在購(gòu)買嬰兒尿布的同時(shí)往往會(huì)購(gòu)買啤酒,從而做出了將嬰兒尿布和啤酒擺放在一起的決策,最終取得了良好的效果。所以,從大量數(shù)據(jù)中找到其關(guān)聯(lián)規(guī)則,對(duì)于市場(chǎng)銷售等商業(yè)活動(dòng)的決策支持有顯著作用。同時(shí),關(guān)聯(lián)規(guī)則分析是許多其它的數(shù)據(jù)挖掘方法,如分類等的基礎(chǔ)。
1.2.2分類分析
分類分析,就是基于給定的類別,將大量數(shù)據(jù)中的數(shù)據(jù)項(xiàng)進(jìn)行分類,即構(gòu)造一個(gè)分類函數(shù)或模型,把數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè),并使用分類規(guī)則對(duì)未知的數(shù)據(jù)進(jìn)行預(yù)測(cè)分類,而分類函數(shù)或模型是基于數(shù)據(jù)中已經(jīng)分好類別的訓(xùn)練集得到的。分類分析,一般分為兩個(gè)階段:首先,要建立函數(shù)或模型來(lái)描述一個(gè)已知的數(shù)據(jù)分類規(guī)則,即通過(guò)已知分類的數(shù)據(jù)項(xiàng),即訓(xùn)練集,來(lái)訓(xùn)練得到分類函數(shù)或模型。分類函數(shù)或模型,可以表示成IF-THEN規(guī)則、決策樹(shù)或人工神經(jīng)網(wǎng)絡(luò)等;然后,使用測(cè)試數(shù)據(jù)檢驗(yàn)?zāi)P偷臏?zhǔn)確性,如果達(dá)到預(yù)定標(biāo)準(zhǔn),則可將模型用于預(yù)測(cè)未知數(shù)據(jù)項(xiàng)的類別,如果不夠準(zhǔn)確,則繼續(xù)訓(xùn)練過(guò)程。
1.2.3聚類分析
聚類分析,就是要大量數(shù)據(jù)中的數(shù)據(jù)項(xiàng)按照其自身的某些特點(diǎn)分成自然的組,其目的是盡可能的減小同一類別數(shù)據(jù)項(xiàng)之間的距離,增大不同類別數(shù)據(jù)項(xiàng)之間距離,即實(shí)現(xiàn)類內(nèi)相似性最大化、類間相似性最小化。聚類分析用于將數(shù)據(jù)中類似的數(shù)據(jù)項(xiàng)組織在一起,其與分類分析的區(qū)別是,分類分析必須基于預(yù)先定義好的類別,即需要訓(xùn)練集。
1.2.4預(yù)測(cè)分析
預(yù)測(cè)分析,是發(fā)現(xiàn)數(shù)據(jù)項(xiàng)隨時(shí)間變化的趨勢(shì)和規(guī)律的方法?;貧w分析是一種典型的預(yù)測(cè)分析方法,即使用大量已知數(shù)據(jù),以時(shí)間為變量,得到線性或非線性回歸函數(shù),從而得到數(shù)據(jù)隨著時(shí)間的變化規(guī)律。通常,預(yù)測(cè)是以分類為基礎(chǔ)的,預(yù)測(cè)的結(jié)果是需要時(shí)間來(lái)驗(yàn)證的,即必須經(jīng)過(guò)一定時(shí)間后,才知道預(yù)測(cè)的準(zhǔn)確性。
1.3數(shù)據(jù)挖掘的流程
數(shù)據(jù)挖掘是通過(guò)分析和處理大量數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),實(shí)施過(guò)程中主要有目標(biāo)定義、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表示和知識(shí)吸收五個(gè)階段。
(1)目標(biāo)定義
目標(biāo)定義階段,要結(jié)合相關(guān)領(lǐng)域的背景知識(shí),定義出清楚的、準(zhǔn)確的數(shù)據(jù)挖掘目標(biāo),即相當(dāng)于需求分析。
(2)數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備階段,是指從數(shù)據(jù)源中收集、選取數(shù)據(jù),并將數(shù)據(jù)處理、轉(zhuǎn)換成適于數(shù)據(jù)挖掘的形式。具體地,數(shù)據(jù)準(zhǔn)備階段又可以分成三個(gè)步驟:數(shù)據(jù)選擇,從海量的數(shù)據(jù)源中收集得到相關(guān)的數(shù)據(jù),用于數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理,為了保證數(shù)據(jù)的完整性和一致性,要對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理,使之符合數(shù)據(jù)挖掘的要求;數(shù)據(jù)變換,經(jīng)過(guò)一系列變換,將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘方法的特定格式,即從數(shù)據(jù)中抽取出特定的特征或維度。
(3)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘階段,就是用數(shù)據(jù)挖掘的方法將數(shù)據(jù)中隱含的規(guī)律和知識(shí)挖掘出來(lái),這個(gè)階段是數(shù)據(jù)挖掘技術(shù)的關(guān)鍵和核心。具體地,首先要確定分析方法的類型,例如關(guān)聯(lián)規(guī)則分析、聚類等;然后,針對(duì)具體的分析方法,選擇一種合適的算法,例如關(guān)聯(lián)規(guī)則分析中的Apriori算法等;最后,在數(shù)據(jù)中運(yùn)行這種算法,找出數(shù)據(jù)中蘊(yùn)含的知識(shí),即對(duì)數(shù)據(jù)進(jìn)行挖掘。
(4)結(jié)果表示
結(jié)果表示階段,就是根據(jù)用戶的需要,將數(shù)據(jù)挖掘的結(jié)果,即發(fā)現(xiàn)的規(guī)律和知識(shí),經(jīng)過(guò)進(jìn)一步的轉(zhuǎn)換、提取和解釋,最終表示成用戶可理解、可接受的形式。
(5)知識(shí)吸收
知識(shí)吸收階段,是結(jié)合特定領(lǐng)域的要求,將挖掘得到的結(jié)果應(yīng)用到特定的領(lǐng)域,為決策者提供決策支持,從而完成數(shù)據(jù)挖掘的最終目標(biāo)。
[1]吉根林,帥克,孫志揮.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].南京師大學(xué)報(bào):自然科學(xué)版, 2000, 23(2): 25-27.
[2] Han J.Data Mining: Concepts and Techniques[M]. USA: Morgan Kaufrnan, 2001.
[3]丁春蘭.基于數(shù)據(jù)挖掘技術(shù)的教務(wù)管理系統(tǒng)研究與實(shí)現(xiàn)[D].揚(yáng)州:揚(yáng)州大學(xué), 2009.
[4] Rakesh Agrawal, Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules in Large Databases[C]. Santiago, Chile: Proceed? ings of the 20th International Conference on Very Large Data Bases(VLDB), 1994. 487-499.
[5] Quinlan J R. Induction of Decision Tree[J]. Machine Learning, 1986(1): 8l-106.
[6] Quinlan J R. C4.5: Programs for Machine Learning[M]. San Mateo, California: Morgan Kaufmann, 1993.