徐成香
[摘要]隨著學(xué)生信息數(shù)據(jù)的急劇膨脹,為了更好的進(jìn)行學(xué)生信息管理,提出基于數(shù)據(jù)挖掘技術(shù)的學(xué)生信息系統(tǒng)的開發(fā),并舉例說明如何利用數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)庫技術(shù)建立學(xué)生信息管理系統(tǒng),為相關(guān)專業(yè)人員提供參考。
[關(guān)鍵詞]數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則模型
中圖分類號:TP3文獻(xiàn)標(biāo)識碼:A文章編號:1671-7597(2009)0820057-01
目前我國很多學(xué)校均建立了學(xué)生信息系統(tǒng),隨著時間的推移學(xué)生信息系統(tǒng)中相關(guān)的信息數(shù)據(jù)也急劇膨脹。如何運用科學(xué)的技術(shù)和手段從海量數(shù)據(jù)中發(fā)現(xiàn)有用的信息并充分利用,發(fā)現(xiàn)各個學(xué)生的特點,了解學(xué)生的學(xué)習(xí)規(guī)律,更好地管理學(xué)生信息,這是學(xué)校管理者企盼解決的深層問題。因此采用數(shù)據(jù)挖掘技術(shù)對學(xué)生數(shù)據(jù)進(jìn)行再次開發(fā)已成為新的趨勢。
一、數(shù)據(jù)挖掘的概念[1]
數(shù)據(jù)挖掘(DataMining,DM)是指從大量不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、有用的信息和知識的過程。其表現(xiàn)形式為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。數(shù)據(jù)挖掘是現(xiàn)代科學(xué)技術(shù)相互滲透與融合的產(chǎn)物,融合了數(shù)理統(tǒng)計、人工智能、可視化技術(shù)、數(shù)據(jù)庫技術(shù)和計算機(jī)技術(shù)等領(lǐng)域的理論技術(shù)。
二、學(xué)生信息數(shù)據(jù)倉庫的設(shè)計與建設(shè)
數(shù)據(jù)挖掘是建立在數(shù)據(jù)倉庫基礎(chǔ)之上的。數(shù)據(jù)倉庫概念是W.H.Inmon
在《建立數(shù)據(jù)倉庫》一書中提出的,數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定性)隨時間不斷變化(不同時間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程[2]。數(shù)據(jù)準(zhǔn)備的好壞將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模型的有效性,數(shù)據(jù)準(zhǔn)備工作包括數(shù)據(jù)的選擇(選擇相關(guān)和合適的數(shù)據(jù))、探索(盡可能了解數(shù)據(jù),如分布情況和異常數(shù)據(jù)等)、修正(包括缺失數(shù)據(jù)的插值等)、變換(離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換,數(shù)據(jù)的分組分類,數(shù)據(jù)項之間的計算組合等)。
學(xué)生信息數(shù)據(jù)庫中的數(shù)據(jù)表主要有:學(xué)生學(xué)籍信息表,主要字段有學(xué)生學(xué)號(ID)、姓名(name)、性別(sex)、出生日期(age)、家庭住
址(address)等;學(xué)生班級信息表,主要字段有學(xué)號(ID)、班級(clas
S)、職務(wù)(duty)等;學(xué)生成績表,主要字段有學(xué)號(ID)、課程號(cI
D)、成績(result)等;學(xué)生選課表,主要字段有學(xué)號(ID)、選修課程號(xID)、任課教師(teacher)、成績(result)等;各學(xué)期成績匯總表,主要字段有學(xué)號(ID)、課程1成績(result1)、課程2成績(result
2)、課程3成績(result3)、總成績(results)、名次(rank)等。
三、數(shù)據(jù)挖掘在學(xué)生信息管理系統(tǒng)開發(fā)中的應(yīng)用
(一)建立挖掘數(shù)據(jù)模型及數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是對數(shù)據(jù)源進(jìn)行加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進(jìn)行平滑,對丟失的數(shù)據(jù)進(jìn)行填補,消除“臟”數(shù)據(jù),消除重復(fù)記錄等,使之符合數(shù)據(jù)挖掘的要求。它的主要工作有檢查拼寫錯誤、去掉重復(fù)的記錄、補上不完全的記錄、推導(dǎo)計算缺失數(shù)據(jù)、完成數(shù)據(jù)類型轉(zhuǎn)換。數(shù)據(jù)變換的主要目的是精減數(shù)據(jù)維數(shù),即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時要考慮的特征或變量個數(shù)。
(二)數(shù)據(jù)挖掘的算法[3]。由于學(xué)生信息系統(tǒng)有多個不同的應(yīng)用目標(biāo),以查詢不同的結(jié)果。因此要有與其相對應(yīng)的挖掘任務(wù)和定制數(shù)據(jù)庫,針對這些數(shù)據(jù)庫有很多的數(shù)據(jù)挖掘算法。而每個算法都會提出一些諸如置信度、感興趣度、新穎度等統(tǒng)計屬性作為對產(chǎn)生模式的評估標(biāo)準(zhǔn),從而進(jìn)一步?jīng)Q定對模式的取舍,提高找出有興趣模式的效率。這里用最佳的數(shù)據(jù)挖掘方法進(jìn)行計算,這些算法包括:人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、鄰近算法等。
(三)數(shù)據(jù)挖掘結(jié)果與分析。根據(jù)數(shù)據(jù)方面處理結(jié)果,設(shè)最小支持度為0.2,最小置信度設(shè)為0.4,利用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘Apriori算法處理數(shù)據(jù)并得出關(guān)聯(lián)規(guī)則。
是否為班干部+學(xué)習(xí)成績,進(jìn)行挖掘,挖掘結(jié)果如下:
[是否為班干部=“是”=>學(xué)習(xí)成績=“優(yōu)”] 0.588
[是否為班干部=“是”=>學(xué)習(xí)成績=“一般”] 0.450
[是否為班干部=“否”=>學(xué)習(xí)成績=“優(yōu)”] 0.500
[是否為班干部=“否”=>學(xué)習(xí)成績=“一般”] 0.655
結(jié)果表明:在班級擔(dān)任一定職務(wù)的學(xué)生并沒有因為學(xué)生工作耽誤學(xué)習(xí),相反,班干部的學(xué)習(xí)成績要比普通同學(xué)的學(xué)習(xí)成績好。班干部經(jīng)常和老師聯(lián)系,在老師身上學(xué)到很多知識,并且任職班干部要給普通學(xué)生作表率。因此,班主任及任課教師要重視班干部,但不能忽視普通學(xué)生,要經(jīng)常找普通學(xué)生談心,以提高他們的學(xué)習(xí)成績。
實踐經(jīng)歷+學(xué)習(xí)成績,進(jìn)行挖掘,挖掘結(jié)果如下:
[實踐經(jīng)歷=“多”=>學(xué)習(xí)成績=“優(yōu)”] 0.670
[實踐經(jīng)歷=“中”=>學(xué)習(xí)成績=“良”] 0.498
[實踐經(jīng)歷=“少”=>學(xué)習(xí)成績=“中”] 0.680
結(jié)果表明:社會實踐及參加活動多的學(xué)生的學(xué)習(xí)成績要好,而社會實踐及參加活動少的學(xué)生的學(xué)習(xí)成績一般。作為學(xué)校的管理者,應(yīng)該多舉行有意義的活動,豐富學(xué)生的學(xué)校生活,提高他們的社會實踐能力,為以后步入社會奠定良好的基礎(chǔ)。
四、數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中要注意的問題
盡管數(shù)據(jù)挖掘有如此多的優(yōu)點,但數(shù)據(jù)挖掘也面臨著許多的問題,隨著這些問題的解決,也為數(shù)據(jù)挖掘的未來的發(fā)展提供了更大的空間。
1.數(shù)據(jù)挖掘的基本問題就在于數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結(jié)構(gòu)也因此顯得非常復(fù)雜。海量的數(shù)據(jù)一方面提供了挖掘的基礎(chǔ)和前提,但同時維數(shù)的增加也會給數(shù)據(jù)挖掘的實現(xiàn)帶來難度。如何進(jìn)行探索,選擇元數(shù)據(jù),選擇分析變量,也就成為首要解決的問題。
2.面對如此大的數(shù)據(jù),數(shù)據(jù)中隱含一定的變化趨勢,對數(shù)據(jù)進(jìn)行抽樣,怎么抽樣,抽取多大的樣本,又怎樣評價抽樣的效果,這些都是決定挖掘效果好壞的關(guān)鍵。
3.數(shù)據(jù)挖掘的結(jié)果是不確定的。不同的人對同樣的數(shù)據(jù)進(jìn)行挖掘,可能產(chǎn)生不同的結(jié)果,甚至差異很大,要和專業(yè)知識相結(jié)合才能對其做出判斷,這就涉及到可靠性的問題。需要建立有效的評估體系來評價。
五、結(jié)束語
學(xué)校作為科學(xué)技術(shù)的傳播地,學(xué)生的管理和建設(shè)對學(xué)校的可持續(xù)發(fā)展具有深遠(yuǎn)的影響。數(shù)據(jù)挖掘技術(shù)是一個研究活躍的領(lǐng)域,利用數(shù)據(jù)挖掘技術(shù)對學(xué)生信息積累的大量數(shù)據(jù)進(jìn)行挖掘,挖掘出具有管理和決策的信息,使學(xué)校切實做到“以學(xué)生為本”,管理進(jìn)一步走向規(guī)范化、科學(xué)化、現(xiàn)代化。
參考文獻(xiàn):
[1]范明、孟小峰,數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
[2]耿曉中、張冬梅,數(shù)據(jù)挖掘綜述[J].長春師范學(xué)院學(xué)報(自然科學(xué)版),2006.6,Vol.25,No.3,24~27.
[3]李國杰,數(shù)據(jù)挖掘綜述[J].廣東輕工職業(yè)技術(shù)學(xué)院學(xué)報,2006.3,Vol.5,No.1,19~21.
[4]夏瑞麗,淺談數(shù)據(jù)挖掘[J].科技創(chuàng)新導(dǎo)報,2008(24).