摘要:學(xué)生成績綜合評估是一個典型的多層次、多角度、多指標(biāo)的綜合評估問題。該文利用數(shù)據(jù)挖掘中的模糊聚類分析算法,以Microsoft SQL Server 2012 Analysis Services為工具,對該校2011級學(xué)生成績數(shù)據(jù)集進(jìn)行深入的研究分析,以獲取學(xué)生成績數(shù)據(jù)中所隱含的規(guī)律,挖掘各科成績背后所表達(dá)出來的學(xué)生的個性能力差異,從而科學(xué)、準(zhǔn)確、公平、公正地評定學(xué)生成績。
關(guān)鍵詞:學(xué)生成績綜合評估;數(shù)據(jù)挖掘;模糊聚類
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)05-1024-03
Application of Fuzzy Cluster Analysis Algorithm in the Comprehensive Evaluation of Student Achievement
SHANG Li-hua
( Wuxi High Teachers' College, Wuxi 214000,China)
Abstract:Student achievement evaluation is a comprehensive assessment of a typical multi-level, multi angle, multi index problem. In this paper, using the fuzzy cluster analysis algorithm in data mining, using Microsoft SQL Server 2012 Analysis Services as the tool, research and Analysis on the 2011 level of student achievement data sets, to obtain the hidden rules of student achievement data, differences of personality mining scores back expressed by students, and science, accurate, fair, impartial assessment of student achievement.
Key words:The comprehensive assessment of student performance; data mining; fuzzy clustering
隨著現(xiàn)代職業(yè)教育的蓬勃發(fā)展,高職學(xué)校的招生規(guī)模日益擴(kuò)大,繁重的教務(wù)管理系統(tǒng)中的數(shù)據(jù)更是激增。學(xué)生成績管理作為教務(wù)管理工作的重要組成部分,它既是考核學(xué)生專業(yè)知識掌握的重要依據(jù),也是教學(xué)質(zhì)量評估的重要衡量標(biāo)準(zhǔn)?,F(xiàn)代職業(yè)教育開設(shè)科目繁多,各科目的教學(xué)目標(biāo)和培養(yǎng)目標(biāo)呈現(xiàn)多樣性和差異性特點(diǎn)。如果學(xué)生的綜合排名只是依據(jù)單一的期末考試成績顯然不科學(xué)也不合理,更不能體現(xiàn)出學(xué)生在各學(xué)科間的優(yōu)劣差異。因此,該文想借助數(shù)據(jù)挖掘技術(shù),應(yīng)用模糊聚類分析的算法對學(xué)生成績數(shù)據(jù)集進(jìn)行分析研究,以獲取學(xué)生成績數(shù)據(jù)中所隱含的規(guī)律,挖掘出各科成績背后所表達(dá)出來的學(xué)生的個性能力差異,為學(xué)生的評定工作提供可靠的科學(xué)依據(jù),從而科學(xué)、準(zhǔn)確、公平、公正地評定學(xué)生成績。
1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是知識提取的過程,即從大量的、不完全的、含有噪聲的、模糊的、隱含的結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中,去發(fā)現(xiàn)隱含在其中的、人們事先并不知道的、但又是非常感興趣的、可理解、可運(yùn)用的知識[1]。這個定義包括好幾層含義:數(shù)據(jù)源首先必須是大量的、真實(shí)的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題即可。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析相比較,它的優(yōu)勢在于其能夠在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)預(yù)先未知的、難預(yù)料的知識。要解決當(dāng)前“數(shù)據(jù)爆炸”和“數(shù)據(jù)豐富”而“信息貧乏”的局面,數(shù)據(jù)挖掘不失為一個行之有效的辦法。
2 聚類分析
聚類分析就是把一組物理對象或抽象對象按照彼此的相似性劃分成若干類似對象組成的多個簇,即“物以類聚”,并且要求實(shí)現(xiàn)最大化類內(nèi)的相似性、最小化類間的相似性,從而為相關(guān)決策提供強(qiáng)有力的支持[2]。聚類分析技術(shù)作為數(shù)據(jù)挖掘中的一項(xiàng)最活躍的主要技術(shù),現(xiàn)在已廣泛應(yīng)用于各個行業(yè),隨著人們對數(shù)據(jù)挖掘技術(shù)的不斷深入研究,人們對現(xiàn)有的各種聚類算法進(jìn)行了部分提高或組合改進(jìn),甚至是為了特定的應(yīng)用問題而專門設(shè)計(jì)了改進(jìn)算法。該文在深刻理解k-means算法的基礎(chǔ)上對它進(jìn)行了組合改進(jìn),將模糊算法與k-means算法兩者組合起來改進(jìn),適當(dāng)?shù)馗倪M(jìn)k-means算法中初始聚類中心的確定方式,從而克服K-means初始聚類中心的不足點(diǎn),使得k-means算法更為精確,更加適合分析學(xué)生成績綜合評估特定問題。在學(xué)生成績綜合評估形成過程中,關(guān)鍵的環(huán)節(jié)就是評價的各項(xiàng)指標(biāo),但由于評價各項(xiàng)指標(biāo)并不能完全精確確定,模糊性是客觀的存在,因而其某些屬性指標(biāo)無法定量分析,這種情況下用一些模糊概念加以描述,利用模糊集合理論中模糊聚類方法解決上述問題。
3 數(shù)據(jù)挖掘的實(shí)現(xiàn)
3.1學(xué)習(xí)成績的準(zhǔn)備、抽取
現(xiàn)代職業(yè)教育的重心是學(xué)生綜合素質(zhì)培養(yǎng)和技能教育,在學(xué)生成績綜合評估體系中,我們不光要考慮學(xué)生的成績和技能能力的高低,還要考察其它體現(xiàn)學(xué)生綜合素質(zhì)的方面:比方說學(xué)生的日常常規(guī)管理、學(xué)生參與社會實(shí)踐活動和公益活動情況、文體表現(xiàn)以及積極程度等。該文的原始數(shù)據(jù)項(xiàng)分為學(xué)生的姓名、性別、學(xué)生各科成績、操行、文體、技能成績、社會實(shí)踐公益活動參與情況、綜合排名情況等。其中,學(xué)習(xí)成績?yōu)槿糠郑丛撋鷮W(xué)業(yè)平時分的30% + 該生期中成績的30%+該生期末成績的40% ;技能成績?yōu)楦黜?xiàng)技能成績平均分(優(yōu)秀為3分,良好為2分,及格為2分,不及格為-1分)。部分?jǐn)?shù)據(jù)如表1所示。
表1 學(xué)生綜合成績數(shù)據(jù)
分析表1不難發(fā)現(xiàn)如下特點(diǎn):①整個分?jǐn)?shù)呈現(xiàn)正態(tài)分布,且各個分?jǐn)?shù)段密度不同,其中成績在70—90分之間的比例最高;②部分課程存在得分普遍較高或得分普遍較低的現(xiàn)象。為了確保數(shù)據(jù)挖掘結(jié)果的正確性,提高數(shù)據(jù)挖掘的質(zhì)量,對學(xué)生綜合成績進(jìn)行了再加工處理,例如去除部分缺考、免考數(shù)據(jù),保證數(shù)據(jù)的完整性及一致性,之后,再根據(jù)選定的模糊聚類分析算法進(jìn)行進(jìn)一步的分析,從中提取出決定學(xué)生綜合排名的具體因素有哪些。分析通過聚類挖掘出的因素與傳統(tǒng)方法決定的因素相比較,看看哪種方法更科學(xué)合理。
3.2 學(xué)習(xí)成績的預(yù)處理及聚類方法
本文的主要數(shù)據(jù)挖掘是通過SQL Server 2012 Analysis Services實(shí)現(xiàn),具體應(yīng)用的是聚類分析中的K-means算法。K-means算法是解決聚類問題的一種最常用的經(jīng)典算法,這種算法簡潔快速效率高,它的核心內(nèi)容就是通過迭代把數(shù)據(jù)對象集劃分到不同的簇中,最小化目標(biāo)函數(shù),從而使生成的每個聚類(簇、組)內(nèi)更為緊湊、獨(dú)立[3]。不過應(yīng)用K-means算法首先需要估計(jì)聚類個數(shù)k的取值??紤]到我們樣本的規(guī)模性,首先確實(shí)聚類個數(shù)在5—13范圍內(nèi),然后分別計(jì)算每個聚類個數(shù)的聚類總誤差平方和,計(jì)算結(jié)果顯示當(dāng)聚類個數(shù)為8時,相應(yīng)的聚類總誤差平方和最小,因而最終將樣本的聚類個數(shù)確定為8。部分聚類結(jié)果如表2所示。
表2 k-means算法結(jié)果
3.3聚類結(jié)果分析
應(yīng)用上述工具和方法聚類得到8個類,如表2所示,各類類間的對象在各數(shù)據(jù)項(xiàng)綜合差距比較大,而類內(nèi)部之間的差距卻是比較小,并且聚類結(jié)果與原數(shù)據(jù)對象順序相關(guān)。具體的分析如下:綜合排名靠前的類包括一、二、三類,其中第一個類只有一位數(shù)據(jù)對象,該類數(shù)據(jù)顯示出該生品學(xué)兼優(yōu),社會實(shí)踐和學(xué)生干部工作都有很高的加分;第二、三個類中數(shù)據(jù)對象特征相似,學(xué)生操行等各指標(biāo)得分都比較高,社會實(shí)踐公益活動參加適度。綜合排名中間的類包括四、五、六類,其中第四個類數(shù)據(jù)對象特征是學(xué)生的各項(xiàng)指標(biāo)都呈現(xiàn)良好狀態(tài),操行得分也不低,有參加社會實(shí)踐公益活動,英語成績70分左右;第五個類中數(shù)據(jù)對象特征是學(xué)業(yè)成績一般,但是參加社會實(shí)踐活動呈兩個極端現(xiàn)象,要么基本不參加或要么過度參加,英語成績60分左右。第六個類中數(shù)據(jù)對象特征是學(xué)業(yè)成績良好,操行的分?jǐn)?shù)不高,但文體活動的分?jǐn)?shù)較高,有參與社會實(shí)踐活動,英語基本能及格。綜合排名靠后的類包括七、八類,第七類中數(shù)據(jù)對象特征是各項(xiàng)成績一般,基本不參加社會實(shí)踐活動或過度參加,部分課目有不及格;第八類中數(shù)據(jù)對象特征是學(xué)業(yè)、操行等各項(xiàng)成績都較低,不及格科目較多。通過對以上聚類結(jié)果中學(xué)生成績部分進(jìn)行分析,不難看出:學(xué)生的學(xué)習(xí)成績與參加社會實(shí)踐活動情況是有一定關(guān)聯(lián)的。社會實(shí)踐活動可以引導(dǎo)學(xué)生走出校門,走向社會,是學(xué)生投身社會的良好形式。學(xué)生通過社會實(shí)踐活動,讓自己所學(xué)的專業(yè)理論知識在實(shí)際操作中得到鞏固和提高的同時,也會充分認(rèn)識到自己的欠缺,從而更加勤奮的學(xué)習(xí),為將來更加激烈的競爭打下堅(jiān)實(shí)的基礎(chǔ)。參與社會實(shí)踐活動過少或者對此絲毫不感興趣,綜合能力缺少實(shí)踐鍛煉,相應(yīng)學(xué)習(xí)成績也并不會太理想。只有適度參加社會實(shí)踐公益活動,合理安排自己的學(xué)習(xí)活動時間,勞逸結(jié)合,才會促進(jìn)學(xué)生各方面的發(fā)展。學(xué)生的學(xué)習(xí)成績與操行也有很大的關(guān)系,操行好的學(xué)生心態(tài)積極向上,學(xué)習(xí)成績自然就高,相反,操行一般,學(xué)業(yè)成績也就一般。英語成績從側(cè)面反應(yīng)了學(xué)生的學(xué)習(xí)能力,英語能力越好的,學(xué)業(yè)成績也越好,這類學(xué)生會學(xué)習(xí)也重視學(xué)習(xí),其他方面當(dāng)然表現(xiàn)優(yōu)秀。
4 結(jié)束語
數(shù)據(jù)挖掘作為一個非常年輕又活躍的信息處理技術(shù),在國內(nèi)外都已廣泛應(yīng)用于各個行業(yè)領(lǐng)域,并帶來了巨大的經(jīng)濟(jì)利益和社會價值。數(shù)據(jù)挖掘的方法有很多,該文只研究了數(shù)據(jù)挖掘技術(shù)中模糊聚類分析算法在學(xué)生成績綜合評估中的應(yīng)用,這只是一個方面,相信隨著研究的深入會產(chǎn)生更多的新概念和新方法,以發(fā)現(xiàn)學(xué)生成績綜合評估系統(tǒng)中更多未知的、潛在的、對決策有價值的知識,真正將數(shù)據(jù)挖掘技術(shù)應(yīng)用于學(xué)生成績綜合評估系統(tǒng)中。
參考文獻(xiàn):
[1] 徐冬,符謀松,付海艷.聚類算法在學(xué)生綜合評價中的應(yīng)用[J].現(xiàn)代計(jì)算機(jī):專業(yè)版,2009,10.
[2] Han J,Kamber M.Data Mining:Concepts and Techniques[M].北京:高等教育出版社,2001:224.
[3] ZhaoHui Tang,Jamie MacLenmm.數(shù)據(jù)挖掘原理與應(yīng)用—SQL Server2005數(shù)據(jù)庫[M].鄺祝芳,焦賢龍,高升,譯.北京:清華大學(xué)出版社,2007.