田 萌 許 超
隨著數(shù)據(jù)收集和存儲(chǔ)方式的更新和計(jì)算機(jī)技術(shù)的飛速發(fā)展,數(shù)據(jù)挖掘成為一個(gè)日益活躍的研究領(lǐng)域。自2008 年首屆國(guó)際教育數(shù)據(jù)挖掘大會(huì)成功召開(kāi)以來(lái),教育數(shù)據(jù)挖掘成為教育領(lǐng)域大數(shù)據(jù)應(yīng)用的一個(gè)研究熱點(diǎn)。學(xué)生成績(jī)是評(píng)估學(xué)校教育質(zhì)量的重要依據(jù),也是評(píng)價(jià)學(xué)生是否掌握所學(xué)知識(shí)的重要方式,傳統(tǒng)成績(jī)數(shù)據(jù)處理多關(guān)注平均分和排名,數(shù)據(jù)背后隱藏的大量信息通常被忽略。利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)成績(jī)數(shù)據(jù)隱藏的內(nèi)在規(guī)律,進(jìn)行個(gè)性化的學(xué)生指導(dǎo)方案的設(shè)計(jì),可助力精準(zhǔn)教學(xué)研究改革,為提高學(xué)生學(xué)習(xí)成績(jī)、提升教師教學(xué)效果和提速學(xué)校管理效率提供有力的技術(shù)支持[1]。
近些年來(lái),國(guó)內(nèi)外針對(duì)教育數(shù)據(jù)挖掘的研究成果比較豐富。從國(guó)際研究情況看,Bhardwaj、AL- Radaideh、Hijazi 等人曾分別針對(duì)印度、約旦、巴基斯坦等國(guó)家的大學(xué)生課堂表現(xiàn),收集學(xué)生課堂測(cè)試、期中考試、期末考試等過(guò)程性成績(jī),借助聚類算法分析并預(yù)測(cè)其學(xué)習(xí)成績(jī)[2-5]。從國(guó)內(nèi)研究情況看,目前教育數(shù)據(jù)挖掘研究多集中于大學(xué)教育階段,研究多立足于利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)課程關(guān)聯(lián)分析、課程成績(jī)預(yù)測(cè)和學(xué)生就業(yè)指導(dǎo)等。開(kāi)展中學(xué)教育數(shù)據(jù)研究較多的是華東師范大學(xué)、華中師范大學(xué)、上海師范大學(xué)及西北師范大學(xué)等高水平師范類院校。[6-8]這些文獻(xiàn)選擇的成績(jī)數(shù)據(jù)處理角度各有不同,而本文主要針對(duì)學(xué)生的成績(jī)數(shù)據(jù),利用數(shù)據(jù)挖掘算法分析學(xué)生的學(xué)習(xí)狀態(tài)和學(xué)習(xí)優(yōu)勢(shì),提升學(xué)生學(xué)習(xí)信心,找準(zhǔn)學(xué)生學(xué)習(xí)薄弱點(diǎn),為學(xué)生的全體發(fā)展與整體素質(zhì)提高保駕護(hù)航。
相關(guān)分析是一種探討變量間的相關(guān)關(guān)系的通用統(tǒng)計(jì)方法,最常見(jiàn)的單因子相關(guān)分析法就是相關(guān)系數(shù)法。單因子相關(guān)分析法可用來(lái)發(fā)現(xiàn)兩個(gè)因子變量間的相關(guān)關(guān)系,當(dāng)考察兩組對(duì)象間的關(guān)系時(shí),就需要采取多因子相關(guān)分析法,例如典型相關(guān)分析方法。典型相關(guān)分析方法是求解在約束條件a'Var(x)a=1 與b'Var(y)b=1 下,使得x 的線性函數(shù)U=a'x 和y 的線性函數(shù)V=b'y 的相關(guān)系數(shù)最大時(shí)的方向a 與b。
聚類分析利用數(shù)量化方法描述事物之間的相似程度,它作為一種定量方法將從數(shù)據(jù)分析的角度,給出一個(gè)更準(zhǔn)確、細(xì)致的分類工具。通常大家利用距離來(lái)度量樣本點(diǎn)間的相似程度。層次聚類是一種聚類算法,它基于距離度量可以創(chuàng)造出一棵條理分明的多層次積聚的聚類樹(shù)。
本文數(shù)據(jù)取自淄博市一所公辦初等中學(xué),所考察年級(jí)學(xué)生共582 名,本次實(shí)驗(yàn)選取本級(jí)部三次集中考試成績(jī),共包含12個(gè)平行班,沒(méi)有設(shè)置重點(diǎn)班和非重點(diǎn)班。因?yàn)榭荚嚤O(jiān)考紀(jì)律嚴(yán)格,閱卷流程規(guī)范,所以成績(jī)可視作真實(shí)有效。為保證數(shù)據(jù)處理時(shí)的規(guī)范性,在去除了缺失數(shù)據(jù)的信息后,最終保留了569 名學(xué)生的數(shù)據(jù)記錄。
本市初中生開(kāi)設(shè)多門學(xué)科,因不同學(xué)科的總分不同,為減少計(jì)分方式對(duì)成績(jī)分析的影響,我們對(duì)學(xué)生每門課的成績(jī)進(jìn)行歸一化,得到學(xué)生每門課程的規(guī)范成績(jī)?;谝?guī)范成績(jī),8 門課程的成績(jī)平均值和標(biāo)準(zhǔn)差匯總在表1。
從表1 可以看出,8 門課程中英語(yǔ)得分率最高,地理得分率最低。從標(biāo)準(zhǔn)差上來(lái)看,地理、數(shù)學(xué)與生物的個(gè)體間差異較大。數(shù)學(xué)課一直是學(xué)生學(xué)習(xí)能力的一個(gè)試金石,進(jìn)入初中教學(xué)內(nèi)容的突然增多,對(duì)計(jì)算能力日益嚴(yán)格使得學(xué)生成績(jī)間的差距不斷增大。地理與生物是初中新上課程,且綜合性較強(qiáng),很多仍固守小學(xué)階段考前背一背習(xí)慣的學(xué)生,往往不能得到較好的成績(jī)。這說(shuō)明升入初中后學(xué)生的學(xué)習(xí)習(xí)慣和學(xué)習(xí)主動(dòng)性對(duì)學(xué)習(xí)成績(jī)有著較大的影響。
表1 8 門課程的成績(jī)平均值與標(biāo)準(zhǔn)差
表2 課程間的相關(guān)系數(shù)
本節(jié)分別應(yīng)用相關(guān)系數(shù)法和典型相關(guān)分析法進(jìn)行不同課程的單因子相關(guān)分析和多因子相關(guān)分析。基于歸一化后的數(shù)據(jù),我們利用MATLAB 軟件得到8 個(gè)課程間的兩兩相關(guān)系數(shù)。見(jiàn)表2 。
表2 中粗體數(shù)據(jù)標(biāo)出了每門課程與其線性相關(guān)程度最高的課程,從中可以看出歷史、地理與生物的成績(jī)相關(guān)性較高,這是因?yàn)樵诔跻浑A段此這三門課均屬于副科,課時(shí)較少,所以成績(jī)往往能客觀反映學(xué)生的學(xué)習(xí)積極性與學(xué)習(xí)態(tài)度。語(yǔ)文與政治的成績(jī)線性相關(guān)性最大,其原因可能在于這兩門課程都偏重文字記憶及文章和段落的理解。數(shù)學(xué)與生物及地理的成績(jī)相關(guān)性較大,部分原因在于這些課程都偏重邏輯推理能力。
圖1 不同類課程間的典型相關(guān)圖
圖2 樣本班級(jí)學(xué)生成績(jī)模糊動(dòng)態(tài)聚類圖
圖3 簇1-簇3 學(xué)生規(guī)范成績(jī)數(shù)據(jù)差1 后柱形圖
圖4 簇4-簇6 學(xué)生規(guī)范成績(jī)數(shù)據(jù)差1 后柱形圖
除了單門課程間的成績(jī)相關(guān)性分析,將語(yǔ)數(shù)外三科化為一組,史地生政化為一組,體育單列一組,找出不同類課程間的典型相關(guān)系數(shù),經(jīng)MATLAB 計(jì)算得出語(yǔ)數(shù)外與史地生政的相關(guān)系數(shù)為0.9116,史地生政與體育的相關(guān)系數(shù)是0.3512,語(yǔ)數(shù)外與體育的相關(guān)系數(shù)為0.2675,其示意圖見(jiàn)圖1。
從中可看出,語(yǔ)數(shù)外成績(jī)與史地生政成績(jī)密切相關(guān),這說(shuō)明對(duì)多數(shù)學(xué)生而言,學(xué)習(xí)能力、學(xué)習(xí)態(tài)度在文化課科目中的表現(xiàn)是比較一致的。體育成績(jī)是一個(gè)比較獨(dú)立的存在,這也提醒廣大的家長(zhǎng)及學(xué)生應(yīng)注重各項(xiàng)體育鍛煉的開(kāi)展,提高身體素質(zhì),全面提升整體素質(zhì)。
圖5 學(xué)生規(guī)范成績(jī)的區(qū)間長(zhǎng)度柱形圖
為研究學(xué)生個(gè)體的成績(jī),分析其優(yōu)劣勢(shì)學(xué)科,制定個(gè)性化指導(dǎo)方案,幫助授課教師提高教學(xué)效果,本文采用多元統(tǒng)計(jì)分析中的層次聚類方法,以6 班學(xué)生為例,分析學(xué)生的聚類效果。本班共有有效成績(jī)的學(xué)生46 人。
從圖2 中可以看出,本班學(xué)生除5 名學(xué)生外,其余學(xué)生間的相似度比較高。通過(guò)觀察模糊動(dòng)態(tài)聚類圖,自主將這些學(xué)生分成6 個(gè)簇,見(jiàn)圖3 及圖4。圖中不同的簇之間用虛線進(jìn)行分開(kāi)。
通過(guò)觀察圖3- 圖4,可看出不同簇類間的細(xì)微差別。例如,第一簇類學(xué)生成績(jī)相對(duì)比較均衡且成績(jī)較高,第二簇類學(xué)生成績(jī)依舊比較均衡,但相比第一簇類成績(jī)稍遜一些,第三簇類學(xué)生的多數(shù)課程成績(jī)較高,但成績(jī)不算均衡,有瘸腿課程,第四簇類學(xué)生的成績(jī)較均衡,但是多數(shù)成績(jī)稍遜于均值,第五簇類學(xué)生的成績(jī)相比第四簇類各科成績(jī)表現(xiàn)更低一點(diǎn),第六簇類的學(xué)生不及格科目較多,且成績(jī)離均值更遠(yuǎn)。
為展示學(xué)生不同課程間的差異,令每名學(xué)生成績(jī)中的最大值減去最小值,得到該學(xué)生的成績(jī)區(qū)間長(zhǎng)度,見(jiàn)圖5。從圖中可以看出,第一簇與第二簇學(xué)生成績(jī)均衡性較好,這兩類學(xué)生老師應(yīng)積極鼓勵(lì),隨時(shí)注意學(xué)生的學(xué)習(xí)狀態(tài),進(jìn)一步發(fā)覺(jué)有興趣的學(xué)科,幫助其有效提高學(xué)習(xí)成績(jī)。第三簇與第四簇學(xué)生的不同科類成績(jī)差異較大,說(shuō)明該簇學(xué)生有較明顯的優(yōu)勢(shì)學(xué)科,針對(duì)這類學(xué)生老師應(yīng)因勢(shì)利導(dǎo),鼓勵(lì)該簇學(xué)生補(bǔ)齊弱勢(shì)學(xué)科,實(shí)現(xiàn)總體成績(jī)的較大提升。第五簇及第六簇學(xué)生,老師應(yīng)多鼓勵(lì),在課上及課下關(guān)注他們的心理健康及身體健康,鼓勵(lì)他們發(fā)現(xiàn)學(xué)習(xí)興趣點(diǎn),找到學(xué)校教育的快樂(lè),建立自信心。
挖掘?qū)W生成績(jī)所隱含信息,能更科學(xué)客觀地評(píng)價(jià)學(xué)生的學(xué)習(xí)狀況,在模糊掉社會(huì)所敏感的排名的同時(shí),讓家長(zhǎng)清楚看到孩子年級(jí)或班級(jí)的學(xué)習(xí)狀況,找準(zhǔn)學(xué)生的弱勢(shì)學(xué)科,進(jìn)而有針對(duì)性的幫助孩子查缺補(bǔ)漏,提高成績(jī)。