張文宇++王秀秀++任露++馬月
摘要:隨著的多媒體教學(xué)的應(yīng)用和發(fā)展,為了有效利用高校教育信息化系統(tǒng)中保存的大量信息,進(jìn)而對(duì)教學(xué)情況進(jìn)行科學(xué)合理地評(píng)估,本文提出了改進(jìn)的主成分聚類(lèi)分析法并構(gòu)建了基于此方法的學(xué)生成績(jī)綜合評(píng)價(jià)模型。首先對(duì)原始數(shù)據(jù)集進(jìn)行了變換處理,再對(duì)評(píng)價(jià)指標(biāo)進(jìn)行預(yù)處理,進(jìn)而結(jié)合系統(tǒng)聚類(lèi)法對(duì)綜合主成分結(jié)果進(jìn)行系統(tǒng)聚類(lèi),最后對(duì)某高校學(xué)生成績(jī)綜合評(píng)價(jià)進(jìn)行了改進(jìn)的模型驗(yàn)證。仿真結(jié)果正確可靠,表明了此方法在教育信息化中應(yīng)用的有效性,最終為教育教學(xué)管理者提供了決策支持。
關(guān)鍵詞:教育信息化;綜合評(píng)價(jià);改進(jìn)主成分分析法;SPSS仿真
中圖分類(lèi)號(hào):TP391.41
文獻(xiàn)標(biāo)識(shí)碼:A
DOI: 10.3969/j.issn.1003-6970.2015.07.003
0 引言
教育信息化是教學(xué)改革的技術(shù)支持和強(qiáng)大動(dòng)力,它對(duì)教育質(zhì)量的提高也有著不可忽視的意義。教育信息化系統(tǒng)能夠有效管理教育信息化過(guò)程中積累的大量信息,本文根據(jù)系統(tǒng)信息的采集與分類(lèi),客觀地評(píng)價(jià)學(xué)生成績(jī)的實(shí)際情況,從而更好地方便教育管理者掌握教學(xué)動(dòng)態(tài)過(guò)程。
目前,數(shù)據(jù)挖掘技術(shù)中使用范圍最廣、頻率最高的要數(shù)主成分分析法、關(guān)聯(lián)規(guī)則和聚類(lèi)法。與此相對(duì)應(yīng),應(yīng)用于國(guó)內(nèi)外的教育科研分析中的數(shù)據(jù)挖掘方法主要也是以上幾種。但由于在學(xué)生成績(jī)?cè)u(píng)價(jià)過(guò)程中指標(biāo)繁多,以及指標(biāo)之間存在一定程度的重疊性和干擾性,加大了評(píng)價(jià)的難度;但這些方法容易受到評(píng)價(jià)者主觀因素的影響;運(yùn)用單一的主成分分析法在評(píng)價(jià)樣本繁多、指標(biāo)復(fù)雜的問(wèn)題時(shí)會(huì)造成評(píng)價(jià)結(jié)果的不合理性。因此,筆者提出采用改進(jìn)的主成分聚類(lèi)分析法構(gòu)建綜合評(píng)價(jià)模型,進(jìn)行學(xué)生成績(jī)綜合評(píng)價(jià),該模型能夠客觀地反映樣本的實(shí)際情況,克服主觀因素的影響,為教育管理者提供可靠的指導(dǎo)依據(jù)。
1 主成分分析的基本思想
主成分分析是指將多個(gè)變量轉(zhuǎn)化為少數(shù)幾個(gè)變量的過(guò)程,其中轉(zhuǎn)換之后的這幾個(gè)變量包含了原變量的信息,且彼此之間互相獨(dú)立,通過(guò)轉(zhuǎn)換之后的變量能夠線性地表示原始變量。它能將原本多維的變量空間轉(zhuǎn)換為較低維的綜合指標(biāo)問(wèn)題,并將反映最大信息量的綜合指標(biāo)列為第一主成分,其次為第二、第三主成分。主成分的個(gè)數(shù)一般按照需要體現(xiàn)的原始信息的百分比來(lái)確定,得到的主成分之間是相互獨(dú)立的。
傳統(tǒng)的主成分分析法步驟如下:
設(shè)有n個(gè)樣本,每個(gè)樣本均有p個(gè)描述指標(biāo)X1,X2,……,XP,原始數(shù)據(jù)矩陣為:X=(Xij)n*p
Stepl:標(biāo)準(zhǔn)化處理。由于選取的指標(biāo)存在量綱和數(shù)量級(jí)上的差異,為了使綜合評(píng)價(jià)的結(jié)果客觀合理,在進(jìn)行主成分分析前,需要進(jìn)行無(wú)量綱化處理。一般采用均值化法進(jìn)行標(biāo)準(zhǔn)化處理。
Step2:主成分分析標(biāo)準(zhǔn)化處理后的指標(biāo),得到相關(guān)系數(shù)矩陣:R=(rij)PxP。
Step3:解特征方程: ,并求特征值 和特征向量
Step4:計(jì)算各主要成分的方差貢獻(xiàn)率ak和累計(jì)方差貢獻(xiàn)率a(k)。其中,ak表示第k個(gè)主成分提取原始p個(gè)指標(biāo)的信息量,a(k)表示前k個(gè)主成分保留的原始變量指標(biāo)的信息量。
Step5:確定主成分的個(gè)數(shù):一般取用累計(jì)貢獻(xiàn)率達(dá)到85%以上的特征值所對(duì)應(yīng)的第一、第二、…、第m個(gè)主成分。
Step6:計(jì)算前m個(gè)主成分的得分。其中,
2 改進(jìn)的主成分聚類(lèi)分析方法
采用主成分分析方法進(jìn)行數(shù)據(jù)挖掘時(shí),獲得的原始數(shù)據(jù)集可能存在非線性關(guān)系,或者樣本之間的數(shù)量級(jí)不統(tǒng)一,為了保證原始數(shù)據(jù)集的完整性以及分析結(jié)果的可靠性,改進(jìn)的主成分聚類(lèi)分析法首先對(duì)原始數(shù)據(jù)集進(jìn)行了變換處理,在此基礎(chǔ)上通過(guò)標(biāo)準(zhǔn)化、均值化或極值化統(tǒng)一量綱或數(shù)量級(jí)。
2.1 對(duì)非線性數(shù)據(jù)的線性化處理
主成分分析法的原理是利用降維思想將多個(gè)指標(biāo)轉(zhuǎn)換為幾個(gè)綜合指標(biāo)。傳統(tǒng)的方法采用的是線性變換,但是在實(shí)際問(wèn)題研究時(shí),如果樣本指標(biāo)變量間的相關(guān)性不高,主成分的降維效果也不明顯,為了保證原始數(shù)據(jù)的完整性以及綜合評(píng)價(jià)模型的可靠性,需要對(duì)變量可能存在非線性關(guān)系的原始數(shù)據(jù)樣本進(jìn)行變換處理,本文采用對(duì)數(shù)中心變換法進(jìn)行源數(shù)據(jù)的處理。該方法可理解為對(duì)源數(shù)據(jù)的“幾何平均合成”后的對(duì)數(shù)表示0。
2.2 評(píng)價(jià)指標(biāo)的預(yù)處理
利用主成分分析方法來(lái)做綜合評(píng)價(jià)的原理是通過(guò)樣本數(shù)據(jù)的協(xié)方差或是相關(guān)系數(shù)矩陣來(lái)分析源數(shù)據(jù)的主成分,進(jìn)而據(jù)此盡可能多的反映原變量的信息。然而無(wú)論是協(xié)方差還是相關(guān)系數(shù)矩陣都很容易受到指標(biāo)數(shù)量級(jí)以及量綱的影響,所以如何選擇合適的方法來(lái)預(yù)處理原始信息就顯得尤為重要,但這同時(shí)就削弱了源數(shù)據(jù)中各樣本的差異性,針對(duì)以上這個(gè)問(wèn)題本文首先從評(píng)價(jià)指標(biāo)的預(yù)處理方面來(lái)改進(jìn)主成分分析方法。
對(duì)原始數(shù)據(jù)矩陣進(jìn)行的無(wú)量綱化處理后的數(shù)據(jù)矩陣可以表示為 和 分別為指標(biāo)矩陣對(duì)應(yīng)的方差, 為指標(biāo)所對(duì)應(yīng)的相關(guān)系數(shù),其中相關(guān)系數(shù)的計(jì)算公式為:
原始指標(biāo)之間的相互關(guān)系依賴(lài)于原指標(biāo)的相關(guān)系數(shù),而在本文中,經(jīng)過(guò)數(shù)據(jù)的極值化變換、均值化變換以及標(biāo)準(zhǔn)化變換,使得原指標(biāo)相關(guān)系數(shù)未發(fā)生改變,因而原始指標(biāo)之間的相互關(guān)系也因此未發(fā)生變化。因此采取以下方法來(lái)選取主成分原始指標(biāo)的處理方法。
令A(yù)為選取主成分原始指標(biāo)處理方法的函數(shù),其中a1、a2、a3分別表示數(shù)據(jù)標(biāo)準(zhǔn)化值、數(shù)據(jù)均值化值、數(shù)據(jù)極值化值,則
(1)數(shù)據(jù)的標(biāo)準(zhǔn)化處理
令 ,得到標(biāo)準(zhǔn)化處理后的相關(guān)系數(shù)矩陣為:
(2)數(shù)據(jù)的均值化的處理:
令 ,于是得到均值化處理后的相關(guān)系數(shù)為:
通過(guò)均值化處理各指標(biāo)間的相關(guān)系數(shù)不會(huì)發(fā)生改變,因此選取均值化方法處理源數(shù)據(jù)可以在保證數(shù)據(jù)無(wú)量綱的同時(shí)原始數(shù)據(jù)的變異程度不會(huì)發(fā)生變化,可以更生動(dòng)地反映數(shù)據(jù)樣本的實(shí)際情況。
通過(guò)均值化處理,數(shù)量級(jí)和量綱對(duì)指標(biāo)的影響不僅得到了消除,同時(shí)還使得樣本的所有信息得到了保留。
令 ,則可得出相關(guān)系數(shù)矩陣:
2.3 綜合評(píng)價(jià)聚類(lèi)分析
本論文構(gòu)建綜合評(píng)價(jià)模型時(shí)采用改進(jìn)的主成分聚類(lèi)分析法,首先利用主成分分析法降低原始指標(biāo)的維度,得出相互獨(dú)立的主成分,再對(duì)其結(jié)果進(jìn)行聚類(lèi)分析,通過(guò)這兩種方法的結(jié)合可以有效避免單一方法評(píng)價(jià)的不合理性。
系統(tǒng)聚類(lèi)法是一種多元統(tǒng)計(jì)方法,它將變量或者樣品按照其性質(zhì)上的相似關(guān)系進(jìn)行分類(lèi)從而分析評(píng)價(jià)變量。它的優(yōu)點(diǎn)是可以得到良好的分類(lèi)結(jié)果在不了解分類(lèi)對(duì)象的分類(lèi)結(jié)構(gòu)的情況下,且這些劃分出來(lái)的子集中的點(diǎn)都高度的內(nèi)在相似。然而其主要的缺陷是無(wú)法對(duì)各類(lèi)之間的優(yōu)劣程度進(jìn)行評(píng)價(jià)。而主成分分析法卻可以較輕松地綜合評(píng)價(jià)多指標(biāo)體系在僅有少量數(shù)據(jù)的前提下,但其缺點(diǎn)是僅使用q個(gè)主成分對(duì)系統(tǒng)進(jìn)行全面評(píng)價(jià)并不客觀,在實(shí)踐中無(wú)法避免其片面性,因而評(píng)價(jià)結(jié)果與事實(shí)或多或少會(huì)出現(xiàn)差距?;趦烧叩奶攸c(diǎn),在對(duì)系統(tǒng)進(jìn)行綜合評(píng)價(jià)時(shí)可以將這兩種方法結(jié)合起來(lái)使用。
本文中,首先采用“對(duì)數(shù)中心變換法”的主成分分析法來(lái)對(duì)原始數(shù)據(jù)信息進(jìn)行分析,然后利用聚類(lèi)方法來(lái)分析若干個(gè)主成分,再對(duì)樣品在每個(gè)聚類(lèi)類(lèi)別進(jìn)行分類(lèi)排序并參照q個(gè)主成分的排序結(jié)果的改進(jìn)的主成分聚類(lèi)分析方法對(duì)系統(tǒng)進(jìn)行綜合評(píng)價(jià)。
本文采用離差平方和法對(duì)選定的新數(shù)據(jù)進(jìn)行聚類(lèi)分析。離差平方和法是在分類(lèi)正確的情況下,不同類(lèi)樣本之間的離差平方和S較大,而同類(lèi)樣本之間的離差平法和則較小?;镜牟襟E是首先視n個(gè)樣本為一類(lèi),然后逐次縮小類(lèi)的數(shù)量。類(lèi)的個(gè)數(shù)每縮小一次,S的值就應(yīng)該增大,然后再逐次合并使S增加最小的兩類(lèi),以此類(lèi)推直至所有樣本被歸類(lèi)完畢。然后計(jì)算每類(lèi)變量的所有均值,接著計(jì)算每個(gè)樣本的類(lèi)均值距離平方,最后再求得所有樣本的距離之和。
假定n個(gè)樣本被分為k類(lèi),分別為G1,G2.,.,Gk,nt表示類(lèi)Gt中樣本的個(gè)數(shù),xit表示Gt中的第i個(gè)樣本的變量指標(biāo)值向量,xt表示Gt的重心,則Gt中樣本的離差平均和公式和全部類(lèi)內(nèi)離差平方和公式分別如下所示:
在實(shí)踐應(yīng)用中,因?yàn)槠浞诸?lèi)效果較好,離差平方和方法的應(yīng)用較為普遍。
3 基于改進(jìn)的主成分聚類(lèi)分析方法的基本步驟
基于改進(jìn)的主成分聚類(lèi)分析法的基本步驟如下:
Stepl:采用對(duì)數(shù)中心變換法變換處理原始數(shù)據(jù)集。
Step2:根據(jù)具體實(shí)例,選取三種評(píng)價(jià)指標(biāo)的預(yù)處理方法的一種統(tǒng)一原始數(shù)據(jù)集,進(jìn)行標(biāo)準(zhǔn)化、均值化或極值化處理。
Step3:根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù),建立關(guān)于P個(gè)指標(biāo)的相關(guān)系數(shù)矩陣R。
Step4:求得相關(guān)系數(shù)矩陣R的特征值和特征向量。
Step5:分別計(jì)算每個(gè)主成分的方差貢獻(xiàn)率ak,并據(jù)此求得累積方差貢獻(xiàn)率a(k)。
Step6:確定主成分的個(gè)數(shù)。
理論上來(lái)說(shuō)是要求以較少的主成分實(shí)現(xiàn)最大程度的表示原始指標(biāo)變量的信息量.其實(shí)質(zhì)是在k和ak之間進(jìn)行權(quán)衡:一是,要求k盡可能地小;二是,要求ak盡可能的大。
Step7:求各主成分函數(shù)的表達(dá)式
主成分函數(shù)表達(dá)式為:
其中初始因子載荷矩陣每列的系數(shù)除以它們相應(yīng)的特征根后開(kāi)平方后得到 表示標(biāo)準(zhǔn)化后的數(shù)據(jù),i=l,2,…,k。
Step8:計(jì)算綜合主成分值
通常在進(jìn)行綜合時(shí)選取加權(quán)算術(shù)平均法,以各個(gè)主成分的方差貢獻(xiàn)率ak為權(quán)重,以此求出各個(gè)樣本的主成分綜合評(píng)價(jià)得分,具體公式為:F=a1F1+a2F2+…+akFk
Step9:主成分指標(biāo)聚類(lèi)
對(duì)于選定的新數(shù)據(jù)陣(F1,F(xiàn)2,¨,F(xiàn)i),對(duì)上述主成分分析的結(jié)果采用聚類(lèi)分析法進(jìn)行處理。再結(jié)合綜合成分得分,以此確定樣品在各類(lèi)中的排序,最后得到綜合評(píng)價(jià)結(jié)果。
通過(guò)以上基本步驟,得到綜合評(píng)價(jià)結(jié)果,最終為原始數(shù)據(jù)集樣本對(duì)象的綜合比較和排序分析提供了模型和方法依據(jù)。
4 學(xué)生成績(jī)綜合評(píng)價(jià)模型實(shí)例仿真
4.1 模型建立
(1)數(shù)據(jù)收集
學(xué)生成績(jī)綜合評(píng)價(jià)模塊所采用的原始數(shù)據(jù)是某高校12級(jí)電商專(zhuān)業(yè)所有畢業(yè)生的大學(xué)成績(jī),包含的數(shù)據(jù)信息有學(xué)號(hào)、課程名稱(chēng)、學(xué)分、成績(jī)等,其中包含了72個(gè)學(xué)生的22門(mén)課程信息。
(2)數(shù)據(jù)預(yù)處理
剔除不相關(guān)數(shù)據(jù)樣本。原始數(shù)據(jù)集中的學(xué)分、平時(shí)成績(jī)、課程性質(zhì)、績(jī)點(diǎn)、學(xué)院班級(jí)對(duì)學(xué)生特征分析模塊的分析研究沒(méi)有任何意義,所以去除。
(3)類(lèi)似數(shù)據(jù)項(xiàng)合并
在原始數(shù)據(jù)集中存在類(lèi)似數(shù)據(jù)項(xiàng),例如,大學(xué)英語(yǔ)I和大學(xué)英語(yǔ)II、高等數(shù)學(xué)CI和高等數(shù)學(xué)CII、體育I和體育II,對(duì)于這些類(lèi)似數(shù)據(jù)項(xiàng)通過(guò)平均值二合一(四舍五人取整),對(duì)軍事理論、中國(guó)近現(xiàn)代史綱要、思想道德修養(yǎng)與法律基礎(chǔ)以及合并之后的形式與政策,同樣采用平均值的方法進(jìn)行合并,通過(guò)類(lèi)似項(xiàng)合并后,得到15門(mén)課程。
(4)數(shù)據(jù)數(shù)值化
在原始數(shù)據(jù)集中,計(jì)算機(jī)操作和認(rèn)識(shí)實(shí)習(xí)的成績(jī)是通過(guò)優(yōu)秀、良好、中等、及格來(lái)表示的,在數(shù)據(jù)預(yù)處理過(guò)程中,將其轉(zhuǎn)化為百分制,分別為90、80、70、60。采用SPSS進(jìn)行主成分分析,構(gòu)建學(xué)生教育評(píng)價(jià)模型,具體實(shí)例仿真過(guò)程及結(jié)果分析如下所述。
4.2 實(shí)例仿真
(1)指標(biāo)選取
該模塊主要是利用某高校電商12級(jí)學(xué)生的成績(jī),對(duì)所有學(xué)生進(jìn)行綜合評(píng)價(jià)分析,所以采用的指標(biāo)是電商的所有課程。
(2)對(duì)于原始數(shù)據(jù)集指標(biāo)變換及評(píng)價(jià)指標(biāo)的預(yù)處理,本文采用均值化方法。
(3)求經(jīng)過(guò)標(biāo)準(zhǔn)化后的原始數(shù)據(jù)集的相關(guān)矩陣,及其相關(guān)矩陣的特征根。
(4)確定主成分的個(gè)數(shù)
如圖1所示是由第2步求得到的方差貢獻(xiàn)率和其相關(guān)系數(shù)矩陣的特征根,由于前5個(gè)主成分貢獻(xiàn)率為72.825%,能夠很好地反映總體指標(biāo),同時(shí)考慮圖2中的變量不出現(xiàn)損失,因此提取的主成分個(gè)數(shù)為5。
圖2所示的是初始因子載荷矩陣,可知,在第一個(gè)因子上所有課程都具有相對(duì)較高的載荷,大學(xué)英語(yǔ)、網(wǎng)頁(yè)設(shè)計(jì)基礎(chǔ)、體育、認(rèn)識(shí)實(shí)習(xí)、電子商務(wù)概論、計(jì)算機(jī)操作以及思想理論在第二個(gè)因子上有較高的載荷,第三至第五的因子載荷與此類(lèi)似,正數(shù)說(shuō)明載荷較高,能更好的反映所對(duì)應(yīng)的指標(biāo)課程。
(5)確定主成分函數(shù)的表達(dá)式
主成分系數(shù)向量是由圖2中的每列的系數(shù)與其特征根之商開(kāi)根后得到。計(jì)算主成分函數(shù)的表達(dá)式如下,
(6)計(jì)算綜合主成分值
由上述矩陣計(jì)算,得到的5個(gè)主成分函數(shù),分別反映了不同的課程指標(biāo)信息,最后得出綜合主成分公式:F=0.0.46Fl+0.0 8F2+0.068F3 +0.063 F4+0.05 7F5
通過(guò)改進(jìn)的主成分聚類(lèi)分析方法可以求出電商12級(jí)學(xué)生的主成分綜合值。同時(shí)對(duì)這些學(xué)生按照他們的綜合主成分值進(jìn)行排序,部分結(jié)果如表1所示,可知,學(xué)號(hào)為4、5、62的同學(xué)綜合主成分得分較高,說(shuō)明這三名學(xué)生的綜合成績(jī)?cè)u(píng)價(jià)較高,同時(shí)可以看出影響每個(gè)學(xué)生綜合評(píng)價(jià)的5個(gè)主成分值。
分析不同的主成分,挖掘?qū)W生綜合評(píng)價(jià)的具體影響因素,并針對(duì)具體問(wèn)題提出解決方法。
(7)對(duì)綜合主成分值進(jìn)行系統(tǒng)聚類(lèi)并進(jìn)行評(píng)價(jià)與分析
利用SPSS軟件對(duì)主成分得分進(jìn)行進(jìn)一步的聚類(lèi)分析,同時(shí)參考各類(lèi)中每個(gè)同學(xué)的綜合主成分均值以此對(duì)類(lèi)進(jìn)行排序。參照類(lèi)中每個(gè)學(xué)生成績(jī)的綜合主成分得分,確定每個(gè)同學(xué)在各類(lèi)中的排名,最終得到綜合的評(píng)價(jià)結(jié)果。系統(tǒng)聚類(lèi)圖如圖3所示,
求得這五類(lèi)中樣本的平均得分并排序:第一類(lèi){4、5、62、64};第二類(lèi){61、27、7、12};第三類(lèi){21、65、70、1、13、28};第四類(lèi){24、38、50、34、47、18、51};第五類(lèi){63、29、59、55}。
由分析結(jié)果可以發(fā)現(xiàn),學(xué)號(hào)為4、5、62、64的同學(xué)綜合得分較高,被聚成一類(lèi),對(duì)比原始成績(jī)可以發(fā)現(xiàn),這些同學(xué)的原始得分均較高,為班級(jí)表現(xiàn)比較突出的同學(xué),與實(shí)際情況相符;學(xué)號(hào)為61、27、7、12的同學(xué)表現(xiàn)次之,與實(shí)際情況相符;與傳統(tǒng)的主成分分析相比,改進(jìn)的主成分聚類(lèi)分析方法能夠在很大程度上克服主觀因素的影響,同時(shí)在對(duì)原始信息的處理中采用了變換和均值化處理方法,使挖掘的結(jié)果更加準(zhǔn)確,在此基礎(chǔ)上運(yùn)用聚類(lèi)分析方法,將成績(jī)相似的同學(xué)聚為一類(lèi),為準(zhǔn)確評(píng)估學(xué)生的整體水平和有針對(duì)性的尋求解決方案提供更可靠的依據(jù)。
5 結(jié)束語(yǔ)
本文在傳統(tǒng)主成分分析法的基礎(chǔ)上改進(jìn)了數(shù)據(jù)的預(yù)處理及最后的綜合評(píng)價(jià)過(guò)程,并建立了基于改進(jìn)的主成分聚類(lèi)分析方法的學(xué)生成績(jī)綜合評(píng)價(jià)模型,最后以某高校學(xué)生信息為挖掘目標(biāo),以規(guī)范化的方式對(duì)相關(guān)信息進(jìn)行了統(tǒng)一處理,且應(yīng)用SPSS軟件進(jìn)行了實(shí)例仿真,將原有課程的15個(gè)指標(biāo)綜合成了5個(gè)指標(biāo)的評(píng)價(jià)體系,更好的反映了學(xué)生的綜合成績(jī),克服了傳統(tǒng)方法的不足,為教學(xué)研究管理以及學(xué)生的綜合評(píng)價(jià)提供了依據(jù),并且說(shuō)明了在教育信息化中應(yīng)用數(shù)據(jù)挖掘技術(shù)的有效性,教育信息化的發(fā)展逐漸需要數(shù)據(jù)挖掘技術(shù)作為支撐,此方法的應(yīng)用對(duì)于后續(xù)研究教育信息化以及相關(guān)實(shí)踐教學(xué)具有指導(dǎo)性意義。