摘 要:主成分分析與聚類分析是當(dāng)前大數(shù)據(jù)時(shí)代較有應(yīng)用前景的數(shù)據(jù)分析方法。首先介紹主成分分析與聚類分析的原理以及在R語言中的算法實(shí)現(xiàn)。利用主成分分析,建立一種可以綜合評價(jià)成績的方式,通過成績綜合評價(jià)的得分進(jìn)行相應(yīng)的排名,然后根據(jù)主成分中的得分進(jìn)行聚類分析。通過對20名學(xué)生考試成績的分析與評價(jià),得出的結(jié)果可以用來反映學(xué)生的學(xué)習(xí)情況與教師的教學(xué)成效,為成績的管理提供一種合理且便于操作的方式。
關(guān)鍵詞:主成分分析 聚類分析 K-means聚類 R語言 成績分析
中圖分類號(hào):G642
Application of Principal Component Analysis and Cluster Analysis Based on R Language in Score Evaluation
SHEN Dandan
Changzhi Medical College, Changzhi, Shanxi Province, 046000 China
Abstract: Principal Component Analysis and Cluster Analysis are the most promising data analysis methods in the current era of big data. Firstly, it introduces the principles of Principal Component Analysis and Cluster Analysis, as well as their algorithm implementation in R language. Using Principal Component Analysis, it establishes a comprehensive score evaluation method, and ranks based on the comprehensive score evaluation, and then conducts Cluster Analysis based on the scores in the principal components. By analyzing and evaluating the exam scores of 20 students, the results can be used to reflect the learning situation of students and the teaching effectiveness of teachers, providing a reasonable and easy to operate way for score management.
Key Words: Principal Component Analysis; Cluster Analysis; K-means cluster; R language; Score analysis
當(dāng)前信息化時(shí)代背景下,面對高校教學(xué)中學(xué)生成績錯(cuò)綜復(fù)雜的情形,利用傳統(tǒng)的成績評定方式有一定的局限性,通常是采用加權(quán)評分法或?qū)λ谐煽兦蠛停缓笠罁?jù)絕對分?jǐn)?shù)來進(jìn)行等級(jí)評定。然而在設(shè)置加權(quán)的權(quán)重時(shí),人為主觀因素較大,直接對所有成績求和無法反映學(xué)生真實(shí)的學(xué)習(xí)情況與能力,利用絕對分?jǐn)?shù)來進(jìn)行成績評定時(shí)很大程度上依賴于考試的形式、試卷的結(jié)構(gòu)以及難易程度等,這些方法都存在一定的缺陷,不利于客觀、科學(xué)地評價(jià)學(xué)生的學(xué)習(xí)情況,也不利于真實(shí)地反映教師的教學(xué)成果。主成分分析是把所有變量之間相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析,聚類分析能從大量的數(shù)據(jù)中對有意義的數(shù)據(jù)分布模式進(jìn)行挖掘,將主成分分析與聚類分析應(yīng)用于學(xué)生成績評價(jià)時(shí),可以彌補(bǔ)傳統(tǒng)成績評定方法所帶來的缺陷,更能科學(xué)客觀地反映學(xué)生的學(xué)習(xí)情況,從而為教學(xué)管理提供一定指導(dǎo)[3]。
1 主成分分析
1.1?; 主成分分析基本思想
通常研究人員所要處理的問題大多是關(guān)于多變量的問題,變量越多,反應(yīng)問題的信息更全面,但也無疑給問題增加了難度,從而研究人員希望在保證不丟失大量原始信息量的基礎(chǔ)上,通過少量變量來反映問題。主成分分析就是采用降維的方式將具有一定相關(guān)性的多變量化為少數(shù)幾個(gè)不相關(guān)的綜合變量的統(tǒng)計(jì)分析方法。
主成分分析的基本原理:將原始具有相關(guān)性的變量通過線性組合的方式形成新的線性無關(guān)的變量。第一個(gè)線性組合即為第一個(gè)新變量,要求它在所有線性組合中方差最大,含有的信息量最多。如果第一個(gè)線性組合無法提取原始變量的所有信息,則考慮第二個(gè)線性組合即第二個(gè)新變量,且第一個(gè)新變量中所含有的信息不出現(xiàn)在第二個(gè)新變量中,即這兩個(gè)變量的協(xié)方差為零。繼續(xù)進(jìn)行這個(gè)過程,直到包含的信息與原始變量包含的信息量相差不大。此過程即為主成分分析降維的過程,經(jīng)過此過程可以使問題得到簡化[8]。
1.2 主成分分析基本理論
設(shè)所研究的問題包含個(gè)變量,可構(gòu)成向量,協(xié)方差陣為,對做線性組合:
得到新的綜合變量,這里表示與之間的相關(guān)系數(shù),所做的線性組合要求滿足以下條件:
(1);(2) 與()互不相關(guān);(3) 是與不相關(guān)的所有線性組合中方差最大的。若滿足以上條件,則即為主成分,分別稱為原始變量的第1、第2、第個(gè)主成分,且對應(yīng)方差依次遞減,通常選擇前幾個(gè)方差較大且所含信息總和達(dá)到以上的主成分。
每個(gè)主成分所含信息量的大小用方差來刻畫,要使的方差達(dá)到最大,即使達(dá)到最大,而協(xié)方差陣的特征值就是對應(yīng)主成分的方差,特征值所對應(yīng)的特征向量就是。是第個(gè)主成分的方差貢獻(xiàn)率,表示第個(gè)主成分提取個(gè)變量的信息量,該值越大,表示對應(yīng)主成分所含信息量越多,為主成分的累計(jì)方差貢獻(xiàn)率,表示前個(gè)主成分所含原始變量的信息量。
1.3 利用主成分分析對成績評價(jià)的步驟
設(shè)個(gè)學(xué)生,成績有個(gè)變量,第個(gè)學(xué)生的第項(xiàng)成績?yōu)?,則個(gè)學(xué)生個(gè)變量可構(gòu)成原始數(shù)據(jù)矩陣為。
(1)對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,,其中,,。
(2)標(biāo)準(zhǔn)化數(shù)據(jù)后,計(jì)算相關(guān)系數(shù)矩陣,,其中。
(3)計(jì)算的特征值與相應(yīng)的特征向量,因而可以得到個(gè)主成分。
(4)計(jì)算各個(gè)主成分的方差貢獻(xiàn)率與累計(jì)方差貢獻(xiàn)率,當(dāng)前個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)到80%以上,確定主成分的個(gè)數(shù)為。
(5)寫出綜合評價(jià)函數(shù):,函數(shù)值即為學(xué)生綜合得分。
2 聚類分析
2.1 聚類分析基本思想
聚類分析是基于數(shù)據(jù)的相似性,根據(jù)數(shù)據(jù)的特征進(jìn)行分類,聚合為一類的數(shù)據(jù)之間有較高的相似度,而類間的數(shù)據(jù)相似度較小。于是給定一組數(shù)據(jù)后,可以先確定度量數(shù)據(jù)之間相似程度的統(tǒng)計(jì)量,以此統(tǒng)計(jì)量為依據(jù)對數(shù)據(jù)進(jìn)行劃分,把相似度較大的數(shù)據(jù)歸為一類,把另外的一些相似度較大的數(shù)據(jù)又歸為另一類,相似度大的歸到一個(gè)小的分類單位,相似度小的歸到一個(gè)大的分類單位,直至所有的數(shù)據(jù)都?xì)w類完畢,把所有數(shù)據(jù)劃分后,就會(huì)形成一個(gè)由小到大的分類系統(tǒng)[2]。
K-means聚類算法
K-means聚類算法,屬于劃分聚類算法中的典型算法,是一種快速聚類法,相對其他算法具有操作簡便快捷的特點(diǎn)。K-means法中,首先要把全部數(shù)據(jù)分成k個(gè)類,把相似度高的數(shù)據(jù)劃分為一類,這樣就能得到類內(nèi)相似度高,類間相似度低的幾簇?cái)?shù)據(jù)。通過計(jì)算類中數(shù)據(jù)的平均值來確定相似度。K-means算法流程圖如圖1。
3 主成分分析與聚類分析在學(xué)生成績綜合分析中的應(yīng)用
3.1 研究的基礎(chǔ)數(shù)據(jù)
本文中研究的基礎(chǔ)數(shù)據(jù)來源于長治醫(yī)學(xué)院2023—2024學(xué)年第一學(xué)期某專業(yè)班級(jí)20名學(xué)生的5門課程期末成績,分別表示變量思想道德與法治、基礎(chǔ)化學(xué)、大學(xué)英語A、醫(yī)用物理學(xué)、醫(yī)用高等數(shù)學(xué)。如表1所示。
3.2 設(shè)計(jì)實(shí)現(xiàn)與實(shí)驗(yàn)結(jié)果
使用R語言進(jìn)行主成分分析得到結(jié)果,如圖2所示。
由圖2中的分析結(jié)果,在輸出的5個(gè)主成分中,前3個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)89%,所以可用前3個(gè)主成分來進(jìn)行分析。loading表示載荷,其值是 的系數(shù),也是特征值對應(yīng)的特征向量,由標(biāo)準(zhǔn)化變量所表達(dá)的主成分的關(guān)系式為:
由此得到綜合評價(jià)函數(shù)為
將成績數(shù)據(jù)代入得到表2中的3個(gè)主成分得分、綜合得分與排名,該結(jié)果是由統(tǒng)計(jì)分析得出,此過程很大程度上不受主觀因素的影響,因此用在實(shí)例分析上較合理客觀。
結(jié)果分析:由主成分分析得出的綜合排名與原始成績均值的排名相差不大,有極少數(shù)差異較大。例如序號(hào)為10號(hào)的同學(xué),他的總分排名是6,而綜合排名是12,該同學(xué)在第一主成分得分較高,說明數(shù)學(xué)、物理、化學(xué)成績較好,在第二、三主成分得分較低,說明該生的思想道德與法治、大學(xué)英語成績并不好。序號(hào)為12號(hào)的同學(xué),總分排名是12,而綜合排名是7,該生在第二主成分得分較高,第一、三主成分得分為負(fù)值。根據(jù)以上表中數(shù)據(jù),能夠?qū)W(xué)生在各課程上的學(xué)習(xí)情況有較客觀的了解與掌握,根據(jù)得分情況與綜合得分了解他們成績的特點(diǎn),從而幫助分析學(xué)生的薄弱與優(yōu)勢科目,進(jìn)而提升教師的教學(xué)成效。
針對學(xué)生成績數(shù)據(jù),依據(jù)前3個(gè)主成分得分,利用R語言進(jìn)行K-means聚類分析,得到的結(jié)果如表3所示。
從表3可看出:將學(xué)生分為四類,第一類學(xué)生各科成績較理想,學(xué)習(xí)上較積極主動(dòng)。第二類學(xué)生成績中等,有些同學(xué)成績或高或低,有偏科現(xiàn)象,在學(xué)習(xí)上積極主動(dòng)性需要加強(qiáng)。第三類學(xué)生的第一主成分得分較低,數(shù)理化成績較不理想,要注重學(xué)習(xí)興趣的培養(yǎng)。第四類學(xué)生在各科成績上均不理想,之后要更多注重基礎(chǔ)知識(shí)的學(xué)習(xí)。
通過以上對主成分分析與聚類分析的思想、原理的闡述,以及對實(shí)驗(yàn)結(jié)果的分析,可以看出,通過主成分分析與聚類分析來對學(xué)生成績劃分評定時(shí),較傳統(tǒng)劃分方式更科學(xué)、合理,能更好地反映出學(xué)生的學(xué)習(xí)情況與教師教學(xué)成效。
4 結(jié)語
主成分分析與聚類分析作為當(dāng)前最有應(yīng)用前景的數(shù)據(jù)分析方法,已被廣泛應(yīng)用于社會(huì)生活的各個(gè)領(lǐng)域。運(yùn)用R語言通過主成分分析與聚類分析來劃分學(xué)生的成績,方便易行,且所得結(jié)果也具有合理性、有效性,這為教師開展教學(xué)工作與實(shí)踐提供有效的參考與指導(dǎo),不斷提升教學(xué)質(zhì)量。
對學(xué)生而言,學(xué)生可以認(rèn)識(shí)到自身成績的類別,認(rèn)清自己各科成績的差異,從而更有針對性地找到深入的方向,持續(xù)深造,提升自我。對教師而言,更清晰地了解學(xué)生的成績類別,結(jié)合學(xué)生的平時(shí)表現(xiàn)、學(xué)習(xí)背景進(jìn)一步了解學(xué)生,從而因材施教,增強(qiáng)學(xué)生學(xué)習(xí)積極性與主動(dòng)性。
個(gè)變量,可構(gòu)成向量,協(xié)方差陣為,對做線性組合:,這里表示與之間的相關(guān)系數(shù),所做的線性組合要求滿足以下條件:;(2) 與(是與不相關(guān)的所有線性組合中方差最大的。若滿足以上條件,則即為主成分,分別稱為原始變量的第1、第2、第個(gè)主成分,且對應(yīng)方差依次遞減,通常選擇前幾個(gè)方差較大且所含信息總和達(dá)到的方差達(dá)到最大,即使達(dá)到最大,而協(xié)方差陣的特征值就是對應(yīng)主成分的方差,特征值所對應(yīng)的特征向量就是。是第個(gè)主成分的方差貢獻(xiàn)率,表示第個(gè)主成分提取個(gè)變量的信息量,該值越大,表示對應(yīng)主成分所含信息量越多,為主成分的累計(jì)方差貢獻(xiàn)率,表示前個(gè)主成分所含原始變量的信息量。個(gè)學(xué)生,成績有個(gè)變量,第個(gè)學(xué)生的第項(xiàng)成績?yōu)椋瑒t個(gè)學(xué)生個(gè)變量可構(gòu)成原始數(shù)據(jù)矩陣為。,其中,,。,,其中。的特征值與相應(yīng)的特征向量,因而可以得到個(gè)主成分。與累計(jì)方差貢獻(xiàn)率,當(dāng)前個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)到80%以上,確定主成分的個(gè)數(shù)為。,函數(shù)值即為學(xué)生綜合得分。 (1)為所有數(shù)據(jù)與相應(yīng)聚類中心的均方差之和;為數(shù)據(jù)對象中的一個(gè)數(shù)據(jù);為類的均值。這個(gè)公式的聚類標(biāo)準(zhǔn)是要使每個(gè)聚類能具備以下條件:各類能盡量自行密集,而類間盡量分散。K-means算法流程圖如圖1。參考文獻(xiàn)
[1]龍鈞宇.基于均值聚類和決策樹算法的學(xué)生成績分析[J].計(jì)算機(jī)與現(xiàn)代化,2014(6):79-83.
[2]葉福蘭.基于K-means均值算法的學(xué)生成績分析:以福州外語外貿(mào)學(xué)院信息管理與信息系統(tǒng)專業(yè)為例[J].貴陽學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,12(3):17-20.
[3]展金梅,陳君濤,田飛.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用[J].科技資訊,2023,21 (19): 202-205.
[4]李鳳英,許洪光,周方,等.基于數(shù)據(jù)挖掘和K-Means算法的高校學(xué)情數(shù)據(jù)集成研究[J].黑龍江工程學(xué)院學(xué)報(bào),2022,36(4):31-36.
[5]金玉.基于學(xué)習(xí)大數(shù)據(jù)的學(xué)生學(xué)習(xí)成績預(yù)測關(guān)鍵技術(shù)研究[D].南京:東南大學(xué),2021.
[6]錢玲,饒江泉,羅小泉,等.基于成績分析探討知識(shí)背景對學(xué)習(xí)的影響[J].科技資訊,2023, 21 (9): 234-237.
[7]郭繼東,鄭可晗,張晶,等.基于主成分分析的學(xué)習(xí)效果因素調(diào)查分析研究[J].機(jī)電工程技術(shù),2022,51(5):165-169.
[8]郭蘭蘭,付政慶,衣秋杰.主成分分析法在學(xué)生成績分析與評價(jià)中的應(yīng)用[J].高教學(xué)刊,2021(3):88-91.