摘要:文章對全國各省份進(jìn)行大概的聚類分析,來分析當(dāng)前全國教育發(fā)展情況。首先建立好分類指標(biāo)體系,找好數(shù)據(jù),之后通過SPSS的聚類分析功能來得出結(jié)論。
關(guān)鍵詞:教育指標(biāo);聚類分析;SPSS
一、引言
教育是發(fā)展科學(xué)技術(shù)和培養(yǎng)人才的基礎(chǔ),在現(xiàn)代化建設(shè)中具有先導(dǎo)性全局性作用。全國各地教育的發(fā)展存在著不少差異。下面,根據(jù)全國各省的教育狀況進(jìn)行區(qū)域的劃分,以便進(jìn)行分類的指導(dǎo)。利用世界著名的統(tǒng)計軟件SPSS進(jìn)行聚類分析功能,對各省份進(jìn)行聚類分析,以便很好地歸類。
二、聚類分析簡介
?。ㄒ唬┚垲惙治龈攀?br/> 聚類分析是根據(jù)研究對象的個體特征,對其進(jìn)行分類的方法。分類在經(jīng)濟(jì)、管理、社會學(xué)、醫(yī)學(xué)等領(lǐng)域有著廣泛的應(yīng)用。例如,有p個指標(biāo),n個對象在p個指標(biāo)下的數(shù)據(jù),對這n個對象進(jìn)行聚類。
?。ǘ┚垲惙治鲎鞣?br/> 1、將數(shù)據(jù)標(biāo)準(zhǔn)化
為了消除不同變量單位對聚類結(jié)果的影響,應(yīng)當(dāng)首先對所有的數(shù)據(jù)標(biāo)準(zhǔn)化:xij=
2、計算對象之間的距離
計算對象之間的“距離”,得到對象之間的“相似關(guān)系”矩陣R(rij)?!熬嚯x”有多種表達(dá):
?。?)歐氏距離(的平方):r2ij=(xik-xjk)2
?。?)偏差距離:rij=xik-xjk
?。?)相關(guān)系數(shù):
rij=
?。?)明考夫斯基距離(的q次方):rijq= xik-xjkq
?。?)馬氏距離(的平方):r2ij=(xi-xj)TV-1(xi-xj)
3、選擇類與類之間的距離定義
類與類之間的距離可用“代表點”之間的距離表示。下面列舉其中兩種方法:
(1)用兩個類之間的距離最近(或最遠(yuǎn))的點,分別作為這兩類的代表點。
?。?)用兩個類(類S和類T)中所有點的距離(平方的)平均值,作為兩個類之間的距離(的平方):d2(S,T)=d2ij,這種方法也叫組間連接法(本文采用的方法)
4、聚類
?。?)把每個點(對象)作為一類。
?。?)找出距離最小(或者最大的)dij,從而得到距離最近(或最遠(yuǎn))的兩類i和j,把它們合并為更高的一類。這樣不斷重復(fù),知道所有點都并入一個大類。
5、分類
分類的數(shù)目符合使用的目的。
三、建立指標(biāo)體系
全國各地教育發(fā)展水平差異較大例如各省份的教育水平、教育觀念、師資力量、教育手段和設(shè)備都不相同。經(jīng)濟(jì)發(fā)達(dá)地區(qū)教育發(fā)展水平較高。這里討論的教育發(fā)展水平主要是從教育的“硬件設(shè)備”來討論。聯(lián)合國教科文組織(UNESCO)出版的《世界教育報告》對各國教育狀況的數(shù)據(jù)和資源進(jìn)行適當(dāng)分析、篩選、整理和再加工,匯集出與特定指標(biāo)相關(guān)的信息。它提出了幾個方面評價教育發(fā)展水平:教育供給(資源)、入學(xué)與參與、人力資源、教育內(nèi)部效率、教育產(chǎn)出等。
本文根據(jù)這幾項概括中選出一些指標(biāo)用來對全國各省份進(jìn)行聚類。教育經(jīng)費是教育供給的主要方面。對人力資源可用師生比代表,入學(xué)與參與采用升學(xué)率,教育內(nèi)部效率可用升學(xué)率代表,教育產(chǎn)出利用文盲人口占15歲以上比重表示,入學(xué)與參與采用每10萬人口平均在校生表示(本文采用的數(shù)據(jù)來自中國統(tǒng)計年鑒2007年)。
其中升學(xué)率的公式采用教育統(tǒng)計常用公式:升學(xué)率= ×100%
本文中升學(xué)率采用了普通小學(xué)升學(xué)率、普通初中升學(xué)率、普通高中升學(xué)率。每十萬人口平均在校生和師生比選取了小學(xué)、初中、高中、高等學(xué)校4個類型。
根據(jù)中國統(tǒng)計年鑒2007年,教育經(jīng)費投入到普通小學(xué)、普通初中、普通高中、普通高等學(xué)校的比例大概是3∶2∶1∶2,因此可以近似把它當(dāng)作權(quán)重,再利用公式:
人均在學(xué)生指數(shù)
?。?
權(quán)重的選擇很好解決指標(biāo)間數(shù)量級的等方面的矛盾。
人均在校學(xué)生數(shù)也是一個百分比值。用這個指標(biāo)代替每10萬人口平均在校生數(shù)來進(jìn)行聚類。
教育經(jīng)費與地區(qū)生產(chǎn)總值之比是因為國內(nèi)有學(xué)者曾對教育經(jīng)費支出與GNP的Pearson相關(guān)系數(shù)很高。教育經(jīng)費與GNP存在著內(nèi)在的密切聯(lián)系。并且認(rèn)為教育投資與GNP存在著因果關(guān)系。
師生比是某待定教育層次在指定年份中的學(xué)生人數(shù)與同年同一教育層次工作的教師人數(shù)之比。它反映某特定教育層次在某年每位教師平均負(fù)責(zé)教育學(xué)生的人數(shù)。
四、聚類分析
利用SPSS根據(jù)指標(biāo)對全國各省份進(jìn)行聚類。
對31個省和直轄市進(jìn)行聚類。選擇了組間聚類的方法。
表3給出了聚類的過程,表格中部的coefficient列給出了合并時類間的距離。而且可以看到類間距離越來越大。在該列左邊給出了第幾步誰和誰并成一類。在該列后邊,給出了個體首次被聚類的步驟號。
圖1清楚地表示了聚類的全過程,它將實際的距離按比例調(diào)整到0-25的范圍內(nèi),用逐級連線的方式連接性質(zhì)相近的個案或新類,直到并為一類。在該圖上部的距離標(biāo)尺上根據(jù)需要(粗分或細(xì)分)選定一個劃分類的距離,然后垂直標(biāo)尺劃線,該垂直線與水平連線相交,則相交點數(shù)即為分類的類別數(shù),相交水平連線所對應(yīng)的個案聚成一類。
五、分析與結(jié)論
對全國所有省份和城市進(jìn)行的教育發(fā)展水平進(jìn)行劃分,并不是劃分約多越好,也不能太少?;旧?,可以對其分為4類。首先看到西藏(2)和北京(28)地區(qū)。西藏地區(qū)經(jīng)濟(jì)不發(fā)達(dá),人民生活比較貧困,教育事業(yè)還處在起步階段,教育設(shè)施還不完善。政府應(yīng)該多投入教育經(jīng)費到西藏支持其建設(shè)。至于北京,首都北京是全國文化中心,這是它的城市職能,很重要的表現(xiàn)之一就是名校云集。北京的學(xué)生能相對較容易地考入清華北大,升學(xué)率高。政府對其教育經(jīng)費投入也比較大。因而北京可以說是全國教育水平最強(qiáng)的城市。青海、寧夏、甘肅、貴州、云南、安徽歸為一類前四個省份的都算是欠發(fā)達(dá)地區(qū).欠發(fā)達(dá)地區(qū)經(jīng)濟(jì)落后,窮省辦大教育,面臨極大的困難和挑戰(zhàn);欠發(fā)達(dá)地區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r與高等教育規(guī)模不對稱,存在諸多矛盾現(xiàn)象.重新審視高等教育財政投資理論,針對欠發(fā)達(dá)地區(qū)高等教育財政投資的困境,需建立貧困地區(qū)高等教育成本中央財政投資補償制度和地區(qū)間投資補償制度.至于安徽,經(jīng)濟(jì)發(fā)展中等,但其文盲率居然占很大比重。安徽要調(diào)整好農(nóng)村產(chǎn)業(yè)結(jié)構(gòu),提高農(nóng)村人口素質(zhì)。剩下的省份歸為一類,各省的教育發(fā)展指標(biāo)沒有太大差異。廣東、上海、江蘇等地雖然經(jīng)濟(jì)發(fā)達(dá),但教育投入比例和其他省份相差不大,所有歸一類。當(dāng)然,還可以對這一類進(jìn)行細(xì)分來分析。
所以一個地區(qū)的教育水平跟該地區(qū)的經(jīng)濟(jì)還是有很大關(guān)系的。教育的投入比例也是與教育水平有關(guān)系的。
參考文獻(xiàn):
1、馬慶國.管理統(tǒng)計——數(shù)據(jù)獲取、統(tǒng)計原理 SPSS工具與應(yīng)用研究[M].科學(xué)