何遠(yuǎn)霞 王蘭 焦登丹
[摘 要]文章主要以我國(guó)31個(gè)省、自治區(qū)和直轄市的經(jīng)濟(jì)發(fā)展水平為研究對(duì)象,選取能反映經(jīng)濟(jì)發(fā)展水平的18個(gè)經(jīng)濟(jì)指標(biāo),運(yùn)用主成分分析法(Principal Component Analysis,PCA)和系統(tǒng)聚類分析法,對(duì)31個(gè)省市的經(jīng)濟(jì)發(fā)展水平進(jìn)行綜合評(píng)價(jià)。
[關(guān)鍵詞]主成分分析;系統(tǒng)聚類法;經(jīng)濟(jì)發(fā)展水平;綜合評(píng)價(jià)
doi:10.3969/j.issn.1673 - 0194.2023.14.058
[中圖分類號(hào)]F124[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2023)14-0177-03
0? ? ?引 言
我國(guó)部分地區(qū)因地理環(huán)境及氣候條件等因素的制約,發(fā)展速度較慢,導(dǎo)致我國(guó)整體經(jīng)濟(jì)發(fā)展受到影響。此外,研究發(fā)現(xiàn),我國(guó)各省市間經(jīng)濟(jì)發(fā)展存在嚴(yán)重的不平衡現(xiàn)象。研究各省市間的經(jīng)濟(jì)發(fā)展情況,對(duì)促進(jìn)各省市更快更好地發(fā)展和充分發(fā)揮城市在經(jīng)濟(jì)社會(huì)生活中的主導(dǎo)作用都具有重要意義。
1? ? ?數(shù)據(jù)來源和指標(biāo)選取
本文數(shù)據(jù)源于《2022中國(guó)統(tǒng)計(jì)年鑒》,由Matlab軟件完成數(shù)據(jù)分析。為更加全面地評(píng)價(jià)2021年我國(guó)31個(gè)省、自治區(qū)和直轄市(以下簡(jiǎn)稱31個(gè)省市)的經(jīng)濟(jì)發(fā)展?fàn)顩r,本文結(jié)合各省市經(jīng)濟(jì)發(fā)展實(shí)際情況和數(shù)據(jù)的科學(xué)性、可得性及可操作性等原則,選取能夠反映我國(guó)31個(gè)省市經(jīng)濟(jì)發(fā)展水平的18個(gè)指標(biāo):人均國(guó)內(nèi)生產(chǎn)總值(Gross Domestic Product,GDP)(元)、地方一般公共預(yù)算收入(億元)、社會(huì)消費(fèi)品零售總額(億元)、固定資產(chǎn)投資(不含農(nóng)戶)同比增長(zhǎng)率(%)、地區(qū)生產(chǎn)總值(億元)、在崗職工人均工資額(元)、房地產(chǎn)開發(fā)投資額(億元)、地方財(cái)政預(yù)算支出(億元)、城鄉(xiāng)居民年底儲(chǔ)蓄余額(億元)、客運(yùn)總量(萬人)、貨運(yùn)總量(萬噸)、貨物進(jìn)出口總額(億元)、人均擁有公共圖書館藏量(冊(cè)/人)、公共圖書館電子閱覽室終端數(shù)(臺(tái))、普通高等學(xué)校數(shù)(所)、每十萬人口高等學(xué)校平均在校生數(shù)(人)、人均公園綠地面積(平方米/人)、農(nóng)林牧漁業(yè)總產(chǎn)值(億元)。將18個(gè)指標(biāo)變量分別表示為X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X12、X13、X14、X15、X16、X17、X18。
2? ? ?基于主成分-系統(tǒng)聚類分析法的31個(gè)省市經(jīng)濟(jì)發(fā)展水平綜合分析過程
2.1? ?選擇分析方法——主成分分析
2.1.1? ?主成分分析方法簡(jiǎn)介
主成分分析的基本思想是將有一定相關(guān)性的多個(gè)原變量重新組合成少數(shù)幾個(gè)不相關(guān)的綜合變量來代替原變量,并反映出原變量的大部分信息[1]。假設(shè)某實(shí)際問題中有n個(gè)樣品,對(duì)每個(gè)樣品觀測(cè)p個(gè)指標(biāo),分別用X1,X2,…,XP表示,按各個(gè)主成分的累計(jì)貢獻(xiàn)率提取p個(gè)主成分(F1,F(xiàn)2,…,F(xiàn)p)的PCA信息轉(zhuǎn)移方程如下:
(1)
式(1)中aij(i=1,2,…,p;j=1,2,…,p)為第j主成分Fj和第i個(gè)原變量Xi的線性相關(guān)系數(shù)。
一般情況下,當(dāng)前m個(gè)主成分的累積貢獻(xiàn)率達(dá)到85%時(shí)[2],就選取m(m<p)個(gè)主成分來重新表示p維隨機(jī)向量X,也實(shí)現(xiàn)了降維。
2.1.2? ?PCA模型的適宜性檢驗(yàn)
本文使用KMO檢驗(yàn)統(tǒng)計(jì)量和Bartlett球形檢驗(yàn)方法來檢驗(yàn)變量間是否存在相關(guān)性,當(dāng)KMO值接近1,Bartlett球形檢驗(yàn)的P值小于或等于0.01時(shí),適合作主成分分析。由表1可知,KMO值0.775>0.6,且Bartlett球形檢驗(yàn)P值接近于0,表明所選指標(biāo)數(shù)據(jù)可以作主成分分析。
2.1.3? ?主成分提取
本文由Matlab軟件計(jì)算得出特征值、貢獻(xiàn)率及累計(jì)貢獻(xiàn)率,具體如表2所示。
由表2可知,當(dāng)主成分為3個(gè)時(shí),累積貢獻(xiàn)率為83.186%,能解釋原始變量所包含的信息,因此,本文提取前3個(gè)主成分,記作:第一主成分F1、第二主成分F2和第三主成分F3。
由式(1)和Matlab計(jì)算得到的3個(gè)主成分表達(dá)式如下:
F1=0.129X1+0.293X2+0.308X3+0.079X4+0.310X5
+0.024X6+0.304X7+0.309X8+0.302X9+0.264X10+
0.260X11+0.261X12+0.034X13+0.283X14+0.283X15+
0.053X16+0.060X17+0.241X18(2)
F2=0.449X1+0.158X2+0.015X3+0.040X4+0.026X5
+0.490X6+0.018X7+0.014X8+0.028X9+0.063X10+
0.149X11+0.233X12+0.479X13+0.165X14+0.136X15+
0.185X16+0.181X17+0.328X18(3)
F3=0.075X1+0.119X2+0.050X3+0.582X4+0.072X5
+0.160X6+0.099X7+0.049X8+0.010X9+0.112X10+
0.003X11+1851X12+0.057X13+0.049X14+0.206X15+
0.640X16+0.283X17+0.109X18(4)
由式(2)、式(3)、式(4)可知,第一主成分F1所有變量的系數(shù)都大于0,反映了綜合經(jīng)濟(jì)發(fā)展水平情況,F(xiàn)1值可粗略反映整體經(jīng)濟(jì)發(fā)展水平的高低;第二主成分F2只有變量X1、X6和X13的系數(shù)較大,剩余變量的系數(shù)都比較小或小于0,因此F2反映了在崗職工工資和圖書投入經(jīng)濟(jì)情況;第三主成分F3只有變量X4和X16的系數(shù)較大,其他變量的系數(shù)比較小或小于0,因此F3反映了固定資產(chǎn)投資或高等教育投資經(jīng)濟(jì)情況。
F1、F2和F3分別從不同方面反映了各省市的經(jīng)濟(jì)發(fā)展水平,為更好利用F1、F2和F3的信息,本文將它們按貢獻(xiàn)率綜合如下。
綜合主成分表達(dá)式如下:
(5)
式(5)中,F(xiàn)數(shù)值大小反映了各省市經(jīng)濟(jì)發(fā)展的綜合效果,即F的值越大,經(jīng)濟(jì)綜合水平越高,反之越低。
2.1.4? ?主成分得分及綜合得分
本文由Matlab軟件計(jì)算出各省市的F1、F2、F3及F的值,并按F值排名,具體如表3所示。
由表3可知,排名前10的省市分別為廣東省、江蘇省、浙江省、山東省、上海市、四川省、北京市、河南省、湖北省和湖南省,這些省市的工農(nóng)業(yè)發(fā)展規(guī)模較大、產(chǎn)值較高,且發(fā)展水平居全國(guó)前列[3]。排名靠后的省份,如海南省,旅游業(yè)是海南省的支柱產(chǎn)業(yè),第一、第二產(chǎn)業(yè)都不發(fā)達(dá),又受近兩年特殊情況的影響,旅游產(chǎn)業(yè)非常不景氣,所以海南省的經(jīng)濟(jì)狀況不好。對(duì)于寧夏回族自治區(qū)、青海省和西藏自治區(qū),都是我國(guó)西部的省(自治區(qū)),人口均不足1 000萬人,由于地理環(huán)境、氣候環(huán)境等各方面因素的影響,這些地區(qū)的生產(chǎn)力欠發(fā)達(dá),所以經(jīng)濟(jì)實(shí)力比較差。
2.2? ?系統(tǒng)聚類分析法
2.2.1? ?系統(tǒng)聚類法介紹
系統(tǒng)聚類法又叫分層聚類法,是目前最常用的聚類分析方法,指利用距離和相似系數(shù)把分類對(duì)象分成若干類的過程[4]。
本文選用離差平方和法(Ward)來測(cè)量類間距離。Ward方法是利用方差分析的思想來推導(dǎo)類間距離,如果分類正確,則同類之間的離差平方和應(yīng)當(dāng)較小,而不同類樣品之間的離差平方和應(yīng)當(dāng)較大[5]。
2.2.2? ?31個(gè)省市經(jīng)濟(jì)發(fā)展水平的分類
本文選取上述PCA提取的3個(gè)主成分F1、F2和F3指標(biāo)作系統(tǒng)聚類分析,利用Matlab軟件得到系統(tǒng)聚類樹形圖,如圖1所示。
基于圖1,本文把31個(gè)省市的經(jīng)濟(jì)發(fā)展水平分為5類。第1類是綜合水平高的省市,有江蘇省、浙江省和廣東省。這3個(gè)省的各主成分和綜合成分的得分都比較高,尤其F1和F值均排名前三。因此,從綜合經(jīng)濟(jì)發(fā)展情況來看,這3個(gè)省的經(jīng)濟(jì)發(fā)展水平遠(yuǎn)高于其他省份,這與實(shí)際相符。第2類是綜合水平中高的省市,有北京市和上海市。這兩個(gè)市的各主成分和綜合成分得分較高,但綜合成分得分較第1類中的3個(gè)省次之,說明北京市和上海市整體綜合經(jīng)濟(jì)發(fā)展水平在31個(gè)省市中居于中上水平。第3類是綜合水平居中的省份,有河北省、安徽省、山東省、河南省、湖北省、湖南省和四川省。其特點(diǎn)是F1值較高,說明這幾個(gè)省的綜合經(jīng)濟(jì)發(fā)展比較好,主要原因是這幾個(gè)省的農(nóng)業(yè)發(fā)展相對(duì)成熟,居31個(gè)省市前列。雖然綜合經(jīng)濟(jì)發(fā)展較好,但F2值均為負(fù)值,說明這幾個(gè)省的在崗職工工資和圖書投入等情況不太理想。第4類是綜合水平中低的省市,有天津市、山西省、內(nèi)蒙古、遼寧省、吉林省、黑龍江、福建省、江西省、廣西壯族自治區(qū)、海南省、重慶市、貴州省、云南省、陜西省、甘肅省以及新疆維吾爾自治區(qū)。這幾個(gè)?。ㄗ灾螀^(qū))的F1值次于第3類,F(xiàn)2值與第3類相近。第5類是綜合水平低的省市,有西藏自治區(qū)、青海省和寧夏回族自治區(qū)。這3個(gè)?。ㄗ灾螀^(qū))的F1、F2以及F3的值都極低,說明這3個(gè)省的綜合經(jīng)濟(jì)發(fā)展水平是31個(gè)省市中最低的。
3? ? ?研究結(jié)論
本文主要運(yùn)用PCA法和系統(tǒng)聚類法對(duì)31個(gè)省市的18個(gè)經(jīng)濟(jì)指標(biāo)進(jìn)行處理分析,對(duì)31個(gè)省市的經(jīng)濟(jì)發(fā)展水平作了綜合評(píng)價(jià)。從PCA法的分析中可知,第一主成分F1的表達(dá)式中每個(gè)變量系數(shù)均為正值,雖然部分系數(shù)很小,但整個(gè)F1的貢獻(xiàn)率達(dá)55.81%,說明各省市要想提高經(jīng)濟(jì)發(fā)展的總體水平,需要考慮每個(gè)指標(biāo);F2主要反映在崗職工薪資和圖書館館藏量情況,貢獻(xiàn)率為19.589%。一個(gè)發(fā)達(dá)的省市,員工薪資和文化建設(shè)也一定發(fā)達(dá),所以員工薪酬和文化建設(shè)對(duì)一個(gè)省市經(jīng)濟(jì)發(fā)展水平的衡量來說是必須考慮因素的;F3反映了固定資產(chǎn)投資或高等教育投資經(jīng)濟(jì)情況。由主成分F1、F2和F3的值可知,31個(gè)省市之間的經(jīng)濟(jì)發(fā)展差距是比較大的。
主要參考文獻(xiàn)
[1]朱建平.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2017:119-137.
[2]潘若愚,賀爾蓉.我國(guó)沿海鋼鐵產(chǎn)業(yè)基地布局研究[J].經(jīng)濟(jì)研究參考,2011(56):29-35.
[3]李文軍.山東省地級(jí)市經(jīng)濟(jì)發(fā)展水平評(píng)價(jià)[J].臨沂師范學(xué)院學(xué)報(bào),2003(6):77-80.
[4]周品.MATLAB概率與數(shù)理統(tǒng)計(jì)(最新版)[M].北京:清華大學(xué)出版社,2012:11.
[5]韓文革,于曉春.聚類分析在鷹嘴豆農(nóng)藝性狀分類上的應(yīng)用[J].內(nèi)蒙古農(nóng)業(yè)科技,2006(6):40-41,45.