范迎軍, 袁永生
(河海大學(xué)理學(xué)院,南京210098)
改革開放以來,我國人口的就業(yè)狀況發(fā)生了較大變化,就業(yè)結(jié)構(gòu)明顯改善,勞動(dòng)生產(chǎn)率得到較大的提高.但是各省市就業(yè)總體狀況各不相同,就業(yè)結(jié)構(gòu)、城鄉(xiāng)人力資源的就業(yè)分布也有各自的特點(diǎn).中西部省份和沿海城市相比,在經(jīng)濟(jì)發(fā)展水平、企業(yè)生存狀況、人力資源開發(fā)、非農(nóng)產(chǎn)業(yè)就業(yè)狀況、工業(yè)化程度等方面相對(duì)較低,這些因素導(dǎo)致了中西部省市在就業(yè)結(jié)構(gòu)方面明顯異于沿海省市.
本文對(duì)31省的就業(yè)情況進(jìn)行研究,在主成分分析的基礎(chǔ)上,定義了新的深度函數(shù),以深度函數(shù)代替原有的回歸評(píng)分函數(shù)[1-5]進(jìn)行綜合排序.統(tǒng)計(jì)深度函數(shù)為多維數(shù)據(jù)提供了一種從深度中心向外的排序方法,由深度函數(shù)的性質(zhì)[6-7]可知,靠近中心的數(shù)據(jù)深度較大,遠(yuǎn)離中心的數(shù)據(jù)深度較小.我們以西藏的主成分因子作為深度中心,因此得到的31省市的綜合得分函數(shù)越小,說明排名越靠前,反之亦然.
進(jìn)一步,考慮主成分所起作用不同,以主成分的方差貢獻(xiàn)率為權(quán)重,運(yùn)用加權(quán)歐氏距離進(jìn)行了主成分聚類,結(jié)果更符實(shí)際.在分析結(jié)果的基礎(chǔ)上,總結(jié)出4個(gè)層次地區(qū)就業(yè)情況的總體特點(diǎn)與差異,并對(duì)差異的形成原因進(jìn)行了分析,找出各層次地區(qū)在就業(yè)情況中的優(yōu)勢與不足.
對(duì)中國就業(yè)情況進(jìn)行評(píng)價(jià),首先要構(gòu)建其指標(biāo)體系,本文對(duì)中國31省市的就業(yè)情況進(jìn)行研究,根據(jù)2010年《中國統(tǒng)計(jì)年鑒》[8],選取屬于中國3大產(chǎn)業(yè)的19個(gè)行業(yè)作為指標(biāo)體系,即:X1(農(nóng)、林、牧、漁業(yè))、X2(采礦業(yè))、X3(制造業(yè))、X4(電力、燃?xì)饧八纳a(chǎn)和供應(yīng)業(yè))、X5(建筑業(yè))、X6(郵政)、X7(信息傳輸)、X8(批發(fā)、零售)、X9(住宿餐飲業(yè))、X10(金融業(yè))、X11(房地產(chǎn))、X12(商務(wù)服務(wù)業(yè))、X13(科研、技術(shù)服務(wù)和地質(zhì)勘查業(yè))、X14(水利、環(huán)境和公共設(shè)施管理)、X15(居民服務(wù))、X16(教育)、X17(衛(wèi)生、社會(huì)福利)、X18(文化、體育和娛樂業(yè))、X19(公共管理和社會(huì)組織),將31省市的19個(gè)行業(yè)就業(yè)數(shù)作為原始數(shù)據(jù).
(1)利用SPSS軟件,先對(duì)19個(gè)指標(biāo)的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,并得到各指標(biāo)之間的相關(guān)系數(shù)矩陣R.
(2)通過數(shù)據(jù)處理,KMO值為0.755,同時(shí)通過Bartlett檢驗(yàn)(表1),說明這些數(shù)據(jù)適合作因子分析.
表1 KMO和Bartlett檢驗(yàn)Table 1 KMO and Bartlett′s test
(3)計(jì)算相關(guān)系數(shù)矩陣R的特征值和特征向量,結(jié)果見表2,根據(jù)特征值累計(jì)貢獻(xiàn)率大于85%確定主成分的數(shù)目為3,提取了87.27%的信息,求得因子載荷陣.
表2 R的特征值與累計(jì)貢獻(xiàn)率Table 2 R′s charalteristic value and cumulative percentage
(4)主成分因子與原始指標(biāo)之間的關(guān)聯(lián)程度由因子載荷陣體現(xiàn),由于初始因子載荷陣因子含義不明顯,為此利用方差最大正交旋轉(zhuǎn)(Varimax)[9],得到旋轉(zhuǎn)后的因子載荷陣(如表3).
將旋轉(zhuǎn)后的因子載荷陣中各指標(biāo)按載荷值較高的情況分為3類,即3個(gè)主成分.第1個(gè)主成分F1在X6(郵政)、X7(信息傳輸)、X8(批發(fā)、零售)、X9(住宿餐飲業(yè))、X10(金融業(yè))、X11(房地產(chǎn))、X12(商務(wù)服務(wù)業(yè))、X13(科研、技術(shù)服務(wù)和地質(zhì)勘查業(yè))、X15(居民服務(wù))、X18(文化、體育和娛樂業(yè))上的載荷值都很大.可以看出F1是第三產(chǎn)業(yè)中一些行業(yè)的指標(biāo)因子的歸類,是新興產(chǎn)業(yè)因子.
第2個(gè)主成分F2在X2(采礦業(yè))、X3(制造業(yè))、X4(電力、燃?xì)饧八纳a(chǎn)和供應(yīng)業(yè))、X5(建筑業(yè))、X6(郵政)、X8(批發(fā)、零售)、X10(金融業(yè))、X14(水利、環(huán)境和公共設(shè)施管理)、X16(教育)、X17(衛(wèi)生、社會(huì)福利)、X19(公共管理和社會(huì)組織)上有較大的載荷值.可以看出F2是第二產(chǎn)業(yè)與第三產(chǎn)業(yè)中部分行業(yè)的指標(biāo)因子的歸類,是與第二產(chǎn)業(yè)、第二產(chǎn)業(yè)相關(guān)的服務(wù)業(yè)因子.
第3個(gè)主成分 F3在 X1(農(nóng)、林、牧、漁業(yè))、X2(采礦業(yè))上載荷值較大.F3是第一產(chǎn)業(yè)與第二產(chǎn)業(yè)中部分行業(yè)的指標(biāo)因子的綜合,是傳統(tǒng)行業(yè)因子.
(5)通過因子分析,將19個(gè)變量降為3個(gè)公共因子,依據(jù)旋轉(zhuǎn)后的因子載荷陣寫出F1、F2、F3的因子表達(dá)式為:
其中X為標(biāo)準(zhǔn)化后的數(shù)據(jù),lj為因子載荷陣.
從3個(gè)主成分的得分可以看出,由于西藏的3個(gè)因子明顯均處于最低水平,利用這個(gè)特點(diǎn),以西藏的主成分Z為深度中心,定義這里的深度函數(shù)為:
表3 旋轉(zhuǎn)前后的因子載荷陣Table 3 Original and rotated component matrix
其中d(Zi,Z)為定義的加權(quán)歐氏距離,即
其中yi,k為樣本Zi在主成分Fk上的得分,ωk為第k個(gè)主成分的方差貢獻(xiàn)率,而
即數(shù)列{d(Zi,Z)}的中位數(shù).
以深度函數(shù)作為評(píng)定綜合得分函數(shù),由深度函數(shù)的定義可知,數(shù)據(jù)深度可以看作是一個(gè)髙維數(shù)據(jù)在給定樣本數(shù)據(jù)集下,這個(gè)數(shù)據(jù)有多么的靠近深度中心,靠近中心的數(shù)據(jù)深度較大,遠(yuǎn)離中心的數(shù)據(jù)深度較小.因此得到的31省市的綜合得分函數(shù)越小,說明排名越靠前,反之亦然.通過深度函數(shù)計(jì)算出綜合得分,列出各省市就業(yè)情況排名順序,見如表4.
表中各因子對(duì)應(yīng)的數(shù)值越大,表明在此方面的就業(yè)水平越好,表中的負(fù)值表示該地區(qū)在對(duì)應(yīng)的方面就業(yè)情況低于全國平均水平.
從F1得分可以看出,廣東、北京等地在服務(wù)行業(yè)具有明顯的優(yōu)勢,低于平均水平的大多為中西部地區(qū),這是急需發(fā)展的行業(yè).從F2得分看,廣東、山東、河南等地在第二產(chǎn)業(yè)與部分第三產(chǎn)業(yè)具有明顯優(yōu)勢,小于0的中西部地區(qū)有待提高.從F3得分看,在農(nóng)、林、牧、漁業(yè)、采礦業(yè)上黑龍江、遼寧、新疆、河南等地具有優(yōu)勢,這與地理優(yōu)勢與礦產(chǎn)資源有很大的關(guān)系.
F1對(duì)原始變量的方差貢獻(xiàn)率為39.992%,F(xiàn)2對(duì)原始變量的方差貢獻(xiàn)率為39.04%.F1、F2都是研究就業(yè)情況時(shí)需要著重考慮的方面.F3對(duì)原始變量的方差貢獻(xiàn)率為8.238%,對(duì)評(píng)價(jià)就業(yè)情況的重要性要相對(duì)低一些.
由于主成分重要性不一,我們對(duì)于樣本間距離的定義需要考慮到特征指標(biāo)所起的作用不同,本文選擇各個(gè)主成分的方差貢獻(xiàn)率作為權(quán)重進(jìn)行主成分加權(quán)聚類.
主成分加權(quán)聚類:當(dāng)樣本比較大,指標(biāo)比較多的時(shí)候,利用樣本的主成分得分代替原始數(shù)據(jù)進(jìn)行主成分聚類,大大減少了聚類過程中計(jì)算的復(fù)雜程度,同時(shí)為了突顯主成分的不同作用,對(duì)兩兩樣本的距離進(jìn)行加權(quán)綜合.31個(gè)樣本中兩兩樣本Zi,Zj間的距離為d(Zi,Zj),這里采用(3)中的加權(quán)距離公式.而類與類之間采用系統(tǒng)聚類中的類平均法[10]進(jìn)行主成分聚類.
通過加權(quán)距離公式進(jìn)行主成分聚類,聚類結(jié)果見表4,得到譜系圖(圖1).我們將31省市的就業(yè)情況分為4大類.
表4 綜合排名與主成分聚類結(jié)果Table 4 Integrated rank and principal component clustering results
第1類為北京、廣東,說明在非農(nóng)產(chǎn)業(yè)因子上有絕對(duì)優(yōu)勢的地位,各方面的資源得到充分的應(yīng)用;第2類為山東、河南、浙江、江蘇和上海,這5個(gè)華東區(qū)的省市在第二產(chǎn)業(yè)與第三產(chǎn)業(yè)的得分高于全國平均水平,特別是在第二產(chǎn)業(yè)及與之聯(lián)系緊密的服務(wù)業(yè)上優(yōu)勢明顯,展現(xiàn)了區(qū)域性就業(yè)發(fā)展的巨大潛力;第3類為四川、遼寧、黑龍江、陜西、福建等21個(gè)省市,涵蓋區(qū)域最廣,東部省市如黑龍江第二產(chǎn)業(yè)與服務(wù)業(yè)得分排名靠前,而中西部如安徽和陜西傳統(tǒng)行業(yè)因子較高,展現(xiàn)了非農(nóng)產(chǎn)業(yè)與傳統(tǒng)農(nóng)業(yè)就業(yè)情況的不協(xié)調(diào)發(fā)展,是需要大力發(fā)展非農(nóng)產(chǎn)業(yè)的區(qū)域;第4類為寧夏、青海、西藏,該類西部省區(qū)在各因子中的得分均明顯落后于全國平均水平,在非農(nóng)產(chǎn)業(yè)開發(fā)方面面臨巨大挑戰(zhàn).
比較因子分析與主成分加權(quán)聚類結(jié)果,除了上海與四川的聚類結(jié)果排序與因子分析綜合得分排序有所不同外,其他省市的排序結(jié)果具有很好的一致性.
圖1 各省就業(yè)聚類分析譜系圖Fig.1 The tree diagram of the 31 province's employment
就業(yè)結(jié)構(gòu)地域性差異明顯,并受多方面因素的影響.
從因子分析與主成分聚類結(jié)果上看,第一、第二層中廣東、北京、山東、河南、浙江、江蘇、上海等地就業(yè)情況領(lǐng)先全國,原因是多因素的.
(1)沿海城市改革早、發(fā)展快,就業(yè)的能力差異主要是由于就業(yè)結(jié)構(gòu)不同引起的,經(jīng)濟(jì)發(fā)達(dá)地區(qū)非農(nóng)產(chǎn)業(yè)吸納就業(yè)的能力明顯高于經(jīng)濟(jì)落后地區(qū),特別是第三產(chǎn)業(yè).
(2)工業(yè)化程度,工業(yè)的發(fā)展促進(jìn)就業(yè)崗位的增加,同時(shí)帶動(dòng)服務(wù)業(yè)的發(fā)展,促進(jìn)就業(yè)結(jié)構(gòu)的變化,而東部地區(qū)工業(yè)化程度均高于中西部地區(qū),工業(yè)結(jié)構(gòu)實(shí)現(xiàn)了第二產(chǎn)業(yè)與第三產(chǎn)業(yè)的協(xié)調(diào)發(fā)展.第三、第四層中中西部地區(qū)的工業(yè)化水平相對(duì)較低,第二產(chǎn)業(yè)與第三產(chǎn)業(yè)沒有很好的協(xié)調(diào)發(fā)展,特別是與制造業(yè)密切相關(guān)的第三產(chǎn)業(yè)發(fā)展水平偏低.
(3)城鎮(zhèn)化水平在全國區(qū)域差異性明顯,東部城鎮(zhèn)化水平高,促進(jìn)本地非農(nóng)產(chǎn)業(yè)的部門轉(zhuǎn)移,有效帶動(dòng)了第三產(chǎn)業(yè)的就業(yè).而中西部地區(qū)縣域經(jīng)濟(jì)相對(duì)落后,不能有效的吸收農(nóng)村剩余勞動(dòng)力,寧夏、青海、西藏等中西部地區(qū)無論在人才、資源、技術(shù)等方面都與沿海地區(qū)有很大差距.
(4)非公有制經(jīng)濟(jì)的發(fā)達(dá)水平,非公有制經(jīng)濟(jì)能夠有效地推動(dòng)就業(yè)結(jié)構(gòu)的變化.
(5)國家區(qū)域發(fā)展政策的影響.
[1]汪文雄,李啟明.基于因子與聚類分析的中國建筑業(yè)產(chǎn)業(yè)競爭力研究[J].數(shù)理統(tǒng)計(jì)與管理,2008(3):329-337.
[2]陸遠(yuǎn)權(quán),馬壘信,何倩倩.我國31省區(qū)人力資源狀況的比較研究[J].統(tǒng)計(jì)與決策,2011(4):75-78.
[3]陳希鎮(zhèn),林俊濤.用多元統(tǒng)計(jì)方法分析浙江省各地區(qū)的經(jīng)濟(jì)結(jié)構(gòu)[J].數(shù)理統(tǒng)計(jì)與管理,2010,29(6):1044-1051.
[4]趙元篤,趙艷軻.廣東省工業(yè)主導(dǎo)產(chǎn)業(yè)選擇初探——基于因子分析和聚類分析的實(shí)證研究[J].科技管理研究,2011(13):30-34.
[5]王慶豐,黨耀國,王麗敏.基于因子與聚類分析的縣域經(jīng)濟(jì)發(fā)展研究——以河南省18個(gè)縣(市)為例[J].數(shù)理統(tǒng)計(jì)與管理,2009,28(3):495 -501.
[6]REBECKA JORNSTEN. Clustering and classification based on the L1 data depth[J].Journal of Multivariate A-nalysis,2004,90:67 -89.
[7]ZUO Yijun,CUI Hengjian,HE Xuming.On the Stahel-Donoho estimator and depth-weighted means of multivariate data[J].The Annals of Statistics,2004,32(1):167 -188.
[8]中華人民共和國國家統(tǒng)計(jì)局.中國統(tǒng)計(jì)年鑒(2010)[M].北京:中國統(tǒng)計(jì)出版社,2010.
[9]王德青.一類復(fù)雜觀測數(shù)據(jù)的分類方法研究[D].南京:河海大學(xué)理學(xué)碩士學(xué)位論文,2009:17-24.
[10]包為民,萬新宇,荊艷東,等.基于主成分分析的河流洪水系統(tǒng)聚類法[J].河海大學(xué)學(xué)報(bào),2008(1):1-5.