劉 俐, 劉 璐, 王 智 森
( 大連工業(yè)大學 信息科學與工程學院, 遼寧 大連 116034 )
地域劃分已成為產(chǎn)業(yè)、投資、創(chuàng)新投入等的重要依據(jù),是制定地域發(fā)展政策的首要參考。因此,研究地域劃分是為地域經(jīng)濟持續(xù)發(fā)展、產(chǎn)業(yè)調整、區(qū)域布局等戰(zhàn)略設想的基礎。常見的地域劃分方法有行政劃分和地理劃分,這些方法屬于定性劃分,而隨著社會經(jīng)濟發(fā)展和產(chǎn)業(yè)發(fā)展,定性的地域劃分不能及時反映地域發(fā)展狀態(tài)。近年來,國內(nèi)外專家學者從不同角度對中國地域劃分進行了定量的聚類研究[1-3]。以農(nóng)村居民人均消費數(shù)據(jù)為研究對象,應用聚類分析方法將31省、市、自治區(qū)劃分為較高、中等、較低3類區(qū)域,并提出促進消費的建議[4]。山東農(nóng)業(yè)大學從肉羊產(chǎn)業(yè)發(fā)展的角度對山東省各市劃分為發(fā)展?jié)摿^(qū)域、優(yōu)勢欠缺區(qū)域和發(fā)展較成熟區(qū)域,進而分析各類區(qū)域的特征,并提出相應的發(fā)展建議[5]。范群林等[6]從環(huán)境技術創(chuàng)新能力的視角將中國30省、市的區(qū)域劃分為5類,并分析5類地區(qū)的環(huán)境技術創(chuàng)新能力分布特征,據(jù)此提出各類地區(qū)關于提升環(huán)境技術創(chuàng)新能力的相應策略,促進我國的可持續(xù)發(fā)展。
聚類分析在目前實際應用中,最常用的兩種方法是系統(tǒng)聚類法和快速聚類法。其中,快速聚類法雖然計算速度快,但需要實現(xiàn)根據(jù)樣本空間分布指定分類的數(shù)目,而當樣本的變量數(shù)超過3個時,該方法的可行性就較差。而系統(tǒng)聚類法利用樣本之間的距離最近原則進行聚類,由于類與類之間的距離計算方法靈活多樣,能使其適應不同的要求。但在聚類的過程中,如果對多個變量進行直接聚類,存在維度多和計算量大的問題,因此,本研究重點提出基于降維思想的系統(tǒng)聚類方法,使得降維后的聚類標準更加簡單直觀,降低計算量。利用中國城鎮(zhèn)居民消費數(shù)據(jù)對地域進行劃分,驗證該方法的可用性。
在實際問題中有p個指標,將這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是將p個指標通過線性組合轉化為p個新的指標,而這些新的指標C1,C2,…,Ck(k≤p)按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立,即
(1)
模型滿足的條件包括主成分之間相互獨立;主成分的方差依次遞減;每個主成分的系數(shù)平方和為1,即
(2)
根據(jù)主成分分析的數(shù)學模型,原始數(shù)據(jù)及模型條件,將數(shù)學模型中式(1)寫成
(3)
協(xié)方差矩陣的計算。利用原始數(shù)據(jù)計算協(xié)方差陣ΣX。
然后,根據(jù)協(xié)方差矩陣計算特征值和單位特征向量,即UT的列向量是λi,i=1,2,…,p對應的特征向量。
由式(4)計算特征值λi及其相應的單位特征向量ui=(ui1,ui2,…,uip),i=1,2,…,p,其中I表示單位陣。
ΣX-λiI=0
(4)
由于ΣX為非負定的對稱陣,必存在正交陣U,使得
(5)
ΣX的特征根λ1,λ2,…,λp分別代表主成分C1,C2,…,Cp的方差,且特征值依次遞減。
最后,根據(jù)特征值計算貢獻率(Cr)和累計貢獻率。貢獻率指某個主成分方差占全部方差的比重,也就是某個特征值占全部特征值合計的比重,如式(6)所示。累積貢獻率指前k個貢獻率的加和,為保留絕大部分數(shù)據(jù)信息,將選取累計貢獻率達90%以上的前k個主成分。
(6)
累積貢獻率選取前k個主成分,再由式(4)得到特征向量,得到C1,C2,…,Ck(k≤p)的具體線性表達式。對系統(tǒng)聚類的變量進行降維,以線性表達式中變量前的系數(shù)絕對值大于0.4為標準,篩選符合條件的主要變量集合進行系統(tǒng)聚類。
系統(tǒng)聚類法是先將n個樣品各自看成一類,然后規(guī)定類與類之間的距離,選擇距離最小的一對合并成新的一類,計算新類與其他類的距離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣品都成為一類為止。
計算樣本間的歐氏距離。由于以地區(qū)為樣本,對樣本進行聚類,將距離作為聚類的統(tǒng)計量,且統(tǒng)計量采用歐氏距離,將每一個樣品看作p維空間的一個點,令dij為樣品Xi和Xj的距離,m為樣品指標具體維度。
(7)
選取離差平方和計算類間距離。應用離差平方和計算距離,先將n個樣品各自成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使離差平方和增加最小的兩類合并,直至所有的樣品歸為一類。
研究數(shù)據(jù)來源于《中國統(tǒng)計年鑒》[7],2011—2015年中國省級城鎮(zhèn)居民的人均消費支出數(shù)據(jù),具體消費項目名稱及變量的選取如表1所示。
表1 居民消費項目表
對5年31個地區(qū)城鎮(zhèn)居民的8項消費支出項目進行主成分實證分析,得到主成分與8個變量之間的線性組合。并根據(jù)主成分的累計貢獻率,確定主成分個數(shù)。再依據(jù)變量前系數(shù)絕對值的大小,篩選出主要變量作為地域聚類的標準。
以2015年數(shù)據(jù)為例,首先,利用省級城鎮(zhèn)居民的人均八項消費數(shù)據(jù)計算得出協(xié)方差矩陣
根據(jù)式(4),得到特征值及相應的單位特征向量
根據(jù)累計貢獻率來確定需要選取的前k個主成分。由表2累積貢獻率可知,即k取2即可滿足主成分的選取標準,可見2015年主成分的選取保留了93.60%的原始信息。
表2 2015年主成分導出一覽表
由單位特征向量寫出主成分對應原始變量的系數(shù),新成分選取為C1和C2與原始變量的線性關系。兩個主成分C1和C2代替了原來8個變量來描述城鎮(zhèn)居民的總消費支出情況。根據(jù)聚類變量降維篩選原則,在C1中符合條件的變量為X1和X3,在C2中為X1,因此2015年消費的聚類變量為X1和X3。利用同樣的方法,分別對2011—2014年省級城鎮(zhèn)居民人均消費支出的數(shù)據(jù)進行主成分分析,分別得到2011—2015年期間城鎮(zhèn)居民消費的聚類變量,如表3所示。
表3 系統(tǒng)聚類變量
將表3主成分降維的聚類變量作為聚類標準,利用系統(tǒng)聚類方法,分別對2011—2015年省級地區(qū)進行聚類。利用式(7)計算省級地區(qū)間的距離,用離差平方和計算類與類之間的距離,然后將距離較近的兩類合并為一類,以此類推,直至聚類結束,聚類結果如圖1所示。
圖1 省級地區(qū)的聚類結果
由圖1可見,就單個省級地區(qū)而言,從5年的聚類結果來看,很難實現(xiàn)跨類發(fā)展,始終保持鄰類別地區(qū)發(fā)展,即一二類內(nèi)的地區(qū)之間波動,三四類內(nèi)的地區(qū)之間波動。各地區(qū)的發(fā)展速度不同,導致有些地區(qū)發(fā)展速度快,超過了原處于同類別的地區(qū),出現(xiàn)部分地區(qū)波動現(xiàn)象。
對比聚類結果與實際情況,發(fā)現(xiàn)此種方法的地域劃分結果與地域發(fā)展的實際情況相符。一方面,由于各地的自然資源、產(chǎn)業(yè)發(fā)展?jié)摿Α⑷司杖氲炔煌?,造成省級之間非均衡發(fā)展的趨勢,因此省級之間被聚為不同類別。另一方面,地域發(fā)展呈現(xiàn)階段性,通過近5年的聚類結果顯示,大部分省級地區(qū)保持穩(wěn)定發(fā)展,而浙江、廣東、青海、新疆、安徽、湖北、廣西、云南、陜西在2013和2014年出現(xiàn)波動。這表明大部分地區(qū)發(fā)展較穩(wěn)定,即使出現(xiàn)少數(shù)地區(qū)的波動現(xiàn)象,也是發(fā)生在鄰近類別之間。
利用降維系統(tǒng)聚類方法,對全國省級地區(qū)進行地域劃分,該方法對2011—2015年省級地區(qū)城鎮(zhèn)居民的消費數(shù)據(jù)進行實證分析。通過累積貢獻率對主成分進行篩選,根據(jù)主成分中變量前系數(shù)絕對值大小來降低聚類變量的維度,并利用居民消費數(shù)據(jù)對該方法進行驗證。結果顯示,就單個地區(qū)而言,各省級地區(qū)始終保持在鄰近類別之間發(fā)展,且未出現(xiàn)跨類發(fā)展的現(xiàn)象。表明各地區(qū)保持循序漸進的發(fā)展趨勢,這與地域發(fā)展規(guī)律相符,驗證了降維系統(tǒng)聚類方法的可用性。地域的有效劃分有助于找準地域定位,確定發(fā)展目標,能夠為探討地域的發(fā)展路徑提供有效參考。