陳瑜鑫, 劉惠籃
(貴州大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 貴陽 550025)
由于社會和自然因素影響,我國各地區(qū)的城市建設(shè)情況及設(shè)施水平發(fā)展不均衡。本次研究的主要目的是對城市建設(shè)情況及設(shè)施水平的相關(guān)數(shù)據(jù)進(jìn)行分析,從而得出各地區(qū)城市建設(shè)水平的綜合得分,更好地了解各地區(qū)城市建設(shè)情況與設(shè)施水平的差異。
近年來,眾多研究人員對城市設(shè)施水平進(jìn)行了比較研究,得出了一些研究成果。2004年,李鳳琴[1]選取了與城市設(shè)施水平有關(guān)的7個變量,在因子分析的基礎(chǔ)上,結(jié)合聚類分析對各地區(qū)城市設(shè)施水平進(jìn)行評價,由聚類分析的結(jié)果將這些地區(qū)分成3類,最終得到了城市設(shè)施水平的大致情況;2008年,張哲等[2]針對全國31個城市基礎(chǔ)設(shè)施建設(shè)數(shù)據(jù),運用聚類分析和主成分分析進(jìn)行實證研究,結(jié)論表明:基礎(chǔ)設(shè)施建設(shè)水平較高的是經(jīng)濟(jì)發(fā)達(dá)的北京、上海等城市,相對于南方城市而言,北方城市的建設(shè)水平普遍較低;2013年,謝英欣等[3]基于K-均值法對我國各地區(qū)城市基礎(chǔ)設(shè)施建設(shè)水平進(jìn)行聚類,分析我國東部和西部地區(qū)城市基礎(chǔ)設(shè)施建設(shè)不均衡的具體因素,提出政府要充分發(fā)揮宏觀調(diào)控的作用,加大對我國中西部地區(qū)城市的政策幫助和資金投入,加快改善中西部落后省份城市的基礎(chǔ)設(shè)施建設(shè)水平;2015年,張偉芳等[4]選取了甘肅省各城市10年的基礎(chǔ)設(shè)施數(shù)據(jù),運用變異系數(shù)法計算各州市的城市基礎(chǔ)設(shè)施得分,通過圖表描繪了各城市基礎(chǔ)設(shè)施的改變,得出了甘肅省14個州市基礎(chǔ)設(shè)施建設(shè)水平的發(fā)展存在明顯差異,從3個方面分析了城市基礎(chǔ)設(shè)施的影響因素;2016年,榮月靜等[5]選取長江三角洲地區(qū)16個城市基礎(chǔ)設(shè)施建設(shè)的數(shù)據(jù),基于多因素綜合評價等方法對該地區(qū)的城市基礎(chǔ)設(shè)施建設(shè)水平進(jìn)行研究,提出城市基礎(chǔ)設(shè)施的各個方面要協(xié)調(diào)發(fā)展,同時也指明各城市在基礎(chǔ)設(shè)施發(fā)展過程中存在的問題,并提出與之相對應(yīng)的解決方法,期望長江三角洲各個城市的基礎(chǔ)設(shè)施建設(shè)為其他城市提供一定的經(jīng)驗;2017年,朱怡然[6]選擇了城市橋梁、綠地面積、用水普及率等22個指標(biāo)對全國31個省市自治區(qū)的城市競爭力進(jìn)行評價,利用主成分分析選取了前4個主成分并得到31個省市自治區(qū)的綜合得分,根據(jù)綜合得分將這些地區(qū)進(jìn)行排序,對城市建設(shè)水平較低的地區(qū)給出了一些很有針對性的建議。
對于城市建設(shè)水平的研究,上述學(xué)者建立了比較完善的評價指標(biāo)體系,為研究最新的城市建設(shè)水平提供了堅實的基礎(chǔ)。采用不同的多元統(tǒng)計方法研究各地區(qū)城市建設(shè)及設(shè)施水平,得到了不同地區(qū)城市建設(shè)水平發(fā)展的具體情況,針對各地區(qū)城市建設(shè)水平的差異,提出了與之相對應(yīng)的解決對策。但是以上研究大多基于主成分分析和因子分析等傳統(tǒng)多元統(tǒng)計方法,在某些情形下難以解釋。稀疏主成分方法極大地稀疏了載荷矩陣,因此,它相較于主成分方法具有更強的可解釋性。通過平衡主成分的稀疏度和解釋程度,討論了懲罰參數(shù)的選擇方法。
本文基于稀疏主成分法與聚類方法對2017年和2018年城市建設(shè)情況及設(shè)施水平的數(shù)據(jù)進(jìn)行研究,深入了解各地區(qū)城市建設(shè)情況與設(shè)施水平的差異,得到了2017年到2018年城市建設(shè)水平的動態(tài)變化,這些有意義的結(jié)論將促進(jìn)城市的建設(shè)與發(fā)展。
主成分分析[7]是在保留絕大多數(shù)信息量的條件下,通過線性變換的方式,用較少的新變量替代原來較多的變量。它的實質(zhì)就是通過原始變量的線性組合來達(dá)到降低原始變量維度的目的,主成分就是經(jīng)過變換后得到的新變量。主成分與原始變量之間存在以下的關(guān)系:各主成分之間互不相關(guān),原始變量的數(shù)量大于主成分的數(shù)量,多個原始變量的不同線性組合構(gòu)成了不同的主成分,選取的主成分只損失了原始變量很少部分信息。
設(shè)X=(X1,X2,…,Xp)T是p維隨機向量,均值E(X)=μ,協(xié)方差陣Cov(X,X)=∑??紤]以下的線性變換:
容易看到:
為了得到較好的結(jié)果,希望Zi的方差比較大,同時Zi之間是互相獨立的,由于
對于任意的常數(shù)c,有
從上面的式子可以看出,對ai不加限制時,Var(Zi)將會變得任意大,這樣,所研究的問題將變得沒有意義。因此,有下面的約定:
(2)Zi與Zj相互無關(guān),i≠j,i,j=1,2,…,p。
等式兩邊分別對a1和λ求導(dǎo),并令其等于0
另外,主成分的選取個數(shù)可以由特征值的變化情況來確定,可以利用R軟件畫出碎石圖,通過圖形的變化趨勢來確定主成分的個數(shù)m。由相關(guān)陣R求主成分的過程與由協(xié)方差陣∑求主成分的過程是一致的,這是因為X的相關(guān)陣剛好是X*的協(xié)方差陣,X*是原始變量經(jīng)過標(biāo)準(zhǔn)化處理后的變量。
Zou等[8]提出了稀疏主成分分析方法,稀疏主成分是建立在主成分可以寫成一個二次懲罰的回歸型優(yōu)化問題的基礎(chǔ)上的,Lasso[9]懲罰和Elastic Net[10]可以直接整合到回歸準(zhǔn)則中,從而實現(xiàn)模型具有稀疏加載的主成分。稀疏加載后的主成分,使得載荷矩陣的一部分變量系數(shù)壓縮為零,不僅提高了模型的可解釋性,而且稀疏主成分能正確地識別重要的變量,不會丟失重要變量的信息。通常情況下,稀疏主成分的求解能轉(zhuǎn)化為如下的優(yōu)化問題:
s.t.ATA=Ik×k
其中:Xi表示原始矩陣的第i列。下面的算法總結(jié)了稀疏主成分的求解步驟:
Step1令A(yù)初始化為前k個普通主成分的載荷向量V[,1:k]。
Step2對于固定的A=[α1,…,αk],其中αi,i=1,2,…,k表示前k個主成分的載荷向量,解下面的Elastic Net問題:
其中j=1,2,…,k。
Step3對于固定的B=[β1,β2,…,βk],其中,βi,i=1,2,…,k表示前k個稀疏主成分的載荷矩陣。計算SVD分解XTXB=UDVT,然后更新A=UVT。
Step4重復(fù)第二步至第三步,直到收斂為止。
通常可以使用LARS-EN算法求解步驟2中的Elastic Net問題,從而得到合適的懲罰系數(shù)。同時LARS-EN算法很大程度上提高了稀疏主成分的計算效率。
準(zhǔn)確地選擇懲罰系數(shù)對求解主成分是極其關(guān)鍵的,當(dāng)n>p時,η通常被選取為零,不同的η1,j可以得到不同的稀疏主成分。本文選擇懲罰系數(shù)時,不僅要考慮主成分的稀疏度,同時也必須兼顧主成分對于原始變量的解釋程度[11]。令M表示載荷為零的變量個數(shù),N代表總變量個數(shù),PEV表示方差解釋程度。定義S為
用解釋方差度刻畫解釋程度,本文考慮S達(dá)到最大時所對應(yīng)的η1,j值是最優(yōu)的懲罰系數(shù)。
作為一種常用的多元統(tǒng)計方法,聚類分析將樣品進(jìn)行分類,根據(jù)樣品之間的相似性,把相似度越高,差異越小的樣品聚為一類,使得同一類中樣品相似度高,不同類之間樣品相似度低。這里主要研究的是Q型聚類分析。研究樣品之間的關(guān)系是對樣品進(jìn)行聚類的前提,有許多統(tǒng)計量可以用來描述樣品間的相似程度,一般用得比較多的統(tǒng)計量就是距離。樣品Xi與Xj之間的距離用dij來表示,一般有下面的要求:
(1)dij≥0,?i,j;dij=0?Xi=Xj。
(2)dij=dji,?i,j。
(3)dij≤dik+dkj,?i,j,k。
此處使用的樣品間的距離是歐式距離。其定義為
在眾多聚類方法中,應(yīng)用最為廣泛的就是系統(tǒng)聚類法,系統(tǒng)聚類法的聚類過程可以由譜系圖最終表示出來。系統(tǒng)聚類法的步驟如下:
Step1計算n個樣品兩兩之間的距離。
Step2將n個樣品對應(yīng)于n個類,保證每個類只包括一個樣品。
Step3將n個類中距離最接近的兩個類合成一個新的類。
Step4計算已有的各類與最新得到的類之間的距離;觀察類的個數(shù)是否為1。如果不是,重復(fù)步驟3和4;若是,則轉(zhuǎn)到步驟5。
Step5畫出譜系聚類圖。
Step6決定分類的個數(shù)和聚類的成員。
本文使用的數(shù)據(jù)為目前所有的最新數(shù)據(jù),來源于2018年和2019年中國統(tǒng)計年鑒,各地區(qū)城市建設(shè)情況及設(shè)施水平的統(tǒng)計指標(biāo)見表1。首先采用稀疏主成分方法對2018年各地區(qū)的城市建設(shè)情況及設(shè)施水平進(jìn)行評價,利用該方法計算各地區(qū)的綜合得分,按綜合得分的高低進(jìn)行排序。僅選取一年的城市建設(shè)水平數(shù)據(jù)進(jìn)行分析,只能了解這些地區(qū)該年度的城市建設(shè)情況,無法更好地了解城市發(fā)展的趨勢。因此,將2017年和2018年我國各地區(qū)的綜合得分進(jìn)行對比,得出兩年間我國城市建設(shè)情況及設(shè)施水平的變化趨勢。同時運用系統(tǒng)聚類法對全國31個省市自治區(qū)分類。
表1 城市建設(shè)水平評價指標(biāo)Table 1 Evaluation index of urban construction level
由于各個評價指標(biāo)的單位不一致,而且指標(biāo)的量級差距較大,所以本文在使用主成分分析(表2)和稀疏主成分分析之前,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。通過稀疏主成分分析法,可以得到前5個稀疏主成分的載荷矩陣、貢獻(xiàn)率、累積貢獻(xiàn)率,懲罰系數(shù)η1,j=(0.3,0.6,0.2,1,0.6)對應(yīng)于不同的稀疏主成分。稀疏化后的載荷矩陣如表3所示。
表2 主成分的載荷矩陣Table 2 Loading matrix of principal components
表3 稀疏主成分的載荷矩陣Table 3 Loading matrix of sparse principal components
城區(qū)面積、建成區(qū)面積、城市建設(shè)用地面積、征用土地面積的綜合就是第一主成分,第一主成分主要代表城市建設(shè)中的面積;第二主成分為水氣主成分,主要與城市用水普及率和城市燃?xì)馄占奥氏嚓P(guān);第三主成分為人均面積及密度主成分,主要表示的是人均城市道路面積、人均公園綠地面積和城市人口密度;第四主成分和第五主成分中,由于其他變量的系數(shù)被壓縮為零,分別只剩下一個變量的系數(shù)非零,因此,第四主成分表示每萬人擁有公共廁所;第五主成分表示每萬人擁有公共交通車輛。
由主成分和稀疏主成分載荷矩陣的對比分析來看,使用稀疏主成分極大地稀疏了載荷矩陣,使得每個主成分所對應(yīng)的部分變量系數(shù)被壓縮為0。由表3可知,前5個稀疏主成分的方差貢獻(xiàn)率逐漸減少,保留了原始變量72.0%的信息,同時極大地稀疏了載荷變量的個數(shù)。第一主成分中,載荷為0的變量個數(shù)有7個,第二主成分中,載荷為0的變量個數(shù)有9個,第三主成分中,載荷為0的變量個數(shù)有8個,第四主成分和第五主成分中,載荷為0的變量個數(shù)都有10個。利用稀疏主成分對各地區(qū)城市建設(shè)情況及設(shè)施水平進(jìn)行分析,可以得到各地區(qū)的綜合得分及排名如表4所示。值得注意的是,表4中綜合得分負(fù)得越大,綜合得分越高。
表4 各地區(qū)城市建設(shè)水平綜合得分及排名Table 4 Comprehensive score and ranking of urban construction level in various regions
從表4可以看到2018年我國各地區(qū)城市建設(shè)與設(shè)施水平的大致情況,具體表現(xiàn)在以下幾個方面:綜合得分排名靠前的10個地區(qū)分別是江蘇、浙江、廣東、山東、河南、北京、黑龍江、陜西、河北、福建,表明這10個地區(qū)的城市建設(shè)情況及設(shè)施水平較高。綜合得分排名第11至21名的地區(qū)分別為上海、四川、湖南等11個地區(qū),表明這些地區(qū)的城市建設(shè)情況及設(shè)施在國內(nèi)處于中等水平,其他10個地區(qū)的綜合得分排名是比較靠后的,這10個地區(qū)的城市建設(shè)情況及設(shè)施水平與全國其他各地區(qū)存在一定的差距。
從2017年與2018年的各地區(qū)城市建設(shè)情況及設(shè)施水平的對比分析來看,綜合得分排名呈上升趨勢的地區(qū)有12個,分別是河北、內(nèi)蒙古、江蘇、浙江、安徽、福建、河南、海南、四川、云南、陜西、青海。這12個地區(qū)中,陜西、江蘇、內(nèi)蒙古和云南的上升幅度是非常明顯的,陜西的綜合得分排名從2017年的第24名上升到了第8名,江蘇次之,從2017年的第13名上升到了第1名,內(nèi)蒙古的綜合得分排名從第30名上升到了第19名,云南的綜合得分排名也上升到了第17名。這4個地區(qū)的城區(qū)面積、建成區(qū)面積都有了較大幅度的增長,導(dǎo)致了它們的綜合排名有了較為明顯的提升。這兩年間,綜合得分排名保持不變的地區(qū)共有3個,依次是山東、黑龍江和西藏。由表3可以看出,山東和黑龍江的綜合得分在2017年和2018年都是比較靠前的,其中,山東的綜合得分排名為第4名,黑龍江的綜合得分排名為第7名,西藏的綜合得分最低,它的綜合得分排名為第31名。綜合得分排名呈下降趨勢的地區(qū)有16個,分別是廣東、上海、北京、遼寧、天津、湖北、湖南、江西、山西、甘肅、新疆、廣西、重慶、貴州、吉林、寧夏。這16個地區(qū)中,遼寧、江西的下降幅度比較明顯,遼寧的綜合得分排名從2017年的第5名降到了2018年的第18名,江西的綜合得分排名從2017年的第12名下降到了2018年的第23名。
由于各變量的量綱不一致,所以使用標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行分析,計算關(guān)于歐式距離的距離矩陣,得到各個樣品之間的距離。對2018年各地區(qū)城市建設(shè)水平的相關(guān)數(shù)據(jù)選擇離差平方和法進(jìn)行系統(tǒng)聚類,可以將31個地區(qū)分為3類,聚類結(jié)果見圖1。第一類包括廣東、江蘇、山東;第二類包括天津、上海、云南、陜西、黑龍江、河南、湖南、新疆、河北、福建、海南、青海、江西、山西、貴州、甘肅、內(nèi)蒙古、寧夏、北京、浙江、安徽、四川、遼寧、湖北、廣西、吉林、重慶;第三類包括西藏。
圖1 系統(tǒng)聚類圖Fig. 1 Hierarchical clustering diagram
運用稀疏主成分法與系統(tǒng)聚類法對2018年城市建設(shè)水平進(jìn)行綜合評價,第一類的3個地區(qū)的綜合得分排名都比較靠前,第二類地區(qū)的綜合得分排名居中,第三類的西藏地區(qū)綜合得分排名最后。這也說明了由稀疏主成分得到的綜合得分排名是合理的。
從2018年各地區(qū)綜合得分的排名來看,我國各地區(qū)城市建設(shè)及設(shè)施水平的發(fā)展是存在差異的,總體趨勢是東部沿海地區(qū)的水平普遍較高,尤其是江蘇、浙江、廣東、山東的城市建設(shè)水平穩(wěn)居前列;西南和西北內(nèi)陸地區(qū)的城市建設(shè)及設(shè)施水平較低,特別是西藏、寧夏、貴州與其他地區(qū)的水平存在較大的差距。為了保證各地區(qū)城市建設(shè)水平更加均衡地發(fā)展,更好地推進(jìn)我國城市建設(shè)的進(jìn)程,在此,提出如下幾點建議:
綜合得分排名名列前茅的4個地區(qū)分別是江蘇、浙江、廣東、山東,從它們所處的地理位置來看,這幾個省都處于我國東部沿海地區(qū),它們的城市建設(shè)及設(shè)施水平在全國處于領(lǐng)先。東部沿海地區(qū)城市建設(shè)水平迅速崛起的重要原因在于它們天然的地理優(yōu)勢,改革開放初期,首先發(fā)展沿海的策略使得這些地區(qū)的城市化水平較高,所以,東部沿海地區(qū)要保持現(xiàn)在的發(fā)展勢頭,繼續(xù)鞏固現(xiàn)存的發(fā)展優(yōu)勢,樹立可持續(xù)發(fā)展理念,實現(xiàn)城市建設(shè)又好又快發(fā)展;同時要給其他地區(qū)的城市建設(shè)樹立典范,為全國各地區(qū)的城市建設(shè)提供寶貴的經(jīng)驗。
綜合得分排名處于中間位置的這些地區(qū),它們的城市建設(shè)及設(shè)施水平在全國范圍內(nèi)處于中等。這些地區(qū)要向城市建設(shè)較好的東部沿海地區(qū)看齊,爭取與東部沿海地區(qū)的城市建設(shè)水平接近,讓自身的城市建設(shè)邁上一個新的臺階,實現(xiàn)的跨越式發(fā)展。其中,上海和四川的城市建設(shè)水平發(fā)展極其顯著,其他的地區(qū)要積極借鑒這兩個地區(qū)的城市建設(shè)經(jīng)驗,不斷提高城市建設(shè)水平。
在錯綜復(fù)雜的因素影響下,西南地區(qū)和西北地區(qū)的城市建設(shè)水平是較低的,尤其是西藏、寧夏、貴州的城市建設(shè)長期處于較低水平。這幾個地區(qū)位于我國的內(nèi)陸地區(qū),不僅自身經(jīng)濟(jì)實力相對偏弱,而且得到政府的資金幫助有限。因此,西南、西北地區(qū)要根據(jù)自身優(yōu)勢,因地制宜地發(fā)展經(jīng)濟(jì),從而保證城市建設(shè)有源源不斷的資金支持。同時要充分認(rèn)識到與其他地區(qū)城市建設(shè)與設(shè)施水平發(fā)展的差距,從其他地區(qū)吸取經(jīng)驗,擺脫城市建設(shè)情況較差的面貌,實現(xiàn)我國各地區(qū)城市建設(shè)的均衡發(fā)展。