隋易潔 李峰 郝多虎 芮小平 陳民
【摘 要】空間數(shù)據(jù)往往具有海量、高維特點,如何從冗余、有噪音的數(shù)據(jù)提取有效信息成為人們研究的重點。降維作為高維數(shù)據(jù)壓縮中,及高效提取所含信息的一種有效途徑,近年來正引起可視化等領(lǐng)域研究者的高度重視。不同降維技術(shù)由于其數(shù)學(xué)理論依據(jù)和適用范圍不同,可視化結(jié)果有差異。本論文首先分析了不同降維算法,即主成分分析、非線性映射、自組織特征映射、支持向量機。作者以2013年京津冀區(qū)市尺度為研究單元,運用上述算法對京津冀區(qū)市經(jīng)濟統(tǒng)計數(shù)據(jù)進行聚類分析,同時基于京津冀經(jīng)濟發(fā)展的實際狀況,對成果的差異性展開了深入討論。
【關(guān)鍵詞】降維;數(shù)據(jù)挖掘;經(jīng)濟發(fā)展
0 引言
近年來,空間信息科學(xué)蓬勃發(fā)展,在各個行業(yè)都得到了較為深入的應(yīng)用。隨著空間信息技術(shù)的進一步普及,涉及到的空間數(shù)據(jù)也日益增多,呈現(xiàn)海量多維的特點??臻g多維數(shù)據(jù)不僅具有多維屬性,每條記錄同時還對應(yīng)著空間目標(biāo),由于這種關(guān)系的存在,使得多維可視化和模式識別過程具有特殊性,這為空間數(shù)據(jù)的分析帶來了新的挑戰(zhàn)。由于空間信息具有明顯的時空分布特征,而這些特征通過可視化的方式進行描述和表達,能夠幫助人們更好的理解空間多維信息所反映的事物內(nèi)在空間規(guī)律。
在常用的空間多維信息可視化系統(tǒng)中,一般采用選維方式和多維可視化技術(shù)來實現(xiàn)高維數(shù)據(jù)的顯示和知識挖掘。多維信息的可視化通常采用降維算法把高維信息轉(zhuǎn)換到人類視覺能夠感知的三維空間以內(nèi)來實現(xiàn),從而發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性和發(fā)展趨勢,了解數(shù)據(jù)的時空分布規(guī)律,進而做出及時和正確的判斷和決策。在實際應(yīng)用中,各種降維算法由于數(shù)學(xué)理論和適用范圍的不同,結(jié)果也具有很大的差異,所以需要針對特定的應(yīng)用分析來研究合適的數(shù)據(jù)降維算法。
在傳統(tǒng)的多維信息分析中使用的降維和可視化技術(shù)沒有考慮空間位置因素的影響,如地理位置接近的目標(biāo)之間往往具有更加相似的特征,這些特征在多維信息中也有所體現(xiàn),即地理位置本身對多維數(shù)據(jù)的產(chǎn)生是有影響的??臻g自相關(guān)作為一種揭示數(shù)據(jù)空間聚集信息的技術(shù)已經(jīng)得到廣泛應(yīng)用,但其對于展現(xiàn)高維數(shù)據(jù)的綜合聚集情況顯得無能為力;同時該技術(shù)能對空間單元進行分類,但反映的是局部情況,而不能反映出全局的聚類情況,這也需要借助一定的方式來分析數(shù)據(jù)的低維表達形式。作者以京津冀省的縣域經(jīng)濟統(tǒng)計數(shù)據(jù)為研究對象,進行降維算法和可視化技術(shù)實驗,以期從理論和實證研究中,對空間多維可視化技術(shù)研究獲得一定的理解和取得一定的進展。
1 研究結(jié)果及討論
1.1 數(shù)據(jù)說明
本文以2013年京津冀經(jīng)濟統(tǒng)計數(shù)據(jù)為例,對京津冀地區(qū)經(jīng)濟發(fā)展?fàn)顩r進行分析。在地級尺度的經(jīng)濟統(tǒng)計數(shù)據(jù)中,大量數(shù)據(jù)的屬性維度統(tǒng)計缺失?;诮稻S過程的維度應(yīng)盡量最大化考慮,本文選擇最能反映地區(qū)經(jīng)濟發(fā)展情況的17個屬性,分別是:第一產(chǎn)業(yè)人均生產(chǎn)總值、第二產(chǎn)業(yè)人均生產(chǎn)總值、第三產(chǎn)業(yè)人均生產(chǎn)總值、規(guī)模以上工業(yè)以上企業(yè)情況(資產(chǎn)總計和負債總計)、貨物進出口總額、人民幣存貸額、財政收入和支出、城鎮(zhèn)就業(yè)情況(人員數(shù)和人均工資)、社會消費品零售總額、全社會固定資產(chǎn)投資、人口密度。由于河北與北京、天津地級單位面積相差較大,總額指標(biāo)不能準(zhǔn)確反映地區(qū)真實的發(fā)展?fàn)顩r,所以本文將以上屬性折合成人均指標(biāo)。
1.2 算法的分類結(jié)果分析
本文依次采用PCA-NaturalBreaks、NLM-KMeans、PCA-SVM、SOFM將京津冀地區(qū)經(jīng)濟數(shù)據(jù)進行分類,依照各種算法的分類特點以及京津冀地區(qū)特點對京津冀區(qū)域經(jīng)濟的發(fā)展現(xiàn)狀進行分析。
1.2.1 PCA-NaturalBreaks分類結(jié)果分析
基于PCA[17],并設(shè)置方差舍棄閾值為90%,作者對京津冀經(jīng)濟數(shù)據(jù)進行分析,并對結(jié)果進行分類。使用PCA方法整體上能體現(xiàn)出京津冀區(qū)域經(jīng)濟的發(fā)展?fàn)顩r,呈現(xiàn)出濱海新區(qū)在天津成為新的經(jīng)濟增長極,以及唐山、石家莊在河北市的龍頭作用。第二等級城市滄州、保定的劃分體現(xiàn)了北京、天津的輻射作用,河北北部由于地形的阻擋受兩個直轄市的影響不大。第五等級城市北京北部郊區(qū)以及門頭溝因位于山區(qū),交通不便,發(fā)展滯后。天津中心城劃分為第五等級,體現(xiàn)了天津環(huán)城區(qū)迅猛發(fā)展的勢頭。但是,PCA分類結(jié)果未能體現(xiàn)出北京的中心作用, 實際上北京中心區(qū)縣經(jīng)濟較河北各市發(fā)達。
1.2.2 NLM-KMeans分類結(jié)果分析
基于NLM[5]降維算法,并將統(tǒng)計數(shù)據(jù)集降至一維?;诰┙蚣降慕?jīng)濟發(fā)展現(xiàn)狀,該結(jié)果能反映真實的經(jīng)濟發(fā)展情況,但等級之間的分類細節(jié)無法得到證實。該分類結(jié)果將北京中心城區(qū)、天津濱海新區(qū)和河北石家莊、唐山劃分為第一等級,將保定、滄州、邯鄲劃分為第二等級,將河北大部分劃分為第三等級,而北京平原郊區(qū)、天津環(huán)城四區(qū)被劃為第四等級,將北京山地郊區(qū)、天津外圍郊區(qū)以及中心城區(qū)被劃為第五等級。這從整體上充分體現(xiàn)了環(huán)渤海經(jīng)濟區(qū)域北京、天津、河北發(fā)展不協(xié)調(diào)、各自為政的現(xiàn)狀,肯定了濱海新區(qū)作為新的經(jīng)濟增長極的地位。說明京津冀一體化的進程仍然不顯著,濱海地區(qū)開發(fā)力度強勁,逐步成為京津冀都市圈經(jīng)濟發(fā)展日益隆起的地帶。
1.2.3 SOFM分類結(jié)果分析
SOFM[4]的分類結(jié)果,與NLM的結(jié)果類似,SOFM的分類結(jié)果從整體上體現(xiàn)了京津冀經(jīng)濟發(fā)展格局,但在將唐山、石家莊也被劃分為第二類,未能體現(xiàn)河北的核心發(fā)展格局;其等級之間的分類細節(jié)也無法得到驗證。
1.2.4 PCA-SVM分類結(jié)果分析
PCA-SVM的分類結(jié)果,修正了PCA的結(jié)果,將北京中心城區(qū)劃分為第一等級,使PCA-SVM的分類結(jié)果更加合理,北京、天津郊區(qū)發(fā)展不協(xié)調(diào)的狀況也能體現(xiàn)。但在石家莊、唐山被劃至第二類,未能體現(xiàn)出河北經(jīng)濟核心發(fā)展格局。
綜合以上算法結(jié)果(見表1),總結(jié)京津冀發(fā)展現(xiàn)狀[19-20]如下:第一,京津冀發(fā)展總體仍然發(fā)展不協(xié)調(diào),這點由等級劃分界限與行政界限基本相符得到證實。說明京津冀發(fā)展離“一體化”的目標(biāo)還有很大一段距離。第二,北京、天津內(nèi)部發(fā)展不協(xié)調(diào)。因為所有的分類結(jié)果都顯示北京中心城區(qū)與郊區(qū)等級差距很大以及天津中心城區(qū)等級很低,其中PCA和PCA-SVM將北京郊區(qū)南北劃分為兩級,說明北京中心城區(qū)與郊區(qū)發(fā)展差距明顯,北部和南部發(fā)展不一天津基本成同心圓狀發(fā)展,且環(huán)城區(qū)比中心城區(qū)發(fā)展要好[18],第三,SOFM將河北只劃分兩個等級,說明河北西北和東南發(fā)展有所差距,但是差距不明顯?!毒┙蚣蕉际腥^(qū)域規(guī)劃》重點建設(shè)的天津濱海新區(qū)發(fā)展快速,儼然成為環(huán)渤海經(jīng)濟區(qū)域的新經(jīng)濟核心。
2 結(jié)論
利用可視化技術(shù)研究和分析高維數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)和規(guī)律時,需要采用降維方法將其轉(zhuǎn)換到三維以內(nèi)的空間。而不同降維技術(shù)由于其數(shù)學(xué)理論和適用范圍不同,最終的結(jié)果也必定有差異。結(jié)果如下:(1)PCA能粗略地反映京津冀的發(fā)展?fàn)顩r,對于廣大京津郊區(qū)以及河北的經(jīng)濟狀況無法體現(xiàn);(2)NLM能較正確地揭示京津冀地區(qū)北京、天津兩大經(jīng)濟增長極的發(fā)展現(xiàn)狀,并能大致地反映河北的經(jīng)濟發(fā)展?fàn)顩r;(3)SOFM總的劃分界限和NLM相似,但是有錯分情況;(4)SVM在非監(jiān)督分類應(yīng)用中依賴于樣本的選取,不能完全挖掘出數(shù)據(jù)內(nèi)在結(jié)構(gòu)。
【參考文獻】
[1]吳昌友.神經(jīng)網(wǎng)絡(luò)的研究及應(yīng)用[D].東北農(nóng)業(yè)大學(xué),2007.
[2]畢達天,邱長波,張晗.數(shù)據(jù)降維研究現(xiàn)狀及其進展[J].情報理論與實踐,2013, 36(2):125-128.
[3]翟永杰.基于支持向量機的故障智能診斷方法研究[D].華北電力大學(xué)(河北),2004.
[4]武國正.支持向量機在湖泊富營養(yǎng)化評價及水質(zhì)預(yù)測中的應(yīng)用研究[D].內(nèi)蒙古農(nóng)業(yè)大學(xué),2008.
[5]阮曉芳.支持向量機方法在醫(yī)學(xué)和環(huán)境化學(xué)中的應(yīng)用研究[D].蘭州大學(xué),2007.
[6]尹飛,馬大政.基于PCA算法的人臉識別[J].計算機技術(shù)與發(fā)展,2008,30(10):1642-1646.
[7]郭素芳.天津區(qū)域經(jīng)濟協(xié)調(diào)發(fā)展模式及路徑選擇[J].現(xiàn)代城市研究,2010(10):55-59.
[8]賈琦,運迎霞.京津冀都市圈城鎮(zhèn)化質(zhì)量測度及區(qū)域差異分析[J].干旱區(qū)資源與環(huán)境,2015,29(3):8-12.
[9]王明浩,翟毅,劉玉娜.京津冀經(jīng)濟區(qū)的研究[J].城市經(jīng)濟.2015,12(1):70-77.
[10]陳陽.京津冀地區(qū)城市體系演化研究——基于關(guān)聯(lián)網(wǎng)絡(luò)和價值區(qū)段的分析方法[C]//多元與包容——2012中國城市規(guī)劃年會論文集.云南:云南科技出版社,2012:209-218.
[11]丁碩,常曉恒,巫慶輝.基于自組織特征映射神經(jīng)網(wǎng)絡(luò)的聚類分析[J].信息技術(shù),2014(6):18-21.
[12]張超.基于支持向量機的汽輪機軸系振動故障智能診斷研究[D].華北電力大學(xué)(河北),2009.
[責(zé)任編輯:楊玉潔]