邵世維,黃 新,劉 輝,陳 偉
(1.武漢市國土資源和規(guī)劃信息中心,湖北 武漢 430014;2.武漢大學(xué) 資源與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079)
智慧城市是起源于20世紀80年代的信息城市,伴隨著數(shù)字技術(shù)的發(fā)展,經(jīng)歷了智能城市與數(shù)字城市,在21世紀之后逐步演化為智慧城市[1,2]。智慧城市[2]是關(guān)于如何將通信和信息科技運用到改善城市功能、提升城市效率、增強城市競爭力,并且提供新的解決城市公平、貧困和環(huán)境污染等問題的城市發(fā)展概念。智慧城市[3,4]通過將真實世界的形態(tài)使用數(shù)字化的方式進行模擬,關(guān)注真實世界的設(shè)施,服務(wù)城市市民和社會組織,為城市的運行提供總體籌劃。
當(dāng)前人們在談及智慧城市時,經(jīng)常會涉及到大數(shù)據(jù)。利用大數(shù)據(jù)的處理技術(shù)為智慧城市服務(wù)和城市規(guī)劃服務(wù)是當(dāng)前研究的熱點[5,6],也是智慧城市以人為主、服務(wù)于人的重要途徑。近年來,F(xiàn)aceBook、Twitter、微博和微信等社交網(wǎng)絡(luò)作為全新的互聯(lián)網(wǎng)應(yīng)用得到了迅猛發(fā)展[6],并且在不同的領(lǐng)域都發(fā)揮著重要作用。
社交網(wǎng)絡(luò)不僅為用戶提供了地理位置,也提供了用于分享實時空間位置信息的功能[7]?;谖恢玫纳缃痪W(wǎng)絡(luò)數(shù)據(jù)(本文以帶有位置點的新浪微博數(shù)據(jù)作為主要數(shù)據(jù)源)具有豐富的位置信息和屬性信息,新浪微博用戶會發(fā)布包含有文本、圖片和帶有空間位置的消息,為時空分析提供了豐富的地理空間信息[8-10]。胡慶武等利用基于位置的簽到數(shù)據(jù)探索城市熱點商圈,為區(qū)域經(jīng)濟規(guī)劃提供決策[8];基于海量的新浪微博數(shù)據(jù),常曉猛等探究反映城市空間的相互作用,用虛擬網(wǎng)絡(luò)環(huán)境反映城市相關(guān)吸引力[9];張恒才等分析對象在真實世界中的具體軌跡,提高了關(guān)系數(shù)據(jù)庫的查詢效率等[10]。
然而,當(dāng)前已有研究對文本數(shù)據(jù)利用相對不足,探究各種城市公共設(shè)施分布狀況的研究則相對較少。本文充分考慮了社交網(wǎng)絡(luò)數(shù)據(jù)的屬性和位置信息,利用基于文本和空間聚類的方法反映城市公共設(shè)施空間分布狀態(tài),并探索不同類型的設(shè)施對人們的吸引力,最后用POI數(shù)據(jù)驗證了本文方法得到的結(jié)論。
基于位置的社交網(wǎng)絡(luò)數(shù)據(jù)是攜帶有文本信息和空間位置信息的離散的GIS點[11],提取有用的社交網(wǎng)絡(luò)數(shù)據(jù),可以反映城市公共設(shè)施在空間的分布狀況和不同公共設(shè)施的關(guān)注程度。通過人工先驗知識,對城市服務(wù)設(shè)施進行分類,并將所分的類別作為微博數(shù)據(jù)分類的依據(jù),將服務(wù)設(shè)施分為公司、風(fēng)景名勝、體育休閑服務(wù)等10類。
首先,提取用戶注冊的地理位置信息和分享的空間位置信息,用以識別每個微博的地理空間位置;其次,對帶有位置信息的數(shù)據(jù)進行篩選和坐標轉(zhuǎn)換等處理,以將偏離過大或者坐標異常的數(shù)據(jù)刪除;再次,依據(jù)服務(wù)設(shè)施類別對微博談?wù)摰闹黝}進行分類,用以標識用戶關(guān)注的服務(wù)設(shè)施;最后,采用聚類分析度量結(jié)果的地理空間分布,得到不同類型的服務(wù)設(shè)施在空間的聚集狀態(tài)和空間分布情況。具體流程如圖1。
圖1 方法流程圖
空間位置信息在空間上表現(xiàn)為大量離散的GIS點對象,而分散的點不利于探索其在空間上的分布情況[8]。本文首先對選定區(qū)域的微博預(yù)處理,包括位置數(shù)據(jù)篩選、異常點的剔除。數(shù)據(jù)預(yù)處理的具體流程是:通過ArcGIS軟件,在設(shè)定范圍內(nèi),篩選提取出指定范圍內(nèi)的數(shù)據(jù)點,將坐標歸納到統(tǒng)一的坐標系下,并重新構(gòu)建數(shù)據(jù)集;根據(jù)選定的數(shù)據(jù)集,將其與現(xiàn)有的地圖數(shù)據(jù)疊加,將不符合實際且偏差比較大的離散點剔除,保證數(shù)據(jù)在空間上的有效性。
用戶發(fā)布的消息是局限在140字以內(nèi)的短文本,主題來源豐富,通過甄別文本表達的主題確定用戶談?wù)摰墓苍O(shè)施(如果表達的主題不清晰,不予考慮)。為了便于甄別文本表達的主題,文中使用Python提供的Jieba分詞包實現(xiàn)對微博文本的主題歸類。通過設(shè)定常用詞識別每條微博表達的最相關(guān)的主題,實現(xiàn)將微博文本歸入到對應(yīng)的主題,并將主題作為屬性附加給每個微博數(shù)據(jù)點。
利用K-means聚類方法對區(qū)域進行聚類,選擇不同的聚類數(shù)以達到最佳的實驗效果。結(jié)合本文設(shè)定類別,將聚類數(shù)目設(shè)定為5類,再利用K-means聚類算法實現(xiàn)聚類分析。K-means聚類的結(jié)果具有在同一類中相似度高、類間相似度低的特點。聚類分析后得到每類設(shè)施在每類中所占的比重,以此確定每類公共服務(wù)設(shè)施在研究區(qū)域內(nèi)的分布狀況。K-means聚類結(jié)果如表1所示。
表1 各類公共服務(wù)設(shè)施在聚類區(qū)域中每類中所占的比重表
對區(qū)域內(nèi)提取的POI數(shù)據(jù)進行分類統(tǒng)計,然后對統(tǒng)計的POI數(shù)據(jù)進行標準化,并得到區(qū)域內(nèi)各種類型的POI所占比重;再利用K-means聚類方法對POI數(shù)據(jù)進行聚類,獲取區(qū)域內(nèi)每一類中各類型POI占據(jù)的比例。POI的K-means聚類結(jié)果如表2所示。最后將各類POI的比重和空間聚類結(jié)果比較,驗證相應(yīng)服務(wù)設(shè)施的分布狀況。
表2 聚類后各類POI在每類中所占的比重表
本實驗通過獲取的微博數(shù)據(jù),在設(shè)定的5類基礎(chǔ)上,完成了聚類分析,得到每類設(shè)施所屬類的比重。圖2和圖3是依據(jù)表1和表2中數(shù)據(jù)繪制的折線圖和柱狀圖。由圖2a可知,微博數(shù)據(jù)聚類后類5的比重值最大,圖2b中最大值為類5的風(fēng)景名勝。由圖4可知,在空間分布上最多的是類5,圖2直觀地給出了類5中風(fēng)景名勝是微博文本中出現(xiàn)最多的公共設(shè)施,這與圖b中北京市風(fēng)景名勝的分布狀況總體上一致。由圖2~4可知,類5在一定程度上反映了城市公共設(shè)施在空間中的分布情況。
圖2 POI和微博聚類比重圖
圖3 POI數(shù)據(jù)和微博數(shù)據(jù)在聚類區(qū)域中分布狀況
圖4 風(fēng)景名勝在空間上布局結(jié)果對比
由圖2和圖3可知,結(jié)合文本的微博數(shù)據(jù)與現(xiàn)有的POI數(shù)據(jù)在聚類后,除了類2有些不同以外,其他幾類在整體上表現(xiàn)出了高度的相似性。類2在折線圖和柱狀圖上體現(xiàn)的區(qū)別主要為:POI數(shù)據(jù)中類2比重是最低的,本文的結(jié)果跟POI的折線具有相似性,反映了設(shè)施在空間上的關(guān)注程度不同。
本文通過結(jié)合文本數(shù)據(jù)和位置數(shù)據(jù)以反映城市公共設(shè)施在空間上的分布狀況,結(jié)合POI數(shù)據(jù)驗證了方法的可行性和準確性。通過柱狀圖和折線圖中的比值,可以反映出人們對不同公共設(shè)施的關(guān)注情況。
本文利用基于位置的社交網(wǎng)絡(luò)數(shù)據(jù),通過從中挖掘有效的信息,可有效探測城市公共服務(wù)設(shè)施的空間分布狀況,為智慧城市的建設(shè)提供貼近大眾的建設(shè)意見。首先,本文利用社交網(wǎng)絡(luò)數(shù)據(jù)中的文本數(shù)據(jù);其次,利用社交網(wǎng)絡(luò)數(shù)據(jù)中的位置數(shù)據(jù),能將談及的服務(wù)設(shè)施映射到現(xiàn)實世界,進而獲取設(shè)施的位置;最后本文通過社交網(wǎng)絡(luò)數(shù)據(jù)分析,可以掌握各種公共設(shè)施的空間分布和關(guān)注程度。本文研究的結(jié)果反映了不同城市公共服務(wù)設(shè)施對民眾的吸引程度,有利于政府部門根據(jù)不同服務(wù)設(shè)施對民眾吸引程度作出合理的決策,為智慧城市基礎(chǔ)設(shè)施的完善提供輔助決策。但是,該方法還不夠自動化,對社交網(wǎng)絡(luò)數(shù)據(jù)挖掘還不夠深,在空間分析方面做得不夠。在將來的研究中,需要考慮時間維度,結(jié)合社交網(wǎng)絡(luò)數(shù)據(jù)的實時性,從時間尺度去分析公共設(shè)施的動態(tài)變化過程,實現(xiàn)對城市的檢測和分析。同時,需要進一步深入挖掘文本的內(nèi)在語義,避免結(jié)果存在偏差。
[1]王鵬,杜競強.智慧城市與城市規(guī)劃——基于各種空間尺度的實踐分析[J].城市規(guī)劃,2014(11):37-44
[2]Batty M, Axhausen K W, Giannotti F, et al.Smart Cities of the Future[J].The European Physical Journal Special Topics,2012,214(1):481-518
[3]Harrison C, Eckman B, Hamilton R, et al.Foundations for Smarter Cities[J].IBM Journal of Research and Development,2010,54(4):1-16
[4]石曉冬.大數(shù)據(jù)時代的城鄉(xiāng)規(guī)劃與智慧城市[J].城市規(guī)劃,2014(3):12
[5]趙勇,張浩,吳玉玲,等.面向智慧城市建設(shè)的居民公共服務(wù)需求研究[J].地理科學(xué)進展,2015,34(4): 473-481
[6]吉根林,趙斌.面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘綜述[J].南京師大學(xué)報:自然科學(xué)版,2014(1):1-7
[7]秦蕭, 甄峰,熊麗芳,等.大數(shù)據(jù)時代城市時空間行為研究方法[J].地理科學(xué)進展,2013,32(9):1 352-1 361
[8]胡慶武,王明,李清泉.利用位置簽到數(shù)據(jù)探索城市熱點與商圈[J].測繪學(xué)報, 2013,43(3):314-321
[9]常曉猛,樂陽,李清泉,等.利用位置的虛擬社交網(wǎng)絡(luò)地理骨干網(wǎng)提取[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2014(6):706-710
[10]張恒才,陸鋒,陳潔.移動對象時空軌跡及社交關(guān)系一體化數(shù)據(jù)模型[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2014(6): 711-718
[11]李清泉,常曉猛,蕭世倫,等.中國城際社交關(guān)系網(wǎng)絡(luò)特征分析[J].深圳大學(xué)學(xué)報:理工版,2013,30(5):441-449