郭名靜 熊鑫 戴雅婷
[提要] 針對(duì)城市行業(yè)空間布局研究中對(duì)重點(diǎn)區(qū)塊探知問題,以江西省撫州市城區(qū)行業(yè)經(jīng)營點(diǎn)為研究對(duì)象,利用新浪微博的網(wǎng)絡(luò)簽到位置數(shù)據(jù),基于數(shù)據(jù)挖掘中的聚類分析方法,通過優(yōu)化基于密度聚類算法,對(duì)城市的餐飲、娛樂和購物三個(gè)主要服務(wù)行業(yè)的高熱重點(diǎn)區(qū)塊實(shí)現(xiàn)直接聚類提取,解決從多維空間數(shù)據(jù)中挖掘城市行業(yè)空間分布特征的問題。具體的優(yōu)化算法是利用多維簽到位置數(shù)據(jù)中的非位置屬性計(jì)算權(quán)重系數(shù),修正判定數(shù)據(jù)點(diǎn)分類的相似度函數(shù),構(gòu)建加權(quán)密度聚類算法抽取城市行業(yè)的高熱區(qū)塊。綜合三個(gè)服務(wù)行業(yè)的聚類提取結(jié)果,歸納出城市行業(yè)分布特征。仿真結(jié)果表明:多維空間數(shù)據(jù)的加權(quán)密度聚類算法可以較好地實(shí)現(xiàn)對(duì)城市行業(yè)空間特征的直接提取,抽取得到的重點(diǎn)區(qū)塊具有明顯的高熱特性?;诰垲愄崛〗Y(jié)果的行業(yè)重點(diǎn)區(qū)塊特征分析能更合理地反映城市行業(yè)發(fā)展?fàn)顩r,也可以為城市管理者研究行業(yè)布局提供科學(xué)決策的重要參考依據(jù)。
關(guān)鍵詞:城市空間特征;數(shù)據(jù)挖掘;空間數(shù)據(jù);聚類分析;行業(yè)布局
基金項(xiàng)目:撫州市2019年社會(huì)科學(xué)規(guī)劃項(xiàng)目(19SK02);國家自然科學(xué)基金項(xiàng)目(41576105,41604010)
中圖分類號(hào):F292 文獻(xiàn)標(biāo)識(shí)碼:A
收錄日期:2020年7月28日
一、引言
服務(wù)業(yè)是現(xiàn)代城市眾多行業(yè)的重要組成,是在物資生產(chǎn)和商品交換的發(fā)展過程中,伴隨著商業(yè)的產(chǎn)生而出現(xiàn),以餐飲、娛樂、購物等行業(yè)為具體表現(xiàn)。隨著城市地域范圍的擴(kuò)大、城市經(jīng)濟(jì)社會(huì)生活的日漸繁榮和城市居民數(shù)量的日益增多,現(xiàn)代城市的經(jīng)濟(jì)活動(dòng)與服務(wù)業(yè)之間的聯(lián)系日趨緊密,并表現(xiàn)出與城市居民生活質(zhì)量息息相關(guān)的態(tài)勢(shì)。因此,通過對(duì)一個(gè)城市服務(wù)業(yè)空間分布格局的研究,不僅可以服務(wù)于商家和配套設(shè)施的合理選址,還可以輔助城市規(guī)劃和管理決策,甚至對(duì)于城市重大公共安全事件的科學(xué)預(yù)測(cè)都具有重要的參考價(jià)值。
服務(wù)業(yè)活動(dòng)一般都具有廣泛性、綜合性、分散性和地域性的特點(diǎn)。具體來說,服務(wù)業(yè)因?yàn)樘峁┑漠a(chǎn)品和商品種類繁多,表現(xiàn)出經(jīng)營范圍廣泛。伴隨著消費(fèi)者群體的分散存在和遷移,服務(wù)業(yè)一般都是分散經(jīng)營。由于同一個(gè)地區(qū)的多個(gè)服務(wù)企業(yè)之間大多存在相互聯(lián)系,從而形成群體效應(yīng)以發(fā)揮綜合服務(wù)能力。而且城市特有的地理?xiàng)l件和社會(huì)環(huán)境的差異又會(huì)影響服務(wù)業(yè),使得不同城市的服務(wù)業(yè)又會(huì)具有濃郁的地方特色,即在共性中又具有較強(qiáng)的城市地域特征?;谏鲜龌咎攸c(diǎn),國內(nèi)學(xué)術(shù)界對(duì)行業(yè)空間特征的相關(guān)研究以發(fā)現(xiàn)某具體行業(yè)在城市中的空間分布格局為主,研究方法大多是基于官方統(tǒng)計(jì)數(shù)據(jù)和問卷調(diào)研數(shù)據(jù)的統(tǒng)計(jì)分析和定性分析。這類方法對(duì)小數(shù)據(jù)是有用的,但隨著數(shù)據(jù)量不斷增大,這類方法反映數(shù)據(jù)全貌,可能出現(xiàn)解釋力不足和特征提取方法的普適性較差等問題。行業(yè)空間特征是土地、社會(huì)群體和經(jīng)濟(jì)活動(dòng)等多個(gè)城市要素相互作用的結(jié)果,因此迫切需要一種表征城市多源要素特征的多維大體量數(shù)據(jù)源,以數(shù)據(jù)驅(qū)動(dòng)空間特征知識(shí)發(fā)現(xiàn)。
空間數(shù)據(jù)由屬性元素與地理位置相關(guān)聯(lián),通常是時(shí)間和一些描述性屬性或?qū)嶓w屬性的數(shù)據(jù)與位置屬性共同構(gòu)成,可以通過各種測(cè)量傳感器網(wǎng)絡(luò)、定位設(shè)施和以因特網(wǎng)為平臺(tái)的社交網(wǎng)絡(luò)獲取。近20年來,空間數(shù)據(jù)作為一種重要戰(zhàn)略基礎(chǔ)數(shù)據(jù)資源被越來越多地用于建立數(shù)學(xué)模型,以聚類、關(guān)聯(lián)分析算法和預(yù)測(cè)模型為代表的數(shù)據(jù)挖掘技術(shù)來探查大規(guī)模數(shù)據(jù),自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的信息和模式,識(shí)別對(duì)象的空間分布、位置關(guān)系并支持決策。對(duì)城市行業(yè)空間分布特征的研究屬于空間分布模式中的點(diǎn)群模式,一般是通過提取相似且相近的密集聚集點(diǎn),常用的技術(shù)方法有均勻格網(wǎng)法和等值線法。但單元網(wǎng)格的大小和現(xiàn)狀常常影響邊界識(shí)別結(jié)果,密度估計(jì)帶寬選擇也比較困難?;诿芏染垲惙椒ǎ―BSCAN)是一類利用數(shù)據(jù)點(diǎn)群的空間聚類直接提取聚集模式的方法,在處理非規(guī)則空間數(shù)據(jù)時(shí)表現(xiàn)出了較好的適用性。但是,DBSCAN算法只利用數(shù)據(jù)點(diǎn)的位置屬性來計(jì)算數(shù)據(jù)點(diǎn)分類的相似度,沒有考慮其他描述性屬性,導(dǎo)致識(shí)別出的區(qū)塊的合理性較差,得到的行業(yè)布局特征與實(shí)際情況的吻合度較低。因此,本文通過構(gòu)建加權(quán)聚類算法,利用非位置屬性變換得到權(quán)重系數(shù),優(yōu)化相似度函數(shù)公式,以實(shí)現(xiàn)結(jié)合數(shù)據(jù)點(diǎn)的位置屬性和非位置屬性提取行業(yè)中某些重要區(qū)塊的空間分布特征,從而增加對(duì)城市空間特征提取結(jié)果的科學(xué)性和可信度。
二、研究對(duì)象與方法
(一)空間數(shù)據(jù)集。撫州市位于江西省東部,全市人口418萬,地理位置為東經(jīng)115°35′~117°18′,北緯26°29′~28°30′之間,轄1區(qū)10縣和1個(gè)高新技術(shù)產(chǎn)業(yè)園區(qū),是長(zhǎng)江中游城市群的重要成員之一。撫州市總面積1.88萬km2,南北長(zhǎng)約222km,東西寬約169km。本文選用截至2014年11月份撫州市的新浪微博簽到數(shù)據(jù)共計(jì)1,948條,從中篩選出餐飲類商戶簽到記錄324條,娛樂休閑類商戶簽到記錄277條,商業(yè)購物類商戶221條,總共822條空間數(shù)據(jù)作為撫州市服務(wù)行業(yè)高熱區(qū)塊研究對(duì)象。表1列舉10條記錄示例數(shù)據(jù)集中包含的主要屬性。(表1)
在表1的“類別”屬性中,“food”標(biāo)識(shí)餐飲業(yè),“entertain”標(biāo)識(shí)娛樂休閑業(yè),“shop”標(biāo)識(shí)購物商業(yè)?!昂灥酱螖?shù)”屬性中的數(shù)值標(biāo)識(shí)了該商家被消費(fèi)者在新浪微博中網(wǎng)絡(luò)簽到打卡的次數(shù),數(shù)值越高表明該商家受歡迎熱度越高,數(shù)值越低表明該商家受歡迎熱度越低。為了探知行業(yè)中受消費(fèi)者關(guān)注熱度較高的商家的空間分布特征,因此界定行業(yè)高熱區(qū)塊需要滿足兩個(gè)條件:一是高熱區(qū)塊中數(shù)據(jù)點(diǎn)在地理位置上要相對(duì)聚集,即高熱區(qū)塊內(nèi)數(shù)據(jù)點(diǎn)分布的密度較高;二是高熱區(qū)塊中數(shù)據(jù)點(diǎn)簽到次數(shù)屬性值要相對(duì)較大,即高熱區(qū)塊內(nèi)的數(shù)據(jù)點(diǎn)表現(xiàn)出明顯的高熱特征。
(二)密度聚類算法。基于密度的DBSCAN算法可以發(fā)現(xiàn)稀疏數(shù)據(jù)點(diǎn)區(qū)域中的密集數(shù)據(jù)點(diǎn),該算法利用相似度函數(shù)判定數(shù)據(jù)點(diǎn)的歸屬類,再根據(jù)密度相連原理提取數(shù)據(jù)點(diǎn)的最大集合,也叫做聚類簇。算法中判定數(shù)據(jù)點(diǎn)歸屬的相似度函數(shù)是基于歐幾里得距離(公式1),其中,位置數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的位置坐標(biāo)為(xi,yi),其中i=1,…,n,提取的聚類簇只能是滿足地理位置的高聚集分布,而沒有考慮數(shù)據(jù)點(diǎn)的簽到次數(shù)屬性。因此,對(duì)簽到次數(shù)屬性值做變換得到一個(gè)按照公式(2)計(jì)算權(quán)重系數(shù)的wj,其中j=1,…,n,實(shí)現(xiàn)對(duì)DBSCAN算法處理多維位置數(shù)據(jù)的優(yōu)化目的。
顯而易見,wj取值范圍是(0,+1),且wj取值越接近+1說明數(shù)據(jù)點(diǎn)(xj,yj)的簽到次數(shù)越高,即該點(diǎn)簽到熱度越高,在與簇中心點(diǎn)(xi,yi)距離相等的條件下,則越可能被劃入簇中。由此變換算法相似度函數(shù)的距離計(jì)算公式如式(3)所示。其中,參數(shù)ω的取值根據(jù)權(quán)重系數(shù)wj的取值范圍而定。
三、聚類提取與驗(yàn)證
(一)高熱區(qū)塊提取。從表1的空間數(shù)據(jù)集中按照餐飲、購物和娛樂休閑篩選出3個(gè)類的空間數(shù)據(jù)子集作為初始數(shù)據(jù)集。由公式(2)和(3)對(duì)每個(gè)數(shù)據(jù)子集計(jì)算權(quán)重系數(shù)wj,再加權(quán)密度聚類提取高熱區(qū)塊。利用Python3.7編輯程序做散點(diǎn)圖如圖1所示,圖示的坐標(biāo)單位均為“°”。其中,設(shè)置參數(shù)ω的取值為1,密度聚類的區(qū)域半徑r取值為0.015,最小值MinP取值為10。(圖1)
在圖1中,3個(gè)行業(yè)各分布有1個(gè)高熱區(qū)塊,分別用符號(hào)“x”、“+”和“o”標(biāo)識(shí)。區(qū)塊內(nèi)數(shù)據(jù)點(diǎn)的詳細(xì)信息統(tǒng)計(jì)在表2中,每個(gè)高熱區(qū)塊中簽到次數(shù)最多的前幾個(gè)高熱點(diǎn)列表在表3中。(表2、表3)
(二)高熱特征檢驗(yàn)。對(duì)高熱簽到點(diǎn)統(tǒng)計(jì)如表4所示,餐飲業(yè)的17個(gè)高熱簽到點(diǎn)是最多,而購物商業(yè)的377個(gè)簽到點(diǎn)是全部簽到點(diǎn)中最多。娛樂休閑業(yè)簽到點(diǎn)的全部簽到點(diǎn)和高熱區(qū)塊簽到點(diǎn)的簽到次數(shù)在3個(gè)行業(yè)里面都是最高,分別有9,145次和2,584次。從提取的區(qū)塊看,3個(gè)行業(yè)總共提取了47個(gè)高熱簽到點(diǎn)組成了3個(gè)高熱區(qū)塊,雖然在簽到點(diǎn)數(shù)目上高熱區(qū)塊的簽到點(diǎn)數(shù)據(jù)僅占全行業(yè)全部922個(gè)簽到點(diǎn)的5.1%。但產(chǎn)生了總計(jì)7,019次簽到,占全部簽到次數(shù)總和23,231次的30.21%。(表4、圖2)
根據(jù)帕累托定律,一個(gè)系統(tǒng)中最重要的只占其中小部分約20%,其余80%盡管是多數(shù),卻是次要。雖然3個(gè)類別的高熱簽到點(diǎn)總數(shù)分別只占各類別全部簽到點(diǎn)總數(shù)的比率都只有5%左右,但這些簽到點(diǎn)的簽到次數(shù)卻占到各類別簽到點(diǎn)的簽到次數(shù)總和的30%以上,特別是購物商業(yè)類高熱區(qū)塊內(nèi)簽到點(diǎn)的簽到次數(shù)的占比甚至高達(dá)36.94%,而該類的高熱區(qū)塊內(nèi)簽到點(diǎn)數(shù)目在全行業(yè)占比僅為3.71%。因此,可以證明這47個(gè)高熱簽到點(diǎn)構(gòu)成的3個(gè)簽到區(qū)塊確實(shí)是各行業(yè)類別的高熱區(qū)域,是值得重點(diǎn)關(guān)注的關(guān)鍵區(qū)域。
四、特征分析及建議
基于上述統(tǒng)計(jì)分析,可以歸納出該城市這3個(gè)行業(yè)空間分布特征如下:
(一)居民消費(fèi)行業(yè)主體地位明顯。撫州市雖然只是一個(gè)地級(jí)城市,但因?yàn)槠漭^為優(yōu)越的地理位置和歷史沿革,主要城區(qū)中行業(yè)種類較為齊全。因?yàn)椴惋?、商業(yè)購物和娛樂休閑業(yè)這3個(gè)行業(yè)在全部行業(yè)中簽到點(diǎn)總數(shù)1,948個(gè)中占比近50%,反映出該市居民消費(fèi)類行業(yè)在整體上具有良好發(fā)展態(tài)勢(shì)。
(二)零售業(yè)是引領(lǐng)全市市場(chǎng)銷售平穩(wěn)較快增長(zhǎng)的主力軍。從聚類分析結(jié)果來看,撫州市的購物商業(yè)類簽到數(shù)據(jù)點(diǎn)是3個(gè)行業(yè)中最多的,購物業(yè)的高熱區(qū)塊的高熱簽到點(diǎn)的簽到次數(shù)在行業(yè)平均簽到次數(shù)和在全行業(yè)中的占比也都是3個(gè)行業(yè)中最高的,體現(xiàn)出了撫州市居民對(duì)于商業(yè)購物類消費(fèi)的熱衷。特別是以馬家山文化商貿(mào)廣場(chǎng)和洪客隆百貨為代表的高熱簽到點(diǎn)的高簽到次數(shù),也足以驗(yàn)證零售業(yè)是社會(huì)消費(fèi)品零售市場(chǎng)穩(wěn)步增長(zhǎng)的主導(dǎo)力量。但是,全市購物商業(yè)的高熱簽到點(diǎn)過于密集分布在唯一的高熱區(qū)塊中可能不利于全市居民銷費(fèi)水平的進(jìn)一步提高。拓展新的購物商圈的部署和建設(shè),應(yīng)該是城市相關(guān)部門管理者需要思考的問題。
(三)文化體育生活豐富。由表4數(shù)據(jù),娛樂休閑類的簽到點(diǎn)不管是在全行業(yè)中,還是在高熱區(qū)塊中,所產(chǎn)生的簽到次數(shù)總和都是3個(gè)行業(yè)中最高的。雖然該類別簽到網(wǎng)點(diǎn)數(shù)目是3個(gè)行業(yè)中全行業(yè)簽到數(shù)據(jù)點(diǎn)數(shù)最少的,但這些簽到網(wǎng)點(diǎn)的平均簽到次數(shù)在全行業(yè)簽到點(diǎn)的數(shù)據(jù)統(tǒng)計(jì)中是最高的,在高熱區(qū)塊中的平均簽到次數(shù)也只是略低于排名第一的購物業(yè),卻遠(yuǎn)高于排名第三的餐飲業(yè)。特別是撫州市體育館以644次排名全市娛樂休閑業(yè)網(wǎng)點(diǎn)第一高的網(wǎng)絡(luò)簽到次數(shù),主要得益于市政府在2014年的全民健身日、全民健身周和全民健身日,以及元旦、“三八”等節(jié)點(diǎn)組織開展的9,000余場(chǎng)次各種大中小型群眾體育活動(dòng),還有先后承辦的多場(chǎng)各級(jí)比賽,極大地促進(jìn)了該市全民健身運(yùn)動(dòng)的廣泛開展。繼續(xù)增加城市中文化體育類場(chǎng)所網(wǎng)點(diǎn)應(yīng)該是撫州市相關(guān)管理部門下一步建設(shè)目標(biāo)。
(四)老城區(qū)的城市中心地位明顯。從高熱區(qū)塊地理位置屬性來看,3個(gè)行業(yè)基本都是重疊在撫州市的老城區(qū),特別是沿?fù)嶂菔械闹鞲傻磊M東大道沿線,這主要是因?yàn)椴煌?wù)行業(yè)之間存在連帶配套的需求致使行業(yè)扎堆城市中心老城區(qū)布點(diǎn)。但是,從城市長(zhǎng)遠(yuǎn)發(fā)展來看,這種態(tài)勢(shì)有必要引起城市管理者的關(guān)注。例如,作為撫州市重要的文化網(wǎng)點(diǎn)的湯顯祖大劇院,雖然擁有344次的高簽到次數(shù),卻沒有被提取到高熱區(qū)塊中。這一方面因?yàn)榧訖?quán)密度算法的參數(shù)設(shè)置的數(shù)據(jù)點(diǎn)歸屬判定條件的限制;另一方面也反映了在湯顯祖大劇院周圍缺乏配套的文體類娛樂網(wǎng)點(diǎn)的建設(shè),無法實(shí)現(xiàn)文化圈的集群效應(yīng)。
五、結(jié)語
行業(yè)空間分布特征分析對(duì)推動(dòng)城市合理化布局具有重要研究意義。空間位置數(shù)據(jù)是一種典型的大數(shù)據(jù),具有體積大、采集速度快、模態(tài)多樣和價(jià)值巨大等特征,是一種非常寶貴的新的戰(zhàn)略資源。通過對(duì)撫州市餐飲、購物和娛樂休閑這3個(gè)服務(wù)行業(yè)的空間數(shù)據(jù)的加權(quán)密度聚類,得到了行業(yè)高熱區(qū)塊分布位置和高熱點(diǎn)集,獲取了該市3個(gè)行業(yè)的主要空間分布特征,也發(fā)現(xiàn)了空間布局存在的問題,解決了傳統(tǒng)聚類算法單一利用位置屬性判定數(shù)據(jù)點(diǎn)分類的弊病,提高了聚類提取行業(yè)高熱區(qū)塊的合理性。研究結(jié)果表明,綜合多維空間數(shù)據(jù)的非位置屬性,可以更真實(shí)地反映城市行業(yè)布局特征,幫助管理者在城市規(guī)劃中科學(xué)決策,促進(jìn)城市商業(yè)圈更好地發(fā)揮集群效應(yīng)。
主要參考文獻(xiàn):
[1]李芬,賴玉珮,劉悅.低碳生態(tài)城市的建設(shè)成效認(rèn)知評(píng)價(jià)——基于城市管理者問卷調(diào)查[J].北京規(guī)劃建設(shè),2013(6).
[2]張文忠,李業(yè)錦.北京市商業(yè)布局的新特征和趨勢(shì)[J].商業(yè)研究,2005(8).
[3]仵宗卿,柴彥威.論城市商業(yè)活動(dòng)空間結(jié)構(gòu)研究的幾個(gè)問題[J].經(jīng)濟(jì)地理,2000(1).
[4]鄧羽,蔡建明,楊振山,等.北京城區(qū)交通時(shí)間可達(dá)性測(cè)度及其空間特征分析[J].地理學(xué)報(bào),2012.67(2).
[5]段煉,黨蘭學(xué),李銘,等.位置數(shù)據(jù)稀疏約束下的疑犯時(shí)空位置預(yù)測(cè)[J].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2018.39(5).
[6]龔希,陳占龍,謝忠.出租車軌跡數(shù)據(jù)的地域間移動(dòng)模式分析[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2018.43(10).
[7]谷巖巖,焦利民,董婷,等.基于多源數(shù)據(jù)的城市功能區(qū)識(shí)別及相互作用分析[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2018.43(7).
[8]田晶,熊富全,程雪萍,等.道路密度分區(qū)及其在道路選取質(zhì)量評(píng)價(jià)中的應(yīng)用[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2016.41(9).
[9]許澤寧,高曉路.基于電子地圖興趣點(diǎn)的城市建成區(qū)邊界識(shí)別方法[J].地理學(xué)報(bào),2016.71(6).
[10]吳康敏,張虹鷗,王洋,等.廣州市多類型商業(yè)中心識(shí)別與空間模式[J].地理科學(xué)進(jìn)展,2016.35(8).