洪文興,陳明韜,劉伊靈,朱嘉誠(chéng),王明磊
(1.廈門(mén)大學(xué)航空航天學(xué)院,福建廈門(mén)361102;2.廈門(mén)大學(xué)數(shù)學(xué)科學(xué)學(xué)院,福建廈門(mén)361005;3.北京航空航天大學(xué)軟件學(xué)院,北京100083)
共享單車(chē)作為一種“互聯(lián)網(wǎng)+”時(shí)代背景下的共享經(jīng)濟(jì)的產(chǎn)物,具備零排放無(wú)污染、騎行便捷等特點(diǎn),有助于解決市民出行的“最后一公里”問(wèn)題[1].隨著以摩拜、哈啰為典型代表的共享單車(chē)的出現(xiàn),騎行成為了一種出行習(xí)慣,但是共享單車(chē)的停車(chē)擁擠現(xiàn)象也隨之出現(xiàn).停車(chē)擁擠現(xiàn)象會(huì)對(duì)城市交通帶來(lái)很大的壓力,因此如何對(duì)共享單車(chē)數(shù)據(jù)進(jìn)行分析與挖掘,有效地定位共享單車(chē)早高峰時(shí)間的停車(chē)擁擠區(qū)域,成為緩解城市交通壓力的關(guān)鍵所在.
隨著共享單車(chē)的興起,越來(lái)越多的國(guó)內(nèi)外學(xué)者從不同的視角對(duì)共享單車(chē)進(jìn)行了研究,研究方向主要集中在共享單車(chē)的調(diào)度和優(yōu)化策略[2-6],共享單車(chē)的需求預(yù)測(cè)分析[7-11],以及共享單車(chē)停車(chē)點(diǎn)的選址等[12-14].但是目前對(duì)如何高效地定位共享單車(chē)停車(chē)擁擠區(qū)域的研究相對(duì)較少,因此本文對(duì)共享單車(chē)的停車(chē)擁擠區(qū)域識(shí)別進(jìn)行了研究.在其他不同的研究領(lǐng)域,劉濤等[15]使用改進(jìn)后的DBSCAN(density-based spatial clustering of application with noise)聚類(lèi)算法對(duì)某一海域中的船舶動(dòng)態(tài)數(shù)據(jù)進(jìn)行聚類(lèi),分析與識(shí)別出潛在的擁擠區(qū)域;邵敏華等[16]使用K均值(K-means)聚類(lèi)算法對(duì)上海市中心城區(qū)道路網(wǎng)絡(luò)進(jìn)行擁擠區(qū)域的聚類(lèi)識(shí)別.但劉濤等[15]使用的改進(jìn)后的DBSCAN聚類(lèi)算法對(duì)輸入?yún)?shù)非常敏感,細(xì)微的參數(shù)變化會(huì)導(dǎo)致截然不同的聚類(lèi)結(jié)果,邵敏華等[16]使用的K-means聚類(lèi)算法需要事先指定聚類(lèi)數(shù)目K,K值不同也會(huì)帶來(lái)聚類(lèi)結(jié)果的巨大差異.
針對(duì)上述不足,本文在對(duì)共享單車(chē)訂單數(shù)據(jù)和停車(chē)圍欄數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理的基礎(chǔ)上,采用GeoHash算法處理經(jīng)緯度坐標(biāo)和計(jì)算判斷共享單車(chē)開(kāi)關(guān)鎖訂單屬于哪個(gè)停車(chē)圍欄,并利用HDBSCAN(hierarchical density-based spatial clustering of application with noise)聚類(lèi)算法將停車(chē)圍欄聚類(lèi)為停車(chē)區(qū)域,并提出了基于“留存流量與留存密度的綜合指標(biāo)”的停車(chē)擁擠區(qū)域識(shí)別方法,該方法克服了傳統(tǒng)的僅考慮單一指標(biāo)的基于“留存流量”或“留存密度”方法所帶來(lái)的局限性.本研究為城市交通管理和共享單車(chē)的調(diào)度優(yōu)化提供了數(shù)據(jù)支持,具備一定的理論與實(shí)際意義.
本文采用的數(shù)據(jù)集為某市某品牌共享單車(chē)訂單數(shù)據(jù)以及共享單車(chē)停車(chē)圍欄數(shù)據(jù).其中共享單車(chē)訂單數(shù)據(jù)記錄了每輛共享單車(chē)的開(kāi)關(guān)鎖的時(shí)間、開(kāi)關(guān)鎖狀態(tài)以及所在的經(jīng)緯度坐標(biāo),時(shí)間范圍為2020年12月22日至2020年12月25日(共計(jì)4 d,均為工作日);共享單車(chē)停車(chē)圍欄數(shù)據(jù)記錄了停車(chē)圍欄的名稱以及構(gòu)成該停車(chē)圍欄的5個(gè)頂點(diǎn)經(jīng)緯度坐標(biāo)(第一個(gè)坐標(biāo)和最后一個(gè)坐標(biāo)經(jīng)緯度相同).兩個(gè)數(shù)據(jù)集的字段信息如表1和表2所示.
表1 共享單車(chē)訂單數(shù)據(jù)字段信息
表2 共享單車(chē)停車(chē)圍欄字段信息
由于可能存在信號(hào)不良、單車(chē)故障和用戶誤操作等問(wèn)題導(dǎo)致共享單車(chē)與服務(wù)器出現(xiàn)通信異常的情況,從而產(chǎn)生錯(cuò)誤的訂單數(shù)據(jù)[17],因此需要對(duì)原始的共享單車(chē)訂單數(shù)據(jù)進(jìn)行預(yù)處理,以消除誤差影響.數(shù)據(jù)預(yù)處理主要包括以下兩個(gè)方面:
1) 由于早高峰的時(shí)間段為早上7:00—9:00,因此將訂單數(shù)據(jù)中的狀態(tài)更新時(shí)間不在該時(shí)間段內(nèi)的數(shù)據(jù)剔除.
2) 對(duì)于連續(xù)開(kāi)鎖或連續(xù)關(guān)鎖的訂單數(shù)據(jù),即同一個(gè)共享單車(chē)標(biāo)識(shí)ID的‘LOCK_STATUS’字段出現(xiàn)連續(xù)多行數(shù)據(jù)為0或?yàn)?,表示車(chē)輛鎖具發(fā)生了故障,要對(duì)這些異常數(shù)據(jù)進(jìn)行處理,以免對(duì)后續(xù)分析造成影響:針對(duì)連續(xù)的開(kāi)鎖數(shù)據(jù),僅保留第一條數(shù)據(jù);針對(duì)連續(xù)的關(guān)鎖數(shù)據(jù),僅保留最后一條數(shù)據(jù).
GeoHash算法是由Gustavo Niemeyer所提出的一種基于地理網(wǎng)格劃分的地理數(shù)據(jù)編碼技術(shù)[18],通過(guò)兩次編碼過(guò)程將二維的經(jīng)緯度坐標(biāo)轉(zhuǎn)化為一個(gè)可進(jìn)行前綴匹配信息檢索的一維字符串編碼[19],字符串越長(zhǎng),編碼精度越高.
GeoHash算法的實(shí)現(xiàn)過(guò)程是先將經(jīng)緯度表示的范圍視為二維平面矩形,之后分別對(duì)經(jīng)度和緯度進(jìn)行類(lèi)二分法劃分,若目標(biāo)經(jīng)緯度在劃分區(qū)域內(nèi),則賦值為1,否則賦值為0,直至滿足設(shè)定的精度要求,得到一個(gè)二進(jìn)制的編碼.隨即將奇數(shù)位作為緯度、偶數(shù)位作為經(jīng)度,合并經(jīng)緯度編碼.最后使用Base32編碼方式進(jìn)行轉(zhuǎn)換,即可得到GeoHash編碼.
共享單車(chē)訂單數(shù)據(jù)和停車(chē)圍欄數(shù)據(jù)中有關(guān)地理位置的信息通過(guò)經(jīng)緯度坐標(biāo)保存,若直接使用經(jīng)緯度坐標(biāo)實(shí)現(xiàn)后續(xù)的停車(chē)圍欄聚類(lèi)和擁擠區(qū)域的識(shí)別,在數(shù)據(jù)量較大的情況下由于索引利用率低等原因,會(huì)造成搜索效率低下等不良影響.因此本文使用GeoHash算法對(duì)經(jīng)緯度坐標(biāo)進(jìn)行處理.共享單車(chē)訂單和停車(chē)圍欄數(shù)據(jù)中的經(jīng)緯度坐標(biāo)轉(zhuǎn)換為GeoHash編碼的流程圖如圖1所示.
圖1 GeoHash編碼算法流程圖Fig.1Flow chart of GeoHash encoding algorithm
本文使用Python語(yǔ)言來(lái)實(shí)現(xiàn)GeoHash編碼算法.對(duì)共享單車(chē)停車(chē)圍欄數(shù)據(jù)進(jìn)行分析計(jì)算后發(fā)現(xiàn),最長(zhǎng)的圍欄長(zhǎng)度約為84 m,因此使用7位的GeoHash編碼長(zhǎng)度恰能保證圍欄的每一個(gè)頂點(diǎn)都落在同一塊GeoHash算法劃分的區(qū)域內(nèi).以經(jīng)緯度坐標(biāo)(118.126 619° E,24.495 537° N)為例,在運(yùn)行GeoHash編碼算法后,即可得到7位的GeoHash編碼為‘wsk5253’.對(duì)共享單車(chē)訂單數(shù)據(jù)中的‘LATITUDE’和‘LONGITUDE’字段以及共享單車(chē)停車(chē)圍欄數(shù)據(jù)的‘FENCE_LOC’字段使用GeoHash編碼算法,可將經(jīng)緯度信息轉(zhuǎn)換為GeoHash字符串編碼信息.之后,按順序查詢共享單車(chē)開(kāi)關(guān)鎖訂單和停車(chē)圍欄某個(gè)頂點(diǎn)的GeoHash編碼相同的數(shù)據(jù),再通過(guò)經(jīng)緯度坐標(biāo)計(jì)算共享單車(chē)到這幾個(gè)停車(chē)圍欄中心的距離,距離最小的停車(chē)圍欄即確定為該單車(chē)所屬的停車(chē)圍欄,為后續(xù)停車(chē)擁擠區(qū)域的識(shí)別打下基礎(chǔ).
停車(chē)擁擠區(qū)域的識(shí)別需要先將眾多的共享單車(chē)停車(chē)圍欄聚類(lèi)為停車(chē)區(qū)域.常用的聚類(lèi)方法有:K-means聚類(lèi)和DBSCAN聚類(lèi)等.但這兩種聚類(lèi)方法在共享單車(chē)停車(chē)圍欄聚類(lèi)的場(chǎng)景下均存在一定的缺陷,本文最終使用HDBSCAN聚類(lèi)方法,并通過(guò)實(shí)驗(yàn)證明了HDBSCAN的聚類(lèi)效果優(yōu)于K-means和DBSCAN.
K-means是一種非常經(jīng)典的聚類(lèi)算法[20],因其原理簡(jiǎn)單,可解釋性強(qiáng)而得到廣泛應(yīng)用.K-means算法的聚類(lèi)過(guò)程簡(jiǎn)單地說(shuō)就是把數(shù)據(jù)點(diǎn)按照某種相似度劃分到不同的簇中,使得同一簇內(nèi)的數(shù)據(jù)點(diǎn)相似度盡可能的高,不同簇間的數(shù)據(jù)點(diǎn)相似度盡可能低.但是K-means有兩個(gè)明顯的缺陷:1)K-means對(duì)于非球形數(shù)據(jù)集的聚類(lèi)效果不佳,然而實(shí)際的停車(chē)圍欄分布情況一般是呈非球形分布的,因此K-means算法的劃分效果不佳;2)K-means算法需要事先指定數(shù)據(jù)簇的數(shù)目,而在實(shí)際停車(chē)圍欄聚類(lèi)中,無(wú)法事先確定最終的聚類(lèi)簇的數(shù)目,因此實(shí)驗(yàn)中需要反復(fù)試錯(cuò),才能得到最佳聚類(lèi)簇的個(gè)數(shù),這樣會(huì)大大提高計(jì)算的代價(jià).從以上分析可知,K-means算法不適用于停車(chē)圍欄的聚類(lèi).
DBSCAN算法[21]是一種常用的基于密度的聚類(lèi)算法.DBSCAN算法的基本思想是:對(duì)于聚類(lèi)簇中的每一個(gè)點(diǎn),在給定的半徑rEps范圍內(nèi)應(yīng)至少包含給定數(shù)目的點(diǎn)Mminpts[22].但是在使用DBSCAN算法聚類(lèi)停車(chē)圍欄時(shí),存在兩個(gè)較為嚴(yán)重的缺陷:1) 算法對(duì)領(lǐng)域最大半徑rEps這一輸入?yún)?shù)非常敏感,細(xì)微的參數(shù)變化就會(huì)使得聚類(lèi)結(jié)果截然不同,并且也較難得知rEps參數(shù)的合理取值;2) DBSCAN聚類(lèi)存在“鏈?zhǔn)絺鲗?dǎo)”的現(xiàn)象,即只要有少量的點(diǎn)斷開(kāi),就會(huì)導(dǎo)致本應(yīng)被聚類(lèi)同一個(gè)簇的點(diǎn)聚類(lèi)為多個(gè)簇.在實(shí)際的停車(chē)圍欄聚類(lèi)中,較難獲得準(zhǔn)確的rEps值,因此也不能使用DBSCAN聚類(lèi)方法用于停車(chē)圍欄的聚類(lèi).
HDBSCAN聚類(lèi)算法是DBSCAN算法和層次聚類(lèi)算法的結(jié)合,它通過(guò)將DBSCAN聚類(lèi)算法轉(zhuǎn)換為分層聚類(lèi)算法,與DBSCAN算法類(lèi)似,HDBSCAN算法也需要確定領(lǐng)域最大半徑rEps以及領(lǐng)域內(nèi)的最少點(diǎn)數(shù)Mminpts,但是HDBSCAN算法引入了“層次聚類(lèi)”的思想,通過(guò)對(duì)共享邊界點(diǎn)等共享數(shù)據(jù)對(duì)象的特殊處理,對(duì)初始的聚類(lèi)簇進(jìn)行層次合并,屏蔽了算法對(duì)rEps等輸入?yún)?shù)的敏感性[23];此外,HDBSCAN算法通過(guò)生成最小生成樹(shù)與層次結(jié)構(gòu),并通過(guò)分裂來(lái)壓縮樹(shù)狀圖來(lái)避免了DBSCAN 算法的“鏈?zhǔn)絺鲗?dǎo)”問(wèn)題,因此最終選擇HDBSCAN聚類(lèi)算法用于共享單車(chē)停車(chē)圍欄的聚類(lèi).
通過(guò)實(shí)地勘察,該市內(nèi)道路中雙向六車(chē)道加上綠化帶的距離一般為33 m左右,因此在HDBSCAN算法的基礎(chǔ)上加入了若聚類(lèi)出的兩個(gè)簇小于33 m,則合并簇的規(guī)則,使得聚類(lèi)效果更符合實(shí)際情況.使用HDBSCAN算法對(duì)該市的共享單車(chē)停車(chē)圍欄聚類(lèi),共聚類(lèi)出1 729個(gè)簇,并將每個(gè)聚類(lèi)離群點(diǎn)單獨(dú)作為一個(gè)簇,最終簇的數(shù)目為3 061個(gè),即總共有3 061個(gè)停車(chē)區(qū)域.
為了證明在對(duì)共享單車(chē)停車(chē)圍欄聚類(lèi)這一場(chǎng)景下HDBSCAN聚類(lèi)算法的效果優(yōu)于K-means和DBSCAN,設(shè)計(jì)了如下對(duì)比實(shí)驗(yàn).
首先,調(diào)整DBSCAN的rEps值和Mminpts值,使DBSCAN聚類(lèi)出的簇的數(shù)目盡量接近1 729.通過(guò)實(shí)驗(yàn)調(diào)參,當(dāng)rEps=0.000 265,Mminpts=3時(shí),聚類(lèi)出的簇的數(shù)目為1 575,是最接近1 729的.因?yàn)闆](méi)有真實(shí)停車(chē)圍欄聚類(lèi)樣本的標(biāo)簽,因此實(shí)驗(yàn)采用輪廓系數(shù)[24]和CH指數(shù)[25]作為比較DBSCAN和HDBSCAN聚類(lèi)效果的評(píng)價(jià)指標(biāo),兩種評(píng)價(jià)指標(biāo)如式(1)和(2)所示.
(1)
(2)
式(1)中:a(i)表示樣本i與同一簇內(nèi)所有其他樣本之間的平均距離,b(i)表示樣本i與其距離最近的簇中所有樣本的平均距離,輪廓系數(shù)值越大,聚類(lèi)效果越好;式(2)中:Tr(·)表示矩陣的跡,Bk表示組間協(xié)方差,Wk表示組內(nèi)協(xié)方差,N為訓(xùn)練集樣本數(shù),k為類(lèi)別數(shù),CH指數(shù)越大,聚類(lèi)效果越好.因?yàn)檩喞禂?shù)和CH指數(shù)在凸簇的得分通常會(huì)比其他類(lèi)型的簇更高,因此無(wú)法同時(shí)比較K-means的聚類(lèi)效果,僅比較DBSCAN和HDBSCAN算法,實(shí)驗(yàn)結(jié)果如表3所示.
表3 DBSCAN和HDBSCAN聚類(lèi)算法實(shí)驗(yàn)對(duì)比結(jié)果
由表3可知,HDBSCAN算法的輪廓系數(shù)與CH指數(shù)都高于DBSCAN算法,說(shuō)明HDBSCAN算法聚類(lèi)出的簇同類(lèi)樣本越接近,不同樣本間越遠(yuǎn)離,聚類(lèi)效果更好,因此相比于DBSCAN算法,HDBSCAN算法更適用于共享單車(chē)停車(chē)圍欄的聚類(lèi).
圖2 K-means聚類(lèi)效果圖Fig.2Clustering effect chart of K-means
其次,為比較聚類(lèi)方法在單車(chē)停放場(chǎng)景的聚類(lèi)效果,進(jìn)一步結(jié)合地理可視化方法,對(duì)3種聚類(lèi)方法的結(jié)果進(jìn)行分析.設(shè)置K-means算法中的聚類(lèi)簇?cái)?shù)目為1 729來(lái)訓(xùn)練模型.分別采用K-means、DBSCAN和HDBSCAN算法對(duì)該市的共享單車(chē)停車(chē)圍欄進(jìn)行聚類(lèi),并選取該市的呂嶺路為例,通過(guò)可視化展示的方法來(lái)比較聚類(lèi)效果.聚類(lèi)結(jié)果如圖2和3所示.
如圖2所示,呂嶺路道路下方藍(lán)色與橙色的點(diǎn)分別是K-means中的不同簇,K-means方法將本該被聚類(lèi)為一個(gè)簇的距離較近的點(diǎn)錯(cuò)誤地聚類(lèi)為兩個(gè)簇,不符合實(shí)際情況.從理論上分析,K-means算法對(duì)球形分布的數(shù)據(jù)聚類(lèi)效果較好,而實(shí)際的共享單車(chē)停車(chē)圍欄跟隨道路而分布,因此分布情況較為狹長(zhǎng),不屬于球形數(shù)據(jù),因此K-means無(wú)法獲得較好的結(jié)果.如圖3(a)和(b)所示,分別是DBSCAN和HDBSCAN的聚類(lèi)可視化結(jié)果,與K-means算法對(duì)比,基于密度的DBSCAN和HDBSCAN算法都能很好地對(duì)狹長(zhǎng)分布的數(shù)據(jù)聚類(lèi).此外,DBSCAN算法雖然可以將右側(cè)相鄰密集的點(diǎn)正確聚類(lèi)為一個(gè)簇,但左側(cè)的兩個(gè)點(diǎn)應(yīng)屬于同一個(gè)簇,卻被錯(cuò)誤地聚類(lèi)為兩個(gè)簇,不符合實(shí)際情況.反觀HDBSCAN算法,不但可以將右側(cè)相鄰密集的點(diǎn)聚類(lèi)為一個(gè)簇,還可以正確地將左側(cè)離的稍遠(yuǎn)的點(diǎn)聚類(lèi)為同一個(gè)簇,實(shí)驗(yàn)結(jié)果符合實(shí)際情況.
圖3 DBSCAN和HDBSCAN聚類(lèi)效果對(duì)比圖Fig.3Comparison of DBSCAN and HDBSCAN clustering effects
通過(guò)上述實(shí)驗(yàn)可以發(fā)現(xiàn),無(wú)論是理論指標(biāo)還是實(shí)際應(yīng)用,HDBSCAN都具有更佳的聚類(lèi)效果.第3節(jié)將基于HDBSCAN的聚類(lèi)結(jié)果設(shè)計(jì)停車(chē)擁擠區(qū)域識(shí)別算法.
本文首先定義相關(guān)概念如下:
流入流量,記為Aarrival_flow,是指在某一個(gè)停車(chē)區(qū)域內(nèi)共享單車(chē)的流入次數(shù),表現(xiàn)為在該停車(chē)區(qū)域中關(guān)鎖,即對(duì)應(yīng)共享單車(chē)訂單數(shù)據(jù)中‘LOCK_STATUS’字段為1;
流出流量,記為Ddeparture_flow,是指在某一個(gè)停車(chē)區(qū)域內(nèi)共享單車(chē)的流出次數(shù),表現(xiàn)為在該停車(chē)區(qū)域中開(kāi)鎖,即對(duì)應(yīng)共享單車(chē)訂單數(shù)據(jù)中‘LOCK_STATUS’字段為0.
傳統(tǒng)的停車(chē)擁擠識(shí)別方法包括了基于“留存流量”和“留存密度”兩種,但這兩種方法都僅考慮了一種指標(biāo),無(wú)法同時(shí)考慮流量和密度的因素對(duì)停車(chē)擁擠區(qū)域進(jìn)行識(shí)別,具有一定的局限性.為了解決這一問(wèn)題,本文提出了基于“留存流量與留存密度的綜合指標(biāo)”的識(shí)別方法.
“留存流量”定義為流入流量減流出流量,留存流量越大,則該停車(chē)區(qū)域中留存的車(chē)輛越多.給出“留存流量”的計(jì)算公式如下:
Nnetflow=Aarrival_flow-Ddeparture_flow.
(3)
給出“停車(chē)區(qū)域面積”定義如下:
(4)
其中:FAi為某個(gè)停車(chē)區(qū)域中第i個(gè)停車(chē)圍欄的面積;Ttotal_area為簇內(nèi)所有停車(chē)圍欄的面積和,即為該停車(chē)區(qū)域的總面積.
按照“留存流量”從高到低的順序?qū)ν\?chē)區(qū)域進(jìn)行排序,選取停車(chē)擁擠現(xiàn)象最嚴(yán)重的前5個(gè)停車(chē)區(qū)域部分信息字段如表4所示.
表4 按“留存流量”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的前5個(gè)區(qū)域部分信息
如表4所示,按“留存流量”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的前5個(gè)區(qū)域,擁有較大的停車(chē)區(qū)域面積以及較大的“留存流量”.為了更直觀地展示識(shí)別效果,使用Python的繪圖庫(kù)Folium在該市地圖上繪制按照“留存流量”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的前40個(gè)停車(chē)區(qū)域如圖4 所示.
圖4 按“留存流量”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的40個(gè)區(qū)域Fig.4The 40 areas with the worst parking congestion identified by “retained traffic”
從圖4中可以看出,停車(chē)擁擠區(qū)域一般集中在殿前街道、禾山街道以及軟件園等區(qū)域附近.基于“留存流量”識(shí)別停車(chē)擁擠區(qū)域具有一定的局限性,它無(wú)法有效識(shí)別出留存流量不大,但同時(shí)停車(chē)面積也較小的區(qū)域,這部分區(qū)域的停車(chē)擁擠程度也可能相對(duì)較高.
“留存密度”定義為“留存流量”除以停車(chē)區(qū)域總面積,“留存密度”越大,則該停車(chē)區(qū)域內(nèi)車(chē)輛密集程度越高.給出“留存密度”的計(jì)算公式如下:
(5)
按照“留存密度”從高到低的順序?qū)ν\?chē)區(qū)域進(jìn)行排序,選取停車(chē)擁擠現(xiàn)象最嚴(yán)重的前5個(gè)停車(chē)區(qū)域部分信息字段如表5所示.
如表5所示,按“留存密度”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的前5個(gè)區(qū)域,普遍面積較小但區(qū)域內(nèi)“留存密度”較高.為了更直觀地展示識(shí)別效果,使用Folium在該市地圖上繪制按照“留存密度”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的前40個(gè)停車(chē)區(qū)域如圖5所示.
從圖5中可以看出,停車(chē)擁擠區(qū)域一般集中在湖濱南路、禾山街道以及軟件園等區(qū)域附近.基于“留存密度”識(shí)別停車(chē)擁擠區(qū)域同樣具有一定的局限性,它無(wú)法有效識(shí)別出“留存密度”不高但“留存流量”較高的停車(chē)擁擠區(qū)域.
表5 按“留存密度”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的前5個(gè)區(qū)域部分信息
圖5 按“留存密度”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的40個(gè)區(qū)域Fig.5The 40 areas with the worst parking congestion identified by "retention density"
給出“留存流量與密度的綜合指標(biāo)”的定義如下:
(6)
(7)
(8)
按照“綜合指標(biāo)”從高到低的順序?qū)ν\?chē)區(qū)域進(jìn)行排序,選取停車(chē)擁擠現(xiàn)象最嚴(yán)重的前5個(gè)停車(chē)區(qū)域部分信息字段如表6所示.
表6 按“綜合指標(biāo)”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的前5個(gè)區(qū)域部分信息
結(jié)合表4~6可以發(fā)現(xiàn),使用“綜合指標(biāo)”所識(shí)別出的停車(chē)擁擠現(xiàn)象最嚴(yán)重的5個(gè)停車(chē)區(qū)域同時(shí)包含了使用“留存流量”和“留存密度”所識(shí)別出的停車(chē)擁擠區(qū)域,證明使用“綜合指標(biāo)”能夠克服單一指標(biāo)所帶來(lái)的局限性.
為了更直觀地展示識(shí)別效果,使用Folium在該市地圖上繪制按照“綜合指標(biāo)”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的前40個(gè)停車(chē)區(qū)域如圖6所示.
圖6 按“綜合指標(biāo)”識(shí)別的停車(chē)擁擠現(xiàn)象最嚴(yán)重的40個(gè)區(qū)域Fig.6The 40 areas with the worst parking congestion identified by the "comprehensive indicator"
通過(guò)觀察地圖信息和實(shí)地走訪調(diào)研可知,這些停車(chē)擁擠區(qū)域所處地區(qū)均為企業(yè)密集區(qū)域、學(xué)校、醫(yī)院以及商業(yè)區(qū)附近,例如軟件園、雙十中學(xué)、中山醫(yī)院以及五一文化廣場(chǎng)等地,這些區(qū)域的人流量較大,對(duì)于共享單車(chē)的需求也較大,因此容易造成共享單車(chē)的停車(chē)擁擠現(xiàn)象,證明了識(shí)別出的停車(chē)擁擠區(qū)域符合實(shí)際用戶用車(chē)與停車(chē)情況.
通過(guò)上述實(shí)驗(yàn)可以發(fā)現(xiàn),基于“留存流量”的停車(chē)擁擠區(qū)域識(shí)別方法可以準(zhǔn)確地識(shí)別出區(qū)域內(nèi)留存流量較大的區(qū)域,但是無(wú)法識(shí)別出流量不大但是密度較大的區(qū)域;反之,基于“留存密度”的停車(chē)擁擠區(qū)域識(shí)別方法可以準(zhǔn)確地識(shí)別出區(qū)域內(nèi)留存密度較大的區(qū)域,但是無(wú)法識(shí)別出密度不大但是流量較大的區(qū)域.所提出的基于“留存流量與密度的綜合指標(biāo)”的停車(chē)擁擠區(qū)域識(shí)別方法能夠準(zhǔn)確地同時(shí)識(shí)別出“留存流量”較大或“留存密度”較大的區(qū)域,相比于基于單一指標(biāo)的識(shí)別方法,提高了準(zhǔn)確性和可靠性.
本文基于某市某品牌共享單車(chē)訂單數(shù)據(jù)和停車(chē)圍欄數(shù)據(jù),對(duì)共享單車(chē)停車(chē)擁擠區(qū)域的識(shí)別進(jìn)行了研究,在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后,使用GeoHash算法對(duì)原始經(jīng)緯度坐標(biāo)進(jìn)行編碼處理,并計(jì)算判斷共享單車(chē)開(kāi)關(guān)鎖訂單屬于哪個(gè)停車(chē)圍欄,使用HDBSCAN聚類(lèi)算法將原始停車(chē)圍欄聚類(lèi)為停車(chē)區(qū)域,并提出了基于“留存流量與密度的綜合指標(biāo)”的停車(chē)擁擠區(qū)域識(shí)別方法對(duì)擁擠區(qū)域進(jìn)行識(shí)別,通過(guò)分析和實(shí)地考察,區(qū)域識(shí)別效果符合實(shí)際情況.這一關(guān)鍵步驟為后續(xù)的共享單車(chē)引導(dǎo)調(diào)度奠定了堅(jiān)實(shí)的基礎(chǔ).
廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年6期