国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DBSCAN算法的出租車載客熱點分析

2023-11-22 20:06:08杜青松李慧劉振渤馮子豪楊玉潔
現(xiàn)代信息科技 2023年19期

杜青松 李慧 劉振渤 馮子豪 楊玉潔

摘? 要:分析出租車載客熱點區(qū)域有利于掌握城市居民出行的時空分布特征。在深圳市出租車GPS抽樣數(shù)據(jù)的基礎(chǔ)上,引入DBSCAN空間聚類算法,并通過地圖匹配,對出租車載客點進行聚類分析,利用數(shù)據(jù)挖掘手段得出出租車載客熱區(qū)。對5個典型載客熱區(qū)進行分析,得出出租車載客量的時間分布特性,并探討其原因。研究結(jié)論有利于出租車公司了解客流分布規(guī)律和特征,提升對出租車調(diào)度的可行性和針對性,降低出租車空載率,減少運營成本,可在一定程度上緩解交通擁堵。

關(guān)鍵詞:空載率;DBSCAN空間聚類;載客熱區(qū)

中圖分類號:TP39;U121 文獻標識碼:A 文章編號:2096-4706(2023)19-0089-06

Analysis of Taxi Passenger Carrying Hotspots Based on DBSCAN Algorithm

DU Qingsong, LI Hui, LIU Zhenbo, FENG Zihao, YANG Yujie

(School of Automobile and Transportation, Xihua University, Chengdu? 610039, China)

Abstract: Analyzing the hot area of taxi passenger carrying is beneficial for understanding the spatiotemporal distribution characteristics of urban residents' travel. On the basis of GPS sampling data of taxis in Shenzhen, DBSCAN spatial clustering algorithm is introduced, and through map matching, clustering analysis is conducted on taxi loading points. Data mining methods are used to obtain taxi passenger carrying hot areas. Analyze 5 typical passenger carrying hot areas to obtain the time distribution characteristics of taxi car passenger carrying volume and explore their reasons. The research conclusion is beneficial for taxi companies to understand the distribution pattern and characteristics of passenger flow, improve the feasibility and pertinence of taxi scheduling, reduce the empty load rate of taxis, reduce operating costs, which can alleviate traffic congestion to some extent.

Keywords: No-load rate; DBSCAN spatial clustering; passenger carrying hot area

0? 引? 言

出租車出行是城市居民出行的重要方式之一,挖掘出租車的載客熱點區(qū)域能掌握城市居民出行的時空分布特征,同時為出租車司機提供有效的運營調(diào)度信息,幫助其降低空載率,減少運營成本。

目前已有諸多學者對出租車載客熱點區(qū)域挖掘及特征進行了研究。孫立山等[1]采用改進DBSCAN(density based spatial clustering of applications with noise)聚類算法對出租車載客熱區(qū)進行挖掘,并利用BP神經(jīng)網(wǎng)絡(luò)對出行需求進行了預(yù)測;韓勇等[2]利用DBSCAN聚類算法對出租車載客點數(shù)據(jù)進行聚類分析后,通過核密度分析方法對載客熱區(qū)進行了熱度評估;王鄭委[3]搭建Hadoop集群處理了出租車GPS數(shù)據(jù),并利用K-means聚類挖掘了出租車載客熱點區(qū)域;LUO等[4]提出了一種基于混合特征的密度測量方法,改進了DBSCAN算法并驗證了其可行性;Shen等[5]采用網(wǎng)格劃分思想改進了DBSCAN算法并提取出乘客上下車熱點;Yu等[6]建立了基于密度的帶噪聲時空聚類算法,提取了隨時間變化的歷史出租車乘客上下車熱點區(qū)域;Qi等[7]提出一種改進的空間聚類算法RFDBSCAN,挖掘了出租車接送熱點;田甜[8]利用出租車軌跡等數(shù)據(jù)分析了城市居民出行行為特征,并識別了城市交通熱點、探究了出租車需求影響因素;Hu等[9]利用出租車GPS數(shù)據(jù)識別了載客熱點區(qū)域,并分析了不同土地利用類型下司機搜尋乘客的時間序列分布動態(tài)特征;Yang等[10]通過分析乘客對出租車的需求、土地使用模式等的相關(guān)性,得出出租車很可能是地鐵出行的補充,而與公交出行存在競爭關(guān)系。

對于出租車載客的熱點區(qū)域挖掘已有多種聚類算法,由于DBSCAN算法無須確定簇的個數(shù),在熱點區(qū)域挖掘上比K-means聚類算法有一定的優(yōu)勢,故本文將使用DBSCAN聚類算法對出租車GPS數(shù)據(jù)進行聚類,再對聚類結(jié)果與實際地圖匹配,推算載客熱區(qū),結(jié)合時間因素分析不同時間段出租車載客熱點區(qū)域產(chǎn)生的原因及特征。

1? 出租車載客出行規(guī)律

1.1? 基礎(chǔ)數(shù)據(jù)及預(yù)處理

本文以Desheng Zhang教授的深圳市2013年10月22日星期二的出租車開源數(shù)據(jù)為研究對象,對數(shù)據(jù)進行抽樣,其包含字段如表1所示。對數(shù)據(jù)進行預(yù)處理,挖掘數(shù)據(jù)的基本信息,其步驟主要包括數(shù)據(jù)清洗、出租車載客狀態(tài)識別以及出租車的載客點提取。

1.1.1? 數(shù)據(jù)清洗

由于出租車是在建筑以及隧道較多的城市內(nèi)運行,在采集GPS數(shù)據(jù)時可能會受到一定的干擾,出現(xiàn)部分噪聲數(shù)據(jù),首先就需要進行數(shù)據(jù)的清洗工作,保證數(shù)據(jù)的正確性。處理后的部分數(shù)據(jù)如表2所示。

1.1.2? 出租車載客狀態(tài)識別

由于出租車GPS數(shù)據(jù)僅提供出租車某時刻的載客狀態(tài),故需要將各個車輛按時間線展開,找出乘客上車與下車時的數(shù)據(jù)。當同一車輛ID的Open Status列數(shù)據(jù)由0變?yōu)?時,即代表出租車從空載狀態(tài)變?yōu)檩d客狀態(tài),該點即為出租車上客點;同理,當該列數(shù)據(jù)由1變?yōu)?時,表示出租車從載客狀態(tài)變?yōu)榭蛰d狀態(tài),該點即為出租車的下客點。

1.1.3? 出租車的載客點提取

結(jié)合GPS軌跡數(shù)據(jù)和載客狀態(tài)數(shù)據(jù),提取出租車的載客點,利用Python可視化工具,繪制出租車載客點熱力柵格圖,如圖1所示??梢钥闯龀鲎廛嚧蟛糠值妮d客點均為深圳市區(qū)內(nèi),與客觀相符。

1.2? 出租車載客時間分布規(guī)律

對抽樣數(shù)據(jù)統(tǒng)計一天內(nèi)各小時訂單量,如圖2所示。從圖中能明顯看出,乘客在一天內(nèi)早、中、晚均有一個出行需求的高峰。在00:00到04:00,乘客對出租車的需求驟降,在之后的06:00到08:00,出租車載客數(shù)量明顯上升,而在12:00、18:00兩個時間段,出現(xiàn)規(guī)律性的載客低谷期,而18:00后呈上升趨勢,這可能與深圳平均下班時間較晚有一定的關(guān)系。

1.3? 出租車載客時長分布規(guī)律

出租車完成1次訂單所花費的時長即為出租車的載客時長。將載客時長轉(zhuǎn)換成分鐘制,利用Python繪制訂單平均持續(xù)時間的箱型圖,如圖3所示。

由圖3可知,一天中各時段深圳出租車的載客平均時長不會超過20分鐘,而在07:00—09:00時段和16:00—18:00時段,出租車的平均載客時長會處在較高的水平,可能是由于這兩個時段分別處于上下班高峰時段,乘客的通勤出行需求較大,導(dǎo)致了道路交通的擁堵,從而影響了出租車的出行速度,因而這兩個時段載客時長較其余時段較長。

2? 熱點區(qū)域提取及分析

DBSCAN算法是一種常用的密度聚類方法,其最核心的思想就是先發(fā)現(xiàn)高密度的樣本,把相近的高密度樣本逐步連成一片,進而生成各種簇。而且可以在有噪聲的數(shù)據(jù)中發(fā)現(xiàn)不同類型的數(shù)據(jù)集[11]。

2.1? 算法參數(shù)確定

使用DBSCAN聚類算法需要首先確定搜索半徑ε以及鄰域內(nèi)的最小包含點數(shù)MinPts兩個參數(shù)。若搜索半徑ε恒定,過大的MinPts會導(dǎo)致聚類后只有高密度的點歸為簇,將識別出過多的噪聲點;反之,會導(dǎo)致聚類后出現(xiàn)較多的簇,甚至將噪聲點歸入簇內(nèi)。以研究區(qū)域內(nèi)的數(shù)據(jù)為例,統(tǒng)計不同搜索半徑ε條件下聚類生成的簇的個數(shù)隨不同大小MinPts的變化,其具體結(jié)果如圖4所示。

圖4表明當MinPts值大于等于30時,該聚類生成的簇的個數(shù)在不同搜索半徑下變化較小,趨于穩(wěn)定因而本文將取MinPts的參數(shù)取為30。

若MinPts恒定,搜索半徑ε的取值過大會導(dǎo)致聚類后簇內(nèi)有較多噪聲點;反之,會導(dǎo)致聚類后簇外噪聲點過多。在取MinPts為30時,將不同搜索半徑ε(0.001、0.002、0.003、0.004及0.005)下聚類結(jié)果的簇中心點進行可視化,如圖5所示。

分析表明,當ε = 0.001、MinPts = 30時,聚類效果最佳,既保留了城市中心熱點載客區(qū)域,也不至于將中型簇合并為一個大簇,符合城市中心區(qū)域出租車載客量較城市邊緣地帶多的實際。

2.2? 熱區(qū)提取

結(jié)合上節(jié)中選定的參數(shù),對研究區(qū)域內(nèi)出租車載客點進行DBSCAN聚類算法分析,一共得到了31個簇,即31個載客熱點區(qū)域。為了獲取各個熱點區(qū)域的中心位置,方便后續(xù)處理,故對各簇內(nèi)數(shù)據(jù)做均值化處理。其式為:

(1)

式中:Ji(x)表示求得的第i個簇的均值經(jīng)度;n表示由DBSCAN聚類后第i個簇內(nèi)經(jīng)度數(shù)據(jù)個數(shù);Lngm表示第i個簇內(nèi)第m個經(jīng)度數(shù)據(jù)。

同理,對簇內(nèi)緯度數(shù)據(jù)做均值處理。

(2)

式中:Wi(x)表示求得的第i個簇的均值緯度;表示由DBSCAN聚類后第i個簇內(nèi)緯度數(shù)據(jù)個數(shù);Latm表示第i個簇內(nèi)第m個緯度數(shù)據(jù)。

通過計算,獲得出租車各載客點的中心位置坐標,部分數(shù)據(jù)如表3所示。

利用DBSCAN聚類算法得出的簇中,結(jié)合高德開放平臺,載客量前5的位置坐標以及實際位置如表4所示。其余出租車載客熱點區(qū)域分別為:國貿(mào)商業(yè)大廈、水圍村、深圳北站、賽龍大院、深圳人才公園、深圳歡樂谷、荔枝公園、金威大廈、深圳市工人文化宮體育館、深圳東站、深圳市人民醫(yī)院、深圳大劇院、深圳市民公園、深圳購物公園、布吉一村、紅嶺中學(園嶺校區(qū))、建設(shè)天橋、匯商名苑、龍勝配件城、石芽嶺公園、左庭右院南區(qū)、皇冠體育中心、紅群樓小區(qū)、文心公園、卓越時代廣場、KK mall。

2.3? 熱區(qū)提取

由2.2節(jié)獲取的5個出租車載客熱點區(qū)域,分別對各區(qū)域載客訂單按時間排序,獲取一天24小時各小時的載客訂單量,對各熱點區(qū)域進行特征分析。

2.3.1? 深圳寶安國際機場區(qū)域

深圳寶安國際機場區(qū)域為全天載客量最高區(qū)域,利用Python可視化工具,獲取一天各小時的載客訂單量折線條形圖,如圖6所示。

結(jié)果表明,該區(qū)域一天中出租車訂單量集中在夜間18:00—02:00時段,在02:00之后載客訂單會逐漸減少,直到09:00之后才會逐漸上升,而夜間23:00—02:00之間的載客量最大,可能是由于夜間公共交通部分停運,乘客只能選擇出租車出行,因而該時段載客訂單量達到高峰。

2.3.2? 皇庭居區(qū)域

皇庭居區(qū)域為全天載客量次高的區(qū)域。該區(qū)域住宅區(qū)較多,同時離地鐵口較近且該地鐵口包含兩條地鐵線路。利用Python可視化工具,獲取一天當中各小時載客訂單量,具體如圖7所示。

結(jié)果表明,該區(qū)域00:00—01:00時段為出租車訂單量高峰時段,可能由于地鐵停運保養(yǎng),出租車出行成為居民重要的出行方式。該區(qū)域雖然住宅區(qū)較多,但方便的軌道交通比出租車更具有吸引力,因而居民選擇軌道交通出行較多。其余3個訂單量小高峰時間段為通勤高峰時間段,乘客出行基數(shù)大,從而使得出租車訂單量較其余時段更多。

2.3.3? 港逸豪庭區(qū)域

港逸豪庭區(qū)域為全天載客量第三高的區(qū)域,深圳站坐落于該區(qū)域。利用Python可視化工具,繪制出該區(qū)域一天內(nèi)各小時載客訂單量如圖8所示。

結(jié)果表明,該區(qū)域僅在04:00前后載客量有明顯低谷,是由于夜間時段居民生產(chǎn)活動減少,因而導(dǎo)致了出租車訂單量的減少。而在白天時段,由于該區(qū)域附近有火車站,居民出行活動頻繁,對出租車的需求較大,因而出租車訂單量較多。但該區(qū)域17:00前后出租車訂單量也有一個小低谷,是由于該時段為出租車司機換班時段,出租車司機載客意愿下降甚至出現(xiàn)拒載現(xiàn)象,因而導(dǎo)致了訂單量的下降。

2.3.4? 越港商業(yè)中心區(qū)域

越港商業(yè)中心區(qū)域為載客量第四高的區(qū)域,該區(qū)域附近大多為商城購物中心,利用Python可視化工具繪制出的各小時載客訂單量如圖9所示。

結(jié)果表明,該區(qū)域在夜間20:00—02:00時段的載客訂單量一直保持一個較高的水平,是由于夜間道路交通狀況良好,且公共交通大多停運,乘客為了更快的出行而多選擇乘坐出租車,并側(cè)面反映出深圳市居民的夜生活較為活躍。而在10:00—12:00時段以及15:00前后為該區(qū)域出租車載客低谷期,是由于這些時段該區(qū)域居民出行活動減少,將出租車作為出行工具的乘客也相應(yīng)減少。

2.3.5? 深圳五洲賓館區(qū)域

深圳五洲賓館區(qū)域為載客訂單量第五高的區(qū)域。附近除了賓館外還分布著較多的商業(yè)大廈,為深圳市的中心區(qū)域。同樣利用Python可視化工具繪制出該區(qū)域24小時內(nèi)的載客訂單分布,如圖10所示。

結(jié)果表明,白天時段由于附近商業(yè)大廈較多,居民均在公司辦公,出行活動較少,因此出租車訂單量一直較少。而在夜間19:00—01:00時段隨著下班后居民出行活動增加,并且夜間時段道路交通狀況良好,對出租車需求隨之增長,保持了較多且穩(wěn)定的訂單量。側(cè)面還反映出深圳市平均下班時間較晚,尤其在22:00前后下班的員工較多。

3? 結(jié)? 論

研究深圳市出租車載客熱點區(qū)域,通過DBSCAN聚類算法,對深圳市一天內(nèi)載客訂單量的前5位出租車載客熱點區(qū)域進行了研究分析,得出了深圳市出租車前5位載客熱點區(qū)域一天24小時各時段的載客訂單量,分析各時段訂單量分布的原因,為出租車司機提供有效的運營調(diào)度信息,幫助司機降低空載率,提高道路利用率,緩解交通擁堵。

在后續(xù)可以通過進一步獲取更長時間跨度的出租車出行數(shù)據(jù)以及相關(guān)的氣象等數(shù)據(jù),深入挖掘出租車出行時空特性。同時,在研究方法上可以進一步考慮對聚類后區(qū)域中心點權(quán)重等多因素。

參考文獻:

[1] 孫立山,賈琳,魏中華,等.基于GPS數(shù)據(jù)的出租車出行需求預(yù)測研究 [J].交通信息與安全,2021,39(5):128-136.

[2] 韓勇,樊順,周林,等.基于聚類算法的出租載客點時空分布特征研究 [J].中國海洋大學學報:自然科學版,2019,49(S1):155-162.

[3] 王鄭委.基于大數(shù)據(jù)Hadoop平臺的出租車載客熱點區(qū)域挖掘研究 [D].北京:北京交通大學,2016.

[4] LUO T,ZHENG X W,XU G L,et al. An Improved DBSCAN Algorithm to Detect Stops in Individual Trajectories [J/OL].ISPRS International Journal of Geo-Information,2017,6(3):[2023-03-05].https://doi.org/10.3390/ijgi6030063.

[5] SHEN Y,ZHAO L G,F(xiàn)AN J. Analysis and Visualization for Hot Spot Based Route Recommendation Using Short-Dated Taxi GPS Traces [J].Information,2015,6(2):134-151.

[6] YU H,LI Z N,ZHANG G H,et al. Extracting and Predicting Taxi Hotspots in Spatiotemporal Dimensions Using Conditional Generative Adversarial Neural Networks [J].IEEE Transactions on Vehicular Technology,2020,69(4):3680-3692.

[7] QI H,LIU P P. Mining Taxi Pick-Up Hotspots Based on Spatial Clustering [C]//2018 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI).Guangzhou:IEEE,2018:1711-1717.

[8] 田甜.基于出租車軌跡數(shù)據(jù)的居民出行特征及影響因素研究 [D].重慶:重慶交通大學,2022.

[9] HU X W,AN S,WANG J. Taxi Driver's Operation Behavior and Passengers' Demand Analysis Based on GPS Data [J/OL].Journal of Advanced Transportation,2018,2018(1):1-11[2023-03-05].https://www.hindawi.com/journals/jat/2018/6197549/.

[10] YANG Z,F(xiàn)RANZ M L,ZHU S J,et al. Analysis of Washington, DC taxi demand using GPS and land-use data [J].Journal of Transport Geography,2018,66:35-44.

[11] 劉志遠,張文波.交通大數(shù)據(jù)理論與方法 [M].杭州:浙江大學出版社,2020.

作者簡介:杜青松(1998—),男,漢族,四川廣元人,碩士研究生在讀,研究方向:交通信息工程及控制;通訊作者:李慧(1976—),男,漢族,四川成都人,副教授,碩士研究生,研究方向:道路交通安全。

收稿日期:2023-04-05

顺平县| 琼中| 浦江县| 楚雄市| 洞口县| 乐清市| 收藏| 广丰县| 柏乡县| 新蔡县| 武强县| 阜新市| 眉山市| 南郑县| 河曲县| 云霄县| 中西区| 华亭县| 汉阴县| 彝良县| 江津市| 镇雄县| 乐至县| 新晃| 扎囊县| 汝南县| 沁源县| 合山市| 油尖旺区| 寿宁县| 科技| 兴国县| 台北市| 上饶市| 丘北县| 香河县| 永安市| 文昌市| 肇庆市| 上杭县| 朝阳县|