国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于軌跡數(shù)據(jù)的出租車交接班時空分布識別方法

2021-12-07 10:10鄒復(fù)民羅思杰陳志輝廖律超
計算機應(yīng)用 2021年11期
關(guān)鍵詞:交接班軌跡聚類

鄒復(fù)民,羅思杰*,陳志輝,廖律超

(1.福建省汽車電子與電驅(qū)動技術(shù)重點實驗室(福建工程學(xué)院),福州 350118;2.福建省北斗導(dǎo)航與智慧交通協(xié)同創(chuàng)新中心(福建工程學(xué)院),福州 350118;3.數(shù)字福建交通大數(shù)據(jù)研究所(福建工程學(xué)院),福州 350118)

0 引言

交通軌跡數(shù)據(jù)暗藏了城市豐富的潛在信息,蘊含了交通結(jié)構(gòu)化要素[1-2],可有效挖掘出人車流動模式、路網(wǎng)變更、能源消耗分布[3-5]等,對城市交通資源配置、管理和規(guī)劃有著非常重要的指導(dǎo)作用[6]。出租車是城市交通的重要組成成分,其交接班的地點與時間是否合理對出租車的運行效率、公眾的便捷出行以及城市的交通狀況的有著重要影響[7]。

出租車交接班行為是指前一位駕駛員停止運營且車輛停止運行到后一位駕駛員接替車輛開始運行的過程。交接班地點為交接班行為中停留的地點,交接班時間定義為前一位駕駛員交完后,后一位駕駛員接的時間[8]。目前,針對出租車交接班的時間與地點的理想布局與實際布局已展開了大量研究。文獻(xiàn)[9]基于出租車的使用效率和出租公司的收益為綜合指標(biāo),建立出租車交接班時間優(yōu)化模型,給出了最佳的出租車交接班時間段,文獻(xiàn)[10]建立了預(yù)測出租車需求量的數(shù)學(xué)模型,提供了出租車數(shù)量、交接班地點的配置建議,這兩種出租車交接班方法理論上具有參考價值,但真實的交接班存在各種不可控因素,理想模型與實際情況會有較大區(qū)別。文獻(xiàn)[8]利用多尺度滑動窗口模型對出租車交接班事件在多個時間、空間尺度進(jìn)行搜尋,并定義交接班事件支持度對搜尋結(jié)果進(jìn)行評估,借用卷積神經(jīng)網(wǎng)絡(luò)中的卷積窗的思想,對交接班行為與時間進(jìn)行滑窗檢測。這種方法會受到時間、空間窗尺度的約束,即交接班行為必須在設(shè)定好的同個時間、空間窗內(nèi)進(jìn)行才能夠被識別,缺乏一定的靈活性;其次,此方法以停留次數(shù)為交接班地點的參考因素,容易造成交接班地點大多聚集在待客、送客的人流量密集區(qū)域,影響交接班地點的真實性。文獻(xiàn)[11]通過對出租車交接班行為進(jìn)行數(shù)學(xué)建模,發(fā)現(xiàn)交接班時空序列特征近似符合高斯分布,通過訓(xùn)練樣本得出高斯模型的擬合參數(shù)對出租車交接班行為進(jìn)行識別,以時序特征間隔時間、間隔距離、事件時長、空載距離四項參數(shù)為交接班點的評定標(biāo)準(zhǔn),但不同城市的各項特征可能存在差異或交接班行為與四項特征的關(guān)聯(lián)性不強,交接班識別的準(zhǔn)確性也會因此受到影響。文獻(xiàn)[12-13]通過IC 卡記錄數(shù)據(jù)與軌跡數(shù)據(jù)相結(jié)合來挖掘交接班行為。IC卡數(shù)據(jù)中記錄了運營者的上下班時間,讀取前一位運營者的下班時間與下一位的上班時間之間間隔時間即可得到交接班時間范圍,對交接班時間范圍內(nèi)速度為0 的停留點進(jìn)行聚類,簇中存在多天的停留點即交接班地點。該方法提取數(shù)據(jù)中存在的交接班特性進(jìn)行交接班識別,克服了模型擬合的弊端,適用范圍廣。但仍存在一些不足:1)未對停留點分類進(jìn)行深入研究,速度為0 的點可能是車輛非運營狀態(tài)的停留點,可能也為車輛運營狀態(tài)的停留點,只有在車輛非運營下的停留點才有可能為交接班地點,將速度為0 的點作為交接班的識別缺乏科學(xué)性。2)交接班地點識別沒有時間間隔判定,可能會存在小于8 h或大于12 h工作時間的非交接班事件誤判行為。3)交接班時間識別過分依賴于IC 卡打卡數(shù)據(jù),而許多出租車運營監(jiān)管系統(tǒng)并未要求駕駛員上下班打卡,以致于IC 卡打卡數(shù)據(jù)缺失將無法識別交接班時間,從而具有一定局限性。

針對以上存在的問題,本文提出了一種既有普適性又有科學(xué)性的交接班識別算法——基于軌跡數(shù)據(jù)挖掘的交接班識別算法。首先,深入分析軌跡數(shù)據(jù)中的語義信息,規(guī)整歧義信息,精準(zhǔn)提取出租車停留點;其次,計算出軌跡點最佳聚類半徑,保證密度聚類算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)[14]對停留點聚類的最優(yōu)范圍以保證潛在交接班地點數(shù)據(jù)的可靠性和科學(xué)性;然后,通過地點到達(dá)頻繁度指標(biāo)與停留周期指標(biāo)對潛在的交接班地點進(jìn)一步篩選,剔除不符合交接班特征的數(shù)據(jù),確保了交接班地點的準(zhǔn)確性;最后,基于交接班地點的時間維度,對每輛車的所有交接班時間進(jìn)行核密度估計[15],挖掘出交接班地點的時間規(guī)律,克服了IC 卡識別的局限性。以福州市的出租車為數(shù)據(jù)樣本,對福州市出租車的交接班時間與空間分布進(jìn)行挖掘,有效地識別出5639個出租車交接班地點,時間主要分布在凌晨4:00~6:00與傍晚16:00~18:00,實驗結(jié)果符合出租車交接班規(guī)律。

1 相關(guān)概念與定義

出租車交接班時空分布識別主要基于軌跡數(shù)據(jù)挖掘,對出租車的停留、移動行為中隱含的信息進(jìn)行知識發(fā)現(xiàn)。其中涉及部分交通領(lǐng)域的專業(yè)名詞,因此對其相關(guān)概念進(jìn)行描述與定義。

1)交通軌跡是車輛有目的的移動,由時空點序列構(gòu)成,主要包含有時間、地點、速度等數(shù)據(jù)屬性,如定義1所示。

定義1軌跡數(shù)據(jù)由多個軌跡點構(gòu)成,Traj={D0,D1,…,DN},軌跡點包含有位置P、時間T、速度V等屬性,Di=(Pi,Vi,Ti),Pi為經(jīng)緯度信息P={(Plon0,Plat0),(Plon1,Plat1),…,(PlonN,PlatN)},Ti是時間全序軸上的點值,均來自于實數(shù)域,Vi是在Ti時的速度信息,0 ≤i≤N,?i≤j,Ti≤Tj。

2)軌跡數(shù)據(jù)根據(jù)速度屬性可劃分為停留點數(shù)據(jù)和移動段數(shù)據(jù)。停留點即速度為0的連續(xù)軌跡點,移動段即速度不為0的連續(xù)軌跡點,如定義2所示。

定義2停留點STOP由多個連續(xù)的數(shù)據(jù)點組成,STOP={Ds,Ds+1,…,De},軌跡點的速度信息都為零,0

3)車輛運營狀態(tài)為車輛在持續(xù)行駛過程的狀態(tài),無效運營是車輛速度短暫不為0 但處于運營狀態(tài)中,車輛非運營狀態(tài)為即車輛持續(xù)停留的狀態(tài),無效非運營即車輛速度短暫為0但處于非運營狀態(tài)中,如定義3所示。

定 義3任意停留點STOPj={Ds,Ds+1,…,De},ΔT=Te-Ts,如果時間差ΔT小于停留時間閾值α1,停留點將轉(zhuǎn)換為移動段的軌跡:{Ds,Ds+1,…,De}→MOVE。任意移動段MOVEo={Du,Du+1,…,Dc},ΔT=Tc-Tu,如果時間差ΔT小于移動時間閾值α2,移動段將轉(zhuǎn)換為停留點數(shù)據(jù):{Du,Du+1,…,Dc}→STOP。

2 算法設(shè)計

2.1 非運營狀態(tài)停留點檢測算法

為了深入挖掘出租車軌跡數(shù)據(jù)中的停留行為,首先對出租車運動狀態(tài)的特性進(jìn)行分析。運動狀態(tài)根據(jù)車輛速度分為行駛與停留兩種模式,行駛模式為出租車速度不為0 的狀態(tài),停留模式即出租車速度為0 的狀態(tài)。本文將軌跡分為兩類,即運營狀態(tài)以及非運營狀態(tài)。其中運營狀態(tài)主要分為車輛在尋找客源與載客兩種,非運營狀態(tài)為休息、吃飯、交接班等。本文主要分析挖掘軌跡數(shù)據(jù)中的非運營狀態(tài)數(shù)據(jù),實現(xiàn)對出租車交接班的停留點的檢測。

STOP/MOVE 模型[16]可表述為軌跡在運營與非營運兩種狀態(tài)下的切換過程。如圖1(a)所示,一條軌跡含有200 條數(shù)據(jù);將速度大于0 的運營軌跡點(MOVE 狀態(tài))標(biāo)記為1,速度為0(STOP 狀態(tài))的非運營軌跡點標(biāo)記為0,標(biāo)記結(jié)果如圖1(b)所示。將軌跡數(shù)據(jù)的運營狀態(tài)數(shù)據(jù)與非運營狀態(tài)數(shù)據(jù)單獨提取出來,即可根據(jù)特定需求對不同狀態(tài)的數(shù)據(jù)進(jìn)行挖掘。但軌跡數(shù)據(jù)中存在歧義信息,即運營數(shù)據(jù)與非運營數(shù)據(jù)中存在許多無效運營數(shù)據(jù)與無效非運營數(shù)據(jù)。由圖1(b)可以看出,在索引25到150之間出現(xiàn)了多次STOP與MOVE之間的狀態(tài)切換,這種情況可能是發(fā)生交通擁堵或者車輛在路口停車等綠燈通行,車輛停停走走,速度時而為0時而不為0,但車輛是實際在運營狀態(tài),其中速度短暫為0 的STOP 狀態(tài)應(yīng)歸類為MOVE 狀態(tài)。反之亦然,在司機休息時進(jìn)行短時間的挪車、倒車等動作車輛速度不為0 但卻沒有處于實際的運營中,因此此類速度不為0 的運營狀態(tài)屬于無效運營,應(yīng)歸為STOP狀態(tài)。

圖1 STOP/MOVE狀態(tài)映射效果Fig.1 Mapping effect of STOP/MOVE state

為避免無效運營、無效非運營事件的提取,使數(shù)據(jù)準(zhǔn)確地表達(dá)屬性,本文使用速度序列線性聚類(Velocity Sequence Linear Clustering,VSLC)算法[17]對數(shù)據(jù)進(jìn)行規(guī)整。首先設(shè)置狀態(tài)持續(xù)時間閾值對運營數(shù)據(jù)與非運營數(shù)據(jù)進(jìn)行篩選,如果停留時間或移動時間小于設(shè)定的閾值,就將其狀態(tài)標(biāo)簽進(jìn)行轉(zhuǎn)換,避免交通擁堵與短時的挪車等行為對車輛狀態(tài)分類準(zhǔn)確性的干擾。參考文獻(xiàn)[16-18],本文設(shè)置移動時間閾值α2為120 s,停留時間閾值α1為300 s,如圖2 所示,白色軌跡為非運營狀態(tài)的軌跡,黑色為運營狀態(tài)的軌跡,白色軌跡即速度為0的停留點數(shù)據(jù),可用于交接班行為的識別。

圖2 VSLC算法示意圖Fig.2 Schematic diagram of VSLC algorithm

本文方法將出租車的運營與非運營狀態(tài)區(qū)分開來,改正了無效運營、無效非運營數(shù)據(jù),避免了歧義信息對非運營停留點檢測干擾,保證了非運營停留點的準(zhǔn)確性。算法偽代碼如算法1所示。

算法1 非運營停留點檢測算法。

2.2 潛在交接班地點提取算法

出租車交接班行為具有一定的空間聚集性,文獻(xiàn)[11]表明每日交接班行為范圍不會超過5 km 并且大部分集中于1 km 以內(nèi)。根據(jù)這種特點,本文采用基于密度的空間聚類算法DBSCAN 對出租車非運營停留地點進(jìn)行空間聚類并將停留高度密集的地點標(biāo)記為潛在交接區(qū)域。DBSCAN 算法可定義為:給出空間點集SSTOP={Pi},其中任意點Pi的鄰域半徑Eps內(nèi)的點集以Pi為圓心、以Eps為半徑范圍對點進(jìn)行搜索,如果密度可達(dá)點的個數(shù)大于樣本最小閾值Minpts,則范圍內(nèi)的點集合為一個簇,如式(1)所示。聚類示意圖如圖3所示,以Eps聚類出兩個簇N1、N2,N1、N2之外的點為噪聲。

圖3 DBSCAN算法聚類示意圖Fig.3 Schematic diagram of clustering by DBSCAN algorithm

其中:S表示某車輛所有軌跡點的集合;Pi為某車輛7 d內(nèi)的非運營停留點的集合;Q為核心點;P表示在半徑Eps鄰域內(nèi)核心點Q密度可達(dá)的點;NEps則表示在地點Pi的半徑Eps范圍內(nèi)以核心點Q所有密度可達(dá)的非運營停留點的集合。dist表示為點P與Q的距離,本文采用haversine對距離進(jìn)行度量,因此半徑范圍的非運營停留點集合表示為式(2):

DBSCAN 中的Eps參數(shù)對最終聚集效果具有決定性作用,為獲得最好的聚類效果,本文通過K距離方法[19]對Eps參數(shù)進(jìn)行調(diào)優(yōu)。K距離方法即先提取一輛車的所有非運營停留地點,再計算所有點之間的互相距離,距離計算為式(3)所示。將得到的距離從小到大排列,將其用圖形展示出來,距離曲線陡增位置的點即出租車非運營停留點相互距離的拐點就是最佳的聚類半徑Eps。

本文方法通過空間點密度可達(dá)關(guān)系得到的最大密度相連的空間點集合。根據(jù)車輛的非運營停留點對一定區(qū)域內(nèi)的密度可達(dá)的點進(jìn)行搜索,若非運營停留點的密度可達(dá)點數(shù)量大于最小樣本數(shù)則形成為一個簇,否則將點視為噪聲點,最后所有形成的簇即潛在的交接班地點。算法偽代碼如算法2所示。

算法2 出租車非運營停留高密度區(qū)域獲取算法。

2.3 交接班時空分布識別算法

目前國內(nèi)的出租車行業(yè)經(jīng)營者主要分為出租汽車經(jīng)營企業(yè)和出租汽車個體工商戶兩種,兩種經(jīng)營方式的交接班時間都是為早晚兩個,所以理想的狀態(tài)下,交接班時間的密度分布應(yīng)為雙峰狀,而峰狀分布數(shù)據(jù)幾乎不會符合某種特定的性態(tài),因此難以用參數(shù)方法進(jìn)行擬合。核密度估計是一種概率密度函數(shù)的非參數(shù)檢驗方法,用來估計未知的密度函數(shù),十分適用于未知分布樣本,因此為搜尋停留結(jié)束時間比較集中的時段,本文通過核密度估計(Kernel Density Estimation,KDE)進(jìn)行交接班時間的識別。

本文先通過核密度估計對各個潛在交接班時間點生成核密度曲線,再對集中較為密集的時間點進(jìn)行標(biāo)記,提取最為集中即密度最高的兩個時間即出租車交接班時間Timeshift1與Timeshift2。核密度曲線計算如式(4)所示。

其中:timei為給定的停留結(jié)束時間樣本;Kh()為核函數(shù),本文選取高斯核;n為樣本數(shù)量。為提取出概率密度最高的兩個值,可以對生成的核密度曲線進(jìn)行微分,計算所有f 'kernel(t)=0 所對應(yīng)的概率密度,經(jīng)過排序后取概率密度最高的兩個t值,t值即為交接班的兩個時間。

由于出租車行駛區(qū)域的廣闊性與隨機性,可能會在非交接班地點區(qū)域頻繁停留,導(dǎo)致潛在交接班地點的誤判,因此設(shè)置了兩個交接班事件判斷指標(biāo)進(jìn)一步對潛在交接班地點進(jìn)行篩選,保證交接班地點的準(zhǔn)確性。

1)到達(dá)頻繁度指標(biāo)。

出租車車主的就餐與上洗手間也為非運營狀態(tài)的停留時間,在工作過程中,車主可能會對某一熟悉的餐廳或公共衛(wèi)生間、加油(氣、電)站等有使用偏好,停留頻繁度相對較高。為防止車主就餐、上廁所等停留行為對交接班精準(zhǔn)識別的影響,本文定義地點支持度對潛在交接班地點進(jìn)行評估,支持度FS指的是駕駛員在某一地點的頻繁度,即在一個工作周期k內(nèi)同一地點停留的頻率,計算方法如式(5)所示:

其中:NS為在區(qū)域S內(nèi)的到達(dá)天數(shù);k為工作周期,本文k取7即一周。

交接班是出租車每天都會進(jìn)行的活動,基本上每天都會發(fā)生兩次,而且地點比較固定。由于出租車的工作范圍為整個市區(qū),就餐與上廁所、加油(氣、電)等行為主要根據(jù)車主工作位置而定,所有幾乎不會存在每天同一地點進(jìn)行就餐、上廁所行為。因此,本文設(shè)定到達(dá)頻繁度指標(biāo)篩選掉就餐、上洗手間等可能會干擾交接班行為準(zhǔn)確識別的潛在因素,進(jìn)一步保證交接班地點的準(zhǔn)確性??紤]到換班、休班情況,本文設(shè)定每周的工作時間為5 天,即NS為5,F(xiàn)S的閾值為0.71。對于潛在交接班地點的簇中,如果非運營停留點的天數(shù)沒有達(dá)到5 天,即FS小于0.71,將不予交接班地點考慮。交接班的地點與時間由出租車車主根據(jù)自身情況自由安排,地點可能為1個或2個,本文選取每輛車支持度FS最高的兩個潛在交接班地點作為交接班地點候選,其中支持度FS大于0.71的潛在交接班地點作為交接班地點考慮。交接班位置主要可能在司機家附近區(qū)域或兩個司機都方便的某個地鐵口或公交車站附近,只要存在一周內(nèi)5 天及以上停留,都會判別為交接班行為,任何地點進(jìn)行交接班行為都可識別。

2)停留周期指標(biāo)。

在城市中心區(qū)域、車站、機場等人流量高的區(qū)域,出租車需求量相對偏高,出租車停留密度也會相應(yīng)增加,可能會存在在此處待客的行為,為避免將其誤判為交接班地點,本文設(shè)置停留周期指標(biāo)對交接班地點進(jìn)行篩選,計算式如式(6)所示:

其中:Timeshift1與Timeshift2為在一個交接班潛在地點內(nèi)停留結(jié)束時間最為密集的兩個時段;ΔTimeshift為兩個交接班行為的間隔時間。

根據(jù)出租車運營制度以及文獻(xiàn)[11]統(tǒng)計,出租車交接班集中在兩個時段且間隔時間一般在8~12 h,即只有8 h≤ΔTimeshift≤12 h,則判斷為合理。如果潛在交接班地點的兩個密度最大的非運營停留點結(jié)束時間不在8~12 h 的范圍內(nèi),將不予認(rèn)定為交接班地點。市中心和車站機場等高密度停留區(qū)域的停留待客時間比較隨機,沒有交接班這種停留結(jié)束時間在8~12 h 的停留規(guī)律,出租車基本不會存在每天都在8~12 h的間隔時間在同一區(qū)域待客,且就餐、上洗手間也沒有10~12 h的規(guī)律,所以停留周期指標(biāo)可以篩選掉此類影響交接班地點準(zhǔn)確性的因素。

本文先精準(zhǔn)提取出出租車非運營停留點,基于非運營停留點進(jìn)行聚類獲取非運營停留高密度區(qū)域即潛在的交接班地點,再通過非運營停留高密度區(qū)域各非運營停留點的停留結(jié)束時間進(jìn)行核密度估計得出潛在交接班的時間與地點,最后根據(jù)交接班事件判斷指標(biāo)去掉非交接班事件得出有效的交接班地點與時間,算法具體流程如圖4 所示。為驗證本文方法的科學(xué)性,本文引入最新的交接班算法如文獻(xiàn)[8]方法與權(quán)威的交接班算法如文獻(xiàn)[13]方法進(jìn)行對比分析。文獻(xiàn)[8]方法以滑動窗口對研究范圍內(nèi)的軌跡數(shù)據(jù)進(jìn)行檢測,滑動窗口的大小代表交接班地點的范圍。窗口尺寸從小到大進(jìn)行檢測,每進(jìn)行一個尺寸的窗口滑動時,在窗口對軌跡的時間屬性進(jìn)行一個時間窗口的滑動,以時間窗口的大小作為交接班時間的范圍。首先該方法對交接班地點與時間的精確性有一定不足,無法準(zhǔn)確地獲取出每輛車的交接班的地點和時間,只能得出一個范圍,而本文方法可以精確地獲取每個交接班的地點與時間。其次,該方法以車輛在某區(qū)域或時間的頻次作為交接地點與時間確定的重要標(biāo)準(zhǔn),沒有對車輛在區(qū)域或事件的停留作具體分析是否為交接班行為,或者為某個人流量較高區(qū)域的待客、送客等行為,從而容易造成交接班事件的誤判,而本文方法以篩選過短暫停留行為的停留點為交接班地點參考,短時間的待客停留、交通擁堵等不會認(rèn)定為交接班事件。最后,文獻(xiàn)[8]方法中每輛車只提取出了一個交接班地點,可能存在交接班地點的漏判。相較于文獻(xiàn)[13]方法,本文的非運營停留點檢測方法可規(guī)避交通擁堵、路口紅燈停留等短暫停留數(shù)據(jù)對交接班地點識別的誤導(dǎo),而文獻(xiàn)[13]方法未對停留點的行駛狀態(tài)分類細(xì)化研究,將車輛運營狀態(tài)下的停留點也歸為交接班地點的計算中,可能會存在交班地點出現(xiàn)在某條經(jīng)常擁堵的道路上或某個十字路口等的錯誤識別。其次,本文方法的到達(dá)頻繁度指標(biāo)與停留周期指標(biāo)可以篩選掉潛在交接班地點中加油(氣、電)、就餐、上洗手間、等不頻繁一地停留行為與周期嚴(yán)格在8~12 h 規(guī)律的簇,進(jìn)一步保證了交接班識別的準(zhǔn)確性。文獻(xiàn)[13]方法以停留點聚類成的簇作為交接班地點的識別,交接班地點中可能會存在出租車司機頻繁就餐的餐廳、公共衛(wèi)生間、加油(氣、電)站等區(qū)域。而且,文獻(xiàn)[13]方法以停留點最多的地方為交接班地點,交接班地點只存在1 個,然而交接班地點為車主根據(jù)各自需求而定,可能為1個也可能為2個,所以文獻(xiàn)[13]方法識別的交接班地點中可能存在缺漏。本文以符合停留周期指標(biāo)且到達(dá)頻繁度指標(biāo)最高的兩個交接班地點為候選交接班地點,取符合到達(dá)頻繁度指標(biāo)的候選交接班地點為交接班地點,交接班地點可能為1 個也可能為2 個,保證了交接班地點的完整性。最后,文獻(xiàn)[13]方法的IC 卡信息準(zhǔn)確地記錄了運營者的上下班時間,可直接提取出交接班的時間,但大部分的出租車公司允許出租車車主自由安排交接班時間,并不需要記錄駕駛員的上下班信息,IC卡數(shù)據(jù)獲取交接班行為的方法有一定的局限性,而本文方法通過挖掘交接班地點中的時間規(guī)律,識別交接班時間,具有普遍適用性。

圖4 出租車交接班地點、時間挖掘算法Fig.4 Algorithm for mining location and time of taxi shift

3 實驗與結(jié)果分析

本文的實驗運行環(huán)境是Windows 10 操作系統(tǒng),實驗設(shè)備的硬件配置是Intel Core i7-9750H CPU @2.60 GHz,內(nèi)存為16 GB,算法采用Python 語言編寫,實驗數(shù)據(jù)來源于福建省北斗導(dǎo)航與智慧交通協(xié)同創(chuàng)新中心通過車載診斷系統(tǒng)設(shè)備采集于2018年6月11日至17日的4416輛出租車的軌跡數(shù)據(jù)。軌跡數(shù)據(jù)包含ID、經(jīng)度、緯度、速度、方向、時間戳六個屬性,具體見表1。其中方向?qū)傩苑秶鸀?°~360°,正北方向為0°,由順時針方向逐漸趨于360°,經(jīng)緯度坐標(biāo)以GCJ-02為坐標(biāo)系。

表1 交通軌跡數(shù)據(jù)屬性Tab.1 Attributes of traffic trajectory data

3.1 非運營停留點檢測

對所有車輛的非運營停留點進(jìn)行分析,每輛出租車平均每周停留197 次,車輛每周的非運營停留點個數(shù)主要集中在100~300。圖5(a)表示為一輛出租車的非運營停留點分布,從圖中可看出,出租車營業(yè)范圍較廣,覆蓋區(qū)域幾乎為整個市區(qū),在琴聲商務(wù)廣場與西元大橋附近存在兩個非運營停留點點數(shù)比較密集的區(qū)域,可能為此輛車的交接班地;圖5(b)為文獻(xiàn)[13]方法對同一輛車的檢測效果,從中可看出,停留點數(shù)遠(yuǎn)多于本文方法的檢測結(jié)果,文獻(xiàn)[13]方法以速度為0 km/h的停留點作為交接班地點,短暫的堵塞或路口等綠燈通行的行為都會被判定為停留點,所以在圖中存在許多在路網(wǎng)上的停留點。相較于文獻(xiàn)[13]方法,本文方法對停留點的檢測量少而精準(zhǔn),不存在誤檢,既提高了聚類的地點的準(zhǔn)確性,同時又減少了算法運行時間。

圖5 停留點分布檢測效果對比Fig.5 Comparison of parking point distribution detection effect

3.2 潛在交接班地點提取

為識別潛在交接班的地點,先通過K距離方法確定聚類的半徑Eps,本文對一輛車7 d 內(nèi)的非運營停留點計算K距離值,對其排序后如圖6所示。

從圖6 中可以看出,該車輛的非運營停留點在100 至130都是小幅度遞增,130 至140 處開始出現(xiàn)大幅度遞增,拐點的位置在130 左右。為具體得到聚類半徑的值,本文隨機選取10輛車的非運營停留點進(jìn)行驗證,結(jié)果如表2所示,結(jié)合實驗結(jié)果本文選取頻率最高的130 m 作為Eps。交接班行為一般每日都會發(fā)生,但司機每周可能會休息一到兩天,所以假定每周至少會上5 天班,也就是每個交接班地點出租車每周至少會有5次抵達(dá),所以聚類的最小樣本數(shù)Minpts設(shè)定為5。

圖6 潛在出租車交接班地點范圍Fig.6 Range of potential taxi shift locations

表2 潛在出租車交接班地點的最佳聚類半徑Tab.2 Optimal clustering radius of potential taxi shift locations

選取一輛車的非運營數(shù)據(jù)進(jìn)行DBSCAN 算法聚類分析,聚類結(jié)果如圖7 所示,圖中區(qū)域存在三個潛在交接班地點,其中兩個不在道路上的潛在的交接班地點可能為交接班地點,而另外一個在十字路口的簇可能是等綠燈時的停留點所形成。圖8 為所有的聚類結(jié)果,共聚類出8306 個簇即潛在交接班地點,覆蓋了整個福州市區(qū)。

圖7 DBSCAN算法的聚類結(jié)果Fig.7 Clustering results of DBSCAN algorithm

圖8 福州市出租車潛在交接班地點分布Fig.8 Distribution of potential taxi shift locations in Fuzhou

3.3 交接班時空分布識別

交接班行為不僅在空間上具有相關(guān)性,在時間維度上也具有一定規(guī)律,為保證交接班事件識別的準(zhǔn)確性,對每個潛在的交接班地點的時間維度進(jìn)行進(jìn)一步判別。對每個地點的停留離開時間進(jìn)行核密度估計,得出潛在交接班地點的密度最大的兩個時間。圖9 為某個潛在交接班地點停留結(jié)束時間的概率分布,可以看出在400 min 與1000 min 處(6:30 以及16:30),停留結(jié)束事件最多,并且二者間隔約為10 h,因此可判斷此處為交接班地點,交接班行為大約在上午6:30 以及下午4:30(16:30)。

圖9 單輛車的潛在交接班時間的概率分布Fig.9 Probability distribution of one taxi’s potential shift time

在得出潛在交接班的時間后,通過交接班事件判斷指標(biāo)對潛在交接班地點在時間維度上進(jìn)一步篩選,結(jié)合7 天時間內(nèi)4416 輛出租車的運行軌跡進(jìn)行實驗,識別出交接班地點5639 個,圖10 為本文方法交接班識別效果與文獻(xiàn)[8]方法和文獻(xiàn)[13]方法交接班識別效果,其空間分布投影于研究區(qū)域路網(wǎng),結(jié)合電子底圖顯示交接班停留的空間分布情況,從白色到黑色表示交接班行為強度逐漸增強。

由圖10 可以看出,本文方法識別出的交接班地點區(qū)域與文獻(xiàn)[8]方法、文獻(xiàn)[13]方法的交接班識別區(qū)域大體相同,交接班行為在鼓樓區(qū)、晉安區(qū)、臺江區(qū)強度高。這三個區(qū)域囊括了福州市居民的主要工作區(qū)域、交通樞紐、商圈以及風(fēng)景名勝。交接班行為最為活躍的區(qū)域是鼓樓區(qū)與倉山區(qū)的交接區(qū)域,這片區(qū)域是福州市最為繁華的娛樂性區(qū)域,包含了萬象城、寶龍城市廣場、中亭街等福州市發(fā)展最早的商圈區(qū)域。倉山區(qū)交接強度較小,這是由于倉山人口密度相對于中心區(qū)域人口密度較小,出租車司機通常會選擇人口較為稠密、商業(yè)活動集中的中心地帶作為開始工作的地點。與文獻(xiàn)[8]方法和文獻(xiàn)[13]方法相比,本文方法在交接班密集區(qū)域還是存在較大的差別。文獻(xiàn)[8]方法的密集區(qū)域主要在鼓樓區(qū)的東街口、51 廣場、臺江區(qū)的萬寶城以及福州站這些人流量密集區(qū)域,其他區(qū)域相對很低,這是由于文獻(xiàn)[8]方法以車輛流動頻次作為交接班評定的主要依據(jù),而這些人流量大較且繁華的區(qū)域幾乎為出租車每天必達(dá)區(qū)域,所有大多數(shù)出租車都在窗口滑動時在此區(qū)域時空頻繁性相對要高,交接班事件的密度也就相對更集中于這些區(qū)域。鼓樓區(qū)是福州市的文化、政治中心,相對于其他區(qū)域而言,交通管制更為嚴(yán)格,一般不會允許車輛長時間停留,因此幾乎不存在交接班行為。文獻(xiàn)[13]方法在鼓樓區(qū)中心區(qū)域交接班行為也較為密集是因為市區(qū)交通較為擁堵,存在許多走走停停的駕駛行為,短暫的停留行為視為停留點用來交接班行為識別,導(dǎo)致鼓樓區(qū)中心區(qū)域交接班密度也依舊較高。晉安區(qū)的福州站人口流量大,客源較多且位于郊區(qū),所以交接班行為也較多。而文獻(xiàn)[13]方法在福州站處密集度不夠高是因為在鼓樓區(qū)與晉安區(qū)站交界處存在較多的短暫停留,在此區(qū)域的聚類成的簇也就更多,而每輛車只有一個交接班地點,所以在福州站附近密度就會較低。

圖10 福州市出租車交接班地點的空間分布Fig.10 Space distribution of taxis shift locations in Fuzhou

在2021 年2 月24 日對本文中交接班密集區(qū)域進(jìn)行了蹲點調(diào)查法,共收集到73 輛出租車的調(diào)查報告。根據(jù)數(shù)據(jù)統(tǒng)計可知,73輛車中51輛車為1個交接班地點,16輛車為2個交接班,6 輛車為個人駕駛,不存在交接班行為。關(guān)于交接班地點:其中,20 名出租車在福州站進(jìn)行交接班,14 臺出租車在晉安區(qū)進(jìn)行交接班,10 臺出租車在鼓樓區(qū)交通監(jiān)管稍弱區(qū)域進(jìn)行交接班,11 臺出租車在倉山區(qū)區(qū)域進(jìn)行交接班,8 臺出租車在臺江區(qū)進(jìn)行交接班,5 臺出租車在市區(qū)外的福州南站進(jìn)行交接班,3 臺出租車市區(qū)外的大學(xué)城進(jìn)行交接班,2 臺出租車為市區(qū)外的其他區(qū)域進(jìn)行交接班,小樣本調(diào)查結(jié)果與本文識別的交接班地點大體相符,進(jìn)一步驗證了本文方法的可靠性。

根據(jù)所有交接班時間的統(tǒng)計,交接班行為在各個時間段的比率如圖11 所示,其中的核密度曲線反映了交接班行為隨時間的變化趨勢。從概率密度曲線可以看出,交接班行為在6:00—8:00與16:00—18:00交接班強度最高,在4:00—7:00以及15:00—18:00 交接班強度逐漸增高,與福州市民眾出行規(guī)律相吻合。

圖11 福州市出租車交接班時間概率密度圖Fig.11 Probability density diagram of taxi shift time in Fuzhou

4 結(jié)語

為有效提取出出租車交接班時空分布,本文提出了一種基于軌跡數(shù)據(jù)挖掘的交接班識別算法。該算法總共分為三個部分:一是出租車非運營狀態(tài)停留點檢測,有效地獲取了出租車在城市的停留位置以及停留時長。二是出租車非運營停留高密度區(qū)域獲取,得出每輛出租車的頻繁停留區(qū)域即潛在的交接班地點。三是出租車交接班地點時間識別,精準(zhǔn)提取出了出租車的交接班地點與時間。實驗結(jié)果反映出出租車交接班的時空分布,表明了本文方法的可行性。出租車交接班具有一定的可變性,其地點、時間會存在部分變動,通過長時間的軌跡數(shù)據(jù)與有效的算法挖掘出城市中出租車交接班的變化規(guī)律將是下一步的研究方向。

猜你喜歡
交接班軌跡聚類
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
手術(shù)室采用信息化交接班方式的效果分析
解析幾何中的軌跡方程的常用求法
一種改進(jìn)K-means聚類的近鄰傳播最大最小距離算法
AR-Grams:一種應(yīng)用于網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)的文本聚類方法
軌跡
軌跡
神經(jīng)外科患者床邊SBAR模式化交接班表的設(shè)計與應(yīng)用體會
新加坡領(lǐng)導(dǎo)層綢繆“交接班”
基于Spark平臺的K-means聚類算法改進(jìn)及并行化實現(xiàn)