孫立山 賈 琳 魏中華▲ 李俊峰
(1.北京工業(yè)大學(xué)城市建設(shè)學(xué)部 北京100124;2.北京千方科技股份有限公司 北京100191)
互聯(lián)網(wǎng)+交通的發(fā)展促進(jìn)了“網(wǎng)約車”的快速發(fā)展,但由于乘客出行的隨機(jī)性與空載出租車司機(jī)尋找乘客的盲目性,導(dǎo)致出租車供需時(shí)空分布嚴(yán)重不平衡,出租車空載時(shí)間和空駛里程增加,交通資源利用水平低,進(jìn)一步加劇城市道路擁堵。部分地區(qū)出租車數(shù)量供給不足,這樣很容易出現(xiàn)打車難的現(xiàn)象,且等車時(shí)間長(zhǎng)影響乘客出行體驗(yàn)。因此,為有效地的提高載客率、改善乘車體驗(yàn),挖掘出租車載客熱區(qū)進(jìn)而實(shí)現(xiàn)實(shí)時(shí)調(diào)度成為解決該問(wèn)題的重要手段。
1)出行分布特征研究。諸多學(xué)者對(duì)出租車出行時(shí)空分布特征進(jìn)行了研究。曹梁[1]研究了上海地區(qū)乘客出行規(guī)律;付鑫等[2]采用ArcGIS建立OD矩陣,分析了出租車出行時(shí)空特征;張俊濤等[3]采用路徑識(shí)別算法,對(duì)時(shí)空分布規(guī)律進(jìn)行了研究;J.A.Alvarez-garcia等[4]采用隱馬爾可夫算法對(duì)出租車行駛時(shí)的特征進(jìn)行了分析。
通過(guò)分析乘客出行分布規(guī)律得出居民出行高峰時(shí)段等,為司機(jī)提供依據(jù),也為載客熱區(qū)的挖掘及出行需求預(yù)測(cè)提供基礎(chǔ)。
2)載客熱區(qū)挖掘。已有的研究側(cè)重于居民出行軌跡方面。林基艷等[5]引入DBSCAN(density-based spatial clustering of applications with noise)算法確定出熱點(diǎn)區(qū)域分布情況。何月等[6]針對(duì)出租車空載率高的問(wèn)題,采用基于網(wǎng)格的聚類算法,實(shí)現(xiàn)了載客熱點(diǎn)區(qū)域的挖掘。Tang等[7]提出了1種混合路徑尺寸對(duì)數(shù)模型(MPSL),并驗(yàn)證該模型可以分析出租車司機(jī)的路線選擇行為。Zheng等[8]提出了1種基于網(wǎng)格密度的聚類算法,驗(yàn)證其算法的有效性。王明[9]采用密度DBSCAN算法進(jìn)行分析,發(fā)現(xiàn)熱點(diǎn)區(qū)域挖掘結(jié)果的應(yīng)用價(jià)值明顯提高。Luo等[10]提出1種基于混合特征的密度測(cè)量方法,并對(duì)??奎c(diǎn)進(jìn)行提取處理。桂智明等[11]利用DBSCAN空間聚類算法確定出載客熱區(qū)。王鄭委[12]對(duì)相關(guān)的K-means聚類算法設(shè)計(jì),然后聚類分析了出租車載客點(diǎn)信息,確定出相應(yīng)的熱點(diǎn)區(qū)。
綜上,針對(duì)出租車載客熱區(qū)挖掘識(shí)別方面所采用的算法,現(xiàn)有研究多使用K-means和傳統(tǒng)的DBSCAN等,但K-means需要指定簇的個(gè)數(shù),K值難以確定。盡管DBSCAN聚類算法不需要指定簇的個(gè)數(shù),但參數(shù)的選擇對(duì)聚類結(jié)果影響較大,因此研究引進(jìn)k-距離曲線確定參數(shù)以改進(jìn)DBSCAN聚類算法,提高聚類效果,使得分類更加精確。
3)出租車出行需求預(yù)測(cè)。Zhang等[13]從復(fù)雜網(wǎng)絡(luò)動(dòng)力學(xué)的層面對(duì)出租車出行網(wǎng)絡(luò)的復(fù)雜度的日常動(dòng)態(tài)演變進(jìn)行了分析,并應(yīng)用BP神經(jīng)網(wǎng)絡(luò)模型提高了出租車出行網(wǎng)絡(luò)的管理水平。王芮[14]通過(guò)網(wǎng)格劃分法對(duì)出租車需求量進(jìn)行估計(jì),采用卡爾曼濾波算法、研究了目標(biāo)區(qū)出租車的出行需求。席殷飛等[15]對(duì)既有的出租車出行需求預(yù)測(cè)方法進(jìn)行了分析,得出國(guó)外預(yù)測(cè)分析要早于國(guó)內(nèi)的結(jié)果,國(guó)內(nèi)側(cè)重于研究面向傳統(tǒng)巡航式出租車的乘客需求熱點(diǎn)區(qū)域,而對(duì)網(wǎng)約車出行需求預(yù)測(cè)的定量分析較少。張文勝等[16]提出1種改進(jìn)的灰狼算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò),提高了短時(shí)交通流預(yù)測(cè)的精度。葉秀秀等[17]采用多元線性回歸算法預(yù)測(cè)無(wú)檢測(cè)器路段的交通流。Yang等[18]提出了1種新的基于注意機(jī)制的端到端神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)軌道交通客流,以提高預(yù)測(cè)效果。Wang等[19]運(yùn)用門控回歸單元網(wǎng)絡(luò),對(duì)有效波高進(jìn)行預(yù)測(cè),得出模型預(yù)報(bào)速度更快,適應(yīng)性更強(qiáng)。李巖[20]采用了隨機(jī)森林模型以及嶺回歸模型對(duì)出租車的出行需求進(jìn)行預(yù)測(cè)。
總結(jié)出行需求預(yù)測(cè)的現(xiàn)狀可知,神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)中應(yīng)用頻率較高,性能較好,但現(xiàn)有的出租車出行需求預(yù)測(cè)往往集中隨機(jī)森林模型等基于統(tǒng)計(jì)分析或者非線性理論的模型,使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)較少,因此研究將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到出行需求預(yù)測(cè)中,以提高出租車出行需求預(yù)測(cè)的精度。
本文研究過(guò)程中的數(shù)據(jù)來(lái)源為滴滴平臺(tái)。數(shù)據(jù)包括成都市2016年11月1日—30日的1萬(wàn)多輛出租車的軌跡數(shù)據(jù)和訂單數(shù)據(jù)。獲取的每一行數(shù)據(jù)包括車輛的ID,運(yùn)行時(shí)間,訂單ID,實(shí)時(shí)經(jīng)緯度等。相關(guān)數(shù)據(jù)段見(jiàn)表1。其中,軌跡ID字段為車輛編號(hào);訂單ID字段為訂單編號(hào);GPS Longitude和GPS Latitude為GPS記錄的經(jīng)緯度;GPS Time字段為記錄采樣時(shí)刻。
表1 GPS軌跡數(shù)據(jù)字段及含義Tab.1 Data fields and meanings of the GPS track
數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、地圖糾偏,以及出租車的上下客點(diǎn)提取。
1)數(shù)據(jù)清洗。GPS數(shù)據(jù)采集過(guò)程中如果受到隧道和建筑物等障礙物的干擾、外界天氣及設(shè)備故障的影響,接收端返回的數(shù)據(jù)會(huì)存在噪聲數(shù)據(jù)。因此應(yīng)剔除不重復(fù)的、超出區(qū)域的GPS數(shù)據(jù)。
2)地圖糾偏。因坐標(biāo)系選擇的影響,獲取的出租車軌跡往往會(huì)和實(shí)際路網(wǎng)相背離,為了保證出租車空間分布的準(zhǔn)確性,需要借助ArcGIS對(duì)部分偏離路網(wǎng)的軌跡數(shù)據(jù)修正。
3)上下客點(diǎn)提取。結(jié)合GPS軌跡數(shù)據(jù)和訂單數(shù)據(jù),提取出租車上下客點(diǎn),圖1(a)~(b)分別為某1個(gè)工作日的上下客點(diǎn)。
圖1 某工作日出租車上下客點(diǎn)Fig.1 Taxi pick-up and drop-off points on a working day
出行需求時(shí)間分布規(guī)律主要包含工作日與非工作日的出行需求分布規(guī)律,同一星期屬性的出行需求分布規(guī)律。
根據(jù)常識(shí),工作日與非工作日出行需求分布規(guī)律存在一定的差異性,將數(shù)據(jù)分為周一~周五、周六、周日這3組,因訂單時(shí)長(zhǎng)15 min左右的所占比例最大,所以按照15 min為1個(gè)時(shí)間間隔進(jìn)行統(tǒng)計(jì),將全天分為96個(gè)時(shí)間段,得到不同星期屬性的出租車出行需求時(shí)間變化規(guī)律,見(jiàn)圖2(a)。
另外,同一星期屬性的出行需求分布規(guī)律比較類似,研究選取11月2日、11月9日、11月16日、11月23日這4個(gè)周三的數(shù)據(jù),對(duì)成都市同一星期屬性不同時(shí)刻的出租車出行需求分布規(guī)律進(jìn)行分析,其變化規(guī)律見(jiàn)圖2(b)。
圖2 出行需求人次分析Fig.2 Quantitative analysis of travel demands
載客時(shí)長(zhǎng)指出租車完成1次訂單所需的時(shí)間。根據(jù)前文處理后的數(shù)據(jù),按照星期屬性,將數(shù)據(jù)分為2組,筆者選取1個(gè)工作日和1個(gè)非工作日的數(shù)據(jù),統(tǒng)計(jì)分析結(jié)果見(jiàn)圖3。
由圖3(a)可見(jiàn),07:30—09:30和16:30—18:30等高峰時(shí)段內(nèi),出租車平均載客時(shí)長(zhǎng)都處在較高的水平,源于這2個(gè)時(shí)段分別處于上下班高峰期,乘客出行需求大導(dǎo)致道路交通擁堵,影響出行速度,因而這2個(gè)時(shí)段載客時(shí)長(zhǎng)增加。為深入對(duì)出租車的平均載客時(shí)長(zhǎng)進(jìn)行分析,將出租車平均載客時(shí)長(zhǎng)所占比例進(jìn)行統(tǒng)計(jì)匯總,見(jiàn)圖3(b)。
圖3 載客時(shí)長(zhǎng)分布Fig.3 Distribution of passenger-carrying time
DBSCAN算法的思想為:根據(jù)區(qū)域范圍內(nèi)的密度值進(jìn)行聚類,然后在指定的位置根據(jù)需要確定密度閾值。DBSCAN算法可以把任意形狀的簇挖掘出來(lái),且抗噪能力很強(qiáng)。綜上,筆者選用并改進(jìn)DBSCAN算法作為熱點(diǎn)地區(qū)挖掘的聚類算法,以確保最終結(jié)果的可靠性和有效性。
DBSCAN基于1組鄰域(neighborhood)的參數(shù)(ε,MinPts)來(lái)確定數(shù)據(jù)分布的緊密程度。其中ε為搜索半徑,MinPts為最小密度閾值。給定數(shù)據(jù)集Q,定義以下幾個(gè)概念:①ε-近鄰,樣本數(shù)據(jù)集中出租車上下客點(diǎn)p的ε-近鄰指,與其之間的距離小于ε的點(diǎn)數(shù)據(jù);②核心點(diǎn),對(duì)于p點(diǎn),當(dāng)其存在領(lǐng)域時(shí),相應(yīng)的鄰域至少包含MinPts個(gè)數(shù)據(jù)點(diǎn),則p為1個(gè)核心對(duì)象,該對(duì)象的領(lǐng)域可以有無(wú)數(shù)多個(gè);③邊界點(diǎn),邊界點(diǎn)是指落在某個(gè)核心點(diǎn)的ε鄰域內(nèi)的點(diǎn);④噪聲點(diǎn),除邊界點(diǎn)外的任何點(diǎn),通常,噪聲點(diǎn)越少,得出的結(jié)果越有效。
以上幾種概念之間存在某種聯(lián)系,其關(guān)系圖見(jiàn)圖4。DBSCAN聚類算法的流程圖見(jiàn)圖5。
圖4 核心點(diǎn)、邊界點(diǎn)、噪聲點(diǎn)示意圖Fig.4 Schematic diagram of core points,boundary points and noise points
圖5 DBSCAN算法流程圖Fig.5 Flow of the DBSCAN algorithm
2.2.1 搜索半徑ε的確定
本研究引入k-距離曲線來(lái)計(jì)算出搜索半徑。選取2016年11月2日上客點(diǎn)數(shù)據(jù)的經(jīng)緯度作為研究數(shù)據(jù),考慮到計(jì)算量太大,利用Python編寫程序,計(jì)算數(shù)據(jù)集中每個(gè)點(diǎn)的k-距離,考慮到實(shí)際數(shù)據(jù)的特性,這里取k值為1,然后按照從小到大的序列排序,繪制出k-距離曲線圖,見(jiàn)圖6。
圖6 出租車上k-客距離曲線圖Fig.6 The k-distance curve of taxi boarding
由圖6可知,0.004~0.005之間曲線的走向發(fā)生了變化,可知,ε范圍大致在0.004~0.005之間。根據(jù)經(jīng)緯度與城市實(shí)際距離之間的換算,結(jié)合本文研究范圍大約為半徑500 m,綜合考慮搜索半徑取為0.004 6。
2.2.2 密度閾值MinPts的確定
參數(shù)MinPts的選取需滿足1個(gè)原則,既不能太大也不能太小。若取值太小,則聚成簇的數(shù)量會(huì)太多,而且分散;若取值太大,則2個(gè)密度較大的近鄰簇會(huì)被合并為1個(gè)簇,導(dǎo)致聚類效果差。得出ε后,結(jié)合出租車上客點(diǎn)數(shù)據(jù),采用特定的方法來(lái)進(jìn)行反復(fù)聚類,當(dāng)MinPts=110,可知載客熱點(diǎn)區(qū)域區(qū)分比較好,與前面章節(jié)空間維度分析得到的出租車出行需求空間分布規(guī)律相符合。
綜上分析,本文載客熱點(diǎn)區(qū)域挖掘設(shè)置的算法參數(shù)為:搜索半徑取為0.046,MinPts取為110,即在搜索半徑500 m范圍內(nèi),出租車上下客次數(shù)大于等于110次的區(qū)域是本文挖掘的載客熱點(diǎn)區(qū)。
選取2016年11月2日(周三)的上、下客點(diǎn)數(shù)據(jù)作為研究數(shù)據(jù),對(duì)工作日的3個(gè)特征時(shí)段:早高峰(07:30—09:30),晚高峰(16:30—18:30),夜高峰(20:30—22:00)分別進(jìn)行載客熱點(diǎn)區(qū)域的挖掘及可視化。采用DBSCAN算法對(duì)工作日出租車出行需求早高峰進(jìn)行聚類,在搜索半徑取0.046,最小密度閾值取110的情況下,最終將出租車早高峰上下客經(jīng)緯度數(shù)據(jù)聚成7個(gè)簇,成都市早高峰的聚類結(jié)果見(jiàn)圖7。
圖7 早高峰出行需求聚類結(jié)果Fig.7 Clustering results of travel demands in the morning peak
由圖7可知:圖中深色區(qū)域代表DBSCAN算法聚類結(jié)果中的噪聲點(diǎn),即在ε為500 m的范圍內(nèi),出行需求較少。同理,可得晚高峰被聚為8簇,夜高峰被聚為7簇,3個(gè)高峰時(shí)段的可視化過(guò)程如下。
1)早高峰載客熱點(diǎn)區(qū)域可視化。為了對(duì)圖7中早高峰出租車上下客點(diǎn)聚類結(jié)果進(jìn)一步細(xì)化,用每一簇的質(zhì)心代表其對(duì)應(yīng)的熱點(diǎn)區(qū)域。根據(jù)表2不難發(fā)現(xiàn),相應(yīng)的載客熱點(diǎn)區(qū)共有7個(gè)。除了成都站外,載客熱點(diǎn)區(qū)域多集中在住宅區(qū)、辦公區(qū)、校園區(qū)。
2)晚高峰載客熱點(diǎn)區(qū)域可視化。同理,對(duì)晚高峰時(shí)段內(nèi)的每一類載客熱點(diǎn)區(qū)域進(jìn)行質(zhì)心求解,見(jiàn)表3。該時(shí)間段內(nèi)共有8個(gè)出租車載客熱點(diǎn)區(qū)。
表3 2016年11月2日晚高峰載客熱點(diǎn)區(qū)域Tab.3 Attractive areas of passengers during the evening peak on November 2,2016
3)夜高峰載客熱點(diǎn)區(qū)域可視化。夜高峰時(shí)段載客熱點(diǎn)區(qū)域見(jiàn)表4,該時(shí)間段內(nèi)共有7個(gè)出租車載客熱點(diǎn)區(qū)。
表4 2016年11月2日夜高峰載客熱點(diǎn)區(qū)域Tab.4 Attractive areas of passengers during the night peak on November 2,2016
從表2~4中可得,3個(gè)高峰時(shí)段內(nèi)成都站均是載客熱區(qū),以成都站為例,選取該區(qū)域的2016年11月2日—23日之間工作日出租車出行需求數(shù)據(jù)作為預(yù)測(cè)原始數(shù)據(jù),對(duì)3個(gè)高峰時(shí)段出租車需求量進(jìn)行預(yù)測(cè)。
表2 2016年11月2日早高峰載客熱點(diǎn)區(qū)域Tab.2 Attractive areas of passengers during the morning peak on November 2,2016
在神經(jīng)網(wǎng)絡(luò)參數(shù)標(biāo)定之前,需要根據(jù)變量以及變量之間的相關(guān)性確定輸入層。對(duì)工作日不同時(shí)段的出租車出行需求量的相關(guān)性進(jìn)行分析,記Q(n,m)為出租車在第n天第m時(shí)段的出行需求量,分析結(jié)果見(jiàn)表5。
由表5的相關(guān)系數(shù)可知,同一工作日中當(dāng)前時(shí)間段與臨近時(shí)間段的出租車出行需求量相關(guān)性較高,并且隨著時(shí)間推移,不同變量之間的相關(guān)性越來(lái)越弱。而根據(jù)進(jìn)一步的分析可知,當(dāng)前時(shí)間段與第4個(gè)時(shí)間段的相關(guān)系性明顯減弱,據(jù)此不難看出,當(dāng)前出行需求數(shù)量受60 min前的出行需求量影響較小,故應(yīng)選擇Q(n,m-1),Q(n,m-2),Q(n,m-3)作為模型的輸入變量。
表5 同一工作日當(dāng)前時(shí)段與臨近時(shí)段出行需求相關(guān)性分析Tab.5 Correlation of travel demands in the current working time and the adjacent time on the same working day
對(duì)同一時(shí)段不同星期屬性的出租車出行需求量相關(guān)性進(jìn)行研究,假設(shè)Q(n,m)代表周三的出行需求量,則Q(n-1,m),Q(n-2,m),Q(n-5,m),Q(n-6,m),Q(n-7,m)分別代表周二、周一、上周五、上周四、上周三的出行需求量。分析結(jié)果見(jiàn)表6。由表6可知:相鄰的工作日之間出行量具有高度的相關(guān)性。隨后相關(guān)性系數(shù)呈現(xiàn)出不斷遞減的趨勢(shì),Q(n-5,m)為0.732,即與Q(n-5,m)的相關(guān)系數(shù)為0.732,隨后相關(guān)系數(shù)又出現(xiàn)了上升。由此可知,當(dāng)前工作日與相鄰的工作日之間有高度的相關(guān)性,與歷史時(shí)間段的同一工作日也具有高度相關(guān)性,而與前1周星期屬性較遠(yuǎn)的相關(guān)性并不明顯,正好驗(yàn)證了前文分析的出租車出行需求在同一星期屬性上存在著周期性規(guī)律。
表6 同一時(shí)段當(dāng)前工作日與臨近工作日出行需求相關(guān)性分析Tab.6 Correlation analysis of trip demands between current working day and near working day in the same period
將2016年11月23日(周三)作為預(yù)測(cè)日期,由以上分析可以確定出BP神經(jīng)網(wǎng)絡(luò)模型的輸入層、隱藏層、輸出層等信息,見(jiàn)表7。
表7 BP神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置Tab.7 Parameter setting of the BP neural network
3.2.1 評(píng)價(jià)指標(biāo)
評(píng)價(jià)指標(biāo)包括平均絕對(duì)誤差(MAE)和平均絕對(duì)百分比(MAPE),其計(jì)算方法見(jiàn)式(1)~(3)。
式中:Gi為預(yù)測(cè)值;Yi為實(shí)際值。
3.2.2 模型預(yù)測(cè)結(jié)果
以成都站的早高峰時(shí)段為例,將BP神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林模型、嶺回歸模型進(jìn)行對(duì)比。
1)預(yù)測(cè)結(jié)果。通過(guò)BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè),出租車出行需求量與其實(shí)際值的時(shí)段變化對(duì)比情況和誤差變化情況見(jiàn)圖11。
圖11 BP神經(jīng)網(wǎng)絡(luò)短期需求預(yù)測(cè)結(jié)果比較Fig.11 Comparison of short-term demand-predicting results of the BP neural network
圖11 中早高峰分為8個(gè)時(shí)間段,用1~8表示,即1代表07:30—07:45,8代表09:15—09:30。同理,晚高峰和夜高峰時(shí)段分別用1~6表示。
研究將BP神經(jīng)網(wǎng)絡(luò)引入,并與隨機(jī)森林模型、嶺回歸模型對(duì)比,早高峰、晚高峰、夜高峰3個(gè)時(shí)段的對(duì)比結(jié)果分別見(jiàn)表8~10。表8~10可見(jiàn):BP神經(jīng)網(wǎng)絡(luò)性能更優(yōu),3個(gè)高峰時(shí)段的MAE、RMSE、MAPE均為最小,其中早高峰時(shí)段內(nèi)BP神經(jīng)網(wǎng)絡(luò)的MAPE分別較隨機(jī)森林模型、嶺回歸模型提高了3.25%和5.87%,晚高峰時(shí)段提高了2.98%和4.32%,夜高峰時(shí)段提高了1.44%和2.58%,驗(yàn)證了BP神經(jīng)網(wǎng)絡(luò)在出租車需求預(yù)測(cè)方面的可行性。
表8 早高峰不同模型對(duì)比效果Tab.8 Comparison of different models in the morning peak
表9 晚高峰不同模型對(duì)比效果Tab.9 Comparison of different models in the evening peak
表10 夜高峰不同模型對(duì)比效果Tab.10 Comparison of different models in the night peak
由以上分析可知,在對(duì)出行需求進(jìn)行預(yù)測(cè)時(shí),可以優(yōu)先選擇BP神經(jīng)網(wǎng)絡(luò)模型。
研究成都市出租車出行需求變化規(guī)律。對(duì)工作日早高峰、晚高峰及夜高峰這3個(gè)時(shí)段的出行需求分布進(jìn)行了研究,得到了成都市出租車出行的變化規(guī)律。在對(duì)出租車出行需求分布規(guī)律的研究基礎(chǔ)上,采用改進(jìn)的DBSCAN聚類算法,對(duì)出租車載客熱區(qū)進(jìn)行挖掘,以成都站為例,運(yùn)用BP神經(jīng)網(wǎng)絡(luò)對(duì)出行需求進(jìn)行預(yù)測(cè),并與隨機(jī)森林模型、嶺回歸模型對(duì)比,3個(gè)高峰時(shí)段內(nèi)BP神經(jīng)網(wǎng)絡(luò)的MAE、RMSE、MAPE值均為最小,驗(yàn)證了BP神經(jīng)網(wǎng)絡(luò)模型的有效性。
研究的局限性主要有2點(diǎn):①數(shù)據(jù)有限,只分析了1個(gè)月的出租車數(shù)據(jù),今后還需獲取更多數(shù)據(jù)進(jìn)行分析;②由于獲取信息的困難,論文沒(méi)有考慮天氣、重大節(jié)日等因素。