陳紅,陳恒瑞,史轉(zhuǎn)轉(zhuǎn),張敏,劉至真
(長(zhǎng)安大學(xué),運(yùn)輸工程學(xué)院,西安710064)
在“互聯(lián)網(wǎng)+”的政策背景和“共享經(jīng)濟(jì)”的市場(chǎng)推動(dòng)下,共享單車作為一種新興的出行方式,依靠智能定位技術(shù)、移動(dòng)支付、無樁化隨借隨還的優(yōu)勢(shì)迅速成為市場(chǎng)的寵兒,對(duì)傳統(tǒng)公共自行車系統(tǒng)產(chǎn)生了較大沖擊,主要表現(xiàn)在車輛周轉(zhuǎn)率下降和用戶轉(zhuǎn)移等問題。因此,提升其系統(tǒng)服務(wù)水平是維持公共自行車市場(chǎng)競(jìng)爭(zhēng)力的重要手段。隨著信息技術(shù)快速發(fā)展,公共自行車系統(tǒng)內(nèi)貯存的海量數(shù)據(jù)成為運(yùn)營(yíng)服務(wù)水平提升的有效支撐。為加快大數(shù)據(jù)落地應(yīng)用和解決單車租還難等問題,有必要通過現(xiàn)實(shí)數(shù)據(jù)資源對(duì)城市公共自行車系統(tǒng)時(shí)空需求特征進(jìn)行探索,從宏觀層面掌握區(qū)域內(nèi)出行需求總體分布,以期為新階段下優(yōu)化設(shè)施配置提供決策依據(jù);從落地層面建立站點(diǎn)級(jí)租還需求量預(yù)測(cè)模型,作為未來站點(diǎn)平衡調(diào)度的依據(jù)并推廣應(yīng)用于共享單車系統(tǒng),為改善服務(wù)水平提供技術(shù)和理論支撐。
目前,公共自行車租還需求預(yù)測(cè)主要集中在系統(tǒng)整體需求和站點(diǎn)需求。高效且便于操作的回歸模型是公共自行車系統(tǒng)整體需求預(yù)測(cè)的主流方法,其考慮了人口,經(jīng)濟(jì)和社會(huì)條件,節(jié)假日,天氣和土地利用情況等重要的需求影響因素[1]。站點(diǎn)是公共自行車系統(tǒng)的基本單位,對(duì)站點(diǎn)的需求預(yù)測(cè)直接影響系統(tǒng)的規(guī)劃、設(shè)計(jì)和調(diào)度。面向站點(diǎn)層面的需求預(yù)測(cè)研究,大多數(shù)采用影響因素分析法和時(shí)間序列預(yù)測(cè)法。Kaltenbrunner[2]等利用時(shí)間序列分析方法(如自回歸滑動(dòng)平均模型(ARMA))對(duì)站點(diǎn)需求進(jìn)行預(yù)測(cè)。陳思濃[3]基于紐約市Citi Bike出行數(shù)據(jù)和歷史逐小時(shí)天氣數(shù)據(jù),增加天氣滯后影響變量,建立帶誤差的多因素回歸模型(MFR-ARMA)。周敏[4]通過引入小波分析,基于BP 神經(jīng)網(wǎng)絡(luò)搭建公共自行車站點(diǎn)租還量預(yù)測(cè)模型,研究發(fā)現(xiàn),DE-BP 神經(jīng)網(wǎng)絡(luò)在歷史數(shù)據(jù)間隔為30 min 以內(nèi)且具有相似性的公共自行車站點(diǎn)租還需求量預(yù)測(cè)問題上具有一定的推廣性。以上研究本質(zhì)上是考慮公共自行車站點(diǎn)自身特征,以及外部環(huán)境因素進(jìn)行需求預(yù)測(cè),但不同位置的站點(diǎn)因周邊的用地性質(zhì)呈現(xiàn)不同的屬性特征,故還需要關(guān)注站點(diǎn)的功能,分析不同類型站點(diǎn)的自行車使用特性,基于站點(diǎn)周邊的用地性質(zhì),對(duì)站點(diǎn)進(jìn)行分類預(yù)測(cè),為高峰期間的區(qū)域平衡調(diào)度奠定基礎(chǔ)。
充分挖掘不同類型站點(diǎn)的自行車租還時(shí)空特性是提高預(yù)測(cè)準(zhǔn)確性的前提。基于此,本文采用聚類算法將站點(diǎn)按照租還特性進(jìn)行聚類分析。提出基于興趣點(diǎn)(Point of Information, POI)數(shù)據(jù)的站點(diǎn)用地類型識(shí)別方法,構(gòu)建以天氣質(zhì)量、時(shí)間特征、站點(diǎn)位置為特征變量,以60,30,15 min時(shí)間粒度的站點(diǎn)租還車需求為目標(biāo)的隨機(jī)森林模型,并利用寧波市公共自行車實(shí)際運(yùn)行數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證。
城市公共自行車系統(tǒng)規(guī)模大、站點(diǎn)數(shù)目多,逐個(gè)分析效率低下且無法有效掌握各站點(diǎn)間的內(nèi)在聯(lián)系,以及不同類型站點(diǎn)的租還車規(guī)律,故采用KMeans[5]聚類算法對(duì)站點(diǎn)分類,利用DBI 指數(shù)(Davies-Bouldin Index)[6]確定最佳聚類結(jié)果,為站點(diǎn)需求預(yù)測(cè)提供基礎(chǔ)。
式中:IDBI為刻畫不同種類之間離散程度和同一類內(nèi)數(shù)據(jù)對(duì)象的緊密程度的綜合型指標(biāo),其值越小,表示各類內(nèi)對(duì)象相似度越高,類間的差異越大,聚類效果越佳;N為聚類個(gè)數(shù);Si,Sj為第i,j類數(shù)據(jù)到其簇中心的平均距離;d()ci,cj類i與類j質(zhì)心的距離;ci,cj為第i,j類的質(zhì)心。
站點(diǎn)的活躍度與城市用地功能息息相關(guān)。騎行者基于不同出行需求所引發(fā)的站點(diǎn)租還車特征通常由城市用地功能所致,而POI點(diǎn)的分布是城市用地功能的直觀體現(xiàn)。本文利用百度地圖API 獲得寧波市區(qū)的POI 數(shù)據(jù),共14 類,根據(jù)騎行用戶對(duì)各類POI 的顯著性認(rèn)識(shí)來確定與POI 類型相關(guān)的土地利用類型?;谖覈?guó)土地利用現(xiàn)狀分類標(biāo)準(zhǔn),結(jié)合相關(guān)研究成果[7],將寧波市公共自行車站點(diǎn)劃分為住宅、交通設(shè)施、辦公和商業(yè)休閑4 類。每類POI 權(quán)重的確定參考文獻(xiàn)[8]中各類POI 公眾認(rèn)知度的調(diào)查結(jié)果,并著重考慮騎行者對(duì)各類POI的認(rèn)知度進(jìn)行權(quán)重調(diào)整。具體分析步驟如下:
(1)以公共自行車站點(diǎn)所在的地理位置為圓心,統(tǒng)計(jì)50 m(根據(jù)公共自行車換乘軌道交通車站的最大距離設(shè)定)半徑范圍內(nèi)交通設(shè)施類POI 點(diǎn)的數(shù)量n1,若n1>0,則該站點(diǎn)為交通型。
(2)以公共自行車站點(diǎn)所在的地理位置為圓心,統(tǒng)計(jì)300 m(依據(jù)寧波市公共自行車服務(wù)半徑設(shè)定)半徑范圍內(nèi)除交通類其余各類POI點(diǎn)的數(shù)量。
(3)根據(jù)步驟(2)的統(tǒng)計(jì)結(jié)果,計(jì)算各站點(diǎn)300 m范圍內(nèi)各POI類型比例,即
式中:t為POI類型;nt為300 m范圍內(nèi)第t種類型POI 數(shù)量;Nt為第t種類型POI 總數(shù);ρt為300 m范圍內(nèi)第t種類型POI數(shù)量占該類型POI總數(shù)的比例;ωt為第t類POI 權(quán)重系數(shù);βt為300 m 范圍內(nèi)第t類POI占比。
基于站點(diǎn)的公共自行車租還量需求預(yù)測(cè)多采用基于時(shí)間序列的BP 神經(jīng)網(wǎng)絡(luò)方法,但本文數(shù)據(jù)量大且變量涉及離散和連續(xù)型數(shù)據(jù),若采用BP 算法不僅運(yùn)行效率低且容易出現(xiàn)過擬合現(xiàn)象。隨機(jī)森林模型能夠捕捉不同類型數(shù)據(jù)間的內(nèi)在關(guān)系,適應(yīng)性強(qiáng),故本文采用隨機(jī)森林模型預(yù)測(cè)站點(diǎn)租還車需求,其算法流程及原理可以參考文獻(xiàn)[9]。
選擇平均絕對(duì)誤差(EMAE)、均方根誤差(ERMSE)和擬合優(yōu)度(ER2)這3個(gè)指標(biāo)評(píng)估模型性能,計(jì)算公式分別為
式中:yz為第z個(gè)樣本的真實(shí)值;為真實(shí)值的平均值;fz為第z個(gè)樣本的預(yù)測(cè)值;m為樣本數(shù)。
公共自行車的需求量在不同時(shí)間呈現(xiàn)出規(guī)律性差異,故結(jié)合其變化的實(shí)際情況及預(yù)測(cè)目標(biāo),將每天5:00-22:00 按照15,30,60 min 的時(shí)間間隔進(jìn)行站點(diǎn)的租還量需求預(yù)測(cè)。以30 min間隔為例,則1 d 分為34 個(gè)時(shí)間間隔,分別用1~34 表示,1 代表5:00-5:30,以此類推,34 代表21:30-22:00。本文選取預(yù)測(cè)因子包括:氣象因子、時(shí)間特征和站點(diǎn)位置特征,表1為具體包含的特征變量。
表1 變量描述Table 1 Variable description
采用寧波市公共自行車系統(tǒng)2016年7月-2017年6月的IC 卡刷卡記錄作為原始數(shù)據(jù),共3336.39 萬條有效騎行記錄,研究區(qū)域?yàn)閷幉ㄊ兄鞒菂^(qū)范圍。
按照1.1 節(jié)的分析方法計(jì)算得到DBI 值如圖1所示,當(dāng)聚類數(shù)設(shè)為5時(shí),對(duì)應(yīng)的DBI值最小,聚類效果最佳。圖2為不同類型的站點(diǎn)聚類分布,圖3為不同類型站點(diǎn)的借/還系數(shù)時(shí)間分布情況。
圖1 不同聚類數(shù)對(duì)應(yīng)的DBI值Fig.1 DBI value corresponding to different cluster numbers
圖2 站點(diǎn)聚類分布Fig.2 Cluster distribution of stations
從圖2和圖3可以發(fā)現(xiàn):第1 類站點(diǎn)共計(jì)368個(gè),約占總數(shù)的33.67%,此類站點(diǎn)總體上均勻分布在寧波市外圍區(qū)域,早、晚高峰期間站點(diǎn)借、還車量呈現(xiàn)明顯的不均衡性。第2類站點(diǎn)共計(jì)26個(gè),多分布于遠(yuǎn)離市區(qū)、較為偏僻的城市邊緣地帶,還車早高峰、借車晚高峰特征尤為明顯。第3類站點(diǎn)共計(jì)450 個(gè),約占總數(shù)的41.17%,主要分布于城市中心區(qū);借、還系數(shù)曲線均呈現(xiàn)早晚高峰且互相良好吻合的特征,表明該類站點(diǎn)在早晚高峰期總體上能夠達(dá)到租還平衡狀態(tài)。第4 類站點(diǎn)共計(jì)159 個(gè),該類站點(diǎn)聚類中心借/還系數(shù)隨時(shí)間分布曲線均呈現(xiàn)早晚高峰特征。第5類站點(diǎn)共計(jì)90個(gè),多分布于城市外圍,少量位于市中心區(qū),還車早高峰、借車晚高峰特征突出。
圖3 不同類型站點(diǎn)聚類中心借/還系數(shù)時(shí)間分布圖Fig.3 Time distribution of borrowing/returning coefficients of cluster centers of different types of sites
第5 類站點(diǎn)曲線特征與第2、4 類相近,但又存在明顯差異。第3 類站點(diǎn)早晚高峰集中程度區(qū)別較大,第5 類站點(diǎn)還車早高峰有所滯后,這些差異的背后是不同出行行為所致,反映在空間上為站點(diǎn)所處城市功能區(qū)的差異,故需要進(jìn)一步挖掘站點(diǎn)周邊土地利用類型與自行車租還特性之間的關(guān)系。
圖4為站點(diǎn)日租還總量核密度與百度POI核密度空間分布,站點(diǎn)活躍度與POI點(diǎn)密度之間存在一定的空間耦合性,表明站點(diǎn)使用度與POI密度存在一定的正相關(guān),而POI類型往往是城市用地功能類別的象征。因此,通過挖掘站點(diǎn)周邊土地利用類型有利于掌握該站點(diǎn)的使用規(guī)律特征。
圖4 站點(diǎn)日租還總量核密度與POI核密度空間分布圖Fig.4 Spatial distribution of total daily borrowing and returning nuclear density and POI nuclear density of stations
根據(jù)1.2 節(jié)所述步驟,最終判斷相應(yīng)公共自行車站點(diǎn)的土地利用類型及POI 比例如表2所示。圖5為寧波市不同用地類型的公共自行車站點(diǎn)分布圖。圖6為基于POI 數(shù)據(jù)識(shí)別的不同用地類型站點(diǎn)的租還車數(shù)量隨時(shí)間分布圖。從時(shí)間和空間角度觀察可以發(fā)現(xiàn),不同用地類型站點(diǎn)的租還車時(shí)間特性與前文基于站點(diǎn)租還時(shí)間特性聚類結(jié)果吻合度較高,從而驗(yàn)證了基于POI 數(shù)據(jù)站點(diǎn)方法的可靠性。
表2 基于POI數(shù)據(jù)的站點(diǎn)類型劃分Table 2 Site type division based on POI data
圖5 不同用地類型的站點(diǎn)分布圖Fig.5 Site distribution of different land use types
圖6 不同用地類型站點(diǎn)租還車量隨時(shí)間分布圖Fig.6 Distribution of vehicle borrowing and returning volume with time at different land use types
以寧波市自行車租還車需求量最大的東門口站點(diǎn)為例,提取1周的運(yùn)營(yíng)數(shù)據(jù)。將實(shí)驗(yàn)數(shù)據(jù)按照8∶1∶1劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,訓(xùn)練集用于模型學(xué)習(xí)訓(xùn)練,驗(yàn)證集用于模型參數(shù)調(diào)整,測(cè)試集用于模型性能評(píng)估。通過網(wǎng)格搜索和交叉驗(yàn)證的方法確定隨機(jī)森林模型的參數(shù)組合,考慮到計(jì)算機(jī)運(yùn)行效率和模型準(zhǔn)確度,采用最大特征數(shù)為4,決策樹為300 的參數(shù)組合構(gòu)建模型。為驗(yàn)證隨機(jī)森林模型的準(zhǔn)確性,以站點(diǎn)借車需求為例,分別構(gòu)建在不同時(shí)間刻度情況下隨機(jī)森林和BP 神經(jīng)網(wǎng)絡(luò)、K最近鄰的短時(shí)需求預(yù)測(cè)模型,表3為各模型的評(píng)價(jià)結(jié)果。
表3 不同模型預(yù)測(cè)精度比較Table 3 Comparison of prediction accuracy of different models
由表3可知:隨機(jī)森林回歸預(yù)測(cè)在所有時(shí)間間隔下的預(yù)測(cè)結(jié)果均好于其他算法,其擬合優(yōu)度ER2在預(yù)測(cè)時(shí)間間隔為60 min、30 min 時(shí)均達(dá)到0.8 以上,說明模型擬合效果較好,預(yù)測(cè)準(zhǔn)確度較高;15 min時(shí)間粒度預(yù)測(cè)模型的擬合優(yōu)度有所降低,但其平均絕對(duì)誤差(EMAE)、均方根誤差(ERMSE)為各時(shí)間粒度模型中最小,分別達(dá)到2.48 和3.34,均在誤差范圍內(nèi),且以30 min為時(shí)間間隔的站點(diǎn)借車需求預(yù)測(cè)精度最高。
為驗(yàn)證考慮站點(diǎn)土地利用類型特征后,模型是否能提高預(yù)測(cè)精度,以30 min 為時(shí)間間隔,構(gòu)建站點(diǎn)借車需求和還車需求隨機(jī)森林預(yù)測(cè)模型。模型的評(píng)價(jià)效果如表4所示,預(yù)測(cè)結(jié)果如圖7所示。可以發(fā)現(xiàn):考慮站點(diǎn)土地利用類型特征變量后,租還車需求預(yù)測(cè)效果均有不同程度提升,說明土地利用類型是影響模型預(yù)測(cè)效果的重要特征之一;對(duì)于具體站點(diǎn)而言,其預(yù)測(cè)需求量和實(shí)際需求量非常接近,絕對(duì)誤差多分布于-2.5~2.5之間。
表4 租還車需求預(yù)測(cè)精度比較Table 4 Comparison of forecasting accuracy of vehicle borrowing and returning demand
圖7 東門口站點(diǎn)實(shí)際和預(yù)測(cè)租還車需求量對(duì)比圖Fig.7 Comparison of actual and predicted demand for vehicle borrowing and returning at Dongmenkou station
本文從時(shí)間特征的角度提出基于站點(diǎn)小時(shí)租還車系數(shù)的聚類方法;從空間特征的角度提出了基于POI數(shù)據(jù)的站點(diǎn)用地類型識(shí)別方法,并與租還時(shí)間特性聚類結(jié)果相互印證,驗(yàn)證方法的有效性。本文在對(duì)公共自行車使用時(shí)空特性挖掘的基礎(chǔ)上,綜合考慮站點(diǎn)的時(shí)間特征、天氣因素、站點(diǎn)土地利用類型等數(shù)據(jù),構(gòu)建站點(diǎn)租還車需求預(yù)測(cè)的隨機(jī)森林模型。以寧波市東門口站點(diǎn)為例對(duì)模型進(jìn)行驗(yàn)證。結(jié)果表明:以30 min為間隔的站點(diǎn)租還車需求預(yù)測(cè)精度最高,考慮站點(diǎn)土地利用類型能有效提高模型預(yù)測(cè)精度,為改善服務(wù)水平提供技術(shù)和理論支撐,亦可服務(wù)于后期新一輪站點(diǎn)的布局規(guī)劃。