胡雅群,哈米提,許子凱
(1.新疆維吾爾自治區(qū)交通建設(shè)管理局項(xiàng)目執(zhí)行三處,烏魯木齊 830000;2.長(zhǎng)安大學(xué)公路學(xué)院,西安 710064)
共享單車(chē)大提高了公共交通利用效率.在城市軌道交通與共享單車(chē)接駁需求預(yù)測(cè)的研究方面,學(xué)者們主要關(guān)注預(yù)測(cè)模型的比較和改進(jìn)[1].Zilu Kang等[2]利用機(jī)器學(xué)習(xí)構(gòu)建了3類(lèi)預(yù)測(cè)模型,并比較模型優(yōu)劣.此外,其他學(xué)者也提出了不同的預(yù)測(cè)方法,如基于馬爾可夫鏈模型的預(yù)測(cè)方法[3-4]、貝葉斯分類(lèi)[5]引入注意力機(jī)制的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)預(yù)測(cè)模型[6]、二元Logit選擇模型[7-8]等.綜合現(xiàn)有研究可知,軌道交通接駁共享單車(chē)需求預(yù)測(cè)的研究主要關(guān)注于預(yù)測(cè)模型的比選.此類(lèi)研究通常采用傳統(tǒng)的線性回歸預(yù)測(cè)和時(shí)間序列預(yù)測(cè)作為起點(diǎn),轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)型預(yù)測(cè)方法.然而,目前的研究多采用單一預(yù)測(cè)方法,而對(duì)于組合模型的精度比較研究仍有提升空間.
針對(duì)軌道交通站點(diǎn)接駁共享單車(chē)停車(chē)分類(lèi)研究,研究人員通常關(guān)注軌道交通站點(diǎn)的功能定位和停車(chē)需求特征.軌道交通站點(diǎn)是城市公共交通布局的核心,隨著地鐵物業(yè)的發(fā)展,使其成為城市集聚關(guān)鍵點(diǎn)[9-10].CERVERO[11-13]聚焦于香港地鐵,站點(diǎn)被聚為5類(lèi),計(jì)算了地體規(guī)模開(kāi)發(fā)強(qiáng)度及混合度均值.其他研究,針對(duì)不同區(qū)位[14]、不同交通功能[15]將軌道交通站點(diǎn)劃分為不同類(lèi)別.但是,由于軌道站點(diǎn)分類(lèi)有差異,致使接駁的共享單車(chē)停放需求特征差異,產(chǎn)生不同類(lèi)型站點(diǎn)配合停車(chē)設(shè)施規(guī)模不同的結(jié)果.值得注意的是,目前很少有研究考慮到不同類(lèi)型的軌道交通站點(diǎn)對(duì)共享單車(chē)停車(chē)規(guī)模的影響,這導(dǎo)致共享單車(chē)在城市軌道交通站點(diǎn)周?chē)耐斗棚@得無(wú)序.因此,為了合理配置共享單車(chē)停車(chē)設(shè)施,需要進(jìn)一步研究不同類(lèi)型軌道交通站點(diǎn)的停車(chē)需求特征和對(duì)共享單車(chē)停車(chē)設(shè)施規(guī)模的影響.
基于上述分析,本文以K-means聚類(lèi)算法進(jìn)行分析,將分時(shí)段共享單車(chē)借還量作為變量,構(gòu)建隨機(jī)森林和套索回歸算法下城市軌道站點(diǎn)周邊共享單車(chē)需求預(yù)測(cè)模型,最終對(duì)比不同算法下需求預(yù)測(cè)結(jié)果,為后續(xù)研究起到參考價(jià)值.
1)選擇K個(gè)聚類(lèi)中心;
2)計(jì)算各站點(diǎn)到聚類(lèi)中心的間距,以距離作為條件進(jìn)行分配;
3)更新每個(gè)簇的聚類(lèi)中心,如果變化則重新進(jìn)行分配,直到收斂;
4)輸出聚類(lèi)結(jié)果.
在開(kāi)始之前,需要選擇合適的距離度量方法和目標(biāo)函數(shù)來(lái)計(jì)算聚類(lèi)質(zhì)心.計(jì)算誤差平方和:
(1)
(2)
式中,SSE為誤差平方和;k為聚類(lèi)簇的數(shù)量;Ci為第i個(gè)簇;x為樣本數(shù)據(jù);μi為第i個(gè)簇Ci的聚類(lèi)中心(質(zhì)心).
在軌道交通站點(diǎn)K-means分析中,多利用站點(diǎn)周?chē)恋乩镁S度、時(shí)間空間維度、商業(yè)經(jīng)濟(jì)維度.然而,這些變量對(duì)于共享單車(chē)連接站點(diǎn)需求差異的解釋并不直觀.因此,本文利用站點(diǎn)周邊分時(shí)段共享單車(chē)借還量作為變量.
輪廓系數(shù)(Sihouette Coefficient)用來(lái)評(píng)估聚類(lèi)簇離散程度.當(dāng)輪廓系數(shù)值離1近時(shí),即效果越好,密集度越高;當(dāng)輪廓系數(shù)值越接近-1時(shí),即分離度高,結(jié)果不合理;輪廓系數(shù)計(jì)算見(jiàn)式(3):
(3)
式中,ai為樣本點(diǎn)i的簇內(nèi)不相似度;bi為樣本點(diǎn)i的簇外分散度;i為樣本數(shù).
如圖1所示,聚類(lèi)簇?cái)?shù)為5時(shí),輪廓系數(shù)的值為0.856,為聚類(lèi)結(jié)果中最接近1的簇?cái)?shù),故本文將軌道交通站點(diǎn)類(lèi)型劃分為5類(lèi),為了達(dá)到最好的結(jié)果.
圖1 輪廓系數(shù)確定聚類(lèi)簇?cái)?shù)
隨機(jī)森林是機(jī)器學(xué)習(xí)中的分支集成學(xué)習(xí)算法[17-19],即訓(xùn)練時(shí)從原始數(shù)據(jù)集N里面,有放有回的抽取樣本,從而得到訓(xùn)練集,但這樣會(huì)導(dǎo)致1個(gè)樣本可能會(huì)重復(fù)出現(xiàn).根據(jù)統(tǒng)計(jì)學(xué)理論,當(dāng)n足夠大時(shí),1個(gè)樣本不會(huì)被取到的概率約為0.368.
(4)
本文對(duì)m個(gè)結(jié)果計(jì)算算術(shù)平均值,從而得到弱學(xué)習(xí)器最終結(jié)果.即Bagging集成算法,它通過(guò)將多個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行平均或投票等方式計(jì)算結(jié)果.如圖2所示.
圖2 集成學(xué)習(xí)示意圖
隨機(jī)森林算法如圖3所示.
圖3 隨機(jī)森林算法示意圖
套索回歸是由Robert Tibshirani提出的線性回歸方法.
給定數(shù)據(jù)集D=[(x1,y1),(x2,y2),…,(xm,ym)].線性回歸模型優(yōu)化函數(shù)為:
(5)
式中,θ為函數(shù)的回歸系數(shù);y為預(yù)測(cè)值;L為線性回歸優(yōu)化函數(shù);x為樣本數(shù)據(jù).
為了緩解函數(shù)過(guò)擬合,本文采用套索回歸模型正則化范數(shù)L1,從而式(5)變?yōu)?
(6)
2017年由《共享單車(chē)與電動(dòng)車(chē)停放》研究表明,2017年北京地區(qū)摩拜共享單車(chē)的投放量占總量的40%,具有相對(duì)的代表性.故本文數(shù)據(jù)使用2017年摩拜單車(chē)在北京地區(qū)數(shù)據(jù).同時(shí)為了進(jìn)行軌道站點(diǎn)接駁共享單車(chē)分布解析,筆者提前對(duì)數(shù)據(jù)進(jìn)行篩選和清洗,留下合理的數(shù)據(jù)集.
3.2.1 K-means聚類(lèi)結(jié)果分布
通過(guò)計(jì)算輪廓指標(biāo)系數(shù),確定了最佳的聚類(lèi)簇?cái)?shù)為5,并使用Python程序?qū)崿F(xiàn)了K-means算法,并獲得了5類(lèi)軌道站點(diǎn)的聚類(lèi)結(jié)果.根據(jù)聚類(lèi)結(jié)果,軌道站點(diǎn)類(lèi)型被分別記為類(lèi)型1~5,分布情況如圖4所示.
圖4 各類(lèi)站點(diǎn)在北京城市軌道上的分布情況
站點(diǎn)類(lèi)型的具體統(tǒng)計(jì)如表1所示.
3.2.2 K-means聚類(lèi)結(jié)果分析
本節(jié)根據(jù)前文的聚類(lèi)結(jié)果,得到五大類(lèi)站點(diǎn)的共享單車(chē)借還狀況.通過(guò)標(biāo)準(zhǔn)化處理不同時(shí)段共享單車(chē)借還量,進(jìn)而利用借還時(shí)間變化圖清晰展示借還特征.結(jié)果見(jiàn)表2.
由表2可知,類(lèi)型2早高峰借車(chē)率最低、晚高峰借車(chē)率最高,類(lèi)型3早高峰還車(chē)率最低、晚高峰借車(chē)率最高.相反,類(lèi)型2晚高峰最低,類(lèi)型3早高峰借車(chē)率最高,晚高峰借車(chē)率最低.
見(jiàn)圖5,結(jié)合不同類(lèi)型軌道站點(diǎn)共享單車(chē)借還率分析得到對(duì)應(yīng)類(lèi)型:
圖5 共享單車(chē)時(shí)均借還率時(shí)間變化圖
1) 類(lèi)型1從表中可看出,在早高峰時(shí)段,還車(chē)率略低于借車(chē)率.在晚高峰時(shí)段,借車(chē)率低于還車(chē)率.符合“居住就業(yè)混合型”站點(diǎn)特征.
2) 類(lèi)型2從表中可看出,在早高峰時(shí)段,該類(lèi)型站點(diǎn)的還車(chē)率遠(yuǎn)高于借車(chē)率.在晚高峰時(shí)段,借車(chē)率遠(yuǎn)高于還車(chē)率.符合“居住型”站點(diǎn)特征.
3) 類(lèi)型3從表2中可看出,在早高峰時(shí)段,該類(lèi)型站點(diǎn)的借車(chē)率遠(yuǎn)高于還車(chē)率.在晚高峰時(shí)段,該類(lèi)型站點(diǎn)的還車(chē)率遠(yuǎn)高于借車(chē)率.符合“就業(yè)型”站點(diǎn)特征.
4) 類(lèi)型4軌道交通站點(diǎn)在早高峰時(shí)段的借車(chē)量占全天借車(chē)總量的16.61%,而在全天還車(chē)總量中,早高峰時(shí)段的還車(chē)量占17.76%.符合“居住就業(yè)商業(yè)混合型”站點(diǎn)特征.
5) 類(lèi)型5在早高峰時(shí)段,該類(lèi)型站點(diǎn)在早高峰時(shí)段的借車(chē)率高于還車(chē)率.此外,在晚高峰時(shí)段內(nèi),還車(chē)率高于借車(chē)率.符合“以居住為主的居住就業(yè)混合型”站點(diǎn)特征.
3.3.1 實(shí)驗(yàn)驗(yàn)證評(píng)價(jià)標(biāo)準(zhǔn)
EV(解釋方差):
(7)
MAE(平均絕對(duì)誤差):
(8)
MSE(均方誤差):
(9)
R2(決定系數(shù)):
(10)
式中,m為測(cè)試集數(shù)量;yi為測(cè)試集上的真實(shí)值;i為測(cè)試集上的預(yù)測(cè)值;為實(shí)際的平均值.
實(shí)驗(yàn)驗(yàn)證評(píng)價(jià)標(biāo)準(zhǔn)中EV、R2的值接近1代表預(yù)測(cè)效果越好,MSE、MAE值越小代表預(yù)測(cè)精度越高.
3.3.2 隨機(jī)森林預(yù)測(cè)結(jié)果
隨機(jī)森林預(yù)測(cè)結(jié)果如圖6所示.
圖6 隨機(jī)森林預(yù)測(cè)結(jié)果
隨機(jī)森林模型可對(duì)特征進(jìn)行重要度評(píng)分,不同站點(diǎn)重要度如圖7.
圖7表示,類(lèi)型4站點(diǎn)在午高峰期間具有較高的特征重要度,這與其自身的特性有關(guān).不同類(lèi)型的站點(diǎn)受特征影響的程度也不盡相同.對(duì)隨機(jī)森林模型結(jié)果進(jìn)行評(píng)估.評(píng)估結(jié)果見(jiàn)表3.
表3 隨機(jī)森林預(yù)測(cè)結(jié)果評(píng)價(jià)
3.3.3 套索回歸預(yù)測(cè)結(jié)果
套索回歸預(yù)測(cè)效果對(duì)比結(jié)果如圖8所示.
圖8 套索回歸預(yù)測(cè)結(jié)果
套索回歸訓(xùn)練結(jié)果如圖9所示.
圖9 套索回歸模型指標(biāo)重要性評(píng)估
根據(jù)圖9,在套索回歸模型中,站點(diǎn)小時(shí)共享單車(chē)使用情況影響最大.結(jié)果見(jiàn)表4.
表4 套索回歸模型預(yù)測(cè)結(jié)果評(píng)價(jià)
綜上所述,隨機(jī)森林模型在預(yù)測(cè)類(lèi)型1、2、3、5站點(diǎn)上預(yù)測(cè)精度優(yōu)于套索回歸模型.套索回歸模型在類(lèi)型4預(yù)測(cè)結(jié)果優(yōu)于隨機(jī)森林模型.
建立精度更高的組合模型,本文旨在提供共享單車(chē)在不同類(lèi)型軌道交通站點(diǎn)周邊的使用情況,并比較了在不同類(lèi)型軌道站點(diǎn)周?chē)枨箢A(yù)測(cè)中隨機(jī)森林和套索回歸2種算法的精度,為后續(xù)軌道站點(diǎn)和軌道站點(diǎn)周?chē)\?chē)設(shè)施的規(guī)劃和建設(shè)提供參考價(jià)值.
本文利用共享單車(chē)借還量為聚類(lèi)變量,聚為5類(lèi)站點(diǎn).這些類(lèi)別分別對(duì)應(yīng)特征:類(lèi)型1~5分別為居住就業(yè)混合型、居住型、就業(yè)型、居住就業(yè)商業(yè)混合型、以居住為主的居住就業(yè)混合型.進(jìn)而使用隨機(jī)森林和套索回歸2種算法構(gòu)建需求預(yù)測(cè)模型,對(duì)5類(lèi)站點(diǎn)計(jì)算其結(jié)果.進(jìn)而利用EV、MAE、MSE和R2評(píng)估預(yù)測(cè)結(jié)果.結(jié)果表明,除類(lèi)型4以外站點(diǎn),隨機(jī)森林模型預(yù)測(cè)結(jié)果中表現(xiàn)最好.