向 玲,張小威,唐志航,楊 瑩,馬倩茜
(湖南工程學(xué)院 計算機與通信學(xué)院,湘潭 411104)
目前,大城市交通擁堵成為普遍現(xiàn)象[1-3].因此對占比最大的城市公交車的優(yōu)化管理也成為必然趨勢[4].由于公交車刷卡數(shù)據(jù)不完善,而刷卡數(shù)據(jù)又比較龐大和密集,因此需要對刷卡數(shù)據(jù)進行聚類分析[5].通過對三種聚類算法(DBSCAN、k-means、DIANA)的對比,發(fā)現(xiàn)DBSCAN密度聚類效果最佳,能夠獲得科學(xué)準(zhǔn)確符合現(xiàn)實要求的站點位置.同時,結(jié)合統(tǒng)計與概率學(xué)的泊松分布規(guī)律等知識進行分析預(yù)測,獲得人們在各個站點的出行規(guī)律,并構(gòu)建OD矩陣模型,為城市公交車站的優(yōu)化提供合理建議.
研究主要分五個模塊:挖掘目標(biāo)模塊、數(shù)據(jù)抽取模塊、數(shù)據(jù)探索與預(yù)處理模塊、挖掘建模模塊、模型應(yīng)用模塊.總體思路如圖1所示.
圖1右邊站點數(shù)據(jù)是從抽取數(shù)據(jù)中聚類分析所得,上下車人數(shù)是由OD矩陣式優(yōu)化模型分析計算出的數(shù)據(jù).左邊的市民出行規(guī)律和城市公交車優(yōu)化建議是本項目的挖掘目標(biāo).
圖1 總體思路圖
根據(jù)上面五個模塊設(shè)計出本研究的總體開發(fā) 流程,總體流程圖如圖2所示.
圖2 總體流程圖
第一步:查找數(shù)據(jù)資源獲取數(shù)據(jù)源.
第二步:抽取與深圳市某路公交站點相關(guān)的原始數(shù)據(jù),主要有地面公交車刷卡數(shù)據(jù)以及地面公交車GPS監(jiān)控數(shù)據(jù)等.
第三步:數(shù)據(jù)探索與預(yù)處理,對從數(shù)據(jù)源中抽取出來的數(shù)據(jù)進行數(shù)據(jù)清洗、屬性規(guī)約和數(shù)據(jù)變換.
第四步:建模與應(yīng)用,本研究通過機器學(xué)習(xí)的聚類算法分析和建模,用的聚類模型是DBSCAN聚類模型,DBSCAN聚類用的是dbscan函數(shù).建模完成之后替換另外兩種算法重新分析并對比效果.
第五步:結(jié)果與反饋,通過構(gòu)建的OD矩陣模型分析,得出居民出行規(guī)律,最后反饋結(jié)果、給出優(yōu)化建議并進行模型優(yōu)化.
城市公交車優(yōu)化分析模型流程圖如圖3所示.
圖3 城市公交車優(yōu)化分析模型流程圖
將預(yù)處理的公交車數(shù)據(jù)帶入聚類模型進行聚類[6-7],得到相應(yīng)的聚類結(jié)果后,為數(shù)據(jù)貼上標(biāo)簽.更換聚類模型的聚類算法,重新進行聚類,對比分析不同聚類算法的效果和特性[8-9].
本研究利用上車人數(shù)計算下車人數(shù),每個站點的下車人數(shù)為Dj.
其中,Dj為j站下車人數(shù);Sk為k站上車人數(shù);Pkj為k站上車,途徑j(luò)-k站下車的概率.
最終居民公交出行的出行站數(shù)概率計算公式為:
其中,F(xiàn)ij是居民公交出行的出行站數(shù)概率服從的泊松分布,Wj是站點對乘客的吸引權(quán)重.
居民公交出行的出行站數(shù)概率服從的泊松分布(假設(shè)),F(xiàn)ij計算公式如下:
其中,λ為公交路線出行途經(jīng)的站點數(shù)的數(shù)學(xué)期望;Wj為j站權(quán)重;Fij為i站上車途經(jīng)j-i個站點下車的概率.
站點對乘客的吸引權(quán)重Wj計算公式如下:
Wj為j站的吸引權(quán)重,其中Sk為k站上車人數(shù).
通過聚類和上面人流量預(yù)測模型分析出OD數(shù)據(jù)[10],得到OD調(diào)查結(jié)果,OD調(diào)查結(jié)果通常用一個二維表格表示,縱(Y)站點表示上車站臺,橫(X)站點表示下車站臺,矩陣中的數(shù)表示在Y站上車X站下車的人數(shù),最右側(cè)是各站點上車總?cè)藬?shù),最后一行是各站點下車總?cè)藬?shù),最后一個數(shù)據(jù)為該路公交車的總?cè)藬?shù).利用二維數(shù)組的形式接收并輸出OD矩陣[11].
在實驗開始前,首先獲取數(shù)據(jù)源,數(shù)據(jù)源中提供的數(shù)據(jù)有:出租車GPS監(jiān)控數(shù)據(jù)、地面公交車GPS監(jiān)控數(shù)據(jù)、地面公交車刷卡數(shù)據(jù)、地鐵站刷卡交易數(shù)據(jù);與城市公交車站點相關(guān)的原始數(shù)據(jù)主要有地面公交車GPS監(jiān)控數(shù)據(jù)以及地面公交車刷卡數(shù)據(jù)等,相關(guān)數(shù)據(jù)有5萬多條.需要對數(shù)據(jù)源中抽取的數(shù)據(jù)進行數(shù)據(jù)清洗、屬性規(guī)約和數(shù)據(jù)變換.
(1)數(shù)據(jù)清洗:從業(yè)務(wù)以及建模的相關(guān)需要方面考慮,篩選出需要的數(shù)據(jù).包括缺失值處理、去除重復(fù)數(shù)據(jù)項、去除模糊數(shù)據(jù)項.
(2)屬性規(guī)約:屬性選擇后的數(shù)據(jù)集,如表1所示.
表1 預(yù)處理后的數(shù)據(jù)集
在對數(shù)據(jù)進行抽取和預(yù)處理后,從五萬多條數(shù)據(jù)中篩選出某路公交車五天的相關(guān)刷卡數(shù)據(jù)1650條,將對篩選出來的數(shù)據(jù)進行挖掘建模.刷卡數(shù)據(jù)比較密集,為了更好地體現(xiàn)路線上的位置關(guān)系,實驗用到了高德開放平臺做可視化處理.又知道某路公交車當(dāng)時的實際站點有56個,從密集的刷卡數(shù)據(jù)中我們無法直接得出數(shù)據(jù)屬于前后哪個站點,因此我們對刷卡數(shù)據(jù)進行聚類,同時也對某路公交車站點進行優(yōu)化.
(1)對刷卡數(shù)據(jù)進行聚類,因為是對公交車站點進行優(yōu)化分析,無法直接得知聚類個數(shù),而kmeans和DIANA聚類都需要提前確定聚類個數(shù),所以先需要使用密DBSCAN度聚類進行優(yōu)化分析.聚類過程需要不斷更改并測試DBSCAN的參數(shù)(掃描半徑eps、閾值min_samples),通過對聚類效果評估分析最終確定參數(shù)值,聚類評估包括對聚類產(chǎn)生異常值點(不和其他密度相連)個數(shù)、聚類個數(shù)、聚類實際位置等.
實驗測試分析最終確定參數(shù)eps=0.0011、min_sample=3,聚類個數(shù)為39個,即最終優(yōu)化的站點個數(shù).DBSCAN密度聚類最優(yōu)結(jié)果如圖4所示.
圖4 DBSCAN聚類效果圖
(2)根據(jù)上面優(yōu)化分析得到的聚類個數(shù),在利用K-means聚類(其中n_clusters=39),得動態(tài)聚類K-means,聚類結(jié)果如圖5所示.
圖5 K-means聚類效果圖
利用肘方法對K-means進行評估分析,得到質(zhì)點距離平方和(SSE)與聚類個數(shù)K的關(guān)系圖,如圖6所示.
圖6 肘方法評估K-Means聚類圖
根據(jù)肘方法評估原理,用K-means對此數(shù)據(jù)集聚類獲得最佳K值須取3~5之間,也就是聚類個數(shù)在3~5個最好,這明顯不符合實際要求.
(3)再使用分裂的層次聚類DIANA聚類,結(jié)果如圖7所示.
圖7 DIANA聚類效果圖
根據(jù)聚類算法評估指標(biāo)分析,得出三個聚類算法的聚類評估情況如表2所示.根據(jù)聚類評估的各項指標(biāo)分析,密度聚類DBSCAN的聚類效果更佳,更適合這種交通線路分布結(jié)構(gòu)的數(shù)據(jù)集的聚類.
表2 聚類評估指標(biāo)表
(4)根據(jù)挖掘模型我們還可以將數(shù)據(jù)進行時段分析,分析得到時段的OD矩陣,分析得到更加細(xì)致的規(guī)律.在總OD矩陣表中該矩陣是典型的上對角矩陣,只有右上半邊有數(shù)據(jù)且前七列沒有數(shù)據(jù),為了更清楚直觀,實驗將OD矩陣的上下車總?cè)藬?shù)用柱狀圖表示如圖8、圖9所示.
圖8 OD矩陣68路公交車上車人數(shù)預(yù)測分析柱狀圖
圖9 OD矩陣68路公交車下車人數(shù)預(yù)測分析柱狀圖
根據(jù)OD數(shù)據(jù)可以得到下面規(guī)律和優(yōu)化建議:
(1)居民出行規(guī)律
①人們對公交車的需求還是比較大的,幾乎百分之八十的人依然選擇了傳統(tǒng)城市公交車出行;
②居民乘坐公交車出行一般距離比較遠(yuǎn),一般都至少超過九站才下車;
③居民在某路公交車中在1、7、9等位置的站點上車人數(shù)較多,在20、24、28、37、38等位置站點下車人數(shù)較多;
(2)城市公交車的優(yōu)化建議
①在上下車人數(shù)較多路段可以增設(shè)站點或者適當(dāng)改變公交車的停靠方式(把直線式改為港灣式),緩解上下車壓力;
②某路公交車的實際站點56個,可縮減為39個;
③在某公交車路線中,可以看到在1、7、9、20、24、28、37、38等出行人數(shù)較多的站點設(shè)置已經(jīng)非常密集了,因此無須再增設(shè),可以將這些站點中的直線??糠绞礁臑楦蹫呈酵??
采用機器學(xué)習(xí)聚類算法對城市公交車站點進行優(yōu)化分析,針對公交車的刷卡數(shù)據(jù)密度等因素,對公交車站點進行有效的選址和壓縮,同時構(gòu)建上下車人數(shù)預(yù)測模型,分析出居民出行的OD矩陣.此優(yōu)化可以有效降低公交車運輸成本,人們出行也更加方便,有利于緩解交通擁堵.另外,還可以為公交汽車公司提供輔助決策參考,在乘客少的路段可以提高行駛速度以提高效率、在上下車人數(shù)多的站點設(shè)置港灣式停靠方式等.本研究是針對城市公交車站點的設(shè)置進行的優(yōu)化分析,同時本研究對火車、高鐵、BRT和輕軌地鐵等交通網(wǎng)絡(luò)規(guī)劃有很高的參考價值.