基于機器學(xué)習(xí)聚類算法的城市公交車站點優(yōu)化分析

2022-03-26 09:16:42張小威唐志航馬倩茜

湖南工程學(xué)院學(xué)報（自然科學(xué)版） 2022年1期

向玲，張小威，唐志航，楊瑩，馬倩茜

（湖南工程學(xué)院計算機與通信學(xué)院，湘潭 411104）

0 引言

目前，大城市交通擁堵成為普遍現(xiàn)象［1-3］.因此對占比最大的城市公交車的優(yōu)化管理也成為必然趨勢［4］.由于公交車刷卡數(shù)據(jù)不完善，而刷卡數(shù)據(jù)又比較龐大和密集，因此需要對刷卡數(shù)據(jù)進行聚類分析［5］.通過對三種聚類算法（DBSCAN、k-means、DIANA）的對比，發(fā)現(xiàn)DBSCAN密度聚類效果最佳，能夠獲得科學(xué)準(zhǔn)確符合現(xiàn)實要求的站點位置.同時，結(jié)合統(tǒng)計與概率學(xué)的泊松分布規(guī)律等知識進行分析預(yù)測，獲得人們在各個站點的出行規(guī)律，并構(gòu)建OD矩陣模型，為城市公交車站的優(yōu)化提供合理建議.

1 挖掘建模的設(shè)計

研究主要分五個模塊：挖掘目標(biāo)模塊、數(shù)據(jù)抽取模塊、數(shù)據(jù)探索與預(yù)處理模塊、挖掘建模模塊、模型應(yīng)用模塊.總體思路如圖1所示.

圖1右邊站點數(shù)據(jù)是從抽取數(shù)據(jù)中聚類分析所得，上下車人數(shù)是由OD矩陣式優(yōu)化模型分析計算出的數(shù)據(jù).左邊的市民出行規(guī)律和城市公交車優(yōu)化建議是本項目的挖掘目標(biāo).

圖1 總體思路圖

根據(jù)上面五個模塊設(shè)計出本研究的總體開發(fā) 流程，總體流程圖如圖2所示.

圖2 總體流程圖

第一步：查找數(shù)據(jù)資源獲取數(shù)據(jù)源.

第二步：抽取與深圳市某路公交站點相關(guān)的原始數(shù)據(jù)，主要有地面公交車刷卡數(shù)據(jù)以及地面公交車GPS監(jiān)控數(shù)據(jù)等.

第三步：數(shù)據(jù)探索與預(yù)處理，對從數(shù)據(jù)源中抽取出來的數(shù)據(jù)進行數(shù)據(jù)清洗、屬性規(guī)約和數(shù)據(jù)變換.

第四步：建模與應(yīng)用，本研究通過機器學(xué)習(xí)的聚類算法分析和建模，用的聚類模型是DBSCAN聚類模型，DBSCAN聚類用的是dbscan函數(shù).建模完成之后替換另外兩種算法重新分析并對比效果.

第五步：結(jié)果與反饋，通過構(gòu)建的OD矩陣模型分析，得出居民出行規(guī)律，最后反饋結(jié)果、給出優(yōu)化建議并進行模型優(yōu)化.

1.1 城市公交車優(yōu)化分析模型

城市公交車優(yōu)化分析模型流程圖如圖3所示.

圖3 城市公交車優(yōu)化分析模型流程圖

1.2 聚類分析

將預(yù)處理的公交車數(shù)據(jù)帶入聚類模型進行聚類［6-7］，得到相應(yīng)的聚類結(jié)果后，為數(shù)據(jù)貼上標(biāo)簽.更換聚類模型的聚類算法，重新進行聚類，對比分析不同聚類算法的效果和特性［8-9］.

1.3 下車人數(shù)預(yù)測統(tǒng)計

本研究利用上車人數(shù)計算下車人數(shù)，每個站點的下車人數(shù)為Dj.

其中，Dj為j站下車人數(shù)；Sk為k站上車人數(shù)；Pkj為k站上車，途徑j(luò)-k站下車的概率.

最終居民公交出行的出行站數(shù)概率計算公式為：

其中，F(xiàn)ij是居民公交出行的出行站數(shù)概率服從的泊松分布，Wj是站點對乘客的吸引權(quán)重.

居民公交出行的出行站數(shù)概率服從的泊松分布（假設(shè)），F(xiàn)ij計算公式如下：

其中，λ為公交路線出行途經(jīng)的站點數(shù)的數(shù)學(xué)期望；Wj為j站權(quán)重；Fij為i站上車途經(jīng)j-i個站點下車的概率.

站點對乘客的吸引權(quán)重Wj計算公式如下：

Wj為j站的吸引權(quán)重，其中Sk為k站上車人數(shù).

1.4 構(gòu)建OD矩陣

通過聚類和上面人流量預(yù)測模型分析出OD數(shù)據(jù)［10］，得到OD調(diào)查結(jié)果，OD調(diào)查結(jié)果通常用一個二維表格表示，縱（Y）站點表示上車站臺，橫（X）站點表示下車站臺，矩陣中的數(shù)表示在Y站上車X站下車的人數(shù)，最右側(cè)是各站點上車總?cè)藬?shù)，最后一行是各站點下車總?cè)藬?shù)，最后一個數(shù)據(jù)為該路公交車的總?cè)藬?shù).利用二維數(shù)組的形式接收并輸出OD矩陣［11］.

2 數(shù)據(jù)準(zhǔn)備與處理

在實驗開始前，首先獲取數(shù)據(jù)源，數(shù)據(jù)源中提供的數(shù)據(jù)有：出租車GPS監(jiān)控數(shù)據(jù)、地面公交車GPS監(jiān)控數(shù)據(jù)、地面公交車刷卡數(shù)據(jù)、地鐵站刷卡交易數(shù)據(jù)；與城市公交車站點相關(guān)的原始數(shù)據(jù)主要有地面公交車GPS監(jiān)控數(shù)據(jù)以及地面公交車刷卡數(shù)據(jù)等，相關(guān)數(shù)據(jù)有5萬多條.需要對數(shù)據(jù)源中抽取的數(shù)據(jù)進行數(shù)據(jù)清洗、屬性規(guī)約和數(shù)據(jù)變換.

（1）數(shù)據(jù)清洗：從業(yè)務(wù)以及建模的相關(guān)需要方面考慮，篩選出需要的數(shù)據(jù).包括缺失值處理、去除重復(fù)數(shù)據(jù)項、去除模糊數(shù)據(jù)項.

（2）屬性規(guī)約：屬性選擇后的數(shù)據(jù)集，如表1所示.

表1 預(yù)處理后的數(shù)據(jù)集

3 實驗結(jié)果及分析

在對數(shù)據(jù)進行抽取和預(yù)處理后，從五萬多條數(shù)據(jù)中篩選出某路公交車五天的相關(guān)刷卡數(shù)據(jù)1650條，將對篩選出來的數(shù)據(jù)進行挖掘建模.刷卡數(shù)據(jù)比較密集，為了更好地體現(xiàn)路線上的位置關(guān)系，實驗用到了高德開放平臺做可視化處理.又知道某路公交車當(dāng)時的實際站點有56個，從密集的刷卡數(shù)據(jù)中我們無法直接得出數(shù)據(jù)屬于前后哪個站點，因此我們對刷卡數(shù)據(jù)進行聚類，同時也對某路公交車站點進行優(yōu)化.

（1）對刷卡數(shù)據(jù)進行聚類，因為是對公交車站點進行優(yōu)化分析，無法直接得知聚類個數(shù)，而kmeans和DIANA聚類都需要提前確定聚類個數(shù)，所以先需要使用密DBSCAN度聚類進行優(yōu)化分析.聚類過程需要不斷更改并測試DBSCAN的參數(shù)（掃描半徑eps、閾值min_samples），通過對聚類效果評估分析最終確定參數(shù)值，聚類評估包括對聚類產(chǎn)生異常值點（不和其他密度相連）個數(shù)、聚類個數(shù)、聚類實際位置等.

實驗測試分析最終確定參數(shù)eps=0.0011、min_sample=3，聚類個數(shù)為39個，即最終優(yōu)化的站點個數(shù).DBSCAN密度聚類最優(yōu)結(jié)果如圖4所示.

圖4 DBSCAN聚類效果圖

（2）根據(jù)上面優(yōu)化分析得到的聚類個數(shù)，在利用K-means聚類（其中n_clusters=39），得動態(tài)聚類K-means，聚類結(jié)果如圖5所示.

圖5 K-means聚類效果圖

利用肘方法對K-means進行評估分析，得到質(zhì)點距離平方和（SSE）與聚類個數(shù)K的關(guān)系圖，如圖6所示.

圖6 肘方法評估K-Means聚類圖

根據(jù)肘方法評估原理，用K-means對此數(shù)據(jù)集聚類獲得最佳K值須取3～5之間，也就是聚類個數(shù)在3～5個最好，這明顯不符合實際要求.

（3）再使用分裂的層次聚類DIANA聚類，結(jié)果如圖7所示.

圖7 DIANA聚類效果圖

根據(jù)聚類算法評估指標(biāo)分析，得出三個聚類算法的聚類評估情況如表2所示.根據(jù)聚類評估的各項指標(biāo)分析，密度聚類DBSCAN的聚類效果更佳，更適合這種交通線路分布結(jié)構(gòu)的數(shù)據(jù)集的聚類.

表2 聚類評估指標(biāo)表

（4）根據(jù)挖掘模型我們還可以將數(shù)據(jù)進行時段分析，分析得到時段的OD矩陣，分析得到更加細(xì)致的規(guī)律.在總OD矩陣表中該矩陣是典型的上對角矩陣，只有右上半邊有數(shù)據(jù)且前七列沒有數(shù)據(jù)，為了更清楚直觀，實驗將OD矩陣的上下車總?cè)藬?shù)用柱狀圖表示如圖8、圖9所示.

圖8 OD矩陣68路公交車上車人數(shù)預(yù)測分析柱狀圖

圖9 OD矩陣68路公交車下車人數(shù)預(yù)測分析柱狀圖

根據(jù)OD數(shù)據(jù)可以得到下面規(guī)律和優(yōu)化建議：

（1）居民出行規(guī)律

①人們對公交車的需求還是比較大的，幾乎百分之八十的人依然選擇了傳統(tǒng)城市公交車出行；

②居民乘坐公交車出行一般距離比較遠(yuǎn)，一般都至少超過九站才下車；

③居民在某路公交車中在1、7、9等位置的站點上車人數(shù)較多，在20、24、28、37、38等位置站點下車人數(shù)較多；

（2）城市公交車的優(yōu)化建議

①在上下車人數(shù)較多路段可以增設(shè)站點或者適當(dāng)改變公交車的停靠方式（把直線式改為港灣式），緩解上下車壓力；

②某路公交車的實際站點56個，可縮減為39個；

③在某公交車路線中，可以看到在1、7、9、20、24、28、37、38等出行人數(shù)較多的站點設(shè)置已經(jīng)非常密集了，因此無須再增設(shè)，可以將這些站點中的直線?？糠绞礁臑楦蹫呈酵？?

4 結(jié)論

采用機器學(xué)習(xí)聚類算法對城市公交車站點進行優(yōu)化分析，針對公交車的刷卡數(shù)據(jù)密度等因素，對公交車站點進行有效的選址和壓縮，同時構(gòu)建上下車人數(shù)預(yù)測模型，分析出居民出行的OD矩陣.此優(yōu)化可以有效降低公交車運輸成本，人們出行也更加方便，有利于緩解交通擁堵.另外，還可以為公交汽車公司提供輔助決策參考，在乘客少的路段可以提高行駛速度以提高效率、在上下車人數(shù)多的站點設(shè)置港灣式停靠方式等.本研究是針對城市公交車站點的設(shè)置進行的優(yōu)化分析，同時本研究對火車、高鐵、BRT和輕軌地鐵等交通網(wǎng)絡(luò)規(guī)劃有很高的參考價值.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡