張 鵬,陸 瑤
(1.黑龍江工程學院 汽車與交通工程學院,黑龍江 哈爾濱 150050;2.東北林業(yè)大學 交通學院,黑龍江 哈爾濱 150040)
公交站點客流量預測方法
張 鵬1,2,陸 瑤1
(1.黑龍江工程學院 汽車與交通工程學院,黑龍江 哈爾濱 150050;2.東北林業(yè)大學 交通學院,黑龍江 哈爾濱 150040)
公交作為城市交通的重要組成部分,是城市賴以生存的重要基礎設施之一。以哈爾濱104路公交車作為研究對象,對104路公交車在高峰時進行集散量的隨車調(diào)查,運用聚類分析法進行距離計算,繪制出聚類分析圖。對公交站點進行分類,然后通過逐步回歸法,應用SPSS統(tǒng)計分析軟件建立同組各代表站點與其他站點的回歸方程式,對104路公交車高峰期的站點客流量進行預測,取得很好的效果。
聚類分析法;公共交通;回歸分析法;客流量;預測
公交客流量實時預測是公共交通實時調(diào)度的基礎。調(diào)度方式主要是基于客流量變化而確定的。在準確提前掌握客流變化規(guī)律的情況下,企業(yè)才能做到科學地制定運營規(guī)劃,合理地調(diào)配使用人、車資源。但目前實際的運營調(diào)度管理中因為缺乏定量適用的分析預測手段,大多依靠經(jīng)驗和直覺來判斷客流的變化,預測的結(jié)果同實際往往有較大的區(qū)別[1-2]。本文根據(jù)哈爾濱市公共交通運行現(xiàn)狀,以城市單條公交線路為研究對象,結(jié)合調(diào)研數(shù)據(jù)應用聚類分析法和逐步回歸法對哈爾濱市104路公交車在客流高峰站點客流量進行預測,公交客流量的準確預測對城市公交的高效經(jīng)濟運行具有重要意義。
1.1 定義
聚類分析(cluster analysis)是對樣品或變量進行分類的一種多元統(tǒng)計方法,目的在于將相似的事物歸類。通常分類一般限于單個度量,分類標準主要是由主觀偏好決定的,但有時樣品很多,分類無法可依,很難確定應該選擇哪個度量作為分組的依據(jù),這時聚類分析便成為一種選擇[3]。
聚類的方法有系統(tǒng)聚類、模糊聚類、圖論聚類、聚類預報等多種方法,本文使用的就是應用最廣泛的系統(tǒng)聚類,也稱譜系聚類。系統(tǒng)聚類的做法是在樣本基礎上定義點與點的距離,先將每個樣本自成一類,每次將距離最小的兩類合并,合并后重新計算類與類之間的距離,一直持續(xù)到所有樣品歸為一類,然后將此過程做成聚類譜系圖[4]。
1.2 系統(tǒng)聚類步驟
1.2.1 數(shù)據(jù)變換
在聚類分析處理過程中,為使不同量綱、不同數(shù)量級的數(shù)據(jù)能放在一起進行比較,首先需要對原始數(shù)據(jù)進行變換處理。變換的方法有總和標準化、標準差的標準化 、極大值標準化、極差的標準化等,本文采用的是標準差標準化處理,通過標準差標準化后每列數(shù)據(jù)的平均值為0,方差為1,這樣在抽樣樣本改變時,它仍保持相對穩(wěn)定性,公式為
j=1,2,3,…,m.
(1)
式中:
1.2.2 相似系數(shù)的確定
相似系數(shù)的確定即選擇樣本相似性度量,系統(tǒng)聚類法應用的是用距離作為相似系數(shù)。屬于同一類的樣本之間距離比較近,不同類的則要大很多。距離越小,相似性越大,親密程度越大。常用的距離公式[5]:
絕對值距離
(2)
切比雪夫距離
(3)
歐氏距離
(4)
明科夫斯基距離
(5)
式中:i,j=1,2,…,m;p≥1。當p=1時,它就是絕對值距離;當p=2時,它就是歐氏距離;當p=∞時,它就是切比雪夫距離,本文使用歐氏距離。
1.2.3 計算類間相似系數(shù)并進行聚類
將各個樣品自成一類基礎上計算平方歐幾里得距離矩陣,將距離最小的兩類合并,再將類個數(shù)減1生成新的平方歐幾里得矩陣并且繼續(xù)并類,如果類的數(shù)量大于1,則繼續(xù)并類,直到都歸為一類為止。
1.2.4 繪制系統(tǒng)聚類譜系圖
利用上述步驟得到的結(jié)果生成聚類譜系圖,如圖1所示[6]。
圖1 聚類譜系圖
2.1 定義
逐步回歸是按一定的統(tǒng)計程序,經(jīng)過多步擬合和檢驗,從一系列的可供建立回歸模型的自變量中,逐步引入回歸作用顯著的自變量,并從回歸模型中逐步回歸作用不再顯著的自變量,以最終求得“最優(yōu)”回歸模型的技術[7]。
2.2 步驟
逐步回歸預測具體計算步驟[8-9]:
1)設置引入、剔除變量以及回歸方程的F檢驗的顯著性水平a=0.05;
2)設系統(tǒng)聚類分析共得到m組公交站點,令j=1;
3)將第j組內(nèi)公交站點排序(不妨就按照聚類譜系圖從上至下的順序),令i=1,組內(nèi)公交站點總數(shù)為Nj(j=1,2,…,m,共聚類成m組);
4)取第i個公交站點作為因變量,其他站點設為自變量;
5)調(diào)用逐步回歸算法,利用F檢驗,依次引入或剔除變量,建立多元回歸方程;記錄第j組第i個回歸方程的Fij檢驗值;
6)設i=i+1,判斷是否i>Nj?是則將第j組中Fij值最大的方程的自變量作為本組的代表站點,并轉(zhuǎn)7),否則轉(zhuǎn)4);
7)設j=j+1,判斷是否j>m?是則轉(zhuǎn)8),否則轉(zhuǎn)2);
8)將每組中的代表站點作為自變量,建立其與組內(nèi)其他站點的回歸方程。
當代表站點安裝有實時客流量采集設備時,根據(jù)8)得到的回歸方程預測組內(nèi)其他站點的客流信息,為實時公共交通調(diào)度提供重要的基礎數(shù)據(jù)。當然,需要對原始數(shù)據(jù)庫所建立的模型及時更新處理(通常是在每天所有公交車都停止運營后進行次項工作。注意,所更新的模型備下周同一時間使用),以保證模型的實效性。
3.1 交通調(diào)查
哈爾濱市104路是從太平橋開往糖業(yè)研究所的公交線路,橫穿東西大直街,客流量非常大,平均日客流量可以達到2.5萬人次,經(jīng)常處于擁擠狀態(tài)[10]。本文以哈爾濱市104路公交線路為研究線路,采用隨車調(diào)查法,于2012年4月在高峰期調(diào)查了上行的8輛車站點集散量情況,其中站名用i表示,車次用j表示,xij為第i個站點的第j輛車,見表1。
3.2 聚類分析預測
3.2.1 數(shù)據(jù)變換
根據(jù)式(1)及表1進行標準化數(shù)據(jù)處理,如
33+37+33)=37.5,
表1 104路公交上行早高峰客流集散量匯總 人/車次
表2 經(jīng)標準差標準化處理后的數(shù)據(jù)
續(xù)表2
3.2.2 計算歐幾里得距離并進行聚類
根據(jù)式(4),計算平方歐幾里得距離矩陣并進行聚類。平方歐幾里得距離是歐氏距離的平方值。
其他值不再贅述,以類間相關性盡量高,分類盡量少為分類原則,取平方歐幾里得距離8.450將站點進行分類,共分為九類。第一類:太平橋;第二類:南通大街,市客車廠;第三類:哈爾濱工程大學,秋林公司,建設街;第四類:煙廠,新中新集團;第五類:醫(yī)大一院,和興三道街,和興十一道街,哈爾濱醫(yī)科大學;第六類:省博覽中心,通達街,和興路,九三五廠,哈達屯,糖業(yè)研究所;第七類:鐵路局,哈爾濱工業(yè)大學,西大橋,哈師大附中,哈爾濱理工大學,服裝城,電影機廠,機電工程學校;第八類:黑龍江大學;第九類:醫(yī)大二院。
3.2.3 繪制系統(tǒng)聚類譜系圖
結(jié)合上述聚類過程,通過SPSS軟件繪制出最短距離聚類譜系圖2。
圖2 系統(tǒng)聚類譜系
3.3 基于逐步回歸分析進行客流量預測
3.3.1 回歸模型建立
設置回歸方程的F檢驗的顯著性水平α=0.05,根據(jù)經(jīng)驗可知允許的方差比F在4~15之間,經(jīng)逐步計算,本文中代表站點為南通大街、煙廠、秋林公司、醫(yī)科大學、糖業(yè)研究所和哈爾濱師大附中。建立代表站點與其他站點之間的客流量預測模型如下
應用SPSS統(tǒng)計分析軟件建立同組各代表站點與其他站點的回歸方程式(見表3)。根據(jù)回歸方程,當代表站點安裝有實時客流量采集設備時,可以預測組內(nèi)其他站點的客流。單個站點組成一類的只能利用觀測得到其客流信息。
表3 代表站點與組內(nèi)其他站點的回歸方程
3.3.2 預測效果檢驗
隨機抽取第八組觀測的數(shù)據(jù)進行預測檢驗:將得到的其他站點的預測值與觀測值進行比較。圖3即為高峰時段站點預測值與觀測值的比較折線圖,該預測平均相對誤差8.3%,預測效果良好。
圖3 預測分析曲線
本文通過公交站點客流量預測模型的建立,實現(xiàn)客流量預測模型對主要公交線路站點的宏觀劃分,為規(guī)劃和決策部門制定合理的運營計劃提供理論依據(jù),進而實現(xiàn)公交線網(wǎng)優(yōu)化,為公交智能調(diào)度提供基礎,最終緩解交通擁擠、居民出行難等問題,從而加快城市世界性發(fā)展的進程。
[1]王春雨.公交客流數(shù)據(jù)分析的研究[D].石家莊:河北工業(yè)大學,2006.
[2]韓霜南.發(fā)展公共交通智能調(diào)度系統(tǒng)方案的研究探討[J].安防科技,2006(11):21-22
[3]許麗莉.聚類分析的算法及應用[D].長春:吉林大學,2010.
[4]劉艷霞.數(shù)據(jù)挖掘中聚類分析技術的研究與應[J].科技情報開發(fā)與經(jīng)濟,2008(6).
[5]朱曉蘭.模糊聚類在物流園區(qū)網(wǎng)絡布局規(guī)劃中的應用[D].上海:上海交通大學,2007.
[6]劉煒.聚類分析在高校就業(yè)工作中的應用研究[D].哈爾濱:東北林業(yè)大學,2011.
[7]方來.基于逐步回歸方法對甘肅省投資環(huán)境落后的原因分析[D].蘭州:蘭州商學院,2007.
[8]韓雨萍.利用逐步回歸分析方法測算高職體育課運動量的研究[J].價值工程,2010(6).
[4]高倩倩,邢秀鳳,姚傳進.基于逐步回歸分析的糧食產(chǎn)量影響因素研究[J].當代經(jīng)濟,2010(9).
[10]張鵬.公交調(diào)度系統(tǒng)的軟件設計與實現(xiàn) [J].黑龍江工程學院學報:自然科學版,2013,27(3):37-43.
Forecasting the passenger flow of public transit stations
ZHANG Peng1,2,LU Yao1
(1.Dept.of Automobile and Traffic Engineering,Heilongjiang Institute of Technology,Harbin 150050,China; 2.College of Transportation,Northeast Forestry University,Harbin 150040,China)
Bus,as an important part of the urban transportation,is one of the critical urban infrastructures.It studies the passenger collector-distributor volume of No.104 bus of Harbin during the rush hour,of which the cluster analysis is used to calculate the distance and draw the cluster trend diagram.Then it classifies the bus stations and adoptes the stepwise regression and SPSS statistical analysis software to establish the regression equation for the representative stations and other ones,aiming to forecast the passenger flow.The research has achieved good results.
cluster analysis; public transport; regression analysis; passenger flow; forecast
2013-12-09
黑龍江工程學院大學生創(chuàng)新訓練項目(201311802069)
張 鵬(1979-),男,講師,博士研究生,研究方向:交通管理與控制;交通運輸規(guī)劃與管理.
U491
A
1671-4679(2014)03-0027-05
郝麗英]