国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向海量公交刷卡數(shù)據(jù)的站點(diǎn)客流分析方法

2017-03-02 08:31:23曹婭琪丁維龍
關(guān)鍵詞:公交站點(diǎn)刷卡客流量

曹婭琪 丁維龍

(1.北方工業(yè)大學(xué)數(shù)據(jù)工程研究院 北京 100144) (2.大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室 北京 100144)

面向海量公交刷卡數(shù)據(jù)的站點(diǎn)客流分析方法

曹婭琪1,2丁維龍1,2

(1.北方工業(yè)大學(xué)數(shù)據(jù)工程研究院 北京 100144) (2.大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室 北京 100144)

公交行業(yè)的發(fā)展,產(chǎn)生了海量多元的公交IC卡刷卡數(shù)據(jù),為行業(yè)應(yīng)用提供快速、準(zhǔn)確的站點(diǎn)客流量統(tǒng)計(jì)一直是智能公交建設(shè)的重點(diǎn)。以往對(duì)客流量的研究只是進(jìn)行了簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì),準(zhǔn)確度不高,提出的并行算法在海量數(shù)據(jù)規(guī)模下不具備水平擴(kuò)展能力。針對(duì)此問(wèn)題,論文通過(guò)分析海量多元數(shù)據(jù)的特征,面向公交刷卡數(shù)據(jù)提出了一種刷卡時(shí)間的聚類方法,不僅可在分鐘級(jí)完成一周數(shù)據(jù)的計(jì)算,并根據(jù)換乘的時(shí)間差和距離規(guī)則約束提高了計(jì)算的準(zhǔn)確性。論文工作在Hadoop MapReduce上進(jìn)行了實(shí)現(xiàn),分時(shí)客流量的計(jì)算方面隨數(shù)據(jù)規(guī)模增大具有可擴(kuò)展性,單位數(shù)據(jù)規(guī)模的計(jì)算執(zhí)行時(shí)間保持相對(duì)穩(wěn)定,并且分析結(jié)果具有較高的準(zhǔn)確性。

公交數(shù)據(jù); 海量數(shù)據(jù); 站點(diǎn)上下車客流量; 站點(diǎn)換乘客流量

Class Number TP311

1 引言

公交系統(tǒng)數(shù)據(jù)采集規(guī)模成倍增長(zhǎng)、采集信息豐富化,而公交IC卡刷卡數(shù)據(jù)以離線海量數(shù)據(jù)的形式存在,基于此類數(shù)據(jù)提供更加精確、全面、智能的交通管理及信息服務(wù)成為當(dāng)前智能交通系統(tǒng)中的研發(fā)熱點(diǎn)。面向海量、多元的公交IC卡數(shù)據(jù)提供可擴(kuò)展、可視化的公交應(yīng)用成為當(dāng)前智能交通系統(tǒng)建設(shè)的重點(diǎn)需求之一。

近年來(lái),研究者們從公交IC數(shù)據(jù)的采集方法、公交 IC 數(shù)據(jù)預(yù)處理、公交站點(diǎn)客流量預(yù)測(cè)、站點(diǎn)換乘客流量預(yù)測(cè)等不同角度開(kāi)展了大量與上述需求相關(guān)的研究工作,通過(guò)這些工作可以看到,當(dāng)前在與本課題相關(guān)的研究領(lǐng)域表現(xiàn)出的發(fā)展趨勢(shì):

公交站點(diǎn)的客流量受隨機(jī)因素影響很大,行程的客流是一個(gè)復(fù)雜非線性系統(tǒng),天氣因素、站臺(tái)設(shè)計(jì)、突發(fā)事件、站點(diǎn)附近土地利用情況等都會(huì)影響客流量,很難準(zhǔn)確預(yù)測(cè)。研究者主要集中使用人工神經(jīng)網(wǎng)絡(luò)、時(shí)間序列分析、支持向量機(jī)等方法進(jìn)行預(yù)測(cè),但預(yù)測(cè)精度并不高[1]。

然而,隨著特大城市中的公交線路越來(lái)越多,路程越來(lái)越長(zhǎng),按行程計(jì)費(fèi)的公交系統(tǒng)越來(lái)越多,使得出行者的公交數(shù)據(jù)越來(lái)越豐富,上下車站點(diǎn)、上下車時(shí)間及站點(diǎn)經(jīng)緯度等多元數(shù)據(jù)的采集,也使得現(xiàn)有工作在應(yīng)對(duì)大規(guī)模公交出行數(shù)據(jù)處理需求時(shí)尚存兩個(gè)問(wèn)題:

1) 大多學(xué)者研究的是存儲(chǔ)于數(shù)據(jù)庫(kù)中的數(shù)據(jù)規(guī)模較小的公交刷卡數(shù)據(jù),而提出的并行方法在處理海量數(shù)據(jù)方面的性能不穩(wěn)定,特別是海量數(shù)據(jù)下傳統(tǒng)并行方法不能保證水平擴(kuò)展性。

2) 傳統(tǒng)站點(diǎn)上下車客流量計(jì)算方法上,對(duì)每條數(shù)據(jù)視為孤立的,與其他數(shù)據(jù)毫無(wú)關(guān)聯(lián)的數(shù)據(jù)。對(duì)不同時(shí)段站點(diǎn)上下車客流量的計(jì)算上,只是按上車刷卡時(shí)間進(jìn)行簡(jiǎn)單的歸類,并沒(méi)有以車輛為載體對(duì)數(shù)據(jù)進(jìn)行考慮,使計(jì)算的準(zhǔn)確性降低。在換乘行為識(shí)別方法上,一般是從兩個(gè)方面來(lái)進(jìn)行判斷:1)從連續(xù)兩次上車刷卡時(shí)間的間隔來(lái)進(jìn)行判斷;由于兩次上車時(shí)間間隔可能會(huì)比較長(zhǎng),以此時(shí)間來(lái)判斷換乘行為的準(zhǔn)確度不高。2)以兩次乘車線路中存在的站點(diǎn)最近距離來(lái)判斷換乘的可能性;此研究是以線路為主體,以兩線路間存在的最短距離是否小于換乘距離約束,來(lái)判斷乘客是否有換乘行為,這使得預(yù)測(cè)精度大打折扣。

本文針對(duì)上述問(wèn)題,在站點(diǎn)上下車客流量分時(shí)計(jì)算中,提出了在大數(shù)據(jù)環(huán)境下的一種公交刷卡時(shí)間的聚類方法,通過(guò)對(duì)每趟次刷卡數(shù)據(jù)的聚類分析,來(lái)判斷該輛車上車刷卡數(shù)據(jù)或下車刷卡數(shù)據(jù)的歸屬時(shí)間段,且通過(guò)一次計(jì)算得到所有站點(diǎn)在不同時(shí)間段的上車刷卡數(shù)據(jù)或下車刷卡數(shù)據(jù);針對(duì)站點(diǎn)在不同時(shí)間段換乘客流量,發(fā)現(xiàn)同一張卡的相鄰兩次刷卡記錄,并根據(jù)下車時(shí)間和再次上車時(shí)間差,及兩站點(diǎn)距離來(lái)判斷換乘行為,且通過(guò)兩次計(jì)算得到所有站點(diǎn)在不同時(shí)間段的換乘客流量。

2 相關(guān)工作

近年來(lái),許多專家學(xué)者對(duì)公交IC卡數(shù)據(jù)進(jìn)行過(guò)多個(gè)研究方向,包括上下車站點(diǎn)的判斷研究、公交換乘判斷研究、公交客流預(yù)測(cè)研究等,其中廖澤榮(2010)對(duì)公交站點(diǎn)客流量調(diào)查是對(duì)線路中的每個(gè)站點(diǎn)進(jìn)行全天分時(shí)段調(diào)查,統(tǒng)計(jì)出一天中每個(gè)站點(diǎn)客流量情況,并統(tǒng)計(jì)出線路中每個(gè)站點(diǎn)在全天不同時(shí)段的上車客流量[2],該方法耗時(shí)嚴(yán)重,可行性不強(qiáng);而周銳(2012)在公交站點(diǎn)客流量推算中只是對(duì)該站點(diǎn)的所有上下車乘客進(jìn)行了簡(jiǎn)單的分類統(tǒng)計(jì)[3],并沒(méi)有對(duì)刷卡數(shù)據(jù)和車輛之間的關(guān)聯(lián)性進(jìn)行深入分析,得到結(jié)果數(shù)據(jù)的準(zhǔn)確性不高。

上下車站點(diǎn)的判斷研究,具有代表性的有戴霄,陳學(xué)武等(2005)、劉穎杰等(2010)、周雪梅等(2012)。他們首先對(duì)已有的數(shù)據(jù)進(jìn)行歸類,利用己知的線路調(diào)度資料推測(cè)上車刷卡站點(diǎn),提出基于站點(diǎn)吸引下車站點(diǎn)判斷方法[4~6];章玉(2010)、陳紹輝等(2012)提出基于刷卡數(shù)據(jù)融合的上下車站點(diǎn)匹配算法[7~8];以上都是對(duì)上下車站點(diǎn)可能性的判斷,在海量數(shù)據(jù)規(guī)模下應(yīng)用的性能較低。

公交換乘判斷研究,具有代表性的有彭晗等(2007)從刷卡時(shí)間和線路間系數(shù)矩陣兩個(gè)方面來(lái)判斷乘客是否換乘,進(jìn)而對(duì)換乘點(diǎn)進(jìn)行判斷,認(rèn)為乘客連續(xù)兩次刷卡時(shí)間小于等于50min,并且所乘坐的兩條線路站點(diǎn)間的最短距離小于等于1000m,那么乘客進(jìn)行了換乘,兩條線路最短距離的站點(diǎn)是換乘點(diǎn)[9];張孜等(2011)通過(guò)對(duì)乘客兩次刷卡間的時(shí)間分析以及利用公交GPS時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)一步分析乘客換乘所用的時(shí)間,判斷出乘客兩次乘車是換乘行為還是兩次出行[10]。以上通過(guò)對(duì)線路間是否有換乘條件,以及對(duì)換乘時(shí)間的約束范圍較大,使得對(duì)換乘判斷的準(zhǔn)確性較低。

在并行計(jì)算方面,張聰(2014)通過(guò)并行蟻群算法對(duì)公交車進(jìn)行調(diào)度優(yōu)化[11],而研究中的刷卡數(shù)據(jù)并不完全符合實(shí)際需求,只是對(duì)公交車調(diào)度進(jìn)行了探討,對(duì)站點(diǎn)客流量沒(méi)有進(jìn)行分析研究。

當(dāng)前針對(duì)公交刷卡數(shù)據(jù)中的站點(diǎn)客流量,大多都是進(jìn)行簡(jiǎn)單的統(tǒng)計(jì),認(rèn)為數(shù)據(jù)間毫無(wú)關(guān)聯(lián),并沒(méi)有以車輛、車次、線路等方面考慮更多的合理性;針對(duì)站點(diǎn)換乘客流量的計(jì)算時(shí),是根據(jù)所乘坐的兩條線路的站點(diǎn)間的最短距離來(lái)進(jìn)行換乘可能性的判斷,并不能相對(duì)準(zhǔn)確地找出是否具有換乘行為及換乘站點(diǎn)。本文使用 Hadoop MapReduce分布式計(jì)算框架實(shí)現(xiàn)海量公交刷卡數(shù)據(jù)中的所有站點(diǎn)在不同時(shí)間段的上下車客流量和站點(diǎn)換乘客流量。

3 公交站點(diǎn)客流量分析

3.1 問(wèn)題分析

針對(duì)公交站點(diǎn)的客流量,給出站點(diǎn)客流量的相關(guān)概念。

定義 站點(diǎn)客流量:站點(diǎn)客流量是某個(gè)站點(diǎn)給定時(shí)間范圍內(nèi)的乘客數(shù)量,包括三個(gè)視角下的內(nèi)容:

1) 公交站點(diǎn)上車客流量,是公交乘客在公交站點(diǎn)有上車刷卡行為的數(shù)量。

2) 公交站點(diǎn)下車客流量,是公交乘客在公交站點(diǎn)有下車刷卡行為的數(shù)量。

3) 公交換乘客流量,是公交乘客為完成一次出行,在到達(dá)目的地之前改乘另一輛公交車的行為。

由于越來(lái)越多城市的公交系統(tǒng)開(kāi)始按里程收費(fèi),根據(jù)北京市交通委發(fā)布,在2014年12月28日北京開(kāi)始全面實(shí)行公交車輛及地鐵收費(fèi)系統(tǒng)開(kāi)始按里程收取費(fèi)用,這意味著公交IC卡的數(shù)據(jù)采集將更豐富,變?yōu)殡p次刷卡、多站點(diǎn)、多刷卡時(shí)間等多元、多維數(shù)據(jù),既為站點(diǎn)客流量的計(jì)算提出了更高的要求,也為客流量計(jì)算的準(zhǔn)確性提供了數(shù)據(jù)支撐。

根據(jù)中國(guó)新聞網(wǎng)在2014年3月17日的報(bào)道,北京市最短公交線路來(lái)回一圈僅用7分鐘,故以此作為在同一站點(diǎn)同一趟車中最長(zhǎng)刷卡時(shí)間間隔,即在判斷海量數(shù)據(jù)中哪些刷卡數(shù)據(jù)是在同一站點(diǎn)同一輛車的同一趟次上刷的卡,否則認(rèn)為是該趟車再一次經(jīng)過(guò)該站點(diǎn)時(shí)刷的卡。

在原始數(shù)據(jù)中不可避免地會(huì)存在一些無(wú)效、錯(cuò)誤數(shù)據(jù),比如兩次刷卡日期(年月日)不同、下車刷卡時(shí)間(小時(shí):分鐘:秒)<上車刷卡時(shí)間等,為了避免這些數(shù)據(jù)對(duì)客流量分析的影響,需要對(duì)這些數(shù)據(jù)進(jìn)行修正和剔除,保證數(shù)據(jù)的有效性。本文經(jīng)過(guò)數(shù)據(jù)清洗后,用于分析的公交數(shù)據(jù)結(jié)構(gòu)如表1所示。

表1 公交數(shù)據(jù)結(jié)構(gòu)

由于公交站點(diǎn)下車客流量的分析與上車客流量比較類似,所以本文研究?jī)?nèi)容主要為如下兩個(gè)部分:1)公交站點(diǎn)上車客流量分析;2)公交站點(diǎn)換乘客流量分析。由于MapReduce分布式計(jì)算技術(shù)在大規(guī)模數(shù)據(jù)處理中得到了良好的驗(yàn)證,在針對(duì)上述分析方法的計(jì)算均采用MapReduce并行計(jì)算架構(gòu)來(lái)進(jìn)行性能和準(zhǔn)確性的驗(yàn)證。

3.2 公交車站點(diǎn)分時(shí)段上車客流量問(wèn)題分析

海量公交刷卡數(shù)據(jù)下,公交站點(diǎn)上車客流量問(wèn)題分析流程圖如圖1所示。

圖1 公交站點(diǎn)上車客流量分析流程圖

針對(duì)上圖對(duì)同一趟車次上車刷卡數(shù)據(jù)及上車時(shí)間段的判定,根據(jù)站點(diǎn)上車刷卡具有時(shí)間集中性采用刷卡時(shí)間的聚類方法,也就是說(shuō),站點(diǎn)從第一個(gè)上車刷卡時(shí)間開(kāi)始,至此后7min內(nèi)該站點(diǎn)所有刷卡數(shù)據(jù)都判斷為同一趟車上在該站點(diǎn)的客流量,并根據(jù)該客流量的中位數(shù)上車刷卡時(shí)間段來(lái)判斷該趟次該站點(diǎn)的全部上車客流量的時(shí)間段。

根據(jù)上述分析方法,在分析過(guò)程中采用Hadoop MapReduce實(shí)現(xiàn),經(jīng)過(guò)仔細(xì)分析后發(fā)現(xiàn),一次MapReduce計(jì)算就能得到所有站點(diǎn)在不同日期下所有時(shí)段上車客流結(jié)果。在map()中的原始數(shù)據(jù)輸入格式如表1所示,在map()中根據(jù)數(shù)據(jù)的上車站點(diǎn)、上車日期,對(duì)數(shù)據(jù)進(jìn)行分類,其輸出的數(shù)據(jù)形式為(上車站點(diǎn)+上車日期,卡號(hào)+上車時(shí)間…);reduce()對(duì)map()的輸出數(shù)據(jù)按上車時(shí)間排序,主要對(duì)每條數(shù)據(jù)的上車時(shí)間與緊鄰的車輛的第一個(gè)上車刷卡時(shí)間差判斷是否小于7min;若時(shí)間差小于7min,則該條數(shù)據(jù)是在該趟車上;若時(shí)間差大于7min,則該趟車的刷卡數(shù)據(jù)結(jié)束,及下一趟車在該站點(diǎn)開(kāi)始有上車乘客;針對(duì)每趟車刷卡結(jié)束的數(shù)據(jù),根據(jù)客流量的中位數(shù)的時(shí)間段來(lái)判斷該輛車上車客流的時(shí)間段,并對(duì)該站點(diǎn)、該時(shí)間段的客流量進(jìn)行累加,最終輸出的所有公交站點(diǎn)在不同日期下所有時(shí)段上車客流結(jié)果的數(shù)據(jù)結(jié)構(gòu)如表2所示。

表2 公交站點(diǎn)上車客流量輸出結(jié)果數(shù)據(jù)結(jié)構(gòu)

3.3 公交車站點(diǎn)分時(shí)段換乘客流量問(wèn)題分析

海量公交刷卡數(shù)據(jù)下公交站點(diǎn)換乘客流量問(wèn)題分析流程如圖2所示。

在城市公共交通系統(tǒng)中,受城市結(jié)構(gòu)以及公交線路的路線設(shè)計(jì)的影響,不可避免要進(jìn)行換乘來(lái)實(shí)現(xiàn)某一目的地的公交出行。從乘客角度而言,公交乘客一般不愿在換乘過(guò)程中花費(fèi)太多的時(shí)間,可根據(jù)換乘時(shí)間來(lái)實(shí)現(xiàn)下車站點(diǎn)是否為公交換乘點(diǎn)的判斷之一[12]。周銳等(2012)根據(jù)大量統(tǒng)計(jì)數(shù)據(jù)的乘客換乘等待時(shí)間分布圖,認(rèn)為有95%的居民出行中換乘等待時(shí)間低于20min[3]。

圖2 公交站點(diǎn)分時(shí)段換乘客流量分析流程圖

目前北京市主要換乘點(diǎn)的平均步行距離為350m;30%以上換乘距離在500m以上;換乘距離在1000m以上的占到16%[13]。隨著公交線路的不斷優(yōu)化調(diào)整,換乘距離過(guò)長(zhǎng)的問(wèn)題在逐漸改善。

根據(jù)上述已有文獻(xiàn)的研究,本文針對(duì)同一張公交卡在同一日期刷卡數(shù)據(jù)中,對(duì)相鄰兩次刷卡數(shù)據(jù)中的下車站點(diǎn)與再次上車站點(diǎn)進(jìn)行換乘判斷時(shí),對(duì)換乘時(shí)間的約束為20min以內(nèi),且兩站點(diǎn)的距離約束為1000m以內(nèi),滿足這兩個(gè)約束條件的則判斷為換乘行為,且再次上車站點(diǎn)為換乘站點(diǎn);否則判斷為第二次出行。

根據(jù)上述站點(diǎn)換乘的分析方法,在實(shí)現(xiàn)中依然采用Hadoop MapReduce,發(fā)現(xiàn)通過(guò)兩次MapReduce就能得到所有站點(diǎn)在不同日期下所有時(shí)段的換乘客流結(jié)果;在第一次MapReduce的map()中,根據(jù)數(shù)據(jù)的IC卡號(hào)及上車日期對(duì)數(shù)據(jù)進(jìn)行分類,其輸出的數(shù)據(jù)形式為(IC卡號(hào)+上車日期,上車時(shí)間+上車站點(diǎn)…);reduce()對(duì)map()的輸出數(shù)據(jù)按上車時(shí)間排序,通過(guò)對(duì)相鄰的下車時(shí)間與上車的時(shí)間差小于20min,及下車站點(diǎn)與上車站點(diǎn)距離小于1000m,來(lái)判斷該乘客是否有換乘行為及換乘的時(shí)間段;在第二次MapReduce中,對(duì)第一次MapReduce各個(gè)時(shí)間段的輸出結(jié)果進(jìn)行累計(jì),并輸出最終站點(diǎn)換乘客流量在不同日期下所有時(shí)段的換乘客流結(jié)果,輸出的數(shù)據(jù)結(jié)構(gòu)如表3所示。

表3 公交站點(diǎn)換乘客流量輸出結(jié)果數(shù)據(jù)結(jié)構(gòu)示意圖

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

數(shù)據(jù)實(shí)驗(yàn)環(huán)境為:CentOS 6.4版本的Linux操作系統(tǒng),JDK1.7,Hadoop 版本為1.0.4,實(shí)驗(yàn)搭建的Hadoop 集群為1個(gè)主節(jié)點(diǎn)和4 個(gè)從節(jié)點(diǎn),主節(jié)點(diǎn)和從節(jié)點(diǎn)配置均為4核CPU、4GB內(nèi)存、有效存儲(chǔ)容量為9.9GB,集群總存儲(chǔ)容量為49.5GB。此外,主節(jié)點(diǎn)也被當(dāng)作計(jì)算節(jié)點(diǎn)。實(shí)驗(yàn)中采用的數(shù)據(jù)為北京市2013年3月1號(hào)至2013年3月8號(hào)的公交IC卡刷卡數(shù)據(jù),原始數(shù)據(jù)約有5.5億條刷卡記錄,7349輛公交車,233條公交線路。

為了從性能對(duì)比、關(guān)鍵參數(shù)影響和擴(kuò)展性三個(gè)方面對(duì)公交站點(diǎn)上車客流量計(jì)算和換乘客流量計(jì)算進(jìn)行驗(yàn)證分析,本文設(shè)計(jì)了兩組實(shí)驗(yàn)。

實(shí)驗(yàn)1 針對(duì)站點(diǎn)上車客流量,選取北京市2013-03-01~2013-03-08期間2013年3月1號(hào)、3月1號(hào)~3月2號(hào)、3月1號(hào)~3月3號(hào)、…、3月1號(hào)~3月8號(hào),清洗后的8種數(shù)據(jù)規(guī)模大小的真實(shí)公交刷卡歷史數(shù)據(jù)作為原始計(jì)算數(shù)據(jù)集,分別測(cè)試0.5h、1h、2h這三個(gè)時(shí)間段下站點(diǎn)分時(shí)段上車客流量計(jì)算的性能、關(guān)鍵參數(shù)影響和擴(kuò)展性情況。

實(shí)驗(yàn)2 針對(duì)站點(diǎn)換乘客流量,選取北京市2013-03-01~2013-03-08期間2013年3月1號(hào)、3月1號(hào)~3月2號(hào)、3月1號(hào)~3月3號(hào)、…、3月1號(hào)~3月8號(hào),清洗后的8種數(shù)據(jù)規(guī)模大小的真實(shí)公交刷卡歷史數(shù)據(jù)作為原始計(jì)算數(shù)據(jù)集,分別測(cè)試0.5h、1h、2h這三個(gè)時(shí)間段下站點(diǎn)分時(shí)段換乘客流量計(jì)算的性能、關(guān)鍵參數(shù)影響和擴(kuò)展性情況。

實(shí)驗(yàn)中為了減少數(shù)據(jù)結(jié)果輸出占用的時(shí)間對(duì)計(jì)算執(zhí)行時(shí)間的影響,以下實(shí)驗(yàn)均采用輸入的數(shù)據(jù)規(guī)模與輸出文件的個(gè)數(shù)相同(例如:計(jì)算的是2天的數(shù)據(jù)規(guī)模,則結(jié)果輸出文件的個(gè)數(shù)是2個(gè))。

4.2 實(shí)驗(yàn)與結(jié)果分析

1) 站點(diǎn)上車客流量

從圖3中可以看出,隨著數(shù)據(jù)規(guī)模的增大,計(jì)算執(zhí)行時(shí)間并沒(méi)有隨著數(shù)據(jù)規(guī)模的增大而成倍地增長(zhǎng)。為了進(jìn)一步發(fā)現(xiàn)上述站點(diǎn)分時(shí)段客流量算法對(duì)計(jì)算性能的影響,即對(duì)每天的數(shù)據(jù)規(guī)模計(jì)算能力的影響,如圖4所示,隨著參與計(jì)算的數(shù)據(jù)規(guī)模的增加,三種時(shí)間段參數(shù)隨著數(shù)據(jù)規(guī)模的增加,平均每天數(shù)據(jù)量的計(jì)算執(zhí)行時(shí)間均呈逐漸減少至逐漸穩(wěn)定狀態(tài),說(shuō)明在此算法下隨著數(shù)據(jù)規(guī)模的增加,單位數(shù)據(jù)量的計(jì)算執(zhí)行時(shí)間趨于穩(wěn)定,計(jì)算性能良好;在0.5h,1h,2h這三個(gè)不同時(shí)間段下,單位數(shù)據(jù)規(guī)模的計(jì)算耗時(shí)差異并不明顯,可擴(kuò)展性良好,能對(duì)更細(xì)的時(shí)間密度下的客流量進(jìn)行分析。

圖3 不同時(shí)間范圍的數(shù)據(jù)規(guī)模下的站點(diǎn)上車客流量計(jì)算執(zhí)行時(shí)間對(duì)比

圖4 不同時(shí)間范圍的數(shù)據(jù)規(guī)模下的單位數(shù)據(jù)量計(jì)算耗時(shí)對(duì)比

圖5 站點(diǎn)24小時(shí)上車客流量變化圖

為了探討計(jì)算的站點(diǎn)分時(shí)客流量與實(shí)際情況是否符合,查看北京具有特殊交通樞紐的站點(diǎn),例如,北京西站公交站點(diǎn)在不同時(shí)間段的客流量趨勢(shì),由于火車站北京西站是通向北京市外的一個(gè)交通樞紐,所以公交站點(diǎn)北京西站的上車客流量絕大部分是乘坐火車到達(dá)北京市的人群,如圖5所示,公交站點(diǎn)北京西站在每天早上8點(diǎn)到晚上7點(diǎn)之間,每小時(shí)的站點(diǎn)上車客流量維持在一個(gè)穩(wěn)定的高位,這段時(shí)間也正是到達(dá)北京市的火車列次最多的時(shí)段,而在夜間時(shí)段也有少量公交乘客,這與火車晚間到達(dá)北京市的情況較一致。

2) 站點(diǎn)換乘客流量

從圖6可以看出,隨著數(shù)據(jù)規(guī)模的增長(zhǎng),三種不同時(shí)間段參數(shù)的計(jì)算執(zhí)行時(shí)間普遍增長(zhǎng),但是執(zhí)行時(shí)間并沒(méi)有隨數(shù)據(jù)規(guī)模成倍數(shù)級(jí)增長(zhǎng),為了能更直觀看出參數(shù)和數(shù)據(jù)規(guī)模對(duì)計(jì)算時(shí)間的影響,如圖7所示,隨著數(shù)據(jù)規(guī)模的增長(zhǎng),單位數(shù)據(jù)規(guī)模下的計(jì)算執(zhí)行時(shí)間相對(duì)平穩(wěn);而且從兩張圖不難看出,每0.5h對(duì)數(shù)據(jù)計(jì)算一次比每2h計(jì)算的時(shí)間略長(zhǎng),但差別不明顯,使得將來(lái)能夠?qū)Ω虝r(shí)間段換乘客流量進(jìn)行分析。

圖6 不同時(shí)間范圍的數(shù)據(jù)規(guī)模下的站點(diǎn)換乘客流量計(jì)算執(zhí)行時(shí)間對(duì)比

圖7 不同時(shí)間范圍的數(shù)據(jù)規(guī)模下的站點(diǎn)換乘單位數(shù)據(jù)量計(jì)算執(zhí)行時(shí)間對(duì)比

圖8 站點(diǎn)24h的上車客流量與換乘客流量變化圖

為了探討站點(diǎn)換乘客流量與乘車客流量的變化關(guān)系,本文選擇了中國(guó)農(nóng)業(yè)科學(xué)院公交站點(diǎn),由于此站點(diǎn)附近有北京理工大學(xué)、中國(guó)農(nóng)業(yè)科學(xué)院、中關(guān)村南大街及緊鄰地鐵4號(hào)線,處于一個(gè)交通樞紐的位置,每天的客流量極大,對(duì)于分析附近人流乘坐公交車情況具有極大意義,如圖8所示,2013年3月4號(hào)為周一,上下班乘客在中國(guó)農(nóng)業(yè)科學(xué)院公交站點(diǎn)有很明顯的出行特征,不難看出在早上7點(diǎn)至9點(diǎn),晚上5點(diǎn)至8點(diǎn)都出現(xiàn)了乘車高峰期和換乘高峰期,這與北京市發(fā)布的交通高峰時(shí)段比較一致,能夠反映交通情況,準(zhǔn)確性較高。

5 結(jié)語(yǔ)

在公交刷卡系統(tǒng)逐漸改革的背景下,本文針對(duì)公交車IC卡刷卡數(shù)據(jù),在大規(guī)模數(shù)據(jù)處理的環(huán)境下,提出并實(shí)現(xiàn)了一種站點(diǎn)上車客流量及站點(diǎn)換乘客流量分時(shí)計(jì)算方法,該方法在大規(guī)模數(shù)據(jù)處理中的計(jì)算時(shí)間較短、穩(wěn)定性較好,且計(jì)算結(jié)果與實(shí)際客流情況比較一致,能夠?qū)还芾砉ぷ髡咴谡军c(diǎn)客流管理方面提供參考意義。

在下一步的研究工作中,本文將在站點(diǎn)客流量及換乘客流量等方面進(jìn)行公交出行OD分析。本文在分時(shí)客流量計(jì)算方面雖然找到各個(gè)站點(diǎn)的高峰期,但由于每個(gè)時(shí)間段都是整點(diǎn)時(shí)間段,在對(duì)高峰期時(shí)段的詳細(xì)把握方面略顯不足;對(duì)結(jié)果數(shù)據(jù)沒(méi)有進(jìn)行可視化,管理者對(duì)數(shù)據(jù)不能方便觀察,以便更好地滿足交管部門的需要。

[1] 張春輝,宋瑞,孫楊.基于卡爾曼濾波的公交站點(diǎn)短時(shí)客流預(yù)測(cè)[J].交通運(yùn)輸系統(tǒng)工程與信息,2011,11(4):2. ZHANG Chunhui, SONG Rui, SUN Yang. Kalman Filter-Based Short-Term Passenger Flow Forecasting on Bus Stop[J]. Journal of Transportation Systems Engineering and Information Technology,2011,11(4):2.

[2] 廖澤榮.基于公交IC數(shù)據(jù)的公交客流量分析[D].昆明:云南大學(xué),2010:3-67. LIAO Zerong. The Analysis of Passenger Flow Based on the Data of Bus Intelligent Card[D]. Kunmin:Yunnan University,2010:3-67.

[3] 周銳.基于IC卡數(shù)據(jù)的公交站點(diǎn)客流量推算方法[D].北京:北京交通大學(xué),2012. ZHOU Rui. Passenger Flow Calculation for Bus Stations Based on IC Card Data[D]. Beijing:Beijing Jiaotong University,2012.

[4] 戴霄,陳學(xué)武.單條公交線路的卡數(shù)據(jù)分析處理方法[J].城市交通,2005,3(4):73-76. DAI Xiao, Chen Xuewu. The Method of Intelligent Card Data Analysis for One Public Transportation Route[J]. Urban Transport of China,2005,3(4):73-76.

[5] 劉穎杰,靳文舟,康凱.基于IC信息和概率理論的公交OD反推方法[J].公路與汽運(yùn),2010,3:31-33. LIU Yingjie, JI Wenzhou, KANG Kai. Public Transit Origin-Destination Reverse Estimation Based on IC Information and Probability Theory[J]. Highways & Automotive Applications,2010,3:31-33.

[6] 周雪梅,楊熙宇,吳曉飛.基于IC卡信息的公交客流起止點(diǎn)反推方法[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,40(7):1027-1030. ZHOU Xuemei, YANG Xiyu, WU Xiaofei. Origin-destination Matrix Estimation Method of Public Transportation Flow Based on Data From Bus Integrated-circuit Cards [J]. Journal Of TongJi University(natural science),2012,40(7):1027-1030.

[7] 章玉.基于數(shù)據(jù)挖掘的動(dòng)態(tài)公交客流OD獲取方法研究[D].北京:北京交通大學(xué),2010:46-47. ZHANG Yu. Dynamic Public Transit Origin-Destination Estimation Based On Data Mining [D]. Beijing:Beijing Jiaotong Universit,2010:46-47.

[8] 陳紹輝,陳艷艷,賴見(jiàn)輝.基于GPS與IC卡數(shù)據(jù)的公交站點(diǎn)匹配算法[J].公路交通科技,2012, 29(5):102-108. CHEN Shaohui, CHEN Yanyan, LAI Jianhui. An Approach on Station ID and Trade Record Match Based on GPS and IC Card Data[J]. Journal of Highway and Transportation Research and Development,2012,29(5):102-108.

[9] 彭哈,韓秀華,田振中,等.公交IC卡數(shù)據(jù)處理的換乘矩陣構(gòu)造方法研究[J]. 交通與計(jì)算機(jī),2007,25(4):32-34. PENG Ha, HAN Xiuhua, TIAN Zhenzhong, et al. TransferMatrix Construction Method Based on Bus IC Card Data Processing[J]. Computer and Communications,2007,25(4):32-34.

[10] 張孜,鄒亮,朱玲湘. 基于公交IC卡的公交換乘數(shù)據(jù)獲取方法研究[J].交通信息與安全,2011,29(6):21-24. ZHANG Zhi, ZOU Liang, ZHU Lingxiang. Method to Collect Public Transportation Transfer Data of Urban Road Intersection Based on IC Card[J]. Journal of Transport Information and Safety,2011,29(6):21-24.

[11] 張聰.基于并行計(jì)算的公交車調(diào)度優(yōu)化研究[D].淮南:安徽理工大學(xué),2014:32. ZHANG Cong. Research of Bus Dispatch Optimizing Based on Parallel Computing[D]. Huainan:Anhui University,2014:32.

[12] 吳祥國(guó).基于公交IC卡和GPS數(shù)據(jù)的居民公交出行OD矩陣推導(dǎo)與應(yīng)用[D].濟(jì)南:山東大學(xué),2011:67. WU Xiangguo. Urban public transportation trip OD matrix inference and application based on bus IC card data and GPS data[D]. Jinan:Shandong University,2011:67.

[13] 毛保華,郭繼孚,陳金川,等.城市綜合交通結(jié)構(gòu)演變的實(shí)證研究[M]. 北京:人民交通出版社,2011:195:257. MAO Baohua, GUO Jifu, CHEN Jinchuan, eg. Empirical Development of Urban Transportation Structure [M]. Beijing:China Communications Press,2011:195:255.

Passenger Flow Analysis of Bus Stations on Massive Bus Card Data

CAO Yaqi1,2DING Weilong1,2

(1. Data Engineering Institute, North China University of Technology, Beijing 100144) (2. Beijing Key Laboratory on Integration and Analysis of Large-scale Stream Data, Beijing 100144)

In the public traffic business, massive and diverse bus IC card data have been generated, and it is the key point of the intelligent transport to provide quick and accurate passengers flow analysis of bus stations. In the past the study of traffic is just a simple data statistics and the accuracy is not high, as well as the parallel algorithm under the massive data size does not have the ability of horizontal extension. Aiming at this problem, through the analysis of the characteristics of huge amounts of multivariate data, a kind of clustering algorithm is developed based on the massive bus card data, the calculation of a week of data can be completed in minutes, and the calculation accuracy is improved according to the rules of the time difference and distance constraints. The computing of time-sharing traffic has a good expansibility basis on Hadoop MapReduce when the data scale is increasing, the execution time remains relatively stable in the unit data scale, and the results of the analysis has high accuracy.

bus card data, massive data, passenger flow include get on/off bus in bus station, transfer passenger flow in bus station

2016年8月11日,

2016年9月23日

北京市教育委員會(huì)科技計(jì)劃面上項(xiàng)目(編號(hào):KM2015_10009007); 北京市優(yōu)秀人才培養(yǎng)資助青年骨干個(gè)人項(xiàng)目(編號(hào):2014000020124G011)資助。

曹婭琪,女,碩士研究生,研究方向:云計(jì)算,大數(shù)據(jù)。丁維龍,男,博士,講師,研究方向:實(shí)時(shí)數(shù)據(jù)處理與分布式原理。

TP311

10.3969/j.issn.1672-9722.2017.02.011

猜你喜歡
公交站點(diǎn)刷卡客流量
合肥市高鐵南站公交線路優(yōu)化研究
世界家苑(2020年5期)2020-06-15 11:13:34
基于GIS的哈爾濱市118路公交站點(diǎn)選址優(yōu)化
基于嵌入式系統(tǒng)的商場(chǎng)客流量統(tǒng)計(jì)算法
刷卡
基于AFC數(shù)據(jù)的城軌站間客流量分布預(yù)測(cè)
成長(zhǎng)日記
對(duì)十堰市城區(qū)公交站點(diǎn)命名情況的調(diào)查與思考
刷臉就可以購(gòu)物
奧秘(2014年8期)2014-08-30 06:32:04
公交站點(diǎn)命名規(guī)則分析
從客流量推算公交出行PA矩陣的方法
衡阳县| 华容县| 新乐市| 台安县| 伊宁市| 邵阳县| 长子县| 峨边| 开化县| 水富县| 河北省| 乳山市| 措美县| 安多县| 新竹市| 策勒县| 五峰| 正定县| 张家口市| 将乐县| 土默特右旗| 伊川县| 高尔夫| 海口市| 苍山县| 大同县| 赫章县| 伊川县| 女性| 新竹县| 武平县| 邯郸县| 沐川县| 隆林| 依安县| 蒙阴县| 资中县| 沙河市| 丰原市| 新营市| 乐都县|