国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于電子支付數(shù)據(jù)的公交車廂滿載率實時估算方法

2021-02-27 08:13韋清波蘇躍江高媛楊敬鋒莫竣杰
關鍵詞:客流量車廂站點

韋清波,蘇躍江,高媛,楊敬鋒,莫竣杰

(1. 廣州市公共交通數(shù)據(jù)管理中心,廣州510620;2.華南理工大學,土木與交通學院,廣州510641;3.廣州市交通運輸研究所,廣州510627;4.中山大學,廣州510275)

0 引言

公交車廂滿載率是指實際載客量與車廂額定載客量的比值[1],反映車輛內(nèi)擁擠水平,是直接關系市民出行服務的指標之一。準確掌握車廂滿載率是做好公交運營管理的重要前提,特別是“新冠肺炎”疫情期間,及時發(fā)現(xiàn)滿載率過高的班次和站段等,可為公交企業(yè)優(yōu)化調(diào)度提供有力數(shù)據(jù)支撐,降低車廂人群聚集風險。

隨著公交信息化發(fā)展,公交滿載率研究也逐漸增多,主要有3種方法:一是人工抽樣調(diào)查方法,在成本、時效性、連續(xù)性等方面均存在不足;二是基于視頻圖像分析[2]或者射頻、紅外等檢測設備的方法,但需較大軟硬件投入;三是基于公交大數(shù)據(jù)挖掘分析,針對公交“一票制”下車不刷卡情況下乘客的多天連續(xù)跟蹤監(jiān)測[3],離線推斷下車站點、斷面客流量等。如胡繼華[4-5]等提出擬合投幣乘客出行軌跡,并推斷公交斷面客流;馬超群[6]等結合土地利用和人口密度利用IC 卡信息推斷客流量,但是較多模型的時效性難以滿足實時監(jiān)測、實時公交調(diào)度需求。

為此,本文從兼顧效率和準確性等角度,提出基于數(shù)據(jù)驅(qū)動的公交乘客實時OD估計方法,進而結合車輛調(diào)度數(shù)據(jù)、車輛屬性數(shù)據(jù)實現(xiàn)車廂滿載率的實時計算。

1 總體技術路線

隨著國內(nèi)公交信息化的快速發(fā)展,車輛位置、發(fā)班調(diào)度等數(shù)據(jù)基本實現(xiàn)實時自動采集,形成規(guī)模體系。且隨著新型支付興起,公交客流自動采集的范圍和時效均大幅提升,如廣州實現(xiàn)了電子支付(卡、碼)數(shù)據(jù)的實時回傳,占比超90%。為研究數(shù)據(jù)驅(qū)動、實時車廂滿載率估算模型提供了可行條件。

1.1 數(shù)據(jù)基礎

數(shù)據(jù)主要來源于公交及地鐵電子支付數(shù)據(jù)、車輛運營數(shù)據(jù)、線路屬性及其他數(shù)據(jù)等,如表1所示。

表1 基礎數(shù)據(jù)內(nèi)容Table 1 Basic data

1.2 技術路線

本質(zhì)上,公交車廂滿載率由“車載乘客量”決定。首先在上車刷卡(碼)時即推斷出所有“已上車乘客”的上下站信息(時間、站點等),并匹配車輛發(fā)班、報站信息得到當前公交車在已駛過站點的上下車人數(shù),進而計算當前車載乘客量,最后根據(jù)核載轉化為車廂滿載率。主要步驟(圖1)有:上車站點匹配、下車站點推斷和車廂滿載率計算等。

2 滿載率實時估算模型

2.1 上車站點匹配

圖2為上車站點匹配模型,主要依托公交車載終端實時回傳的電子支付、公交報站數(shù)據(jù),對支付時間和報站時間進行比對,以距支付時刻最近的報站記錄(15 min內(nèi))所對應公交站點為上車站點。

圖1 技術路線Fig.1 Algorithm process

圖2 上車站點匹配模型Fig.2 Model of boarding station matching

2.2 下車站點實時估計

實時運算需兼顧效率和準確度,本文構建乘客出行歷史庫,采用“K 近鄰+出行小區(qū)估計+先驗概率分配”組合模型推斷下車站點,如圖3所示,分別對應模型第1至第3層,不同層級之間按照“可推則盡推”原則耦合。

圖3 下車站點組合預測模型Fig.3 Portfolio model of drop-off station estimation

2.2.1 基于K近鄰的實時乘客OD預測

定義公交乘客出行狀態(tài)向量為“每一位乘客歷史出行過的公交線路、上車站點、時間及對應下車站點、出行頻率”。對每一次完整出行記錄進行歸類,形成“歷史狀態(tài)向量庫”。在下車站點實時預測時,根據(jù)當前出行線路、上車站點、時間等對“歷史狀態(tài)向量庫”快速搜索,搜索出最相似的K個歷史向量(“鄰居”),再根據(jù)“鄰居”推斷下車站點。

(1)狀態(tài)向量

狀態(tài)向量由輸入、輸出向量組成,如圖4所示。其中,輸出向量即被預測目標——下車站點,輸入向量則為影響“下車站點”的各種要素組合。根據(jù)各要素對目標的影響程度,選取身份標識(卡/碼ID)、線路、乘向(上、下行)、上車站點及區(qū)域、時間作為輸入向量,輸出向量為下車站點及區(qū)域、出行頻次。

式中:P為狀態(tài)向量;c為卡/碼ID號;l為線路號;d為乘向;us為上車站點;ua為上車區(qū)域;w為工作日,根據(jù)廣州交通在非工作日、周一、周五、其他工作日的不同出行模式,分別用1、3、5 表示周一、二~四、五,用10表示非工作日以使得“非工作日與工作日的差異”大于“不同工作日之間差異”;t為刷卡所在小時;ds為下車站點;da為下車區(qū)域;v為出行頻率。

理論上“歷史狀態(tài)向量庫”時間跨度越大,存儲數(shù)據(jù)越多,找到“鄰居”概率增大,預測精度就越高,但運算效率也相應降低。狀態(tài)向量庫的大小建議由刷卡量規(guī)模、出行頻率及運算硬件性能等綜合確定。

(2)距離計算

距離用于判定“歷史狀態(tài)向量”與“被預測向量”的相似度,距離越小越可能成為鄰居。由于狀態(tài)向量中部分要素無法數(shù)值化,如卡號、線路號、上車站點等,對于該類要素需全字匹配后方可作為鄰居;而對于可數(shù)值化的工作日、時間、乘向、頻率等要素的距離計算,選取最常用的歐氏距離法,具體公式為

式中:Pf為被預測狀態(tài)向量,Pf=(wf,tf,df,vf);Pi為歷史狀態(tài)向量,Pi=(wi,ti,di,vi);wf、tf、df、vf分別為預測向量的工作日、上車時間、乘向和頻率;wi、ti、di、vi分別為歷史向量i的工作日、上車時間、乘向和頻率。

圖4 狀態(tài)向量Fig.4 State vector

(3)下車站點推斷

根據(jù)式(1)計算“被預測向量”與各鄰居的距離,從小到大排序篩選出距離最小的K個鄰居,則以K個鄰居里總頻率最高的下車站點作為估算結果。

(4)狀態(tài)向量庫生成

“歷史狀態(tài)向量庫”是K 近鄰模型的運算基礎,其中各向量的下車站點準確性將直接決定預測結果精度。由于歷史庫可離線生成,針對“一票制”乘車,可采取“基于乘客出行時空分布的下車站點離線推斷方法”構建狀態(tài)向量。其基本原理是:在公共交通出行鏈閉合(乘客出行均為公交或地鐵出行)假設前提下,利用后次上車站點信息離線推斷公交乘客本次出行的下車站點。第一,定義乘客“本次可能下車站點集D”,即所乘坐線路所有下游站點集合;第二,定義乘客的“后次上車站點集合O”,即后次上車站點及其周邊(0.5~1.0 km半徑內(nèi))站點集合;第三,若O?D=Q≠?,則以Q中距離后次上車站點最近的站為本次下車站點,如圖5中“站x”。

經(jīng)測試,離線下車站點的推斷準確率達60%~80%,準確性較高,可為“歷史狀態(tài)向量庫”提供充足、準確的出行記錄。

圖5 離線推斷乘客下車站點Fig.5 Estimating drop-off station based on next trip

2.2.2 基于出行小區(qū)的下車站點推斷

根據(jù)式(2),K 近鄰模型的鄰居必須在“線路號”“上車站點”等要素上與“被預測向量”完全一致,但實際結果顯示(見3.1 節(jié))乘客選擇固定“線路+站點”出行并不普遍,如果絕對采用“線路站點”來評判,可能導致較多潛在“鄰居”無法使用,降低可推斷率。如下列幾種潛在“鄰居”:線路相同上車站點不同但與當前上車區(qū)域一致,線路不同但上車站點一致,線路不同但上車區(qū)域一致,如圖6所示。

為有效提升推斷率和數(shù)據(jù)利用率,需在更大空間粒度(如“小區(qū)級”)下推斷下車站點。提出“基于公交小區(qū)的下車站點推斷方法”,即根據(jù)乘客歷史出行熱門區(qū)域推斷下車站點。

首先,按照土地利用、經(jīng)濟社會特性、行政區(qū)劃、干道分割等原則將公交線網(wǎng)劃分交通小區(qū),廣州市域可分為184個公交小區(qū),并利用地圖匹配技術得到各公交站點所在區(qū)域。

其次,獲取K近鄰模型中未推斷到下車站點的記錄,假定任意一個記錄的卡號為ci、乘車線路li、上車站點usi、上車小區(qū)uai,從“歷史狀態(tài)向量庫”中找出卡號等于ci且上車小區(qū)等于uai的所有狀態(tài)向量,進而得到熱門下車交通小區(qū)集合A={da1,da2,…,daj} 及各小區(qū)出行頻率。

再次,根據(jù)線路屬性獲取線路li在站點usi的下游站點集合D={si+1,si+2,…,si+j} 及下游交通小區(qū)集合S={ai+1,ai+2,…,ai+j} 。當A?S=G≠?時,以G中頻率最高的那個小區(qū)為乘客ci本次下車小區(qū)dai。

最后,以下游站點D={si+1,si+2,…,si+j} 中交通小區(qū)等于dai的第一站點作為本次出行的下車站點。

圖6 基于小區(qū)的下車站點推斷Fig.6 Estimating drop-off station based on traffic district

2.2.3 基于下游站點歷史下車客流量分布的隨機分配

當以上兩種方法均無法推斷下車站點時,說明該乘客屬于偶發(fā)出行型,為保證結果完整性,可根據(jù)下游站點的歷史“交通吸引度”,即下車客流量占比進行隨機分配。主要是基于“下車站點客流流量越大,到達概率越高”的假設,按照先驗概率推斷乘客下車站點。

首先,以“小時”為單位,統(tǒng)計各線路、站點在全天不同時間點的下車客流量,得到“站點下車客流量歷史庫”。

其次,獲取未推斷出下車站點的記錄,假定其任意一個記錄卡號為ci、線路li、上車站點usi,從“站點下車客流量歷史庫”獲取當前時點t、當前線路li在usi下游站點下車客流量信息N={Ni+1,Ni+2,…,Ni+j} 和下游站點集合D={si+1,si+2,…,si+j} 。計算各站點下車客流量占比為

式中:?x為線路li在站點usi下游站點x的下車客流量占比。

最后,按照“客流量占比越大出行概率越高”的原則,利用“輪盤賭”算法隨機推斷本次出行的下車站點。

2.3 車廂實時滿載率計算

總體上,上述組合模型可在乘客上車刷卡(碼)時推斷出其上、下車站點。在此基礎上,結合車輛運營數(shù)據(jù)得到公交車在已駛過各站點的上、下車客流量,進而根據(jù)車輛核載計算車廂實時滿載率。計算公式為

式中:Eload為當前車廂滿載率;n為本趟公交車從首發(fā)站出發(fā)已駛過的站點數(shù);EupNumj為本趟公交車在站點j的上車客流量;EdownNumj為本趟公交車在站點j的下車客流量;R為擴樣比例,由電子支付比例等確定;C為車輛核載。

3 算例

根據(jù)上述算法,本文開發(fā)了“廣州公交運行分析系統(tǒng)”,自2020年3月起實現(xiàn)滿載率等指標的實時監(jiān)測。以廣州2020年5月-7月各一周數(shù)據(jù)構建“歷史狀態(tài)向量庫”,得到657.3 萬張卡/碼的5166.8萬個狀態(tài)向量,并用8月18日429.2 萬人次出行記錄實時計算驗證。運算過程中,為進一步保障實時效率,采用分布式存儲和分布式計算不同車輛不同卡的出行鏈信息,按照尾號分類將“歷史狀態(tài)向量庫”細分為10個子庫,每個子庫僅含約65萬張卡的記錄。

3.1 數(shù)據(jù)基本情況

分析一周(2020年7月20日-26日)數(shù)據(jù)基本情況,如圖7所示,廣州一周刷卡(碼,下同)量約為2813.2萬次,刷卡張數(shù)528.2萬張,周平均刷卡次數(shù)5.3 次·(卡·周)-1。從周出行次數(shù)分布情況看,超過1/2(52.0%)卡的周出行次數(shù)在3 次以內(nèi),僅占出行量17.0%,屬于偶發(fā)出行;而周出行次數(shù)超過8次的卡為114.2 萬張,僅占21.6%,卻貢獻55.5%的出行量,以通勤出行居多,具有明顯規(guī)律性。另外,基于離線模型成功推斷出下車站點的出行為1954.0 萬人次,占總刷卡量69.5%,這將是構建“歷史狀態(tài)向量庫”的根本。

圖7 公交乘客一周出行次數(shù)分布Fig.7 Distribution of weekly trip times of bus passengers

就同一乘客群而言,重復出行頻率越高,其規(guī)律性越強,下車站點推斷概率就越大。圖8列出了不同時間、空間粒度下周重復出行頻率為1~4 次、≥5 次的人群占比。從一周情況看,偶發(fā)性出行占主體,高頻出行人群隨劃分顆粒度增大而增多。若完全按照2.2.1節(jié)中K近鄰狀態(tài)向量(線路、站點)粒度,頻率大于1 次的出行僅占17%,每天在固定線路和站點上、下車的人群并不多,可見若僅用K 近鄰模型,會有較多出行因找不到“鄰居”而無法推斷下車站點。而按出行小區(qū)劃分時,頻率大于1次的出行比例升至31%,規(guī)律性明顯增強。為此,要提升下車站點推斷率,有必要在更大顆粒度去搜索潛在“鄰居”?!盎诔鲂行^(qū)估計”算法的時間復雜度為O(n2),通過分布式計算等,其單次平均搜索時間為1.26 ms,最大933 ms,計算時耗未見明顯增加。

圖8 不同顆粒度下周重復出行次數(shù)分布Fig.8 Distribution of repeated trips with different particle size

3.2 準確性分析

隨機跟車抽查了2020年8月18日262 路、521路和527路等線路在不同班次、不同時段的車載人數(shù),并與實時推斷結果比較,如表2、圖9和圖10 所示。根據(jù)實測結果,各班次不同站段的車廂滿載率與實際滿載率基本吻合,能夠反映公交運行過程中車廂擁擠水平變化;幾個班次的斷面平均車載人數(shù)的平均相對誤差小于11%,部分班次誤差僅為2%~3%,平均滿載率的誤差小于3 個百分點,可為后續(xù)日常監(jiān)測及調(diào)度提供有效數(shù)據(jù)支撐。

表2 車廂滿載率實時推斷結果Table 2 Estimating bus load rate in real time

3.3 子模型耦合

統(tǒng)計各子模型的應用情況,“K 近鄰模型”“出行小區(qū)估計”“先驗概率分配”的推斷數(shù)據(jù)占比分別為47%、21%和32%。3種算法相輔相成有機組合,有效提升了單一算法的推斷率。

圖9 521路某一班次實時推斷結果Fig.9 Estimating result of line-521

圖10 262路某一班次實時推斷結果Fig.10 Estimating result of line-262

4 結論

本文構建公交大數(shù)據(jù)驅(qū)動的“K 近鄰+出行小區(qū)估計+先驗概率分配”組合模型,實時推斷所有電子支付乘客的出行OD,實現(xiàn)“一票制”支付情況下公交車廂滿載率實時計算。提出了以K 近鄰為核心的實時推斷下車站點方法;并針對K近鄰模型推斷率過低等問題(僅占47%),研究了在更大空間維度分析乘客出行規(guī)律并推斷下車站點,有效提升對歷史數(shù)據(jù)的利用率和下車站點的推斷率(增加約21個百分點);此外,針對偶發(fā)型乘客缺少歷史規(guī)律數(shù)據(jù)的情況,充分利用站點下車客流量先驗概率隨機分配,實現(xiàn)電子支付乘客OD的全樣本推斷。抽樣驗證表明,所推斷的單班次平均滿載率誤差在3個百分點以內(nèi),平均車載人數(shù)的誤差小于11%。掌握實時車廂滿載率,有助于公交管理部門深入了解每趟公交班次、每個公交斷面的車廂擁擠度,為實時公交運營監(jiān)測及調(diào)度優(yōu)化提供決策輔助。

猜你喜歡
客流量車廂站點
六號車廂
基于Web站點的SQL注入分析與防范
2017~2018年冬季西北地區(qū)某站點流感流行特征分析
基于嵌入式系統(tǒng)的商場客流量統(tǒng)計算法
首屆歐洲自行車共享站點協(xié)商會召開
怕被人認出
SSAB Hardox悍達450材料輕型自卸車廂體測試報告
基于AFC數(shù)據(jù)的城軌站間客流量分布預測
QMI汽車夏季維護:雨季車廂除異味
從客流量推算公交出行PA矩陣的方法