于泳波,侯佳
(1.南京市城市與交通規(guī)劃設(shè)計研究院股份有限公司,南京210018;2.江蘇省交通大數(shù)據(jù)與仿真平臺技術(shù)工程研究中心,南京210018)
公交優(yōu)先是城市交通發(fā)展的重要方向,準(zhǔn)確識別居民的公交出行,對公交線網(wǎng)優(yōu)化、動態(tài)調(diào)度等具有重要意義。
聯(lián)合挖掘常規(guī)公交GPS 與IC 卡數(shù)據(jù),可以獲得公交客流量信息,并可進(jìn)一步挖掘公交站間OD信息[1-3]。大部分城市公交收費為“一票制”,即只在上車刷卡,下車不需要刷卡,從而已有研究中,判斷下車站點是基于下一次乘車的上車站點,或在公交換乘地鐵的情景下,結(jié)合地鐵進(jìn)站站點,推斷最接近地鐵站點的公交站點為下車站點。前者存在難以驗證的問題,后者則因為公交與地鐵換乘的比例問題,難以獲得較高的采樣率。GPS 數(shù)據(jù)和IC 卡數(shù)據(jù)均只能反映乘客在公交系統(tǒng)內(nèi)部的信息,無法獲得乘客在公交系統(tǒng)外的出行信息。
與常規(guī)公交GPS 和IC 卡數(shù)據(jù)相比,手機(jī)信令數(shù)據(jù)可獲取用戶在任意時刻的出行信息。通過手機(jī)信令數(shù)據(jù),可以獲得居民職住分布[4]、全天出行OD[5]與路徑信息[6],并可以準(zhǔn)確識別地鐵出行。已有通過手機(jī)信令數(shù)據(jù)識別非地鐵出行方式的研究,可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類。有監(jiān)督學(xué)習(xí),在提取出行軌跡的速度、加速度等特征的基礎(chǔ)上,構(gòu)建隨機(jī)森林、支持向量機(jī)等機(jī)器學(xué)習(xí)模型,對步行、自行車、小汽車、常規(guī)公交、地鐵等出行方式進(jìn)行識別[7-8]。無監(jiān)督學(xué)習(xí),通過提取路徑的出行距離、出行速度等特征,采用聚類等方法識別出行方式[9]??傮w而言,有監(jiān)督學(xué)習(xí)的識別效果優(yōu)于無監(jiān)督學(xué)習(xí)。
本文以手機(jī)信令數(shù)據(jù)為基礎(chǔ),結(jié)合地鐵刷卡數(shù)據(jù)、公交GPS 與刷卡數(shù)據(jù)等,通過計算手機(jī)用戶出行軌跡與公交車輛GPS軌跡的相似度,識別手機(jī)用戶是否采用公交出行,并進(jìn)一步識別常規(guī)公交站間OD。與已有研究相比,本文的創(chuàng)新點包括:第一,從ID 層面融合手機(jī)信令數(shù)據(jù)與刷卡數(shù)據(jù),獲得包含百萬個樣本的大數(shù)據(jù)集作為標(biāo)定過的驗證集;第二,結(jié)合路段長度修正Levenshtein 距離,對手機(jī)用戶出行軌跡和公交車輛GPS軌跡進(jìn)行匹配,并考慮常規(guī)公交之間的換乘行為;第三,充分討論影響公交方式、公交線路、站間OD 等識別效果的影響因素,給出通過手機(jī)信令數(shù)據(jù)識別常規(guī)公交出行特征的可靠范圍。
以南京市2018年4月份移動手機(jī)信令數(shù)據(jù)為基礎(chǔ)(該數(shù)據(jù)為出現(xiàn)在南京市的全部移動手機(jī)用戶的基站軌跡,南京市移動用戶數(shù)占全部手機(jī)用戶數(shù)的60%~65%,每個用戶平均每天產(chǎn)生約300 條數(shù)據(jù)),結(jié)合相同時段內(nèi)南京市地鐵刷卡數(shù)據(jù)、常規(guī)公交刷卡數(shù)據(jù)及常規(guī)公交GPS數(shù)據(jù),通過相關(guān)數(shù)據(jù)預(yù)處理方法,得到如下幾類數(shù)據(jù)。
(1)手機(jī)用戶出行路徑數(shù)據(jù)
基于已有研究中手機(jī)信令數(shù)據(jù)的路徑匹配算法,獲得移動手機(jī)用戶出行路徑數(shù)據(jù),該數(shù)據(jù)包括脫敏后的手機(jī)用戶ID、出行時刻、出行起點基站、到達(dá)時刻、出行終點基站、出行途徑的路段序列(該序列根據(jù)時間排序,每個路段信息包括進(jìn)入該路段的時刻、路段ID信息)。
(2)手機(jī)信令數(shù)據(jù)識別出的地鐵站間OD數(shù)據(jù)
基于已有研究中通過手機(jī)信令數(shù)據(jù)識別地鐵出行的算法,獲得移動手機(jī)用戶使用地鐵出行的地鐵站間OD數(shù)據(jù),該數(shù)據(jù)包括脫敏后的手機(jī)用戶ID、進(jìn)站站點、出站站點、進(jìn)站時段、出站時段等信息。
(3)地鐵刷卡數(shù)據(jù)識別出的地鐵站間OD數(shù)據(jù)
基于地鐵刷卡數(shù)據(jù)獲得的地鐵站間OD 數(shù)據(jù)包括IC卡卡號、進(jìn)站站點、出站站點、進(jìn)站時段、出站時段等信息。
(4)常規(guī)公交車輛運行GPS路徑數(shù)據(jù)
基于已有研究中常規(guī)公交車輛GPS 的路徑匹配算法,獲得公交車輛運行的路徑數(shù)據(jù),該數(shù)據(jù)包括公交車輛ID、公交線路ID、車輛運行途徑的路段序列(該序列根據(jù)時間排序,每個路段信息包括進(jìn)入該路段的時刻、路段ID信息)。
(5)IC卡乘坐地鐵和常規(guī)公交的信息整合
該數(shù)據(jù)包括IC卡卡號、乘坐地鐵的進(jìn)站站點、出站站點、進(jìn)站時刻、出站時刻、乘坐常規(guī)公交的車輛ID、線路ID、上車站點、上車刷卡時刻等信息。
考慮換乘的常規(guī)公交出行識別,包括手機(jī)用戶與公交車輛路徑匹配、換乘識別、常規(guī)公交出行判定3個步驟。
2.1.1 手機(jī)用戶與公交車輛路徑匹配
手機(jī)用戶與公交車輛路徑匹配過程如下:
(1)為區(qū)分手機(jī)用戶信息和公交車輛信息,分別用m和b標(biāo)記相關(guān)變量。記pit,m為手機(jī)用戶i某次出行經(jīng)過的路段集合,該次出行起止時段為t;記pjt,b為公交車輛j當(dāng)天在時段t內(nèi)運行經(jīng)過的路段集合。若pit,m?pjt,b≠?,則公交車輛j與手機(jī)用戶i在t時段的出行軌跡初步匹配;否則,不匹配。
(2)針對(1)中初步匹配的pit,m和pjt,b,記pit,m和pjt,b在pit,m?pjt,b中出現(xiàn)最早時刻為ti,fm、tj,fb,最晚時刻為ti,lm、tj,lb,則定義手機(jī)用戶出行的關(guān)鍵路段集Qi,t,m為(ti,fm,ti,lm)時段內(nèi)pit,m涉及的路段,公交GPS 的關(guān)鍵路段集Qj,t,b為(tj,fb,tj,lb)時段內(nèi)pjt,b涉及的路段。
(3)基于Levenshtein 距離,將路段長度歸一化后作為權(quán)重,即將Qi,t,m和Qj,t,b變成同一個序列所需要做的改變路段長度最小的變換,計算公式為
式中:EQi,t,m,Qj,t,b為路段序列Qi,t,m和Qj,t,b的Levenshtein 距離;lα為路段序列中α元素的權(quán)重,這里指α路段的歸一化長度,lβ為路段序列中β元素的權(quán)重,這里指β路段的歸一化長度。
(4)基于(3)中的變換結(jié)果,可得路段序列Qi,t,m和Qj,t,b的Levenshtein相似度FQi,t,m,Qj,t,b為
式中:Ld,Qi,t,m為將路段序列Qi,t,m變?yōu)镼j,t,b的過程中,刪除操作集合D中第d次涉及到的路段長度;Lv,Qi,t,m為插入操作集合I中第v次涉及到的路段長度;Lr,Qi,t,m為替換操作集合R中第r次涉及到的路段長度;LQi,t,m為路段序列Qi,t,m的總長度;LQj,t,b為路段序列Qj,t,b的總長度。FQi,t,m,Qj,t,b越接近1,表明路段序列Qi,t,m和Qj,t,b的Levenshtein相似度越大。
(5)計算路段序列Qi,t,m和Qj,t,b的時間相似度HQi,t,m,Qj,t,b為
式中:tia,m為手機(jī)用戶i出行進(jìn)入a路段時刻;tja,b為公交車輛j運行進(jìn)入a路段時刻;da為公交車輛運行通過a路段所需時長。HQi,t,m,Qj,t,b越接近1,表明路段序列Qi,t,m和Qj,t,b的時間相似度越大。
(6)綜合Levenshtein 相似度和時間相似度,可得路段序列Qi,t,m和Qj,t,b的相似度GQi,t,m,Qj,t,b為
式中:λ、η分別為FQi,t,m,Qj,t,b、HQi,t,m,Qj,t,b的權(quán)重系數(shù)。當(dāng)滿足GQi,t,m,Qj,t,b >Gthd時,保留Qj,t,b對應(yīng)的車輛、公交線路及路段信息,添加到集合SQi,t,m中,SQi,t,m={(j,Uj,Qj,t,b)|GQi,t,m,Qj,t,b >Gthd} ,其中,Gthd為相似度閾值,Uj為j車輛服務(wù)的公交線路。
2.1.2 換乘識別方法
從時間維度定義換乘規(guī)則為:若集合SQi,t,m中,存在N個元素,N≤MSQi,t,m,MSQi,t,m為集合中元素個數(shù),每個Qj,t,b(j=1,2,…,N)之間時間沒有交叉,即Qj,t,b對應(yīng)的時間段(tj,fb,tj,lb)和Qj+1,t,b對應(yīng)的時間段(tj+1,fb,tj+1,lb),滿足當(dāng)tj+1,fb >tj,fb時,tj+1,fb >tj,lb,或當(dāng)tj,fb >tj+1,fb時,tj,fb >tj+1,lb。
從空間維度定義換乘規(guī)則為:若Qj,t,b對應(yīng)的最后一個站點與Qj+1,t,b對應(yīng)的第一個站點為同一個站點,則應(yīng)滿足對應(yīng)的兩條線路均經(jīng)過該站點;若不為同一個站點,則應(yīng)滿足距離不超過閾值θthd(單位,m)。
i用戶同時滿足時間和空間維度換乘規(guī)則,則認(rèn)為其本次出行中使用了常規(guī)公交,且換乘過N-1次。
將集合中車輛等相關(guān)信息根據(jù)上述換乘規(guī)則分組,分組步驟如下:
(1)記一次出行中最多換乘次數(shù)為τthd,對集合中全部元素做τthd+1 次組合,每次每組元素個數(shù)為c,c=1,2,…,τthd+1,得到個組合結(jié)果。
(2)檢查每組組內(nèi)元素是否同時滿足時間和空間維度的換乘規(guī)則。若不滿足,則刪除改組;否則,保留。
(3)針對(2)中保留的多組元素,根據(jù)每組元素對應(yīng)的時長總和,即∑tj,lb-tj,fb,進(jìn)行降序排列。
(4)保留(3)中第1 組元素,從第2 組開始檢查。若當(dāng)前檢查組內(nèi)存在元素在保留的組中出現(xiàn)過,則刪除當(dāng)前組;否則,保留當(dāng)前組,并繼續(xù)檢查,直至所有組均執(zhí)行完檢查。以此保證保留的CN,surplus組元素之間不存在相同的元素,記CN,surplus組組合構(gòu)成的集合為Sit,C,該集合每個元素均為長度不超過τthd+1的原SQi,t,m中的元素組合。
2.1.3 常規(guī)公交出行判定
記δ為Sit,C中某個組合各子元素Qj,t,b對應(yīng)的手機(jī)路徑Qi,t,m長度之和占手機(jī)用戶i在t時段出行的路徑長度比例,即
保留Sit,C中滿足δ >δthd的元素,其中,δthd為路徑長度比例閾值。若根據(jù)該條件過濾后的集合Sit,CF為空,則手機(jī)用戶i在t時段出行沒有使用常規(guī)公交;否則,使用了常規(guī)公交,且選擇每種公交組合的概率為
式中:P(k)為手機(jī)用戶i在t時段出行選擇公交組合k的概率,k是集合Sit,CF的元素;δk為k對應(yīng)的出行路徑長度占比;kall為集合Sit,CF的長度。
公交站客流特征受土地利用因素影響[10],假設(shè)一輛車經(jīng)過的一個路段上有多個站點,手機(jī)用戶在該路段上車或下車,則選擇站點上下車的概率與站點周邊用地屬性、所處時段相關(guān)。
將全天分為3 個時間段,分別為早高峰、晚高峰、其他時段?;谝延醒芯砍晒绺叻鍟r段公交站點上車客流量與站點周邊居住用地規(guī)模正相關(guān),下車客流量與站點周邊崗位相關(guān)用地規(guī)模正相關(guān);晚高峰時段,崗位數(shù)較多的區(qū)域,公交站點上客量相對越多,但下車客流量與用地特征并無明顯相關(guān)關(guān)系。對于商業(yè)、娛樂等用地,人越多,相應(yīng)公交站被選擇的可能性越大,不同時段選擇公交站的影響因素如表1所示。
表1 站點上下車選擇影響因素Table 1 Factors influencing choice of boarding and alighting at stops
站點300 m 范圍覆蓋居住人口、崗位、停留人數(shù),是以站點為圓心,300 m 為半徑的圓形區(qū)域內(nèi)涉及到的相關(guān)手機(jī)用戶數(shù)。若站點周邊無居住或崗位,則以停留人數(shù)代替。以不同時段公交站點對應(yīng)的相應(yīng)手機(jī)用戶數(shù)占比為站點被選擇的概率,則手機(jī)用戶i在t時段出行,乘坐j車輛經(jīng)過對應(yīng)線路Uj的站間OD (Δks,ls,Δke,le)的概率P(t,j,Uj,Δks,ls,Δke,le)為
式中:ls為i用戶乘坐j車輛時經(jīng)過的第一個路段;le為經(jīng)過的最后一個路段;Kls為j車輛服務(wù)線路在ls路段的站點數(shù);Kle為該線路在le路段的站點數(shù);Δks,ls為j車輛服務(wù)線路在ls路段的第ks個站點;Δke,le為j車輛服務(wù)線路在le路段的第ke個站點;T1為早高峰時段;T2為晚高峰時段;T3為其他時段;Zks,ls為Δks,ls周邊300 m 覆蓋的居住人口數(shù);Wks,ls為崗位數(shù);Yks,ls為停留人數(shù)同時段歷史平均值;Wke,le為崗位數(shù);Yke,le為停留人數(shù)同時段歷史平均值。
3.1.1 驗證集獲取方法
手機(jī)信令數(shù)據(jù)在地鐵出行識別中精度較高,而公交IC 卡既有地鐵刷卡記錄,又有常規(guī)公交刷卡記錄,故以地鐵出行識別為紐帶,從ID層面匹配手機(jī)用戶和IC卡卡號是獲得相對較大樣本數(shù)據(jù)集的一種途徑。匹配過程如圖1所示。
圖1 驗證集數(shù)據(jù)獲取流程Fig.1 Verification data acquisition process
地鐵刷卡記錄與常規(guī)公交刷卡記錄根據(jù)IC卡號進(jìn)行融合,常規(guī)公交刷卡數(shù)據(jù)與GPS數(shù)據(jù)根據(jù)刷卡時刻與車輛時刻進(jìn)行匹配,以此獲得上車站點和對應(yīng)時間信息,已有研究較多,不再贅述。僅針對手機(jī)信令數(shù)據(jù)與地鐵刷卡數(shù)據(jù)通過識別出的站間OD,以進(jìn)行手機(jī)用戶ID 與IC 卡號匹配方法做描述,匹配過程如下:
(1)基于手機(jī)信令數(shù)據(jù)識別地鐵出行的站間OD信息,得到以進(jìn)站站點、出站站點、進(jìn)站時段、出站時段為鍵,多個手機(jī)ID 組成的集合為值的鍵值對結(jié)果。
(2)基于地鐵刷卡數(shù)據(jù),同樣得到以進(jìn)站站點、出站站點、進(jìn)站時段、出站時段為鍵,多個IC 卡號組成的集合為值的鍵值對結(jié)果。
(3)記相同鍵key 對應(yīng)的手機(jī)ID 集合為Vkey,m,IC卡號集合為Vkey,IC,vi,m為乘坐過地鐵的手機(jī)用戶i的ID,vj,IC為刷卡進(jìn)出地鐵的IC 卡j的卡號,若vi,m∈Vkey,m且vj,IC∈Vkey,IC,表示手機(jī)用戶i與IC卡j同時出現(xiàn)過。記鍵數(shù)閾值為μthd,如果vi,m與vj,IC同時出現(xiàn)的次數(shù)超過μthd,且滿足條件概率P(vj,IC|vi,m)=P(vi,m|vj,IC)=1,則認(rèn)為vi,m與vj,IC唯一匹配。
在上述過程的基礎(chǔ)上,μthd取5,將vi,m對應(yīng)的vj,IC乘坐常規(guī)公交的信息根據(jù)時間融入手機(jī)用戶出行信息中,即可得到包含45.66 萬手機(jī)用戶,2010379 個常規(guī)公交出行樣本,3521356 個非地鐵非常規(guī)公交出行樣本的數(shù)據(jù)集。
3.1.2 公交出行方式識別結(jié)果
取λ=0.5 ,η=0.5 ,Gthd=0.75 ,θthd=100 ,τthd=1,δthd=0.8,使用3.1.1節(jié)獲得的數(shù)據(jù)集驗證一次出行是否使用常規(guī)公交,混淆矩陣如表2所示。
表2 常規(guī)公交出行識別混淆矩陣Table 2 Confusion matrix of bus trip mode identification
常規(guī)公交出行方式識別精確率為0.807,召回率為0.912,識別效果較好。
3.1.3 公交換乘識別結(jié)果
常規(guī)公交換乘識別的混淆矩陣如表3所示。常規(guī)公交換乘識別精確率為0.660,召回率為0.756。其中,換乘1 次的樣本數(shù)為387454,占有換乘行為的87.6%,其被準(zhǔn)確識別出有換乘行為的占該樣本數(shù)的73.7%;超過一次換乘的樣本數(shù)占12.4%,被準(zhǔn)確識別出有換乘行為的占比為89.0%。
表3 常規(guī)公交換乘識別混淆矩陣Table 3 Confusion matrix of bus transfer identification
3.1.4 公交線路與站間OD識別準(zhǔn)確率
常規(guī)公交線路識別的準(zhǔn)確率用識別出的公交線路與實際乘坐的公交線路對比,若兩者一致,則線路識別準(zhǔn)確,否則不準(zhǔn)確。根據(jù)3.1.2 節(jié)實際采用常規(guī)公交且識別為常規(guī)公交的1832599 個樣本進(jìn)行分析,得出公交線路識別準(zhǔn)確率為75.5%。
站間OD 識別準(zhǔn)確率采用原樣本中使用IC 卡先乘坐常規(guī)公交、后換乘地鐵的樣本,認(rèn)為乘坐常規(guī)公交的下車站點是該線路最接近地鐵站點的,樣本數(shù)為484113,識別出常規(guī)公交出行且上車站點識別準(zhǔn)確的樣本數(shù)為402851,準(zhǔn)確率為83.2%,下車站點識別準(zhǔn)確率為79.7%,OD 識別準(zhǔn)確率為71.9%。
3.2.1 相似度權(quán)重影響
在保證λ+η=1 的條件下,分析λ和η取值對常規(guī)公交站間OD 識別結(jié)果的影響,如圖2所示。其他參數(shù)取值為Gthd=0.75 ,θthd=100 ,τthd=1,δthd=0.8。
Levenshtein 相似度反映了路段空間上的相似特征,時間相似度反映了時間上的相似程度,由圖2可知,只有賦予Levenshtein相似度和時間相似度相近的權(quán)重,站間OD識別準(zhǔn)確率才能達(dá)到最高。
圖2 相似度權(quán)重對站間OD識別結(jié)果的影響Fig.2 Influence of similarity weight on stop od recognition
3.2.2 參數(shù)閾值影響
保持λ=0.5 ,η=0.5 ,θthd=100 ,τthd=1 ,δthd=0.8 不變,改變Gthd的取值,分析常規(guī)公交站間OD識別效果變化,如圖3所示。
圖3 相似度閾值對站間OD識別結(jié)果的影響Fig.3 Influence of similarity threshold on stop OD recognition
由圖3可知,隨著Gthd取值減小,站間OD 識別準(zhǔn)確率提高,但應(yīng)該注意的是,此時站間OD 只是采用包含484113 個與地鐵換乘的樣本計算的,而隨著Gthd的變化,公交出行方式識別的精確率、召回率變化情況如圖4所示。
圖4 相似度閾值對常規(guī)公交方式識別結(jié)果的影響Fig.4 Influence of similarity threshold on bus trip-mode recognition
隨著Gthd增大,公交出行方式識別的精確率提高,但召回率逐漸降低。綜合上述分析,Gthd取值在0.7~0.8之間為宜。
保持λ=0.5 ,η=0.5 ,Gthd=0.75 ,θthd=100 ,τthd=1 不變,改變δthd的取值,分析常規(guī)公交站間OD識別效果的變化,如圖5和圖6所示。
圖5 公交路徑長度占比閾值對站間OD識別結(jié)果的影響Fig.5 Influence of bus path length proportion in trip distance threshold on stop od recognition
圖6 公交路徑長度占比閾值對常規(guī)公交方式識別結(jié)果的影響Fig.6 Influence of bus path length proportion in trip distance threshold on bus trip-mode recognition
與Gthd取值變化相似,隨著δthd增大,站間OD識別準(zhǔn)確率呈下降趨勢,公交出行方式識別的精確率逐漸提高,召回率逐漸降低。δthd的取值在0.65~0.85之間為宜。
考慮到數(shù)據(jù)集中換乘1次的比例占全部換乘行為的87.6%,故不對θthd和τthd深入分析,θthd和τthd的取值應(yīng)根據(jù)數(shù)據(jù)情況或城市公交換乘習(xí)慣而定。
3.2.3 出行距離影響
將手機(jī)用戶出行距離按照<2 km、[2, 4)km、[4, 6)km、[6, 8)km、[8, 10)km、≥10 km 分為6 類,分別得到每類距離下,常規(guī)公交方式識別、換乘行為識別、公交線路識別準(zhǔn)確率、站間OD 識別準(zhǔn)確率,結(jié)果如圖7~圖9所示。
圖7 出行距離對常規(guī)公交方式識別結(jié)果的影響Fig.7 Influence of trip distance on bus trip-mode recognition
出行距離超過6 km 時,常規(guī)公交出行識別效果較好,且隨著出行距離的增大,精確率與召回率均呈現(xiàn)上升趨勢。出行距離在4 km以內(nèi)的識別效果最差,可能是因為這個距離內(nèi)包含大量自行車、電動車出行,其出行路徑、速度特征均與常規(guī)公交相似,因而難以準(zhǔn)確識別。
圖8 出行距離對常規(guī)公交換乘識別結(jié)果的影響Fig.8 Influence of trip distance on bus transfer identification
由于樣本數(shù)據(jù)集中,出行距離在2 km 以內(nèi)的無換乘行為,故其精確率和召回率均為0。隨著出行距離增加,常規(guī)公交換乘識別的精確率和召回率均呈現(xiàn)上升趨勢。
圖9 出行距離對常規(guī)公交線路和站間OD識別結(jié)果的影響Fig.9 Influence of trip distance on bus line and stop OD identification
公交線路與站間OD 識別的準(zhǔn)確率與出行距離呈正相關(guān)關(guān)系,出行距離越長,經(jīng)過相同路段的其他公交線路對識別的影響越小,從而準(zhǔn)確率越高。
3.2.4 路段公交線路重復(fù)系數(shù)影響
路段公交線路重復(fù)系數(shù),以路段經(jīng)過的公交線路數(shù)衡量。經(jīng)過的線路數(shù)會直接影響公交線路識別準(zhǔn)確率,進(jìn)而影響站間OD識別的準(zhǔn)確率。對于手機(jī)用戶i在t時段出行經(jīng)過的路段集合pit,m,計算集合中每個路段經(jīng)過的公交線路數(shù)的期望值,并四舍五入取整,以此作為用戶本次出行的公交線路重復(fù)系數(shù)值。該參數(shù)對公交線路和站間OD 識別準(zhǔn)確率的影響如圖10所示。
圖10 重復(fù)系數(shù)對常規(guī)公交線路和站間OD識別結(jié)果的影響Fig.10 Influence of repetition factor on bus line and stop OD identification
公交線路與站間OD 識別的準(zhǔn)確率與重復(fù)系數(shù)呈負(fù)相關(guān)關(guān)系,重復(fù)系數(shù)越大,經(jīng)過相同路段的其他公交線路對識別的影響越大,從而準(zhǔn)確率越低。若出行距離較短,且經(jīng)過路段的公交重復(fù)系數(shù)較高,則公交線路與站間OD 識別的準(zhǔn)確率僅為50%~60%。
本文得到主要結(jié)論如下。
(1)本文提出的基于手機(jī)信令數(shù)據(jù)識別常規(guī)公交出行與站間OD的方法,在驗證集中的識別效果表明:在合適的參數(shù)下,常規(guī)公交出行方式識別精確率可達(dá)0.807,召回率0.912,換乘識別精確率0.660,召回率0.756,公交線路識別準(zhǔn)確率75.5%,站間OD 識別準(zhǔn)確率71.9%,這說明本文方法識別效果較好,可應(yīng)用于工程實踐。
(2)對出行距離、公交線路重復(fù)系數(shù)等因素的分析表明:出行距離越長、公交線路重復(fù)系數(shù)越低,公交線路與站間OD識別準(zhǔn)確率越高;本文方法對出行距離在6 km以上、平均公交路段重復(fù)系數(shù)4以下的識別效果最佳。