胡 松,楊 貝,翁劍成,王海鵬,常 征
(1.交通運(yùn)輸部公路科學(xué)研究所,北京 100088; 2.中路公科(北京)咨詢有限公司,北京 100088;3.北京工業(yè)大學(xué) 北京市交通工程重點(diǎn)實(shí)驗(yàn)室,北京 100124)
隨著國家及各地政府對(duì)于城市公共交通系統(tǒng)建設(shè)的大力支持及推動(dòng),尤其是2018年國家公交都市建設(shè)示范城市的評(píng)估驗(yàn)收,各大城市居民的交通出行模式與結(jié)構(gòu)也逐漸發(fā)生了變化.如何探究出行者的公共交通出行行為機(jī)理與特征,有利于為未來提高公共交通服務(wù)及出行率.并且,隨著智能交通技術(shù)等的廣泛應(yīng)用,交通領(lǐng)域的數(shù)據(jù)資源得到了極大的豐富,結(jié)合交通智能海量數(shù)據(jù)開展公共交通出行行為研究具有重大意義.
近些年,國內(nèi)外許多專家學(xué)者在多源交通大數(shù)據(jù)的環(huán)境下對(duì)公共交通使用行為方面進(jìn)行了大量研究.孫世超等[1]利用上海市通勤人群公交使用情況問卷調(diào)查數(shù)據(jù),結(jié)合營銷學(xué)領(lǐng)域中的RFM模型對(duì)乘客的態(tài)度和行為忠誠度進(jìn)行劃分,并得出約1/3 高頻率出行者有向其他方式轉(zhuǎn)移的風(fēng)險(xiǎn).Ma等[2]基于北京市IC和AFC卡的刷卡數(shù)據(jù)匯集個(gè)體出行鏈,并應(yīng)用基于DBSCAN算法對(duì)出行鏈進(jìn)行分析,并結(jié)合Kmeans++聚類算法和粗糙集理論對(duì)個(gè)體的出行特征進(jìn)行聚類和分類.梁泉等[3]利用北京市公共交通刷卡和線站數(shù)據(jù),結(jié)合個(gè)體出行知識(shí)圖譜構(gòu)建了BP神經(jīng)元網(wǎng)絡(luò)乘客分類模型,并利用案例驗(yàn)證了算法的準(zhǔn)確性.Zhang等[4]利用人際距離學(xué)提出了基于規(guī)則的群體出行行為劃分規(guī)方法,并利用北京市交通刷卡大數(shù)據(jù)開展案例分析,驗(yàn)證了規(guī)則算法的有效性與局限性.Cui等[5]利用深圳1個(gè)月的智能卡交易數(shù)據(jù),提出了1種基于周登機(jī)頻率的用戶分類方法,并利用案例對(duì)模型的有效性進(jìn)行了驗(yàn)證.
通過以上分析可知,現(xiàn)有研究多是采用客觀的智能卡交易數(shù)據(jù)開展研究,缺乏對(duì)個(gè)體社會(huì)經(jīng)濟(jì)屬性的關(guān)聯(lián)剖析.或者對(duì)于公共交通使用情況的分析不夠聚焦.因此,本文以大型城市北京為研究背景,結(jié)合主觀調(diào)查問卷數(shù)據(jù)和客觀智能卡刷卡數(shù)據(jù)提取通勤者的出行鏈信息,并從公共交通使用行為角度構(gòu)建人群聚類模型,進(jìn)而揭示通勤者的公共交通使用行為特征,為未來有針對(duì)性地改善公共交通服務(wù)水平及提高其分擔(dān)率奠定基礎(chǔ).
RP(revealed preference)調(diào)查可獲取出行者主觀的歷史出行行為信息,為進(jìn)一步研究大型都市公共交通通勤個(gè)體及群體的出行行為,本研究以具有“國家公交都市建設(shè)示范城市”之稱的北京市作為調(diào)查城市.
2018年9月于北京實(shí)施個(gè)體出行調(diào)查,并采用線上線下相結(jié)合的調(diào)查方式.其中,線下調(diào)查的日維度時(shí)間覆蓋早晚高峰與平峰時(shí)段,周維度時(shí)間覆蓋工作日與非工作日,空間維度覆蓋主城區(qū)內(nèi)的居住區(qū)、商業(yè)區(qū)與休閑區(qū).詳細(xì)的問卷調(diào)查設(shè)計(jì)及實(shí)施過程可參考2016年Fu和Juan的文獻(xiàn)[6].調(diào)查共收回問卷317份,通過在公共交通刷卡大數(shù)據(jù)中檢驗(yàn)主觀問卷調(diào)查獲取的卡號(hào)有效性,最終得到249份信息可匹配的問卷.部分問卷信息無法與刷卡數(shù)據(jù)匹配的主要原因?yàn)榭ㄌ?hào)信息填寫有誤與數(shù)據(jù)庫信息缺失等.為了針對(duì)研究公共交通通勤者的使用行為機(jī)理,問卷設(shè)置了出行目的題項(xiàng),選取“通勤/通學(xué)”者的問卷作為研究基礎(chǔ).
本次調(diào)查在研究相關(guān)文獻(xiàn)的基礎(chǔ)上,旨在搜集北京市公共交通乘客的出行行為特征信息與經(jīng)濟(jì)社會(huì)屬性信息,并進(jìn)行匿名處理.其中,部分出行行為特征信息如出行時(shí)間、地點(diǎn)和天數(shù)僅作信息驗(yàn)證與輔助參考作用,實(shí)際研究則采用個(gè)體刷卡的動(dòng)態(tài)交易數(shù)據(jù),以體現(xiàn)乘客每次出行的差異性,故本節(jié)不做具體展示;而個(gè)體經(jīng)濟(jì)社會(huì)屬性信息主要包括年齡、職業(yè)、收入、教育程度、汽車擁有量等,具體內(nèi)容如表1所示.
表1 出行者經(jīng)濟(jì)社會(huì)屬性信息統(tǒng)計(jì)
在進(jìn)行數(shù)據(jù)研究前,為了檢驗(yàn)調(diào)查問卷結(jié)構(gòu)設(shè)計(jì)的合理性與問卷信息的可靠性與有效性,需要對(duì)問卷數(shù)據(jù)進(jìn)行信度與效度的檢驗(yàn).本文利用SPSS軟件中的“可靠性分析”功能進(jìn)行測度,選用Alpha模型在95%置信水平下計(jì)算信度系數(shù)Cronbach’s α值.經(jīng)系統(tǒng)可靠性分析,可得有效個(gè)案數(shù)為249,即所有問卷數(shù)據(jù)均為有效;而Cronbach’s α值為0.883,大于可接受的最小值0.7,說明問卷數(shù)據(jù)具有良好的質(zhì)量.
本文主要依托北京市公交都市平臺(tái)獲取多源公共交通客觀數(shù)據(jù),提取2018年9月3日至7日5個(gè)工作日的刷卡數(shù)據(jù)開展研究,數(shù)據(jù)內(nèi)容主要包括地面公交IC卡交易數(shù)據(jù)、地面公交GPS數(shù)據(jù)和軌道AFC系統(tǒng)交易數(shù)據(jù)等.地面公交初始數(shù)據(jù)共包含19個(gè)字段,從中篩選并保留用戶卡號(hào)、上/下車線路編號(hào)、上/下車站點(diǎn)編號(hào)和上/下車時(shí)間等關(guān)鍵字段;軌道交通初始數(shù)據(jù)共包含37個(gè)字段,從中篩選并保留用戶卡號(hào)、進(jìn)/出站線路號(hào)、進(jìn)/出站車站編碼和進(jìn)/出站時(shí)間等關(guān)鍵字段.選取公交GPS數(shù)據(jù)中的線路編號(hào)、數(shù)據(jù)回傳時(shí)間、數(shù)據(jù)回傳經(jīng)緯度以及靜態(tài)線站表中公交、軌道的站點(diǎn)編號(hào)、站點(diǎn)經(jīng)緯度和站間距等字段,從而對(duì)原始公共交通刷卡交易數(shù)據(jù)進(jìn)行數(shù)據(jù)校準(zhǔn)與缺失數(shù)據(jù)彌補(bǔ),提高數(shù)據(jù)的密集性與數(shù)據(jù)質(zhì)量.
基于處理后的主觀調(diào)查數(shù)據(jù)與客觀刷卡數(shù)據(jù),以時(shí)間和用戶卡號(hào)為關(guān)鍵字對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)匹配.為鏈接同1個(gè)持卡者1 d中的公交與地鐵多段出行數(shù)據(jù),需要確定出行換乘刷卡交易時(shí)間閾值與站點(diǎn)空間距離閾值,具體閾值可參照文獻(xiàn)[7].
為了將獲取的主客觀數(shù)據(jù)進(jìn)行有效的關(guān)聯(lián),形成信息全面、完備的個(gè)體出行鏈數(shù)據(jù),本文提出了基于主客觀數(shù)據(jù)的個(gè)體出行鏈提取方法,具體流程見圖1.
按照?qǐng)D1的流程步驟,可獲得包含個(gè)體社會(huì)經(jīng)濟(jì)屬性與出行行為信息的多源數(shù)據(jù)的出行鏈信息,出行鏈結(jié)構(gòu)及部分內(nèi)容如表2所示.其中,出行模式表示1次出行所采用的交通方式,B為公交,R為軌道,“-”為換乘.
表2 通勤公共交通出行鏈?zhǔn)纠?/p>
在主客觀數(shù)據(jù)融合的通勤鏈數(shù)據(jù)基礎(chǔ)上,本研究經(jīng)過對(duì)相關(guān)文獻(xiàn)的分析與北京市公共交通出行情況的調(diào)研,擬選取換乘次數(shù)、出行天數(shù)和日均出行頻次[8-9]、出行完整度[3]4個(gè)連續(xù)型變量與性別、年齡、職業(yè)、教育水平、收入和車輛擁有量6個(gè)離散型變量[6]為初始特征指標(biāo),以期對(duì)北京市公共交通的使用行為提供綜合全面的特征刻畫.具體指標(biāo)內(nèi)容見表3所示.
表3 公共交通使用行為評(píng)估指標(biāo)
為了進(jìn)一步研究本文所取連續(xù)型指標(biāo)的共線性與相關(guān)性關(guān)系,利用SPSS軟件對(duì)其開展探索性因子分析.本文采用基于特征值提取(特征值>1)的最大方差旋轉(zhuǎn)主成分分析法來評(píng)估指標(biāo)內(nèi)部的一致性,具體結(jié)果見表4所示.
表4 指標(biāo)相關(guān)性與顯著性矩陣
通常相關(guān)系數(shù)不小于0.3便認(rèn)為變量之間存在較好的線性相關(guān)性,否則關(guān)聯(lián)性較弱,即表明該變量與其他變量測量的內(nèi)容不同,在主成分提取中應(yīng)該剔除.從表4可得知,多數(shù)因素之間的相關(guān)系數(shù)均大于0.3,僅C1與C2、C4之間的相關(guān)系數(shù)不滿足條件;并且,從關(guān)系顯著性角度可得知,除C1與C4之外的因素間顯著相關(guān),均為0.
而因素的成分得分可衡量各成分在整個(gè)目標(biāo)描述過程所占的解釋程度,成分得分矩陣如表5所示.
表5 成分得分矩陣
從表5看出,在主成分分析中C1指標(biāo)的得分最低,表明對(duì)于數(shù)據(jù)變異的解釋性較差.綜合考慮,本文將換乘次數(shù)從指標(biāo)集中移除,即采用出行天數(shù)、日均出行頻次、出行完整度及個(gè)體社會(huì)經(jīng)濟(jì)屬性等9個(gè)因素綜合刻畫通勤者使用公共交通出行的行為特征.此外,由于個(gè)體社會(huì)經(jīng)濟(jì)屬性所表征的內(nèi)容各不相同,故沒有對(duì)此類指標(biāo)因素進(jìn)行因子分析.
為了深入挖掘不同通勤者工作日期間使用公共交通的情況,需要基于通勤出行鏈數(shù)據(jù)和選取因素集對(duì)調(diào)查人群進(jìn)行分類.由于指標(biāo)數(shù)據(jù)集中存在連續(xù)型變量與離散型變量,較難使用1種有效、準(zhǔn)確的算法同時(shí)進(jìn)行處理;并且,離散型變量更有利于分類模型進(jìn)行數(shù)據(jù)劃分,消除邊緣數(shù)據(jù)分類的混沌性,克服數(shù)據(jù)中隱藏的缺陷,使模型結(jié)果更加穩(wěn)定.因此,本文首先需要將3個(gè)連續(xù)型變量轉(zhuǎn)化為離散型變量,再利用聚類模型對(duì)人群進(jìn)行分類分析.
基于對(duì)出行天數(shù)、日均出行頻次、出行完整度數(shù)據(jù)內(nèi)容的分析,本文采用等寬法[10]進(jìn)行數(shù)據(jù)的離散化.其中,出行頻次以間距1將數(shù)據(jù)分割成i個(gè)區(qū)間,即[0,1)、[1,2)、[2,3)、[3,4)、[4,∞),各區(qū)間的數(shù)值類別標(biāo)號(hào)分別為i=1,2,3,4,5.同理,出行天數(shù)和出行完整度的數(shù)值分割間距分別設(shè)置為1和0.2,其區(qū)間類別標(biāo)號(hào)均為i=1,2,3,4,5.
具有噪聲的基于密度的聚類方法(DBSCAN)模型是1種基于空間密度的聚類算法,該算法視為1種被低密度區(qū)域分隔的高密度區(qū)域劃分方法,可在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,它將簇定義為密度相連的點(diǎn)的最大集合.本文模型中測度樣本間的最近鄰距離度量參數(shù)時(shí),選用普適性較強(qiáng)的歐式距離,見式(1):
(1)
該模型涉及的參數(shù)主要為最小樣本量(min_samples)、鄰域的距離閾值(eps)和葉子節(jié)點(diǎn)數(shù)量,具體參數(shù)取值需要結(jié)合數(shù)據(jù)情況進(jìn)行標(biāo)定.DBSCAN模型的構(gòu)建步驟如表6所示.
表6 DBSCAN模型構(gòu)建步驟
為深入量化分析通勤者的公共交通使用行為特征,本文基于2018年9月3日至7日的公共交通刷卡客觀數(shù)據(jù),匹配調(diào)查獲取的249個(gè)受訪者的主觀問卷數(shù)據(jù),提取案例研究的通勤出行鏈信息.
基于表6的模型構(gòu)建流程,利用python軟件實(shí)現(xiàn)DBSCAN模型的構(gòu)建與數(shù)據(jù)聚類實(shí)施.其中,模型的最近鄰搜索算法參數(shù)選擇“auto”機(jī)制,該算法機(jī)制可從蠻力模型、KD樹模型和球樹模型3種方法中基于數(shù)據(jù)內(nèi)容自動(dòng)選取最優(yōu)的最近鄰搜索算法去擬合數(shù)據(jù).
此外,將249個(gè)樣本所對(duì)應(yīng)的9個(gè)因素指標(biāo)數(shù)據(jù)輸入到初始DBSCAN模型中,并利用聚類結(jié)果的輪廓系數(shù)s(i)對(duì)模型結(jié)果進(jìn)行評(píng)價(jià),從而對(duì)min_samples、eps和樹的葉子節(jié)點(diǎn)數(shù)(leaf_size)等參數(shù)進(jìn)行調(diào)整.其中,s(i)的計(jì)算式見式(2):
(2)
式中,a(i)為樣本i到同簇其他樣本的平均歐式距離;b(i)為樣本i到其他某簇Cj的所有樣本的平均距離最小值,即樣本i的簇間不相似度.
經(jīng)過多次模型擬合的調(diào)整過程,確定各參數(shù)值為:min_samples=2,eps=1.5,leaf_size=30,此時(shí)聚類結(jié)果的輪廓系數(shù)為0.76,表明聚類結(jié)果較為合理.
將前述249位受訪者的指標(biāo)數(shù)據(jù)輸入到調(diào)整好的模型,最終聚類算法將調(diào)查人群劃分為3類,具體內(nèi)容如表7所示.
表7 聚類結(jié)果統(tǒng)計(jì)
從表7看出,3個(gè)出行行為指標(biāo)中,第2類通勤人群的出行天數(shù)、日均出行頻次和出行完整度均要遠(yuǎn)高于其他2類人群,表明此類人群在工作日會(huì)頻繁使用公共交通出行,屬于公共交通高使用度乘客,為公共交通系統(tǒng)需要持續(xù)維護(hù)的顧客群體,而且此類人群在通勤者中的占比也最多.并且,此類通勤者的性別的類別標(biāo)號(hào)為1.49,非常接近1.5,表明該類人群的男女比例十分均衡;同理可知,公共交通高使用度乘客多為25~34歲之間的年輕群體,主要為本科及研究生以上高學(xué)歷的企事業(yè)單位的職員,收入為中高水平,并且擁有0或1輛車的出行者人數(shù)較為均衡.
第1類人群為占據(jù)通勤者1/3公共交通中使用度乘客,其出行天數(shù)、日均出行頻次和出行完整度均3個(gè)指標(biāo)值均稍低于第1類通勤者.此類人群的男性稍多于女性,年齡主要在25~44歲,在私企工作者居多,以??坪捅究飘厴I(yè)生為主,收入為3 000~8 000的中等水平,大部分人群家庭擁有1輛小汽車.同時(shí)也反映了教育水平與工作單位質(zhì)量、收入整體成正比的關(guān)系.
此外,第3類人群的出行天數(shù)、日均出行頻次和出行完整度3個(gè)指標(biāo)值處于通勤者中最低的水平,即為公共交通低使用度乘客.該類乘客通常采用小汽車、合乘或打車等方式出行,主要由于車輛限行、交通管制、身體不適及天氣不良等內(nèi)外影響因素被迫選擇公共交通出行的群體,也正是未來提高公共交通出行率的潛在人群.此部分用戶的女性稍多于男性,年齡和是車輛擁有量與第2類人群相似,而其他社會(huì)經(jīng)濟(jì)屬性指標(biāo)多與第1類人群一致.總體來看,此類人群具有一定的經(jīng)濟(jì)基礎(chǔ)與穩(wěn)定的工作,擁有小汽車且追求較為舒適的出行環(huán)境,故未來公共交通管理者可從交通限制政策與服務(wù)水平2個(gè)角度去提高此類通勤者的公共交通使用程度.
研究設(shè)計(jì)并實(shí)施了公共交通出行行為調(diào)查方案,基于客觀公共交通大數(shù)據(jù)利用關(guān)聯(lián)匹配算法提取公共交通通勤出行鏈信息.從個(gè)體出行行為與社會(huì)經(jīng)濟(jì)屬性角度選取了公共交通使用行為影響指標(biāo),利用因子分析法篩選9個(gè)刻畫指標(biāo),結(jié)合DBSCAN算法構(gòu)建了乘客公共交通使用行為聚類模型.結(jié)果表明,調(diào)查的通勤人群被劃分為公共交通高、中、低使用度3類,占比分別為54.2%、33.7%和12.1%,其中第3類為未來提高公共交通出行率的主要爭取人群,并且可從公共交通限制政策與服務(wù)水平2個(gè)角度去促進(jìn)該類人群的公共交通使用度.研究為深入理解公共交通出行行為,改善公共交通服務(wù)水平和吸引力提供技術(shù)支持.