梁燈 蔡曉禹 彭博 邢茹茹
摘要:為了掌握城市干道交通運行規(guī)律,向交通管理部門制定相關(guān)交通需求管理政策提供理論依據(jù),提出了一種基于組合模型的城市干道車輛出行群體辨識模型?;谇鄭u市膠州灣隧道過車數(shù)據(jù),從出行強度、出行時間與出行習(xí)慣3個維度構(gòu)建了出行特征指標(biāo)體系以全面刻畫車輛個體的出行行為。基于相關(guān)性分析剔除了冗余指標(biāo)以避免對辨識研究的影響。針對混合屬性出行特征指標(biāo)數(shù)據(jù),使用改進K-prototypes算法以有效地實現(xiàn)車輛出行群體劃分,將其與GBDT算法相結(jié)合,建立了一種基于改進K-prototypes與GBDT的辨識模型,隨機選取10 000個樣本開展辨識研究。結(jié)果表明:研究道路存在5類車輛出行群體:高頻通勤群體、低頻通勤群體、營運群體、頻次穩(wěn)定群體與普通群體,對于這5類車輛出行群體,平均識別準(zhǔn)確率為97.75%,最高識別準(zhǔn)確率可達99.47%。
關(guān)鍵詞:城市道路交通;群體辨識;出行特征;改進K-prototypes & GBDT
中圖分類號:U491.4 文獻標(biāo)志碼:A
本文引用格式:梁燈,蔡曉禹,彭博,等. 基于改進K-prototypes與GBDT的城市干道車輛出行群體辨識模型[J]. 華東交通大學(xué)學(xué)報,2023,40(5):49-58.
Vehicle Travl Group Identification Model of Urban Arterial Road Based on Improved K-prototypes and GBDT
Liang Deng1,2,Cai Xiaoyu1,3,Peng Bo1,3,Xing Ruru1,2
(1. College of Traffic and Transportation, Chongqing Jiaotong University, Chongqing 400074, China;
2. College of Smart City, Chongqing Jiaotong University, Chongqing 400074, China; 3. Chongqing Key Laboratory of Traffic System&Safety in Mountainous Cities, Chongqing Jiaotong University, Chongqing 400074, China)
Abstract:In order to identify the traffic operation law of urban arterial road and support basis for traffic management departments to formulate relevant traffic demand management policies, a vehicle travel group identification model of urban arterial road based on combined model was proposed. In this study, a travel characteristic indicator system was constructed from dimensions of travel intensity, travel time, travel habits for comprehensively describing the travel behavior based on the traffic bayonet data of Qingdao Jiaozhou Bay Tunnel. The redundant indicator was eliminated based on the correlation analysis to avoid the impact on identification research. For the mixed attribute travel characteristic indicator data, the improved K-prototypes algorithm was used to effectively classify the vehicle travel groups, and combined with GBDT, the identification model based on improved K-prototypes and GBDT was established. By randomly selecting 10 000 samples to conduct identification research, the result shows that there are 5 vehicle travel groups for the road in this research, including high-frequency commuter groups, low-frequency commuter groups, operating groups, frequency stable groups, and ordinary groups. For the 5 vehicle travel groups, the average identification accuracy rate exceeds 97.75%, and the highest identification accuracy rate can reach 99.47%.
Key words: urban road traffic; group identification; travel characteristic; improved K-prototypes & GBDT
Citation format:LIANG D,CAI X Y,PENG B,et al. Vehicle travl group identification model of urban arterial road based on improved K-prototypes and GBDT[J]. Journal of East China Jiaotong University,2023,40(5):49-58.
城市干道作為城市交通系統(tǒng)的重要組成部分,往往承擔(dān)著很大比重的交通出行,交通擁堵也較多集中發(fā)生于城市干道,嚴(yán)重影響著居民的正常生活。對城市干道的車輛出行群體進行分類研究有助于掌握其交通運行規(guī)律,可為交通管理部門制定相關(guān)交通需求管理政策提供理論依據(jù)[1],是保障城市交通系統(tǒng)正常運行的重要舉措。
出行群體分類是將出行者劃分為具有相似出行規(guī)律的各類群體,分類結(jié)果能夠揭示出行者之間的共性與異質(zhì)性。依據(jù)分類的方法,可分為基于監(jiān)督學(xué)習(xí)的分類與基于聚類的分類。
基于監(jiān)督學(xué)習(xí)的分類依賴于有標(biāo)簽的數(shù)據(jù)標(biāo)定分類器的參數(shù),在出行者類別難以人工標(biāo)注的情況下,此類研究的開展多輔以額外的出行調(diào)查,如梁泉等[2]基于北京市連續(xù)1個月公交刷卡數(shù)據(jù)提取特征指標(biāo),結(jié)合RP調(diào)查結(jié)果構(gòu)建了面向公交通勤乘客識別的BP神經(jīng)元網(wǎng)絡(luò)模型。崔洪軍等[3]基于調(diào)查數(shù)據(jù)標(biāo)定樸素貝葉斯分類器參數(shù),進而對智能刷卡數(shù)據(jù)中缺少的出行目的屬性加以補充。
不同的是,基于聚類的分類直接從數(shù)據(jù)構(gòu)建出行特征指標(biāo),采用聚類算法實現(xiàn)出行者的自動劃分,如Mohamed等[4]基于法國雷恩市的乘客刷卡數(shù)據(jù),將乘客每周每天每小時對應(yīng)的平均出行次數(shù)聚合成向量,使用K-means算法將乘客分為16類。劉凱[5]根據(jù)AFC刷卡數(shù)據(jù)的特點,基于DBSCAN算法提取乘客規(guī)律性特征,以兩步聚類法將乘客分為3類。程小云等[6]基于AFC刷卡數(shù)據(jù),針對工作日有出行的一卡通用戶提取出行天數(shù)、出行集中度等特征,以GMM算法將乘客分為5類。
受限于出行調(diào)查所耗費的大量人力、財力,基于監(jiān)督學(xué)習(xí)的分類通常只進行是非通勤的判別[7-9]。相比之下,基于聚類的分類避免了出行調(diào)查,適合用于大樣本數(shù)據(jù)集挖掘任務(wù),因而成為目前大多數(shù)研究所采用的方法,國內(nèi)外學(xué)者基于K-means[4,10,11]、K-means++[12-14]、DPC[15-16]、OPTICS[17]、LDA[18]、GMM[6,19]等算法開展出行群體分類研究,取得了豐富的研究成果。然而,目前的出行群體分類研究主要針對的是公交出行群體,對于車輛出行群體而言,其分類方法的選擇亟需深入探討。
分類方法的合適選擇往往能有效地劃分群體,而其實現(xiàn)的前提是構(gòu)建出行特征指標(biāo)體系以全面刻畫出行者個體的出行行為。一般來說,應(yīng)盡可能從多個維度構(gòu)建指標(biāo),然而對于不同的數(shù)據(jù)而言,可獲取的指標(biāo)有所不同,需根據(jù)研究數(shù)據(jù)定制化選取指標(biāo)。過車數(shù)據(jù)是某特定道路的車牌號識別數(shù)據(jù),記錄了車輛每次經(jīng)過道路的車牌號、通行時間與方向、車輛類型等信息,具有準(zhǔn)確性高、數(shù)據(jù)量大等優(yōu)點,是研究車輛出行行為的良好數(shù)據(jù)源。
因此,本文以城市干道車輛出行群體為研究對象,基于過車數(shù)據(jù)構(gòu)建多維出行特征指標(biāo)體系以全面刻畫車輛出行行為,考慮出行特征指標(biāo)體系特點選取聚類算法,將聚類與監(jiān)督學(xué)習(xí)相結(jié)合構(gòu)建基于改進K-prototypes與GBDT的辨識模型,以期為交通管理部門制定相關(guān)交通需求政策提供理論依據(jù)。
1 車輛出行特征指標(biāo)體系構(gòu)建
1.1 數(shù)據(jù)來源
研究數(shù)據(jù)來源于青島市膠州灣隧道2021年10月11日—31日(共計21 d)小型客車的過車數(shù)據(jù)。本文主要基于過車數(shù)據(jù)中車牌號、通行時間(具體到秒)與通行方向(2個方向)字段開展研究,數(shù)據(jù)格式如表1所示。對原始數(shù)據(jù)中車牌號缺失、車牌號識別錯誤、車輛連續(xù)兩次通行時間間隔過小等數(shù)據(jù)予以剔除,最終保留160萬余條。
1.2 車輛出行特征指標(biāo)體系構(gòu)建
基于前期的統(tǒng)計分析發(fā)現(xiàn),研究時間范圍(21 d)內(nèi)車輛以偶然出行為主,為確保所構(gòu)建出行指標(biāo)的有效性,本文只針對出行天數(shù)大于3的車輛構(gòu)建指標(biāo)。參考已有的研究并結(jié)合過車數(shù)據(jù)的特點,構(gòu)建車輛出行特征指標(biāo)體系,具體如表2所示。
部分出行特征指標(biāo)的提取方法如下。
1) 首次/末次最頻繁出行時段。首次/末次最頻繁出行時段表征的是車輛多日出行活動中首次/末次出行最集中的時段;由于車輛的出行時間是連續(xù)值,需將連續(xù)的時間值劃分為離散的時段。將1天24 h劃分為5個時段:[00:00,06:30),[06:30,10:00),[10:00,16:30),[16:30,19:30),[19:30,24:00),編號為1~5。
2) 出行頻次模式重復(fù)性。出行頻次模式重復(fù)性表征車輛在多日出行活動中以相同出行頻次進行的穩(wěn)定程度,出行頻次模式重復(fù)性定義為
式中:Ωx為出行頻次模式X的取值空間;p(x)為X=x的概率。需要說明的是,由于本文采用熵值作為出行頻次模式重復(fù)性的度量,因此,當(dāng)Hpc為0時,則代表車輛每天完全以相同頻次出行;Hpc大于0時,Hpc越大則代表車輛重復(fù)性越低。
3) 出行時空模式重復(fù)率。出行時空模式重復(fù)率表征車輛以相同(時間-方向)模式出行的概率,以30 min為粒度將24 h劃分為48個互不相交的時段,以(時間-方向)模式表示車輛的1次出行,則出行時空模式重復(fù)率a為
式中:n為重復(fù)出現(xiàn)模式的個數(shù);N為出行時空模式的總數(shù)。
為避免冗余特征指標(biāo)的影響,需進行指標(biāo)之間的相關(guān)性分析。對于混合屬性出行特征指標(biāo)體系,根據(jù)文獻[20]的方法得到相關(guān)性結(jié)果如圖1所示。
由圖1可知,“首次出行時間標(biāo)準(zhǔn)差”與“末次出行時間標(biāo)準(zhǔn)差”之間具有強相關(guān)性。本文將末次出行時間標(biāo)準(zhǔn)差剔除,最終保留出行天數(shù)、日均出行次數(shù)、周出行次數(shù)標(biāo)準(zhǔn)差、首次出行時間標(biāo)準(zhǔn)差、出行頻次模式重復(fù)性、出行時空模式重復(fù)率與首/末次最頻繁出行時段共8個指標(biāo)開展辨識研究。
2 基于改進K-prototypes與GBDT的車輛出行群體辨識模型
2.1 改進的K-prototypes算法
K-prototypes是由Huang[21]提出的一種可有效解決混合型數(shù)據(jù)聚類問題的算法,本文構(gòu)建的出行特征指標(biāo)體系為數(shù)值和分類混合屬性指標(biāo),采用該算法有較好的聚類效果。此外,針對原始算法相異度計算公式與初始聚類中心選取的不足加以改進。
給定樣本量為n的數(shù)據(jù)集D=[x1,x2,…,xn],樣本i表示為xi=[xi1,…,xip,xip+1,…,xim],x1~xp為數(shù)值屬性,xp+1~xm為分類屬性。聚類過程中,類簇集合為c=[c1,c2,…,ck],其中k為類簇個數(shù),k≥2;聚類中心點集合表示為z=[z1,z2,…,zk],其中z1表示類簇c1的中心點。
針對原始算法中數(shù)值屬性部分僅使用簡單歐氏距離求得樣本之間的相異度,未考慮樣本被分到類簇中各屬性貢獻大小的差異,本文使用標(biāo)準(zhǔn)差系數(shù)法以客觀地確定各屬性的權(quán)值。對于數(shù)值屬性s,其標(biāo)準(zhǔn)差為
式中:xis為樣本i在屬性s上的取值;為屬性s的均值。則各屬性的權(quán)重為:ws = σs / σs。
將數(shù)值屬性部分的相異度定義為
針對原始算法中分類屬性部分僅使用屬性出現(xiàn)頻率最高的值作為聚類中心,而未考慮類簇中各屬性取值的分布情況,根據(jù)參考文獻[22]的思想將分類屬性部分相異度定義為
上的取值,cljs為類簇cl中樣本j在屬性s上的取值;|cl|為類簇cl中已有樣本個數(shù)。
依據(jù)式(4)與式(5)將混合屬性相異度定義為
相異度計算公式改進后的K-prototypes算法的目標(biāo)函數(shù)定義為
式中:uil為樣本i對于類簇cl的隸屬度;uil為0時,表示樣本i樣本未被劃分到類簇cl中;uil為1時,表示樣本i樣本被劃分到類簇cl中。
針對原始算法初始聚類中心的選取采取隨機方式導(dǎo)致聚類穩(wěn)定性差,本文基于DPC算法生成的樣本局部密度與距離的二維坐標(biāo)決策圖來選取初始聚類中心。DPC算法原理及具體步驟請參考文獻[23-24]。綜上得到改進K-prototypes算法的步驟如下
1) 輸入數(shù)據(jù)集D,計算樣本之間距離以構(gòu)建相異度矩陣,數(shù)值屬性根據(jù)式(4)計算,分類屬性采取漢明距離;
2) 根據(jù)決策圖選取初始聚類中心并輸出;
3) 根據(jù)式(6)計算樣本點與各聚類中心的相異度,將各樣本點劃分到與其相異度最小中心點所對應(yīng)類簇中;
4) 基于類別劃分后的數(shù)據(jù),更新各類簇的中心。數(shù)值屬性以該類簇中數(shù)值屬性的平均值作為新的聚類中心;分類屬性使用該類簇中出現(xiàn)頻率最高的分類屬性值作為新的聚類中心;
5) 重復(fù)步驟3)和5),直到目標(biāo)函數(shù)值收斂或者達到預(yù)設(shè)的迭代次數(shù)為止,輸出聚類結(jié)果。
為驗證本文改進K-prototypes算法的有效性與可行性,使用UCI數(shù)據(jù)庫的真實的混合屬性數(shù)據(jù)集Statlog Heart(SH)、Credit Approval(CA)與Australia Credit Approval(ACA)進行驗證,選取K-prototypes(KP)與Fuzzy K-prototypes(FKP)算法進行比較。驗證數(shù)據(jù)集的描述如表3所示。
為了評估算法聚類效果,采用正確率(AC)與類精度(PE)作為評價指標(biāo),其定義如下
式中:t為數(shù)據(jù)集的樣本個數(shù);k為類簇數(shù);ti為第i個類簇中被正確劃分的樣本數(shù);cti為聚類結(jié)果中第i個類簇的樣本數(shù)。AC與PE的值越大代表聚類效果越好。
由于量綱的不同,各屬性的取值差異性較大,為了增加聚類準(zhǔn)確性與減少計算復(fù)雜性,聚類之前,本文對驗證數(shù)據(jù)集的數(shù)值屬性部分數(shù)據(jù)均采取min-max歸一化處理,即將取值控制在[0,1],公式如下
式中:x*為歸一化后的取值;xmin,xmax為數(shù)據(jù)集中對應(yīng)數(shù)值屬性下的最小值與最大值。
對于隨機選取初始聚類中心的KP與FKP算法,在各數(shù)據(jù)集上給出聚類個數(shù)后均重復(fù)實驗50次取均值作為最終結(jié)果。在各數(shù)據(jù)集上將所有算法共有的參數(shù)γ設(shè)置為對應(yīng)數(shù)據(jù)集中分類屬性個數(shù)與數(shù)值屬性個數(shù)的比值[25],此外,F(xiàn)KP算法中的模糊因子均設(shè)置為2,本文算法中DPC算法中近鄰占比Pd均設(shè)置為1.5%,即將對應(yīng)數(shù)據(jù)集的距離δ按升序排列后位于第1.5%的值作為截斷距離dc取值。
在各數(shù)據(jù)集上的實驗結(jié)果比較如表4所示。從表4可以看出,本文改進后的K-prototypes的聚類效果要明顯優(yōu)于KP與FKP算法,由此驗證了本文改進K-prototypes算法的有效性與可行性。
2.2 GBDT算法
GBDT全稱梯度提升決策樹,是統(tǒng)計學(xué)習(xí)性能最好的方法之一[26],在解決各種領(lǐng)域如城市交通、電力、醫(yī)學(xué)等領(lǐng)域的分類問題和回歸問題上均表現(xiàn)出優(yōu)異的性能。GBDT的核心思想是利用損失函數(shù)的負梯度在當(dāng)前模型的值作為算法中的殘差近似值,通過不斷擬合殘差從而使殘差不斷減少。在分類問題中,GBDT采用交叉熵損失函數(shù)或者對數(shù)似然損失函數(shù), GBDT算法原理請參考文獻[26]。
2.3 車輛出行群體辨識模型
車輛出行群體辨識包括3個部分:出行特征指標(biāo)數(shù)據(jù)集構(gòu)建、基于改進K-prototypes的車輛出行群體劃分與基于GBDT的車輛出行群體識別。車輛出行群體辨識流程如圖2所示。
3 實驗分析
3.1 數(shù)據(jù)準(zhǔn)備
經(jīng)過統(tǒng)計分析,研究數(shù)據(jù)中出行天數(shù)大于3的車輛共73 124輛,占總體的19.6%,但該部分車輛出行量占總體的58.7%,針對該部分車輛進行分類可有效研究掌握道路出行規(guī)律。此外,由于需要構(gòu)建相異度矩陣以選取初始聚類中心,樣本量大會導(dǎo)致計算時間過長,本文隨機選取10 000個車輛樣本開展辨識研究。對于出行特征指標(biāo)數(shù)據(jù)中的數(shù)值型部分,采取Min-max歸一化處理,處理方式見式(10)。
3.2 車輛出行群體劃分
基于歸一化后的特征指標(biāo)數(shù)據(jù)集,使用標(biāo)準(zhǔn)差系數(shù)法求得各數(shù)值指標(biāo)的權(quán)重。K-prototypes算法中參數(shù)設(shè)置為0.333,迭代次數(shù)設(shè)置為100次。DPC算法中近鄰占比Pd設(shè)置為1%。得到初始聚類中心5個,而最終聚類結(jié)果如表5所示。繪制不同群體的出行特征指標(biāo)的分布情況,具體如圖3所示。
根據(jù)聚類結(jié)果與不同群體的出行特征指標(biāo)分布情況定義群體。
1) 類別1與類別2:類別1與類別2出行特征基本相似,日均出行次數(shù)集中于2次、首次出行時間穩(wěn)定、出行時空模式重復(fù)率高、出行頻次模式重復(fù)性強、首/末次最頻繁出行時段分別集中于2和4,與通勤群體的特征相符合。與類別1相比,類別2出行天數(shù)少,周出行次數(shù)波動性較大。綜上,將類別1定義為高頻通勤群體,類別2定義為低頻通勤群體。
2) 類別3:出行天數(shù)較多、日均出行次數(shù)分布散亂且其日均出行次數(shù)大于2的車輛數(shù)占比大于其他類別、周出行次數(shù)與首次出行時間波動性大、出行時空模式重復(fù)率低、出行頻次模式重復(fù)性弱、首/末次最頻繁出行時段分布較為散亂,與道路上出行的出租車、網(wǎng)約車的特征相符合。綜上,結(jié)合實際將類別3定義為營運群體。
3) 類別4:類別4出行天數(shù)少、日均出行次數(shù)小、周出行次數(shù)的標(biāo)準(zhǔn)差較小、首次出行時間標(biāo)準(zhǔn)差較大、出行時空模式重復(fù)率基本為0、首次最頻繁出行時段集中在2與3、末次最頻繁出行時段集中在3。但其出行頻次模式重復(fù)性為0,說明此類車輛在其多日出行活動中每天以相同頻次出行。綜上,將類別4定義為頻次穩(wěn)定群體。
4) 類別5:類別5在出行天數(shù)、出行時空模式重復(fù)率、首次最頻繁出行時段、末次最頻繁出行時段上、周出行次數(shù)標(biāo)準(zhǔn)差分布與類別4相似,但在日均出行次數(shù)、首次出行時間標(biāo)準(zhǔn)差、出行頻次模式重復(fù)性的分布與類別3相似,說明此類群體并無明顯的規(guī)律。綜上,將類別5定義為普通類。
3.3 車輛出行群體識別
基于3.2節(jié)聚類后獲取群體劃分結(jié)果數(shù)據(jù)集,根據(jù)2.2節(jié)所提算法開展群體識別研究。
由于GBDT算法無法直接處理分類型指標(biāo),建立識別模型前需要對首/末次最頻繁出行時段指標(biāo)進行One-hot編碼處理,以0和1來解釋屬性。首次最頻繁出行時段編碼處理示例如表6所示。
本文采用Python機器學(xué)習(xí)庫的中Sklearn模塊進行車輛出行群體識別建模,由于本文的車輛出行群體識別是多分類問題,因此,將損失函數(shù)設(shè)置為交叉熵損失函數(shù),其他部分參數(shù)[27]如表7所示。
將數(shù)據(jù)集按照8∶2的比例劃分為訓(xùn)練集與測試集。為了避免過擬合與欠擬合問題的出現(xiàn),在訓(xùn)練集上,以識別準(zhǔn)確率為評價指標(biāo),針對Learning_rate與N_estimators進行調(diào)參。其中,Max_depth設(shè)置為5,Subsamples設(shè)置為0.8。調(diào)參步驟如下。
1) 將Learning_rate的初始值設(shè)置為0.3,采用5折交叉驗證法對N_estimators尋優(yōu)。
2) 降低參數(shù)Learning_rate的值,并按比例增加參數(shù)N_estimators,采用5折交叉驗證法尋找使得識別準(zhǔn)確率最高的參數(shù)組合。重復(fù)此步驟,得到不同Learning_rate下的最優(yōu)N_estimators值,如表8所示。
3.4 群體識別結(jié)果分析
基于3.3節(jié)得所有Learning_rate下的最優(yōu)組合(0.01,3 000)在訓(xùn)練集上建立GBDT識別模型,在測試集上得識別結(jié)果如圖4所示。
由圖4可知,5類車輛出行群體識別準(zhǔn)確率分別為97.89%,95.91%,94.72%,99.47%與99.13%。平均識別準(zhǔn)確率約為97.42%,最高可達99.47%。
4 結(jié)論
1) 針對城市干道車輛,在考慮過車數(shù)據(jù)特點的基礎(chǔ)上,從出行強度、出行時間與出行習(xí)慣3個維度構(gòu)建了全面刻畫車輛個體出行行為的出行特征指標(biāo)體系,并基于相關(guān)性分析剔除了冗余的指標(biāo),保障了所構(gòu)建指標(biāo)體系的合理性。
2) 針對城市干道車輛出行群體的含有數(shù)值型與分類型指標(biāo)的出行特征指標(biāo)數(shù)據(jù),使用相異度計算公式改進與基于密度峰值聚類算法的二維(局部密度-距離)決策圖,選取初始聚類中心的改進K-prototypes算法劃分得到了5類典型群體:高頻通勤群體、低頻通勤群體、營運群體、頻次穩(wěn)定群體與普通群體?;谌后w劃分結(jié)果數(shù)據(jù)集,在訓(xùn)練集上確定了GBDT群體識別模型的關(guān)鍵參數(shù),測試集上進行了群體識別驗證,對于這5類群體,平均識別準(zhǔn)確率為97.42%,最高可到99.47%,識別效果良好。
3) 采用改進K-prototypes與GBDT的組合模型可有效辨識城市干道車輛出行群體,有助于掌握城市干道的交通運行規(guī)律,可為交通管理部門制定相關(guān)出行需求管理政策提供理論依據(jù)。
參考文獻:
[1] 黃正國. 基于車牌識別數(shù)據(jù)的車輛出行特征研究[D]. 成都:西南交通大學(xué),2019.
HUANG Z G. Research on vehicle travel feature based on license plate recognition data[D]. Southwest Jiaotong University,2019.
[2] 梁泉,翁劍成,林鵬飛,等. 基于個體出行圖譜的公共交通通勤行為辨別方法研究[J]. 交通運輸系統(tǒng)工程與信息,2018,18(2):100-107.
LIANG Q,WENG J C,LIN P F,et al. Public transport commuter identification based on individual travel graph[J]. Journal of Transportation Systems Engineering and Information Technology,2018,18(2):100-107.
[3] 崔洪軍,趙銳,朱敏清,等. 基于樸素貝葉斯分類器的乘客出行屬性分析[J]. 科學(xué)技術(shù)與工程,2020,20(11):4572-4576.
CUI H J,ZHAO R,ZHU M Q,et al. Travel attributes analysis of passengers based on nave bayes classifier[J]. Science Technology and Engineering,2020,20(11):4572-4576.
[4] MOHAMED E,ETIENNE C,JOHANNA B,et al. Understanding passenger patterns in public transit through smart card and socioeconomic data:A case study in rennes,france[C]//New York:The International Workshop on Urban Computing,2014.
[5] 劉凱. 地鐵乘客出行規(guī)律分析及目的地預(yù)測方法研[D]. 北京:北京交通大學(xué),2019.
LIU K. Analysis of metro passenger travel law and study of destination prediction method[D]. Beijing Jiaotong University,2019.
[6] 程小云,張學(xué)宇,薛順然,等. 基于多維屬性的軌道交通出行行為分類方法[J]. 交通運輸工程與信息學(xué)報,2020,18(4):166-174.
CHEN X Y,ZHANG X Y,XUE S R,et al. Method of analyzing rail transit travel behavior based on multidimensional attributes[J]. Journal of Transportation Engineering and Information,2020,18(4):166-174.
[7] 翁小雄,呂攀龍. 基于GBDT算法的地鐵IC卡通勤人群識別[J]. 重慶交通大學(xué)學(xué)報(自然科學(xué)版),2019,38(5):8-12.
WENG X X,LYU P L. Commuter crowd identification based on GBDT algorithm[J]. Journal of Chongqing Jiaotong University(Natural Science),2019,38(5):8-12.
[8] TAKAHIKO KUSAKABE,YASUO ASAKURA. Behavioral data mining of transit smart card data:A data fusion approach[J]. Transportation Research Part C,2014,46:179-191.
[9] 孫世超,楊東援. 基于樸素貝葉斯分類器的公交通勤人群辨識方法[J]. 交通運輸系統(tǒng)工程與信息,2015,15(6):46-53.
SUN S C,YANG D Y. Identification of transit commuters based on naive bayesian classifier[J]. Journal of Transportation Systems Engineering and Information Technology,2015,15(6):46-53.
[10] CHEN H,YANG C,XU X. Clustering vehicle temporal and spatial travel behavior using license plate recognition data[J]. Journal of Advanced Transportation,2017(7):1-14.
[11] YANG C,YAN F F,UKKUSURI S V. Unraveling traveler mobility patterns and predicting user behavior in the Shenzhen metro system[J]. Transport metrica A:Transport?Science,2018,14(7):576-597.
[12] 陳君,田朝軍,趙清梅,等. 基于時空行為規(guī)律挖掘的公交乘客分類方法[J]. 交通運輸工程學(xué)報,2021,21(5):274-285.
CHEN J,TIAN C J,ZHAO Q M,et al. Bus passenger classification method based on spatial and temporal behavior regularity mining[J]. Journal of Traffic and Transportation?Engineering,2021,21(5):274-285.
[13] MA X,WU Y J,WANG Y,et al. Mining smart card data for transit riders travel patterns[J]. Transportation Research Part C:Emerging Technologies,2013,36:1-12.
[14] 馬新露,雷小詩,馬筱櫟,等. 基于高速公路收費數(shù)據(jù)的車輛分類研究——以重慶市為例[J]. 交通運輸研究,2021,7(1):73-80.
MA X L,LEI X S,MA X L,et al. Vehicle classification based on expressway toll data:A case study of Chongqing[J]. Transport Research,2021,7(1):73-80.
[15] 梁野,呂衛(wèi)鋒,杜博文. 基于峰值密度聚類的公交出行目的分類模型[J]. 哈爾濱工程大學(xué)學(xué)報,2018,39(3):541-546.
LIANG Y,LYU W F,DU B W. Classification model of public transport trip purpose based on density peak clustering[J]. Journal of Harbin Engineering University,2018,39(3):541-546.
[16] 杜蕊. 軌跡數(shù)據(jù)驅(qū)動的城市干線影響區(qū)車輛出行特征辨識及建模[D]. 重慶:重慶交通大學(xué),2020.
DU R. Identification and modeling of vehicle travel characteristics in affected areas of urban arterial road driven by trajectory data[D]. Chongqing:Chongqing Jiaotong University,2020.
[17] VENUGOPAL S,DIVYA D. Transit passenger segmentation based on the travel patterns mined from smart card data using Optics algorithm[J]. International Journal of Advanced Information Science and Technology,2016,5(5):49-56.
[18] 王長碩,蒲英霞. 基于Labeled-LDA模型的居民群體分類與出行特征分析[J]. 計算機應(yīng)用與軟件,2022,39(11):17-24.
WANG C S,PU Y X. Analysis of classification and activity characteristics of urban residents based on Labeled-LDA model[J]. Computer Applications and Software,2022,39(11):17-24.
[19] JI Y J,CAO Y,LIU Y,et al. Research on classification and influencing factors of metro commuting patterns by combining smart card data and household travel survey data[J]. Iet Intelligent Transport Systems,2019,13(10):1525-1532.
[20] 趙超. 混合屬性聚類算法的研究及應(yīng)用[D]. 秦皇島:燕山大學(xué),2017.
ZHAO C. Research on clustering algorithm for mixed attributes and application[D]. Qinghuangdao:Yanshan University,2017.
[21] HUANG Z. Extensions to the K-means algorithm for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery,1998,2(3):283-304.
[22] 石鴻雁,徐明明. 基于平均差異度的改進K-prototypes聚類算法[J]. 沈陽工業(yè)大學(xué)學(xué)報,2019,41(5):555-559.
SHI H Y,XU M M. Improved K-prototypes clustering algorithm based on average difference degree[J]. Journal of?Shenyang University of Technology,2019,41(5):555-559.
[23] RODRIGUEZ A,LAIO A. Clustering by fast search and find of density peaks[J]. Science,2014,344(6191):1492- 1496.
[24] 王森,邢帥杰,劉琛. 密度峰值聚類算法研究綜述[J]. 華東交通大學(xué)學(xué)報,2023,40(1):106-116.
WANG S,XING S J,LIU C. Survey of density peak clustering algorithm[J]. Journal of East China Jiaotong University,2023,40(1):106-116.
[25] 歐陽浩,戴喜生,王智文,等. 基于信息熵的粗糙K-prototypes聚類算法[J]. 計算機工程與設(shè)計,2015,36(5):1239-1243.
OU Y H,DAI X S,WANG Z W,et al. Rough K-prototypes clustering algorithm based on information entropy[J]. Computer Engineering and Design,2015,36(5):1239-1243.
[26] 李航. 統(tǒng)計學(xué)習(xí)方法[M]. 北京:清華大學(xué)出版社,2012.
LI H. Statistical learning methods[M]. Beijing:Tsinghua University Press,2012.
[27] 戰(zhàn)友,鄧強勝,羅志偉,等. 基于GBDT的瀝青路面抗滑性能感知模型研究[J]. 土木工程學(xué)報,2023,56(2):121-232.
ZHAN Y,DENG Q S,LUO Z W,et al. Research on GBDT-based asphalt pavement skid resistance perception model[J]. China Civil Engineering Journal,2023,56(2):121-232.
第一作者:梁燈(1996—),男,碩士研究生,研究方向為交通信息工程及控制。E-mail:3192513626@qq.com。
通信作者:蔡曉禹(1979—),男,教授,博士生導(dǎo)師,研究方向為深度學(xué)習(xí)交通視頻檢測與狀態(tài)識別。E-mail:caixiaoyu@cqjtu.edu.cn。
(責(zé)任編輯:吳海燕)