国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹(shù)的居民出行模式分析

2016-09-26 09:52:10李綱馬雙郭姝娟左忠義
關(guān)鍵詞:公共交通決策樹(shù)比例

李綱,馬雙,郭姝娟,左忠義

(1.大連交通大學(xué) 交通運(yùn)輸工程學(xué)院,遼寧 大連 116028; 2.大連海事大學(xué) 交通運(yùn)輸管理學(xué)院,遼寧 大連 116026)*

?

基于決策樹(shù)的居民出行模式分析

李綱1,馬雙1,郭姝娟2,左忠義1

(1.大連交通大學(xué) 交通運(yùn)輸工程學(xué)院,遼寧 大連 116028; 2.大連海事大學(xué) 交通運(yùn)輸管理學(xué)院,遼寧 大連 116026)*

以印度尼西亞首都雅加達(dá)都市圈的居民出行調(diào)查數(shù)據(jù)為例,從兩方面進(jìn)行研究:一是研究居民對(duì)輔助公共交通的使用情況,二是研究居民對(duì)出行模式選擇的問(wèn)題,并對(duì)兩個(gè)子問(wèn)題分別建立了兩個(gè)決策樹(shù)模型.研究結(jié)果確定了兩個(gè)模型的重要影響因素,并進(jìn)一步探討了決策樹(shù)各節(jié)點(diǎn)劃分的規(guī)律,即揭示了上述各種影響因素的作用規(guī)律.

出行模式;決策樹(shù);Exhaustive CHAID;輔助公共交通;雅加達(dá)都市圈

0 引言

隨著社會(huì)經(jīng)濟(jì)的發(fā)展,城市化進(jìn)程的加快,機(jī)動(dòng)車(chē)保有量持續(xù)地增加,同時(shí)由于土地資源的有限性,交通擁堵問(wèn)題變得日益嚴(yán)重.促進(jìn)城市交通結(jié)構(gòu)的合理改變,是滿足居民出行需求的同時(shí)改善城市交通狀況的主要手段之一.而出行模式的研究,作為系統(tǒng)性研究交通供需平衡的一部分,是當(dāng)前交通理論研究的重點(diǎn)問(wèn)題之一.

出行模式的早期研究采用集計(jì)的方法,其主要優(yōu)點(diǎn)是操作相對(duì)簡(jiǎn)單,但是模型的建立缺少明確的行為假說(shuō),缺少嚴(yán)密的統(tǒng)計(jì)方法.20世紀(jì)70年代以來(lái),以McFadden為代表的學(xué)者引用經(jīng)濟(jì)學(xué)中的效用理論,以概率論為基礎(chǔ),將非集計(jì)模型推入實(shí)用階段[1].Mitchell和Rapkin建立了活動(dòng)分析法,Peter Jones將此方法建立模型進(jìn)行首次實(shí)證檢驗(yàn)[2].決策樹(shù)算法是數(shù)據(jù)挖掘中一種主要的數(shù)據(jù)分類(lèi)方法,它可以從一組無(wú)規(guī)則、無(wú)次序的樣本中推理出影響因素的分類(lèi)規(guī)則[3].交通領(lǐng)域中,決策樹(shù)的算法正被逐漸地使用.Zhang et al建立了一個(gè)包含決策樹(shù)技術(shù),集計(jì)logit模型和結(jié)構(gòu)方程模型的混合模型[4].國(guó)內(nèi)利用決策樹(shù)對(duì)居民出行進(jìn)行了一定的研究.李庭洋等利用決策樹(shù)中CART算法構(gòu)建交通方式選擇模型[5].王鳳英和黃章樹(shù)運(yùn)用決策樹(shù)方法對(duì)居民出行數(shù)據(jù)進(jìn)行了分類(lèi)規(guī)則挖掘[6].李穎等以南京市居民出行調(diào)查數(shù)據(jù)為樣本實(shí)例,對(duì)個(gè)人屬性與出行方式進(jìn)行了相關(guān)性研究[7].

本文以實(shí)際大樣本的個(gè)人出行調(diào)查數(shù)據(jù)為例,采用遍歷卡方自動(dòng)交互檢驗(yàn)的算法(Exhaustive Chi-squared Automatic Interaction Detector,簡(jiǎn)稱,Exhaustive CHAID)探索影響交通模式的影響因素以及其作用規(guī)律,以期從數(shù)據(jù)挖掘角度理解居民出行的交通模式選擇行為.此方法的運(yùn)用及成果可為政府今后制定合理的交通政策提供理論依據(jù).

1 Exhaustive CHAID算法

決策樹(shù)是一個(gè)類(lèi)似于樹(shù)結(jié)構(gòu)的分析預(yù)測(cè)模型.根據(jù)樹(shù)的不同層次,可以把樹(shù)結(jié)構(gòu)分為根結(jié)點(diǎn)(也稱父結(jié)點(diǎn))、分支結(jié)點(diǎn)以及葉子結(jié)點(diǎn).從決策樹(shù)的根結(jié)點(diǎn)到葉子結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條預(yù)測(cè)規(guī)則,完整的一棵樹(shù)就對(duì)應(yīng)著所有預(yù)測(cè)規(guī)則.在每個(gè)結(jié)點(diǎn)選擇分類(lèi)效果最好的決策屬性對(duì)樣本集進(jìn)行劃分,直至這棵樹(shù)能準(zhǔn)確地將樣本集分類(lèi)[8].

CHAID算法是構(gòu)建決策樹(shù)的一種方法,是一種利用χ2統(tǒng)計(jì)量來(lái)識(shí)別最優(yōu)分裂屬性的分類(lèi)算法.其將樣本集按所有自變量分別分類(lèi),形成多個(gè)二維交叉分類(lèi)表.比較這些分類(lèi)表的χ2統(tǒng)計(jì)量或最大似然估計(jì)值的大小,選取統(tǒng)計(jì)值最大的分類(lèi)變量作為第一個(gè)分類(lèi)變量;對(duì)已分好的最優(yōu)二維表繼續(xù)根據(jù)其余屬性(自變量)對(duì)樣本進(jìn)行分類(lèi),即可得到多維交互表,從而生成決策樹(shù)[9].

(1)

(2)

其中:fij為實(shí)際分布概率,fij=Yij/n,Yij為第i類(lèi)X第j類(lèi)Y的分布頻數(shù),n為總樣本數(shù).Fij為與fij對(duì)應(yīng)的理論分布頻數(shù)的估計(jì)值;Fij=(Yi./n)×(Y.j/n),Yi.為二維交叉分類(lèi)表中第i行元素求和,Y.j為二維交叉分類(lèi)表中第j列元素求和.

1991年Biggs等人提出了CHAID的改進(jìn)算法——Exhaustive CHAID算法.Exhaustive CHAID在檢測(cè)交互過(guò)程中對(duì)變量類(lèi)別一直合并至只剩兩個(gè),最后比較這一系列的合并找出最強(qiáng)關(guān)聯(lián),選擇最佳拆分點(diǎn)[10].本文通過(guò)SPSS軟件實(shí)現(xiàn)這種算法.

2 數(shù)據(jù)采集

本文所用數(shù)據(jù)是由日本國(guó)際協(xié)力機(jī)構(gòu)(JICA)在印度尼西亞首都雅加達(dá)都市圈采集的個(gè)人出行調(diào)查數(shù)據(jù).樣本率為3%,共調(diào)查了100 864個(gè)家庭,共1 082 979次出行.調(diào)查方式為上門(mén)入戶調(diào)查.調(diào)查內(nèi)容主要涉及家庭信息、個(gè)人信息和出行信息三方面內(nèi)容.本次研究在上述樣本的基礎(chǔ)上隨機(jī)抽取50 000條數(shù)據(jù)作為分析樣本.經(jīng)數(shù)據(jù)整理,去掉含有部分缺失值的數(shù)據(jù),最終可利用46 592條數(shù)據(jù).

樣本中涉及到的輔助公共交通作為發(fā)展中國(guó)家極具特色的交通方式在雅加達(dá)也廣泛存在,其主要形式有四種:人力三輪車(chē)(Becak),摩托出租車(chē)(Ojek),動(dòng)力三輪車(chē)(Bajaj)和小型公交車(chē)(Minbus).這些交通方式?jīng)]有固定線路(小公共汽車(chē)除外),隨叫隨停,起到了填補(bǔ)公共交通方式服務(wù)的缺失,為人們提供廉價(jià)的交通服務(wù),提高居民出行的可達(dá)性.

3 模型分析

3.1是否選擇輔助公共交通的模型分析

該決策樹(shù)模型是以是否選擇輔助公共交通作為因變量.在一次出行目的中,所用的所有出行方式只要有一種是輔助公共交通方式,就認(rèn)為此次出行使用了輔助公共交通.該模型的具體設(shè)置如表1所示.

表1 是否選擇輔助公共交通的模型設(shè)置表

通過(guò)Exhaustive CHAID算法測(cè)算,在輸入的所有自變量中,出行時(shí)間、性別、年齡、家庭收入和交通費(fèi)用占比對(duì)是否選擇輔助公共交通起主要作用.風(fēng)險(xiǎn)值和標(biāo)準(zhǔn)誤差反映模型的預(yù)測(cè)精度.風(fēng)險(xiǎn)值的計(jì)算方法是不正確分類(lèi)的個(gè)案占總個(gè)案的比例.該模型風(fēng)險(xiǎn)值即預(yù)測(cè)錯(cuò)誤的概率為29.3%,標(biāo)準(zhǔn)誤差為0.002,表明該模型有比較好的預(yù)測(cè)精度.

具體決策樹(shù)的結(jié)果由圖1表示.出行時(shí)間位于最高父節(jié)點(diǎn),是“是否選擇輔助公共交通”模型的最大影響因素.由出行時(shí)間的統(tǒng)計(jì)分段可以看到,1 h之內(nèi)的出行時(shí)間,對(duì)是否選擇輔助公共交通工具最為敏感.超過(guò)1 h的交通出行則統(tǒng)一合并為一組,其選擇輔助公共交通的比例大約為50%.在出行時(shí)間范圍內(nèi),隨著出行時(shí)間的增大,選擇使用輔助公共交通的比例隨之增加.

在出行時(shí)間第一層的影響下,性別和年齡對(duì)出行者是否選擇輔助公共交通產(chǎn)生進(jìn)一步的影響.對(duì)于性別來(lái)說(shuō),節(jié)點(diǎn)1、2、4、8,是按性別進(jìn)一步細(xì)分的.總結(jié)得出的規(guī)律是:女性選擇輔助公共交通的比例要高于男性.女性對(duì)交通舒適度的要求明顯高于男性,這就使得對(duì)于一部分步行者來(lái)說(shuō),輔助公共交通作為替步工具是首選方式.對(duì)于年齡來(lái)說(shuō),節(jié)點(diǎn)3、5、7,是按年齡進(jìn)一步細(xì)分的.總結(jié)得出的規(guī)律是:年齡在12~21歲左右的出行者,選擇輔助公共交通的比例要高于其他年齡段的人群.

在第二層的基礎(chǔ)上,模型的第三層繼續(xù)細(xì)分.節(jié)點(diǎn)11(出行時(shí)間7~10 min,男性出行)下的節(jié)點(diǎn)26、27,按照交通費(fèi)用占總支出的比例來(lái)分類(lèi),比例越大,使用輔助公共交通的概率越大.交通費(fèi)用占比小于10%的,使用比例為7.9%,而大于10%的,為10.7%,可以看出兩者比例差別不大,說(shuō)明交通費(fèi)用占比對(duì)是否使用輔助公共交通影響不大.節(jié)點(diǎn)12(出行時(shí)間7~10 min,女性出行)下的28、29,按家庭收入分類(lèi),收入越高,越會(huì)選擇輔助公共交通.但是節(jié)點(diǎn)21與其不同.雖然也是按家庭收入分類(lèi),但是收入高反而使用的少.節(jié)點(diǎn)21代表出行時(shí)間在20~30 min,年齡大于30歲的個(gè)案.這表明在這兩個(gè)條件下,收入高的人群會(huì)選擇私人交通或其它公共交通多一些,而輔助公共交通工具因?yàn)橛泻芏嗔觿?shì)所以選擇的人不多.

圖1 是否選擇輔助公共交通的決策樹(shù)模型

3.2影響出行模式選擇的決策樹(shù)模型分析

在一次出行目的中,所用的所有出行方式中,頻率使用最高的幾種出行方式的組合作為出行模式的分析單元.將各種出行模式重新分類(lèi),使用頻率最高的9種出行模式列表如表2,占有效出行數(shù)據(jù)的93.9%.

表2 主要出行模式

考慮到步行(Walk)所占的數(shù)據(jù)比例較大為41.7%,不利于分析機(jī)動(dòng)化的交通出行模式,因此分析中去掉步行方式.該模型的具體設(shè)置如表3:

表3 影響出行模式選擇的模型設(shè)置表

Exhaustive CHAID算法測(cè)算顯示,在輸入的所有自變量中,小汽車(chē)擁有量、出行時(shí)間、年齡、性別和職業(yè)對(duì)出行模式的選擇起主要作用.該模型風(fēng)險(xiǎn)值為50.9%,標(biāo)準(zhǔn)誤差為0.003.

該決策樹(shù)的模型結(jié)構(gòu)由圖2所示,小汽車(chē)擁有量對(duì)于出行模式的選擇起到至關(guān)重要的作用.當(dāng)家庭沒(méi)有小汽車(chē)(節(jié)點(diǎn)1)的時(shí)候,出行者基本使用非小汽車(chē)出行方式,部分或全部使用輔助公共交通可以達(dá)到55.5%以上.而在家庭有一輛小汽車(chē)的情況下(節(jié)點(diǎn)2),小汽車(chē)使用比例達(dá)到40.8%,家庭有一輛小汽車(chē)以上的情況下(節(jié)點(diǎn)3),小汽車(chē)的使用比例達(dá)到69.8%.

圖2 影響出行模式選擇的決策樹(shù)模型

在第一層的基礎(chǔ)上,第二層按出行時(shí)間和年齡分類(lèi).節(jié)點(diǎn)1(汽車(chē)擁有量為0)以下的7個(gè)節(jié)點(diǎn),節(jié)點(diǎn)編號(hào)從4~10,是按照“出行時(shí)間”來(lái)劃分的.當(dāng)出行時(shí)間非常少,小于10min時(shí),選擇摩托車(chē)(motorcycle)的比例最大,達(dá)50.2%.隨著出行時(shí)間的增大,選擇使用小型公交車(chē)的比例逐漸增大,在20~30 min出行時(shí)間區(qū)間達(dá)到最大值(50.6%),大于其它交通方式.隨著出行時(shí)間的進(jìn)一步增加,亦即出行距離增長(zhǎng),小型公交車(chē)的出行費(fèi)用不再劃算,所占比例減少.而小型公交車(chē)和公交車(chē)的組合以及公交車(chē)本身者兩種出行模式隨出行時(shí)間的增長(zhǎng),利用的比例越來(lái)越高,在89min以上這個(gè)區(qū)間,小型公交車(chē)(minibus)與公交車(chē)的組合出行模式是最多的選擇.通過(guò)此決策樹(shù)從中可以看出各種交通模式在雅加達(dá)的實(shí)際應(yīng)用范圍.

在第二層的基礎(chǔ)上,性別和職業(yè)是第三層的分類(lèi)變量.就性別來(lái)說(shuō),節(jié)點(diǎn)4、9、10、13按性別細(xì)分,總結(jié)這些節(jié)點(diǎn)的規(guī)律,發(fā)現(xiàn)男性選擇摩托車(chē)(motorcycle)的比例最高,反映出男性更注重速度和時(shí)效.而女性選擇小型公共汽車(chē)(minibus)的比例更高,反映出女性注重可達(dá)性的同時(shí)更在意安全.節(jié)點(diǎn)5、6、7、8按職業(yè)細(xì)分,這些節(jié)點(diǎn)共同的規(guī)律是,工人使用摩托車(chē)和小型公交車(chē)的比例較高,而像學(xué)生,家庭主婦,退休者等,選擇使用小型公共汽車(chē)的比例更高,從中體現(xiàn)出出行者的個(gè)人出行偏好.

4 結(jié)論

基于決策樹(shù)理論的出行模式研究是一種分析居民出行行為及影響因素的新途徑.本文利用Exhaustive CHAID算法,建立決策樹(shù)模型,以雅加達(dá)居民出行調(diào)查為例,研究個(gè)人出行行為中輔助公共交通方式的選擇以及出行模式的選擇的問(wèn)題.研究結(jié)果表明出行時(shí)間、性別、年齡、家庭收入和交通費(fèi)用占比對(duì)是否選擇輔助公共交通起主要作用.小汽車(chē)擁有量、出行時(shí)間、年齡、性別和職業(yè)對(duì)出行模式的選擇起主要作用.更為重要的是,這種方法以及所總結(jié)出的影響因素的作用規(guī)律可為城市交通結(jié)構(gòu)的改善以及交通政策的制定提供一定的借鑒.

[1]陸化普.交通規(guī)劃理論與方法[M].北京:清華大學(xué)出版社,2006.

[3]張睿.ID3決策樹(shù)算法分析與改進(jìn)[D].蘭州:蘭州大學(xué),2010.

[4]JUNYI ZHANG,AKIMASA FUJIWARA,MAKOTO CHIKARAISHI.Comparative analysis of travel patterns in the developing cities based on a hybrid model[J].Journal of the Eastern Asia Society for Transportation Studies,2005(6):333- 4348.

[5]李庭洋,欒新,彭正洪.決策樹(shù)學(xué)習(xí)算法在交通方式選擇模型中的應(yīng)用[J].武漢大學(xué)學(xué)報(bào),2013,46(3):354- 358.

[6]王鳳英,黃章樹(shù).基于決策樹(shù)技術(shù)的福州市居民出行特征分析[J].重慶工商大學(xué)學(xué)報(bào),2007,24(3):264- 268.

[7]李穎,相麗瑾,荀玲玉.數(shù)據(jù)挖掘在居民出行調(diào)查數(shù)據(jù)分析中的應(yīng)用[J].交通科技,2016,24(1):164- 167.

[8]潘永麗.決策樹(shù)分類(lèi)算法的改進(jìn)及其應(yīng)用研究[D].昆明:云南財(cái)經(jīng)大學(xué),2011.

[9]宋春華.天津市參保精神分裂癥患者住院費(fèi)用分析[D].天津:天津醫(yī)科大學(xué),2012.

[10]狄曉敏,謝紅薇.多疾病共同危險(xiǎn)因素挖掘與MARS預(yù)測(cè)模型研究[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(10):36- 40.

Analysis of Travel Patterns based on Decision Tree Models

LI Gang1,MA Shuang1,GUO Shujuan2,ZUO Zhongyi1

(1.School of Traffic and Transportation Engineering,Dalian Jiaotong University,Dalian 116028,China; 2.College of Transportation Management,Dalian Maritime University,Dalian 116026,China)

To promote reasonable change of urban transportation structure,two aspects are focused by employing personal trip data in Jabodetabek metropolitan area, Indonesia.One is studying the usage of the paratransit,and the other is studying citizen travel patterns.Further,two decision tree models are built based on the above-mentioned aspects.The research results indicate the most significant factors to the two models,and explore the rules of the split value of decision tree nodes,i.e.,uncovering the rules of the above-mentioned influencing factors.

travel pattern; decision tree; exhaustive CHAID; paratransit; Jabodetabek metropolitan area

1673- 9590(2016)05- 0078- 05

2016- 07- 11

國(guó)家自然科學(xué)基金青年科學(xué)基金資助項(xiàng)目(71302085);浙江省自然科學(xué)基金青年科學(xué)基金資助項(xiàng)目(LQ13G010011);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(3132016213)

李綱(1982- ),男,講師,博士,主要從事交通規(guī)劃方面的研究

E-mail:LIGangPE2012@hotmail.com.

A

猜你喜歡
公共交通決策樹(shù)比例
《城市公共交通》雜志社簡(jiǎn)介
人體比例知多少
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于計(jì)算實(shí)驗(yàn)的公共交通需求預(yù)測(cè)方法
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
公共交通一卡通TSM平臺(tái)研究
按事故責(zé)任比例賠付
紅土地(2016年7期)2016-02-27 15:05:54
基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
翁源县| 江西省| 普宁市| 浦县| 巨野县| 哈尔滨市| 峨山| 南川市| 乐东| 溧阳市| 增城市| 抚顺市| 凤阳县| 宜章县| 蕲春县| 望谟县| 二手房| 清徐县| 化隆| 新平| 宜兰市| 旬阳县| 怀集县| 齐齐哈尔市| 扬州市| 体育| 韶关市| 阳城县| 靖西县| 夏河县| 罗江县| 禄劝| 上栗县| 宜兰县| 永修县| 江北区| 关岭| 秀山| 治多县| 万源市| 三台县|