肖 林 衛(wèi) 翀 陳小鴻 單肖年
(同濟大學交通運輸工程學院1) 上?!?01804) (同濟大學道路與交通工程教育部重點實驗室2) 上?!?01804)
(北京交通大學交通運輸學院3) 北京 100044) (首都世界城市順暢交通協(xié)同創(chuàng)新中心4) 北京 100124)
基于Mixed-Logit的半補償型方式劃分模型研究*
肖林1,2)衛(wèi)翀3,4)陳小鴻1,2)單肖年1,2)
(同濟大學交通運輸工程學院1)上海201804)(同濟大學道路與交通工程教育部重點實驗室2)上海201804)
(北京交通大學交通運輸學院3)北京100044)(首都世界城市順暢交通協(xié)同創(chuàng)新中心4)北京100124)
摘要:引入閾值的概念,建立基于Mixed-Logit模型的半補償型方式劃分模型,將選擇過程劃分為2個階段,并在第二階段采用Mixed-Logit模型,克服IIA特性和喜好隨機性限制兩大缺陷,最終達到更好地描述出行方式選擇行為的目的.基于SP調查獲取的樣本數(shù)據(jù),采用馬爾科夫鏈蒙特卡洛算法結合數(shù)據(jù)擴張技術的方法對模型參數(shù)進行標定,利用命中率法對模型預測結果進行檢驗,并與MNL模型進行對比,驗證了該模型應用于交通方式劃分的可行性及優(yōu)越性.
關鍵詞:方式劃分;Mixed-Logit模型;半補償型模型;閾值;SP調查
肖林(1991- ):男,碩士生,主要研究領域為交通運輸規(guī)劃與管理
0引言
目前,非集計模型已成為分析研究出行者方式選擇行為的主要研究手段,并得到了廣泛研究與應用.但以Logit為代表的非集計模型同樣存在一定缺陷.受到IIA特性(independenceofirrelevantalternatives),和喜好隨機性限制(limitationofrandomtastevariation),對模型預測精度影響較大[1].
Swait,Bhat,V.Cantillo等[2-4]研究表明,出行者在進行選擇時對交通方式重要的屬性值存在閾值要求,如當某公交車的出行時間超過一定時間后,則不再考慮乘坐公交車,此時公交車被選擇的概率存在一個“突變”.基于補償型效用函數(shù)的Logit模型以及NL模型顯然無法很好地描述這種現(xiàn)象.因此,對非集計模型進行改進,減少甚至避免以上缺陷對預測結果的影響,更為科學合理地描述出行者的出行方式選擇行為是本文的研究重點.
1模型建立與推導
1.1隨機效用理論
隨機效用理論(randomutilitytheory)將消費者行為理論中的最大效用假設與概率論相結合,用以解決多方案選擇問題[5].基于隨機效用理論并假設其隨機效用項服從Gumbul分布進而推導出Logit模型的選擇概率公式如下.
(1)
式中:Uni,Vni,εni分別為出行者n對選擇肢i的效用、固定效用和隨機效用;Pni為出行者n選擇i的概率.
2.2出行方式選擇決策流程——2階段選擇
前文已提到,當選擇肢某屬性值達到閾值時,出行者的選擇行為規(guī)律將發(fā)生“突變”.Manski提出引入閾值的概念,將每個人的出行方式選擇行為分為2個階段,分別為出行者選擇肢集合的生成階段(choicesetformulation)和補償性選擇過程(compensatorychoiceprocess)[6].如此便可很好地解決因閾值存在導致選擇概率發(fā)生突變的問題,以更好地描述和理解出行者的選擇行為過程,提高預測精度,決策流程圖見圖1.
圖1 出行方式選擇決策流程
1.3模型假設與基礎
根據(jù)模型理論與建立思路,進行相應的假設與變量、參數(shù)等的設定如下.
假設模型中供出行者選擇的所有選擇肢的集合為M;Pnj為選擇肢j被出行者n選擇的概率;向量Xnj=(Xnj1,Xnj2,…,Xnjk)為選擇肢j的屬性變量;向量Tnj=(Tnj1,Tnj2,…,Tnjk)為選擇肢j屬性變量相應的閾值;向量β=(β1,β2,…,βk)屬性變量參數(shù);An為出行者n對每個選擇肢j進行篩選后得到的選擇肢集合,當選擇肢屬性變量均滿足相應閾值要求時則該選擇肢進入選擇肢集合.
由此,所有選擇肢可組成多種選擇肢集合,每種集合以一定的概率出現(xiàn),將所有可能出現(xiàn)的集合作為一個元素構成一個集合.同時不會出現(xiàn)出行者沒有任何選擇即G為空集的情況.所以不難分析出,若集合M有m個元素,則集合G的元素個數(shù)為2m-1.如M={A1,A2},則:G={(A1),(A2),(A1,A2)}..
1.4選擇第一階段:選擇肢集合生成
由于研究者并不能確定閾值的具體數(shù)值,且出行者社會經(jīng)濟特征的不同或者選擇環(huán)境的影響,閾值存在差異性,故在本文所建立的模型中假設閾值是一個隨機變量.同時需要考慮到的特征變量如費用、時間等變量具有非負性,假設閾值服從對數(shù)正態(tài)分布Tnjk~1 g-N(μnjk,σnjk2),閾值之間相互獨立,協(xié)方差為0.
假設選擇集合為M,出行者n需基于閾值對這m個選擇肢進行篩選,超過閾值限制的選擇肢將被排除.假設選擇肢j(j∈M)共有k個特征變量,基于合取規(guī)則,需要將這k個特征變量與相應閾值進行比較,只有滿足以下條件[7].
(2)
(3)
選擇肢j才能被接受進入選擇肢集合An.
閾值服從對數(shù)正態(tài)分布Tnk~1 g-N(μnk,σnk2),由此選擇肢j能夠被出行者n接受,成為選擇肢集合An中的元素的概率為
(4)
式中:Xnj,Tn分別為選擇肢j的特征變量向量及閾值向量;Pnj1為k個特征變量中第l個特征變量值Xnj1小于閾值Tni的概率.
出現(xiàn)出行者n的選擇肢集合An=?的情況的概率為
(5)
選擇肢集合為空集應在模型的第一階段將該情況排除.
集合G為所有選擇肢集合的可能組合中選擇肢集合An的概率計算公式如下.
(6)
1.5第二階段:補償型選擇過程
在Logit模型中,固定效用項Vni是特征變量Xni的函數(shù).通常假設二者呈線性關系,即
(7)
在Logit或者NL等模型中,均假設未知參數(shù)為固定常數(shù),每個人的特征向量參數(shù)都相同.Mixed-Logit模型假設特征變量的參數(shù)向量β為隨機向量,服從某種分布,假設概率密度函數(shù)為f(β).結合MNL模型的概率公式可以得到Mixed-Logit模型的選擇概率計算公式如下.
(8)
式中:Lni(β)為Logit模型對出行者n選擇選擇肢i的概率
(9)
結合以上3式,最終Mixed-Logit模型的選擇概率可寫為以下形式.
(10)
式中:Xnj=[Xni1,Xni2,…,Xnik,…,Xniκ]為選擇肢i對于出行者n的特征變量;β=[β1,β2,…,βk]'為各個特征變量所對應的未知參數(shù)向量;f(β)為聯(lián)合分布密度函數(shù).
假設特征變量參數(shù)服從正態(tài)分布:
(11)
由此可得在Mixed-Logit模型中,出行者n在選擇肢集合中選擇選擇肢i的概率選擇公式,為了與最終出行者n選擇選擇肢i的表達式區(qū)分開,本文將Mixed-Logit模型的選擇概率表達如下.
(12)
式中:PMLni為在Mixed-Logit模型出行者選擇某選擇肢的概率;f(β)為隨機參數(shù)的概率密度函數(shù).
根據(jù)文中模型可知,若選擇肢i在出行者n的選擇肢集合An中,則利用第二階段的選擇概率計算,否則其選擇概率為零.出行者n對選擇肢i的選擇概率即為所有可能的集合中的選擇肢i被出行者n選擇的概率之和.
(13)
式中:Pni(i/An)為在給定選擇肢集合An時出行者n選擇選擇肢i的概率
(14)
1.6半補償型方式劃分模型選擇概率公式
綜合以上的計算公式,可以得到最終基于Mixed-Logit的半補償型方式劃分模型中出行者n對選擇肢i的選擇概率計算公式如下.
(15)
式中:
2模型應用實例
2.1選擇肢及特征變量的確定
2013年4月在北京部分公司針對上班族在基于商務活動的目的時的方式選擇行為進行了SP調查.選擇肢分別為城市軌道交通(SUBWAY)、公交車(BUS)、出租車(TAXI)以及私家車(CAR).在選擇肢屬性變量選擇上,由于出行者的方式選擇行為往往會受到眾多因素的影響 .本文模型獲取數(shù)據(jù)來源是基于對北京市上班族的問卷調查,根據(jù)《北京市居民出行調查報告》對影響出行選擇行為的影響因素進行分析[8],以此為依據(jù)確定本文模型的屬性變量.
2.2出行方式選擇行為調查
通過參考國內外相關文獻中對樣本量的需求和調查方法[9],并結合本文模型設定的屬性變量個數(shù)以及參數(shù)個數(shù),本文采用SP調查方法獲取標定參數(shù)的數(shù)據(jù),調查對象為北京市上班族,調查一共發(fā)放272份問卷,其中回收有效問卷150份問卷,共計900組有效數(shù)據(jù).以下為本次SP調查問卷的設計過程.
SP調查目的是得到被調查者對選擇肢屬性在不同水平下的偏好程度,首先需要根據(jù)模型的變量設置來確定出行方式的屬性及相應的水平值,然后進行情境設計,得到SP調查問卷.
1)選擇肢屬性的確定根據(jù)模型屬性變量的設定和SP調查屬性個數(shù)3~4個為宜,本文在調查時將出行時間分為接近時間與在車時間(接近時間=步行至站點時間+等候時間).最終本次SP調查4種交通方式的屬性設置見表1.
表1 SP調查屬性
2)水平值的確定本次SP調查假設出行者的出行目的及出行距離均一致,根據(jù)北京居民平均出行距離以及機動化交通方式的競爭范圍,將出行距離上設置在8km,根據(jù)模型的目的以及實際情況(調查地點為北京),各方式出行費用范圍依據(jù)出行距離(8km)得到,其中地鐵票價進行調整以體現(xiàn)費用對軌道交通選擇的影響,私家車出行費用范圍主要通過油耗費用及現(xiàn)行停車費率得到,最終本次SP調查設置的各屬性變化范圍見表2.
表2 屬性變化范圍表
注:時間單位為min;費用單位為元.
在確定屬性及水平值后,本次SP調查根據(jù)《均勻設計與均勻設計表》得到相應的情景組合[10].并從各種交通方式的不同情景進行隨機組合,隨機組合出大量的情景.再結合需要采集的個人信息,即可設計出大量不同的調查問卷.
2.3模型參數(shù)估計
本文采用馬爾科夫鏈蒙特卡羅算法進行參數(shù)估計,并通過Matlab平臺來實現(xiàn)該算法.為避免Mixed-Logit模型中的積分,簡化運算,VanDyk和Meng在《TheArtofDataAugmentation》中提出將數(shù)據(jù)擴張技術(dataaugmentation)與馬爾科夫鏈蒙特卡羅算法相結合來避免積分計算.
具體做法是在每次隨機產(chǎn)生參數(shù)矩陣,同樣產(chǎn)生隨機參數(shù)β,并且求得隨機參數(shù)β'在其分布參數(shù)μ',σ'下取值β下的條件概率密度:
(16)
計算似然算子時,將Mixed-Logit的概率計算轉換為Logit模型的概率計算,避免積分,最后通過乘上條件概率密度Pdfκ即可得到最終的似然算子[11].
基于該方法,本文模型參數(shù)最終的估計過程如下.
假設需要估計的參數(shù)為θ=(μk,σk,β,μβ,σβ),其中(μk,σk)為閾值的分布參數(shù),β特征變量參數(shù)(包括時間、費用、擁擠度參數(shù)),(μβ,σβ)為隨機特征變量參數(shù)的分布參數(shù).
步驟1隨機產(chǎn)生參數(shù)θK.初始化K=1,θ1=0,K>1時,通過θκ~N(θκ-1,σ)(其中σ根據(jù)參數(shù)范圍設定為常數(shù))得到隨機參數(shù)組θK.
步驟2根據(jù)半補償型方式劃分模型的計算公式將參數(shù)θK代入首先得到不同選擇肢集合的概率,即P(An(G),然后進入選擇第二階段基于參數(shù)求得β,求得Logit選擇概率PLni,然后將兩階結合得到Pni.并求得β中在θk中其分布參數(shù)下取隨機參數(shù)βk的概率密度Pdfκ.
步驟3記樣本容量為N,選擇肢數(shù)目為m,定義輔助變量為yni,且有
(17)
則似然函數(shù)為
(18)
對上式取對數(shù)并與Pdfk相結合得到最終似然算子如下
ln(PdfK)
(19)
步驟4令
(20)
進行如下判斷:當τ≥0時,θ'K=θK;當τ<0時,產(chǎn)生服從U(0,1)的隨機數(shù)t,當τ≥ln(t),θ'K=θK,否則θ'K=θ'K-1,LL(θK)K=LL(θK-1)K-1.
步驟5重復上述過程R次后,求其平均值即為最終參數(shù)估計值,即有下式
(21)
本文利用Matlab平臺實現(xiàn)上述算法并結合SP調查得到的數(shù)據(jù),最終得到參數(shù)估計結果見表3,表4.
從參數(shù)標定結果來看,大部分參數(shù)估計值在置信水平為95%的區(qū)間內變化范圍較小,在可接受范圍內,由此可說明參數(shù)估計值可靠性較高.
從參數(shù)估計值的結果來看, SUBCONST的值相對其他的啞元變量更大,說明在各種交通方式均可到達目的地時,出行者更加傾向于選擇城市軌道交通;公交的啞元變量為負值,根據(jù)分析可能是由于公交的服務質量相對較低.其次,性別的參數(shù)估計結果體現(xiàn)了男女對于舒適度,時間敏感性以及費用等的重視程度均不相同.
時間與費用隨機分布的參數(shù)中均值為負數(shù),說明時間與費用的增長會帶來負效用,與實際情況相符,同時可以看出時間與費用對出行選擇的影響程度是最大的.
表3 模型參數(shù)估計結果表1
表4 模型參數(shù)估計結果表2
閾值方面,求得時間、費用、擁擠程度的閾值的期望值分別為77.5min,31.31元,3.97,雖然在進行特征變量取值時將擁擠程度為離散值,但是其結果可以解釋為人們對擁擠程度的忍受程度在“無座”與“擁擠,感覺不適”之間,在擁擠無座狀態(tài)下時一些人可能可以忍受,但當擁擠程度瀕于較擁擠且會感覺不適時人們可能就拒絕該交通方式.從時間、費用的分布參數(shù)同樣可以發(fā)現(xiàn)出行者對時間、費用、擁擠程度均存在絕對要求,這也證實了在出行方式選擇過程中會受到來自閾值的影響,并不完全遵守補償性原則,存在非補償性原則的特點,以往的方式劃分模型的假設往往會存在人為誤差,而本文所建立的模型很好地解決了這一問題.
2.4模型預測結果對比
本次模型的驗證主要采用命中率法.該方法的原理就是將模型推算得到的結果與實際的出行方式選擇結果進行對比,求得其吻合程度(即命中率).
為將本文模型與Logit模型對比,根據(jù)樣本數(shù)據(jù)求得MNL模型參數(shù)的標定結果見表5.
表5 MNL模型參數(shù)估計結果
在得到標定參數(shù)后,采取部分樣本數(shù)據(jù)對兩個模型的命中率進行對比,最終得到的結果見表6.
表6 模型預測結果對比 %
由表6可知,本文中的模型預測結果的總體命中率達到了87.26%,高于80%,其預測精度在可接受范圍內.相比較于MNL模型的76.14%可以看出,本文所建立的方式劃分模型具有明顯的優(yōu)勢.
3結束語
通過對離散選擇模型與交通方式選擇過程進行分析,引入閾值概念建立了基于Mixed-Logit的半補償型方式劃分模型,并采用SP調查獲取數(shù)據(jù),對建立的模型進行了標定并與MNL進行對比,結果顯示模型具有較高精度,能夠很好地描述交通方式選擇行為,反映時間、費用等閾值的影響,在很大程度上克服了IIA特性、喜好隨機性限制以及補償假設等重大缺陷,更好地描述人們的方式選擇行為,提高了模型的預測精度.
參 考 文 獻
[1]TRAIN K E.Discrete choice methods with simulation [M].London:Cambridge University Press,2003.
[2]SWAIT J.A non-compensatory model incorporating attribute cutoffs[J].Transportation Research Part B:Methodological,2001,35(10):903-928.
[3]BASAR G,BHAT C.A parameterized consideration set model for airport choice: an application to the San Francisco Bay Area [J]. Transportation Research Part B, 2004, 38:889-904.
[4]CANTILLO V,JUAN de D. A semi-compensatory discrete choice model with explicit attribute thresholds of perception [J]. Transportation Research Part B: Methodological, 2005, 39(7):641-657.
[5]姚麗亞, 孫立山, 關宏志. 基于分層Logit模型的交通方式選擇行為研究[J].武漢理工大學學報,2010,31(4):738-741.
[6]MANSKI C,LERMAN S.The estimation of choice probabilities from choice based samples [J].Econometrica, 1977, 45:1977-1988.
[7]關宏志. 非集計模型-交通行為分析的工具[M].北京:人民交通出版社,2004.
[8]北京交通發(fā)展研究中心.北京市2012年交通運行報告[R].北京:北京交通發(fā)展研究中心,2013.
[9]王樹盛,黃衛(wèi),陸振波.Mixed Logit模型及其在交通方式分擔中的應用研究[J].公路交通科技,2006,23(5):88-91.
[10]方開泰.均勻設計與均勻設計表[M].北京:科學出版社,1994.
[11]DAVID A,DYK V,MENG Xiaoli.The art of data augmentation [J].Journal of Computational and Graphical Statistics, 2001, 10(1): 1-50.
Research on Semi-compensatory Modal-split
Model Based on Mixed-Logit Model
XIAO Lin1,2)WEI Chong3,4)CHEN Xiaohong1,2)SHAN Xiaonian1,2)
中圖法分類號:U491
doi:10.3963/j.issn.2095-3844.2015.01.024
收稿日期:2014-10-20
(SchoolofTransportationEngineering,TongjiUniversity,Shanghai201804,China)1)
(TheKeyLaboratoryofRoadandTrafficEngineering,
MinistryofEducation,Shanghai201804,China)2)
(SchoolofTrafficandTransportation,BeijingJiaotongUniversity,Beijing100044,China)3))
(CenterofCooperativeInnovationfor
BeijingMetropolitanTransportation,Beijing100124,China)4)
Abstract:Most of modal spit models were formulated based on the random utility theory that assumes that choice behavior of individuals completely follow compensatory rule; however some previous studies pointed that this assumption is strong, because individuals usually make decision dependent on some psychical thresholds. This paper proposes a semi-compensatory modal-split model based on mixed-logit model combined with psychical thresholds. The proposed model has two stages, and the model generates the choice set using psychical thresholds and then calculates the choice probability by a Mixed-Logit model in order to overcome IIA property and limitation of taste variation. Based on the sample data obtained by SP survey, we estimated the proposed model using a Markov chain Monte Carlo algorithm combined with data augmentation technique. We tested this model using Hit-Ratio method and compared with MNL model. Results show that the performance of the proposed model is better than that of the MNL model.
Key words:modal split; Mixed-Logit model; semi-compensatory model; threshold; SP survey
*中央高?;究蒲袠I(yè)務費資助(批準號:2014JBM056)