荊 毅,林航飛
(同濟(jì)大學(xué)道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海201804)
交通流量是交通工程中的基礎(chǔ)數(shù)據(jù)。交通流量的用途包括但不限于交通設(shè)施的規(guī)劃和建設(shè)、交通政策的設(shè)計(jì)和實(shí)施、道路碰撞風(fēng)險(xiǎn)的量化和交通污染的評(píng)估。正是由于道路交通量的重要性,地方政府投入了大量資金和精力,并采用不同的方法來(lái)采集交通流量數(shù)據(jù)。其中,自動(dòng)流量檢測(cè)器(例如線圈檢測(cè)器和攝像機(jī))是采集交通流量的主要設(shè)備。使用流量檢測(cè)器面臨的一個(gè)重要問(wèn)題是存在大量缺失值[1]。首先,出于成本考慮,流量檢測(cè)器只布設(shè)于少數(shù)主要道路上,而絕大多數(shù)的低等級(jí)道路由于沒(méi)有安裝檢測(cè)器而沒(méi)有數(shù)據(jù)。第二,頻繁的道路重建,可能會(huì)破壞埋在道路下的線圈檢測(cè)器,導(dǎo)致數(shù)據(jù)缺失。第三,傳輸錯(cuò)誤和設(shè)備故障也可能導(dǎo)致數(shù)據(jù)丟失。因此,利用有限的交通流量數(shù)據(jù)來(lái)估算整個(gè)路網(wǎng)的交通量就顯得更加實(shí)際和重要。
在以往的研究中,不同研究人員用不同的方法來(lái)估計(jì)交通量?;跀U(kuò)展因子的模型是一種傳統(tǒng)的交通流量估計(jì)方法。在該模型中,根據(jù)交通量的變化模式對(duì)路段進(jìn)行聚類(lèi),然后利用擴(kuò)展因子將觀測(cè)到的交通量擴(kuò)展到同一個(gè)聚類(lèi)中沒(méi)有交通量的路段。該方法簡(jiǎn)單易行,在世界范圍內(nèi)被廣泛采用[2]。多元線性回歸(MLR)是另一種常用的交通量估計(jì)技術(shù)。在MLR中,最常用的自變量可分為道路設(shè)計(jì)特征、社會(huì)人口統(tǒng)計(jì)特征和土地利用特征[3-4]。此外,還融入了一些基于空間位置的地理特征,例如,Morley等[5]提出了一種由最短路徑的通過(guò)次數(shù)確定的道路重要度特征來(lái)預(yù)測(cè)路網(wǎng)的年平均日交通量(AADT)。隨著數(shù)據(jù)量的快速增長(zhǎng),近年來(lái)機(jī)器學(xué)習(xí)算法如神經(jīng)網(wǎng)絡(luò)[6]、支持向量機(jī)回歸[7]和基于樹(shù)的模型[8]也被用來(lái)估計(jì)流量。雖然機(jī)器學(xué)習(xí)算法能提供比統(tǒng)計(jì)方法更高的精度和效率,但由于其黑箱特性,機(jī)器學(xué)習(xí)結(jié)果解釋性并不高。此外,越來(lái)越多的研究表明,區(qū)域內(nèi)的交通活動(dòng)之間存在空間相關(guān)性,即流量不僅與研究路段的特征相關(guān),而且與相鄰路段上的流量相關(guān)。因此,能捕捉這種空間相關(guān)性的空間模型可以提高流量估計(jì)的精度,這些空間模型包括空間插值[9-11]、空間回歸模型[12]和地理加權(quán)回歸模型[12-14]。
地理加權(quán)回歸模型是一種可以捕捉研究區(qū)域內(nèi)因變量和自變量變化關(guān)系的回歸方法。與許多全局回歸模型不同,地理加權(quán)回歸模型是為每個(gè)研究單元構(gòu)建一套模型參數(shù)[15]。根據(jù)因變量分布的不同分為地理加權(quán)高斯模型、地理加權(quán)泊松模型(GWPR)和地理加權(quán)Probit 模型等。其中,地理加權(quán)泊松模型更適合于對(duì)計(jì)數(shù)數(shù)據(jù)(如交通量)的估計(jì)[12-13]。
使用空間模型的一個(gè)問(wèn)題是道路網(wǎng)絡(luò)中可用數(shù)據(jù)的不平衡分布。由于在估計(jì)路段交通量時(shí),還考慮了附近的交通量,因此附近可用數(shù)據(jù)較少的道路估計(jì)性能較差。Eom等[9]采用空間插值算法對(duì)北卡羅來(lái)納州非高速公路道路的交通量進(jìn)行預(yù)測(cè),發(fā)現(xiàn)在流量檢測(cè)器密度較高的區(qū)域估計(jì)性能更好。解決此問(wèn)題的一種方法是對(duì)原始樣本數(shù)據(jù)重新采樣以平衡其分布。一些研究證明,在建立空間模型之前采用擴(kuò)樣方法可以提高模型的性能。例如,Tajmajer 等[16]在使用機(jī)器學(xué)習(xí)模型預(yù)測(cè)交通量之前,先使用基于擴(kuò)展因子的方法擴(kuò)大了樣本量。Chen等[17]采用合成少數(shù)過(guò)采樣技術(shù)(SMOTE)對(duì)非主干路上的交通量進(jìn)行擴(kuò)樣,結(jié)果表明,SMOTE有助于糾正樣本的不平衡,并顯著提高模型的估計(jì)性能。因此,在建立空間模型之前解決不平衡觀測(cè)值問(wèn)題以提高估計(jì)精度是有必要的。
本研究提出采用擴(kuò)樣與地理加權(quán)泊松回歸相結(jié)合的方法來(lái)對(duì)路網(wǎng)缺失流量進(jìn)行流量估計(jì)。流量數(shù)據(jù)來(lái)源于上海市楊浦區(qū)安裝的悉尼協(xié)調(diào)自適應(yīng)交通系統(tǒng)(SCATS),共計(jì)2 217 條車(chē)道,其中只有560 條車(chē)道有可用流量。首先,采用基于空間相似性的擴(kuò)樣方法來(lái)糾正缺失流量的空間不平衡。然后,基于擴(kuò)樣后數(shù)據(jù)利用地理加權(quán)泊松模型估計(jì)路網(wǎng)中所有車(chē)道的交通流量。最后,為了驗(yàn)證組合模型的性能,采用10 倍的交叉驗(yàn)證方法比較了3 種不同的模型,即 MLR 模型、GWPR 模型以及擴(kuò)樣與 GWPR 組合模型。本文研究結(jié)果為在觀測(cè)值有限且不平衡的情況下提高流量估計(jì)的精度提供了一種可行方案。
本研究的步驟如下:首先,采用Moran’sI指數(shù)來(lái)檢驗(yàn)不同交叉口的交通量之間是否存在空間相關(guān)性。第二,采用擴(kuò)樣技術(shù)對(duì)空間分布不平衡的流量樣本進(jìn)行校正。第三,在擴(kuò)樣樣本的基礎(chǔ)上,采用GWPR 方法提取交通流量與各自變量之間的關(guān)系。最后,采用10倍交叉驗(yàn)證法驗(yàn)證擴(kuò)樣和GWPR組合模型的有效性。
Moran’sI指數(shù)廣泛用于檢驗(yàn)線性回歸的殘差之間是否存在空間自相關(guān)[18]。本研究采用R語(yǔ)言中的“spedp”包來(lái)計(jì)算。Moran’sI指數(shù)的范圍在-1到1之間,表示不同的空間相關(guān)類(lèi)型。
(1)0<I≤1:正相關(guān),在空間上表現(xiàn)為高值(低值)樣本與高值(低值)樣本聚集。
(2)-1≤I<0:負(fù)相關(guān),在空間上表現(xiàn)為高值樣本與低值樣本聚集。
(3)I=0:不相關(guān),在空間上表現(xiàn)為高值或低值樣本隨機(jī)分布。
本文提出了一種新的基于空間相似性的擴(kuò)樣方法來(lái)擴(kuò)充流量樣本。首先,定義空間相似性指標(biāo)dij,如公式(1)所示;然后,對(duì)于缺失流量的車(chē)道i,計(jì)算車(chē)道i與其他有流量車(chē)道的空間相似性;最后,將空間相似性最高(最小的dij)對(duì)應(yīng)車(chē)道的流量作為車(chē)道i的流量。
車(chē)道i和車(chē)道j的空間相似性定義為
式中:Sij為空間相似性;Xi為車(chē)道i終點(diǎn)的X坐標(biāo);Yi為車(chē)道i終點(diǎn)的Y坐標(biāo);Fik為車(chē)道i的第k個(gè)特征;Fjk為車(chē)道j的第k個(gè)特征。考慮到車(chē)道特征的不同尺度,在計(jì)算空間相似性之前,需要對(duì)所有特征進(jìn)行min-max規(guī)范化。
GWPR采用由距離定義的權(quán)重矩陣來(lái)處理空間自相關(guān)問(wèn)題。在估計(jì)中,樣本附近的觀測(cè)值具有更高的權(quán)重。GWPR 為每一個(gè)樣本估計(jì)一組局部參數(shù)。本研究使用R語(yǔ)言中的“spgwr”包對(duì)GWPR模型的進(jìn)行估計(jì)。GWPR模型定義如下:
式中:yi為樣本i的因變量向量(i=1,2,…,n,n為樣本總數(shù));xki為樣本i的第k個(gè)特征向量;β0i為截距項(xiàng);βki為相應(yīng)系數(shù);p為特征(自變量)總數(shù);εi為樣本i的誤差項(xiàng)。
樣本i的估計(jì)系數(shù)可由下式得到:
式中:Wi為樣本i的空間權(quán)重矩陣,由公式(4)和(5)計(jì)算得到;Y為因變量向量;X為特征矩陣。
本研究采用高斯函數(shù)計(jì)算空間權(quán)重矩陣,它將權(quán)重作為距離的連續(xù)函數(shù)來(lái)計(jì)算,以確保有足夠的局部觀測(cè)值來(lái)估計(jì)模型[19]。
式中:Dij為樣本i與樣本j的歐式距離;n為樣本總數(shù);θ為帶寬。
本研究以位于上海中心城區(qū)東北部的楊浦區(qū)為研究區(qū)域。楊浦區(qū)土地面積60.73 km2,到2016年底擁有 130.94 萬(wàn)居民[20]。當(dāng)?shù)卣畯?1986 年開(kāi)始引入悉尼協(xié)調(diào)自適應(yīng)交通系統(tǒng)(SCATS),對(duì)重要交叉口的交通量進(jìn)行監(jiān)控和協(xié)調(diào)信號(hào)時(shí)間。SCATS 依靠埋在進(jìn)口車(chē)道的線圈檢測(cè)器實(shí)時(shí)采集交通量,并根據(jù)采集的交通量自動(dòng)調(diào)整交叉口的信號(hào)相位,以達(dá)到整個(gè)交叉口的最佳通行效率[21]。
圖1 研究區(qū)域和已知流量分布Fig.1 Study area and known traffic volume distribution
本研究的路網(wǎng)如圖1 所示。地面道路全長(zhǎng)308.0 km,其中主干道占14%,次干道占23%,支路占63%。此外,該區(qū)還有20.5 km 的快速路。車(chē)道流量來(lái)自于2016年10月11日的SCATS流量數(shù)據(jù)。研究區(qū)共有2 217條車(chē)道,但只有560條具有完整的流量。如圖1 所示,具有已知流量的車(chē)道主要分布在等級(jí)較高的路段,這是合理的,因?yàn)樵诼肪W(wǎng)中高等級(jí)道路更有可能獲得較好的維護(hù)。另外在路網(wǎng)中的一些區(qū)域完全沒(méi)有已知流量,可知已知流量的空間分布極不平衡。
本研究以早晨7:00—8:00 車(chē)道小時(shí)交通量為因變量,以道路幾何特征和建成環(huán)境特征為自變量。
在道路幾何特征中,所有車(chē)道方向變量都是啞變量,其中直行方向?yàn)閰⒖挤较?。其他道路幾何特征包括路段長(zhǎng)度、路段等級(jí)、下游道路等級(jí)、路段車(chē)道數(shù)量、公交線路數(shù)量、是否單行道、是否公交專(zhuān)用道、是否與快速路平行,以及上下游是否連接快速路。受數(shù)據(jù)條件的限制,建成環(huán)境特征包括車(chē)道附近的人口密度、平均房?jī)r(jià)、到最近三甲醫(yī)院的距離、到最近購(gòu)物中心的距離以及到最近大學(xué)的距離。變量選擇使用MLR進(jìn)行,統(tǒng)計(jì)上不顯著以及方差膨脹因子(VIF)大于5.0 的變量[4-5]將被去掉。所有最終使用變量匯總見(jiàn)表1。
使用第1.2 節(jié)中提出的擴(kuò)樣方法,將原始數(shù)據(jù)集從560車(chē)道擴(kuò)大到2 217車(chē)道(整個(gè)路網(wǎng))。如表1所示,擴(kuò)樣前后兩個(gè)樣本集的同一變量的均值和標(biāo)準(zhǔn)差相近。另外,一些變量,如車(chē)道數(shù)、公交線路數(shù)、人口密度和房?jī)r(jià),在擴(kuò)樣后呈下降趨勢(shì)。這是合理的,因?yàn)樵剂髁繑?shù)據(jù)主要來(lái)自于較高等級(jí)道路的檢測(cè)器,這些路段的變量,如車(chē)道數(shù)、公交線路數(shù)、人口密度等相對(duì)較大,當(dāng)樣本集擴(kuò)大到整個(gè)路網(wǎng)時(shí),即樣本集中等級(jí)較低道路的比例增加時(shí),這些自變量的均值隨之減小[17]。
表1 自變量和因變量描述Tab.1 Description of dependent variables and independent variables
Moran’sI檢驗(yàn)用于檢驗(yàn)不同車(chē)道上小時(shí)交通量的空間相關(guān)性。原始樣本的Moran’sI指數(shù)為0.055 6,P值為0.000 6。擴(kuò)樣后的樣本,Moran’sI指數(shù)為0.147 4,P值為 0。Moran’sI檢驗(yàn)表明車(chē)道小時(shí)交通流量之間存在顯著的正空間相關(guān)性。也就是說(shuō),在空間上高流量車(chē)道與高流量車(chē)道聚集,低流量車(chē)道與低流量車(chē)道聚集。因此,利用空間模型來(lái)處理空間相關(guān)性是非常必要的。
本研究分別對(duì)3 個(gè)模型進(jìn)行了擬合和比較,它們分別是使用原始樣本的MLR(模型1),使用原始樣本的GWPR(模型2),和使用擴(kuò)樣后樣本的GWPR(模型3),結(jié)果見(jiàn)表2。
對(duì)于模型1,所有方向相關(guān)變量與小時(shí)流量呈負(fù)相關(guān)(參考方向?yàn)橹毙校?。其他變量,包括下游道路等?jí)、路段車(chē)道數(shù)、最近醫(yī)院距離、是否為公交專(zhuān)用道以及是否與快速路平行,也都與流量呈負(fù)相關(guān)。相反,公交線路數(shù)、附近的房?jī)r(jià)、附近的人口密度以及上下游是否連接快速路都呈現(xiàn)出正相關(guān)關(guān)系。
對(duì)于模型2和模型3,每條車(chē)道都有自己的回歸系數(shù)。在表2中,系數(shù)由均值、最小值、最大值、正系數(shù)比例以及負(fù)系數(shù)比例來(lái)描述。如表2所示,3個(gè)模型中同一變量的系數(shù)(或系數(shù)均值)的符號(hào)相同,表明該變量對(duì)流量的整體影響在所有模型中一致。然而,當(dāng)聚焦于局部區(qū)域時(shí)會(huì)觀察到差異。模型3 在正系數(shù)比例和負(fù)系數(shù)比例中表現(xiàn)出最大的變化性,表明其捕捉自變量局部效應(yīng)的能力最佳。與此相反,模型2 在很大程度上與模型1 一致,呈現(xiàn)較少的局部變化。如圖2 所示,左圖表示原始的已知車(chē)道小時(shí)流量,右圖表示由模型3估計(jì)的車(chē)道小時(shí)流量,對(duì)比可知,估計(jì)的車(chē)道流量與已知的原始流量高度一致。
為了比較模型的估計(jì)性能,本文進(jìn)行了10倍的交叉驗(yàn)證,并采用了R平方值(R2)、均方根誤差(RMSE)和絕對(duì)百分比平均誤差(MAPE)3 種指標(biāo)來(lái)衡量對(duì)驗(yàn)證結(jié)果。如表3所示,模型3的RMSE和MAPE 最小,并且R2最大。具體來(lái)說(shuō),與模型1 和模型2 相比,模型3 的RMSE 分別降低了11.4%和11.3%,MAPE 分別降低了16.3%和12.9%,R2分別提高了57.7%和33.5%。
表2 模型1、模型2和模型3的回歸結(jié)果Tab.2 Regression results of model 1,model 2 and model 3
表3 模型1、模型2和模型3的交叉驗(yàn)證結(jié)果Tab.3 Cross validation results of model 1,model 2 and model 3
圖2 已知車(chē)道交通量和估計(jì)車(chē)道交通量Fig.2 Known lane traffic volume and estimated lane traffic volume
綜上所述,擴(kuò)樣技術(shù)和GWPR的聯(lián)合使用不僅提高了模型的解釋能力,而且提高了預(yù)測(cè)精度。值得注意的是,使用原始樣本的GWPR 性能與MLR相近,即對(duì)于空間分布不均衡或大量缺失數(shù)據(jù)的樣本而言,GWPR 本身并不會(huì)提高模型的性能。這也再次驗(yàn)證擬合模型前對(duì)不平衡的缺失數(shù)據(jù)的處理是有意義的。
除了高精度外,高解釋性也是選擇GWPR的原因。如表2 中所示,3 個(gè)模型的同一變量系數(shù)(或系數(shù)平均值)的符號(hào)一致。換言之,在不同的模型中,變量對(duì)交通量的全局影響的方向是一致的。然而,由于模型3 中各系數(shù)正負(fù)值所占比例的變化最大,因此采用擴(kuò)樣樣本的GWPR 具有最大的空間異質(zhì)性捕捉能力。在GWPR中,所有自變量的估計(jì)系數(shù)和P值在空間上都是不同的,這為解釋自變量對(duì)流量的局部影響提供了更多的信息[13,16,23]??紤]到篇幅限制,本文只討論幾個(gè)信息量最大的自變量,包括右轉(zhuǎn)、車(chē)道數(shù)、是否公交專(zhuān)用道、人口密度,共4個(gè)變量。如圖3所示,在每個(gè)子圖中,左圖表示變量的系數(shù)值,點(diǎn)的大小隨系數(shù)的增大而增大,正系數(shù)設(shè)為深灰色,負(fù)系數(shù)設(shè)為淺灰色;右圖表示變量系數(shù)的顯著性,統(tǒng)計(jì)上顯著的系數(shù)(即P值<0.1)設(shè)置為淺灰色,反之設(shè)置為深灰色。如圖3所示,系數(shù)和系數(shù)顯著性都在研究區(qū)域內(nèi)呈現(xiàn)出變化趨勢(shì)。
對(duì)于與車(chē)道方向變量,其中直行車(chē)道作為基本參考。右轉(zhuǎn)變量與研究區(qū)域的交通量始終呈負(fù)相關(guān),并且在大多數(shù)車(chē)道上統(tǒng)計(jì)顯著(P值<0.1)。左轉(zhuǎn)變量與右轉(zhuǎn)變量相似。表明右轉(zhuǎn)和左轉(zhuǎn)車(chē)道的交通量均低于直行車(chē)道,這是符合實(shí)際的,因?yàn)樵诖蠖鄶?shù)交叉口,直行車(chē)道流量都大于轉(zhuǎn)彎車(chē)道流量。
在63%的車(chē)道中,路段車(chē)道數(shù)與交通量呈負(fù)相關(guān),即路段車(chē)道數(shù)越多,每條車(chē)道的交通量越低。值得注意的是,這一結(jié)論似乎與一些現(xiàn)有研究不一致[5,10-11,16]。原因在于現(xiàn)有研究的因變量是路段交通量,而在本研究中是車(chē)道交通量。路段上的更多車(chē)道對(duì)應(yīng)更大的交通量,但是在某一路段上,由于更多的車(chē)道共享路段交通量,每條車(chē)道的分享交通量反而會(huì)減少。此外,仍有37%的車(chē)道與交通量呈正相關(guān),主要分布在研究區(qū)西南部。該區(qū)域靠近上海市中心,交通需求較大可能是導(dǎo)致與交通量正相關(guān)的主要原因。
另一個(gè)與交通量呈全局負(fù)相關(guān)的道路幾何特征是公交專(zhuān)用道變量,表明公交專(zhuān)用道的設(shè)置顯著降低了車(chē)道流量。人口密度與大多數(shù)車(chē)道(78%)的交通量呈正相關(guān),這與之前的各種研究一致[4,12]。然而,仍有一些地方,人口密度呈負(fù)相關(guān)。其中一些在統(tǒng)計(jì)上不顯著,而另一些主要位于主干道處。一種解釋是,主干道上的大多數(shù)交通都是過(guò)境交通,這與當(dāng)?shù)厣鐣?huì)人口結(jié)構(gòu)(如人口密度)沒(méi)有密切關(guān)系[19]。
圖3 部分變量系數(shù)值與顯著性的空間分布Fig.3 Spatial distribution of the values and significance of some variables
本研究為觀測(cè)值有限且分布不均時(shí)的交通流量估計(jì)提供了一種新的方法。首先用擴(kuò)樣技術(shù)填充不平衡缺失數(shù)據(jù),然后用地理加權(quán)回歸模型(GWPR)估計(jì)車(chē)道交通量。結(jié)果表明,與傳統(tǒng)的MLR或直接使用GWPR相比,采樣擴(kuò)展技術(shù)和GWPR結(jié)合的方法具有更好的交通量估計(jì)性能。此外,GWPR 可以很好地捕捉自變量與交通量關(guān)系的空間異質(zhì)性,為解釋自變量的影響提供更多的細(xì)節(jié)。
值得進(jìn)一步研究的是,首先,由于數(shù)據(jù)條件的限制,本研究未能包含足夠的土地利用和社會(huì)人口特征,例如崗位密度和土地利用率等。這些因素都與交通量關(guān)系密切。若將它們納入到模型中可以進(jìn)一步提高模型擬合優(yōu)度和精度。此外,大量新的數(shù)據(jù)源如手機(jī)數(shù)據(jù)、GPS數(shù)據(jù)等也在不斷涌現(xiàn),可以將這些新數(shù)據(jù)源與傳統(tǒng)SCATS數(shù)據(jù)集成,以獲得更高的流量估計(jì)性能。