基于擴(kuò)樣技術(shù)和地理加權(quán)泊松回歸模型的交通量估計(jì)

2020-07-29 13:49林航飛

同濟(jì)大學(xué)學(xué)報(bào)（自然科學(xué)版） 2020年7期

荊毅，林航飛

（同濟(jì)大學(xué)道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室，上海201804）

交通流量是交通工程中的基礎(chǔ)數(shù)據(jù)。交通流量的用途包括但不限于交通設(shè)施的規(guī)劃和建設(shè)、交通政策的設(shè)計(jì)和實(shí)施、道路碰撞風(fēng)險(xiǎn)的量化和交通污染的評(píng)估。正是由于道路交通量的重要性，地方政府投入了大量資金和精力，并采用不同的方法來(lái)采集交通流量數(shù)據(jù)。其中，自動(dòng)流量檢測(cè)器（例如線圈檢測(cè)器和攝像機(jī)）是采集交通流量的主要設(shè)備。使用流量檢測(cè)器面臨的一個(gè)重要問(wèn)題是存在大量缺失值［1］。首先，出于成本考慮，流量檢測(cè)器只布設(shè)于少數(shù)主要道路上，而絕大多數(shù)的低等級(jí)道路由于沒(méi)有安裝檢測(cè)器而沒(méi)有數(shù)據(jù)。第二，頻繁的道路重建，可能會(huì)破壞埋在道路下的線圈檢測(cè)器，導(dǎo)致數(shù)據(jù)缺失。第三，傳輸錯(cuò)誤和設(shè)備故障也可能導(dǎo)致數(shù)據(jù)丟失。因此，利用有限的交通流量數(shù)據(jù)來(lái)估算整個(gè)路網(wǎng)的交通量就顯得更加實(shí)際和重要。

在以往的研究中，不同研究人員用不同的方法來(lái)估計(jì)交通量?；跀U(kuò)展因子的模型是一種傳統(tǒng)的交通流量估計(jì)方法。在該模型中，根據(jù)交通量的變化模式對(duì)路段進(jìn)行聚類(lèi)，然后利用擴(kuò)展因子將觀測(cè)到的交通量擴(kuò)展到同一個(gè)聚類(lèi)中沒(méi)有交通量的路段。該方法簡(jiǎn)單易行，在世界范圍內(nèi)被廣泛采用［2］。多元線性回歸（MLR）是另一種常用的交通量估計(jì)技術(shù)。在MLR中，最常用的自變量可分為道路設(shè)計(jì)特征、社會(huì)人口統(tǒng)計(jì)特征和土地利用特征［3-4］。此外，還融入了一些基于空間位置的地理特征，例如，Morley等［5］提出了一種由最短路徑的通過(guò)次數(shù)確定的道路重要度特征來(lái)預(yù)測(cè)路網(wǎng)的年平均日交通量（AADT）。隨著數(shù)據(jù)量的快速增長(zhǎng)，近年來(lái)機(jī)器學(xué)習(xí)算法如神經(jīng)網(wǎng)絡(luò)［6］、支持向量機(jī)回歸［7］和基于樹(shù)的模型［8］也被用來(lái)估計(jì)流量。雖然機(jī)器學(xué)習(xí)算法能提供比統(tǒng)計(jì)方法更高的精度和效率，但由于其黑箱特性，機(jī)器學(xué)習(xí)結(jié)果解釋性并不高。此外，越來(lái)越多的研究表明，區(qū)域內(nèi)的交通活動(dòng)之間存在空間相關(guān)性，即流量不僅與研究路段的特征相關(guān)，而且與相鄰路段上的流量相關(guān)。因此，能捕捉這種空間相關(guān)性的空間模型可以提高流量估計(jì)的精度，這些空間模型包括空間插值［9-11］、空間回歸模型［12］和地理加權(quán)回歸模型［12-14］。

地理加權(quán)回歸模型是一種可以捕捉研究區(qū)域內(nèi)因變量和自變量變化關(guān)系的回歸方法。與許多全局回歸模型不同，地理加權(quán)回歸模型是為每個(gè)研究單元構(gòu)建一套模型參數(shù)［15］。根據(jù)因變量分布的不同分為地理加權(quán)高斯模型、地理加權(quán)泊松模型（GWPR）和地理加權(quán)Probit 模型等。其中，地理加權(quán)泊松模型更適合于對(duì)計(jì)數(shù)數(shù)據(jù)（如交通量）的估計(jì)［12-13］。

使用空間模型的一個(gè)問(wèn)題是道路網(wǎng)絡(luò)中可用數(shù)據(jù)的不平衡分布。由于在估計(jì)路段交通量時(shí)，還考慮了附近的交通量，因此附近可用數(shù)據(jù)較少的道路估計(jì)性能較差。Eom等［9］采用空間插值算法對(duì)北卡羅來(lái)納州非高速公路道路的交通量進(jìn)行預(yù)測(cè)，發(fā)現(xiàn)在流量檢測(cè)器密度較高的區(qū)域估計(jì)性能更好。解決此問(wèn)題的一種方法是對(duì)原始樣本數(shù)據(jù)重新采樣以平衡其分布。一些研究證明，在建立空間模型之前采用擴(kuò)樣方法可以提高模型的性能。例如，Tajmajer 等［16］在使用機(jī)器學(xué)習(xí)模型預(yù)測(cè)交通量之前，先使用基于擴(kuò)展因子的方法擴(kuò)大了樣本量。Chen等［17］采用合成少數(shù)過(guò)采樣技術(shù)（SMOTE）對(duì)非主干路上的交通量進(jìn)行擴(kuò)樣，結(jié)果表明，SMOTE有助于糾正樣本的不平衡，并顯著提高模型的估計(jì)性能。因此，在建立空間模型之前解決不平衡觀測(cè)值問(wèn)題以提高估計(jì)精度是有必要的。

本研究提出采用擴(kuò)樣與地理加權(quán)泊松回歸相結(jié)合的方法來(lái)對(duì)路網(wǎng)缺失流量進(jìn)行流量估計(jì)。流量數(shù)據(jù)來(lái)源于上海市楊浦區(qū)安裝的悉尼協(xié)調(diào)自適應(yīng)交通系統(tǒng)（SCATS），共計(jì)2 217 條車(chē)道，其中只有560 條車(chē)道有可用流量。首先，采用基于空間相似性的擴(kuò)樣方法來(lái)糾正缺失流量的空間不平衡。然后，基于擴(kuò)樣后數(shù)據(jù)利用地理加權(quán)泊松模型估計(jì)路網(wǎng)中所有車(chē)道的交通流量。最后，為了驗(yàn)證組合模型的性能，采用10 倍的交叉驗(yàn)證方法比較了3 種不同的模型，即 MLR 模型、GWPR 模型以及擴(kuò)樣與 GWPR 組合模型。本文研究結(jié)果為在觀測(cè)值有限且不平衡的情況下提高流量估計(jì)的精度提供了一種可行方案。

1 方法

本研究的步驟如下：首先，采用Moran’sI指數(shù)來(lái)檢驗(yàn)不同交叉口的交通量之間是否存在空間相關(guān)性。第二，采用擴(kuò)樣技術(shù)對(duì)空間分布不平衡的流量樣本進(jìn)行校正。第三，在擴(kuò)樣樣本的基礎(chǔ)上，采用GWPR 方法提取交通流量與各自變量之間的關(guān)系。最后，采用10倍交叉驗(yàn)證法驗(yàn)證擴(kuò)樣和GWPR組合模型的有效性。

1.1 Moran’s I 指數(shù)

Moran’sI指數(shù)廣泛用于檢驗(yàn)線性回歸的殘差之間是否存在空間自相關(guān)［18］。本研究采用R語(yǔ)言中的“spedp”包來(lái)計(jì)算。Moran’sI指數(shù)的范圍在-1到1之間，表示不同的空間相關(guān)類(lèi)型。

（1）0＜I≤1：正相關(guān)，在空間上表現(xiàn)為高值（低值）樣本與高值（低值）樣本聚集。

（2）-1≤I＜0：負(fù)相關(guān)，在空間上表現(xiàn)為高值樣本與低值樣本聚集。

（3）I=0：不相關(guān)，在空間上表現(xiàn)為高值或低值樣本隨機(jī)分布。

1.2 基于空間相似性的擴(kuò)樣方法

本文提出了一種新的基于空間相似性的擴(kuò)樣方法來(lái)擴(kuò)充流量樣本。首先，定義空間相似性指標(biāo)dij，如公式（1）所示；然后，對(duì)于缺失流量的車(chē)道i，計(jì)算車(chē)道i與其他有流量車(chē)道的空間相似性；最后，將空間相似性最高（最小的dij）對(duì)應(yīng)車(chē)道的流量作為車(chē)道i的流量。

車(chē)道i和車(chē)道j的空間相似性定義為

式中：Sij為空間相似性；Xi為車(chē)道i終點(diǎn)的X坐標(biāo)；Yi為車(chē)道i終點(diǎn)的Y坐標(biāo)；Fik為車(chē)道i的第k個(gè)特征；Fjk為車(chē)道j的第k個(gè)特征。考慮到車(chē)道特征的不同尺度，在計(jì)算空間相似性之前，需要對(duì)所有特征進(jìn)行min-max規(guī)范化。

1.3 地理加權(quán)泊松回歸（GWPR）

GWPR采用由距離定義的權(quán)重矩陣來(lái)處理空間自相關(guān)問(wèn)題。在估計(jì)中，樣本附近的觀測(cè)值具有更高的權(quán)重。GWPR 為每一個(gè)樣本估計(jì)一組局部參數(shù)。本研究使用R語(yǔ)言中的“spgwr”包對(duì)GWPR模型的進(jìn)行估計(jì)。GWPR模型定義如下：

式中：yi為樣本i的因變量向量（i=1，2，…，n，n為樣本總數(shù)）；xki為樣本i的第k個(gè)特征向量；β0i為截距項(xiàng)；βki為相應(yīng)系數(shù)；p為特征（自變量）總數(shù)；εi為樣本i的誤差項(xiàng)。

樣本i的估計(jì)系數(shù)可由下式得到：

式中：Wi為樣本i的空間權(quán)重矩陣，由公式（4）和（5）計(jì)算得到；Y為因變量向量；X為特征矩陣。

本研究采用高斯函數(shù)計(jì)算空間權(quán)重矩陣，它將權(quán)重作為距離的連續(xù)函數(shù)來(lái)計(jì)算，以確保有足夠的局部觀測(cè)值來(lái)估計(jì)模型［19］。

式中：Dij為樣本i與樣本j的歐式距離；n為樣本總數(shù)；θ為帶寬。

2 數(shù)據(jù)描述

2.1 研究區(qū)域和數(shù)據(jù)來(lái)源

本研究以位于上海中心城區(qū)東北部的楊浦區(qū)為研究區(qū)域。楊浦區(qū)土地面積60.73 km2，到2016年底擁有 130.94 萬(wàn)居民［20］。當(dāng)?shù)卣畯?1986 年開(kāi)始引入悉尼協(xié)調(diào)自適應(yīng)交通系統(tǒng)（SCATS），對(duì)重要交叉口的交通量進(jìn)行監(jiān)控和協(xié)調(diào)信號(hào)時(shí)間。SCATS 依靠埋在進(jìn)口車(chē)道的線圈檢測(cè)器實(shí)時(shí)采集交通量，并根據(jù)采集的交通量自動(dòng)調(diào)整交叉口的信號(hào)相位，以達(dá)到整個(gè)交叉口的最佳通行效率［21］。

圖1 研究區(qū)域和已知流量分布Fig.1 Study area and known traffic volume distribution

本研究的路網(wǎng)如圖1 所示。地面道路全長(zhǎng)308.0 km，其中主干道占14%，次干道占23%，支路占63%。此外，該區(qū)還有20.5 km 的快速路。車(chē)道流量來(lái)自于2016年10月11日的SCATS流量數(shù)據(jù)。研究區(qū)共有2 217條車(chē)道，但只有560條具有完整的流量。如圖1 所示，具有已知流量的車(chē)道主要分布在等級(jí)較高的路段，這是合理的，因?yàn)樵诼肪W(wǎng)中高等級(jí)道路更有可能獲得較好的維護(hù)。另外在路網(wǎng)中的一些區(qū)域完全沒(méi)有已知流量，可知已知流量的空間分布極不平衡。

2.2 變量

本研究以早晨7：00—8：00 車(chē)道小時(shí)交通量為因變量，以道路幾何特征和建成環(huán)境特征為自變量。

在道路幾何特征中，所有車(chē)道方向變量都是啞變量，其中直行方向?yàn)閰⒖挤较?。其他道路幾何特征包括路段長(zhǎng)度、路段等級(jí)、下游道路等級(jí)、路段車(chē)道數(shù)量、公交線路數(shù)量、是否單行道、是否公交專(zhuān)用道、是否與快速路平行，以及上下游是否連接快速路。受數(shù)據(jù)條件的限制，建成環(huán)境特征包括車(chē)道附近的人口密度、平均房?jī)r(jià)、到最近三甲醫(yī)院的距離、到最近購(gòu)物中心的距離以及到最近大學(xué)的距離。變量選擇使用MLR進(jìn)行，統(tǒng)計(jì)上不顯著以及方差膨脹因子（VIF）大于5.0 的變量［4-5］將被去掉。所有最終使用變量匯總見(jiàn)表1。

3 結(jié)果

3.1 擴(kuò)樣結(jié)果

使用第1.2 節(jié)中提出的擴(kuò)樣方法，將原始數(shù)據(jù)集從560車(chē)道擴(kuò)大到2 217車(chē)道（整個(gè)路網(wǎng)）。如表1所示，擴(kuò)樣前后兩個(gè)樣本集的同一變量的均值和標(biāo)準(zhǔn)差相近。另外，一些變量，如車(chē)道數(shù)、公交線路數(shù)、人口密度和房?jī)r(jià)，在擴(kuò)樣后呈下降趨勢(shì)。這是合理的，因?yàn)樵剂髁繑?shù)據(jù)主要來(lái)自于較高等級(jí)道路的檢測(cè)器，這些路段的變量，如車(chē)道數(shù)、公交線路數(shù)、人口密度等相對(duì)較大，當(dāng)樣本集擴(kuò)大到整個(gè)路網(wǎng)時(shí)，即樣本集中等級(jí)較低道路的比例增加時(shí)，這些自變量的均值隨之減小［17］。

表1 自變量和因變量描述Tab.1 Description of dependent variables and independent variables

3.2 空間相關(guān)性檢驗(yàn)

Moran’sI檢驗(yàn)用于檢驗(yàn)不同車(chē)道上小時(shí)交通量的空間相關(guān)性。原始樣本的Moran’sI指數(shù)為0.055 6，P值為0.000 6。擴(kuò)樣后的樣本，Moran’sI指數(shù)為0.147 4，P值為 0。Moran’sI檢驗(yàn)表明車(chē)道小時(shí)交通流量之間存在顯著的正空間相關(guān)性。也就是說(shuō)，在空間上高流量車(chē)道與高流量車(chē)道聚集，低流量車(chē)道與低流量車(chē)道聚集。因此，利用空間模型來(lái)處理空間相關(guān)性是非常必要的。

3.3 回歸結(jié)果

本研究分別對(duì)3 個(gè)模型進(jìn)行了擬合和比較，它們分別是使用原始樣本的MLR（模型1），使用原始樣本的GWPR（模型2），和使用擴(kuò)樣后樣本的GWPR（模型3），結(jié)果見(jiàn)表2。

對(duì)于模型1，所有方向相關(guān)變量與小時(shí)流量呈負(fù)相關(guān)（參考方向?yàn)橹毙校?。其他變量，包括下游道路等?jí)、路段車(chē)道數(shù)、最近醫(yī)院距離、是否為公交專(zhuān)用道以及是否與快速路平行，也都與流量呈負(fù)相關(guān)。相反，公交線路數(shù)、附近的房?jī)r(jià)、附近的人口密度以及上下游是否連接快速路都呈現(xiàn)出正相關(guān)關(guān)系。

對(duì)于模型2和模型3，每條車(chē)道都有自己的回歸系數(shù)。在表2中，系數(shù)由均值、最小值、最大值、正系數(shù)比例以及負(fù)系數(shù)比例來(lái)描述。如表2所示，3個(gè)模型中同一變量的系數(shù)（或系數(shù)均值）的符號(hào)相同，表明該變量對(duì)流量的整體影響在所有模型中一致。然而，當(dāng)聚焦于局部區(qū)域時(shí)會(huì)觀察到差異。模型3 在正系數(shù)比例和負(fù)系數(shù)比例中表現(xiàn)出最大的變化性，表明其捕捉自變量局部效應(yīng)的能力最佳。與此相反，模型2 在很大程度上與模型1 一致，呈現(xiàn)較少的局部變化。如圖2 所示，左圖表示原始的已知車(chē)道小時(shí)流量，右圖表示由模型3估計(jì)的車(chē)道小時(shí)流量，對(duì)比可知，估計(jì)的車(chē)道流量與已知的原始流量高度一致。

3.4 模型驗(yàn)證

為了比較模型的估計(jì)性能，本文進(jìn)行了10倍的交叉驗(yàn)證，并采用了R平方值（R2）、均方根誤差（RMSE）和絕對(duì)百分比平均誤差（MAPE）3 種指標(biāo)來(lái)衡量對(duì)驗(yàn)證結(jié)果。如表3所示，模型3的RMSE和MAPE 最小，并且R2最大。具體來(lái)說(shuō)，與模型1 和模型2 相比，模型3 的RMSE 分別降低了11.4%和11.3%，MAPE 分別降低了16.3%和12.9%，R2分別提高了57.7%和33.5%。

表2 模型1、模型2和模型3的回歸結(jié)果Tab.2 Regression results of model 1,model 2 and model 3

表3 模型1、模型2和模型3的交叉驗(yàn)證結(jié)果Tab.3 Cross validation results of model 1,model 2 and model 3

圖2 已知車(chē)道交通量和估計(jì)車(chē)道交通量Fig.2 Known lane traffic volume and estimated lane traffic volume

綜上所述，擴(kuò)樣技術(shù)和GWPR的聯(lián)合使用不僅提高了模型的解釋能力，而且提高了預(yù)測(cè)精度。值得注意的是，使用原始樣本的GWPR 性能與MLR相近，即對(duì)于空間分布不均衡或大量缺失數(shù)據(jù)的樣本而言，GWPR 本身并不會(huì)提高模型的性能。這也再次驗(yàn)證擬合模型前對(duì)不平衡的缺失數(shù)據(jù)的處理是有意義的。

4 討論

除了高精度外，高解釋性也是選擇GWPR的原因。如表2 中所示，3 個(gè)模型的同一變量系數(shù)（或系數(shù)平均值）的符號(hào)一致。換言之，在不同的模型中，變量對(duì)交通量的全局影響的方向是一致的。然而，由于模型3 中各系數(shù)正負(fù)值所占比例的變化最大，因此采用擴(kuò)樣樣本的GWPR 具有最大的空間異質(zhì)性捕捉能力。在GWPR中，所有自變量的估計(jì)系數(shù)和P值在空間上都是不同的，這為解釋自變量對(duì)流量的局部影響提供了更多的信息［13，16，23］?？紤]到篇幅限制，本文只討論幾個(gè)信息量最大的自變量，包括右轉(zhuǎn)、車(chē)道數(shù)、是否公交專(zhuān)用道、人口密度，共4個(gè)變量。如圖3所示，在每個(gè)子圖中，左圖表示變量的系數(shù)值，點(diǎn)的大小隨系數(shù)的增大而增大，正系數(shù)設(shè)為深灰色，負(fù)系數(shù)設(shè)為淺灰色；右圖表示變量系數(shù)的顯著性，統(tǒng)計(jì)上顯著的系數(shù)（即P值＜0.1）設(shè)置為淺灰色，反之設(shè)置為深灰色。如圖3所示，系數(shù)和系數(shù)顯著性都在研究區(qū)域內(nèi)呈現(xiàn)出變化趨勢(shì)。

對(duì)于與車(chē)道方向變量，其中直行車(chē)道作為基本參考。右轉(zhuǎn)變量與研究區(qū)域的交通量始終呈負(fù)相關(guān)，并且在大多數(shù)車(chē)道上統(tǒng)計(jì)顯著（P值＜0.1）。左轉(zhuǎn)變量與右轉(zhuǎn)變量相似。表明右轉(zhuǎn)和左轉(zhuǎn)車(chē)道的交通量均低于直行車(chē)道，這是符合實(shí)際的，因?yàn)樵诖蠖鄶?shù)交叉口，直行車(chē)道流量都大于轉(zhuǎn)彎車(chē)道流量。

在63%的車(chē)道中，路段車(chē)道數(shù)與交通量呈負(fù)相關(guān)，即路段車(chē)道數(shù)越多，每條車(chē)道的交通量越低。值得注意的是，這一結(jié)論似乎與一些現(xiàn)有研究不一致［5，10-11，16］。原因在于現(xiàn)有研究的因變量是路段交通量，而在本研究中是車(chē)道交通量。路段上的更多車(chē)道對(duì)應(yīng)更大的交通量，但是在某一路段上，由于更多的車(chē)道共享路段交通量，每條車(chē)道的分享交通量反而會(huì)減少。此外，仍有37%的車(chē)道與交通量呈正相關(guān)，主要分布在研究區(qū)西南部。該區(qū)域靠近上海市中心，交通需求較大可能是導(dǎo)致與交通量正相關(guān)的主要原因。

另一個(gè)與交通量呈全局負(fù)相關(guān)的道路幾何特征是公交專(zhuān)用道變量，表明公交專(zhuān)用道的設(shè)置顯著降低了車(chē)道流量。人口密度與大多數(shù)車(chē)道（78%）的交通量呈正相關(guān)，這與之前的各種研究一致［4，12］。然而，仍有一些地方，人口密度呈負(fù)相關(guān)。其中一些在統(tǒng)計(jì)上不顯著，而另一些主要位于主干道處。一種解釋是，主干道上的大多數(shù)交通都是過(guò)境交通，這與當(dāng)?shù)厣鐣?huì)人口結(jié)構(gòu)（如人口密度）沒(méi)有密切關(guān)系［19］。

圖3 部分變量系數(shù)值與顯著性的空間分布Fig.3 Spatial distribution of the values and significance of some variables

5 結(jié)論

本研究為觀測(cè)值有限且分布不均時(shí)的交通流量估計(jì)提供了一種新的方法。首先用擴(kuò)樣技術(shù)填充不平衡缺失數(shù)據(jù)，然后用地理加權(quán)回歸模型（GWPR）估計(jì)車(chē)道交通量。結(jié)果表明，與傳統(tǒng)的MLR或直接使用GWPR相比，采樣擴(kuò)展技術(shù)和GWPR結(jié)合的方法具有更好的交通量估計(jì)性能。此外，GWPR 可以很好地捕捉自變量與交通量關(guān)系的空間異質(zhì)性，為解釋自變量的影響提供更多的細(xì)節(jié)。

值得進(jìn)一步研究的是，首先，由于數(shù)據(jù)條件的限制，本研究未能包含足夠的土地利用和社會(huì)人口特征，例如崗位密度和土地利用率等。這些因素都與交通量關(guān)系密切。若將它們納入到模型中可以進(jìn)一步提高模型擬合優(yōu)度和精度。此外，大量新的數(shù)據(jù)源如手機(jī)數(shù)據(jù)、GPS數(shù)據(jù)等也在不斷涌現(xiàn)，可以將這些新數(shù)據(jù)源與傳統(tǒng)SCATS數(shù)據(jù)集成，以獲得更高的流量估計(jì)性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡