董潔霜,方天源,周亦威
(上海理工大學(xué) 管理學(xué)院,上海 200093)
城市道路交通運(yùn)行狀態(tài)數(shù)據(jù),是交通出行決策和擁堵治理的關(guān)鍵。路網(wǎng)高峰行程延時(shí)指數(shù),簡(jiǎn)稱“延時(shí)指數(shù)(Delay Index)”,作為城市道路路況重要指標(biāo)之一,其根據(jù)交通部門提供的實(shí)時(shí)監(jiān)控和各地圖導(dǎo)航后臺(tái)返回的大數(shù)據(jù)綜合判斷,為出行者提供導(dǎo)航路線參考。
現(xiàn)狀研究主要針對(duì)擁堵延時(shí)指數(shù)的空間屬性。袁浩[1]等人研究人口、用地屬性、交通基礎(chǔ)設(shè)施密度等空間異質(zhì)屬性對(duì)擁堵延時(shí)指數(shù)的關(guān)系。馮海霞[2]等人通過(guò)地理加權(quán)回歸(geographically weighted regression,GWR)模型,定量分析擁堵延時(shí)指數(shù)與空氣質(zhì)量指數(shù)的強(qiáng)相關(guān)性。汪傳雷[3]等人利用熵值法研究不同車型對(duì)擁堵延時(shí)指數(shù)的影響程度,提出分車型的治堵措施。胡成雨[4]等人基于Kruskal-Wallis 檢驗(yàn),對(duì)中國(guó)不同城市擁堵延時(shí)指數(shù)進(jìn)行比較和排名,量化各城市的交通健康差異情況。相較統(tǒng)計(jì)理論模型,深度學(xué)習(xí)的方法對(duì)短時(shí)交通流數(shù)據(jù)的捕捉能力更好[5],但統(tǒng)計(jì)學(xué)模型適用于長(zhǎng)時(shí)間跨度的交通流狀態(tài)指標(biāo)分析預(yù)測(cè)。相關(guān)研究表明,城市道路擁堵延時(shí)指數(shù)在時(shí)間上有明顯的周期特性[6]。其表現(xiàn)為,節(jié)假日的始末段擁堵延時(shí)指數(shù)較高,工作日的周一、周五擁堵延時(shí)指數(shù)高于該周的其它工作日。但實(shí)際上,在長(zhǎng)跨度的時(shí)間序列數(shù)據(jù)中,受天氣條件、臨時(shí)交通管控政策、交通基礎(chǔ)設(shè)施建設(shè)進(jìn)度等多因素影響,并非周一、周五擁堵延時(shí)指數(shù)都比其余工作日高。如果在建模分析時(shí)默認(rèn)存在時(shí)間序列周期性,會(huì)對(duì)區(qū)域交通運(yùn)行狀態(tài)指標(biāo)研判工作有一定的干擾。
綜上所述,研究大多關(guān)注空間效應(yīng)對(duì)擁堵延時(shí)指數(shù)的影響,時(shí)間層面受到數(shù)據(jù)樣本量的限制會(huì)適當(dāng)回避。然而,與時(shí)間層面影響最大的是政策效應(yīng)[7]。例如:?jiǎn)坞p號(hào)限行、小汽車牌照申領(lǐng)指標(biāo)限制、鼓勵(lì)錯(cuò)峰出行等。隨著時(shí)間推移,各個(gè)交通管控措施的依次(或疊加)實(shí)施,都會(huì)對(duì)擁堵延時(shí)指數(shù)產(chǎn)生影響。工作日的擁堵延時(shí)指數(shù)對(duì)市民的通勤出行更具有引導(dǎo)意義。工作日高峰時(shí)期擁堵延時(shí)指數(shù)的上升,主要是市民通勤導(dǎo)致的交通流集聚在部分道路,相較節(jié)假日,工作日的城市路網(wǎng)擁堵延時(shí)指數(shù)一般更高,這是工作日的出行時(shí)間更集中,方式單一且路徑基本固定所導(dǎo)致。本研究通過(guò)將杭州西湖區(qū)2019年9月15日至2021年9月15日(共計(jì)499個(gè)數(shù)據(jù)樣本)每日的高峰擁堵延時(shí)指數(shù)進(jìn)行時(shí)間序列分析(剔除節(jié)假日),利用ARIMA模型進(jìn)行樣本內(nèi)數(shù)據(jù)預(yù)測(cè)和樣本外數(shù)據(jù)預(yù)測(cè)。同時(shí)考慮新冠肺炎疫情特殊時(shí)期的交通管控措施政策對(duì)擁堵延時(shí)指數(shù)的影響。
ARIMA(Autoregressive Integrated Moving Average model)模型綜合考慮了時(shí)間序列的趨勢(shì)變化、周期性和隨機(jī)干擾[8-9]。其建模步驟依次為數(shù)據(jù)預(yù)處理、模型識(shí)別、模型診斷及檢驗(yàn)、模型預(yù)測(cè)。
ARIMA(p,d,q)模型原理如下:
其中,E(εsεt)=0,s <t;xt表示時(shí)間序列數(shù)據(jù),xt與xt-i(i=1,2,…,p)相關(guān);εt表示殘差項(xiàng),εt與εt-i(j=1,2,…,q)相關(guān);B表示延遲算子,滿足Bn xt=xt-n;p表示自回歸階數(shù);q表示平均階數(shù);d表示差分階數(shù);▽表示差分算子;▽d=(1- B)d。
式(1)中的自回歸系數(shù)多項(xiàng)式的具體表達(dá)式如下:
殘差εt是獨(dú)立于xt-i和εt-i的白噪聲序列,滿足:
此次研究的數(shù)據(jù)來(lái)源于高德智慧交通公共服務(wù)平臺(tái),數(shù)據(jù)類型為杭州市西湖區(qū)工作日的路網(wǎng)高峰行程延時(shí)指數(shù)(高峰時(shí)間為7:00-9:00 和16:30-18:30),數(shù)據(jù)時(shí)間跨度為2019 年9 月15 日至2021年9 月15 日,共計(jì)499 個(gè)樣本數(shù)據(jù)。另外,為測(cè)試ARIMA模型在樣本外的預(yù)測(cè)能力,補(bǔ)充時(shí)間跨度為2021 年9 月16 日至2021 年10 月15 日的工作日路網(wǎng)高峰行程延時(shí)指數(shù)數(shù)據(jù)。
路網(wǎng)高峰行程延時(shí)指數(shù)的計(jì)算原理源自旅行時(shí)間指數(shù)。旅行時(shí)間指數(shù)TTI(Travel Time Index)[10]是常用的城市擁堵程度的評(píng)價(jià)指標(biāo),其反映實(shí)際花費(fèi)的行程時(shí)間與自由流花費(fèi)行程時(shí)間的比值關(guān)系,與擁堵程度正相關(guān),值越大表示交通運(yùn)行狀態(tài)越差。高德地圖后臺(tái)基于海量的軌跡數(shù)據(jù),可以準(zhǔn)確計(jì)算路網(wǎng)高峰行程延時(shí)指數(shù),用直觀的形式表達(dá)城市擁堵程度。
計(jì)算基本思想:定義一條路段link有兩個(gè)連續(xù)的時(shí)間片,分別為t1、t2,路段的長(zhǎng)度為S,則t1到t2這段時(shí)間內(nèi)路段的平均速度v為2S/(t1+t2)。同一條路段在一個(gè)時(shí)間片內(nèi),旅行時(shí)間指數(shù)為自由流速度和實(shí)際速度的比值。當(dāng)軌跡覆蓋度較低時(shí),根據(jù)路段的長(zhǎng)度和路況的可信度進(jìn)行過(guò)濾。集合S的定義為所有路段link的集合,S={link1,link2,link3,link4,…,linkN}。集合中路段link的總數(shù)為N,Li為路段link的長(zhǎng)度,Wi為路段link的權(quán)重,為路段link的自由流速度,Vi為實(shí)時(shí)路況速度。故計(jì)算方式如式(6)所示。
以上是對(duì)路段延時(shí)指數(shù)的計(jì)算方式,由每個(gè)路段的計(jì)算結(jié)果得到區(qū)域擁堵延時(shí)指數(shù),計(jì)算邏輯如圖1 所示。
圖1 區(qū)域擁堵延時(shí)指數(shù)的計(jì)算邏輯Fig.1 Calculation logic of the regional congestion delay index
數(shù)據(jù)樣本工作日延時(shí)指數(shù)時(shí)間序列如圖2 所示。由于數(shù)據(jù)選取的是工作日的延時(shí)指數(shù),從圖中可見(jiàn)沒(méi)有明顯季節(jié)性特征。但在第91 個(gè)時(shí)間序列點(diǎn)(2020 年1 月23 日)處延時(shí)指數(shù)驟減,而當(dāng)天正是武漢市發(fā)布“封城”通告時(shí)間。從該日開(kāi)始,城市公交、地鐵、長(zhǎng)途客運(yùn)暫停運(yùn)營(yíng),全國(guó)各級(jí)市也隨即響應(yīng)相關(guān)交通出行和管控政策,城市路網(wǎng)的延時(shí)指數(shù)急劇下降。直到2020 年3 月2 日,隨著復(fù)工復(fù)產(chǎn)的有序推進(jìn),杭州市西湖區(qū)的路網(wǎng)高峰行程延時(shí)指數(shù)自驟減后首次回到1.2 以上。
圖2 時(shí)間序列(2019/9/15~2021/9/15)工作日路網(wǎng)高峰行程延時(shí)指數(shù)Fig.2 Weekday road network peak delay index of time series from 2019/9/15 to 2021/9/15
平穩(wěn)性描述的是時(shí)間序列的統(tǒng)計(jì)性質(zhì)關(guān)于時(shí)間平移的不變性。研究時(shí)間序列是希望通過(guò)時(shí)間序列的歷史數(shù)據(jù)規(guī)律,得到其未來(lái)的一些預(yù)測(cè)。在模型運(yùn)行前,對(duì)該時(shí)間序列進(jìn)行ADF 單位根檢驗(yàn)結(jié)果見(jiàn)表1。結(jié)果顯示,P-value<0.05,數(shù)據(jù)穩(wěn)定,拒絕原假設(shè)。從ADF 單位根檢驗(yàn)結(jié)果可以看出Test statistic=-8.949 小于1%、Critical value=-3.440。表明99%的置信區(qū)間下都滿足數(shù)據(jù)平穩(wěn)性,無(wú)需進(jìn)行差分處理,即ARIMA(p,d,q)中參數(shù)d=0。
表1 ADF 單位根檢驗(yàn)Tab.1 ADF unit root inspection
使用自相關(guān)(ACF)與偏自相關(guān)(PACF)圖判斷ARIMA(p,d,q)模型中的p、q階數(shù),必要時(shí)可以用AIC(Akaike information criterion)、BIC(Bayes Information Criterion)檢驗(yàn)進(jìn)行再確定。自相關(guān)函數(shù)(ACF)是將有序的隨機(jī)變量序列與其自身相比較,反映了同一序列在不同時(shí)序取值之間的相關(guān)性;偏自相關(guān)函數(shù)(PACF)是剔除了中間隨機(jī)變量干擾,所得到的兩個(gè)變量之間的相關(guān)性,之后計(jì)算兩個(gè)變量之間的相關(guān)性。利用Stata 軟件對(duì)序列進(jìn)行自相關(guān)(ACF)圖和偏自相關(guān)(PACF)圖的繪制,其結(jié)果如圖3 所示。
圖3 研究序列的自相關(guān)(ACF)及偏自相關(guān)(PACF)圖Fig.3 Autocorrelation(ACF)diagram and partially related(PACF)
從圖3(a)中可以初步判斷ACF 圖拖尾,故q=0。從圖3(b)可以確定PACF 圖截尾,p的取值可以為5、6、7、8。通過(guò)AIC、BIC 檢驗(yàn)值最小原則,進(jìn)行p值的再判斷,結(jié)果見(jiàn)表2。ARIMA(6,0,0)模型中的AIC值和BIC值最小,故p=6、q=0、d=0 為ARIMA(p,d,q)模型最優(yōu)參數(shù)。
表2 AIC、BIC 值檢驗(yàn)結(jié)果Tab.2 Test results of AIC and BIC value
擬合模型后,需要對(duì)殘差序列檢驗(yàn),判斷是否為白噪聲。數(shù)據(jù)集中生成了新的殘差序列,對(duì)得到的殘差序列進(jìn)行ADF 單位根檢驗(yàn),得到殘差是平穩(wěn)序列,見(jiàn)表3。模型檢驗(yàn)結(jié)果如圖4 所示。對(duì)殘差進(jìn)行Ljung-Box 檢驗(yàn)后,通過(guò)白噪聲檢驗(yàn)(Q=63.377 2,P=0.010 7),從殘差自相關(guān)(ACF)圖來(lái)看,殘差服從均值為0 的正態(tài)分布,此模型殘差大部分落入95%可信區(qū)間,說(shuō)明有效信息被充分提取,模型的有效性擬合效果較好。模型檢驗(yàn)結(jié)果如圖4 所示。
表3 殘差的平穩(wěn)性檢驗(yàn)Tab.3 Residual stability test
圖4 模型檢驗(yàn)Fig.4 Model Validation
使用ARIMA(6,0,0)對(duì)模型進(jìn)行樣本內(nèi)和樣本外預(yù)測(cè),結(jié)果如圖5 所示。整體來(lái)看,預(yù)測(cè)線與實(shí)際線貼合程度較好。對(duì)樣本外的延時(shí)指數(shù)數(shù)據(jù)進(jìn)行預(yù)測(cè)發(fā)現(xiàn),預(yù)測(cè)線逐漸呈現(xiàn)收斂狀態(tài),若樣本外數(shù)據(jù)容量過(guò)大,會(huì)使預(yù)測(cè)數(shù)據(jù)趨于一個(gè)常量。樣本內(nèi)平均絕對(duì)百分比誤差MAPE(Mean Absolute Percentage Error)為2.435 <10,樣本外平均絕對(duì)百分比誤差MAPE 為2.625<10,說(shuō)明模型的預(yù)測(cè)精度較高。
圖5 預(yù)測(cè)線及實(shí)際線Fig.5 Prediction line and actual line
將實(shí)驗(yàn)結(jié)果從Stata 軟件中導(dǎo)出,見(jiàn)表4,可見(jiàn)各項(xiàng)統(tǒng)計(jì)檢驗(yàn)值均顯著。從表5 可以發(fā)現(xiàn),各階滯后的z值均顯著。擁堵延時(shí)指數(shù)預(yù)測(cè)值與實(shí)際值的絕對(duì)誤差小、預(yù)測(cè)結(jié)果客觀真實(shí)。
表4 ARIMA(6,0,0)模型統(tǒng)計(jì)檢驗(yàn)值結(jié)果Tab.4 Statistical test value of ARIMA(6,0,0)model
表5 擁堵延時(shí)指數(shù)預(yù)測(cè)值與實(shí)際值Tab.5 The prediction value and actual value of congestion delay index
為檢驗(yàn)ARIMA模型在突變數(shù)據(jù)時(shí)間段內(nèi)的預(yù)測(cè)韌性,考慮新冠肺炎疫情對(duì)延時(shí)指數(shù)的沖擊,針對(duì)2020 年1 月14 日~2 月14 日延時(shí)指數(shù)實(shí)際值和預(yù)測(cè)值進(jìn)行分析對(duì)比,如圖6 所示。2020 年1 月23日是武漢“封城”開(kāi)始日,全國(guó)各地包括杭州也隨即響應(yīng)特殊交通管制措施。整體看,路網(wǎng)擁堵延時(shí)指數(shù)從原來(lái)的1.4 左右下降到1.2 以下。通過(guò)該特殊時(shí)間段工作日路網(wǎng)高峰行程延時(shí)指數(shù)的實(shí)際值與預(yù)測(cè)值對(duì)比,發(fā)現(xiàn)在1 月23 日后預(yù)測(cè)值與實(shí)際值有一段數(shù)據(jù)“落差”,但很快兩者又逐漸貼合,可見(jiàn)ARIMA模型的預(yù)測(cè)韌性較好。
圖6 新冠肺炎疫情發(fā)生前后的延時(shí)指數(shù)實(shí)際與預(yù)測(cè)值Fig.6 The actual and predicted value of the delay index before and after the emergence of COVID-19
本文利用杭州市西湖區(qū)2019/9/15~2021/9/15連續(xù)工作日的城市路網(wǎng)高峰行程延時(shí)指數(shù)數(shù)據(jù)樣本,建立延時(shí)指數(shù)的ARIMA 預(yù)測(cè)模型。同時(shí)考慮新冠肺炎疫情對(duì)城市道路交通運(yùn)行狀態(tài)的沖擊,對(duì)樣本內(nèi)和樣本外數(shù)據(jù)進(jìn)行預(yù)測(cè)分析。對(duì)比結(jié)果誤差小、精度高,證明ARIMA模型能夠適應(yīng)短時(shí)的數(shù)據(jù)突變,有一定的模型預(yù)測(cè)韌性,預(yù)測(cè)效果具有實(shí)用價(jià)值。未來(lái)研究將同時(shí)考慮長(zhǎng)時(shí)間跨度下的空間因素變化對(duì)延時(shí)指數(shù)的影響。
研究過(guò)程到以下結(jié)論:
(1)新冠肺炎疫情特殊交通管控措施影響下,杭州市西湖區(qū)城市路網(wǎng)高峰行程延時(shí)指數(shù)顯著下降,路網(wǎng)交通運(yùn)行比往常工作日更暢通;
(2)ARIMA模型能夠捕捉短時(shí)的數(shù)據(jù)突變并預(yù)測(cè)時(shí)間序列趨勢(shì),對(duì)時(shí)間序列預(yù)測(cè)客觀有效;
(3)城市路網(wǎng)高峰行程延時(shí)指數(shù)能夠?yàn)槌鞘薪煌ü芾碚吆统鲂姓咛峁┏鲂袇⒖?,其歷史數(shù)據(jù)、現(xiàn)狀實(shí)時(shí)數(shù)據(jù)以及預(yù)測(cè)數(shù)據(jù)都具有研究意義;
(4)時(shí)間序列數(shù)據(jù)中含政策效應(yīng)因子,政策效應(yīng)對(duì)預(yù)測(cè)序列的影響不僅在沖擊前后時(shí)間段,其影響可能會(huì)持續(xù)一段時(shí)間。