徐東偉 商學(xué)天 魏臣臣 彭 航
(浙江工業(yè)大學(xué)網(wǎng)絡(luò)空間安全研究院1) 杭州 310023) (浙江工業(yè)大學(xué)信息工程學(xué)院2) 杭州 310023)
近年來,有大量的方法模型應(yīng)用到不同場景下的交通路網(wǎng)預(yù)測上,并取得了豐碩的成果.在統(tǒng)計(jì)學(xué)習(xí)算法模型中,文獻(xiàn)[1]通過引入最大相關(guān)熵的Kalman濾波器,制定了交通流預(yù)測任務(wù).對于K最近鄰(K-nearest neighbor,KNN)算法在交通預(yù)測領(lǐng)域的應(yīng)用,文獻(xiàn)[2-3]提出了一種基于核K近鄰算法的時(shí)間序列預(yù)測道路交通狀態(tài)的算法,構(gòu)建了時(shí)間序列道路交通狀態(tài)數(shù)據(jù)序列的核函數(shù),將當(dāng)前和參考道路交通狀態(tài)的數(shù)據(jù)序列相匹配,基于此k選擇最接近的參考道路交通狀態(tài)并預(yù)測道路交通狀態(tài).
隨著深度學(xué)習(xí)的興起,神經(jīng)網(wǎng)絡(luò)方法在處理交通路網(wǎng)數(shù)據(jù)預(yù)測問題時(shí)有顯著的優(yōu)勢.文獻(xiàn)[4]提出了一種基于圖卷積LSTM(GC-LSTM)的序列到序列(Seq2Seq)模型,該模型利用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)處理交通路網(wǎng)空間特征,LSTM處理交通路網(wǎng)時(shí)間特征,可以很好地解決長期交通流量預(yù)測問題.生成對抗網(wǎng)絡(luò)(GAN)作為近年來復(fù)雜分布上無監(jiān)督學(xué)習(xí)最具前景的方法之一,文獻(xiàn)[5]展示了卷積層與GAN的組合,彌合CNN在有監(jiān)督學(xué)習(xí)的成功與無監(jiān)督學(xué)習(xí)之間的差距.圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)[6]作為一種基于圖域分析的深度學(xué)習(xí)方法,靠圖中節(jié)點(diǎn)之間的信息傳遞來捕捉圖中的依賴關(guān)系.但是,對于圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)[7]等圖節(jié)點(diǎn)學(xué)習(xí)方法,如文獻(xiàn)[8]根據(jù)路網(wǎng)拓?fù)浣Y(jié)構(gòu)與交通流時(shí)空相關(guān)性提出基于GCN的短時(shí)預(yù)測模型,很難處理類似于出現(xiàn)新節(jié)點(diǎn)等未知節(jié)點(diǎn)問題,不能直接泛化到未知道路.文獻(xiàn)[9]提出GraphSAGE框架,通過訓(xùn)練聚合節(jié)點(diǎn)鄰居的函數(shù),使GCN擴(kuò)展成對未知節(jié)點(diǎn)起到具有歸納學(xué)習(xí)能力的作用.但是,該框架只對道路節(jié)點(diǎn)之間的空間相關(guān)性進(jìn)行特征提取,而交通道路節(jié)點(diǎn)存在著緊密的時(shí)間關(guān)系.
為了捕獲道路節(jié)點(diǎn)之間的時(shí)間相關(guān)性,文中根據(jù)歷史道路狀態(tài)數(shù)據(jù)構(gòu)建基于時(shí)間相關(guān)性的邏輯相關(guān)路網(wǎng),利用GraphSAGE圖聚合算法對路網(wǎng)進(jìn)行特征提取,并融合兩個(gè)不同路網(wǎng)的時(shí)空特征信息.以最小化損失函數(shù)為目標(biāo),返回最優(yōu)模型參數(shù),構(gòu)建基于圖網(wǎng)絡(luò)融合的交通路網(wǎng)模型.
基于GraphSAGE特征融合的路網(wǎng)交通狀態(tài)預(yù)測算法模型,見圖1.對于橫縱復(fù)雜的道路交通,選取歷史路網(wǎng)狀態(tài)數(shù)據(jù)X′=[X(s-1),X(s-2),…,X(s-c)],X(s)為第s時(shí)刻的交通路網(wǎng)狀態(tài)數(shù)據(jù),c為歷史交通路網(wǎng)狀態(tài)的時(shí)間長度.為了構(gòu)建交通原始路網(wǎng)G=(V,E),在N條道路上放置道路檢測器,其中:V={v1,v2,…,vN},vi(i∈1,2,…,N)代表第i個(gè)檢測器節(jié)點(diǎn),檢測器檢測的是交通節(jié)點(diǎn);選取與節(jié)點(diǎn)vi之間在空間上為連邊關(guān)系的節(jié)點(diǎn)集合,記為N(vi),若第i個(gè)檢測器vi代表的道路節(jié)點(diǎn)與第j個(gè)檢測器vj代表的道路節(jié)點(diǎn)存在相鄰,則eij=1,反之:eij=0,E={eij}Ni,j=1,表示鄰接矩陣,通過鄰接矩陣構(gòu)建的原始交通路網(wǎng)反映道路節(jié)點(diǎn)與節(jié)點(diǎn)之間的空間關(guān)系.為了構(gòu)建基于時(shí)間相關(guān)性的邏輯相關(guān)路網(wǎng),根據(jù)每個(gè)道路節(jié)點(diǎn)vi的歷史道路狀態(tài)數(shù)據(jù)xi=[xi1,xi2,…,xiS],S為歷史數(shù)據(jù)中的數(shù)據(jù)量,重構(gòu)交通路網(wǎng);采用GraphSAGE分別對原始路網(wǎng)與重構(gòu)后的基于時(shí)間相關(guān)性的邏輯相關(guān)路網(wǎng)進(jìn)行時(shí)空特征提取,并對路網(wǎng)特征進(jìn)行特征融合,預(yù)測得到未來路網(wǎng)狀態(tài)數(shù)據(jù)Z=[X(s),X(s+1),…,X(s+n)],n為未來路網(wǎng)狀態(tài)的時(shí)間長度.
圖1 基于GraphSAGE特征融合的路網(wǎng)交通狀態(tài)預(yù)測算法模型
原始路網(wǎng)表現(xiàn)出交通道路節(jié)點(diǎn)之間的空間關(guān)系,并且節(jié)點(diǎn)之間存在著基于道路歷史交通狀態(tài)數(shù)據(jù)的時(shí)間相關(guān)性.為了計(jì)算出各路網(wǎng)節(jié)點(diǎn)之間的相關(guān)性,見圖2.
圖2 構(gòu)建邏輯相關(guān)路網(wǎng)
對于每個(gè)檢測器道路節(jié)點(diǎn)vi,根據(jù)歷史道路狀態(tài)數(shù)據(jù)xi,用皮爾遜相關(guān)性系數(shù)計(jì)算公式為
式中:K為在計(jì)算皮爾遜相關(guān)性系數(shù)時(shí)所選取的檢測器表示的交通路網(wǎng)狀態(tài)節(jié)點(diǎn)數(shù)據(jù)的長度.通過得到不同檢測器之間的皮爾遜相關(guān)性系數(shù),得到路網(wǎng)G的x*x的皮爾遜相關(guān)性系數(shù)矩陣E={rij}xi,j=1.
重構(gòu)得到邏輯相關(guān)路網(wǎng)H=(V,A),其中A={aij}xi,j=1,aij表示第i個(gè)檢測器vi與第j個(gè)檢測器vj之間存在的連邊關(guān)系:
使用GraphSAGE圖聚合算法來聚合道路交通節(jié)點(diǎn)的鄰居頂點(diǎn)蘊(yùn)含的信息,見圖3.
圖3 GraphSAGE算法流程圖
為了充分提取道路節(jié)點(diǎn)的鄰居特征,通過聚合函數(shù)把與節(jié)點(diǎn)具有連邊關(guān)系的鄰居聚合特征,再與道路節(jié)點(diǎn)拼接轉(zhuǎn)換,得到節(jié)點(diǎn)在第t層的特征,t=(1,2,…,T):
根據(jù)原始路網(wǎng)和構(gòu)建的基于時(shí)間相關(guān)性的邏輯相關(guān)路網(wǎng),對道路鄰居節(jié)點(diǎn)的每個(gè)維度取平均.通過均值來表達(dá)道路節(jié)點(diǎn)鄰居在時(shí)間與空間上的相關(guān)性分布,均值聚合函數(shù)為
為了捕獲道路節(jié)點(diǎn)之間在時(shí)空上最突出的的表現(xiàn),先對鄰居節(jié)點(diǎn)進(jìn)行非線性轉(zhuǎn)換后,選取道路鄰居節(jié)點(diǎn)的每個(gè)維度最大值,maxpooling聚合函數(shù)為
式中:WT,b為模型待學(xué)習(xí)的參數(shù);σ為Sigmoid函數(shù).
實(shí)驗(yàn)數(shù)據(jù)集分別采用西雅圖2017年的高速路網(wǎng)速度數(shù)據(jù)和加州2016年7—8月的流量數(shù)據(jù),其中西雅圖數(shù)據(jù)集共計(jì)323個(gè)檢測器,速度數(shù)據(jù)采樣間隔為5 min;加州原始數(shù)據(jù)集共計(jì)170個(gè)檢測器,但是,原始數(shù)據(jù)集中含有大量的缺失值,因此只挑選含有完整數(shù)據(jù)的道路,處理后共計(jì)114個(gè)檢測器,流量數(shù)據(jù)采樣間隔為5 min.實(shí)驗(yàn)設(shè)計(jì)為根據(jù)歷史交通路網(wǎng)數(shù)據(jù)來預(yù)測未來5,15,30,45和60 min的交通路網(wǎng)數(shù)據(jù),其中歷史交通路網(wǎng)數(shù)據(jù)選取0~3 h中每隔30 min的時(shí)間,見表1.由表1可知:由于加州數(shù)據(jù)集是車流量數(shù)據(jù),并且數(shù)據(jù)波動(dòng)比較大,不利于在較短時(shí)間的歷史交通路網(wǎng)數(shù)據(jù)中做預(yù)測實(shí)驗(yàn);而西雅圖數(shù)據(jù)集是速度數(shù)據(jù),數(shù)據(jù)波動(dòng)比較平緩,西雅圖數(shù)據(jù)集與加州數(shù)據(jù)集在歷史交通路網(wǎng)數(shù)據(jù)分別為1 h與2 h30 min的情況下,預(yù)測結(jié)果最好.文中實(shí)驗(yàn)皆選取該兩段作為歷史交通路網(wǎng)數(shù)據(jù).
表1 本文實(shí)驗(yàn)數(shù)據(jù)集在不同歷史交通路網(wǎng)數(shù)據(jù)下的預(yù)測結(jié)果
在基于特征融合的GraphSAGE交通路網(wǎng)數(shù)據(jù)預(yù)測模型中,交通路網(wǎng)檢測器節(jié)點(diǎn)個(gè)數(shù)N為各自數(shù)據(jù)集的道路節(jié)點(diǎn)個(gè)數(shù),每個(gè)節(jié)點(diǎn)的特征即訓(xùn)練的時(shí)間步長F分別為12與30,訓(xùn)練集與測試集劃分比例a=0.8,輸入模型的路網(wǎng)數(shù)據(jù)使用min-max標(biāo)準(zhǔn)化;在構(gòu)建基于時(shí)間相關(guān)性的路網(wǎng)結(jié)構(gòu)計(jì)算皮爾遜相關(guān)性系數(shù)時(shí),選取的每個(gè)檢測器節(jié)點(diǎn)歷史交通狀態(tài)數(shù)據(jù)長度K=288×F=3 456,皮爾遜相關(guān)性系數(shù)較大的檢測器節(jié)點(diǎn)的選取比例設(shè)置為p;GraphSAGE均值聚合的層數(shù)T,每一層的隱藏單元個(gè)數(shù)從分別為2T-1×16,激活函數(shù)σ為ReLU激活函數(shù);重構(gòu)誤差系數(shù)α=100,均采用Adam優(yōu)化器優(yōu)化模型參數(shù).
使用平均相對誤差(MAE)、平均絕對百分比誤差(MAPE)和均方根誤差(RMSE)來比較不同預(yù)測方法的準(zhǔn)確度.其定義分別為
表2為在GraphSAGE圖聚合算法中的均值聚合算法下不同選取比例下的誤差指標(biāo).
表2 在不同選取比例下的誤差指標(biāo)
由表2可知:西雅圖數(shù)據(jù)集與加州數(shù)據(jù)集分別在選取比例p為0.10與0.30時(shí),獲得的預(yù)測結(jié)果最好;與其他選取比例相比,MAE和MAPE均有著顯著提升.此外,從表中能明顯看出,兩個(gè)數(shù)據(jù)集一個(gè)在低比例結(jié)果好,一個(gè)在高比例結(jié)果好,這是因?yàn)槲餮艌D數(shù)據(jù)集檢測器更多,選取高比例則會造成許多相關(guān)性非常小的鄰居節(jié)點(diǎn)分配到比以往更多的權(quán)重,從而導(dǎo)致不能充分聚合道路鄰居節(jié)點(diǎn)的信息,所以在選取比例低時(shí),道路節(jié)點(diǎn)的鄰居分布更適合表示道路節(jié)點(diǎn)之間的時(shí)間特征;而加州數(shù)據(jù)集的檢測器少,所以選取比例較高時(shí)獲得的結(jié)果更好.
表3為文中提出的基于特征融合的模型利用GraphSAGE圖聚合算法在不同層數(shù)下的兩種聚合器得到的誤差指標(biāo).
由表3可知:在西雅圖數(shù)據(jù)集中,使用均值聚合算法的本文方法得到的預(yù)測結(jié)果優(yōu)于maxpooling聚合算法,并且T=3的時(shí)候結(jié)果最優(yōu);在加州數(shù)據(jù)集中,均值聚合的MAE與RMSE優(yōu)于maxpooling聚合,其中選取聚合層數(shù)T=3.西雅圖與加州數(shù)據(jù)集皆在均值聚合算法中得到較好的結(jié)果,可能的原因是兩個(gè)數(shù)據(jù)集均是高速公路數(shù)據(jù)集,相比于城市路網(wǎng),高速路網(wǎng)的節(jié)點(diǎn)之間連接稀疏,所以當(dāng)使用maxpooling聚合時(shí),容易把與該節(jié)點(diǎn)無關(guān)的節(jié)點(diǎn)加入到maxpooling計(jì)算中,并導(dǎo)致聚合的鄰居信息失去有效性.而對于高速路網(wǎng),利用均值聚合算法可以有效地捕獲鄰居節(jié)點(diǎn)信息.
表3 兩種GraphSAGE圖聚合算法在不同聚合層數(shù)下的誤差指標(biāo)
表4為對比實(shí)驗(yàn)中各模型的參數(shù)設(shè)置.其中,T-GCN方法中GRU的隱藏層單位數(shù)為64;ConvLSTM方法中,設(shè)置了三層ConvLSTM層,每層中卷積核大小為3×3,卷積核數(shù)目為32.
表4 對比實(shí)驗(yàn)中各模型的參數(shù)設(shè)置
圖4為文中兩個(gè)數(shù)據(jù)集的對比實(shí)驗(yàn)結(jié)果.其中,T-GCN方法是由GCN來捕獲空間依賴性,門控循環(huán)單元結(jié)構(gòu)(GRU)來捕獲時(shí)間關(guān)系;ConvLSTM方法通過CNN提取空間特征,并且由LSTM方法建立時(shí)序關(guān)系.
圖4 文中數(shù)據(jù)集對比實(shí)驗(yàn)的誤差指標(biāo)
由圖4可知:構(gòu)建的基于時(shí)間相關(guān)性的邏輯相關(guān)路網(wǎng)的結(jié)果均優(yōu)于原始路網(wǎng),證明了邏輯相關(guān)路網(wǎng)在捕獲道路節(jié)點(diǎn)之間的時(shí)間關(guān)系的有效性;文中利用融合特征的方法在相同參數(shù)條件下,對比于原始路網(wǎng)的RMSE提高了21.17%,表明了文中方法在精度方面也有不錯(cuò)的提升.其中,對比于新型GCN模型,本文方法在對未知節(jié)點(diǎn)處理中具有的歸納學(xué)習(xí)能力能夠更好的對未來路網(wǎng)數(shù)據(jù)進(jìn)行預(yù)測;對于西雅圖數(shù)據(jù)集,文中方法對比于圖節(jié)點(diǎn)的學(xué)習(xí)方法GCN與T-GCN,在短時(shí)間預(yù)測15 min時(shí),MAE提高了53.2%與30.5%;而對比于時(shí)間序列方法LSTM與ConvLSTM,在較短時(shí)間預(yù)測30 min時(shí),RMSE提高了38.5%與40%,表現(xiàn)出文中方法優(yōu)越性.此外,可以明顯看出時(shí)間序列方法在較長時(shí)間預(yù)測時(shí),結(jié)果并不理想,而文中方法和基于原始路網(wǎng)的GraphSAGE圖聚合方法在短時(shí)5~60 min的時(shí)間段內(nèi)的預(yù)測結(jié)果比較平緩,具有一定的穩(wěn)定性.
分別采集2017年1月3日(星期二)與8日(星期日)的西雅圖高速路網(wǎng)d005es15280檢測器全天的288個(gè)數(shù)據(jù).圖5為該檢測器在1月3日預(yù)測不同未來時(shí)間步長的殘差箱型圖,箱型圖由中位數(shù),上下四分位數(shù),上下邊界等統(tǒng)計(jì)量構(gòu)成來表示數(shù)據(jù)的分布情況.由圖5可知:文中方法在預(yù)測未來30 min內(nèi)的路網(wǎng)數(shù)據(jù)偏差較小,并且大部分偏差集中在-2~+2范圍內(nèi),表明本文方法在短時(shí)交通路網(wǎng)預(yù)測具有一定的精確度;但是在預(yù)測未來45與60 min時(shí),中位數(shù)與0相差較大,預(yù)測準(zhǔn)確度不高.
圖5 d005es15280檢測器預(yù)測結(jié)果殘差箱型圖
使用文中方法與LSTM方法訓(xùn)練完成的模型對該數(shù)據(jù)集進(jìn)行預(yù)測,圖6為數(shù)據(jù)預(yù)測結(jié)果.
圖6 d005es15280檢測器在工作日與休息日的預(yù)測結(jié)果
由圖6可知:文中方法相比于LSTM方法得到的預(yù)測值更加接近真實(shí)值;其中13:00時(shí)開始,由于交通擁堵,平均速度明顯降低,此時(shí),LSTM方法的預(yù)測具有滯后性,不能夠?qū)崟r(shí)準(zhǔn)確預(yù)測,而本文方法的擬合能力出色;并且在1月8日(星期日)14:00—16:00中,下午出現(xiàn)了少有的擁堵緩和的情況,LSTM方法對于類似突發(fā)情況不能夠如文中方法一樣做到精準(zhǔn)預(yù)測.
文中對西雅圖2017年的高速路網(wǎng)速度數(shù)據(jù)與加州2016年7—8月的流量數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,建立了基于GraphSAGE特征融合的路網(wǎng)交通狀態(tài)預(yù)測算法,該模型引入相關(guān)性系數(shù)來重構(gòu)交通路網(wǎng),得到的邏輯相關(guān)路網(wǎng)表示道路節(jié)點(diǎn)之間的時(shí)間相關(guān)性,從原始交通路網(wǎng)與基于時(shí)間相關(guān)性的邏輯相關(guān)路網(wǎng)中提取特征,特征融合后對路網(wǎng)未來交通狀態(tài)數(shù)據(jù)進(jìn)行預(yù)測.實(shí)驗(yàn)根據(jù)歷史交通路網(wǎng)數(shù)據(jù)來預(yù)測未來5,15,30 min,1 h的交通路網(wǎng)數(shù)據(jù),通過參數(shù)與模型的對比,說明了構(gòu)建基于時(shí)間相關(guān)性的邏輯相關(guān)路網(wǎng)的有效性,并與其他傳統(tǒng)預(yù)測方法進(jìn)行比較,文中特征融合方法對未來路網(wǎng)交通狀態(tài)數(shù)據(jù)的預(yù)測能力最優(yōu).在未來的工作中,將對更多的聚合函數(shù)進(jìn)行實(shí)驗(yàn)比較,并進(jìn)一步優(yōu)化模型相關(guān)參數(shù),不同的迭代次數(shù),隱藏層節(jié)點(diǎn)數(shù)目等,都會對模型準(zhǔn)確率產(chǎn)生影響.