劉世澤,秦艷君,王晨星,蘇 琳,柯其學(xué),羅海勇,孫 藝,王寶會(huì)
(1.北京航空航天大學(xué)軟件學(xué)院,北京 100191;2.北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876;3.首都師范大學(xué)信息工程學(xué)院,北京 100048;4.中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190)
(?通信作者電子郵箱hbliusz@126.com)
近年來,隨著城市化的不斷發(fā)展,城市交通擁堵問題日益嚴(yán)重。對(duì)交通流量進(jìn)行準(zhǔn)確預(yù)測,有助于優(yōu)化城市交通資源規(guī)劃和調(diào)度,緩解交通壓力。交通流量數(shù)據(jù)具有規(guī)模大、維數(shù)高和隨時(shí)間動(dòng)態(tài)變化等特性,且容易受到外部復(fù)雜、多樣和動(dòng)態(tài)因素影響,實(shí)現(xiàn)長期和準(zhǔn)確的交通流量預(yù)測具有很大的挑戰(zhàn)性。
傳統(tǒng)交通流量預(yù)測方法大多使用數(shù)學(xué)建?;蚍抡娣椒枋鼋煌髁繒r(shí)間序列數(shù)據(jù)的變化規(guī)律,例如統(tǒng)計(jì)模型、傳統(tǒng)機(jī)器學(xué)習(xí)模型、差分整合移動(dòng)平均自回歸(Autoregressive Integrated Moving Average,ARIMA)模型[1]、向量機(jī)回歸模型[2]和馬爾可夫隨機(jī)場[3]等,這些方法要求數(shù)據(jù)平穩(wěn)且持續(xù),并不能很好地預(yù)測復(fù)雜動(dòng)態(tài)變化的交通流量。傳統(tǒng)機(jī)器學(xué)習(xí)方法存在過于依賴特征工程提取、先驗(yàn)知識(shí)等問題,對(duì)于維度高、時(shí)空相關(guān)性復(fù)雜的交通流量預(yù)測往往難以給出準(zhǔn)確的預(yù)測性能。
深度學(xué)習(xí)方法可以在無需大量先驗(yàn)知識(shí)的情況下表示和自主學(xué)習(xí)交通流量數(shù)據(jù)特征。卷積神經(jīng)網(wǎng)絡(luò)(CNN)[4-7]和遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[8-10]對(duì)時(shí)空數(shù)據(jù)具有較好的處理能力。文獻(xiàn)[11-12]基于卷積神經(jīng)網(wǎng)絡(luò)提出了一種時(shí)空殘差網(wǎng)絡(luò)(Spatio-Temporal Residual Network,STResNet)模型,該模型對(duì)交通流量數(shù)據(jù)的三種特性——時(shí)間特性、空間特性和外部特性進(jìn)行建模。將殘差網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合以學(xué)習(xí)空間特征,并通過對(duì)內(nèi)部數(shù)據(jù)按照不同周期性進(jìn)行采樣來模擬時(shí)間特征。該模型未考慮交通流量連續(xù)性問題。文獻(xiàn)[13]認(rèn)為,容量大、參數(shù)多的模型盡管具有較好的預(yù)測性能,但較難優(yōu)化,且容易過度學(xué)習(xí),與奧卡姆的剃刀理論相悖。
現(xiàn)有交通流量預(yù)測大多考慮單步預(yù)測,但在實(shí)際應(yīng)用中,交通流量多步預(yù)測存在一定的必要性[14-16]。近年來,基于編解碼器模型的深度學(xué)習(xí)方法在自然語言理解任務(wù)中取得了較大的成功[17-18]。這種模型采用端到端的通用框架,編碼器模型將輸入序列編碼為固定維數(shù)的向量,解碼器再將歷史數(shù)據(jù)的矢量表示映射回目標(biāo)序列。
為了解決上述問題,本文的主要工作如下:
1)提出了一種編解碼器交通流量預(yù)測模型。該模型融合長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)和殘差神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò),構(gòu)成編碼器,學(xué)習(xí)交通流量數(shù)據(jù)的時(shí)間相關(guān)性和空間相關(guān)性,提取時(shí)空數(shù)據(jù)的特征。將提取的特征映射成為固定長度矢量,輸入到長短時(shí)記憶網(wǎng)絡(luò)和全連接層組成的解碼器中,實(shí)現(xiàn)交通流量的多步預(yù)測。
2)在編碼器模塊中,本文使用多步預(yù)測模型,可以大幅提升網(wǎng)絡(luò)學(xué)習(xí)效率,降低時(shí)間復(fù)雜度。本文通過對(duì)比多步訓(xùn)練耗時(shí)和單步預(yù)測訓(xùn)練耗時(shí)可知,前者比后者降低了55.5%到65.5%,體現(xiàn)了多步預(yù)測模型的優(yōu)越性。
3)使用北京市真實(shí)出租車客流數(shù)據(jù)集和紐約真實(shí)自行車客流數(shù)據(jù)集對(duì)所提算法進(jìn)行了大量測試,實(shí)驗(yàn)結(jié)果表明,本文中所提的交通流量預(yù)測模型優(yōu)于擴(kuò)散卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Diffusion Convolutional RNN,DCRNN)和時(shí)空?qǐng)D卷積(Spatio-Temporal Graph Convolutional Network,STGCN)等交通流量預(yù)測算法。
近年來,隨著城市化的發(fā)展,人口增長和移動(dòng)通信技術(shù)在交通中的應(yīng)用帶來交通數(shù)據(jù)快速增長?,F(xiàn)有的統(tǒng)計(jì)模型、傳統(tǒng)機(jī)器學(xué)習(xí)模型、差分整合移動(dòng)平均自回歸模型、向量機(jī)回歸模型和馬爾可夫隨機(jī)場方法在數(shù)據(jù)處理方面存在不能學(xué)習(xí)復(fù)雜的時(shí)空數(shù)據(jù)相關(guān)性,例如數(shù)據(jù)的時(shí)空特征提取不夠充分。在發(fā)生異常事件的情況下,例如擁堵或事故,存在對(duì)交通流量多步預(yù)測不準(zhǔn)的問題。
交通流量預(yù)測傳統(tǒng)方法,包括使用經(jīng)典統(tǒng)計(jì)模型或傳統(tǒng)機(jī)器學(xué)習(xí)模型[19]。Okutani 等[20]基于線性回歸方法的卡爾曼濾波模型基于這種模型提出一種動(dòng)態(tài)交通流量預(yù)測模型。van der Voort 等[21]提出了差分整合移動(dòng)平均自回歸模型。近年來,Kim 等[22]使用三維馬爾可夫隨機(jī)場(Markov Random Field,MRF)來模擬由車輛檢測站(Vehicle Detector Station,VDS)傳感器網(wǎng)絡(luò)所測得的交通流量的時(shí)間動(dòng)態(tài)性。
隨著人工智能技術(shù)的發(fā)展和日益成熟,深度學(xué)習(xí)也被廣泛應(yīng)用于交通流量預(yù)測。Yao 等[23]提出了一個(gè)深度多視圖時(shí)空網(wǎng)絡(luò)(Deep Multi-View Spatial-Temporal Network,DMVSTNet)框架來對(duì)時(shí)空關(guān)系進(jìn)行建模,突破了傳統(tǒng)關(guān)于交通流量預(yù)測的深度學(xué)習(xí)方法僅獨(dú)立考慮空間關(guān)系或時(shí)間關(guān)系的局限,使用三個(gè)視圖:時(shí)間視圖(未來需求的時(shí)間相關(guān)性建模)、空間視圖(局部空間相關(guān)性建模)和語義視圖(對(duì)共享相似時(shí)間模式的區(qū)域之間的相關(guān)性進(jìn)行建模)。
本文設(shè)計(jì)的集成擠壓激勵(lì)卷積長短時(shí)記憶(Squeeze-and-Excitation Convolution Long-short term memory Integrated,SECLI)網(wǎng)絡(luò)框架如圖1 所示。從圖1 中可以看出,該網(wǎng)絡(luò)主要由編碼器和解碼器構(gòu)成。其中,編碼器主要由殘差神經(jīng)網(wǎng)絡(luò)和一個(gè)長短時(shí)記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)構(gòu)成,解碼器主要由LSTM 神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)構(gòu)成。SECLI 模型不僅使用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)不同時(shí)間段交通流量數(shù)據(jù)的時(shí)間依賴性和周期性進(jìn)行學(xué)習(xí),而且使用殘差神經(jīng)網(wǎng)絡(luò)對(duì)交通流量數(shù)據(jù)的空間依賴關(guān)系進(jìn)行學(xué)習(xí)。
圖1 SECLI交通流量預(yù)測模型編碼解碼框架Fig.1 Encoder-decoder framework of SECLI model for traffic flow prediction
針對(duì)時(shí)間依賴性,模型根據(jù)當(dāng)下預(yù)測時(shí)刻對(duì)應(yīng)的三種時(shí)間間隔的數(shù)據(jù)進(jìn)行抽取,分別為當(dāng)前時(shí)刻的c個(gè)連續(xù)時(shí)刻片的數(shù)據(jù),當(dāng)前時(shí)刻一天前p個(gè)連續(xù)時(shí)間片數(shù)據(jù)和當(dāng)前時(shí)刻一周前t個(gè)連續(xù)時(shí)間片的數(shù)據(jù)。其中,三種時(shí)間間隔數(shù)據(jù)使用抽取時(shí)間片比例控制三種時(shí)間特性的學(xué)習(xí)權(quán)重,這三個(gè)時(shí)間片數(shù)量c、p、t是模型的超參。因?yàn)榻煌髁繑?shù)據(jù)的不確定性和實(shí)時(shí)變化的特點(diǎn),相較遠(yuǎn)距離時(shí)刻的交通情況,當(dāng)下的交通流量分布總是與最近時(shí)刻更相似,所以通??偸羌哟髮?duì)臨近時(shí)刻流量數(shù)據(jù)學(xué)習(xí)的權(quán)重。
將數(shù)據(jù)進(jìn)行分片操作之后,本文將三種時(shí)間數(shù)據(jù)拼接成一個(gè)4D 張量集合進(jìn)行學(xué)習(xí)。將這個(gè)張量變換成3D 傳入深度卷積殘差網(wǎng)絡(luò),同時(shí)把變換成一維序列的交通流量數(shù)據(jù)送入LSTM 神經(jīng)網(wǎng)絡(luò),對(duì)數(shù)據(jù)的時(shí)間依賴性和空間依賴性進(jìn)行學(xué)習(xí)。
ResNet模塊是模型編碼器對(duì)交通流量數(shù)據(jù)進(jìn)行地理特征抽取的核心模塊。在ResNet 對(duì)數(shù)據(jù)進(jìn)行空間特征提取后,將空間特征向量分別與兩個(gè)時(shí)間特性向量通過加法的方式進(jìn)行融合,對(duì)融合后的兩個(gè)向量進(jìn)行拼接。拼接后的向量E作為編碼器的輸出,已經(jīng)包含了從所有抽取數(shù)據(jù)中學(xué)習(xí)的時(shí)空特性。
解碼階段,歷史數(shù)據(jù)集最后一個(gè)時(shí)刻的數(shù)據(jù)作為LSTM的數(shù)據(jù)變換格式后輸入,將向量E拆分為LSTM的兩個(gè)狀態(tài)輸入,經(jīng)過學(xué)習(xí)后得到單步預(yù)測值,再經(jīng)過全連接層進(jìn)行歸納,對(duì)輸出的格式進(jìn)行修正,最終得到單步預(yù)測結(jié)果。
多步預(yù)測將最后一個(gè)歷史時(shí)刻的真實(shí)流量值作為輸入,前文介紹的解碼器輸出作為狀態(tài)初始值,再重新輸入解碼器進(jìn)行預(yù)測,即得到多步預(yù)測結(jié)果。
本文將交通流量數(shù)據(jù)視為時(shí)間序列數(shù)據(jù),模型根據(jù)預(yù)測時(shí)刻對(duì)應(yīng)的三種時(shí)間間隔的數(shù)據(jù)進(jìn)行抽取,分別為當(dāng)前時(shí)刻之前的3 個(gè)時(shí)刻片的數(shù)據(jù)、當(dāng)前時(shí)刻一天前一個(gè)時(shí)間片數(shù)據(jù)和當(dāng)前時(shí)刻一周前一個(gè)連續(xù)時(shí)間片的數(shù)據(jù)。
輸入層是模型的數(shù)據(jù)入口。如圖2 所示,在這一層將預(yù)處理后的交通流量數(shù)據(jù)每個(gè)時(shí)間片進(jìn)行不同時(shí)間特性數(shù)據(jù)的抽取,得到(None,5,2,32,32)大小數(shù)據(jù)張量。其中None 是batch_size的大小,5是3種歷史特性數(shù)據(jù)片個(gè)數(shù)之和,2維保持原始數(shù)據(jù)的維度。將抽取后的張量大小轉(zhuǎn)換為(None,5×2,32,32)輸入ResNet 進(jìn)行特征提取,同時(shí)轉(zhuǎn)化成大小為(None,5,2×32×32)的張量輸入對(duì)應(yīng)的LSTM 網(wǎng)絡(luò)進(jìn)行深度時(shí)間特征提取。
圖2 SECLI輸入層結(jié)構(gòu)Fig.2 Input layer structure of SECLI
ResNet是模型編碼器對(duì)交通流量數(shù)據(jù)進(jìn)行特征抽取的核心模塊。ResNet包含了2個(gè)殘差單元,殘差單元結(jié)構(gòu)如圖3所示,在每個(gè)殘差單元中,大小為(None,5×2,32,32)的數(shù)據(jù)張量,經(jīng)過殘差層得到形狀為(None,64,32,32)的特征張量,此處卷積層起到形狀變換的作用,從而便于之后兩個(gè)張量進(jìn)行相加融合。每個(gè)張量需經(jīng)過兩個(gè)卷積層和一層擠壓-激勵(lì)(Squeeze-and-Excitation,SE)層,得到數(shù)據(jù)空間注意力和特征張量。其中每個(gè)卷積層前添加批歸一化(Batch Normalization,BN)層與線性整流函數(shù)(Rectified Linear Unit,ReLU)激活函數(shù)。歷史特征向量通過shortcut 路徑與特征張量進(jìn)行融合,得到大小為(None,64,32,32)的張量作為ResNet的最終輸出。
圖3 SECLI的殘差單元結(jié)構(gòu)Fig.3 Residual unit structure of SECLI
ResNet 可以有效避免卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)存在的過擬合以及網(wǎng)絡(luò)退化等問題。ResNet能夠在加快訓(xùn)練速度的同時(shí)保持較高的準(zhǔn)確率。本文采用的ResNet 模塊如圖4 所示,殘差單元之后都增加了SE 層作為空間注意力模塊。
圖4 SECLI的ResNet模塊結(jié)構(gòu)Fig.4 ResNet module structure of SECLI
SE 層這種網(wǎng)絡(luò)易于封裝,封裝后的模塊被稱為SEBlock。SE-Block 為數(shù)據(jù)“特征通道”這個(gè)維度加入注意力機(jī)制,通過損失函數(shù)在全局范圍內(nèi)學(xué)習(xí)每個(gè)特征的重要性并對(duì)其進(jìn)行重新標(biāo)定。SE-Block 通過“擠壓”和“激勵(lì)”兩個(gè)關(guān)鍵操作,實(shí)現(xiàn)這種策略。
SE 首先進(jìn)行“擠壓”操作:順著空間維度對(duì)輸入向量進(jìn)行特征壓縮,將每個(gè)二維的特征通道u變成一個(gè)實(shí)數(shù),并且輸出的維度和輸入的特征通道數(shù)是一一對(duì)應(yīng)的。這個(gè)實(shí)數(shù)表現(xiàn)了特征通道上的全局分布。在代碼實(shí)現(xiàn)中,本文使用keras庫中的全局平均池化函數(shù)(GlobalAveragePooling2D),它在每個(gè)數(shù)據(jù)通道上進(jìn)行求平均值操作,得到一個(gè)長度為特征通道長度的一維向量,因此數(shù)據(jù)由傳入的(None,64,32,32)變成(None,64)。為保證數(shù)據(jù)維度不變,再使用Reshape 函數(shù)恢復(fù)數(shù)據(jù)維度,使數(shù)據(jù)大小為(None,1,1,64),實(shí)現(xiàn)的效果如圖5所示。
圖5 SECLI的SE層“擠壓”操作示意圖Fig.5 “Squeeze”operation of SE layer of SECLI
其次是“激勵(lì)”操作,它類似循環(huán)神經(jīng)網(wǎng)絡(luò)中門的機(jī)制,通過自學(xué)習(xí)參數(shù)w來為每個(gè)特征通道生成權(quán)重。之后使用生成的權(quán)重對(duì)特征進(jìn)行“重標(biāo)定”:“激勵(lì)”模塊輸出的權(quán)重可以看作為特征選擇后的每個(gè)特征通道的重要性,然后通過乘法給每個(gè)通道增加權(quán)重,完成在通道維度上的對(duì)原始特征的重標(biāo)定。SE層整體計(jì)算簡化公式如式(1)、(2)所示:
其中:u為原特征通道;p為壓縮函數(shù);w為u的權(quán)重。
“激勵(lì)”操作增加了有用的特征權(quán)重,并減小了對(duì)當(dāng)前任務(wù)用處不大的特征權(quán)重,可以顯式地建模特征通道之間的相互依賴關(guān)系。
LSTM 網(wǎng)絡(luò)模塊是模型編碼器對(duì)交通流量數(shù)據(jù)進(jìn)行時(shí)間特征抽取的核心模塊。經(jīng)過大量實(shí)驗(yàn),本文的LSTM 單元數(shù)設(shè)置為64,時(shí)間步數(shù)為5,輸入維度為batch_size。其中,LSTM單元數(shù)即為LSTM 中遺忘門、輸入門、輸出門和tanh 層四個(gè)前饋網(wǎng)絡(luò)中隱藏神經(jīng)元的個(gè)數(shù),LSTM中隱藏神經(jīng)元的個(gè)數(shù)決定了LSTM 層輸出特征的維度,時(shí)間步數(shù)據(jù)經(jīng)過LSTM 單元的次數(shù),即通過記憶機(jī)制對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí)和篩選的次數(shù)。圖6 表示LSTM 的輸入過程,將歷史數(shù)據(jù)輸入到LSTM 模塊中,輸出兩個(gè)隱狀態(tài)。隱狀態(tài)值在預(yù)測階段使用。
圖6 SECLI的LSTM模塊結(jié)構(gòu)Fig.6 LSTM module structure of SECLI
LSTM 網(wǎng)絡(luò)單元如圖7 所示。輸入層將(None,5,2×32×32)送入LSTM 網(wǎng)絡(luò),依次經(jīng)過LSTM 單元完成學(xué)習(xí)和遺忘過程。本文使用保留狀態(tài)LSTM,最終輸出最后一個(gè)學(xué)習(xí)單元的隱藏狀態(tài)和記憶單元狀態(tài),大小均為(None,64)。
圖7 LSTM單元結(jié)構(gòu)Fig.7 LSTM unit structure
LSTM 第一步是從單元狀態(tài)中丟棄什么信息,ht-1表示上一節(jié)點(diǎn)狀態(tài)的輸出,xt為當(dāng)前狀態(tài)下數(shù)據(jù)的輸入,ft表示遺忘門,W和b均為可學(xué)習(xí)權(quán)重矩陣。以交通流量預(yù)測為例,當(dāng)使用歷史交通數(shù)據(jù)進(jìn)行預(yù)測時(shí),神經(jīng)網(wǎng)絡(luò)需要遺忘一部分以前的突發(fā)交通狀況和時(shí)間久遠(yuǎn)、與當(dāng)前時(shí)刻時(shí)間關(guān)系較弱的數(shù)據(jù),從而更好地進(jìn)行預(yù)測。
計(jì)算的第二步是輸入門決定在單元狀態(tài)中存儲(chǔ)什么新信息,比如交通時(shí)間序列之間新的關(guān)系、規(guī)律等。具體操作分為兩部分。首先篩選需要更新的數(shù)據(jù)并將值映射到(0,1),同時(shí)利用tanh層創(chuàng)建一個(gè)新向量來表示當(dāng)前計(jì)算的值更新到記憶單元的比重大小。
計(jì)算的第三步是將舊的記憶狀態(tài)Ct-1更新為新的記憶狀態(tài)Ct。
最后一步計(jì)算是輸出門對(duì)單元實(shí)際輸出進(jìn)行最終限制。首先,創(chuàng)建一個(gè)有tanh層壓縮的記憶狀態(tài)向量tanh(Ct)。然后使用ht-1、xt和sigmoid 層創(chuàng)建一個(gè)濾波器,與上述向量相乘,得到隱狀態(tài)ht。
其中,門控結(jié)構(gòu)動(dòng)態(tài)調(diào)整LSTM 單元自循環(huán)權(quán)重參數(shù),這是網(wǎng)絡(luò)自我學(xué)習(xí)的關(guān)鍵。網(wǎng)絡(luò)適時(shí)對(duì)知識(shí)進(jìn)行記憶和遺忘,以實(shí)現(xiàn)較為長期的記憶,從而解決對(duì)輸入序列與時(shí)間的長期依賴問題。
經(jīng)過ResNet 模塊和LSTM 網(wǎng)絡(luò)模塊對(duì)時(shí)空特征的提取,得到了大小為(None,2,32,32)的地理特征向量和兩個(gè)大小為(None,64)的時(shí)間特征向量,按照編解碼器的架構(gòu),需要融合為一個(gè)向量。代碼實(shí)現(xiàn)中,特征融合層具體結(jié)構(gòu)如圖8 所示,使用LSTM 單元數(shù)作為CNN 層卷積核個(gè)數(shù),卷積核大小為3×3,使地理特征向量的特征通道大小與LSTM 單元數(shù)相等,再使用Reshape 和Dense 層進(jìn)行形狀轉(zhuǎn)換,最終使地理特征向量大小為(None,64),分別與LSTM 網(wǎng)絡(luò)模塊輸出的兩個(gè)狀態(tài)相加融合,得到編碼向量。
圖8 SECLI的特征融合層結(jié)構(gòu)Fig.8 Feature fusion layer structure of SECLI
解碼器模塊主要由一個(gè)LSTM 網(wǎng)絡(luò)和輸出層組成,組成結(jié)構(gòu)和預(yù)測過程,如圖9 所示。與之前LSTM 不同的是,將解碼LSTM 設(shè)計(jì)為返回全部隱藏狀態(tài)序列作為預(yù)測值,同時(shí)輸出兩個(gè)狀態(tài)向量。
圖9 SECLI解碼器多步預(yù)測示意圖Fig.9 Multi-step prediction schematic diagram of SECLI decoder
解碼LSTM 輸入編碼器輸出的編碼向量,使用這兩個(gè)(None,64)大小的向量作為狀態(tài)輸入對(duì)LSTM 的兩個(gè)狀態(tài)進(jìn)行初始化,再使用最后歷史時(shí)刻數(shù)據(jù),即預(yù)測時(shí)刻上一時(shí)刻的數(shù)據(jù)作為LSTM 的數(shù)據(jù)輸入進(jìn)行預(yù)測,得到LSTM 計(jì)算過程中每個(gè)隱層輸出向量的序列,向量大小均為(None,64),最后將利用Dense 層變換向量形狀,使其形狀與解碼階段輸入的歷史數(shù)據(jù)一致,最終得到向量大小為(None,2×32×32)的序列,即為最終預(yù)測結(jié)果。至此單步預(yù)測過程完成,而圖片整體表示多步預(yù)測過程,通過不斷獲取單步預(yù)測的預(yù)測結(jié)果、隱藏狀態(tài)和記憶單元狀態(tài),迭代利用LSTM 進(jìn)行解碼,最終得到多步預(yù)測結(jié)果。
在本章中通過實(shí)驗(yàn)評(píng)估所提出的模型SECLI。首先,介紹使用的兩個(gè)不同的交通客流數(shù)據(jù)集,包括出租車和自行車,以及用于比較的最新基準(zhǔn)。然后,給出了實(shí)驗(yàn)參數(shù),包括默認(rèn)模型參數(shù)和仿真環(huán)境。接下來,將對(duì)四個(gè)數(shù)據(jù)集的各種模型進(jìn)行仿真評(píng)估,并得到實(shí)驗(yàn)結(jié)果。同時(shí),還給出了時(shí)間開銷數(shù)據(jù)表明本文所提出模型可以短時(shí)精準(zhǔn)預(yù)測交通流量數(shù)據(jù)。
本文選擇以下兩個(gè)數(shù)據(jù)集進(jìn)行評(píng)估:
1)北京出租車(TaxiBJ)。北京出租車數(shù)據(jù)是按四個(gè)時(shí)間間隔從北京出租車的全球定位系統(tǒng)(Global Positioning System,GPS)數(shù)據(jù)中收集的:2015 年3 月1 日—6 月30 日,此數(shù)據(jù)的交通客流量反映在2 個(gè)通道中,網(wǎng)格區(qū)域大小為32×32。最后10 d的數(shù)據(jù)是測試數(shù)據(jù),其他數(shù)據(jù)是訓(xùn)練數(shù)據(jù)。
2)紐約自行車(BikeNYC)。該數(shù)據(jù)由紐約自行車系統(tǒng)在2014年4月1日—9月30日發(fā)布。每個(gè)行程數(shù)據(jù)包括:行程持續(xù)時(shí)間、開始和結(jié)束站臺(tái)ID,以及開始和結(jié)束時(shí)間。此數(shù)據(jù)的交通客流量反映在2個(gè)通道中,網(wǎng)格區(qū)域大小為16×8。使用最后10 d的數(shù)據(jù)進(jìn)行測試,其余數(shù)據(jù)用于訓(xùn)練。
在經(jīng)過數(shù)據(jù)預(yù)處理后,本文將對(duì)預(yù)測每個(gè)時(shí)間片所需的歷史數(shù)據(jù)進(jìn)行抽取,合成歷史信息向量與預(yù)測數(shù)據(jù)一一對(duì)應(yīng),但以對(duì)數(shù)據(jù)集中的第一個(gè)時(shí)間片的數(shù)據(jù)進(jìn)行預(yù)測為例,數(shù)據(jù)集中并不存在它的歷史數(shù)據(jù)。在取得歷史向量集合和標(biāo)簽數(shù)據(jù)集后,數(shù)據(jù)集均取最后10 d的數(shù)據(jù)作測試數(shù)據(jù),其他數(shù)據(jù)作訓(xùn)練數(shù)據(jù)。抽取和訓(xùn)練集劃分后的數(shù)據(jù)集含數(shù)據(jù)條數(shù)如表1所示。
表1 交通流量預(yù)測實(shí)驗(yàn)中的數(shù)據(jù)集劃分Tab.1 Dataset division in traffic flow prediction experiments
為了充分評(píng)估算法性能,本文聯(lián)合使用均方根誤差(Root Mean Square Error,RMSE)和平均絕對(duì)誤差(Mean Absolute Error,MAE)兩個(gè)指標(biāo)評(píng)估算法預(yù)測性能,其定義如式(9)和式(10)所示。
其中:Fi、分別為第i個(gè)時(shí)間步預(yù)測的真實(shí)值和預(yù)測值;n為樣本總數(shù)。
使用Min-Max 歸一化方法縮放輸入數(shù)據(jù)在[0,1]范圍內(nèi)。在評(píng)估中,將預(yù)測值重新縮放回正常值。使用激活函數(shù)為比例指數(shù)線性單元(Scaled Exponential Linear Unit,SELU),在卷積層前使用數(shù)據(jù)歸一化過程。在實(shí)驗(yàn)中,批次大小設(shè)置為32。首先選擇訓(xùn)練樣本的90%來訓(xùn)練每個(gè)模型,其余10%在驗(yàn)證集中進(jìn)行參數(shù)調(diào)整。所有實(shí)驗(yàn)中都使用了Early stopping機(jī)制。
本文所提出的SECLI 模型在擁有CentOS Linux Release 7.4.1708(Core)操作系統(tǒng)與128 GB 內(nèi)存的服務(wù)器上進(jìn)行實(shí)驗(yàn)。服務(wù)器的CPU 與GPU 型號(hào)分別是Intel Xeon Gold 6132 CPU @2.62 GHz 與Nvidia Tesla-V100。同時(shí)本文基于Keras深度學(xué)習(xí)框架實(shí)現(xiàn)了SECLI交通流量預(yù)測模型。
1)自對(duì)比實(shí)驗(yàn)。
為了評(píng)價(jià)不同分量對(duì)模型的影響,本文基于BikeNYC 數(shù)據(jù)集進(jìn)行了自對(duì)比實(shí)驗(yàn),比較了:1)單獨(dú)使用CNN;2)單獨(dú)使用ResNet;3)單獨(dú)使用LSTM;4)編碼器只使用CNN,解碼器使用LSTM;5)編碼器只使用ResNet,解碼器使用LSTM;6)編解碼器均使用LSTM;7)本文模型去除注意力模塊SE層;8)本文模型將2D-CNN 換成1D-CNN。各變異體的實(shí)驗(yàn)結(jié)果如表2所示。從表2 中得到了兩個(gè)觀察結(jié)果。首先,沒有短期編碼器,模型退化為單步預(yù)測模型。其次,模型內(nèi)各模塊都提高了預(yù)測精度,表明了模型各部分的重要性和本文設(shè)計(jì)的有效性。
表2 不同算法在BikeNYC數(shù)據(jù)集上的交通流量預(yù)測結(jié)果對(duì)比Tab.2 Traffic flow prediction result comparison of different algorithms on BikeNYC dataset
2)單步預(yù)測。
本節(jié)通過展示實(shí)驗(yàn)的結(jié)果趨勢從直觀上來對(duì)比預(yù)測值和真實(shí)值。在對(duì)模型進(jìn)行訓(xùn)練之后,分別對(duì)北京和紐約兩個(gè)城市內(nèi)某區(qū)域進(jìn)行預(yù)測,預(yù)測結(jié)果和實(shí)際結(jié)果對(duì)比分別如圖10~11所示,預(yù)測的趨勢和真實(shí)值非常吻合,表明取得了較好的短時(shí)交通流量預(yù)測效果。且在交通流量值較大位置預(yù)測效果要優(yōu)于交通流量值較小的位置;將北京出租車數(shù)據(jù)集和紐約自行車數(shù)據(jù)集對(duì)比,北京出租車數(shù)據(jù)集較大,預(yù)測效果要優(yōu)于后者。
圖10 TaxiBJ流量預(yù)測值與實(shí)際值對(duì)比Fig.10 Comparison of prediction values and real values of TaxiBJ flow
圖11 BikeNYC流量預(yù)測值與實(shí)際值對(duì)比Fig.11 Comparison of prediction values and real values of BikeNYC flow
首先將本文模型與以下模型進(jìn)行比較:三個(gè)具有代表性的傳統(tǒng)基線包括歷史平均值(Historical Average,HA)、普通線性回歸(Ordinary Linear Regression)和梯度集成(Extreme Gradient Boosting,XGBoost);基于深度神經(jīng)網(wǎng)絡(luò)的時(shí)空數(shù)據(jù)分析模型(DNN-based prediction model for Spatio-Temporal data,DeepST);ST-ResNet;DMVST-Net;卷積長短時(shí)記憶(Convolutional Long-Short Term Memory,ConvLSTM);混合卷積長短時(shí)記憶網(wǎng)絡(luò)(Fusion Convolutional Long-Short Term Memory Network,F(xiàn)CL-Net);整合區(qū)域人群流并應(yīng)用于靈活的區(qū)域劃分(Integrates Regional Crowd Flow and Applies to Flexible Region Partition,F(xiàn)lowFlexDP);DCRNN;STGCN。
表3 給出了綜合比較結(jié)果,從表3 可以看出:1)深度學(xué)習(xí)方法總是優(yōu)于HA、OLR 和XGBoost 等非深度學(xué)習(xí)方法,這表明了深度學(xué)習(xí)方法在捕捉非線性時(shí)空相關(guān)性方面的優(yōu)越性。2)本文所提出基于深度殘差長短記憶網(wǎng)絡(luò)(SECLI)模型始終保持最佳性能,并在兩個(gè)數(shù)據(jù)集中都優(yōu)于其他方法。結(jié)果表明,所提模型能夠捕捉到更準(zhǔn)確的時(shí)空相關(guān)性。
表3 不同深度學(xué)習(xí)方法流量預(yù)測結(jié)果對(duì)比Tab.3 Traffic flow prediction result comparison of different deep learning methods
3)多步預(yù)測。
目前交通流量預(yù)測模型大多依賴于數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)量也是決定預(yù)測精度的因素之一,但學(xué)習(xí)的數(shù)據(jù)量越大,預(yù)測精度越高。因此為提升預(yù)測精度,預(yù)測模型都耗時(shí)較長,充分利用單次數(shù)據(jù)學(xué)習(xí)過程進(jìn)行多步預(yù)測十分有意義,這意味著可以更快、更早地對(duì)未來進(jìn)行長時(shí)交通流量預(yù)測。BikeNYC 和TaxiBJ 上基于本文模型進(jìn)行多步預(yù)測實(shí)驗(yàn)的重復(fù)單步實(shí)驗(yàn)和單次多步的時(shí)間開銷實(shí)驗(yàn)對(duì)比結(jié)果如表4 和表5。與單步預(yù)測相比較,單次多步訓(xùn)練只需要對(duì)模型進(jìn)行單次學(xué)習(xí),訓(xùn)練耗時(shí)極大減??;在2 步和3 步預(yù)測中,單次多步訓(xùn)練耗時(shí)比重復(fù)進(jìn)行單步預(yù)測分別最多提高了55.5%和65.5%,體現(xiàn)了多步預(yù)測模型的優(yōu)越性。在實(shí)際應(yīng)用中,可以在相對(duì)較短時(shí)間內(nèi)進(jìn)行多步細(xì)粒度的交通流量預(yù)測。
表4 BikeNYC上重復(fù)單步預(yù)測和多步預(yù)測的時(shí)間開銷比較Tab.4 Time consumption comparison of repeated single-step and multi-step prediction on BikeNYC
表5 TaxiBJ上重復(fù)單步預(yù)測和多步預(yù)測的時(shí)間開銷比較Tab.5 Time consumption comparison of repeated single-step and multi-step on TaxiBJ
本文所提的融合殘差神經(jīng)網(wǎng)絡(luò)、LSTM和空間注意力的交通流量預(yù)測模型SECLI,能有效學(xué)習(xí)時(shí)空軌跡數(shù)據(jù)的深度時(shí)空特征和時(shí)空依賴性,提高了交通流量多步預(yù)測性能。在兩個(gè)大規(guī)模公開數(shù)據(jù)集上的測試結(jié)果驗(yàn)證了,本文所提的SECLI 模型在單步和多步預(yù)測中都明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型和基線深度學(xué)習(xí)模型。未來將致力于把本文模型算法應(yīng)用于非結(jié)構(gòu)化時(shí)空數(shù)據(jù)的挖掘與處理。