李金龍 李若南 吳攀 于廣婧 許倫輝
摘 要:針對城市道路網(wǎng)絡環(huán)境下各種軟/硬件故障導致的交通數(shù)據(jù)缺失問題,提出了一種基于時空殘差張量學習(spatial-temporal residual tensor learning,ST-RTL)的交通數(shù)據(jù)修復方法。該方法通過構造帶缺失值的三維交通張量以最大程度表征原始路網(wǎng)時空信息;并在高斯分布假設基礎上,采用Gibbs采樣完成對缺失數(shù)據(jù)的CANDECOMP/PARAFAC(CP)張量分解與低秩重構。考慮到張量修復過程產(chǎn)生的殘差值,研究設計一種可動態(tài)迭代的雙向殘差優(yōu)化結構以捕捉剩余時空依賴特性,實現(xiàn)對缺失交通數(shù)據(jù)的精準修復。采用公開的杭州地鐵客流數(shù)據(jù)進行模型構建與驗證。結果表明,當缺失率為10%~80%時,三種缺失場景(隨機、聚類和混合缺失)對張量結構破壞存在較大差異,其中聚類缺失的破壞程度最大,此時,ST-RTL的評估指標MAPE、RMSE和MAE分別位于3.1071~7.0371、16.3779~58.4286、3.7434~8.0135;且隨著缺失率遞增,ST-RTL模型各指標呈加速增加趨勢。與HaLRTC、GAIN和BGCP等代表性基準模型相比,所建立的ST-RTL模型在可接受計算代價范圍內具有更低的性能指標和更強的穩(wěn)定性,能為智能交通系統(tǒng)提供高質量的基礎數(shù)據(jù)。
關鍵詞:智能交通; 數(shù)據(jù)修復; 張量學習; 高斯分布; 殘差優(yōu)化
中圖分類號:U491.1+4 文獻標志碼:A 文章編號:1001-3695(2023)10-014-2972-06
doi:10.19734/j.issn.1001-3695.2023.03.0084
Traffic data imputation of urban road network based on
spatial-temporal residual tensor learning
Li Jinlong1, Li Ruonan2, Wu Pan3, Yu Guangjing1, Xu Lunhui1
(1.School of Civil Engineering & Transportation, South China University of Technology, Guangzhou 510641, China; 2.College of Computer Science & Technology, Harbin Institute of Technology (Shenzhen), Shenzhen Guangdong 518055, China; 3.College of Traffic & Transportation, Chongqing Jiaotong University, Chongqing 400074, China)
Abstract:To tackle the issue of traffic data loss due to various software/hardware failures in urban road network environments, this paper proposed a traffic data imputation method based on spatial-temporal residual tensor learning (ST-RTL). This method constructed a 3D traffic tensor with missing value to characterize original spatiotemporal attributes of road network maxi-mally. Then it adopted Gibbs sampling to perform a CANDECOMP/PARAFAC (CP) tensor decomposition and low-rank reconstruction of missing traffic data based on the assumption of Gaussian distribution. Considering the residual value produced by the tensor repair process, the study designed a bidirectional residual optimization structure with dynamic iterations to capture the residual spatiotemporal dependencies to enable the accurate repair of the missing traffic data. The experiments took a publicly available Hangzhou metro passenger flow for model construction and validation. The results indicate that when the missing rates are 10%~80%, the three missing scenarios (random, cluster and hybrid missing) have large differences on tensor structure damage, among which cluster missing has the greatest destruction and the evaluation indexes MAPE, RMSE and MAE of ST-RTL lied in 3.1071~7.0371, 16.3779~58.4286 and 3.7434~8.0135; and each indicator of ST-RTL model shows an accelerated increasing trend as the missing rate rises. Compared with the representative baseline models such as HaLRTC, GAIN and BGCP, the ST-RTL exhibits lower performance metrics and stronger stability in the acceptable computational costs, which can provide high-quality basic data for intelligent transportation systems.
Key words:intelligent transportation; data imputation; tensor learning; Gaussian distribution; residual optimization
0 引言
隨著城市智能交通系統(tǒng)(intelligent transportation system,ITS)所依賴的基礎運行設施逐漸完善,采用傳感器技術、通信技術及數(shù)據(jù)存儲技術等收集到的交通數(shù)據(jù)日益紛繁復雜,也極易導致因突發(fā)天氣、設備老化或傳輸中斷等軟/硬件故障而發(fā)生交通數(shù)據(jù)異?;騺G失[1]。例如,交叉口/區(qū)域/路網(wǎng)等不同尺度范圍內的自適應交通信號控制系統(tǒng)需要穩(wěn)定且高質量的交通值(如流量、密度和速度)來進行實時數(shù)據(jù)分析,以生成高效的控制指令與管理策略。如果存在缺失值,這不僅嚴重影響控制系統(tǒng)的正常運轉,甚至還加重城市路網(wǎng)的交通擁堵。因此,為了更好地開展交通數(shù)據(jù)的分類、回歸預測、控制優(yōu)化與管理等基礎性工作,研究有必要對處在各種復雜缺失狀況下的交通數(shù)據(jù)進行高精度修復[2]。
精準的交通數(shù)據(jù)修復需要采用有效的算法與策略,通過充分挖掘路網(wǎng)異構多源數(shù)據(jù)間客觀的時空依賴關系,從而建立起符合自然演化規(guī)律的數(shù)據(jù)修復模型[3]。為此,國內外研究學者從理論分析與實際應用角度出發(fā),采用各種方法建立了大量的交通數(shù)據(jù)修復模型。目前,主流修復算法分為插值類、預測類與統(tǒng)計類方法[1]。其中,早期的插值類方法,如歷史差值、樣條差值和回歸差值等,在填補向量形式的缺失交通數(shù)據(jù)時取得了不錯的修復效果。然而,面對大規(guī)模缺失數(shù)據(jù)時,插值類算法因相對簡單的修復原理而失效。通過大量使用智能算法從交通數(shù)據(jù)中有效提取空間與時間特征,一些預測類方法在數(shù)據(jù)修復任務中取得了較高的修復精度。如Cui等人[4]設計了帶修復單元的SBU-LSTM循環(huán)結構以自動填補缺失交通值。Xu等人[5]開發(fā)了一個新穎的深度學習框架GE-GAN以有效完成修復任務。盡管越來越多的研究使用預測算法修復缺失數(shù)據(jù),但該類方法的不可解釋性和高計算成本嚴重制約了此類研究的進展[6]。統(tǒng)計類方法已被成功應用于數(shù)據(jù)修復領域并取得了較好的結果,如矩陣分解算法通過數(shù)據(jù)降維與近似重構在缺失交通值填補方面取得了大量的理論突破與應用先例(如BPCA、PPCA、FPCA和KPPCA)。但考慮到現(xiàn)階段ITS中多源交通數(shù)據(jù)復雜的時空依賴關系,簡單的二維矩陣結構已無法充分表征具有高維特性的交通序列。因此,部分學者采用三維張量結構來表示復雜路網(wǎng)環(huán)境下的多源時空交通序列,并通過低秩近似的方式完成對張量的分解與重構。例如,Liu等人[7]提出了一個無分解結構的高精度低秩張量完成(HaLRTC)算法估計缺失值;隨后,Ran等人[8]將其應用于交通數(shù)據(jù)修復。Chen等人[9]將貝葉斯矩陣分解擴展至更高階的貝葉斯高斯CANDECOMP/PARAFAC (BGCP)張量分解形式。通過學習時空交通數(shù)據(jù)潛在統(tǒng)計模式,該模型在大規(guī)模交通數(shù)據(jù)修復任務中取得了良好的效果。此外,Chen等人[10]還提出了一個低秩自回歸張量完成(LATC)算法,因同時考慮了交通數(shù)據(jù)的全局相關性與局部相關性,該算法的修復精度與穩(wěn)定性更高。
盡管上述研究證實這些算法在交通數(shù)據(jù)修復任務上的優(yōu)勢,但它們卻很少涉及對大規(guī)模缺失數(shù)據(jù)的處理,且極少部分研究的修復結果仍然缺乏有效性;同時,對于模型修復后大量存在的誤差值,相關工作明顯缺乏深入分析與后續(xù)處理,進而阻礙了模型性能的提升??紤]到現(xiàn)階段修復方法存在的局限性,為進一步提高缺少交通數(shù)據(jù)修復精度,本文構建一種基于時空殘差張量學習(spatial-temporal residual tensor learning,ST-RTL)的大規(guī)模交通數(shù)據(jù)修復模型。該模型在高斯分布假設基礎上,通過Gibbs采樣完成對三階張量的CP分解與低秩重構,基本實現(xiàn)對已觀測數(shù)據(jù)的建模、缺失值生成及殘差計算。然后,為進一步提取時空依賴特性,研究設計了一種新穎的雙向殘差優(yōu)化結構,以動態(tài)迭代的方式不斷減少修復值與真實值間的差值,逐步提高模型的修復性能。
1 修復問題描述
在城市路網(wǎng)G環(huán)境中,每個部署在特定區(qū)域內的傳感器通過連續(xù)時段采樣收集到大量向量形式的交通數(shù)據(jù),所有傳感器數(shù)據(jù)基于時空維形成一個三維交通張量集X∈Euclid Math TwoRApI×J×K。其中:I表示空間維的傳感器數(shù);J表示時間維的采集天數(shù);K表示傳感器每天以固定時間間隔采集到的交通數(shù)據(jù)量。如圖1所示,張量X中單個元素xi,j,k代表第i個傳感器在第j天獲得的第k個交通值,其中i∈{1,2,3,…,I},j∈{1,2,3,…,J},k∈{1,2,3,…,K}。理論上,除人為干擾,數(shù)據(jù)缺失現(xiàn)象可以發(fā)生在張量X的任意位置且缺失率無法預估。為表征這種數(shù)據(jù)缺失情況,研究創(chuàng)建0-1掩碼張量M∈Euclid Math TwoRApI×J×K,式(1)表示其元素劃分標準。因此,路網(wǎng)實際采集的交通數(shù)據(jù)可表示為XΩ=X⊙M,其中Ω表示已觀測數(shù)據(jù)的索引集;符號⊙表示張量間的Hadamard積。
考慮到路網(wǎng)G中復雜的時空依賴關系,相鄰交通數(shù)據(jù)受傳感器空間位置與時間周期性的相互影響,研究對已觀測數(shù)據(jù)集XΩ∈Euclid Math TwoRApI×J×K進行時空建模以修復X中的缺失值。
2 基于ST-RTL的路網(wǎng)交通數(shù)據(jù)修復模型
2.1 模型架構
基于圖1中時空數(shù)據(jù)展示與式(2)的預期目標,研究從模型優(yōu)化角度出發(fā)提出了基于CP張量分解的ST-RTL修復模型,以完成對復雜缺失交通數(shù)據(jù)的精準修復。具體而言,圖2展示了ST-RTL模型的修復過程,主要包括以下兩部分:a)三階CP張量分解完成缺失交通數(shù)據(jù)的低秩近似與基本重構;b)可迭代時空殘差優(yōu)化結構減少模型誤差,實現(xiàn)路網(wǎng)缺失交通數(shù)據(jù)的精準修復。其中,2.2節(jié)(對應圖2中的①)介紹了高階CP張量分解原理與完成三階缺失交通張量低秩重構的方法與過程;2.3節(jié)(對應圖2中的②)提出了一種新穎的雙向殘差優(yōu)化結構及其結合CP張量計算的具體應用。對于修復后的完整張量,研究在實驗部分采用了多種性能指標和各種先進的基準模型綜合對比和評判ST-RTL的修復效果。
2.2 高維低秩張量分解
2.2.1 CANDECOMP/PARAFAC (CP)張量分解
作為矩陣奇異值分解的高階擴展版本,CP張量分解在信號處理、圖像去噪及數(shù)據(jù)修復等各個方面取得了廣泛應用。通常,該算法將高階張量分解為有限個秩1張量和,然后通過最小二乘法或梯度下降法進行迭代計算和低秩還原。本研究利用CP分解作為基本工具以完成對缺失交通數(shù)據(jù)的精準修復。具體如式(2)所示,研究首先采用CP分解將X轉換為R個秩為1的因子張量和,然后再對其數(shù)值優(yōu)化問題求解。
2.2.2 低秩貝葉斯推斷
對于上述三階CP張量分解,研究采用貝葉斯方法近似求解各因子張量arbrcr。為方便描述,研究利用ur統(tǒng)一表示張量arbrcr且假設其向量u(d)r滿足多元高斯分布:
其中:tr(·)為跡函數(shù),表示方形矩陣主對角線上所有元素的和。實際上,被分解的張量X與其重構值存在絕對誤差,研究假設觀測向量xi∈XΩ滿足獨立高斯分布xi~N(i,τ-1ε),τε為精度參數(shù),i為xi的CP分解重構值。由于τε值大小反映了交通數(shù)據(jù)的噪聲程度,所以間接影響了CP分解的穩(wěn)健性。但理論上該值無法確定,研究只能采用共軛τε~Gamma(ξ,ζ)先驗對其進行估計,其中ζ和ξ分別為形狀參數(shù)和速率參數(shù)。在高斯假設條件下,研究后續(xù)采用Gibbs采樣算法[9]對所有模型參數(shù)和超參數(shù)進行估計并求其后驗分布,最后通過次迭代計算交替更新完成貝葉斯推斷和CP張量分解。
2.3 時空殘差優(yōu)化建模
與傳統(tǒng)修復方法相比,上述低秩CP張量分解對簡單缺失狀況具有一定的修復效果。然而,現(xiàn)階段大規(guī)模復雜缺失交通數(shù)據(jù)修復任務需要更為精準且穩(wěn)定性更強的修復模型??紤]到實際修復過程中被忽視的計算殘差,研究從模型優(yōu)化角度出發(fā)設計了一個可高度模塊化的雙向時空殘差優(yōu)化結構。具體而言,該結構包含
3 實驗與結果分析
3.1 實驗數(shù)據(jù)與缺失情況描述
3.1.1 數(shù)據(jù)集描述
本研究選擇公開可獲取的杭州地鐵客流交通數(shù)據(jù)集[9]驗證ST-RTL模型的實際修復效果和可靠性。該數(shù)據(jù)集包含了杭州市80個地鐵站在2019年1月1日至1月25日采集到的所有進站乘客流量,采樣間隔為10 min,即每10 min記錄站點客流的平均數(shù)量。依據(jù)城市地鐵運行規(guī)律,地鐵站在00:00~06:00時段暫停服務,因此,每個站點每天能收集108個數(shù)據(jù)值。根據(jù)時空屬性和研究目標,本文將上述杭州交通時序按張量模式“傳感器×天數(shù)×時間”重新轉換為“80×25×108”的三階張量形式。
3.1.2 復雜缺失張量構建
在城市路網(wǎng)環(huán)境中,各種硬件/軟件故障導致交通數(shù)據(jù)缺失的方式和比率多樣,傳統(tǒng)研究傾向于構建單一模式下具有較低比率的缺失交通時序以完成修復任務。本研究在調查統(tǒng)計交通數(shù)據(jù)實際缺失狀況后,設計了三種能模擬真實狀況的修復場景:隨機缺失(random missing,RM)、聚類缺失(cluster mis-sing,CM)和混合缺失(hybrid missing,HM)[11]。針對這三種模式,研究隨機刪除一定比率的數(shù)據(jù)點、數(shù)據(jù)塊及其組合以滿足理論研究對缺失率的設計要求,保證其從10%開始以間隔10%遞增至90%,基本全尺度覆蓋了所有可能的缺失情況。特別對于HM模式,研究通過同比率混合RM和CM模式下的缺失數(shù)據(jù)以形成HM模式下具有指定比率的缺失交通張量。
3.2 基本的實驗設置
3.2.1 基準對比模型
研究引入具有代表性的基準模型進行修復性能對比,各個對比模型介紹如下:
a)HaLRTC[7]:高精度低秩張量完成。它在張量核范數(shù)最小化基礎上,使用交替乘子法(ADMM)解決了多個約束間的依賴關系并對修復問題進行了有效求解。
b)GAIN[12]:生成對抗修復網(wǎng)絡。它的生成器利用部分觀測值輸出完整的交通時序,并通過對抗網(wǎng)絡逐步學習交通數(shù)據(jù)的真實分布以提高模型的修復精度。
c)BGCP[9]:貝葉斯高斯CP張量分解。它擴展貝葉斯概率矩陣分解至更高階形式,然后通過馬爾可夫鏈蒙特卡羅學習潛在低秩因子矩陣的時空依賴性以修復缺失交通值。
d)LRTC-TNN[13]:帶截斷核規(guī)范的低秩張量完成。它對缺失交通值實施基于截斷核規(guī)范最小化的LRTC算法求解,且修復結果優(yōu)于許多先進的基準模型。
e)LATC[10]:低秩自回歸張量完成。它的低秩結構能有效表征三階張量的全局一致性和變化趨勢,所提出的自回歸項能捕捉到交通數(shù)據(jù)的局部時間趨勢。
所有基準模型均在相同實驗條件下完成模型構建,模型參數(shù)預先經(jīng)由反復調優(yōu)確定。其中,對于HaLRTC,其RM、CM和HM場景下的學習率分別設置為10-4、10-4和10-5;對于GAIN,它的生成器與對抗器均為三層全連接神經(jīng)網(wǎng)絡且迭代次數(shù)設為1 000;對于BGCP,其RM、CM和HM模式下的CP秩分別設為110、80和40;對于LRTC-TNN,它在RM、CM和HM模式下的截斷參數(shù)分別為0.3、0.05和0.05;對于LATC,設定它的模型學習率、截斷參數(shù)和權衡系數(shù)分別為10-5、{5,10,15,20,30}和{1/10,1/5,1,5,10}。
3.2.2 模型評價指標
為了量化和比較ST-RTL與上述修復模型的性能,研究采用平均絕對百分比誤差(mean absolute percentage error,MAPE)、均方根誤差(root mean square error,RMSE)和平均絕對誤差(mean absolute error,MAE)評估模型修復值與其真實值的差值。具體而言,三個評價指標的計算公式定義如下:
其中:Ω代表已被觀測的交通值集合且|Ω|表示其模值;xi,j,k和i,j,k分別表示真實值及對應修復值。一般而言,MAPE、RMSE和MAE值越小,表明模型的修復性能越好[14~16]。
3.3 ST-RTL參數(shù)調優(yōu)與模型評估
所有修復模型計算均在臺式計算機(CPU(Intel Core i7-7700K @4.20 GHz主頻,4個核心,56 GB內存和64位Windows 10操作系統(tǒng))上進行,使用Python第三方庫(如TensorFlow、NumPy和Pandas)與Python 3.6.7來搭建包括五種基準算法在內的所有城市地鐵客流修復模型。針對RM、CM和HM場景,研究靈活調整包括張量秩在內的多個ST-RTL模型關鍵參數(shù)以期獲得更好的修復性能。以張量秩為例,圖3(a)~(c)分別展示了ST-RTL在RM、CM和HM場景下的不同張量秩R對修復性能的影響。理論上,模型設置的R值越大,張量分解與重構所包含的時空依賴信息越豐富,對應生成的缺失值越精確;實際上,ST-RTL的修復結果符合預定理論設想。據(jù)圖3可知,RM、CM和HM場景下修復模型的RMSE、MAPE和MAE隨著R值增加總體呈下降趨勢,特別是后兩個指標值的變化趨勢更加顯著。隨著R值逐漸增大,ST-RTL的三個評價指標趨于穩(wěn)定,這種現(xiàn)象表明過大的R無法產(chǎn)生等價值的增益,反而可能降低模型修復效率。同時,三種缺失場景在ST-RTL修復框架內產(chǎn)生了不同的計算效果,這可能與杭州地鐵交通客流固有的極端時空屬性有關。因此,基于對修復精度與計算效率的雙重考慮,本研究設定ST-RTL模型在RM、CM和HM場景下的張量分解秩分別為15、30和20。
對于ST-RTL模型的其他實驗參數(shù),研究通過大量定量對比實驗完成了模型參數(shù)調優(yōu)。其中對于CP張量分解的迭代采樣參數(shù),在保證采樣頻率的情況下,研究設定為200,以最大限度減少算法復雜度;同時對于ST-RTL模型的殘差迭代次數(shù),研究經(jīng)過多次測試并在綜合考慮模型的修復精度和計算效率后設定其在RM、CM和HM場景下均為100。
在確定所有參數(shù)后,研究在圖3(d)~(f)中展示了ST-RTL模型在RM、CM和HM場景及10%~90%缺失率組合下的最佳性能指標曲線。據(jù)曲線變化可知,隨著缺失率遞增,ST-RTL模型的RMSE、MAPE和MAE值變化總體符合理論上的增加趨勢。當缺失率過高時,模型的修復性能急劇下降;特別當缺失率達到90%后,ST-RTL模型各性能指標同時驟升,這表明研究所建立的ST-RTL近乎失效。同時,ST-RTL對于有顯著缺失差異的RM、CM和HM場景產(chǎn)生了不同的結果。如圖3(d)~(f)所示,在低缺失率區(qū)間(<50%),ST-RTL對三種缺失場景產(chǎn)生了精確而有效的修復,具體表現(xiàn)為各缺失率之間的性能指標差異細微;而在高缺失率區(qū)間(>80%),三種場景因極端缺失而促使ST-RTL模型呈現(xiàn)出迥異的修復效果。其中,CM模式下的RMSE、MAPE和MAE值較其他場景具有更顯著的變化,這表明CM對張量結構最具破壞性;相對而言,HM和RM模式下ST-RTL的修復性能依次減弱,這與其對數(shù)據(jù)集的結構破壞方式有關。因此,在路網(wǎng)環(huán)境中,對交通數(shù)據(jù)的采集、傳輸與存儲應避免出現(xiàn)CM場景下的極端情況。
3.4 實驗結果分析與對比
為證實ST-RTL模型修復性能,表1~3列出其與五種先進基準模型對各種不完整張量修復后的性能指標??紤]到圖3中ST-RTL對缺失率超過80%的修復任務產(chǎn)生的糟糕結果,本節(jié)模型分析與對比舍棄此極端情況,僅涉及10%~80%的缺失率。具體對不同缺失情況,各模型展現(xiàn)出差異十分顯著的實驗結果,而本文的ST-RTL在絕大多數(shù)情況下均獲得了最佳的修復精度。其中,在RM模式下,生成模型GAIN的評價指標RMSE、MAPE和MAE在所有缺失率范圍內均遠大于其他模型,這可能與其對地鐵客流設置過于理想的模型假設有關;同為LRTC類算法,早期的HaLRTC在交通數(shù)據(jù)修復領域展現(xiàn)了相當?shù)母偁幜?,特別對低缺失率(<50%)修復任務同時保持了不錯的精度與效率;與HaLRTC相比,BGCP模型對各缺失率修復任務的性能指標維持了較低水準,特別對于較高缺失率的實驗證明了其較強的穩(wěn)定性;作為BGCP模型的擴展,LATC對各缺失狀況的修復精度更高且明顯優(yōu)于HaLRTC;在低缺失率范圍內,LRTC-TNN與ST-RTL的修復效果較為接近且相對其他模型更優(yōu)。但隨著缺失率增加,前者的各評價指標值逐漸呈加速擴增趨勢。因此,充分對比表1中各指標后表明,所建立的ST-RTL在RM場景下要優(yōu)于其他基準模型,其在80%缺失率情況下的RMSE、MAPE和MAE值僅為6.570 2、29.840 0和5.850 0。
相同標準下,研究利用ST-RTL和基準模型對CM和HM場景的缺失交通張量進行修復。表2和3記錄了所有模型在兩種模式下的RMSE、MAPE和MAE。據(jù)表可知,盡管模型在兩種模式下的修復指標大于RM模式,但它們的性能變化趨勢隨著缺失率增加符合上述RM模式的演化規(guī)律。其中,ST-RTL的修復性能在CM與HM模式下總體仍優(yōu)于五種主流基準模型;且相同缺失率下ST-RTL對CM和HM模式的修復指標值更大,這表明它們對張量結構的破壞程度更嚴重,而且這種現(xiàn)象隨缺失率增加呈加速擴張趨勢。同時,隨缺失率增加,部分指標因可觀測數(shù)據(jù)量改變而導致其與剩余指標的變化不一致,但這不影響模型性能的總體變化規(guī)律。綜上所述,本文的ST-RTL模型利用三階CP張量分解生成缺失交通值,然后通過殘差優(yōu)化減少模型誤差以提高修復精度,較基準模型而言,ST-RTL更能適應復雜缺失環(huán)境,最終獲得了較好的修復精度和泛化能力。
3.5 修復效果可視化
為了直觀驗證模型修復缺失交通值的能力,研究進一步對ST-RTL模型的修復值及其殘差進行可視化分析。如圖4~6所示,截取2019年1月1日到1月10日杭州交通數(shù)據(jù)集#1路段的真實客流作為基準曲線,研究分別展示了ST-RTL模型與經(jīng)典的BGCP模型在50%缺失率及RM、CM和HM場景下的修復值曲線。據(jù)圖可知,修復模型對地鐵客流進行了良好的擬合,能基本覆蓋各突變與平穩(wěn)時段的客流變化。但就修復能力而言, ST-RTL模型在圖4~6中對應標示的各殘差塊面積要明顯小于BGCP,這證實了所建立的ST-RTL模型具有更優(yōu)秀的修復性能。同時,縱向對比圖4~6后發(fā)現(xiàn),ST-RTL與BGCP模型修復三種缺失場景的難易程度正好符合3.3節(jié)和3.4節(jié)中的結論(即對張量結構的破壞程度:CM>HM>RM)。因此,在路網(wǎng)交通數(shù)據(jù)采集過程中,應盡量避免出現(xiàn)大面積/超時段的數(shù)據(jù)丟失情況。
4 結束語
針對路網(wǎng)交通數(shù)據(jù)修復問題,本文從CP張量分解和模型殘差優(yōu)化角度出發(fā),提出了一種基于時空殘差張量學習ST-RTL的交通數(shù)據(jù)修復方法。在真實城市地鐵客流數(shù)據(jù)上的實驗結果表明:a)研究在確定RM、CM和HM場景下的張量秩分別為15、30和20后,利用CP分解低秩重構不完整交通張量,實現(xiàn)了對缺失數(shù)據(jù)的有效修復;b)設計的雙向殘差優(yōu)化結構經(jīng)過100次迭代后促使低秩張量修復過程充分挖掘到殘差中的時空依賴關系,保證了ST-RTL在RM、CM和HM模式與10%~80%缺失率的不同組合下具有良好的修復效果;c)與GAIN、BGCP、LATC及LRTC-TNN等主流基準模型相比,本文建立的ST-RTL模型具有更強的修復性能。在后續(xù)研究中,將考慮更多復雜的交通環(huán)境(如天氣、道路及環(huán)境條件等)對ST-RTL的影響,并采用更多城市路網(wǎng)交通數(shù)據(jù)對模型進行測試和比較。
參考文獻:
[1]武江南,張紅梅,趙永梅,等.基于張量奇異值理論的交通數(shù)據(jù)重構方法[J].計算機應用研究,2022,39(5):1449-1453,1459.(Wu Jiangnan, Zhang Hongmei, Zhao Yongmei, et al. Data reconstruction method based on tensor singular value theory[J].Application Research of Computers,2022,39(5):1449-1453,1459.)
[2]張偉斌,張蒲璘,蘇子毅,等.基于自注意力機制與圖自編碼器的路網(wǎng)交通流數(shù)據(jù)修復模型[J].交通運輸系統(tǒng)工程與信息,2021,21(4):90-98.(Zhang Weibin, Zhang Pulin, Su Ziyi, et al. Missing data repairs for road network traffic flow with self-attention graph auto-encoder networks[J].Journal of Transportation Systems Engineering and Information Technology,2021,21(4):90-98.)
[3]Li Jinlong, Wu Pan, Li Ruonan, et al. ST-CRMF:compensated resi-dual matrix factorization with spatial-temporal regularization for graph-based time series forecasting[J].Sensors,2022,22(15):5877.
[4]Cui Zhiyong, Ke Ruimin, Pu Ziyuan, et al. Stacked bidirectional and unidirectional LSTM recurrent neural network for forecasting network-wide traffic state with missing values[J].Transportation Research Part C: Emerging Technologies,2020,118:102674.
[5]Xu Dongwei, Wei Chenchen, Peng Peng, et al. GE-GAN:a novel deep learning framework for road traffic state estimation[J].Transportation Research Part C: Emerging Technologies,2020,117:102635.
[6]Li Jinlong, Li Ruonan, Huang Zilin, et al. Dynamic adaptive generative adversarial networks with multi-view temporal factorizations for hybrid recovery of missing traffic data[J].Neural Computing and Applications,2022,35(10):7677-7696.
[7]Liu Ji, Musialski P, Wonka P, et al. Tensor completion for estimating missing values in visual data[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2012,35(1):208-220.
[8]Ran Bin, Tan Huachun, Wu Yuankai, et al. Tensor based missing traffic data completion with spatial-temporal correlation[J].Physica A:Statistical Mechanics and its Applications,2016,446:54-63.
[9]Chen Xinyu, He Zhaocheng, Sun Lijun. A Bayesian tensor decomposition approach for spatiotemporal traffic data imputation[J].Transportation Research Part C:Emerging Technologies,2019,98:73-84.
[10]Chen Xinyu, Lei Mengying, Saunier N, et al. Low-rank autoregressive tensor completion for spatiotemporal traffic data imputation[J].IEEE Trans on Intelligent Transportation Systems,2021,23(8):12301-12310.
[11]Li Jinlong, Xu Lunhui, Li Ruonan, et al. Deep spatial-temporal bi-directional residual optimisation based on tensor decomposition for traffic data imputation on urban road network[J].Applied Intel-ligence,2022,52(10):11363-11381.
[12]Yoon J, Jordon J, Schaar M. GAIN: missing data imputation using generative adversarial nets[C]//Proc of International Conference on Machine Learning.2018:5689-5698.
[13]Chen Xinyu, Yang Jinming, Sun Lijun. A nonconvex low-rank tensor completion model for spatiotemporal traffic data imputation[J].Transportation Research Part C: Emerging Technologies,2020,117:102673.
[14]Li Jinlong, Sun Laijun, Li Yingsong, et al. Rapid prediction of acid detergent fiber content in corn stover based on NIR-spectroscopy technology[J].Optik,2019,180:34-45.
[15]Li Ruonan, Qin Yang, Wang Jinbo, et al. AMGB: trajectory prediction using attention-based mechanism GCN-BiLSTM in IOV[J].Pattern Recognition Letters,2023,169,17-27.
[16]Li Jinlong, Sun Laijun, Li Ruonan, et al. Application of siSVR-Vis/NIR to the nondestructive determination of acid detergent fiber content in corn straw[J].Optik,2020,202:163717.
收稿日期:2023-03-02;修回日期:2023-04-25
基金項目:國家自然科學基金資助項目(52072130,11702099)
作者簡介:李金龍(1993-),男,湖北荊州人,博士研究生,主要研究方向為城市計算、時空數(shù)據(jù)建模與交通信號控制;李若南(1993-),女,河南南陽人,博士研究生,主要研究方向為物聯(lián)網(wǎng)、邊緣計算與聯(lián)邦學習;吳攀(1991-),女,重慶忠縣人,講師,博士,主要研究方向為交通大數(shù)據(jù)挖掘與分析;于廣婧(1999-),女,河北定州人,碩士研究生,主要研究方向為交通安全與數(shù)據(jù)挖掘;許倫輝(1965-),男(通信作者),江西南康人,教授,博導,博士,主要研究方向為車路協(xié)同、交通大數(shù)據(jù)分析與交通流理論及仿真(lhxu@scut.edu.cn).