姚加林,朱闖
數(shù)據(jù)缺失環(huán)境下基于DCTPLS-PCA的路網(wǎng)速度預(yù)測(cè)研究
姚加林,朱闖
(中南大學(xué) 交通運(yùn)輸工程學(xué)院,湖南 長(zhǎng)沙 410075)
準(zhǔn)確可靠的短時(shí)交通流預(yù)測(cè)是實(shí)現(xiàn)良好交通控制與誘導(dǎo)的基礎(chǔ),由于設(shè)備故障和通信干擾等原因,交通數(shù)據(jù)經(jīng)常存在缺失現(xiàn)象,給交通流預(yù)測(cè)造成了很大困難。在數(shù)據(jù)缺失環(huán)境下,通過(guò)基于三維離散余弦變換的補(bǔ)償最小二乘回歸(DCT-PLS)算法對(duì)缺失數(shù)據(jù)進(jìn)行修復(fù),利用主成分分析(PCA)對(duì)修復(fù)后的數(shù)據(jù)降維,用K近鄰(KNN)算法預(yù)測(cè)路網(wǎng)中各路段速度,并計(jì)算預(yù)測(cè)誤差。以長(zhǎng)沙市某路網(wǎng)為例,在數(shù)據(jù)完整和數(shù)據(jù)缺失2種情況下進(jìn)行數(shù)值實(shí)驗(yàn)。研究結(jié)果表明:DCT-PLS算法修復(fù)精度高于概率主成分分析(PPCA)和貝葉斯主成分分析(BPCA);PCA降維能夠大幅減少預(yù)測(cè)時(shí)的計(jì)算成本;在數(shù)據(jù)缺失環(huán)境下,基于DCTPLS-PCA的方法在大幅降低計(jì)算成本的同時(shí),能夠保證很好的預(yù)測(cè)精度。
數(shù)據(jù)缺失;DCT-PLS;PCA;路網(wǎng);速度預(yù)測(cè)
隨著經(jīng)濟(jì)社會(huì)的快速發(fā)展,小汽車(chē)保有量急劇增加,由此導(dǎo)致了日益嚴(yán)重的城市交通擁堵問(wèn)題。智能交通系統(tǒng)被認(rèn)為是緩解城市交通擁堵的重要方案之一,交通控制與誘導(dǎo)是城市交通管理中的重要組成部分,在智能交通系統(tǒng)中發(fā)揮著舉足輕重的作用。而準(zhǔn)確可靠的短時(shí)交通流預(yù)測(cè)是實(shí)現(xiàn)良好交通控制與誘導(dǎo)的基礎(chǔ),因此研究短時(shí)交通流預(yù)測(cè)對(duì)于緩解城市擁堵具有重要意義。數(shù)據(jù)采集是實(shí)現(xiàn)交通流預(yù)測(cè)的第一步,然而在交通數(shù)據(jù)采集過(guò)程中,由于設(shè)備故障、通信干擾等原因,經(jīng)常存在數(shù)據(jù)缺失現(xiàn)象,這給準(zhǔn)確的交通流預(yù)測(cè)造成巨大困難。在加拿大亞伯達(dá)7 a的交通數(shù)據(jù)中有近50%的數(shù)據(jù)存在缺失,某些時(shí)段缺失比例更是高達(dá)90%[1]。數(shù)據(jù)修復(fù)是處理缺失數(shù)據(jù)的常用方法,數(shù)據(jù)修復(fù)算法可分為3類(lèi),第1類(lèi)為基于向量的修復(fù)方法,包括近鄰方法[2],回歸補(bǔ)值方法[3?4]等。第2類(lèi)為基于矩陣的修復(fù)方法,包括概率主成分分析(PPCA)和貝葉斯主成分分析(BPCA)[5?6]等。第3類(lèi)為基于張量的修復(fù)方法,包括CP分解方法和Tucker分解方法[7]等?;诰仃嚨男迯?fù)方法具有修復(fù)精度高、速度快的優(yōu)點(diǎn),在交通數(shù)據(jù)修復(fù)領(lǐng)域應(yīng)用廣泛,PPCA和BPCA是其中常用的2種算法。但是當(dāng)缺失率高時(shí),上述2種算法的修復(fù)結(jié)果不盡如人意?;谌S離散余弦變換的補(bǔ)償最小二乘回歸(penalized least square regression based on three-dimensional discrete cosine transform,DCT-PLS)算法在高缺失率時(shí)仍能保證很高的修復(fù)精度[8?9],本文首次將該算法引入交通數(shù)據(jù)修復(fù)領(lǐng)域。以往的研究[10?12]多是預(yù)測(cè)單個(gè)路段上車(chē)輛的速度,但是單個(gè)路段的交通信息對(duì)于交通管理與控制的指導(dǎo)作用有限,因此,本文以路網(wǎng)為研究對(duì)象,預(yù)測(cè)路網(wǎng)內(nèi)各路段的速度,為交通管控提供更全面的信息。當(dāng)研究對(duì)象由路段擴(kuò)展為路網(wǎng),帶來(lái)了數(shù)據(jù)量激增的問(wèn)題,特別是對(duì)于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法而言,數(shù)據(jù)量的激增會(huì)導(dǎo)致難以承受的計(jì)算成本。為解決該問(wèn)題,引入數(shù)據(jù)降維技術(shù)以降低計(jì)算成本。主成分分析(Principal Component Analysis,PCA)計(jì)算簡(jiǎn)單,易于實(shí)現(xiàn),是常用的降維方法,本文采用該方法對(duì)修復(fù)后的數(shù)據(jù)降維。綜上,在數(shù)據(jù)缺失環(huán)境下,本文首先采用DCT-PLS算法對(duì)缺失數(shù)據(jù)進(jìn)行修復(fù),然后應(yīng)用PCA算法對(duì)修復(fù)后的數(shù)據(jù)降維,最后以該數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),用K近鄰(K nearest neighbors,KNN)算法預(yù)測(cè)路網(wǎng)內(nèi)各路段速度。
其中:i表示第維的第個(gè)元素,n表示的第維的大小。
根據(jù)歸一化誤差,即可由DCT-PLS預(yù)測(cè)缺 失值。
PCA是一種統(tǒng)計(jì)方法。通過(guò)正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線(xiàn)性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。其步驟為:
1) 數(shù)據(jù)標(biāo)準(zhǔn)化:設(shè)有個(gè)向量,個(gè)樣本點(diǎn)的矩陣,將矩陣標(biāo)準(zhǔn)化,得到矩陣矩陣的相關(guān)系數(shù)矩陣設(shè)為。
其中:
2) 計(jì)算矩陣的特征值與特征向量:解特征方程求得特征值λ(=1, 2, …,)然后求出特征值對(duì)應(yīng)的正交化單位特征向量e(=1, 2, …,)
3) 計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率
4) 計(jì)算主成分載荷
5) 計(jì)算各主成分得分
其中:為選取的主成分個(gè)數(shù),其值取決于使用者選定的累計(jì)貢獻(xiàn)率閾值。
K近鄰(KNN)算法是一種典型基于數(shù)據(jù)驅(qū)動(dòng)的算法,具有參數(shù)少,易于拓展的優(yōu)點(diǎn)。其算法步驟如下:
1) 將數(shù)據(jù)分成2部分,一部分作為訓(xùn)練數(shù)據(jù),另一部分作為測(cè)試數(shù)據(jù)。
2) 選定參數(shù)
3)維護(hù)一個(gè)大小為,按距離由小到大排列的最近鄰數(shù)組;維護(hù)一個(gè)大小為K的優(yōu)先級(jí)隊(duì)列。
4) 遍歷訓(xùn)練數(shù)據(jù),計(jì)算當(dāng)前訓(xùn)練數(shù)組與測(cè)試數(shù)組的距離,將該距離與最近鄰數(shù)組中最大距離max比較。
5) 若>=max,則舍棄該數(shù)組,遍歷下一個(gè)數(shù)組。若<max,刪除優(yōu)先級(jí)隊(duì)列中最大距離的數(shù)組,將當(dāng)前訓(xùn)練數(shù)組存入優(yōu)先級(jí)隊(duì)列。
6) 遍歷完畢,計(jì)算優(yōu)先級(jí)隊(duì)列中個(gè)數(shù)組的多數(shù)類(lèi),并將其作為測(cè)試數(shù)組的類(lèi)別。
選取長(zhǎng)沙市中心城區(qū)某一路網(wǎng)為研究對(duì)象,該路網(wǎng)內(nèi)包含4個(gè)信控交叉口和26個(gè)路段。路段上的出租車(chē)GPS數(shù)據(jù)被用來(lái)估算該路段上車(chē)輛的平均速度。GPS數(shù)據(jù)包含以下信息:路段編號(hào)、每個(gè)路段上出租車(chē)數(shù)量、出租車(chē)運(yùn)行速度、時(shí)間戳等。該數(shù)據(jù)的采樣間隔為2 min,因此每天采集720個(gè)數(shù)據(jù)。本文使用16 d共11 520個(gè)數(shù)據(jù)作為實(shí)驗(yàn) 數(shù)據(jù)。
實(shí)驗(yàn)路網(wǎng)圖如圖1所示,其中圖1(a)為衛(wèi)星圖;圖1(b)為路網(wǎng)拓?fù)浣Y(jié)構(gòu)圖,為方便表示和閱讀,將路段重新進(jìn)行了編號(hào)。
圖1(a)中未被編號(hào)的建湘路將蔡鍔路和芙蓉路之間的人民路分為2個(gè)路段(即路段1070201/ 1070301,相反方向?yàn)?070303/1020703),在此情況下,本文將同方向2個(gè)路段視為一個(gè)路段(路段11,相反方向編號(hào)12),其速度值取2個(gè)路段上車(chē)輛速度的平均值。因此,實(shí)驗(yàn)路網(wǎng)中總包含24個(gè)路段。
在數(shù)據(jù)采集過(guò)程中,由于設(shè)備故障、通信干擾等原因,采集到的數(shù)據(jù)經(jīng)常存在缺失的情況。根據(jù)缺失的形式不同,可以分為3種形式即隨機(jī)缺失、模塊缺失和混合缺失。本文中,在隨機(jī)缺失情況下,產(chǎn)生一系列隨機(jī)位置,該位置的數(shù)據(jù)缺失,用NaN代替。在模塊缺失情況下,產(chǎn)生一系列隨機(jī)位置,該位置及之后的個(gè)數(shù)據(jù)連續(xù)缺失(本文取10),用NaN代替。值得注意的是,該隨機(jī)數(shù)序列中,各隨機(jī)數(shù)之間的差值不得小于-1。當(dāng)數(shù)據(jù)混合缺失時(shí),首先將數(shù)據(jù)平均分為2部分,一部分?jǐn)?shù)據(jù)采用隨機(jī)缺失的方法處理,另一部分采用模塊缺失的方法處理。將數(shù)據(jù)分組可以避免出現(xiàn)同一個(gè)數(shù)據(jù)多次缺失的情況。
(a) 衛(wèi)星圖;(b) 拓?fù)浣Y(jié)構(gòu)圖
另外,為了衡量修復(fù)誤差及預(yù)測(cè)誤差,采用3個(gè)常用指標(biāo),即平均絕對(duì)誤差(Mean Absolute Error,MAE)、平均絕對(duì)百分比誤差(Mean Absolute Percent Error,MAPE)、均方根誤差(Root Mean Square Error,RMSE)。
PPCA和BPCA是修復(fù)交通數(shù)據(jù)常用的算法,本文從修復(fù)精度和計(jì)算時(shí)間2個(gè)維度比較PPCA、BPCA與DCT-PLS。
實(shí)驗(yàn)數(shù)據(jù)缺失率從10%開(kāi)始,以10%的步長(zhǎng)遞增至90%。因?yàn)閿?shù)據(jù)缺失位置(或缺失起始位置)是隨機(jī)產(chǎn)生的,為了降低隨機(jī)因素對(duì)實(shí)驗(yàn)結(jié)果的影響,每種缺失率下均進(jìn)行10次重復(fù)實(shí)驗(yàn)。
表1~3列出了10次實(shí)驗(yàn)的平均MAPE(10次實(shí)驗(yàn)結(jié)果方差很小,這里沒(méi)有列出)。值得注意的是,表中列出的時(shí)間為90次實(shí)驗(yàn)的總時(shí)間。另外,在缺失率較高時(shí),BPCA算法在短時(shí)間內(nèi)(10 min)無(wú)法完成修復(fù)工作,因此,表中沒(méi)有列出其相應(yīng)的修復(fù)誤差及總計(jì)算時(shí)間。
從表1可知,隨機(jī)缺失時(shí),在各缺失率下,DCT-PLS的修復(fù)精度均最高。當(dāng)缺失率超過(guò)70%時(shí),DCT-PLS的修復(fù)精度比PPCA高出10%。PPCA的修復(fù)精度較DCT-PLS略低,但是其運(yùn)行速度更快。BPCA在缺失率不超過(guò)50%時(shí),修復(fù)精度與PPCA及DCT-PLS相當(dāng),但是隨著缺失率進(jìn)一步增加,該算法難以在短時(shí)間內(nèi)完成修復(fù)工作。
圖2 3種缺失形式示意圖
表1 隨機(jī)缺失下不同算法修復(fù)誤差
表2 模塊缺失下不同算法修復(fù)誤差
表3 混合缺失下不同算法修復(fù)誤差
模塊缺失時(shí),由表2可知,當(dāng)缺失率不超過(guò)50%時(shí),PPCA修復(fù)精度最高,隨著缺失率繼續(xù)增加,PPCA的修復(fù)誤差增長(zhǎng)較快。
DCT-PLS在高缺失率時(shí)優(yōu)勢(shì)明顯,當(dāng)缺失率達(dá)到80%時(shí),其誤差低于20%,且較PPCA低10%左右。BPCA在低缺失率時(shí)修復(fù)精度與PPCA及DCT- PLS相近,但是當(dāng)缺失率較高時(shí),該算法的計(jì)算成本迅速增加。
與模塊缺失類(lèi)似,混合缺失時(shí),由表3可得,缺失率較低時(shí),PPCA修復(fù)較高,隨著缺失率增加,其修復(fù)誤差快速增加。隨著缺失率增加,DCT-PLS的修復(fù)誤差也逐漸增加,但是其誤差增長(zhǎng)幅度小于PPCA,特別是缺失率高于60%后,其誤差增長(zhǎng)明顯低于PPCA。BPCA同樣在低缺失率時(shí)修復(fù)精度較好,但是無(wú)法在短時(shí)間內(nèi)完成高缺失率數(shù)據(jù)的 修復(fù)。
綜上所述,相較于PPCA、DCT-PLS,BPCA算法在修復(fù)精度和運(yùn)算時(shí)間上均沒(méi)有優(yōu)勢(shì)。PPCA算法計(jì)算速度快,在低缺失率時(shí),修復(fù)精度高,當(dāng)缺失率不超過(guò)50%時(shí),建議采用PPCA算法進(jìn)行數(shù)據(jù)修復(fù)。DCT-PLS算法計(jì)算速度較PPCA略慢,但是在各種缺失率下,其修復(fù)精度均較高,特別是高缺失率時(shí)(缺失率>60%),其修復(fù)精度明顯高于另外2種算法,因此在高缺失率時(shí),建議采用DCT-PLS算法。后續(xù)的預(yù)測(cè)實(shí)驗(yàn)中數(shù)據(jù)缺失率很高,因此采用DCT-PLS作為本文的修復(fù)算法。
3.2.1 實(shí)驗(yàn)參數(shù)設(shè)定
本文將前15 d的數(shù)據(jù)作為KNN算法的訓(xùn)練數(shù)據(jù),第16 d數(shù)據(jù)作為測(cè)試數(shù)據(jù),同時(shí),根據(jù)經(jīng)驗(yàn)將K近鄰算法中K值設(shè)為5。因?yàn)镚PS數(shù)據(jù)周期為2 min,因此本文的預(yù)測(cè)周期設(shè)為2 min。另外,模塊缺失中參數(shù)設(shè)為10,主成分分析中累計(jì)概率閾值取值設(shè)為90%。
3.2.2 數(shù)據(jù)完整情況
在數(shù)據(jù)完整情況下,不需要使用DCT-PLS修復(fù)數(shù)據(jù),直接用PCA算法對(duì)數(shù)據(jù)降維。數(shù)據(jù)降維后,使用KNN算法預(yù)測(cè)。
一次預(yù)測(cè)能夠輸出全部24個(gè)路段的預(yù)測(cè)值及相應(yīng)誤差,但是由于版面限制,無(wú)法對(duì)各個(gè)路段進(jìn)行單獨(dú)分析,因此取24個(gè)路段的平均誤差作為路網(wǎng)的預(yù)測(cè)誤差,結(jié)果見(jiàn)表4。
由表4可知,在數(shù)據(jù)完整情況下,KNN能較好的預(yù)測(cè)路網(wǎng)上各路段的速度值。
表4 數(shù)據(jù)完整情況下路網(wǎng)預(yù)測(cè)誤差
3.2.3 數(shù)據(jù)缺失情況
在數(shù)據(jù)缺失情況下,首先使用DCT-PLS算法對(duì)缺失數(shù)據(jù)進(jìn)行修復(fù),之后用PCA方法降維,最后使用KNN算法預(yù)測(cè)。同樣的,為了避免隨機(jī)因素對(duì)結(jié)果的影響,每組實(shí)驗(yàn)重復(fù)10次。
表5列出來(lái)了數(shù)據(jù)降維的結(jié)果(10次實(shí)驗(yàn)平均值)。同樣的,由于版面限制,無(wú)法對(duì)路網(wǎng)內(nèi)各路段的預(yù)測(cè)結(jié)果進(jìn)行單獨(dú)分析,只列出路網(wǎng)內(nèi)所有路段的平均預(yù)測(cè)誤差。表6~8中列出了10次實(shí)驗(yàn)的平均誤差,圖3以盒圖的形式展示了10次實(shí)驗(yàn)的 結(jié)果。
另外,城市交通網(wǎng)絡(luò)具有很強(qiáng)的時(shí)效性,為了驗(yàn)證本文提出的方法的廣泛適用性,在3種缺失形式下,分別計(jì)算了全天平均預(yù)測(cè)誤差(即表6),8:00~9:00時(shí)段的誤差(表9)及20:00~21:00時(shí)段的預(yù)測(cè)誤差(表10)。
表5 PCA降維后列向量個(gè)數(shù)
表6 隨機(jī)缺失下路網(wǎng)平均誤差
表7 模塊缺失下路網(wǎng)平均誤差
表8 混合缺失下路網(wǎng)平均誤差
表9 隨機(jī)缺失下路網(wǎng)平均誤差(8:00~9:00)
表10 隨機(jī)缺失下路網(wǎng)平均誤差(20:00~21:00)
圖3 10次實(shí)驗(yàn)預(yù)測(cè)誤差(MAPE)
由表5可知,應(yīng)用PCA之后數(shù)據(jù)變?yōu)?-12列,降維之后的數(shù)據(jù)量約為原始數(shù)據(jù)的1/12-1/2(降維之前數(shù)據(jù)由24個(gè)列向量組成(24個(gè)路段))。比較不同缺失率的降維效果可知,缺失率越高降維后剩余的數(shù)據(jù)量越少。當(dāng)缺失率為90%時(shí),降維后的數(shù)據(jù)量?jī)H為原始數(shù)據(jù)的1/12,與原始數(shù)據(jù)中不缺失數(shù)據(jù)量(10%)相當(dāng)。另外,本文中應(yīng)用PCA完成一次降維所需時(shí)間約為0.5 s,相對(duì)于預(yù)測(cè)時(shí)間可以忽略不計(jì),因此使用數(shù)據(jù)降維技術(shù)可以大幅降低基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法的計(jì)算成本。
從表6可知,隨著數(shù)據(jù)缺失率的增加,平均誤差也相應(yīng)增加。當(dāng)缺失率為10%時(shí),預(yù)測(cè)誤差為16.18%,與不缺失時(shí)的誤差相近;當(dāng)缺失率為50%時(shí),預(yù)測(cè)誤差為18.82,比不缺失時(shí)增加2.80%;當(dāng)缺失率達(dá)到90%時(shí),MAPE也僅為26.53%,較數(shù)據(jù)完整時(shí)增加了10%,MAE為4.6511,較不缺失時(shí)增加約0.8。
在模塊缺失時(shí),由表7可得,預(yù)測(cè)誤差同樣隨著缺失率增加而逐漸增加。缺失率為10%時(shí),誤差為17.15%,較數(shù)據(jù)完整時(shí)增加1.13%;缺失率達(dá)到90%時(shí),MAPE為24.33%,較不缺失時(shí)僅增加8%,而MAE為4.508 0,比不缺失時(shí)增加約0.7。
由表8可知,混合缺失時(shí),當(dāng)缺失率在50%以下時(shí),預(yù)測(cè)誤差均小于20%,較不缺失情況僅僅增加4%。當(dāng)缺失率繼續(xù)增加時(shí),預(yù)測(cè)誤差隨之增加,但是增加幅度較小。缺失率為90%時(shí),誤差也僅為24.87%,較不缺失時(shí)僅僅增加了8%,MAE為4.529 0,比不缺失時(shí)增加約0.7。
在隨機(jī)缺失環(huán)境下,由表6、表9可知,8:00~ 9:00時(shí)段的預(yù)測(cè)誤差低于全天平均誤差。對(duì)比表6和表10可知,20:00~21:00時(shí)段的MAE及RMSE值低于全天的對(duì)應(yīng)值,但是其MAPE值比全天平均MAPE值高。全天平均、8:00~9:00時(shí)段及20:00~ 21:00時(shí)段的預(yù)測(cè)誤差存在差異但預(yù)測(cè)精度均較好。在模塊缺失及混合缺失環(huán)境下可得出與隨機(jī)缺失環(huán)境下相同的結(jié)論。
從圖3中可以看出,隨著缺失率增加,MAPE值隨之增加(對(duì)MAE、RMSE有相同結(jié)論)。比較不同缺失形式可知,隨機(jī)缺失時(shí)預(yù)測(cè)效果最好,混合缺失次之,模塊缺失最差。另外,從盒圖可以看出不同缺失率下,隨機(jī)缺失時(shí)10次實(shí)驗(yàn)結(jié)果的方差最小,模塊缺失與混合缺失方差相近。
1) PPCA算法效率最高,DCT-PLS算法效率略低,BPCA算法的效率明顯低于上述2種算法。在低缺失率時(shí),3種算法的修復(fù)精度相近;在高缺失率時(shí),DCT-PLS算法優(yōu)勢(shì)明顯,其修復(fù)精度比PPCA高10%左右。
2) 使用PCA算法降維后數(shù)據(jù)量變?yōu)樵瓉?lái)的1/2-1/12,說(shuō)明使用降維技術(shù)可以大幅減少數(shù)據(jù)量,從而降低預(yù)測(cè)時(shí)的計(jì)算成本。
3) 3種缺失形式下,當(dāng)缺失率為10%時(shí),預(yù)測(cè)誤差較數(shù)據(jù)完整時(shí)僅增加1%左右,當(dāng)缺失率達(dá)到90%時(shí),預(yù)測(cè)誤差也僅增加10%左右,證明在數(shù)據(jù)缺失環(huán)境下,基于DCTPLS-PCA的方法在大幅降低計(jì)算成本的同時(shí),能夠保證很好的預(yù)測(cè)精度。
[1] 徐健銳, 李星毅, 施化吉. 處理缺失數(shù)據(jù)的短時(shí)交通流預(yù)測(cè)模型[J]. 計(jì)算機(jī)應(yīng)用, 2010, 30(4): 1117?1120. XU Jianrui, LI Xingyi, SHI Huaji. Short-term traffic flow prediction model for processing missing data[J]. Computer Applications, 2010, 30(4): 1117?1120.
[2] Smith B, Scherer W, Conklin J. Exploring imputation techniques for missing data in transportation management systems[J]. Transportation Research Record: Journal of the Transportation Research Board, 2003(1836): 132? 142.
[3] CHEN C, Kwon J, Rice J, et al. Detecting errors and imputing missing data for single-loop surveillance systems[J]. Transportation Research Record: Journal of the Transportation Research Board, 2003 (1855): 160? 167.
[4] ZHONG M, Lingras P, Sharma S. Estimation of missing traffic counts using factor, genetic, neural, and regression techniques[J]. Transportation Research Part C: Emerging Technologies, 2004, 12(2): 139?166.
[5] QU L, LI L, ZHANG Y, et al. PPCA-based missing data imputation for traffic flow volume: A systematical approach[J]. IEEE Transactions on Intelligent Transportation Systems, 2009, 10(3): 512?522.
[6] LI L, LI Y, LI Z. Efficient missing data imputing for traffic flow by considering temporal and spatial dependence[J]. Transportation Research Part C: Emerging Technologies, 2013(34): 108?120.
[7] Kolda T G, Bader B W. Tensor decompositions and applications[J]. SIAM Review, 2009, 51(3): 455?500.
[8] Garcia D. Robust smoothing of gridded data in one and higher dimensions with missing values[J]. Computational Statistics & Data Analysis, 2010, 54(4): 1167?1178.
[9] WANG G, Garcia D, LIU Y, et al. A three-dimensional gap filling method for large geophysical datasets: Application to global satellite soil moisture observations [J]. Environmental Modelling & Software, 2012(30): 139?142.
[10] ZHENG L, ZHU C, ZHU N, et al. Feature selection- based approach for urban short-term travel speed prediction[J]. IET Intelligent Transport Systems, 2018, 12(6): 474?484.
[11] TANG J, LIU F, ZOU Y, et al. An improved fuzzy neural network for traffic speed prediction considering periodic characteristic[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(9): 2340?2350.
[12] MA X, DAI Z, HE Z, et al. Learning traffic as images: A deep convolutional neural network for large-scale transportation network speed prediction[J]. Sensors, 2017, 17(4): 818.
Research on road network speed prediction based on DCTPLS-PCA under data missing
YAO Jialin, ZHU Chuang
(School of Traffic and Transportation Engineering, Central South University, Changsha 410075, China)
Accurate and reliable short-term traffic flow prediction is the basis of traffic control and guidance. However, traffic data missing that result from communication interference and other reasons, makes traffic flow prediction difficult. In this paper, the compensated least square regression algorithm (DCT-PLS) based on 3D discrete cosine transform was used to repair the missing data, and then the dimension of the repaired data was reduced by principal component analysis (PCA). Finally, the K-nearest neighbor (KNN) algorithm was used to predict the speed of each link of the road network, and the prediction error is calculated. The numerical experiments were conducted with and without the data missing based on a real network information in Changsha. The results show that the accuracy of repairing data of DCT-PLS algorithm is higher than that of probabilistic principal component analysis (PPCA) and Bayesian principal component analysis (BPCA); PCA can greatly reduce the computational cost of prediction. Under data missing, the method based on DCTPLS-PCA can greatly reduce the computational cost and ensure good prediction accuracy.
data missing; DCT-PLS; PCA; road network; speed prediction
U491
A
1672 ? 7029(2019)10? 2612 ? 08
10.19713/j.cnki.43?1423/u.2019.10.030
2019?01?01
姚加林(1961?),男,湖南婁底人,副教授,從事交通運(yùn)輸規(guī)劃與管理研究;E?mail:yaojialn@csu.edu.cn
(編輯 蔣學(xué)東)