鐘會玲,吳昊旻,陳迎迎,孫萬菊
(浙江浙大中控信息技術(shù)有限公司,浙江杭州 310053)
不完整信息下城市交通速度修復(fù)算法
鐘會玲,吳昊旻,陳迎迎,孫萬菊
(浙江浙大中控信息技術(shù)有限公司,浙江杭州 310053)
通過深入分析不完整信息數(shù)據(jù)的交通流路段速度,提出神經(jīng)網(wǎng)絡(luò)與線性回歸組合模型的速度修復(fù)算法,利用相關(guān)性分析在交通流數(shù)據(jù)中找到路段速度在時(shí)間和空間上影響因素,將在時(shí)間上影響路段速度的因素作為神經(jīng)網(wǎng)絡(luò)模型的輸入變量,將在空間上影響路段速度的因素作為神經(jīng)網(wǎng)絡(luò)模型的輸入變量,分別輸出路段速度預(yù)測結(jié)果,將以上模型預(yù)測結(jié)果作為線性回歸模型輸入變量,最終得出路段速度二次預(yù)測結(jié)果。
交通流;路段速度;線性回歸;神經(jīng)網(wǎng)絡(luò);線性相關(guān)
將時(shí)間和空間組合的相關(guān)性引入交通數(shù)據(jù)分析可以較好地解決單純依賴時(shí)間序列和空間分析存在的問題,因此,本文引入時(shí)空組合模型對路段速度進(jìn)行修復(fù)的方法,解決不完整信息下城市交通速度修復(fù)問題。
1.1方法
(1)BP神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程是一個(gè)不斷向樣本學(xué)習(xí)的過程,學(xué)習(xí)的目的是通過不斷調(diào)整網(wǎng)絡(luò)權(quán)值得到較小的預(yù)測誤差,BP神經(jīng)網(wǎng)絡(luò)模型是一種以反向傳播算法學(xué)習(xí)的前饋式多層感知機(jī),采用參數(shù)優(yōu)化方法實(shí)現(xiàn)網(wǎng)絡(luò)權(quán)值的調(diào)整,參數(shù)優(yōu)化是在一個(gè)特定模型結(jié)構(gòu)M中,利用數(shù)據(jù)D優(yōu)化模型參數(shù),以求得使損失函數(shù)L(W)=L(W│D,M)達(dá)到最小時(shí)的模型參數(shù)W。損失函數(shù)L(W)的優(yōu)化是以迭代方式體現(xiàn),其特點(diǎn)是采用梯度下降法,每個(gè)時(shí)刻都本著使損失函數(shù)減小最快的原則調(diào)整網(wǎng)絡(luò)權(quán)值,不同類型問題的損失函數(shù)形式是不同的,一般預(yù)測問題的損失函數(shù)主要取決于預(yù)測模型和實(shí)際數(shù)據(jù)的誤差函數(shù)。
(2)線性回歸模型
回歸分析是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法,其用意是研究一個(gè)被解釋變量(又稱因變量)與一個(gè)或多個(gè)解釋變量(又稱自變量)之間的統(tǒng)計(jì)關(guān)系。
論文利用的模型為多元線性回歸,將所選變量全部強(qiáng)行進(jìn)入回歸,其線性模型即
(3)相關(guān)分析
相關(guān)分析是研究兩數(shù)值型變量線性相關(guān)性的常用方法,需經(jīng)過以下兩個(gè)步驟:第一,計(jì)算Pearson樣本相關(guān)系數(shù)r;第二,對樣本來自的兩總體是否存在顯著線性關(guān)系進(jìn)行檢驗(yàn)。
Pearson樣本相關(guān)系數(shù)即樣本簡單相關(guān)系數(shù),反映變量間線性相關(guān)程度的強(qiáng)弱;對樣本來自的兩總體是否存在顯著線性關(guān)系進(jìn)行檢驗(yàn),首先假設(shè)兩總體零線性相關(guān),其次計(jì)算Pearson相關(guān)系數(shù)的檢驗(yàn)統(tǒng)計(jì)量t及其對應(yīng)的概率P,最后比較P與顯著性水平通常設(shè)為0.05得出是否線性相關(guān)結(jié)果。
論文通過運(yùn)用相關(guān)性分析在交通流數(shù)據(jù)中找到路段速度在時(shí)間和空間上影響因素,利用神經(jīng)網(wǎng)絡(luò)模型輸出路段速度預(yù)測和線性相關(guān)性結(jié)果,利用線性回歸模型得出路段速度二次預(yù)測結(jié)果,并利用測試集驗(yàn)證結(jié)果,得出較高的線性相關(guān)度,表明該模型方法適用于城市交通速度修復(fù)。
1.2數(shù)據(jù)
為了驗(yàn)證所提方法的有效性,以2015年浙江省紹興市交通流數(shù)據(jù)為研究對象,研究區(qū)域范圍現(xiàn)安裝有73個(gè)路口電子警察設(shè)備,可形成路段數(shù)為223,其中141個(gè)路段有數(shù)據(jù),該電警數(shù)據(jù)包括車輛信息,車輛經(jīng)過地點(diǎn)、方向,車道號及經(jīng)過時(shí)間,利用該每5分鐘數(shù)據(jù)形成車輛經(jīng)過某路段數(shù)據(jù),并通過刪除滯留車輛數(shù)據(jù),繞彎車輛數(shù)據(jù)達(dá)到清洗數(shù)據(jù)的目的,最后得出每5分鐘路段速度,論文選取以萬商路上笛揚(yáng)路到金柯橋大道路段為研究對象,其中采用2015年3月至8月半年交通流數(shù)據(jù)處理完成后作為歷史數(shù)據(jù),訓(xùn)練集和測試集采用2015年9月至11月三個(gè)月交通流數(shù)據(jù),分析時(shí)間上模型采用連續(xù)5分鐘同一路段速度數(shù)據(jù),分析空間上模型采用同一時(shí)間段不同路段,其中不同路段數(shù)據(jù)由于設(shè)備老化或者由于未安裝只能采取部分不完整路段速度數(shù)據(jù)。
1.3實(shí)驗(yàn)流程
原始交通流數(shù)據(jù)經(jīng)過處理后形成路段過車數(shù)據(jù),清洗干凈后計(jì)算出路段速度,然后通過混合模型分析數(shù)據(jù),具體實(shí)驗(yàn)流程如圖1所示,包括5個(gè)步驟:
圖1 不完整信息下城市交通速度修復(fù)算法實(shí)驗(yàn)流程
步驟一:原始交通流數(shù)據(jù)經(jīng)過處理后形成路段過車數(shù)據(jù),清洗干凈后計(jì)算出路段速度,同時(shí)通過繪圖得出速度的時(shí)間分布特性。
步驟二:利用相關(guān)分析分別得出路段速度在時(shí)間上和空間上的影響因素。
步驟三:利用BP神經(jīng)網(wǎng)絡(luò)算法分別得出路段速度在時(shí)間和空間上與其影響因素間關(guān)系。
步驟四:利用測試集分別驗(yàn)算時(shí)間和空間上計(jì)算得出的實(shí)時(shí)路段速度結(jié)果的準(zhǔn)確率,同時(shí)利用線性回歸得出時(shí)間和空間上的路段速度結(jié)果與實(shí)際實(shí)時(shí)路段速度間線性關(guān)系結(jié)果。
步驟五:利用測試集驗(yàn)算混合模型得出的實(shí)時(shí)路段速度結(jié)果的準(zhǔn)確率,最后對比三種準(zhǔn)確率。
2.1數(shù)據(jù)清洗結(jié)果與速度時(shí)間分布特性結(jié)果
論文以2015年9月至11月萬商路上的笛揚(yáng)路到金柯橋大道的數(shù)據(jù)為研究對象,分析期間一周數(shù)據(jù)清洗前和清洗后數(shù)據(jù)量變化,該研究路段某一周內(nèi)流量有28 702輛(已化為小車當(dāng)量數(shù)),清洗后加入路段速度計(jì)算的數(shù)據(jù)有14 439行,有效數(shù)據(jù)占比81.3%,平均到每天每5分鐘實(shí)時(shí)有效數(shù)據(jù)偏低,必然會出現(xiàn)缺失數(shù)據(jù),此處研究對象整體缺失率為45.54%,其中包括晚上數(shù)據(jù)缺失,白天數(shù)據(jù)缺失率為19.37%。
同時(shí)分析歷史交通路段速度在連續(xù)一周內(nèi)的時(shí)間分布特性。交通路段速度的時(shí)間分布特性如圖2所示,由圖2可以看出,在7:00-9:00和17:00-19:00的時(shí)段內(nèi)萬商路某一路段交通路段速度相對較低,呈現(xiàn)出早晚高峰的特征,且在連續(xù)的幾個(gè)工作日內(nèi)路段速度變化大體相似,即在時(shí)間維度上具有相似性。
2.2時(shí)空相關(guān)分析結(jié)果
利用路段速度時(shí)間上的交通特性,在時(shí)間上,利用兩數(shù)值型變量線性相關(guān)模型,將歷史速度以及該時(shí)刻之前之后最近5個(gè)時(shí)刻速度輸入,得到上兩個(gè)時(shí)刻與歷史速度與當(dāng)前時(shí)刻速度最為強(qiáng)相關(guān)。
圖2 交通路段速度的時(shí)間分布
在空間上,利用兩數(shù)值型變量線性相關(guān)模型,將該路段速度和對應(yīng)其他路段速度輸入,得到該路段速度與其他相鄰或相交的5條路段速度最為強(qiáng)相關(guān),如圖4,其中93speed-3為目標(biāo)路段變量,其他代表輸入路段自變量。其中紅色為目標(biāo)路段,綠色為相關(guān)路段。
圖3 時(shí)間上速度強(qiáng)相關(guān)結(jié)果
圖4 空間上速度強(qiáng)相關(guān)結(jié)果
2.3時(shí)空BP神經(jīng)網(wǎng)絡(luò)算法結(jié)果
在上一步得出的時(shí)空相關(guān)分析結(jié)果基礎(chǔ)上,利用BP神經(jīng)網(wǎng)絡(luò)算法利用訓(xùn)練集分別得出在時(shí)間上歷史路段速度、上一個(gè)時(shí)刻路段速度與當(dāng)時(shí)當(dāng)刻路段速度關(guān)系,訓(xùn)練集線性相關(guān)可信度為87.9%;在空間上目標(biāo)路段速度與該區(qū)域?qū)?yīng)時(shí)刻其他路段關(guān)系,訓(xùn)練集線性相關(guān)可信度為86.6%。
利用測試集分別驗(yàn)證時(shí)空關(guān)系結(jié)果,得出時(shí)間上利用BP神經(jīng)網(wǎng)絡(luò)算法得出的線性相關(guān)可信度為90.4%,且預(yù)測值的平均絕對誤差為3.22 km/h;空間上利用BP神經(jīng)網(wǎng)絡(luò)算法得出的線性相關(guān)可信度為88.1%,且預(yù)測值的平均絕對誤差為2.99km/h,時(shí)間上神經(jīng)網(wǎng)絡(luò)預(yù)測值與實(shí)際值對比結(jié)果如圖5,空間上神經(jīng)網(wǎng)絡(luò)預(yù)測值與實(shí)際值對比結(jié)果如圖6。
圖5 時(shí)間上神經(jīng)網(wǎng)絡(luò)預(yù)測值與實(shí)際值對比結(jié)果
圖6 空間上神經(jīng)網(wǎng)絡(luò)預(yù)測值與實(shí)際值對比結(jié)果
2.4時(shí)空線性回歸結(jié)果
在上一步得出的時(shí)空BP神經(jīng)網(wǎng)絡(luò)算法結(jié)果基礎(chǔ)上,將訓(xùn)練集利用線性回歸得出時(shí)間上關(guān)系結(jié)果、空間上關(guān)系結(jié)果兩種結(jié)果與路段速度關(guān)系。
利用測試集驗(yàn)證回歸模型結(jié)果,得出利用BP神經(jīng)網(wǎng)絡(luò)算法與線性回歸混合模型得出的訓(xùn)練集線性相關(guān)可信度為89.4%,測試集線性相關(guān)可信度為91.7%,且預(yù)測值的平均絕對誤差為2.70 km/h;相比單獨(dú)從空間和時(shí)間上BP神經(jīng)網(wǎng)絡(luò)模型,得出的路段行程速度的平均絕對誤差降低0.3~0.5 km ·h-1,混合模型預(yù)測值與實(shí)際值對比結(jié)果如圖7,采用組合模型進(jìn)行速度插補(bǔ)如圖8。
圖7 混合模型預(yù)測值與實(shí)際值對比結(jié)果
圖8 混合模型速度修復(fù)結(jié)果
首先論文為找到路段速度的影響因素,分別在時(shí)間和空間上對影響因素與路段速度進(jìn)行相關(guān)性分析,從而得到在時(shí)間上上兩個(gè)時(shí)刻與歷史速度與當(dāng)前時(shí)刻速度最為強(qiáng)相關(guān),在空間上得到該路段速度與其他五條路段速度最為強(qiáng)相關(guān)。
其次論文在模型選取上,在時(shí)間和空間建模得出的結(jié)果下,再利用線性回歸模型,將時(shí)間和空間所得模型作為輸入變量,重新與路段速度得出新的線性關(guān)系,并且該組合模型得出的結(jié)果相比單獨(dú)神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率偏高,說明模型選擇合理。
最后從研究結(jié)果看,空間上與目標(biāo)路段速度相關(guān)的路段,基本上是相鄰、對面逆向路段或者與該路段相交的路段,說明上下游的交通流之間有相互影響,且影響較為明顯,時(shí)間和空間上路段速度與歷史速度以及上兩個(gè)時(shí)刻以及其他相鄰或相交路段相關(guān),在當(dāng)時(shí)當(dāng)刻速度缺失的情況下可選擇利用組合模型預(yù)測出來的值進(jìn)行插補(bǔ)。
論文通過有效分析得出,在時(shí)間上路段實(shí)時(shí)速度與對應(yīng)歷史速度以及實(shí)時(shí)的上一時(shí)刻速度具有強(qiáng)線性相關(guān),在空間上路段速度與相鄰路段和其他具有相同特性的路段具有強(qiáng)線性相關(guān),并利用測試集驗(yàn)證,最后空間和時(shí)間上的影響因素組合成新的線性模型得出結(jié)果,再次利用測試集驗(yàn)證,其實(shí)驗(yàn)數(shù)據(jù)證明,將空間和時(shí)間上的影響因素組合成新的線性模型得出結(jié)果較單獨(dú)模型得出速度結(jié)果具有更高的準(zhǔn)確率,提高交通預(yù)測的準(zhǔn)確性。
論文研究路段速度在空間上同一時(shí)間具有強(qiáng)線性相關(guān)的路段,可以作為目標(biāo)路段速度缺失修復(fù)的方法,同時(shí)也可以研究路段速度在空間上不同時(shí)間具有強(qiáng)線性相關(guān)的路段,論文研究結(jié)果僅對時(shí)間跨度較小的缺失數(shù)據(jù)有效。不過論文研究結(jié)果可以完善交通數(shù)據(jù)庫,提高交通預(yù)測的準(zhǔn)確性,同時(shí)一定程度上輔助管理部門了解實(shí)時(shí)城市交通運(yùn)行情況,從而對經(jīng)常擁堵路段采取應(yīng)對措施。
如果想要修復(fù)時(shí)間跨度較大的路段速度數(shù)據(jù)可以通過以下方法,當(dāng)預(yù)測目標(biāo)路段在下一時(shí)段的速度及運(yùn)行擁堵情況時(shí),可以根據(jù)上一時(shí)刻與之相關(guān)的路段速度或者流量預(yù)測出來,該方法有待進(jìn)一步研究,預(yù)期研究結(jié)果可以輔助管理部門為將來可能導(dǎo)致的嚴(yán)重?fù)矶侣范翁崆白龊脺?zhǔn)備與部署工作。
[1] 蔣銳,王均.道路交通流數(shù)據(jù)檢驗(yàn)與修復(fù)方法[J].交通與計(jì)算機(jī),2006,24(6):65-67.
[2] 瑞斯.瓊.數(shù)理統(tǒng)計(jì)與數(shù)據(jù)分析.田金方,譯[M].北京:機(jī)械工業(yè)出版社,2009:340-341.
[3] 陳封能,斯坦巴克.數(shù)據(jù)挖掘?qū)д摚跰].范明,譯.北京:人民郵電出版社,2011:222-223.
U492
C
1008-3383(2016)09-0166-03
2016-03-15
鐘會玲(1989-),女,碩士,研究方向:交通運(yùn)輸。