国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Python的交通流數(shù)據(jù)清洗

2016-10-21 17:26:00李紅梅唐嵐
電子技術(shù)與軟件工程 2016年9期
關(guān)鍵詞:交通流

李紅梅 唐嵐

【關(guān)鍵詞】交通流 Python 數(shù)據(jù)清洗

1 引言

隨著交通檢測技術(shù)和智能交通系統(tǒng)的發(fā)展,交通管理者能夠獲得海量的交通數(shù)據(jù)。但是現(xiàn)實中,往往由于各種因素如環(huán)境、道路突發(fā)事件、采集設(shè)備故障等導(dǎo)致采集的數(shù)據(jù)存在缺失、異常、冗余等現(xiàn)象,這會降低智能交通系統(tǒng)分析和誘導(dǎo)能力。因此,如何將獲取“臟數(shù)據(jù)”進行科學(xué)合理的清洗是各國學(xué)者亟待解決的問題。

2 交通原始數(shù)據(jù)的選取

本文中使用的數(shù)據(jù)為四川省某市2014年8月6日的交通流數(shù)據(jù),這個數(shù)據(jù)中有很多路段信息,并且數(shù)據(jù)采集設(shè)備的采集數(shù)據(jù)周期為5min,相應(yīng)的信息可以從圖1中看出。

每條交通數(shù)據(jù)都有唯一的VID_LANE_ID號與之對應(yīng)。而VID_LANE_ID前四位指代某路段的某一具體設(shè)備。TRAFFICDATA代表采集數(shù)據(jù)的時間。DIRECTION為方向編碼,代表車輛行駛的方向,TRAFFICDATA_ID記錄時間間隔為5分鐘,這個時間段非常適合數(shù)據(jù)分析與預(yù)測建模。對于VOL為該路段在5分鐘內(nèi)所經(jīng)過的車輛總數(shù);SPEED為在觀測時間內(nèi)所有車輛的速度平均值;OCC為占有率,指檢測時間周期內(nèi)有車輛經(jīng)過的時間總和與檢測總時間的之比(本文采集數(shù)據(jù)OCC省略了百分數(shù))。

3 交通流數(shù)據(jù)清洗

采集到的真實的交通流數(shù)據(jù)往往會由于諸如信息傳輸、設(shè)備自身故障、突發(fā)交通事故等因素影響會導(dǎo)致其包含有真實數(shù)據(jù)和不真實的數(shù)據(jù)。為了使數(shù)據(jù)分析或者數(shù)據(jù)預(yù)測工作具有科學(xué)性和可靠性,往往不能直接使用這些“臟數(shù)據(jù)”,在這之前需要對這些采集到的原始的交通流數(shù)據(jù)進行降低甚至消除噪聲、簡約冗余數(shù)據(jù)、對異常錯誤數(shù)據(jù)進行修正、對缺失數(shù)據(jù)進行填補等工作,用以提高數(shù)據(jù)質(zhì)量,通常稱這一過程為數(shù)據(jù)清洗。

一般說來,臟數(shù)據(jù)主要存在異常、缺失和冗余這三類。

3.1 異常數(shù)據(jù)的判斷與處理

本文異常數(shù)據(jù)的剔除算法分為兩個步驟,第一步是采用閾值法去掉比較明顯的錯誤數(shù)據(jù);第二步是采用交通機理法去掉在數(shù)據(jù)中隱藏的錯誤數(shù)據(jù)。閾值法要求數(shù)據(jù)取值在一定的區(qū)域范圍之內(nèi),如果相應(yīng)的區(qū)間內(nèi)數(shù)據(jù)超出了這個區(qū)域,那么就表示相應(yīng)的數(shù)據(jù)為錯誤數(shù)據(jù),需要對其進行清洗。也就是說,根據(jù)采集到的數(shù)據(jù)的歷史統(tǒng)計規(guī)律、設(shè)定相應(yīng)的數(shù)據(jù)閾值,對待處理數(shù)據(jù)進行上下閾值比較,在這區(qū)間的為正常數(shù)據(jù),不在此區(qū)間的為異常數(shù)據(jù)。通常會將交通流數(shù)據(jù)的特征參數(shù)聯(lián)合起來進行綜合判斷。通過對數(shù)據(jù)的研究分析,發(fā)現(xiàn)所采集到的數(shù)據(jù)存在很多異常數(shù)據(jù),如速度為零,流量卻不為零;流量不為零,占有率卻為零等。根據(jù)城市道路交通機理知識,交通流數(shù)據(jù)中的參數(shù)數(shù)據(jù)應(yīng)該是同有同無,也就是說不可能三者中有某一個或幾個為零,其余參數(shù)數(shù)據(jù)不為零的情況。這就是進行數(shù)據(jù)邏輯判斷的準則,用以剔除錯誤的數(shù)據(jù)。

因此,異常數(shù)據(jù)的邏輯判斷和處理準則為:

(1)當流量VOL大于2000輛/h時,流量為異常數(shù)據(jù),剔除;

(2)當速度SPEED大于100km/h時,速度為異常數(shù)據(jù),剔除;

(3)流量、速度、占有率、車頭時距都為零時,剔除。

3.2 缺失數(shù)據(jù)的處理

數(shù)據(jù)缺失可能是由多種原因造成的,那么其表現(xiàn)出的形態(tài)也有多種,所以在進行缺失數(shù)據(jù)處理之前要遍歷在一定時間內(nèi)某路段的所有數(shù)據(jù)。在這過程中發(fā)現(xiàn)某時刻沒有數(shù)據(jù),則稱這種現(xiàn)象為數(shù)據(jù)缺失。在補齊數(shù)據(jù)的過程中需遵循以下兩條原則:首先要保證原始數(shù)據(jù)的完整,及對于原始數(shù)據(jù)最大限度不作修改和刪除,以保證有足夠充足的歷史數(shù)據(jù)可作為修補數(shù)據(jù)的基礎(chǔ),并且此文檔應(yīng)單獨完整存儲,方便后續(xù)的檢測和使用,缺失數(shù)據(jù)的處理在異常數(shù)據(jù)剔除之后,在異常數(shù)據(jù)處理后存儲為剔除異常后的數(shù)據(jù)文檔,缺失數(shù)據(jù)則基于此文檔,修改過后另外保存。其次是對于缺失數(shù)據(jù)修補的方法和過程應(yīng)用文檔獨立記載,這將有利于后續(xù)的檢查工作并且為數(shù)據(jù)的取舍提供基礎(chǔ),也提高了數(shù)據(jù)處理的透明性。因為交通流缺失數(shù)據(jù)和已有的數(shù)據(jù)存在著一定的能夠確定的關(guān)聯(lián)關(guān)系。

3.3 冗余數(shù)據(jù)的簡約

在正常的交通流數(shù)據(jù)應(yīng)該是一條記錄對應(yīng)一條完整的檢測信息,但是在現(xiàn)實中,由于設(shè)備布置、調(diào)試等原因,使采集到的數(shù)據(jù)集可能存在冗余問題。冗余的交通數(shù)據(jù)會增大交通流數(shù)據(jù)容量,掩蓋關(guān)鍵信息,甚至可能會誘導(dǎo)錯誤的分析和預(yù)測。所以,預(yù)測分析前要簡約冗余數(shù)據(jù)。簡約方法主要有:如果冗余的多條數(shù)據(jù)相似則取平均值,若數(shù)據(jù)都相同則只取一條。

4 結(jié)語

對某市交通流數(shù)據(jù)清洗后進行流通統(tǒng)計如圖2所示。

從圖2中可以看出,某市整體交通流量從早上6點開始向上攀升,到早上8點到達最高峰,然后緩慢下降,持續(xù)到上午11點,這與人們出行的早高峰相吻合。晚上5點到達最高,然后緩慢下降,與晚高峰出行吻合。

參考文獻

[1]馬壽峰,賀國光,劉豹.智能交通系統(tǒng)中短時交通流預(yù)測系統(tǒng)的研究預(yù)測[J].2004,23(2): 28-34.

[2]魏強.基于固定檢測器的區(qū)域交通狀態(tài)判別方法研究[D].吉林:吉林大學(xué).2011.

[3]宮曉燕.基于數(shù)據(jù)挖掘的交通流預(yù)測及輔助誘導(dǎo)[D].北京:中國科學(xué)院自動化研究所,2003.

猜你喜歡
交通流
基于LSTM的滬渝高速公路短時交通流預(yù)測研究
一種平穩(wěn)化短時交通流預(yù)測方法
交通流隨機行為的研究進展
路內(nèi)停車對交通流延誤影響的定量分析
具有負壓力的Aw-Rascle交通流的Riemann問題
考慮車輛間博弈行為的交通流
湘西| 砚山县| 绩溪县| 株洲市| 长兴县| 湘阴县| 鄄城县| 衢州市| 中方县| 陆丰市| 长顺县| 福鼎市| 崇明县| 罗甸县| 砀山县| 措美县| 逊克县| 永安市| 镇原县| 库伦旗| 庆元县| 广河县| 苏尼特左旗| 台南县| 宜昌市| 宣汉县| 平利县| 淳化县| 高雄县| 天峨县| 昌邑市| 南漳县| 德安县| 奇台县| 达日县| 禹州市| 临城县| 年辖:市辖区| 河北区| 南平市| 彭州市|