鮑東玉+王軍
摘 要:車輛檢測器檢測數(shù)據(jù)作為一種基礎(chǔ)數(shù)據(jù)在交通領(lǐng)域具有重要的作用,其數(shù)據(jù)質(zhì)量極大地影響著以其作為參考基礎(chǔ)數(shù)據(jù)的交通規(guī)劃、交通控制、交通行為分析等應(yīng)用領(lǐng)域研究分析結(jié)論的準(zhǔn)確性和合理性。文章首先分析了車輛檢測器異常數(shù)據(jù)的表現(xiàn)形式及產(chǎn)生原因,根據(jù)交通流理論及客觀限制條件研究,提出了基礎(chǔ)篩選、閾值篩選和基于交通流理論的篩選方法,并在此基礎(chǔ)上,根據(jù)交通運(yùn)行狀態(tài)的統(tǒng)計(jì)相似性進(jìn)行了研究和對(duì)比,選擇了IQR法作為數(shù)據(jù)修復(fù)的方法。從而在一定程度上解決了車輛檢測器數(shù)據(jù)質(zhì)量的問題。
關(guān)鍵詞:車輛檢測器數(shù)據(jù);數(shù)據(jù)篩選;數(shù)據(jù)修復(fù);四分位距IQR法
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2015)10-00-02
0 引 言
車輛檢測器是檢測道路交通流運(yùn)行參數(shù)的設(shè)備,是智能交通系統(tǒng)中的一個(gè)重要組成設(shè)備。然而,在實(shí)際運(yùn)用中,由于車輛檢測器存在諸多應(yīng)用選型不當(dāng)、設(shè)備老化、惡劣環(huán)境影響、維護(hù)檢修不到位等原因,其檢測數(shù)據(jù)往往存在很多質(zhì)量問題。
車輛檢測器數(shù)據(jù)常被用于交通流狀態(tài)描述及事件檢測,交通流參數(shù)的統(tǒng)計(jì)分析在交通規(guī)劃領(lǐng)域、交通控制領(lǐng)域、交通行為分析領(lǐng)域有著極其重要的基礎(chǔ)數(shù)據(jù)支持作用。因此,車輛檢測器數(shù)據(jù)的質(zhì)量與其在各應(yīng)用領(lǐng)域的作用效果存在極大地影響。如何篩選并修復(fù)車輛檢測器數(shù)據(jù)中的異常數(shù)據(jù),是車輛檢測器數(shù)據(jù)應(yīng)用的基礎(chǔ)。
1 異常數(shù)據(jù)清洗方法研究
1.1 主要篩選目標(biāo)
異常數(shù)據(jù)篩選的主要目標(biāo)即發(fā)現(xiàn)車輛檢測器數(shù)據(jù)記錄中因設(shè)備性能、運(yùn)行狀態(tài)、檢測環(huán)境異常所導(dǎo)致的異常數(shù)據(jù),根據(jù)異常數(shù)據(jù)的表現(xiàn)形式,可將篩選目標(biāo)分為四類。
(1)錯(cuò)誤數(shù)據(jù)[1,2]。數(shù)據(jù)記錄出現(xiàn)不在最大值的上限范圍內(nèi)或字段之間不滿足機(jī)理關(guān)系的現(xiàn)象,這是車輛檢測器異常數(shù)據(jù)中出現(xiàn)頻率最高的一種異常數(shù)據(jù)。
(2)冗余數(shù)據(jù)[3,4]。冗余數(shù)據(jù)是指在檢測時(shí)間段內(nèi)存在相似或重復(fù)的數(shù)據(jù)記錄,使實(shí)際記錄數(shù)多于理論上應(yīng)有的記錄總數(shù)的數(shù)據(jù)。
(3)丟失數(shù)據(jù)[5]。由于車輛檢測器、數(shù)據(jù)傳輸設(shè)備或存儲(chǔ)設(shè)備等出現(xiàn)故障等原因造成的不能記錄在數(shù)據(jù)庫中的檢測數(shù)據(jù)。
(4)時(shí)間點(diǎn)漂移[6]。由于車輛檢測器或網(wǎng)絡(luò)設(shè)備不穩(wěn)定而造成的數(shù)據(jù)記錄中的時(shí)間點(diǎn)間隔存在誤差,導(dǎo)致實(shí)際時(shí)間點(diǎn)體系與標(biāo)準(zhǔn)時(shí)間點(diǎn)體系無法匹配,為數(shù)據(jù)的分析帶來干擾。
1.2 交通流異常數(shù)據(jù)篩選方法
通常要以占有率、總交通量與速度之間的聯(lián)系為依據(jù),判斷檢測數(shù)據(jù)是否存在異常。在總交通量無異常的情況下,有時(shí)會(huì)出現(xiàn)分車型交通之和明顯大于或小于總交通量的現(xiàn)象。即總交通量的正確性并不能反映分車型流量的正誤,因此需要在判斷占有率、總交通量與速度數(shù)據(jù)是否異常之后,判斷分車型流量是否異常,若兩者中有一個(gè)判斷為異常,則為異常記錄。
1.2.1 總交通量的篩選方法
總交通量的篩選方法采用交通流理論相結(jié)合的方法與閾值法,主要分為三步,第一步:利用交通流三參數(shù)的機(jī)理關(guān)系做基礎(chǔ)篩選,去除明顯不符合邏輯的數(shù)據(jù)記錄;第二步:將車輛檢測器檢測數(shù)據(jù)三參數(shù)的范圍設(shè)定在一個(gè)合理的理論值區(qū)間內(nèi),除掉不符合情況的閾值溢出值;第三步:再根據(jù)交通流三參數(shù)之間的嚴(yán)格計(jì)算關(guān)系來進(jìn)一步推斷并去除不符合規(guī)律的數(shù)據(jù)記錄。交通量的篩選共有三種篩選方法,分別為基礎(chǔ)篩選、閾值法篩選、基于交通流參數(shù)間關(guān)系的數(shù)據(jù)篩選。
(1)基礎(chǔ)篩選
表1展示了車輛檢測器檢測數(shù)據(jù)的參數(shù)表現(xiàn)形式以及各表現(xiàn)形式下數(shù)據(jù)篩選的規(guī)則。
a.表 1中情況(8,9),可通過最大閾值法排除檢測總交通量數(shù)值超過道路通行能力的情況。
b.表 1中情況(5),可通過前5分鐘和后5分鐘的數(shù)據(jù)判斷是否出現(xiàn)停車或擁堵狀況判斷異常數(shù)據(jù)。
c.表 1中情況(1),可以對(duì)不同天同一時(shí)段的交通流量的數(shù)據(jù)進(jìn)行比較判斷異常數(shù)據(jù)。
(2)閾值法篩選
(3)基于交通流參數(shù)間關(guān)系的數(shù)據(jù)篩選
在對(duì)車輛檢測器檢測數(shù)據(jù)進(jìn)行粗略篩選后,在研究中我們發(fā)現(xiàn),還有一種較為隱蔽的數(shù)據(jù)異常情況(主要發(fā)生于表1中8、9的參數(shù)形式下):同一記錄的三個(gè)交通流檢測參數(shù)無不符合邏輯的異常值,且各檢測值均在各檢測參數(shù)閾值范圍內(nèi),但三個(gè)參數(shù)之間的關(guān)系不嚴(yán)格滿足高速公路的三參數(shù)之間的計(jì)算關(guān)系,即其中兩個(gè)測量值的計(jì)算推測值與另外一個(gè)真實(shí)測量值之間存在較大差異,因此也要判斷其錯(cuò)誤。
本研究所采用的具體篩選步驟如下:
①將時(shí)間占有率換算為車流密度形式表示。
(1)
其中:occ為時(shí)間占有率([0,1]);
l為有效車長(m)(可取車輛長度的平均值)。
②根據(jù)交通流三參數(shù)關(guān)系,根據(jù)測量車流密度計(jì)算出的流量與測量出的流量差值比例篩選,篩選公式如下:
|q測-k測v測| ≤θ%
q測 (2)
其中:q測為車輛檢測器總流量檢測值;
k測為車輛檢測器交通密度檢測值,通過式(1)檢測的占有率轉(zhuǎn)化得來;
v測為車輛檢測器速度檢測值。
由于車輛檢測器檢測數(shù)據(jù)本身為計(jì)算值,且檢測精度并沒達(dá)到100%,故檢測數(shù)據(jù)的參數(shù)不可能嚴(yán)格滿足q測=k測v測,因此,可設(shè)定一個(gè)可接受誤差范圍,《高速公路監(jiān)控技術(shù)要求》中規(guī)定:車輛檢測器交通量、車輛速度、占有率準(zhǔn)確度大于或等于85%。根據(jù)此標(biāo)準(zhǔn)以及公式,當(dāng)流量取準(zhǔn)確度范圍內(nèi)上限值,密度和速度取準(zhǔn)確度范圍下限值時(shí)取最大值:
1.2.2 分車型流量數(shù)據(jù)的篩選方法
將總流量的異常數(shù)據(jù)過濾掉后,需要判斷分車型流量數(shù)據(jù)是否有錯(cuò)誤。當(dāng)總流量為真值時(shí),分車型流量的和與總流量相比相差不應(yīng)過大,因此,分車型流量的篩選通過以下公式判斷:
(3)
其中:qi為分車型流量的值(i=1,2,3分別表示大、中、小型車的檢測流量值);
q為總交通量;
δ%為設(shè)定誤差,通常根據(jù)車輛檢測器的精度參數(shù)進(jìn)行標(biāo)定。
2 交通流量檢測數(shù)據(jù)修復(fù)方法
2.1 修復(fù)條件
數(shù)據(jù)清洗后,數(shù)據(jù)的完整率降低,影響后續(xù)對(duì)數(shù)據(jù)的分析應(yīng)用,因此,數(shù)據(jù)清洗后需要進(jìn)行數(shù)據(jù)修復(fù)工作[7,8]。
當(dāng)車輛檢測器某月的檢測數(shù)據(jù)異常數(shù)據(jù)較多時(shí),數(shù)據(jù)進(jìn)行修復(fù)后,真實(shí)性和可靠性就大大降低,后續(xù)分析和處理的意義也會(huì)降低。因此,數(shù)據(jù)修復(fù)的對(duì)象應(yīng)主要針對(duì)篩選后有效數(shù)據(jù)完整性較高的月份。因此修復(fù)條件需滿足公式(4)。
有效數(shù)據(jù)條數(shù)
理論總數(shù)據(jù)條數(shù) ≥D (4)
其中:D為日有效數(shù)據(jù)完整率的眾數(shù)。
2.2 修復(fù)算法研究
2.2.1 修復(fù)基礎(chǔ)
由于出行者出行需求的規(guī)律及相對(duì)普遍的出行習(xí)慣影響,使得交通流在同一斷面相同性質(zhì)(工作日、雙休日)的統(tǒng)計(jì)日內(nèi)在同一時(shí)間會(huì)出現(xiàn)相似的交通流特征,這是車輛檢測器數(shù)據(jù)修復(fù)的基礎(chǔ)。
2.2.2 修復(fù)算法
當(dāng)數(shù)據(jù)分布符合正態(tài)分布時(shí),IQR不如標(biāo)準(zhǔn)偏差有效;但如果數(shù)據(jù)中存在噪聲和孤立點(diǎn),則在估計(jì)數(shù)據(jù)的離差時(shí),它比標(biāo)準(zhǔn)偏差更具代表性。本研究基于大量的歷史檢測數(shù)據(jù)驗(yàn)證表明,檢測周期的流量值不服從正態(tài)分布,因此采用IQR方法修復(fù)。
首先,判斷異常數(shù)據(jù)的統(tǒng)計(jì)日是雙休日還是工作日,然后將數(shù)據(jù)庫中一年內(nèi)與待修復(fù)數(shù)據(jù)具有相同統(tǒng)計(jì)時(shí)段、相同統(tǒng)計(jì)日性質(zhì)的數(shù)據(jù)進(jìn)行匯總排序,分別取數(shù)據(jù)的上、下四分位點(diǎn)作為修復(fù)數(shù)據(jù)的上限和下限。將剩下50%的數(shù)據(jù)保留下來求均值作為修復(fù)值。
2.3 效果驗(yàn)證
本文選取三種方法對(duì)比驗(yàn)證效果:①采用相鄰時(shí)段數(shù)據(jù)的平均值修復(fù);②采用前一天的歷史趨勢數(shù)據(jù)修復(fù);③本文修復(fù)方法。各修復(fù)數(shù)據(jù)分別與原有檢測值進(jìn)行對(duì)比。
結(jié)果表明:本文提出的四分位間距(IQR)修復(fù)算法比傳統(tǒng)的修復(fù)算法的修復(fù)結(jié)果誤差更低,更貼近車輛檢測器的檢測值。原因是由于修復(fù)的數(shù)據(jù)源樣本多,且都較貼近實(shí)際情況。
圖1 數(shù)據(jù)修復(fù)算法對(duì)比效果圖
3 結(jié) 語
車輛檢測器數(shù)據(jù)作為交通狀態(tài)的基礎(chǔ)數(shù)據(jù),其清洗與修復(fù)方法深刻影響著其置信程度、應(yīng)用范圍。因此,本文對(duì)車輛檢測器異常數(shù)據(jù)的清洗與修復(fù)方法研究,在一定程度上合理地解決了車輛檢測器異常數(shù)據(jù)所帶來的部分應(yīng)用問題,從而使車輛檢測器數(shù)據(jù)能夠更加準(zhǔn)確、完整的被應(yīng)用于交通規(guī)劃、交通控制、交通行為分析等交通應(yīng)用領(lǐng)域。
參考文獻(xiàn)
[1] 蔣銳,王均.道路交通流數(shù)據(jù)檢驗(yàn)與修復(fù)方法[J].交通與計(jì)算機(jī),2006,24(6):65-67.
[2] 耿彥斌,于雷,趙慧.ITS數(shù)據(jù)質(zhì)量控制技術(shù)及應(yīng)用研究[J].中國安全科學(xué)學(xué)報(bào),2005,15(1):82-87.
[3] 劉偉,曹先彬.對(duì)基于MPN的相似重復(fù)記錄識(shí)別算法的改進(jìn)[J].微計(jì)算機(jī)信息(管控一體化),2005,21(8):147-149.
[4]伍建國,王峰.城市道路交通數(shù)據(jù)采集系統(tǒng)檢測器優(yōu)化布點(diǎn)研究[J].公路交通科技,2004,21(2):88-91,95.
[5]周永華,陸化普.交通流數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與開發(fā)[J].交通與計(jì)算機(jī),2006,22(5):37-39.
[6]耿彥斌.城市道路交通流數(shù)據(jù)質(zhì)量控制理論與模型[D].北京:北京交通大學(xué),2006.
[7]姜桂艷,江龍暉,張曉東,等.動(dòng)態(tài)交通數(shù)據(jù)故障識(shí)別與修復(fù)方法[J].交通運(yùn)輸工程學(xué)報(bào),2004,4(1):121-125.
[8]姜桂艷.道路交通狀態(tài)判別技術(shù)與應(yīng)用[M].北京:人民交通出版社,2004.
[9] Gerlaugh D L, Huber M J.Traffic Flow Theory[M].Beijing:China Communications Press, 1983.
[10]王曉華,蘇宏業(yè),渠瑜,等.面向電信欠費(fèi)挖掘的數(shù)據(jù)質(zhì)量評(píng)估策略研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(12):220-224.