国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

拉伊達(dá)準(zhǔn)則在交通調(diào)查數(shù)據(jù)處理中的應(yīng)用

2016-06-20 06:12王天送孫明明
西部交通科技 2016年4期
關(guān)鍵詞:統(tǒng)計(jì)數(shù)據(jù)

王天送,張 杰,孫明明

(鄭州大學(xué),河南 鄭州 450000)

拉伊達(dá)準(zhǔn)則在交通調(diào)查數(shù)據(jù)處理中的應(yīng)用

王天送,張杰,孫明明

(鄭州大學(xué),河南鄭州450000)

關(guān)鍵詞:交通調(diào)查;統(tǒng)計(jì)數(shù)據(jù);異常值;判別方法

0引言

交通調(diào)查是通過對多種交通現(xiàn)象進(jìn)行調(diào)查,為交通規(guī)劃、交通設(shè)施建設(shè)、交通環(huán)境保護(hù)等各方面服務(wù)。[1]交通調(diào)查獲取的數(shù)據(jù)的準(zhǔn)確性及可靠性對現(xiàn)實(shí)情況的把握、規(guī)劃方案的制定、政策的實(shí)施影響深遠(yuǎn)。從數(shù)據(jù)獲取的方法和技術(shù)來看,數(shù)據(jù)實(shí)際統(tǒng)計(jì)取樣中,由于偶然誤差的存在,所獲得的數(shù)據(jù)存在一定的離散性;也有可能是統(tǒng)計(jì)者出現(xiàn)讀錯(cuò)、記錯(cuò)、測錯(cuò)以及條件沒達(dá)到要求就開始測量時(shí)出現(xiàn)個(gè)別離散性較大的數(shù)據(jù),這些數(shù)據(jù)稱為異常值或壞值[2]。例如用測速儀器測量車速,可能會因儀器的抖動造成數(shù)據(jù)采集的誤差。而由人工采集而來的數(shù)據(jù),在經(jīng)多人收集、匯編等過程中出現(xiàn)異常值問題更為普遍。例如公交隨車調(diào)查中可能由于調(diào)查人員的疲勞疏忽造成上下客流的錯(cuò)計(jì)、漏計(jì)等。若采集數(shù)據(jù)對調(diào)查人員有明顯的利益關(guān)系,調(diào)查人員根據(jù)自身利益判斷可能會故意改動數(shù)據(jù)。因此交通調(diào)查中必須對原始統(tǒng)計(jì)數(shù)據(jù)加以判斷識別,剔除數(shù)據(jù)中存在的異常值,并且根據(jù)對調(diào)查過程的了解,參考已有經(jīng)驗(yàn)確定數(shù)據(jù)整體置信水平,篩選之后的數(shù)據(jù)方可作進(jìn)一步分析。

1異常值檢驗(yàn)常用方法

判別異常值的準(zhǔn)則有拉依達(dá)準(zhǔn)則(3σ準(zhǔn)則)、格拉布斯準(zhǔn)則、迪克遜準(zhǔn)則等,以下分別作簡要介紹。

1.1拉依達(dá)準(zhǔn)則

設(shè)對某指標(biāo)值做等精度的獨(dú)立統(tǒng)計(jì),統(tǒng)計(jì)值X1X1X2……Xn。用以下公式分別計(jì)算測得值的平均值和殘余誤差:

(1)

(2)

(3)

式中:Xi——統(tǒng)計(jì)值;

Vi——?dú)堄嗾`差;

N——測量次數(shù);

σ——標(biāo)準(zhǔn)偏差。

根據(jù)貝塞爾公式對∑V2作如下變換:

(4)

(5)

須剔除不要。對所得數(shù)據(jù)依次判斷剔除異常值,直到所有數(shù)據(jù)都不滿足如上條件為止。判別異常值流程如下頁圖1(a)所示。

1.2格拉布斯準(zhǔn)則

對某指標(biāo)統(tǒng)計(jì)n次,一次統(tǒng)計(jì)值記為Xi(i=1、2,……n),檢驗(yàn)Xi是否為異常值的格拉布斯準(zhǔn)則如下:Xi按升序排列成順序統(tǒng)計(jì)量,X(1)≤X(2)≤……≤X(n):計(jì)算格拉布斯統(tǒng)計(jì)量,包括下側(cè)格拉布斯數(shù)g(1)和上側(cè)格拉布斯數(shù)g(n)。

(6)

剔除異值步驟:(1)確定顯著水平α(一般取0.05),由α和n(n為樣本數(shù))查表格拉布斯準(zhǔn)則數(shù)T(n,α),如表1所示。(2)判斷:若g(1)≥T(n,α),則X(1)為異常值,予以剔除:若g(n)≥T(n,α),則X(n)為異常值,予以剔除:判別流程如下頁圖1(b)所示。

表1 n,α相應(yīng)的T(α,n)值表

1.3迪克遜準(zhǔn)則

設(shè)對某指標(biāo)值進(jìn)行多次重復(fù)測量的監(jiān)測數(shù)據(jù)樣本排序X1X2……Xn,構(gòu)建不同數(shù)據(jù)范圍的極差比γ,如表2所示:

表2 觀察數(shù)據(jù)極差比表

表3 α,n相應(yīng)的D(α,n)值表

(a)

(b)

(c)

2三種剔除方法適用標(biāo)準(zhǔn)

在交通調(diào)查中,例如地點(diǎn)車速調(diào)查、居民日出行次數(shù),樣本數(shù)量通常較大,且已被多次實(shí)踐證明服從正態(tài)分布[1][4][8]。根據(jù)正態(tài)分布特性,數(shù)據(jù)出現(xiàn)大偏差統(tǒng)計(jì)值的概率很小,只有5%的數(shù)據(jù)出現(xiàn)偏差大于兩倍的標(biāo)準(zhǔn)差,0.3%概率的數(shù)據(jù)出現(xiàn)偏差大于三倍標(biāo)準(zhǔn)差。根據(jù)小概率原理,將用來判別異值標(biāo)準(zhǔn)的三倍標(biāo)準(zhǔn)差,稱為統(tǒng)計(jì)上允許的合理誤差限。在小樣本測定中,其偏差超出合理誤差限的測定值判定為異常值。

以上所述三種異常值判別準(zhǔn)則都是以數(shù)據(jù)正態(tài)分布為前提,拉伊達(dá)準(zhǔn)則公式簡單,經(jīng)過貝塞爾變換數(shù)據(jù)易于計(jì)算,無需查表,并且能夠循環(huán)剔除多個(gè)數(shù)據(jù)。因此,大樣本(n>50)異值判別用拉伊達(dá)準(zhǔn)則最為簡單,且能得到理想效果。相比而言,格拉布斯準(zhǔn)則和迪克遜準(zhǔn)則公式利用、查表繁瑣,在小樣本量中才能發(fā)揮其功效,一般認(rèn)為迪克遜準(zhǔn)則是格拉布斯的補(bǔ)充,兩者沒有較大差異[7]。此外,在樣本量n≤10情況下,拉伊達(dá)準(zhǔn)則通常失效,無法有效提出異常值。以下舉例分析,選擇10座城市居民日出行次數(shù)如表4所示,服從正態(tài)分布N(2.82,1.1),X11為待檢驗(yàn)數(shù)據(jù)。在置信度為99.7%條件下X的置信區(qū)間為(0.75,4.89),因此,判斷X11=11為異常數(shù)據(jù)?,F(xiàn)在利用拉伊達(dá)準(zhǔn)則判別X11=11是否為異常值。

表4 待檢驗(yàn)數(shù)據(jù)組表

(1)在數(shù)據(jù)11組數(shù)據(jù)中,用拉伊達(dá)準(zhǔn)則判別:

σ=2.515

(2)將數(shù)據(jù)X3清除,剩余10組數(shù)據(jù),用拉伊達(dá)準(zhǔn)則對X11做異常值檢驗(yàn):

σ=2.645

另外兩種判別方法則能在10個(gè)數(shù)據(jù)中判別出數(shù)據(jù)X11為異常值。

3城鄉(xiāng)公交百公里配車數(shù)據(jù)處理

在浙江省城鄉(xiāng)客運(yùn)一體化研究中,百公里配標(biāo)準(zhǔn)車輛作為重要評測指標(biāo),采取縣市平行上報(bào)統(tǒng)計(jì)數(shù)據(jù),避免通過上下級采集數(shù)據(jù)出現(xiàn)的人為修改,各地縣市(區(qū))有效統(tǒng)計(jì)數(shù)據(jù)(數(shù)據(jù)全面,無缺失值)如表5所示。雖然數(shù)據(jù)采取平行上報(bào)方式,但仍不免出現(xiàn)統(tǒng)計(jì)中數(shù)據(jù)失真情況,為準(zhǔn)確把握浙江全省的城鄉(xiāng)客運(yùn)的發(fā)展?fàn)顟B(tài),必須對統(tǒng)計(jì)數(shù)據(jù)做異常性判斷,確定數(shù)據(jù)的可信度。

表5 各縣市百公里標(biāo)準(zhǔn)車數(shù)值表(標(biāo)車/百公里)

(數(shù)據(jù)來源:《城鄉(xiāng)客運(yùn)一體化指標(biāo)體系及應(yīng)用研究》)

(1)正態(tài)分布檢驗(yàn)

數(shù)據(jù)利用Minitab軟件進(jìn)行正態(tài)分布檢驗(yàn),檢驗(yàn)結(jié)果如圖2所示,其中p=0.181>0.005,說明數(shù)據(jù)呈現(xiàn)良好的正態(tài)分布。

圖2 正態(tài)分布檢驗(yàn)

(2)異常值判別

拉伊達(dá)準(zhǔn)則選取的置信水平為99.7%,誤差范圍寬泛,對本研究不適用,為得到更準(zhǔn)確的數(shù)據(jù),本文選取85%的置信水平,置信區(qū)間反映在正態(tài)分布中為±1.04σ,以此為判斷標(biāo)準(zhǔn),刪除以下數(shù)據(jù)組(見表6):

表6 剔除數(shù)據(jù)數(shù)值表

4結(jié)語

各科領(lǐng)域涉及到數(shù)據(jù)的統(tǒng)計(jì)不可避免會出現(xiàn)異常值情況,在現(xiàn)有文獻(xiàn)中大多關(guān)于物理化學(xué)等領(lǐng)域測量中的異常值問題,對交通調(diào)查統(tǒng)計(jì)數(shù)據(jù)的處理幾乎沒有。從數(shù)據(jù)的純數(shù)學(xué)角度分析,數(shù)據(jù)來源是沒有區(qū)別的。因此,本文總結(jié)分析了三種常見異常值判別方法的優(yōu)缺點(diǎn)和使用條件;根據(jù)實(shí)際需要對拉伊達(dá)準(zhǔn)則做計(jì)算簡化,并用其判別一組交通調(diào)查數(shù)據(jù)的異常值。

參考文獻(xiàn)

[1]王建軍,嚴(yán)寶杰,張江.交通調(diào)查與分析[M].北京:人民交通出版社,2004.

[2]張德然.統(tǒng)計(jì)數(shù)據(jù)中異常值得檢驗(yàn)方法[J].統(tǒng)計(jì)研究,2003(5):53-55.

[3]張敏.拉伊達(dá)準(zhǔn)則與異常值剔除[J].鄭州工業(yè)大學(xué)學(xué)報(bào),1997(1):84-88.

[4]石飛,陸建.居民出行調(diào)查抽樣率模型[J].交通運(yùn)輸工程學(xué)報(bào),2004(5):72-75.

[5]鄧勃.關(guān)于異常值的檢驗(yàn)與處理[J].大學(xué)化學(xué),1995(4):5-9.

[6]孫培強(qiáng).正確選擇統(tǒng)計(jì)判別方法剔除異常值[J].計(jì)量技術(shù),2013(11):71-73.

[7]何平.剔除測量數(shù)據(jù)中異常值得若干方法[J].航空計(jì)測技術(shù),1995(1):19-22.

[8]馬瑩瑩,楊曉光.城市道路自由車速與車道寬度關(guān)聯(lián)性分析[J].同濟(jì)大學(xué)學(xué)報(bào),2009(12):21-26.

摘要:文章針對交通調(diào)查統(tǒng)計(jì)數(shù)據(jù)的特點(diǎn),介紹了拉伊達(dá)準(zhǔn)則、格拉布斯準(zhǔn)則、迪克遜準(zhǔn)則三種常用的異常值剔除方法,并對拉伊達(dá)準(zhǔn)則運(yùn)算步驟做了推導(dǎo)簡化;分析了這三種常見的異常值剔除方法的特點(diǎn)及適用范圍,并通過一組居民日出行次數(shù)數(shù)據(jù),比較了三者判別的差異;采用拉伊達(dá)準(zhǔn)則,對浙江省城鄉(xiāng)客運(yùn)百公里配車數(shù)數(shù)據(jù)進(jìn)行了應(yīng)用分析,得出了較好的判別結(jié)果。

Application of Pauta Criterion in Traffic Survey Data Processing

WANG Tian-song,ZHANG Jie,SUN Ming-ming

(Zhengzhou University,Zhengzhou,Henan,450000)

Abstract:According to the characteristics of traffic survey statistics data,this article introduced three commonly used outlier removing methods of Pauta Criterion,Grubbs Criterion and Dixon Criterion,and conducted the derivation simplification on the operation steps of Pauta Criterion;analyzed the features and application scope of these three common outlier removing methods,and through a group of resi-dent daily travel times data,it compared the difference among these three discrimination;Pauta Criteri-on was adopted to conduct the application analysis on vehicle number data every one hundred kilome-ters of urban and rural passenger transit in Zhejiang,then the better discrimination result was obtained.

Keywords:Traffic survey;Statistics data;Outliers;Discriminating method

作者簡介

中圖分類號:U491.1

文獻(xiàn)標(biāo)識碼:A

DOI:10.13282/j.cnki.wccst.2016.04.026

文章編號:1673-4874(2016)04-0096-04

收稿日期:2016-03-28

王天送(1988—),碩士研究生,研究方向:交通運(yùn)輸規(guī)劃與管理。

猜你喜歡
統(tǒng)計(jì)數(shù)據(jù)
創(chuàng)新視角下統(tǒng)計(jì)數(shù)據(jù)的提取與使用
創(chuàng)新視角下統(tǒng)計(jì)數(shù)據(jù)的合理決策問題
中國林科院科信所建成林草統(tǒng)計(jì)數(shù)據(jù)統(tǒng)一搜索平臺
改善人口與計(jì)劃生育統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的策略探討
國際統(tǒng)計(jì)數(shù)據(jù)
基于故障統(tǒng)計(jì)數(shù)據(jù)的計(jì)算機(jī)聯(lián)鎖設(shè)備服役周期研究
2017年居民消費(fèi)統(tǒng)計(jì)數(shù)據(jù)資料
提高人口統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究與探討
滬港通
地理國情普查統(tǒng)計(jì)數(shù)據(jù)網(wǎng)格化
临沭县| 和田县| 通城县| 新兴县| 治县。| 泰兴市| 云南省| 盘锦市| 思茅市| 通化县| 当阳市| 绿春县| 宁河县| 湖口县| 巴塘县| 古浪县| 长岭县| 莱州市| 黄石市| 保靖县| 通城县| 竹溪县| 乐清市| 博湖县| 德钦县| 威海市| 塔河县| 辽阳市| 马关县| 新昌县| 体育| 丹江口市| 四平市| 天全县| 普兰店市| 轮台县| 浦北县| 金塔县| 肃宁县| 米泉市| 紫阳县|