国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于馬氏距離的數(shù)據(jù)處理方法及其在高速公路改擴(kuò)建工程定額中的應(yīng)用

2018-10-31 08:13袁劍波毛紅日
鐵道科學(xué)與工程學(xué)報 2018年10期
關(guān)鍵詞:馬氏數(shù)組原始數(shù)據(jù)

袁劍波,毛紅日

?

基于馬氏距離的數(shù)據(jù)處理方法及其在高速公路改擴(kuò)建工程定額中的應(yīng)用

袁劍波1,2,毛紅日1

(1. 長沙理工大學(xué) 交通運(yùn)輸工程學(xué)院,湖南 長沙 410004; 2. 長沙理工大學(xué) 城南學(xué)院,湖南 長沙 410076)

針對高速公路改擴(kuò)建定額編制中的數(shù)據(jù)處理,應(yīng)用馬氏距離法、2分布及分布,建立多元和單元的異常數(shù)據(jù)檢測模型。將該模型應(yīng)用于高速公路改擴(kuò)建工程定額編制,減少干擾因素導(dǎo)致的實測數(shù)據(jù)的異常性,提高定額編制的精度,保證數(shù)據(jù)處理的科學(xué)性。

改擴(kuò)建工程;馬氏距離;卡方分布;分布;異常數(shù)據(jù)

高速公路改擴(kuò)建工程與新建工程相比,更具復(fù)雜性,影響因素更多。相應(yīng)地,定額原始數(shù)據(jù)的觀測更困難,所觀測的數(shù)據(jù)異常性更高。因此,編制高速公路改擴(kuò)建定額時,需要科學(xué)、合理的原始數(shù)據(jù)處理方法。以檢測原始數(shù)據(jù)中的異常數(shù)據(jù),減少定額成果與現(xiàn)實情況的偏差。目前,異常數(shù)據(jù)的檢測方法多為以下幾種:萊茵達(dá)準(zhǔn)則、狄克遜準(zhǔn)則、格拉布斯準(zhǔn)則、肖維勒準(zhǔn)則以及羅馬諾夫斯基準(zhǔn)則(t檢驗)[1]。王首緒等[2]在新疆養(yǎng)護(hù)定額編制時采用t檢驗檢測原始數(shù)據(jù)中的異常數(shù)據(jù)。QI等[3]采用修正格布拉斯法檢測火電機(jī)組多個測試點異常性。王華等[4]在公路定額編制中采用格拉布準(zhǔn)則檢測異常數(shù)據(jù)[4]。以上方法主要是以歐氏距離為基礎(chǔ)的檢測。由于歐氏距離受量綱、變量相關(guān)性的影響[5?6],該方法可以進(jìn)一步通過馬氏距離改進(jìn)。理論上,馬氏距離比歐氏距離、閔氏距離、蘭氏距離更加優(yōu)異[7]。馬氏距離是一種距離度量方法,考慮了不同參數(shù)間的相關(guān)性,對各種參數(shù)間的變化敏感,由于使用歸一化參數(shù)計算,它對所監(jiān)控參數(shù)的不同量綱不敏感[8],已經(jīng)用于諸如異常檢測、模式識別和過程控制[9],在其他行業(yè)已得到廣泛應(yīng)用[10?13]。而傳統(tǒng)馬氏距離在小樣本數(shù)據(jù)檢測中,常出現(xiàn)協(xié)方差非奇異,導(dǎo)致無法求得馬氏距離。本文應(yīng)用協(xié)方差∑的?逆∑+的改進(jìn)馬氏距離,并結(jié)合卡方分布,建立了基于數(shù)組間的異常數(shù)據(jù)檢測模型;馬氏距離常應(yīng)用于多元異常數(shù)據(jù)檢測,為解決數(shù)據(jù)間的異常性,應(yīng)用馬氏距離與分布,建立了基于數(shù)據(jù)間的異常數(shù)據(jù)檢測模型。因此,本文應(yīng)用馬氏距離法,結(jié)合統(tǒng)計分布的方法,從多元和單元的角度分析、處理數(shù)據(jù),以達(dá)到減少實測數(shù)據(jù)中的異常性,提高定額精度的目的。

1 異常數(shù)據(jù)產(chǎn)生的原因

1.1 高速公路改擴(kuò)建工程技術(shù)復(fù)雜性

高速公路改擴(kuò)建工程中,應(yīng)用路基拓寬、路面拼接、路面加鋪及瀝青再生、橋梁拆除、橋梁頂升、橋梁拼接等新技術(shù)。導(dǎo)致高速公路改擴(kuò)建工程相比于新建公路,具有工作面不連續(xù)(較分散,有的為確保不中斷交通需跳段施工)、工期長、成本高、施工風(fēng)險高、施工環(huán)境復(fù)雜(施工干擾、交通組織等影響因素較多)等特點。因此,新技術(shù)的應(yīng)用增長了原始數(shù)據(jù)觀測時間、增加了原始數(shù)據(jù)觀測的不連續(xù)性、增大了原始數(shù)據(jù)觀測難度,同時缺乏相關(guān)經(jīng)驗及統(tǒng)計資料,導(dǎo)致異常數(shù)據(jù)產(chǎn)生的可能性更高。

1.2 觀測的地理環(huán)境以及觀測對象的差別

觀測的地理環(huán)境以及觀測對象的差別都可能導(dǎo)致所測定的原始數(shù)據(jù)出現(xiàn)較大的誤差。高速公路改擴(kuò)建相比新建公路,社會、人文和自然環(huán)境更加復(fù)雜,主要體現(xiàn):高速公路改擴(kuò)建工程是在原有高速公路基礎(chǔ)上進(jìn)行的,其附近經(jīng)濟(jì)走廊、管線工程已經(jīng)形成,周圍建筑物密集,導(dǎo)致工程變更量更大、工期更緊張、施工成本更高、前后工作緊密程度更低;高速公路改擴(kuò)建采取邊施工邊通車原則,通車和施工并存,相互干擾,增加了施工工期、影響工序施工的連貫性;其他環(huán)境、社會因素也會高速公路改擴(kuò)建施工過程造成干擾,進(jìn)而影響觀測數(shù)據(jù)的準(zhǔn)確性。

1.3 檢測者的原因

除去測量錯誤、讀數(shù)錯誤、記錄錯誤等檢測者行為導(dǎo)致異常數(shù)據(jù)產(chǎn)生外,檢測者對改擴(kuò)建工程技術(shù)復(fù)雜性的認(rèn)知水平也將導(dǎo)致異常數(shù)據(jù)產(chǎn)生,尤其是改擴(kuò)建工程特有項目(新老路基拼接、橋梁拼接等)的施工工藝、施工方法和施工方案等方面認(rèn)知水平的好壞,將導(dǎo)致觀測數(shù)據(jù)的異常與否;改擴(kuò)建工程現(xiàn)場情況復(fù)雜,合理的測時方法與合適的觀測地點也會導(dǎo)致異常數(shù)據(jù)的產(chǎn)生。此外檢測人員混亂、虛報、瞞報等原因也會導(dǎo)致原始數(shù)據(jù)的異常。

2 基于馬氏距離的異常數(shù)據(jù)檢測模型

2.1 馬氏距離的定義

即馬氏距離。

式中:σ為總體的標(biāo)準(zhǔn)差。

2.2 基于數(shù)組間異常的馬氏距離檢測模型

可以通過上述單位化數(shù)據(jù)來分析不同檢測人員所觀測數(shù)據(jù)間的差異度,差異度是描述兩數(shù)組的相似程度。當(dāng)差異度越小時,數(shù)組也就越接近,數(shù)組的異常性就越小。對于任意的2個檢測人員的數(shù)組的馬氏距離可用式(4)表示。

馬氏距離是一種重要的多元異常數(shù)據(jù)檢測的方法,是識別多元異常較好的綜合指標(biāo),而馬氏距離近似服從自由度為的卡方分布[19?20],所以可以構(gòu)建某個置信水平下的判別式(6)。

故最終判別式可為式(7)。

對于滿足式(7)的數(shù)據(jù),可認(rèn)定數(shù)組間的差異度較小,不存在檢測人員間受主、客觀原因的影響。當(dāng)數(shù)組不滿足式(7)時,以多數(shù)原則選取合理的數(shù)組。

2.3 基于數(shù)據(jù)間異常的馬氏距離檢測模型

在考慮數(shù)組間的差異度后,也要考慮隨機(jī)誤差和系統(tǒng)誤差等所引起的數(shù)據(jù)的異常性,即對滿足式(7)的數(shù)組進(jìn)行數(shù)據(jù)間的異常性檢測。馬氏距離多應(yīng)用于多元異常數(shù)據(jù)的檢測,為對單個測定值異常性作出判斷,首先目的是構(gòu)建數(shù)據(jù)間異常性檢測的馬氏距離模型,進(jìn)而確定異常性檢測的判別式。

根據(jù)式(8)分析,以馬氏距離構(gòu)造統(tǒng)計量,見 式(9)。

成立。

表1 準(zhǔn)則參數(shù)M(n,α)

3 基于馬氏距離模型的異常數(shù)據(jù)檢測方法

3.1 數(shù)組間異常性的檢測

3.2 數(shù)據(jù)間異常性的檢測

1) 多元數(shù)據(jù)的一元化,在個實測值中找到相對平均值偏差最大的觀測值x,作為可疑數(shù)據(jù);

2) 對不包括可疑數(shù)據(jù)x在內(nèi)的(?1)個觀測值,計算平均值以及樣本方差;

5) 如果x為異常數(shù)據(jù),采用各種方法進(jìn)行處理,然后對剩下的(?1)個觀測數(shù)據(jù)按上述步驟進(jìn)行檢測,直至觀測數(shù)據(jù)中不再有異常值。

4 實例分析

在高速公路改擴(kuò)建定額編制中,不同的檢測人員以工作日寫實法觀測“汽車吊吊梁”。其工作內(nèi)容為:平板車運(yùn)梁,人工綁扎吊繩,起吊、移位、定位和焊接等工作。觀測數(shù)據(jù)以式(3)單位化,得到機(jī)械臺班產(chǎn)量數(shù)據(jù)如表2。

表2 定額實測某工序中機(jī)械臺班產(chǎn)量數(shù)據(jù)

1) 檢測數(shù)組間的異常性,兩兩組合有3種情況(1,2),(1,3)和(2,3),并計算彼此的馬氏距離。通過matlab編程[18]計算,結(jié)果如表3。

表3 數(shù)組間馬氏距離

2) 單個數(shù)據(jù)的異常性檢測,先將上述3個記錄員的數(shù)據(jù)向量整理成一元的數(shù)據(jù)向量(從小到大),如表4。

表4 定額實測某工序中機(jī)械臺班產(chǎn)量數(shù)據(jù)

根據(jù)上述-準(zhǔn)則的判別步驟,可以計算數(shù)據(jù)間的馬氏距離如表5,表中主要是列出了檢測到兩端可疑點。

表5 數(shù)據(jù)間的馬氏距離

根據(jù)上述表格中的單個數(shù)據(jù)間的馬氏距離,通過查表1可以得到1,8是正常數(shù)據(jù),而9是異常數(shù)據(jù),從而對于異常數(shù)據(jù)予以處理(剔除、替換等)。

5 結(jié)論

1) 高速公路改擴(kuò)建工程異常數(shù)據(jù)處理需從多元和單元的角度出發(fā),綜合考慮數(shù)組和數(shù)據(jù)間的異常性,通過減少干擾因素的影響提高定額的準(zhǔn)確度。

2) 應(yīng)用馬氏距離法和2分布,構(gòu)建了多元異常數(shù)據(jù)檢測模型,考慮了多元樣本間的相關(guān)性,排除了變量之間的不同量綱干擾。應(yīng)用馬氏距離法和分布,構(gòu)建了單元異常數(shù)據(jù)檢測模型,確定了不同的置信水平下和觀測次數(shù)的準(zhǔn)則參數(shù)值。

3) 從實例應(yīng)用結(jié)果分析,多元檢測過程中未檢測到異常性,而在單元檢測中檢測到了異常數(shù)據(jù)。說明多元檢測弱化了數(shù)據(jù)間的關(guān)系,主要考慮因素間聯(lián)系,而單元檢測主要考慮數(shù)據(jù)間的關(guān)系,忽略了多因素的影響,多元和單元雙重檢測下減少了異常性,提高了定額編制的精度。

[1] 費業(yè)泰. 誤差理論與數(shù)據(jù)處理[M]. 北京: 機(jī)械工業(yè)出版社, 2004. FEI Yetai. Error theory and data processing[M]. Beijing: Mechanical Industry Press, 2004.

[2] 王首緒, 龍琰, 郭四澤. 基于t分布理論的公路定額數(shù)據(jù)小樣本容量的收斂條件[J]. 長沙理工大學(xué)學(xué)報(自然科學(xué)版), 2007(2): 13?15, 20. WANG Shouxu, LONG Yan, GUO Size. Convergence condition of individual sample size about data among the road quota based on the theory of student distribution[J]. Journal of Changsha University of Science and Technology (Natural Science), 2007(2): 13?15, 20.

[3] QI Minfang, FU Zhongguang, CHEN Fei. Outliers detection method of multiple measuring points of parameters in power plant units[J]. Applied Thermal Engineering, 2015, 85(7): 297?303.

[4] 王華, 喬鵬. 公路定額測定異常數(shù)據(jù)剔除方法研究[J]. 中外公路, 2013, 33(6): 354?356. WANG Hua, QIAO Peng. Study on the method of eliminating abnormal data of highway quota[J]. Journal of China & Foreign Highway, 2013, 33(6): 354?356.

[5] 黃飛, 周軍, 盧曉東. 基于馬氏距離的一維距離像識別算法仿真[J]. 計算機(jī)仿真, 2010, 27(3): 31?34, 84. HUANG Fei, ZHOU Jun, LU Xiaodong. The simulation of one-dimensional range profile recognition based on Mahalanobis distance[J]. Computer Simulation, 2010, 27(3): 31?34, 84.

[6] 吳香華, 牛生杰, 吳誠鷗, 等. 馬氏距離聚類分析中協(xié)方差矩陣估算的改進(jìn)[J]. 數(shù)理統(tǒng)計與管理, 2011, 30(2): 240?245. WU Xianghua, NIU Shengjie, WU Chengou, et al. An improvement on estimating covariance matrix during cluster analysis using Mahalanobis distance[J]. Journal of Applied Statistics and Management, 2011, 30(2): 240? 245.

[7] Kumar S, Chow T W S, Pecht M. Approach to fault identification for electronic products using Mahalanobis distance[J]. IEEE Transactions on Instrumentation and Measurement, 2010, 59(8): 2055?2064.

[8] De Maesschalck R, Jouanrimbaud D, Massart D. The Mahalanobis distance[J]. Chemom Intell Lab Syst, 2000, 50(1): 1–18.

[9] 岳朝龍, 黃永興, 嚴(yán)忠. SAS系統(tǒng)與經(jīng)濟(jì)統(tǒng)計分析[M].合肥: 中國科學(xué)技術(shù)大學(xué)出版社, 2003: 413?446. YUE Chaolong, HUANG Yongxing, YAN Zhong. SAS system and economic statistical analysis[M]. Hefei: University of Science and Technology of China Press, 2003: 413?446.

[10] 韓涵, 王厚軍, 龍兵, 等. 基于改進(jìn)馬氏距離的模擬電路故障診斷方法[J]. 控制與決策, 2013, 28(11): 1713?1717, 1722. HAN Han, WANG Houjun, LONG Bing, et al. Method for analog circuit fault diagnosis based on improved Mahalanobis distance[J]. Control and Decision, 2013, 28(11): 1713?1717, 1722.

[11] Patil Nishad, Das Diganta, Pecht Michael. Anomaly detection for IGBTs using Mahalanobis distance[J]. Microelectronics Reliability, 2015, 55(7): 1054?1059.

[12] Penny Kay I. Appropriate critical values when testing for a single multivariate outlier by using the Mahalanobis distance[J].Journal of the Royal Statistical Society, Series C: Applied Statistics, 1996, 45(1): 73.

[13] Jaffel I, Taouali O, Faouzi Harkat M, et al. A fault detection index using principal component analysis and Mahalanobis distance[J]. IFAC-Papers on Line, 2015, 48(21): 1397?1401.

[14] Mahalanobis Prasanta Chandra. On the generalised distance in statistics[J]. Proceedings of the National Institute of Sciences of India, 1936, 2(1): 49–55.

[15] Gnanadesikan R, Kettenring J R. Robust estimates, residuals, and outlier detection with multiresponse data[J]. Biometrics, 1972, 28(1): 81?124.

[16] 交通部公路工程定額站. 公路工程定額的編制與管理[M]. 北京: 人民交通出版社, 2001. Ministry of Transportation Highway Engineering Quota Station. Construction and management of highway engineering quota[M]. Beijing: People’s Transportation Press, 2001.

[17] 陳歡, 黃德才. 基于廣義馬氏距離的缺損數(shù)據(jù)補(bǔ)值算法[J]. 計算機(jī)科學(xué), 2011, 38(5): 149?153. CHEN Huan, HUANG Decai. Missing data imputation based on generalized Mahalanobis distance[J]. Computer Science, 2011, 38(5): 149?153.

[18] 曹慧榮, 張寶雷. 協(xié)方差陣奇異時馬氏距離的一種改進(jìn)[J]. 數(shù)學(xué)的實踐與認(rèn)識, 2015, 45(1): 226?230. CAO Huirong, ZHANG Baolei. An improvement definition of Mahalanobis distance with singular covariance matrix[J]. Mathematics in Practice and Theory, 2015, 45(1): 226?230.

[19] 王斌會, 陳一非. 基于穩(wěn)健馬氏距離的多元異常值檢測[J]. 統(tǒng)計與決策, 2005(6): 4?6. WANG Binhui, CHEN Yifei. Multivariate anomaly detection based on robust Mahalanobis distance[J]. Statistics & Decision, 2005(6): 4?6.

[20] 陳永良, 路來君, 李學(xué)斌. 多元地球化學(xué)異常識別的核馬氏距離方法[J]. 吉林大學(xué)學(xué)報(地球科學(xué)版), 2014, 44(1): 396?408. CHEN Yongliang, LU Laijun, LI Xuebin. Kernel mahalanobis distance for Multivariate geochemical anomaly recognition[J]. Journal of Jilin University (Earth Science Edition), 2014, 44(1): 396?408.

(編輯 蔣學(xué)東)

The data processing method based on Mahalanobis distance and its application in highway reconstruction engineering quota

YUAN Jianbo1, 2, MAO Hongri1

(1. School of Traffic and Transportation Engineering, Changsha University of Science & Technology, Changsha 410004, China; 2. Chengnan College, Changsha University of Science & Technology, Changsha 410076, China)

The abnormal data detection model of multivariate and unit is established by applying the Mahalanobis distance, chi-square distribution and F-distribution to the data processing in the establishment of quota for highway reconstruction engineering. The model is applied to the establishment of quota for highway reconstruction engineering, which reduces the abnormality of measured data caused by interference factors, improves the accuracy of quota establishment, and ensures the scientificity of data processing.

reconstruction project; Mahalanobis distance; Chi-square distribution;distribution; abnormal data

10.19713/j.cnki.43?1423/u.2018.10.035

U415.13

A

1672 ? 7029(2018)10 ? 2715 ? 06

2017?08?27

國家自然科學(xué)基金資助項目(51578080)

袁劍波(1964?),男,湖南益陽人,教授,博士,從事工程經(jīng)濟(jì)、項目管理研究;E?mail:yuanjb01@163.com

猜你喜歡
馬氏數(shù)組原始數(shù)據(jù)
JAVA稀疏矩陣算法
受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
JAVA玩轉(zhuǎn)數(shù)學(xué)之二維數(shù)組排序
更高效用好 Excel的數(shù)組公式
《封神演義》中馬氏形象的另類解讀
全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術(shù)實現(xiàn)5 級自動駕駛
抱琴
尋找勾股數(shù)組的歷程
基于馬氏距離的艦船裝備修理價格組合預(yù)測
新床的聲音