郭建鋒,趙 俊
1.信息工程大學(xué)理學(xué)院,河南鄭州450001;2.中國科學(xué)院測量與地球物理研究所,湖北武漢430077
為保證測量成果達(dá)到設(shè)計(jì)要求,在完成實(shí)測任務(wù)后,必須進(jìn)行測量數(shù)據(jù)的質(zhì)量分析。大量研究表明,粗差僅僅占到觀測量總數(shù)的1%至10%左右。粗差的存在往往對(duì)最小二乘(least-squares,LS)估計(jì)造成不良的影響,即LS估計(jì)的抗差性(robustness,又譯為穩(wěn)健性)非常差[1-12]。
對(duì)于工程技術(shù)與應(yīng)用領(lǐng)域而言[2],抗差性可以理解為統(tǒng)計(jì)推斷中的敏感度分析理論(或者稱為擾動(dòng)分析、穩(wěn)定性分析理論)。換言之,抗差性,即估計(jì)量抵御粗差影響的能力,表現(xiàn)為平差結(jié)果對(duì)觀測異常的敏感程度[5]。擬合優(yōu)度檢驗(yàn)[5-7]是檢驗(yàn)平差成果的一項(xiàng)重要指標(biāo)。因此,通過對(duì)擬合優(yōu)度檢驗(yàn)量進(jìn)行敏感度分析構(gòu)造探測與識(shí)別觀測異常的統(tǒng)計(jì)量,具有顯著的物理意義。
在粗差探測法中,假定隨機(jī)模型能夠客觀反映觀測量之間的(相對(duì))精度及統(tǒng)計(jì)相關(guān)性,把粗差問題歸結(jié)為函數(shù)模型與實(shí)際模型的偏離。如果擬合優(yōu)度檢驗(yàn)結(jié)果不顯著,說明在一定顯著性水平上,平差成果達(dá)到了要求,可以采納;否則就表明當(dāng)前的函數(shù)模型不能準(zhǔn)確描述觀測量之間或觀測量與未知參數(shù)之間的物理或者幾何關(guān)系[6,13]。需要指出的是,擬合優(yōu)度檢驗(yàn)雖然能夠檢驗(yàn)出粗差的存在與否,但卻不能探測和準(zhǔn)確定位有幾個(gè)觀測量以及具體是哪幾個(gè)觀測量受到了多大量級(jí)的粗差污染[13,15]。
在粗差的探測與識(shí)別中,通常采用正態(tài)檢驗(yàn)、學(xué)生氏t檢驗(yàn)以及τ檢驗(yàn)等,而構(gòu)造相應(yīng)的統(tǒng)計(jì)檢驗(yàn)量既可基于局部敏感度指標(biāo),亦可基于LS殘差。本文對(duì)實(shí)施粗差探測與識(shí)別的統(tǒng)計(jì)檢驗(yàn)量進(jìn)行了比較分析,得到如下結(jié)論:① 相關(guān)觀測情形,局部敏感度指標(biāo)比LS殘差的檢驗(yàn)功效大,若單位權(quán)中誤差精確已知,宜采用基于標(biāo)準(zhǔn)化局部敏感度指標(biāo)的正態(tài)檢驗(yàn);② 單位權(quán)中誤差未知時(shí),τ檢驗(yàn)理論本身存在固有缺陷,而學(xué)生氏t檢驗(yàn)或?qū)⒃斐伞凹{偽”錯(cuò)誤的增加,較為穩(wěn)妥的方案是仍然采用正態(tài)檢驗(yàn),但將標(biāo)準(zhǔn)化局部敏感度指標(biāo)中的單位權(quán)中誤差以其抗差LMS(least median of squares)估計(jì)代替。
考慮如下線性Gauss-Markov模型[5-7]
式中,A為n×u(n-u>1)列滿秩設(shè)計(jì)陣;X為u×1未知參數(shù)向量;L為n×1觀測向量;e為相應(yīng)的誤差(噪聲)向量,其方差-協(xié)方差陣為這里對(duì)稱正定陣P為觀測量的先驗(yàn)權(quán)陣,而通常稱為單位權(quán)方差因子。
基于LS原理,可得到模型(1)中未知參數(shù)的LS估計(jì)為[5-7]
相應(yīng)的殘差向量為
式中,R=I-A(ATPA)-1ATP以矩陣形式反映平差結(jié)構(gòu),是質(zhì)量的全面度量,稱為平差因子陣[12]。
容易驗(yàn)證平差因子陣R冪等,并具以下有用性質(zhì)
基于此,LS殘差的加權(quán)平方和Ω=VTPV亦可表示為[13-16]
將LS殘差的加權(quán)平方和對(duì)第i個(gè)觀測量li進(jìn)行微分,得到[13-14]
式中,hi表示第i個(gè)分量為1,其余分量皆為0的n維單位向量。
顯然,?Ω/?li衡量的是Ω對(duì)第i個(gè)觀測值的擾動(dòng)的敏感程度。注意到
因此統(tǒng)計(jì)量
可用于檢驗(yàn)Ω對(duì)第i個(gè)觀測量的擾動(dòng)是否“敏感”。
根據(jù)已知數(shù)據(jù)可以計(jì)算出w統(tǒng)計(jì)檢驗(yàn)量的取值,其絕對(duì)值越大,表明Ω對(duì)第i個(gè)觀測量的擾動(dòng)越“敏感”,故而li受到粗差污染的可能性就越大。因此,稱為第i個(gè)觀測量的標(biāo)準(zhǔn)化局部敏感度指標(biāo)[13-14]。
應(yīng)該指出的是,這里的wi即為可靠性理論中Baarda[17]導(dǎo)出的w統(tǒng)計(jì)檢驗(yàn)量。
通過對(duì)局部敏感度指標(biāo)進(jìn)行標(biāo)準(zhǔn)化,可以有效消除量綱的影響,這對(duì)于多源數(shù)據(jù)融合的質(zhì)量控制問題意義尤為重要。然而,得到標(biāo)準(zhǔn)化局部敏感度指標(biāo)的前提是先驗(yàn)單位權(quán)中誤差精確已知,否則就無法利用w統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn)。
在測量實(shí)踐中,先驗(yàn)單位權(quán)中誤差往往未知[5-7,12]。為此,本文提出如下服從自由度為nu-1的學(xué)生氏分布的統(tǒng)計(jì)檢驗(yàn)量
當(dāng)存在多個(gè)粗差時(shí),LS殘差的加權(quán)平方和Ω往往偏大。由定義不難知道,這或?qū)?dǎo)致外部學(xué)生化局部敏感度指標(biāo)普遍偏小,進(jìn)而造成“納偽”錯(cuò)誤的增加。因此,基于外部學(xué)生化局部敏感度指標(biāo)探測和識(shí)別粗差潛在一定的風(fēng)險(xiǎn)。
單位權(quán)中誤差未知時(shí),還可通過構(gòu)造統(tǒng)計(jì)量進(jìn)行粗差的探測與識(shí)別,這里為平差模型式(1)中的驗(yàn)后單位權(quán)方差因子。稱為內(nèi)部學(xué)生化局部敏感度指標(biāo)。
統(tǒng)計(jì)量式(10)亦可表達(dá)為服從學(xué)生氏分布的統(tǒng)計(jì)量ti的函數(shù),即
Thompson將統(tǒng)計(jì)量τi服從的分布稱為自由度為n-u的τ分布[18]。在測量質(zhì)量控制中,τ檢驗(yàn)是應(yīng)用最為廣泛的統(tǒng)計(jì)量之一[5,18-24]。
Beta分布的一個(gè)顯著特點(diǎn)是其僅僅在單位區(qū)間(0,1)內(nèi)取值[5],于是得到
注意到關(guān)系式
有
式(15)表明,服從τ分布的統(tǒng)計(jì)量之絕對(duì)值存在上界,而且該上界僅取決于該統(tǒng)計(jì)量的自由度。
在經(jīng)典測量平差中僅涉及獨(dú)立等權(quán)觀測數(shù)據(jù),這種情況下,線性最小二乘平差理論中最基本的關(guān)系式ATPV=O退化為
因此,在傳統(tǒng)的粗差探測與識(shí)別中,均以殘差作為對(duì)象研究問題。
若先驗(yàn)單位權(quán)中誤差精確已知,可構(gòu)造如下稱為標(biāo)準(zhǔn)化殘差的統(tǒng)計(jì)量[17]
探測和識(shí)別粗差。
及
式中,ri表平差因子陣R的第i個(gè)對(duì)角元。
依據(jù)Cauchy-Schwarz不等式,有
由此得到
一個(gè)統(tǒng)計(jì)檢驗(yàn)量的檢驗(yàn)功效是顯著性水平和非中心化參數(shù)的單調(diào)增函數(shù)[25],因此統(tǒng)計(jì)量wi比標(biāo)準(zhǔn)化殘差的檢驗(yàn)功效要大,或者等價(jià)的,比統(tǒng)計(jì)量的檢驗(yàn)功效要大。
事實(shí)上,統(tǒng)計(jì)量Ti為一致最大檢驗(yàn)功效統(tǒng)計(jì)量[24]。也就是,在給定的顯著性水平上,利用Ti(或wi)進(jìn)行假設(shè)檢驗(yàn)犯“納偽”錯(cuò)誤的概率比使用任何其他的統(tǒng)計(jì)量都要小。
相反,若事先指定顯著性水平和檢驗(yàn)功效,統(tǒng)計(jì)量所對(duì)應(yīng)的非中心化參數(shù)將唯一確定,由式(21)立即可知:一致最大檢驗(yàn)功效統(tǒng)計(jì)量Ti(或wi)對(duì)應(yīng)的最小可探測粗差指標(biāo)[16-17,25]不會(huì)超過統(tǒng)計(jì)量(或標(biāo)準(zhǔn)化殘差),換言之,一致最大檢驗(yàn)功效統(tǒng)計(jì)量Ti(或wi)較統(tǒng)計(jì)量(或)對(duì)粗差更敏感。
由于相關(guān)觀測情形下統(tǒng)計(jì)量wi比標(biāo)準(zhǔn)化殘差的檢驗(yàn)功效要大,而在獨(dú)立觀測情形二者則完全一致,因此建議采用統(tǒng)計(jì)檢驗(yàn)量wi進(jìn)行粗差的探測和識(shí)別。
先驗(yàn)單位權(quán)中誤差未知時(shí),可構(gòu)造如下統(tǒng)計(jì)檢驗(yàn)量
這稱為外部學(xué)生化殘差[4]。
根據(jù)關(guān)系式RP-1=RP-1RT,容易驗(yàn)證矩陣
為冪等陣,注意到
綜合上款,二次型
服從自由度為n-u-1的χ2分布[5]。
由于
依據(jù)正態(tài)隨機(jī)向量的線性組合與其二次型相互獨(dú)立的判定定理[5]可知,標(biāo)準(zhǔn)化殘差與相互統(tǒng)計(jì)獨(dú)立,因而,外部學(xué)生化殘差服從自由度為n-u-1的學(xué)生氏分布。
與外部學(xué)生化局部敏感度指標(biāo)類似,當(dāng)存在多個(gè)粗差時(shí),統(tǒng)計(jì)量或潛在一定的風(fēng)險(xiǎn)。
若單位權(quán)中誤差未知,還可構(gòu)造如下稱之為內(nèi)部學(xué)生化殘差的統(tǒng)計(jì)量[26]
進(jìn)行粗差的探測與識(shí)別。
由于
根據(jù)正態(tài)隨機(jī)向量的兩個(gè)二次型相互獨(dú)立的判定定理[5]與相互統(tǒng)計(jì)獨(dú)立。因此,統(tǒng)計(jì)量
服從自由度分別為1/2、(n-u-1)/2的Beta分布。進(jìn)而,內(nèi)部學(xué)生化殘差統(tǒng)計(jì)量~τi服從自由度為n-u的τ分布[18]。
及
于是,當(dāng)擾動(dòng)量δi趨于無窮大時(shí),第i個(gè)內(nèi)部學(xué)生化殘差的絕對(duì)值之極限為
這個(gè)結(jié)果由Baselga[20]給出。
若顧及不等式(20),還可以進(jìn)一步求出上述極限值的上界
式(29)再次驗(yàn)證了這樣一個(gè)事實(shí),即τ檢驗(yàn)理論本身確乎存在缺陷。因而,使用τ統(tǒng)計(jì)量探測和識(shí)別粗差存在一定風(fēng)險(xiǎn)。
(1)若單位權(quán)中誤差精確已知,可采用正態(tài)檢驗(yàn)。w統(tǒng)計(jì)量反映的是χ2擬合優(yōu)度檢驗(yàn)量對(duì)觀測值擾動(dòng)的敏感程度,因而具有明確的物理意義;作為一致最大檢驗(yàn)功效統(tǒng)計(jì)量,對(duì)于給定的顯著性水平和檢驗(yàn)功效,Ti=(或wi)能夠探測出量級(jí)最小的粗差。
因此,進(jìn)行正態(tài)檢驗(yàn)時(shí),w統(tǒng)計(jì)量為首選,標(biāo)準(zhǔn)化殘差次之。
(2)若σ未知,可采用τ檢驗(yàn)或t檢驗(yàn)。τ檢驗(yàn)理論本身固有缺陷;而存在多個(gè)粗差時(shí),t檢驗(yàn)或?qū)⒃斐伞凹{偽”錯(cuò)誤的增加,亦存在一定的風(fēng)險(xiǎn)。
從檢驗(yàn)功效的角度考慮,無論進(jìn)行τ檢驗(yàn)抑或t檢驗(yàn),均建議采用基于局部敏感度指標(biāo)的檢驗(yàn)量。
(3)Robust正態(tài)檢驗(yàn)。由于τ檢驗(yàn)和t檢驗(yàn)均存在一定缺陷,因此尚需對(duì)單位權(quán)方差因子未知時(shí)的粗差探測與識(shí)別作進(jìn)一步的討論。
一種較為穩(wěn)妥的解決方案是,采用具有明確物理意義的w統(tǒng)計(jì)量,而統(tǒng)計(jì)量中的未知參數(shù)σ則以其抗差LMS估計(jì)代替之[1-3,12-15]。即以
代替統(tǒng)計(jì)量wi中的先驗(yàn)單位權(quán)中誤差σ。
將基于修正的w統(tǒng)計(jì)量的檢驗(yàn)稱為Robust正態(tài)檢驗(yàn)。從數(shù)學(xué)上說,修正的w統(tǒng)計(jì)量并不嚴(yán)格服從正態(tài)分布。然而經(jīng)驗(yàn)表明,該統(tǒng)計(jì)量具有較強(qiáng)的抗差性,當(dāng)冗余觀測較多時(shí)尤為如此[1-3,12-15]。
[1] HUBER P J,RONCHETTI E M.Robust Statistics[M].2nd ed.New York:Wiley,2009.
[2] HAMPEL F R,RONCHETTI E M,ROUSSEEUW P J,et al.Robust Statistics:The Approach Based on Influence Functions[M].New York:Wiley,1986.
[3] ROUSSEEUW P J,LEROY A M.Robust Regression and Outlier Detection[M].New York:Wiley,1987.
[4] CHATTERJEE S,HADI A S.Sensitivity Analysis in Linear Regression[M].New York:Wiley,1988.
[5] KOCH K R.Parameter Estimation and Hypothesis Testing in Linear Models[M].2nd ed.Berlin:Springer-Verlag,1999.
[6] LEICK A.GPS Satellite Surveying[M].3rd ed.New York:Wiley,2004.
[7] WOLF P R,GHILANI C D.Adjustment Computations:Statistics and Least Squares in Surveying and GIS[M].3rd ed.New York:Wiley,1997.
[8] ZHOU Jiangwen.Classical Theory of Errors and Robust Estimation[J].Acta Geodaetica et Cartograghica Sinica,1989,18(2):115-120.(周江文.經(jīng)典誤差理論與抗差估計(jì)[J].測繪學(xué)報(bào),1989,18(2):115-120.)
[9] OU Jikun.Quasi-accurate Detection of Gross Errors(QUAD)[J].Acta Geodaetica et Cartograghica Sinica,1999,28(1):15-20.(歐吉坤.粗差的擬準(zhǔn)檢定法(QUAD法)[J].測繪學(xué)報(bào),1999,28(1):15-20.)
[10] SONG Lijie,YANG Yuanxi.Comparison between Data Snooping and LEGE[J].Acta Geodaetica et Cartograghica Sinica,1999,28(4):295-300.(宋力杰,楊元喜.均值漂移模型粗差探測法與LEGE法的比較[J].測繪學(xué)報(bào),1999,28(4):295-300.)
[11] LI Xinna,GUI Qingming,XU Apei.Besian Method for Detection of Gross Errors Based on Classification Variables[J].Acta Geodaetica et Cartograghica Sinica,2008,37(3):355-360.(李新娜,歸慶明,許阿裴.基于識(shí)別變量的粗差探測的Bayes方法[J].測繪學(xué)報(bào),2008,37(3):355-360.)
[12] ZHOU Jiangwen,HUANG Youcai,YANG Yuanxi,et al.Robust Least Squares Method[M].Wuhan:Huazhong University of Science and Technology Press,1997.(周江文,黃幼才,楊元喜,等.抗差最小二乘法[M].武漢:華中理工大學(xué)出版社,1997.)
[13] GUO Jianfeng.Theory of Model Errors and its Applications in GPS Data Processing[D].Wuhan:Institute of Geodesy and Geophysics of Chinese Academy of Sciences,2007.(郭建鋒.模型誤差理論若干問題研究及其在GPS數(shù)據(jù)處理中的應(yīng)用[D].武漢:中科院測量與地球物理研究所,2007.)
[14] GUO J F,OU J K,WANG H T.Quasi-accurate Detec-tion of Outliers for Correlated Observations[J].Journal of Surveying Engineering,2007,133(3):129-133.
[15] GUO J K,OU J K,WANG H T.Robust Estimation for Correlated Observations:Two Local Sensitivity-based Downweighting Strategies[J].Journal of Geodesy,2010,84(4):243-250.
[16] GUO J K,OU J K.Variation Characteristics of MDBs in Robust Estimation[J].AllgVerm-Nachr,2010,117(2):49-52.
[17] BAARDA W.A Testing Procedure for Use in Geodetic Networks[J].Netherlands Geod Comm Publ on Geod,1968,2(5):1-97.
[18] POPE A J.The Statistics of Residuals and the Detection of Outliers[R].Rockville:NOAA Technical Report,Nos 65,NGS 1,1976.
[19] KOK J J.On Data Snooping and Multiple Outlier Testing[R].Rockville:NOAA Technical Report,Nos NGS 30,1984.
[20] BASELGA S.Critical Limitation in Use ofτTest for Gross Error Detection[J].Journal of Geodesy,2007,133(2):52-55.
[21] CROSS P A,PRICE D R.A Strategy for the Distinction between Single and Multiple Gross Errors in Geodetic Networks[J].Manuscr Geod,1985,10(3):172-178.
[22] DING X,COLEMAN R.Multiple Outlier Detection by Evaluating Redundancy Contributions of Observations[J].Journal of Geodesy,1996,70(8):489-498.
[23] SNOW K B,SCHAFFRIN B.Three-dimensional Outlier Detection for GPS Networks and Their Densification via the BLIMPBE Approach[J].GPS Solutions,2003,7(2):130-139.
[24] KARGOLL B.On the Theory and Application of Model Misspecification Tests in Geodesy[D].Bonn:University of Bonn,2007.
[25] TEUNISSEN P J G.Quality Control in Integrated Navigation Systems[C]∥Proceedings of the IEEE PLANS90,Nevada:IEEE,1990:158-165.
[26] COOK R D.Detection of Influential Observations in Linear Regression[J].Technometrics,1977,19(1):15-18.