侍建國,張亦飛
(1.天津市水文水資源勘測管理中心,天津300061;2.天津市水務工程建設(shè)交易管理中心,天津300204)
拉依達準則在處理區(qū)域水文數(shù)據(jù)異常值中的應用
侍建國1,張亦飛2
(1.天津市水文水資源勘測管理中心,天津300061;2.天津市水務工程建設(shè)交易管理中心,天津300204)
區(qū)域水文數(shù)據(jù)具有時間系列長和數(shù)據(jù)量大的特點,以天津市寶坻區(qū)地下水監(jiān)測井埋深觀測數(shù)據(jù)為例,利用Excel繪制地下水埋深動態(tài)曲線,分析埋深異常值的原因,通過拉依達準則(3σ準則)法剔除異常值,為區(qū)域水資源的合理開發(fā)利用提供科學的參考依據(jù)。
拉依達準則;異常值;地下水埋深;水文監(jiān)測
水文數(shù)據(jù)是水資源調(diào)查評價和水資源環(huán)境問題研究的基礎(chǔ),也是水資源管理工作的基礎(chǔ)。研究區(qū)域水資源動態(tài)變化特征及趨勢,對揭示各種環(huán)境因素對水資源的影響及合理開發(fā)利用水資源至關(guān)重要,對制定區(qū)域水資源開發(fā)利用規(guī)劃具有重要的意義。在區(qū)域水資源綜合研究中常常需要長序列的水文觀測數(shù)據(jù)作為數(shù)據(jù)支撐,在分析處理觀測數(shù)據(jù)時往往遇到較多明顯異常變化數(shù)據(jù),對于較早年代的水文異常觀測數(shù)據(jù),由于歷史原因難以辨別真假,將會直接影響水文觀測數(shù)據(jù)的準確性。如果不剔除異常水文觀測數(shù)據(jù)就進行水資源分析研究,結(jié)果的準確性將缺乏可靠的數(shù)據(jù)支撐,因此判斷和剔除水文觀測數(shù)據(jù)異常值非常重要。
數(shù)據(jù)是對自然、社會現(xiàn)象的觀察結(jié)果的定量記錄,是科學研究的基礎(chǔ)與支撐,其準確性直接影響以此為基礎(chǔ)研究結(jié)果的正確性。水文數(shù)據(jù)通常指水文的實測資料,即通過水文測驗所收集的各種水文要素的原始記錄。對于水文數(shù)據(jù)的處理,關(guān)注的重點往往是水文數(shù)據(jù)的異常值問題。水文數(shù)據(jù)異常值產(chǎn)生的原因一般有3個方面:一是水文監(jiān)測設(shè)備原因,當水文監(jiān)測設(shè)備在運行過程中有元件損壞,監(jiān)測結(jié)果將出現(xiàn)異常值;二是人為原因,在水文監(jiān)測過程中由于人為操作失誤等產(chǎn)生異常值;三是水文監(jiān)測環(huán)境原因,如在地下水水位監(jiān)測過程中,由于采用生產(chǎn)井觀測地下水水位,監(jiān)測的水位數(shù)據(jù)往往出現(xiàn)異常值。水文數(shù)據(jù)異常值一般明顯偏離它所屬樣本的其余觀測值,極大地降低了水文觀測數(shù)據(jù)的準確性,因此在進行水文觀測數(shù)據(jù)分析研究時,首先需要進行異常值的識別和剔除。
以天津市寶坻區(qū)3眼地下水埋深觀測井觀測為例[1],識別水位埋深觀測數(shù)據(jù)中的異常值。將寶坻區(qū)相鄰的地下水水位觀測井bd62(太平莊)、bd77(區(qū)井隊)、bd78(鹽業(yè)公司)觀測的序列埋深數(shù)值繪制出埋深過程線,數(shù)據(jù)時段從1995年1月1日到1999年12月31日,監(jiān)測頻率為5 d/次,每眼監(jiān)測井有360個監(jiān)測數(shù)據(jù),異常值分別出現(xiàn)在bd62(1998年12月11日)和bd78(1997年5月1日和1999年9月21日),如圖1所示。
圖1 寶坻區(qū)3眼地下水水位觀測井的埋深及異常值動態(tài)過程線
水文數(shù)據(jù)異常值的剔除一般采用物理判別法,對于多次重復觀測的數(shù)值一般采用拉依達準則(3σ準則)法[2]、格拉布斯(Grubbs)準則法和狄克遜(Dixon)準則法等方法進行異常值的剔除。對比其他方法,拉依達準則法具有操作簡單、使用方便等特點,尤其觀測次數(shù)較多時更方便,當觀測次數(shù)小于或等于10時拉依達準則法則失效。
區(qū)域水文觀測數(shù)據(jù)一般延續(xù)時間較長,后期還需長期觀測,積累的數(shù)據(jù)量尤為龐大,通常采用拉依達準則法來進行水文數(shù)據(jù)的后期處理和分析。
拉依達準則法一般假定數(shù)據(jù)具有正態(tài)分布,則基本分布的均值和標準差可以通過計算數(shù)據(jù)的均值和標準差來估計,然后可以估計每個對象在該分布下的概率。正態(tài)分布概率,如圖2所示。
圖2 正態(tài)分布概率
由圖2可以看出,數(shù)值分布在(μ-σ,μ+σ)中的概率為0.682 6,數(shù)值分布在(μ-2σ,μ+2σ)中的概率為0.9544,數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974。由此可以認為,Y的取值幾乎全部集中在(μ-3σ,μ+3σ)區(qū)間內(nèi),超出這個范圍的可能性僅占不到0.3%。根據(jù)拉依達準則法,處于(μ-3σ,μ+3σ)區(qū)間內(nèi)的區(qū)域水文觀測數(shù)據(jù)可以視為正常值,反之為異常值。
以天津市寶坻區(qū)地下水埋深觀測值為例,3眼觀測井太平莊監(jiān)測井bd62、區(qū)井隊監(jiān)測井bd77和鹽業(yè)公司監(jiān)測井bd78觀測數(shù)據(jù)經(jīng)拉依達準則法剔除異常值后所繪制的地下水位埋深過程線,如圖3所示。對比圖1,可以看出其平均線的動態(tài)趨勢更為平緩和合理,由此可見埋深異常值對平均值的影響較大。
圖3 寶坻區(qū)3眼地下水水位觀測井的埋深異常值剔除后的動態(tài)過程線
在Excel中分別定義工作表Data、Calculation、Main。其中,Data為原始數(shù)據(jù),Calculation為數(shù)據(jù)處理過程,Main為最終成果顯示。
(1)在工作表Data中,定義時間變量Time、數(shù)據(jù)變量Data,并輸入原始數(shù)據(jù)。
(2)在工作表Calculation中分別計算數(shù)據(jù)個數(shù)COUNT(Data)、最大值MAX(Data)、最小值MIN(Data)、平均值A(chǔ)VERAGE(Data)、標準偏差STDEV(Data),并以此為基礎(chǔ)計算出成圖數(shù)據(jù)。其中,分組刻度:B2=AVERAGE(A:A)-340*(MAX(A:A)-MIN(A:A))/650,B3~B21=B2+(MAX(A:A)-MIN(A:A))/ROUNDUP(SQRT(COUNT(A:A)),0);頻率C2~C21{=FREQUENCY(A:A,B2:B22)};正態(tài)分布數(shù)據(jù)D2=NORM.DIST(B2,AVERAGE(A:A),STDEV(A:A),0);異常值E1=IF(A1="","",IF(ABS(A1-AVERAGE(A:A))>3*STDEVP(A:A),"",A1))。
(3)在工作表Main里顯示最終處理成果。以寶坻區(qū)太平莊監(jiān)測井bd62從1995年1月1日到1999年12月31日的觀測數(shù)據(jù)為基礎(chǔ),在Excel里經(jīng)過上述步驟處理,最終處理結(jié)果對比分析見表1。
從表1右側(cè)圖可以看出,bd62地下水埋深觀測數(shù)據(jù)呈正態(tài)分布;bd62地下水埋深過程線(原始數(shù)據(jù))異常值產(chǎn)生的時間節(jié)點數(shù)據(jù)起伏較大,如1998年12月11日觀測數(shù)據(jù),影響了序列數(shù)據(jù)的整體動態(tài)變化趨勢;bd62地下水埋深過程線(處理數(shù)據(jù))為剔除異常值后的數(shù)據(jù)所生成的過程線,其動態(tài)變化趨勢更加合理和準確。
(1)區(qū)域水文觀測數(shù)據(jù)具有時間序列長、數(shù)據(jù)量大的特點,其準確與否直接影響到區(qū)域水資源的管理和開發(fā)利用,對長序列水文觀測數(shù)據(jù)進行分析處理顯得尤為重要。
(2)拉依達準則法具有操作簡單、使用方便等特點,當觀測次數(shù)小于或等于10時拉依達準則法則失效,當積累的水文觀測數(shù)據(jù)量十分龐大時采用該方法處理水文觀測數(shù)據(jù)中的異常值十分便捷。
(3)在Excel基礎(chǔ)上,以天津市寶坻區(qū)太平莊監(jiān)測井觀測數(shù)據(jù)為實例,分析研究了用拉依達準則法處理水文數(shù)據(jù)異常值的詳細過程,對處理過程中的變量進行了編程處理,為區(qū)域水文觀測數(shù)據(jù)異常值的處理提供了科學的參考依據(jù)。
表1 太平莊監(jiān)測井觀測數(shù)據(jù)異常值處理前后的對比分析
[1]張偉,侍建國.天津市地下水動態(tài)序列分析及預測[R].天津:天津市水文水資源勘測管理中心,2007:38-45.
[2]何少華.試驗設(shè)計與數(shù)據(jù)處理[M].長沙:國防科技大學出版社,2002.
TV12;P333.9
B
1004-7328(2016)05-0049-03
10.3969/j.issn.1004-7328.2016.05.017
2016—06—12
侍建國(1977—),男,工程師,主要從事水文信息化研究工作。