異常值對(duì)非參數(shù)bootstrap法估計(jì)的影響分析

2015-01-03 07:31:04常振海

統(tǒng)計(jì)與決策 2015年12期

劉薇，常振海

(天水師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，甘肅天水 741001)

0 引言

若記 X=(X1，X2，…，Xn)為來(lái)自總體 F的樣本,要估計(jì)的統(tǒng)計(jì)泛函為Tn=g(X),那么非參數(shù)bootstrap法[1]的思想可以描述為

因?yàn)閎ootstrap方法給每個(gè)樣本點(diǎn)以同樣的概率(均為1/n),因此,在樣本中混入異常值時(shí),其估計(jì)的效果如何并未見(jiàn)在文獻(xiàn)中專門討論過(guò),本文討論了這個(gè)問(wèn)題。

1 方法步驟

為了能較好地進(jìn)行分析,我們?cè)O(shè)計(jì)了如下的方法步驟,因?yàn)橹饕谛颖鞠逻M(jìn)行探討,所以文中固定樣本容量n=20,總體分布為N(1.4，12)。

(1)產(chǎn)生容量為20的服從N(1.4，12)的樣本,其一個(gè)樣本的均值為=1.5161,標(biāo)準(zhǔn)差為σ=0.8774,這個(gè)均值將作為非參數(shù)bootstrap法的總體。

(2)生成含有單側(cè)異常值的樣本。

方法是產(chǎn)生容量為50的服從N(-5，12)的樣本,去掉前后各20個(gè)值,保留中間的10個(gè)值,作為異常小值,用于逐個(gè)替換步驟(1)中的樣本,得到5%、10%、20%、40%、50%等比例下的含有單側(cè)異常小值情形的樣本。

下面解釋下為什么N(-5，12)的樣本可以作為異常值。在正態(tài)分布中,由3σ 原則知,落于| x-μ |≤3σ 之外的x可能性僅有0.27%,我們產(chǎn)生一次樣本,由實(shí)際推斷原理,出現(xiàn)這樣的x一般不可能,將被看做異常值。假設(shè)方差不變,從圖1中能直觀看出,這里產(chǎn)生的異常值是合理的。

從圖1能看出,在方差相同(σ=1)情形下,μ1≤μ-6σ=1.4-6×1=-4.6 時(shí),以分布 N(μ1，12)產(chǎn)生的點(diǎn)對(duì)分布N(1.4，12)的樣本點(diǎn)來(lái)說(shuō)是異常小值,所以本文中以N(-5，12)來(lái)產(chǎn)生異常小值是合理的。同理,以N(8，12)產(chǎn)生的點(diǎn)對(duì)分布N(1.4，12)的樣本點(diǎn)來(lái)說(shuō)是異常大值也是合理的。

(3)生成含有雙側(cè)異常值的樣本。

方法是同時(shí)將步驟(2)中產(chǎn)生的異常小值和異常大值替換步驟(1)中的樣本點(diǎn),則得到10%、20%、40%、50%下的含有雙側(cè)異常值的樣本。因?yàn)闃O小極大異常值各最少一個(gè),故這種情形下含異常值比例最小為2/20=10%。

(4)在單側(cè)和雙側(cè)異常值兩種情形下,分別計(jì)算總體均值的非參數(shù)bootstrap法點(diǎn)估計(jì)、分布形態(tài)、區(qū)間估計(jì)等。

(5)在相應(yīng)的評(píng)判標(biāo)準(zhǔn)下,進(jìn)行比較分析。

2 模擬分析

序列中混入異常值一般有三種情形：混入異常小值、混入異常大值和同時(shí)混入異常小值和異常大值。鑒于單側(cè)異常小值和單側(cè)異常大值的類似性,下面僅從混入異常小值，同時(shí)混入異常小值和異常大值兩個(gè)方面進(jìn)行討論。

賽事組織者與傳播者之間的博弈與第一個(gè)博弈的結(jié)果密切相關(guān)：賽事組織者希望通過(guò)集中行使體育賽事轉(zhuǎn)播權(quán)以提高自己的議價(jià)權(quán)，而傳播者則希望存在多個(gè)議價(jià)對(duì)象，以便降低自己的傳播成本。這一博弈主要引發(fā)了前文所提到的壟斷問(wèn)題：由賽事組織者統(tǒng)一行使體育賽事轉(zhuǎn)播權(quán)是否構(gòu)成壟斷；將體育賽事轉(zhuǎn)播權(quán)授予一個(gè)傳播者專有又是否構(gòu)成壟斷。

2.1 單側(cè)異常值對(duì)bootstrap法估計(jì)的影響分析

主要考察異常小值的影響，異常大值的類似，不再重復(fù)討論。

(1)對(duì)點(diǎn)估計(jì)的影響。

表1 異常小值對(duì)樣本均值非參數(shù)bootstrap法估計(jì)的影響

從表1能看出,在沒(méi)有加入異常小值時(shí),樣本均值的非參數(shù)bootstrap法估計(jì)為1.5159,與樣本均值1.5161幾乎相等,但加入異常值后,bootstrap法估計(jì)就與樣本均值相差較大,且隨著異常值比例的增高,它們相差也越來(lái)越大,這點(diǎn)從絕對(duì)誤差和相對(duì)誤差數(shù)值上能很好的反映出來(lái),這兩者的值均逐漸增大,說(shuō)明點(diǎn)估計(jì)距離真值漸遠(yuǎn)。從穩(wěn)定性(標(biāo)準(zhǔn)差和CV)方面看,隨著異常小值比例的提高,bootstrap法估計(jì)的穩(wěn)定性逐漸變差,不過(guò)在異常小值的比例為50%時(shí),波動(dòng)穩(wěn)定性又有點(diǎn)提高。

(2)對(duì)點(diǎn)估計(jì)分布形態(tài)的影響。

對(duì)B=3000個(gè)bootstrap法估計(jì),繪制其直方圖,同時(shí)考察反映分布形態(tài)的參數(shù)偏度和峰度,結(jié)果見(jiàn)圖2。

圖2 異常小值各比例下bootstrap法估計(jì)的直方圖

從圖2能看出,在沒(méi)有異常小值的情形下,均值的bootstrap法估計(jì)很接近于正態(tài)分布,但在5%比例的異常小值影響下,分布的偏度和峰度都發(fā)生較大的變化,隨著異常小值比例的增加,分布又回復(fù)到接近正態(tài)分布。說(shuō)明異常小值的比例越低,對(duì)分布形態(tài)的影響越大。

(3)對(duì)區(qū)間估計(jì)的影響。

從圖2中看到,盡管在異常小值比例較高的情形下,bootstrap法估計(jì)的分布形態(tài)接近于正態(tài)分布,但因其點(diǎn)估計(jì)與總體真值相差較大,故其區(qū)間估計(jì)不一定好。采用性質(zhì)較好的BCa區(qū)間[8],bootstrap法估計(jì)結(jié)果見(jiàn)圖3,每個(gè)比例下的區(qū)間均進(jìn)行100次估計(jì),為了能較清楚地顯示,這里僅顯示了前20個(gè)區(qū)間估計(jì)。

圖3 異常小值各比例下bootstrap法區(qū)間估計(jì)

從圖3能看出,沒(méi)有異常值的bootstrap法區(qū)間估計(jì)幾乎對(duì)稱,但加入了5%比例的異常小值后,區(qū)間估計(jì)的上下限均不同程度地變小了,在10%比例情形下,變小的趨勢(shì)進(jìn)一步加劇,區(qū)間估計(jì)幾乎覆蓋不住真值了,而到了20%比例時(shí),區(qū)間估計(jì)竟沒(méi)一個(gè)能覆蓋真值的,說(shuō)明隨著異常小值比例的增加,區(qū)間估計(jì)變得越來(lái)越不好。各個(gè)比例下100區(qū)間估計(jì)的上下限及區(qū)間長(zhǎng)度平均值見(jiàn)表2。

表2 異常小值對(duì)樣本均值bootstrap法區(qū)間估計(jì)的影響

從表2能看出,不僅在圖3中反映的上下限隨異常小值比例的增加逐漸減小的現(xiàn)象,并且區(qū)間的長(zhǎng)度也越來(lái)越長(zhǎng),這都說(shuō)明異常小值對(duì)區(qū)間估計(jì)的影響是非常不好的。

2.2 雙側(cè)異常值對(duì)bootstrap法估計(jì)的影響分析

(1)對(duì)點(diǎn)估計(jì)的影響。

在樣本容量為20時(shí),同時(shí)存在異常小值和異常大值,最少需要兩個(gè)異常值,故考慮的最小異常值比例為2/20=10%,結(jié)果見(jiàn)表3。

表3 雙側(cè)異常值對(duì)樣本均值bootstrap法估計(jì)的影響

從表3能看出,和沒(méi)有異常值相比,樣本中混入了異常值后其估計(jì)的絕對(duì)誤差和相對(duì)誤差均明顯偏大,并且相對(duì)誤差均為負(fù)值,說(shuō)明同時(shí)存在異常小值和異常大值的情形下,異常小值的影響更大些。從標(biāo)準(zhǔn)差和CV值上能看出,樣本中加入了異常值后,穩(wěn)定性逐漸變差。

如果將表3和表1相比,從相對(duì)誤差的角度看,雙側(cè)異常值對(duì)bootstrap法點(diǎn)估計(jì)的影響比單側(cè)的影響要小。

(2)對(duì)點(diǎn)估計(jì)分布形態(tài)的影響。

類似于單側(cè)異常值情形,仍然計(jì)算B=3000個(gè)bootstrap法估計(jì),繪制其直方圖,同時(shí)考察反映分布形態(tài)的參數(shù)偏度和峰度,結(jié)果見(jiàn)圖4。

圖4 異常小值各比例下bootstrap法估計(jì)的直方圖

從圖4能看出,這些估計(jì)的分布均近似于正態(tài)分布,這一點(diǎn)和單側(cè)異常值情形不是很類似。分布形態(tài)的近似對(duì)稱性將對(duì)區(qū)間估計(jì)的覆蓋率很有好處,下面討論這個(gè)問(wèn)題。

(3)對(duì)區(qū)間估計(jì)的影響。

對(duì)各個(gè)異常值比例下的情形均計(jì)算了100個(gè)BCa區(qū)間,圖5顯示了前20個(gè)。

圖5 雙側(cè)異常值各比例下bootstrap法區(qū)間估計(jì)

從圖5能看出,各個(gè)比例情形下的區(qū)間估計(jì)覆蓋率均為1,說(shuō)明覆蓋率比單側(cè)異常值情形下好。100個(gè)區(qū)間估計(jì)的上下限及長(zhǎng)度的平均值見(jiàn)表4。

表4 雙側(cè)異常值對(duì)樣本均值bootstrap法區(qū)間估計(jì)的影響

從表4能看出,隨著異常值比例的增加,區(qū)間的長(zhǎng)度逐漸變長(zhǎng),甚至比單側(cè)情形下的還要長(zhǎng),說(shuō)明好的覆蓋率是以犧牲區(qū)間長(zhǎng)度為代價(jià)的,應(yīng)該說(shuō)區(qū)間估計(jì)并不好。

3 結(jié)論

綜合上面單側(cè)和雙側(cè)情形下模擬分析,我們可以得到下面的結(jié)論。

(1)在點(diǎn)估計(jì)方面,比較表1和表3,同樣的異常值比例下,顯然單側(cè)異常值要比雙側(cè)異常值影響大;不同的異常值比例下,隨著比例的增加,點(diǎn)估計(jì)逐漸變差,距離真值越來(lái)越遠(yuǎn)。

(2)在點(diǎn)估計(jì)的分布形態(tài)上,比較圖2和圖3,在同樣的異常值比例下,單側(cè)異常值的直方圖比雙側(cè)異常值的左偏多一些,峰度則相差不是很大。不同的異常值比例下,隨著比例的增加,分布均接近于正態(tài)分布,說(shuō)明異常值的比例越低,對(duì)分布形態(tài)的影響越大。

(3)在區(qū)間估計(jì)上,雙側(cè)異常值情形下均能覆蓋真值,但區(qū)間長(zhǎng)度較長(zhǎng);單側(cè)異常值情形下,在異常值比例較低時(shí)能覆蓋真值,但比例增高時(shí),區(qū)間估計(jì)就不能再覆蓋真值,不過(guò)相比于雙側(cè)情形,區(qū)間估計(jì)長(zhǎng)度短。

[1]Efron B,Tibshirani R J.An Introduction to The Bootstrap[M].New York:Chapman&Hall Ltd,1993.

[2]Hall P,Horowitz J.A Simple Bootstrap Method for Constructing Nonparametric Confidence Bands for Functions[J].The Annals of Statistics,2013,41(4).

[3]Fay M P,Brittain E H,Proschan M A.Pointwise Confidence Intervals for A Survival Distribution With Small Samples or Heavy Censoring Biostat[J].Biostatistics,2013,14(4).

[4]Thai1 H T,Mentré1 F,Holford N H G.A Comparison of Bootstrap Approaches forEstimating Uncertainty ofParametersIn Linear Mixed-effects Models[J].Pharmaceutical Statistics,2013,12(3).

[5]黎光明，張敏強(qiáng).概化理論方差分量置信區(qū)間估計(jì)方法的比較[J].統(tǒng)計(jì)與決策,2013,(9).

[6]Romano J P,Shaikh A M.On The Uniform Asymptotic Validity of Subsampling and The Bootstrap[J].The Annals of Statistics,2012,40(6).

[7]DiCiccio J,Efron B.Bootstrap Confidence Intervals[J].Statistical Science,1996,11(3).