喻 雪,范永輝
(天津師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,天津300387)
設(shè) X1,X2,…,Xn是分布函數(shù)為 F(x)的獨立同分布的隨機變量序列,Mn=max{X1,X2,…,Xn},設(shè)存在常數(shù)列{an>0}和{bn},使得x∈R,此極值分布有3種類型,其中Ⅰ型分布稱為Gumbel分布,Gumbel分布函數(shù)的表達式為
其中:μ(-∞ < μ<+∞)為位置參數(shù);σ(σ >0)為尺度參數(shù).位置參數(shù)為μ、尺度參數(shù)為σ的Gumbel分布記作G(μ,σ),其對應(yīng)的密度函數(shù)為
記 h(x)=exp[-exp(-x)]·exp(-x),則 Gumbel分布的密度函數(shù)可記為
Gumbel分布是極值分布的主要類型之一,極值分析的主要目的之一是估計分位數(shù),其在水文、建筑、氣象等領(lǐng)域有廣泛的應(yīng)用[1-3].對分布函數(shù)位置參數(shù)和尺度參數(shù)估計的優(yōu)劣直接影響重現(xiàn)水平估計的準(zhǔn)確性,因此對Gumbel分布參數(shù)的研究具有重大的理論意義和實用價值.
關(guān)于Gumbel分布的位置和尺度參數(shù)置信區(qū)間的確定,相關(guān)學(xué)者提出了很多方法.文獻[4]利用樣本分位數(shù),構(gòu)建極值分布參數(shù)的線性回歸模型,得到了相關(guān)參數(shù)的漸近正態(tài)無偏估計,給出了相應(yīng)的漸近置信區(qū)間.文獻[5]基于樣本分位數(shù)給出了構(gòu)造置信區(qū)間的2個新樞軸量,推導(dǎo)出了樞軸量的概率密度函數(shù)表達式,在大樣本場合討論了總體參數(shù)的近似置信區(qū)間.文獻[6]結(jié)合非線性回歸模型和最小絕對偏差給出極值分布參數(shù)的一種估計方法.以上文獻都是在大樣本情況下考慮Gumbel分布中位置參數(shù)和尺度參數(shù)的置信區(qū)間,所用樞軸量的分布是當(dāng)樣本容量趨于無窮時的極限分布,但這些方法不一定適用于小樣本情形,尤其典型的小樣本置信區(qū)間在涉及討厭參數(shù)統(tǒng)計問題時可能不可用,例如,2個指數(shù)分布的均值之間的差異,或兩異方差的正態(tài)分布,典型的小樣本推斷不提供最佳的檢驗和置信區(qū)間.針對小樣本情形,本文基于參數(shù)最小風(fēng)險同變估計,利用廣義樞軸量,構(gòu)造了Gumbel分布分位數(shù)的廣義置信區(qū)間.
定義[7]R=R(X,x,θ)是X、x、θ的函數(shù),其中:θ =(θ1,θ2)為未知參數(shù)向量,θ1為感興趣的參數(shù),θ2為討厭參數(shù)向量,若R滿足以下條件,則稱R為廣義樞軸量(GPQ).
(1)給定x,R的分布與未知參數(shù)無關(guān).
(2)R的觀測值Robs=R(x,x,θ)與討厭參數(shù)無關(guān).
設(shè) R=R(X,x,θ)為參數(shù) θ1的廣義樞軸量,則θ1的等尾(1- α)100%的廣義置信區(qū)間為[cθ1,α/2(x),cθ1,1-α/2(x)],其中 cθ1,γ(x)滿足
設(shè)隨機變量ξ服從G(μ,σ),顯然f(ξ)=aξ+b(a>0,-∞ < b < +∞)服從 G(a μ+b,aσ).μ、σ 的估計也應(yīng)有類似的性質(zhì),即 X=(X1,X2,…,Xn)′是從總體 G(μ,σ)中抽取的樣本分別為 μ 和 σ 的估計,若樣本變?yōu)?aX+b1n,其中 1n=(1,…,1)′,則應(yīng)滿足
引理設(shè) X=(X1,X2,…,Xn)′為來自 Gumbel分布G(μ,σ)的簡單隨機樣本,則在二次誤差損失函數(shù)下,位置參數(shù)μ的最小風(fēng)險同變估計(MRE)為
類似文獻[8]可得引理的證明.
首先構(gòu)造廣義樞軸量.設(shè) X=(X1,X2,…,Xn)′是取自G(μ,σ)的簡單隨機樣本,則在對參數(shù)μ和σ的估計為最小風(fēng)險同變估計的基礎(chǔ)上,分別構(gòu)造位置參數(shù)μ和尺度參數(shù)σ的GPQ.位置參數(shù)μ的GPQ構(gòu)造為
尺度參數(shù)σ的GPQ構(gòu)造為
在求得μ和σ以及p分位數(shù)的GPQ后,根據(jù)式(2)可求得p分位數(shù)的廣義置信區(qū)間.
令ciL和ciU分別為Ri分布的分位數(shù)和100×由式(2)可知μ、σ和p分位數(shù)的(1-α)廣義置信區(qū)間分別為[c1L,c1U]、[c2L,c2U]和[c3L,c3U].雖然 Ri,i=1、2、3 的分布已知且與未知參數(shù)無關(guān),但無法利用樣本確定其分布,故廣義置信區(qū)間需要通過計算機抽樣模擬得到.
本節(jié)通過計算機抽樣模擬計算廣義置信區(qū)間.首先給出算法流程,然后取不同的分位數(shù),以及不同的小樣本容量值,進行計算機模擬.
取給定的μ、σ、n、p值,其中n表示樣本容量.
對于 i=1,…,M,從 Gumbel分布 G(μ,σ)中抽取第 i個容量為 n 的樣本,計算
對于 j=1,…,N,從 Gumbel分布 G(0,1)中抽取第 j個容量為 n 的樣本 yj1,yj2,…,yjn,計算進而得出
{R31,R32,…,R3N}即為廣義樞軸量 R3的一個容量為N的樣本,分別用c1、c2表示該樣本的分位數(shù),總體分位數(shù)的廣義置信區(qū)間即為[c1,c2],假如c1≤μ≤c2,令 Ki=1,否則 Ki=0.計算得即為分位數(shù)的廣義置信區(qū)間的實際置信水平(覆蓋率).
令 T=(1-p)-1,則 p=1-T-1,μ 分別取為 0、1,σ分別取為1、2、3.表1給出了樣本容量n分別為5、10、15、20、35、40的情況下,T分別為 100、200、500的分位數(shù)0.95廣義置信區(qū)間的實際置信水平(confidence level,CL).
表1 T年重現(xiàn)水平的廣義置信區(qū)間的置信水平Tab.1 Confidence levels of generalized confidence intervals of return period for T years
由表1數(shù)據(jù)可見,在樣本容量較小的情況下,當(dāng)μ、σ以及重現(xiàn)期T取不同的值時,p分位數(shù)廣義置信區(qū)間的實際置信水平都與0.95非常接近,可見本文構(gòu)造的廣義樞軸量性能良好.
文獻[9]基于標(biāo)準(zhǔn)極值給出了一種GPQ的構(gòu)造方式,下面利用本文方法和文獻[9]方法分別計算Gumbel分布分位數(shù)廣義置信區(qū)間的置信水平.由文獻[9],Gumbel分布 p分位數(shù) μ-σ ln[-ln(p)]的 GPQ 為
不失一般性,這里只比較T=200時的分位數(shù)的0.95廣義置信區(qū)間的實際置信水平以及平均區(qū)間長度(average interval length,AIL),μ分別取為 0、1,σ分別取為 1、2,樣本容量分別取為 5、8、10、15、35、40,計算結(jié)果見表2.
表2 2種方法的廣義置信區(qū)間的置信水平和平均區(qū)間長度(T=200)Tab.2 Confidence levels and average interval lengths of generalized confidence intervals of two methods(T=200)
由表2數(shù)據(jù)可見,在樣本容量較小的情況下,總體來說,本文方法得到的置信水平略優(yōu)于文獻[9],而平均區(qū)間長度則明顯小于文獻[9]的構(gòu)造方式,說明本文的構(gòu)造方法效果較好.
參考文獻:
[1]羅純,王筑娟.Gumbel分布參數(shù)估計在水位資料分析中應(yīng)用[J].應(yīng)用概率統(tǒng)計,2005,21(2):169-175.LUO C,WANG Z J.The estimates of the parameters of Gumbel distribution and their application to the analysis of the water level data[J].Chinese Journal of Applied Probability and Statistics,2005,21(2):169-175(in Chinese).
[2]張新生,曹乃寧,王小完.Gumbel分布的油氣管道的剩余壽命預(yù)測[J].中國安全科學(xué)學(xué)報,2015,25(9):96-101.ZHANG X S,CAO N N,WANG X W.Residual life prediction of oil and gas pipeline based on Gumbel distribution[J].China Safety Science Journal,2015,25(9):96-101(in Chinese).
[3] 李穎,方偉華.熱帶氣旋降水重現(xiàn)期估算研究[J].自然災(zāi)害學(xué)報,2014,23(6):58-69.LI Y,F(xiàn)ANG W H.Estimation on return period of tropical cyclone precipitation[J].Journal of Natural Disasters,2014,23(6):58-69(in Chinese).
[4]程維虎.利用樣本分位數(shù)的極值分布的參數(shù)估計[J].北京工業(yè)大學(xué)學(xué)報,2002,28(3):326-328.CHENG W H.Parameter estimation for extreme-value distribution based on the pi-th quantiles of samples[J].Journal of Beijing Polytechnic University,2002,28(3):326-328(in Chinese).
[5] 李永飛.極值分布參數(shù)基于不完全數(shù)據(jù)的區(qū)間估計[J].統(tǒng)計與決策,2015(433):81-83.LI Y F.Interval estimation of parameters of extreme-value distribution based on in complete data[J].Statistics and Decision,2015(433):81-83(in Chinese).
[6] 吳香華,秦偉良,王新蕾,等.用最小絕對偏差方法(LAD)估計極值分布參數(shù)的探討[J].氣象科學(xué),2006,26(3):3260-3264.WU X H,QIN W L,WANG X L,et al.Regressive parameter-estimatingwithleast absolute deviation in extreme value distribution[J].Scientia Meteorologica Sinica,2006,26(3):3260-3264(in Chinese).
[7] TSUI K W,WEERAHANDI S.Generalized p-values in significance testing of hypotheses in the presence of nuisance parameters[J].Journal of the American Statistical Association,1999,84(406):602-607.
[8] NKURUNZIZAS,CHENF.Generalizedconfidenceintervaland p-value in location and scale family[J].Sankhya B,2011,73(2):218-240.
[9] 趙桂梅,崔玉杰.Weibull分布興趣參數(shù)的廣義置信區(qū)間[M].工程數(shù)學(xué)學(xué)報,2010,27(3):567-570.ZHAO G M,CUI Y J.Generalized confidence intervals for interest parameters of the Weibull distribution[J].Chinese Journal of Engineering Mathematics,2010,27(3):567-570(in Chines).