李成好, 汪 超, 凌能祥
(合肥工業(yè)大學(xué) 數(shù) 學(xué)學(xué)院,安徽 合 肥 230009)
設(shè)(Y,T)是R×R上的一對(duì)隨機(jī)變量,其分布函數(shù)分別為F、G,兩者均未知;并設(shè)Y關(guān)于Lebesgue測(cè)度的未知密度函數(shù)f。當(dāng)且僅當(dāng)Y≥T時(shí),Y和T都能被觀測(cè)到,否則,兩者都觀測(cè)不到。當(dāng)有n個(gè)觀測(cè)數(shù)據(jù)(Yi,Ti),i=1,2,…,n時(shí),可能實(shí)際采集的數(shù)據(jù)是N個(gè)(其中N≥n,N未知),即(Y1,T1),(Y2,T2),…,(YN,TN),其中,(Yi,Ti),i=1,2,…,n與隨機(jī)變量(Y,T)同分布。此時(shí)稱樣本(Yi,Ti),i=1,2,…,n為隨機(jī)左刪失數(shù)據(jù),并稱隨機(jī)變量Y為觀測(cè)變量,T為隨機(jī)刪失變量,由此建立的模型為隨機(jī)左刪失模型。
左刪失數(shù)據(jù)模型廣泛出現(xiàn)在天文學(xué)、經(jīng)濟(jì)學(xué)、流行病學(xué)及生物統(tǒng)計(jì)學(xué)中,很多學(xué)者對(duì)此問(wèn)題開(kāi)展了大量的研究工作。
近年來(lái),基于刪失數(shù)據(jù)的眾數(shù)核估計(jì)的研究取得了一系列成果。文獻(xiàn)[1]在iid場(chǎng)合下建立了右刪失數(shù)據(jù)眾數(shù)非參數(shù)核估計(jì)的漸近正態(tài)性;文獻(xiàn)[2]得到了iid場(chǎng)合下右刪失數(shù)據(jù)的條件密度函數(shù)和條件眾數(shù)非參數(shù)核估計(jì)的強(qiáng)一致收斂性;文獻(xiàn)[3]研究了相依結(jié)構(gòu)下右刪失數(shù)據(jù) Kaplan-Meier估計(jì)的漸近性;文獻(xiàn)[4]解決了右刪失數(shù)據(jù)分布函數(shù)的估計(jì)問(wèn)題;文獻(xiàn)[5]給出了iid場(chǎng)合下左刪失數(shù)據(jù)眾數(shù)非參數(shù)核估計(jì)的漸近性;文獻(xiàn)[6]建立了iid場(chǎng)合下左刪失數(shù)據(jù)的條件密度函數(shù)和條件眾數(shù)非參數(shù)核估計(jì)的強(qiáng)一致收斂性,并獲得了條件眾數(shù)估計(jì)的漸近正態(tài)性;文獻(xiàn)[7]得到了α-混合結(jié)構(gòu)下左刪失數(shù)據(jù)的密度函數(shù)和眾數(shù)核估計(jì)的強(qiáng)一致收斂性;文獻(xiàn)[8]建立了α-混合結(jié)構(gòu)下右刪失數(shù)據(jù)眾數(shù)非參數(shù)核估計(jì)的強(qiáng)一致收斂性;文獻(xiàn)[9]建立了α-混合結(jié)構(gòu)下左刪失數(shù)據(jù)的條件眾數(shù)非參數(shù)核估計(jì)的漸近正態(tài)性。
本文在現(xiàn)有文獻(xiàn)的基礎(chǔ)上,研究基于α-混合左刪失數(shù)據(jù)時(shí)眾數(shù)非參數(shù)核估計(jì)的漸近正態(tài)性。
設(shè){Zi,i≥1}為一隨機(jī)變量序列,為由{Zj,i≤j≤k}生成的σ代數(shù)?;旌舷禂?shù)α(n)=,k∈N}。如當(dāng)n→∞時(shí)α(n)→0,則稱該序列為α-混合序列,又稱強(qiáng)混合序列。它是目前文獻(xiàn)所見(jiàn)混合條件中最弱的。許多隨機(jī)過(guò)程都滿足α-混合條件,如ARMA過(guò)程就是強(qiáng)幾何混合過(guò)程,即?0<ρ<1,使得α(k)=O(ρk);在遍歷性條件下閾值模型、EXPAR模型、簡(jiǎn)單的ARCH模型及雙線性馬爾科夫模型都是強(qiáng)混合的。本文假設(shè)觀測(cè)樣本(Yi,Ti),i=1,2,…,n是一平穩(wěn)α-混合序列,在一定的條件下,建立了其眾數(shù)非參數(shù)核估計(jì)的漸近正態(tài)性。
在左刪失模型中,得到隨機(jī)n個(gè)觀測(cè)數(shù)據(jù)(這里n是已知的,即使是隨機(jī)的),但實(shí)際觀測(cè)的樣本數(shù)N是未知的。令P表示關(guān)于N個(gè)完全樣本的概率測(cè)度,P*表示關(guān)于n個(gè)刪失樣本的概率測(cè)度;同樣,令E和E*分別表示關(guān)于P和P*的期望,并且用星號(hào)(*)表示關(guān)于n個(gè)刪失樣本的分布函數(shù)。令η:=P(Y≥T),稱η為刪失剩余率。
在左刪失樣本下,文獻(xiàn)[10-12]給出了(Y,T)的聯(lián)合分布函數(shù)為:
其中,t∧u=min(t,u),而它們的邊際分布為:
其估計(jì)分別為:
其中,IA表示集合A的示性函數(shù)。
令f*為觀測(cè)變量Y的密度函數(shù)的核估計(jì),定義為:
其中,K為定義在R上的概率密度函數(shù)(被稱作核函數(shù));hn:=h表示窗寬,滿足:n→∞時(shí)h→0。
類似于文獻(xiàn)[7]及其所引參考文獻(xiàn),現(xiàn)對(duì)任意分布函數(shù)L,定義其支撐端點(diǎn):
當(dāng)且僅當(dāng)滿足條件:aG≤aF,bG≤bF且時(shí),F(xiàn)和G才能被完全估計(jì)。則有:
記
它的經(jīng)驗(yàn)估計(jì)為:
由文獻(xiàn)[7],在獨(dú)立場(chǎng)合下,F(xiàn)、G的非參數(shù)極大似然估計(jì)為:
由于N未知無(wú)法計(jì)算,但由(2)式,得文獻(xiàn)[7]說(shuō)明了與y的選擇無(wú)關(guān),即對(duì)任意的y只要Rn(y)≠0,^ηn就能得到,并給出了
在左刪失模型下,由文獻(xiàn)[7],(1)式不再適合估計(jì)密度函數(shù)f(·),基于(Yi,Ti),需要構(gòu)造其新估計(jì)(y)?;谖墨I(xiàn)[7],有估計(jì)量:
然而,由于G(·)和η未知,故(3)式和(4)式?jīng)]有實(shí)用價(jià)值。類似于文獻(xiàn)[7]的思想,得
其中,對(duì)?i,Gn(Yi)≠0,于是,眾數(shù)核估計(jì)為=
另一方面,分別對(duì)(y)和(y)求一階、二階導(dǎo)數(shù)
其中,j=1,2。對(duì)·)作Taylor展開(kāi)得:
假設(shè)aG≤aF,bG≤bF,H=[a,b]是一個(gè)緊集,使得H?Ω={y:y∈[aF,bF]},假設(shè)條件如下:
A1 核函數(shù)K(·)在H上有界,三階可微,關(guān)于指數(shù)β>0Lipchitz連續(xù),滿足|u|→∞時(shí)|u|K(u)→0;
A2 ∫DK(t)dt=1,∫DtK(t)dt=0。
B1f(·)在H上四階連續(xù)可微,且
B2 對(duì)于眾數(shù)θ,f(2)(θ)≠0;
B3 (Yi,Yj)的聯(lián)合密度函數(shù)存在,且存在與(i,j)無(wú)關(guān)的C使 得:
B4 對(duì)于?j≤1,令fj(·,·)表示(Y1,Y1+j)的聯(lián)合密度函數(shù),對(duì)?y∈H,(y1,y2)∈U(y)×U(y)滿足fj(y1,y2)≤C,其中U(y)為y的鄰域。
C1 {Yi,i≥1}是平穩(wěn)的α-混合隨機(jī)變量序列,混合系數(shù)為α(n);
C2 {Ti,i≥1}是一列iid刪失變量,具有連續(xù)分布函數(shù)G,且與{Yi,i≥1}獨(dú)立;
C3 α(n)滿足:存在正整數(shù)q:=qn,使得q=o( (nh) ,且lim(nh-1α(q)=0;
n→∞
窗寬h滿足:
D1n→∞時(shí)
D3(lnn)(lnlnn)=O(nh5)且
假設(shè)A是密度函數(shù)核估計(jì)中常用的條件;假設(shè)B3是解決協(xié)方差問(wèn)題常用條件;假設(shè)C是α-混合刪失數(shù)據(jù)問(wèn)題常用假設(shè),其中假設(shè)C3、C5是證明α-混合假設(shè)下漸近正態(tài)性的常用假設(shè),見(jiàn)文獻(xiàn)[13];假設(shè)D1是建立引理1的重要條件,D2保證引理2對(duì)Fuk-Nagaev不等式的處理,D3建立引理4中的收斂速度。
定理1 如果條件A1~A2、B1~B4、C1~C5、D1~D2成立,則
其中,j=1,2。
此處j=0時(shí)結(jié)論也成立,見(jiàn)文獻(xiàn) [ 7]。
定理2 在定理1的條件下,如果D3滿足,則有:
為了更清楚地展現(xiàn)在有限樣本下對(duì)θ的估計(jì)效果,將對(duì)上面的主要結(jié)論進(jìn)行模擬研究。在第1部分給出估計(jì)的均方誤差(GMSE),分析其漸近性;第2部分通過(guò)頻率直方圖和概率圖研究估計(jì)漸近正態(tài)表現(xiàn)。為了得到一個(gè)α-混合序列,利用AR(1)模型生成數(shù)據(jù),具體過(guò)程如下:生成εi~N(0,0.92),Y1=ε1,Yi=0.1Yi-1+εi,i=2,3,…,n。Ti~N(μ,1),i=1,2,…,n,其中,μ的選取由不同的η決定。核函數(shù)K(·)選用Gaussian核。
對(duì)模型分別取樣本量n=200,500。數(shù)據(jù)的刪失剩余率η≈50%,90%,窗寬h=n-1/2,n-1/3,n-1/4,各模擬m=200次,計(jì)算估計(jì)^θn的均方誤差GMSE=-θi)2,結(jié)果見(jiàn)表1所列。
表1 估計(jì) 的GMSE
表1 估計(jì) 的GMSE
η/% n h=n-1/2 h=n-1/3 h=n-1/4 200 0.059 3 0.154 1 0.252 2 500 0.015 6 0.097 8 0.198 3 90200 0.010 6 0.081 2 0.180 0 50 500 0.007 0 0.058 5 0.076 0
由表1可以看出:①當(dāng)刪失剩余率和樣本量不變時(shí),窗寬h越大估計(jì)誤差越大;②當(dāng)刪失率剩余和窗寬不變時(shí),樣本量n越大估計(jì)越好;③當(dāng)樣本量和窗寬不變時(shí),刪失剩余率越大估計(jì)表現(xiàn)越好。
取η≈90%,h=n-1/3,分別令n=200,500,各模擬m=500次,生成直方圖和概率點(diǎn)圖。對(duì)比圖1a、圖1b,圖2a、圖2b可以得出結(jié)論:
(1)估計(jì)的誤差分布接近正態(tài)。
(2)刪失樣本量n越大,正態(tài)性越好。
圖1 直方圖
圖2 正態(tài)概率圖
定理1的證明
該證明由下面的分解式
和引理1~引理3得到。
引理1 假設(shè)條件 A1,A2,B2,C1~C3,D1成立,則
其中,j=1,2。
證明
則引理得證。
引理2 假設(shè)條件A1,B1~B3,C1,C4,D1~D2成立,則
其中,j=1,2。
證明 設(shè)緊集H被ln(ln有限)個(gè)半長(zhǎng)度為的區(qū)間覆蓋,其中β為L(zhǎng)ipchitz指數(shù)。令Uk:=U(yk,wn),1≤j≤ln為以點(diǎn)yk為中心wn為半長(zhǎng)的區(qū)間。因?yàn)镠有 限,故?M>0,使得wnln≤M,對(duì)?y∈H,?Uk包含它,使得|y-yk|≤wn。令
則
因此
接下來(lái)證明:
由 A 1知K(j)(j=1,2)滿足Lipschitz條件,則
因此φ1項(xiàng)得證。
下面再研究φ2項(xiàng)。
令ξi=nh1+jΔi(yk),則|ξi|∞。由相依序列的 F uk-Nagaev不等式[14],對(duì)?ε>0,r>0,可得:
其中,
由 A 1,B1,B2及變量代換,得
由A1,B3,C1及變量代換,得
由相依序列的協(xié)方差不等式[15],顯然有:
為了研究L2項(xiàng),取x表 示 比x大的最小整數(shù),有
由(9)式得:
由C4和(10)式知:
根據(jù)D2不等式右邊知,?φ>0,使得:
由C4和(11)~(13)式得:
由(8)式、(14)式得:
取r=(lnn)1+c(c>0),由ln(1+x)的 T aylor展開(kāi)式,(16)式變?yōu)椋?/p>
因此,
由D2不等式左邊得:
因此對(duì)于D2中任意的ζ,φ21是有界的。同理,適當(dāng)選取ε0=O)得 φ22也有界。因此)<∞。由Borel-Cantelli引理可得:
其中,j=1,2,則引理得證。
引理3 假設(shè)條件A2,B1~B2成立,則
其中,j=1,2。
證明 該漸近形式與相依結(jié)構(gòu)無(wú)關(guān)。由分部積分、變量代換、A3和Taylor展開(kāi)可得:
由(6)式得:
在定理1中令j=2有:
因此在引理1中令j=1有:
再結(jié)合下面的引理4和引理5,定理2即證。
引理4 假設(shè)條件 A 1,A3,B1~B2,D3成立,則(nh3
證明
對(duì)f(1)(θ-h(huán)v)做Taylor展開(kāi):
其中,θ*在θ和θ-h(huán)v之間。由f(1)(θ)=0,B1,B2和D3得:
引理5 假設(shè)條件 A 1~A2,B4,C2~C4,D1~D2成立,則
證明 這里用Bernstein大塊小塊方法,參見(jiàn)文獻(xiàn)[16-17]。設(shè)長(zhǎng)度為p=pn的大塊和長(zhǎng)度為q=qn的小塊將集合{1,2,…,n}分割成2ωn+1個(gè)子集,其中ω=ωn=[n/(p+q)]。C3顯示了存在正 整 數(shù) 列δ → ∞,使 得δq=o((nh)1),nnP2。令 大 塊 長(zhǎng) 度p=pn=,則]
令
其中,km=(m-1)(p+q)+1,lm=(m-1)(p+q)+p+1,m=1,…,ω。則
接下來(lái)證明以下結(jié)果:
首先證明(18)式,由(3)式可得:
結(jié)合(17)式有J1=O(ωq/n)=o(1)。
因?yàn)?/p>
要證|J2|=o(1),|J3|=o(1),只要證:
下一步,設(shè)cn為一整數(shù)列且cn→∞,cnh→0,令
則
由B4對(duì)i<j有:
因此:
由文獻(xiàn)[17]有:
則
由 ( 24) ~ (26) 式 知 (23) 式 成 立, 故|J2|=o(1),|J3|=o(1)。
對(duì)于(19)式,由(22)式、(23)式可得:
對(duì)于(20)式,由文獻(xiàn)[18]和(15)式得:
[1] Louani D.On the asymptotic normality of the kernel estimators of the density function and its derivatives under censoring[J].Comm Stat Theor Meth,1998,27:2909-2924.
[2] Ould-Saǐd E,Cai Z W.Strong uniform consistency of nonparametric estimation of the censored conditional mode function[J].Journal of Nonparametr Stat,2005,17(7):797-806.
[3] Cai Z W.Asymptotic properties of Kaplan-Meier estimator for censored dependent data[J].Stat Probab Lett,1998,37:381-389.
[4] Cai Z W.Estimating a distribution function for censored time series data[J].Journal of Multivariate Anal.2001,78:299-318.
[5] Ould-Saǐd E,Tatachak A.On the nonparametric estimation of mode under left truncated model,Technical Report L M P A 2005,No.271[R].Univ du Littoral cote d’Ople,2005.
[6] Ould-Saǐd E,Tatachak A.Asymptotic properties of the kernel estimator of the conditional mode for the left truncated model[J].Statistics & Probability Letters,2007,344:651-656.
[7] Ould-Saǐd,Tatachak A.Strong consistency rate for the kernel mode estimator under strong mixing hypothesis and left truncation [J].Comm Stat Theo Meth,2009,38:1154-1169.
[8] Khardani S,Lemdani M,Ould-Saǐd E.On the strong uniform consistency of the mode estimator for censored time series[J].Metrika,2012,75:229-241.
[9] Liang Hanying,de U~na-A′lvarez J.Asymptotic normality for estimator of conditional mode under left-truncated and dependent observations[J].Metrika,2010,72:1-19.
[10] Stute W.Almost sure representation of the product-limit estimator for truncated data [J].Ann Statist,1993,21:146-156.
[11] Zhou Y.A note on the TJW product limit estimator for truncated and censored data[J].Stat Probab Lett,1996,26:381-387.
[12] Lynden-Bell D.A method of allowing for known observational selection in small samples applied to 3CR quasars[J].Monthly Notices Roy Astronom Soc,1971,155:95-118.
[13] Masry E.Nonparametric regression estimation for dependent functional data:asymptotic normality [J].Stoch Proc Appl,2005,115:155-177.
[14] Ferraty F,Vieu P.Nonparametric functional data analysis theory and practice[M].Berlin:Springer,2006:237.
[15] Bosq D.Nonparametric statistics for stochastic processes:estimation and prediction[M].2nd ed.Berlin:Springer-Verlag,1998:7-8.
[16] 丁 潔,凌能祥.基于相依函數(shù)型數(shù)據(jù)條件均值函數(shù)估計(jì)的漸近性質(zhì)[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(7):1104-1107,1116.
[17] Hall P,Heyde C C.Martingale limit theory and its application[M].New York:Academic Press,1980:277-279.
[18] Volkonskii.V A,RozanovY.A.Some limit theorems for random functions[J].Theory Probab Appl,1959,4:178-197.