楊益民
(杭州師范大學(xué)理學(xué)院,浙江杭州310036)
設(shè){(Xi,Yi),1≤i≤N}是來(lái)自(X,Y)的R×R隨機(jī)向量.在非參數(shù)統(tǒng)計(jì)中,回歸函數(shù)m(x)=E(Y|X=x)常用來(lái)描述反應(yīng)變量Y和協(xié)變量X之間的關(guān)系.多年來(lái),已經(jīng)有很多方法用來(lái)估計(jì)m(x).Fan和Jiang[1]構(gòu)造了m(x)及其導(dǎo)數(shù)的局部線性M估計(jì),即找到a和b使得下面式子達(dá)到最?。?/p>
這里α(·)為非負(fù)函數(shù),ρ(·)為抗異常值函數(shù),0<hN→0為窗寬(N→∞),K(·)為核函數(shù).
以下簡(jiǎn)單地?cái)⑹鲎蠼財(cái)鄶?shù)據(jù).設(shè){(Xk,Yk,Tk),k≥1}來(lái)自總體(X,Y,T)的一列隨機(jī)向量,這里T為截?cái)嘧兞浚僭O(shè)T和(X,Y)是相互獨(dú)立的,并且T有連續(xù)的分布函數(shù)G.在左截?cái)嗄P椭?,?duì)i=1,…,N,生存時(shí)間Yi被截?cái)嘧兞縏i干擾,當(dāng)Yi≥Ti時(shí),Yi和Ti都能觀察到,而當(dāng)Yi<Ti時(shí),Yi和Ti都不能觀察到.由于截?cái)嗟陌l(fā)生,N是未知的,n是實(shí)際觀察到的樣本容量,并且是隨機(jī)的,顯然有n≤N.為了避免引起混淆,記(X1,Y1,T1),…,(Xn,Yn,Tn)為實(shí)際觀察到的樣本.設(shè)為隨機(jī)變量Y能觀察到的概率.由于θ=0意味著什么數(shù)據(jù)都觀察不到,所以本文通篇假設(shè)θ>0.由于N未知,而n已知(盡管隨機(jī)的),因此規(guī)定下文的結(jié)果陳述如下:概率測(cè)度是關(guān)于樣本容量N的,而條件概率P是關(guān)于觀察的樣本容量n的.另外和E分別為在和P下的期望.
對(duì)任意分布函數(shù)L,記aL:=inf{x:L(x)>0}和bL:=sup{x:L(x)<1},U(x)表示點(diǎn)x的某個(gè)鄰域.設(shè)F(·)為Y的分布函數(shù),F(xiàn)(·,·)和f(·,·)分別為(X,Y)的聯(lián)合分布函數(shù)和聯(lián)合概率密度,則(X,Y)的條件分布函數(shù)為
由上式可以得到(X,Y)的條件密度函數(shù)為
定義C(y)=P(T≤y≤Y|Y≤T)=θ-1G(y)[1-F(y)],考慮它的經(jīng)驗(yàn)分布函數(shù)Cn(y)=I(Ti≤y≤Yi).沿用Lynden-Bell[2]的思想,F(xiàn)(·)和G(·)的最大似然估計(jì)分別為
左截?cái)鄶?shù)據(jù)下,由于觀察樣本為{(Xi,Yi,Ti),1≤i≤n},因此式(1)不能直接用.Ould-Sa?d和Lemdani[3]對(duì)左截?cái)鄶?shù)據(jù)下構(gòu)造了m(·)的NW估計(jì)如下:
這里K(·)定義在R上的核函數(shù),0<hn→0為窗寬(n→∞).更一般地,NW估計(jì)可以看作下列優(yōu)化問(wèn)題的解:
基于式(1)和(3),構(gòu)造變窗寬下的局部線性M估計(jì)(LLME),即尋找和使得下列式子達(dá)到最?。?/p>
或滿足下面等式
這里ψ(·)為ρ(·)的導(dǎo)函數(shù).
設(shè)ε=Y(jié)-m(X),r0=(m(x0),hnm(x0))T,μj=
在給出結(jié)果之前,需要先給出下面的條件:
(A0)aG<aF,bG<bF.
(A1)K(·)為連續(xù)的概率密度函數(shù),且緊支撐,不妨設(shè)[-1,1].
(A2)α*≡minxα(x)>0和α(·)在點(diǎn)x0上連續(xù).
(A3)回歸函數(shù)m(·)在點(diǎn)x0上具有連續(xù)的二階導(dǎo)數(shù).
(A4)窗寬hn滿足hn→0和nhn→+∞.
(A5)對(duì)x∈U(x0),=0.
(A6)X的密度函數(shù)fX(x)在點(diǎn)x0上連續(xù),且fX(x0)>0.
(A7)函數(shù)ψ(·)是連續(xù)的,且?guī)缀跆幪幘哂袑?dǎo)數(shù)ψ′(·).進(jìn)一步,滿足
(i)函數(shù)Λ1(x)=和Λ2(x)=在點(diǎn)x0上為正的且連續(xù).
(ii)存在γ>0滿足和在x∈U(x0)上有界.(A8)函數(shù)ψ′(·)滿足當(dāng)δ→0時(shí),和ψ(ε)-ψ′(ε)z||X=x]=o(δ)在x∈U(x0)上一致成立.
注1 (A0)中的條件aG<aF確保G(Y)≥G(aF)>0,這樣使得Gn(Yi)≠0,因此本文的估計(jì)是有意義的.條件(A1)~(A8)由Fan和Jiang[1]提出,后為很多作者[4-5]引用.
定理1 在條件(A0)~(A8)下,等式(5)存在解,記為,使得∞,這里.
定理2 假設(shè)條件(A0)~(A8)成立,則
推論1 在定理2條件下,有
接下來(lái),給出定理2的一個(gè)特殊情形,下面這個(gè)推論實(shí)際上是文[1]中的定理2.2.
推論2 在定理2的條件下,如果θ→1,有
下文通過(guò)模擬研究回歸函數(shù)m(x)的局部線性M估計(jì)在有限樣本下的效果.特別地,通過(guò)整體均方誤差比較和NW估計(jì)的效果.考慮下面模型:
這里Xi~Uniform(-2,2)獨(dú)立于εi,εi下面確定.該模型用于文[1]中.本文模擬N個(gè)獨(dú)立同分布的隨機(jī)變量Ti~N(μ,1),這里μ可以調(diào)整來(lái)獲得θ.接受滿足Yi≥Ti的樣本(Xi,Yi,Ti),i=1,…,n.在這個(gè)例子中,使用Epanechnikov核函數(shù),并且選擇Huber型函數(shù)ψ(y)=max{c,min{y,c}}.為了比較和,考慮εi下面不同的分布:
(a)標(biāo)準(zhǔn)正態(tài)分布:εi~N(0,1);
(b)受污染的正態(tài)分布:εi~0.85N(0,1)+0.15N(0,82);
(c)柯西分布:εi~C(0,1).
由模型(6)分別產(chǎn)生容量n為200,500和800的樣本.在表1中,取θ值分別為30%,60%,90%,并且基于M=200次重復(fù)計(jì)算這些估計(jì)的整體均方誤差(GMSE).另外,利用一個(gè)簡(jiǎn)單方法選擇窗寬,對(duì)窗寬hn的取值從0.05到1,增量為0.1,選擇一個(gè)使得GMSE達(dá)到最小的窗寬.GMSE定義如下:
從表1看出:1)當(dāng)誤差服從標(biāo)準(zhǔn)正態(tài)分布時(shí),這兩個(gè)估計(jì)模擬的效果都比較好.但是當(dāng)誤差為受污染的正態(tài)分布以及柯西分布時(shí),更穩(wěn)??;2)這兩個(gè)估計(jì)模擬的效果隨著n越大而越好;3)這兩個(gè)估計(jì)的效果會(huì)受到θ的影響,且隨著θ越大而越好.
表1 估計(jì)和的整體均方誤差Tab.1 The global mean squared errors of the estimatorsand
表1 估計(jì)和的整體均方誤差Tab.1 The global mean squared errors of the estimatorsand
θ n (a)^mn(·)m*n(·)(b)^mn(·)m*n(·)(c)^mn(·)m*n(·)30%200 0.031 2 0.036 7 0.137 6 0.931 1 0.146 1 6.987 2 500 0.029 7 0.032 7 0.107 5 0.873 5 0.128 3 6.119 4 800 0.017 5 0.029 3 0.089 7 0.715 1 0.091 6 5.258 7 60%200 0.026 4 0.029 8 0.111 8 0.792 1 0.128 9 5.201 4 500 0.020 1 0.026 7 0.093 1 0.702 2 0.103 4 4.727 2 800 0.016 1 0.020 3 0.071 9 0.539 1 0.080 1 4.189 7 90%200 0.018 1 0.020 9 0.091 4 0.565 1 0.101 8 4.120 9 500 0.011 4 0.018 6 0.057 8 0.439 9 0.062 1 2.792 1 800 0.008 4 0.012 7 0.033 9 0.328 3 0.049 0 2.200 7
引理1 假設(shè)條件(A0)~(A8)成立.對(duì)任意隨機(jī)變量序列,滿足max1≤i≤n|ηi|=op(1),
證明 以下僅證明第一個(gè)等式,第二個(gè)等式可以類(lèi)似地證明.注意到
通過(guò)條件(A1),(A6),(A7(i))和式(2),有
由條件(A1),(A6),(A7(ii))和式(2),得
結(jié)合式(8),有
注意到|Xj-x0|≤hn/α*,由(A8)和式(11)得
這里aη和bη為兩個(gè)正數(shù)列,當(dāng)η→0時(shí)都趨近于0.由于max1≤i≤n|ηi|=op(1),這樣=op(1),這里.通過(guò),得到=op(1),結(jié)合式(7)和(10),引理1得證.
引理2 在條件(A0)~(A8)下,有
證明 由Yi=m(Xi)+εi,R(Xi)=m(Xi)-m(x0)-m′(x0)(Xi-x0),得
通過(guò)(A3)和泰勒展開(kāi)式,對(duì)|Xi-x0|≤hn/α*(i=1,…,n),有
通過(guò)(A8)和式(13),類(lèi)似引理1的證明,得到
應(yīng)用引理1的第二個(gè)結(jié)論,有
另一方面,由條件(A1),(A6),(A7(i))和式(2)得
引理3 在條件(A0)~(A8)下,有
為了證明這結(jié)果,僅僅證明,對(duì)任意給定的實(shí)數(shù)向量d=(d1,d2)T≠0,有,θ-1Λ2(x0)fX(x0)α(x0)dTS*d).而
通過(guò)式(16)得EWi=0.類(lèi)似式(17)的證明,有
由(A7(ii)),得到
這樣,利用Lyapunov中心極限定理,有
注意到
定理1的證明 設(shè)r=(a,hnb)T和=(1,(Xi-x0)/hn)T.注意到式(4)可以表達(dá)為
通過(guò)泰勒展開(kāi)式得到
這里r*界于r和r0之間,?n(r0)=.
通過(guò)引理2,有?′n(r0)=op(1),這可以得到
注意到
?″n(r*)=,這里.由于|Xi-x0|≤hn,當(dāng)δ→0和n→∞,有max1≤i≤n|ηi|≤max1≤i≤n|R(Xi)|+2δ→0.根據(jù)引理1,得到?″n(r*)=θ-1fX(x0)Λ1(x0)S(1+op(1)).設(shè)λ0為正定矩陣S的最小特征值.則對(duì)充分小的δ,有
這樣結(jié)合式(19)和(20),得到式(18).
通過(guò)式(18),?n(r)在的內(nèi)部有一個(gè)局部最小值.在這個(gè)局部最小值,式(5)一定滿足.設(shè)為最靠近r0的根.則=1,這證明了定理1的結(jié)論.
這里Xihn由定理1的證明中給出.注意到
根據(jù)定理1的結(jié)果,得到
由式(21)~(24),得到
通過(guò)引理3,定理2得證.
[1]Fan Jianqiang,Jiang Jiancheng.Variable bandwidth and one-step local M-estimator[J].Science in China Series A,2000,43(1):65-81.
[2]Lynden-Bell D.A method of allowing for known observational selection in small samples applied to 3CR quasars[J].Monthly Notices of the Royal Astronomical Society,1971,155:95-118.
[3]Ould-Sa?d E,Lemdani M.Asymptotic properties of a nonparametric regression function estimator with randomly truncated data[J].Ann Inst Statist Math,2006,58(2):357-378.
[4]Jiang Jiancheng,Mack Y P.Robust local polynomial regression for dependent data[J].Statistica Sinica,2001,11(3):705-722.
[5]Cai Zongwu,Ould-Sa?d E.Local M-estimator for nonparametric time series[J].Statist Probab Lett,2003,65(4):433-449.
[6]Woodroofe M.Estimating a distribution function with truncated data[J].Ann Statist,1985,13(1):163-177.