張穎
(濟南大學(xué)數(shù)學(xué)科學(xué)學(xué)院,濟南250022)
在經(jīng)典的計量經(jīng)濟學(xué)參數(shù)回歸分析中,進行統(tǒng)計推斷之前,一個最為關(guān)鍵的任務(wù)就是提前預(yù)設(shè)好參數(shù)模型的函數(shù)形式。通常經(jīng)濟數(shù)據(jù)具有較強的時變性和復(fù)雜的結(jié)構(gòu)特征,難以確定其分布的具體函數(shù)形式。顯然,對于同一個問題,如果設(shè)定不同的函數(shù)形式,會得到不同的參數(shù)模型,從而估計得到不同的模型參數(shù),以及后續(xù)的統(tǒng)計推斷也是不同的??梢娞崆斑M行的模型設(shè)定會直接決定所構(gòu)建的計量經(jīng)濟模型能否準(zhǔn)確地刻畫所要研究的經(jīng)濟問題。為此出現(xiàn)了模型設(shè)定檢驗的一系列方法,Eubank(1992)[1]指出,在實際經(jīng)濟數(shù)據(jù)的分析中,經(jīng)常會碰到“檢驗不一致性”的問題,即在某些方向上,參數(shù)檢驗方法具有較低的檢驗效率。
為了回避模型檢驗中出現(xiàn)的“不一致性”問題,學(xué)者們開始尋求不需要進行模型函數(shù)形式設(shè)定的建模思路,這就是非參數(shù)回歸模型。非參數(shù)回歸分析不需要對模型的函數(shù)形式進行預(yù)設(shè),從而不需要進行所謂的參數(shù)估計,而是直接對目標(biāo)函數(shù)進行推斷,因此非參數(shù)回歸模型是數(shù)據(jù)驅(qū)動型的模型,這種建模方法可以更好地適應(yīng)數(shù)據(jù)的變化,從而具有擬合精度較高、可靠性強、結(jié)果更為穩(wěn)健、適用范圍廣等優(yōu)勢。非參數(shù)回歸模型尤其適用于那些信息獲取較少的情形,比如無法用有限個參數(shù)刻畫的總體分布,或者僅僅知道分布是連續(xù)的、存在密度函數(shù)等有限信息的情形。
在非參數(shù)回歸模型中,最早出現(xiàn)的是非參數(shù)核回歸方法。Nadaraya(1964)[2]和Watson(1964)[3]提出了Nadaraya-Watson(N-W)核估計,N-W核估計方法直接對抽象的回歸函數(shù)m(x)=E(Y|X=x)進行估計。之后,非參數(shù)回歸核估計方法獲得了迅速的發(fā)展,Robinson(1983)[4]給出了非參數(shù)模型中條件均值函數(shù)的核估計量的漸近理論,此后,Collomb(1986)[5]、Masry(1995)[6]和La?b(2000)[7]等分別基于核估計在不同條件下研究了條件均值函數(shù)的相合性、漸近正態(tài)性和收斂速度以及帶寬選擇的漸近最優(yōu)性等問題。
局部多項式方法在非參數(shù)估計中也廣為流行,因為它具有良好的數(shù)學(xué)性質(zhì)、偏倚的縮減性和邊緣效應(yīng)的適用性,從方法實施的難易程度來看,NW估計量的實施要比局部線性估計量更為容易,并且回歸函數(shù)的被估計值總是位于響應(yīng)變量的范圍之內(nèi)。然而,相對局部線性估計量來說,NW估計量具有更大的偏倚、非適應(yīng)性和邊界效應(yīng)。為了同時獲取NW和局部線性估計量的優(yōu)點,Cai(2001)[8]和De Gooiger(2003)[9]提出了加權(quán)NW估計方法。Song Y(2013)[10]提出了再加權(quán)NW估計方法,并且將其用于二階跳擴散過程的估計中。
雖然加權(quán)NW方法很早就被提出了,但是其中的某些統(tǒng)計學(xué)性質(zhì)并沒有得到圓滿的解決,為此本文在已有的加權(quán)N-W核估計量的基礎(chǔ)上,嚴(yán)格證明加權(quán)N-W核估計量在給定的條件下滿足漸近正態(tài)性,最后利用模擬研究檢驗了加權(quán)N-W核估計量的有效性。
其中g(shù)(?)為某個未知待估的條件期望回歸函數(shù),εi為相互獨立同分布的隨機誤差項,且滿足E(εi)=0,Var(εi)=σ2<+∞,條件期望回歸函數(shù)g(x)為:
其中fX(x)為X的邊緣概率密度函數(shù)。
式(2)中包含未知的聯(lián)合概率密度函數(shù)f(x,y)和邊緣概率密度函數(shù)fX(x),利用非參數(shù)核密度估計法,有。其中,h0為變量Y的平滑參數(shù),h為變量X的平滑參數(shù),所以有
將式(3)和式(4)同時代入式(2),就得到了g(x)的非參數(shù)回歸估計:
1964年和1965年美國的G.Watson與前蘇聯(lián)的E.Nadaraya分別在《Sankhya》和《Theory of Applied Probability》上各自獨立發(fā)表了這種直接對未知函數(shù)形式的回歸函數(shù)g(x)=E(Y|X)進行估計的核函數(shù)估計方法,因此式(5)被稱為著名的N-W核估計量。
雖然N-W核估計是核回歸估計中特別重要的一種方法,但它卻存在一定的缺點。如利用N-W核估計量對邊界點處的回歸函數(shù)進行估計將會出現(xiàn)較大的偏差。為了提高回歸估計的精度,減少估計偏差,需要對N-W估計量進行了局部修正,構(gòu)造加權(quán)N-W估計量。
加權(quán)N-W核估計量定義為:
概率權(quán)函數(shù)τi(x)滿足以下條件:
為了證明加權(quán)N-W核估計量的漸近正態(tài)性,首先給出下面的一些基本假設(shè)條件。
條件1:核函數(shù)k(?)是一個對稱有界的密度函數(shù),滿足∫uk(u)du=0,∫u2k(u)du<∞。
條件2:對于固定的x,f(x)>0,f(?)和σ2(?)在x處連續(xù),g(?)在x的鄰域有連續(xù)的二階導(dǎo)函數(shù)。
條件3:給定X=x時,Y的條件密度函數(shù)有界。
記uj=∫ujk(u)du,νj=∫ujk2(u)du,σ2(x)=Var(Yi|Xi=x)。
在這些假設(shè)條件下,加權(quán)N-W核估計量的極限分布由下面的定理給出。
定理:在條件1至條件5成立的條件下,有:
De Gooijer(2003)[9]證明了當(dāng)滿足條件1、條件2、條件5時,τi(x)=φi(x)(1+op(1)),其中
令εi=Yi-g(Xi),則:
利用泰勒公式,可以得到:
由式(6)和式(7),有:
又因為E(εi|Xi)=0,E(Θi)=0,故E(U1)=0。
由條件3:
利用李亞普諾夫定理,對δ>0,當(dāng)n→∞時,有:
由條件4:
因此,ξn→0,U1的漸近正態(tài)分布性質(zhì)得證。定理得證。
本文使用擬合優(yōu)度和均方誤差(MSE)來評價估計效果,其中利用R軟件由以下兩個模型分別模擬容量為200的兩個樣本,來比較加權(quán)N-W核估計量與N-W核估計量估計的精度。
模型1:Y=Xcos2πX+ε,其中ε~N(0,0.1),X~U[0,1]。
模型2:Y=sin2πX+ε,其中ε~N(0,0.1),X~U[0,1]。
計算結(jié)果見表1。
表1 加權(quán)N-W核估計和N-W核估計的擬合優(yōu)度和均方誤差
由表1可以看出,模型1和模型2的加權(quán)N-W核估計同N-W核估計相比較,均方誤差均較小,而擬合優(yōu)度都有所提高。
圖1 模型1的加權(quán)N-W核估計和N-W核估計
圖2 模型2的加權(quán)N-W核估計和N-W核估計
由圖1和圖2可以看出,從整體擬合效果上觀察,發(fā)現(xiàn)加權(quán)N-W核回歸估計曲線幾乎與回歸曲線重合,估計效果明顯優(yōu)于N-W核回歸估計,特別是在稀疏樣本點和邊界點處,表現(xiàn)得更為明顯。通常,使用N-W核回歸分析方法擬合曲線時,邊界點的估計偏差較大,即存在邊界效應(yīng),而用加權(quán)N-W核回歸分析方法卻能很好地減少邊界效應(yīng)。
對于非參數(shù)核回歸方法NW方法的一個實質(zhì)性的改進就是加權(quán)NW方法,該方法可以用于估計獨立抽樣條件下的回歸函數(shù),也可以用于估計時序數(shù)據(jù)的條件分布和用于估計條件分位數(shù)。但是,對于時序數(shù)據(jù)的樣本的非參數(shù)回歸設(shè)定下,這些方法沒有得到理論的支持。本文深入探索了加權(quán)NW方法和漸進正態(tài)性,在給定的條件下,嚴(yán)格證明了加權(quán)N-W核估計量的漸近正態(tài)性。證實了無論是在內(nèi)點還是邊界點上,加權(quán)NW都滿足漸進正態(tài)性。最后,通過模擬研究進行對比性研究。模擬結(jié)果表明,利用非參數(shù)核估計法估計回歸函數(shù)時,加權(quán)N-W核估計量要優(yōu)于N-W核估計量。
本文雖然嚴(yán)格證明了加權(quán)NW方法的漸進正態(tài)性,但是限于理論方法的限制,本文沒有對于加權(quán)NW方法的一致性和有效性進行證明。本文只是進行了隨機模擬試驗研究,而沒有將該方法用于實際數(shù)據(jù),利用該方法解決實際經(jīng)濟和金融中的應(yīng)用問題是下一步研究的方向。
[1]Eubank R L.Applied Nonparametric Regression[J].Technometrics,1992,35(2).
[2]Nadaraya.On Estimating Regression[J].Theory Probability and Its Applications,1964,9(1).
[3]Watson G S.Smooth Regression Analysis[J].Sankhya Ser A,1964,26(4).
[4]Robinson P M.Nonparametric Estimation for Time Series[J].Journal of Time,1983,4(3).
[5]Collomb G,H?rdle W.Strong Uniform Convergence Rates in Robust Nonparametric Time Series Analysis and Prediction:Kernel Regression Estimation From Dependent Observations[J].Stochastic Processes and their Applications,1986,23(1).
[6]Masry E,Tj?stheim D.Nonparametric Estimation and Identification of Nonlinear ARCH Time Series:Strong Convergence and Asymptotic Normality[J].Econometric Theory,1995,(11).
[7]La?b N,Ould-Sa?d E.A Robust Nonparametric Estimation of Autoregression Function Under Ergodic Hypothesis[J].Canadian Journal of Statistics,2000,28(4).
[8]Cai Z.Weighted Nadaraya-Watson Regression Estimation[J].Statistics and Probability Letters,2001,51(3).
[9]De Gooijer J G,Zerom D.On Conditional Density Estimation[J].Journal of Statistical Planning&Inference,2003,57(2).
[10]Song Y,Lin Z,Wang H.Re-weighted Nadaraya-Watson Estimation of Second-order Jump-diffusion Model[J].Journal of Statistical Planning&Inference,2013,143(4).