帶相依輔助信息的分位數(shù)自回歸模型的經(jīng)驗似然估計

2020-07-07 02:38楊曉蓉徐詩展趙棋炯王勵勵

高校應(yīng)用數(shù)學(xué)學(xué)報A輯 2020年2期

楊曉蓉,徐詩展,趙棋炯,王勵勵

(浙江工商大學(xué)統(tǒng)計與數(shù)學(xué)學(xué)院,浙江杭州310018)

§1 引言

常系數(shù)自回歸時間序列作為一種常用的時間序列模型,在過去的幾十年中被廣泛地研究并應(yīng)用到各個領(lǐng)域.近年來,隨著研究的不斷深入,各種隨機系數(shù)時間序列模型在理論與應(yīng)用中都表現(xiàn)出了更多的優(yōu)越性,因而受到越來越多的關(guān)注.其中一個重要的研究對象就是文獻[1]提出的分位數(shù)自回歸模型.它在分位數(shù)的框架下,把常系數(shù)模型推廣到變系數(shù)的形式.為了給出分位數(shù)自回歸模型的定義,首先考察如下的p階隨機系數(shù)自回歸過程:

其中θj是定義在[0,1]?→R需要被估計的未知函數(shù),{Ut}是一列服從標準均勻分布U(0,1)的獨立同分布的隨機變量.對任意單調(diào)遞增的函數(shù)g和標準均勻分布U,令Qg(U)(τ)表示g(U)的τ分位函數(shù),Qg(U)(τ):=g(QU(τ))=g(τ),因而當?shù)仁?1)的右側(cè)關(guān)于Ut是單調(diào)遞增時,yt的條件τ分位函數(shù)定義如下:

等式(2)就稱為p階分位數(shù)自回歸模型(QAR(p)),可以簡寫成如下形式:

與文獻[2]中的定義一致,(3)式的分位數(shù)回歸估計由下式給出:

其中ρτ(x)=x(τ?I(x<0)).上述解稱為自回歸分位數(shù).在一些正則性條件下,文獻[1]證明了估計量的漸近正態(tài)性質(zhì),即

統(tǒng)計建模以后,一個很重要的研究內(nèi)容是模型系數(shù)估計量的有效性.實際應(yīng)用中,數(shù)據(jù)的采集過程會產(chǎn)生額外的輔助信息,這些信息本身的潛在效用能夠提高估計量的效率.因此尋找合理的方法,充分利用輔助信息來提高QAR模型系數(shù)估計量的有效性,有著重要的研究意義.

下面首先給出輔助信息的表示式.令h(Zt;β)∈Rr表示含有d維(d≤r)參數(shù)β的輔助信息函數(shù),其中Zt代表所有觀測數(shù)據(jù)的集合,滿足,且在給定Xt0時,h(Zt;β)是可測的. 由于模型的自回歸屬性,顯然所定義的Zt不是獨立的隨機變量,并且Zt中可能包含除了模型以外的其他額外變量,而這些額外變量也允許和Xt0存在一定的關(guān)聯(lián)性.不失一般性,假設(shè)h(Zt;β)滿足下面的條件:

下面通過兩個例子來具體說明輔助信息函數(shù)的表現(xiàn)形式.例如:考慮一個QAR(1)模型yt=μ0+α1,tyt?1+εt. 這里,給定一組觀測,可以得到β的最小二乘估計,那么輔助信息可以表示成.又如,如果考慮β的最小絕對偏差估計,則輔助信息可以表示成h(Zt;β)=

為了更好的利用輔助信息,經(jīng)驗似然(EL)方法常常被用于相關(guān)的統(tǒng)計推斷.EL方法是一種較為有效和靈活的非參數(shù)統(tǒng)計推斷方法,最早在1988年由Owen提出并初步發(fā)展起來的(參見文獻[3-5]).由于該方法具有不依賴于總體先驗信息的優(yōu)越性,隨后的幾年里有大量文獻對其進行了相應(yīng)的研究.文獻[6]借助經(jīng)驗似然方法,將輔助信息用于極大似然估計.文獻[7]利用經(jīng)驗似然的方法,得到了非參數(shù)密度估計量的區(qū)間估計.文獻[8]對回歸模型的經(jīng)驗似然方法給出了較為完整的綜述.文獻[9]中考慮如何利用經(jīng)驗似然方法提高帶輔助信息的分位數(shù)回歸估計.近年來,其它關(guān)于經(jīng)驗似然的研究可參見文獻[10-14].

文獻[9]研究了一般的線性回歸模型,其中協(xié)變量與因變量之間是不相關(guān)的,因而輔助信息函數(shù)中的觀測{Zt,t=1,···,n}被假設(shè)成獨立同分布的.然而在QAR模型中,由于而{yt}是一個時間序列,此時{Zt,t=1,···,n}的獨立同分布假設(shè)不再成立.因此,文獻[6]中關(guān)于模型系數(shù)估計量漸近性質(zhì)的推導(dǎo)無法直接遷移到QAR模型的研究中來.針對相依情形,§2討論了帶有相依的輔助信息的QAR模型系數(shù)的經(jīng)驗似然估計.且分別對于β=β0已知和β未知的兩種情況,在一些正則性條件假設(shè)下,推導(dǎo)出了系數(shù)估計量的漸近正態(tài)性質(zhì).本文的定理2.1以及定理2.2是對文獻[9]中研究結(jié)果的推廣,文章通過數(shù)值模擬和實例數(shù)據(jù)應(yīng)用展示了估計方法的有效性.此外,§3還討論了隨機系數(shù)線性假設(shè)Wald檢驗.基于§2的主要結(jié)論,容易得到所構(gòu)造的檢驗統(tǒng)計量的弱收斂性質(zhì),這對統(tǒng)計推斷起了奠定性的作用.

§2 QAR模型系數(shù)的經(jīng)驗似然估計

考慮到QAR模型具有自回歸的結(jié)構(gòu),變量之間不再是獨立的,本節(jié)首先給出相依隨機變量的基本定義.

定義2.1[15]一列隨機變量{ξj}j≥1被稱為是α-混合的,如果當n→∞時,

其中

表示由ξa,ξa+1,...,ξb生成的σ-域.

混合的概念最初由文獻[16]提出并研究.文獻[17]就其它常用混合情形給出了一個較好的綜述.α混合的概念作為弱相關(guān)的衡量尺度,在時間序列相關(guān)研究中被廣泛應(yīng)用.由于{yt}也是一列平穩(wěn)的α-混合序列,允許(yt,Xt0)?Zt,因而下文中,假設(shè)觀測{Zt,t=1,···,n}是一列平穩(wěn)的α-混合序列.

2.1 輔助信息中參數(shù)β=β0已知

本小節(jié)首先討論總體的先驗信息已知時,QAR模型系數(shù)的經(jīng)驗似然估計.不失一般性,假設(shè)輔助信息函數(shù)滿足E(h(Zt;β0))=0,其中β0是已知的.

令ω=(ω1,ω2,···,ωn)為一個向量,使得,且對所有的t=1,···,n,有ωt≥0.經(jīng)驗似然定義如下:

當β=β0時,利用Lagrange乘子法可以得到

其中λβ0滿足

帶輔助信息的分位數(shù)自回歸模型系數(shù)的估計如下式:

為了對經(jīng)驗似然估計的漸近性質(zhì)進行進一步分析,引入下述正則化條件:

C1存在β0使得E(h(Zt;β0))=0. 矩陣Σ(β0)=E(h(Zt;β0)hT(Zt;β0))正定且?h(Zt;β)/?β在β0的一個鄰域內(nèi)是連續(xù)的.矩陣E{?h(z;β)/?β}是滿秩的.此外,存在函數(shù)Gij(z)使得對落入β0鄰域的β有,

C2對所有整數(shù)k≥1,Xt與Xt+k的聯(lián)合概率密度函數(shù)fX(·,·)存在且滿足對所有的(u,v)∈N(x)×N(x),fX(u,v)≤C,其中N(x)是x的一個鄰域.

C3對于w≥1,s≤w,k≥1且(u,v)∈N(x)×N(x),成立下述四個條件期望性質(zhì):

C4序列α(n)滿足存在一個r>2使得

C5{εt}是一列獨立同分布的隨機變量,均值為0,方差有限.其共同分布函數(shù)F作用在集合χ={x:0

C6記條件分布函數(shù)Ft?1=P(yt0在R上處處可微且滿足

注記2.1條件C1是經(jīng)驗似然方法中的常規(guī)條件(參見文獻[18]),用于控制λβ0的隨機性質(zhì)(詳見命題2.1).C2以及C3在證明過程中用于處理協(xié)方差.對于一般的線性回歸模型,當輔助信息函數(shù)包含的是獨立的隨機變量時,這兩個條件可以去除.對于相依的數(shù)據(jù),條件C4用于證明α-混合序列的漸近性質(zhì).C6和C7是得到(A.2)以及(A.3)兩個結(jié)果所需的技術(shù)性條件.這兩個條件較弱,不少情況都能夠滿足.例如:如果隨機變量的條件分布是正態(tài)分布(或偏態(tài)分布),t(或偏t)分布,雙指數(shù)分布等,條件C6即可滿足;如果隨機變量的三階矩存在,條件C7即可滿足.

λβ0的性質(zhì)是本文幾個主要定理證明的關(guān)鍵,因此下面首先給出命題2.1,它刻畫了λβ0的統(tǒng)計性質(zhì).

命題2.1假設(shè)條件C1-C4成立,λβ0滿足kλβ0k=Op(n?1/2).

定理2.1令yt是(4)中定義的平穩(wěn)時間序列,如果條件C1-C7成立,則

當系數(shù)αj,t是常數(shù)時,分別定義εt的分布函數(shù)與密度為F(x)和f(x),可以得到以下推論:

推論2.1在定理2.1的條件下,如果(4)式中的系數(shù)αj,t是常數(shù),那么對一個給定的τ,有

其中?與定理2.1中的定義一致.

(4)式中模型的表達式可以改寫成計量經(jīng)濟中廣泛使用的Dickey-Fuller自回歸模型

推論2.2在定理2.1的條件下,

其中?和Σ1由定理2.1中給出,且

2.2 輔助信息中參數(shù)β未知

在2.1中假設(shè)β是已知的,然而在實際應(yīng)用中,總體的先驗信息往往較難獲得,因此需要討論輔助信息包含未知參數(shù)β的情形.當輔助信息中的參數(shù)β未知,一個可行的辦法是首先對β進行估計.令(7)式中的=argmaxβEL(β),文獻[9]證明了在一定的條件下,能夠達到最優(yōu)有效性.因此,將代入權(quán)重{ωt}的表達式可得:

其中滿足

現(xiàn)在令

注記2.2對于β未知的情形,文獻[18]稱其為“Auxiliary Model Specification”.由于需要先估計β,自回歸系數(shù)估計實際上通過兩步估計得到.

定理2.2令yt是定義在(4)式中的平穩(wěn)時間序列,如果條件C1-C7滿足,則

其中??=τ(1?τ)Σ0?ΛΣ2ΛT,Σ0,Σ1以及Λ與定理2.1中的定義一致.

注記2.3注意到Σ1,Σ(β0)是正定的且Σ2是非負定的.與文獻[1]中的估計量的漸近性質(zhì)(5)相比,由于引入了輔助信息h(Zt;β).QAR模型的估計量的協(xié)方差分別減少了進一步可見,Λ依賴于h(Zt;β)和τ?I(εt,τ<0)的相關(guān)系數(shù),因此h(Zt;β)和τ?I(εt,τ<0)的相關(guān)性越強,估計的效率被提升得越明顯;反之,如果h(Zt;β)和τ?I(εt,τ<0)是不相關(guān)的,估計的效率就不會被改進.

類似的,可以得到下述推論.

推論2.3在定理2.2條件下,如果(4)式中的系數(shù)αj,t是常數(shù),則對給定的τ,

其中??與定理2.2中定義一致.

推論2.4在定理2.2條件下,其中??和Σ1與定理2.2中定義一致,J由(10)式給出.

§3 QAR模型的Wald檢驗

回歸模型中,Wald檢驗常用來檢驗多個模型系數(shù)的顯著性.考慮如下的q維線性假設(shè)檢驗

其中Γ是一個q×(p+1)維的矩陣,γ是一個q維向量.對QAR模型建立如下(回歸)Wald過程Vn(τ):

根據(jù)定理2.1,可以直接得到:

定理3.1當假設(shè)檢驗H0成立時,如果定理2.1中的條件都成立,則有

其中?和Σ1與定理2.1中的定義一致.

因此,構(gòu)造相應(yīng)的Wald檢驗統(tǒng)計量如下:

并且,給定合適的τ后,yt的條件密度函數(shù)的估計由下式給出:

定理3.2在定理2.1的條件下,對某一特定的分位數(shù)τ=τ0,

其中表示自由度為q的中心化卡方分布.

對于輔助信息中的參數(shù)β未知的,根據(jù)定理2.2可以得到下面的定理3.3.

定理3.3令,當線性假設(shè)檢驗H0成立時,如果滿足定理2.2中的條件,則有

其中??以及Σ1與定理2.2中定義一致.

類似的,可以建立如下Wald檢驗統(tǒng)計量

其中

定理3.4在定理2.2的條件下,對某一特定的分位數(shù)τ=τ0,

其中表示自由度為q的中心化卡方分布.

§4 數(shù)值模擬與實例數(shù)據(jù)分析

4.1 數(shù)值模擬

為了展示本文所采用方法的有效性,本節(jié)通過有限樣本的數(shù)值模擬結(jié)果,來說明借助輔助信息所得到的模型系數(shù)的估計量,其估計效率較傳統(tǒng)的分位數(shù)回歸估計要高.數(shù)值模型生成以下二階隨機系數(shù)自回歸模型:

其中θ0,t=F?1(Ut)(F(·)表示一列隨機變量的分布函數(shù)),θ1,t=0.5Ut,θ2,t=0.25Ut,且Ut～U[0,1]. 對任意固定的τ∈(0,1),設(shè)定系數(shù)分位數(shù)的真值分別是θ0,t(τ)=F?1(τ),θ1,t(τ)=0.5τ和θ2,t(τ)=0.25τ.

首先生成一組{y1,···,yN},N=50,000,然后取{y1,···,yN}的一個長度為n的隨機子集(n=(100,250,500))來擬合QAR(2)模型,記為{y1,···,yn}.

針對不同的樣本量n=100,250,500和τ=0.3,0.5,0.7,0.9,分別用不帶輔助信息的一般分位數(shù)回歸(QR)以及基于經(jīng)驗似然方法的分位數(shù)回歸(EL-QR)來估計模型(16)的條件自回歸系數(shù)分位數(shù)θ0,t(τ),θ1,t(τ)以及θ2,t(τ).記一般QR估計量,以及EL-QR估計量.每一組模擬都重復(fù)1000次,分別計算兩個估計量的均方誤差(MSE).表1和表2總結(jié)了在不同的F設(shè)定下,QR估計和EL-QR估計的比較.表格中的數(shù)表示對應(yīng)參數(shù)的估計值,括號內(nèi)表示估計量的MSE.從表1和表2的數(shù)據(jù)可以看到,每個的MSE都要小于的MSE,即使在樣本量很小(如n=100)的情況下也是如此.同時,對于相同的分位數(shù),隨著樣本量的增加,MSE不斷減小.這表明對于QAR模型，本文提出的EL-QR方法的模擬效果要好于一般的QR方法.這歸因于EL-QR方法考慮了輔助信息,使得更多的總體信息能夠被挖掘出來,且理論上證明了提出的方法能夠縮減估計漸近分布的方差.這也意味著傳統(tǒng)分位數(shù)回歸估計量的效率,因為加入了總體的先驗信息而被提升了.

4.2 實例數(shù)據(jù)應(yīng)用

本節(jié)將文章的方法應(yīng)用于實例數(shù)據(jù)的分析,用QAR模型來擬合美國失業(yè)率數(shù)據(jù).數(shù)據(jù)分析采用了從1948年-2003年的季度失業(yè)率數(shù)據(jù),共224個觀測且去掉了季節(jié)性趨勢.文獻[1]的研究指出,失業(yè)率響應(yīng)對于經(jīng)濟的正向以及負向效應(yīng)存在著不對稱性.由于失業(yè)率數(shù)據(jù)對于經(jīng)濟的擴張與收縮效應(yīng)存在的這種不對稱性在經(jīng)濟政策的制定中起著十分重要的作用,對其進行深入的研究尤為必要.首先對失業(yè)率數(shù)據(jù)進行單位根檢驗,結(jié)果拒絕原假設(shè),表明序列是平穩(wěn)的.然后利用AIC準則確定滯后階數(shù)p=2,這與文獻[1]中利用BIC準則選出的長度一致.最后建立如下AR(2)模型來刻畫失業(yè)率的非對稱動能,

表1 給定F是偏t分布的分布函數(shù)時,QR估計和EL-QR估計的效果比較

表2 給定F是雙重指數(shù)分布的分布函數(shù)時,QR估計和EL-QR估計的效果比較

針對上述模型,通過列表總結(jié)了的分位數(shù)回歸的估計(每0.1為一個單位)及其95%置信區(qū)間.表3的上半部分是沒有輔助信息的傳統(tǒng)分位數(shù)估計結(jié)果,下半部分是利用本文方法得到的結(jié)果匯總.不難發(fā)現(xiàn),利用文中給出的方法所得到的95%置信區(qū)間的長度總是小于傳統(tǒng)的方法.這表明,通過包含輔助信息的分位數(shù)回歸方法要優(yōu)于傳統(tǒng)的分位數(shù)回歸.