王麗梅
(廣西師范大學 數(shù)學與統(tǒng)計學院,廣西 桂林 541004)
變點問題因其具有廣泛應用性,比如在金融、經(jīng)濟、計算機等都有大量的應用,所以在統(tǒng)計學中一直是研究的熱門課題。變點指的是在模型或者分布中,在某個未知的時刻,模型或者分布的某些特征發(fā)生改變,則把這個未知的時刻稱為變點。
目前,對變點問題研究的文獻有很多。如譚智平等人[1]利用非參數(shù)方法構(gòu)建Kolmogorov 型統(tǒng)計量對分布變點的檢測和估計進行研究;Guan[2]通過似然比方法研究半?yún)?shù)模型的變點問題;張軍艦等人[3]通過構(gòu)造截斷經(jīng)驗歐氏似然比檢驗函數(shù)對均值單變點模型的變點位置進行估計;Bai[4]利用殘差的經(jīng)驗分布函數(shù)對線性模型的結(jié)構(gòu)變點進行研究;Harachaoui 和Levy-Leduce[5]首次將變點的估計問題轉(zhuǎn)換為基于LASSO 方法的線性回歸中的變量選擇問題。自從Koenker 和Bassett[6]提出分位數(shù)回歸的思想,就有許多學者將分位數(shù)回歸與變點結(jié)合起來,如Qu[7]基于子樣本的次梯度構(gòu)造檢驗統(tǒng)計量和Wald 型統(tǒng)計量討論了線性分位數(shù)回歸模型的結(jié)構(gòu)變點檢測問題;Li[8]討論了折線分位數(shù)回歸模型的變點估計問題;張立文[9]研究了在數(shù)據(jù)存在刪失的情況下線性分位數(shù)回歸模型的變點檢測問題;Zhou[10]的第二章是基于次梯度的思想構(gòu)造檢驗統(tǒng)計量檢測線性分位數(shù)回歸模型的實時變點。但是,目前存在的變點研究文獻中,對于廣義線性模型的分位數(shù)回歸變點研究還較少,如Xia[11]利用加權(quán)殘差來構(gòu)造檢驗統(tǒng)計量研究了廣義線性模型的實時變點;但是由于在小樣本情況下,此文章提出的方法犯第一輪錯誤效果不好,所以Zhou[10]的第三章利用Bootstrap 方法改進了Xia[11]中存在的問題。
本文在Qu[7]的基礎(chǔ)上,利用子樣本的次梯度構(gòu)造檢驗統(tǒng)計量檢測廣義線性模型是否存在變點。第二節(jié)主要介紹模型及其檢驗統(tǒng)計量的構(gòu)造,第三節(jié)為數(shù)值模擬,第四節(jié)證明相關(guān)引理和定理,第五節(jié)是本文的總結(jié)。
{(yi,xi),i= 1,…,n} 是一列來自總體(Y,X) 的獨立同分布隨機樣本,yi是一維響應變量,xi是一個p×1維的協(xié)變量??紤]如下的廣義線性模型:
假設(shè)yi的條件密度函數(shù)服從指數(shù)族分布,即
其中a(·),b(·),c(·)是已知函數(shù),φ是離散參數(shù),代表尺度;θ稱為規(guī)范參數(shù),代表位置。且yi的條件均值為
其中,βi是p維未知參數(shù),g-1( ? )是一個已知的合適的連接函數(shù)。則
εi是模型的隨機誤差,對于給定的分位數(shù)水平τ∈( 0,1 ),滿足p(εi<0|xi)=τ。所以對于給定的xi,yi的條件τ分位數(shù)為:
這里Qy(τ|x)= inf {t:Fy(t|x)≥τ}是給定x的情況下y的條件分位數(shù)。
本文感興趣的是對于給定的分位數(shù)τ,在連接函數(shù)g-1( ? )不變的情況下檢驗參數(shù)β是否發(fā)生改變,也即考慮如下的檢驗:
其中,β0,τ為未知的真實參數(shù),β1,τ≠β2,τ,n1為未知的變點,β1,τ,β2,τ分別是變點前后的未知參數(shù)。β0,τ的估計可以由下式得到
其中ρτ(u)=u(1 -I(u<0 )),I(u<0 )是示性函數(shù)。
基于文獻[7]構(gòu)造檢驗統(tǒng)計量的思想,本文利用子樣本來計算次梯度。定義:
其中g(shù)′( ? )是函數(shù)g( ? )的一階導數(shù),0 ≤λ≤1,[x]為取整函數(shù)以及ψτ(u)=τ-I(u<0 )。
由于變點的位置未知,所以需要搜索所有可能的點。基于此,給出本文的檢驗統(tǒng)計量:
其中,|| ?||∞表示上確界函數(shù),例如a=(a1,a2,…,ap),||a||∞= max (|a1|,|a2|,…,|ap|),
當在原假設(shè)下即變點不存在時,ψτ(u)=τ-I(u<0 )是一個均值為0 方差為τ(1 -τ)的二元獨立隨機變量序列,所以會收斂到一個均值為0 的高斯過程;而在備擇假設(shè)下即存在一個變點時,因為與變點前后的真實參數(shù)有較大的差異,如果仍然使用來代替變點前后的真實參數(shù)就會使得估計的模型殘差一致低于或者高于真實的分位數(shù),從而使得統(tǒng)計量取得較大的值。
定義f( ? |X)和F( ? |X)分別是給定X條件下Y的條件密度函數(shù)和條件分布函數(shù)。為書寫簡便,記f( ? |xi)和F( ? |x i)分別為fi( ? )和Fi( ? )。為了得到檢驗統(tǒng)計量的漸進性質(zhì),本文給出了如下的假設(shè):
假設(shè)1條件密度函數(shù)fi( ? )在點處一致遠離0 和∞。
假設(shè)2函數(shù)g( ? )是單調(diào)連續(xù)且二階可微的,g′( ? )有界,g″( ? )有界。
假設(shè)3,對任意的
假設(shè)4是一個p×p維非隨機有限正定矩陣
其中假設(shè)1 是分位數(shù)回歸中的一般假設(shè),假設(shè)2 和假設(shè)3 保證了目標函數(shù)(1)有唯一解,且由假設(shè)3 可以得到
引理1在假設(shè)1~4 下,當原假設(shè)H0成立時,有
引理2在假設(shè)1~4 下,當原假設(shè)H0成立時,對任意的緊集D∈Rp,有
定理1在假設(shè)1~4 下,當原假設(shè)H0成立時,有其中,Bp(λ)是一個p維獨立布朗橋。
本文在備擇假設(shè)H1即模型存在變點時模擬檢驗統(tǒng)計量的功效,數(shù)據(jù)來自于下面的泊松回歸模型:
xi~U( 0,1 ),d表示斜率參數(shù)改變的大小,d= 0 代表泊松回歸模型不存在變點,d模擬時分別取1,2,3;分位數(shù)τ分別取0.25,0.5,0.75,分別對應低分位數(shù)、中分位數(shù)和高分位數(shù);顯著性水平α為0.05;樣本量設(shè)為n=100 和300;變點位置分別設(shè)為n1=n/4,n/2,3n/4。在所有的模擬過程中模擬重復1000 次。模擬效果如表1所示。
表1 有限樣本在名義水平為0.05 的功效
對照n= 100 和300,可看出隨著樣本容量的增加,各分位數(shù)下的檢驗統(tǒng)計量功效都更加接近1;同樣當斜率參數(shù)d變化幅度變大時,也逐漸趨于1,這表明檢驗效果也更好。對應低分位數(shù)SQ0.25來說,變點位置越靠前其檢驗效果越好;反之,對于高分位數(shù)SQ0.75來說,變點位置越靠后其檢驗效果越好??傮w來看,檢驗統(tǒng)計量的檢驗功效良好。
又因為Z0(ξ)是一個凸函數(shù),所以存在唯一最小值為,故所以
不失一般性,假設(shè)xi的元素都是非負的,函數(shù)g( ? ) 是單調(diào)遞增函數(shù)是非負的,則是關(guān)于ξ的非降函數(shù)。由于D是緊集,所以對于任意的δ>0,D可以分割為n(δ) 個直徑小于等于δ的有限個子集D1,…,Dn(δ)。對于任意的ξ∈Dh,h∈{ 1,…,n(δ) },存在Dh中的兩點ξh,1和ξh,2使得由的單調(diào)性,有
同理可得
根據(jù)(10)式和(11)式得
對于(b)項,將在點處一階泰勒展開,由假設(shè)1~3 得(b)=δOp(1 ),當δ充分小時
對于(a)項,只需證因為
是一個鞅差序列,所以利用Doob 不等式和Rosenthal 不等式,存在常數(shù)M1和M2,對任意的λ>1,根據(jù)假設(shè)1~3 有
所以(a)=op(1 ),根據(jù)(13)~(15)式引理2 證明完畢。
證明定理1:
由引理2 得
所以
其中,Wp( ? )是一個p維獨立維納過程,所以定理1 證明完畢。
本文結(jié)合分位數(shù)回歸的思想,將文獻[7]的線性模型擴展到使用范圍更加廣泛的廣義線性模型,考慮在其連接函數(shù)不變的情況下參數(shù)是否發(fā)生改變,利用子樣本的次梯度來構(gòu)造檢驗統(tǒng)計量,并且找到了在原假設(shè)下檢驗統(tǒng)計量的漸進分布,并通過數(shù)值模擬證明了該檢驗的有效性。