余平
山西師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 山西 臨汾 041000
近年來, 隨著科學(xué)技術(shù)的快速發(fā)展以及計(jì)算機(jī)的廣泛應(yīng)用, 數(shù)據(jù)獲取的技術(shù)和方法層出不窮,而越來越多的領(lǐng)域所得到的觀測數(shù)據(jù)都具有函數(shù)型的特點(diǎn).比如, 人體生長曲線數(shù)據(jù), 氣象站觀測到的某一地區(qū)多年的氣溫?cái)?shù)據(jù), 證券交易市場產(chǎn)生的多只股票的分時(shí)或日均成交價(jià)、收盤價(jià)、漲跌幅、交易量、交易額等數(shù)據(jù), 醫(yī)學(xué)診斷中產(chǎn)生的核磁共振數(shù)據(jù)等[1,2],它們都是函數(shù)型數(shù)據(jù)的具體實(shí)例.也正因如此, 對函數(shù)型數(shù)據(jù)的研究成為當(dāng)前統(tǒng)計(jì)學(xué)研究的熱點(diǎn)領(lǐng)域之一. 統(tǒng)計(jì)學(xué)者也提出各種函數(shù)型模型對函數(shù)型數(shù)據(jù)進(jìn)行建模.
在函數(shù)型數(shù)據(jù)分析中, 函數(shù)型線性模型是對函數(shù)型數(shù)據(jù)建模最重要、簡潔的一種模型. 許多學(xué)者對其估計(jì)和檢驗(yàn)問題進(jìn)行了深入研究, 取得了豐富的研究成果.然而,在實(shí)際生活當(dāng)中所收集到的數(shù)據(jù)既包含有一些實(shí)值變量數(shù)據(jù)又包括函數(shù)型變量數(shù)據(jù). 這時(shí)我們只有用函數(shù)線性模型描述就不太合適. 因此Shin于2009年對函數(shù)型線性模型進(jìn)行推廣, 并提出部分函數(shù)型線性模型[3].其定義如下:
(1)
其中,Y為定義在(Ω,B,P)上的實(shí)值響應(yīng)變量,z=(z1,z2,...,zp)T為2階矩有限的p維解釋變量,X(t)∈L2(J)為0均值隨機(jī)過程,β(t)為平方可積的斜率函數(shù),為隨機(jī)誤差.不失一般性, 設(shè)J=[0,1].那么X(t)為H=L2[0,1]上隨機(jī)函數(shù). 更多關(guān)于模型(1)的統(tǒng)計(jì)推斷可見Shin[3]、Yu[4]等和Zhou等[5].
上述關(guān)于部分函數(shù)型線性模型的估計(jì)方法都是集中于均值回歸, 基于最小二乘法或似然方法. 但是均值回歸容易受到異常點(diǎn)的影響, 特別地, 當(dāng)誤差服從非正態(tài)分布時(shí),其估計(jì)效率或可大打折扣. 為克服均值回歸的這一弱點(diǎn), Koenker和Bassett提出了分位數(shù)回歸[6].如今分位數(shù)回歸作為均值回歸分析的穩(wěn)健替代被廣泛地用于探索響應(yīng)變量與協(xié)變量之間的潛在關(guān)系. 但是目前利用分位數(shù)回歸對函數(shù)型數(shù)據(jù)進(jìn)行分析的工作還相對較少. 可參考文獻(xiàn) Cardot等[7]、Kato[8]、Lu等[9]、Zou和Yuan[10]指出, 分位數(shù)估計(jì)的效率容易受到分位數(shù)τ的特定取值的影響,而Zou和Yuan提出的復(fù)合分位數(shù)估計(jì)方法, 其結(jié)合多個(gè)分位數(shù)的信息比利用單個(gè)分位數(shù)信息估計(jì)更有效[10].因此本文將復(fù)合分位數(shù)回歸方法和函數(shù)主成分分析方法結(jié)合對模型(1)進(jìn)行估計(jì), 在一定的正則條件下, 我們得到斜率函數(shù)的最優(yōu)收斂速度和參數(shù)向量的漸近正態(tài)性.
令(zi,Xi,Yi),i=1,2,...,n為來自模型(1)的獨(dú)立同分布的一組樣本. 為了對函數(shù)型回歸模型降維和避免過擬合問題, 我們將把預(yù)測過程投影到X(t)的協(xié)方差函數(shù)CX(t,s)=E[X(t)X(s)]的特征向量所張成的空間.具體地,記{(vi(t),λi),i=1,2,...}為CX(t,s)一組標(biāo)準(zhǔn)化特征函數(shù)和特征值. 假設(shè)特征值無結(jié)點(diǎn), 即是λ1>λ2>...>0.顯然v1(t),v2(t),...為L2[0,1]上一組正交基.根據(jù)Karhunen-Loève表示定理有
(2)
其中,ξi=〈X(·),vi(·)〉稱為X(t)的第i個(gè)得分,γj=〈β(·),vj(·)〉.此外, 定義CX(t,s)的經(jīng)驗(yàn)形式為
類似地,記
CYX(·)=Cov(Y,X(·))Cz=Var(z)CzY=Cov(z,Y)CzX(·)=Cov(z,X(·))=(Cz1X(·),...,CzpX(·))
其經(jīng)驗(yàn)形式分別為
(3)
其中
令0<τ1<τ2<...<τK<1,b0k為的真實(shí)的τk分位數(shù).根據(jù)Zou和Yuan[10]提出復(fù)合分位數(shù)估計(jì)的思想,則估計(jì)可以由下面的復(fù)合分位數(shù)回歸關(guān)于α.γj,j=1,2,...,m和bk,k=1,2,...,K極小化求解得到
(4)
C1 隨機(jī)函數(shù)X(t)和隨機(jī)得分變量ξi滿足
C2 協(xié)方差函數(shù)CX(t,s)的特征值λi和得分系數(shù)γj分別滿足下列條件:
(a)存在常數(shù)c和a>1使得
c-1i-a≤λi≤ci-aλi-λi+1≥ci-a-1i≥1
(b)存在常數(shù)c和b>a/2+1使得
|γj|≤cj-bj≥1
C3 調(diào)整參數(shù)m滿足m~n1/(a+2b).
C4 隨機(jī)向量z和隨機(jī)誤差具有有限的四階矩, 亦即是E‖z‖4<∞,E[4]<∞.
C5 存在常數(shù)c使得對于每個(gè)k有下式成立
|〈CzkX,vj〉|≤cj-(a+b)k≥1
C7fi在其整個(gè)支撐有界, 在點(diǎn)b0k的鄰域內(nèi)fi存在大于0的下界且其一階導(dǎo)數(shù)存在且有界.
注1 條件C1~C2是函數(shù)型線性分位數(shù)模型中常見的基本條件, 可以參考Shin[3]和 Kato等[8].條件C7是分位數(shù)估計(jì)中常見的假設(shè)條件, 可參考Wang等[11].
定理1 假設(shè)條件C1~C7成立, 則有
(5)
定理2 在定理1成立的條件下, 則有
(6)
其中
推論1 在定理1成立的條件下, 記α的復(fù)合分位數(shù)估計(jì)分別關(guān)于其最小二乘估計(jì)和分位數(shù)估計(jì)的漸近相對效為ARELS和AREQR, 則有
本節(jié)我們通過數(shù)值試驗(yàn)研究所提出的復(fù)合分位數(shù)回歸估計(jì)方法在有限樣本下的實(shí)際表現(xiàn). 從以下模型產(chǎn)生數(shù)據(jù)
(7)
其中,z=(Z1,Z2)T,Z1~N(0,1),Z2服從兩點(diǎn)分布, 其中取1的概率為0.5.α=(α1,α2)T=(1,1.5)T.函數(shù)型線性部分產(chǎn)生和Yu等[4]相同,即
重復(fù)模擬200次, 在三種隨機(jī)誤差和不同樣本容量情形下, 表1~表2給出了參數(shù)向量α估計(jì)的均方誤差(MSE)以及其分量估計(jì)的偏差(Bias)和標(biāo)準(zhǔn)差(Sd),表2給出斜率函數(shù)β(t)估計(jì)的RASE.由表1~表2可以看出:(1)在給定的分布下, Sd,MSE和RASE都隨著樣本容量n的增加而減小,參數(shù)部分估計(jì)為漸近無偏的,這也表明提出的估計(jì)方法具有相合性;(2)當(dāng)誤差來自N(0,1) 時(shí), 正如所預(yù)料的那樣,LS表現(xiàn)最優(yōu), CQR估計(jì)略優(yōu)于LS估計(jì);(3)當(dāng)誤差來自厚尾t(3)或者混合正態(tài)分布0.9N(0,1)+0.1N(0,102)時(shí), CQR估計(jì)表現(xiàn)最好, LS表現(xiàn)比較差最差,這也說明CQR估計(jì)和LAD估計(jì)對于異常值和厚尾分布的隨機(jī)誤差具有穩(wěn)健性.
綜上, 這些結(jié)果說明復(fù)合分位數(shù)估計(jì)對于處理函數(shù)型解釋變量具有厚尾特征或者異常值的響應(yīng)的分析是非常必要和可行的.
表1 不同隨機(jī)誤差下的模擬結(jié)果Tab.1 Simulation results for with different random errors
表2 不同隨機(jī)誤差下情形斜率函數(shù)的RASETab.2 Simulation results of RASE for (·)with different random errors
(8)
Pn(wn,un)=Qn(α0+δnSn,γ0+δnVn,b0+δnun)-Qn(α0,γ0,b0)
(9)
其中
(10)
(11)
(12)
(13)
(14)
(15)
(16)
利用Taylor公式和定理1簡單計(jì)算可知
因此, 我們可得
(17)
類似可得
(18)
(19)
把(19)式帶入(18)式中可得
(20)
注意到
(21)
(22)
根據(jù)式(20)~式(22)簡單計(jì)算可知
同時(shí)注意到
調(diào)用中心極限定理可知
證畢.