劉 瑩, 葛悠美, 姜 榮
(東華大學(xué) 理學(xué)院, 上海 201620)
?
線性測(cè)量誤差模型的隨機(jī)加權(quán)分位數(shù)回歸
劉瑩, 葛悠美, 姜榮
(東華大學(xué) 理學(xué)院, 上海 201620)
摘要:將隨機(jī)加權(quán)法推廣到線性測(cè)量誤差模型,結(jié)合分位數(shù)回歸估計(jì)方法,提出線性測(cè)量誤差模型中參數(shù)的隨機(jī)加權(quán)分位數(shù)回歸方法.在一定條件下,可以用隨機(jī)加權(quán)法得到分位數(shù)回歸估計(jì)量的漸近分布,這種方法避免了估計(jì)冗余參數(shù),并且實(shí)施方便.通過(guò)模擬研究和艾滋病數(shù)據(jù)驗(yàn)證了隨機(jī)加權(quán)分位數(shù)回歸方法的有效性.
關(guān)鍵詞:測(cè)量誤差; 分位數(shù)回歸; 隨機(jī)加權(quán)方法
考慮如下線性測(cè)量誤差模型[1]:
(1)
其中:x∈Rp是存在測(cè)量誤差的未觀測(cè)的隨機(jī)變量;X∈Rp是x的觀測(cè)值;β是p維未知參數(shù)向量;Y∈Rp是響應(yīng)向量;(ε, uT)T∈Rp+1是期望為零且獨(dú)立同分布的.設(shè)x是獨(dú)立同分布的隨機(jī)變量.x是非隨機(jī)的情況參見(jiàn)文獻(xiàn)[2].模型(1)作為線性測(cè)量誤差模型,修正了由于自變量測(cè)量誤差的引入所導(dǎo)致的參數(shù)估計(jì)的偏差,在某一程度上比普通的線性回歸
模型更加實(shí)用.
由于分位數(shù)回歸方法不僅能夠度量回歸變量對(duì)分布中心的影響,而且能度量回歸變量對(duì)分布上尾和下尾的影響,因此,其比經(jīng)典的最小二乘回歸法更具有優(yōu)勢(shì).分位數(shù)回歸已在很多領(lǐng)域得到應(yīng)用,如經(jīng)濟(jì)學(xué)[3-4]、生存分析[5-6]、生長(zhǎng)曲線圖[7-8]及其他[9-11].文獻(xiàn)[12]考慮了線性和部分線性測(cè)量誤差模型的分位數(shù)回歸估計(jì),并建立了相應(yīng)的漸近性質(zhì).然而由于估計(jì)量的漸近分布中存在冗余參數(shù),很難被精確地估計(jì).隨機(jī)加權(quán)法可以有效地解決上述問(wèn)題.
隨機(jī)加權(quán)法[13]可以看作Bootstrap方法[14]的一個(gè)變形,它不是從數(shù)據(jù)中產(chǎn)生重復(fù)樣本,而是在每個(gè)觀察數(shù)據(jù)前附加一個(gè)隨機(jī)權(quán),通過(guò)重加權(quán)產(chǎn)生再生樣本來(lái)模擬總體分布(取再生樣本的容量和觀測(cè)樣本一樣).文獻(xiàn)[15]研究表明,隨機(jī)加權(quán)方法和 Bootstrap 方法有相似的漸近性質(zhì)(至少在一階時(shí)).由于隨機(jī)加權(quán)法具有良好的統(tǒng)計(jì)特性,在統(tǒng)計(jì)的某些方面已經(jīng)對(duì)其做了廣泛的研究.例如,文獻(xiàn)[15]使用隨機(jī)加權(quán)法得到線性回歸模型中 M 估計(jì)的近似分布;文獻(xiàn)[16]提出了比例風(fēng)險(xiǎn)模型的隨機(jī)加權(quán)法;文獻(xiàn)[17]將隨機(jī)加權(quán)法拓展到了刪失回歸模型;文獻(xiàn)[18]討論了半線性測(cè)量誤差模型中的未知參數(shù)的隨機(jī)加權(quán)最小二乘估計(jì).但文獻(xiàn)中很少有通過(guò)隨機(jī)加權(quán)法研究模型(1).
本文將隨機(jī)加權(quán)法應(yīng)用于模型(1),提出用于線性測(cè)量誤差模型的隨機(jī)加權(quán)分位數(shù)回歸方法,并給出相應(yīng)的漸近性質(zhì),最后通過(guò)模擬以及實(shí)例研究,驗(yàn)證隨機(jī)加權(quán)分位數(shù)回歸方法的有效性.
1方法和主要結(jié)果
1.1隨機(jī)加權(quán)分位數(shù)回歸
(2)
其中:ρτ(r)=τr-rI(r<0),r為變量,τ為分位數(shù),I(·)為示性函數(shù).此外,文獻(xiàn)[12]證明在一定條件下,有
(3)
S=τ(1-τ)Σx+
(4)
其中:隨機(jī)權(quán)ωi(i=1, 2, …, n)是獨(dú)立同分布且E(ω1) =Var(ω1)=1的非負(fù)隨機(jī)變量.
研究估計(jì)量的漸進(jìn)性質(zhì),需要以下條件.
A1設(shè)(ε, uT)球?qū)ΨQ,且存在有限一階矩.ε的分布函數(shù)F絕對(duì)連續(xù),密度函數(shù)f在點(diǎn)qτ連續(xù),且從0到∞一致有界.
注:條件A1和A2是分位數(shù)回歸的常見(jiàn)條件[8],條件A3常用于隨機(jī)加權(quán)法[16].
(5)
特別,當(dāng)ωi=1,有
(6)
定理2在定理1的條件下,有
op(1)
相應(yīng)地,
(7)
2模擬結(jié)果
例1模擬數(shù)據(jù)由模型(1)生成,且隨機(jī)誤差變量分別服從標(biāo)準(zhǔn)正態(tài)分布N(0, 1)和自由度為3的t分布t3.自變量x是區(qū)間(3, 5)生成的均勻分布,研究β=1,2和5這3種情況.隨機(jī)加權(quán)變量ω分別
服從均值為1的指數(shù)分布exp(1)和均值為1的泊松分布P(1).所有的模擬重復(fù)運(yùn)行 500次,隨機(jī)加權(quán)數(shù)重復(fù)次數(shù)為500.
εωnβ*ττ=0.25τ=0.50τ=0.75N(0,1)500.948(0.003)1.001(0.004)1.081(0.005)exp(1)1000.943(0.002)1.000(0.002)1.081(0.003)2000.941(0.001)1.001(0.001)1.080(0.002)500.948(0.003)1.001(0.004)1.081(0.005)P(1)1000.943(0.002)1.000(0.002)1.081(0.003)2000.941(0.001)1.001(0.001)1.080(0.002)t3501.044(0.002)1.043(0.002)1.083(0.003)exp(1)1001.043(0.001)1.042(0.001)1.068(0.002)2001.043(0.001)1.041(0.001)1.058(0.001)501.044(0.002)1.043(0.002)1.083(0.003)P(1)1001.043(0.001)1.042(0.001)1.068(0.002)2001.043(0.001)1.041(0.001)1.058(0.001)
εωnβ*ττ=0.25τ=0.50τ=0.75N(0,1)501.828(0.007)2.008(0.008)2.248(0.016)exp(1)1001.818(0.004)2.003(0.005)2.255(0.008)2001.824(0.002)2.004(0.002)2.240(0.005)501.828(0.007)2.008(0.008)2.248(0.016)P(1)1001.818(0.004)2.003(0.005)2.255(0.008)2001.824(0.002)2.002(0.002)2.240(0.005)t3502.035(0.002)2.036(0.002)2.055(0.006)exp(1)1002.034(0.001)2.034(0.001)2.045(0.002)2002.035(0.001)2.032(0.001)2.043(0.001)502.035(0.002)2.036(0.002)2.054(0.005)P(1)1002.034(0.001)2.034(0.001)2.045(0.002)2002.035(0.001)2.032(0.001)2.043(0.001)
εωnβ*ττ=0.25τ=0.50τ=0.75N(0,1)504.435(0.032)5.009(0.045)5.848(0.118)exp(1)1004.413(0.016)5.007(0.023)5.823(0.052)2004.417(0.008)5.000(0.012)5.820(0.025)504.436(0.033)5.010(0.045)5.847(0.117)P(1)1004.413(0.017)5.007(0.023)5.823(0.052)2004.417(0.008)5.000(0.012)5.820(0.025)t3505.018(0.002)5.018(0.002)5.026(0.004)exp(1)1005.016(0.001)5.018(0.001)5.018(0.002)2005.016(0.001)5.016(0.001)5.018(0.001)505.018(0.002)5.018(0.002)5.026(0.004)P(1)1005.017(0.001)5.018(0.001)5.018(0.002)2005.017(0.001)5.015(0.001)5.018(0.001)
(a) n=100, τ=0.25 (b) n=100, τ=0.50 (c) n=100, τ=0.75
(d) n=200, τ=0.25 (e) n=200, τ=0.50 (f) n=200, τ=0.75
(a) n=100, τ=0.25 (b) n=100, τ=0.50 (c) n=100, τ=0.75
(d) n=200, τ=0.25 (e) n=200, τ=0.50 (f) n=200, τ=0.75
(a) n=100, τ=0.25 (b) n=100, τ=0.50 (c) n=100, τ=0.75
(d) n=200, τ=0.25 (e) n=200, τ=0.50 (f) n=200, τ=0.75
(a) n=100, τ=0.25 (b) n=100, τ=0.50 (c) n=100, τ=0.75
(d) n=200, τ=0.25 (e) n=200, τ=0.50 (f) n=200, τ=0.75
例2對(duì)艾滋病臨床試驗(yàn)組(ACTG315)的研究數(shù)據(jù)進(jìn)行分析.一般情況下,認(rèn)為病毒學(xué)反應(yīng)的RNA(由病毒載量反映)和免疫反應(yīng)(由CD4+細(xì)胞計(jì)數(shù)反映)在治療過(guò)程中呈負(fù)相關(guān).本研究的目的之一是調(diào)查艾滋病的臨床試驗(yàn)中病毒學(xué)反應(yīng)的RNA和免疫反應(yīng)之間的關(guān)系.初步調(diào)查表明,病毒載量線性依賴于CD4+細(xì)胞計(jì)數(shù).因此,根據(jù)模型(1)建立病毒載量及CD4+細(xì)胞計(jì)數(shù)之間的關(guān)系模型為
式中:x為存在測(cè)量誤差的隨機(jī)變量[19],這里x為實(shí)際的CD4+細(xì)胞計(jì)數(shù);Y為病毒載量;X為觀測(cè)到的CD4+細(xì)胞計(jì)數(shù).
ωβ*ττ=0.25τ=0.50τ=0.75exp(1)β022.37430.92336.579β1-8.275-11.369-13.230P(1)β022.59630.89636.715β1-8.275-11.369-13.230
從表4看出,當(dāng)隨機(jī)加權(quán)變量分別取均值為1的指數(shù)分布exp(1)和均值為1的泊松分布P(1)時(shí),病毒學(xué)反應(yīng)的RNA和免疫反應(yīng)在治療過(guò)程中都呈負(fù)相關(guān),與預(yù)想一致.
3定理證明
3.1定理1的證明
設(shè)V是一個(gè)對(duì)稱正定矩陣,U是一個(gè)隨機(jī)變量,An(s)是對(duì)角線最小值為αn的凸函數(shù).由文獻(xiàn)[20]知,若
ρτ(x-y)-ρτ(x)=
記
(βτ-β0)+o(1),
Qn=Qn1+Qn2,
其中
由于
其中∶=d表示服從相同分布.有
因此,
根據(jù)條件A2可知,
目標(biāo)函數(shù)Q0(θτ)的凸性,確保了極小值的唯一性,可知
ωi=1,則為
3.2定理2的證明
由定理1可知,
op(1),
(9)
(10)
由式(9)和(10)可知,
通過(guò)運(yùn)用文獻(xiàn)[13]中相似論證,可知式(8)正確.定理證畢.
4結(jié)語(yǔ)
本文研究了線性測(cè)量誤差模型的估計(jì)問(wèn)題,結(jié)合分位數(shù)回歸方法和隨機(jī)加權(quán)法,提出了隨機(jī)加權(quán)分位數(shù)回歸估計(jì)方法.證明了在一定條件下,可以用隨機(jī)加權(quán)法得到分位數(shù)回歸估計(jì)量的漸近分布,這種方法得到的近似分布有許多優(yōu)點(diǎn),它避免了估計(jì)冗余參數(shù),且實(shí)施方便.通過(guò)模擬研究驗(yàn)證了所提出的方法的有效性,再用實(shí)例研究說(shuō)明了隨機(jī)加權(quán)分位數(shù)回歸估計(jì)方法具有實(shí)際的應(yīng)用價(jià)值.本文提出的方法可以拓展到更多的情形.
參考文獻(xiàn)
[1] DEATON A. Panel data from a time series of cross-sections[J]. Journal of Econometrics, 1985, 30(1/2): 109-126.
[2] FULLER W A. Measurement error models[M]. New York: Wiley, 1987.
[3] HENDRICKS W, KOENKER R. Hierarchical spline models for conditional quantiles and the demand for electricity[J]. Journal of the American Statistical Association, 1992, 87(417): 58-68.
[4] KOENKER R, HALLOCK K. Quantile regression[J]. Journal of Economic Perspectives, 2001, 15(4): 143-156.
[5] YANG S. Censored median regression using weighted empirical survival and hazard functions[J]. Journal of the American Statistical Association, 1999, 94(445): 137-145.
[6] KOENKER R, GELING R. Reappraising medfly longevity: A quantile regression survival analysis[J]. Journal of the American Statistical Association, 2001, 96(454): 458-468.
[7] WEI Y, HE X M. Conditional growth charts(with discussions)[J]. The Annals of Statistics, 2006, 34(5): 2069-2097.
[8] KOENKER R. Quantile regression[M]. Cambridge: Cambridge University Press, 2005.
[9] CAI Z, XU X. Nonparametric quantile estimations for dynamic smooth coefficient models[J]. Journal of the American Statistical Association, 2008, 103(484): 1596-1608.
[10] WANG J L, XUE L G, ZHU L X, et al. Estimation for a partial-linear single-index model[J]. The Annals of Statistics, 2010, 38(1): 246-274.
[11] KAI B, LI R, ZOU H. New efficient estimation and variable selection methods for semiparametric varying-coefficient partially linear models[J]. The Annals of Statistics, 2011,
39(1): 305-332.
[12] HE X M, LIANG H. Quantile regression estimates for a class of linear and partially linear errors-in-variables models[J]. Statistica Sinica, 2000, 10(1): 129-140.
[13] ZHENG Z G. Random weighting method[J]. Acta Mathematicae Applilcate Sinica, 1987, 10(2): 247-253.
[14] RUBIN D B. The Bayesian bootstrap[J]. The Annals of Statistics, 1981, 9(1): 130-134.
[15] RAO C R, ZHAO L C. Approximation to the distribution of M-estimates in linear models by randomly weighted bootstrap[J]. Sankhy ā A, 1992, 54(3): 323-331.
[16] CUI W Q, LI K, YANG Y N, et al. Random weighting method for Cox’s proportional hazards model[J]. Science in China Series A, 2008, 51(10): 1843-1854.
[17] WANG Z F, WU Y H, ZHAO L C. Approximation by randomly weighting method in censored regression model[J]. Science in China Series A, 2009, 52(3): 561-576.
[18] 姜榮,錢偉民,周占功. 半?yún)?shù)測(cè)量誤差模型中參數(shù)的隨機(jī)加權(quán)估計(jì)[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)報(bào)), 2011, 39(5): 768-772.
[19] LIANG H, WU H L, CARROLL R J. The relationship between virologic and immunologic responses in AIDS clinical research using mixed-effect varying-coefficient semiparametric models with measurement error[J]. Biostatistics, 2003, 4(2): 297-312.
[20] SHERWOOD B, WAN L, ZHOU X H. Weighted quantile regression for analyzing health care cost data with missing covariates[DB/OL].(2013-09-09)[2014-07-20]. http://onlinelibrary. wiley.com/d oi/10.1002/sim.5883.
[21] KNIGHT K. Limiting distributions forL1regression estimators under general conditions[J]. The Annals of Statistics, 1998, 26(2): 755-770.
[22] VAN DER VAART A W, WELLNER J A. Weak convergence and empirical processes[M]. New York: Springer-Verlag, 1996.
Random Weighting Quantile Regression for Linear Errors-in-Variables Models
LIUYing,GEYou-mei,JIANGRong
(College of Science, Donghua University, Shanghai 201620, China)
Abstract:The purpose is to extend the random weighting method to linear errors-in-variables models. By combining the quantile regression, random weighting quantile regression is proposed for linear errors-in-variables models. It is shown that the random weighting quantile regression estimation is uniformly consistent. The random weighting method provides a way of assessing the distribution of the quantile regression estimators without estimating the nuisance parameters. The simulation studies and an AIDS real data application are conducted to illustrate the finite sample performance of the proposed methods.
Key words:errors-in-variables; quantile regression; random weighting method
中圖分類號(hào):O 213.9
文獻(xiàn)標(biāo)志碼:A
作者簡(jiǎn)介:劉瑩(1991—),女,浙江衢州人,碩士研究生,研究方向?yàn)楦怕收撆c數(shù)理統(tǒng)計(jì).E-mail: mygirl-ly@163.com
收稿日期:2014-12-05
文章編號(hào):1671-0444(2016)01-0152-08