摘要:針對(duì)海量數(shù)據(jù)下高維分位回歸模型,首先,構(gòu)造基于去相關(guān)得分函數(shù)的子抽樣算法,以估計(jì)感興趣的低維參數(shù);其次,推導(dǎo)所提估計(jì)的極限分布,并根據(jù)漸近協(xié)方差矩陣求出L-最優(yōu)準(zhǔn)則下的子抽樣概率,給出高效的兩步算法.模擬和實(shí)證分析結(jié)果表明,最優(yōu)子抽樣方法顯著優(yōu)于均勻子抽樣方法.
關(guān)鍵詞:去相關(guān)得分;高維;海量數(shù)據(jù);分位回歸;子抽樣
中圖分類號(hào):O212.2文獻(xiàn)標(biāo)志碼:A文章編號(hào):1671-5489(2024)05-1102-11
Subsampling Algorithm for Quantile Regression Based on Optimal Decorrelation Score
HUANG Xiaofeng,ZOUYuhao,YUAN Xiaohui
(School of Mathematics and Statistics,Changchun University of Technology,Changchun 130012,China)
Abstract:For the high-dimensional quantile regression model with massive data,firstly,a subsampling algorithm based on the decorrelation score function was constructed to estimate the low-dimensional parameters of interest.Secondly,we derived the limit distribution of the proposed estimates and calculated the subsampling probability under the L-optimal criterion according to the asymptotic covariance matrix,giving an efficient two-step algorithm.The simulation and empirical analysis results show that the optimal subsampling method is significantly superior to the uniform subsampling method.
Keywords:decorrelationscore;high-dimensional;massivedata;quantileregression;subsampling
目前海量數(shù)據(jù)的處理方式主要有三類方法:分布式計(jì)算[1-3]、子抽樣算法[47]和數(shù)據(jù)流估計(jì)[8-0],其中子抽樣方法可減少資源消耗,提高處理速度,降低成本,保持?jǐn)?shù)據(jù)代表性,因而受到廣泛關(guān)注,并已取得了許多研究結(jié)果.例如:Fithian等[4]將子抽樣方法推廣到邏輯回歸中;Ma等[0]探討了子抽樣算法在線性回歸中參數(shù)估計(jì)的統(tǒng)計(jì)特性;Ai等和Fan等[2]分別將子抽樣算法應(yīng)用到廣義線性模型和線性分位回歸中,并在一般抽樣方法下建立了估計(jì)量漸近正態(tài)性的理論基礎(chǔ);袁曉惠等[基于D-最優(yōu)準(zhǔn)則構(gòu)造了分位回歸中信息陣的最優(yōu)子抽樣方法;Wang等4構(gòu)造了基于L-最優(yōu)準(zhǔn)則下分位回歸模型的最優(yōu)子抽樣方法.雖然子抽樣算法在研究低維參數(shù)估計(jì)問(wèn)題方面取得了一些成果,但對(duì)高維海量數(shù)據(jù)分析方法的研究目前仍處于探索階段,例如,Gao等5]研究了廣義線性模型中在干擾參數(shù)影響下對(duì)關(guān)注的低維參數(shù)實(shí)施最優(yōu)子抽樣估計(jì)及推斷的統(tǒng)一框架,但其研究主要集中在廣義線性模型參數(shù)的估計(jì),并未涉及其他類型的模型.
在眾多數(shù)據(jù)分析模型中,分位回歸6]因其能揭示響應(yīng)變量的全方位特征并從中獲取豐富信息而備受關(guān)注.它通常采用加權(quán)最小絕對(duì)差方法進(jìn)行估計(jì),因而對(duì)離群點(diǎn)不敏感,能提供更穩(wěn)健的結(jié)果,從而得到廣泛關(guān)注.例如,Wang等]分析了縱向數(shù)據(jù)中部分線性變系數(shù)模型的分位估計(jì);袁曉惠等在部分協(xié)變量隨機(jī)缺失機(jī)制下的分位回歸模型中,提出了回歸參數(shù)的誘導(dǎo)光滑加權(quán)估計(jì)及其漸近協(xié)方差估計(jì);Wang等[s]針對(duì)刪失分位回歸提出了一種新的基于多重穩(wěn)健傾向得分的估計(jì)方法;Cheng等[20]提出了正則化的投影評(píng)分方法,以解決高維混雜協(xié)變量存在下分位回歸的參數(shù)估計(jì)問(wèn)題.但在高維海量數(shù)據(jù)下進(jìn)行分位回歸模型參數(shù)估計(jì)的研究目前文獻(xiàn)報(bào)道較少。鑒于此,本文考慮將去相關(guān)得分方程推廣到高維分位回歸最優(yōu)子抽樣中,對(duì)感興趣的低維參數(shù)進(jìn)行估計(jì),并利用子抽樣方法提升計(jì)算效率,同時(shí)降低因干擾參數(shù)導(dǎo)致精度下降的問(wèn)題。
1方法
1.1高維分位回歸模型的去相關(guān)得分估計(jì)
在高維回歸模型中,參數(shù)的維度通常較高,但與響應(yīng)變量相關(guān)的協(xié)變量可能很少.那些非顯著影響響應(yīng)變量的協(xié)變量可視為混雜協(xié)變量.如何在高維回歸模型中有效地估計(jì)低維參數(shù),是近年來(lái)統(tǒng)計(jì)學(xué)領(lǐng)域的研究熱點(diǎn).Zhang等[21]提出了一種半?yún)?shù)有效得分方法,用于構(gòu)建高維線性模型中低維系數(shù)的估計(jì)和置信區(qū)間;Ning等[22]提出了一種可用于稀疏高維模型中假設(shè)檢驗(yàn)和置信區(qū)間的去相關(guān)得分估計(jì)方法;Cheng等[20]提出了一種正則化投影得分方法,在存在高維混雜協(xié)變量的情況下,用于估計(jì)高維分位回歸中的低維感興趣參數(shù).
假設(shè)響應(yīng)變量為y,協(xié)變量為x=(uT,zT)T,其中u是已知的維數(shù)為d的低維感興趣協(xié)變量,z是維數(shù)為p的在預(yù)測(cè)響應(yīng)變量時(shí)可能產(chǎn)生干擾的高維混雜協(xié)變量.觀測(cè)數(shù)據(jù)為Fn={y1,u1,z}=1.本文考慮分位回歸模型:
其中Q(y|u1,z1)表示在給定協(xié)變量u和z1時(shí)y的r條件分位數(shù),0表示感興趣的低維系數(shù),γ表示干擾參數(shù).Cheng等[20]基于投影法構(gòu)造了0的去相關(guān)得分估計(jì)方程.與經(jīng)典的分位回歸方程不同,去相關(guān)得分方法可有效處理高維干擾參數(shù)的影響,得分方程為
其中函數(shù)ゅ(t)=I(lt;0)為p2(t)=ーI(lt;0)}關(guān)于t的導(dǎo)數(shù).通過(guò)求解V(Hp,p6)=0,可得未知參數(shù)0的估計(jì)0g.
當(dāng)z的維數(shù)p較小時(shí),矩陣H,可由下式得到:
未知參數(shù)γ的估計(jì)?F由下式得到:
當(dāng)z的維數(shù)p非常大時(shí),可使用Lasso擬合多響應(yīng)線性回歸得到矩陣H的估計(jì):
其中參數(shù)h,表示矩陣H∈Rd的第j列.未知參數(shù)γ的估計(jì)由如下懲罰估計(jì)算法得到:
計(jì)算過(guò)程的關(guān)鍵是求解式(1)中的和Hp.在低維情形下,通過(guò)迭代求解Ψ(Hg,7,0)=0計(jì)算.該算法僅在低維情形下有理想的估計(jì)效果,但對(duì)于高維情形,該方法性能欠佳.針對(duì)高維情形,Cheng等[20]引入了一步估計(jì)法對(duì)式(1)進(jìn)行修正,得到如下去相關(guān)得分函數(shù):
其中表示基于方程(2)得到的初始估計(jì).設(shè)y=y-(Hz)T0-zr,則求解關(guān)鍵問(wèn)題n(HF,p,0)=0即等價(jià)于求解
估計(jì)0的漸近正態(tài)分布為
其中Q1=E[f(0|u,z)(u-Hoz)uT],f(·|u,z)是ε=y-uT0o-zTYo的密度函數(shù),D1=r(1-r)×E[(u-Hz)(u-H)].修正得分函數(shù)后由一步算法得到的估計(jì)6n的淅近正態(tài)分布為
其中Q2=E[f(0|uz)(u-Hz)(u-H)].
1.2基于去相關(guān)得分函數(shù)的一般子抽樣算法
在海量數(shù)據(jù)情形下,傳統(tǒng)子抽樣算法不能直接應(yīng)用于得分方程中.Gao等[5]將去相關(guān)得分方法推廣到海量數(shù)據(jù)下的高維廣義線性模型中,構(gòu)造了關(guān)于感興趣低維參數(shù)的最優(yōu)子抽樣估計(jì),提出了基于去相關(guān)得分函數(shù)的子抽樣算法.受此啟發(fā),本文考慮海量數(shù)據(jù)下高維分位回歸模型參數(shù)的估計(jì)問(wèn)題,利用去相關(guān)得分函數(shù)降低不精確的干擾參數(shù)估計(jì)帶來(lái)的影響,并通過(guò)子抽樣算法提升收斂速率.以概率(滿足=1)抽取樣本容量為的子樣本集合相應(yīng)的概率為在去相關(guān)得分函數(shù)構(gòu)造中,如何尋找基于子樣本的投影矩陣H是關(guān)鍵,從理論上保證基于子樣本的參數(shù)估計(jì)的相合性和漸近正態(tài)性是一個(gè)難點(diǎn).對(duì)于z的維數(shù)p較小的情形,H*的估計(jì)*可由下式得到:
未知參數(shù)γ的估計(jì)?可由下式計(jì)算得到:
得到基于子樣本的初始分位回歸系數(shù)?*和投影矩陣H后,0的子抽樣去相關(guān)得分函數(shù)定義為
最后,根據(jù)式(4)求解方程(H,y,0)=0,得到未知參數(shù)0的估計(jì)0.
假設(shè):
定理1假設(shè)條件(H1)~(H5)成立,則當(dāng)n→∞且r→∞時(shí),在給定數(shù)據(jù)F的條件下,有
其中
證明:首先證明給定完全數(shù)據(jù)Fn時(shí),H-H=O(r-1V2).令
則可得E(H“Fn)=Hm,E(H2”Fn)=H2.將矩陣-的第j行第k列元素記為△,A,則E(△1.|Fn)=0.下面計(jì)算條件二階矩:
根據(jù)Chebyshev不等式可知,△,k=Op(r-12),從而-m=O(r-12).類似地,可證明2-H2=O(r-12).由于
因此可得
根據(jù)文獻(xiàn)[23]中定理1可知,0-0=O(r-12),y2-=O(r-2).
令
下面證明:給定全數(shù)據(jù)Fn時(shí),(H,2,02)=O(r-12).計(jì)算可得
根據(jù)Chebyshev不等式可知,(H,Y0,0P)=O(r-2).同理可證明
因此(H,7,02)=O(r-12).下面證明(H,,0)的漸近正態(tài)性.記
則rn在給定全數(shù)據(jù)的條件下(1……)立同分布且E(n1|Fn)=Op(n-1/2),Var(n;|Fn)=D-o(1).下面驗(yàn)證Lindeberg-Feller條件,對(duì)某個(gè)δgt;0及任意的gt;0,有
由Lindeberg-Feller中心極限定理可知,D-12(H,,0)→N(0,1).根據(jù)式(5)和Slutsky定理可知,D-2(H,7F,0P)→N(0,I).用重期望公式可得
因此
從而可得(Q-1DQ-T)-12(0-0)→N(0,1).證畢.
當(dāng)p非常大時(shí),H的估計(jì)效果可能會(huì)較差.可使用Lasso擬合多響應(yīng)線性回歸模型,估計(jì)投影矩陣H.對(duì)任何H*∈Rd,用h;表示其第j列,并通過(guò)下式估計(jì)H:
類似地,可通過(guò)懲罰估計(jì)γ:
在得到基于子樣本的初始分位回歸系數(shù)”和投影矩陣后,基于子樣本的一步估計(jì)方法得到,其漸近性質(zhì)如下.
定理2假設(shè)條件(H1)~(H4),(H。)成立,則當(dāng)n→∞且r→∞,并給定數(shù)據(jù)F。時(shí),有
其中=l)
定理2的證明類似定理1,故略.
由于去相關(guān)得分函數(shù)得到修正,所以定理2中的0與Q有差異.可將修改去相關(guān)得分函數(shù)后得到的估計(jì)量0me視為從初始估計(jì)θ的一步更新.
1.3最優(yōu)去相關(guān)得分子抽樣概率
下面討論最優(yōu)子抽樣概率的計(jì)算方法.首先,基于L-最優(yōu)性準(zhǔn)則提出一種子抽樣概率的確定方法;其次,討論該方法的實(shí)現(xiàn)策略;最后,總結(jié)一種兩步算法.
由于定理1和定理2中的漸近協(xié)方差矩陣依賴于子抽樣概率,因此下面通過(guò)選擇最優(yōu)子抽樣概率,提出一種有效的子抽樣方法.通過(guò)最小化估計(jì)量0的漸近均方誤差獲取最優(yōu)子抽樣概率,即在定理1中min‖Var(0)‖=mintr(Q-1DQ-T),由于Q-1DQ-T中只有D與抽樣概率π,有關(guān),所以argmin tr()argmin tr(D).,等,因此考慮通過(guò)最小化tr(D)尋求最優(yōu)子抽樣概率,即L-最優(yōu)性準(zhǔn)則,旨在優(yōu)化子抽樣概率以提高估計(jì)效率.下面根據(jù)L-最優(yōu)性準(zhǔn)則確定最優(yōu)子抽樣概率.
定理3假設(shè)定理1的條件成立,則在L-最優(yōu)準(zhǔn)則下,抽樣概率形式為
證明:在L-最優(yōu)準(zhǔn)則下,通過(guò)最小化tr(D)計(jì)算最優(yōu)的子抽樣概率,
其中,最后一步源于Cauchy-Schwarz不等式,當(dāng)且僅當(dāng)πc|u一Hpz,時(shí)等號(hào)成立.證畢.
1.4兩步算法
根據(jù)定理3可知,最優(yōu)子抽樣概率元是基于協(xié)變量的信息計(jì)算得出的,與響應(yīng)變量y,無(wú)關(guān).該最優(yōu)概率不僅適用于低維情形,也適用于高維情形.式(7)中,最優(yōu)抽樣概率依賴于感興趣協(xié)變量u、干擾協(xié)變量z;及投影矩陣Hp.由于該抽樣概率不能直接得到,因此本文提出如下兩步算法解決該問(wèn)題.
算法1最優(yōu)去相關(guān)得分子抽樣算法.
步驟1)執(zhí)行均勻子抽樣以獲取r。個(gè)子樣本,基于該r。個(gè)樣本估計(jì)式(7)中的子抽樣概率,對(duì)于子抽樣概率中未知的Hr,由式(3)或式(6)計(jì)算得到.替換原定理3中的H,為H\",計(jì)算L-最優(yōu)性準(zhǔn)則下的近似最優(yōu)子抽樣概率.
步驟2)根據(jù)步驟1)中計(jì)算得到的子抽樣概率,選取r個(gè)子樣本(y;u;,zi)-1,基于上述子樣本用式(4)求解方程;(H\",y,0)=0估計(jì)參數(shù)0.
2模擬研究
下面利用數(shù)值模擬評(píng)估本文估計(jì)方法在有限樣本容量下的性能,以驗(yàn)證去相關(guān)得分子抽樣算法在實(shí)際應(yīng)用中的可行性和準(zhǔn)確性.本文主要考察干擾參數(shù)的影響,分為低維(p=10)和高維(p=700)兩種情形討論.
由下式生成大小為n=105的數(shù)據(jù)樣本:
其中u;表示低維感興趣協(xié)變量,z稱為干擾協(xié)變量,二者皆源自多元正態(tài)分布,(6,62,θ3)=(3,3,3)T和y分別為感興趣低維參數(shù)和干擾參數(shù),p表示干擾維數(shù),對(duì)式(8)的隨機(jī)誤差項(xiàng)e,,考慮以下3種分布類型:
誤差1)ε;服從正態(tài)分布,ε;~N(0,1);
誤差2)ε;服從自由度為3的t分布,ε~t(3);
誤差3)e;服從異方差正態(tài)分布,e,=(1+2Z2)Za,其中Za~N(0,1),Z2~Bernoulli(0.5),且Zn和Z,2相互獨(dú)立.
在產(chǎn)生隨機(jī)數(shù)前,先對(duì)未知干擾參數(shù)向量y設(shè)定一個(gè)真值,在低維情形下令(y1,y2,y3,.,y,)=(3,3,3,0,……,0),在高維情形下令(y1,Y2,Ya,……,Y,-1)=(0,0,0,……,0).
下面運(yùn)行本文提出的兩步算法,在兩種干擾情形下算法1的步驟1)中,均先選取子樣本r。=200,以估計(jì)在L-最優(yōu)準(zhǔn)則下的近似最優(yōu)子抽樣概率,再執(zhí)行步驟2),分別考慮抽取r=200,400,600,800,1 000個(gè)樣本,完成抽樣后,利用算法1對(duì)參數(shù)進(jìn)行估計(jì),并重復(fù)實(shí)驗(yàn)M=500次,計(jì)算參數(shù)估計(jì)的平均值.表1和表2分別列出了低維和高維情形下基于最優(yōu)抽樣所得估計(jì)參數(shù)的偏差(Bias)和標(biāo)準(zhǔn)差(SD)(本文只列出了r=0.3時(shí)的結(jié)果,且保留四位小數(shù)).圖1~圖6分別為不同分位點(diǎn)處估計(jì)參數(shù)在兩種干情形和3種不同差下的總均方誤M中MSE-表示第m個(gè)子抽樣估計(jì),0表示參數(shù)的真值.
在兩種不同干擾情形下,由表1和表2及圖1~圖6可見(jiàn):本文提出的最優(yōu)子抽樣方法得到的每個(gè)估計(jì)參數(shù)的SD均隨子樣本量的增加而不斷減小,說(shuō)明該方法的估計(jì)性能隨樣本量的增加而變得更好,且估計(jì)結(jié)果是無(wú)偏的;在不同分位點(diǎn)r=0.3,0.5,0.7時(shí),所估計(jì)參數(shù)的MSE均隨子樣本的增加而逐漸減小,且本文提出的最優(yōu)抽樣方法得到估計(jì)的MSE均比基于均勻子抽樣得到的MSE小,這與定理3最小化估計(jì)量0的MSE理論結(jié)果一致.模擬結(jié)果表明,本文提出的最優(yōu)子抽樣策略顯著優(yōu)于均勻子抽樣.
3實(shí)證分析
下面將本文提出的子抽樣算法應(yīng)用于來(lái)自UCI存儲(chǔ)庫(kù)的博客反饋數(shù)據(jù)集(https:/archive.ics.uci.edu/ml/datasets/BlogFeedback).該數(shù)據(jù)集收錄了2010-2011年期間的博客數(shù)據(jù),其中包含n=52397個(gè)樣本和p=280個(gè)協(xié)變量.目標(biāo)是預(yù)測(cè)給定博客的反饋數(shù)量與280個(gè)協(xié)變量之間的關(guān)系.
Wang等3分析該數(shù)據(jù)集的結(jié)果表明,博客的評(píng)論數(shù)(y)主要受3個(gè)特定協(xié)變量(在過(guò)去24h內(nèi)對(duì)消息來(lái)源評(píng)論數(shù)量的中位數(shù)x1;消息來(lái)源在過(guò)去48~24h內(nèi)的評(píng)論數(shù)與在過(guò)去24h內(nèi)的評(píng)論數(shù)之間的平均差異x2;在過(guò)去24h內(nèi)對(duì)消息來(lái)源的評(píng)論數(shù)x3)的顯著影響.本文在Wang等[23]實(shí)證分析的基礎(chǔ)上,在分位回歸模型中添加23個(gè)對(duì)響應(yīng)變量預(yù)測(cè)精準(zhǔn)度較低的協(xié)變量作為干擾協(xié)變量,在進(jìn)行數(shù)據(jù)分析前,先對(duì)響應(yīng)變量和所有協(xié)變量進(jìn)行標(biāo)準(zhǔn)化處理.
在r=0.5分位點(diǎn)處,采用本文提出的算法對(duì)博客數(shù)據(jù)集進(jìn)行建模分析.設(shè)r=400,r=200,400,600,800,重復(fù)計(jì)算500次并取均值.由于在真實(shí)的數(shù)據(jù)場(chǎng)景中,通常無(wú)法直接獲得模型參數(shù)的真實(shí)值,因此本文采取一種實(shí)用的替代方法:利用從全數(shù)據(jù)中得到的參數(shù)估計(jì)值替代未知的真實(shí)值.考察上述3個(gè)特定的協(xié)變量,并在全數(shù)據(jù)的基礎(chǔ)上對(duì)它們進(jìn)行參數(shù)估計(jì).根據(jù)全數(shù)據(jù)下的分析,這3個(gè)協(xié)變量在全數(shù)據(jù)下的參數(shù)估計(jì)值分別為0.0307,0.0582,0.2249.該結(jié)果表明,響應(yīng)變量y與這3個(gè)協(xié)變量之間均存在正向的關(guān)聯(lián)性.即這些協(xié)變量的增加傾向于與響應(yīng)變量y的增加相關(guān)聯(lián),從而得到了對(duì)數(shù)據(jù)內(nèi)在關(guān)系更深刻的理解.表3列出了最優(yōu)子抽樣方法針對(duì)3個(gè)低維感興趣協(xié)變量參數(shù)估計(jì)的Bias和SD值.圖7為這些協(xié)變量參數(shù)估計(jì)的MSE隨子樣本大小變化的趨勢(shì).由表3可見(jiàn),隨著子樣本量的增加,基于最優(yōu)子抽樣方法參數(shù)估計(jì)的標(biāo)準(zhǔn)差逐漸降低,該結(jié)果證實(shí)了所推導(dǎo)的漸近協(xié)方差矩陣在實(shí)際應(yīng)用中的有效性.由圖7可見(jiàn),無(wú)論哪種抽樣方法,估計(jì)值的MSE均隨子樣本量的增加而減少.此外,本文提出的最優(yōu)子抽樣策略得到的MSE始終低于均勻子抽樣方法得到的MSE,該結(jié)果進(jìn)一步驗(yàn)證了最優(yōu)子抽樣策略在實(shí)際應(yīng)用中的顯著優(yōu)勢(shì).
綜上,本文將去相關(guān)得分方程推廣到了高維分位回歸模型的子抽樣中,該方法可估計(jì)高維分位回歸模型子抽樣中的低維預(yù)測(cè)參數(shù).首先推導(dǎo)了一般去相關(guān)得分子樣本估計(jì)量的漸近性質(zhì),然后根據(jù) L-最優(yōu)準(zhǔn)則給出了最優(yōu)子抽樣概率,并提出了一種兩步算法來(lái)近似最優(yōu)的去相關(guān)得分子抽樣概率.為節(jié)約計(jì)算成本,在模擬實(shí)驗(yàn)中先固定算法第一步的較小子樣本量r0,再逐步增加算法第二步的子樣本量r.模擬研究結(jié)果表明,相比于均勻子抽樣方法, 本文方法優(yōu)勢(shì)顯著.最后,將本文方法應(yīng)用于真實(shí)的博客數(shù)據(jù)集,實(shí)證結(jié)果表明,本文提出的最優(yōu)子抽樣策略可很好地在真實(shí)情形下估計(jì)感興趣低維參數(shù).在實(shí)際應(yīng)用中,推薦采用一步估計(jì)法,因?yàn)樗茱@著提高海量高維數(shù)據(jù)分析的計(jì)算效率,能更有效地處理大規(guī)模數(shù)據(jù)集.
參考文獻(xiàn)
[1]LIN N,XI R B.Aggregated Estimating Equation Estimation[J].Statistics and Its Interface,2011,4(1):73-83.
[2] CHEN X Y.XIE M G.A Split-and-Conquer Approach for Analysis of Extraordinarily Large Data[J].Statistica Sinica,2014,24(4):1655-1684.
[3]XU Q F,CAI C,JIANG C X,etal.Block Average Quantile Regression for Massive Dataset[J].Statistical Papers,2020,61(1):141-165.
[4] FITHIAN W,HASTIET.Local Case-Control Sampling:Efficient Subsampling in Imbalanced Data Sets[J].The Annals of Statistics,2014,42(5):1693-1724.
[5]WANG Y,ZHU R,MA P.Optimal Subsampling for Large Sample Logistic Regression[J].Journal of the American Statistical Association,2018,113:829-844.
[6]YUAN X H,LIY,DONG X G,etal.Optimal Subsampling for Composite Quantile Regression in Big Data[J].Statistical Papers,2022,63(5):1649-1676.
[7]JONES L.H.Investigating the Properties of a Sample Mean by Employing Random Subsample Means[J].Journal of the American Statistical Association,1956,51:54-83.
[8]SCHIFANO E D.WU J,WANG C,etal.Online Updating of Statistical Inference in the Big Data Setting[J].Technometrics,2016,58(3):393-403.
[9]LUO L,ZHOU L.SONG P X K.Real-Time Regression Analysis of Streaming Clustered Data with Possible Abnormal Data Batches[J].Journal of the American Statistical Association,2023,118:2029-2044.
[10]MA P.MAHONEY W M,YU B.A Statistical Perspective on Algorithmic Leveraging[J].Journal of Machine Learning Research,2015,16:861-911.
[11]AI M,YU J,ZHANG H,etal.Optimal Subsampling Algorithms for Big Data Regessions[J].Statistica Sinica,2021,31(2):749-772.
[12]FAN Y.LIU Y K,ZHU L X.Optimal Subsampling for Linear Quantile Regression Models[J].Canadian Journal of Statistics,2021,49(4):1039-1057.
[13]袁曉惠,郭偉,王純杰.大數(shù)據(jù)分位數(shù)回歸下基于信息陣的最優(yōu)子抽樣[J].東北師大學(xué)報(bào)(自然科學(xué)版),202355(3):30-36.(YUAN XH,GUO W,WANG C J.Information Matrix Based Optimal Subsampling for Big Data Quantile Regression[J].Journal of Northeast Normal University(Natural Science Edition),2023,55(3):30-36.)
[14]WANG H Y,MA Y Y.Optimal Subsampling for Quantile Regression in Big Data[J].Biometrika,2021.108(1):99-112.
[15]GAO J Z,WANG L W,LIAN H.Optimal Decorrelated Score Subsampling for Generalized Linear Models with Massive Data[J].Science China Mathematics,2024,67(2):405-430.
[16]KOENKER R,BASSETT G,Jr.Regression Quantiles[J].Econometrica,1978,46(1):33-50.
[17]WANG J H,MENDEL F.Inference for Censored Quantile Regression Models in Longitudinal Studies[J].The Annals of Statistics,2009,37(2):756-781.
[18]袁曉惠,劉天慶。協(xié)變量缺失下基于誘導(dǎo)光滑方法的加權(quán)分位數(shù)回歸[J].,2016,54(6):1314-1322.(YUAN X H,LIU T Q.Weighted Quantile Regression Based on Induced Smoothing Method with Missing Covariates[J].Journal of Jilin University(Science Edition),2016,54(6):1314-1322.)
[19]WANG X R,QIN G Y,SONG X Y,etal.Censored Quantile Regression Based on Multiply Robust Propensity Scores[J].Statistical Methods in Medical Research,2022,31(3):475-487.
[20]CHENG C,F(xiàn)ENG X D,HUANG J,etal.Regularized Projection Score Estimation of Treatment Effects in High-Dimensional Quantile Regression[J].Statistica Sinica,2022,32(1):23-41.
[21]ZHANG C H,ZHANG SS.Confidence Intervals for Low Dimensional Parameters in High Dimensional Linear Models[J].Journal of the Royal Statistical Society:Series B(Statistical Methodology),2014,76(1):217-242.
[22]NING Y,LIU H.A General Theory of Hypothesis Tests and Confidence Regions for Sparse High Dimensional Models[J].The Annals of Statistics,2017,45(1):158-195.
[23]WANG L,ELMSTEDT J,WONG W K,etal.Orthogonal Subsampling for Big Data Linear Regression[J].The Annals of Applied Statistics,2021,15(3):1273-1290.
(責(zé)任編輯:李琦)