分位回歸基于最優(yōu)去相關(guān)得分的子抽樣算法

2024-01-01 00:00:00黃小峰鄒雨浩袁曉惠

吉林大學(xué)學(xué)報(bào)(理學(xué)版) 2024年5期

摘要：針對(duì)海量數(shù)據(jù)下高維分位回歸模型，首先，構(gòu)造基于去相關(guān)得分函數(shù)的子抽樣算法，以估計(jì)感興趣的低維參數(shù)；其次，推導(dǎo)所提估計(jì)的極限分布，并根據(jù)漸近協(xié)方差矩陣求出L-最優(yōu)準(zhǔn)則下的子抽樣概率，給出高效的兩步算法.模擬和實(shí)證分析結(jié)果表明，最優(yōu)子抽樣方法顯著優(yōu)于均勻子抽樣方法.

關(guān)鍵詞：去相關(guān)得分；高維；海量數(shù)據(jù)；分位回歸；子抽樣

中圖分類號(hào)：O212.2文獻(xiàn)標(biāo)志碼：A文章編號(hào)：1671-5489（2024）05-1102-11

Subsampling Algorithm for Quantile Regression Based on Optimal Decorrelation Score

HUANG Xiaofeng，ZOUYuhao，YUAN Xiaohui

（School of Mathematics and Statistics，Changchun University of Technology，Changchun 130012，China）

Abstract：For the high-dimensional quantile regression model with massive data，firstly，a subsampling algorithm based on the decorrelation score function was constructed to estimate the low-dimensional parameters of interest.Secondly，we derived the limit distribution of the proposed estimates and calculated the subsampling probability under the L-optimal criterion according to the asymptotic covariance matrix，giving an efficient two-step algorithm.The simulation and empirical analysis results show that the optimal subsampling method is significantly superior to the uniform subsampling method.

Keywords：decorrelationscore;high-dimensional;massivedata;quantileregression;subsampling

目前海量數(shù)據(jù)的處理方式主要有三類方法：分布式計(jì)算[1-3]、子抽樣算法[47]和數(shù)據(jù)流估計(jì)[8-0]，其中子抽樣方法可減少資源消耗，提高處理速度，降低成本，保持?jǐn)?shù)據(jù)代表性，因而受到廣泛關(guān)注，并已取得了許多研究結(jié)果.例如：Fithian等[4]將子抽樣方法推廣到邏輯回歸中；Ma等[0]探討了子抽樣算法在線性回歸中參數(shù)估計(jì)的統(tǒng)計(jì)特性；Ai等和Fan等[2]分別將子抽樣算法應(yīng)用到廣義線性模型和線性分位回歸中，并在一般抽樣方法下建立了估計(jì)量漸近正態(tài)性的理論基礎(chǔ)；袁曉惠等[基于D-最優(yōu)準(zhǔn)則構(gòu)造了分位回歸中信息陣的最優(yōu)子抽樣方法；Wang等4構(gòu)造了基于L-最優(yōu)準(zhǔn)則下分位回歸模型的最優(yōu)子抽樣方法.雖然子抽樣算法在研究低維參數(shù)估計(jì)問(wèn)題方面取得了一些成果，但對(duì)高維海量數(shù)據(jù)分析方法的研究目前仍處于探索階段，例如，Gao等5]研究了廣義線性模型中在干擾參數(shù)影響下對(duì)關(guān)注的低維參數(shù)實(shí)施最優(yōu)子抽樣估計(jì)及推斷的統(tǒng)一框架，但其研究主要集中在廣義線性模型參數(shù)的估計(jì)，并未涉及其他類型的模型.

在眾多數(shù)據(jù)分析模型中，分位回歸6]因其能揭示響應(yīng)變量的全方位特征并從中獲取豐富信息而備受關(guān)注.它通常采用加權(quán)最小絕對(duì)差方法進(jìn)行估計(jì)，因而對(duì)離群點(diǎn)不敏感，能提供更穩(wěn)健的結(jié)果，從而得到廣泛關(guān)注.例如，Wang等]分析了縱向數(shù)據(jù)中部分線性變系數(shù)模型的分位估計(jì)；袁曉惠等在部分協(xié)變量隨機(jī)缺失機(jī)制下的分位回歸模型中，提出了回歸參數(shù)的誘導(dǎo)光滑加權(quán)估計(jì)及其漸近協(xié)方差估計(jì)；Wang等[s]針對(duì)刪失分位回歸提出了一種新的基于多重穩(wěn)健傾向得分的估計(jì)方法；Cheng等[20]提出了正則化的投影評(píng)分方法，以解決高維混雜協(xié)變量存在下分位回歸的參數(shù)估計(jì)問(wèn)題.但在高維海量數(shù)據(jù)下進(jìn)行分位回歸模型參數(shù)估計(jì)的研究目前文獻(xiàn)報(bào)道較少。鑒于此，本文考慮將去相關(guān)得分方程推廣到高維分位回歸最優(yōu)子抽樣中，對(duì)感興趣的低維參數(shù)進(jìn)行估計(jì)，并利用子抽樣方法提升計(jì)算效率，同時(shí)降低因干擾參數(shù)導(dǎo)致精度下降的問(wèn)題。

1方法

1.1高維分位回歸模型的去相關(guān)得分估計(jì)

在高維回歸模型中，參數(shù)的維度通常較高，但與響應(yīng)變量相關(guān)的協(xié)變量可能很少.那些非顯著影響響應(yīng)變量的協(xié)變量可視為混雜協(xié)變量.如何在高維回歸模型中有效地估計(jì)低維參數(shù)，是近年來(lái)統(tǒng)計(jì)學(xué)領(lǐng)域的研究熱點(diǎn).Zhang等[21]提出了一種半?yún)?shù)有效得分方法，用于構(gòu)建高維線性模型中低維系數(shù)的估計(jì)和置信區(qū)間；Ning等[22]提出了一種可用于稀疏高維模型中假設(shè)檢驗(yàn)和置信區(qū)間的去相關(guān)得分估計(jì)方法；Cheng等[20]提出了一種正則化投影得分方法，在存在高維混雜協(xié)變量的情況下，用于估計(jì)高維分位回歸中的低維感興趣參數(shù).

假設(shè)響應(yīng)變量為y，協(xié)變量為x=（uT，zT）T，其中u是已知的維數(shù)為d的低維感興趣協(xié)變量，z是維數(shù)為p的在預(yù)測(cè)響應(yīng)變量時(shí)可能產(chǎn)生干擾的高維混雜協(xié)變量.觀測(cè)數(shù)據(jù)為Fn={y1，u1，z}=1.本文考慮分位回歸模型：

其中Q（y|u1，z1）表示在給定協(xié)變量u和z1時(shí)y的r條件分位數(shù)，0表示感興趣的低維系數(shù)，γ表示干擾參數(shù).Cheng等[20]基于投影法構(gòu)造了0的去相關(guān)得分估計(jì)方程.與經(jīng)典的分位回歸方程不同，去相關(guān)得分方法可有效處理高維干擾參數(shù)的影響，得分方程為

其中函數(shù)ゅ（t）=I（lt;0）為p2（t）=ーI（lt;0）｝關(guān)于t的導(dǎo)數(shù).通過(guò)求解V（Hp，p6）=0，可得未知參數(shù)0的估計(jì)0g.

當(dāng)z的維數(shù)p較小時(shí)，矩陣H，可由下式得到：

未知參數(shù)γ的估計(jì)？F由下式得到：

當(dāng)z的維數(shù)p非常大時(shí)，可使用Lasso擬合多響應(yīng)線性回歸得到矩陣H的估計(jì)：

其中參數(shù)h，表示矩陣H∈Rd的第j列.未知參數(shù)γ的估計(jì)由如下懲罰估計(jì)算法得到：

計(jì)算過(guò)程的關(guān)鍵是求解式（1）中的和Hp.在低維情形下，通過(guò)迭代求解Ψ（Hg，7，0）=0計(jì)算.該算法僅在低維情形下有理想的估計(jì)效果，但對(duì)于高維情形，該方法性能欠佳.針對(duì)高維情形，Cheng等[20]引入了一步估計(jì)法對(duì)式（1）進(jìn)行修正，得到如下去相關(guān)得分函數(shù)：

其中表示基于方程（2）得到的初始估計(jì).設(shè)y=y-（Hz）T0-zr，則求解關(guān)鍵問(wèn)題n（HF，p，0）=0即等價(jià)于求解

估計(jì)0的漸近正態(tài)分布為

其中Q1=E[f（0|u，z）（u-Hoz）uT]，f（·|u，z）是ε=y-uT0o-zTYo的密度函數(shù)，D1=r（1-r）×E[（u-Hz）（u-H）].修正得分函數(shù)后由一步算法得到的估計(jì)6n的淅近正態(tài)分布為

其中Q2=E[f（0｜uz）（u-Hz）（u-H）].

1.2基于去相關(guān)得分函數(shù)的一般子抽樣算法

在海量數(shù)據(jù)情形下，傳統(tǒng)子抽樣算法不能直接應(yīng)用于得分方程中.Gao等[5]將去相關(guān)得分方法推廣到海量數(shù)據(jù)下的高維廣義線性模型中，構(gòu)造了關(guān)于感興趣低維參數(shù)的最優(yōu)子抽樣估計(jì)，提出了基于去相關(guān)得分函數(shù)的子抽樣算法.受此啟發(fā)，本文考慮海量數(shù)據(jù)下高維分位回歸模型參數(shù)的估計(jì)問(wèn)題，利用去相關(guān)得分函數(shù)降低不精確的干擾參數(shù)估計(jì)帶來(lái)的影響，并通過(guò)子抽樣算法提升收斂速率.以概率（滿足=1）抽取樣本容量為的子樣本集合相應(yīng)的概率為在去相關(guān)得分函數(shù)構(gòu)造中，如何尋找基于子樣本的投影矩陣H是關(guān)鍵，從理論上保證基于子樣本的參數(shù)估計(jì)的相合性和漸近正態(tài)性是一個(gè)難點(diǎn).對(duì)于z的維數(shù)p較小的情形，H*的估計(jì)*可由下式得到：

未知參數(shù)γ的估計(jì)？可由下式計(jì)算得到：

得到基于子樣本的初始分位回歸系數(shù)？*和投影矩陣H后，0的子抽樣去相關(guān)得分函數(shù)定義為

最后，根據(jù)式（4）求解方程（H，y，0）=0，得到未知參數(shù)0的估計(jì)0.

假設(shè)：

定理1假設(shè)條件（H1）～（H5）成立，則當(dāng)n→∞且r→∞時(shí)，在給定數(shù)據(jù)F的條件下，有

其中

證明：首先證明給定完全數(shù)據(jù)Fn時(shí)，H-H=O（r-1V2）.令

則可得E（H“Fn）=Hm，E（H2”Fn）=H2.將矩陣-的第j行第k列元素記為△，A，則E（△1.|Fn）=0.下面計(jì)算條件二階矩：

根據(jù)Chebyshev不等式可知，△，k=Op（r-12），從而-m=O（r-12）.類似地，可證明2-H2=O（r-12）.由于

因此可得

根據(jù)文獻(xiàn)[23]中定理1可知，0-0=O（r-12），y2-=O（r-2）.

令

下面證明：給定全數(shù)據(jù)Fn時(shí)，（H，2，02）=O（r-12）.計(jì)算可得

根據(jù)Chebyshev不等式可知，（H，Y0，0P）=O（r-2）.同理可證明

因此（H，7，02）=O（r-12）.下面證明（H，，0）的漸近正態(tài)性.記

則rn在給定全數(shù)據(jù)的條件下（1……）立同分布且E（n1|Fn）=Op（n-1/2），Var（n;|Fn）=D-o（1）.下面驗(yàn)證Lindeberg-Feller條件，對(duì)某個(gè)δgt;0及任意的gt;0，有

由Lindeberg-Feller中心極限定理可知，D-12（H，，0）→N（0，1）.根據(jù)式（5）和Slutsky定理可知，D-2（H，7F，0P）→N（0，I）.用重期望公式可得

因此

從而可得（Q-1DQ-T）-12（0-0）→N（0，1）.證畢.

當(dāng)p非常大時(shí)，H的估計(jì)效果可能會(huì)較差.可使用Lasso擬合多響應(yīng)線性回歸模型，估計(jì)投影矩陣H.對(duì)任何H*∈Rd，用h；表示其第j列，并通過(guò)下式估計(jì)H：

類似地，可通過(guò)懲罰估計(jì)γ：

在得到基于子樣本的初始分位回歸系數(shù)”和投影矩陣后，基于子樣本的一步估計(jì)方法得到，其漸近性質(zhì)如下.

定理2假設(shè)條件（H1）～（H4），（H。）成立，則當(dāng)n→∞且r→∞，并給定數(shù)據(jù)F。時(shí)，有

其中=l）

定理2的證明類似定理1，故略.

由于去相關(guān)得分函數(shù)得到修正，所以定理2中的0與Q有差異.可將修改去相關(guān)得分函數(shù)后得到的估計(jì)量0me視為從初始估計(jì)θ的一步更新.

1.3最優(yōu)去相關(guān)得分子抽樣概率

下面討論最優(yōu)子抽樣概率的計(jì)算方法.首先，基于L-最優(yōu)性準(zhǔn)則提出一種子抽樣概率的確定方法；其次，討論該方法的實(shí)現(xiàn)策略；最后，總結(jié)一種兩步算法.

由于定理1和定理2中的漸近協(xié)方差矩陣依賴于子抽樣概率，因此下面通過(guò)選擇最優(yōu)子抽樣概率，提出一種有效的子抽樣方法.通過(guò)最小化估計(jì)量0的漸近均方誤差獲取最優(yōu)子抽樣概率，即在定理1中min‖Var（0）‖=mintr（Q-1DQ-T），由于Q-1DQ-T中只有D與抽樣概率π，有關(guān)，所以argmin tr（）argmin tr（D）.，等，因此考慮通過(guò)最小化tr（D）尋求最優(yōu)子抽樣概率，即L-最優(yōu)性準(zhǔn)則，旨在優(yōu)化子抽樣概率以提高估計(jì)效率.下面根據(jù)L-最優(yōu)性準(zhǔn)則確定最優(yōu)子抽樣概率.

定理3假設(shè)定理1的條件成立，則在L-最優(yōu)準(zhǔn)則下，抽樣概率形式為

證明：在L-最優(yōu)準(zhǔn)則下，通過(guò)最小化tr（D）計(jì)算最優(yōu)的子抽樣概率，

其中，最后一步源于Cauchy-Schwarz不等式，當(dāng)且僅當(dāng)πc|u一Hpz，時(shí)等號(hào)成立.證畢.

1.4兩步算法

根據(jù)定理3可知，最優(yōu)子抽樣概率元是基于協(xié)變量的信息計(jì)算得出的，與響應(yīng)變量y，無(wú)關(guān).該最優(yōu)概率不僅適用于低維情形，也適用于高維情形.式（7）中，最優(yōu)抽樣概率依賴于感興趣協(xié)變量u、干擾協(xié)變量z；及投影矩陣Hp.由于該抽樣概率不能直接得到，因此本文提出如下兩步算法解決該問(wèn)題.

算法1最優(yōu)去相關(guān)得分子抽樣算法.

步驟1）執(zhí)行均勻子抽樣以獲取r。個(gè)子樣本，基于該r。個(gè)樣本估計(jì)式（7）中的子抽樣概率，對(duì)于子抽樣概率中未知的Hr，由式（3）或式（6）計(jì)算得到.替換原定理3中的H，為H\"，計(jì)算L-最優(yōu)性準(zhǔn)則下的近似最優(yōu)子抽樣概率.

步驟2）根據(jù)步驟1）中計(jì)算得到的子抽樣概率，選取r個(gè)子樣本（y；u；，zi）-1，基于上述子樣本用式（4）求解方程；（H\"，y，0）=0估計(jì)參數(shù)0.

2模擬研究

下面利用數(shù)值模擬評(píng)估本文估計(jì)方法在有限樣本容量下的性能，以驗(yàn)證去相關(guān)得分子抽樣算法在實(shí)際應(yīng)用中的可行性和準(zhǔn)確性.本文主要考察干擾參數(shù)的影響，分為低維（p=10）和高維（p=700）兩種情形討論.

由下式生成大小為n=105的數(shù)據(jù)樣本：

其中u；表示低維感興趣協(xié)變量，z稱為干擾協(xié)變量，二者皆源自多元正態(tài)分布，（6，62，θ3）=（3，3，3）T和y分別為感興趣低維參數(shù)和干擾參數(shù)，p表示干擾維數(shù)，對(duì)式（8）的隨機(jī)誤差項(xiàng)e，，考慮以下3種分布類型：

誤差1）ε；服從正態(tài)分布，ε；～N（0，1）；

誤差2）ε；服從自由度為3的t分布，ε～t（3）；

誤差3）e;服從異方差正態(tài)分布，e，=（1+2Z2）Za，其中Za～N（0，1），Z2～Bernoulli（0.5），且Zn和Z，2相互獨(dú)立.

在產(chǎn)生隨機(jī)數(shù)前，先對(duì)未知干擾參數(shù)向量y設(shè)定一個(gè)真值，在低維情形下令（y1，y2，y3，.，y，）=（3，3，3，0，……，0），在高維情形下令（y1，Y2，Ya，……，Y，-1）=（0，0，0，……，0）.

下面運(yùn)行本文提出的兩步算法，在兩種干擾情形下算法1的步驟1）中，均先選取子樣本r。=200，以估計(jì)在L-最優(yōu)準(zhǔn)則下的近似最優(yōu)子抽樣概率，再執(zhí)行步驟2），分別考慮抽取r=200，400，600，800，1 000個(gè)樣本，完成抽樣后，利用算法1對(duì)參數(shù)進(jìn)行估計(jì)，并重復(fù)實(shí)驗(yàn)M=500次，計(jì)算參數(shù)估計(jì)的平均值.表1和表2分別列出了低維和高維情形下基于最優(yōu)抽樣所得估計(jì)參數(shù)的偏差（Bias）和標(biāo)準(zhǔn)差（SD）（本文只列出了r=0.3時(shí)的結(jié)果，且保留四位小數(shù)）.圖1～圖6分別為不同分位點(diǎn)處估計(jì)參數(shù)在兩種干情形和3種不同差下的總均方誤M中MSE-表示第m個(gè)子抽樣估計(jì)，0表示參數(shù)的真值.

在兩種不同干擾情形下，由表1和表2及圖1～圖6可見(jiàn)：本文提出的最優(yōu)子抽樣方法得到的每個(gè)估計(jì)參數(shù)的SD均隨子樣本量的增加而不斷減小，說(shuō)明該方法的估計(jì)性能隨樣本量的增加而變得更好，且估計(jì)結(jié)果是無(wú)偏的；在不同分位點(diǎn)r=0.3，0.5，0.7時(shí)，所估計(jì)參數(shù)的MSE均隨子樣本的增加而逐漸減小，且本文提出的最優(yōu)抽樣方法得到估計(jì)的MSE均比基于均勻子抽樣得到的MSE小，這與定理3最小化估計(jì)量0的MSE理論結(jié)果一致.模擬結(jié)果表明，本文提出的最優(yōu)子抽樣策略顯著優(yōu)于均勻子抽樣.

3實(shí)證分析

下面將本文提出的子抽樣算法應(yīng)用于來(lái)自UCI存儲(chǔ)庫(kù)的博客反饋數(shù)據(jù)集（https：/archive.ics.uci.edu/ml/datasets/BlogFeedback）.該數(shù)據(jù)集收錄了2010-2011年期間的博客數(shù)據(jù)，其中包含n=52397個(gè)樣本和p=280個(gè)協(xié)變量.目標(biāo)是預(yù)測(cè)給定博客的反饋數(shù)量與280個(gè)協(xié)變量之間的關(guān)系.

Wang等3分析該數(shù)據(jù)集的結(jié)果表明，博客的評(píng)論數(shù)（y）主要受3個(gè)特定協(xié)變量（在過(guò)去24h內(nèi)對(duì)消息來(lái)源評(píng)論數(shù)量的中位數(shù)x1；消息來(lái)源在過(guò)去48～24h內(nèi)的評(píng)論數(shù)與在過(guò)去24h內(nèi)的評(píng)論數(shù)之間的平均差異x2；在過(guò)去24h內(nèi)對(duì)消息來(lái)源的評(píng)論數(shù)x3）的顯著影響.本文在Wang等[23]實(shí)證分析的基礎(chǔ)上，在分位回歸模型中添加23個(gè)對(duì)響應(yīng)變量預(yù)測(cè)精準(zhǔn)度較低的協(xié)變量作為干擾協(xié)變量，在進(jìn)行數(shù)據(jù)分析前，先對(duì)響應(yīng)變量和所有協(xié)變量進(jìn)行標(biāo)準(zhǔn)化處理.

在r=0.5分位點(diǎn)處，采用本文提出的算法對(duì)博客數(shù)據(jù)集進(jìn)行建模分析.設(shè)r=400，r=200，400，600，800，重復(fù)計(jì)算500次并取均值.由于在真實(shí)的數(shù)據(jù)場(chǎng)景中，通常無(wú)法直接獲得模型參數(shù)的真實(shí)值，因此本文采取一種實(shí)用的替代方法：利用從全數(shù)據(jù)中得到的參數(shù)估計(jì)值替代未知的真實(shí)值.考察上述3個(gè)特定的協(xié)變量，并在全數(shù)據(jù)的基礎(chǔ)上對(duì)它們進(jìn)行參數(shù)估計(jì).根據(jù)全數(shù)據(jù)下的分析，這3個(gè)協(xié)變量在全數(shù)據(jù)下的參數(shù)估計(jì)值分別為0.0307，0.0582，0.2249.該結(jié)果表明，響應(yīng)變量y與這3個(gè)協(xié)變量之間均存在正向的關(guān)聯(lián)性.即這些協(xié)變量的增加傾向于與響應(yīng)變量y的增加相關(guān)聯(lián)，從而得到了對(duì)數(shù)據(jù)內(nèi)在關(guān)系更深刻的理解.表3列出了最優(yōu)子抽樣方法針對(duì)3個(gè)低維感興趣協(xié)變量參數(shù)估計(jì)的Bias和SD值.圖7為這些協(xié)變量參數(shù)估計(jì)的MSE隨子樣本大小變化的趨勢(shì).由表3可見(jiàn)，隨著子樣本量的增加，基于最優(yōu)子抽樣方法參數(shù)估計(jì)的標(biāo)準(zhǔn)差逐漸降低，該結(jié)果證實(shí)了所推導(dǎo)的漸近協(xié)方差矩陣在實(shí)際應(yīng)用中的有效性.由圖7可見(jiàn)，無(wú)論哪種抽樣方法，估計(jì)值的MSE均隨子樣本量的增加而減少.此外，本文提出的最優(yōu)子抽樣策略得到的MSE始終低于均勻子抽樣方法得到的MSE，該結(jié)果進(jìn)一步驗(yàn)證了最優(yōu)子抽樣策略在實(shí)際應(yīng)用中的顯著優(yōu)勢(shì).

綜上，本文將去相關(guān)得分方程推廣到了高維分位回歸模型的子抽樣中，該方法可估計(jì)高維分位回歸模型子抽樣中的低維預(yù)測(cè)參數(shù).首先推導(dǎo)了一般去相關(guān)得分子樣本估計(jì)量的漸近性質(zhì)，然后根據(jù) L-最優(yōu)準(zhǔn)則給出了最優(yōu)子抽樣概率，并提出了一種兩步算法來(lái)近似最優(yōu)的去相關(guān)得分子抽樣概率.為節(jié)約計(jì)算成本，在模擬實(shí)驗(yàn)中先固定算法第一步的較小子樣本量r0，再逐步增加算法第二步的子樣本量r.模擬研究結(jié)果表明，相比于均勻子抽樣方法，本文方法優(yōu)勢(shì)顯著.最后，將本文方法應(yīng)用于真實(shí)的博客數(shù)據(jù)集，實(shí)證結(jié)果表明，本文提出的最優(yōu)子抽樣策略可很好地在真實(shí)情形下估計(jì)感興趣低維參數(shù).在實(shí)際應(yīng)用中，推薦采用一步估計(jì)法，因?yàn)樗茱@著提高海量高維數(shù)據(jù)分析的計(jì)算效率，能更有效地處理大規(guī)模數(shù)據(jù)集.

參考文獻(xiàn)

[1]LIN N，XI R B.Aggregated Estimating Equation Estimation[J].Statistics and Its Interface，2011，4（1）：73-83.

[2] CHEN X Y.XIE M G.A Split-and-Conquer Approach for Analysis of Extraordinarily Large Data[J].Statistica Sinica，2014，24（4）：1655-1684.

[3]XU Q F，CAI C，JIANG C X，etal.Block Average Quantile Regression for Massive Dataset[J].Statistical Papers，2020，61（1）：141-165.

[4] FITHIAN W，HASTIET.Local Case-Control Sampling：Efficient Subsampling in Imbalanced Data Sets[J].The Annals of Statistics，2014，42（5）：1693-1724.

[5]WANG Y，ZHU R，MA P.Optimal Subsampling for Large Sample Logistic Regression[J].Journal of the American Statistical Association，2018，113：829-844.

[6]YUAN X H，LIY，DONG X G，etal.Optimal Subsampling for Composite Quantile Regression in Big Data[J].Statistical Papers，2022，63（5）：1649-1676.

[7]JONES L.H.Investigating the Properties of a Sample Mean by Employing Random Subsample Means[J].Journal of the American Statistical Association，1956，51：54-83.

[8]SCHIFANO E D.WU J，WANG C，etal.Online Updating of Statistical Inference in the Big Data Setting[J].Technometrics，2016，58（3）：393-403.

[9]LUO L，ZHOU L.SONG P X K.Real-Time Regression Analysis of Streaming Clustered Data with Possible Abnormal Data Batches[J].Journal of the American Statistical Association，2023，118：2029-2044.

[10]MA P.MAHONEY W M，YU B.A Statistical Perspective on Algorithmic Leveraging[J].Journal of Machine Learning Research，2015，16：861-911.

[11]AI M，YU J，ZHANG H，etal.Optimal Subsampling Algorithms for Big Data Regessions[J].Statistica Sinica，2021，31（2）：749-772.

[12]FAN Y.LIU Y K，ZHU L X.Optimal Subsampling for Linear Quantile Regression Models[J].Canadian Journal of Statistics，2021，49（4）：1039-1057.

[13]袁曉惠，郭偉，王純杰.大數(shù)據(jù)分位數(shù)回歸下基于信息陣的最優(yōu)子抽樣[J].東北師大學(xué)報(bào)（自然科學(xué)版），202355（3）：30-36.（YUAN XH，GUO W，WANG C J.Information Matrix Based Optimal Subsampling for Big Data Quantile Regression[J].Journal of Northeast Normal University（Natural Science Edition），2023，55（3）：30-36.）

[14]WANG H Y，MA Y Y.Optimal Subsampling for Quantile Regression in Big Data[J].Biometrika，2021.108（1）：99-112.

[15]GAO J Z，WANG L W，LIAN H.Optimal Decorrelated Score Subsampling for Generalized Linear Models with Massive Data[J].Science China Mathematics，2024，67（2）：405-430.

[16]KOENKER R，BASSETT G，Jr.Regression Quantiles[J].Econometrica，1978，46（1）：33-50.

[17]WANG J H，MENDEL F.Inference for Censored Quantile Regression Models in Longitudinal Studies[J].The Annals of Statistics，2009，37（2）：756-781.

[18]袁曉惠，劉天慶。協(xié)變量缺失下基于誘導(dǎo)光滑方法的加權(quán)分位數(shù)回歸[J].，2016，54（6）：1314-1322.（YUAN X H，LIU T Q.Weighted Quantile Regression Based on Induced Smoothing Method with Missing Covariates[J].Journal of Jilin University（Science Edition），2016，54（6）：1314-1322.）

[19]WANG X R，QIN G Y，SONG X Y，etal.Censored Quantile Regression Based on Multiply Robust Propensity Scores[J].Statistical Methods in Medical Research，2022，31（3）：475-487.

[20]CHENG C，F(xiàn)ENG X D，HUANG J，etal.Regularized Projection Score Estimation of Treatment Effects in High-Dimensional Quantile Regression[J].Statistica Sinica，2022，32（1）：23-41.

[21]ZHANG C H，ZHANG SS.Confidence Intervals for Low Dimensional Parameters in High Dimensional Linear Models[J].Journal of the Royal Statistical Society：Series B（Statistical Methodology），2014，76（1）：217-242.

[22]NING Y，LIU H.A General Theory of Hypothesis Tests and Confidence Regions for Sparse High Dimensional Models[J].The Annals of Statistics，2017，45（1）：158-195.

[23]WANG L，ELMSTEDT J，WONG W K，etal.Orthogonal Subsampling for Big Data Linear Regression[J].The Annals of Applied Statistics，2021，15（3）：1273-1290.

（責(zé)任編輯：李琦）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

分位回歸基于最優(yōu)去相關(guān)得分的子抽樣算法