国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

縱向缺失數(shù)據(jù)下高維部分線性回歸模型的變量選擇

2020-06-10 12:13:10田瑞琴徐登可
關(guān)鍵詞:高維數(shù)據(jù)模型單調(diào)

田瑞琴,徐登可

(1. 杭州師范大學(xué)理學(xué)院,浙江 杭州 311121; 2. 浙江農(nóng)林大學(xué)理學(xué)院,浙江 杭州 311300)

0 引言

縱向數(shù)據(jù)廣泛地產(chǎn)生于經(jīng)濟(jì)學(xué)、醫(yī)學(xué)、生物學(xué)和社會(huì)學(xué)等領(lǐng)域,它是指同一個(gè)體在不同時(shí)間點(diǎn)上觀測獲得的重復(fù)觀測數(shù)據(jù).由于數(shù)據(jù)結(jié)構(gòu)中的重復(fù)觀測性質(zhì),容易導(dǎo)致其產(chǎn)生數(shù)據(jù)的缺失.例如,有些研究個(gè)體會(huì)在某次實(shí)驗(yàn)缺席或者在實(shí)驗(yàn)結(jié)束之前退出研究.最簡單的處理缺失數(shù)據(jù)的思想是直接對完全觀測數(shù)據(jù)進(jìn)行分析.但是,當(dāng)缺失數(shù)據(jù)的機(jī)制不是完全隨機(jī)缺失時(shí),所得的統(tǒng)計(jì)推斷結(jié)果會(huì)出現(xiàn)較大的偏差.近年來對縱向缺失數(shù)據(jù)的研究發(fā)現(xiàn),單調(diào)缺失和非單調(diào)缺失是兩種主要的缺失模式,其中單調(diào)缺失主要是指在實(shí)驗(yàn)中部分研究個(gè)體因?yàn)槟撤N原因在某一個(gè)時(shí)刻退出該實(shí)驗(yàn)后再也沒回來繼續(xù)實(shí)驗(yàn),這樣獲得的缺失數(shù)據(jù)稱為單調(diào)缺失數(shù)據(jù),否則稱之為非單調(diào)缺失數(shù)據(jù).例如,文[1]研究老年癡呆癥疾病,由于病人發(fā)展成癡呆患者而放棄了該項(xiàng)研究,所獲得的數(shù)據(jù)即為單調(diào)缺失數(shù)據(jù).目前針對縱向缺失數(shù)據(jù)模型的參數(shù)估計(jì)問題已有不少研究,但是大多集中在協(xié)變量維數(shù)是固定的情況下.Robins等[2]針對非單調(diào)缺失機(jī)制下縱向數(shù)據(jù)半?yún)?shù)模型,基于逆概率加權(quán)廣義估計(jì)方程(IPW-GEE)研究分析了模型的參數(shù)估計(jì)問題.Qu等[3]基于無偏估計(jì)函數(shù)方法對具有隨機(jī)缺失的相關(guān)數(shù)據(jù)模型提出了一種有效的參數(shù)估計(jì)方法.文[4-7]也對此類相關(guān)問題展開了研究.

另外,很多學(xué)者針對協(xié)變量是發(fā)散維的高維縱向數(shù)據(jù)回歸模型進(jìn)行了變量選擇研究.例如,Xu等[8]針對協(xié)變量發(fā)散維的相關(guān)二元數(shù)據(jù)模型,提出了一種基于懲罰加權(quán)最小二乘的變量選擇方法.Dziak[9]針對高維縱向數(shù)據(jù)模型提出了基于SCAD懲罰二次推斷函數(shù)的變量選擇方法.Yang等[10]針對高維部分線性模型提出了Dantzig變量選擇方法,最后能同時(shí)獲得參數(shù)部分和非參數(shù)部分的估計(jì).Wang[11]針對協(xié)變量是發(fā)散維的高維縱向數(shù)據(jù)模型,拓展了廣義估計(jì)方程分析方法的漸近理論.Tian等[12]針對高維數(shù)據(jù)下縱向部分線性回歸模型,基于光滑閾廣義估計(jì)方程方法研究分析了模型的變量選擇.綜上所述,目前針對帶有缺失數(shù)據(jù)或高維數(shù)據(jù)的縱向數(shù)據(jù)回歸模型的研究成果已經(jīng)比較豐富,但甚少涉及缺失數(shù)據(jù)下高維縱向回歸模型的變量選擇問題.現(xiàn)有的變量選擇方法大部分是基于懲罰函數(shù)(例如SCAD懲罰、Adaptive LASSO懲罰等)進(jìn)行壓縮估計(jì).由于懲罰函數(shù)在0點(diǎn)是奇異的,所以基于懲罰估計(jì)的變量選擇算法就要面臨去解決一個(gè)涉及非凸函數(shù)最優(yōu)化的問題.為了解決這個(gè)問題,Ueki[13]提出了一種基于光滑閾估計(jì)方程(SEE)的變量選擇方法.這種方法能自動(dòng)地剔除不重要的變量,同時(shí)得到重要變量的參數(shù)估計(jì),并且此變量選擇算法中不涉及凸優(yōu)化的問題.Lai等[14]將這種光滑閾估計(jì)方程思想應(yīng)用到縱向數(shù)據(jù)單指標(biāo)模型上.Li等[15]和Tian等[16]基于光滑閾估計(jì)方程思想并結(jié)合廣義估計(jì)方程分別研究分析了縱向數(shù)據(jù)下廣義線性模型和縱向數(shù)據(jù)下變系數(shù)部分線性模型的變量選擇.

本文針對單調(diào)缺失數(shù)據(jù)下縱向高維部分線性回歸模型,結(jié)合逆概率加權(quán)廣義估計(jì)方程和Ueki[13]的變量選擇思想,提出了一種基于逆概率加權(quán)光滑閾廣義估計(jì)方程(IPW-SGEE)的變量選擇方法,其中非參數(shù)部分使用樣條方法逼近.該方法具有下列3個(gè)特點(diǎn):第一,因?yàn)椴簧婕巴购瘮?shù)最優(yōu)化問題,所以算法實(shí)現(xiàn)相對簡便,且獲得估計(jì)具有Oracle性質(zhì).第二,將Ueki提出的光滑閾估計(jì)方程方法[13]進(jìn)行了推廣,使其應(yīng)用到協(xié)變量是發(fā)散維且響應(yīng)變量是單調(diào)缺失的縱向數(shù)據(jù)半?yún)?shù)回歸模型中.第三,與Wang[11]方法比較,本文方法分析了半?yún)?shù)回歸模型.半?yún)?shù)回歸模型既具有參數(shù)模型的優(yōu)點(diǎn),也具有非參數(shù)回歸模型的優(yōu)點(diǎn),因此有更廣泛的實(shí)際應(yīng)用價(jià)值.

本文首先介紹模型和缺失機(jī)制,以及基于逆概率加權(quán)光滑閾估計(jì)方程的變量選擇方法.然后在一些正則條件下研究給出該IPW-SGEE變量選擇方法的漸近理論性質(zhì),并詳細(xì)列出獲得IPW-SGEE估計(jì)的迭代計(jì)算算法.最后通過隨機(jī)模擬研究驗(yàn)證了該方法的有限樣本性質(zhì).

1 模型和缺失機(jī)制

對于高維縱向數(shù)據(jù),考慮如下部分線性模型:

(1)

這里考慮響應(yīng)變量Yij缺失,當(dāng)Rij=1,Yij可觀測;Rij=0,Yij缺失.進(jìn)一步考慮Yij是單調(diào)隨機(jī)缺失,即當(dāng)Rij=0時(shí),意味著Rik=0且k≥j.另外假定,對于所有個(gè)體初始時(shí)刻均可以觀測,即Ri1=1(i=1,…,n).對于缺失數(shù)據(jù)問題一般考慮隨機(jī)缺失機(jī)制,即假定

(2)

2 IPW-SGEE方法

類似于He等[17],利用樣條回歸逼近非參數(shù)分量f(·).具體地,設(shè)B(u)=(B1(u),…,BL(u))T是階數(shù)為M的B-樣條基函數(shù),其中L=K+M,K為內(nèi)節(jié)點(diǎn)個(gè)數(shù).B-樣條基具有有界支撐且計(jì)算穩(wěn)定[18].節(jié)點(diǎn)選擇是樣條光滑方法中很重要的一個(gè)部分,按照文[17],本文節(jié)點(diǎn)的個(gè)數(shù)取為N1/5的整數(shù)部分.f(Tij)可以由B(Tij)Tθ逼近,其中θ∈RL是樣條回歸系數(shù)向量.由此,回歸模型 (1)可表示為:

(3)

(WTA-1W)-1WTA-1(Y-Xβn),

在單調(diào)缺失框架下,按照Robins等[2]的思想,采用逆概率加權(quán)廣義估計(jì)方程(IPW-GEE)方法.具體地,關(guān)于βn的IPW-GEE 函數(shù)為:

其中Πi=diag{Rij/πij(α),j=1,…,mi},用于校正由缺失數(shù)據(jù)造成的偏差.然而,本文的主要目標(biāo)是同時(shí)估計(jì)和選擇重要的協(xié)變量,并且為了避免懲罰估計(jì)所帶來的非凸函數(shù)最優(yōu)化的問題,基于SEE思想,關(guān)于參數(shù)βn構(gòu)造如下的逆概率加權(quán)光滑閾廣義估計(jì)方程(IPW-SGEE):

(Ipn-Δ)Un(βn,α,ρ)+Δβn=0,

(4)

其中Δ是對角線元素為δ=(δj)j=1,…,pn的對角矩陣,Ipn是pn維的單位陣.注意到,式(4)中第j(j=1,…,pn)個(gè)方程,如果δj=1,那么有βnj=0.這就說明式(4)可以得到稀疏解.

(5)

(6)

3 漸近性質(zhì)

1)參數(shù)向量α是緊集空間Γ上的內(nèi)點(diǎn).

2)非參數(shù)函數(shù)f(·)是r階可導(dǎo),其中r≥2.

4)存在正常數(shù)c1和c2使得

其中λmin(或者λmax)表示矩陣的最小(或者最大)特征值.

5)對所有的pn,存在正常數(shù)c3和c4使得

其中λmin(或者λmax)表示矩陣的最小(或者最大)特征值.

6)P(Rij=1|Yi,Xi,Ti) 有界遠(yuǎn)離0.

ii)漸近正態(tài)性,即

注2定理1和定理2的證明可參見文獻(xiàn)[12]和[23].

4 迭代算法

4.1 計(jì)算算法

為得到式(6)中參數(shù)βn的IPW-SGEE估計(jì),需要得到相關(guān)參數(shù)α和ρ的相合估計(jì).首先,通過極大似然估計(jì)方法得到缺失模型參數(shù)α的估計(jì).然后,使用迭代算法估計(jì)βn和ρ.按照文[19],利用校正矩方法估計(jì)ρ.定義如下皮爾遜殘差

(7)

當(dāng)相關(guān)結(jié)構(gòu)是AR(1)時(shí),工作矩陣R(ρ)的第(t,t+1)個(gè)元素的估計(jì)為

進(jìn)而,迭代計(jì)算具體步驟如下.

步驟4通過式(8)獲得βn的更新估計(jì):

(8)

步驟5重復(fù)步驟3~4直到滿足收斂條件,并且記最終的估計(jì)為IPW-SGEE估計(jì).

4.2 調(diào)整參數(shù)的選擇

使用BIC準(zhǔn)則[20]選擇調(diào)整參數(shù)(λ,γ),其中具體的BIC準(zhǔn)則定義如下:

(9)

5 模擬研究

以下主要通過隨機(jī)模擬實(shí)驗(yàn)來驗(yàn)證上文所述逆概率加權(quán)光滑閾廣義估計(jì)方程方法的有限樣本性質(zhì).產(chǎn)生數(shù)據(jù)的模型如下:

(10)

響應(yīng)變量Yij單調(diào)隨機(jī)缺失,并且假定每個(gè)個(gè)體在初始時(shí)刻都是可觀測的.缺失數(shù)據(jù)模型為logit(λij)=α0+α1Yi,j-1,其中λij=P(Rij=1|Ri,j-1=1,Yi,j-1),參數(shù)真值α1=-3,α0的真值分別取5和1,相應(yīng)的缺失比例分別約為26%和40%.

表1 真實(shí)相關(guān)結(jié)構(gòu)為CS時(shí)高維部分線性模型 (10)的變量選擇結(jié)果Tab.1 Variable selections for high-dimensional partially linear model (10) when the true correlation structure is exchangeable

續(xù)表1

表 2 真實(shí)相關(guān)結(jié)構(gòu)為AR(1)時(shí)高維部分線性模型(10)的變量選擇結(jié)果Tab.2 Variable selections for high-dimensional partially linear model (10) when the true correlation structure is AR(1)

續(xù)表 2

由表1和表2可得:1)即使在錯(cuò)誤指定工作相關(guān)矩陣下,隨著ρ的增大,IPW-SGEE方法的變量選擇效果也越來越好.2)隨著缺失比例變小,IPW-SGEE、IPWSCAD和IPWLasso這3種變量選擇效果也變得越好.另外,與IPWSCAD和IPWLasso方法相比,IPW-SGEE變量選擇方法在各個(gè)指標(biāo)方面的表現(xiàn)效果都要較好一些.3)在正確指定相關(guān)結(jié)構(gòu)下,IPW-SGEE方法的變量選擇效果稍好于錯(cuò)誤指定相關(guān)結(jié)構(gòu)下的效果.這也說明本文所提出的方法并不顯著地依賴工作相關(guān)結(jié)構(gòu).

猜你喜歡
高維數(shù)據(jù)模型單調(diào)
數(shù)列的單調(diào)性
數(shù)列的單調(diào)性
對數(shù)函數(shù)單調(diào)性的應(yīng)用知多少
一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
面板數(shù)據(jù)模型截面相關(guān)檢驗(yàn)方法綜述
加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
電子測試(2017年12期)2017-12-18 06:35:36
基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
高維Kramers系統(tǒng)離出點(diǎn)的分布問題
旋轉(zhuǎn)擺的周期單調(diào)性
中方县| 惠州市| 武冈市| 仁寿县| 灌南县| 资讯 | 康平县| 安泽县| 德庆县| 股票| 玛纳斯县| 扬中市| 望谟县| 大荔县| 和龙市| 蕉岭县| 广汉市| 五指山市| 淳化县| 耿马| 潞西市| 香格里拉县| 成安县| 子长县| 丹凤县| 景洪市| 永嘉县| 铁岭县| 永宁县| 嘉祥县| 丰镇市| 宽城| 枣庄市| 石嘴山市| 汤原县| 道孚县| 卢湾区| 广德县| 通化县| 晋城| 辛集市|