摘要:考慮在帶有碎片協(xié)變量的右刪失數(shù)據(jù)下比例風(fēng)險(xiǎn)模型的模型平均問題,先利用極大似然估計(jì)方法對(duì)模型中的參數(shù)進(jìn)行估計(jì),再采用基于信息準(zhǔn)則的模型平均方法選取權(quán)重。模擬結(jié)果表明,模型平均方法相比于模型選擇方法預(yù)測精度更高。并通過乳腺癌實(shí)例分析驗(yàn)證了該方法的優(yōu)越性和可行性.
關(guān)鍵詞:右刪失數(shù)據(jù);碎片協(xié)變量;模型平均;比例風(fēng)險(xiǎn)模型;信息準(zhǔn)則
中圖分類號(hào):O212文獻(xiàn)標(biāo)志碼:A文章編號(hào):1671-5489(2024)05-1091-11
Model Averaging Method for Right-Censored Datawith Fragmentary Covariates
WANG Shuying,ZHOULifang,CHENGYunfei
(School of Mathematics and Statistics,Changchun University of Technology,Changchun 130012,China)
Abstract:We considered the model averaging problem of the proportional hazard model in the right-censored data with fragmentary covariates.We first used the maximum likelihood estimation method to estimate the parameters in the model,and then used the model averaging method based on the information criterion to select the weights.The simulation results show that the model averaging method has higher prediction accuracy than the model selection method,and the superiority and feasibility of the proposed method are verified by the analysis of breast cancer examples.
Keywords:right-censoreddata;fragmentarycovariate;modelaveraging;proportional hazard model;information criterion
在生存分析中,由于獲得生存數(shù)據(jù)的實(shí)驗(yàn)設(shè)計(jì)、觀測時(shí)間的局限,以及觀測對(duì)象在進(jìn)入或退出實(shí)驗(yàn)時(shí)個(gè)體差異等因素的影響,使得所關(guān)注的事件通常不能獲得精確的觀測時(shí)間,這類數(shù)據(jù)稱為刪失數(shù)據(jù).其中右刪失數(shù)據(jù)是指在進(jìn)行隨訪中,只能獲取到個(gè)體的起始時(shí)間,無法準(zhǔn)確觀測到事件終點(diǎn)的時(shí)間,即個(gè)體生存時(shí)間未知,只已知大于觀察時(shí)間.比例風(fēng)險(xiǎn)模型(proportional hazards(PH)model)]是右刪失數(shù)據(jù)回歸問題中的一種常見模型,它可以同時(shí)考慮多種因素對(duì)個(gè)體生存時(shí)間的影響,且不同受試者組的危險(xiǎn)率成比例,與時(shí)間無關(guān),因此得到廣泛關(guān)注[2-5]
在傳統(tǒng)統(tǒng)計(jì)建模中,存在模型不確定性的問題,處理該類問題目前常用的方法是模型選擇,通常先利用如AIC(Akaike information criterion)和BIC(Bayesian information criterion)等準(zhǔn)則從候選模型集中選出預(yù)測誤差最小的單個(gè)模型,再對(duì)單個(gè)模型進(jìn)行一系列的統(tǒng)計(jì)推斷,但模型選擇過程中存在不確定性,會(huì)嚴(yán)重影響建模的科學(xué)性和穩(wěn)健性,降低預(yù)測精度.為克服模型選擇方法的不足,減少有用信息的遺失,一種有效的解決方法是模型平均,模型平均主要包括Bayes模型平均(Bayesian modelaveraging,BMA)和頻率模型平均(frequentist model averaging,F(xiàn)MA)[6].目前,Bayes模型平均方法已得到廣泛關(guān)注,但其模型假設(shè)十分復(fù)雜,并難以從理論上證明其漸近性質(zhì),因此越來越多的研究者開始關(guān)注頻率模型平均.例如:Buckland等7]在基于AIC和BIC信息準(zhǔn)則的基礎(chǔ)上,提出了光滑的AIC(S-AIC)和光滑的BIC(S-BIC)模型平均方法;Hjort等考慮了建模偏差,在極大似然估計(jì)的框架下證明了頻率模型平均的漸近性;Hansen提出了基于Mallows準(zhǔn)則的權(quán)重選擇方法,從組合嵌套模型中獲得最小二乘估計(jì)值;Deng等10]引入了一個(gè)新的模型選擇標(biāo)準(zhǔn),即FIC(focused informationcriterion);朱容等研究了部分函數(shù)線性模型的模型平均方法,提出了該模型下最優(yōu)權(quán)重的選擇準(zhǔn)則,并證明了模型平均估計(jì)量的漸近最優(yōu)性.
上述模型平均方法均假設(shè)個(gè)體協(xié)變量都是完全觀測到的,而近年來碎片數(shù)據(jù)應(yīng)用越來越廣泛,其主要特征是并非每個(gè)個(gè)體都有相同的協(xié)變量.這種碎片數(shù)據(jù)在統(tǒng)計(jì)學(xué)中也稱為分塊缺失數(shù)據(jù)[2].處理這類數(shù)據(jù)最簡單的方法是刪除所有具有缺失值的樣本,但這會(huì)丟棄大量有用的信息并極大減少分析中的樣本數(shù)量.因此,研究者們提出了各種插補(bǔ)方法,通過可用數(shù)據(jù)估計(jì)缺失值[13-15],Lin等[16]提出了迭代最小二乘估計(jì)(ILSE),用于估計(jì)有個(gè)體特定缺失模式和高比例缺失數(shù)據(jù)的回歸系數(shù).Fang等研究表明,碎片數(shù)據(jù)中并非所有抽樣對(duì)象都有相同的預(yù)測變量,并提出了一種基于頻率模型平均的新方法;Yuan等[18]基于這類碎片數(shù)據(jù)為經(jīng)典Mallows模型平均(MMA)中的Mallows準(zhǔn)則引入了偏差,提出了一種新的Mallows模型平均方法,并將該方法從線性回歸模型推廣到廣義線性模型[9],基于上述研究結(jié)果,本文考慮在帶有碎片協(xié)變量右刪失數(shù)據(jù)的框架下,使用基于信息準(zhǔn)則的模型平均方法對(duì)比例風(fēng)險(xiǎn)模型進(jìn)行統(tǒng)計(jì)推斷,以避免選擇單一模型產(chǎn)生的誤差,并為帶碎片協(xié)變量刪失數(shù)據(jù)的分析開辟一個(gè)新思路.
1數(shù)據(jù)、模型及似然函數(shù)
本文主要考慮帶有碎片協(xié)變量的右刪失數(shù)據(jù),其示例列于表1.隨機(jī)樣本由n個(gè)受試者組成,T為生存時(shí)間,在生存分析中假設(shè)刪失時(shí)間為C,T和C是獨(dú)立的連續(xù)隨機(jī)變量.記T為個(gè)體i的生存時(shí)間,C為個(gè)體i的刪失時(shí)間.個(gè)體觀測時(shí)間T=min{T,C},8=I(T≤C)是示性變量,6=1表示精確觀測,否則為右刪失.D={X,j=1,2,··,p}表示協(xié)變量集.響應(yīng)指標(biāo)R={1,2,·,K},其中R=k(k=1,2,·,K)表示可觀察到協(xié)變量{X,j∈△},△是D={1,2,··,p}的子集,K是所有響應(yīng)變量類型的個(gè)數(shù).
表1中有K=4種響應(yīng)模式,令D為受試者i觀察到的協(xié)變量集合,則
以此類推.={i:D1=△}表示具有響應(yīng)模式R=k的個(gè)體集,因此{(lán)1.2.,n}=,且當(dāng)k≠l時(shí),=O.S={:D1△}表示可用協(xié)變量△的個(gè)體集,表1中,
本文考慮帶碎片協(xié)變量右刪失數(shù)據(jù)下的比例風(fēng)險(xiǎn)模型:
其中i=1,2,·,n,ho(t)表示任意的基準(zhǔn)風(fēng)險(xiǎn)率,h(t|X1)表示第i個(gè)個(gè)體t時(shí)刻的風(fēng)險(xiǎn)率,β為p維未知參數(shù)向量.
假設(shè)事件發(fā)生時(shí)間內(nèi)不存在“結(jié)”,將患者的生存時(shí)間按增長的順序排列:t1lt;t2lt;..lt;t,定義時(shí)間t1時(shí)的風(fēng)險(xiǎn)集R(t1)為{j:t≥t1},它表示在t;時(shí)刻前仍處于研究中所有個(gè)體的集合,d;表示在t1時(shí)刻失效的個(gè)體數(shù).則模型(1)對(duì)應(yīng)的生存函數(shù)為
其中
進(jìn)一步,若R(t;)中的某個(gè)個(gè)體在t;時(shí)刻死亡,則具有協(xié)變量X1的個(gè)體在t;時(shí)刻死亡的條件概率為
右刪失數(shù)據(jù)下的偏似然函數(shù)為
對(duì)數(shù)似然函數(shù)為
其中β為未知參數(shù).對(duì)β求偏導(dǎo)數(shù):
由非線性方程)0可得的大似然估計(jì)
下面基于S-AIC(smoothed AIC)和S-BIC(smoothed BIC)的模型平均方法分別對(duì)包含所有協(xié)變量的個(gè)體(R=1)和包含部分協(xié)變量的個(gè)體(Rgt;1)進(jìn)行預(yù)測.
2對(duì)R=1的個(gè)體進(jìn)行預(yù)測
在帯有碎片協(xié)變量的右刪失數(shù)據(jù)2={(xr,6),i=1,2.……n,j∈D}下對(duì)包含所有協(xié)變量的個(gè)體(R=1)進(jìn)行預(yù)測,其中x,r分別表示對(duì)變量X1和響應(yīng)模式R的觀測值,D;表示第i個(gè)個(gè)體觀察到的協(xié)變量集合.對(duì)R=1的個(gè)體,考慮K個(gè)候選模型(即所有響應(yīng)變量類型的個(gè)數(shù)),第k個(gè)候選模型為
其中k=1,2,……,K表示候選模型的個(gè)數(shù),B表示第k個(gè)候選模型中協(xié)變量的回歸系數(shù),X=(xy:iES,jEA)ER“XP,且n=”S“表示某種類型響應(yīng)變量可用的個(gè)體數(shù),p=”△|表示某種類型響應(yīng)變量包含的協(xié)變量個(gè)數(shù).則第k個(gè)候選模型下的對(duì)數(shù)似然函數(shù)為
再通過極大化對(duì)數(shù)似然函數(shù)獲得B=(,,……,B),得到每個(gè)候選模型下的對(duì)數(shù)似然函數(shù)估計(jì)值為
其中xi=(x:iEξ,jEΔ).
實(shí)踐中的建模策略是首先基于信息標(biāo)準(zhǔn)從K個(gè)候選模型中選擇一個(gè)最合適的模型,然后使用選擇的模型推斷潛在的生存函數(shù).在模型選擇中,最常用的是AIC和BIC準(zhǔn)則,其表達(dá)式分別為
其中2.表示模型k的極大似然函數(shù)估計(jì)值,M,表示模型k中未知參數(shù)的個(gè)數(shù).根據(jù)AIC,值和BIC值分別對(duì)所有模型進(jìn)行排序,最小的AIC,值和BIC,值所對(duì)應(yīng)的模型即為最優(yōu)模型.
使用模型選擇方法可能會(huì)遺失一些重要信息,導(dǎo)致模型預(yù)測結(jié)果不準(zhǔn)確,為解決該問題,本文選用模型平均的方法得到參數(shù)估計(jì)值,然后采用基于S-AIC和S-BIC的模型平均方法計(jì)算組合權(quán)重:
其中k表示第k個(gè)候選模型,c是模型平均中第k個(gè)候選模型的權(quán)重,xIC表示AIC或BIC.設(shè)ω=(ω),……,ωK)T是K個(gè)模型的權(quán)重向量,并限制在如下集合中:
其中v表示K個(gè)模型的權(quán)重向量集合,則模型平均后參數(shù)β的估計(jì)值為
3對(duì)Rgt;1的個(gè)體進(jìn)行預(yù)測
下面考慮對(duì)包含部分協(xié)變量的個(gè)體(R=1)進(jìn)行預(yù)測,即D\"=△,此時(shí)可用的協(xié)變量為(X,,jEA,),并將不屬于△,的協(xié)變量除外,在基于(X,,jEA)協(xié)變量的基礎(chǔ)上進(jìn)行模型平均.
為驗(yàn)證本文方法,考慮對(duì)表1中R=2的個(gè)體進(jìn)行預(yù)測,此時(shí)可用的協(xié)變量為D*=(X1,X2,X3,X4,Xs),模型平均過程中將不屬于△2的協(xié)變量除外,因此產(chǎn)生一個(gè)新的碎片數(shù)據(jù)2(2)如表2所示.表2中,
因此當(dāng)對(duì)R=2的個(gè)體進(jìn)行預(yù)測時(shí),考慮K2)=3個(gè)候選模型,第k個(gè)候選模型可用的協(xié)變量為{x:iES2),jEΔ2)},其中
下面在給定碎片數(shù)據(jù)Q0=1(x,r,8),i=1,2,……,n,jEDP)下對(duì)R=1的個(gè)體進(jìn)行預(yù)測,其中D表示第;個(gè)個(gè)體所觀察到協(xié)變量△,的集合.對(duì)R=1的個(gè)體,考慮K0個(gè)候選模型,第k個(gè)候選模型所用的協(xié)變量為x=(xg:iES,jE△)ERPxPP,其中SP=(i:D①2△P),n=“S”表示某種類型的響應(yīng)變量可用的個(gè)體數(shù),p=“△”表示某種類型的響應(yīng)變量包含的協(xié)變量個(gè)數(shù).先用極大似然法得到第k個(gè)候選模型的參數(shù)估計(jì)值B,然后針對(duì)R=l的個(gè)體得到各候選模型下的對(duì)數(shù)似然函數(shù)值為
其中x=(x:i∈5,j∈)
下面采用基于S-AIC和S-BIC的模型平均方法計(jì)算組合權(quán)重:
其中w表示對(duì)R=l的個(gè)體進(jìn)行預(yù)測時(shí)第k個(gè)候選模型的權(quán)重,k表示第k個(gè)候選模型,xIC表示AIC或BIC.設(shè)の=(……o)是K個(gè)模型的權(quán)重向量,并限制在如下集合中
則模型平均后參數(shù)βD的估計(jì)值為
4模擬研究
下面用模擬研究驗(yàn)證模型平均方法的有效性,并將其與模型選擇方法進(jìn)行比較.數(shù)據(jù)T由以下模型生成:
其中i∈En,n=||表示某種類型響應(yīng)變量包含的個(gè)體數(shù),基準(zhǔn)風(fēng)險(xiǎn)函數(shù)設(shè)為h。(t)=0.04t,j∈△k,pA=“△”表示某種類型響應(yīng)變量包含的協(xié)變量數(shù),這里考慮共有8個(gè)協(xié)變量,即j=8,且變量(xn,x,·,x)由E(x)=0,Var(x)=1的標(biāo)準(zhǔn)正態(tài)分布生成.本文考慮3種情形,在每種情形下8個(gè)協(xié)變量均分成4組,則K=8,并對(duì)每種類型的個(gè)體分別進(jìn)行預(yù)測.令C服從均勻分布U~(0,c),其中c控制刪失率,在樣本量為300和600的條件下令刪失比例分別約為10%和45%,模擬循環(huán)1000次.
情形1)僅包含1個(gè)必選協(xié)變量.第一組包含的協(xié)變量僅有變量X1,并始終可用,第二組包含的協(xié)變量為X2,X3,第三組包含的協(xié)變量為X4,X5,第四組包含的協(xié)變量為X6,X7,X8.當(dāng)X2lt;0.3,X4lt;0.3,Xglt;0.3時(shí),第二、三、四組包含的協(xié)變量分別可用.必選協(xié)變量的參數(shù)真值均設(shè)為0.4,其他候選協(xié)變量的參數(shù)真值均設(shè)為0.1.
情形2)包含2個(gè)必選協(xié)變量.第s組包含的協(xié)變量為X2(-1)+1~X23(5=1,2,3,4),第一組協(xié)變量始終可用.當(dāng)X3lt;0.3,X3lt;0.3,X7lt;0.3時(shí),第二、三、四組包含的協(xié)變量分別可用.必選協(xié)變量的參數(shù)真值均設(shè)為0.4,其他候選協(xié)變量的參數(shù)真值均設(shè)為0.1.
情形3)包含3個(gè)必選協(xié)變量.第一組包含的協(xié)變量為X1,X2,X3,并始終可用,第二組包含的協(xié)變量為X4,X5,第三組包含的協(xié)變量為Xg,X2,第四組包含的協(xié)變量為Xg.當(dāng)X4lt;0.3,Xlt;0.3,X3lt;0.3時(shí),第二、三、四組包含的協(xié)變量分別可用.必選協(xié)變量的參數(shù)真值均設(shè)為0.4,其他候選協(xié)變量的參數(shù)真值設(shè)為0.1,0.1,0.1,-0.1,0.2.
在模擬研究中,先分別計(jì)算每種情形下各候選模型的AIC和BIC值,并利用S-AIC和S-BIC法計(jì)算每種情形下各候選模型的權(quán)重,再計(jì)算模擬循環(huán)1000次后不同方法感興趣指標(biāo)的均方根誤差(root mean squared error,RMSE),即
其中K①表示對(duì)第1個(gè)個(gè)體進(jìn)行預(yù)測時(shí)候選模型的個(gè)數(shù),表示第1個(gè)個(gè)體第j次循環(huán)中感興趣參數(shù)的估計(jì)值,表示第1個(gè)個(gè)體第j次循環(huán)中感興趣參數(shù)的真值,表示對(duì)第1個(gè)個(gè)體進(jìn)行預(yù)測時(shí)第k個(gè)候選模型第j次循環(huán)的權(quán)重.
本文主要考慮兩個(gè)指標(biāo):估計(jì)協(xié)變量參數(shù)的歐氏距離‖a‖=√+··+和當(dāng)協(xié)變量為0.2、時(shí)間為5時(shí)的生存概率S(·)={S0(t)}(x).最終模擬結(jié)果分別列于表3~表5.
表3~表5分別列出了4種方法S-AIC,S-BIC,AIC,BIC對(duì)不同類型個(gè)體的預(yù)測結(jié)果,由于對(duì)3種情形中第8種類型的個(gè)體進(jìn)行預(yù)測時(shí),候選模型的個(gè)數(shù)均僅有一個(gè),無法體現(xiàn)模型平均方法的優(yōu)勢,因此在模擬中不考慮對(duì)這類個(gè)體的預(yù)測.其中,S-AIC和S-BIC為模型平均方法,AIC和BIC為模型選擇方法.由表3~表5可得以下結(jié)論:
1)無論哪種情形,基于S-AIC和S-BIC模型平均方法的RMSE值在大多數(shù)情況下都比模型選擇方法的RMSE值小,說明S-AIC和S-BIC的模型平均方法優(yōu)于基于AIC和BIC的模型選擇方法.
2)由模擬結(jié)果可見,S-AIC比S-BIC的RMSE值普遍小,表明基于S-AIC的模型平均方法優(yōu)于基于S-BIC的模型平均方法.
3)當(dāng)樣本量不變,增加刪失比時(shí),基于模型平均和模型選擇方法兩種指標(biāo)下的RMSE值在大多數(shù)情況下有一定幅度的增大,而當(dāng)刪失比不變,增加樣本量時(shí),上述4種方法下各指標(biāo)的RMSE值基本都逐漸減小,表明參數(shù)估計(jì)值更接近真值,不同類型個(gè)體的生存概率預(yù)測值也更接近真實(shí)的生存概率值,說明這4種方法隨著樣本量的增加估計(jì)效果都變得更好,估計(jì)精度均有提高.
模擬結(jié)果表明,無論在哪種情形下,基于S-AIC和S-BIC的模型平均方法均比基于AIC和BIC的模型選擇方法更有優(yōu)勢,這主要是因?yàn)槟P推骄椒紤]了所有協(xié)變量的信息,避免了模型選擇過程帶來的不確定性.
5實(shí)例分析
下面利用Schumacher等[20]分析的乳腺癌數(shù)據(jù)集進(jìn)行實(shí)例分析,以進(jìn)一步驗(yàn)證模型平均方法相比于模型選擇方法的優(yōu)越性.該數(shù)據(jù)來自一項(xiàng)原發(fā)性乳腺癌實(shí)驗(yàn):從1984年7月到1989年12月,德國乳腺癌研究組(German breast cancer study group,GBSG)招募了686例原發(fā)性淋巴結(jié)陽性乳腺癌患者,以研究乳腺癌的治療和臨床試驗(yàn)中的重要預(yù)后因素.
該數(shù)據(jù)集可在R軟件survival包中找到,原始數(shù)據(jù)集中共有686名患者,10個(gè)變量分別為rfstime(患者的生存時(shí)間)、status(生存狀態(tài))、age(年齡)、meno(更年期狀態(tài),0表示更年期前,1表示更年期后)、tsize(腫瘤大小/mm)、tgrade(腫瘤水平因子,水平1lt;水平2lt;水平3)、pnodes(正節(jié)點(diǎn)個(gè)數(shù))、pgr(孕酮受體個(gè)數(shù))、er(雌激素受體個(gè)數(shù))、horTH(是否進(jìn)行激素治療).本文考慮其中8個(gè)變量(age,meno,tsize,tgrade,pnodes,pgr,er,horTH)預(yù)后因素的相對(duì)重要性.結(jié)合文獻(xiàn)[20]的研究發(fā)現(xiàn),pnodes,pgr,horTH3個(gè)變量對(duì)乳腺癌疾病有重要影響,因此本文將上述變量作為必選協(xié)變量,并對(duì)連續(xù)性變量(age,tsize,pnodes,pgr,er)進(jìn)行標(biāo)準(zhǔn)化處理.同時(shí),考慮到原始數(shù)據(jù)集中不存在任何缺失值,因此設(shè)置隨機(jī)數(shù)種子并選擇隨機(jī)刪除部分?jǐn)?shù)據(jù)使其變得碎片化,缺失率為40%,最終產(chǎn)生25=32個(gè)候選模型.
本文主要對(duì)D=(age,meno,tsize,tgrade,pnodes,pgr,er,horTH)的個(gè)體進(jìn)行分析,分別用S-AIC,S-BIC,AIC和BIC方法計(jì)算每個(gè)變量的系數(shù)估計(jì)值及其置信水平為95%的置信區(qū)間,由于在模型選擇過程中AIC和BIC均選擇了同一個(gè)候選模型,因此將這兩種方法的結(jié)果合并在同一列中,所得結(jié)果列于表6.
由表6可見:變量pnodes系數(shù)估計(jì)值較大,表明正節(jié)點(diǎn)數(shù)與乳腺癌的發(fā)生呈正相關(guān),即正節(jié)點(diǎn)數(shù)越多,患乳腺癌的風(fēng)險(xiǎn)越大;變量pgr和horTH的系數(shù)估計(jì)值為負(fù)值,表明孕酮受體個(gè)數(shù)越多患乳腺癌的可能性越小,接受激素治療也可降低患乳腺癌的風(fēng)險(xiǎn),這與Sauerbrei等[21]的研究結(jié)果一致.此外,Sauerbrei等[21]和Royston等[22]的研究充分肯定了變量age,meno,tsize,tgrade,er對(duì)患者患乳腺癌風(fēng)險(xiǎn)的影響.Sauerbrei等[21]指出40歲前,患者年齡越小,患乳腺癌的風(fēng)險(xiǎn)越高,同時(shí),腫瘤越大,腫瘤水平越高,患乳腺癌的可能性也越大.Royston等[22]研究表明,患者處在更年期或者雌激素受體個(gè)數(shù)越少時(shí)患乳腺癌的風(fēng)險(xiǎn)也越高.而在基于AIC和BIC的模型選擇過程中均不包括變量age,meno,tsize,tgrade,er,說明模型選擇過程中遺失了重要信息的影響.
為比較4種方法AIC,BIC,S-AIC和S-BIC的預(yù)測性能,本文從每種類型的個(gè)體中分別依次隨機(jī)抽取75%,80%,85%的個(gè)體,將其組合成訓(xùn)練數(shù)據(jù)進(jìn)行模型擬合,再利用極大似然估計(jì)方法對(duì)未知參數(shù)進(jìn)行估計(jì).將剩余個(gè)體作為測試數(shù)據(jù)進(jìn)行預(yù)測,其中訓(xùn)練集數(shù)據(jù)的樣本量設(shè)為n。,所占比例為π,則測試集的樣本量為n-n,所占比例為1-π,n為整體樣本量.然后,使用基于信息準(zhǔn)則的模型選擇和模型平均方法對(duì)D=(age,meno,tsize,tgrade,pnodes,pgr,er,horTH)的個(gè)體生存概率進(jìn)行預(yù)測,對(duì)該過程循環(huán)500次,并計(jì)算生存概率預(yù)測值的均值、中位數(shù)和標(biāo)準(zhǔn)差,結(jié)果列于表7.
由表7可見,隨著訓(xùn)練集樣本量的增加,基于模型平均方法預(yù)測得到的患者生存概率值標(biāo)準(zhǔn)差低于基于模型選擇方法得到的生存概率值標(biāo)準(zhǔn)差,其中基于S-AIC的模型平均方法小于基于S-BIC的模型平均方法預(yù)測得到的生存概率值標(biāo)準(zhǔn)差,表明基于S-AIC的模型平均方法預(yù)測結(jié)果更穩(wěn)健.這主要是因?yàn)槟P推骄椒紤]了所有變量信息,而模型選擇方法只考慮了部分變量信息.因此,基于S-AIC和S-BIC的模型平均方法估計(jì)穩(wěn)健性更強(qiáng).
綜上,本文主要研究了帶有碎片協(xié)變量的右刪失數(shù)據(jù)下比例風(fēng)險(xiǎn)模型的模型平均方法,先使用極大似然估計(jì)法對(duì)模型中的未知參數(shù)進(jìn)行估計(jì),再使用基于信息準(zhǔn)則的模型平均方法對(duì)候選模型的權(quán)重進(jìn)行計(jì)算.模擬和實(shí)例研究結(jié)果表明,基于S-AIC和S-BIC的模型平均方法普遍優(yōu)于基于S-AIC和S-BIC的模型選擇方法,其中S-AIC方法估計(jì)效果更好,這主要是因?yàn)槟P推骄紤]了所有變量的信息,而模型選擇只考慮了部分協(xié)變量的影響。在傳統(tǒng)的模型平均方法中,一般在樣本量相同的情況下根據(jù)協(xié)變量的個(gè)數(shù)構(gòu)建候選模型,而本文提出的方法各候選模型在參數(shù)估計(jì)時(shí)使用不同的樣本量,且候選模型的個(gè)數(shù)依賴響應(yīng)變量類型的個(gè)數(shù),同時(shí)對(duì)每種類型的個(gè)體分別進(jìn)行預(yù)測,當(dāng)個(gè)體類型數(shù)較多時(shí),可能使計(jì)算更復(fù)雜.
參考文獻(xiàn)
[1]COX D R.Regression Models and Life-Tables[J].Journal of the Royal Statistical Society:Series B(Methodological),1972,34(2):187-202.
[2]GENTLEMAN R,CROWLEY J.Local Full Likelihood Estimation for the Proportional Hazards Model[J].Biometrics,1991,47(4):1283-1296.
[3] GU C.Penalized Likelihood Hazard Estimation:A General Procedure[J].Statistica Sinica,1996,6(4):861-876.
[4]FAN J Q,GIJBELS I,KING M.Local Likelihood and Local Partial Likelihood in Hazard Regression[J].The Annals of Statistics,1997,25(4):1661-1690.
[5] SLEEPER L A,HARRINGTON D P.Regression Splines in the Cox Model with Application to Covariate Effects in Liver Disease[J].Journal of the American Statistical Association,1990,85:941-949.
[6]張新雨,鄒國華.模型平均方法及其在預(yù)測中的應(yīng)用[J].統(tǒng)計(jì)研究,2011,28(6):97-102.(ZHANGXY,ZOU G H.Model Averaging Method and Its Application in Forecast[J].Statistical Research,2011,28(6):97-102.)
[7]BUCKLAND S T,BURNHAM K P.AUGUSTIN N H.ModelSelection:An Integral Part of Inference[J].Biometrics,1997,53(2):603-618.
[8]HJORT N L,CLAESKENS G.Frequentist Model Average Estimators[J].Journal of the American Statistical Association,2003,98:879-899.
[9]HANSEN B E.Least Squares Model Averaging[J].Econometrica,2007,75(4):1175-1189.
[10]DENG G H,LIANG H.Model Averaging for Semiparametric Additive Partial Linear Models[J].Science China Mathematics,2010,53(5):1363-1376.
[11]朱容,鄒國華,張新雨,部分函數(shù)線性模型的模型平均方法[J].系統(tǒng)科學(xué)與數(shù)學(xué),2018,38(7):777-800.(ZHU R,ZOU G H,ZHANG X Y.Optimal Model Averaging Estimation for Partial Functional Linear Models[J].Journal of Systems Science and Mathematical Sciences,2018,38(7):777-800.)
[12]FANG F.BAO S L.FragmGAN:Generative Adversarial Nets for Fragmentary Data Imputation and Prediction[J].Statistical Theory and Related Fields,2024,8(1):15-28.
[13]SCHNEIDER T.Analysis of Incomplete Climate Data:Estimation of Mean Values and Covariance Matrices and Imputation of Missing Values[J].Journal of Climate,2001,14(5):853-871.
[14]SCHOTT J M,BARTLETT J W,BARNES J,etal.Reduced Sample Sizes for Atrophy Outcomes in Alzheimer's Disease Trials:Baseline Adjustment[J].Neurobiology of Aging,2010,31(8):1452-1462.
[15]ZHU X F.ZHANG S C,JIN Z,etal.Missing Value Estimation for Mixed-Attribute Data Sets[J].IEEE Transactions on Knowledge and Data Engineering,2010,23(1):110-121.
[16]LIN H Z,LIU W,LAN W.Regression Analysis with Individual-Specific Patterns of Missing Covariates[J].Journal of Businessamp;Economic Statistics,2021,39(1):179-188.
[17]FANG F.LAN W,TONG J J.et al.Model Averaging for Prediction with Fragmentary Data[J].Journal of Business Economic Statistics,2019,37(3):517-527.
[18]YUAN C X,F(xiàn)ANG F,NI L.Mallows Model Averaging with Effective Model Size in Fragmentary Data Prediction[J].Computational Statisticsamp;.Data Analysis,2022,173(9):107497-1-107497-18.
[19]YUAN C X.WU Y,F(xiàn)ANG F.Model Averaging for Generalized Linear Models in Frag mentary Data Prediction[J].Statistical Theory and Related Fields,2022,6(4):344-352.
[20]SCHUMACHER M,BASTERT G,BOJAR H,etal.Randomized 2X2 Trial Evaluating Hormonal Treatment and the Duration of Chemotherapy in Node-Positive Breast Cancer Patients.German Breast Cancer Study Group[J].Journal of Clinical Oncology,1994,12(10):2086-2093.
[21]SAUERBREI W,ROYSTON P,BOJAR H,etal.Modelling the Effects of Standard Prognostic Factors in Node-Positive Breast Cancer[J].British Journal of Cancer,1999,79(11/12):1752-1760.
[22]ROYSTON P.ALTMAN D G.External Validation of a Cox Prognostic Model:Principles and Methods[J].BMC Medical Research Methodology,2013,13:31-1-31-15.
(責(zé)任編輯:李琦)