哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室(150086) 肖亞明 陳永杰 王玉鵬 劉美娜
?
分類變量缺失數(shù)據(jù)處理方法有效性的比較研究*
哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室(150086) 肖亞明 陳永杰 王玉鵬 劉美娜△
【提 要】 目的 比較刪除法(deletion methods,DM)、基于對數(shù)線性模型的多重填補(bǔ)法(multiple imputation of category variables using log-linear model,MILL)及基于潛在類別模型的多重填補(bǔ)法(multiple imputation based on latent class model,MILC)處理分類變量缺失數(shù)據(jù)的效果,并將MILC應(yīng)用于實(shí)例數(shù)據(jù)的分析。方法 利用R語言產(chǎn)生不同缺失機(jī)制、缺失率和樣本含量的多變量缺失模擬數(shù)據(jù),運(yùn)用DM、MILL和MILC處理形成完整數(shù)據(jù)集并進(jìn)行l(wèi)ogistic回歸分析,通過回歸系數(shù)的偏倚、均方根誤差、穩(wěn)定度和標(biāo)準(zhǔn)誤偏倚評價各方法的處理效果。結(jié)果 模擬實(shí)驗(yàn)表明當(dāng)缺失率為5%時,三種方法處理效果均較好;隨著缺失率的增大,MILL和MILC的各項(xiàng)評價指標(biāo)均優(yōu)于DM,且MILC的準(zhǔn)確度高于MILL。三種方法處理效果均表現(xiàn)為完全隨機(jī)缺失優(yōu)于隨機(jī)缺失、樣本含量1000優(yōu)于樣本含量500。應(yīng)用MILC對實(shí)例數(shù)據(jù)填補(bǔ)后標(biāo)準(zhǔn)誤減小,回歸系數(shù)估計更準(zhǔn)確。結(jié)論 本文應(yīng)用MILL和MILC兩種多重填補(bǔ)方法處理分類變量缺失數(shù)據(jù)均可減少缺失導(dǎo)致的參數(shù)估計偏倚。當(dāng)缺失率>5%、樣本含量1000時,建議應(yīng)用MILC處理分類變量缺失數(shù)據(jù)。
【關(guān)鍵詞】分類變量 缺失數(shù)據(jù) 多重填補(bǔ) 潛在類別模型 對數(shù)線性模型
缺失數(shù)據(jù)問題普遍存在于橫斷面研究、隊(duì)列研究和實(shí)驗(yàn)性研究[1],尤其在問卷調(diào)查中,即使對調(diào)查設(shè)計和問卷進(jìn)行了嚴(yán)謹(jǐn)?shù)目蒲性O(shè)計,被調(diào)查者仍易忽略題目或不作答而導(dǎo)致數(shù)據(jù)缺失,這對統(tǒng)計分析中的參數(shù)估計、檢驗(yàn)效能有不同程度的影響[2]。刪除法(deletion method,DM)直接刪除含缺失值的個體以期得到完整數(shù)據(jù)集,是應(yīng)用最廣且簡單易行的缺失數(shù)據(jù)處理方法,也是幾乎所有統(tǒng)計軟件默認(rèn)的方法。隨著人們對缺失數(shù)據(jù)的認(rèn)識加深,缺失數(shù)據(jù)處理方法的策略不斷推新,Rubin[3]首次提出多重填補(bǔ)(multiple imputation),經(jīng)過Schafer,Meng等人完善并綜合形成系統(tǒng)理論,成為目前處理缺失數(shù)據(jù)的基本思想。基于對數(shù)線性模型的多重填補(bǔ)法(multiple imputation of category variables using log-linear model,MILL)[4]以飽和對數(shù)線性模型作為填補(bǔ)模型,易于理解和實(shí)現(xiàn);基于潛在類別模型的多重填補(bǔ)法[5](multiple imputation based on latent class model,MILC)結(jié)合潛在類別模型和多重填補(bǔ)的思想對數(shù)據(jù)進(jìn)行填補(bǔ),參數(shù)估計較飽和對數(shù)線性模型簡單且靈活。目前國內(nèi)沒有MILL和MILC的比較研究,本文擬針對刪除法、MILL及MILC進(jìn)行數(shù)據(jù)模擬和處理效果評價,為分類變量缺失數(shù)據(jù)的處理提供相應(yīng)依據(jù),并將MILC應(yīng)用于慢性心力衰竭的院內(nèi)死亡影響因素的研究。
多重填補(bǔ)法的基本思想:通過填補(bǔ)模型為每個缺失值產(chǎn)生M個可能的填補(bǔ)值,形成M個完整數(shù)據(jù)集,通過分析模型對每個完整數(shù)據(jù)集進(jìn)行分析得到參數(shù)集,綜合M個參數(shù)集[3]進(jìn)行最終的統(tǒng)計推斷。
1.基于對數(shù)線性模型的多重填補(bǔ)法
對數(shù)線性模型主要通過對列聯(lián)表單元格的頻數(shù)取對數(shù)分析變量間的關(guān)系,這些關(guān)系可包含變量的高階交互項(xiàng),當(dāng)模型中涵蓋變量間所有高階交互項(xiàng)時稱該模型為飽和模型。MILL處理缺失數(shù)據(jù)時首先對不含缺失的完整數(shù)據(jù)集進(jìn)行對數(shù)線性模型分析得到原始各響應(yīng)變量的類別概率(response category probability),應(yīng)用貝葉斯原理從這一參數(shù)的后驗(yàn)分布中獲取M個參數(shù);分別根據(jù)每個參數(shù)對含缺失的個體進(jìn)行填補(bǔ)值的抽取。
2.基于潛在類別模型的多重填補(bǔ)法
潛在類別模型(latent class model,LCM)是利用潛在類別解釋外顯變量之間復(fù)雜關(guān)聯(lián)性分析方法,屬于潛變量分析的一種。Vermunt首次將LCM作為填補(bǔ)模型對分類變量缺失數(shù)據(jù)進(jìn)行多重填補(bǔ),填補(bǔ)模型中加入指示變量rij表示數(shù)據(jù)缺失情況,rij=1表示yij有觀測值,rij=0表示觀測值缺失,MILC模型見公式(1)。
MILC填補(bǔ)步驟[5-6]:首先對含缺失的數(shù)據(jù)集進(jìn)行非參bootstrap抽樣獲得M個數(shù)據(jù)集;每一數(shù)據(jù)集經(jīng)過LCM分析計算潛在類別概率和外顯變量的條件概率;觀測根據(jù)后驗(yàn)類別屬性概率(posterior class membership probabilities)分類到適當(dāng)?shù)臐撛陬悇e中,計算公式見公式(2);含缺失的觀測根據(jù)所在潛在類別中變量的多項(xiàng)分布概率為缺失值選取填補(bǔ)值。
1.參數(shù)設(shè)置
(1)原始數(shù)據(jù)
因變量y和五個自變量x1~x5均為二分類變量,取值為0、1;自變量x1~x5間相關(guān)關(guān)系滿足對數(shù)線性模型,見公式(3);因變量由logistic回歸模型產(chǎn)生,見公式(4)。
(2)缺失數(shù)據(jù)
自變量x1和x2設(shè)置為缺失變量。缺失機(jī)制為MAR時,x1的缺失與x3及x4相關(guān),x2的缺失與x5及y相關(guān),參數(shù)設(shè)置見公式(5)和(6)。
(3)樣本含量設(shè)置為500、1000;缺失機(jī)制設(shè)置為MAR、MCAR;單變量缺失率設(shè)置為5%、20%、40%;填補(bǔ)次數(shù)M =5次;MILC中潛在類別個數(shù)K =5;各參數(shù)組合均重復(fù)模擬500次。
2.評價指標(biāo)
評價指標(biāo)包括參數(shù)偏倚,穩(wěn)定度,均方根誤差和標(biāo)準(zhǔn)誤偏倚。
3.軟件實(shí)現(xiàn)
模擬實(shí)驗(yàn)MILL選擇飽和模型,使用R語言“cat”軟件包[7]實(shí)現(xiàn)。MILC實(shí)現(xiàn)的軟件很多,如Latent GOLD 4.0/4.5[3],LEM,Mplus及R語言“poLCA”軟件包[8],本文模擬實(shí)驗(yàn)采用Latent GOLD 4.5。
4.模擬實(shí)驗(yàn)結(jié)果
表1可見三種方法處理數(shù)據(jù)的偏倚隨著缺失率的增大而增大,樣本含量大時偏倚減小,缺失機(jī)制為MAR的偏倚比MCAR大,總體上βa的偏倚小于βb及βbc。當(dāng)缺失率為5%時,DM與兩種多重填補(bǔ)法相比參數(shù)估計的偏倚較小,處理效果較佳;隨著缺失率的增大,DM法偏倚明顯增大,MILL和MILC的偏倚也隨之增大,但均優(yōu)于DM。
隨著缺失率的增大,三種方法處理后參數(shù)的準(zhǔn)確度下降,缺失機(jī)制MCAR比MAR的參數(shù)準(zhǔn)確度高;樣本含量1000的RMSE比樣本含量500?。籑ILC和MILL處理后的βb和βbc估計準(zhǔn)確度明顯優(yōu)于DM,見表2。
表3可見隨著缺失率的增大,三種方法處理后的參數(shù)穩(wěn)定性變差;樣本含量1000比樣本含量500的參數(shù)更穩(wěn)定;缺失機(jī)制MAR和MCAR的穩(wěn)定度相近;樣本含量500、缺失率為40%時,DM的參數(shù)穩(wěn)定性極差,MILC和MILL保持了β系數(shù)的穩(wěn)定估計。
樣本含量為500時,MILL和MILC標(biāo)準(zhǔn)誤偏倚明顯小于DM,MILL處理效果稍優(yōu)于MILC;樣本含量為1000時,三種方法的標(biāo)準(zhǔn)誤偏倚均減小,MILC小于MILL;三種方法處理后的標(biāo)準(zhǔn)誤偏倚均隨缺失率的增大而增大,MCAR條件下標(biāo)準(zhǔn)誤偏倚整體上小于MAR,見表4。
表1 不同缺失數(shù)據(jù)處理方法各參數(shù)條件下logistic回歸系數(shù)的Bias結(jié)果
表2 不同缺失數(shù)據(jù)處理方法各參數(shù)條件下logistic回歸系數(shù)的RMSE結(jié)果
表3 不同缺失數(shù)據(jù)處理方法各參數(shù)條件下logistic回歸系數(shù)的sd結(jié)果
表4 不同缺失數(shù)據(jù)處理方法各參數(shù)條件下logistic回歸系數(shù)的bse結(jié)果
本文實(shí)例數(shù)據(jù)來自20家三甲醫(yī)院中診斷為慢性心力衰竭(chronic heart failure,CHF)的病歷資料,共收集1896例,其中心功分級缺失833例,缺失率為43.9%,入院時病情缺失34例,缺失率為1.8%。本文應(yīng)用MILC處理含缺失值的實(shí)例數(shù)據(jù),填補(bǔ)前后的兩水平邏輯回歸分析慢性心力衰竭發(fā)生院內(nèi)死亡的影響因素結(jié)果見表5:填補(bǔ)后各回歸系數(shù)標(biāo)準(zhǔn)誤較填補(bǔ)前低,非高血壓CHF患者院內(nèi)死亡率高,具有統(tǒng)計學(xué)意義。
表5 DM和MILC實(shí)例數(shù)據(jù)分析結(jié)果
刪除法是一種最簡單最常見的分類變量缺失數(shù)據(jù)處理方法。當(dāng)樣本量大、缺失率低且缺失機(jī)制為完全隨機(jī)缺失時,缺失的數(shù)據(jù)相當(dāng)于原始數(shù)據(jù)集的一個隨機(jī)子集,數(shù)據(jù)缺失對結(jié)果造成的影響小,但在不同程度上會增大參數(shù)的標(biāo)準(zhǔn)誤;當(dāng)缺失機(jī)制為隨機(jī)缺失時刪除數(shù)據(jù)后參數(shù)估計值可發(fā)生明顯的變化,因此在處理分類變量缺失數(shù)據(jù)時應(yīng)避免直接刪除含缺失的個體數(shù)據(jù)。
多重填補(bǔ)是處理缺失數(shù)據(jù)的重要思想,能保留觀測到的所以數(shù)據(jù),同時考慮到填補(bǔ)值的不確定性,是目前處理缺失數(shù)據(jù)的首選方法。本文比較基于兩種填補(bǔ)模型的分類變量多重填補(bǔ)法:基于對數(shù)線性模型的多重填補(bǔ)法指定填補(bǔ)模型為飽和對數(shù)線性模型時涵蓋所有變量間的關(guān)聯(lián),減小了由于缺失數(shù)據(jù)所導(dǎo)致的結(jié)果偏倚,但對數(shù)線性模型為全面估計高階交互效應(yīng)所需樣本含量隨變量數(shù)及變量類別數(shù)的增大迅速增大,模型復(fù)雜且計算量大,在實(shí)際應(yīng)用中缺少靈活性;基于潛在類別模型的多重填補(bǔ)法中填補(bǔ)模型結(jié)合對數(shù)線性模型、因子分析和結(jié)構(gòu)方程模型的思想而形成,用潛在類別數(shù)解釋外顯變量之間的關(guān)聯(lián),減少了高階交互多所需的估計參數(shù)量,對樣本含量的要求比MILL低,在實(shí)際應(yīng)用中具有獨(dú)特的優(yōu)勢[9]。尤其值得注意的是當(dāng)樣本量小而缺失率較大時,多重填補(bǔ)后參數(shù)保持一定的精度及穩(wěn)定度,證實(shí)了多重填補(bǔ)的準(zhǔn)確性和穩(wěn)健性。
本文模擬實(shí)驗(yàn)以logistic模型為分析模型,評價基于不同模型多重填補(bǔ)法的處理效果。總體上MILL和MILC在處理缺失數(shù)據(jù)中效果均可接受,而DM在缺失率大的條件下效果極差,因而在實(shí)際使用時不建議直接刪除觀測。MILL與MILC相比較,當(dāng)缺失率大于5%,MILC在樣本量500時穩(wěn)定度和標(biāo)準(zhǔn)誤偏倚稍差,準(zhǔn)確度均優(yōu)于MILL和DM,樣本量1000時則處理效果均優(yōu)于MILL和DM。MILC中潛在類別數(shù)目的設(shè)定可能影響其填補(bǔ)效果[10],這將在后續(xù)研究中進(jìn)一步探索。實(shí)例數(shù)據(jù)應(yīng)用MILC進(jìn)行填補(bǔ)后參數(shù)估計更準(zhǔn)確,結(jié)果更可靠,為研究者在選擇分類變量缺失數(shù)據(jù)處理方法時提供可靠參考。
參考文獻(xiàn)
[1]徐勇勇.醫(yī)學(xué)統(tǒng)計學(xué).高等教育出版社,2004.
[2]張耀,陳培翠,張翠仙,等.二分類數(shù)據(jù)缺失多重填補(bǔ)分析及應(yīng)用.中國衛(wèi)生統(tǒng)計,2014(3):370-373.
[3]Schafer JL.Multiple imputation:a primer.Statistical Methods in Medical Research,1999,8(1):3-15.
[4]Shafer JL.Analysis of incomplete multivariate data.Monographs on Statistics and Applied Probability 7,1997,41(2):505-514.
[5]Vermunt JK,Van ginkel JR,Van der ark LA,et al.Multiple imputation of incomplete categorical data using latent class analysis.Sociological Methodology,2008,38(1):369-397.
[6]Sulis I.A further proposal to perform multiple imputation on a bunch of polytomous items based on latent class analysis.Statistical Models for Data Analysis:Springer,2013:361-369.
[7]Ted H,F(xiàn)ernando T.Analysis of categorical-variable datasets with missing values.2012:1-23.
[8]Linzer DA,Lewis JB.Polca:an R package for polytomous variable latent class analysis.Journal of Statistical Software,2011,42(10):1-29.
[9]張巖波.潛變量分析.北京:張巖波,2009:220-247.
[10]Van DD,Van der ark LA,Vermunt JK.A comparison of incompletedata methods for categorical data.Statistical Methods in Medical Research,2012:1-21.
(責(zé)任編輯:劉 壯)
Comparison of Methods Dealing with Category Variables with Missing Data
Xiao Yaming,Chen Yongjie,Wang Yupeng,et al.(Department of Biostatistics,Harbin Medical University(150081),Harbin)
【Abstract】Objective To compare the performance of deletion method(DM),multiple imputation using log-linear model(MILL)and multiple imputation based on latent class model(MILC)dealing with category variables with missing data,and applying MILC to practical data analysis.Methods Simulated data containing multiple variables missing data with different missing mechanism,missing rate and sample size was produced using R.DM,MILL and MILC were employed to obtain the complete dataset,which would be analyzed using logistic regression model.The performance of each method was evaluated by bias of regression coefficient root mean square error,stability and the bias in standard error.Results Simulation experiments showed that when missing rate was 5%,DM、MILL and MILC all performed well.With the missing rate increasing,MILL and MILC were better than DM for all evaluated indicator,and MILC was superior to MILL.The performance of each method was better for completely missing at random mechanism rather than missing at random mechanism,and for sample size of 1000 rather than 500.Practical data analysis showed that the standard error of the coefficient was reduced,and the regression coefficient were more accurate.Conclusion In this paper,two multiple imputation methods,MILL and MILC,are used to deal with category variables missing data and may reduce parameters estimation bias.When missing rate is 5%and sample size is 1000,MILC is recommended for category variables with missing data.
【Key words】Category variable;Missing data;Multiple imputation;Latent class model;Log-linear model
*基金資助:本研究獲國家自然科學(xué)基金資助(81273183)
通信作者:△劉美娜,E-mail:liumeina369@163.com