張 橋 李 寧 張秋菊 劉美娜△
任意缺失模式缺失數(shù)據(jù)不同填補方法效果比較*
張 橋1李 寧2張秋菊1劉美娜1△
目的 探討任意缺失模式下缺失數(shù)據(jù)的填補方法,并對不同方法填補效果進行比較和評價。方法 結合我國北方絕經(jīng)期婦女鈣需要和膳食評估應用研究課題的數(shù)據(jù),調用SAS軟件中IML模塊產(chǎn)生任意缺失模式模擬數(shù)據(jù),通過MI和MIANALYZE過程實現(xiàn)缺失數(shù)據(jù)的填補,同時應用準確度和穩(wěn)定度兩個評價指標來評價各方法填補的效果。結果 PS方法填補3次在本文模擬的任意缺失模式的缺失數(shù)據(jù)中填補效果最佳,MCMC方法填補效果并不理想。結論 在填補任意缺失模式的缺失數(shù)據(jù)時,MCMC并不是唯一的多重填補方法,通過多重填補的PS方法、PMM方法和REG方法把數(shù)據(jù)填補成單調缺失后,再用相同方法進行一次填補也是一種可選擇的填補方法。
缺失數(shù)據(jù) 任意缺失模式 多重填補 數(shù)據(jù)模擬
1.哈爾濱醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室(150081)
2.寧波市疾病預防控制中心免疫預防所
△通信作者:劉美娜,E-mail:liumeina369@163.com
數(shù)據(jù)缺失是實驗研究和調查研究中一個普遍存在的問題〔1〕,如何正確的處理、分析所缺失的數(shù)據(jù)在數(shù)據(jù)分析中占有重要地位。缺失數(shù)據(jù)的類型按照不同的分類方法可劃分不同類別,按缺失機制分類和按缺失模式分類兩種劃分方法〔2-3〕。
按照由Little和Rubin在1976年提出的缺失機制分類,缺失數(shù)據(jù)可以分為完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)和非隨機缺失(not missing at random,NMAR)三類〔4〕。如果所缺失的數(shù)據(jù)發(fā)生的概率既與已觀察到的數(shù)據(jù)無關也與未觀察到的數(shù)據(jù)無關,則該缺失數(shù)據(jù)類型為MCAR;如果缺失數(shù)據(jù)的發(fā)生概率與所觀察到的變量是有關的,而與未觀察到的數(shù)據(jù)特征無關,則該缺失數(shù)據(jù)類型為MAR;若數(shù)據(jù)既不屬于完全隨機缺失也不屬于隨機缺失,那么該缺失數(shù)據(jù)類型就屬于NMAR〔5〕。按照數(shù)據(jù)缺失模式可以分為單調缺失模式和任意缺失模式兩類〔6-7〕,為了簡單明了可以通過圖1來形象的理解,其中是5個變量,1~5是5個樣本,“×”表示數(shù)據(jù)能觀察到,“.”表示數(shù)據(jù)缺失。
圖1 數(shù)據(jù)缺失模式
單調缺失模式如圖1(a)所示,對數(shù)據(jù)集進行適當?shù)男辛凶儞Q后,可以得到這樣一個矩陣,它呈現(xiàn)出一種層級缺失的模式,矩陣中的元素yj缺失時,則對任意的P≥j,元素yp也是缺失的;任意缺失模式如圖1(b)所示,數(shù)據(jù)缺失具有隨意性,沒有任何規(guī)律可循,即使通過行列變換也無法看出任何規(guī)律。
對于任意缺失模式的數(shù)據(jù)處理,查閱相關文獻發(fā)現(xiàn)常用的就是把缺失值直接刪除即Ad Hoc法或多重填補(multiple imputation,MI)中的馬爾科夫鏈蒙特卡洛(markov chain monte carlo,MCMC)方法〔8〕,對于縱向數(shù)據(jù)有時也采用單一填補中的LOCF(last observation carried forward)方法〔9〕。本文將探討 Ad Hoc法、LOCF填補、多重填補中的回歸方法、預測均數(shù)匹配(predictive mean matching,PMM)方法、趨勢得分(propensity score,PS)方法、MCMC方法這六種方法對任意缺失模式下缺失數(shù)據(jù)的填補效果。
本文所用數(shù)據(jù)來源于國家科技支撐計劃項目:我國北方絕經(jīng)期婦女鈣需要和膳食評估應用研究。此課題是一個為期兩年人群干預研究,研究對象282名,通過分層隨機方法分為四組,3個鈣干預組和1個信息干預組。分別在干預前、干預1年后、干預2年后三個時間點對干預對象進行調查和樣品采集,獲得研究對象的體格檢查、一般情況、飲食情況、體力活動情況和心理與應對等信息,同時對研究對象進行骨密度檢測,所采用儀器是美國Norland XR-36雙能X線骨密度儀,包括腰椎、髖骨和全身骨三個部位,獲得相應部位的骨密度T值。本文主要選用志愿者的身高、體重、年齡以及三次骨密度檢查的腰椎骨密度T值作為模擬實驗的參考數(shù)據(jù)。
參考數(shù)據(jù)中身高、體重、年齡和第一次腰椎骨密度T值為完整數(shù)據(jù),共282例,第二次和第三次腰椎骨密度T值分別缺失63人和80人,因此剩余人數(shù)分別是219和202例。參考數(shù)據(jù)中各變量的均數(shù)和標準差見表1。
表1 參考數(shù)據(jù)各變量的均數(shù)和標準
表2是參考數(shù)據(jù)中各變量間的相關系數(shù)矩陣。
表2 參考數(shù)據(jù)各變量的相關系數(shù)矩陣
本文的數(shù)據(jù)分析思路為:根據(jù)實際研究所獲數(shù)據(jù)模擬出100個完整數(shù)據(jù)集,在此基礎上,分別根據(jù)完整數(shù)據(jù)中第二次和第三次腰椎骨密度T值的數(shù)據(jù)缺失率(分別為22.34%和28.37%)生成100個有數(shù)據(jù)缺失的數(shù)據(jù)集,然后再用各種缺失數(shù)據(jù)填補方法對缺失數(shù)據(jù)集進行填補,最后根據(jù)評價指標來評價各填補方法的優(yōu)劣。
數(shù)據(jù)分析軟件為SAS 9.1,模擬數(shù)據(jù)集采用IML模塊和SAS宏程序,缺失數(shù)據(jù)的處理和分析主要采用了PROC MI和PROC MIANALYZE過程。由于REG方法、PMM方法和PS方法只能對單調缺失模式的數(shù)據(jù)進行填補,所以在用如上三種方法進行缺失數(shù)據(jù)填補時,本文首先對第二次腰椎骨密度T值填補N(N=3、5、10、15、20)次,使數(shù)據(jù)變成單調缺失后,再用相應的填補方法對第三次腰椎骨密度T值填補1次。
針對缺失數(shù)據(jù)填補效果優(yōu)劣的評價指標本文采用準確度和穩(wěn)定度〔10〕。對于變量Y,100個完整數(shù)據(jù)集有100個均數(shù)Y1,Y2,…,Y100,這 100 個均數(shù)的平均值為Ymean,缺失數(shù)據(jù)經(jīng)過處理后也會有100個均數(shù),…,均數(shù)的平均值為,則準確度指標定義為:BIASmeanmean
BIASmean指標的絕對值越小說明估計均數(shù)時偏差越小,準確度越高。
MSEmean指標越大說明估計均數(shù)時穩(wěn)定度越好〔11〕。
同理可以計算100個標準誤的BIASstderr和MSEstderr。
用不同填補方法對模擬的缺失數(shù)據(jù)集進行填補,第二次和第三次腰椎骨密度T值填補效果較好的前五位的評價指標結果分別如表3和表4所示:
表3 不同填補方法對第二次腰椎骨密度T值填補效果
從表3中可以看出對于第二次腰椎骨密度T值均數(shù)準確性的評價指標BIASmean絕對值最小的前五位為:0.0005、0.0006、0.0009、0.0009、0.0012、0.0012 分別為Ad Hoc方法、MCMC方法填補10次、MCMC方法填補5次、PS方法填補3次、MCMC方法填補3次、PMM方法填補15次。對于第二次腰椎骨密度T值均數(shù)穩(wěn)定性的評價指標MSEmean最大的前五位為:2.4732、1.9634、1.9466、1.9107、1.9023 分別為 Ad Hoc方法、PS方法填補15次、PS方法填補10次、PS方法填補20次、PS方法填補3次。
對于第二次腰椎骨密度T值標準誤準確性的評價指標BIASstderr絕對值最小的前五位為:0.0001、0.0007、0.0008、0.0009、0.0012 分別為 LOCF 方法、PMM方法填補20次、PMM方法填補15次、PMM方法填補10次、PMM方法填補3次。對于第二次腰椎骨密度T值標準誤穩(wěn)定性的評價指標MSEstderr最大的前五位為:0.0362、0.0280、0.0136、0.0118、0.0112 分別為PS方法填補3次、PS方法填補5次、PS方法填補10次、Ad Hoc方法、PS方法填補15次。
表4 不同填補方法對第三次腰椎骨密度T值填補效果
從表4中可以看出對于第三次腰椎骨密度T值均數(shù)準確性的評價指標BIASmean絕對值最小的前五位為:0.0014、0.0020、0.0030、0.0032、0.0039 分別為 PS方法填補3次、REG方法填補3次、PS方法填補15次、PS方法填補5次、REG方法填補5次。對于第三次腰椎骨密度T值均數(shù)穩(wěn)定性的評價指標MSEmean最大的 前 五 位 為:2.0351、1.8190、1.8099、1.7976、1.7753分別為Ad Hoc方法、PS方法填補5次、PS方法填補10次、PS方法填補3次、PS方法填補15次。
從如上的結果綜合來看,PS方法填補3次在本文模擬的數(shù)據(jù)中填補效果最佳,而MCMC方法除在第二次腰椎骨密度T值的BIASmean指標上表現(xiàn)較好外,在其他指標中都沒有進入填補效果最好的前五位。
在多重填補的四種方法里,PS方法在第二次和第三次腰椎骨密度T值的MSEmean指標和MSEstderr指標上都有很好的效果,REG方法在第三次腰椎骨密度T值的BIASstderr指標上有很好的效果,PMM方法在第二次腰椎骨密度T值的BIASstderr指標上有很好的效果,而MCMC方法只在第二次腰椎骨密度T值的BIASmean指標上有較好的效果。填補次數(shù)越多填補效果不一定越好。
因此從本文可以看出,對于任意缺失模式的缺失數(shù)據(jù)集,多重填補的MCMC并不是唯一的多重填補方法,采用單調缺失模式下的多重填補方法把任意缺失數(shù)據(jù)填補成單調缺失,在此基礎上再進行一次該方法的填補,在某些條件下比MCMC填補的效果好。對于填補的次數(shù)并不是越多越好,而是要根據(jù)實際情況,進行數(shù)據(jù)模擬,從而找出最佳的填補次數(shù)。
1.Amold AM,Kronmal RA.Multiple imputation of baseline data in the cardiovascular health study.American Journal of Epidemiology,2003,157(1):74-84.
2.Abraham,Todd W,Russell,et al.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.
3.James M,Robins,Wang N.Inference for imputation estimators.Biometrika,2000,87(1):113-124.
4.Little RJ,Rubin DB.Statistical Analysis with Missing Data.New York:John Wiley&Sons,1987.
5.Little RJ,Rubin DB.Statistical Analysis with Missing Data.2nd ed.Hoboken,NJ:John Wiley&Sons,2002.
6.曹陽,謝萬軍,張羅漫.多重填補的方法及其統(tǒng)計推斷原理.中國醫(yī)院統(tǒng)計,2003,10(2):77-81.
7.李新華,夏結來.多重填補處理有缺失數(shù)據(jù)的2×2交叉設計資料的應用.2004中國衛(wèi)生統(tǒng)計學術會議論文集,2004:181-187.
8.張熙,林燧恒.多重填補在隨機干預實驗研究中的應用.中國衛(wèi)生統(tǒng)計,2011,28(5):537-539.
9.茅群霞.缺失值處理統(tǒng)計方法的模擬比較研究及應用.四川大學碩士畢業(yè)論文,2005.
10.Collins LM,Schafer JL,Kam CM.A comparison of inclusive and restrictive strategies in modern missing data procedures.Psychol Methods,2001,6(4):330-351.
11.李寧.鈣干預試驗骨密度缺失值的填補研究.哈爾濱醫(yī)科大學碩士畢業(yè)論文,2010.
A Simulated Comparison between Different Imputation Meth-ods in Arbitrary Missing Data
Zhang Qiao,Li Ning,Zhang Qiuju,et al.Department of Health Statistics,Harbin Medical University(150086),Harbin
ObjectiveTo evaluate the imputation effect of different imputation methods in arbitrary missing data.MethodsFirst of all,we use the IML model in SAS software to simulate arbitrary missing data,which is about the calcium requirements and dietary evaluation of postmenopausal women in the north of china.Imputing the missing data through the MI and MIANALYZE processes.Accuracy and stability were used for the evaluation indices to compare the imputation effect of different methods.ResultsThe effect of PS method when imputing 3 times is the best in this data,while the effect of MCMC method is not ideal.Conclusion The MCMC is not the unique multiple imputation method when imput arbitrary missing data.The PS,PMM,REG methods could turn the arbitrary missingness pattern into monotone missingness pattern,then we use the same method to imput once again.It is also an alternative imputation method.
Missing data;Arbitrary missingness pattern;Multiple imputation;Data simulation
國家科技支撐計劃(2011BAI09B02)
(責任編輯:郭海強)