同濟(jì)大學(xué)醫(yī)學(xué)院預(yù)防醫(yī)學(xué)教研室(200092) 鄒莉玲吳娟麗 李 覺
多重填補(bǔ)法在任意缺失隨訪資料中的應(yīng)用*
同濟(jì)大學(xué)醫(yī)學(xué)院預(yù)防醫(yī)學(xué)教研室(200092) 鄒莉玲△吳娟麗 李 覺
目的比較任意缺失模式下不同填補(bǔ)方法在隨訪資料缺失數(shù)據(jù)中的多重填補(bǔ)效果。方法結(jié)合我國外周動脈疾病患者踝臂指數(shù)(ankle brachial index,ABI)等基線及六年隨訪數(shù)據(jù),通過SAS9.3/MI過程,分別采用馬爾可夫鏈蒙特卡羅(markov chain monte carlo,MCMC)、回歸分析、判別分析(discriminant analysis)和logistic回歸等方法,實(shí)現(xiàn)生存時(shí)間、生存結(jié)局變量缺失值的填補(bǔ),并作綜合分析及比較。結(jié)果得到不同填補(bǔ)方法、不同填補(bǔ)次數(shù)多重填補(bǔ)后的生存時(shí)間和結(jié)局變量完全數(shù)據(jù)集,并對總體參數(shù)作出估計(jì)和統(tǒng)計(jì),計(jì)算各次填補(bǔ)效率等綜合評價(jià)指標(biāo)。結(jié)論對于多次隨訪資料中的連續(xù)性變量生存時(shí)間,采用回歸分析方法填補(bǔ)效率較高,填補(bǔ)效率隨著填補(bǔ)次數(shù)增加而增大,對于缺失率小的變量填補(bǔ)效率更高。
多重填補(bǔ)MI 任意缺失模式 缺失數(shù)據(jù) 隨訪研究
數(shù)據(jù)缺失是實(shí)驗(yàn)研究和調(diào)查研究中普遍存在的問題,數(shù)據(jù)缺失會增加統(tǒng)計(jì)分析任務(wù)的復(fù)雜性,降低工作效率,甚至造成結(jié)果偏倚。數(shù)據(jù)缺失特征一般可根據(jù)缺失機(jī)制、缺失模式兩種方法進(jìn)行分類[1-4]。按缺失機(jī)制分為:(1)完全隨機(jī)缺失(missing completely at random,MCAR),缺失現(xiàn)象完全隨機(jī)發(fā)生,與自身或其他變量的取值無關(guān)。該缺失機(jī)制在實(shí)際應(yīng)用中較少存在。(2)隨機(jī)缺失(missing at random,MAR),是指缺失數(shù)據(jù)的發(fā)生與數(shù)據(jù)集中其他無缺失的完全變量的取值有關(guān)。MAR是最常見的缺失機(jī)制。(3)非隨機(jī)缺失(missing not at random,MNAR),是指數(shù)據(jù)的缺失不僅與其他變量的取值有關(guān),也和自身有關(guān)。這種缺失大都不是由偶然因素所造成的,缺乏有效的處理方法[1-3]。按數(shù)據(jù)缺失模式分為:(1)單調(diào)缺失模式:對數(shù)據(jù)集進(jìn)行適當(dāng)?shù)男辛凶儞Q后,可以得到這樣一個矩陣,即呈現(xiàn)出一種層級缺失的模式,矩陣中的元素yj缺失時(shí),則對任意的P≥j,元素yp也是缺失的。(2)任意缺失模式:數(shù)據(jù)缺失具有隨意性,沒有任何規(guī)律可循,即使通過行列變換也無法看出任何規(guī)律[1-3]。
在20世紀(jì)70年代首先由Donald B.Rubin提出的多重填補(bǔ)(multiple imputation,MI)方法被認(rèn)為是解決數(shù)據(jù)缺失問題的首選方法[2-3],該方法通過多次填補(bǔ)產(chǎn)生若干個完整數(shù)據(jù)集并用于綜合分析,可反映出由于數(shù)據(jù)缺失造成的統(tǒng)計(jì)推斷結(jié)果的不確定性。隨著計(jì)算方法和軟件技術(shù)的成熟,該方法被越來越多地應(yīng)用于生物醫(yī)學(xué)、社會科學(xué)及其他許多領(lǐng)域。本文擬采用SAS9.3/MI過程中的MCMC、回歸(regression)、logistic回歸、判別分析(discriminant analysis)等方法[9],實(shí)現(xiàn)各種類型變量任意缺失值的填補(bǔ),并對各填補(bǔ)方法進(jìn)行比較和評價(jià)。
1.資料
(1)資料來源
本文所用數(shù)據(jù)來源于國家自然科學(xué)基金項(xiàng)目:我國外周動脈疾病的危險(xiǎn)因素及心血管疾病死亡風(fēng)險(xiǎn)預(yù)測模研究。2004年7月1日至2005年1月16日期間完成包含踝臂指數(shù)(ABI)的基線資料收集。對每位研究對象測量靜態(tài)ABI,并由專業(yè)人員采用問卷調(diào)查表記錄研究對象的人口學(xué)資料、生活行為習(xí)慣、既往史和現(xiàn)病史、體格檢查及實(shí)驗(yàn)室檢查結(jié)果。此后分別于2006年1月、2008年1月和2010年9月開展三次隨訪調(diào)查,收集研究對象的心血管事件發(fā)生、死亡結(jié)局和生存時(shí)間等數(shù)據(jù)。本文選用數(shù)據(jù)核查后的3606例研究對象的性別、年齡、身高、體重、ABI以及三次隨訪獲得的生存時(shí)間T值(T1、T2、T3)及結(jié)局變量S值(S1、S2、S3)作為欲填補(bǔ)的數(shù)據(jù)集。
(2)數(shù)據(jù)特征
ABI隨訪數(shù)據(jù)中的性別、年齡、身高、體重、ABI和第一次隨訪S1、T1為完全變量(N=3606)。其中性別(Gender)和第一次隨訪結(jié)局(S1)為二分類變量,男性患者1912例(53.02%),第一次隨訪死亡308人(8.54%)。第二次隨訪和第三次隨訪的結(jié)局變量(S2、S3)和生存時(shí)間(T2、T3)為不完全變量,S2、S3和T2、T3的數(shù)據(jù)缺失頻數(shù)分別為522(14.48%)、535(14.84%)、559(15.50%)和1148(31.84%),見表1,表2。
表1 ABI隨訪數(shù)據(jù)中各連續(xù)變量的統(tǒng)計(jì)描述特征
表2 ABI隨訪數(shù)據(jù)中各分類變量的統(tǒng)計(jì)描述特征
表3 數(shù)據(jù)缺失模式
表3為數(shù)據(jù)缺失的模式。對該矩陣進(jìn)行任意的行列變換都無法呈現(xiàn)層級缺失的模式,因此本資料數(shù)據(jù)缺失為任意缺失模式。
2.方法
分別采用SAS9.3/MI過程中的MCMC、FCSREG、FCS-Discrim、FCS-Logistic方法進(jìn)行多重填補(bǔ)[9],填補(bǔ)次數(shù)(m)依次設(shè)置為2、5、10次。并對填補(bǔ)后的多個數(shù)據(jù)集進(jìn)行綜合分析和結(jié)果比較,連續(xù)性變量計(jì)算各次填補(bǔ)后的填補(bǔ)效率、總體參數(shù)的均值Q和方差σ2、可信區(qū)間范圍,分類變量計(jì)算各事件頻率。
假定某不完全變量的總體參數(shù)為Q和σ2,多重填補(bǔ)的次數(shù)為m。則每次多重填補(bǔ)后可得到m個Q和σ2的點(diǎn)估計(jì)值,進(jìn)行綜合分析即可得到總體均值Q和方差σ2的估計(jì)和推斷[5,7]。
將不同填補(bǔ)方法、不同填補(bǔ)次數(shù)用于任意缺失模式下的第二次和第三次隨訪的結(jié)局和生存時(shí)間變量進(jìn)行數(shù)據(jù)填補(bǔ),再采用以上各指標(biāo)作出總體參數(shù)估計(jì)和推斷結(jié)果(表4、表5和表6),并給出綜合評價(jià)指標(biāo)填補(bǔ)效率的計(jì)算結(jié)果(表7)。
表4 不同方法填補(bǔ)后的生存時(shí)間變量方差及相關(guān)信息
表5 不同方法填補(bǔ)后的生存時(shí)間變量參數(shù)估計(jì)
表6 不同方法填補(bǔ)與刪除法的結(jié)局變量死亡頻率(%)
表7 不同方法填補(bǔ)的效率RE計(jì)算表
本研究通過采用MCMC、回歸分析、logistic回歸和判別分析等MI填補(bǔ)方法,對外周動脈疾病ABI基線及多次隨訪資料中任意缺失模式下的生存時(shí)間和結(jié)局變量進(jìn)行缺失數(shù)據(jù)填補(bǔ),結(jié)果提示對于連續(xù)性變量(生存時(shí)間),回歸分析方法填補(bǔ)效率最高,效率隨著填補(bǔ)次數(shù)增加而增大,并且對于缺失比例較小的變量填補(bǔ)效率更高,這與其他文獻(xiàn)結(jié)論一致。本文還應(yīng)用logistic回歸和判別分析等填補(bǔ)方法,對二分類變量(生存結(jié)局)的缺失數(shù)據(jù)進(jìn)行了多重填補(bǔ)并加以比較。由于兩變量的缺失率都很?。⊿2=14.48%,S3=14.84%),采用兩種填補(bǔ)方法得到的總死亡頻率估計(jì)值和刪除法的結(jié)果都比較接近,填補(bǔ)次數(shù)增大對結(jié)果影響不大。對于二分類變量,有研究者認(rèn)為一般不必進(jìn)行填充,缺失較少時(shí)采用成組刪除法簡單易行、準(zhǔn)確高效,但是當(dāng)缺失率較大(缺失率>40%)時(shí),為滿足數(shù)據(jù)分析的需要,有時(shí)可以根據(jù)數(shù)據(jù)缺失機(jī)制或模式選用不同方法進(jìn)行填充[5]。本文由于缺乏模擬數(shù)據(jù)的研究結(jié)果,尚無法得出該結(jié)論。
在隨訪研究中,由于研究周期較長,往往后續(xù)隨訪調(diào)查數(shù)據(jù)的缺失較為普遍,而生存時(shí)間和結(jié)局變量由于其在生存分析中的重要作用不可或缺,數(shù)據(jù)缺失較大時(shí)對結(jié)果的影響較大,有必要對實(shí)際資料結(jié)合缺失模式和缺失機(jī)制,采用相應(yīng)的數(shù)據(jù)填補(bǔ)方法進(jìn)行填補(bǔ)。MI法由于其填補(bǔ)效果高、參數(shù)估計(jì)結(jié)果更穩(wěn)定和接近真值[8],而越來越受到國內(nèi)外廣大研究者的關(guān)注和推崇。目前,SAS9.3已經(jīng)將MI和MIANALYZE作為兩個正式過程納入其中[9],并且增加了FCS方法用于不同類型多變量條件下的各種缺失數(shù)據(jù)填補(bǔ),進(jìn)一步豐富了MI填補(bǔ)的方法選擇。
1.Abraham,Todd W,Russell,et al.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.
2.James M,Robins,Wang N.Inference for imputation estimators.Biometrika,2000,87(1):113-124.
3.Little RJ,Rubin DB.Statistical Analysis with Missing Data.New York:John Wiley&Sons,1987.
4.張橋,李寧,張秋菊,等.任意缺失模式缺失數(shù)據(jù)不同填補(bǔ)方法效果比較.中國衛(wèi)生統(tǒng)計(jì),2013,10(35):690.
5.茅群霞.缺失值處理統(tǒng)計(jì)方法的模擬比較研究及應(yīng)用:碩士畢業(yè)論文.
6.花琳琳.施念,楊永利,等.不同缺失值處理方法對隨機(jī)缺失數(shù)據(jù)處理效果的比較.鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2012,47(3):315.
7.Combining Inferences from Multiple Imputed Data Sets.SAS/STAT 9 User′s Guide,North Carolina:SAS Institute Inc,2002:211-213.
8.Schafer JL,Maren kO.Multiple imputation for multivariate missing-data problems:a data analysis's perspective.Multivariate Behavioural Research,1998,33:545.
9.http://support.sas.com/rnd/app/stat/procedures/mi.html.
(責(zé)任編輯:郭海強(qiáng))
Multiple Imputation Method Used in Arbitrary Missing Follow-up Data
Zou Liling,Wu Juanli,Li Jue(Department of Preventive Medicine,Medical School,Tongji University(200092),Shanghai)
ObjectiveTo evaluate the multiple imputation effect of different imputation methods in arbitrary missing data of follow-up research.MethodsUsing different methods including Markov chain Monte Carlo(MCMC),Regression,discriminant analysis and logistic regression and SAS9.3/MI process,to make the comprehensive analysis and comparison for missing values imputation.The real data come from a6 years follow-up research including peripheral arterial disease patients′information and ankle brachial index(ABI)data.ResultsIncluding population parameters estimation and statistics inference of continuous variables,frequency calculation of classified variables,based on different imputation methods and imputation numbers.ConclusionIn the continuous variables such as survival time,Regression method has the largest imputation efficiency,and the efficiency increases with the increase of imputation number and decrease of the missing rate.
Multiple imputation MI;Arbitrary missing model;Missing data;Follow-up study
*國家自然科學(xué)基金青年項(xiàng)目(81102203/H2611)
△通信作者:鄒莉玲,E-mail:zouliling_59@#edu.cn