龐新生
(北京林業(yè)大學經(jīng)管院,北京 100083)
缺失數(shù)據(jù)插補處理方法的比較研究
龐新生
(北京林業(yè)大學經(jīng)管院,北京 100083)
文章將抽樣調(diào)查中由于項目無回答所形成的缺失數(shù)據(jù)作為研究著眼點,從矩陣運算的角度分析了此類缺失數(shù)據(jù)帶來的危害,在此基礎(chǔ)上,對缺失數(shù)據(jù)插補處理方法的基本問題進行了討論,分析了各種單一插補方法特點及局限性,并介紹了簡單隨機抽樣、分層隨機抽樣條件下缺失數(shù)據(jù)多重插補的抽樣推斷方法,在此基礎(chǔ)上,對常用的單一插補和多重插補方法進行了比較,并對簡單隨機抽樣、分層隨機抽樣條件下缺失數(shù)據(jù)單一插補與多重插補方法的效率進行了實證研究與比較。
缺失數(shù)據(jù);單一插補;多重插補;分層隨機抽樣;簡單隨機抽樣
缺失數(shù)據(jù)是數(shù)據(jù)分析中無法回避的難題之一,由于缺失數(shù)據(jù)涉及范圍很廣泛,給出一個明確的界定是很困難的,但從來源看,既包括實驗中的缺失數(shù)據(jù),也包括調(diào)查中的缺失數(shù)據(jù);從性質(zhì)看,既包含沒有搜集到的數(shù)據(jù),也包括搜集后遺失(或剔除)的數(shù)據(jù)。具體到抽樣調(diào)查中,既包括由于無回答所造成的缺失數(shù)據(jù),而且也包括由于回答錯誤、填報錯誤和匯總錯誤等原因所造成的,在數(shù)據(jù)處理中應該加以調(diào)整或剔除的數(shù)據(jù)。本文主要討論抽樣調(diào)查中無回答形成缺失數(shù)據(jù),根據(jù)無回答產(chǎn)生形式不同可分為單位無回答和項目無回答,針對單位無回答主要采用加權(quán)法降低數(shù)據(jù)缺失帶來的危害,對于項目無回答通常采用插補法進行處理,在國外相當多的抽樣調(diào)查中,對缺失數(shù)據(jù)進行插補處理是非常普遍的,該處理方法的意義在于比列表刪除浪費更少的信息,而且當缺失數(shù)據(jù)為非隨機缺失時,替換缺失數(shù)據(jù)技術(shù)比列表刪除更穩(wěn)健,特別是當數(shù)據(jù)收集者與數(shù)據(jù)分析者是不同的個體時,插補法更具優(yōu)勢[1]。
列表刪除和成對刪除是傳統(tǒng)的缺失數(shù)據(jù)處理方法,列表刪除具體做法是:刪除觀測不完全的變量,針對所有回答項目,采用完全數(shù)據(jù)統(tǒng)計方法分析,這種方法簡便,易于實施,不存在編造的數(shù)據(jù),但當缺失數(shù)據(jù)多的時候,采用列表刪除會放棄相當數(shù)量的信息,特別是當樣本量較小的時候,采用這種方法會使數(shù)據(jù)量變得更少,可能會導致估計效果變差,特別是當缺失數(shù)據(jù)為非隨機缺失時,估計效果會更差。成對刪除把目標變量回答單位都包括進來,這種方法使用了所有有效的變量值,它的缺點是根據(jù)缺失數(shù)據(jù)形式不同,各個變量的樣本基礎(chǔ)總是不斷變化,換句話說,每個變量所依據(jù)的樣本量可能是不同的?;诓逖a的缺失數(shù)據(jù)處理技術(shù)是用適當?shù)墓烙嬔a全缺失數(shù)據(jù),這樣就允許將標準完全數(shù)據(jù)分析方法用于分析插補后的數(shù)據(jù)集。無論是調(diào)查數(shù)據(jù)還是試驗數(shù)據(jù),在統(tǒng)計處理過程都可以看作數(shù)據(jù)矩陣,如圖一所示,m×n維矩陣中x21、xm2均為缺失數(shù)據(jù),用·表示。由于矩陣中存在缺失數(shù)據(jù),無法進行矩陣運算。從矩陣運算角度來看,列表刪除使得原先m×n維矩陣變?yōu)?m-2)×(n-2)維矩陣,存在信息損失。成對刪除使得原先m×n維矩陣中行向量間、列向量間的維數(shù)不一致,數(shù)學意義上的矩陣不復存在,只有采用插補法補全缺失數(shù)據(jù)后得到的矩陣與原矩陣相比,維數(shù)沒有發(fā)生變化,并且能夠?qū)崿F(xiàn)所有的矩陣運算,從這個意義上來說,插補法要比傳統(tǒng)缺失數(shù)據(jù)處理方法更滿足統(tǒng)計分析的要求。
圖一 含有缺失值的數(shù)據(jù)矩陣
插補法為每個缺失值尋找一個或多個盡可能與其相似的插補值。一般的插補模型可以表示為:
單一插補是指采用一定方式,對每個由于無回答造成的缺失值只構(gòu)造一個合理的替代值,將其插補到原缺失數(shù)據(jù)的位置上,在替代缺失數(shù)據(jù)后就構(gòu)造出一個完整的數(shù)據(jù)集,對新合成的數(shù)據(jù)可進行相應的統(tǒng)計分析。根據(jù)獲取插補值的原理不同,單一插補主要包括均值插補、隨機插補、熱卡插補、冷卡插補和演繹插補。
1.1.1 均值插補
均值插補包括無條件均值插補與條件均值插補,無條件均值插補是用所有回答單元的均值來代替缺失值。在MCAR的假定下,總體均值的估計量是無偏估計。由于插補值是來自分布中心的數(shù)值,扭曲了變量的經(jīng)驗分布,總體方差和協(xié)方差被低估了。因此,無條件均值插補適合進行簡單描述的研究,而不適合較復雜的需要方差估計的分析。在無條件均值插補中,由于所有的缺失數(shù)據(jù)均用有回答單元的均值進行插補,得到的是過于集中的經(jīng)驗分布。為了改善這種狀況,讓插補后的數(shù)據(jù)更好的反映總體的真實波動,從而得到更加準確的方差估計量,提出了條件均值插補。條件均值插補主要包括分層均值插補、回歸插補和BUCK方法。分層均值插補在進行插補之前,對變量Y按照數(shù)據(jù)中的某一個變量分層,然后在每一層中,用該層有記錄單元的均值插補該層的缺失值。在MAR的假定下,如果用于分層的變量和缺失機制中的輔助變量一致,對總體均值的估計是無偏的?;貧w插補是在單調(diào)缺失數(shù)據(jù)模式下,利用回歸的預測值代替缺失值。BUCK方法是將回歸插補推廣到更一般的無回答數(shù)據(jù)模式,該方法首先基于回答單元從樣本均值和協(xié)方差陣估計均值μ和協(xié)方差陣∑,然后使用這些估計,對每一種無回答數(shù)據(jù)模式計算含有無回答的變量關(guān)于回答變量的最小二乘線性回歸,在此基礎(chǔ)上,用回歸預測值代替無回答值。在MCAR的假定下,可以通過回答的單元構(gòu)造出總體均值、總體方差的相合估計,從而得到較好的回歸預測值以及較好的方差和協(xié)方差估計值。當然,該方法也會對總體的方差和協(xié)方差產(chǎn)生低估,但是比起無條件均值插補還是有所改善。
1.1.2 隨機插補
除了條件均值插補這種改善分布過于集中的方法外,另外一類插補方法就是在插補值中增加隨機成分,就產(chǎn)生了相應于均值的無條件隨機插補和條件隨機插補。在無條件隨機插補中,對于缺失數(shù)據(jù)不再是采用回答單元的均值進行替代,而是在均值的基礎(chǔ)上加上隨機項。條件隨機插補同條件均值插補一樣可以分成兩類:分層隨機插補和隨機回歸插補,這兩種方法都是在條件均值插補的基礎(chǔ)上增加隨機項,而后者更是較為常見。在隨機回歸插補法中,插補值可以表示為:
1.1.3 熱卡插補
熱卡插補是從每一個缺失數(shù)據(jù)的估計分布抽取插補值替代缺失值,使用回答單元的抽樣分布作為抽取分布是最常見的方法。從回答單元中產(chǎn)生插補值所采用的抽樣方式?jīng)Q定了在熱卡插補下有關(guān)總體參數(shù)估計量的性質(zhì)。根據(jù)獲取插補值的方法不同,熱卡插補包括隨機抽樣熱卡插補、分層熱卡插補、最近距離熱卡插補和序貫熱卡插補。①隨機抽樣熱卡插補。在缺失機制是MCAR的情況下,采用該方法得到的插補結(jié)果的均值是總體均值的無偏估計,但是會高估方差,并且這個高估的量是不可忽略的。為了改進被高估的方差,可以采用無放回簡單隨機抽樣、限制對回答單元的使用次數(shù)、對回答單元進行排序并進行系統(tǒng)抽樣的方法等。
②分層熱卡插補。在上面提到的熱卡插補法中,不論是采用有放回還是無放回的簡單隨機抽樣,所利用的信息僅僅是變量Y自身的數(shù)據(jù),沒有借助調(diào)查中其他完全回答輔助信息,而分層熱卡插補則借助了輔助信息,同條件均值插補中一樣,首先按照某些輔助變量對變量Y進行分層,然后對分層后的數(shù)據(jù)進行上述各種熱卡插補。
③最近距離熱卡插補。利用輔助變量,定義一個測量單元間距離的函數(shù),在變量Y的無回答單元臨近的回答單元中,選擇滿足所設(shè)定的距離條件的輔助變量中的單元所對應的變量Y的回答單元作為插補值。距離函數(shù)插補法將分層熱卡法中的輔助變量從品質(zhì)型數(shù)據(jù)擴展到了數(shù)值型數(shù)據(jù),使得熱卡方法的應用進一步拓展。但是,和前面的幾種方法相比,該方法由于使用較為復雜的距離函數(shù),使得很難對在這種插補方法下得到的均值和方差等估計量的性質(zhì)進行考察。
④序貫熱卡插補。該方法是在最近距離熱卡插補法的基礎(chǔ)上提出的。首先對數(shù)據(jù)進行分層,在每層中按照選定的某一個輔助變量排序,并在其前后相鄰的10個數(shù)據(jù)中,找到使得設(shè)定的某一個距離函數(shù)的值達到最小的單元,那么該單元所對應的變量Y的回答單元即插補值。這種方法通常要求用于構(gòu)建距離函數(shù)的變量和變量Y之間高度相關(guān)。一般情況下,也可以采用其他的變量,但是要求距離函數(shù)值的大小和通過該函數(shù)所確定的變量Y中的回答單元被選做插補值的次數(shù)成正比。
熱卡插補法是在實踐中最為常用,也是研究最為廣泛的一種單一插補方法。同均值插補和回歸插補相比較,熱卡插補法在保持變量的經(jīng)驗分布方面有比較好的效果。但是,除了隨機抽樣熱卡法外,其他的方法都無法給出明確的均方誤差估計公式,這就使得無法對熱卡插補法的效果進行理論上的探討。
1.1.4 冷卡插補
冷卡插補強調(diào)插補值是從以前的調(diào)查中或其他信息來源中獲得的,如歷史數(shù)據(jù)。有關(guān)這種方法的理論很少,而且與前面介紹的插補方法一樣,冷卡插補同樣不能保證消除估計偏差。冷卡插補法中有一種特別的插補方法,即完全匹配插補法。在這種插補法中,替代值和無回答值是相同的測度,但是替代值是來自該單元某些外部的記錄。通常的方法則是通過一些唯一確定無回答單元身份的變量,例如身份證號、汽車駕駛證號等,在已有的外部資料中尋找與無回答變量相匹配的值進行插補。
1.1.5 演繹插補
演繹插補主要是通過輔助資料的演繹,找出插補值,也是一種使用輔助變量的插補法,簡單的用公式表示就是yi=f(xi)。該輔助資料可以來自本次調(diào)查,也可以來自其他的調(diào)查或資料。同前面的各種插補方法不同的是,在不考慮變量Y的任何計量誤差情況下,這種插補方法是完全確定性的;并且,這種方法的效率很大程度上取決于輔助資料的充分與否。
多重插補是單一插補的基礎(chǔ)上衍生來的,由Rubin在1977年首先提出,是指給每個缺失值都構(gòu)造一個以上的替代值,這樣就產(chǎn)生了若干個完全數(shù)據(jù)集,對每個完全數(shù)據(jù)集分別使用相同的方法處理,得到若干個處理結(jié)果,最后再綜合這些處理結(jié)果,最終得到目標變量的估計。
通常討論插補方法時,往往假定抽樣機制是可以忽略的,或者說,目前絕大多數(shù)討論主要集中在簡單隨機抽樣下的多重插補,但在實際調(diào)查過程中,允許有多種抽樣方法,本文主要就簡單隨機抽樣、分層隨機抽樣條件下的插補方法做簡單地探討。由于多重插補處理缺失的過程較單一插補復雜,文中僅列出多重插補估計量及方差公式。
簡單隨機抽樣條件下,在對總體均值Yˉ進行推斷時,假設(shè)n個單位中僅有nobs個單位回答,采用多重插補處理無回答,n-nobs個缺失單位的每一個都有m個插補值,由此建立m套完整數(shù)據(jù)集及m個均值和方差l=1,…,m)。根據(jù)Rubin重復插補理論[1]可知總體均值Yˉ的多重插補估計是:
總體均值Yˉ的多重插補估計的方差為:
由于插補技術(shù)是一種非常重要的缺失數(shù)據(jù)處理方法,因此,在對各種插補方法進行比較時,需要注意幾個原則:第一,插補必須是建立在缺失數(shù)據(jù)的預測分布基礎(chǔ)之上;第二,在考慮插補時,完全回答變量必須考慮在內(nèi);第三,插補必須基于需要插補變量的輔助信息;第四,超越數(shù)據(jù)取值過分的外推是要避免的;第五,為保持完全數(shù)據(jù)集的分布,插補值必須從預測分布中抽??;第六、必須提供一種把插補值考慮在內(nèi)的抽樣估計誤差計算方法。均值插補是唯一一種不滿足任何原則的方法,對于所有缺失數(shù)據(jù)采用唯一的插補值?;貧w插補和基于EM算法的多重插補滿足其中的兩個原則;隨機回歸插補和基于DA算法的多重插補滿足四條原則,在四原則的基礎(chǔ)上,隨機回歸插補和基于DA算法看起來最有發(fā)展前景,其次是回歸插補、基于EM算法的多重插補,最差的是均值插補,具體比較見表1。
表1 插補方法比較[5]
下面通過實際例子來說明簡單隨機抽樣條件下缺失數(shù)據(jù)插補處理方法之間效率。資料來源于一項關(guān)于某城市一周內(nèi)每個家庭收到廣告份數(shù)的抽樣調(diào)查(其中N=2000,n=20,Xˉ=25),如表2所示。通過分析,可以看出兩個變量之間存在較強的正相關(guān),即每周每個家庭收到的郵件總數(shù)越多,所收到的廣告份數(shù)也越多。如果廣告份數(shù)y為目標變量,郵件總數(shù)x可作為輔助變量。將原有數(shù)據(jù)作為完整數(shù)據(jù)集,按照簡單隨機抽樣方式從中隨機抽取5個數(shù)據(jù)作為缺失數(shù)據(jù),見表2括號中的值為假定缺失值。
表2 某城市一周內(nèi)每個家庭收到廣告份數(shù)的抽樣調(diào)查
(1)采用多重插補處理缺失數(shù)據(jù)
根據(jù)Rubin和Schenker的研究顯示,在項目無回答率中等程度的情況下,對于研究變量,有2-3組替代值就可以滿足估計的需要。因此,可以根據(jù)最簡單的模型--最近距離法[2]為每個缺失數(shù)據(jù)插補三次(見表3),估計可以在此基礎(chǔ)上展開。
表3 插補后的數(shù)據(jù)集
如果采用比率估計,對于第一個數(shù)據(jù)集數(shù)據(jù)而言,有
方差估計量的估計為
(2)采用單一插補處理缺失數(shù)據(jù)
為了方便,后續(xù)分析中僅就常用的單一插補方法---均值插補、均值插補進行討論。
①均值插補。目標變量中的缺失數(shù)據(jù)均使用完全數(shù)據(jù)集的均值進行插補,結(jié)果如表4所示。
采用比率估計,有
②回歸插補。目標變量中的缺失數(shù)據(jù)均使用根據(jù)完全數(shù)據(jù)集建立的回歸模型預測值進行插補,結(jié)果如表5所示。
采用比率估計,有
估計量方差的估計為
表4 均值插補后的數(shù)據(jù)集
表5 存在缺失值的數(shù)據(jù)集
比較計算結(jié)果可以發(fā)現(xiàn),在簡單隨機抽樣條件下,當數(shù)據(jù)缺失不嚴重時,如果不考慮由于單一插補方法不同所導致偏差的差異,粗略地計算設(shè)計效應(deff),可以發(fā)現(xiàn)回歸插補的效果要優(yōu)于均值插補。如果將完全數(shù)據(jù)估計結(jié)果作為真值,如果能充分利用輔助信息,回歸插補的結(jié)果并不比多重插補差,且多重插補計算較為繁瑣,但需要注意的是,無論是回歸插補還是均值插補都沒有體現(xiàn)缺失數(shù)據(jù)的不確定性,同時單一插補無法給出偏差的計量方法,因此不能直接根據(jù)設(shè)計效應判斷優(yōu)劣。
下面通過實際例子來說明分層隨機抽樣條件下缺失數(shù)據(jù)插補處理方法之間效率。資料來源于一項關(guān)于居民購買彩票花費的抽樣調(diào)查(N=844,n1=n2=n3=10,)[4]。將原有數(shù)據(jù)作為完整數(shù)據(jù)集,按照簡單隨機抽樣方式從每層中各抽取2個數(shù)據(jù)作為缺失數(shù)據(jù)(見表6),括號中為真值。
表6 存在缺失值的數(shù)據(jù)集
由表6可得表7中數(shù)據(jù),根據(jù)分層隨機抽樣一般原理可得到總體均值簡單估計。該小區(qū)居民戶購買彩票的平均支出估計為:
(1)采用多重插補處理缺失數(shù)據(jù)
表7 抽樣推斷中的過程數(shù)據(jù)
根據(jù)Rubin和Schenker的研究顯示,在項目無回答率中等程度情況下,對于研究變量,有2—3組替代值就可以滿足估計的需要。因此,可以根據(jù)最簡單的模型—最近距離法為每個缺失值插補2次(見表8),估計在此基礎(chǔ)上展開。
表8 插補后的數(shù)據(jù)集
表9 插補后的計算數(shù)據(jù)
將表9數(shù)據(jù)代入式(5)、(6),可得總體均值的估計為:
總體均值估計的方差估計為:
(2)采用單一插補處理缺失數(shù)據(jù)
考慮到易用性,采用單一插補方法處理缺失數(shù)據(jù)時,本文主要運用均值插補、熱卡插補構(gòu)造完全數(shù)據(jù)集。
①均值插補。采用目標變量每層內(nèi)完全數(shù)據(jù)的均值補全缺失值(見表10),估計在此基礎(chǔ)上展開。
表10 插補后的數(shù)據(jù)集
表11 抽樣推斷中的過程數(shù)據(jù)
因此,估計該小區(qū)居民戶購買彩票的平均支出為:
②熱卡插補。采用現(xiàn)有調(diào)查數(shù)據(jù)補全缺失值(見表12),估計在此基礎(chǔ)上展開。
表12 插補后的數(shù)據(jù)集
表13 抽樣推斷中的過程數(shù)據(jù)
估計該小區(qū)居民戶購買彩票的平均支出為:
比較計算結(jié)果可以發(fā)現(xiàn),在分層隨機抽樣條件下,當數(shù)據(jù)缺失不嚴重時,如果不考慮由于單一插補方法不同所導致偏差的差異,粗略地計算設(shè)計效應(deff),可以發(fā)現(xiàn)均值插補的效果要優(yōu)于熱卡插補。如果將完全數(shù)據(jù)估計結(jié)果作為真值,單一插補的結(jié)果并不比多重插補差,且多重插補計算較為繁瑣,但需要注意的是,無論是均值插補還是熱卡插補都無法體現(xiàn)缺失數(shù)據(jù)的不確定性,同時單一插補無法給出偏差的計量方法,因此不能直接根據(jù)設(shè)計效應判斷優(yōu)劣。
通過實例比較可以看出,當數(shù)據(jù)缺失不嚴重時,無論是在簡單隨機抽樣還是在分層隨機抽樣情況下,單一插補并不比多重插補差,但多重插補彌補了單一插補法的缺陷,多重插補過程產(chǎn)生多個中間插補值,可以利用插補值之間的變異反映無回答的不確定性,同時,多重插補能給出衡量估計結(jié)果不確定性的大量信息,單一插補給出的估計結(jié)果則較為簡單。與單一插補相比,多重插補唯一的缺點是需要做大量的工作來創(chuàng)建插補集并進行結(jié)果分析,因為它主要是執(zhí)行若干次相同的任務,而非一次,然而數(shù)據(jù)分析中大量工作在今天的計算環(huán)境下是比較容易實現(xiàn)的。
[1][美]Donald.B.Rubin.Multiple Imputation For Nonresponse In Surveys[M],New York:John Wiley&Sons Inc.1987.
[2][美]Roderick J.A.Little,Donald B.Rubin.Statistical Analysis with Missing Data[M],New York:John Wiley&Sons Inc.2002.
[3]L.Kish著,倪加勛主譯.抽樣調(diào)查[M].北京:中國統(tǒng)計出版社,1997.
[4]金勇進等編著.抽樣技術(shù)[M].北京:中國統(tǒng)計出版社,2008.
[5]龐新生.缺失數(shù)據(jù)處理方法的比較[J].統(tǒng)計與決策,2010,(24).
O212
A
1002-6487(2012)24-0018-05
教育部人文社會科學研究青年基金項目(09YJC910002);中央高?;究蒲袠I(yè)務費專項資金資助(RW2010-4)
龐新生(1970-),男,山西榆次人,博士,副教授,研究方向:抽樣技術(shù)和數(shù)據(jù)分析。
(責任編輯/易永生)