国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

缺失數(shù)據(jù)插補處理方法的比較研究

2012-09-03 22:39龐新生
統(tǒng)計與決策 2012年24期
關(guān)鍵詞:補法方差均值

龐新生

(北京林業(yè)大學經(jīng)管院,北京 100083)

缺失數(shù)據(jù)插補處理方法的比較研究

龐新生

(北京林業(yè)大學經(jīng)管院,北京 100083)

文章將抽樣調(diào)查中由于項目無回答所形成的缺失數(shù)據(jù)作為研究著眼點,從矩陣運算的角度分析了此類缺失數(shù)據(jù)帶來的危害,在此基礎(chǔ)上,對缺失數(shù)據(jù)插補處理方法的基本問題進行了討論,分析了各種單一插補方法特點及局限性,并介紹了簡單隨機抽樣、分層隨機抽樣條件下缺失數(shù)據(jù)多重插補的抽樣推斷方法,在此基礎(chǔ)上,對常用的單一插補和多重插補方法進行了比較,并對簡單隨機抽樣、分層隨機抽樣條件下缺失數(shù)據(jù)單一插補與多重插補方法的效率進行了實證研究與比較。

缺失數(shù)據(jù);單一插補;多重插補;分層隨機抽樣;簡單隨機抽樣

缺失數(shù)據(jù)是數(shù)據(jù)分析中無法回避的難題之一,由于缺失數(shù)據(jù)涉及范圍很廣泛,給出一個明確的界定是很困難的,但從來源看,既包括實驗中的缺失數(shù)據(jù),也包括調(diào)查中的缺失數(shù)據(jù);從性質(zhì)看,既包含沒有搜集到的數(shù)據(jù),也包括搜集后遺失(或剔除)的數(shù)據(jù)。具體到抽樣調(diào)查中,既包括由于無回答所造成的缺失數(shù)據(jù),而且也包括由于回答錯誤、填報錯誤和匯總錯誤等原因所造成的,在數(shù)據(jù)處理中應該加以調(diào)整或剔除的數(shù)據(jù)。本文主要討論抽樣調(diào)查中無回答形成缺失數(shù)據(jù),根據(jù)無回答產(chǎn)生形式不同可分為單位無回答和項目無回答,針對單位無回答主要采用加權(quán)法降低數(shù)據(jù)缺失帶來的危害,對于項目無回答通常采用插補法進行處理,在國外相當多的抽樣調(diào)查中,對缺失數(shù)據(jù)進行插補處理是非常普遍的,該處理方法的意義在于比列表刪除浪費更少的信息,而且當缺失數(shù)據(jù)為非隨機缺失時,替換缺失數(shù)據(jù)技術(shù)比列表刪除更穩(wěn)健,特別是當數(shù)據(jù)收集者與數(shù)據(jù)分析者是不同的個體時,插補法更具優(yōu)勢[1]。

1 插補方法的基本問題

列表刪除和成對刪除是傳統(tǒng)的缺失數(shù)據(jù)處理方法,列表刪除具體做法是:刪除觀測不完全的變量,針對所有回答項目,采用完全數(shù)據(jù)統(tǒng)計方法分析,這種方法簡便,易于實施,不存在編造的數(shù)據(jù),但當缺失數(shù)據(jù)多的時候,采用列表刪除會放棄相當數(shù)量的信息,特別是當樣本量較小的時候,采用這種方法會使數(shù)據(jù)量變得更少,可能會導致估計效果變差,特別是當缺失數(shù)據(jù)為非隨機缺失時,估計效果會更差。成對刪除把目標變量回答單位都包括進來,這種方法使用了所有有效的變量值,它的缺點是根據(jù)缺失數(shù)據(jù)形式不同,各個變量的樣本基礎(chǔ)總是不斷變化,換句話說,每個變量所依據(jù)的樣本量可能是不同的?;诓逖a的缺失數(shù)據(jù)處理技術(shù)是用適當?shù)墓烙嬔a全缺失數(shù)據(jù),這樣就允許將標準完全數(shù)據(jù)分析方法用于分析插補后的數(shù)據(jù)集。無論是調(diào)查數(shù)據(jù)還是試驗數(shù)據(jù),在統(tǒng)計處理過程都可以看作數(shù)據(jù)矩陣,如圖一所示,m×n維矩陣中x21、xm2均為缺失數(shù)據(jù),用·表示。由于矩陣中存在缺失數(shù)據(jù),無法進行矩陣運算。從矩陣運算角度來看,列表刪除使得原先m×n維矩陣變?yōu)?m-2)×(n-2)維矩陣,存在信息損失。成對刪除使得原先m×n維矩陣中行向量間、列向量間的維數(shù)不一致,數(shù)學意義上的矩陣不復存在,只有采用插補法補全缺失數(shù)據(jù)后得到的矩陣與原矩陣相比,維數(shù)沒有發(fā)生變化,并且能夠?qū)崿F(xiàn)所有的矩陣運算,從這個意義上來說,插補法要比傳統(tǒng)缺失數(shù)據(jù)處理方法更滿足統(tǒng)計分析的要求。

圖一 含有缺失值的數(shù)據(jù)矩陣

插補法為每個缺失值尋找一個或多個盡可能與其相似的插補值。一般的插補模型可以表示為:

1.1 單一插補

單一插補是指采用一定方式,對每個由于無回答造成的缺失值只構(gòu)造一個合理的替代值,將其插補到原缺失數(shù)據(jù)的位置上,在替代缺失數(shù)據(jù)后就構(gòu)造出一個完整的數(shù)據(jù)集,對新合成的數(shù)據(jù)可進行相應的統(tǒng)計分析。根據(jù)獲取插補值的原理不同,單一插補主要包括均值插補、隨機插補、熱卡插補、冷卡插補和演繹插補。

1.1.1 均值插補

均值插補包括無條件均值插補與條件均值插補,無條件均值插補是用所有回答單元的均值來代替缺失值。在MCAR的假定下,總體均值的估計量是無偏估計。由于插補值是來自分布中心的數(shù)值,扭曲了變量的經(jīng)驗分布,總體方差和協(xié)方差被低估了。因此,無條件均值插補適合進行簡單描述的研究,而不適合較復雜的需要方差估計的分析。在無條件均值插補中,由于所有的缺失數(shù)據(jù)均用有回答單元的均值進行插補,得到的是過于集中的經(jīng)驗分布。為了改善這種狀況,讓插補后的數(shù)據(jù)更好的反映總體的真實波動,從而得到更加準確的方差估計量,提出了條件均值插補。條件均值插補主要包括分層均值插補、回歸插補和BUCK方法。分層均值插補在進行插補之前,對變量Y按照數(shù)據(jù)中的某一個變量分層,然后在每一層中,用該層有記錄單元的均值插補該層的缺失值。在MAR的假定下,如果用于分層的變量和缺失機制中的輔助變量一致,對總體均值的估計是無偏的?;貧w插補是在單調(diào)缺失數(shù)據(jù)模式下,利用回歸的預測值代替缺失值。BUCK方法是將回歸插補推廣到更一般的無回答數(shù)據(jù)模式,該方法首先基于回答單元從樣本均值和協(xié)方差陣估計均值μ和協(xié)方差陣∑,然后使用這些估計,對每一種無回答數(shù)據(jù)模式計算含有無回答的變量關(guān)于回答變量的最小二乘線性回歸,在此基礎(chǔ)上,用回歸預測值代替無回答值。在MCAR的假定下,可以通過回答的單元構(gòu)造出總體均值、總體方差的相合估計,從而得到較好的回歸預測值以及較好的方差和協(xié)方差估計值。當然,該方法也會對總體的方差和協(xié)方差產(chǎn)生低估,但是比起無條件均值插補還是有所改善。

1.1.2 隨機插補

除了條件均值插補這種改善分布過于集中的方法外,另外一類插補方法就是在插補值中增加隨機成分,就產(chǎn)生了相應于均值的無條件隨機插補和條件隨機插補。在無條件隨機插補中,對于缺失數(shù)據(jù)不再是采用回答單元的均值進行替代,而是在均值的基礎(chǔ)上加上隨機項。條件隨機插補同條件均值插補一樣可以分成兩類:分層隨機插補和隨機回歸插補,這兩種方法都是在條件均值插補的基礎(chǔ)上增加隨機項,而后者更是較為常見。在隨機回歸插補法中,插補值可以表示為:

1.1.3 熱卡插補

熱卡插補是從每一個缺失數(shù)據(jù)的估計分布抽取插補值替代缺失值,使用回答單元的抽樣分布作為抽取分布是最常見的方法。從回答單元中產(chǎn)生插補值所采用的抽樣方式?jīng)Q定了在熱卡插補下有關(guān)總體參數(shù)估計量的性質(zhì)。根據(jù)獲取插補值的方法不同,熱卡插補包括隨機抽樣熱卡插補、分層熱卡插補、最近距離熱卡插補和序貫熱卡插補。①隨機抽樣熱卡插補。在缺失機制是MCAR的情況下,采用該方法得到的插補結(jié)果的均值是總體均值的無偏估計,但是會高估方差,并且這個高估的量是不可忽略的。為了改進被高估的方差,可以采用無放回簡單隨機抽樣、限制對回答單元的使用次數(shù)、對回答單元進行排序并進行系統(tǒng)抽樣的方法等。

②分層熱卡插補。在上面提到的熱卡插補法中,不論是采用有放回還是無放回的簡單隨機抽樣,所利用的信息僅僅是變量Y自身的數(shù)據(jù),沒有借助調(diào)查中其他完全回答輔助信息,而分層熱卡插補則借助了輔助信息,同條件均值插補中一樣,首先按照某些輔助變量對變量Y進行分層,然后對分層后的數(shù)據(jù)進行上述各種熱卡插補。

③最近距離熱卡插補。利用輔助變量,定義一個測量單元間距離的函數(shù),在變量Y的無回答單元臨近的回答單元中,選擇滿足所設(shè)定的距離條件的輔助變量中的單元所對應的變量Y的回答單元作為插補值。距離函數(shù)插補法將分層熱卡法中的輔助變量從品質(zhì)型數(shù)據(jù)擴展到了數(shù)值型數(shù)據(jù),使得熱卡方法的應用進一步拓展。但是,和前面的幾種方法相比,該方法由于使用較為復雜的距離函數(shù),使得很難對在這種插補方法下得到的均值和方差等估計量的性質(zhì)進行考察。

④序貫熱卡插補。該方法是在最近距離熱卡插補法的基礎(chǔ)上提出的。首先對數(shù)據(jù)進行分層,在每層中按照選定的某一個輔助變量排序,并在其前后相鄰的10個數(shù)據(jù)中,找到使得設(shè)定的某一個距離函數(shù)的值達到最小的單元,那么該單元所對應的變量Y的回答單元即插補值。這種方法通常要求用于構(gòu)建距離函數(shù)的變量和變量Y之間高度相關(guān)。一般情況下,也可以采用其他的變量,但是要求距離函數(shù)值的大小和通過該函數(shù)所確定的變量Y中的回答單元被選做插補值的次數(shù)成正比。

熱卡插補法是在實踐中最為常用,也是研究最為廣泛的一種單一插補方法。同均值插補和回歸插補相比較,熱卡插補法在保持變量的經(jīng)驗分布方面有比較好的效果。但是,除了隨機抽樣熱卡法外,其他的方法都無法給出明確的均方誤差估計公式,這就使得無法對熱卡插補法的效果進行理論上的探討。

1.1.4 冷卡插補

冷卡插補強調(diào)插補值是從以前的調(diào)查中或其他信息來源中獲得的,如歷史數(shù)據(jù)。有關(guān)這種方法的理論很少,而且與前面介紹的插補方法一樣,冷卡插補同樣不能保證消除估計偏差。冷卡插補法中有一種特別的插補方法,即完全匹配插補法。在這種插補法中,替代值和無回答值是相同的測度,但是替代值是來自該單元某些外部的記錄。通常的方法則是通過一些唯一確定無回答單元身份的變量,例如身份證號、汽車駕駛證號等,在已有的外部資料中尋找與無回答變量相匹配的值進行插補。

1.1.5 演繹插補

演繹插補主要是通過輔助資料的演繹,找出插補值,也是一種使用輔助變量的插補法,簡單的用公式表示就是yi=f(xi)。該輔助資料可以來自本次調(diào)查,也可以來自其他的調(diào)查或資料。同前面的各種插補方法不同的是,在不考慮變量Y的任何計量誤差情況下,這種插補方法是完全確定性的;并且,這種方法的效率很大程度上取決于輔助資料的充分與否。

2 多重插補

多重插補是單一插補的基礎(chǔ)上衍生來的,由Rubin在1977年首先提出,是指給每個缺失值都構(gòu)造一個以上的替代值,這樣就產(chǎn)生了若干個完全數(shù)據(jù)集,對每個完全數(shù)據(jù)集分別使用相同的方法處理,得到若干個處理結(jié)果,最后再綜合這些處理結(jié)果,最終得到目標變量的估計。

通常討論插補方法時,往往假定抽樣機制是可以忽略的,或者說,目前絕大多數(shù)討論主要集中在簡單隨機抽樣下的多重插補,但在實際調(diào)查過程中,允許有多種抽樣方法,本文主要就簡單隨機抽樣、分層隨機抽樣條件下的插補方法做簡單地探討。由于多重插補處理缺失的過程較單一插補復雜,文中僅列出多重插補估計量及方差公式。

2.1 簡單隨機抽樣下多重插補推斷

簡單隨機抽樣條件下,在對總體均值Yˉ進行推斷時,假設(shè)n個單位中僅有nobs個單位回答,采用多重插補處理無回答,n-nobs個缺失單位的每一個都有m個插補值,由此建立m套完整數(shù)據(jù)集及m個均值和方差l=1,…,m)。根據(jù)Rubin重復插補理論[1]可知總體均值Yˉ的多重插補估計是:

總體均值Yˉ的多重插補估計的方差為:

2.2 分層隨機抽樣下多重插補推斷

2.3 單一插補與多重插補的比較

由于插補技術(shù)是一種非常重要的缺失數(shù)據(jù)處理方法,因此,在對各種插補方法進行比較時,需要注意幾個原則:第一,插補必須是建立在缺失數(shù)據(jù)的預測分布基礎(chǔ)之上;第二,在考慮插補時,完全回答變量必須考慮在內(nèi);第三,插補必須基于需要插補變量的輔助信息;第四,超越數(shù)據(jù)取值過分的外推是要避免的;第五,為保持完全數(shù)據(jù)集的分布,插補值必須從預測分布中抽??;第六、必須提供一種把插補值考慮在內(nèi)的抽樣估計誤差計算方法。均值插補是唯一一種不滿足任何原則的方法,對于所有缺失數(shù)據(jù)采用唯一的插補值?;貧w插補和基于EM算法的多重插補滿足其中的兩個原則;隨機回歸插補和基于DA算法的多重插補滿足四條原則,在四原則的基礎(chǔ)上,隨機回歸插補和基于DA算法看起來最有發(fā)展前景,其次是回歸插補、基于EM算法的多重插補,最差的是均值插補,具體比較見表1。

表1 插補方法比較[5]

3 缺失數(shù)據(jù)插補處理方法實例比較

3.1 簡單隨機抽樣條件下缺失數(shù)據(jù)插補處理方法實例比較

下面通過實際例子來說明簡單隨機抽樣條件下缺失數(shù)據(jù)插補處理方法之間效率。資料來源于一項關(guān)于某城市一周內(nèi)每個家庭收到廣告份數(shù)的抽樣調(diào)查(其中N=2000,n=20,Xˉ=25),如表2所示。通過分析,可以看出兩個變量之間存在較強的正相關(guān),即每周每個家庭收到的郵件總數(shù)越多,所收到的廣告份數(shù)也越多。如果廣告份數(shù)y為目標變量,郵件總數(shù)x可作為輔助變量。將原有數(shù)據(jù)作為完整數(shù)據(jù)集,按照簡單隨機抽樣方式從中隨機抽取5個數(shù)據(jù)作為缺失數(shù)據(jù),見表2括號中的值為假定缺失值。

表2 某城市一周內(nèi)每個家庭收到廣告份數(shù)的抽樣調(diào)查

(1)采用多重插補處理缺失數(shù)據(jù)

根據(jù)Rubin和Schenker的研究顯示,在項目無回答率中等程度的情況下,對于研究變量,有2-3組替代值就可以滿足估計的需要。因此,可以根據(jù)最簡單的模型--最近距離法[2]為每個缺失數(shù)據(jù)插補三次(見表3),估計可以在此基礎(chǔ)上展開。

表3 插補后的數(shù)據(jù)集

如果采用比率估計,對于第一個數(shù)據(jù)集數(shù)據(jù)而言,有

方差估計量的估計為

(2)采用單一插補處理缺失數(shù)據(jù)

為了方便,后續(xù)分析中僅就常用的單一插補方法---均值插補、均值插補進行討論。

①均值插補。目標變量中的缺失數(shù)據(jù)均使用完全數(shù)據(jù)集的均值進行插補,結(jié)果如表4所示。

采用比率估計,有

②回歸插補。目標變量中的缺失數(shù)據(jù)均使用根據(jù)完全數(shù)據(jù)集建立的回歸模型預測值進行插補,結(jié)果如表5所示。

采用比率估計,有

估計量方差的估計為

表4 均值插補后的數(shù)據(jù)集

表5 存在缺失值的數(shù)據(jù)集

比較計算結(jié)果可以發(fā)現(xiàn),在簡單隨機抽樣條件下,當數(shù)據(jù)缺失不嚴重時,如果不考慮由于單一插補方法不同所導致偏差的差異,粗略地計算設(shè)計效應(deff),可以發(fā)現(xiàn)回歸插補的效果要優(yōu)于均值插補。如果將完全數(shù)據(jù)估計結(jié)果作為真值,如果能充分利用輔助信息,回歸插補的結(jié)果并不比多重插補差,且多重插補計算較為繁瑣,但需要注意的是,無論是回歸插補還是均值插補都沒有體現(xiàn)缺失數(shù)據(jù)的不確定性,同時單一插補無法給出偏差的計量方法,因此不能直接根據(jù)設(shè)計效應判斷優(yōu)劣。

3.2 分層隨機抽樣下缺失數(shù)據(jù)插補處理方法實例比較

下面通過實際例子來說明分層隨機抽樣條件下缺失數(shù)據(jù)插補處理方法之間效率。資料來源于一項關(guān)于居民購買彩票花費的抽樣調(diào)查(N=844,n1=n2=n3=10,)[4]。將原有數(shù)據(jù)作為完整數(shù)據(jù)集,按照簡單隨機抽樣方式從每層中各抽取2個數(shù)據(jù)作為缺失數(shù)據(jù)(見表6),括號中為真值。

表6 存在缺失值的數(shù)據(jù)集

由表6可得表7中數(shù)據(jù),根據(jù)分層隨機抽樣一般原理可得到總體均值簡單估計。該小區(qū)居民戶購買彩票的平均支出估計為:

(1)采用多重插補處理缺失數(shù)據(jù)

表7 抽樣推斷中的過程數(shù)據(jù)

根據(jù)Rubin和Schenker的研究顯示,在項目無回答率中等程度情況下,對于研究變量,有2—3組替代值就可以滿足估計的需要。因此,可以根據(jù)最簡單的模型—最近距離法為每個缺失值插補2次(見表8),估計在此基礎(chǔ)上展開。

表8 插補后的數(shù)據(jù)集

表9 插補后的計算數(shù)據(jù)

將表9數(shù)據(jù)代入式(5)、(6),可得總體均值的估計為:

總體均值估計的方差估計為:

(2)采用單一插補處理缺失數(shù)據(jù)

考慮到易用性,采用單一插補方法處理缺失數(shù)據(jù)時,本文主要運用均值插補、熱卡插補構(gòu)造完全數(shù)據(jù)集。

①均值插補。采用目標變量每層內(nèi)完全數(shù)據(jù)的均值補全缺失值(見表10),估計在此基礎(chǔ)上展開。

表10 插補后的數(shù)據(jù)集

表11 抽樣推斷中的過程數(shù)據(jù)

因此,估計該小區(qū)居民戶購買彩票的平均支出為:

②熱卡插補。采用現(xiàn)有調(diào)查數(shù)據(jù)補全缺失值(見表12),估計在此基礎(chǔ)上展開。

表12 插補后的數(shù)據(jù)集

表13 抽樣推斷中的過程數(shù)據(jù)

估計該小區(qū)居民戶購買彩票的平均支出為:

比較計算結(jié)果可以發(fā)現(xiàn),在分層隨機抽樣條件下,當數(shù)據(jù)缺失不嚴重時,如果不考慮由于單一插補方法不同所導致偏差的差異,粗略地計算設(shè)計效應(deff),可以發(fā)現(xiàn)均值插補的效果要優(yōu)于熱卡插補。如果將完全數(shù)據(jù)估計結(jié)果作為真值,單一插補的結(jié)果并不比多重插補差,且多重插補計算較為繁瑣,但需要注意的是,無論是均值插補還是熱卡插補都無法體現(xiàn)缺失數(shù)據(jù)的不確定性,同時單一插補無法給出偏差的計量方法,因此不能直接根據(jù)設(shè)計效應判斷優(yōu)劣。

通過實例比較可以看出,當數(shù)據(jù)缺失不嚴重時,無論是在簡單隨機抽樣還是在分層隨機抽樣情況下,單一插補并不比多重插補差,但多重插補彌補了單一插補法的缺陷,多重插補過程產(chǎn)生多個中間插補值,可以利用插補值之間的變異反映無回答的不確定性,同時,多重插補能給出衡量估計結(jié)果不確定性的大量信息,單一插補給出的估計結(jié)果則較為簡單。與單一插補相比,多重插補唯一的缺點是需要做大量的工作來創(chuàng)建插補集并進行結(jié)果分析,因為它主要是執(zhí)行若干次相同的任務,而非一次,然而數(shù)據(jù)分析中大量工作在今天的計算環(huán)境下是比較容易實現(xiàn)的。

[1][美]Donald.B.Rubin.Multiple Imputation For Nonresponse In Surveys[M],New York:John Wiley&Sons Inc.1987.

[2][美]Roderick J.A.Little,Donald B.Rubin.Statistical Analysis with Missing Data[M],New York:John Wiley&Sons Inc.2002.

[3]L.Kish著,倪加勛主譯.抽樣調(diào)查[M].北京:中國統(tǒng)計出版社,1997.

[4]金勇進等編著.抽樣技術(shù)[M].北京:中國統(tǒng)計出版社,2008.

[5]龐新生.缺失數(shù)據(jù)處理方法的比較[J].統(tǒng)計與決策,2010,(24).

O212

A

1002-6487(2012)24-0018-05

教育部人文社會科學研究青年基金項目(09YJC910002);中央高?;究蒲袠I(yè)務費專項資金資助(RW2010-4)

龐新生(1970-),男,山西榆次人,博士,副教授,研究方向:抽樣技術(shù)和數(shù)據(jù)分析。

(責任編輯/易永生)

猜你喜歡
補法方差均值
基于絡病理論探討絡虛通補法在氣虛血瘀型椎動脈型頸椎病中的應用
概率與統(tǒng)計(2)——離散型隨機變量的期望與方差
基于少數(shù)類過采樣的傾向得分匹配插補法
淺析應用“補法”治療慢性肝病
方差越小越好?
計算方差用哪個公式
均值—方差分析及CAPM模型的運用
均值—方差分析及CAPM模型的運用
響應傾向得分匹配插補法
方差生活秀
昆明市| 沧源| 鄢陵县| 韶山市| 新昌县| 基隆市| 同德县| 郎溪县| 承德县| 新源县| 永新县| 治多县| 巩义市| 石首市| 修武县| 田林县| 屏山县| 运城市| 通辽市| 和政县| 赤水市| 阳江市| 竹山县| 鄂托克前旗| 来安县| 河南省| 陵川县| 华坪县| 抚顺市| 白水县| 合肥市| 万山特区| 嘉定区| 南岸区| 新竹市| 阜城县| 江山市| 安徽省| 满洲里市| 阜南县| 横峰县|