国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

美國(guó)縱向調(diào)查中缺失數(shù)據(jù)的應(yīng)對(duì)方法及對(duì)我國(guó)的啟示

2015-10-30 18:43于力超金勇進(jìn)
現(xiàn)代管理科學(xué) 2015年9期
關(guān)鍵詞:大數(shù)據(jù)

于力超 金勇進(jìn)

摘要:大數(shù)據(jù)時(shí)代市場(chǎng)調(diào)查中缺失數(shù)據(jù)的處理問題引起越來越多的關(guān)注。文章透過威斯康星縱向調(diào)查,總結(jié)了美國(guó)縱向調(diào)查中缺失數(shù)據(jù)的處理方法,重點(diǎn)介紹了采用多變量序貫回歸的方法進(jìn)行多重插補(bǔ)的方法及IVEware軟件的應(yīng)用情況,研究了多重插補(bǔ)法處理縱向缺失數(shù)據(jù)的優(yōu)勢(shì)所在。作者總結(jié)了國(guó)外先進(jìn)經(jīng)驗(yàn),結(jié)合中國(guó)實(shí)際,提出研究大數(shù)據(jù)背景下縱向缺失數(shù)據(jù)處理方法的思路和幾點(diǎn)建議。

關(guān)鍵詞:多重插補(bǔ)法;縱向調(diào)查;缺失數(shù)據(jù);大數(shù)據(jù)

一、 引言

在大數(shù)據(jù)背景下進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)的質(zhì)量是關(guān)鍵。有數(shù)據(jù)顯示,對(duì)于收集到的調(diào)查數(shù)據(jù),80%的時(shí)間要花在包括缺失數(shù)據(jù)處理、不合理值刪除等數(shù)據(jù)清洗工作上,獲得較高質(zhì)量數(shù)據(jù)后方可進(jìn)一步進(jìn)行數(shù)據(jù)分析。我國(guó)縱向抽樣調(diào)查對(duì)缺失數(shù)據(jù)多采用直接刪除法進(jìn)行處理,只利用數(shù)據(jù)完全的樣本進(jìn)行分析,不僅造成大量信息浪費(fèi),而且可能導(dǎo)致估計(jì)結(jié)果有偏。本文以作者在威斯康星大學(xué)學(xué)習(xí)期間參與的威斯康星縱向調(diào)查(Wisconsin Longitudinal Survey)為例,介紹美國(guó)專業(yè)調(diào)查機(jī)構(gòu)如何應(yīng)對(duì)缺失數(shù)據(jù)問題,并結(jié)合我國(guó)實(shí)際,給出今后相關(guān)工作的建議。

二、 美國(guó)縱向抽樣調(diào)查中缺失數(shù)據(jù)的應(yīng)對(duì)方法

美國(guó)許多大型縱向調(diào)查已開展多年,積累了豐富的數(shù)據(jù)和實(shí)踐經(jīng)驗(yàn)。例如著名的“威斯康星縱向調(diào)查”,這項(xiàng)由威斯康星大學(xué)麥迪遜分校調(diào)查中心組織開展的研究跟蹤調(diào)查威斯康星州1957年的1萬多名高中畢業(yè)生,已經(jīng)持續(xù)了50多年的時(shí)間。研究范圍包括這些高中畢業(yè)生所上的大學(xué)、大學(xué)畢業(yè)后的工作和生活以及他們退休后的生活狀況,共收集了3 000多個(gè)變量的數(shù)據(jù),該項(xiàng)目吸引了許多經(jīng)濟(jì)學(xué)家、心理學(xué)家、社會(huì)學(xué)家以及流行病專家開展相關(guān)專題研究項(xiàng)目,從豐富的數(shù)據(jù)中挖掘他們感興趣的結(jié)論。我們以“威斯康星縱向研究”為例,看美國(guó)開展的縱向調(diào)查是如何應(yīng)對(duì)缺失數(shù)據(jù)問題的。

1. 缺失數(shù)據(jù)的預(yù)防和初次出現(xiàn)時(shí)的應(yīng)對(duì)。缺失數(shù)據(jù)多出現(xiàn)在收入和家庭財(cái)產(chǎn)相關(guān)的敏感變量。對(duì)這類問題,應(yīng)盡量降低問題的敏感性。威斯康星縱向調(diào)查在提問涉及隱私的敏感問題時(shí),一般不直接問具體數(shù)字而是通過“月收入在xx元到xx元的區(qū)間”這樣的問題間接獲取受訪者的收入信息。在每一輪調(diào)查開始時(shí),收入分類的邊界值取上一輪調(diào)查所獲得收入數(shù)據(jù)的10%,50%和80%分位數(shù)。受訪者可以回答“不知道”或拒絕回答,調(diào)查人員對(duì)這些受訪者進(jìn)行追訪,以盡可能減少缺失數(shù)據(jù)的出現(xiàn),在缺失機(jī)制為不可忽略缺失的情形下,回答者與無回答者的調(diào)查數(shù)據(jù)分布有較大差異,此時(shí)進(jìn)行追訪調(diào)查很有必要。如果追訪后受訪者還是無回答則記錄該受訪者的該項(xiàng)目數(shù)據(jù)缺失。

美國(guó)的縱向調(diào)查重視抽樣框信息的完善,收集受訪者的多種聯(lián)系方式(電話、住址、郵箱等),防止地址變更等原因?qū)е聼o法聯(lián)系受訪者的問題出現(xiàn),跟蹤抽樣框中受訪者聯(lián)系方式的變化,保證每位受訪者不至在縱向調(diào)查過程中失聯(lián)。威斯康星縱向調(diào)查項(xiàng)目(WLS)就在威斯康星州政府和美國(guó)勞動(dòng)統(tǒng)計(jì)局的配合下,投入了大量人力財(cái)力用于維護(hù)抽樣框信息,從而能夠在整個(gè)縱向調(diào)查過程中跟蹤聯(lián)系到每一位受訪者。

2. 缺失數(shù)據(jù)的插補(bǔ)調(diào)整方法。采取各種預(yù)防缺失數(shù)據(jù)出現(xiàn)的措施只能一定程度上降低缺失數(shù)據(jù)出現(xiàn)的概率,不可能根本上解決缺失數(shù)據(jù)問題,威斯康星縱向調(diào)查項(xiàng)目(WLS)采取了大量的缺失數(shù)據(jù)預(yù)防措施,但問卷中多數(shù)問題的回答率只是在50%到90%之間。為了采用針對(duì)完全數(shù)據(jù)集的統(tǒng)計(jì)分析方法,需要對(duì)含缺失的數(shù)據(jù)集進(jìn)行插補(bǔ)調(diào)整。

美國(guó)目前處理縱向調(diào)查缺失數(shù)據(jù)最常用的方法是多重插補(bǔ)法,用這種方法可以較好地估計(jì)目標(biāo)參數(shù)以及參數(shù)估計(jì)量的方差。威斯康星縱向調(diào)查自1975年以來的各輪調(diào)查都采取了多重插補(bǔ)法處理缺失數(shù)據(jù),多重插補(bǔ)使用的是密歇根大學(xué)調(diào)查研究中心開發(fā)的軟件IVEware。

IVEware軟件采用多變量序貫回歸的方法進(jìn)行多重插補(bǔ),插補(bǔ)所用的回歸模型可以是線性模型、logistic模型,Poisson模型或廣義logit模型等,軟件基于含缺失值的待插補(bǔ)變量的性質(zhì)自動(dòng)選擇合適的回歸模型,除待插補(bǔ)變量外所有其他變量構(gòu)成回歸模型潛在的輔助變量集,插補(bǔ)值從待插補(bǔ)變量的后驗(yàn)預(yù)測(cè)分布中抽取,該后驗(yàn)預(yù)測(cè)分布基于所選擇的回歸模型獲得。軟件一次只對(duì)一個(gè)含缺失值的變量進(jìn)行插補(bǔ),對(duì)多個(gè)含缺失值的變量依次插補(bǔ)直到得到完整數(shù)據(jù)集,前期的含缺失值變量的插補(bǔ)值在后續(xù)針對(duì)其他變量的插補(bǔ)過程中被視為觀測(cè)值。該方法是一種基于回歸模型的插補(bǔ)方法。

具體地,假設(shè)待插補(bǔ)的含缺失值變量為Y1,…,Yk,數(shù)據(jù)完全的變量記為X,作為開始插補(bǔ)時(shí)的輔助變量,Y1,…,Yk在給定輔助變量X時(shí)的聯(lián)合分布:

f(Y1,…,Yk|X,θ1,…,θk)=f1(Y1|X,θ1)…,fk(Yk|X,Y1,…,Yk-1,θk)(1)

參數(shù)θj分布未知,假設(shè)其先驗(yàn)分布為無信息先驗(yàn),即π(θj)∝1,我們對(duì)等式右邊各個(gè)因子根據(jù)Yj的性質(zhì),選用合適的回歸模型建模。

若Yj為二值變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于logistic回歸模型求得。

若Yj為屬性變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于廣義logit回歸模型求得。

若Yj為計(jì)數(shù)變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于Poisson對(duì)數(shù)線性模型求得。

若Yj為連續(xù)型變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于正態(tài)線性回歸模型求得。

插補(bǔ)時(shí),首先插補(bǔ)缺失值最少的變量(記為Y1),根據(jù)Y1的性質(zhì)選擇回歸模型,基于該模型從Y1的后驗(yàn)預(yù)測(cè)分布f1(Y1|X,θ1)中抽取插補(bǔ)值,插補(bǔ)后變量Y1數(shù)據(jù)完全,然后從Y2的后驗(yàn)預(yù)測(cè)分布f2(Y2|X,Y1,θ2)中抽取插補(bǔ)值,用與插補(bǔ)Y1相同的步驟插補(bǔ)缺失值第二少的變量Y2,此時(shí)前一期插補(bǔ)后的完全數(shù)據(jù)變量Y1作為回歸模型輔助變量的一部分。如此進(jìn)行下去,依次插補(bǔ)Y1,…,Yk,直至得到一個(gè)完整數(shù)據(jù)集。

將上述插補(bǔ)過程進(jìn)行M次,得到M個(gè)完整數(shù)據(jù)集,進(jìn)而采用Rubin(1987)介紹的多重插補(bǔ)后參數(shù)估計(jì)量及其方差的計(jì)算公式,得到所求結(jié)果,具體地,首先用完全數(shù)據(jù)分析方法分析這M個(gè)數(shù)據(jù)集,對(duì)第m個(gè)插補(bǔ)后的“完整”數(shù)據(jù)集進(jìn)行參數(shù)估計(jì),記待估參數(shù)為γ,得到估計(jì)值γ(m),m=1,…,M;然后綜合M組估計(jì)量,得到統(tǒng)計(jì)推斷結(jié)果,參數(shù)估計(jì)為

γ=γ(m)(2)

由第i個(gè)插補(bǔ)后的“完整”數(shù)據(jù)集得到參數(shù)的方差估計(jì)V(m),V=V(m)為M個(gè)方差估計(jì)的均值,稱為組內(nèi)方差均值,定義組間方差B=(γ(m)-γ)(γ(m)-γ)′,則參數(shù)γ的方差估計(jì)為:

VMI=V+(1-)B(3)

威斯康星縱向調(diào)查目標(biāo)變量覆蓋面廣,持續(xù)時(shí)間長(zhǎng),收集到數(shù)據(jù)的完整程度基本反映了美國(guó)大型縱向調(diào)查的情況,一般情況下,數(shù)據(jù)完全的變量包括性別、受教育年數(shù)、每周工作時(shí)間、子女?dāng)?shù)、受教育程度等,而月收入、智商、健康狀況、家庭財(cái)產(chǎn)等信息常出現(xiàn)數(shù)據(jù)缺失,需要進(jìn)行插補(bǔ)調(diào)整。其中,對(duì)連續(xù)型數(shù)據(jù)如收入、財(cái)產(chǎn)等建立插補(bǔ)模型時(shí)可采用正態(tài)線性回歸模型,對(duì)于屬性變量如健康狀況等需要首先將其轉(zhuǎn)化為離散型數(shù)據(jù)(如健康狀況良好則賦值為1,一般則賦值為2,較差則賦值為3),然后建立針對(duì)離散型變量的回歸模型如廣義logit回歸模型,對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)。

三、 多重插補(bǔ)法處理缺失數(shù)據(jù)的優(yōu)勢(shì)

用插補(bǔ)法處理缺失數(shù)據(jù)與直接刪除法相比有許多優(yōu)勢(shì)。首先,它可以體現(xiàn)完全數(shù)據(jù)受訪單元與含缺失數(shù)據(jù)受訪單元之間的差異,從而得到參數(shù)的無偏估計(jì)結(jié)果,而直接刪除法只利用完全數(shù)據(jù)受訪單元的信息,若含缺失數(shù)據(jù)受訪單元與完全數(shù)據(jù)受訪單元的數(shù)據(jù)分布存在系統(tǒng)性差異,參數(shù)的估計(jì)結(jié)果會(huì)有偏;其次,插補(bǔ)法可以充分利用收集到的數(shù)據(jù)信息,而直接刪除法會(huì)丟棄大量有用數(shù)據(jù),造成信息浪費(fèi)。

美國(guó)目前處理縱向調(diào)查缺失數(shù)據(jù)廣泛采用的多重插補(bǔ)法可以充分利用輔助信息和觀測(cè)數(shù)據(jù)作為先驗(yàn)信息,采用貝葉斯方法從含缺失變量后驗(yàn)分布中重復(fù)抽取插補(bǔ)值,不僅可以獲得目標(biāo)參數(shù)的無偏估計(jì),還可以避免單一插補(bǔ)導(dǎo)致的參數(shù)估計(jì)量方差偏低的情況發(fā)生。

美國(guó)的縱向調(diào)查有一套成熟的缺失數(shù)據(jù)處理方法和步驟,對(duì)于大型縱向調(diào)查,在歷次調(diào)查階段采用相同的方法進(jìn)行缺失數(shù)據(jù)處理,使歷次調(diào)查的參數(shù)估計(jì)結(jié)果具有可比性。

四、 大數(shù)據(jù)背景下縱向缺失數(shù)據(jù)處理的意義和啟示

當(dāng)前國(guó)內(nèi)電子商務(wù)事業(yè)蓬勃發(fā)展,阿里巴巴、京東等電商十分重視生產(chǎn)、銷售過程中在不同時(shí)間點(diǎn)產(chǎn)生的運(yùn)營(yíng)數(shù)據(jù),這些數(shù)據(jù)可以視為縱向調(diào)查數(shù)據(jù),企業(yè)希望根據(jù)不同時(shí)間點(diǎn)的運(yùn)營(yíng)數(shù)據(jù)建立模型,預(yù)測(cè)未來發(fā)展態(tài)勢(shì),提早制定相應(yīng)策略。以阿里巴巴為例,其數(shù)據(jù)平臺(tái)所有海量數(shù)據(jù)來自數(shù)百萬小微企業(yè)以及數(shù)以億記的消費(fèi)者,阿里研究院的數(shù)據(jù)分析中心通過對(duì)他們商務(wù)活動(dòng)和消費(fèi)過程中產(chǎn)生的縱向數(shù)據(jù)進(jìn)行分析,可以幫助企業(yè)和政府及時(shí)準(zhǔn)確了解微觀經(jīng)濟(jì)的運(yùn)行情況。“未來制造業(yè)的最大‘能源不是石油,而是數(shù)據(jù)”,馬云如此形容數(shù)據(jù)分析的重要意義。

我國(guó)大型抽樣調(diào)查尤其是縱向調(diào)查事業(yè)起步較晚,調(diào)查設(shè)計(jì)及數(shù)據(jù)處理技術(shù)尚不成熟,尤其是在缺失數(shù)據(jù)處理方面,大多沒有采用多重插補(bǔ)法等統(tǒng)計(jì)分析方法,而是直接刪去含缺失值的受訪單元,即使插補(bǔ)也大多采用簡(jiǎn)單的單一插補(bǔ)法,隨著大數(shù)據(jù)時(shí)代的來臨,這樣處理缺失數(shù)據(jù)弊端明顯,因?yàn)殡S著時(shí)間的推移,數(shù)據(jù)量越來越大,其中的缺失數(shù)據(jù)也會(huì)越來越多,而且新老數(shù)據(jù)很容易出現(xiàn)重復(fù)。雀巢公司在200多個(gè)國(guó)家出售十余萬種產(chǎn)品,有數(shù)十萬家供應(yīng)商,其數(shù)據(jù)庫(kù)數(shù)據(jù)量很大,決策層希望利用生產(chǎn)和銷售數(shù)據(jù)形成采購(gòu)議價(jià)優(yōu)勢(shì),在市場(chǎng)中占得先機(jī),但一次檢查中發(fā)現(xiàn),在近千萬條客戶、原材料和經(jīng)銷商記錄中近一半是過期或重復(fù)數(shù)據(jù),剩下的一半中還有三分之一是明顯不合理或缺失的數(shù)據(jù),在利用這些數(shù)據(jù)之前需要投入大量精力進(jìn)行數(shù)據(jù)清洗處理。國(guó)內(nèi)縱向調(diào)查數(shù)據(jù)無論從數(shù)量還是質(zhì)量看,與西方發(fā)達(dá)國(guó)家都存在一定差距,數(shù)據(jù)缺失的問題十分嚴(yán)重,我們應(yīng)當(dāng)學(xué)習(xí)西方先進(jìn)的缺失數(shù)據(jù)處理經(jīng)驗(yàn),采用多重插補(bǔ)法、EM算法、基于模型的似然推斷法等統(tǒng)計(jì)分析方法處理缺失數(shù)據(jù)問題。

本文介紹了美國(guó)縱向調(diào)查處理缺失數(shù)據(jù)時(shí)常采用的多重插補(bǔ)法的操作步驟和相應(yīng)軟件,結(jié)合我國(guó)國(guó)情和發(fā)展現(xiàn)狀,美國(guó)的經(jīng)驗(yàn)對(duì)我國(guó)縱向缺失數(shù)據(jù)處理工作的啟示有以下幾點(diǎn):

1. 對(duì)于縱向調(diào)查,觀測(cè)不同調(diào)查時(shí)點(diǎn)目標(biāo)參數(shù)的變化情況及發(fā)展趨勢(shì)是一個(gè)重要目的,所以對(duì)不同時(shí)點(diǎn)的含缺失數(shù)據(jù)集,需采用相同的缺失數(shù)據(jù)處理及參數(shù)估計(jì)方法,這樣不同時(shí)點(diǎn)參數(shù)估計(jì)結(jié)果才有可比性,目前我國(guó)尚沒有一個(gè)關(guān)于縱向調(diào)查中缺失數(shù)據(jù)處理方法的標(biāo)準(zhǔn),在調(diào)查手冊(cè)中也沒有專門章節(jié)說明如何處理缺失數(shù)據(jù),這樣可能由于縱向調(diào)查不同階段缺失數(shù)據(jù)處理方法不同,導(dǎo)致根據(jù)不同時(shí)點(diǎn)參數(shù)估計(jì)結(jié)果建立的時(shí)序模型與客觀實(shí)際不符,從而失去了根據(jù)該模型預(yù)測(cè)未來發(fā)展態(tài)勢(shì)進(jìn)而制定相應(yīng)策略的價(jià)值。建議研究者和調(diào)查設(shè)計(jì)及數(shù)據(jù)分析人員重視縱向缺失數(shù)據(jù)對(duì)參數(shù)估計(jì)結(jié)果的不利影響,制定縱向調(diào)查缺失數(shù)據(jù)處理相關(guān)的標(biāo)準(zhǔn),在調(diào)查手冊(cè)和數(shù)據(jù)分析報(bào)告中用專門章節(jié)說明缺失數(shù)據(jù)的預(yù)防措施,報(bào)告每個(gè)調(diào)查時(shí)點(diǎn)下每個(gè)目標(biāo)變量的數(shù)據(jù)缺失率,根據(jù)數(shù)據(jù)缺失的可能原因判定數(shù)據(jù)缺失機(jī)制,進(jìn)而按照標(biāo)準(zhǔn)的方法有針對(duì)性地進(jìn)行缺失數(shù)據(jù)處理,得到參數(shù)估計(jì)結(jié)果。

2. 重視缺失數(shù)據(jù)統(tǒng)計(jì)處理方法的研究。采用事前預(yù)防措施不可能完全消除缺失數(shù)據(jù),此時(shí)需要對(duì)含缺失調(diào)查數(shù)據(jù)集進(jìn)行事后處理。首先需要確定數(shù)據(jù)的缺失機(jī)制,然后合理選擇處理缺失數(shù)據(jù)的方法。對(duì)隨機(jī)缺失機(jī)制和非隨機(jī)缺失機(jī)制,適用的處理方法不同。隨機(jī)缺失機(jī)制下,可采用插補(bǔ)法和極大似然法處理縱向缺失數(shù)據(jù)。插補(bǔ)法本質(zhì)是利用已觀測(cè)到的數(shù)據(jù)對(duì)數(shù)據(jù)缺失的部分進(jìn)行填補(bǔ),以獲得盡量完整且與實(shí)際情況相符的數(shù)據(jù)集。極大似然法(MLE)通過最大化似然函數(shù)求參數(shù)的估計(jì)值,存在縱向缺失數(shù)據(jù)的情形下,常通過EM迭代算法獲得參數(shù)的極大似然估計(jì)。非隨機(jī)缺失機(jī)制下,需要引入目標(biāo)變量Yi的缺失指示變量ai(ai=0表示Yi數(shù)據(jù)缺失,ai=1表示Yi有觀測(cè)值),對(duì) (Yi,ai)的聯(lián)合分布建模,采用極大似然法進(jìn)行統(tǒng)計(jì)推斷,在給定輔助變量X的條件下,根據(jù)聯(lián)合分布f(Yi,ai|X)的不同分解方式,可將(Yi,ai)的聯(lián)合分布模型分為選擇模型和模式混合模型。

3. 對(duì)于目前國(guó)際上廣泛采用的多重插補(bǔ)法,其理論基礎(chǔ)是貝葉斯統(tǒng)計(jì)理論,一般情況下缺失數(shù)據(jù)的預(yù)測(cè)分布比較復(fù)雜,本文介紹的威斯康星縱向研究采用的序貫多變量回歸法將插補(bǔ)過程分解,每一步僅插補(bǔ)一個(gè)含缺失值變量,這樣可以使問題簡(jiǎn)化。多重插補(bǔ)的一大優(yōu)勢(shì)是允許在構(gòu)建插補(bǔ)模型時(shí)將各種輔助信息考慮在內(nèi),提高估計(jì)結(jié)果的準(zhǔn)確性,并且與均值插補(bǔ)、比率插補(bǔ)和回歸插補(bǔ)等單一插補(bǔ)法相比,多重插補(bǔ)構(gòu)造M個(gè)完整數(shù)據(jù)集,可以模擬一定條件下的估計(jì)量分布,根據(jù)變量數(shù)據(jù)類型采用不同的回歸模型隨機(jī)多次抽取插補(bǔ)值,能夠反映在該模型下由于數(shù)據(jù)缺失導(dǎo)致的插補(bǔ)值的不確定性,從而增加了估計(jì)的有效性,避免了單一插補(bǔ)時(shí)參數(shù)估計(jì)量方差被低估的問題。

4. 重視軟件的開發(fā)和引進(jìn)。目前國(guó)際上用于缺失數(shù)據(jù)處理的軟件發(fā)展速度較快,而我國(guó)如果僅用均值插補(bǔ)這樣簡(jiǎn)單的缺失數(shù)據(jù)處理方法,相關(guān)軟件的強(qiáng)大功能將無法發(fā)揮。我國(guó)應(yīng)當(dāng)以自主開發(fā)為主,同時(shí)重視引進(jìn)國(guó)外先進(jìn)軟件,除了本文介紹的密歇根大學(xué)開發(fā)的IVEware軟件外,SAS Proc MI可以在廣義線性模型、生存分析模型、隨機(jī)效應(yīng)模型等多種模型假定下,采用多重插補(bǔ)法進(jìn)行含缺失數(shù)據(jù)情形下的參數(shù)估計(jì)。R有多個(gè)軟件包可以進(jìn)行缺失數(shù)據(jù)統(tǒng)計(jì)分析,ACD包可以在因變量數(shù)據(jù)缺失時(shí)進(jìn)行屬性數(shù)據(jù)分析,mvnmle包在目標(biāo)變量和輔助變量聯(lián)合分布為多元正態(tài)分布時(shí),進(jìn)行目標(biāo)變量數(shù)據(jù)缺失情形下的參數(shù)極大似然估計(jì),MICE包是R中目前最常用的用于缺失數(shù)據(jù)分析的軟件包,MICE是Multivariate Imputation by Chained Equations的簡(jiǎn)稱,可以進(jìn)行多變量缺失數(shù)據(jù)的多重插補(bǔ),在多個(gè)目標(biāo)變量都可能存在缺失值時(shí),使用MICE包中的mice函數(shù),通過變量之間的關(guān)系預(yù)測(cè)缺失數(shù)據(jù),利用蒙特卡洛方法生成多個(gè)完整數(shù)據(jù)集存在imp中,再對(duì)imp進(jìn)行線性回歸,最后用pool函數(shù)對(duì)回歸結(jié)果進(jìn)行匯總。以上軟件如能應(yīng)用于我國(guó)縱向缺失數(shù)據(jù)分析領(lǐng)域,必將大大提高參數(shù)估計(jì)的效率和準(zhǔn)確性。

參考文獻(xiàn):

[1] Savard J R, Pearce N C. Wisconsin Longitudinal Study: User's Guide, National Institute of Health,2010.

[2] U.S.Department of Housing and Urban Development.American Housing Survey for the United States: 2007(Current Housing Reports).Issued September,2008.

[3] Raghunathan T E Lepkowski J M , et al.A Multivariate Technique for Multiply Imputing M- issing Values Using a Sequence of Regression Models[J].Survey Methodology,2001,(27):85-95.

[4] Rubin D B.Multiple Imputation for Nonresponse in Surveys[M].John Wiley & Sons, Inc.New York,1987.

基金項(xiàng)目:國(guó)家社科基金項(xiàng)目“大數(shù)據(jù)背景下非概率抽樣的統(tǒng)計(jì)推斷問題研究”(項(xiàng)目號(hào):15BTJ014);全國(guó)統(tǒng)計(jì)科學(xué)研究重點(diǎn)項(xiàng)目“小微工業(yè)企業(yè)抽樣調(diào)查問題研究”(項(xiàng)目號(hào):2013LZ34);北京市社科基金重點(diǎn)項(xiàng)目“基于北京市地理分布的空間抽樣設(shè)計(jì)研究”(項(xiàng)目號(hào):14JGA022);北京市優(yōu)博論文指導(dǎo)教師人文社科項(xiàng)目(項(xiàng)目號(hào):20121000202)。

作者簡(jiǎn)介:金勇進(jìn)(1953-),男,漢族,北京市人,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院教授、博士生導(dǎo)師,應(yīng)用統(tǒng)計(jì)科學(xué)研究中心主任,研究方向?yàn)槌闃诱{(diào)查技術(shù)與數(shù)據(jù)分析;于力超(1985-),男,漢族,山東省煙臺(tái)市人,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院博士生,研究方向?yàn)槌闃诱{(diào)查技術(shù)與數(shù)據(jù)分析。

收稿日期:2015-07-18。

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
大數(shù)據(jù)時(shí)代新聞的新變化探究
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索