殷雨晨,陳兆榮
(銅陵學(xué)院 經(jīng)濟(jì)學(xué)院,安徽 銅陵 244000)
在數(shù)據(jù)收集和處理的過(guò)程中,往往會(huì)出現(xiàn)數(shù)據(jù)缺失的現(xiàn)象,不恰當(dāng)?shù)奶幚矸椒▽?huì)影響分析結(jié)果的可靠性.因此,如何在數(shù)據(jù)存在缺失的情況下減小估計(jì)的誤差成了亟待解決的問(wèn)題.對(duì)于缺失的數(shù)據(jù),利用數(shù)據(jù)特征來(lái)進(jìn)行填補(bǔ)是目前統(tǒng)計(jì)學(xué)中最常用的方法,包括均值插補(bǔ)法、回歸插補(bǔ)法和最近距離插補(bǔ)法等.其中,均值插補(bǔ)法就是用所研究樣本的已觀測(cè)數(shù)據(jù)的均值作為缺失值的替代值,這種方法操作簡(jiǎn)單,實(shí)用性強(qiáng).不過(guò)也存在著明顯的弊端,即均值填補(bǔ)忽略了數(shù)據(jù)的離散程度,可能會(huì)造成較大的推斷誤差.
除了進(jìn)行傳統(tǒng)的方法進(jìn)行數(shù)據(jù)填補(bǔ)以外,EM(Expectation Maximization)算法也逐漸被應(yīng)用到經(jīng)濟(jì)、醫(yī)療和工程等不完全數(shù)據(jù)的處理中.孫大飛[1]將EM算法應(yīng)用到混合密度極大似然參數(shù)估計(jì)當(dāng)中,驗(yàn)證了此算法的收斂性和有效性.張夢(mèng)琇[2]將EM算法應(yīng)用到左截?cái)嘤覄h失數(shù)據(jù)的幾何分布參數(shù)估計(jì)中.此外,學(xué)者們也對(duì)EM算法不斷進(jìn)行研究和改進(jìn),先后提出了ECM(Expectation Conditional Maximization)、ECME(Expectation Conditional Maximization Either)、PX-EM(Parameter-Expanded EM)和MCEM(Monte Carlo EM)等算法.溫艷清[3]在區(qū)間型數(shù)據(jù)條件下利用ECM算法對(duì)Weibull分布進(jìn)行了極大似然估計(jì).嚴(yán)海芳[4]應(yīng)用MCEM算法給出了對(duì)數(shù)正態(tài)分布的參數(shù)的迭代公式,給出了比EM算法更有效、收斂速度更快的模擬結(jié)果.本文將MCEM算法引入到含缺失數(shù)據(jù)的多元正態(tài)數(shù)據(jù)的均值向量估計(jì)當(dāng)中,得到迭代公式,并據(jù)此進(jìn)行數(shù)值模擬,驗(yàn)證算法的合理性和準(zhǔn)確性.
EM算法,也稱(chēng)最大期望算法,是一種能夠在不完全數(shù)據(jù)下通過(guò)迭代得到參數(shù)最大似然估計(jì)的算法,最早由Dempster[5]提出,該算法迭代速度較快并且估計(jì)結(jié)果具有很好的穩(wěn)定性.它是在概率模型中尋找參數(shù)最大似然估計(jì)或者最大后驗(yàn)估計(jì)的算法,其中概率模型依賴(lài)于無(wú)法觀測(cè)的隱性變量.EM算法的每次迭代包括一個(gè)E步和一個(gè)M步,兩個(gè)步驟交替進(jìn)行計(jì)算.其基本思想是:首先根據(jù)已經(jīng)給出的觀測(cè)數(shù)據(jù),估計(jì)出模型參數(shù)的值;然后再依據(jù)上一步估計(jì)出的參數(shù)值估計(jì)缺失數(shù)據(jù)的值,再根據(jù)估計(jì)出的缺失數(shù)據(jù)加上之前已經(jīng)觀測(cè)到的數(shù)據(jù)重新再對(duì)參數(shù)值進(jìn)行估計(jì),然后反復(fù)迭代,直至最后收斂,迭代結(jié)束.
E步:計(jì)算目標(biāo)Q函數(shù)
Q(θ|θ(t))=Ef[l(θ|Yobs,Ymis)|Yobs,θ(t)]
(1)
M步:求目標(biāo)Q函數(shù)的最優(yōu)解
θ(t+1)=argmaxQ(θ|θ(t));
(2)
E2步:計(jì)算目標(biāo)Q函數(shù),其中
(3)
M步:求目標(biāo)Q函數(shù)的最優(yōu)解
θ(t+1)=argmaxQ(θ|θ(t));
(4)
多元正態(tài)分布是一元正態(tài)分布的推廣[7].已知一元正態(tài)分布的密度函數(shù)為
(5)
將式(5)進(jìn)行推廣,可以給出多元正態(tài)分布的定義
定義1p元正態(tài)變量X=(X1,X2,…,Xp)′的概率密度函數(shù)為
(6)
其中,|Σ|為協(xié)方差陣Σ的行列式.
記X~Np(μ,Σ),將X,μ和Σ剖分如下
其中,X(1),μ(1)為q×1維,Σ11為q×q維,(X(1)|X(2))為給定X(2)時(shí)X(1)的條件分布[8].
定理1 設(shè)X~Np(μ,Σ),Σ>0,則
(X(1)|X(2))~Nq(μ1·2,Σ11·2),
其中
(7)
(8)
(9)
(10)
最后實(shí)現(xiàn)M步,對(duì)目標(biāo)函數(shù)求極值
(11)
(12)
由表1可知,相比于傳統(tǒng)的均值插補(bǔ)法,MCEM算法估計(jì)的均值離真實(shí)值的偏差更小,效果更好.并且隨著樣本量的增大,MCEM算法的估計(jì)精度也有所增加,即當(dāng)樣本量從100增加到1000時(shí),μ1估計(jì)偏差的絕對(duì)值從0.3938降低到0.0351,μ2估計(jì)偏差的絕對(duì)值從0.1198降低到0.0721.因此,本文提出的MCEM算法比均值插補(bǔ)法更有優(yōu)勢(shì),在多元正態(tài)分布的均值向量估計(jì)中是切實(shí)可行的.
表1 不同樣本量下均值估計(jì)結(jié)果
本文將MCEM算法應(yīng)用到含缺失數(shù)據(jù)的多元正態(tài)分布的均值向量估計(jì)中,既解決了傳統(tǒng)均值填補(bǔ)方法忽略數(shù)據(jù)離散程度的問(wèn)題,同時(shí)也化解了 EM算法中計(jì)算E步期望的難題,將原本復(fù)雜的問(wèn)題簡(jiǎn)化為蒙特卡洛模擬求解積分.最后,數(shù)值模擬的結(jié)果也驗(yàn)證了MCEM算法在多元正態(tài)分布均值向量估計(jì)中是可行且高效的.