張 亞,安佰玲
1.滁州城市職業(yè)學(xué)院基礎(chǔ)部,滁州,239000;2.淮北師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,淮北,235000
概率密度函數(shù)是概率統(tǒng)計(jì)概念,主要用于計(jì)算數(shù)據(jù)密度大小[1]。一般情況下,設(shè)求解數(shù)據(jù)總體X對(duì)應(yīng)的求解密度函數(shù)為f(x),在總體數(shù)據(jù)X中抽取樣本數(shù)據(jù)記為x1,x2,…,xn,根據(jù)給定的樣本完成概率密度函數(shù)f(x)計(jì)算[2]。 目前,對(duì)于該函數(shù)的求解方法有很多種,應(yīng)用較多的方法有最近鄰密度估計(jì)法、正交序列估計(jì)法、核估計(jì)法和直方圖估計(jì)法等[3]。
各個(gè)領(lǐng)域在應(yīng)用該函數(shù)時(shí),異?,F(xiàn)象越來越頻繁,主要表現(xiàn)為數(shù)據(jù)缺失[4]。為了避免數(shù)據(jù)缺失情況對(duì)概率統(tǒng)計(jì)結(jié)果造成影響,我國(guó)在此方面投入了大量資金,并設(shè)置了相關(guān)自然科學(xué)基金項(xiàng)目[5]。目前,國(guó)內(nèi)學(xué)者對(duì)于缺失數(shù)據(jù)情形下概率密度函數(shù)的研究成果較少[6]。國(guó)外學(xué)者在此方面的研究成果更多,對(duì)于協(xié)變量有缺失的情況,利用參數(shù)模型,提出了概率密度函數(shù)估計(jì)方法[7]。除此之外,針對(duì)響應(yīng)變量缺失情況,提出逆概率權(quán)法與校正法,充分分析了概率密度函數(shù)漸進(jìn)性質(zhì),并對(duì)函數(shù)進(jìn)行了估計(jì)計(jì)算[8]。在缺失數(shù)據(jù)情況下,極少有文獻(xiàn)考慮經(jīng)驗(yàn)似然置信區(qū)間問題,并作出數(shù)值試驗(yàn)。
從缺失機(jī)制與方式角度,可以將缺失數(shù)據(jù)樣本歸為以下三種類型。
(1)隨機(jī)缺失樣本:是一種依賴完全變量的數(shù)據(jù)樣本。
(2)完全隨機(jī)缺失樣本:要求數(shù)據(jù)缺失既與完全變量無關(guān),又與不完全變量無關(guān)。
(3)非隨機(jī)缺失樣本:該樣本相比上述兩種樣本要繁瑣一些,通常情況下,區(qū)分該樣本采用的方法為排除法,如果數(shù)據(jù)樣本不滿足上述兩種樣本要求,則認(rèn)為其為非隨機(jī)缺失樣本[9]。
目前,處理缺失數(shù)據(jù)的方法主要有兩種,分別是完全記錄單位法和填補(bǔ)法,前者包括刪除法和加權(quán)調(diào)整法,后者包括單一填補(bǔ)法和多重填補(bǔ)法[10]。
(1)完整樣本數(shù)據(jù)情形。
(2)缺失樣本數(shù)據(jù)情形。
當(dāng)函數(shù)集{Yj}出現(xiàn)數(shù)據(jù)缺失情況時(shí),需要立即調(diào)整數(shù)據(jù),然而在調(diào)整數(shù)據(jù)的過程中發(fā)現(xiàn),在MAR假設(shè)條件下,
在上述公式中,U(x,y)=Q[Hd(y-Y|X=x)],因此,使用非參數(shù)回歸填補(bǔ)法求解函數(shù)f(y)的估計(jì)計(jì)算公式為:
該方法的估計(jì)計(jì)算方案如下:
首先,在滿足X=x條件下,給定Y不缺失概率,用λ(x)表示,即λ(x)=P(σ=1|X=x),并且將其記為λ(xj)=λj,1≤j≤m,
(1)當(dāng)λj為已知量時(shí),在MAR假設(shè)條件下
由上述公式可以得到逆概率權(quán)填補(bǔ)法的估算公式為
(2)一般情況下,λj未知,在估計(jì)計(jì)算時(shí),可以使用以下方法對(duì)函數(shù)λ(x)進(jìn)行估算:
在上述公式中,{Wmi(x):1≤i≤m}屬于一組完全依賴函數(shù)集{x,Xj:1≤j≤m}的非負(fù)權(quán)函數(shù)。
為了探究本文提出的兩種估算方案是否可行,將提出的估算方法應(yīng)用到實(shí)際求解中,驗(yàn)證方案的可行性,最終達(dá)到解決缺失數(shù)據(jù)情形概率密度函數(shù)統(tǒng)計(jì)問題。
對(duì)非參數(shù)回歸填補(bǔ)估計(jì)方案,通過分析構(gòu)造函數(shù)f(y)經(jīng)驗(yàn)似然置信區(qū)間,完成方案驗(yàn)證。采用同樣的應(yīng)用思路,探究逆概率權(quán)填補(bǔ)漸進(jìn)置信區(qū)間。
在MAR 缺失機(jī)制下,設(shè)置如下數(shù)據(jù)缺失情形:
λ1(x)=P(σ=1|X=x)
={1+exp(-0.5x)}-1
針對(duì)上述情形,生成不完全樣本數(shù)量5 000,表示形式為{xi,Yi,σi,i=1,2,…,m},其中m取值260,200,140,同時(shí)取定區(qū)間1-α=0.95。使用上述不完全數(shù)據(jù)樣本,采用逆概率權(quán)填補(bǔ)法和非參數(shù)回歸填補(bǔ)法對(duì)樣本函數(shù)的經(jīng)驗(yàn)似然置信區(qū)間覆蓋概率(CP)進(jìn)行計(jì)算,同時(shí)求取平均區(qū)間長(zhǎng)度(AL)。
按照上述應(yīng)用方案執(zhí)行,得到的結(jié)果真值在置信區(qū)間右方比率記為U,左方比率記為L(zhǎng),得到的結(jié)果見表1-3。
表1-3中的數(shù)據(jù)表明:(1)對(duì)于平均區(qū)間長(zhǎng)度,采用非參數(shù)回歸填補(bǔ)法得到的置信區(qū)間長(zhǎng)度值更大一些;(2)當(dāng)樣本容量逐漸增加時(shí),CP逐漸增加,最終達(dá)到0.95,在此期間,區(qū)間長(zhǎng)度值有所減??;(3)接近名義覆蓋水平的覆蓋率獲取方法為逆概率權(quán)填補(bǔ)法。
表1 f(0.6)不同樣本容量m下的兩種方法的AL與CP結(jié)果統(tǒng)計(jì)表
表2 f(0.8)不同樣本容量m下的兩種方法的AL與CP結(jié)果統(tǒng)計(jì)表
表3 f(1)不同樣本容量m下的兩種方法的AL與CP結(jié)果統(tǒng)計(jì)表
本文對(duì)缺失數(shù)據(jù)情形概率密度函數(shù)統(tǒng)計(jì)應(yīng)用進(jìn)行研究。研究依據(jù)概率密度函數(shù)理論和數(shù)據(jù)缺失機(jī)制理論,制定缺失數(shù)據(jù)情形概率密度函數(shù)估計(jì)方法,包括非參數(shù)回歸填補(bǔ)法和逆概率權(quán)方法。通過分析實(shí)際應(yīng)用結(jié)果可知,使用非參數(shù)回歸填補(bǔ)法可以得到較大的置信區(qū)間平均長(zhǎng)度值,而逆概率權(quán)填補(bǔ)法的應(yīng)用結(jié)果更加接近名義覆蓋水平覆蓋率,CP隨著樣本容量的增加而變大,逐漸接近0.95。