同貞
摘 要:本文在給出零堆積泊松分布定義的基礎(chǔ)上,討論了其與泊松分布在擬合零出現(xiàn)較多的計數(shù)數(shù)據(jù)時的優(yōu)劣,最終得出結(jié)論。
關(guān)鍵詞:泊松分布;零堆積泊松分布;參數(shù)估計
在實際生活中,我們都會遇到種類繁多的計數(shù)數(shù)據(jù),對于不同的數(shù)據(jù)根據(jù)數(shù)學(xué)的方法,可以把他們用數(shù)學(xué)的模型擬合出來,以便于對數(shù)據(jù)進行猜測與預(yù)期。一般情況下,泊松分布以及泊松過程對于描述這些社會管理活動、生產(chǎn)活動等產(chǎn)生的計數(shù)數(shù)據(jù)具有非常好的擬合效果。
為了解各高校學(xué)生對期末考試的重視程度,有人對某高校所有本科在讀學(xué)生2012年下半年期末考試每場缺考人數(shù)做了追蹤調(diào)查與統(tǒng)計。已知此校每個時間段共有考場78個,每個考場每天平均進行4場考試,從剛開始考試到全部學(xué)生考完所用時間為15天,即知道此學(xué)校本次期末考試總共進行了4680場考試。現(xiàn)取n=4680為樣本容量,k表示缺考人數(shù),nk為在k下的考試場數(shù),p為頻率,且得到追蹤統(tǒng)計的結(jié)果如下:
k 0 1 2 3 4
nk(觀測頻數(shù)) 2985 1341 300 47 7
我們首先用泊松分布來模擬此組數(shù)據(jù)。用泊松分布的極大似然估計法計算λ的值,步驟如下:
此問題的似然函數(shù)為:L(λ)=■P(X=i)=■■e■
=■e■
則對數(shù)似然函數(shù)為:lnL=-nλ+■xilnλ-■ln(xi?。?/p>
由■λ=■=-n+■■xi=0,得到■≈0.4509
由此可計算服從此分布的理論數(shù)據(jù)如下:
k 0 1 2 3 4
■k(理論頻數(shù)) 2981.6 1344.1 303.3 45.4 5.2
對相同的數(shù)據(jù),我們用零堆積泊松分布模型擬合,結(jié)果會是怎樣呢?
下面我們就用零堆積的泊松分布來擬合此組數(shù)據(jù)。首先先介紹一下零堆積泊松分布的概念及參數(shù)估計。
隨機變量X是以概率p服從退化的零點分布,以概率1-p服從參數(shù)為λ的泊松分布,其中p∈(0,1),我們稱這樣的分布為零堆積泊松分布,并記X~ZIP(λ,p),x的概率分布為
P(X=0)=p+(1-p)e-λ,k=0,P(X=k)=(1-p)e-λλk/k!,k=1,2,….
其參數(shù)的極大似然估計法如下:
若隨機變量X~ZIP(λ,p),并且X1,X2,…,Xn是來自ZIP(λ,p)的一個樣本,觀測值為x1,x2,…,xn,取值為[0,k]之間的整數(shù)。令x=(x1,x2,…,xn),X=■Xi/n,其似然函數(shù)為L(λ,p;x)=■(p+(1-p)e-λ)■
((1-p)e-λλ■/xi?。?,其對數(shù)似然函數(shù)為:lnL(λ,p;x)=Ixi=0(xi)■ln(p+(1-p)e-λ)+Ixi≠0(xi)■ln(1-p)e-λλxi/xi?。?,其中I[A](x)=1,若x∈A,0,若x?埸A.
令φ=(1-p)(1-e-λ),用ni表示n個樣本X1,X2,…,Xn中取值為i的樣本數(shù),i是取值為[0,k]之間的整數(shù),于是對數(shù)似然函數(shù)變換如下:
lnL(λ,φ)=n0ln(1-φ)+■ni[ln(1-e-λ)-1φ]+ilnλ-λ-lni!]
=n0ln(1-φ)+(n-n0)lnφ+■ni[-ln(1-e-λ)]+ilnλ-λ-lni!]
那么只需解似然方程組:
■lnL(λ,φ)=-■+■■=0,
■lnL(λ,φ)=-■■ni+(■ini)■-■ni=0.
因為■ni=n,并且■ini=nX,
整理方程得到■=(n-n0)/n,(n-n0)■+n■(e-■-1)=0,■=1-■/(1-e-■).
現(xiàn)在我們假設(shè)X服從零堆積泊松分布,并根據(jù)以上結(jié)論計算出零堆積泊松分布下的參數(shù)估計值■,■,■。其中,n=4680,n0=2985,X=■Xi/n=■≈0.4509,進而得到:■≈0.3622■≈0.4553■≈0.0097
由此,算出各個樣本點的理論頻數(shù)如下:
k 0 1 2 3 4
■k(理論頻數(shù)) 2984.9 1340.8 301.9 46.3 6
現(xiàn)在我們將觀測值與這兩種分布的理論值匯總進行比較:
k 0 1 2 3 4
nk(觀測頻數(shù)) 2985 1341 300 47 7
■k(泊松分布理論頻數(shù)) 2981.6 1344.1 303.3 45.4 5.2
■k(零堆積泊松分布理論頻數(shù))2984.9 1340.8 301.9 46.3 6.6
顯然可以得到,零堆積泊松分布的理論頻數(shù)比泊松分布的理論頻數(shù)更加接近實際觀測頻數(shù)。為了更進一步說明用哪個模型來模擬零出現(xiàn)較多的一組計數(shù)數(shù)據(jù)比較有效,我們用χ2=■(nk-■k)2/■k計算出它們各自的χ2值(χ2值代表通常的χ2統(tǒng)計量),如下:
χ2
■k(泊松分布理論頻數(shù)) 0.7264
■k(零堆積泊松分布理論頻數(shù)) 0.0468
由上面的數(shù)據(jù)可以看出,泊松分布和零堆積泊松分布對于此組計數(shù)數(shù)據(jù)都給出了非常好的擬合效果。事實上,根據(jù)進一步計算出的χ2值相比較,我們知道用零堆積泊松分布擬合這樣的數(shù)據(jù)效果明顯比泊松分布好。
因此可以得出結(jié)論:零堆積泊松分布在擬合包含大量零的計數(shù)數(shù)據(jù)時比泊松分布效果更好。(指導(dǎo)教師:文平教授)
參考文獻:
[1]韋博成,謝峰昌.ZI縱向計數(shù)數(shù)據(jù)模型的影響分析[J].應(yīng)用概率統(tǒng)計,2006,(03).
[2]葉俊,趙衡秀.概率論與數(shù)理統(tǒng)計[M].北京:清華大學(xué)出版社,2005.
[3]上海財經(jīng)大學(xué)應(yīng)用數(shù)學(xué)系.概率論與數(shù)理統(tǒng)計(第三版)[M].上海:上海財經(jīng)大學(xué)出版社,2012.
[4]嚴珉.數(shù)學(xué)方法在保險學(xué)中的應(yīng)用[J].管理與財富,2009,(04).
[5]葉興德,程曉良,陳明飛,薛蓮.數(shù)值分析基礎(chǔ)[M].杭州:浙江大學(xué)出版社,2008.
[6]張德豐.Matlab概率與數(shù)理統(tǒng)計分析[M].北京:機械工業(yè)出版社,2010.