探尋泊松分布與零堆積泊松分布的優(yōu)劣

2013-04-29 00:44:03同貞

新校園·中旬刊 2013年6期

同貞

摘要：本文在給出零堆積泊松分布定義的基礎(chǔ)上，討論了其與泊松分布在擬合零出現(xiàn)較多的計數(shù)數(shù)據(jù)時的優(yōu)劣，最終得出結(jié)論。

關(guān)鍵詞：泊松分布；零堆積泊松分布；參數(shù)估計

在實際生活中，我們都會遇到種類繁多的計數(shù)數(shù)據(jù)，對于不同的數(shù)據(jù)根據(jù)數(shù)學(xué)的方法，可以把他們用數(shù)學(xué)的模型擬合出來，以便于對數(shù)據(jù)進行猜測與預(yù)期。一般情況下，泊松分布以及泊松過程對于描述這些社會管理活動、生產(chǎn)活動等產(chǎn)生的計數(shù)數(shù)據(jù)具有非常好的擬合效果。

為了解各高校學(xué)生對期末考試的重視程度，有人對某高校所有本科在讀學(xué)生2012年下半年期末考試每場缺考人數(shù)做了追蹤調(diào)查與統(tǒng)計。已知此校每個時間段共有考場78個，每個考場每天平均進行4場考試，從剛開始考試到全部學(xué)生考完所用時間為15天，即知道此學(xué)校本次期末考試總共進行了4680場考試。現(xiàn)取n=4680為樣本容量，k表示缺考人數(shù)，nk為在k下的考試場數(shù)，p為頻率，且得到追蹤統(tǒng)計的結(jié)果如下：

k 0 1 2 3 4

nk（觀測頻數(shù)） 2985 1341 300 47 7

我們首先用泊松分布來模擬此組數(shù)據(jù)。用泊松分布的極大似然估計法計算λ的值，步驟如下：

此問題的似然函數(shù)為：L（λ）=■P（X=i）=■■e■

=■e■

則對數(shù)似然函數(shù)為：lnL=-nλ+■xilnλ-■ln（xi?。?/p>

由■λ=■=-n+■■xi=0，得到■≈0.4509

由此可計算服從此分布的理論數(shù)據(jù)如下：

k 0 1 2 3 4

■k（理論頻數(shù)） 2981.6 1344.1 303.3 45.4 5.2

對相同的數(shù)據(jù)，我們用零堆積泊松分布模型擬合，結(jié)果會是怎樣呢？

下面我們就用零堆積的泊松分布來擬合此組數(shù)據(jù)。首先先介紹一下零堆積泊松分布的概念及參數(shù)估計。

隨機變量X是以概率p服從退化的零點分布，以概率1-p服從參數(shù)為λ的泊松分布，其中p∈（0，1），我們稱這樣的分布為零堆積泊松分布，并記X～ZIP（λ，p），x的概率分布為

P（X=0）=p+（1-p）e-λ，k=0，P（X=k）=（1-p）e-λλk/k！，k=1，2，….

其參數(shù)的極大似然估計法如下：

若隨機變量X～ZIP（λ，p），并且X1，X2，…，Xn是來自ZIP（λ，p）的一個樣本，觀測值為x1，x2，…，xn，取值為[0，k]之間的整數(shù)。令x=（x1，x2，…，xn），X=■Xi/n，其似然函數(shù)為L（λ，p；x）=■（p+（1-p）e-λ）■

（（1-p）e-λλ■/xi?。?，其對數(shù)似然函數(shù)為：lnL（λ，p；x）=Ixi=0（xi）■ln（p+（1-p）e-λ）+Ixi≠0（xi）■ln（1-p）e-λλxi/xi?。?，其中I[A]（x）=1，若x∈A，0，若x？埸A.

令φ=（1-p）（1-e-λ），用ni表示n個樣本X1，X2，…，Xn中取值為i的樣本數(shù)，i是取值為[0，k]之間的整數(shù)，于是對數(shù)似然函數(shù)變換如下：

lnL（λ，φ）=n0ln（1-φ）+■ni[ln（1-e-λ）-1φ]+ilnλ-λ-lni！]

=n0ln（1-φ）+（n-n0）lnφ+■ni[-ln（1-e-λ）]+ilnλ-λ-lni！]

那么只需解似然方程組：

■lnL（λ，φ）=-■+■■=0，

■lnL（λ，φ）=-■■ni+（■ini）■-■ni=0.

因為■ni=n，并且■ini=nX，

整理方程得到■=（n-n0）/n，（n-n0）■+n■（e-■-1）=0，■=1-■/（1-e-■）.

現(xiàn)在我們假設(shè)X服從零堆積泊松分布，并根據(jù)以上結(jié)論計算出零堆積泊松分布下的參數(shù)估計值■，■，■。其中，n=4680，n0=2985，X=■Xi/n=■≈0.4509，進而得到：■≈0.3622■≈0.4553■≈0.0097

由此，算出各個樣本點的理論頻數(shù)如下：

k 0 1 2 3 4

■k（理論頻數(shù)） 2984.9 1340.8 301.9 46.3 6

現(xiàn)在我們將觀測值與這兩種分布的理論值匯總進行比較：

k 0 1 2 3 4

nk（觀測頻數(shù)） 2985 1341 300 47 7

■k（泊松分布理論頻數(shù)） 2981.6 1344.1 303.3 45.4 5.2

■k（零堆積泊松分布理論頻數(shù)）2984.9 1340.8 301.9 46.3 6.6

顯然可以得到，零堆積泊松分布的理論頻數(shù)比泊松分布的理論頻數(shù)更加接近實際觀測頻數(shù)。為了更進一步說明用哪個模型來模擬零出現(xiàn)較多的一組計數(shù)數(shù)據(jù)比較有效，我們用χ2=■（nk-■k）2/■k計算出它們各自的χ2值（χ2值代表通常的χ2統(tǒng)計量），如下：

χ2

■k（泊松分布理論頻數(shù)） 0.7264

■k（零堆積泊松分布理論頻數(shù)） 0.0468

由上面的數(shù)據(jù)可以看出，泊松分布和零堆積泊松分布對于此組計數(shù)數(shù)據(jù)都給出了非常好的擬合效果。事實上，根據(jù)進一步計算出的χ2值相比較，我們知道用零堆積泊松分布擬合這樣的數(shù)據(jù)效果明顯比泊松分布好。

因此可以得出結(jié)論：零堆積泊松分布在擬合包含大量零的計數(shù)數(shù)據(jù)時比泊松分布效果更好。（指導(dǎo)教師：文平教授）

參考文獻：

[1]韋博成，謝峰昌.ZI縱向計數(shù)數(shù)據(jù)模型的影響分析[J].應(yīng)用概率統(tǒng)計，2006，（03）.

[2]葉俊，趙衡秀.概率論與數(shù)理統(tǒng)計[M].北京：清華大學(xué)出版社，2005.

[3]上海財經(jīng)大學(xué)應(yīng)用數(shù)學(xué)系.概率論與數(shù)理統(tǒng)計（第三版）[M].上海：上海財經(jīng)大學(xué)出版社，2012.

[4]嚴珉.數(shù)學(xué)方法在保險學(xué)中的應(yīng)用[J].管理與財富，2009，（04）.

[5]葉興德，程曉良，陳明飛，薛蓮.數(shù)值分析基礎(chǔ)[M].杭州：浙江大學(xué)出版社，2008.

[6]張德豐.Matlab概率與數(shù)理統(tǒng)計分析[M].北京：機械工業(yè)出版社，2010.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

探尋泊松分布與零堆積泊松分布的優(yōu)劣