基于ZIP模型的零膨脹檢驗(yàn)方法的比較研究

2017-04-08 15:18王平鮮黃介武常國(guó)艷

經(jīng)濟(jì)數(shù)學(xué) 2017年1期

關(guān)鍵詞：模擬

王平鮮+黃介武+常國(guó)艷

摘要針對(duì)已存在關(guān)于零膨脹的R檢驗(yàn)、C檢驗(yàn)、Score檢驗(yàn)、卡方檢驗(yàn)、似然比檢驗(yàn)、Wald檢驗(yàn)和基于置信區(qū)間檢驗(yàn)，通過(guò)Monte Carlo模擬分析方法，在功效和犯第一類錯(cuò)誤比例的意義下，在不同零膨脹程度、不同均值和不同樣本量下對(duì)上述檢驗(yàn)作比較研究.得到了不同條件下7種檢驗(yàn)方法的優(yōu)良性，并結(jié)合理論對(duì)7種檢驗(yàn)方法進(jìn)行分析.

關(guān)鍵詞零膨脹；模擬；檢驗(yàn)功效；第一類錯(cuò)誤

中圖分類號(hào)O212.1文獻(xiàn)標(biāo)識(shí)碼A

1引言

計(jì)數(shù)數(shù)據(jù)是一種廣泛存在于醫(yī)學(xué)、保險(xiǎn)和農(nóng)林等領(lǐng)域的數(shù)據(jù)類型.當(dāng)計(jì)數(shù)數(shù)據(jù)中零的比例超出泊松（Poisson）或負(fù)二項(xiàng)（NB）分布等一般計(jì)數(shù)模型的預(yù)測(cè)能力，這類現(xiàn)象被稱為計(jì)數(shù)資料的零膨脹[1].針對(duì)存在零膨脹現(xiàn)象的計(jì)數(shù)數(shù)據(jù)，常見(jiàn)的統(tǒng)計(jì)分析模型有零膨脹泊松模型、零膨脹負(fù)二項(xiàng)回歸模型等.而在用零膨脹模型對(duì)數(shù)據(jù)進(jìn)行擬合分析時(shí)，首先要對(duì)數(shù)據(jù)是否存在零膨脹進(jìn)行檢驗(yàn).關(guān)于數(shù)據(jù)是否存在零膨脹，一方面可以通過(guò)直方圖等做簡(jiǎn)單的直觀分析與判斷，但所得結(jié)論較為粗糙[2]；另一方面可以通過(guò)建立檢驗(yàn)統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn)，得到較為精確的結(jié)論.1954年Cohran[3]提出了一個(gè)不考慮協(xié)變量的C檢驗(yàn)，1956年Rao和Chakravarti[4]針對(duì)小樣本量提出另一個(gè)考慮協(xié)變量的R檢驗(yàn)，這兩種檢驗(yàn)方法只考慮響應(yīng)變量的觀測(cè)值，相對(duì)較為直接.1985年ElShaarawi[5]推導(dǎo)了基于ZIP模型下似然比檢驗(yàn)的統(tǒng)計(jì)量，并通過(guò)模擬分析比較了R檢驗(yàn)、C檢驗(yàn)和似然比檢驗(yàn)的功效.1995年Van den broek[6]提出了基于零膨脹泊松（ZIP）模型下的Score檢驗(yàn)；2001年M.Xie[7]提出了基于ZIP模型的基于置信區(qū)間檢驗(yàn)，并通過(guò)模擬方法對(duì)C檢驗(yàn)、R檢驗(yàn)、似然比檢驗(yàn)、Score檢驗(yàn)、基于置信區(qū)間的檢驗(yàn)和卡方檢驗(yàn)的功效進(jìn)行比較；2009年Saranya Numna[8]提出了基于ZIP模型下的Wald檢驗(yàn).

本文在基于ZIP模型條件，通過(guò)Monte Carlo模擬分析方法，在功效和犯第一類錯(cuò)誤比例的意義下，對(duì)上述的R檢驗(yàn)、C檢驗(yàn)、Score檢驗(yàn)、卡方檢驗(yàn)、似然比檢驗(yàn)、Wald檢驗(yàn)和基于置信區(qū)間檢驗(yàn)在不同零膨脹程度、不同均值和不同樣本量下作比較研究.

2零膨脹模型及零膨脹檢驗(yàn)方法介紹

2.1零膨脹泊松（ZIP）模型

零膨脹（ZI）模型的基本思想是認(rèn)為事件的發(fā)生數(shù)來(lái)自于兩部分：一部分隨機(jī)變量的取值只為零（這部分零稱為結(jié)構(gòu)零），另一部分來(lái)自一個(gè)離散分布（此時(shí)的零稱為抽樣零），由此可得零膨脹模型的一般形式是：

再對(duì)圖1的模擬結(jié)果進(jìn)行分析.首先考慮λ變化、n不變條件下觀察不同零膨脹的功效.從圖1模擬結(jié)果看出，隨著λ的增大，Wald檢驗(yàn)和基于置信區(qū)間的檢驗(yàn)與其他5種檢驗(yàn)的功效差距逐漸增大.

然后考慮n變化、λ不變條件下觀察不同零膨脹的功效.從圖1可以看出，當(dāng)n比較?。ㄈ鏽=20，50）時(shí)，R檢驗(yàn)和C檢驗(yàn)的功效高于其他檢驗(yàn)的功效.當(dāng)n比較大，ω比較?。ㄈ鏽=100，200，ω<0.05）時(shí)，卡方檢驗(yàn)的功效最高；而當(dāng)n和ω比較大（如n=100，200，ω>0.05）時(shí)，7種檢驗(yàn)方法的功效差別不明顯.

綜合模擬結(jié)果可知，大多數(shù)情況，R檢驗(yàn)法和C檢驗(yàn)法對(duì)零膨脹檢驗(yàn)的功效高于其他5種檢驗(yàn)，其它檢驗(yàn)的功效大小依次為：Score檢驗(yàn)>卡方檢驗(yàn)>似然比檢驗(yàn)>Wald檢驗(yàn)>基于置信區(qū)間檢驗(yàn).

3.2模擬檢驗(yàn)方法犯第一類錯(cuò)誤的比例

通過(guò)犯第一類錯(cuò)誤的比例對(duì)7種檢驗(yàn)方法進(jìn)行比較分析.這里只考慮n=50，λ=3的情況，ω的取值和隨機(jī)數(shù)產(chǎn)生的方法同上.對(duì)每組參數(shù)，實(shí)驗(yàn)均重復(fù)3 000次.實(shí)驗(yàn)結(jié)果見(jiàn)表2，其中P表示同一組參數(shù)對(duì)應(yīng)的3 000組數(shù)據(jù)中存在零膨脹的比例.模擬結(jié)果見(jiàn)表2.

表2中的傾斜加粗表示犯第一類錯(cuò)誤的最小值，傾斜加下劃線表示第二小的值.從表2模擬結(jié)果可以看出，當(dāng)n=50，λ=3時(shí)，在不同零膨脹程度下，卡方檢驗(yàn)犯第一類錯(cuò)誤的比例總是最小，而R和C檢驗(yàn)犯第一類錯(cuò)誤的比例大于卡方檢驗(yàn)小于其他四種檢驗(yàn).此外，從表2模擬結(jié)果同樣可知，在給定的n=50，λ=3的條件下，隨著零膨脹程度的增加，7種檢驗(yàn)方法犯第一類錯(cuò)誤的比例均有減少的趨勢(shì).

4結(jié)論

本文在以檢驗(yàn)功效和犯第一類錯(cuò)誤比例為評(píng)判準(zhǔn)則下，通過(guò)Monte Carlo模擬分析方法，對(duì)已存在的R檢驗(yàn)、C檢驗(yàn)、Score檢驗(yàn)、卡方檢驗(yàn)、似然比檢驗(yàn)、Wald檢驗(yàn)和基于置信區(qū)間檢驗(yàn)作了比較研究.得出7種零膨脹檢驗(yàn)方法可以有效的檢驗(yàn)零膨脹是否存在；其中，基于置信檢驗(yàn)的功效最低，主要原因在于該方法對(duì)零假設(shè)有非常強(qiáng)的保護(hù)；雖然R檢驗(yàn)和C檢驗(yàn)的功效比其他5種檢驗(yàn)的功效大，即“納偽”的概率比其他五種檢驗(yàn)小，但是這兩種檢驗(yàn)方法因不考慮協(xié)變量，有時(shí)候會(huì)導(dǎo)致信息的丟失.卡方檢驗(yàn)犯第一類錯(cuò)誤的比例比其他檢驗(yàn)的低，即“棄真”的概率低，但是，卡方檢驗(yàn)是基于均值與方差相等的Poisson模型，所以卡方檢驗(yàn)有時(shí)會(huì)導(dǎo)致納入過(guò)多的錯(cuò)誤信息，如可能考慮了過(guò)度離散情況.似然比檢驗(yàn)、Score檢驗(yàn)和Wald檢驗(yàn)是基于ZIP模型，所以更能反映真實(shí)情況，而Score檢驗(yàn)的統(tǒng)計(jì)量是最簡(jiǎn)潔的.在應(yīng)用過(guò)程中，零膨脹作為一種現(xiàn)象只是相對(duì)而言，因此針對(duì)具體問(wèn)題，應(yīng)該仔細(xì)觀察和考慮可能同時(shí)存在的其他特殊情況，以選擇合適的模型進(jìn)行擬合.

參考文獻(xiàn)

[1]王存同. 零膨脹模型在社會(huì)科學(xué)實(shí)證研究中的應(yīng)用——以中國(guó)人工流產(chǎn)影響因素的分析為例[J]. 社會(huì)學(xué)研究， 2010（5）：130-148.

[2]謝鋒昌.零過(guò)多數(shù)據(jù)的統(tǒng)計(jì)分析及其應(yīng)用[M].北京：科學(xué)出版社， 2013.

[3]Cochran W G.Some metools for stengthening the canman X2 test[J].Biometrics，1954，10（4）：417-451.

[4]Rao C R，Chakravarti I M. Some small sample tests of significance for a poisson distribution[J]. Biometrics， 1956， 12（3）： 264-282.

[5]ElShaarawi A H. Some goodnessoffit methods for the poisson plus added zeros distribution[J]. Applied and Environmental Microbiology， 1985， 49（5）：1304-1306.

[6]Van d B J. A score test for zero inflation in a poisson destruction[J]. Biometrics， 1995， 51（2）：738-743.

[7]Xie M，He B，Goh T N. Zeroinflated Poisson model in statically process control[J]. Computational Statistics & Data Analysis， 2001， 38（2）：191-201.

[8]Numna S，Jansakul N. Analysis of extra zero counts using zeroinflated Poisson models [D].Prince：Prince Mathematics and Statistics Prince of Songkla University， 2009.

[9]王星. 非參數(shù)統(tǒng)計(jì)[M]. 北京：清華大學(xué)出版社， 2009.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于ZIP模型的零膨脹檢驗(yàn)方法的比較研究