王平鮮+黃介武+常國(guó)艷
摘要針對(duì)已存在關(guān)于零膨脹的R檢驗(yàn)、C檢驗(yàn)、Score檢驗(yàn)、卡方檢驗(yàn)、似然比檢驗(yàn)、Wald檢驗(yàn)和基于置信區(qū)間檢驗(yàn),通過(guò)Monte Carlo模擬分析方法,在功效和犯第一類錯(cuò)誤比例的意義下,在不同零膨脹程度、不同均值和不同樣本量下對(duì)上述檢驗(yàn)作比較研究.得到了不同條件下7種檢驗(yàn)方法的優(yōu)良性,并結(jié)合理論對(duì)7種檢驗(yàn)方法進(jìn)行分析.
關(guān)鍵詞零膨脹;模擬;檢驗(yàn)功效;第一類錯(cuò)誤
中圖分類號(hào)O212.1文獻(xiàn)標(biāo)識(shí)碼A
1引言
計(jì)數(shù)數(shù)據(jù)是一種廣泛存在于醫(yī)學(xué)、保險(xiǎn)和農(nóng)林等領(lǐng)域的數(shù)據(jù)類型.當(dāng)計(jì)數(shù)數(shù)據(jù)中零的比例超出泊松(Poisson)或負(fù)二項(xiàng)(NB)分布等一般計(jì)數(shù)模型的預(yù)測(cè)能力,這類現(xiàn)象被稱為計(jì)數(shù)資料的零膨脹[1].針對(duì)存在零膨脹現(xiàn)象的計(jì)數(shù)數(shù)據(jù),常見(jiàn)的統(tǒng)計(jì)分析模型有零膨脹泊松模型、零膨脹負(fù)二項(xiàng)回歸模型等.而在用零膨脹模型對(duì)數(shù)據(jù)進(jìn)行擬合分析時(shí),首先要對(duì)數(shù)據(jù)是否存在零膨脹進(jìn)行檢驗(yàn).關(guān)于數(shù)據(jù)是否存在零膨脹,一方面可以通過(guò)直方圖等做簡(jiǎn)單的直觀分析與判斷,但所得結(jié)論較為粗糙[2];另一方面可以通過(guò)建立檢驗(yàn)統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn),得到較為精確的結(jié)論.1954年Cohran[3]提出了一個(gè)不考慮協(xié)變量的C檢驗(yàn),1956年Rao和Chakravarti[4]針對(duì)小樣本量提出另一個(gè)考慮協(xié)變量的R檢驗(yàn),這兩種檢驗(yàn)方法只考慮響應(yīng)變量的觀測(cè)值,相對(duì)較為直接.1985年ElShaarawi[5]推導(dǎo)了基于ZIP模型下似然比檢驗(yàn)的統(tǒng)計(jì)量,并通過(guò)模擬分析比較了R檢驗(yàn)、C檢驗(yàn)和似然比檢驗(yàn)的功效.1995年Van den broek[6]提出了基于零膨脹泊松(ZIP)模型下的Score檢驗(yàn);2001年M.Xie[7]提出了基于ZIP模型的基于置信區(qū)間檢驗(yàn),并通過(guò)模擬方法對(duì)C檢驗(yàn)、R檢驗(yàn)、似然比檢驗(yàn)、Score檢驗(yàn)、基于置信區(qū)間的檢驗(yàn)和卡方檢驗(yàn)的功效進(jìn)行比較;2009年Saranya Numna[8]提出了基于ZIP模型下的Wald檢驗(yàn).
本文在基于ZIP模型條件,通過(guò)Monte Carlo模擬分析方法,在功效和犯第一類錯(cuò)誤比例的意義下,對(duì)上述的R檢驗(yàn)、C檢驗(yàn)、Score檢驗(yàn)、卡方檢驗(yàn)、似然比檢驗(yàn)、Wald檢驗(yàn)和基于置信區(qū)間檢驗(yàn)在不同零膨脹程度、不同均值和不同樣本量下作比較研究.
2零膨脹模型及零膨脹檢驗(yàn)方法介紹
2.1零膨脹泊松(ZIP)模型
零膨脹(ZI)模型的基本思想是認(rèn)為事件的發(fā)生數(shù)來(lái)自于兩部分:一部分隨機(jī)變量的取值只為零(這部分零稱為結(jié)構(gòu)零),另一部分來(lái)自一個(gè)離散分布(此時(shí)的零稱為抽樣零),由此可得零膨脹模型的一般形式是:
再對(duì)圖1的模擬結(jié)果進(jìn)行分析.首先考慮λ變化、n不變條件下觀察不同零膨脹的功效.從圖1模擬結(jié)果看出,隨著λ的增大,Wald檢驗(yàn)和基于置信區(qū)間的檢驗(yàn)與其他5種檢驗(yàn)的功效差距逐漸增大.
然后考慮n變化、λ不變條件下觀察不同零膨脹的功效.從圖1可以看出,當(dāng)n比較?。ㄈ鏽=20,50)時(shí),R檢驗(yàn)和C檢驗(yàn)的功效高于其他檢驗(yàn)的功效.當(dāng)n比較大,ω比較?。ㄈ鏽=100,200,ω<0.05)時(shí),卡方檢驗(yàn)的功效最高;而當(dāng)n和ω比較大(如n=100,200,ω>0.05)時(shí),7種檢驗(yàn)方法的功效差別不明顯.
綜合模擬結(jié)果可知,大多數(shù)情況,R檢驗(yàn)法和C檢驗(yàn)法對(duì)零膨脹檢驗(yàn)的功效高于其他5種檢驗(yàn),其它檢驗(yàn)的功效大小依次為:Score檢驗(yàn)>卡方檢驗(yàn)>似然比檢驗(yàn)>Wald檢驗(yàn)>基于置信區(qū)間檢驗(yàn).
3.2模擬檢驗(yàn)方法犯第一類錯(cuò)誤的比例
通過(guò)犯第一類錯(cuò)誤的比例對(duì)7種檢驗(yàn)方法進(jìn)行比較分析.這里只考慮n=50,λ=3的情況,ω的取值和隨機(jī)數(shù)產(chǎn)生的方法同上.對(duì)每組參數(shù),實(shí)驗(yàn)均重復(fù)3 000次.實(shí)驗(yàn)結(jié)果見(jiàn)表2,其中P表示同一組參數(shù)對(duì)應(yīng)的3 000組數(shù)據(jù)中存在零膨脹的比例.模擬結(jié)果見(jiàn)表2.
表2中的傾斜加粗表示犯第一類錯(cuò)誤的最小值,傾斜加下劃線表示第二小的值.從表2模擬結(jié)果可以看出,當(dāng)n=50,λ=3時(shí),在不同零膨脹程度下,卡方檢驗(yàn)犯第一類錯(cuò)誤的比例總是最小,而R和C檢驗(yàn)犯第一類錯(cuò)誤的比例大于卡方檢驗(yàn)小于其他四種檢驗(yàn).此外,從表2模擬結(jié)果同樣可知,在給定的n=50,λ=3的條件下,隨著零膨脹程度的增加,7種檢驗(yàn)方法犯第一類錯(cuò)誤的比例均有減少的趨勢(shì).
4結(jié)論
本文在以檢驗(yàn)功效和犯第一類錯(cuò)誤比例為評(píng)判準(zhǔn)則下,通過(guò)Monte Carlo模擬分析方法,對(duì)已存在的R檢驗(yàn)、C檢驗(yàn)、Score檢驗(yàn)、卡方檢驗(yàn)、似然比檢驗(yàn)、Wald檢驗(yàn)和基于置信區(qū)間檢驗(yàn)作了比較研究.得出7種零膨脹檢驗(yàn)方法可以有效的檢驗(yàn)零膨脹是否存在;其中,基于置信檢驗(yàn)的功效最低,主要原因在于該方法對(duì)零假設(shè)有非常強(qiáng)的保護(hù);雖然R檢驗(yàn)和C檢驗(yàn)的功效比其他5種檢驗(yàn)的功效大,即“納偽”的概率比其他五種檢驗(yàn)小,但是這兩種檢驗(yàn)方法因不考慮協(xié)變量,有時(shí)候會(huì)導(dǎo)致信息的丟失.卡方檢驗(yàn)犯第一類錯(cuò)誤的比例比其他檢驗(yàn)的低,即“棄真”的概率低,但是,卡方檢驗(yàn)是基于均值與方差相等的Poisson模型,所以卡方檢驗(yàn)有時(shí)會(huì)導(dǎo)致納入過(guò)多的錯(cuò)誤信息,如可能考慮了過(guò)度離散情況.似然比檢驗(yàn)、Score檢驗(yàn)和Wald檢驗(yàn)是基于ZIP模型,所以更能反映真實(shí)情況,而Score檢驗(yàn)的統(tǒng)計(jì)量是最簡(jiǎn)潔的.在應(yīng)用過(guò)程中,零膨脹作為一種現(xiàn)象只是相對(duì)而言,因此針對(duì)具體問(wèn)題,應(yīng)該仔細(xì)觀察和考慮可能同時(shí)存在的其他特殊情況,以選擇合適的模型進(jìn)行擬合.
參考文獻(xiàn)
[1]王存同. 零膨脹模型在社會(huì)科學(xué)實(shí)證研究中的應(yīng)用——以中國(guó)人工流產(chǎn)影響因素的分析為例[J]. 社會(huì)學(xué)研究, 2010(5):130-148.
[2]謝鋒昌.零過(guò)多數(shù)據(jù)的統(tǒng)計(jì)分析及其應(yīng)用[M].北京:科學(xué)出版社, 2013.
[3]Cochran W G.Some metools for stengthening the canman X2 test[J].Biometrics,1954,10(4):417-451.
[4]Rao C R,Chakravarti I M. Some small sample tests of significance for a poisson distribution[J]. Biometrics, 1956, 12(3): 264-282.
[5]ElShaarawi A H. Some goodnessoffit methods for the poisson plus added zeros distribution[J]. Applied and Environmental Microbiology, 1985, 49(5):1304-1306.
[6]Van d B J. A score test for zero inflation in a poisson destruction[J]. Biometrics, 1995, 51(2):738-743.
[7]Xie M,He B,Goh T N. Zeroinflated Poisson model in statically process control[J]. Computational Statistics & Data Analysis, 2001, 38(2):191-201.
[8]Numna S,Jansakul N. Analysis of extra zero counts using zeroinflated Poisson models [D].Prince:Prince Mathematics and Statistics Prince of Songkla University, 2009.
[9]王星. 非參數(shù)統(tǒng)計(jì)[M]. 北京:清華大學(xué)出版社, 2009.