王順芳,王學(xué)仁
(1.云南大學(xué)信息學(xué)院,云南昆明 650091;2.云南大學(xué)統(tǒng)計(jì)系,云南昆明 650091)
一類分類數(shù)據(jù)列聯(lián)表中基于檢驗(yàn)功效的樣本量研究
王順芳1,王學(xué)仁2
(1.云南大學(xué)信息學(xué)院,云南昆明 650091;2.云南大學(xué)統(tǒng)計(jì)系,云南昆明 650091)
對(duì)不完全2×2列聯(lián)表中關(guān)于風(fēng)險(xiǎn)比(RR)的假設(shè)檢驗(yàn)問題,使用基于約束性極大似然估計(jì)下的Wald檢驗(yàn)統(tǒng)計(jì)量和對(duì)數(shù)變換檢驗(yàn)統(tǒng)計(jì)量,導(dǎo)出了滿足預(yù)先給定功效的樣本量公式.模擬結(jié)果驗(yàn)證了所給檢驗(yàn)和樣本量公式的合理性,實(shí)例分析解釋了上述方法的應(yīng)用.
約束性極大似然估計(jì);功效;樣本量
在流行病學(xué)、生物學(xué)以及各種臨床研究中經(jīng)常需處理大量的分類數(shù)據(jù)問題,其中一類較常見的分類數(shù)據(jù)可概括為不完全2×2列聯(lián)表的形式,這類列聯(lián)表中某一格(一般位于非對(duì)角元素上)的頻數(shù)始終為零,這是結(jié)構(gòu)本身所固有的,稱為”結(jié)構(gòu)零”.一般情況下,此類列聯(lián)表的結(jié)構(gòu)可概括為表1.表1中的結(jié)構(gòu)零位于第(2,1)格,其中0<πij<1((i,j)=(1,1),(1,2)和(2,2))代表相應(yīng)
表1 不完全2×2列聯(lián)表
事件發(fā)生的概率,π1+=π11+π12,π1++π22=1.a,b,d是相應(yīng)事件發(fā)生的頻數(shù),a+b+d=n. 當(dāng)n一定時(shí),(a,b,d)服從三項(xiàng)分布,其概率分布記為
研究不完全2×2列聯(lián)表時(shí),生物醫(yī)學(xué)上一個(gè)常用的統(tǒng)計(jì)量是風(fēng)險(xiǎn)比(Risk Ratio,簡記為RR),其定義為RR=(π11/π1+)/π1+=π11/.
關(guān)于不完全2×2列聯(lián)表中的風(fēng)險(xiǎn)比(RR),已有的研究工作如下:文[1]討論了大樣本下RR的置信區(qū)間估計(jì)問題,其中分別使用了基于樣本估計(jì)的Wald統(tǒng)計(jì)量、基于樣本估計(jì)的對(duì)數(shù)變換統(tǒng)計(jì)量以及基于Fieller定理的統(tǒng)計(jì)量;文[2]使用Wald統(tǒng)計(jì)量和對(duì)數(shù)變換統(tǒng)計(jì)量從小樣本的角度研究了RR的精確非條件推斷,提出了檢驗(yàn)RR等于某一固定值?0的精確非條件檢驗(yàn)和近似非條件檢驗(yàn);文[3]提出了檢驗(yàn)風(fēng)險(xiǎn)比的Score統(tǒng)計(jì)量,研究了基于Score方法的置信區(qū)間并和文[1]討論過統(tǒng)計(jì)量進(jìn)行比較.以上文獻(xiàn)中,總的來說是Score方法的統(tǒng)計(jì)性能較好,在Score方法中,比較重要的一點(diǎn)就是對(duì)參數(shù)的約束性極大似然估計(jì),文[4]的討論也表明了在其所研究的情況下基于約束性極大似然估計(jì)優(yōu)于基于樣本的估計(jì),于是文[5]使用了基于約束性極大似然估計(jì)的Wald統(tǒng)計(jì)量和對(duì)數(shù)變換統(tǒng)計(jì)量,對(duì)不完全2×2列聯(lián)表中的風(fēng)險(xiǎn)比進(jìn)行置信區(qū)間構(gòu)造,導(dǎo)出在一定置信水平下控制置信區(qū)間寬度的樣本量公式.本文繼續(xù)使用基于約束性極大似然估計(jì)的Wald統(tǒng)計(jì)量和對(duì)數(shù)變換統(tǒng)計(jì)量,研究RR的大樣本假設(shè)檢驗(yàn)問題,給出了基于檢驗(yàn)功效的漸近樣本量公式.
它漸近服從標(biāo)準(zhǔn)正態(tài)分布;給定顯著性水平α,當(dāng)|T1|≥zα/2時(shí),可拒絕原假設(shè)H0,這里zα/2表示標(biāo)準(zhǔn)正態(tài)分布的上α/2分位點(diǎn).
漸近服從標(biāo)準(zhǔn)正態(tài)分布.
定理1若使用檢驗(yàn)統(tǒng)計(jì)量T1對(duì)假設(shè)(2)進(jìn)行檢驗(yàn),在給定的顯著性水平α下,為達(dá)到功效1?β所需的近似樣本量為
定理2若使用檢驗(yàn)統(tǒng)計(jì)量T2對(duì)假設(shè)(2)進(jìn)行檢驗(yàn),在給定的顯著性水平α下,為達(dá)到功效1?β所需的近似樣本量為
可得檢驗(yàn)的漸近樣本量公式為(6)式.
在很多實(shí)際問題中,由于似然函數(shù)和極大似然估計(jì)的復(fù)雜性,統(tǒng)計(jì)上常需一些研究技巧(例如文[8]).本節(jié)為評(píng)價(jià)兩種基于約束性極大似然估計(jì)的漸近檢驗(yàn)的樣本量公式(5)和(6)的精確性(即控制功效的準(zhǔn)確程度),擬在各種參數(shù)設(shè)置下進(jìn)行模擬計(jì)算.
首先應(yīng)用公式(5)和(6)計(jì)算了顯著性水平為5%、功效為80%(即β=0.2)下的漸近樣本量.為評(píng)價(jià)這些近似樣本量對(duì)功效控制的精確程度,本節(jié)類似于文[6]的模擬方法,使用如下公式計(jì)算了和這些樣本量對(duì)應(yīng)的經(jīng)驗(yàn)功效和經(jīng)驗(yàn)第一類錯(cuò)誤率
其中M是試驗(yàn)重復(fù)次數(shù),(a,b)(i)是第i次試驗(yàn)的觀察值,R={(a,b)(i):|Tj|≥zα/2,j= 1或2}是拒絕域,I(·)是示性函數(shù)(當(dāng)(a,b)(i)∈R時(shí)其取值為1,否則其取值為0);且當(dāng)各(a,b)(i)(i =1,…,M)是在H0下產(chǎn)生的隨機(jī)觀察值時(shí),(7)式表示經(jīng)驗(yàn)第一類錯(cuò)誤率,當(dāng)各(a,b)(i)(i= 1,…,M)是在H1下產(chǎn)生的隨機(jī)觀察值時(shí),(7)式表示經(jīng)驗(yàn)功效.模擬研究中,試驗(yàn)重復(fù)次數(shù)根據(jù)收斂情況設(shè)置為10000(即M=10000),當(dāng)某次試驗(yàn)產(chǎn)生的觀察值(a,b)使得統(tǒng)計(jì)量T1或T2沒有定義時(shí),就用a+0.5,b+0.5,n+1.5分別替換a,b,n后再做計(jì)算.整個(gè)結(jié)果歸納為表2.
表2 統(tǒng)計(jì)假設(shè)(2)在控制檢驗(yàn)功效為80%下的近似樣本量(α=5%),及相應(yīng)的經(jīng)驗(yàn)功效(EP)和經(jīng)驗(yàn)第一類錯(cuò)誤率(ETI)
表2 (續(xù))
分析表2,總的來說,檢驗(yàn)T1和T2得到的樣本量比較接近,其經(jīng)驗(yàn)功效一般都能保證80%的水平,經(jīng)驗(yàn)第一類錯(cuò)誤率也都非常接近5%,說明樣本量公式(5)和(6)都比較精確.進(jìn)一步比較發(fā)現(xiàn),當(dāng)?<?0時(shí),同樣的參數(shù)設(shè)置下,檢驗(yàn)T1得到的樣本量比T2的大;而當(dāng)?>?0時(shí),檢驗(yàn)T1得到的樣本量比T2的小.因此在實(shí)際應(yīng)用中,當(dāng)?<?0時(shí),可使用基于約束性極大似然估計(jì)的對(duì)數(shù)變換檢驗(yàn)統(tǒng)計(jì)量;當(dāng)?>?0時(shí),可使用基于約束性極大似然估計(jì)的Wald檢驗(yàn)統(tǒng)計(jì)量.
本節(jié)將前面所得方法和結(jié)論應(yīng)用于文[7]中提到的一實(shí)例:小牛的二次感染數(shù)據(jù).這一實(shí)例考慮了出生于佛羅里達(dá)州奧基喬比的156頭小牛組成的一個(gè)樣本,先根據(jù)它們?cè)诔錾?0天后是否感染了肺炎分成兩類,并對(duì)感染了肺炎的小牛進(jìn)行治療,等到初次感染治愈后再過兩周又根據(jù)它們是否感染肺炎再分類,從理論上來說,小牛若沒有初次感染,就不存在二次感染,這樣在2×2列聯(lián)表中就引入了一個(gè)“結(jié)構(gòu)零”,它對(duì)應(yīng)于初次無感染而二次被感染的情況.此例的數(shù)據(jù)結(jié)構(gòu)見表3.根據(jù)表3的數(shù)據(jù),風(fēng)險(xiǎn)比(RR)的樣本估計(jì)為??=0.5411.考慮假設(shè)問題(2),取?0=1.0,經(jīng)計(jì)算,T1=?3.2563,T2=?4.3579,它們相應(yīng)的p值分別為0.0011和0.00001,若顯著性水平為0.05,則可拒絕H0,說明初次感染和二次感染的概率不等.
對(duì)這個(gè)問題作進(jìn)一步的拓展,假定研究者想做一個(gè)類似于文[7]工作的另一種流行病學(xué)研究,同樣考慮檢驗(yàn)假設(shè)(2),其中?0=1.0,顯著性水平給定為α=0.05.當(dāng)備擇假設(shè)成立時(shí),例如?=0.9,π1+=0.7,一個(gè)感興趣的問題是需要多大的樣本量才能達(dá)到80%的功效.通過計(jì)算就可以得到,對(duì)應(yīng)于統(tǒng)計(jì)量T1,T2分別需要911和873個(gè)個(gè)體.
表3 小牛二次感染問題的統(tǒng)計(jì)數(shù)據(jù)
[1]Lui K J.Interval estimation of risk ratio between the secondary infection given the primary infection and the primary infection[J].Biometrics,1998,54(2):706-711.
[2]Tang N S,Tang M L.Exact unconditional inference for risk ratio in a correlated 2×2 table with structural zero[J].Biometrics,2002,58(4):972-980.
[3]Tang M L,Tang N S,Carey V J.Confidence interval for rate ratio in a 2×2 tables with structural zero:an application in assessing false-negative rate ratio when combining two diagnostic tests[J].Biometrics,2004,60(2): 550-555.
[4]Wang S F,Tang N S,Wang X R.Analysis of risk difference of marginal and conditional probabilities in an incomplete correlated 2×2 table[J].Computational statistics and data analysis,2006,50(6):1597-1614.
[5]王順芳,王學(xué)仁.不完全2×2列聯(lián)表中基于置信區(qū)間的樣本量研究[J].云南大學(xué)學(xué)報(bào):自然科學(xué)版,2007,29(2):109-113.
[6]Wang S F,Wang X R.Homogeneity test of risk differences of marginal and conditional probabilities in several incomplete correlated 2×2 tables[J].Communications in Statistics-Theory and Methods,2007,36(16),2877-2890.
[7]Agresti A.Categorical Data Analysis[M].New York:Wiley,1990.
[8]任麗梅,師義民.多重II型刪失數(shù)據(jù)場合Logistic分布參數(shù)的近似似然函數(shù)[J].純粹數(shù)學(xué)與應(yīng)用數(shù)學(xué),2007,23(3):341-346.
Sample size determination for power in a sort of contingency table
WANG Shun-fang1,WANG Xue-ren2
(1.School of Information Science and Engineering,Yunnan University,Kunming650091,China; 2.Department of Statistics,Yunnan University,Kunming650091,China)
To test the hypothesis about risk ratio(RR)in an incomplete correlated 2×2 table,a Wald-type test statistic and a logarithmic transformation test statistic on the basis of the constrained maximum likelihood estimation(CMLE)method are proposed.Sample size formulae are derived to guarantee a prespecified power. Simulation results show that the above tests and formulae are valid.An example is used to illustrate the method.
constrained maximum likelihood estimation,power,sample size
O212.1
A
1008-5513(2009)03-0425-06
2008-03-12.
國家自然科學(xué)基金(10901135,10626048,10761011),云南省社發(fā)計(jì)劃應(yīng)用基礎(chǔ)研究面上項(xiàng)目(2008CD081),云南大學(xué)中青年骨干教師培養(yǎng)計(jì)劃專項(xiàng)經(jīng)費(fèi).
王順芳(1974-),副教授,博士,研究方向:數(shù)理統(tǒng)計(jì).
2000MSC:62F03,62P10