白永昕,田茂再,2(.蘭州財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院,甘肅蘭州730020;2.中國人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心中國人民大學(xué)統(tǒng)計(jì)學(xué)院,北京00972)
慢性病發(fā)病率置信區(qū)間的構(gòu)造
白永昕1,田茂再1,2
(1.蘭州財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院,甘肅蘭州730020;2.中國人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心中國人民大學(xué)統(tǒng)計(jì)學(xué)院,北京100972)
在流行病研究中,發(fā)病率是一個(gè)重要指標(biāo),該指標(biāo)反映的是特定人群中某種疾病的發(fā)病程度.因此,對它的置信區(qū)間的構(gòu)造在判別疾病發(fā)病程度上具有重要的醫(yī)學(xué)意義.對于一些慢性疾(如癌癥或心血管等),由于其發(fā)病周期長,發(fā)病率低,Poisson抽樣下要比二項(xiàng)抽樣,逆項(xiàng)抽樣更符合事實(shí).利用四種方法研究了泊松分布下慢性病發(fā)病率的置信區(qū)間構(gòu)造,并通過Monte Carlo模擬對四種方法的表現(xiàn)性能進(jìn)行比較.模擬結(jié)果表明:當(dāng)發(fā)病率較高時(shí),樞軸量方法無論在區(qū)間長度還是覆蓋率上都表現(xiàn)最佳;當(dāng)發(fā)病率相對較低時(shí),樞軸量方法在區(qū)間長度上略次于Wald統(tǒng)計(jì)量方法和得分方法,但是在覆蓋率上表現(xiàn)最佳.因此,樞軸量方法整體上表現(xiàn)的很好.
發(fā)病率;Poisson抽樣;區(qū)間估計(jì);Monte Carlo模擬
Poisson分布是統(tǒng)計(jì)學(xué)中是一種常見的離散分布,用于描述單位時(shí)間內(nèi)時(shí)間事件發(fā)生特定次數(shù)的概率.Poisson分布有如下的特點(diǎn):(1)時(shí)間間隔很小的時(shí),事件發(fā)生的次數(shù)很可能是0或者是1.(2)每個(gè)事件發(fā)生與否是相互獨(dú)立的.(3)事件發(fā)生的概率大小與時(shí)間間隔成正比.事實(shí)上,如果潛在疾病是罕見的或者發(fā)生是隨機(jī)的,則發(fā)病數(shù)在固定的一個(gè)時(shí)間間隔中服從Poisson過程.在流行病領(lǐng)域,一些慢性疾?。ㄈ绨┌Y或心血管等)的發(fā)病率低,發(fā)病周期長.因此,Poisson分布被廣泛使用(見[1-5]).
在流病學(xué)中,對發(fā)病率,相對風(fēng)險(xiǎn),風(fēng)險(xiǎn)差等參數(shù)置信區(qū)間估計(jì)的研究很多.Casella& Berger[3]基于二項(xiàng),負(fù)二項(xiàng),F(xiàn)分布之間的關(guān)系提出了逆抽樣下單比例置信區(qū)間的精確估計(jì). Lui[4]通過Wald統(tǒng)計(jì)量,一致最小二乘無偏估計(jì)和似然比檢驗(yàn)三種漸近方法構(gòu)造了逆抽樣下風(fēng)險(xiǎn)差的置信區(qū)間.但是,在小樣本的情況下,漸近方法在區(qū)間覆蓋率和區(qū)間長度上存在一定的偏差.在此之下,Tang&Tian[5]提出了置信區(qū)間構(gòu)造的鞍點(diǎn)逼近方法,并通過蒙特卡羅模擬證實(shí):在小樣本的情況下,鞍點(diǎn)逼近方法表現(xiàn)最優(yōu).2008年,田和吳[6]發(fā)表了逆抽樣下發(fā)病率的漸近置信區(qū)間和逼近置信區(qū)間.隨后,Tang等人對逆抽樣下風(fēng)險(xiǎn)差的置信區(qū)間構(gòu)造進(jìn)行研究,相繼發(fā)表了逆抽樣下風(fēng)險(xiǎn)差的漸近置信區(qū)間和逆抽樣下風(fēng)險(xiǎn)差的逼近置信區(qū)間(分別見Tang& T ian[7]和Tang&T ian[8]).期間,吳等人[9]又提出了對逆抽樣下相對差置信區(qū)間構(gòu)造W ald統(tǒng)計(jì)量估計(jì)方法和對數(shù)Wald統(tǒng)計(jì)量估計(jì)方法.
同樣,在二項(xiàng)抽樣下相關(guān)參數(shù)置信區(qū)間的相關(guān)文獻(xiàn)也很多.在Chen[10]提出了在二項(xiàng)抽樣下風(fēng)險(xiǎn)差置信區(qū)間的兩種精確估計(jì)方法.Koopman[11]和M iettinen&Nurm inen[12]先后發(fā)表了相對風(fēng)險(xiǎn)置信區(qū)間的似然比檢驗(yàn)估計(jì)方法.之后,Gart[13]推導(dǎo)了得分檢驗(yàn)估計(jì)方法,并且該方法在多數(shù)情況下表現(xiàn)非常好.在前人研究的基礎(chǔ)上,錢等人[14]發(fā)表了二項(xiàng)抽樣下相對風(fēng)險(xiǎn)置信區(qū)間估計(jì)的鞍點(diǎn)逼近方法.
大多數(shù)相關(guān)參數(shù)置信區(qū)間構(gòu)造的研究都是基于二項(xiàng)抽樣和逆抽樣,Poisson抽樣下的有關(guān)文獻(xiàn)很少.Lui[15]中提出了Poisson抽樣下發(fā)病率置信區(qū)間的Wald估計(jì)方法和基于Fisher定理的改進(jìn)方法.因此,基于前人的研究,本文在Poisson抽樣下分別通過Wald方法,基于Fisher定理的改進(jìn)方法,樞軸量方法,得分方法,和似然比檢驗(yàn)方法四種方法對發(fā)病率的置信區(qū)間進(jìn)行估計(jì),進(jìn)而通過Monte Carlo模擬對此四種方法進(jìn)行比較,以便今后進(jìn)一步利用應(yīng)用此結(jié)果.
本文在§2介紹了置信區(qū)間四種估計(jì)方法的原理.§3通過M onte Carlo模擬對四種方法進(jìn)行比較;§4運(yùn)用實(shí)例加以驗(yàn)證Monte Carlo的模擬結(jié)果;§5對模擬的結(jié)果進(jìn)行評價(jià).
當(dāng)潛在疾病是罕見時(shí),通常假設(shè)發(fā)病人數(shù)在固定的一個(gè)時(shí)間間隔中服從Poisson過程.但是由于慢性病的發(fā)病期長,發(fā)病率低,在規(guī)定的時(shí)間間隔中觀察到的發(fā)病人數(shù)很有可能為0,因此,在疾病跟進(jìn)期進(jìn)行n次獨(dú)立重復(fù)試驗(yàn).那么在整個(gè)跟進(jìn)期總的發(fā)病人數(shù)X服從如下Poisson分布:
其概率密度函數(shù)為:
其中,λ表示潛在的發(fā)病率,n?表示總的試驗(yàn)次數(shù).
由矩估計(jì)方法n?λ=X,可以得到λ和方差λ的估計(jì)值為
下面介紹關(guān)于發(fā)病率λ置信區(qū)間估計(jì)的四種方法.
1 Wald方法
考慮如下假設(shè)H0:λ=λ0對H1:λ/=λ0,Wald統(tǒng)計(jì)量為:
在樣本量和大的情況下,Wald統(tǒng)計(jì)量近似的服從標(biāo)準(zhǔn)正態(tài)分布.即
因此,可以得到λ的一個(gè)置信水平為100(1-α)%的置信區(qū)間如下
其中,Zα/2是N(0,1)分布的1-α/2分位點(diǎn).
2樞軸量累積分布
引理1(見文[3]中定理9.2.14)假設(shè)T是累積分布函數(shù)為FT(t|θ)=P(T≤t|θ)的一個(gè)離散統(tǒng)計(jì)量,α1+α2=α(0<α<1)是一個(gè)固定的值.對于每個(gè)t∈Γ,θL(t)和θU(t)定義如下:
a如果對于每個(gè)t,F(xiàn)T(t|θ)是θ的遞減函數(shù),有
b如果對于每個(gè)t,F(xiàn)T(t|θ)是θ的遞增函數(shù),有
則隨機(jī)區(qū)間[θL(T),θU(T)]是θ的一個(gè)置信水平為1-α的置信區(qū)間.
對于X~Poisson(n?λ),假定α1=α2=,X=x0是觀察值,由以上定理可得
根據(jù)Γ分x布,Poisson分布以及χ分Z布 之間的特殊關(guān)系(見文[3]中例3.3.1),進(jìn)一步得到
其中,χ22(x0+1),α/2是自由度為2(x0+1)的卡方分布的α/2分位點(diǎn).
因此,求解方程(3)可以得到
同樣,求解方程(4)可以得到
則得到λ的一個(gè)置信水平為100(1-α)%的置信區(qū)間如下
3得分檢驗(yàn)
考慮如下假設(shè)H0:λ=λ0對H1:λ/=λ0,有
對于所有的λ都有ES(λ)=0,其方差為
表1 Piossion分布,發(fā)病率λ=0.1,置信水平α=0.05
從而有
進(jìn)一步轉(zhuǎn)化成求解關(guān)于λ的二次方程Aλ2+Bλ+C=0,其中
從而得到λ的一h個(gè)置信水p平 為100(1-α)%的置信區(qū)間p為 i
4似然比檢驗(yàn)
似然比檢驗(yàn)是一種構(gòu)造參數(shù)檢驗(yàn)的方法,考慮假設(shè)H0:λ∈Λ0對H1:λ∈Λ/Λ0,似然比統(tǒng)計(jì)量為:
其分子分母分別是似然函數(shù)在零假設(shè)和備擇假設(shè)上的最大值.
對于發(fā)病率指標(biāo),考慮如下假設(shè)檢驗(yàn):H0:λ=λ0對H1:λ/=λ0.根據(jù)W ilks定理,在樣本量很大的時(shí)候滿足
因此,可以從W的分布情況得到λ的一個(gè)置信水平為100(1-α)%的置信區(qū)間如下
對于給出的四種置信區(qū)間,本文運(yùn)用蒙特卡羅模擬從置信區(qū)間長度和覆蓋率兩個(gè)方面來進(jìn)行比較.其中,通過參數(shù)恰好位于此區(qū)間的概率來衡量,即覆蓋率越接近置信水平越好.覆蓋率置信區(qū)間長度通過平均區(qū)間長度來衡量,即區(qū)間長度越短越好.
進(jìn)行模擬之前,考慮如下指標(biāo):置信水平α=0.05;每次試驗(yàn)發(fā)病率為λ=0.001,0.01,0.1;跟進(jìn)期間平均發(fā)病人數(shù)為n?λ=5,50,100.表1,表2,表3分別是發(fā)病率λ=0.001,λ=0.01和λ= 0.1,置信水平α=0.05下不同的平均發(fā)病人數(shù)得到的模擬結(jié)果(上邊的數(shù)表示覆蓋率,下面的數(shù)表示置信區(qū)間長度).
從模擬的結(jié)果來看:在發(fā)病率很低(λ=0.001)的情況下,不論平均發(fā)病人數(shù)的多少,樞軸量方法的覆蓋率表現(xiàn)最好,其他方法均無差異.當(dāng)平均發(fā)病人數(shù)很?。╪?λ=5)時(shí),W ald統(tǒng)計(jì)量方法在區(qū)間長度上都表現(xiàn)最好,樞軸量方法較差;當(dāng)平均發(fā)病人數(shù)較大(n?λ=100)時(shí),得分方法在0區(qū)間長度表現(xiàn)最好,樞軸量僅次于得分方法和Wald統(tǒng)計(jì)量方法.因此,在發(fā)病率很小的情況下,樞軸量方法表現(xiàn)出很好的優(yōu)勢,尤其在覆蓋率上.在發(fā)病率很高(λ=0.1)的情況下,樞軸量方法無論在區(qū)間長度還是在覆蓋率上都表現(xiàn)最好.其中,在覆蓋率上除樞軸量方法的其他方法均無差異.在區(qū)間長度上,樞軸量表現(xiàn)最好,得分方法和Wald統(tǒng)計(jì)量方法次之,似然比檢驗(yàn)方法較差.因此,樞軸量方法整體上表現(xiàn)良好.
表2 Piossion分布,發(fā)病率λ=0.01,置信水平α=0.05
表3 P iossion分布,發(fā)病率λ=0.001,置信水平α=0.05
例1患霍奇金淋巴瘤對甲狀腺癌發(fā)病率的影響
霍奇金淋巴瘤(HL)是一種高度可治愈的疾病,在發(fā)病早期治愈率非常高,但在晚期會引起包括甲狀腺疾病在內(nèi)的各種并發(fā)癥,隨之引發(fā)甲狀腺癌的風(fēng)險(xiǎn)也比正常人大了5-15倍.因此,文[15]對霍奇金淋巴瘤(HL)患者后來患甲狀腺癌的的風(fēng)險(xiǎn)和發(fā)病特點(diǎn)進(jìn)行研究.實(shí)驗(yàn)的對象是1969年到2008年之間接受治療的1981名霍奇金淋巴瘤患者,隨訪時(shí)間為14.3年,期間觀測到共有28個(gè)病人患甲狀腺惡性腫瘤.由此可知:n?λ=28,λ=0.014(數(shù)據(jù)來源見文[15]).
通過上述四種方法構(gòu)造的λ的95%置信區(qū)間比較見表4.
表4的結(jié)果可以看出:極大似然方法估計(jì)的區(qū)間長度明顯偏大,得分方法估計(jì)的區(qū)間明顯右移.相比之下,Wald方法估計(jì)的區(qū)間長度最短,樞軸量方法僅次之Wald統(tǒng)計(jì)量方法.
例2克羅恩病對直腸癌發(fā)病率的影響
表4 患霍奇金淋巴瘤下甲狀腺癌發(fā)病率的95%置信區(qū)間
表5 感染克羅恩病的直腸癌發(fā)病率的95%置信區(qū)間
克羅恩?。–D)是一種發(fā)生在整個(gè)胃腸道的炎癥,因病因不明,很難有效治療.時(shí)間長的情況下,很可能發(fā)展成癌癥.在西方國家,克羅恩患者患結(jié)直腸癌(CRC)的風(fēng)險(xiǎn)一直被認(rèn)為是很高的.而在日本,關(guān)于患有克羅恩病后,腸道癌和其他所有非腸道癌的標(biāo)準(zhǔn)化發(fā)病率比(SIR)的調(diào)查卻很少.文[6]研究了克羅恩疾病患者得癌癥的風(fēng)險(xiǎn).從一所專門從事炎癥性腸病的醫(yī)院中找出770名克羅恩疾病患者.經(jīng)觀察,在770個(gè)人中發(fā)現(xiàn)9例直腸癌(CRC).由此可知:n?λ=9,λ=0.0117(數(shù)據(jù)來源見文[6]).
通過上述四種方法構(gòu)造的λ的95%置信區(qū)間比較見表5.
表5的結(jié)果表明:樞軸量方法在區(qū)間長度表現(xiàn)最好,Wald方法次之;得分方法估計(jì)的區(qū)間整體右移且區(qū)間長度偏大;似然比方法估計(jì)的置信區(qū)間最差.
本文通過蒙特卡羅模擬對Poisson抽樣下發(fā)病率置信區(qū)間的四種估計(jì)方法進(jìn)行比較,并對各種估計(jì)的性能進(jìn)行評價(jià).比較結(jié)果表明:當(dāng)發(fā)病率相對較高時(shí),樞軸量方法無論是在覆蓋率還是在區(qū)間長度上都表現(xiàn)的非常好.當(dāng)發(fā)病率較低時(shí),樞軸量方法在區(qū)覆蓋率上表現(xiàn)突出,在區(qū)間長度上的表現(xiàn)較差.因此,樞軸量方法在覆蓋率和區(qū)間長度上整體表現(xiàn)良好.
[1]Yano Y,Matsui T,Hirai F,et al.Cancer risk in Japanese Crohn’s disease patients:investigation of the standardized incidence ratio[J].Journal of Gastroenterology and Hepatology,2013,28:1300-1305.
[2]A liP A,W ilson J,Edge V L,et al.Community-level risk factors for notifiablegastrointestinal illness in the northwest territories,Canada,1991-2008[J].Bm c Public Health,2013,28:1471-2458.
[3]Casella G,Berger R L.Statistical In ference[M].California:Duxbury,2001.
[4]Kung-Jong Lui.Interval estimation on sim p le difference under independent negative binom ial sam pling[J].Biometrics,1999,41:83-92.
[5]Tian Maozai,Tang M an-Lai,Ng H K T,et al.Con fidence intervals for the risk ratio under inverse sam p ling[J].Statistics in M ed icine,2008,27:3301-3324.
[6]田茂再,吳喜之,李遠(yuǎn),等.逆抽樣下流行病發(fā)病率的逼近與漸近置信區(qū)間[J].系統(tǒng)科學(xué)與數(shù)學(xué),2008,26(5):513-523.
[7]Tang M an-Lai,T ian M aozai,Ng H K T,et al.Asym p totic confidence interval construction for risk difference under inverse sam p ling[J].Com putational Statistics and Data Analysis,2009,53:621-631.
[8]Tang M an-Lai,Tian Maozai.App roximate con fidence interval construction for risk difference under inverse sam p ling[J].Statistics&Com puting,2010,20:87-98.
[9]吳武琴,左艷芳,李會瓊,等.逆抽樣條件下相對差的估計(jì)[J].昆明理工大學(xué)學(xué)報(bào),2009,34(5): 108-124.
[10]Xun Chen.A quasi-exact method for the con fidence intervals of the difference of two independent binom ial p roportions in sm all sam p le cases[J].Statistics in M edicine,2002,21: 943-956.
[11]Koopm an P A R.Con fidence lim its for the ratio of two binom ial p roportions[J].B iom etrics,1984,40:513-517.
[12]Chan,Ivan S F,Zhang Z X.Com parative analysis of two rates[J].Statistics in Medicine,1985,4:213-226.
[13]Gart J J.App roximate test and interval estimation of the common relative risk in the combination of 2×2 tab les[J].Biometrika,1985,72:673-677.
[14]錢政超,張晨陽,孟令賓,等.二項(xiàng)抽樣下基于鞍點(diǎn)逼近方法的流行病相對風(fēng)險(xiǎn)置信區(qū)間構(gòu)造[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2014,44(21):513-523.
[15]Kung-Jong Lui.Statistical Estim ation of Epidem iological Risk[M].New York:John W iley &Sons,2004.
[16]M ichaelson E M,Chen Yuhui,Silver B,et al.Thyroid malignancies in survivors of hodgkin lym phom a[J].In ternational Journal of Radiation Oncology Biology Physics,2014,88(3): 637-640.
M R Sub ject C lassification:62H 12
Con fidence in terval construction for the incidence of ch ron ic d iseases
BAIYong-xin1,TIAN Mao-zai1,2
(1.School of Statistics,Lanzhou University of Finance and Econom ics.,Lanzhou 730020,China;2.Center for App lied Statistics,School of Statistics,Renm in University of China,Beijing 100872,China)
In epidem iological studies,incidence of a disease is an im portant index which reflects the degree of the onset of a certain disease in the particu lar crowd.As a resu lt,the structure of the confidence interval of it has im portantmedical significance in judging disease extent.For some chronic diseases(such as cancer or cardiovascu lar,etc.),due to their long onset period and low incidence,Poisson sam p ling is in accord w ith the factsmore than binom ial sam p ling and inverse sam p ling.Four m ethodsw ere used to study the construction of con fidence interval for the incidence of chronic d iseases under poisson distribution,and the performance p ropertiesof the fourmethodswere com pared through m onte carlo simu lation.Simu lation results show that w hen higher incidence,p ivot m ethod did very well in both coverage and the interval length.W hen rates are relatively lower,pivotmethod is slightly in ferior to W ald statistic m ethod and them ethod of scoring on the interval length,but it d id the best on the coverage.As a resu lt,the overall performance of pivotmethod is very good.
incidence of a d iseases;Poisson sam p ling;the estim ation of confidence intervals;Monte Carlo simu lation
O212.4
A
1000-4424(2016)02-0136-07
2015-09-03
2016-05-03
教育部哲學(xué)社會科學(xué)研究重大課題攻關(guān)項(xiàng)目(15JZD015);國家自然科學(xué)基金(11271368);北京市社會科學(xué)基金重大項(xiàng)目(15ZDA 17);教育部高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20130004110007);國家社會科學(xué)基金重點(diǎn)項(xiàng)目(13AZD 064);教育部人文社會科學(xué)重點(diǎn)研究基地重大項(xiàng)目(15JJD 910001);中國人民大學(xué)科學(xué)研究基金(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助)項(xiàng)目成果(15XNL008);蘭州財(cái)經(jīng)大學(xué)“飛天學(xué)者特聘計(jì)劃