復(fù)旦大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)教研室公共衛(wèi)生安全教育部重點(diǎn)實(shí)驗(yàn)室(200032) 陳文鋒 趙耐青 朱 敏
在流行病學(xué)調(diào)查研究中,經(jīng)常采用二階段抽樣方法來獲取樣本。當(dāng)我們面對(duì)的總體個(gè)體數(shù)很龐大,而且分布范圍很廣時(shí),如果使用單階段抽樣方法,則不僅工作量大,而且在精度上很難把握。此時(shí)可以考慮采用二階段抽樣方法,這樣就能夠避免上述困難。比如說,我們要評(píng)價(jià)某省15歲以上人群的脈壓差情況,可以從該地區(qū)100個(gè)縣中抽取6個(gè)縣,每個(gè)縣抽取300個(gè)個(gè)體進(jìn)行脈壓差調(diào)查。根據(jù)實(shí)際情況,各個(gè)階段可以采用不同的抽樣方法。
在抽取樣本時(shí),需要考慮兩個(gè)問題,一個(gè)是抽取到的樣本的代表性,一個(gè)是抽取樣本的可行性。當(dāng)在一個(gè)比較大的范圍內(nèi)抽取樣本時(shí),抽取到的樣本代表性比較好,但是可行性差;當(dāng)在一個(gè)比較小的范圍內(nèi)抽取樣本時(shí),抽取到的樣本代表性比較差,但是可行性比較好。我們需要在兼顧可行性和代表性的情況下來選擇抽取樣本的方法,而在流行病學(xué)調(diào)查研究中,通常有三種常用的方法來抽取樣本,即隨機(jī)抽樣、根據(jù)先驗(yàn)信息在中心位置抽樣以及方便抽樣。隨機(jī)抽樣代表性最好,但是可行性差;方便抽樣可行性好,但是代表性最差;根據(jù)先驗(yàn)信息在中心位置抽樣的可行性和代表性介于其他兩種方法之間。
由于不同縣的15歲以上人群的平均脈壓差存在某些差異,因此對(duì)于第一階段以縣為抽樣單位的抽樣而言,存在抽樣變異(表現(xiàn)為各個(gè)縣之間的平均脈壓差的差異)。第二階段需要在抽取到的縣里面抽取個(gè)體,而這些個(gè)體也存在隨機(jī)變異。因此在二階段抽樣中存在兩種隨機(jī)變異:各個(gè)縣之間的平均脈壓差的隨機(jī)變異和每個(gè)縣內(nèi)個(gè)體間的隨機(jī)變異。本文建立了二階段抽樣的模型,并用隨機(jī)模擬的辦法比較了這三種抽樣方法的優(yōu)劣性,為以后能夠正確地使用這些抽樣方法提供了依據(jù)。
第一階段從目標(biāo)人群中抽取若干個(gè)縣;第二階段再?gòu)牡谝浑A段抽取到的每個(gè)縣內(nèi)隨機(jī)抽取相同個(gè)體組成樣本。假設(shè)總共抽取到m個(gè)縣,每個(gè)縣內(nèi)抽取n個(gè)個(gè)體,第i個(gè)縣內(nèi)的第j個(gè)個(gè)體Xij服從正態(tài)分布Xij~N(μi,σ2)??紤]到群內(nèi)聚集性,假設(shè) μi,i=1,2,…,m不全相等,并且 μi~ N(μ0,τ2)。那么 Xij可以表示為
其中ei~ N(0,τ2),δij~ N(0,σ2),i=1,2,…,m;j=1,2,…,n。
并且假定隨機(jī)變量ei和隨機(jī)變量δij是獨(dú)立的。
可以證明上述兩個(gè)參數(shù)估計(jì)分別是τ2和σ2的無偏估計(jì),則X=的標(biāo)準(zhǔn)誤為
總體均數(shù)μ0的置信區(qū)間為簡(jiǎn)單隨機(jī)抽樣的95%置信區(qū)間公式為
以估計(jì)出來的置信區(qū)間包含總體均數(shù)的覆蓋率做為評(píng)價(jià)指標(biāo),來比較這三種抽樣方法的優(yōu)劣。
假定研究人群分布在100個(gè)縣(N=100),每個(gè)縣內(nèi)15歲及以上的人口數(shù)在4 500至5 500的范圍內(nèi)。以不同地區(qū)不同文化程度的15歲及以上人群平均脈壓差為研究背景,設(shè)置研究人群的脈壓差平均數(shù)(總體均數(shù)μ0)為50,設(shè)第i個(gè)縣15歲及以上對(duì)象的脈壓差均數(shù)為μi=μ0+ei,ei為第i個(gè)縣脈壓差均數(shù)的第一階段抽樣誤差,假定ei~ N(0,τ2),第i個(gè)縣第j個(gè)對(duì)象的脈壓差觀察值Xij=μ0+ei+δij,δij為個(gè)體抽樣誤差,假定δij~N(0,σ2)。本研究分別考察在100個(gè)縣中抽取6和25個(gè)縣(m=6和25),設(shè)置縣與縣之間變異的標(biāo)準(zhǔn)差τ=0.5、3、4和10(mmHg),個(gè)體變異的標(biāo)準(zhǔn)差σ=3、4和10的隨機(jī)模擬結(jié)果。在每個(gè)縣內(nèi)隨機(jī)抽取300個(gè)個(gè)體進(jìn)行研究。在每種設(shè)置下進(jìn)行100次模擬實(shí)驗(yàn),以每次模擬得到的95% 置信區(qū)間是否包含總體均值作為評(píng)價(jià)指標(biāo),整個(gè)實(shí)驗(yàn)用SAS語言編程進(jìn)行模擬。
本文模擬三種抽樣方法,分別重復(fù)模擬100次,每種抽樣方法分別得到100個(gè)樣本并計(jì)算95%置信區(qū)間,統(tǒng)計(jì)這些置信區(qū)間包含總體均數(shù)μ0的覆蓋率。
表1 第一階段抽6個(gè)縣,比較三種抽樣方法,兩種估計(jì)的95%置信區(qū)間覆蓋率(%)
表2 第一階段抽25個(gè)縣,比較三種抽樣方法,兩種估計(jì)的95%置信區(qū)間覆蓋率(%)
表3 隨機(jī)抽樣選取縣和在中心位置抽樣選取縣等價(jià)的情況及P值
在抽取縣個(gè)數(shù)不小于6時(shí),用隨機(jī)抽樣方法選取縣得出的置信區(qū)間包含總體均數(shù)的覆蓋率是最大的,而方便抽樣選取縣得出的置信區(qū)間包含總體均數(shù)的覆蓋率是最小的。經(jīng)卡方檢驗(yàn),三種選取方法不等效,隨機(jī)抽樣選取縣的效果最好,根據(jù)先驗(yàn)信息在中心位置抽樣選取縣次之,而方便抽樣選取縣的效果最差。
以隨機(jī)抽樣選取縣得到的95%置信區(qū)間不覆蓋總體均值μ0的次數(shù)為應(yīng)變量,以參數(shù)τ和σ為自變量,建立Poisson回歸模型進(jìn)行分析。參數(shù)τ和σ對(duì)隨機(jī)抽樣選取縣得到的置信區(qū)間不覆蓋總體均值μ0次數(shù)的影響沒有統(tǒng)計(jì)學(xué)意義。
以中心位置抽樣選取縣得到的95%置信區(qū)間不覆蓋總體均值μ0的次數(shù)y為應(yīng)變量,以參數(shù)τ和σ為自變量,建立Poisson回歸模型,得到回歸方程為
可見此種抽樣方法得到的置信區(qū)間不覆蓋總體均值的次數(shù)隨著參數(shù)τ的增加而上升(系數(shù)^β1的假設(shè)檢驗(yàn)統(tǒng)計(jì)量為=59.37,P <0.0001);隨著參數(shù)σ的增加而下降(系數(shù)^β2的假設(shè)檢驗(yàn)統(tǒng)計(jì)量為W=
以方便抽樣選取縣得到的95%置信區(qū)間覆蓋總體均值μ0的次數(shù)y*為應(yīng)變量,以參數(shù)τ和σ為自變量,建立Poisson回歸模型,得到回歸方程為
可見此種抽樣方法得到的置信區(qū)間覆蓋總體均值的次數(shù)隨著參數(shù)τ的增加而下降(系數(shù)^β1估計(jì)的假設(shè)檢驗(yàn)統(tǒng)計(jì)量為=170,P <0.0001);隨著參數(shù)σ的增加而上升(系數(shù)^β2估計(jì)的假設(shè)檢驗(yàn)統(tǒng)計(jì)量為W
方便抽樣選取縣的方法和其他兩種抽樣方法相比對(duì)總體參數(shù)μ0的估計(jì)效果不等價(jià)。而隨機(jī)抽樣選取縣和在中心位置抽樣選取縣相比在參數(shù)τ比較大時(shí)不等價(jià),從表3可以知道在 σ≥3,τ=0.5,即 ICC≤0.027時(shí)這兩種方法是等價(jià)的。
從表1、表2可以知道,首先利用三種抽樣方法下得到樣本數(shù)據(jù),然后利用二階段隨機(jī)抽樣的95%CI估計(jì)方法和用簡(jiǎn)單隨機(jī)抽樣的95%CI估計(jì)方法計(jì)算置信區(qū)間。結(jié)果顯示,這兩種方法計(jì)算出的置信區(qū)間對(duì)總體均數(shù)的覆蓋率不同,差別都具有統(tǒng)計(jì)學(xué)意義。這種具有層次結(jié)構(gòu)的數(shù)據(jù)用二階段隨機(jī)抽樣的95%CI估計(jì)方法要比簡(jiǎn)單隨機(jī)抽樣的95%CI估計(jì)方法有效。
在快速流行病學(xué)評(píng)估中常采用二階段抽樣方法。根據(jù)本文對(duì)常用的三種抽取縣的方法在各種情況下的比較發(fā)現(xiàn),隨機(jī)抽樣選取縣的方法其效果都是最好的,只是其可行性差,因此在條件允許的情況下應(yīng)該盡量選取此抽樣方法。而方便抽樣選取縣的方法其效果在大多數(shù)情況下都是最差的,盡管此方法可行性好,但一般不建議將其作為選取縣的方法。
根據(jù)先驗(yàn)信息在中心位置抽樣選取縣的方法,和隨機(jī)抽樣選取縣的方法對(duì)總體參數(shù)μ0的估計(jì)有著相似的效果。但是只有在σ比較大,而τ比較小時(shí),比如σ≥3,τ=0.5時(shí),兩者才等價(jià)。如果有先驗(yàn)信息,并且先驗(yàn)信息中參數(shù)σ和τ滿足此條件時(shí),本文建議用在中心位置抽樣選取縣來代替隨機(jī)抽樣選取縣。
群體總體參數(shù)μ0所處的水平對(duì)估計(jì)的效果沒有影響,因此在實(shí)際應(yīng)用時(shí)不需要考慮μ0所處的水平。
1.付鵬鈺,胡東生,顧東風(fēng).多階段整群隨機(jī)抽樣方法在流行病學(xué)研究中的運(yùn)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(3):299-300.
2.楊珉.多元分析的發(fā)展—多水平模型簡(jiǎn)介.中國(guó)衛(wèi)生統(tǒng)計(jì),1994,11(5):32-35.
3.汪嘉岡.SAS V8基礎(chǔ)教程.北京:中國(guó)統(tǒng)計(jì)出版社,2003:544-554.
4.金水高.中國(guó)居民營(yíng)養(yǎng)與健康狀況調(diào)查報(bào)告之十:2002中國(guó)居民營(yíng)養(yǎng)與健康狀況數(shù)據(jù)集.北京:人民衛(wèi)生出版社,2008:251-253.
中國(guó)衛(wèi)生統(tǒng)計(jì)2012年1期