常用二階段抽樣方法的評(píng)價(jià)

2012-12-04 02:59復(fù)旦大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)教研室公共衛(wèi)生安全教育部重點(diǎn)實(shí)驗(yàn)室200032陳文鋒趙耐青

中國(guó)衛(wèi)生統(tǒng)計(jì) 2012年1期

復(fù)旦大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)教研室公共衛(wèi)生安全教育部重點(diǎn)實(shí)驗(yàn)室(200032) 陳文鋒趙耐青朱敏

在流行病學(xué)調(diào)查研究中，經(jīng)常采用二階段抽樣方法來獲取樣本。當(dāng)我們面對(duì)的總體個(gè)體數(shù)很龐大，而且分布范圍很廣時(shí)，如果使用單階段抽樣方法，則不僅工作量大，而且在精度上很難把握。此時(shí)可以考慮采用二階段抽樣方法，這樣就能夠避免上述困難。比如說，我們要評(píng)價(jià)某省15歲以上人群的脈壓差情況，可以從該地區(qū)100個(gè)縣中抽取6個(gè)縣，每個(gè)縣抽取300個(gè)個(gè)體進(jìn)行脈壓差調(diào)查。根據(jù)實(shí)際情況，各個(gè)階段可以采用不同的抽樣方法。

在抽取樣本時(shí)，需要考慮兩個(gè)問題，一個(gè)是抽取到的樣本的代表性，一個(gè)是抽取樣本的可行性。當(dāng)在一個(gè)比較大的范圍內(nèi)抽取樣本時(shí)，抽取到的樣本代表性比較好，但是可行性差;當(dāng)在一個(gè)比較小的范圍內(nèi)抽取樣本時(shí)，抽取到的樣本代表性比較差，但是可行性比較好。我們需要在兼顧可行性和代表性的情況下來選擇抽取樣本的方法，而在流行病學(xué)調(diào)查研究中，通常有三種常用的方法來抽取樣本，即隨機(jī)抽樣、根據(jù)先驗(yàn)信息在中心位置抽樣以及方便抽樣。隨機(jī)抽樣代表性最好，但是可行性差;方便抽樣可行性好，但是代表性最差;根據(jù)先驗(yàn)信息在中心位置抽樣的可行性和代表性介于其他兩種方法之間。

由于不同縣的15歲以上人群的平均脈壓差存在某些差異，因此對(duì)于第一階段以縣為抽樣單位的抽樣而言，存在抽樣變異(表現(xiàn)為各個(gè)縣之間的平均脈壓差的差異)。第二階段需要在抽取到的縣里面抽取個(gè)體，而這些個(gè)體也存在隨機(jī)變異。因此在二階段抽樣中存在兩種隨機(jī)變異:各個(gè)縣之間的平均脈壓差的隨機(jī)變異和每個(gè)縣內(nèi)個(gè)體間的隨機(jī)變異。本文建立了二階段抽樣的模型，并用隨機(jī)模擬的辦法比較了這三種抽樣方法的優(yōu)劣性，為以后能夠正確地使用這些抽樣方法提供了依據(jù)。

原理和方法

1．模擬二階段抽樣方法的模型

第一階段從目標(biāo)人群中抽取若干個(gè)縣;第二階段再?gòu)牡谝浑A段抽取到的每個(gè)縣內(nèi)隨機(jī)抽取相同個(gè)體組成樣本。假設(shè)總共抽取到m個(gè)縣，每個(gè)縣內(nèi)抽取n個(gè)個(gè)體，第i個(gè)縣內(nèi)的第j個(gè)個(gè)體Xij服從正態(tài)分布Xij～N(μi，σ2)?？紤]到群內(nèi)聚集性，假設(shè) μi，i=1，2，…，m不全相等，并且 μi～ N(μ0，τ2)。那么 Xij可以表示為

其中ei～ N(0，τ2)，δij～ N(0，σ2)，i=1，2，…，m;j=1，2，…，n。

并且假定隨機(jī)變量ei和隨機(jī)變量δij是獨(dú)立的。

2．二階段抽樣方法的評(píng)價(jià)指標(biāo)

可以證明上述兩個(gè)參數(shù)估計(jì)分別是τ2和σ2的無偏估計(jì)，則X=的標(biāo)準(zhǔn)誤為

總體均數(shù)μ0的置信區(qū)間為簡(jiǎn)單隨機(jī)抽樣的95%置信區(qū)間公式為

以估計(jì)出來的置信區(qū)間包含總體均數(shù)的覆蓋率做為評(píng)價(jià)指標(biāo)，來比較這三種抽樣方法的優(yōu)劣。

3．模擬實(shí)驗(yàn)的設(shè)計(jì)

假定研究人群分布在100個(gè)縣(N=100)，每個(gè)縣內(nèi)15歲及以上的人口數(shù)在4 500至5 500的范圍內(nèi)。以不同地區(qū)不同文化程度的15歲及以上人群平均脈壓差為研究背景，設(shè)置研究人群的脈壓差平均數(shù)(總體均數(shù)μ0)為50，設(shè)第i個(gè)縣15歲及以上對(duì)象的脈壓差均數(shù)為μi=μ0+ei，ei為第i個(gè)縣脈壓差均數(shù)的第一階段抽樣誤差，假定ei～ N(0，τ2)，第i個(gè)縣第j個(gè)對(duì)象的脈壓差觀察值Xij=μ0+ei+δij，δij為個(gè)體抽樣誤差，假定δij～N(0，σ2)。本研究分別考察在100個(gè)縣中抽取6和25個(gè)縣(m=6和25)，設(shè)置縣與縣之間變異的標(biāo)準(zhǔn)差τ=0.5、3、4和10(mmHg)，個(gè)體變異的標(biāo)準(zhǔn)差σ=3、4和10的隨機(jī)模擬結(jié)果。在每個(gè)縣內(nèi)隨機(jī)抽取300個(gè)個(gè)體進(jìn)行研究。在每種設(shè)置下進(jìn)行100次模擬實(shí)驗(yàn)，以每次模擬得到的95% 置信區(qū)間是否包含總體均值作為評(píng)價(jià)指標(biāo)，整個(gè)實(shí)驗(yàn)用SAS語言編程進(jìn)行模擬。

結(jié)果與分析

本文模擬三種抽樣方法，分別重復(fù)模擬100次，每種抽樣方法分別得到100個(gè)樣本并計(jì)算95%置信區(qū)間，統(tǒng)計(jì)這些置信區(qū)間包含總體均數(shù)μ0的覆蓋率。

表1 第一階段抽6個(gè)縣，比較三種抽樣方法，兩種估計(jì)的95%置信區(qū)間覆蓋率(%)

表2 第一階段抽25個(gè)縣，比較三種抽樣方法，兩種估計(jì)的95%置信區(qū)間覆蓋率(%)

表3 隨機(jī)抽樣選取縣和在中心位置抽樣選取縣等價(jià)的情況及P值

1.各種方法的優(yōu)劣性

在抽取縣個(gè)數(shù)不小于6時(shí)，用隨機(jī)抽樣方法選取縣得出的置信區(qū)間包含總體均數(shù)的覆蓋率是最大的，而方便抽樣選取縣得出的置信區(qū)間包含總體均數(shù)的覆蓋率是最小的。經(jīng)卡方檢驗(yàn)，三種選取方法不等效，隨機(jī)抽樣選取縣的效果最好，根據(jù)先驗(yàn)信息在中心位置抽樣選取縣次之，而方便抽樣選取縣的效果最差。

2.各種抽樣方法的95%置信區(qū)間覆蓋次數(shù)關(guān)于參數(shù)τ和σ的回歸模型

以隨機(jī)抽樣選取縣得到的95%置信區(qū)間不覆蓋總體均值μ0的次數(shù)為應(yīng)變量，以參數(shù)τ和σ為自變量，建立Poisson回歸模型進(jìn)行分析。參數(shù)τ和σ對(duì)隨機(jī)抽樣選取縣得到的置信區(qū)間不覆蓋總體均值μ0次數(shù)的影響沒有統(tǒng)計(jì)學(xué)意義。

以中心位置抽樣選取縣得到的95%置信區(qū)間不覆蓋總體均值μ0的次數(shù)y為應(yīng)變量，以參數(shù)τ和σ為自變量，建立Poisson回歸模型，得到回歸方程為

可見此種抽樣方法得到的置信區(qū)間不覆蓋總體均值的次數(shù)隨著參數(shù)τ的增加而上升(系數(shù)^β1的假設(shè)檢驗(yàn)統(tǒng)計(jì)量為=59.37，P ＜0.0001);隨著參數(shù)σ的增加而下降(系數(shù)^β2的假設(shè)檢驗(yàn)統(tǒng)計(jì)量為W=

以方便抽樣選取縣得到的95%置信區(qū)間覆蓋總體均值μ0的次數(shù)y*為應(yīng)變量，以參數(shù)τ和σ為自變量，建立Poisson回歸模型，得到回歸方程為

可見此種抽樣方法得到的置信區(qū)間覆蓋總體均值的次數(shù)隨著參數(shù)τ的增加而下降(系數(shù)^β1估計(jì)的假設(shè)檢驗(yàn)統(tǒng)計(jì)量為=170，P ＜0.0001);隨著參數(shù)σ的增加而上升(系數(shù)^β2估計(jì)的假設(shè)檢驗(yàn)統(tǒng)計(jì)量為W

3.各種方法的兩兩比較

方便抽樣選取縣的方法和其他兩種抽樣方法相比對(duì)總體參數(shù)μ0的估計(jì)效果不等價(jià)。而隨機(jī)抽樣選取縣和在中心位置抽樣選取縣相比在參數(shù)τ比較大時(shí)不等價(jià)，從表3可以知道在 σ≥3，τ=0.5，即 ICC≤0.027時(shí)這兩種方法是等價(jià)的。

4.置信區(qū)間的計(jì)算方法

從表1、表2可以知道，首先利用三種抽樣方法下得到樣本數(shù)據(jù)，然后利用二階段隨機(jī)抽樣的95%CI估計(jì)方法和用簡(jiǎn)單隨機(jī)抽樣的95%CI估計(jì)方法計(jì)算置信區(qū)間。結(jié)果顯示，這兩種方法計(jì)算出的置信區(qū)間對(duì)總體均數(shù)的覆蓋率不同，差別都具有統(tǒng)計(jì)學(xué)意義。這種具有層次結(jié)構(gòu)的數(shù)據(jù)用二階段隨機(jī)抽樣的95%CI估計(jì)方法要比簡(jiǎn)單隨機(jī)抽樣的95%CI估計(jì)方法有效。

討論

在快速流行病學(xué)評(píng)估中常采用二階段抽樣方法。根據(jù)本文對(duì)常用的三種抽取縣的方法在各種情況下的比較發(fā)現(xiàn)，隨機(jī)抽樣選取縣的方法其效果都是最好的，只是其可行性差，因此在條件允許的情況下應(yīng)該盡量選取此抽樣方法。而方便抽樣選取縣的方法其效果在大多數(shù)情況下都是最差的，盡管此方法可行性好，但一般不建議將其作為選取縣的方法。

根據(jù)先驗(yàn)信息在中心位置抽樣選取縣的方法，和隨機(jī)抽樣選取縣的方法對(duì)總體參數(shù)μ0的估計(jì)有著相似的效果。但是只有在σ比較大，而τ比較小時(shí)，比如σ≥3，τ=0.5時(shí)，兩者才等價(jià)。如果有先驗(yàn)信息，并且先驗(yàn)信息中參數(shù)σ和τ滿足此條件時(shí)，本文建議用在中心位置抽樣選取縣來代替隨機(jī)抽樣選取縣。

群體總體參數(shù)μ0所處的水平對(duì)估計(jì)的效果沒有影響，因此在實(shí)際應(yīng)用時(shí)不需要考慮μ0所處的水平。

1．付鵬鈺，胡東生，顧東風(fēng)．多階段整群隨機(jī)抽樣方法在流行病學(xué)研究中的運(yùn)用．中國(guó)衛(wèi)生統(tǒng)計(jì)，2010，27(3):299-300．

2．楊珉．多元分析的發(fā)展—多水平模型簡(jiǎn)介．中國(guó)衛(wèi)生統(tǒng)計(jì)，1994，11(5):32-35．

3．汪嘉岡．SAS V8基礎(chǔ)教程．北京:中國(guó)統(tǒng)計(jì)出版社，2003:544-554．

4．金水高．中國(guó)居民營(yíng)養(yǎng)與健康狀況調(diào)查報(bào)告之十:2002中國(guó)居民營(yíng)養(yǎng)與健康狀況數(shù)據(jù)集．北京:人民衛(wèi)生出版社，2008:251-253．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡