王小寧
(中國傳媒大學(xué) 數(shù)據(jù)科學(xué)與智能媒體學(xué)院,北京 100024)
在實(shí)際抽樣調(diào)查中,分層抽樣以其效率高、費(fèi)用少、精度高、方法靈活的優(yōu)點(diǎn)而被廣泛采用,已成為近代統(tǒng)計(jì)調(diào)查方法中最常用的方法之一。李林蔓(2015)[1]認(rèn)為對于分層抽樣的傳統(tǒng)研究一般集中在樣本選擇的方法和置信區(qū)間的設(shè)定上,并總結(jié)了比例分層抽樣和非比例分層抽樣這兩種抽樣方法的適用情況和優(yōu)缺點(diǎn)。正是由于分層抽樣的這種重要性地位,因此研究在不同情況下分層抽樣中樣本量的確定和分配問題就變得特別重要[2—5]。而現(xiàn)有關(guān)于分層抽樣或關(guān)于樣本量的確定和分配的理論方法的適用環(huán)境發(fā)生了轉(zhuǎn)變,因此樣本量的確定和分配方法也應(yīng)該做到具體問題具體分析。
首先,根據(jù)分層的目的來確定各分層的標(biāo)志,即根據(jù)研究的需要來進(jìn)行分層,當(dāng)分層是為了提高抽樣效率時(shí),就會(huì)出現(xiàn)以哪些指標(biāo)作為分層標(biāo)志,這個(gè)時(shí)候就需要視具體情況來決定是按照主要指標(biāo)來分層,還是按照照顧多數(shù)指標(biāo)的折衷方案來分層。
其次,分層抽樣需要事先掌握與總體單元有關(guān)的各種信息,如分層的抽樣框、分層后各層的總體單元數(shù)與實(shí)際總體的關(guān)系、預(yù)設(shè)費(fèi)用等。但在某些情況下,可能沒有關(guān)于層的抽樣框,這個(gè)時(shí)候可以先采用預(yù)抽樣,再根據(jù)樣本單元進(jìn)行分層,這種分層方法稱作事后分層。
最后,還需要確定分層的界限以及個(gè)數(shù)。如果此時(shí)用于分層的指標(biāo)是屬性變量,例如性別、行政區(qū)域等,那么通??梢园凑崭鱾€(gè)分類值直接進(jìn)行分層。但還需根據(jù)調(diào)研目的來明確分層的大小,例如在全國性的抽樣調(diào)查中,若按地區(qū)分層,既可以按照行政區(qū)域的省、市分層,又可以將經(jīng)濟(jì)發(fā)展情況類似的省、市合并在一起作為一個(gè)層。
在調(diào)查過程中出現(xiàn)權(quán)數(shù)調(diào)整的情況一般可分為兩類:結(jié)構(gòu)調(diào)整和規(guī)模調(diào)整。結(jié)構(gòu)調(diào)整的目的是實(shí)現(xiàn)樣本與總體結(jié)構(gòu)的一致性,常見的方法有迭代、校準(zhǔn)、廣義回歸等;而規(guī)模調(diào)整的目的是實(shí)現(xiàn)樣本與總體規(guī)模的一致性,其中常見的場景之一是處理樣本無回答部分。在以隨機(jī)缺失為前提的權(quán)數(shù)調(diào)整研究中,利用輔助信息調(diào)整權(quán)重的校準(zhǔn)加權(quán)方法自1992 年提出以來就廣受關(guān)注,已發(fā)展為適用于二階抽樣、二重抽樣等不同情形。
整體上看,基于二重抽樣的權(quán)數(shù)調(diào)整在理論研究上較為豐富,但在國內(nèi)的實(shí)際應(yīng)用和相關(guān)的調(diào)查方案設(shè)計(jì)上仍較少。據(jù)此,本文基于《A 省環(huán)境群眾滿意度測評抽樣設(shè)計(jì)調(diào)查》(以下稱《A 省滿意度調(diào)查》),探討在實(shí)際中如何根據(jù)初始限制條件來構(gòu)建抽樣框,進(jìn)行分層抽樣樣本量的確定和分配,以及如何基于二重抽樣處理無回答部分,并采用迭代法和事后分層相結(jié)合的方法調(diào)整權(quán)數(shù)。同時(shí),結(jié)合刀切法計(jì)算采用二重抽樣和不采用二重抽樣情況下估計(jì)的標(biāo)準(zhǔn)差,證明基于二重抽樣權(quán)數(shù)調(diào)整方法的實(shí)用性和有效性。
在實(shí)際抽樣調(diào)查中,尤其是在面對一些復(fù)雜的、人際性的社會(huì)問題研究時(shí),電話調(diào)查、面訪等在當(dāng)下仍是不可或缺的調(diào)查方式。針對無人接聽、拒訪、拒接、手機(jī)關(guān)機(jī)和訪問中斷五類無回答情況,本文采用二重抽樣的方法進(jìn)行補(bǔ)救。
二重抽樣是指在抽樣時(shí)分兩步抽取樣本,即先從總體中抽取一個(gè)較大的樣本,稱為第一重樣本,對其進(jìn)行調(diào)查以獲得總體的某些輔助信息,為下一步的抽樣估計(jì)提供條件,然后再進(jìn)行第二重抽樣。第二重抽樣調(diào)查是主調(diào)查,通常情況下第二重樣本是從第一重樣本中抽取的,即為第一重樣本的子樣本,但有時(shí)也可以從總體中獨(dú)立抽取。由于樣本是分兩次抽取的,因此該抽樣過程被稱為二重抽樣。
記S(1)為第一重樣本,被選中的樣本單元用下列隨機(jī)變量來表示:
記S(2)為第二重樣本,被選中的樣本單元用下列隨機(jī)變量表示:
第二重樣本單元被抽中的概率依賴于其是否在第一重樣本中,也可能依賴于在第二重樣本中收集到的輔助信息,這種依賴性用P(Di=1|Z)表示,Z表示向量(Z1,Z2,…,ZN),假設(shè)第一重樣本信息已知,則可以得到滿足Z的條件期望,進(jìn)而得到第二重樣本權(quán)重為:
由于《A 省滿意度調(diào)查》不僅想要得到全省關(guān)于環(huán)境滿意度的整體情況,還希望得到所有地級市(自治州)環(huán)境滿意度的情況,因此以地級市(自治州)為子總體進(jìn)行設(shè)計(jì),以保證每個(gè)地級市(自治州)內(nèi)都有樣本分布,樣本量根據(jù)各地級市(自治州)的人口規(guī)模進(jìn)行相應(yīng)調(diào)整。
以電話調(diào)查為例,二重抽樣處理無回答部分的具體方法如下:首先,在CATI系統(tǒng)中記錄無人接聽、拒訪、拒接、手機(jī)關(guān)機(jī)和訪問中斷的受訪者號碼;其次,在上述樣本中抽取子樣本重新進(jìn)行調(diào)查,由于這部分人群調(diào)查難度較高,因此在給定經(jīng)費(fèi)的條件下可采取獎(jiǎng)勵(lì)措施提高回答率;最后,將首次調(diào)查成功的樣本和二重抽樣的樣本合并進(jìn)行分析。
由于《A 省滿意度調(diào)查》的抽樣設(shè)計(jì)采用兩階段分層隨機(jī)尾號法配合二重抽樣,且電話調(diào)查中包括固定電話和移動(dòng)電話,因此抽樣中涉及三個(gè)抽樣框,分別是固定電話抽樣框、移動(dòng)電話抽樣框以及二重抽樣抽樣框。
抽樣設(shè)計(jì)中,樣本量n的確定與抽樣誤差、調(diào)查成本及所需估計(jì)的統(tǒng)計(jì)量有關(guān)。如何合理確定調(diào)查中各地級市(自治州)所需的目標(biāo)樣本量,并以較高的精度對總體的滿意度做出估計(jì)是本次抽樣設(shè)計(jì)的核心需求。
在簡單隨機(jī)抽樣情況下,各地級市(自治州)所需基礎(chǔ)樣本量n0和絕對誤差限度d存在一定的關(guān)系。設(shè)在置信度1-α下,樣本均值的絕對誤差限為d,則有P(|-|≤d)=1-α。用S2表示該地級市(自治州)的總體方差,則各地級市(自治州)在簡單隨機(jī)抽樣時(shí)目標(biāo)樣本量應(yīng)為:
在統(tǒng)計(jì)意義上,當(dāng)總體規(guī)模N達(dá)到100 萬以上時(shí),N的變化對n0不再具有明顯影響,根據(jù)以往滿意度調(diào)查數(shù)據(jù),在百分制問卷中,滿意度調(diào)查的總體方差約為0.3。由此,可計(jì)算得到以地級市(自治州)為總體的基礎(chǔ)樣本量n0與絕對誤差d的變化關(guān)系圖,如圖1所示。
圖1 絕對誤差d與各地級市(自治州)基礎(chǔ)樣本量n0變化圖
從圖1 可以看出,在簡單隨機(jī)抽樣情況下,絕對誤差從4%減小到3%,基礎(chǔ)樣本量增加559;而當(dāng)絕對誤差從3%減小到2%時(shí),基礎(chǔ)樣本量增加1595。不斷增加基礎(chǔ)樣本量,雖然能減小誤差值,但是變化越來越緩慢。若能保證基礎(chǔ)樣本量n0=1279,則絕對誤差可降低到3%,在此之前曲線的變化相對陡峭,在此之后曲線的變化相對平緩,此時(shí)的抽樣效果較好,抽樣成本也較低。
假定抽樣方法確定設(shè)計(jì)效應(yīng)deff=1.1。調(diào)整后各地級市(自治州)樣本量n1=n0×deff,計(jì)算可得n1=1407。本著方案實(shí)施的便利性原則,可取調(diào)整后各地級市(自治州)的樣本量為1400。如果省內(nèi)各地級市(自治州)人口規(guī)模相差較大,應(yīng)對人口規(guī)模大的地級市(自治州)適當(dāng)增加樣本量。
基于此,可將A 省各地級市(自治州)劃分為三大類:人口規(guī)模在500 萬及以上的為第一類,300 萬至500 萬人口的為第二類,人口規(guī)模小于300 萬的為第三類。
取三類地級市(自治州)的人口規(guī)模均值,分別約為900 萬、400 萬、200 萬,測定標(biāo)準(zhǔn)取自然對數(shù),經(jīng)計(jì)算三個(gè)類別的結(jié)果之比約為1.28:1.14:1。以此作為各類別地級市(自治州)樣本量的調(diào)整系數(shù),得到樣本量分別為1800、1600、1400。為了比較不同地級市(自治州)區(qū)(縣)層級上的滿意度差異,一方面要求樣本在地級市(自治州)內(nèi)有所分布,另一方面要求在每個(gè)區(qū)(縣)內(nèi)都有樣本遵循如下原則:
(1)地級市內(nèi)所有區(qū)(縣)全覆蓋。
(2)人口規(guī)模大的區(qū)(縣)多分,人口規(guī)模小的區(qū)(縣)少分。
若直接對各區(qū)(縣)按人口規(guī)模比例分配樣本,則會(huì)導(dǎo)致部分區(qū)(縣)之間樣本量差距過大,一些區(qū)(縣)可能因分得的樣本量過少而使樣本失去對區(qū)(縣)的代表性。考慮到區(qū)(縣)間人口規(guī)模差異程度較地級市(自治州)間差異程度小,為使樣本量的分配更加合理,采用國際上的慣用方法,對各區(qū)(縣)的人口規(guī)模做平方根運(yùn)算,按該比例來分配樣本量。以B市為例,采用人口規(guī)模比例分配法和人口規(guī)模平方根分配法的結(jié)果如表1所示,可見按人口規(guī)模平方根分配可有效縮小各區(qū)(縣)間樣本量的差距。
表1 B市各區(qū)(縣)樣本量分配結(jié)果比較
從表1 可以看出,由于第1 個(gè)區(qū)(縣)人口規(guī)模是第8個(gè)區(qū)(縣)人口規(guī)模的5.1 倍,采用人口規(guī)模平方根分配法,第1個(gè)區(qū)(縣)所分配到的樣本量將僅為第8個(gè)區(qū)(縣)所分配到的樣本量的2.3倍,這樣可減少大規(guī)模區(qū)(縣)樣本量,增加小規(guī)模區(qū)(縣)樣本量,有效縮小各區(qū)(縣)間樣本量的差距。
此外,為了在一定程度上更好地反映各區(qū)(縣)的情況,可規(guī)定各區(qū)(縣)的最低樣本量為100。按照人口規(guī)模平方根分配法分配的樣本量少于100的增加至100,反之則不變。
由于城鄉(xiāng)環(huán)境差異較大,為了能切實(shí)反映全省范圍內(nèi)滿意度的真實(shí)情況,保證樣本在城鄉(xiāng)分配上與實(shí)際情況一致,因此將各區(qū)(縣)的樣本量按城鄉(xiāng)結(jié)構(gòu)進(jìn)行配額。
根據(jù)《中國統(tǒng)計(jì)年鑒2016》可知,2007—2015 年,A 省城鎮(zhèn)化率持續(xù)穩(wěn)步提升,在2015 年已超50%??紤]到方案設(shè)計(jì)的合理性及未來5年的實(shí)施效果,同時(shí)與該省的城鄉(xiāng)比例保持一致,最終將6:4 作為全省的城鄉(xiāng)基礎(chǔ)配額比例。結(jié)合各區(qū)(縣)具體的城鎮(zhèn)化率,可進(jìn)一步將全省各區(qū)(縣)分為六類(分類標(biāo)準(zhǔn)如表2所示),并設(shè)定各類區(qū)(縣)的城鄉(xiāng)配額比例。經(jīng)測算,各區(qū)(縣)按該比例進(jìn)行城鄉(xiāng)配額可以保證全省樣本量的城鄉(xiāng)比約為6:4。
表2 各區(qū)(縣)城鄉(xiāng)配額比分類說明
在固定電話抽樣中,抽取得到的樣本平均年齡容易偏大。針對年齡段的設(shè)定,可參考全國人口的年齡總體分布①查閱《中國統(tǒng)計(jì)年鑒2016》。情況,設(shè)置18~39 歲、40~59 歲、60 歲及以上三個(gè)年齡段,這三個(gè)年齡段人群的配額比例分別為4:4:2。
本文采用二重抽樣方法對無回答可能導(dǎo)致的誤差進(jìn)行補(bǔ)救。這里設(shè)定二重抽樣樣本量為無回答樣本量的30%,在地級市(自治州)層面進(jìn)行實(shí)現(xiàn)。
設(shè)地級市(自治州)內(nèi)無回答樣本量為n2,則該地級市(自治州)二重抽樣的樣本量m=n2×30%,該樣本量m可在地級市(自治州)內(nèi)各區(qū)(縣)按便利原則分配,且保證地級市(自治州)二重樣本的實(shí)際完成量至少達(dá)到150。
由于抽樣的隨機(jī)性會(huì)導(dǎo)致抽取的樣本結(jié)構(gòu)與總體結(jié)構(gòu)不一致,而結(jié)構(gòu)不一致會(huì)導(dǎo)致推斷精度下降,因此需要對樣本權(quán)數(shù)進(jìn)行調(diào)整,使樣本結(jié)構(gòu)與總體結(jié)構(gòu)盡可能吻合。規(guī)模調(diào)整通過計(jì)算樣本單元的設(shè)計(jì)權(quán)數(shù)以及無回答調(diào)整得到,結(jié)構(gòu)調(diào)整通過對設(shè)計(jì)權(quán)數(shù)進(jìn)行事后分層實(shí)現(xiàn)。權(quán)數(shù)的使用可以提高估計(jì)效果,但由于調(diào)整后的權(quán)數(shù)若差異過大,會(huì)增大估計(jì)量的方差,因此權(quán)數(shù)的使用中還涉及權(quán)數(shù)控制問題。
用W0ij表示第i個(gè)區(qū)(縣)的第j個(gè)樣本的設(shè)計(jì)權(quán)數(shù),ni和Ni分別表示第i個(gè)區(qū)(縣)所分配到的樣本量和常住人口數(shù)量,則有。
采用二重抽樣對樣本中的無回答部分進(jìn)行補(bǔ)救,無回答層中抽出的樣本所代表的單元數(shù)目更大,需對其設(shè)計(jì)權(quán)數(shù)進(jìn)行調(diào)整。根據(jù)二重抽樣的樣本量設(shè)計(jì)方案,無回答調(diào)整系數(shù)的計(jì)算需要與整個(gè)地級市(自治州)層面相對應(yīng)。
設(shè)地級市(自治州)內(nèi)無回答樣本量為n2,二重抽樣實(shí)際完成量為h,則第i個(gè)區(qū)(縣)的第j個(gè)樣本設(shè)計(jì)權(quán)數(shù)的無回答調(diào)整系數(shù)為:
因此,第i個(gè)區(qū)(縣)的第j個(gè)樣本的無回答調(diào)整設(shè)計(jì)權(quán)數(shù)為:
結(jié)構(gòu)調(diào)整系數(shù)計(jì)算方法如下。以B市為例,假設(shè)調(diào)查數(shù)據(jù)按城鄉(xiāng)和年齡兩個(gè)變量分類的樣本分布和總體聯(lián)合分布如表3所示。
表3 B市基于城鄉(xiāng)和年齡的樣本分布 (單位:%)
以表3 中18~39 歲城鎮(zhèn)單樣本的15%為例,該值表示所抽取的樣本集合中18~39 歲城鎮(zhèn)樣本的權(quán)數(shù)之和占全部樣本權(quán)數(shù)之和的15%;對應(yīng)單元格總體的值為24%,表示B 市實(shí)際總體中18~39 歲城鎮(zhèn)居民占比為24%。由此可以看出,調(diào)查的樣本分布與總體分布有所差別。與總體相比,樣本中18~39歲人口偏少,60歲及以上人口偏多,城鎮(zhèn)人口偏少,農(nóng)村人口偏多。
本文采用迭代法對樣本單元權(quán)數(shù)進(jìn)行結(jié)構(gòu)調(diào)整。兩次迭代之后的調(diào)整結(jié)構(gòu)與總體結(jié)構(gòu)一致,得到基于城鄉(xiāng)和年齡的最終結(jié)構(gòu)調(diào)整系數(shù)r2ij,取值如表4所示。
表4 B市基于城鄉(xiāng)和年齡樣本權(quán)數(shù)的系數(shù)調(diào)整結(jié)果
若兩次迭代后得到的調(diào)整結(jié)構(gòu)與總體結(jié)構(gòu)仍然不同,則可按照上述方法繼續(xù)調(diào)整,直至行與列的分布收斂于總體分布,得到最終的結(jié)構(gòu)調(diào)整系數(shù)。由此,第i個(gè)區(qū)(縣)的第j個(gè)樣本的最終權(quán)數(shù)為:
經(jīng)權(quán)數(shù)的無回答調(diào)整和結(jié)構(gòu)調(diào)整,調(diào)查樣本在規(guī)模和結(jié)構(gòu)上能夠還原總體。
為防止樣本單元權(quán)數(shù)差異過大可能帶來的估計(jì)量方差增大,有一些對權(quán)數(shù)進(jìn)行控制的方法。本文使用相對簡單的權(quán)數(shù)截取法對權(quán)數(shù)取值加以控制,具體如下:
當(dāng)某個(gè)樣本權(quán)數(shù)取值小于W的0.1分位點(diǎn)時(shí),該權(quán)數(shù)取0.1分位點(diǎn)上的權(quán)數(shù);當(dāng)取值大于W的0.9 分位點(diǎn)時(shí),取0.9 分位點(diǎn)上的權(quán)數(shù);當(dāng)處于二者中間時(shí),權(quán)數(shù)取其本身。
但在實(shí)際調(diào)查過程中,由于時(shí)間、成本等因素未采用二重抽樣方式處理無回答部分,而是采取直接刪除,然后重新抽取樣本單元進(jìn)行覆蓋的方法。這種方法雖然精度上有所下降,但是易于操作。那么第i個(gè)區(qū)(縣)的第j個(gè)樣本的最終權(quán)數(shù)為:Wij=W0ij×r2ij。其中,W0ij為設(shè)計(jì)權(quán)數(shù),其權(quán)數(shù)結(jié)構(gòu)調(diào)整系數(shù)r2ij的計(jì)算方法與前面包含二重抽樣時(shí)的權(quán)數(shù)調(diào)整系數(shù)r2ij的計(jì)算方法相同。
為方便之后的問題分析,對部分相關(guān)符號進(jìn)行說明。
假設(shè)整個(gè)地級市(自治州)內(nèi)有I個(gè)區(qū)(縣),在第i個(gè)區(qū)(縣)內(nèi)(i=1,…,I),抽取ni個(gè)樣本,將第一次調(diào)查回答單元組成的集合記為S1i,二重抽樣回答單元組成的集合記為S2i,兩次調(diào)查全部的回答單元組成的集合記為Si={S1i,S2i} 。
地級市(自治州)第一次調(diào)查回答單元組成的集合S1r={S11,S12,…,S1I},二重抽樣回答單元組成的集合S2r={S21,S22,…,S2I},則整個(gè)地級市(自治州)內(nèi)所有回答單元組成的集合可表示為:Sr={S1,S2,…,SI}。令K1r=|S1r|,K2r=|S2r|,Kr=|Sr|,即分別為集合S1r、S2r、Sr的單元個(gè)數(shù)。
Wij:第i個(gè)區(qū)(縣)的第j個(gè)樣本單元的最終權(quán)數(shù)。
yij:第i個(gè)區(qū)(縣)的第j個(gè)樣本單元的目標(biāo)量得分。
N0:A省常住人口數(shù)量。
Nk:第k個(gè)地級市(自治州)的常住人口數(shù)量(k=1,2,…,21)。
2.9.1 采用二重抽樣處理無回答部分
先從總體N中隨機(jī)抽取n個(gè)樣本單元,第一次調(diào)查有n1個(gè)回答單元和n2個(gè)無回答單元,則n=n1+n2;再從n2個(gè)無回答單元中隨機(jī)抽取1 個(gè)容量為m的子樣本進(jìn)行第二次調(diào)查。
根據(jù)抽樣估計(jì)原理,目標(biāo)變量經(jīng)過兩個(gè)隨機(jī)過程后,方差變?yōu)椋?/p>
(3)地級市(自治州)滿意度比例P的估計(jì)
令p1表示地級市(自治州)第一次調(diào)查中回答單元的樣本滿意度比例,p2表示二重抽樣的樣本滿意度比例,則有p1=。其中,C是地級市(自治州)內(nèi)具有某種特征的單元集合。地級市(自治州)滿意度比例P的估計(jì)可以表示為:
全省21個(gè)地級市(自治州)均采用上述方法得到相應(yīng)的估計(jì)量,以各地級市(自治州)的目標(biāo)量估計(jì)結(jié)果為基礎(chǔ),可以得到全省的目標(biāo)量估計(jì)結(jié)果。設(shè)第k(k=1,2,…,21)個(gè)地級市(自治州)的人口規(guī)模為Nk,其滿意度均值的估計(jì)為,滿意度方差的估計(jì)為,滿意度比例的估計(jì)為。
(4)全省滿意度均值的估計(jì)
(5)全省滿意度方差的估計(jì)
(6)全省滿意度比例Pz的估計(jì)
2.9.2 未處理無回答部分
在實(shí)際調(diào)查中,由于時(shí)間和成本的限制,以及各地級市(自治州)的執(zhí)行情況,因此未進(jìn)行二重抽樣,此時(shí)的真實(shí)情況為:Sr為僅包含初始調(diào)查時(shí)所有回答單元的集合;Wij為不進(jìn)行二重抽樣時(shí)的最終權(quán)數(shù),即Wij=W0ij×r2ij。其中,W0ij為第i個(gè)區(qū)(縣)的設(shè)計(jì)權(quán)數(shù);r2ij為權(quán)數(shù)結(jié)構(gòu)調(diào)整系數(shù),其計(jì)算方法與前面包含二重抽樣時(shí)的權(quán)數(shù)調(diào)整系數(shù)r2ij的計(jì)算方法相同。
(1)地級市(自治州)滿意度均值的估計(jì)
(2)地級市(自治州)均值估計(jì)的方差估計(jì)
其中,f=為抽樣比。
(3)地級市(自治州)滿意度方差S2的估計(jì)
(4)地級市(自治州)滿意度比例P的估計(jì)
(5)全省滿意度均值的估計(jì)
(6)全省均值估計(jì)的方差估計(jì)
(7)全省滿意度方差的估計(jì)
(8)全省滿意度比例Pz的估計(jì)
《A省滿意度調(diào)查》采用電話調(diào)查的方式,覆蓋了全省所有地級市(自治州)所轄的183 個(gè)區(qū)(縣),共收集到33760 份有效問卷。其中,目標(biāo)估計(jì)量的計(jì)算包括全省、各地級市(自治州)以及各區(qū)(縣)目標(biāo)估計(jì)量的均值和標(biāo)準(zhǔn)差。具體的計(jì)算過程如下。
在《A 省滿意度調(diào)查》中,由于保密原因,因此只在各地級市(自治州)層面上和各區(qū)(縣)層面上,對目標(biāo)估計(jì)量進(jìn)行對比分析。在人口規(guī)模已知的條件下,本文采用標(biāo)準(zhǔn)化權(quán)數(shù)調(diào)整的方式,對各地級市(自治州)及全省的權(quán)數(shù)進(jìn)行調(diào)整,這樣做的目的在于使樣本還原總體,即樣本單元的權(quán)數(shù)之和等于總體規(guī)模。
無論是各地級市(自治州)的權(quán)數(shù)調(diào)整,還是全省的權(quán)數(shù)調(diào)整,都包括了兩個(gè)步驟。以各地級市(自治州)為例:
第一步,將各區(qū)(縣)的人口規(guī)模除以其相應(yīng)的樣本量,即可得到各區(qū)(縣)的設(shè)計(jì)權(quán)數(shù)。
第二步,將第一步得到的結(jié)果乘以其對應(yīng)地級市(自治州)的樣本總量除以人口規(guī)模的值,即乘以其對應(yīng)地級市(自治州)的抽樣比例。
用設(shè)計(jì)權(quán)數(shù)乘以抽樣比例,就是權(quán)數(shù)標(biāo)準(zhǔn)化的核心。之所以要對權(quán)數(shù)進(jìn)行標(biāo)準(zhǔn)化,是因?yàn)樵诤罄m(xù)的數(shù)據(jù)處理過程中,需要用現(xiàn)有的樣本總體代替原有的抽樣框,而標(biāo)準(zhǔn)化的過程就是將樣本還原成總體的一個(gè)過渡。
利用前面得到的權(quán)數(shù),結(jié)合Jackknife(刀切法)來分別計(jì)算全省、各地級市(自治州)以及各區(qū)(縣)的均值和估計(jì)量的標(biāo)準(zhǔn)差。
本次采用的是棄1-刀切法,其核心思想是先每次去掉一個(gè)值,再計(jì)算剩余樣本的標(biāo)準(zhǔn)差,重復(fù)n(n為對應(yīng)的樣本量)次以后,可以得到n組不同的樣本,最后的標(biāo)準(zhǔn)差等于各組樣本標(biāo)準(zhǔn)差的均值,而均值是加權(quán)均值。
通過以上方法計(jì)算得到的均值和標(biāo)準(zhǔn)差精度較高,全省滿意度的均值為83.50%,總標(biāo)準(zhǔn)差為0.384%,相對誤差約為0.90%。各地級市(自治州)滿意度的均值都在75%以上,標(biāo)準(zhǔn)差基本上在0.01 附近波動(dòng),相對誤差在3.10%以內(nèi),具體數(shù)值如表5所示。
表5 A省各地級市(自治州)滿意度的均值和標(biāo)準(zhǔn)差對比結(jié)果
計(jì)算結(jié)果顯示,加權(quán)后部分地級市(自治州)滿意度的均值有所降低,但也有個(gè)別地級市(自治州)滿意度的均值是增加的??偟膩碚f,減少的比增加的多,所以加權(quán)以后,在全省層面上,滿意度的均值是降低的。而正因?yàn)榧訖?quán)以后整體的離散性變大了,所以各地級市(自治州)的標(biāo)準(zhǔn)差都呈現(xiàn)上升的趨勢。
此外,根據(jù)本次調(diào)查所收集到的原始數(shù)據(jù)計(jì)算得到滿意度的方差約為0.2,這與原先方案中設(shè)計(jì)的方差0.3 差別不大,與絕對誤差3%吻合,說明抽樣數(shù)據(jù)質(zhì)量較高,計(jì)算方法優(yōu)良。
本文探討了分層抽樣技術(shù)的重要性和廣泛應(yīng)用,結(jié)合《A 省滿意度調(diào)查》的背景要求也提出了利用二重抽樣的方式來解決電話調(diào)查中的缺失數(shù)據(jù)問題,結(jié)合實(shí)例對每個(gè)層中的樣本量分配、權(quán)數(shù)計(jì)算和控制、樣本的計(jì)算進(jìn)行了詳細(xì)的分析,并比較了采用二重抽樣和不采用二重抽樣情況下權(quán)數(shù)的調(diào)整方法,并推導(dǎo)出了實(shí)際目標(biāo)估計(jì)量的計(jì)算公式。在地級市(自治區(qū))層面上,借助輔助變量的信息,利用迭代法和事后分層相結(jié)合的方法對樣本權(quán)數(shù)進(jìn)行調(diào)整,使樣本結(jié)構(gòu)和總體結(jié)構(gòu)一致。最后,結(jié)合具體的調(diào)查數(shù)據(jù)證實(shí)了所提方法的有效性,在一定程度上提高了估計(jì)的精度。