文 婷,吳 笛,胡桂華
(重慶工商大學(xué),重慶 400067)
人口普查的目標(biāo)是不重不漏地登記普查目標(biāo)內(nèi)的每一個人。然而,由于各種主觀或客觀原因,使得普查結(jié)果總會有誤差。在每次人口普查后,政府統(tǒng)計部門都要對普查數(shù)據(jù)的誤差進行評估,其中的核心評估指標(biāo)是凈覆蓋誤差。
凈覆蓋誤差定義為普查登記人口數(shù)與普查目標(biāo)真實人口數(shù)之差。由于普查登記人口數(shù)已知,所以凈覆蓋誤差估計的關(guān)鍵是尋求一個估計量去估計目標(biāo)真實人口數(shù)。單系統(tǒng)估計量、雙系統(tǒng)估計量和三系統(tǒng)估計量均可充當(dāng)這個估計量[1-3]。
雙系統(tǒng)估計量來源于捕獲-再捕獲模型,它把普查人口名單看作第一次捕獲的結(jié)果,把事后計數(shù)調(diào)查人口名單看作第二次捕獲的結(jié)果,捕獲-再捕獲模型給出了用兩次捕獲的個體數(shù)目以及同時出現(xiàn)在兩次捕獲中的個體數(shù)目估計總體中全部個體數(shù)目的計算公式[3]。它要求人口普查名單與事后計數(shù)調(diào)查人口名單相互獨立。然而,這一要求在實際中常常不能滿足,這時就會導(dǎo)致交互作用偏差,從而高估或低估目標(biāo)真實人口數(shù)[4]。三系統(tǒng)估計量建立在三次捕獲模型基礎(chǔ)上,依據(jù)普查人口名單、事后計數(shù)調(diào)查人口名單、行政記錄人口名單及這三份人口名單的人數(shù)及名單之間匹配的人數(shù)而構(gòu)造[5-6]。相比雙系統(tǒng)估計量,三系統(tǒng)估計量不要求這三份人口名單獨立,而且三系統(tǒng)估計量利用了兩個輔助信息,其估計精度會高于雙系統(tǒng)估計量。然而由于三系統(tǒng)估計量在理論上和計算上都比較復(fù)雜,目前還不具備使用三系統(tǒng)估計量估計人口普查凈覆蓋誤差的能力。
單系統(tǒng)估計量依據(jù)樣本普查小區(qū)的事后計數(shù)調(diào)查人口名單而構(gòu)造。相對于雙系統(tǒng)估計量和三系統(tǒng)估計量,單系統(tǒng)估計量在計算上更為簡便,其缺陷是沒有使用輔助信息。本文研究單系統(tǒng)估計量在人口普查凈覆蓋誤差估計中的應(yīng)用。
單系統(tǒng)估計量依據(jù)事后計數(shù)調(diào)查樣本數(shù)據(jù)構(gòu)造。本文采用以普查小區(qū)為抽樣單位的分層二重抽樣[7-9]方案。在第一重抽樣中,按照地理位置,將所有普查小區(qū)劃分在城市層和鄉(xiāng)村層。使用H表示第一重抽樣層的總層數(shù),h表示任意一層,Nh表示h層的普查小區(qū)總數(shù)。在各個h層抽取第一重樣本,樣本量記作nh。在第二重抽樣中,將第一重樣本普查小區(qū)按照普查小區(qū)規(guī)模再次分層,共分為G層,g表示其中任意一層,Mhg表示層h中第一重樣本普查小區(qū)進入層g的數(shù)目。每個g層仍然以普查小區(qū)為抽樣單位抽取第二重樣本,樣本規(guī)模記作mhg。
最終進入第二重樣本的第i樣本普查小區(qū)的抽樣權(quán)數(shù)αhgi為:
這里用yhgi表示在層hg中第i個樣本普查小區(qū)某調(diào)查變量y的總?cè)藬?shù),目標(biāo)真實人口數(shù)Y的單系統(tǒng)估計量為:
在構(gòu)造了單系統(tǒng)估計量之后,還要從抽樣方差的角度來判斷其估計精度。雖然單系統(tǒng)估計量是較為簡單的估計量,但抽樣理論指出,如果采用的抽樣方法是復(fù)雜的,其估計量也會變得復(fù)雜。對于復(fù)雜估計量,其抽樣方差通常采用分層刀切法、泰勒線性方差或者其他方法近似計算[10-13]。
這里使用分層刀切法計算單系統(tǒng)估計量的抽樣方差。刀切法的關(guān)鍵在于復(fù)制權(quán)數(shù)和復(fù)制估計量的計算。復(fù)制權(quán)數(shù)是指在輪流刀切第一重樣本普查小區(qū)后,重新計算進入第二重樣本普查小區(qū)的抽樣權(quán)數(shù),記作和k表示刀切層s的樣本普查小區(qū)k。
計算復(fù)制權(quán)數(shù)時可能出現(xiàn)的五種情況。①如果刀切的第一重樣本普查小區(qū)k就是第二重樣本普查小區(qū)i,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)為0。②如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)不在同一層,即s≠h,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)不變,為αhgi。③如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)i在同一個h層,但k沒有進入第二重樣本,也不在同一個g層,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)變?yōu)閇Nh/(nh-1)](Mhg/mhg)。④如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)i在同一個h層,也在同一個g層,但k沒有進入第二重樣本,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)變?yōu)閇Nh/(nh-1)][(Mhg-1)/mhg]。⑤如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)i在同一個h層,也在同一個g層,k進入了第二重樣本,此時樣本普查小區(qū)i的抽樣權(quán)數(shù)變?yōu)閇Nh/(nh-1)][(Mhg-1)/(mhg-1)]。
根據(jù)上述論述,被刀切的第一重樣本普查小區(qū)k與剩下第二重樣本普查小區(qū)i之間存在五種關(guān)系:
其中θhg為進入第二重樣本普查小區(qū)的集合。此時被刀切后的單系統(tǒng)復(fù)制估計量為:
則單系統(tǒng)估計量的分層刀切抽樣方差估計量為:
基于單系統(tǒng)估計量的人口普查凈覆蓋誤差為Y?-C,C為普查登記人口數(shù)。
為比較單系統(tǒng)估計量和雙系統(tǒng)估計量在人口普查凈覆蓋誤差上的估計精度,這里引入普查與事后計數(shù)調(diào)查獨立情況下的雙系統(tǒng)估計量[14-16]:
其中yhgi,v為層hg中第i個樣本普查小區(qū)在等概率人口層v的人口數(shù)。
雙系統(tǒng)估計量的抽樣方差估計量為:
模擬的目標(biāo)是使用單系統(tǒng)估計量及其方差估計量計算實際人口數(shù)及其抽樣誤差估計值,并與雙系統(tǒng)估計量進行抽樣估計精度比較。假設(shè)重慶市某城鄉(xiāng)結(jié)合社區(qū)共有86個普查小區(qū)。按城鄉(xiāng)分為城市層h1和鄉(xiāng)村層h2,其中城市層有54個普查小區(qū),鄉(xiāng)村層有32個普查小區(qū),分別記作N1=54,N2=32。從層h1中隨機抽取8個普查小區(qū),從層h2中隨機抽取5個普查小區(qū),記作n1=8,n2=5。所抽取的這13個普查小區(qū)稱之為第一重樣本普查小區(qū)。對抽取的第一重樣本根據(jù)規(guī)模大小再次分層,分別記為g1,g2,其中規(guī)模大層有普查小區(qū)7個,規(guī)模小層有普查小區(qū)6個。從層g1中抽取6個普查小區(qū),從層g2中抽取4個普查小區(qū)。所抽取的10個普查小區(qū)稱之為第二重樣本普查小區(qū)。樣本形成及抽樣權(quán)數(shù)見表1。
表1 樣本形成、樣本普查小區(qū)的抽樣權(quán)數(shù)
對于進入第二重樣本的普查小區(qū),采取問卷調(diào)查的方式獲得這10個樣本普查小區(qū)的事后計數(shù)調(diào)查人口名單。將這份名單與人口普查名單進行比對,得到各層未加權(quán)的事后計數(shù)調(diào)查登記人口數(shù)和普查登記人口數(shù),同時登記在這兩份名單上的人口數(shù)如表2-表4。
表2 樣本普查小區(qū)各層的未加權(quán)事后計數(shù)調(diào)查人口數(shù)(N2v) 單位:人
表4 樣本小區(qū)各層的未加權(quán)匹配登記人口數(shù)(Mv)單位:人
表3 樣本普查小區(qū)各層的未加權(quán)普查登記人口數(shù)(N1v)單位:人
根據(jù)式(1)、式(2)、式(6)、式(7)和表2-表4,可分別計算出基于單系統(tǒng)估計量和雙系統(tǒng)估計量的總體真實人口數(shù)。根據(jù)式(3)、式(4)、式(9)可計算出復(fù)制權(quán)數(shù),單系統(tǒng)復(fù)制估計值和雙系統(tǒng)復(fù)制估計值,根據(jù)式(5)、式(8)和上述計算結(jié)果可計算其抽樣方差和人口普查凈覆蓋誤差,其結(jié)果見表5。
表5 各等概率人口層及總體真實人口數(shù)、抽樣方差及其凈覆蓋誤差 單位:人
從表5可以看出:(1)使用單系統(tǒng)估計量估計的總體實際人口數(shù)的抽樣標(biāo)準(zhǔn)誤差為274人,而使用雙系統(tǒng)估計量總體實際人口數(shù)的的抽樣標(biāo)準(zhǔn)誤差為285人,這說明在抽樣估計精度方面,單系統(tǒng)估計量優(yōu)于雙系統(tǒng)估計量;(2)如果每個普查小區(qū)平均住戶250人,該社區(qū)共有86個普查小區(qū),則該社區(qū)人數(shù)為21500人,若將這個人數(shù)當(dāng)作普查登記人口數(shù),單系統(tǒng)估計量估計的總體真實人口數(shù)為21591人,雙系統(tǒng)估計量估計的總體真實人口數(shù)為21812人,則可計算出基于單系統(tǒng)估計量的人口普查凈覆蓋誤差為91人,凈誤差率為0.4%,而基于雙系統(tǒng)估計量的人口普查凈覆蓋誤差為312人,凈誤差率為1.43%,這表明交互作用偏差使得雙系統(tǒng)估計量高于實際人口數(shù),人口普查凈覆蓋誤差較高。高估的原因在于,在普查中登記過的人,認為已經(jīng)參與了普查,沒有必要再參加事后計數(shù)調(diào)查,這導(dǎo)致了這兩項調(diào)查的匹配人口數(shù)少,而匹配人口數(shù)是雙系統(tǒng)估計量的分母,從而使得雙系統(tǒng)估計量高于總體實際人口數(shù)。
第一,事后計數(shù)調(diào)查樣本既可以采取分層抽樣抽取,也可以采取二重抽樣抽取。相較于分層抽樣,分層二重抽樣的樣本代表性大,總體真實人口數(shù)的估計精度更高。
第二,如果不存在交互作用偏差,雙系統(tǒng)估計量的抽樣估計精度應(yīng)該高于單系統(tǒng)估計量。如果存在交互作用偏差,雙系統(tǒng)估計量中普查人口名單這一輔助信息的作用將會降低,單系統(tǒng)估計量可能優(yōu)于雙系統(tǒng)估計量。建議政府統(tǒng)計部門在決定使用單系統(tǒng)估計量還是雙系統(tǒng)估計量之前,要采用恰當(dāng)?shù)姆椒ㄅ袛嗥詹榕c事后計數(shù)調(diào)查是否獨立,只有在這兩項調(diào)查獨立的情況下,使用雙系統(tǒng)估計量才是合適的選擇。
第三,在分層二重抽樣下,單系統(tǒng)估計量為復(fù)雜估計量,其抽樣方差需要采用分層刀切等方法近似計算。采取分層刀切抽樣方差估計量計算單系統(tǒng)估計量抽樣方差的關(guān)鍵是復(fù)制估計值的計算。而計算復(fù)制估計值需要先計算刀切第一重樣本普查小區(qū)后其余第二重樣本普查小區(qū)的抽樣權(quán)數(shù),也就是復(fù)制權(quán)數(shù)。當(dāng)前我國政府統(tǒng)計工作者尚未完全掌握分層刀切抽樣方差估計量,建議統(tǒng)計部門聘請該方面的專家對工作人員進行培訓(xùn),提高我國人口普查質(zhì)量評估水平。