基于單系統(tǒng)估計量的人口普查凈覆蓋誤差估計

2023-01-05 12:01胡桂華

廊坊師范學(xué)院學(xué)報(自然科學(xué)版) 2022年4期

文婷，吳笛，胡桂華

（重慶工商大學(xué)，重慶 400067）

0 引言

人口普查的目標(biāo)是不重不漏地登記普查目標(biāo)內(nèi)的每一個人。然而，由于各種主觀或客觀原因，使得普查結(jié)果總會有誤差。在每次人口普查后，政府統(tǒng)計部門都要對普查數(shù)據(jù)的誤差進行評估，其中的核心評估指標(biāo)是凈覆蓋誤差。

凈覆蓋誤差定義為普查登記人口數(shù)與普查目標(biāo)真實人口數(shù)之差。由于普查登記人口數(shù)已知，所以凈覆蓋誤差估計的關(guān)鍵是尋求一個估計量去估計目標(biāo)真實人口數(shù)。單系統(tǒng)估計量、雙系統(tǒng)估計量和三系統(tǒng)估計量均可充當(dāng)這個估計量［1-3］。

雙系統(tǒng)估計量來源于捕獲-再捕獲模型，它把普查人口名單看作第一次捕獲的結(jié)果，把事后計數(shù)調(diào)查人口名單看作第二次捕獲的結(jié)果，捕獲-再捕獲模型給出了用兩次捕獲的個體數(shù)目以及同時出現(xiàn)在兩次捕獲中的個體數(shù)目估計總體中全部個體數(shù)目的計算公式［3］。它要求人口普查名單與事后計數(shù)調(diào)查人口名單相互獨立。然而，這一要求在實際中常常不能滿足，這時就會導(dǎo)致交互作用偏差，從而高估或低估目標(biāo)真實人口數(shù)［4］。三系統(tǒng)估計量建立在三次捕獲模型基礎(chǔ)上，依據(jù)普查人口名單、事后計數(shù)調(diào)查人口名單、行政記錄人口名單及這三份人口名單的人數(shù)及名單之間匹配的人數(shù)而構(gòu)造［5-6］。相比雙系統(tǒng)估計量，三系統(tǒng)估計量不要求這三份人口名單獨立，而且三系統(tǒng)估計量利用了兩個輔助信息，其估計精度會高于雙系統(tǒng)估計量。然而由于三系統(tǒng)估計量在理論上和計算上都比較復(fù)雜，目前還不具備使用三系統(tǒng)估計量估計人口普查凈覆蓋誤差的能力。

單系統(tǒng)估計量依據(jù)樣本普查小區(qū)的事后計數(shù)調(diào)查人口名單而構(gòu)造。相對于雙系統(tǒng)估計量和三系統(tǒng)估計量，單系統(tǒng)估計量在計算上更為簡便，其缺陷是沒有使用輔助信息。本文研究單系統(tǒng)估計量在人口普查凈覆蓋誤差估計中的應(yīng)用。

1 單系統(tǒng)估計量及其抽樣方差估計量

單系統(tǒng)估計量依據(jù)事后計數(shù)調(diào)查樣本數(shù)據(jù)構(gòu)造。本文采用以普查小區(qū)為抽樣單位的分層二重抽樣［7-9］方案。在第一重抽樣中，按照地理位置，將所有普查小區(qū)劃分在城市層和鄉(xiāng)村層。使用H表示第一重抽樣層的總層數(shù)，h表示任意一層，Nh表示h層的普查小區(qū)總數(shù)。在各個h層抽取第一重樣本，樣本量記作nh。在第二重抽樣中，將第一重樣本普查小區(qū)按照普查小區(qū)規(guī)模再次分層，共分為G層，g表示其中任意一層，Mhg表示層h中第一重樣本普查小區(qū)進入層g的數(shù)目。每個g層仍然以普查小區(qū)為抽樣單位抽取第二重樣本，樣本規(guī)模記作mhg。

最終進入第二重樣本的第i樣本普查小區(qū)的抽樣權(quán)數(shù)αhgi為：

這里用yhgi表示在層hg中第i個樣本普查小區(qū)某調(diào)查變量y的總?cè)藬?shù)，目標(biāo)真實人口數(shù)Y的單系統(tǒng)估計量為：

在構(gòu)造了單系統(tǒng)估計量之后，還要從抽樣方差的角度來判斷其估計精度。雖然單系統(tǒng)估計量是較為簡單的估計量，但抽樣理論指出，如果采用的抽樣方法是復(fù)雜的，其估計量也會變得復(fù)雜。對于復(fù)雜估計量，其抽樣方差通常采用分層刀切法、泰勒線性方差或者其他方法近似計算［10-13］。

這里使用分層刀切法計算單系統(tǒng)估計量的抽樣方差。刀切法的關(guān)鍵在于復(fù)制權(quán)數(shù)和復(fù)制估計量的計算。復(fù)制權(quán)數(shù)是指在輪流刀切第一重樣本普查小區(qū)后，重新計算進入第二重樣本普查小區(qū)的抽樣權(quán)數(shù)，記作和k表示刀切層s的樣本普查小區(qū)k。

計算復(fù)制權(quán)數(shù)時可能出現(xiàn)的五種情況。①如果刀切的第一重樣本普查小區(qū)k就是第二重樣本普查小區(qū)i，此時樣本普查小區(qū)i的抽樣權(quán)數(shù)為0。②如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)不在同一層，即s≠h，此時樣本普查小區(qū)i的抽樣權(quán)數(shù)不變，為αhgi。③如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)i在同一個h層，但k沒有進入第二重樣本，也不在同一個g層，此時樣本普查小區(qū)i的抽樣權(quán)數(shù)變?yōu)閇Nh/(nh-1)](Mhg/mhg)。④如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)i在同一個h層，也在同一個g層，但k沒有進入第二重樣本，此時樣本普查小區(qū)i的抽樣權(quán)數(shù)變?yōu)閇Nh/(nh-1)][(Mhg-1)/mhg]。⑤如果刀切的第一重樣本普查小區(qū)k與第二重樣本普查小區(qū)i在同一個h層，也在同一個g層，k進入了第二重樣本，此時樣本普查小區(qū)i的抽樣權(quán)數(shù)變?yōu)閇Nh/(nh-1)][(Mhg-1)/(mhg-1)]。

根據(jù)上述論述，被刀切的第一重樣本普查小區(qū)k與剩下第二重樣本普查小區(qū)i之間存在五種關(guān)系：

其中θhg為進入第二重樣本普查小區(qū)的集合。此時被刀切后的單系統(tǒng)復(fù)制估計量為：

則單系統(tǒng)估計量的分層刀切抽樣方差估計量為：

基于單系統(tǒng)估計量的人口普查凈覆蓋誤差為Y?-C，C為普查登記人口數(shù)。

2 雙系統(tǒng)估計量及其抽樣方差估計量

為比較單系統(tǒng)估計量和雙系統(tǒng)估計量在人口普查凈覆蓋誤差上的估計精度，這里引入普查與事后計數(shù)調(diào)查獨立情況下的雙系統(tǒng)估計量［14-16］：

其中yhgi,v為層hg中第i個樣本普查小區(qū)在等概率人口層v的人口數(shù)。

雙系統(tǒng)估計量的抽樣方差估計量為：

3 模擬分析

模擬的目標(biāo)是使用單系統(tǒng)估計量及其方差估計量計算實際人口數(shù)及其抽樣誤差估計值，并與雙系統(tǒng)估計量進行抽樣估計精度比較。假設(shè)重慶市某城鄉(xiāng)結(jié)合社區(qū)共有86個普查小區(qū)。按城鄉(xiāng)分為城市層h1和鄉(xiāng)村層h2，其中城市層有54個普查小區(qū)，鄉(xiāng)村層有32個普查小區(qū)，分別記作N1=54，N2=32。從層h1中隨機抽取8個普查小區(qū)，從層h2中隨機抽取5個普查小區(qū)，記作n1=8，n2=5。所抽取的這13個普查小區(qū)稱之為第一重樣本普查小區(qū)。對抽取的第一重樣本根據(jù)規(guī)模大小再次分層，分別記為g1,g2，其中規(guī)模大層有普查小區(qū)7個，規(guī)模小層有普查小區(qū)6個。從層g1中抽取6個普查小區(qū)，從層g2中抽取4個普查小區(qū)。所抽取的10個普查小區(qū)稱之為第二重樣本普查小區(qū)。樣本形成及抽樣權(quán)數(shù)見表1。

表1 樣本形成、樣本普查小區(qū)的抽樣權(quán)數(shù)

對于進入第二重樣本的普查小區(qū)，采取問卷調(diào)查的方式獲得這10個樣本普查小區(qū)的事后計數(shù)調(diào)查人口名單。將這份名單與人口普查名單進行比對，得到各層未加權(quán)的事后計數(shù)調(diào)查登記人口數(shù)和普查登記人口數(shù)，同時登記在這兩份名單上的人口數(shù)如表2-表4。

表2 樣本普查小區(qū)各層的未加權(quán)事后計數(shù)調(diào)查人口數(shù)（N2v）單位：人

表4 樣本小區(qū)各層的未加權(quán)匹配登記人口數(shù)（Mv）單位：人

表3 樣本普查小區(qū)各層的未加權(quán)普查登記人口數(shù)（N1v）單位：人

根據(jù)式（1）、式（2）、式（6）、式（7）和表2-表4，可分別計算出基于單系統(tǒng)估計量和雙系統(tǒng)估計量的總體真實人口數(shù)。根據(jù)式（3）、式（4）、式（9）可計算出復(fù)制權(quán)數(shù)，單系統(tǒng)復(fù)制估計值和雙系統(tǒng)復(fù)制估計值，根據(jù)式（5）、式（8）和上述計算結(jié)果可計算其抽樣方差和人口普查凈覆蓋誤差，其結(jié)果見表5。

表5 各等概率人口層及總體真實人口數(shù)、抽樣方差及其凈覆蓋誤差單位：人

從表5可以看出：（1）使用單系統(tǒng)估計量估計的總體實際人口數(shù)的抽樣標(biāo)準(zhǔn)誤差為274人，而使用雙系統(tǒng)估計量總體實際人口數(shù)的的抽樣標(biāo)準(zhǔn)誤差為285人，這說明在抽樣估計精度方面，單系統(tǒng)估計量優(yōu)于雙系統(tǒng)估計量；（2）如果每個普查小區(qū)平均住戶250人，該社區(qū)共有86個普查小區(qū)，則該社區(qū)人數(shù)為21500人，若將這個人數(shù)當(dāng)作普查登記人口數(shù)，單系統(tǒng)估計量估計的總體真實人口數(shù)為21591人，雙系統(tǒng)估計量估計的總體真實人口數(shù)為21812人，則可計算出基于單系統(tǒng)估計量的人口普查凈覆蓋誤差為91人，凈誤差率為0.4%，而基于雙系統(tǒng)估計量的人口普查凈覆蓋誤差為312人，凈誤差率為1.43%，這表明交互作用偏差使得雙系統(tǒng)估計量高于實際人口數(shù)，人口普查凈覆蓋誤差較高。高估的原因在于，在普查中登記過的人，認為已經(jīng)參與了普查，沒有必要再參加事后計數(shù)調(diào)查，這導(dǎo)致了這兩項調(diào)查的匹配人口數(shù)少，而匹配人口數(shù)是雙系統(tǒng)估計量的分母，從而使得雙系統(tǒng)估計量高于總體實際人口數(shù)。

4 結(jié)論

第一，事后計數(shù)調(diào)查樣本既可以采取分層抽樣抽取，也可以采取二重抽樣抽取。相較于分層抽樣，分層二重抽樣的樣本代表性大，總體真實人口數(shù)的估計精度更高。

第二，如果不存在交互作用偏差，雙系統(tǒng)估計量的抽樣估計精度應(yīng)該高于單系統(tǒng)估計量。如果存在交互作用偏差，雙系統(tǒng)估計量中普查人口名單這一輔助信息的作用將會降低，單系統(tǒng)估計量可能優(yōu)于雙系統(tǒng)估計量。建議政府統(tǒng)計部門在決定使用單系統(tǒng)估計量還是雙系統(tǒng)估計量之前，要采用恰當(dāng)?shù)姆椒ㄅ袛嗥詹榕c事后計數(shù)調(diào)查是否獨立，只有在這兩項調(diào)查獨立的情況下，使用雙系統(tǒng)估計量才是合適的選擇。