胡桂華,劉譽(yù)環(huán),文 婷
(1.重慶工商大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400067;2.重慶工商大學(xué) 經(jīng)濟(jì)社會(huì)應(yīng)用統(tǒng)計(jì)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400067)
每個(gè)國家的人口普查都會(huì)不同程度地發(fā)生多報(bào)與漏報(bào),使普查登記人口數(shù)偏離實(shí)際人口數(shù)。多報(bào)包括重報(bào)與誤報(bào)。重報(bào)指普查員登記了普查目標(biāo)總體內(nèi)的人一次以上。誤報(bào)指普查員登記目標(biāo)總體外的人。目標(biāo)總體是指人口普查對(duì)象,即應(yīng)該在本次普查中進(jìn)行登記的那些人的集合。漏報(bào)指普查員未登記目標(biāo)總體內(nèi)應(yīng)該登記的人。一般來講,漏報(bào)比多報(bào)嚴(yán)重,但也有特例。本文只研究多報(bào),對(duì)漏報(bào)感興趣的讀者,請見胡桂華等作者發(fā)表的相關(guān)論文。
普查多報(bào)是一個(gè)客觀存在的問題,應(yīng)當(dāng)采取恰當(dāng)?shù)姆椒ㄟM(jìn)行研究。人口普查多報(bào)估計(jì)工作由各國政府統(tǒng)計(jì)部門采取抽樣調(diào)查方法實(shí)施。為使研究成果服務(wù)于政府統(tǒng)計(jì)部門需要,提高其普查多報(bào)估計(jì)水平,本文采取抽樣調(diào)查中的分層二重抽樣技術(shù)構(gòu)造普查多報(bào)率指標(biāo)體系中的各個(gè)指標(biāo)的估計(jì)量及其抽樣方差估計(jì)量。
本文研究目標(biāo)是,在深度剖析現(xiàn)行普查多報(bào)估計(jì)方法所存在的若干缺陷的基礎(chǔ)上,建立起一套全新的人口普查多報(bào)率指標(biāo)體系及其估計(jì)理論體系,以及設(shè)計(jì)普查誤報(bào)人口、重報(bào)人口識(shí)別及其計(jì)數(shù)程序。
本文學(xué)術(shù)價(jià)值體現(xiàn)在三個(gè)方面:其一,針對(duì)普查多報(bào)的具體情況,建立起與之相適應(yīng)的普查多報(bào)率指標(biāo)體系。該體系由重報(bào)人次率、重報(bào)案例率、誤報(bào)率和總多報(bào)率四個(gè)指標(biāo)構(gòu)成。對(duì)重報(bào),從兩個(gè)視角來考察:一是重報(bào)人次,二是重報(bào)案例人數(shù)。一個(gè)目標(biāo)總體的人在普查中登記了 3 次,那么重報(bào)人次為 2,重報(bào)案例人數(shù)為 1。其二,每個(gè)指標(biāo)的估計(jì)量使用線性估計(jì)量和比率估計(jì)量構(gòu)建。在分層二重抽樣下,各個(gè)指標(biāo)估計(jì)量構(gòu)成元素的估計(jì)量使用雙重?cái)U(kuò)張估計(jì)量構(gòu)造。其三,采用分層刀切抽樣方差估計(jì)量近似計(jì)算各個(gè)多報(bào)率估計(jì)量的抽樣方差、偏差和均方誤差。
本文應(yīng)用價(jià)值也體現(xiàn)在三個(gè)方面:一是對(duì)如何識(shí)別普查重報(bào)人口和誤報(bào)人口,以及構(gòu)建普查多報(bào)率指標(biāo)體系及其估計(jì)量提出了具體操作方法。這對(duì)政府統(tǒng)計(jì)部門制定普查多報(bào)估計(jì)方案具有一定的參考價(jià)值。二是有望應(yīng)用于我國2030年及以后人口普查多報(bào)估計(jì),提高其估計(jì)精度。三是可拓展到其他相關(guān)領(lǐng)域。例如,估計(jì)農(nóng)業(yè)普查和經(jīng)濟(jì)普查的多報(bào)率、戶籍登記系統(tǒng)的多報(bào)率,等等。
自1982年到2020年,我國采用質(zhì)量評(píng)估抽樣調(diào)查估計(jì)重報(bào)人次率,從未估計(jì)重報(bào)案例率和誤報(bào)率。這與未在普查表中設(shè)置項(xiàng)目“出生或死亡年月日時(shí)點(diǎn)”有關(guān)。2021年5月11日發(fā)布的2020年人口普查的凈漏報(bào)率為0.05%。凈漏報(bào)率不是多報(bào)率,是漏報(bào)率與多報(bào)率之差。我國只對(duì)外發(fā)布凈漏報(bào)率,所估計(jì)的漏報(bào)率和多報(bào)率作為內(nèi)部參考使用。
從1950年起,美國開始正式的人口普查質(zhì)量評(píng)估。美國普查局對(duì)外發(fā)布的2010年全國總多報(bào)人口數(shù)為10041千人,總多報(bào)率為3.339507%。其中,重報(bào)人次為8521千人,重報(bào)人次率為2.833693%;誤報(bào)人數(shù)1520千人,誤報(bào)率為0.505482%。
現(xiàn)在,世界各國都在人口普查質(zhì)量評(píng)估中估計(jì)普查多報(bào)。然而,各國的做法尚有若干缺陷亟待改進(jìn)。主要存在以下四個(gè)方面的問題。
第一,尚未構(gòu)建完整的人口普查多報(bào)率指標(biāo)體系。人口普查多報(bào)率指標(biāo)體系應(yīng)該包括四個(gè)指標(biāo):①重報(bào)人次率;②重報(bào)案例率;③誤報(bào)率;④總多報(bào)率。然而所有國家到目前為止,都未估計(jì)全部普查多報(bào)率指標(biāo)。南非和澳大利亞等國家只估計(jì)總多報(bào)率,加拿大等國家只估計(jì)重報(bào)人次率。除美國等少數(shù)國家外,其他國家都未估計(jì)誤報(bào)率。至于重報(bào)案例率,則所有國家都未估計(jì)。
第二,對(duì)普查多報(bào)的界定不盡合理。聯(lián)合國統(tǒng)計(jì)司在其撰寫的《人口普查質(zhì)量評(píng)估手冊》中,把地址登記錯(cuò)誤當(dāng)作普查多報(bào)。雖然地址登記錯(cuò)誤是一種錯(cuò)誤,但如果相應(yīng)于這個(gè)登記的人屬于普查目標(biāo)總體,并且在普查中只登記一次,就應(yīng)該認(rèn)定這個(gè)登記不是多報(bào)。將地址登記錯(cuò)誤當(dāng)作普查多報(bào),不符合普查多報(bào)的本質(zhì)特征,虛增了普查多報(bào)人數(shù)。
第三,對(duì)重報(bào)考查對(duì)象未作明確規(guī)定。審查人口普查登記結(jié)果,要把目標(biāo)總體內(nèi)的登記和目標(biāo)總體外的登記區(qū)別開來。這是第一層次的甄別。其他次級(jí)層次的甄別只能在這兩個(gè)部分中分別進(jìn)行??墒怯行﹪疫`背了這個(gè)原則。如加拿大和美國把目標(biāo)總體內(nèi)的重復(fù)登記(重報(bào))和目標(biāo)總體外的重復(fù)登記都當(dāng)作重復(fù)登記。這是兩種不同性質(zhì)的重復(fù)登記,應(yīng)該分別處理。其中,前者作為重報(bào),后者作為誤報(bào)。
第四,不恰當(dāng)?shù)厥褂瞄g接推算法估計(jì)總多報(bào)率。如瑞士使用“普查登記人數(shù)估計(jì)量與普查正確登記人數(shù)估計(jì)量之差”與“普查登記人數(shù)估計(jì)量”的比值來間接推算普查總多報(bào)率。進(jìn)行人口普查多報(bào)估計(jì),不只是要算出總多報(bào)率,還要從本次普查的多報(bào)現(xiàn)象中總結(jié)經(jīng)驗(yàn)教訓(xùn),提高下一次人口普查工作質(zhì)量?;诖朔N目的,需要收集目標(biāo)總體外的誤報(bào)人員以及目標(biāo)總體內(nèi)重報(bào)者的原始數(shù)據(jù)以及相應(yīng)的活動(dòng)情況。在這樣的要求下,總多報(bào)率指標(biāo)自然應(yīng)該用原始數(shù)據(jù)直接估計(jì),而不應(yīng)該間接推算。
通過上面的綜述可以看出:①目前所有國家在人口普查多報(bào)估計(jì)中均存在這樣或那樣的問題;②如何估計(jì)人口普查多報(bào)率,各國并未達(dá)成共識(shí);③對(duì)這一領(lǐng)域中的錯(cuò)誤觀點(diǎn)和錯(cuò)誤做法,并未有人提出異議,導(dǎo)致這一領(lǐng)域的科學(xué)研究長期處于停滯狀態(tài)。
該理論由五部分構(gòu)成:設(shè)計(jì)普查多報(bào)率指標(biāo)體系;構(gòu)造每個(gè)指標(biāo)的線性多報(bào)率估計(jì)量和比率多報(bào)率估計(jì)量;計(jì)算這些估計(jì)量的抽樣方差;計(jì)算比率多報(bào)率估計(jì)量的偏差;抽取樣本及采集樣本多報(bào)數(shù)據(jù)。
1.設(shè)計(jì)人口普查多報(bào)率指標(biāo)體系
為了評(píng)估人口普查多報(bào),需要建立全面系統(tǒng)的普查多報(bào)率指標(biāo)體系,體系中的每一個(gè)指標(biāo)要相互關(guān)聯(lián),各自承擔(dān)自己的任務(wù)。也就是說,每一個(gè)多報(bào)率指標(biāo)要有獨(dú)立的功能,確切的含義、概念、空間范圍和計(jì)算方法。
我們以“率”的方式建立普查多報(bào)率指標(biāo)體系。該體系包括四個(gè)指標(biāo):一是重報(bào)人次率,定義為普查目標(biāo)總體內(nèi)人口重復(fù)登記的人次與原始普查登記人口數(shù)的比值。二是重報(bào)案例率,定義為普查目標(biāo)總體內(nèi)發(fā)生重報(bào)行為的人口數(shù)與原始普查登記人口數(shù)的比值。三是誤報(bào)率,定義為普查目標(biāo)總體外的誤報(bào)人口數(shù)與原始普查登記人口數(shù)的比值。四是總多報(bào)率,定義為普查目標(biāo)總體內(nèi)的重報(bào)人口數(shù)與普查目標(biāo)總體外的誤報(bào)人口數(shù)之和與原始普查登記人口數(shù)的比值。在這四個(gè)多報(bào)率指標(biāo)中,重報(bào)人次率是核心指標(biāo)。相比誤報(bào)率,重報(bào)人次率更大。核心指標(biāo)不是固定不變的,它取決于許多因素。
每個(gè)指標(biāo)的計(jì)算范圍不同。重報(bào)人次率和重報(bào)案例率的計(jì)算范圍是目標(biāo)總體內(nèi)的普查登記,誤報(bào)率的計(jì)算范圍是目標(biāo)總體外的普查登記,總多報(bào)率的計(jì)算范圍是普查目標(biāo)總體內(nèi)外的普查登記。每個(gè)指標(biāo)的計(jì)算方法是線性多報(bào)率指標(biāo)估計(jì)量和比率多報(bào)率指標(biāo)估計(jì)量。每個(gè)指標(biāo)均是時(shí)點(diǎn)指標(biāo),而不是時(shí)期指標(biāo)。這四個(gè)指標(biāo)之間的數(shù)量關(guān)系是:總多報(bào)率為重報(bào)人次率和誤報(bào)率之和。
(1)重報(bào)人次率。有些人在本次普查中除了應(yīng)該登記的那一次之外,還多登記了幾次,形成了重報(bào)人次。它虛增了普查登記人數(shù)。通過重報(bào)人次率指標(biāo),可以獲悉重報(bào)的程度。如加拿大等國家在每次人口普查質(zhì)量評(píng)估中,從普查登記人數(shù)中剔除估計(jì)的重報(bào)人次,以及添加估計(jì)的漏報(bào)人數(shù),進(jìn)而得到修正后的普查登記人數(shù)。
(2)重報(bào)案例率。該指標(biāo)雖然不影響普查登記人數(shù),但它提供一個(gè)重要信息,即在本次普查中總共有多少人重復(fù)登記過。通過普查表,可以獲悉重報(bào)者的年齡、性別、文化程度、戶籍所在地、現(xiàn)住地、婚姻狀況,以及重報(bào)的原因,即是否有多個(gè)住處,在各個(gè)住處都進(jìn)行了普查登記,或者在居住地和工作地同時(shí)進(jìn)行了普查登記,如普查期間在外流動(dòng),在流出地和流入地分別進(jìn)行了普查登記。
(3)誤報(bào)率。誤報(bào)人數(shù)與重報(bào)人次一樣,會(huì)虛增普查登記人數(shù)。不過,相比重報(bào)人次,誤報(bào)人數(shù)少許多。由于這個(gè)原因,中國、烏干達(dá)、南非和加拿大等一些國家在普查多報(bào)估計(jì)中忽略誤報(bào)人數(shù),從而低估誤報(bào)率和總多報(bào)率。如美國每次普查多報(bào)估計(jì),都把誤報(bào)估計(jì)納入其中,并且將誤報(bào)和重報(bào)分開列示。這么做的理由是誤報(bào)與重報(bào)的來源不同:誤報(bào)來源于普查目標(biāo)總體外,而重報(bào)來源于目標(biāo)總體內(nèi);除了來源不同外,誤報(bào)與重報(bào)的發(fā)生機(jī)制也不同:誤報(bào)是普查員錯(cuò)誤登記了不應(yīng)該登記的人,而重報(bào)是多登記了應(yīng)該登記的人。
(4)總多報(bào)率。這個(gè)指標(biāo)是重報(bào)人次率與誤報(bào)率的總和。美國、瑞士等國計(jì)算這個(gè)指標(biāo)。加拿大和中國分別在2016年和2010年計(jì)算重報(bào)人次率,把重報(bào)人次率當(dāng)作總多報(bào)率。
2.構(gòu)造普查多報(bào)率指標(biāo)估計(jì)量
在分層二重抽樣中,用表示第一重樣本抽樣層的總層數(shù),為任意層,為層的普查小區(qū)總數(shù),為從層抽取的樣本普查小區(qū)總數(shù)。用表示從層抽取的樣本普查小區(qū)進(jìn)一步分層得到的總層數(shù),為層的普查小區(qū)集合,為層的樣本普查小區(qū)集合,為層的普查小區(qū)總數(shù),為層的樣本普查小區(qū)總數(shù)。用表示示性函數(shù),如果第一重樣本普查小區(qū)屬于層,那么=1,否則=0。用表示另外一個(gè)示性函數(shù)。如果第一重樣本普查小區(qū)進(jìn)入,那么=1,否則=0。為進(jìn)入第二重樣本的樣本普查小區(qū)的抽樣權(quán)數(shù)。
輔助變量是抽樣調(diào)查中需要用到的一個(gè)變量。在抽樣調(diào)查中,變量按具體作用可分為主變量和輔助變量兩種。輔助變量指的是和主變量具有統(tǒng)計(jì)相關(guān)或相依關(guān)系的變量,可以是已知數(shù),也可以是估計(jì)值。在能夠獲得這種輔助變量資料的條件下,如果能夠把它利用起來,往往可以提高估計(jì)值的抽樣估計(jì)精度。輔助變量的作用比較多。例如,用它來分層,提高樣本對(duì)總體的代表性,用它來構(gòu)造比率估計(jì)量,用它來構(gòu)造回歸估計(jì)量,用它來做不等概率抽樣,等等。其中,前四個(gè)估計(jì)量的計(jì)算公式如下:
比率重報(bào)人次率估計(jì)量:
(1)
比率重報(bào)案例率估計(jì)量:
(2)
比率誤報(bào)率估計(jì)量:
(3)
比率總多報(bào)率估計(jì)量:
(4)
在將式(1)—式(3)代入式(4)后,式(1)—式(4)有兩個(gè)共同特征:第一,等號(hào)右邊的每一項(xiàng)都是估計(jì)量,其中比率中的分子或分母均是較為復(fù)雜的線性估計(jì)量,各自有2個(gè)示性函數(shù)、1個(gè)抽樣權(quán)數(shù)及樣本普查小區(qū)的多報(bào)人口數(shù)。第二,各個(gè)多報(bào)率估計(jì)量采用的輔助變量都是總體的普查項(xiàng)目登記完整人數(shù)的估計(jì)值。
后四個(gè)估計(jì)量的計(jì)算公式如下:
線性重報(bào)人次率估計(jì)量:
(5)
線性重報(bào)案例率估計(jì)量:
(6)
線性誤報(bào)率估計(jì)量:
(7)
線性總多報(bào)率估計(jì)量:
(8)
式(1)—式(8)中的為第二重樣本普查小區(qū)的抽樣權(quán)數(shù)。如果第一重和第二重抽樣均采取簡單隨機(jī)抽樣,那么=()()。
3.普查多報(bào)率估計(jì)量的方差估計(jì)
相比式(1)—式(4),式(5)—式(8)形式上相對(duì)簡單一些。中國、南非和烏干達(dá)等發(fā)展中國家采用線性多報(bào)率估計(jì)量提供多報(bào)率估計(jì)值。如果將式(5)—式(8)中的分層二重抽樣換成簡單隨機(jī)抽樣或分層抽樣,其抽樣方差可以采用精確抽樣方差公式計(jì)算。在式(5)—式(8)實(shí)際上采取分層二重抽樣(兩次分層變量不同)的情況下,其抽樣方差無精確公式計(jì)算。抽樣理論指出,雖然估計(jì)量簡單,例如,簡單隨機(jī)抽樣下的均值或總體總值估計(jì)量,但如果抽樣方式復(fù)雜,即抽取的是復(fù)雜樣本,那么基于復(fù)雜樣本的簡單估計(jì)量也變得相應(yīng)復(fù)雜,其抽樣方差也只能近似估計(jì)。由于式(1)—式(8)具有類似性,為節(jié)省篇幅,只給出式(1)的分層刀切抽樣方差估計(jì)量公式。
(9)
(10)
(11)
4.比率多報(bào)率估計(jì)量偏差及均方誤差估計(jì)
式(1)的偏差計(jì)算公式為:
(12)
(13)
5.樣本的抽取及樣本多報(bào)人口的識(shí)別與計(jì)數(shù)
(1)抽取樣本的方法。本文采取分層二重抽樣抽取普查小區(qū)樣本。在抽取第一重樣本前,對(duì)研究總體的普查小區(qū)按照其所屬的社區(qū)和行政村分層,在社區(qū)層和行政村層,分別獨(dú)立抽取第一重樣本。對(duì)從社區(qū)層和行政村層抽取的第一重樣本,按照調(diào)查難度再分層,在每個(gè)新層,仍然以普查小區(qū)為抽樣單位抽取第二重樣本。在普查多報(bào)估計(jì)中采取分層二重抽樣,基于兩個(gè)理由:一是確定第二重抽樣的分層變量;二是壓縮第一重樣本,節(jié)約成本和調(diào)查時(shí)間。
(2)樣本小區(qū)普查多報(bào)人口的識(shí)別與計(jì)數(shù)。這包括三方面內(nèi)容:一是普查目標(biāo)總體外誤報(bào)人口的識(shí)別。二是目標(biāo)總體內(nèi)重報(bào)人口的識(shí)別。三是目標(biāo)總體內(nèi)重報(bào)人口的計(jì)數(shù)。
首先來看目標(biāo)總體外誤報(bào)人口的識(shí)別。樣本普查小區(qū)的普查表可能填寫普查標(biāo)準(zhǔn)時(shí)點(diǎn)前死亡和之后出生的人口,或者登記暫時(shí)停留在中國境內(nèi)的外國人。這類人口是誤報(bào)人口。如果普查表設(shè)計(jì)了項(xiàng)目“出生或死亡的年月日時(shí)點(diǎn)”,而普查表又登記了標(biāo)準(zhǔn)時(shí)點(diǎn)前死亡和之后出生的人口,就很容易識(shí)別誤報(bào)人口。然而在實(shí)際中,幾乎所有國家的普查表都未設(shè)置項(xiàng)目“出生或死亡的年月日時(shí)點(diǎn)”,這就難以判斷普查表是否填寫了誤報(bào)人口。為判斷普查表是否登記了誤報(bào)人口,可以考慮比較同一樣本普查小區(qū)的普查表與出生醫(yī)學(xué)證明登記冊和死亡醫(yī)學(xué)證明登記冊。這兩個(gè)登記冊清晰地記錄了每個(gè)人具體的出生及死亡時(shí)間。如果出生醫(yī)學(xué)證明登記冊顯示某人在本次普查標(biāo)準(zhǔn)時(shí)點(diǎn)之后出生,而普查表又登記了他,就將其作為誤報(bào)人口。同樣,如果死亡醫(yī)學(xué)證明登記冊顯示某人在本次普查標(biāo)準(zhǔn)時(shí)點(diǎn)之前死亡,而普查表又登記了他,也將其作為誤報(bào)人口。由于誤報(bào)人口較少,使用出生醫(yī)學(xué)證明登記冊和死亡醫(yī)學(xué)證明登記冊判斷誤報(bào)人口工作量并不大。當(dāng)然,獲得這兩個(gè)登記冊需要當(dāng)?shù)匦l(wèi)生健康委員會(huì)的配合與支持。另外,要從出生醫(yī)學(xué)證明登記冊和死亡醫(yī)學(xué)證明登記冊分離出本樣本普查小區(qū)的出生和死亡人口。為便于進(jìn)行第七次全國人口普查及其質(zhì)量評(píng)估抽樣調(diào)查,中國國家統(tǒng)計(jì)局從國家衛(wèi)生健康委員會(huì)取得了全國各個(gè)省(自治區(qū)、直轄市)的出生和死亡醫(yī)學(xué)證明登記冊的使用權(quán)。
再來看目標(biāo)總體內(nèi)重報(bào)人口的識(shí)別?,F(xiàn)代社會(huì)一些人有多個(gè)住處,流動(dòng)性大,在普查期間也是如此。這使得同一人可能在多個(gè)地方接受普查登記。也有些人替代別人填寫普查表,導(dǎo)致別人在普查中登記兩次或兩次以上。為識(shí)別樣本小區(qū)的重報(bào)人口,可采取以下五種方法:一是在全國人口普查微觀數(shù)據(jù)庫尋找,看能否找到與樣本普查小區(qū)同樣的人,以及有多少個(gè)與其相同的人。這種方法的優(yōu)勢能查找到所有重報(bào)人口,缺陷是工作量很大,只有政府統(tǒng)計(jì)部門才有能力這么做。美國和加拿大在每次重報(bào)估計(jì)中都是在全國范圍查找重報(bào)人口。中國尚未在全國范圍識(shí)別重報(bào)人口。二是在每個(gè)樣本小區(qū)及其周圍區(qū)域識(shí)別,這可能發(fā)現(xiàn)一定數(shù)量的重報(bào)人口,畢竟在全國各個(gè)地方有住處的人不多。三是在樣本小區(qū)內(nèi)識(shí)別,這是目前許多國家采用的方法。這種方法優(yōu)勢是便于找到重報(bào)人口和構(gòu)造重報(bào)估計(jì)量,缺陷是識(shí)別到的重報(bào)人口數(shù)目有限。四是在質(zhì)量評(píng)估抽樣調(diào)查表設(shè)計(jì)項(xiàng)目“您在普查中登記的次數(shù)”及“您在普查中登記的地點(diǎn)”。如果答復(fù)一次以上,就是重報(bào)者。這種方法快速便利。如果答復(fù)者提供真實(shí)答復(fù),并且在答復(fù)之前,詢問其朋友及家人是否在普查中登記過他,是能夠獲得重報(bào)的準(zhǔn)確次數(shù)的。五是比較同一樣本小區(qū)的行政記錄人口名單與普查人口名單。人口行政記錄在識(shí)別難以發(fā)現(xiàn)的重報(bào)人口方面有獨(dú)到作用。例如,某人有兩個(gè)名字,一個(gè)是現(xiàn)在的名字,另外一個(gè)是曾用名。他在一個(gè)地方的普查表中填寫的是現(xiàn)在的名字,在另外一個(gè)地方的普查表中填寫的是曾用名。該人的個(gè)人檔案填寫了這兩個(gè)名字。如果只是通過查詢普查表,就很可能把這兩個(gè)名字當(dāng)作不同的人,其實(shí)是同一人,其中一個(gè)名字是另外一個(gè)名字的重復(fù),但如果比較普查表和行政記錄,就能判斷這兩人是同一人,在普查中登記了兩次,其中一次是重復(fù)登記,另外一次是應(yīng)該登記的。
最后來看目標(biāo)總體內(nèi)重報(bào)人口的計(jì)數(shù)。必須制定出一個(gè)科學(xué)、明晰的對(duì)普查重報(bào)的計(jì)數(shù)規(guī)則,否則所進(jìn)行的計(jì)數(shù)很可能會(huì)發(fā)生重復(fù)或遺漏。這是一項(xiàng)困難的工作。對(duì)這項(xiàng)工作,擬從全面調(diào)查的情景入手來厘清思考路徑。假定人口普查的質(zhì)量評(píng)估抽樣調(diào)查是對(duì)全國所有普查小區(qū)的全面登記。為了觀察重報(bào)現(xiàn)象,需要對(duì)普查登記中屬于目標(biāo)總體的每一個(gè)人在全國范圍內(nèi)進(jìn)行查重。經(jīng)過這項(xiàng)工作,可以一個(gè)一個(gè)地羅列出全國所有的重報(bào)案例。假定其中一個(gè)案例是這樣的:一個(gè)屬于目標(biāo)總體的人,他分別在全國的四個(gè)普查小區(qū)進(jìn)行了普查登記。無疑,在這四個(gè)登記中,必須要選定其中的一個(gè)登記為“有效登記”,即用這個(gè)登記來參加全國人數(shù)的計(jì)數(shù);而另外的三個(gè)登記則是“無效登記”,屬于普查重報(bào)人數(shù)。那么,應(yīng)該把哪一個(gè)登記選為有效登記呢?假若這個(gè)人進(jìn)行登記的四個(gè)小區(qū)中,有一個(gè)是他的常住地,即按照人口普查的規(guī)定,他本來就應(yīng)在這個(gè)小區(qū)進(jìn)行人口普查登記,那么就把他在這個(gè)小區(qū)的登記選定為有效登記;假若這個(gè)人進(jìn)行登記的四個(gè)小區(qū),全都不是他的常住地,那么就選擇這四個(gè)小區(qū)中他居住時(shí)間最長的那個(gè)小區(qū)的登記為有效登記。于是,這個(gè)人在選定為有效登記的那個(gè)小區(qū),應(yīng)該向質(zhì)量評(píng)估抽樣調(diào)查員報(bào)告:“我做了三個(gè)無效登記”;而在該人進(jìn)行無效登記的那三個(gè)小區(qū),則對(duì)該人的無效登記不予理會(huì)(對(duì)這三個(gè)登記視而不見)。進(jìn)行抽樣調(diào)查的時(shí)候,如果這四個(gè)小區(qū)進(jìn)入樣本,就這樣計(jì)數(shù):在該人進(jìn)行有效登記的小區(qū),按該人的報(bào)告,記重復(fù)登記人數(shù)為3,與此同時(shí),記重復(fù)登記案例數(shù)為1;在該人進(jìn)行無效登記的小區(qū),不進(jìn)行有關(guān)該人的任何計(jì)數(shù)。顯然,如果該人進(jìn)行有效登記的小區(qū)未進(jìn)入樣本,則該重復(fù)登記案例在樣本中也就看不到了,即便是該人進(jìn)行無效登記的小區(qū)進(jìn)入樣本,也仍是如此。依照這樣的思路,規(guī)定普查重報(bào)的數(shù)據(jù)采集途徑和計(jì)數(shù)規(guī)則就不困難了。
1.樣本及樣本數(shù)據(jù)
實(shí)證對(duì)象為一個(gè)行政區(qū)。實(shí)證目標(biāo)為估計(jì)該行政區(qū)2010年11月1日零時(shí)的重報(bào)人次率、重報(bào)案例率、誤報(bào)率和總多報(bào)率。實(shí)證數(shù)據(jù)來源于該行政區(qū)的人口普查辦公室,以及對(duì)其部分普查小區(qū)的再調(diào)查。為便于討論問題,未考慮樣本數(shù)據(jù)缺失問題。抽樣方法為分層二重抽樣。采用的估計(jì)量為線性多報(bào)率估計(jì)量和比率多報(bào)率估計(jì)量,以及近似計(jì)算它們方差的分層刀切抽樣方差估計(jì)量。本行政區(qū)2010年普查登記人口數(shù)為560025人。使用第一重樣本估計(jì)的普查項(xiàng)目登記完整人口數(shù)為557016人,使用第二重樣本估計(jì)的普查項(xiàng)目登記完整人口數(shù)為559055人。
該行政區(qū)按照行政性質(zhì)分為兩層,即社區(qū)層和行政村層,分別用=1和=2表示。社區(qū)層共有普查小區(qū)1000個(gè),行政村層共有普查小區(qū)1100個(gè)。從社區(qū)層和行政村層,采取簡單隨機(jī)抽樣分別抽取10個(gè)和9個(gè)小區(qū)。按照調(diào)查難度,將第一重樣本小區(qū)分為三層,即調(diào)查難度較小層、調(diào)查難度中等層及調(diào)查難度較大層,分別用符號(hào)=1,=2和=3表示。所有樣本小區(qū)及其個(gè)人100%提供答復(fù)。此時(shí),樣本個(gè)人抽樣權(quán)數(shù)等于樣本小區(qū)的抽樣權(quán)數(shù),否則要根據(jù)調(diào)查答復(fù)率調(diào)整樣本小區(qū)抽樣權(quán)數(shù),以得到樣本個(gè)人抽樣權(quán)數(shù)。抽樣層、抽樣權(quán)數(shù)及樣本數(shù)據(jù)見表1和表2。其中,和分別表示層的普查小區(qū)總數(shù)及樣本小區(qū)數(shù),和分別表示層的小區(qū)數(shù)及從中抽取的第二重樣本小區(qū)數(shù),表示樣本小區(qū)。表1和表2中的(2)表示第一重樣本小區(qū)進(jìn)入到第二重樣本。為最終樣本小區(qū)的抽樣權(quán)數(shù)。第二重樣本小區(qū)數(shù)12個(gè),其中社區(qū)層和行政村層各6個(gè)。表2中的樣本數(shù)據(jù)依據(jù)普查多報(bào)人口所在樣本小區(qū)的現(xiàn)住地來確定的。
表1 抽樣層及樣本普查小區(qū)的抽樣權(quán)數(shù)
表2 樣本普查小區(qū)的未加權(quán)數(shù)據(jù)
2.普查多報(bào)率估計(jì)值
依據(jù)表1和表2數(shù)據(jù),使用式(1)—式(8)得到重報(bào)人次率、重報(bào)案例率、誤報(bào)率和總多報(bào)率,見表3。
表3 普查多報(bào)率估計(jì)值 %
從表3可以看出如下兩點(diǎn)重要信息。
第一,線性多報(bào)率估計(jì)量與比率多報(bào)率估計(jì)量計(jì)算的重報(bào)人次率、重報(bào)案例率、誤報(bào)率和總多報(bào)率差異小。這表明它們都適合于普查多報(bào)率估計(jì),估計(jì)結(jié)果可信度較高。這一方面表明分層二重抽樣技術(shù)對(duì)普查多報(bào)率估計(jì)有比較好的適應(yīng)性,另一方面也說明雖然線性多報(bào)率估計(jì)量未利用輔助變量,在抽樣估計(jì)精度上有所欠缺,但仍然可以應(yīng)用于普查多報(bào)率估計(jì)。這也是許多國家一直使用線性多報(bào)率估計(jì)量的原因,也是本文研究線性多報(bào)率估計(jì)量的重要考量。對(duì)許多國家的政府統(tǒng)計(jì)部門來說,它們更關(guān)注的是估計(jì)值,而不是估計(jì)值的抽樣方差。一些國家在發(fā)布人口普查多報(bào)率、漏報(bào)率和凈覆蓋誤差率時(shí),往往并不提供估計(jì)值的抽樣標(biāo)準(zhǔn)誤差。中國2020年在發(fā)布凈漏報(bào)率為0.05%時(shí),也并未提供它的抽樣標(biāo)準(zhǔn)誤差(即抽樣方差的平方根)。
第二,①從重報(bào)人次率來看,使用比率多報(bào)率估計(jì)量估計(jì)的結(jié)果是1.176%,表明100人中有1.176個(gè)人是重報(bào)登記,是不應(yīng)該在普查中登記的,虛增普查登記人口數(shù)1.176人;而使用線性多報(bào)率估計(jì)量估計(jì)的結(jié)果是1.180%,表明本次普查每100人中就有1.180個(gè)人是不應(yīng)該在普查中登記的,使普查登記人口數(shù)虛增1.180人。②從重報(bào)案例率來看,采用比率多報(bào)率估計(jì)量估計(jì)的結(jié)果是1.019%,這意味著每100人中有1.019人在本次普查中發(fā)生了重復(fù)登記。雖然重報(bào)案例人口數(shù)不影響普查登記人口數(shù),但計(jì)算這個(gè)指標(biāo)還是很有實(shí)際意義的,其可以發(fā)現(xiàn)重報(bào)者的特征及發(fā)生重報(bào)行為者的廣度,即有多少人在本次普查中登記一次以上。③從誤報(bào)率來看,使用比率多報(bào)率估計(jì)量估計(jì)的結(jié)果是0.651%,表明每100人中有0.651人是普查目標(biāo)總體外的人,例如普查標(biāo)準(zhǔn)時(shí)間點(diǎn)前死亡者或之后出生的嬰兒,虛增普查登記人口數(shù)0.651人。忽視誤報(bào)人口,不只是掩蓋了誤報(bào)人口的存在,而且虛減總多報(bào)率,這不利于下次普查操作方案的改進(jìn)及普查登記數(shù)據(jù)質(zhì)量的提高。④從總多報(bào)率來看,使用比率多報(bào)率估計(jì)量估計(jì)的結(jié)果是1.827%,它是重報(bào)人次率1.176%和誤報(bào)率0.651%的總和,表明每100人中有1.827人是不應(yīng)該在本次普查中登記的,虛增普查登記人口數(shù)1.827人。
3.普查多報(bào)率估計(jì)值的抽樣標(biāo)準(zhǔn)誤差、偏差及均方誤差平方根
利用表1—表3數(shù)據(jù),使用式(9)—式(13),得到每個(gè)多報(bào)率估計(jì)值的抽樣標(biāo)準(zhǔn)誤差、偏差及均方誤差平方根,見表4。表4傳遞出如下五點(diǎn)信息。
表4 普查多報(bào)率估計(jì)值的抽樣標(biāo)準(zhǔn)誤差、偏差及均方誤差平方根 %
其一,使用抽樣調(diào)查方法估計(jì)普查多報(bào)率,不只是要計(jì)算每個(gè)多報(bào)率估計(jì)值的抽樣方差,還要計(jì)算其偏差,抽樣方差與偏差的平方之和是均方誤差。為了說明估計(jì)值的抽樣估計(jì)精度,需要使用抽樣標(biāo)準(zhǔn)誤差、偏差及均方誤差平方根。線性多報(bào)率估計(jì)量為無偏估計(jì)量,其均值與真值相等,偏差為零。比率多報(bào)率估計(jì)量為有偏估計(jì)量,需要計(jì)算其偏差。
其二,偏差所要傳遞的信息是估計(jì)量系統(tǒng)性地低估或高估實(shí)際值。對(duì)重報(bào)人次率而言,0.0085%表明采用比率多報(bào)率估計(jì)量估計(jì)的結(jié)果1.169%系統(tǒng)性地高估總體的重報(bào)人次率為0.0085%。
其三,除誤報(bào)率估計(jì)值外,使用比率多報(bào)率估計(jì)量計(jì)算的其他多報(bào)率估計(jì)值的均方誤差平方根,均小于采用線性多報(bào)率估計(jì)量估計(jì)的其他多報(bào)率估計(jì)值的均方誤差平方根。例如,比率重報(bào)人次率的均方誤差平方根0.2792%小于其線性多報(bào)率的均方誤差平方根0.2837%。這表明,比率多報(bào)率估計(jì)量在多目標(biāo)(估計(jì)四個(gè)多報(bào)率)抽樣調(diào)查中擁有更高的抽樣估計(jì)精度。均方誤差平方根和抽樣標(biāo)準(zhǔn)誤差是衡量樣本代表性或估計(jì)量優(yōu)劣的重要標(biāo)準(zhǔn)。多目標(biāo)抽樣調(diào)查不要求估計(jì)量對(duì)每個(gè)目標(biāo)指標(biāo)的抽樣方差都小,只要在主要目標(biāo)指標(biāo)(重報(bào)人次率)或絕大部分估計(jì)目標(biāo)指標(biāo)上抽樣標(biāo)準(zhǔn)誤差或均方誤差平方根較小即可。
其四,在采用比率多報(bào)率估計(jì)量還是線性多報(bào)率估計(jì)量這個(gè)問題上,要根據(jù)各國人口普查質(zhì)量評(píng)估的能力,對(duì)普查多報(bào)率估計(jì)精度的要求,進(jìn)行抽樣估計(jì)精度比較的需要綜合權(quán)衡。
其五,相較于抽樣標(biāo)準(zhǔn)誤差,偏差小許多。這就是為什么各國政府統(tǒng)計(jì)部門在人口普查質(zhì)量評(píng)估中只計(jì)算抽樣標(biāo)準(zhǔn)誤差,而不計(jì)算偏差的原因。美國普查局使用雙系統(tǒng)估計(jì)量估計(jì)總體實(shí)際人口數(shù)及凈覆蓋誤差,從未計(jì)算過偏差及均方誤差平方根,只計(jì)算抽樣標(biāo)準(zhǔn)誤差。
通過前面的理論研究和實(shí)證研究,得出一些重要結(jié)論,并對(duì)我國政府統(tǒng)計(jì)部門在人口普查多報(bào)估計(jì)中提出若干建議。
第一,普查目標(biāo)總體是判斷人口普查多報(bào)的重要標(biāo)準(zhǔn)。對(duì)一個(gè)普查登記,需要關(guān)注的是,這個(gè)登記是否屬于目標(biāo)總體,而不是這個(gè)登記的地點(diǎn)是否正確。采用登記者是否屬于目標(biāo)總體這一標(biāo)準(zhǔn),可避免普查多報(bào)誤判,也體現(xiàn)了普查多報(bào)的本質(zhì)特征。如果在普查中登記一次以上,就把其中的一次當(dāng)作有效登記,其他幾次作為無效登記。有效登記是指發(fā)生在應(yīng)該登記地點(diǎn)上的普查登記。如果能夠確切知道一個(gè)人的應(yīng)該登記地點(diǎn),就把發(fā)生在這個(gè)地點(diǎn)上的有效登記計(jì)作重報(bào)案例人數(shù),其他地點(diǎn)的無效登記也計(jì)作這個(gè)地點(diǎn)的重報(bào)人數(shù),其他地點(diǎn)不做任何統(tǒng)計(jì)。如果無法獲悉一個(gè)人的確切應(yīng)該登記地點(diǎn),就采取簡單平均法,在其登記的各個(gè)地點(diǎn)平均計(jì)算重報(bào)案例人數(shù)和重報(bào)人次。建議國家統(tǒng)計(jì)局深入研究普查多報(bào)人口的認(rèn)定問題,將是否屬于普查目標(biāo)總體作為判斷多報(bào)人口的核心標(biāo)準(zhǔn),合理確定普查多報(bào)人口的計(jì)數(shù)地點(diǎn),避免虛增普查多報(bào)人數(shù)。
第二,不能忽視普查目標(biāo)總體外誤報(bào)人口的存在,在普查多報(bào)估計(jì)中應(yīng)該單獨(dú)估計(jì)。即使誤報(bào)人員數(shù)為零,也要在研究報(bào)告中列示,并且說明為什么為零。事實(shí)上,這個(gè)數(shù)不可能為零。為估計(jì)誤報(bào)人數(shù),需要在普查表設(shè)置“出生或死亡年月日時(shí)點(diǎn)”,使用出生或死亡醫(yī)學(xué)證明判斷普查標(biāo)準(zhǔn)時(shí)點(diǎn)前后出生或死亡的人是否屬于誤報(bào)人口。我國在歷次人口普查質(zhì)量評(píng)估中,只估計(jì)重報(bào),忽視誤報(bào),從而低估總體普查多報(bào)人數(shù)或多報(bào)率。建議國家統(tǒng)計(jì)局既要估計(jì)重報(bào)人數(shù),還要估計(jì)誤報(bào)人數(shù)。
第三,在重報(bào)估計(jì)中,要設(shè)置重報(bào)人次率指標(biāo)和重報(bào)案例率指標(biāo)。普查重報(bào)指標(biāo)考察目標(biāo)總體內(nèi)人員的重報(bào)。這一規(guī)定為重報(bào)指標(biāo)制定了統(tǒng)計(jì)標(biāo)準(zhǔn),規(guī)范了這一指標(biāo)的口徑范圍,杜絕了把不屬于目標(biāo)總體人員的多次登記混入普查重報(bào)人次的歧義計(jì)數(shù)。重報(bào)案例率指標(biāo)的設(shè)置,增加了對(duì)普查重報(bào)現(xiàn)象的考查視角。目前各國普遍使用的重報(bào)人次率考察重報(bào)行為的發(fā)生頻次,而增加的重報(bào)案例率則是考察重報(bào)行為人的廣度??疾旌笳撸兄诎l(fā)現(xiàn)重報(bào)者的特征,為下次普查避免重報(bào)提供依據(jù)。建議國家統(tǒng)計(jì)局改變一直以來只估計(jì)重報(bào)人次率,而忽視重報(bào)案例率估計(jì)的做法,將我國重報(bào)估計(jì)水平提升到一個(gè)新的高度。