楊圣偉 /國家統(tǒng)計局孝感調(diào)查隊
抽樣調(diào)查系統(tǒng)誤差及其產(chǎn)生的原因
楊圣偉 /國家統(tǒng)計局孝感調(diào)查隊
系統(tǒng)誤差按照產(chǎn)生的來源可分為抽樣框誤差 (Frame Error)、無回答誤差(Nonresponse Error)和計量誤差(Measurement Error)。按照抽樣調(diào)查實施的過程可以分為設計誤差、調(diào)查誤差、回答誤差和匯總誤差。
抽樣框誤差是指目標總體和抽樣總體不一致時產(chǎn)生的誤差,主要的誤差類型有五個方面。
一是抽樣總體不能覆蓋目標總體,也稱作丟失目標總體單元。產(chǎn)生的主要原因是對目標總體估計不足,對變動的樣本總體未能及時更新。例如在城鄉(xiāng)一體化住戶調(diào)查的抽樣過程中,對新建的小區(qū)未能納入,造成總體缺失。
二是抽樣樣本超出目標總體,也稱作樣本包含非目標總體單元。例如在規(guī)模以下企業(yè)抽樣調(diào)查過程中,原來確定的樣本由于“升規(guī)”,成為規(guī)模以上企業(yè),就會造成抽樣的樣本超出“規(guī)模以下企業(yè)”這個總體目標。
三是復合聯(lián)接造成的誤差,指目標總體元素可能聯(lián)接著多個抽樣框單位。如在城鄉(xiāng)一體化住戶調(diào)查中,如果按照房屋抽樣,可能出現(xiàn)兩種誤差,一類是2家或以上家庭共同租住某一房屋,抽中該房屋后就會出現(xiàn)一個樣本框(房屋)對應2個以上的樣本(家庭);另一類是某個家庭擁有多套房產(chǎn),那么該家庭在按照房屋抽樣的時候,被抽中的概率就遠遠高于其他家庭,造成樣本對整體的代表性出現(xiàn)偏差。
四是抽樣框陳舊。例如,小微企業(yè)調(diào)查和個體工商戶調(diào)查中的樣本消失。城鄉(xiāng)一體化住戶調(diào)查過程中的房屋拆遷等。
五是輔助信息不準確。在實際抽樣調(diào)查過程中,往往會使用輔助抽樣框(如分層抽樣、PPS抽樣等)和不同的估計方法(如比率估計、回歸估計等),如果輔助信息不完全或者不準確,就會影響到估計的準確度。如住戶調(diào)查的大樣本調(diào)查過程中,如果對大樣本的收入調(diào)查不準確,就會造成在住戶調(diào)查樣本抽取過程中的分層信息誤差,最終影響住戶調(diào)查樣本的代表性。
以上幾種抽樣框誤差產(chǎn)生的原因,主要是對樣本總體估計不足,對樣本框的選取不合適。特別是由于抽樣調(diào)查的總體大都是動態(tài)的、不斷發(fā)展變化的,造成抽樣框誤差的產(chǎn)生,而且以上幾種誤差往往同時存在并互相影響。
無回答誤差是指不能從所有樣本單位和問卷中的所有問題中獲得有用的數(shù)據(jù)。金勇進將無回答誤差描述為“調(diào)查單位被選入樣本,卻沒有接受調(diào)查”或“接受調(diào)查,但對調(diào)查中的某些問題未給予回答”。無回答誤差按照產(chǎn)生的來源可以分為:
一是無法找到調(diào)查對象。該類在CPI調(diào)查過程中較為常見。例如,商品季節(jié)性缺失造成價格無法獲取(夏季無法采集到羽絨服的價格)。商品停止銷售造成價格無法獲取等。在住戶調(diào)查中,調(diào)查戶舉家外出在一個月以上,造成數(shù)據(jù)無法采集。
二是調(diào)查對象拒絕接受調(diào)查。如住戶調(diào)查的拒絕記賬,小微企業(yè)調(diào)查的拒訪,CPI調(diào)查的拒絕提供真實價格等。
三是調(diào)查對象由于對調(diào)查指標含義不清而無法回答,或答案不完整而無法獲取有用數(shù)據(jù)。
四是調(diào)查對象主觀拒絕回答某些調(diào)查指標。如住戶調(diào)查中不愿意記錄賭博收入等。
此外還有被調(diào)查者由于忘記回答調(diào)查,造成調(diào)查超過時限;疏忽大意遺漏某調(diào)查項等。無回答誤差,有的屬于客觀性,有的則屬于主觀性;有的屬于有意識,有的則屬于無意識;有的屬于調(diào)查人員方,有的則屬于被調(diào)查者方。產(chǎn)生的原因也比較復雜,對于客觀原因造成的,可以通過插值等技術(shù)性手段進行補充。對于主觀原因造成的,可以通過法制保障嚴格控制減輕。如,對于拒絕接受調(diào)查的調(diào)查對象普及法律知識、宣講依法上報統(tǒng)計資料的義務等使其接受調(diào)查;對于因擔心隱私問題而拒絕回答某些調(diào)查指標的,可以明確告知并堅決履行對調(diào)查對象身份、資料等保密的義務,打消其心理負擔。
計量誤差是指調(diào)查中所獲得的數(shù)據(jù)與所欲調(diào)查項目的真值之間不一致產(chǎn)生的誤差,主要分為三類。
一是抽樣方案設計階段產(chǎn)生的誤差。主要來自于不同措辭的不同表達,包括文字表達歧義、不簡練等,或者問卷設計過長,導致調(diào)查者、被調(diào)查者產(chǎn)生疲勞而造成的數(shù)據(jù)失真現(xiàn)象。
二是調(diào)查階段產(chǎn)生的誤差。調(diào)查員會有意或者無意造成的數(shù)據(jù)失真,被訪者也會有意或無意造成數(shù)據(jù)失真。
三是數(shù)據(jù)處理階段工作上的差錯所帶來的誤差,包括錯誤的編碼、錄入等。
計量誤差主要是工作性誤差,需要在調(diào)查實施過程中嚴格遵守調(diào)查制度和統(tǒng)計調(diào)查基本規(guī)則,嚴禁使用具有導向性的提問方式,嚴禁出現(xiàn)編造、偽造、篡改數(shù)據(jù)等違反《統(tǒng)計法》的行為。抽樣調(diào)查中系統(tǒng)誤差種類繁多,貫穿于整個抽樣調(diào)查的全過程。從產(chǎn)生的原因來看,既有主觀故意,又有客觀限制。在充分研究系統(tǒng)誤差規(guī)律并從方法上對系統(tǒng)誤差進行事后修正外,必須準確認識抽樣調(diào)查系統(tǒng)誤差產(chǎn)生的原因,并深入研究控制對策,以提高統(tǒng)計調(diào)查數(shù)據(jù)質(zhì)量。