王春枝,趙國(guó)杰
(1.天津大學(xué) 管理與經(jīng)濟(jì)學(xué)部,天津 300072;2.內(nèi)蒙古財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,呼和浩特 010070)
分層隨機(jī)抽樣條件下不同估計(jì)量的比較與選擇
王春枝1,2,趙國(guó)杰1
(1.天津大學(xué) 管理與經(jīng)濟(jì)學(xué)部,天津 300072;2.內(nèi)蒙古財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,呼和浩特 010070)
文章以分層隨機(jī)抽樣為例,研究了在有輔助變量可以利用的情形下,分別比估計(jì)、聯(lián)合比估計(jì)、分別回歸估計(jì)和聯(lián)合回歸估計(jì)的應(yīng)用,并對(duì)其偏倚進(jìn)行評(píng)估。結(jié)果表明,與簡(jiǎn)單估計(jì)相比,這類間接估計(jì)量都是非線性的較為復(fù)雜的估計(jì)量,可以改善簡(jiǎn)單估計(jì)的效果,且當(dāng)目標(biāo)變量和輔助變量高度相關(guān)時(shí),各種估計(jì)量均是有效的。
分層隨機(jī)抽樣;比估計(jì);回歸估計(jì);輔助變量
抽樣調(diào)查中,估計(jì)方法的設(shè)計(jì)是抽樣設(shè)計(jì)的一個(gè)重要內(nèi)容,對(duì)抽樣誤差有著直接的影響。調(diào)查中的目標(biāo)量也即需通過樣本估計(jì)的總體參數(shù),常見的包括三種:總體均值、總體總量、總體比例,這三個(gè)總體參數(shù)一般都是針對(duì)總體的某一個(gè)指標(biāo),在參數(shù)估計(jì)時(shí)將該指標(biāo)作為唯一的調(diào)查變量,所得到的參數(shù)估計(jì)量屬于線性的簡(jiǎn)單估計(jì)量,這種簡(jiǎn)單估計(jì)只涉及所要估計(jì)的指標(biāo)本身,完全不依賴其他的關(guān)于總體的輔助信息,估計(jì)量具有無偏性、一致性、極大似然性等優(yōu)良性質(zhì)。不過,當(dāng)存在可利用的與調(diào)查變量高度相關(guān)的總體其他信息且這些信息質(zhì)量較好時(shí),如果能夠充分利用這些信息無疑將顯著提高抽樣估計(jì)的精度。將可用來幫助調(diào)查變量估計(jì)的其他變量稱為輔助變量,利用調(diào)查指標(biāo)與輔助變量之間的相關(guān)關(guān)系,可以構(gòu)造另一類間接估計(jì)量,即比估計(jì)量或回歸估計(jì)量,與簡(jiǎn)單估計(jì)相比,這類間接估計(jì)量都是非線性的較為復(fù)雜的估計(jì)量,可以改善簡(jiǎn)單估計(jì)的效果。
本文以分層隨機(jī)抽樣為例,研究在有輔助變量可以利用的情形下,分別比估計(jì)、聯(lián)合比估計(jì)、分別回歸估計(jì)和聯(lián)合回歸估計(jì)的應(yīng)用,并對(duì)其偏倚進(jìn)行評(píng)估。
設(shè)總體有N個(gè)抽樣單位,每個(gè)抽樣單位有兩個(gè)變量,調(diào)查變量Y和輔助變量X,記為總體比率。設(shè)從總體N中隨機(jī)抽取容量為n的樣本,以作為R的估計(jì)量,稱R?為比率估計(jì)量,其中大寫記號(hào)代表總體變量,小寫記號(hào)代表樣本變量。
可見當(dāng)n較大時(shí),E(R?)≈R,進(jìn)而估計(jì)量的方差:
對(duì)每個(gè)總體單元,令Gi=Yi-RXi,i=1,2,...,N,則,因此:
所以:
式(3)中涉及總體的,必須從樣本中估計(jì),可用作為的估計(jì)。這個(gè)估計(jì)是有偏的,由式(2),其偏倚的階為,可見,均方誤差與偏倚具有相同的階,因此,比估計(jì)的偏倚趨于0的速度比相應(yīng)的均方誤差的平方根趨于0的速度更快,比率估計(jì)量雖然是有偏的,但當(dāng)樣本容量較大時(shí),偏倚趨于0。進(jìn)一步,用比率估計(jì)量估計(jì)總體均值,得到:
上式中,、、ρ分別為調(diào)查變量樣本方差、輔助變量樣本方差和調(diào)查變量與輔助變量的樣本相關(guān)系數(shù),Sy、Sx為相應(yīng)的標(biāo)準(zhǔn)差。
利用比估計(jì)方法時(shí),調(diào)查變量與輔助變量間需有正線性相關(guān)關(guān)系,且大致呈正比例,如果輔助變量與調(diào)查變量間有負(fù)線性相關(guān)關(guān)系,則要采取乘積估計(jì)。估計(jì),一般要求輔助變量的總體總量或均值是已知的;比估計(jì)方法適用面廣,可以用于簡(jiǎn)單隨機(jī)抽樣,也可用于分層隨機(jī)抽樣、整群抽樣、多階抽樣等。由于比估計(jì)充分利用了輔助變量帶來的信息估計(jì)總體參數(shù),比單純用調(diào)查變量資料會(huì)有更好的效果。
有效地應(yīng)用比估計(jì)隱含的一個(gè)基本假定是調(diào)查變量與輔助變量基本成比例關(guān)系,也就意味著調(diào)查變量對(duì)輔助變量的回歸直線通過原點(diǎn),若此假定不成立,為了進(jìn)一步提高估計(jì)精度,可以使用回歸估計(jì)。一般地,對(duì)于簡(jiǎn)單隨機(jī)抽樣,總體均值的回歸估計(jì)量定義為:
β可以是事先設(shè)定的常數(shù),也可以是從樣本中計(jì)算得到的樣本回歸系數(shù)。如果事先給定,β=β0,回歸估計(jì)量的方差為:
此時(shí),是總體均值的無偏估計(jì)量。如果β為樣本回歸系數(shù),則,此時(shí)回歸估計(jì)量的方差為:
此種情形下,當(dāng)樣本容量n較大時(shí),是近似無偏的;當(dāng)n趨于無窮大時(shí),的偏倚趨于0的速度比相應(yīng)的均方誤差的平方根趨于0的速度更快,回歸估計(jì)量仍是可用估計(jì)量。
同比估計(jì)一樣,回歸估計(jì)充分利用了有關(guān)的輔助變量資料以有效地提高估計(jì)的精度,當(dāng)然,回歸估計(jì)量的優(yōu)越性只有在大樣本的情形下才能得到較好的發(fā)揮。此外,回歸估計(jì)中輔助變量可以是一個(gè),也可以是兩個(gè)或多個(gè)。
將比估計(jì)與回歸估計(jì)的思想應(yīng)用于分層隨機(jī)抽樣中,根據(jù)應(yīng)用的場(chǎng)合不同,有兩種可行的方法。一種是對(duì)每層的樣本考慮比估計(jì)或回歸估計(jì),然后根據(jù)層權(quán)進(jìn)行加權(quán)處理;另一種是對(duì)調(diào)查變量和輔助變量先進(jìn)行總體的參數(shù)估計(jì),然后用他們構(gòu)造比估計(jì)量或回歸估計(jì)量。
各層分別比估計(jì)是先對(duì)各層分別進(jìn)行比估計(jì),然后按層權(quán)加權(quán)平均,以得出總體參數(shù)的估計(jì),設(shè)總體分為L(zhǎng)層,和ˉh為第h層的樣本均值,ˉh和ˉh為第h層的總體均值,Wh為層權(quán),則總體均值的比估計(jì)為:
由于當(dāng)每一層的樣本容量nh都比較大時(shí),是近似無偏的,因此,此時(shí)也是近似無偏的,且從每一層比估計(jì)的方差公式可以得到:
與分層比估計(jì)的情形一樣,先在每層中對(duì)層的均值作回歸估計(jì),然后再加權(quán),即可得到分別回歸估計(jì)量
其中βh為第h層事先設(shè)定的值或樣本回歸系數(shù),當(dāng)βh為事先設(shè)定的值時(shí),分別回歸估計(jì)量的方差為:;若βh為樣本回歸系數(shù),則估計(jì)量的方差為:。前者為無偏估計(jì)量,后者則是有偏估計(jì)量。
對(duì)于第h層的總體均值,先對(duì)各層的調(diào)查變量與輔助變量進(jìn)行分層隨機(jī)抽樣的簡(jiǎn)單估計(jì),進(jìn)而利用比率估計(jì)量可以構(gòu)造出聯(lián)合比估計(jì)量:
基于同樣的思想,聯(lián)合回歸估計(jì)為:
當(dāng)β為事先設(shè)定時(shí),估計(jì)量是無偏的,并且:
當(dāng)β必須從樣本估計(jì)時(shí),一般采用按比例分配的抽樣方法得到β的估計(jì)值,,通常稱為聯(lián)合最小二乘估計(jì)。此時(shí)聯(lián)合回歸估計(jì)是有偏的,但滿足漸進(jìn)一致性,估計(jì)量的方差為:
分層隨機(jī)抽樣條件下,分別比估計(jì)和聯(lián)合比估計(jì)均為有偏估計(jì)量,當(dāng)各層的樣本容量足夠大時(shí)近似無偏,當(dāng)某些層的樣本量不夠大,而總樣本量較大時(shí),聯(lián)合比估計(jì)近似無偏。比較二者的方差,式(13)減去式(10)可得:
(1)當(dāng)R=Rh或者,每一層的總體比值都嚴(yán)格地等于整個(gè)總體的比值,此時(shí),分別比估計(jì)與聯(lián)合比估計(jì)的精度是一樣的。
(2)當(dāng)R≠Rh,而,則時(shí),即Rh等于第h層Y對(duì)X的線性回歸函數(shù),此時(shí),,此時(shí),分別比估計(jì)的精度至少和聯(lián)合比估計(jì)一樣甚至更高。這意味著分別比估計(jì)由于聯(lián)合比估計(jì)有兩個(gè)前提條件:一是調(diào)查變量與輔助變量存在顯著的線性相關(guān)關(guān)系,這個(gè)前提對(duì)任何比估計(jì)都是成立的;二是各層的樣本容量都比較大,此時(shí)分別比估計(jì)要優(yōu)于聯(lián)合比估計(jì),否則,若一些層的樣本容量不足,分別比估計(jì)的偏倚會(huì)較大,而聯(lián)合比估計(jì)的精度會(huì)更高一些。
在回歸估計(jì)中,多數(shù)情況下,回歸系數(shù)需要利用樣本回歸系數(shù)進(jìn)行估計(jì),屬于有偏估計(jì)量,只有在大樣本情況下,才會(huì)漸進(jìn)無偏。少數(shù)情況下,當(dāng)回歸系數(shù)事先設(shè)定時(shí),估計(jì)量是無偏的。比較分別回歸估計(jì)和聯(lián)合回歸估計(jì)的方差:
利用輔助信息進(jìn)行分層隨機(jī)抽樣,在樣本的代表性方面提高了抽樣效率,這是分層隨機(jī)抽樣自身所具有的優(yōu)越性。當(dāng)利用這種優(yōu)越性得到樣本后,需要對(duì)總體的參數(shù)進(jìn)行估計(jì),利用輔助變量構(gòu)建分別比估計(jì)量、聯(lián)合比估計(jì)量、分別回歸估計(jì)量、聯(lián)合回歸估計(jì)量均能夠有效地改善簡(jiǎn)單估計(jì)的精度,其中回歸估計(jì)中的回歸系數(shù)可以是事先設(shè)定的常數(shù),也可以是從樣本得到的估計(jì)值。在大樣本的條件下,且輔助變量與目標(biāo)變量相關(guān)性有較高時(shí),比估計(jì)量和回歸估計(jì)量近似無偏且有效。在實(shí)際情況中,通常能夠獲得歷史資料或者與要研究問題高度相關(guān)的輔助量的資料,利用這些輔助資料,有助于做出更科學(xué)的估計(jì)。
事實(shí)上,在分層隨機(jī)抽樣條件下,對(duì)于輔助變量的利用實(shí)際上存在兩個(gè)角度,分別比估計(jì)量、聯(lián)合比估計(jì)量、分別回歸估計(jì)量、聯(lián)合回歸估計(jì)量是將輔助變量的信息利用于參數(shù)估計(jì)過程中。在實(shí)踐中,輔助變量的信息還被作為分層標(biāo)志應(yīng)用于對(duì)抽樣總體的分層,進(jìn)而采取簡(jiǎn)單估計(jì)??紤]樣本容量以及目標(biāo)變量與輔助變量相關(guān)程度的不同,這兩種利用輔助變量信息的方法,在估計(jì)效果上會(huì)存在差異,哪一種利用方法效果更好?這是值得進(jìn)一步研究的問題。
[1]金勇進(jìn),杜子芳,蔣妍.抽樣技術(shù)[M].北京:中國(guó)人民大學(xué)出版社,2008.
[2]趙俊康.統(tǒng)計(jì)調(diào)查中的抽樣設(shè)計(jì)理論與方法[M].北京:中國(guó)統(tǒng)計(jì)出版社,2002.
[3]馮士雍,倪加勛,鄒國(guó)華.抽樣調(diào)查理論與方法[M].北京:中國(guó)統(tǒng)計(jì)出版社,1998.
[4]劉琴,湯銀才.分層隨機(jī)抽樣中R的分別比估計(jì)量的可用性及其均方誤差的估計(jì)量[C].中國(guó)現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)學(xué)術(shù)年會(huì)論文集,2005.
[5]羅鈺瑩.分層抽樣下提高估計(jì)精度的探究[J].港澳經(jīng)濟(jì),2016,(23).
[6]陳兵,呂恕.有輔助信息可利用時(shí)的分層抽樣下樣本輪換研究[J].統(tǒng)計(jì)與決策,2014,(15).
(責(zé)任編輯/亦 民)
Comparison and Selection of Different Estimators Under Stratified Random Sampling
Wang Chunzhi1,2,Zhao Guojie1
(1.Department of Management and Economics,Tianjin University,Tianjin 300072,China;2.School of Statistics and Mathematics,Inner Mongolia Finance and Economics University,Hohhot 010070,China)
This paper takes stratified random sampling as an example to study the application of separate ratio estimator,combined ratio estimator,separate regression estimator and the combined regression estimator under the condition that the auxiliary variable is available,and on this basis assesses the bias of the estimators.The study result shows that compared with the simple estimation method,such indirect estimators are complex nonlinear estimators,and can improve the accuracy of simple estimation method;when the target variable is highly correlated with the auxiliary variable,all estimators are valid.
stratified random sampling;ratio estimation;regression estimation;auxiliary variable
0212
A
1002-6487(2017)19-0015-03
內(nèi)蒙古自然科學(xué)基金資助項(xiàng)目(2014MS0701)
王春枝(1976—),女,內(nèi)蒙古巴彥淖爾人,博士研究生,副教授,研究方向:技術(shù)經(jīng)濟(jì)及管理。
趙國(guó)杰(1950—),男,河北保定人,教授,博士生導(dǎo)師,研究方向:技術(shù)經(jīng)濟(jì)及管理。