楊屹
摘要:本文通過研究抽樣調(diào)查中的PPS抽樣,發(fā)現(xiàn)實(shí)現(xiàn)這個(gè)方法的代碼法和拉希里方法存在著緊密的聯(lián)系,通過一個(gè)全新的視角看待拉希里方法,發(fā)現(xiàn)拉希里方法和代碼法本質(zhì)上是一樣的,代碼法是PPS抽樣的一維表現(xiàn)形式,而拉希里方法是PPS抽樣的二維表現(xiàn)形式。他們僅僅是表現(xiàn)方式上的差異,其本源是一樣的。
關(guān)鍵詞:PPS抽樣;代碼法;拉希里方法;一一對(duì)應(yīng)
1.背景介紹
調(diào)查這種古老的方法,自古有之,古代就有調(diào)查的例子,不過限于當(dāng)時(shí)的科技水平,調(diào)查的方法往往比較簡(jiǎn)單單一,隨著現(xiàn)代經(jīng)濟(jì)的發(fā)展,社會(huì)變得越來越復(fù)雜,簡(jiǎn)單的調(diào)查方法不能夠適應(yīng)實(shí)際的需要,于是就出現(xiàn)了很多現(xiàn)代意義上的調(diào)查方法。這些調(diào)查方法有的精妙絕倫,有的簡(jiǎn)單易行,各有千秋。
而近代抽樣調(diào)查這么學(xué)科的開端是在1895年,當(dāng)時(shí)的挪威統(tǒng)計(jì)學(xué)家凱爾在國(guó)際統(tǒng)計(jì)學(xué)會(huì)第五屆大會(huì)上首先提出了抽樣的科學(xué)概念,抽樣就是用代表性樣本方法來代替全面的調(diào)查,這樣抽樣就有了科學(xué)的意義,抽樣這么學(xué)科也才有了真正的意義,之后,隨著時(shí)間的推進(jìn),各種抽樣的方法層出不窮,我們?cè)谶@里不一一列舉。
抽樣調(diào)查根據(jù)抽取樣本概率的不同,非為概率抽樣和非概率抽樣。抽樣調(diào)查的目的是根據(jù)樣本的情況推斷總體的情況。與全面調(diào)查相比,抽樣調(diào)查有其獨(dú)特的優(yōu)勢(shì),第一,與全面調(diào)查相比,抽樣調(diào)查調(diào)查的樣本要少很多,減少了很多工作量,提高了效率,又由于其科學(xué)性,所以其效果卻不必抽樣調(diào)查差多少。所以抽樣調(diào)查逐步取代了全面調(diào)查,是全面調(diào)查望塵莫及。然而在抽樣調(diào)查的發(fā)展過程中,建立在概率論上的概率抽樣由于其方法和理論的科學(xué)性,逐步取代了有目的抽樣,也使其它非概率抽樣銷聲匿跡。從1933年開始,世界將概率抽樣理論研究提高到了一個(gè)新的高度,將概率抽樣的實(shí)際應(yīng)用推進(jìn)到了一個(gè)更廣闊的領(lǐng)域。在經(jīng)濟(jì)社會(huì)中扮演著越來越重要的角色。
抽樣調(diào)查由于其科學(xué)性的理論依據(jù)在現(xiàn)代的社會(huì)中發(fā)揮著越來越多的作用,不僅僅是在經(jīng)濟(jì)部門中,在其他社會(huì)科學(xué)和醫(yī)學(xué)中也發(fā)揮著重要的作用,沒有抽樣調(diào)查,可以說好多研究就沒法進(jìn)行,沒有抽樣調(diào)查,好多社會(huì)部門都不能運(yùn)轉(zhuǎn)了,現(xiàn)代社會(huì)越來越離不開抽樣調(diào)查了。他已經(jīng)和我們的生活有了千絲萬縷的聯(lián)系,抽樣調(diào)查已經(jīng)深入到我們生活的方方面面,他也發(fā)揮了舉足輕重的作用。這就是抽樣調(diào)查在我們的生活科研中的真實(shí)面貌。總之,抽樣已經(jīng)和我們的生活有機(jī)的聯(lián)系在一起了,已經(jīng)密不可分,難舍難分了。
我們這里主要討論不等概抽樣當(dāng)中的PPS抽樣,即與規(guī)模成比例的放回不等該抽樣。實(shí)行PPS抽樣的方法主要有兩種,一種是代碼法,另一種是拉希里法,一般來說,代碼法適合總體單元數(shù)不是很多的情況,而當(dāng)總體單元數(shù)很大的時(shí)候,就采用拉希里法。代碼法簡(jiǎn)單易懂,往往容易接受,但拉希里法有一個(gè)判斷與決策的過程。過程略顯復(fù)雜,不易被人看懂其中的奧妙。本文就是通過解剖拉希里法,來探索其中的奧秘,發(fā)現(xiàn)拉希里方法本質(zhì)上是代碼法在二維上的一個(gè)推廣[1]。
PPS抽樣簡(jiǎn)介,PPS抽樣,即概率與規(guī)模成比例的抽樣,是一種非常常見的有放回的不等概抽樣方法。因?yàn)榭傮w中各抽樣單元的規(guī)模可能差別很大,造成各抽樣單元的地位不相等。若這時(shí)仍然采取簡(jiǎn)單隨機(jī)抽樣的方法,會(huì)產(chǎn)生很大的抽樣誤差。例如:各個(gè)工廠的抽樣調(diào)查,由于各個(gè)工廠或者企業(yè)的規(guī)模差別相當(dāng)大,如果仍然按原來的簡(jiǎn)單隨機(jī)抽樣,會(huì)造成非常小的工廠和非常大的工廠被抽中的概率相等,這與實(shí)際顯然不符合。
假設(shè)某個(gè)總體有N個(gè)單元,假如每一個(gè)單元都有表明其規(guī)模大小的一個(gè)度量,那么就設(shè)第i個(gè)單元的規(guī)模為Mi,于是,自然而然的,總體的總規(guī)模就是M0=∑Ni=1Mi,假如每個(gè)單元的概率設(shè)為Ni=MiM0,由此可見,概率與規(guī)模成正比,這就意味著,在每次抽取的過程中,每個(gè)單元的入樣概率與其規(guī)模的大小成比例,這種放回的與規(guī)模成比例的概率抽樣就是所謂的PPS抽樣[2]。
代碼法簡(jiǎn)介,代碼法又稱累計(jì)和法,其過程是這樣的,在PPS抽樣中,設(shè)第i個(gè)單元的規(guī)模為Mi,就是它的代碼數(shù),那么總規(guī)模M0,就是累計(jì)代碼數(shù)??傮w所有的單元排列好順序后,單元1對(duì)應(yīng)自然數(shù)1到M1,單元2對(duì)應(yīng)自然數(shù)數(shù)M1+1到M1+M2,單元3對(duì)應(yīng)自然數(shù)數(shù)M1+M2+1到M1+M2+M3,重復(fù)此過程,一直累計(jì)代碼到M0。每次抽取的時(shí)候,就在1,M0內(nèi)產(chǎn)生一個(gè)隨機(jī)數(shù),設(shè)為m0,那么代碼m0對(duì)應(yīng)的單元就會(huì)被抽中,這就是一個(gè)樣本量的抽取過程,依次重復(fù)這樣的過程n次,便得到一個(gè)樣本量為n的PPS樣本。
拉希里方法簡(jiǎn)介,拉希里法又稱最大規(guī)模法,其具體的過程是這樣的,在區(qū)間1,N內(nèi)產(chǎn)生一個(gè)隨機(jī)數(shù),設(shè)為i,那么就對(duì)應(yīng)單元i,其規(guī)模就是Mi;令M=max1≤i≤N(Mi),就是所有單元規(guī)模中的最大者。接著,在區(qū)間1,M內(nèi)產(chǎn)生一個(gè)隨機(jī)數(shù),設(shè)為m;最后決策:若m≤Mi,則單元i被抽中,反之無效,重新再抽;重復(fù)以上步驟,直到抽出n個(gè)樣本單元[3]。
2.兩者之間的關(guān)系的探討
從表面上看起來,代碼法與拉希里法似乎是兩種完全不同的方法,分馬牛不相及,代碼法是把各個(gè)單元的規(guī)模累加起來,然后選取一個(gè)單元,而拉希里法是是最大規(guī)模進(jìn)行比較來判斷是不是抽中這個(gè)單元。但實(shí)際上,它們卻存在著千絲萬縷的關(guān)系,而且本質(zhì)幾乎是大同小異。可以這樣說,拉希里法是對(duì)代碼法維數(shù)上的推廣,把一維的代碼法推廣到二維的情況,這種推廣實(shí)際上是對(duì)總體單元數(shù)過于龐大的缺陷進(jìn)行的改進(jìn),是通過增加判斷與決策的過程來實(shí)現(xiàn)的,其原因是在把代碼法推廣到二維上的時(shí)候,我們的抽樣會(huì)產(chǎn)生一些冗余,我們所要做的就是把這些冗余給去掉,改進(jìn)抽樣的效率,防止抽樣變的不可靠。
接下來,本文來討論這兩種方法之間的內(nèi)在聯(lián)系性。把拉希里法所有可能產(chǎn)生的i和m分別作為矩陣中每個(gè)元素的第一分量和第二分量,則就夠成了一個(gè)N行,M*列的矩陣。為了便于表述,假設(shè)規(guī)模Mi之間存在如下的關(guān)系:M1≤M2≤…≤MN=M。其余情況類似。矩陣如下圖所示:
1,11,2…1,M1…2,12,2…2,M1………………N,1N,2…N,M1…1,M22,M2…N,M2…………1,M2,M…N,M
在本文當(dāng)中,稱每一次由拉希里方法產(chǎn)生的i,m為一個(gè)坐標(biāo)點(diǎn),當(dāng)m≤Mi時(shí),本文稱這樣的坐標(biāo)點(diǎn)是有效坐標(biāo)點(diǎn),即不需要再進(jìn)行抽取,已經(jīng)產(chǎn)生一個(gè)樣本。當(dāng)m>Mi時(shí),本文稱這樣的坐標(biāo)點(diǎn)為無效坐標(biāo)點(diǎn),即還要進(jìn)行抽取,還沒有產(chǎn)生一個(gè)樣本。
接下來,由拉希里方法的過程可以知道,并不是每次抽取的坐標(biāo)點(diǎn)都是有效的,即要對(duì)這些左邊點(diǎn)進(jìn)行篩選,選取那些有效坐標(biāo)點(diǎn)。篩選之后的矩陣如下圖所示:
1,11,2…1,M12,12,2…2,M1………………N,1N,2…N,M1…2,M2…N,M2………N,M
然后,構(gòu)造一個(gè)映射:f: a,b|c
c=ba=1∑Ma-1i=1Mi+ba≥2 1≤a≤N,a∈N,1≤b≤Mab∈N
不難知道,把矩陣當(dāng)中的有效坐標(biāo)點(diǎn)代入到這個(gè)映射當(dāng)中的時(shí)候,得到的c就是代碼法當(dāng)中m0。反過來,給定一個(gè)m0,也可以求出唯一的一個(gè)坐標(biāo)點(diǎn)a,b,這樣,代碼法和拉希里方法就建立起了一個(gè)一一對(duì)應(yīng)的關(guān)系。
從這個(gè)一一對(duì)應(yīng)的關(guān)系可以看出,代碼法的本質(zhì)就是從從一個(gè)一維的正整數(shù)集合中選取一個(gè)數(shù),只是由于有時(shí)候這個(gè)集合所包含的元素太多,會(huì)造成操作上和計(jì)算上的麻煩。而拉希里方法的本質(zhì)就是從一個(gè)矩陣當(dāng)中隨機(jī)的選取一個(gè)坐標(biāo)點(diǎn)的過程,當(dāng)這個(gè)坐標(biāo)點(diǎn)是無效坐標(biāo)點(diǎn)的時(shí)候,即這個(gè)點(diǎn)在我們抽樣的實(shí)際操作過程中沒有意義的時(shí)候,我們就選擇舍棄,然后重新選取,直到取到一個(gè)有效坐標(biāo)點(diǎn),即那個(gè)坐標(biāo)點(diǎn)符合我們抽樣中的實(shí)際意義。
不難發(fā)現(xiàn),從代碼法拓展到拉希里法的時(shí)候,我們抽樣空間的維數(shù)發(fā)生了變化,從原來的一維變化到了后來的二維。維數(shù)的增加雖然增加了操作步驟上的麻煩,但是卻大大減少了計(jì)算量,這是從代碼法到拉希里法的一個(gè)明顯的變化。從代碼法拓展到拉希里法的時(shí)候,另一個(gè)重要的變化是,增加了很多無效坐標(biāo)點(diǎn),即出現(xiàn)了一些沒有實(shí)際意義的坐標(biāo)點(diǎn),這些坐標(biāo)點(diǎn)的出現(xiàn),使拉希里方法的操作過程變得不怎么干凈利落,有很大的冗余程度,就是每一次隨機(jī)選取一個(gè)坐標(biāo)點(diǎn)的時(shí)候,并不是每個(gè)坐標(biāo)點(diǎn)都是有實(shí)際意義的。在在一定程度上降低了拉希里方法操作上的便利。然而,究其原因,出現(xiàn)這些無效坐標(biāo)點(diǎn)是由于每個(gè)個(gè)體的規(guī)模存在著不同,在從一維拓展到二維的時(shí)候出現(xiàn)了一些沒有實(shí)際意義的點(diǎn)。有時(shí)候,這些無效坐標(biāo)點(diǎn)帶來的弊端可能是無法容忍的,它會(huì)大大降低抽樣的效率,即抽到一個(gè)樣本所付出的成本。但一般情況下這些無效點(diǎn)帶來的弊端不是這么大,所以綜合以上情況,拉希里方法對(duì)處理單元的數(shù)量比較多和單元的規(guī)模參差不齊的時(shí)候,還是優(yōu)于代碼法的。
那么究竟對(duì)于什么的情況,拉希里方法的效率比較低呢,通過上面的矩陣不難發(fā)現(xiàn),就是當(dāng)最大規(guī)模特別大,而其余的規(guī)模比較小的時(shí)候,冗余程度會(huì)特別大,當(dāng)然也不止這種情況,這只是一種非常特殊的情況,總的來看,就是當(dāng)各個(gè)抽樣的單元差別越大的時(shí)候,抽樣的效率會(huì)越低,當(dāng)各個(gè)抽樣的單元差別越小的時(shí)候,抽樣的效率會(huì)比較高,這也不難理解,從我們的矩陣當(dāng)中分析,就一目了然。
3.結(jié)論
本文通過比較和分析PPS抽樣中的代碼法和拉希里方法,發(fā)現(xiàn)了拉希里方法其實(shí)是代碼法的推廣,代碼法是從一個(gè)一維空間中抽取一個(gè)元素,而拉希里方法是從一個(gè)二維空間中抽取一個(gè)元素,但兩者有異曲同工之妙。這兩種方法之間還在某種程度上存在著一一對(duì)應(yīng)的關(guān)系,這種關(guān)系其實(shí)還反映出這兩種方法本質(zhì)上是一樣的,只是我們的觀察的角度不一樣。從代碼法拓展到拉希里方法的時(shí)候,雖然增加了操作的步驟,但大大簡(jiǎn)化了計(jì)算的復(fù)雜度,此可謂此消彼長(zhǎng)。
本文還分析了拉希里方法什么時(shí)候抽樣的效率比較大,什么時(shí)候抽樣的效率比較小,當(dāng)各個(gè)單元的規(guī)模相差很大的時(shí)候,拉希里方法的冗余度就會(huì)增加,抽樣效率會(huì)降低,當(dāng)各個(gè)單元的規(guī)模相差很小的時(shí)候,拉希里方法的冗余度就會(huì)降低,抽樣效率會(huì)增加。
4.展望
本文通過比較和分析PPS抽樣中的代碼法和拉希里方法,發(fā)現(xiàn)了拉希里方法和代碼法的內(nèi)在的聯(lián)系,他們的本質(zhì)都是同一個(gè)道理,如果按照數(shù)學(xué)的說法,一個(gè)便是是一維的表現(xiàn)形式,另一個(gè)便是二維的表現(xiàn)形式,但是他們的本質(zhì)都是一樣的,所以我們有必要發(fā)問,那么一維的代碼法和二維的拉希里法是否存在高維的拓展形式呢,如果存在高維的拓展形式,他們到底是怎么樣的呢,這就需要我們繼續(xù)去探討代碼法和拉希里法的本質(zhì)然后把它拓展到高維的形式,這是本篇文章沒有解決的問題,要繼續(xù)探索這些問題,有待我們進(jìn)一步的深入探討。(作者單位:首都經(jīng)濟(jì)貿(mào)易大學(xué))
參考文獻(xiàn)
[1]Kish L. Survey Sampling[M].New York: John Wiley & Sons,1965.
[2]金勇進(jìn).抽樣技術(shù)[M].北京:中國(guó)人民大學(xué)出版社,2002.
[3]孫山澤.抽樣調(diào)查[M].北京:北京大學(xué)出版社,2004.