王 燕
(信陽職業(yè)技術(shù)學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 河南 信陽 464000)
在數(shù)據(jù)獲取和分析的過程中,抽樣調(diào)查發(fā)揮著重要的作用。目前,在現(xiàn)有的排序集抽樣方法基礎(chǔ)上不斷出現(xiàn)新型的抽樣方法,例如中位數(shù)排序集抽樣方法(MRSS)以及極值排序集抽樣方法(ERSS)等。[1]在本文中主要通過對兩種抽樣方法的估計(jì)量進(jìn)行效率對比和實(shí)例的證明,從而證明中位數(shù)排序集抽樣方法對總體均值的比率具有更高的效率和準(zhǔn)確度。
在統(tǒng)計(jì)數(shù)據(jù)和分析數(shù)據(jù)的過程中,抽樣調(diào)查是重要的收集數(shù)據(jù)方法,在多個(gè)領(lǐng)域的統(tǒng)計(jì)調(diào)查以及市場數(shù)據(jù)的分析中都獲得較為廣泛的應(yīng)用,發(fā)揮著重要的數(shù)據(jù)統(tǒng)計(jì)處理的作用。在統(tǒng)計(jì)數(shù)據(jù)收集的環(huán)節(jié)中,通過普查所得的數(shù)據(jù)具有極高的全面性,也具有精準(zhǔn)度,但是考慮到實(shí)際數(shù)據(jù)統(tǒng)計(jì)的成本與時(shí)間并非無限度,因此難以在所有項(xiàng)目中都采取普查的方法收集數(shù)據(jù),缺乏實(shí)際可行性。例如,在調(diào)查池塘中所含有的微生物數(shù)量、調(diào)查某個(gè)省中小學(xué)生的平均體重和平均身高等,如此的調(diào)查實(shí)驗(yàn)如果采用全面普查的方法進(jìn)行收集數(shù)據(jù),將會需要投入大量的成本和時(shí)間,因此只能夠通過抽樣調(diào)查的方法來收集數(shù)據(jù)。與全面普查對比,抽樣調(diào)查具有著明顯的相對優(yōu)勢:一方面,大大地減少全面普查所帶來的巨大的費(fèi)用,節(jié)省調(diào)查的時(shí)間,加快了收集數(shù)據(jù)的速度;另一方面,選擇符合實(shí)際需求的抽樣方法,有利于提高收集數(shù)據(jù)的有效性。
通常情況下,基本的抽樣方法包括隨機(jī)抽樣方法、分層抽樣方法以及系統(tǒng)抽樣方法等。為了滿足生活與生產(chǎn)中實(shí)際問題統(tǒng)計(jì)數(shù)據(jù)的需求,統(tǒng)計(jì)學(xué)不斷發(fā)展,并且新的統(tǒng)計(jì)方法不斷誕生。排序集抽樣方法(RSS)是一種覆蓋基本抽樣方法優(yōu)點(diǎn)的新型抽樣方法,數(shù)量相同的測量樣本對象含有多方面的總體信息,有利于提高測量樣本的典型性和針對性,從而提高數(shù)據(jù)統(tǒng)計(jì)和估計(jì)的精確度。尤其對存在明顯排序特點(diǎn)但是收集統(tǒng)計(jì)數(shù)據(jù)較為困難的抽樣總體,采用排序集抽樣方法進(jìn)行數(shù)據(jù)收集,優(yōu)勢更為明顯。與此同時(shí),還可以通過成本高的調(diào)查統(tǒng)計(jì)數(shù)據(jù)的排序進(jìn)行數(shù)據(jù)分析。例如,對某公司新研發(fā)的商品在全國市場的銷售前景進(jìn)行估計(jì),必須保持產(chǎn)量處于適合的水平,才可以獲取最大的利益。在全國范圍內(nèi)對產(chǎn)品需求量進(jìn)行調(diào)查缺乏實(shí)際可行性,因此采取抽樣的方法進(jìn)行數(shù)據(jù)收集。產(chǎn)品需求量和人們的收入水平具有相關(guān)性,采用RSS的抽樣方法進(jìn)行抽樣。首先把全國省市劃分為不同的區(qū)域,隨機(jī)抽取5個(gè)樣本容量,即為5個(gè)排序樣本。如下所示:
采用Xi(j,5)表示人均收入樣本,其中i代表第i組,j代表第j個(gè)樣本,Xi(j,5)代表第i組第j個(gè)樣本。抽取 X1(1,5)、X2(2,5)、X3(3,5)、X4(4,5)、X5(5,5)作為測量樣本城市,對這幾個(gè)樣本城的商品需求量進(jìn)行調(diào)查,從中對全國商品需求量進(jìn)行估算,最后根據(jù)估算量確定商品的生產(chǎn)量。
排序集抽樣方法于1952年被提出,在1968年,相關(guān)學(xué)者對該種方法的數(shù)學(xué)性質(zhì)進(jìn)行了分析。后來經(jīng)過多位學(xué)者的改進(jìn),基本排序集抽樣方法誕生出多種新型的排序集抽樣方法。在1996年,極值排序集抽樣方法(ERSS)被提出,該方法適用于樣本數(shù)量為偶數(shù)的情況下,對每組樣本抽取最大值或者最小值,減少誤差,提高可操作性。[2]在1997年,中位數(shù)排序集抽樣方法(MRSS)被提出,收集數(shù)據(jù)的效率比極值抽樣方法收集數(shù)據(jù)的效率更加高,并且具有更小的方差。由于在樣本總體的統(tǒng)計(jì)分析過程中,均值具有著重要的統(tǒng)計(jì)意義,選擇均值來作為估計(jì)量對排序集抽樣方法的優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行分析,具有一定的參考意義。
中位數(shù)排序集抽樣方法在1997年被提出,具體的操作步驟:首先從樣本總體中抽取樣本組,容量為m,一共有m個(gè)樣本組,按照變量從小到大的順序進(jìn)行排序。當(dāng)m是偶數(shù)的時(shí)候,則從前面開始的m/2組選擇樣本組,次序?yàn)閙/2,然后從后面開始的m/2組選擇樣本組,次序?yàn)椋╩+2)/2;當(dāng)m是奇數(shù)的時(shí)候,則選擇每個(gè)樣本組的中位數(shù),一共有m個(gè)樣本測量對象。[3]
極值排序集抽樣方法在1996年被提出,具體的抽樣步驟:從樣本總體中選擇樣本組,一共有m組,每個(gè)樣本組容量為m,按照變量從小到大的順序進(jìn)行排序。當(dāng)m是偶數(shù)的時(shí)候,則從前面的m/2組選擇樣本,選擇樣本組中最小的樣本,然后從后面的m/2組選擇最大的樣本;當(dāng)m是奇數(shù)的時(shí)候,則從前面的m-1/2組選擇最小的樣本,從后面的m-1/2組選擇最大的樣本,在前面m-1/2組和后面m-1/2組之間的中間組選擇中位數(shù)。如此以來通過極值排序集抽樣的方法獲得m個(gè)測量樣本。[1]
假如目標(biāo)變量為Y、輔助變量為(X,Y)屬于一個(gè)二維總體,關(guān)系函數(shù)表示為f(X,Y),采用(Ux,Uy)表示均值。從樣本總體中抽取隨機(jī)樣本,記錄為(X1,Y1),(X2,Y2),…,(Xn,Yn),已知條件為總體均值Ux,變量的總體均值Uy比率估計(jì)為
Uysrs=Ysrs/Xxrs*Ux;
Ysrs=1/n∑Yi,Xsrs=1/n∑Xi表示樣本均值。[5]根據(jù)相關(guān)文獻(xiàn)證明,隨機(jī)抽樣方法對總體均值的比率進(jìn)行估計(jì)具有無偏性。
(1)根據(jù)上述中位數(shù)排序集抽樣的方法抽取檢測樣本對象,當(dāng)m為偶數(shù)的時(shí)候,排序集如下所示:
此時(shí),測量樣本記錄為
總體均值為Uymrss=(Ymrss/Xmrss)Ux,Ymrss和Xmrss為樣本均值。
(2)當(dāng)m為奇數(shù)的時(shí)候,排序集如下所示:
此時(shí),測量樣本記錄為
樣本均值為 Xmrss=1/n*∑Xi((n+1)/2),Ymrss=1/n∑Yi((n+1)2)
采用中位數(shù)排序集抽樣方法對總體均值進(jìn)行比率估計(jì)在整體上要比隨機(jī)抽樣方法對均值的估計(jì)要更為理想。[6]
綜上,中位數(shù)排序集抽樣方法是在基本排序集抽樣方法的基礎(chǔ)獲得的改進(jìn)方法。采用中位數(shù)排序集抽樣方法對總體均值的比率進(jìn)行估計(jì),不僅具有基本排序集抽樣方法的優(yōu)點(diǎn),具有漸進(jìn)性,同時(shí)與隨機(jī)抽樣方法均值估計(jì)方法對比具有更高的統(tǒng)計(jì)效率。
[1]董曉芳,張良勇.基于中位數(shù)排序集抽樣的非參數(shù)估計(jì)[J].數(shù)理統(tǒng)計(jì)與管理,2013(3):463-465.
[2]張建軍,喬松珊.正態(tài)總體下參數(shù)的優(yōu)化極大似然估計(jì)方法[J].統(tǒng)計(jì)與決策,2012(2):16-17.
[3]張良勇,董曉芳.基于中位數(shù)排序集抽樣的符號檢驗(yàn)[J].統(tǒng)計(jì)與決策,2013(14):76-78.
[4]董曉芳,崔利榮,張良勇.基于廣義排序集樣本的分位數(shù)估計(jì)[J].北京理工大學(xué)學(xué)報(bào),2013(2):214-216.
[5]張建軍,喬松珊.中位數(shù)排序集抽樣下總體均值的比率估計(jì)方法[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2015(1):47-48.