張維群,尤靖琛
(西安財經(jīng)大學(xué) 統(tǒng)計學(xué)院,陜西 西安 710100)
空間抽樣方法廣泛應(yīng)用于農(nóng)業(yè)、人口和自然資源等領(lǐng)域的總體推斷中,通常將研究區(qū)域按照特定方式劃分成互不重疊的面積單元,形成區(qū)域抽樣框[1]8-9,并采用一定的抽樣方法抽取具有代表性的樣本單元,利用樣本信息實現(xiàn)對總體特征的推斷。由于區(qū)域劃分方式可變,所形成的不同抽樣框中樣本的代表性有所差異,因此,空間抽樣調(diào)查結(jié)果往往受到樣本單元尺寸和形狀的影響。而實際應(yīng)用中,單元尺寸的設(shè)計一般采用經(jīng)驗方法予以確定,由于區(qū)域抽樣框的尺度效應(yīng),不同單元尺寸抽樣框的抽樣估計精度和調(diào)查成本也有所不同,科學(xué)地設(shè)計抽樣單元尺寸對于提高空間抽樣估計精度和節(jié)約調(diào)查成本均具有現(xiàn)實意義。
目前,文獻對于單元尺寸確定問題的理論研究存在一些探索性的思想,給出了確定單元尺寸的思路,但并未形成科學(xué)的理論體系。在空間抽樣實踐中,人們首先發(fā)現(xiàn)了抽樣框的尺度效應(yīng),認為抽樣框中單元的尺寸影響著抽樣估計精度,González通過對單元尺寸和估計量方差進行相關(guān)分析,提出了優(yōu)化單元尺寸的思想[2];與此同時,Carfagna和Gallgeo通過對單元尺寸與方差間的相關(guān)關(guān)系圖分析,給出了優(yōu)化單元尺寸的思路[3];在空間抽樣的實踐中,張錦水等在對冬小麥種植面積空間分層抽樣效率的影響因素分析中,也發(fā)現(xiàn)方差的大小與單元尺寸有著明顯的相關(guān)關(guān)系,并且伴隨著網(wǎng)格尺寸的增大,抽樣方差也會增大[4]。以上文獻考慮了抽樣單元尺寸對總體估計有效性的影響,提出了優(yōu)化空間單元尺寸的思想,但沒有給出精確確定單元尺寸的數(shù)理方法,使得所確定的單元尺寸對于提高總體推斷精度的效果有限。從尺度效應(yīng)的內(nèi)容來看,空間抽樣單元尺寸不僅影響著總體估計量方差,還影響著抽樣成本與樣本容量等方面。王迪等利用空間自相關(guān)系數(shù)與抽樣單元尺寸的關(guān)系進行單元尺寸初選,并且以相對誤差、變異系數(shù)和樣本容量為抽樣效率評價指標,通過定量分析不同單元尺寸的抽樣效率,實現(xiàn)對抽樣單元尺寸的優(yōu)選[5]。有關(guān)文獻對于確定空間抽樣最優(yōu)單元尺寸的思路不盡相同,歸納起來有以下幾方面的思想:基于遙感影像分辨率確定單元尺寸的最小下限;從調(diào)查成本角度給出單元尺寸的最大上限;基于空間分層抽樣識別性考慮的單元尺寸不超過最小層面積的思想;基于空間單元獨立性要求的單元尺寸確定方法。但是,文獻對于單元尺寸如何影響調(diào)查成本并未討論。此外,目前的文獻通常是在指定一部分單元尺寸中選擇最優(yōu),并非是單元尺寸全部定義域內(nèi)的全局最優(yōu)尺寸,缺乏單元尺寸確定方法的科學(xué)設(shè)計。因此,本文擬從單元尺寸對估計精度和調(diào)查成本影響入手,提出一種確定最優(yōu)單元尺寸的方法,使得空間抽樣方案中單元尺寸設(shè)計具有一定的科學(xué)性。
本文通過分析單元尺寸對調(diào)查成本和估計精度的影響,構(gòu)造空間抽樣的成本函數(shù)和樣本方差統(tǒng)計量;結(jié)合單元標志值及其地理信息擬合標志值函數(shù),構(gòu)建成本約束下使樣本方差達到最小的目標函數(shù),以此確定最優(yōu)的抽樣單元尺寸;同時對目標總體進行估計,據(jù)此討論最優(yōu)單元尺寸確定方法的優(yōu)良性。
在空間抽樣問題研究中,將研究區(qū)域劃分為“不重不漏”的抽樣單元,以形成空間抽樣調(diào)查區(qū)域抽樣框。研究區(qū)域可被劃分成規(guī)則的格子或柵格,也可以分為不規(guī)則的抽樣單元,為了方便抽樣設(shè)計過程,增加實際調(diào)查可操作性,通常劃分調(diào)查區(qū)域形成面積相等的正方形網(wǎng)格抽樣框進行抽樣。
在傳統(tǒng)的抽樣調(diào)查中,調(diào)查成本通常分為固定成本和可變成本兩部分。固定成本是指組織實施一次調(diào)查必須花費且固定不變的成本,包括調(diào)查方案設(shè)計、人員的培訓(xùn)等方面的費用??勺兂杀臼请S著樣本容量的大小而改變的成本,包括調(diào)查資料準備、調(diào)查者勞動報酬等方面的費用。傳統(tǒng)抽樣調(diào)查的成本函數(shù)定義為:
C=C0+nC1
其中,第一項C0是固定成本部分;第二項為可變成本部分,C1是調(diào)查的單位成本,n是抽樣調(diào)查的樣本量。
謝邦昌認為,抽樣調(diào)查的成本可以看作是樣本量n、抽樣單位大小x、抽樣概率p和調(diào)查范圍s的一個函數(shù),即:
C=f(n,x,p,s)
成本常隨著樣本大小與調(diào)查范圍的增大而增大;而樣本內(nèi)基本單位個數(shù)相同時又隨著抽樣單位的增大而縮小[6]24-25。
與傳統(tǒng)抽樣的成本函數(shù)相比,空間調(diào)查成本除了受到樣本量的影響外,還有抽樣單位大小x和調(diào)查范圍s的影響??臻g抽樣中,抽樣單位是地理空間上區(qū)域網(wǎng)格抽樣框的每一小格,顯而易見,當格子單元的尺寸增大時,抽樣單位大小x隨之增大,在其它因素不變的情況下樣本區(qū)域的調(diào)查成本將有所提高;調(diào)查范圍s對成本的影響主要體現(xiàn)在樣本分布的疏密程度上,其它影響因素不變時,調(diào)查范圍越大,樣本在空間上分布越松散,在各樣本點之間轉(zhuǎn)移時所形成的交通成本也越高。
基于樣本量、抽樣單位大小和調(diào)查范圍對空間抽樣調(diào)查成本的作用機理,以及平均最近鄰距離理論,構(gòu)建空間簡單隨機抽樣的成本函數(shù)為:
(1)
其中,C0是固定成本;C1是單位交通成本;a是空間區(qū)域抽樣框的單元面積,na是調(diào)查的總面積;C2是調(diào)查的單位面積成本。
傳統(tǒng)的抽樣調(diào)查中,由于標志值大的單位對總體總量的影響比標志值小的單位大得多,因此使標志值大的單位具有較大的入樣概率,此時所采用的不等概率抽樣比采用相同概率抽樣得到的估計更有效[8]。在不等概率抽樣法中,比例抽樣法以其實施方便、數(shù)據(jù)處理簡單的特點,廣泛應(yīng)用于實際抽樣調(diào)查[9]。使用比例抽樣法時,樣本大小的度量常與研究標志的某個輔助變量的值有關(guān),單位被抽取的概率與輔助變量的大小成比例,如短時間內(nèi)地區(qū)的勞動力、資本等生產(chǎn)要素不會發(fā)生大的變化,所以可以將某一時期的地區(qū)生產(chǎn)總值作為下一期經(jīng)濟抽樣調(diào)查的參考。一般情況下,空間單元的標志值與其單元面積呈現(xiàn)正向關(guān)系,單元面積大的抽樣框中各單元標志值的水平整體比小尺寸抽樣框的標志值高,抽樣估計時,不同尺寸單元的標志值對于目標總體的影響不盡相同。因此,遵循不等概率抽樣中“標志值大的單位具有較大入樣概率”的思想,將空間單元面積的大小作為輔助指標,以衡量單元指標值對總體總量的影響,采用放回抽樣法進行抽樣,則有總體總量的無偏估計量為:
(2)
(3)
遵循傳統(tǒng)抽樣理論中“控制成本,使方差達到最小”的最優(yōu)決策思想,為了使方差盡可能小,從式(3)中可以看出,當單元面積為a時,增加樣本量n能夠有效降低總體估計量的方差,但由于調(diào)查經(jīng)費的限制,樣本量不可能無限增大。當成本固定為CT時,樣本量n隨抽樣單元面積a的變化而改變,記可變成本為Cv=CT-C0,由式(1)可得樣本量:
(4)
顯然,式(4)表明樣本單元尺寸大小也影響著樣本量的大小,故取給定預(yù)算下的最大樣本量用以估計總體,此時的總體總值估計量即為抽樣單元面積為a時的有效估計。
當單元尺寸較大時,各個面積單元內(nèi)總量指標值較大,同時由于空間單元的異質(zhì)性特征,即使面積相同的單元,在不同地理位置上所表現(xiàn)的觀測值也不同,因此面積抽樣框中各單元的標志值Yi可以用關(guān)于經(jīng)度值Z1、緯度值Z2和單元尺寸(面積)a的函數(shù)來表示,即Yi=Y(Z1,i,Z2,i,a),結(jié)合式(4),得樣本方差:
(5)
當總成本控制為CT時,單元尺寸a的變化會引起抽樣樣本方差的變化。樣本方差值較小時,在一次抽樣中估計值落在總體真值附近的概率較大,此時估計的精度也就越高。因此,固定總成本時使樣本方差達到最小值的抽樣單元尺寸即為成本約束下最優(yōu)單元尺寸。對式(5)關(guān)于a求偏導(dǎo),令導(dǎo)函數(shù)等于零,有:
(6)
由于面積抽樣框中各單元的值yi是關(guān)于其經(jīng)度值Z1、緯度值Z2和單元尺寸(面積)a的函數(shù),即Yi=Y(Z1,i,Z2,i,a)。假設(shè)Yi=Y(Z1,i,Z2,i,a)是關(guān)于各參數(shù)連續(xù)可導(dǎo)的函數(shù),通過泰勒展開可表示為一個無限多項式,不妨令Yi=Y(Z1,i,Z2,i,a)近似為二次多項式:
(7)
(8)
(9)
生產(chǎn)要素的空間分布往往呈現(xiàn)不均衡的特性[10]。經(jīng)濟活動的本質(zhì)是追求利潤的最大化,這驅(qū)使了生產(chǎn)要素和經(jīng)濟活動在地理空間上的流動。生產(chǎn)要素的流動造成了不同地區(qū)經(jīng)濟活動的空間關(guān)聯(lián),即空間維度上的交互作用[11]。它是區(qū)域經(jīng)濟發(fā)展的重要影響因素,從經(jīng)濟學(xué)角度出發(fā),人們更傾向于將這種交互作用稱為空間溢出效應(yīng)[12]。經(jīng)濟學(xué)研究中,通常將行政區(qū)劃作為研究的基本單元[13-17]。假定在單元內(nèi)的生產(chǎn)要素是同質(zhì)的,然而實際情況并非如此,即使在同一行政區(qū)域內(nèi),不同地區(qū)的生產(chǎn)要素結(jié)構(gòu)也有所差異。一般來說,距離近的地區(qū)生產(chǎn)要素結(jié)構(gòu)具有較強的相似性,這種相似性隨著距離的增大逐漸減小。如果以行政區(qū)劃作為研究的基本單元,往往會將相似度高的區(qū)域劃分到不同的單元內(nèi),影響經(jīng)濟問題的分析。此時,若基于以規(guī)則網(wǎng)格劃分地理區(qū)域形成的基本單元進行研究,可以很大限度上保證單元內(nèi)生產(chǎn)要素的同質(zhì)性,有利于準確分析經(jīng)濟學(xué)機理。
本文數(shù)據(jù)源于2015年陜西省107個區(qū)縣的地區(qū)GDP,總體總量為17 687.84億元。用ArcGIS處理地圖時,以陜西最南緯度線與最西經(jīng)度線的交點為坐標原點,建立抽樣方案設(shè)計的坐標系,此時坐標原點對應(yīng)基礎(chǔ)坐標系點(264.89,3 510.20),單位為千米,即U=264.89km,V=3 510.20km。由于陜西省的行政區(qū)劃并非規(guī)則的正方形網(wǎng)格,往往存在一個抽樣單元橫跨多個區(qū)縣或者一區(qū)縣被分為多個抽樣單元的情況,此時該區(qū)縣的地區(qū)生產(chǎn)總值并不等同于這一個或多個抽樣單元的觀測值。因此,對于每一個抽樣單元,以其覆蓋的各區(qū)縣面積占該區(qū)縣的總面積為權(quán)重,定義多個區(qū)縣地區(qū)生產(chǎn)總值的加權(quán)平均數(shù)為此抽樣單元的標志值,表示為:
(10)
其中,Yi抽樣單元包含了k個區(qū)縣的區(qū)域,sj為該抽樣單元中第j個區(qū)縣所占的面積,Sj為第j個區(qū)縣的總面積,GDPj為第j個區(qū)縣的GDP值。以20×20km2的正方形網(wǎng)格抽樣框為例,抽樣單元數(shù)據(jù)分布如圖1。
圖1顯示,就地區(qū)生產(chǎn)總值的整體水平而言,關(guān)中地區(qū)的地區(qū)生產(chǎn)總值最高,陜北地區(qū)次之,陜南地區(qū)的地區(qū)生產(chǎn)總值最低。就地區(qū)生產(chǎn)總值的空間格局來看,陜西省各個城市市轄區(qū)的地區(qū)生產(chǎn)總值較高,抽樣單元GDP隨著與各市轄區(qū)的距離增大呈逐漸減小的趨勢,說明陜西省各市轄區(qū)的經(jīng)濟發(fā)展對其周邊地區(qū)的經(jīng)濟有一定的帶動作用。
圖1 2015年陜西省地區(qū)生產(chǎn)總值空間分布圖
在陜西省地圖的基礎(chǔ)上,用大小相等、整齊排列的正方形網(wǎng)格分割地圖以形成區(qū)域抽樣框,其中的單元面積從25km2至2 700km2,共形成50個水平的抽樣框。根據(jù)式(10)定義每種水平區(qū)域抽樣框中各抽樣單元的指標值,并記錄每一個抽樣單元的中心經(jīng)度值、中心緯度值和單元面積,擬合得標志值函數(shù):
(11)
式(11)顯示各樣本單元的標志值隨著緯度的升高和單元尺寸的擴大呈增大的趨勢。根據(jù)式(8)、式(9),得到:
(12)
(13)
不妨令總成本CT為10 000,固定成本C0為500,單位交通成本C1為2,單位面積成本C2為1。若總成本只能夠調(diào)查一個樣本,得maxa=9 046km2。將各成本參數(shù)代入成本約束下確定最優(yōu)單元尺寸關(guān)系式(6),結(jié)合式(12)、式(13),解得最優(yōu)抽樣單元尺寸a=220.851 1km2(如圖2);根據(jù)式(4),有樣本量ns=31。
圖2 總體總值樣本方差關(guān)于抽樣單元尺寸的偏導(dǎo)函數(shù)圖
為了避免地圖制圖誤差對抽樣效率的影響,在最優(yōu)單元尺寸面積的基礎(chǔ)上分別加減30km2和60km2,以新的單元尺寸劃分陜西省2015年地區(qū)生產(chǎn)總值,以形成新的區(qū)域抽樣框。在成本約束下,分別計算基于各面積抽樣框的成本、樣本量、總體總值估計量、相對標準誤及其方差,結(jié)果如表1。
表1顯示,在相同的成本約束下,基于最優(yōu)單元尺寸220.8511km2所構(gòu)建的空間區(qū)域抽樣框?qū)τ陉兾魇〉貐^(qū)生產(chǎn)總值的估計精度明顯高于非最優(yōu)單元尺寸的抽樣框。同時可以看出,由于空間抽樣調(diào)查的總成本限制,隨著抽樣單元尺寸的擴大,樣本量逐漸減小,導(dǎo)致在各樣本間轉(zhuǎn)移所花費的交通成本減小,但調(diào)查的面積成本有所增加。
表1 最優(yōu)單元尺寸與其他尺寸下空間抽樣效率對比
將陜西省地圖數(shù)據(jù)劃分為面積為220.851 1km2的正方形網(wǎng)格,形成面積抽樣框(共1 078個單元)。為了評價最優(yōu)單元尺寸下空間簡單隨機抽樣的效率,以各區(qū)縣的緯度值為主關(guān)鍵字按升序排列、以經(jīng)度值為次關(guān)鍵字按升序排列,對陜西省107個區(qū)縣進行編號,以形成傳統(tǒng)簡單隨機抽樣的抽樣框。取各區(qū)縣面積的均值帶入式(4)計算得成本控制下傳統(tǒng)簡單隨機抽樣的樣本量n0=4。分別對兩種抽樣框下的總體總值、相對標準誤及其樣本方差進行估計,結(jié)果如表2。
表2 最優(yōu)單元尺寸下空間抽樣與傳統(tǒng)簡單隨機抽樣效率對比
注:平均面積比為調(diào)查面積占全省總面積的比例。
表2顯示,在成本約束下,基于最優(yōu)單元尺寸的空間簡單隨機抽樣總體總值的估計量相比于傳統(tǒng)簡單隨機抽樣更接近于真實值17 687.7億元,估計量的方差也遠小于傳統(tǒng)抽樣下估計量的方差,說明最優(yōu)單元尺寸下空間簡單隨機抽樣具有有效性。傳統(tǒng)簡單隨機抽樣用各區(qū)縣面積的均值進行抽樣設(shè)計,但由于各區(qū)縣面積差異較大,在實際調(diào)查中很難準確控制總成本,因此會出現(xiàn)實際調(diào)查費用超出預(yù)算成本的情況;而空間簡單隨機抽樣每一抽樣單元的面積相同,可以有效地將總成本控制在一定范圍內(nèi),從而體現(xiàn)空間抽樣方案設(shè)計的經(jīng)濟性。若不控制調(diào)查的總成本,取相同的樣本量時,空間簡單隨機抽樣的估計精度仍高于傳統(tǒng)簡單隨機抽樣,且調(diào)查的總成本遠小于傳統(tǒng)抽樣方式。實際調(diào)查中,空間抽樣調(diào)查的面積小于傳統(tǒng)抽樣下的調(diào)查面積。綜上所述,在成本約束下,相比于傳統(tǒng)簡單隨機抽樣,空間抽樣以較小的調(diào)查面積,可達到較高的估計精度,其抽樣效率遠高于傳統(tǒng)的簡單隨機抽樣。
本文研究了一種基于空間區(qū)域抽樣框的最優(yōu)單元尺寸確定方法,并且運用到實踐中驗證其抽樣效果,將調(diào)查單元的地理信息以自變量的形式加入到標志值函數(shù)中,體現(xiàn)了數(shù)據(jù)的空間特性,準確量化了地理信息對于個體影響的程度和方向;考慮空間抽樣調(diào)查的特性,構(gòu)造了基于單元尺寸、調(diào)查距離和調(diào)查面積等因素影響的空間抽樣調(diào)查成本函數(shù);分析空間單元尺寸對于抽樣調(diào)查的估計精度和調(diào)查成本的影響,提出了成本約束下確定最優(yōu)單元尺寸的方法,對于提高空間抽樣估計精度具有現(xiàn)實意義,對空間抽樣理論進行了補充。
本文研究了成本約束下空間抽樣最優(yōu)單元尺寸的確定問題,為空間調(diào)查方案設(shè)計中如何劃分網(wǎng)格區(qū)域抽樣框提供了一定參考。本文成本函數(shù)的各項參數(shù)均是主觀指定,成本函數(shù)假定各抽樣單元的調(diào)查成本和交通成本相同,但現(xiàn)實中調(diào)查和交通成本往往受到地理環(huán)境、氣候條件等多個因素的影響,其理論研究與實踐應(yīng)用存在著偏差??紤]多種因素的影響,重構(gòu)成本函數(shù),進而確定最優(yōu)的單元尺寸,以及考慮多目標變量時空間抽樣單元尺寸的確定等問題,需要以后進一步研究。