国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時代做好人口抽樣調(diào)查的思考
——基于浙江2015年1%人口抽樣調(diào)查

2016-08-09 03:28趙靜浙江省統(tǒng)計局浙江杭州310000
統(tǒng)計科學(xué)與實踐 2016年6期
關(guān)鍵詞:常住人口樣本量村級

趙靜(浙江省統(tǒng)計局,浙江 杭州 310000)

?

工作實務(wù)

大數(shù)據(jù)時代做好人口抽樣調(diào)查的思考
——基于浙江2015年1%人口抽樣調(diào)查

趙靜
(浙江省統(tǒng)計局,浙江 杭州 310000)

摘要:互聯(lián)網(wǎng)發(fā)展至今,以自動記錄、儲存和連續(xù)擴(kuò)充的方式使一切可記錄的信息數(shù)據(jù)化。隨著網(wǎng)絡(luò)與各個傳統(tǒng)行業(yè)的融合不斷深入,大數(shù)據(jù)正逐漸為經(jīng)濟(jì)社會創(chuàng)造更多的價值。抽樣調(diào)查作為一種有嚴(yán)密理論依據(jù)的科學(xué)調(diào)查方法,至今已發(fā)展得相當(dāng)成熟。在大數(shù)據(jù)時代,如何更好地開展調(diào)查工作,特別是運用大數(shù)據(jù)做好人口抽樣調(diào)查,值得研究和探索。

關(guān)鍵詞:大數(shù)據(jù);抽樣調(diào)查;人口

隨著“互聯(lián)網(wǎng)+”與傳統(tǒng)產(chǎn)業(yè)的飛速融合,我們迎來了大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時代。當(dāng)前,運用大數(shù)據(jù)推動經(jīng)濟(jì)轉(zhuǎn)型升級、完善社會治理、提升政府服務(wù)和管理能力已成為趨勢。在人口統(tǒng)計專業(yè)領(lǐng)域,如何運用大數(shù)據(jù)更好地開展人口調(diào)查工作,值得研究和探索。

一、什么是大數(shù)據(jù)

筆者認(rèn)為大數(shù)據(jù)是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征,它基于“云計算”為代表的現(xiàn)代信息技術(shù),以自動記錄、儲存和連續(xù)擴(kuò)充的方式,使一切可記錄的信息數(shù)據(jù)化。然后通過對這些原本很難收集和使用的數(shù)據(jù)進(jìn)行整合分析,得到與研究問題相關(guān)的有用信息。隨著互聯(lián)網(wǎng)與各個傳統(tǒng)行業(yè)的融合不斷深入,大數(shù)據(jù)將逐步為經(jīng)濟(jì)社會創(chuàng)造更多的價值。它主要具備以下三個特點:

1.大數(shù)據(jù)信息量巨大,為多維度的數(shù)據(jù)分析提供了選擇空間

傳統(tǒng)抽樣調(diào)查獲得的樣本數(shù)據(jù),是以特定研究為目的,依據(jù)嚴(yán)格設(shè)計的抽樣方案而獲得的結(jié)構(gòu)化數(shù)據(jù)。由于受到方案的限制,樣本數(shù)據(jù)的分析空間十分有限。以1%人口抽樣調(diào)查為例,由于樣本量的控制,方案設(shè)計時考慮更多的是樣本對各市常住人口的代表性,抽中樣本的分布在各縣(市、區(qū))間差異較大,自然無法滿足測算區(qū)縣一級常住人口的要求。

大數(shù)據(jù)則是各類型數(shù)據(jù)的匯總,除了結(jié)構(gòu)型數(shù)據(jù),更多的是非結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)或異構(gòu)數(shù)據(jù),很多數(shù)據(jù)難以用傳統(tǒng)的統(tǒng)計指標(biāo)或統(tǒng)計圖表加以體現(xiàn)。大數(shù)據(jù)的大體量與多樣性,彌補了抽樣調(diào)查中由于樣本有限,對某些規(guī)律、弱小信息捕捉不力的缺陷,為多維度、多層次的數(shù)據(jù)分析提供了可能性。

2.大數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣,無法按傳統(tǒng)方法分類統(tǒng)計

隨著大數(shù)據(jù)的迅速發(fā)展,大部分?jǐn)?shù)據(jù)信息都已經(jīng)脫離出數(shù)據(jù)結(jié)構(gòu)的范疇,屬于非結(jié)構(gòu)化數(shù)據(jù),包括紙質(zhì)信息與數(shù)字化的視頻、音頻、郵件、圖片等等。各種數(shù)據(jù)格式之間互不兼容,給數(shù)據(jù)的提取、存儲、管理和應(yīng)用帶來了很大困難。

大數(shù)據(jù)是雜亂、不規(guī)整、良莠不齊的,傳統(tǒng)的量化方式已無法直接處理非結(jié)構(gòu)化數(shù)據(jù)。我們需要將統(tǒng)計研究的對象范圍從結(jié)構(gòu)性數(shù)據(jù)擴(kuò)展到一切數(shù)據(jù),重新思考數(shù)據(jù)的定義和分類方法,并以此為基礎(chǔ)發(fā)展和創(chuàng)新統(tǒng)計分析方法,做好大數(shù)據(jù)與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的對接。

3.大數(shù)據(jù)重視相關(guān)性而不是因果關(guān)系

大數(shù)據(jù)已然逐步占據(jù)當(dāng)前信息社會的中心舞臺,也使得傳統(tǒng)知識觀中的因果規(guī)律遭到極大的挑戰(zhàn)。大數(shù)據(jù)的核心在于預(yù)測,它通過各種復(fù)雜的數(shù)學(xué)算法處理海量數(shù)據(jù)來預(yù)測事情發(fā)生的可能性。這是一種從相關(guān)性著手,通過對過去的理解,釋放出對未來預(yù)測的新型思維方式,它從本質(zhì)上改變了傳統(tǒng)數(shù)據(jù)的開采模式。另外,盡管大數(shù)據(jù)能夠非常好地檢測相關(guān)性,但其自身無法告訴我們哪一種相關(guān)性是有意義的。譬如,在互聯(lián)網(wǎng)上大數(shù)據(jù)的收集是根據(jù)關(guān)鍵詞搜索來統(tǒng)計的,然而很多關(guān)鍵詞看似與研究的問題相關(guān),實際上相差甚遠(yuǎn)。如果在收集數(shù)據(jù)的過程中缺乏嚴(yán)謹(jǐn)?shù)膶徍藯l件,大數(shù)據(jù)的量級規(guī)模會擴(kuò)大這件虛假的相關(guān)性,導(dǎo)致我們做出錯誤的判斷。

二、什么是1%人口抽樣調(diào)查

在社會經(jīng)濟(jì)發(fā)展過程中,人口始終是一個重要因素,其年齡、性別、受教育程度結(jié)構(gòu)和生育、就業(yè)等因素對一個國家或地區(qū)的經(jīng)濟(jì)發(fā)展?jié)摿Α⑸鐣M(jìn)步狀態(tài)有全面而深遠(yuǎn)的影響。人口變動情況是人口統(tǒng)計的重要內(nèi)容,國務(wù)院2010年頒布的《全國人口普查條例》明確規(guī)定,人口普查每10年進(jìn)行一次,尾數(shù)逢0的年份為普查年度。我國經(jīng)濟(jì)發(fā)展速度快,社會流動規(guī)模大,經(jīng)過10年的發(fā)展,人口結(jié)構(gòu)必然會發(fā)生很大的變化,所以又建立了在兩次全國人口普查之間的1%人口抽樣調(diào)查制度,又稱為“小普查”。開展全國1%人口抽樣調(diào)查,能準(zhǔn)確、及時地掌握各地區(qū)的人口變動情況,對研究未來人口發(fā)展趨勢,保障、改善民生,以及制定各項方針政策都具有極其重要的意義。

1.調(diào)查目的和內(nèi)容

2015年全國1%人口抽樣調(diào)查的目的是了解2010年以來我國人口在數(shù)量、素質(zhì)、結(jié)構(gòu)、分布以及居住等方面的變化情況,為制定國民經(jīng)濟(jì)和社會發(fā)展規(guī)劃提供科學(xué)準(zhǔn)確的統(tǒng)計信息支持。調(diào)查標(biāo)準(zhǔn)時點為2015年11月1日零時,調(diào)查內(nèi)容主要包括姓名、性別、年齡、民族、受教育程度、行業(yè)、職業(yè)、遷移流動、社會保障、婚姻、生育、死亡、住房情況等。

2.抽樣方案的設(shè)計

由于受技術(shù)、時效性以及經(jīng)濟(jì)成本等原因的限制,抽樣調(diào)查作為一種科學(xué)的采樣方式,得到了廣泛的應(yīng)用。在調(diào)查經(jīng)費一定的情況下,樣本量和抽樣方法的確定主要考慮以下兩個方面:首先要保證各市調(diào)查的樣本量對本市有較好的代表性,主要指標(biāo)的相對誤差控制在10%以內(nèi);再者要保證落實到各縣(市、區(qū))調(diào)查樣本量差距不大,調(diào)查的最終樣本規(guī)模與其人口規(guī)模大體一致,便于組織實施。

2015年1%人口抽樣調(diào)查,以全國為總體,以各地級市為子總體(其中各地級市的樣本量來自于各地級市常住人口的平方根占所屬省的比例乘以1%人口抽樣分配到該省的樣本量)。浙江省采取分層、二階段、概率比例、整群的抽樣方法,共抽取了2602個村級調(diào)查單位,調(diào)查設(shè)計樣本量為65萬常住人口,約占全部常住人口的1.18%。在1%人口抽樣調(diào)查中,采用二階段抽樣:第一階段抽取村級單位,第二階段抽取調(diào)查小區(qū)。平均每個調(diào)查小區(qū)常住人口數(shù)為250人,80戶左右。在第一階段抽樣時,抽取方法為分層、概率比例抽樣。

分層抽樣的原則是盡可能使層內(nèi)各單位之間人口變動指標(biāo)的差異減少,各層人口指標(biāo)差異增大,以降低抽樣誤差。分層后,按抽樣比和各層人數(shù)等比例分配每一層的樣本量。由于每層調(diào)查的人數(shù)是按人口比例分配的,層與層之間調(diào)查的人數(shù)差異很大。根據(jù)分層原則:一是充分利用人口普查的資料,依據(jù)城鄉(xiāng)屬性、外出人口比例、外來人口比例、非農(nóng)人口比例等多個經(jīng)濟(jì)發(fā)展指標(biāo),將所有村級單位細(xì)分為24層(包括開發(fā)區(qū)、大學(xué)城等特殊層)。二是在層內(nèi)按比例抽取村級樣本單位。各層按與村級單位數(shù)成比例的PPS系統(tǒng)抽樣方法抽取村級單位,其中各層樣本村級單位數(shù)按該層村級單位總數(shù)占全部的比例分配。在每個抽中的村級單位中,采用簡單隨機抽樣抽取一個調(diào)查小區(qū)樣本。

分層、概率比例抽樣使得每一層抽中的概率與其人口估計規(guī)模成正比,即人口少的層被抽中的概率??;在抽中的村(社區(qū))里,無論規(guī)模大小,都選擇一個常住人口250人左右的調(diào)查小區(qū),使抽中概率小的地區(qū),每一個人被抽中的概率增大;這一大一小的概率乘積,使得全市每個人被調(diào)查的概率保持不變。這種抽樣方式既保證了每個地級市每一層中的村(社區(qū))有同等被抽中的概率,又兼顧不同層間被抽中樣本的規(guī)模與全市的分布大體一致,因而對11個市具備了更好的代表性,也能夠如實反映全省的情況。

3.調(diào)查數(shù)據(jù)的質(zhì)量

通過2015年1%人口抽樣調(diào)查的原始數(shù)據(jù)與2010年第六次人口普查數(shù)據(jù)進(jìn)行結(jié)構(gòu)比對,我們發(fā)現(xiàn),這次1%抽樣調(diào)查的數(shù)據(jù)質(zhì)量是相當(dāng)高的。從圖1來看,兩次調(diào)查的分年齡人口占比的曲線驚人的一致,波峰與波谷正好向后順延了5年,只是70歲以上的曲線略有不同,這主要是老年人口樣本量較小導(dǎo)致的抽樣誤差。圖2的分年齡性別比的曲線也說明了這個問題,2015年1%抽樣調(diào)查70歲以上的性別比都略高于2010年人普的同年齡段人口,95歲以上的性別比甚至出現(xiàn)了奇異值,再次證實抽樣調(diào)查樣本量越小,數(shù)據(jù)越容易發(fā)生偏差。

圖1 2015年1%人口抽樣調(diào)查與2010年第六次人口普查數(shù)據(jù)分年齡占比

圖2 2015年1%人口抽樣調(diào)查與2010年第六次人口普查數(shù)據(jù)分年齡性別比

三、人口抽樣調(diào)查的局限性

1.抽樣調(diào)查的誤差不可避免

抽樣誤差是抽樣調(diào)查中的一個特有概念,在抽樣調(diào)查中,用任何一套樣本的調(diào)查數(shù)據(jù)推斷總體,都不可能得到確切的總體真值。抽樣誤差是不可避免的,是絕對存在的。1%人口抽樣調(diào)查采取的是分階段抽樣,每個階段都會產(chǎn)生誤差。就第一階段抽取村級單位來說,全省近32000個村級單位,平均每村(社區(qū))戶籍人口為1522人,而抽中的2603個村級單位,平均戶籍人口有2200人,很顯然,抽中的村相對規(guī)模較大,情況更復(fù)雜,代表性也愈強。但從推算總體的角度來說,肯定會產(chǎn)生偏差。

同時,調(diào)查中的人為誤差也一直存在,尤其在目前統(tǒng)計與政體沒有分開的情況下,將調(diào)查數(shù)據(jù)與政績掛鉤,必然會在統(tǒng)計數(shù)據(jù)上出現(xiàn)虛報和瞞報的行為,基層統(tǒng)計調(diào)查都不同程度受到過行政干預(yù)。同時基層調(diào)查員經(jīng)過層層培訓(xùn),對指標(biāo)的理解把控,以及對工作的責(zé)任心都參差不齊,也會造成數(shù)據(jù)偏差。

在這種背景下,就需要通過技術(shù)加權(quán)、部門數(shù)據(jù)佐證,大數(shù)據(jù)補充等多種方法多角度評估抽樣調(diào)查的數(shù)據(jù)質(zhì)量。

2.抽樣調(diào)查無法滿足多層次統(tǒng)計信息需求

抽樣調(diào)查一般只能滿足單層次的統(tǒng)計信息需求。2015年的1%人口抽樣調(diào)查在進(jìn)行樣本設(shè)計時,以全國為總體,以各地級市為子總體,所以對全省和11個地級市都有代表性;但細(xì)化到縣(市、區(qū))一級,由于樣本量少且分布不均,分縣的常住人口推算是完全沒有代表性的。

隨著戶籍制度的取消和人口流動的頻繁,常住人口將替代戶籍人口越來越多地被應(yīng)用于各級政府行政決策的方方面面,因而會有更多的數(shù)據(jù)需求。如何在抽樣調(diào)查的背景下做好分縣常住人口的測算,是各級統(tǒng)計機構(gòu)面臨迫在眉睫的問題。

四、如何做好大數(shù)據(jù)時代的人口抽樣調(diào)查

抽樣調(diào)查是一種有嚴(yán)密理論依據(jù)的科學(xué)調(diào)查方法,其理論與方法體系主要依托于概率論,至今已發(fā)展得相當(dāng)成熟。作為一種非全面調(diào)查方法,抽樣調(diào)查在小數(shù)據(jù)時代以最少的人力成本,最小的采樣數(shù)據(jù)在社會統(tǒng)計中得到了廣泛的應(yīng)用。當(dāng)然,每一種調(diào)查方法都存在著一定的缺陷,在大數(shù)據(jù)時代,抽樣調(diào)查也面臨著諸多機遇與挑戰(zhàn)。經(jīng)過多部門收集匯總的大數(shù)據(jù)庫就像一座待開發(fā)的寶庫,不論對產(chǎn)業(yè)環(huán)節(jié)的實踐者還是對公共服務(wù)部門都有極具誘惑力的價值。但由于研究問題的復(fù)雜性,大數(shù)據(jù)有時并不能如實地反映總體情況,大數(shù)據(jù)具有不確定性,較強的復(fù)雜性。從抽樣調(diào)查的角度來講,大數(shù)據(jù)更多的功能是一種輔助信息,并不是真實的總體信息,離開抽樣調(diào)查的大數(shù)據(jù)將失去可靠的基礎(chǔ)保障。在大數(shù)據(jù)時代,抽樣調(diào)查與大數(shù)據(jù)應(yīng)該實現(xiàn)相互佐證,互為補充的功能。

在大數(shù)據(jù)時代,做好人口抽樣調(diào)查,筆者認(rèn)為有以下三個值得推進(jìn)的舉措:

1.運用信息化手段采集調(diào)查數(shù)據(jù)。積極推進(jìn)移動智能終端綜合管理平臺的應(yīng)用,充分利用PDA、智能手機、聯(lián)網(wǎng)直報等現(xiàn)代信息技術(shù)和設(shè)備采集統(tǒng)計調(diào)查數(shù)據(jù),從程序角度,更大提高人口抽樣調(diào)查數(shù)據(jù)質(zhì)量。

2.共享政府各部門的電子化行政記錄和綜合統(tǒng)計數(shù)據(jù)系統(tǒng)。人口問題涉及社會的方方面面,公安部門的流動人口登記情況、衛(wèi)計部門的出生人口數(shù)據(jù),社保部門的保險繳納情況等等,都可以依托政府統(tǒng)一的政務(wù)數(shù)據(jù)交換平臺,實現(xiàn)實時傳輸與共享。這對分析人口的結(jié)構(gòu)數(shù)據(jù),把握人口發(fā)展趨勢都很有借鑒意義。

3.開發(fā)對大數(shù)據(jù)的挖掘與分析功能,整合各類非結(jié)構(gòu)化數(shù)據(jù)資源。隨著“互聯(lián)網(wǎng)+”的高速發(fā)展,人作為一個社會屬性,很多信息在大數(shù)據(jù)中都有體現(xiàn),譬如淘寶網(wǎng)上某地級市用戶群的年齡結(jié)構(gòu),鐵道部門“春運季”車票的銷售情況等等。統(tǒng)計部門應(yīng)不斷提高大數(shù)據(jù)分析技術(shù),對各類非結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行多目標(biāo)、多角度、多層次的加工、整合,推進(jìn)大數(shù)據(jù)在人口抽樣調(diào)查評估分析中的應(yīng)用。

(責(zé)任編輯:施越霞)

猜你喜歡
常住人口樣本量村級
村級義務(wù)消防隊值得一試
2021 年內(nèi)蒙古自治區(qū)常住人口主要數(shù)據(jù)公報
醫(yī)學(xué)研究中樣本量的選擇
誰為村級產(chǎn)業(yè)“接生”?
樣本量估計及其在nQuery和SAS軟件上的實現(xiàn)*——均數(shù)比較(十一)
樣本量估計及其在nQuery和SAS軟件上的實現(xiàn)*——均數(shù)比較(十)
北京城市副中心:常住人口控制在130萬以內(nèi)
村級審計亟待加強
2015年上海市常住人口首現(xiàn)負(fù)增長
袁湖村的“1+X”村級民主管理模式
福鼎市| 灌南县| 兴业县| 田东县| 峡江县| 隆林| 招远市| 社会| 蓬安县| 遂昌县| 水城县| 墨脱县| 武川县| 大冶市| 玉树县| 黔南| 西青区| 开化县| 普陀区| 怀宁县| 建平县| 新蔡县| 武穴市| 固阳县| 永寿县| 忻城县| 张家港市| 阿勒泰市| 景洪市| 缙云县| 皋兰县| 南召县| 棋牌| 浠水县| 渭源县| 中山市| 乡城县| 女性| 咸阳市| 高阳县| 萝北县|