武依明
【文章摘要】
數(shù)據(jù)缺失、無(wú)回答是統(tǒng)計(jì)過(guò)程中比較普遍的現(xiàn)象,缺失值的處理對(duì)研究質(zhì)量亦有很大影響,本文使用多種簡(jiǎn)單插補(bǔ)方法得出不同的缺失值的估計(jì)值,并比較各種簡(jiǎn)單插補(bǔ)方法的優(yōu)劣,最后運(yùn)用系統(tǒng)聚類的方法,對(duì)我國(guó)31個(gè)省的農(nóng)村居民家庭人均純收入進(jìn)行聚類分析,從中發(fā)現(xiàn)特點(diǎn)和規(guī)律,分析我國(guó)從1990年到2011年以來(lái)各地區(qū)農(nóng)村居民家庭人均純收入的變化,并進(jìn)行詳細(xì)的實(shí)證分析。
【關(guān)鍵詞】
缺失值;簡(jiǎn)單插補(bǔ);聚類分析
1 前言
農(nóng)村居民占我國(guó)人口的很大部分,各地區(qū)的農(nóng)村居民收入差距呈上升趨勢(shì)。建國(guó)以來(lái),國(guó)家頒發(fā)了各種法案以及政策來(lái)提高農(nóng)村居民收入,改善農(nóng)村生活條件。但是隨著時(shí)代的發(fā)展,貧富差距越來(lái)越大,窮人越來(lái)越窮,富人越來(lái)越富,其中農(nóng)村居民家庭純收入是最能代表城鄉(xiāng)貧富差距拉大的指標(biāo),相比城市的市民來(lái)說(shuō),農(nóng)村人均收入只是城市居民的六分之一。近來(lái)召開的十八屆三中全會(huì)提出要加快構(gòu)建新型農(nóng)業(yè)經(jīng)營(yíng)體系,賦予農(nóng)民更多財(cái)產(chǎn)權(quán)利,推進(jìn)城鄉(xiāng)要素平等交換和公共資源均衡配置,完善城鎮(zhèn)化健康發(fā)展體制機(jī)制。這一政策的提出使得農(nóng)村問(wèn)題再一次受到社會(huì)的關(guān)注。
本文運(yùn)用系統(tǒng)聚類的方法研究我國(guó)31個(gè)省從1990年到2011年以來(lái)各地區(qū)的農(nóng)村居民家庭人均純收入的特點(diǎn)、規(guī)律和發(fā)展趨勢(shì),為國(guó)家縮短貧富差距,制定利農(nóng)富農(nóng)政策提供有力的數(shù)據(jù),同時(shí)研究農(nóng)村居民家庭人均純收入對(duì)我國(guó)以后的各種政策的實(shí)施具有指導(dǎo)意義。
2 缺失值簡(jiǎn)單插補(bǔ)
2.1原始數(shù)據(jù)的采集和整理
本文針對(duì)我國(guó)三十一個(gè)省的農(nóng)村居民家庭人均純收入,采取1990、1995、2000、2005、2009、2010、2011七個(gè)時(shí)間的數(shù)據(jù),匯總得到原始數(shù)據(jù),數(shù)據(jù)來(lái)源于中國(guó)統(tǒng)計(jì)年鑒2012。
2.2缺失值處理方法—簡(jiǎn)單插補(bǔ)
原始數(shù)據(jù)中1990年和1995年重慶的農(nóng)村居民家庭人均純收入是缺失的,現(xiàn)用各種不同的簡(jiǎn)單插補(bǔ)方法進(jìn)行缺失值插補(bǔ),比較各方法的效果。
2.2.1缺失值概念
簡(jiǎn)單一句話,缺失值就是說(shuō)數(shù)據(jù)是不完整的。
現(xiàn)實(shí)生活中存在通過(guò)各種方法獲得的統(tǒng)計(jì)數(shù)據(jù),而且各種調(diào)研活動(dòng)大都通過(guò)問(wèn)卷調(diào)查的形式來(lái)獲得調(diào)查數(shù)據(jù),在使用該調(diào)查數(shù)據(jù)時(shí)異常值和不符合邏輯的數(shù)據(jù)將要被剔除,因此就產(chǎn)生了缺失數(shù)據(jù)。這些數(shù)據(jù)將嚴(yán)重影響數(shù)據(jù)挖掘的質(zhì)量,成為數(shù)據(jù)挖掘的障礙。為了提高數(shù)據(jù)挖掘的質(zhì)量,在對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行分析之前,一定要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。
如果把帶有缺失值的記錄刪除掉,僅對(duì)數(shù)據(jù)集中的完整記錄進(jìn)行數(shù)據(jù)挖掘分析,很有可能造成估計(jì)偏差,以至于根據(jù)該分析結(jié)果做出錯(cuò)誤的決策,由此說(shuō)來(lái)使用不完整的數(shù)據(jù)進(jìn)行研究,那么研究結(jié)果的準(zhǔn)確性就會(huì)較差,因此,對(duì)數(shù)據(jù)中的缺失值進(jìn)行插補(bǔ)和修整是非常必要,對(duì)我們進(jìn)行數(shù)據(jù)挖掘分析有重要意義。
2.2.2簡(jiǎn)單插補(bǔ)方法
常用的簡(jiǎn)單均值插補(bǔ)方法有很多,再次介紹部分方法的思想原理。均值插補(bǔ)法是用每個(gè)變量的均值取代該變量的缺失值;最近鄰均值插補(bǔ)方法是選取缺失數(shù)據(jù)附近的數(shù)據(jù)的均值替代該變量的缺失值;熱卡插補(bǔ)是使用本次調(diào)查同一插補(bǔ)類中的供者記錄( 已經(jīng)通過(guò)了所有的審核) 的信息來(lái)代替一個(gè)相似的受者記錄中缺失的或不一致數(shù)據(jù)的插補(bǔ)方法;而冷卡插補(bǔ)則使用其它資料中的供者。
2.2.3插補(bǔ)結(jié)果比較
使用spss軟件操作得到各插補(bǔ)值的估計(jì)結(jié)果,從結(jié)果中可以看出各種插補(bǔ)得到的插補(bǔ)值有明顯的差異,尤其是熱卡插補(bǔ)和其它插補(bǔ)得到的插補(bǔ)值差異更大,因此在選擇插補(bǔ)方法時(shí)要根據(jù)不同樣本、不同類型的數(shù)據(jù)依情況而定。本文選取回歸插補(bǔ)得到的缺失值進(jìn)行后續(xù)聚類分析研究。
3 聚類分析
3.1基本原理思想
系統(tǒng)聚類法首先將n個(gè)樣本看成n類,然后將性質(zhì)最接近的兩類合并成一個(gè)新類,我們就得到n-1類,再?gòu)闹姓业阶罱咏膬深惡喜⒊梢活悾覀兙偷玫絥-2類,與此重復(fù)下去,最后所有的樣品均在一類上,并將上述過(guò)程畫成一張譜系圖便可決定分多少類,每類各有什么樣品。
3.2系統(tǒng)聚類分類結(jié)果
本文使用系統(tǒng)聚類組間聯(lián)接法,采用歐氏距離平方,得到我國(guó)三十一個(gè)省關(guān)于農(nóng)村居民家庭人均純收入的分類,譜系圖分類結(jié)果如下:
第一類包括天津、江蘇、浙江、北京、上海;第二類包括山西,內(nèi)蒙古,遼寧,吉林,黑龍江,福建,江西,河北、安徽、山東,河南,湖北,湖南,廣東,廣西,海南,重慶,四川,貴州,云南,西藏,陜西,甘肅,青海,寧夏,新疆。
4 實(shí)證分析
分類結(jié)果是符合實(shí)際的,把北京、天津、上海、江蘇、浙江歸為一類是有現(xiàn)實(shí)依據(jù)的。首先這五個(gè)城市都是經(jīng)濟(jì)發(fā)達(dá)城市。北京作為首都更是擁有天時(shí)地利人和的發(fā)展條件;天津是近幾年來(lái)發(fā)展較快的城市之一,它以工業(yè)電子產(chǎn)品為主;上海是從舊時(shí)代開始就領(lǐng)先發(fā)展的,發(fā)展到今天有歷史推動(dòng)的原因;其次這五個(gè)城市擁有優(yōu)越的地理?xiàng)l件。五個(gè)城市除北京以外都是沿海城市,有利于發(fā)展沿海港頭經(jīng)濟(jì),為進(jìn)出口貿(mào)易提供方便,同時(shí)利用海洋資源發(fā)展船泊行業(yè)等;五個(gè)城市都擁有豐富的旅游資源,東南沿海空氣新鮮,陽(yáng)光明媚,氣候溫和等條件使得江蘇、上海、浙江等地的旅游業(yè)發(fā)展迅速,而北京同樣有旅游勝地故宮等,吸引大量海內(nèi)外游客。最后五個(gè)城市都擁有密集型科技人才和創(chuàng)新。尤其是北京,擁有各類著名高等大學(xué),科技創(chuàng)新人才的培養(yǎng)在一定程度上促進(jìn)了北京的發(fā)展,加上各地高材生都傾向去北京工作、創(chuàng)業(yè)、定居等,無(wú)形中為北京提供了人才,這五個(gè)城市在科技創(chuàng)新方面幾乎每年排名前十。
綜合以上發(fā)展的各方面因素,北京、天津、上海、江蘇、浙江這五個(gè)城市的農(nóng)村家庭人均純收入都要較高,因此歸為一大類??偟膩?lái)看呈現(xiàn)出沿海城市比內(nèi)地發(fā)展的更快的特點(diǎn)。
5 對(duì)策建議
科技日新月異,經(jīng)濟(jì)發(fā)展要堅(jiān)持走改革發(fā)展和對(duì)外開放的政策,沿海地區(qū)要充分利用地理位置的優(yōu)越性,增加就業(yè),開發(fā)新型行業(yè),充分利用海洋資源。增加就業(yè)的方法很多,在原有工作崗位的前提下增加工作人員,做好管理制度,培養(yǎng)高素質(zhì)管理人員,比如港口運(yùn)輸服務(wù)站的設(shè)立。比如說(shuō)小資本的企業(yè)家要在臺(tái)灣等地購(gòu)買他們特色的商品然后運(yùn)輸回來(lái),這樣就會(huì)用到船泊等運(yùn)輸工具,新型行業(yè)可以從船舶業(yè)發(fā)展。海洋蘊(yùn)含大量的資源,比如說(shuō)海帶,食鹽蝦、魚等水產(chǎn)品,還有礦產(chǎn)資源,利用這些可以投資副食品業(yè),政府可以開發(fā)海底新能源,現(xiàn)在有科學(xué)家發(fā)現(xiàn)海藻經(jīng)過(guò)提煉可以提煉出石油,這就是新能源,現(xiàn)在還在進(jìn)一步研究中。
各地要想發(fā)展快就要充分發(fā)揮自己的優(yōu)勢(shì),而且可以和其它地區(qū)合作,共同發(fā)展,提高人民生活水平。
【參考文獻(xiàn)】
[1]金勇進(jìn), 朱琳. 不同差補(bǔ)方法的比較. 數(shù)理統(tǒng)計(jì)與管理2000,19(2):50-54 頁(yè)
[2]金勇進(jìn), 邵軍. 缺失數(shù)據(jù)的統(tǒng)計(jì)處理.中國(guó)統(tǒng)計(jì)出版社, 2009:3 頁(yè)
[3]《多元統(tǒng)計(jì)分析》,科學(xué)教育出版社