趙新華 張克柱
摘 要:通過(guò)將數(shù)據(jù)挖掘技術(shù)應(yīng)用于低保數(shù)據(jù)的統(tǒng)計(jì),一方面可以將先進(jìn)的計(jì)算機(jī)技術(shù)應(yīng)用到低保統(tǒng)計(jì)工作中,提高了工作效率,更重要的是通過(guò)分析每年產(chǎn)生的大量數(shù)據(jù),可以獲取隱藏在其中的規(guī)律,對(duì)數(shù)據(jù)的構(gòu)成和變化有一個(gè)綜合而深層次的挖掘,找到貧困群體成為低保戶的主要特征,對(duì)低保資金占有比例較大的群體給予更多的關(guān)注和幫扶。
關(guān)鍵詞:數(shù)據(jù)挖掘;模型;數(shù)據(jù)
一、低保數(shù)據(jù)預(yù)處理過(guò)程
(一)樣本數(shù)據(jù)的特點(diǎn)。本文對(duì)張掖市2015年低保數(shù)據(jù)進(jìn)行采集,通過(guò)研究這部分樣本數(shù)據(jù),最終能總結(jié)出數(shù)據(jù)挖掘技術(shù)在農(nóng)村低保數(shù)據(jù)統(tǒng)計(jì)應(yīng)用中的一些結(jié)論。
根據(jù)分析低保數(shù)據(jù)具有以下的特點(diǎn):(1)數(shù)據(jù)量大、覆蓋面較廣。最低生活保障體系是一個(gè)規(guī)模很大的體系,數(shù)據(jù)量極大,而且數(shù)據(jù)又分布在全國(guó)不同的地區(qū),對(duì)低保數(shù)據(jù)進(jìn)行挖掘和和管理是非常有意義的;(2)具有一定的動(dòng)態(tài)性和時(shí)間性。隨著時(shí)間的變化,低保數(shù)據(jù)在不斷增加和刪除,需要對(duì)數(shù)據(jù)進(jìn)行更新。
(二)數(shù)據(jù)采集。面對(duì)龐大的低保人群,數(shù)據(jù)采集的工作量是很大的,采集的數(shù)據(jù)要典型、內(nèi)容盡量完整充實(shí),這樣最終的數(shù)據(jù)挖掘結(jié)果才會(huì)更有效和準(zhǔn)確,數(shù)據(jù)采集過(guò)程中需要關(guān)注的一些問(wèn)題如下:數(shù)據(jù)收集要以地區(qū)為單位,找出不同地區(qū)間低保人員在生活狀況、年齡分布、性別、文化程度、家庭結(jié)構(gòu)、身體健康狀況等方面不同于其他群體的差異和特征,對(duì)重點(diǎn)困難地區(qū)加以幫扶和支持。
(三)數(shù)據(jù)清理。在采集數(shù)據(jù)和輸入數(shù)據(jù)的過(guò)程中,不可避免的會(huì)出現(xiàn)數(shù)據(jù)錯(cuò)誤、重復(fù)數(shù)據(jù)和數(shù)據(jù)不一致的問(wèn)題,這些數(shù)據(jù)在數(shù)據(jù)挖掘中都是不符合要求的,數(shù)據(jù)清理的主要任務(wù)是填充缺失的值,光滑噪聲并識(shí)別離群點(diǎn),并糾正數(shù)據(jù)中的不一致。為了使本次挖掘結(jié)果達(dá)到預(yù)期目的,進(jìn)行如下的清理:(1)如果數(shù)據(jù)中有大量缺失的屬性,將缺失的屬性值用同一個(gè)常數(shù)替換。如“Unknown”。先用一個(gè)替換值將空值進(jìn)行約束替換。處理后的數(shù)據(jù)對(duì)后期挖掘工作沒(méi)有價(jià)值會(huì)選擇刪除。(2)對(duì)某些比較重要的屬性,利用該屬性的最可能的值填充缺失值。
有些屬性的值在數(shù)據(jù)采集和數(shù)據(jù)輸入的過(guò)程中空缺,但是缺失的這些值可以通過(guò)分析屬性的歷史數(shù)據(jù)來(lái)填補(bǔ)。在歷史數(shù)據(jù)中,分析屬性的哪個(gè)值在整個(gè)數(shù)值的比例是最高的,也就是這個(gè)值分布的密度是最高的,說(shuō)明這個(gè)屬性值出現(xiàn)的可能性是非常大的,就用這個(gè)值來(lái)填充空缺的值。
(四)數(shù)據(jù)轉(zhuǎn)化。 原始表中沒(méi)有年齡字段,通過(guò)戶主信息表和家庭成員信息表中的身份證號(hào)計(jì)算年齡字段,采用下面的SQL語(yǔ)句來(lái)實(shí)現(xiàn):Select身份證號(hào),datepart(yy,getdate())-substring(身份證號(hào),7,4)as年齡from低保數(shù)據(jù)對(duì)于低保人員信息的年齡字段,因?yàn)樾畔⒘烤薮螅瑸榱擞心康牡倪M(jìn)行數(shù)據(jù)挖掘,將年齡的取值離散化,進(jìn)行有效的分類,將年齡取值劃分為三個(gè)區(qū)間,每個(gè)區(qū)間為一個(gè)屬性值,將年齡25-35的劃分為“青年”,將36—59劃分為中年,60以上為老年。
(五)數(shù)據(jù)規(guī)約。原始數(shù)據(jù)一般是非常大的,在海量的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘和分析將需要很長(zhǎng)的時(shí)間,數(shù)據(jù)規(guī)約是從數(shù)據(jù)集中挑選或過(guò)濾出具有代表性的數(shù)據(jù),縮減挖掘的時(shí)間和成本,使數(shù)據(jù)挖掘的目標(biāo)能縮小一些。規(guī)約之后,數(shù)據(jù)表示小得多,但最終數(shù)據(jù)挖掘的結(jié)果仍然接近地保持原數(shù)據(jù)的完整性。數(shù)據(jù)規(guī)約的策略有下面幾種:
1.數(shù)據(jù)立方體聚集:對(duì)數(shù)據(jù)立方體中的數(shù)據(jù)尋找感興趣的維度進(jìn)行再聚集。
2.維歸約:檢測(cè)并刪除沒(méi)有關(guān)連、關(guān)連性弱或冗余的屬性(維)。
3.數(shù)據(jù)壓縮:使用編碼機(jī)制把樣本數(shù)據(jù)轉(zhuǎn)換成另一種較小的數(shù)據(jù)流,減少數(shù)據(jù)冗余。
4.數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示原有的數(shù)據(jù)。
因?yàn)橥诰驅(qū)ο髴糁餍畔⒈?、家庭成員信息表、家庭信息表中的屬性個(gè)數(shù)比較多,去掉數(shù)據(jù)中不重要的屬性,像姓名、身份證號(hào)等信息。為了方便決策模型的建立,所以選擇與其相關(guān)的這屬性作為決策樹(shù)建立的依據(jù),形成新的低保信息分析數(shù)據(jù)表。
二、低保數(shù)據(jù)挖掘預(yù)期目標(biāo)
在對(duì)低保數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘前,首先要明確低保管理的決策需求,也就是確定數(shù)據(jù)挖掘的預(yù)期目標(biāo),之后才能決定數(shù)據(jù)挖掘需要解決的一系列問(wèn)題。隨著低保信息采集系統(tǒng)的運(yùn)行和各種政策的不斷加強(qiáng)和深入實(shí)施,低保制度得到了極大的發(fā)展和促進(jìn),同時(shí)在這個(gè)過(guò)程中積累了大量的數(shù)據(jù),為了政策更好的實(shí)施,人們希望從數(shù)據(jù)中獲取的信息也越來(lái)越多,不只是簡(jiǎn)單的數(shù)據(jù)的表面現(xiàn)象,更多的關(guān)注數(shù)據(jù)的質(zhì)量和數(shù)據(jù)本身能包含的信息。
例如:1.低保人數(shù)與參加低保的時(shí)間、地區(qū)之間的關(guān)系。通過(guò)低保戶數(shù)據(jù),找到低保人數(shù)與時(shí)間之間的關(guān)系,低保資金發(fā)放地區(qū)之間的關(guān)系,為低保資金的發(fā)放提供政策上的支持。
三、總結(jié)
通過(guò)將數(shù)據(jù)挖掘技術(shù)應(yīng)用于低保數(shù)據(jù)的統(tǒng)計(jì),一方面可以將先進(jìn)的計(jì)算機(jī)技術(shù)應(yīng)用到低保統(tǒng)計(jì)工作中,提高了工作效率,更重要的是通過(guò)分析每年產(chǎn)生的大量數(shù)據(jù),可以獲取隱藏在其中的規(guī)律,對(duì)數(shù)據(jù)的構(gòu)成和變化有一個(gè)綜合而深層次的挖掘,找到貧困群體成為低保戶的主要特征,對(duì)低保資金占有比例較大的群體給予更多的關(guān)注和幫扶。通過(guò)對(duì)歷年的數(shù)據(jù)分析和預(yù)測(cè),對(duì)未來(lái)低保人口的分布、人數(shù)以及人口構(gòu)成有一個(gè)前瞻性的掌握。這些信息的提取,可以為低保政策的制定提供有說(shuō)服力的依據(jù)。
參考文獻(xiàn):
[1]陳京民.數(shù)據(jù)倉(cāng)庫(kù)原理、設(shè)計(jì)與應(yīng)用[M].中國(guó)水利水電出版社,2004:21—35.
[2]彭麗.數(shù)據(jù)挖掘中幾種劃分聚類算法的比較與改進(jìn)[D].大連理工大學(xué)碩士學(xué)位論文,2008.
[3]印勇.決策支持分析新技術(shù)——數(shù)據(jù)挖掘[J].重慶郵電學(xué)院學(xué)報(bào),2001增刊:70--74.
[4]姚家奕等.多維數(shù)據(jù)分析原理與應(yīng)用[M].清華大學(xué)出版社,2004.
(作者單位:趙新華/蘭州職業(yè)技術(shù)學(xué)院電子與信息工程系;張克柱/蘭州職業(yè)技術(shù)學(xué)院現(xiàn)代服務(wù)系)