金美琳
摘 要 經(jīng)過研究前3次的經(jīng)濟(jì)普查方法,發(fā)現(xiàn)現(xiàn)有的經(jīng)濟(jì)普查方式太過復(fù)雜,消耗大量的人力、物力和財力,并且對經(jīng)濟(jì)普查大數(shù)據(jù)的分析沒有一套健全并且相適宜的挖掘技術(shù)。本文從大數(shù)據(jù)時代的經(jīng)濟(jì)普查入手,簡單闡述了大數(shù)據(jù)時代以計算為中心的理念要逐漸轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心,形成數(shù)據(jù)思維,并扼要分析了經(jīng)濟(jì)普查的大數(shù)據(jù)的情況,并對中國經(jīng)濟(jì)普查的數(shù)據(jù)挖掘方法進(jìn)行了簡單的闡述。
關(guān)鍵詞 大數(shù)據(jù);經(jīng)濟(jì)普查;數(shù)據(jù)挖掘
中圖分類號 TP3 文獻(xiàn)標(biāo)識碼 A 文章編號 1674-6708(2016)162-0067-01
1 大數(shù)據(jù)時代的經(jīng)濟(jì)普查
經(jīng)過前3次的全國經(jīng)濟(jì)普查,我國克服重重困難,終于建立了較完全的經(jīng)濟(jì)普查體系。但是,隨著我國人口的增多、經(jīng)濟(jì)的增長,經(jīng)濟(jì)普查所得到的數(shù)據(jù)也隨之增多。那么要想在大數(shù)據(jù)時代下,保證經(jīng)濟(jì)普查的結(jié)果能夠有利于我國的經(jīng)濟(jì)的快速發(fā)展,就需要利用高效、可靠的數(shù)據(jù)挖掘工具,結(jié)合切實可行的數(shù)據(jù)挖掘方法。
2 經(jīng)濟(jì)普查大數(shù)據(jù)狀況
近幾年中國的經(jīng)濟(jì)發(fā)展迅速,實時記錄中國經(jīng)濟(jì)的屬性特征、結(jié)構(gòu)特點和變化規(guī)律顯然是巨大的系統(tǒng)工程。普查對象是在我國境內(nèi)從事第二產(chǎn)業(yè)、第三產(chǎn)業(yè)的全部法人單位、產(chǎn)業(yè)活動單位和個體經(jīng)營戶。普查主要內(nèi)容包括單位基本屬性、就業(yè)人員等。
從圖1和圖2可以看出,每次經(jīng)濟(jì)普查得到的數(shù)據(jù)逐漸增多,運用怎樣的數(shù)據(jù)挖掘方法,使得到的數(shù)據(jù)發(fā)揮到最大的價值是我們值得思考的問題。
3 大數(shù)據(jù)時代經(jīng)濟(jì)普查的數(shù)據(jù)挖掘方法
3.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘從其字面上看是指利用工具去挖掘數(shù)據(jù)中隱藏的、未被人發(fā)現(xiàn)的東西。深層次方面講,數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關(guān)系性的信息的過程。其優(yōu)點有以下2點:數(shù)據(jù)挖掘這項技術(shù)是指從大量有效的數(shù)據(jù)中提取出可以被人們利用的、隱藏在龐大的數(shù)據(jù)源中模糊的知識和信息的過程;數(shù)據(jù)挖掘技術(shù)是一項結(jié)合多門學(xué)科知識,對各種形式、各種內(nèi)容的數(shù)據(jù)資料進(jìn)行再深入挖掘的一個可利用在社會各個領(lǐng)域的、功能強(qiáng)大的綜合技術(shù)。
3.2 數(shù)據(jù)挖掘方法
在進(jìn)行經(jīng)濟(jì)普查數(shù)據(jù)挖掘過程中,應(yīng)該針對我國經(jīng)濟(jì)普查的實際情況,選擇比較先進(jìn)、方便、適合的數(shù)據(jù)挖掘工具軟件,再通過運用各種數(shù)據(jù)挖掘工具軟件對經(jīng)濟(jì)普查中的典型數(shù)據(jù)進(jìn)行一定的預(yù)處理,從而研究出適宜我國經(jīng)濟(jì)普查的數(shù)據(jù)挖掘方法。以下是目前比較先進(jìn)的數(shù)據(jù)挖掘工具和方法:
1)SQL Server 2000 Analysis Services:該軟件是微軟為迅速提供可伸縮性電子商務(wù)、企業(yè)及數(shù)據(jù)倉庫解決方案而開發(fā)的完整數(shù)據(jù)庫與分析軟件產(chǎn)品。它提供了一款完善的數(shù)據(jù)管理和數(shù)據(jù)分析解決方案。它極大地縮短了用戶開發(fā)電子商務(wù)、數(shù)據(jù)倉庫應(yīng)用的時間。具有高效的數(shù)據(jù)分析性能、靈活的業(yè)務(wù)擴(kuò)展性、操作系統(tǒng)集成的安全性、客戶管理工具的易用性、快速的開發(fā)與生產(chǎn)投入等優(yōu)點。此外,按照設(shè)計可以部署和維護(hù)強(qiáng)大的、易于管理、支持商務(wù)的Web站點提供最好的性能。
2)SAS:它是一款統(tǒng)計分析軟件。其軟件模組中SAS系統(tǒng)是一個模塊化、集成化的大型模組軟件系統(tǒng),它主要完成以數(shù)據(jù)為中心的數(shù)據(jù)訪問、數(shù)據(jù)管理、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)分析這四大方面的任務(wù)。SAS系統(tǒng)還具有靈活的功能擴(kuò)展接口和強(qiáng)大的功能模塊,通過增加不同的模塊為用戶提供了更多的功能;通過SAS的智能型繪圖系統(tǒng)和各種有關(guān)統(tǒng)計方面的函數(shù),使用戶對數(shù)據(jù)有了更直觀、透徹的了解與分析。
3)決策樹:它主要由決策點、狀態(tài)點和結(jié)果節(jié)點構(gòu)成。運用決策樹的前提要求使用者已知各種情況發(fā)生概率,然后通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風(fēng)險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。決策樹具有易于理解和實現(xiàn)、決策分析時間短、測定模型可信度便捷等優(yōu)點。但由于分析的過程比較粗略,就產(chǎn)生了對連續(xù)性的字段預(yù)測困難、對有時間順序的數(shù)據(jù)要預(yù)處理、錯誤率高等問題。
4)SPSS Clementine:在Clementine這個數(shù)據(jù)挖掘平臺,通過迅速建立有效的預(yù)測性模型,應(yīng)用于商業(yè)活動中,可以幫助人們改進(jìn)決策方法和決策過程。Clementine擁有顯著的投資回報率和強(qiáng)大的數(shù)據(jù)挖掘功能等優(yōu)點。相同條件下,與那些僅僅關(guān)注模型的外在表現(xiàn)卻往往忽略數(shù)據(jù)挖掘在整個流程中的應(yīng)用價值的其它數(shù)據(jù)挖掘工具相比,其功能無可取代的數(shù)據(jù)挖掘算法,使數(shù)據(jù)挖掘貫穿始終。
5)Intelligent Miner:它采用了多種統(tǒng)計方法和挖掘算法。它能處理的數(shù)據(jù)類型有:結(jié)構(gòu)化數(shù)據(jù)(如:數(shù)據(jù)庫表,數(shù)據(jù)庫視圖等)和半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)(如:顧客信件,在線服務(wù)等)。利用其獨一無二的世界領(lǐng)先技術(shù),例如發(fā)現(xiàn)關(guān)聯(lián)、自動生成典型數(shù)據(jù)集、發(fā)現(xiàn)序列規(guī)律、概念性分類和可視化呈現(xiàn),可以自動地完成數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘結(jié)果表達(dá)這一全套數(shù)據(jù)挖掘操作。
根據(jù)以上對數(shù)據(jù)挖掘方法的深入研究分析,利用SQL Server 2000Analysis Services數(shù)據(jù)挖掘工具更適宜我國經(jīng)濟(jì)普查的數(shù)據(jù)挖掘。
參考文獻(xiàn)
[1]第一次全國經(jīng)濟(jì)普查主要數(shù)據(jù)公報(第一、二、三號),國家統(tǒng)計局,2005.
[2]第二次全國經(jīng)濟(jì)普查主要數(shù)據(jù)公報(第一、二、三號),國家統(tǒng)計局,2009.
[3]第三次全國經(jīng)濟(jì)普查主要數(shù)據(jù)公報(第一、二、三號),國家統(tǒng)計局,2014.
[4]張雪英.國外先進(jìn)數(shù)據(jù)挖掘工具的比較分析[J].計算機(jī)工程,2003,29(16):1-3.
[5]楊鵬鵬.中國經(jīng)濟(jì)普查的數(shù)據(jù)挖掘方法研究[J].中國市場,2015(39):25-26.
[6]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析.統(tǒng)計研究,2014,31(2):10-19.