王思懿
摘要:隨著我國改革開放的不斷深入,社會(huì)經(jīng)濟(jì)迅速發(fā)展和進(jìn)步,國民生產(chǎn)總值逐年增加。在社會(huì)經(jīng)濟(jì)迅速發(fā)展的大環(huán)境下,利用現(xiàn)代統(tǒng)計(jì)技術(shù)對(duì)經(jīng)濟(jì)狀況進(jìn)行分析顯得十分必要。數(shù)據(jù)挖掘技術(shù)成為經(jīng)濟(jì)統(tǒng)計(jì)的首選,被廣泛應(yīng)用于社會(huì)的方方面面。本文主要分析了數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用,以此來推動(dòng)社會(huì)經(jīng)濟(jì)的發(fā)展。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);經(jīng)濟(jì)統(tǒng)計(jì);應(yīng)用
自從我國實(shí)行改革開放的政策后,我國社會(huì)經(jīng)濟(jì)不斷發(fā)展。隨著改革開放的深入,十分必要對(duì)經(jīng)濟(jì)活動(dòng)進(jìn)行合情合理的經(jīng)濟(jì)分析。數(shù)據(jù)挖掘技術(shù)作為新的統(tǒng)計(jì)方法,用來分析社會(huì)經(jīng)濟(jì)的活動(dòng)狀況,受到社會(huì)各界的廣泛關(guān)注。利用數(shù)據(jù)挖掘技術(shù)分析數(shù)據(jù),滿足信息使用者的使用需求,推動(dòng)我國經(jīng)濟(jì)又好又快發(fā)展。
1.數(shù)據(jù)挖掘技術(shù)的概念
隨著我國社會(huì)經(jīng)濟(jì)的進(jìn)步和發(fā)展,數(shù)據(jù)信息量越來越龐大,如何對(duì)這些龐大和繁瑣的信息進(jìn)行處理成為經(jīng)濟(jì)統(tǒng)計(jì)的難題。傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)在數(shù)據(jù)使用者的使用需要,所以數(shù)據(jù)挖掘技術(shù)在這種背景下應(yīng)運(yùn)而生。數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)的數(shù)據(jù)處理方式存在較大的不同之處。傳統(tǒng)的數(shù)據(jù)處理主要是運(yùn)用一些數(shù)據(jù)處理軟件,分析經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù),以此來得出經(jīng)濟(jì)發(fā)展?fàn)顩r。傳統(tǒng)的數(shù)據(jù)處理是簡單分析各項(xiàng)數(shù)據(jù),停留在數(shù)據(jù)分析的表面,并沒有從深度和廣度中進(jìn)一步分析和處理數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)能從龐大的數(shù)據(jù)信息庫中搜索到有價(jià)值有品質(zhì)的數(shù)據(jù)信息,然后對(duì)這些信息進(jìn)行分析和處理,滿足信息使用者的使用需求。數(shù)據(jù)挖掘技術(shù)能解決我國經(jīng)濟(jì)發(fā)展經(jīng)濟(jì)統(tǒng)計(jì)困難的窘境,使數(shù)據(jù)使用者能真正利用好這些對(duì)我國經(jīng)濟(jì)發(fā)展有用的信息。數(shù)據(jù)挖掘技術(shù)能改善數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)利用率,加強(qiáng)數(shù)據(jù)之間深層次聯(lián)系。
2.數(shù)據(jù)挖掘技術(shù)的應(yīng)用
2.1預(yù)處理方法
收集到的數(shù)據(jù)并不一定是齊全的,有些數(shù)據(jù)是不一致的,有些數(shù)據(jù)存在噪聲,還有些數(shù)據(jù)存在空值。數(shù)據(jù)預(yù)處理方法是一種最基礎(chǔ)的處理方法,它能事先把經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息進(jìn)行預(yù)先處理。數(shù)據(jù)預(yù)處理由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換三部分組成。
數(shù)據(jù)清理指的是通過一定的方法把經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息中不全的、存在噪聲和空值的信息給去掉。一般采取的方法有四種,分別是均值法、平滑法、預(yù)測(cè)法和頻率統(tǒng)計(jì)法。具體情況具體分析,對(duì)于不同的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息要采取適合的方法。當(dāng)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)中的數(shù)據(jù)存在噪聲或數(shù)據(jù)點(diǎn)是空值的情況時(shí),可以采取均值法進(jìn)行數(shù)據(jù)清理。對(duì)于數(shù)據(jù)中的噪聲和空值,也可以采取平滑法。平滑法和均值法的不同之處是,平滑法用加權(quán)平均數(shù)代替了均值法中的平均數(shù),這種方法充分考慮到數(shù)據(jù)中的每一個(gè)數(shù)據(jù)對(duì)數(shù)據(jù)結(jié)果的權(quán)重影響。使用平滑法能讓計(jì)算出的結(jié)果更加接近真實(shí)值。而均值法是利用均值來填補(bǔ)數(shù)據(jù)中的空缺,能得到比較高準(zhǔn)確度的統(tǒng)計(jì)分析數(shù)據(jù)。這兩種方法都有各自不同的特點(diǎn),要根據(jù)實(shí)際情況,選取適宜的數(shù)據(jù)處理方法。
數(shù)據(jù)集成是指把各種不同的數(shù)據(jù)進(jìn)行集合,使這些不同的數(shù)據(jù)成為一個(gè)集體。數(shù)據(jù)集成要考慮到既能把各種數(shù)據(jù)集合起來,又能保證數(shù)據(jù)的準(zhǔn)確性。社會(huì)經(jīng)濟(jì)的不斷發(fā)展,導(dǎo)致數(shù)據(jù)信息量十分龐大。提供數(shù)據(jù)信息的來源是多方的,既有官方提供的數(shù)據(jù)信息,又有民間提供的信息,又或者是社會(huì)主體提供的數(shù)據(jù)信息。但數(shù)據(jù)集成也會(huì)出現(xiàn)問題,主要是兩個(gè)問題,一個(gè)是模式集成問題,另一個(gè)是冗余問題。模式集成問題是指實(shí)體識(shí)別存在問題。因?yàn)閿?shù)據(jù)挖掘的過程中,多個(gè)數(shù)據(jù)通過多種數(shù)據(jù)模式呈現(xiàn)出來。冗余問題主要是指數(shù)據(jù)存在多余,所以要讓數(shù)據(jù)量保持在一個(gè)比較低的水平,拋去繁瑣的數(shù)據(jù)。數(shù)據(jù)挖掘的目的就是通過某種方式方法把經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)以一個(gè)最簡的狀態(tài)呈現(xiàn)出來。就數(shù)據(jù)挖掘本身而言,它就是對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行深一層次的加工,把挖掘出來的數(shù)據(jù)和其他呈現(xiàn)正相關(guān)的數(shù)據(jù)進(jìn)行簡單優(yōu)化,為數(shù)據(jù)使用者提供使用便利,也為數(shù)據(jù)管理提供管理方便,還為數(shù)據(jù)決策者提供決策依據(jù)。
數(shù)據(jù)變換是指通過一定的方式方法把數(shù)據(jù)變換成符合信息挖掘要求的數(shù)據(jù)。數(shù)據(jù)變換包括數(shù)據(jù)規(guī)范化和數(shù)據(jù)泛化。數(shù)據(jù)規(guī)范化中包含了零均值規(guī)范化、最大規(guī)范化、最小規(guī)范化。數(shù)據(jù)泛化指用高層次的數(shù)據(jù)替代低層次的數(shù)據(jù)。這其中也包括了數(shù)據(jù)的連續(xù)性?,F(xiàn)在的處理方法很難連續(xù)處理數(shù)據(jù),所以就出現(xiàn)了數(shù)據(jù)的離散化。數(shù)據(jù)的離散化是指通過劃分區(qū)間,用標(biāo)號(hào)代替某些數(shù)據(jù),以此來達(dá)到數(shù)據(jù)的連續(xù)性。在實(shí)際計(jì)算過程中,要盡量減少數(shù)據(jù)的收集量,減少數(shù)據(jù)的收集量被稱作概念分層。
2.2決策樹方法
決策樹作為一種快速分類的方法,能使數(shù)據(jù)以直觀的方式呈現(xiàn)出來。在數(shù)據(jù)挖掘過程中,十分必要對(duì)數(shù)據(jù)進(jìn)行系統(tǒng)的分析。數(shù)據(jù)經(jīng)過系統(tǒng)的分析后,就要進(jìn)行數(shù)據(jù)輸出,分析數(shù)據(jù)的輸出在數(shù)據(jù)挖掘中處于很重要的步驟,因?yàn)檩敵龅姆治鰯?shù)據(jù)的數(shù)據(jù)形式對(duì)信息使用者產(chǎn)生很大的影響。經(jīng)濟(jì)決策的管理者正是依靠這些數(shù)據(jù)對(duì)經(jīng)濟(jì)活動(dòng)作出規(guī)劃和決策。
運(yùn)用決策樹的分類方法進(jìn)行分類,首先要先構(gòu)建起完善的決策樹結(jié)構(gòu)。第一,建立好分析輸出的基本模型,運(yùn)用訓(xùn)練集建立一棵決策樹,并且精簡決策樹;第二,已經(jīng)建立完畢的決策樹進(jìn)行數(shù)據(jù)分類,分類從決策樹的根部開始,逐漸到樹干、樹丫,一直到數(shù)據(jù)的輸入滿足設(shè)置好的條件才停止,這種過程是一個(gè)遞歸的過程,是一步一步進(jìn)行的。在實(shí)際決策樹應(yīng)用中,實(shí)現(xiàn)決策樹停止的有兩個(gè)條件:一個(gè)是一個(gè)節(jié)點(diǎn)上所有的數(shù)據(jù)全部屬于同一個(gè)類別,數(shù)據(jù)就會(huì)停止;另一個(gè)是已經(jīng)沒有分類屬性可以繼續(xù)對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的再次分割。決策樹的分類主要解決數(shù)據(jù)挖掘預(yù)測(cè)和數(shù)據(jù)分類方面的問題。
決策樹構(gòu)建完畢后,可以根據(jù)實(shí)際數(shù)據(jù)使用需求,數(shù)據(jù)使用者對(duì)已經(jīng)構(gòu)建完畢的決策樹進(jìn)行適當(dāng)?shù)恼{(diào)整。調(diào)整的目的是使決策樹分類的數(shù)據(jù)信息能充分滿足信息使用者的需求,減少?zèng)Q策樹數(shù)據(jù)輸出的起伏變化,保證決策樹的穩(wěn)定,保證信息質(zhì)量。
3.總結(jié)
我國是社會(huì)主義市場(chǎng)經(jīng)濟(jì)體制,要根據(jù)市場(chǎng)動(dòng)態(tài),制定各項(xiàng)決策并加以實(shí)施。經(jīng)濟(jì)統(tǒng)計(jì)活動(dòng)為決策制定和實(shí)施提供了數(shù)據(jù)支持,保證了各項(xiàng)經(jīng)濟(jì)活動(dòng)有理可依。數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用,能保證經(jīng)濟(jì)活動(dòng)更加全面和具體,能保證經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。數(shù)據(jù)挖掘技術(shù)擁有廣闊的發(fā)展前景,能為社會(huì)創(chuàng)造出巨大的經(jīng)濟(jì)效益,提升社會(huì)價(jià)值。(作者單位:中石化勘探分公司)
參考文獻(xiàn):
[1]崔丹.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用探索[J].財(cái)經(jīng)界,2014,(5):149.
[2]王康.關(guān)于數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].財(cái)經(jīng)界,2011,(10):98.
[3]劉秀華.淺談數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].商場(chǎng)現(xiàn)代化,2014,(23):280-280.