作者簡介:吳春瑾(1989.10-),女,漢,山東菏澤人,中國人民大學(xué)在職研究生,本科,研究方向:統(tǒng)計-數(shù)據(jù)分析。
摘要:隨著我國的經(jīng)濟(jì)的不斷發(fā)展,很多技術(shù)也有了很大的進(jìn)步,對于數(shù)據(jù)的挖掘技術(shù)也是如此,統(tǒng)計方法是數(shù)據(jù)挖掘技術(shù)中最基礎(chǔ)的也是最重要的一種統(tǒng)計方法,并且基于此也產(chǎn)生了很多數(shù)據(jù)挖掘的新的方法,所以研究數(shù)據(jù)挖掘中統(tǒng)計方法的應(yīng)用非常的有必要,不僅能夠給數(shù)據(jù)挖掘的工作者提供意見,也可以進(jìn)一步發(fā)現(xiàn)數(shù)據(jù)挖掘中存在的特征,為今后的研究者提供理論依據(jù)。本文就針對數(shù)據(jù)挖掘中的統(tǒng)計方法以及應(yīng)用研究進(jìn)行探討。
關(guān)鍵詞:數(shù)據(jù)挖掘;統(tǒng)計方法;應(yīng)用
前言
隨著社會的發(fā)展,對數(shù)據(jù)的需求量越來越大,對于原始數(shù)據(jù)的選擇尤其重要。如何選用合適以及高效的數(shù)據(jù)處理技術(shù),是當(dāng)前人們需要解決的問題,所以在此之后,人們應(yīng)用了數(shù)據(jù)挖掘技術(shù),它的出現(xiàn)給數(shù)據(jù)的選擇帶來了新的篇章。
數(shù)據(jù)挖掘主要是對數(shù)據(jù)進(jìn)行采集、數(shù)據(jù)進(jìn)行處理分析、數(shù)據(jù)的知識的表達(dá)以及應(yīng)用服務(wù)等幾個模塊組成。在這幾個模塊中,基礎(chǔ)版塊是對數(shù)據(jù)進(jìn)行采集,關(guān)鍵是對數(shù)據(jù)進(jìn)行處理以及分析,表達(dá)形式是數(shù)據(jù)的規(guī)則以及知識,最終目的是知識應(yīng)用以及服務(wù)?,F(xiàn)行世界中的很多原始數(shù)據(jù)都是以及被污染了的,所以在進(jìn)行數(shù)據(jù)挖掘的時候肯定會遇到很多不合理的數(shù)據(jù),所以要求我們對收集來的數(shù)據(jù)嚴(yán)格審查,選擇什么樣的數(shù)據(jù),怎么樣進(jìn)行數(shù)據(jù)處理,如何才能保證在統(tǒng)計分析的應(yīng)用前提下實現(xiàn)數(shù)據(jù)挖掘,這都是我們需要考慮的問題。
一、數(shù)據(jù)挖掘技術(shù)
1. 理論
數(shù)據(jù)挖掘技術(shù),通俗意義上說就是從海量的數(shù)據(jù)中獲取自己需要的有價值的數(shù)據(jù)。我們現(xiàn)實社會中接觸到的大量數(shù)據(jù)一般都會具有不完整性、隨機(jī)性、以及模糊性的特征,這些都是沒有經(jīng)過處理的數(shù)據(jù)。對于我們來說,這些數(shù)據(jù)的價值并不高,所以必須要通過數(shù)據(jù)挖掘和分析將這些新型變化為有用的、潛在的、新穎的數(shù)據(jù)。這個過程就是數(shù)據(jù)挖掘。
2. 特點
數(shù)據(jù)挖掘是一種信息的轉(zhuǎn)變過程,包含了很多學(xué)科,包括了數(shù)據(jù)庫的統(tǒng)計、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫等內(nèi)容,在統(tǒng)計方面應(yīng)用比較廣泛。主要步驟是:準(zhǔn)備數(shù)據(jù)——挖掘數(shù)據(jù)——分析結(jié)果和總結(jié)。
數(shù)據(jù)挖掘的主要功能可以有分類數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)測、數(shù)據(jù)進(jìn)行總結(jié)等。而且其也具有自己的特點:
處理的數(shù)據(jù)源比較龐大;能夠自動獲取信息功能;能夠描述過去以及對未來進(jìn)行預(yù)測;數(shù)據(jù)信息反饋及時可靠。
二、數(shù)據(jù)挖掘方法的研究現(xiàn)狀
當(dāng)前數(shù)據(jù)挖掘的研究國內(nèi)外都比較多,在據(jù)此的十多年內(nèi),很多專家和學(xué)者都在進(jìn)行這方面的工作研究:
(1)基于統(tǒng)計方法的對復(fù)雜數(shù)據(jù)進(jìn)行挖掘
尚文娟在2005年提出了新的數(shù)據(jù)統(tǒng)計方法多元可加回歸樹方法,并且被應(yīng)用到了復(fù)雜的數(shù)據(jù)挖掘中,形成了復(fù)雜數(shù)據(jù)挖掘的一個框架。在2008年,在原有的復(fù)雜數(shù)據(jù)挖掘上,應(yīng)瑞飛,提出了聚類分析,改變了經(jīng)典的Q型因子模型,這是一種新的海量數(shù)據(jù)的聚類方法,稱為Q型因子聚類法。此后學(xué)者們還提出了網(wǎng)頁分塊來抽取數(shù)據(jù)的數(shù)據(jù)挖掘方法。
(2)支持向量機(jī)基礎(chǔ)下的一種挖掘方法
楊鐵建做了這方面的研究,寫出了其專研成果,胡運紅也在2012年綜述了國內(nèi)外這方面的研究。
(3)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)下的數(shù)據(jù)挖掘
這主要是針對反饋輸入的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行了研究,解決了水文預(yù)報中的一些誤差問題,為水文預(yù)報作出了很大的貢獻(xiàn)。
(4)遺傳算法下的數(shù)據(jù)挖掘方法
肖冬榮等人對這方面進(jìn)行了研究,主要是應(yīng)用與分析交通運輸事故的原因,提高了數(shù)據(jù)的效率。
三、數(shù)據(jù)挖掘的內(nèi)容
當(dāng)前信息化工程發(fā)展迅速,很多城市都在進(jìn)行數(shù)據(jù)庫的建設(shè),一些城市以已經(jīng)開始進(jìn)行建設(shè),一些城市還在籌備之中。小型的數(shù)據(jù)庫,我們熟知的Access、FoxPro都是屬于數(shù)據(jù)庫軟件,大型數(shù)據(jù)庫一般都是以oracle系統(tǒng)為主。當(dāng)前很多大型企業(yè)都有自己的數(shù)據(jù)庫,還有就是在Web下的數(shù)據(jù)統(tǒng)計庫。這些數(shù)據(jù)庫都可以手機(jī)來自不同數(shù)據(jù)源的數(shù)據(jù)信息,然后對數(shù)據(jù)進(jìn)行清理、變換、集成、然后進(jìn)行刷新,這就構(gòu)成了一個大型的數(shù)據(jù)儲存庫,為數(shù)據(jù)的下一步挖掘提供了很好的基礎(chǔ)條件。數(shù)據(jù)挖掘的主要內(nèi)容有以下:
(1)對時間序列類數(shù)據(jù)的挖掘
時間序列數(shù)據(jù),顧名思義,就是存放隨著時間的變化的序列值數(shù)據(jù)的數(shù)據(jù)庫,一般包括月度、季度以及年度變化的數(shù)據(jù)庫,因為這些數(shù)據(jù)都是經(jīng)歷了時間的洗禮的,所以更顯的彌足珍貴。對于一些國家的經(jīng)濟(jì)和社會的發(fā)展有著非常重要的意義,給國家的發(fā)展提供了很好的參照。還有一些數(shù)據(jù)是針對企業(yè)的財務(wù)狀況進(jìn)行反映的。
通過時間序列的數(shù)據(jù)的挖掘,我們可以了解到研究對象的一個發(fā)展趨勢以及變化的特征,以及相互之間存在的關(guān)系,利用這些數(shù)據(jù)可以進(jìn)一步進(jìn)行分析和研究。
(2)截面數(shù)據(jù)的挖掘
這個數(shù)據(jù)主要是說在同一時間上有著不同的數(shù)據(jù)指標(biāo)的數(shù)據(jù)庫,主要包括省市,城市、縣鎮(zhèn)地區(qū)的宏觀經(jīng)濟(jì)指標(biāo)的數(shù)據(jù),具體的說來有一些數(shù)據(jù)還包括了不同家庭以及居民的行為指數(shù),可以反映出個體的差異性。
對截面數(shù)據(jù)進(jìn)行挖掘,可以有效的發(fā)現(xiàn)不同的個體之間存在著的差異性,以及他們之間存在的量化關(guān)系。
(3)對統(tǒng)計信息數(shù)據(jù)庫進(jìn)行挖掘
國家的發(fā)展離不開統(tǒng)計信息數(shù)據(jù)庫,它包括對國家、經(jīng)濟(jì)、科技這些方面的統(tǒng)計,通常作為國家發(fā)展的重要信息以及。當(dāng)前統(tǒng)計工作信息是各個政府部門的工作重點,小型的數(shù)據(jù)分析一般采用FoxPro來進(jìn)行數(shù)據(jù)統(tǒng)計,對于大型的數(shù)據(jù)一般采用oracle大型數(shù)據(jù)庫進(jìn)行數(shù)據(jù)儲存。另外一些報表的處理、報表的統(tǒng)計排版等應(yīng)用軟件也大量被應(yīng)用到統(tǒng)計信息的挖掘中。在企業(yè)中也十分重視數(shù)據(jù)的挖掘。通過統(tǒng)計數(shù)據(jù)的挖掘,政府可以掌握國民經(jīng)濟(jì)的動態(tài),企業(yè)可以實時把控企業(yè)的經(jīng)營狀況。
(4)統(tǒng)計普查的數(shù)據(jù)庫挖掘
普查對于我們來說并不陌生,在我國普查很多,最常見的就是人口普查,這是國家掌握國情的一個重要的方式。除了人口普查以外,還有農(nóng)業(yè)普查、工業(yè)普查、工作設(shè)備鋪場等等。對于普查來說,并不是經(jīng)常會進(jìn)行的,因為這種普查耗費的人力和物力太多,所以一般都不經(jīng)常采用。這種方式挖掘的數(shù)據(jù)具有真實可靠,以及有價值的特點。
(5)抽樣調(diào)查數(shù)據(jù)庫挖掘
在社會的發(fā)展過程中,如果全部進(jìn)行數(shù)據(jù)調(diào)查,花費的人力物力是不可預(yù)計的,所以這時候就需要抽樣調(diào)查,選用抽樣調(diào)查獲得數(shù)據(jù)的真實性比較可靠,并且還能夠有效的節(jié)約人力和物力,畢竟具有速度快的優(yōu)點。在抽樣調(diào)查中,需要設(shè)計好事先的抽樣框,這樣就能夠體現(xiàn)出一種隨機(jī)性的原則,獲取的數(shù)據(jù)就比較有價值。通過抽樣調(diào)查,可以對社會經(jīng)濟(jì)狀態(tài)進(jìn)行了解,特別是對于居民的生活水平有很好的掌握,從而做出社會發(fā)展的決策。
四、統(tǒng)計數(shù)據(jù)挖掘的方法及應(yīng)用
當(dāng)前世界是一個信息化的世界,換言之就是一個數(shù)據(jù)交換的世界,大量的數(shù)據(jù)被儲存在中心數(shù)據(jù)儲存庫中,近幾年來,大量學(xué)者對這些數(shù)據(jù)的挖掘方法進(jìn)行了研究。主要的挖掘方法有以下:
(一)統(tǒng)計數(shù)據(jù)挖掘的方法
(1)關(guān)聯(lián)分析法
這種挖掘方法主要是在數(shù)據(jù)庫中發(fā)現(xiàn)有價值
屬性以及存在著關(guān)聯(lián)的數(shù)據(jù)。這種方法有效的減少了難懂以及無章可循的數(shù)據(jù),將其變成少量,以及能夠方便觀察的靜態(tài)資料。這種方式當(dāng)前主要應(yīng)用在商業(yè)領(lǐng)域,最經(jīng)典的是購物籃分析。在實際生活中不同的分類標(biāo)準(zhǔn)可以產(chǎn)生不同的分類方法,而且可以采用多種算法,如表4-1。
(2)分類方法。這是在數(shù)據(jù)挖掘中一種很重要的挖掘方法,同時它是一種很高效氯的分析方法,在進(jìn)行數(shù)據(jù)挖掘中主要采用決策樹來進(jìn)行分類。主要是為了對數(shù)據(jù)進(jìn)行測試然后將其分類,決策樹的學(xué)習(xí)是數(shù)以一種遞歸的學(xué)習(xí),采用一種自上而下的方式。決策樹的算法主要有以下幾種:
表4.2決策樹算法
決策樹算法使用分析算法分析
ID3算法、C4.5、C5.0、分類回歸樹具有描述簡單、實用方便,適合進(jìn)行大規(guī)模的數(shù)據(jù)處理采用分支策略,這其中ID3算法是一種典型。
KNN法 適合分別類別交叉和重疊的分樣集合K最相鄰的方法,在類別決策中運用最大,算量很大。
Reverse KNN 法適用于一些樣本容量類別是自動分類的,并且容量較小,所以容易出現(xiàn)分類分錯??梢越档蚄NN中的計算復(fù)雜難度,提高效率。
Bayes方法。樣本必須具有獨立的性質(zhì),而且足夠大一種在已知先驗概率與類條件概率的情況下的模式分類方法。需要獲得類別總體的概率分布。
(3)聚類分析方法。聚類分析方法又叫做群分析,是一種統(tǒng)計分析方法,主要針對樣品和指標(biāo)的分類的研究。在商業(yè)領(lǐng)域中一般采用的是不同的聚類的分析方法,在這種聚類分析方法中又可以分為四種分類方法:基于模型的聚類方法、基于密度的聚類方法、基于分層的聚類方法以及基于網(wǎng)格的聚類方法。在現(xiàn)實生活中,根據(jù)需要對聚類分析法的算法有很多種,這里就不具體進(jìn)行闡述了。
(4)預(yù)測方法。這是一種能夠挖掘連續(xù)數(shù)值數(shù)據(jù)的以及對預(yù)測知識的重要方法,傳統(tǒng)的預(yù)測方法主要有這幾種:時間序列方法、灰色系統(tǒng)模型分析、馬爾科夫分析方法、線性于非線性回歸模型分析法。對于當(dāng)前的預(yù)測方法主要是采用兩種算法來進(jìn)行數(shù)據(jù)的計算,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法,可以用來對未來數(shù)據(jù)的走向進(jìn)行預(yù)測,在商業(yè)領(lǐng)域主要是應(yīng)用到銷售中。
(二)數(shù)據(jù)挖掘方法的具體應(yīng)用
(1)在商品零售中的應(yīng)用。商品零售中,最早使用的是關(guān)聯(lián)分析法,在1994年就在美國被采用。主要是對零售商店內(nèi)的貨架貨物的擺放規(guī)則,以及零售業(yè)的數(shù)據(jù)挖掘進(jìn)行開發(fā)。前文提到的“購物籃分析”就是一種典型的應(yīng)用。
(2)在保險業(yè)、金融業(yè)、通信業(yè)中的應(yīng)用。近些年來數(shù)據(jù)挖掘在保險行業(yè)、金融業(yè)、通信業(yè)中的數(shù)據(jù)挖掘應(yīng)用比較多,在保險行業(yè)主要是保險客戶進(jìn)行評估應(yīng)用。銀行中主要是,對銀行信用卡的客戶的信用進(jìn)行評級,以及對銀行客戶關(guān)系進(jìn)行管理。通信行業(yè)主要是對用戶行為進(jìn)行精確分析。
(3)生物制藥、基因方面的研究。主要是應(yīng)用到DNA相似搜索,以及基因序列進(jìn)行分析,同時在生物方面可以對生物數(shù)據(jù)的可視化進(jìn)行挖掘,以及蛋白質(zhì)等項目的數(shù)據(jù)進(jìn)行預(yù)測。生物制藥中主要是應(yīng)用到試藥分析、趨勢分析等等。
五、討論
經(jīng)過上述分析,我們能夠清楚的發(fā)現(xiàn)統(tǒng)計分析是數(shù)據(jù)分析中的一個重要的工具,當(dāng)前是信息時代,對于數(shù)據(jù)的需要非常的大,所以對于數(shù)據(jù)的挖掘方法研究更應(yīng)該投入更多的人力和物力。(作者單位:中國人民大學(xué))
參考文獻(xiàn):
[1]崔廣風(fēng). 數(shù)據(jù)挖掘中的統(tǒng)計方法及其應(yīng)用研究[D].西南石油大學(xué),2014.
[2]殷瑞飛. 數(shù)據(jù)挖掘中的聚類方法及其應(yīng)用[D].廈門大學(xué),2008.
[3]唐志航. 可拓數(shù)據(jù)挖掘方法及其應(yīng)用研究[D].東華大學(xué),2009.
[4]牛力. 數(shù)據(jù)挖掘中的統(tǒng)計分析技術(shù)應(yīng)用研究[J]. 廣西師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2002,S1:226-229.
[5]董彩玲. 幾種典型數(shù)據(jù)挖掘方法及其應(yīng)用研究[D].山東大學(xué),2010.