作者簡(jiǎn)介:王耀文(1978.05-),女,遼寧營(yíng)口人,中國(guó)人民大學(xué)在職研究生,本科學(xué)歷,研究方向:統(tǒng)計(jì)學(xué)(數(shù)據(jù)分析方向)。
摘 要:隨著我國(guó)經(jīng)濟(jì)發(fā)展水平的不斷提高,各行各業(yè)得到了顯著發(fā)展,數(shù)據(jù)統(tǒng)計(jì)學(xué)方法也變得日趨多樣,數(shù)據(jù)挖掘是建立在數(shù)據(jù)庫(kù)與人工智能基礎(chǔ)上發(fā)展起來(lái)的一種高新技術(shù),其功能是從眾多的數(shù)據(jù)當(dāng)中挖掘到最有價(jià)值的信息,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的高效利用。聚類分析能夠被當(dāng)成一種數(shù)據(jù)分析工具,能真實(shí)反映出數(shù)據(jù)分布情況,本文主要對(duì)統(tǒng)計(jì)學(xué)在數(shù)據(jù)挖掘中的應(yīng)用進(jìn)行了探討,從而表現(xiàn)統(tǒng)計(jì)學(xué)在數(shù)據(jù)挖掘應(yīng)用中的重要性。
關(guān)鍵詞:統(tǒng)計(jì)學(xué)方法;數(shù)據(jù)挖掘;應(yīng)用分析
數(shù)據(jù)挖掘就是指從眾多實(shí)際應(yīng)用數(shù)據(jù)中獲取批量大、有噪聲、且隨機(jī)性強(qiáng)的數(shù)據(jù),將潛在的信息與數(shù)據(jù)提取出來(lái),就是從數(shù)據(jù)中挖掘有價(jià)值的知識(shí),而大多數(shù)原始數(shù)據(jù)具有一定的結(jié)構(gòu)化特征,比如,關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù);也可以通過文本、圖形、圖像等半結(jié)構(gòu)化發(fā)掘有用知識(shí),這些知識(shí)可以是數(shù)學(xué)的也可以是非數(shù)學(xué)形式的;數(shù)據(jù)挖掘能以歸納形式存在,能夠被廣泛應(yīng)用到信息查詢、信息管理、信息決策控制中,方便數(shù)據(jù)的維護(hù)與管理。由此可見,數(shù)據(jù)挖掘是一門交叉性強(qiáng)的學(xué)科,加強(qiáng)對(duì)其的研究非常有意義,下面將對(duì)統(tǒng)計(jì)方法在數(shù)據(jù)挖掘中的具體應(yīng)用進(jìn)行分析。
一、數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系
(一)數(shù)據(jù)挖掘的內(nèi)涵
通常來(lái)說,數(shù)據(jù)挖掘的定義較為模糊,沒有明確界定,大部分對(duì)其的定義只是停留在其背景與觀點(diǎn)的內(nèi)容上。通過對(duì)不同觀點(diǎn)的統(tǒng)一整理,人們最終將其描述為:從大量多樣化的信息中發(fā)現(xiàn)隱晦性、規(guī)律性等潛在信息,并對(duì)這些信息進(jìn)行創(chuàng)造、加工的過程。數(shù)據(jù)挖掘作為一門重要的交叉學(xué)科,能夠?qū)?shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等眾多的科學(xué)融入到一起,從而實(shí)現(xiàn)技術(shù)與理論的創(chuàng)新與發(fā)展[1]。其中,數(shù)據(jù)庫(kù)、人工智能與統(tǒng)計(jì)學(xué)是數(shù)據(jù)挖掘當(dāng)中的三大支柱理論。數(shù)據(jù)挖掘的目的是從數(shù)據(jù)庫(kù)當(dāng)中發(fā)掘各種隱含的知識(shí)與信息,此過程的方法非常多,有統(tǒng)計(jì)學(xué)知識(shí)、遺傳算法、粗集方法、決策法、模糊邏輯法等,還可以應(yīng)用向鄰近的可視技術(shù)、模式識(shí)別技術(shù)等,在以上所有技術(shù)的支持上能夠使數(shù)據(jù)挖掘更為科學(xué)、有序。
(二)數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)間的關(guān)系
通常來(lái)說,統(tǒng)計(jì)學(xué)的主要功能是對(duì)統(tǒng)計(jì)原理與統(tǒng)計(jì)方法進(jìn)行研究的科學(xué)。具體來(lái)說就是指對(duì)數(shù)字資料進(jìn)行的收集、整理、排序、分析、利用的過程,數(shù)字資料是各種信息的歸納與總結(jié),可以將其作為特性原理的認(rèn)知、推理方法[2]。而統(tǒng)計(jì)學(xué)則表示的是使用專業(yè)的統(tǒng)計(jì)學(xué)、概率理論原理等對(duì)各種屬性關(guān)系的統(tǒng)計(jì)與分析過程,通過分析成功找到屬性間的關(guān)聯(lián)與發(fā)展的規(guī)律。在此過程中,統(tǒng)計(jì)分析方法是數(shù)據(jù)挖掘最為重要的手段之一。
在數(shù)據(jù)挖掘這一課題被提出來(lái)之前,統(tǒng)計(jì)分析技術(shù)對(duì)于人們來(lái)說更熟悉,也是人們?nèi)粘i_展工作、尋找數(shù)據(jù)間規(guī)律最常使用的方法。但是不能簡(jiǎn)單的將數(shù)據(jù)挖掘作為統(tǒng)計(jì)學(xué)的延伸與替代工具,而是要將兩者的區(qū)別認(rèn)識(shí)到位,再結(jié)合兩者間的不同特點(diǎn)分析其應(yīng)用特點(diǎn)[3]。大部分的統(tǒng)計(jì)學(xué)分析技術(shù)都是建立在數(shù)學(xué)理論與技巧上的,預(yù)測(cè)通常較為準(zhǔn)確,效果能夠讓大部分人滿意。數(shù)據(jù)挖掘能夠充分借鑒并吸收統(tǒng)計(jì)學(xué)技術(shù),在融入到自身特點(diǎn)以后成為一種數(shù)據(jù)挖掘技術(shù)。
統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘存在的目標(biāo)都是一致的,就是不斷對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行發(fā)掘。鑒于統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘在目標(biāo)上的一致性,致使很多研究學(xué)者與專家將數(shù)據(jù)挖掘作為了統(tǒng)計(jì)學(xué)的一個(gè)分支機(jī)構(gòu)[4]。但是這種認(rèn)知非常不正確,因?yàn)閿?shù)據(jù)挖掘不僅體現(xiàn)在與統(tǒng)計(jì)學(xué)的關(guān)系上還體現(xiàn)在思想、工具與方法上,尤其是在計(jì)算機(jī)科學(xué)領(lǐng)域?qū)?shù)據(jù)挖掘起到的作用非常大。比如,通過借助數(shù)據(jù)庫(kù)技術(shù)與人工智能的學(xué)習(xí),能夠關(guān)注到更多統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘上的共通點(diǎn),但是兩者存在的差異依然非常大。數(shù)據(jù)挖掘就是指對(duì)大量的數(shù)據(jù)信息不斷挖掘的過程,DM能夠?qū)?shù)據(jù)模式內(nèi)的數(shù)據(jù)關(guān)系進(jìn)行充分挖掘,并對(duì)觀測(cè)到的數(shù)據(jù)庫(kù)處理有著極高的關(guān)注度。
二、數(shù)據(jù)挖掘的主要過程
從數(shù)據(jù)本身出發(fā)探討數(shù)據(jù)挖掘過程,數(shù)據(jù)挖掘的過程分為信息的收集、數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┑冗^程。
首先,要將業(yè)務(wù)對(duì)象確定下來(lái),明確不同業(yè)務(wù)定義,并認(rèn)清數(shù)據(jù)挖掘的目的,這是做好數(shù)據(jù)挖掘最關(guān)鍵的一步,也是最重要的一步,雖然挖掘的結(jié)果不能被準(zhǔn)確預(yù)測(cè)到,但卻需要對(duì)問題的可預(yù)見性進(jìn)行探索[5]。其次,還要做好數(shù)據(jù)準(zhǔn)備工作,包含數(shù)據(jù)清理、數(shù)據(jù)變換等工作,數(shù)據(jù)清理的實(shí)際意義是將噪聲與空缺值補(bǔ)全,針對(duì)這一問題,可以使用平滑技術(shù),而空缺值的處理則是屬性中最常見的,可以將統(tǒng)計(jì)中最可能出現(xiàn)的值作為一個(gè)空缺值[6]。
信息收集指的是按照特定的數(shù)據(jù)分析對(duì)象,可以將分析中需要的特征信息抽象出來(lái),并在此基礎(chǔ)上選擇出較為科學(xué)、適合的信息收集方法,將全部的信息全部錄入到特定的數(shù)據(jù)庫(kù)中。如果數(shù)據(jù)量較大,則可以選擇一個(gè)專門的管理數(shù)據(jù)的倉(cāng)庫(kù),實(shí)現(xiàn)對(duì)信息的有效保護(hù)與管理;數(shù)據(jù)集成就是指將來(lái)源不同、格式不同、性質(zhì)不同、特點(diǎn)不同的數(shù)據(jù)集成到一起,進(jìn)而為企業(yè)提供更為全面、系統(tǒng)的數(shù)據(jù)共享平臺(tái);數(shù)據(jù)變換就是通過聚集、概化、規(guī)范化等方式對(duì)數(shù)據(jù)進(jìn)行挖掘,對(duì)于一些實(shí)用數(shù)據(jù),則可以通過分層與分離方式實(shí)現(xiàn)對(duì)數(shù)據(jù)的轉(zhuǎn)換;數(shù)據(jù)挖掘就是結(jié)合數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)信息點(diǎn),并選擇正確的分析方法實(shí)現(xiàn)對(duì)有價(jià)值數(shù)據(jù)的挖掘,事例推理、規(guī)則推理、遺傳算法等都是應(yīng)用較多的方法[7]。
三、統(tǒng)計(jì)學(xué)方法中的聚類分析
在統(tǒng)計(jì)學(xué)聚類方法基礎(chǔ)上能夠構(gòu)建出潛在的概率分布假設(shè),可以使用試圖優(yōu)化的方法構(gòu)建數(shù)據(jù)與統(tǒng)計(jì)模型的擬合效果?;诮y(tǒng)計(jì)學(xué)聚類方法當(dāng)中,Cobweb方法是在1987年由Fisher提出的,能夠以分類樹作為層次聚類創(chuàng)建的方法,在分類樹上,每一個(gè)節(jié)點(diǎn)都能代表著一個(gè)概念,該方法就是對(duì)節(jié)點(diǎn)概率描述的過程。Cobweb方法還使用了啟發(fā)式估算方式,使用分類效用對(duì)分類樹的構(gòu)建進(jìn)行指導(dǎo),從而實(shí)現(xiàn)對(duì)最高分類的劃分目的,能夠?qū)⒉煌诸悓?duì)象全部歸類到一個(gè)類別中,并依據(jù)這些內(nèi)容創(chuàng)建出一個(gè)新的類別。但是這種方法也存在一定局限性,局限性在于假設(shè)的屬性概率分布都是獨(dú)立的,并不能始終處于成立狀態(tài)中。
只有在掌握了Cobweb算法以后才能對(duì)概念聚類算法的特點(diǎn)進(jìn)行探究。Cobweb算法能夠以分類樹方式創(chuàng)建層次聚類,可以將概率表現(xiàn)為p(Ai=Vii/Ck)條件概率,其中,Ai=Vij是一個(gè)類別下的,同屬于一個(gè)值對(duì),Ck是概念類中的一種。在給出一個(gè)特定的對(duì)象以后,Cobweb能夠?qū)⑷繉?duì)象整合到一個(gè)節(jié)點(diǎn)上,從而計(jì)算出分類效應(yīng),分?jǐn)?shù)最高的效用就是對(duì)象所在的節(jié)點(diǎn)位置[8]。如果對(duì)象構(gòu)建失去節(jié)點(diǎn),則Cobweb能夠給出一個(gè)新的節(jié)點(diǎn),并對(duì)其進(jìn)行分類使用,這種節(jié)點(diǎn)計(jì)算方法起步較晚,能夠?qū)ΜF(xiàn)有的節(jié)點(diǎn)與計(jì)算相互對(duì)比,從而劃分出最高的分類指標(biāo),將全部對(duì)象統(tǒng)一到已有的分類中,從而構(gòu)建出一個(gè)新的類別。
Classitci是Cobw eb方法的一種延伸與發(fā)展,能夠使用其完成聚類數(shù)據(jù)的處理,在該方法下,節(jié)點(diǎn)中的每一個(gè)存儲(chǔ)屬性都是處于連續(xù)分布狀態(tài)中,能夠?qū)⑵渥鳛榉诸愋Ч拚姆椒?,并以度量的形式表現(xiàn)出來(lái),這種度量基礎(chǔ)上能夠?qū)崿F(xiàn)連續(xù)性的積分,從而降低分散發(fā)生率,該方法是積分過程而不是對(duì)屬性的求和過程。
Auto Class方法也是一種應(yīng)用較為普遍的聚類方法,該方法主要采用統(tǒng)計(jì)分析對(duì)結(jié)果類的數(shù)目進(jìn)行估算,還可以通過模型搜索方式分析空間中各種分類的可能性,還能夠自動(dòng)對(duì)模型數(shù)量與模型形態(tài)進(jìn)行描述。在一定類別空間中,不同的類別內(nèi)屬性存在關(guān)聯(lián)性,不同的類別間具有相互繼承性,在層次結(jié)構(gòu)當(dāng)中,共享模型參數(shù)是非常重要的。
還有一種使用較為普遍的模型是混合模型,混合模型在統(tǒng)計(jì)學(xué)聚類方法上使用也非常普遍。該方法最為基本的思想就是概率分布決定著每一種聚類狀態(tài),并且模型中的每一個(gè)數(shù)據(jù)都是由多個(gè)概率在分布狀態(tài)下產(chǎn)生的?;旌夏P瓦€能夠作為一種半?yún)?shù)密度評(píng)估方法,其能夠?qū)?shù)估計(jì)與非參數(shù)估計(jì)的優(yōu)點(diǎn)全部集中到一起,并將參數(shù)估計(jì)法與非參數(shù)估價(jià)法的諸多優(yōu)點(diǎn)融合到一起,因?yàn)槟P途哂幸欢◤?fù)雜性,為此,不能將其限制在概率密度函數(shù)表達(dá)形式上,這種復(fù)雜性決定了模型與求解存在關(guān)聯(lián),與樣本集合的聯(lián)系非常少。通過以上的研究可以了解到,數(shù)據(jù)發(fā)掘中應(yīng)用聚類方法非常有效,并且較為常見。比如,構(gòu)建出Cobweb模型與混合模型,采用Clara與Clarans方法中的抽樣技術(shù),將Denclue方法用在概率密度函數(shù)中。
結(jié)束語(yǔ)
統(tǒng)計(jì)學(xué)方法自產(chǎn)生開始已經(jīng)有非常久遠(yuǎn)的歷史,將嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)邏輯作為基礎(chǔ),將分類算法假定作為獨(dú)立條件,屬性值之前能夠相互保持獨(dú)立,對(duì)假定進(jìn)行計(jì)算,當(dāng)假定成立時(shí),可以再與其他分類算法進(jìn)行對(duì)比,這種分類算法準(zhǔn)確性非常高。為此,其不僅能夠?qū)B續(xù)值進(jìn)行預(yù)測(cè),還可以通過線性回歸方程對(duì)系數(shù)進(jìn)行比較,從而歸納出結(jié)果。
(作者單位:中國(guó)人民大學(xué))
參考文獻(xiàn):
[1] 張愛菊.基于數(shù)據(jù)挖掘技術(shù)的瓦斯氣體紅外光譜定量分析方法的研究[J].光譜學(xué)與光譜分析,2013,33(10):2646-2650.
[2] 許長(zhǎng)福,李雄炎,譚鋒奇等.任務(wù)驅(qū)動(dòng)數(shù)據(jù)挖掘方法的提出及在低阻油層識(shí)別中的應(yīng)用[J].吉林大學(xué)學(xué)報(bào)(地球科學(xué)版),2012,42(1):39-46.
[3] 鄭曉峰,王曙.基于粗糙集與關(guān)聯(lián)規(guī)則的道路運(yùn)輸管理信息數(shù)據(jù)挖掘方法[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(2):132-138.
[4] 周復(fù)之.固定收益決策支持系統(tǒng)機(jī)理建模與數(shù)據(jù)挖掘的協(xié)同研究[J].系統(tǒng)工程理論與實(shí)踐,2010,29(12):38-45.
[5] 張繼福,張素蘭,蔣義勇等.基于約束概念格的天體光譜局部離群數(shù)據(jù)挖掘系統(tǒng)[J].光譜學(xué)與光譜分析,2011,29(2):551-555.
[6] 張欣欣,繆弈洲,張?jiān)录t等.CrossRef文本和數(shù)據(jù)挖掘服務(wù)——《浙江大學(xué)學(xué)報(bào)(英文版)》的實(shí)踐[J].中國(guó)科技期刊研究,2015,26(6):594-599.
[7] 林凌,吳紅杰,吳曉爽等.體表組織內(nèi)高譜圖:成分信息和結(jié)構(gòu)信息同步檢測(cè)新技術(shù)[J].光譜學(xué)與光譜分析,2011,31(1):201-204.
[8] 王珉,胡蔦慶,秦國(guó)軍等.LRE試車數(shù)據(jù)挖掘中基于最大散度差的模糊聚類分析方法[J].國(guó)防科技大學(xué)學(xué)報(bào),2011,33(3):164-168.