羅陽倩子
[摘 要]此文主要闡述了數(shù)據(jù)挖掘的概念、本質(zhì)和特征,深入分析了數(shù)據(jù)挖掘取樣方法,以期為數(shù)據(jù)挖掘的計算流程的優(yōu)化提供幫助。
[關(guān)鍵詞]數(shù)據(jù)挖掘;取樣方法;SAS數(shù)據(jù)
doi:10.3969/j.issn.1673 - 0194.2016.04.125
[中圖分類號]TP311.13 [文獻(xiàn)標(biāo)識碼]A [文章編號]1673-0194(2016)04-0-01
隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展和廣泛使用,在數(shù)據(jù)庫里,存儲的數(shù)據(jù)越來越龐大。在數(shù)據(jù)挖掘的領(lǐng)域里,要使用科學(xué)的方式、方法降低挖掘算法的時間,使數(shù)據(jù)挖掘的效率更高。
1 數(shù)據(jù)的挖掘概念
數(shù)據(jù)庫中的知識發(fā)現(xiàn)又稱數(shù)據(jù)挖掘,數(shù)據(jù)庫領(lǐng)域研究和人工智能是目前的熱點(diǎn)問題。數(shù)據(jù)挖掘就是從擁有大量數(shù)據(jù)的數(shù)據(jù)庫中找出先前未知的、有著潛在價值的信息過程。數(shù)據(jù)挖掘是決策支持過程,它基于模式識別、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、可視化、統(tǒng)計學(xué)等技術(shù),自動分析企業(yè)數(shù)據(jù)進(jìn)行推理,挖掘出潛在模式,幫助決策者調(diào)整策略,作出正確決策。
發(fā)現(xiàn)具有潛在價值信息的過程,包含三個步驟:第一是數(shù)據(jù)準(zhǔn)備,第二是數(shù)據(jù)的挖掘,第三是挖掘的數(shù)據(jù)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與知識庫或用戶交互。
數(shù)據(jù)挖掘是在大量數(shù)據(jù)中找其規(guī)律,準(zhǔn)備數(shù)據(jù)、尋找規(guī)律和表達(dá)解釋規(guī)律。準(zhǔn)備數(shù)據(jù)就是從數(shù)據(jù)源中挑選需要的數(shù)據(jù)并合成用作數(shù)據(jù)挖掘的數(shù)據(jù)集;尋找規(guī)律就是從數(shù)據(jù)集中把它所含的規(guī)律找出來;挖掘數(shù)據(jù)結(jié)果表達(dá)和解釋就是把找出的規(guī)律表示出來。
數(shù)據(jù)挖掘任務(wù)包括聚類分析、關(guān)聯(lián)分析、特異群組分析、分類分析和演變分析等。
2 數(shù)據(jù)挖掘的特征和本質(zhì)
按常規(guī)來說,狹義的觀點(diǎn)認(rèn)為常規(guī)數(shù)據(jù)分析區(qū)別于數(shù)據(jù)挖掘的關(guān)鍵點(diǎn)是,常規(guī)數(shù)據(jù)分析側(cè)重于交叉報告、描述性統(tǒng)計、假設(shè)檢驗等,數(shù)據(jù)挖掘則側(cè)重于預(yù)測、分類、聚類與關(guān)聯(lián)等4類問題。廣義的觀點(diǎn)認(rèn)為從數(shù)據(jù)庫中挖掘的任何信息都叫做數(shù)據(jù)挖掘。這樣看來,數(shù)據(jù)挖掘就是商業(yè)智能。如果從技術(shù)術(shù)語上說,數(shù)據(jù)挖掘指的是以前的數(shù)據(jù)經(jīng)過清洗轉(zhuǎn)換變成適合挖掘的數(shù)據(jù)集。數(shù)據(jù)挖掘就是在這種有著固定形式的數(shù)據(jù)集上完成了知識提煉,用合適的知識模式做下一步分析決策工作。通過以上分析,筆者把數(shù)據(jù)挖掘定義為:數(shù)據(jù)挖掘就是從數(shù)據(jù)集中挖掘和提煉知識的過程。
3 數(shù)據(jù)挖掘的取樣方法
取樣是一種成熟的統(tǒng)計技術(shù),已被研究了上百年,隨機(jī)抽樣技術(shù)更是如此。在數(shù)據(jù)管理領(lǐng)域里,關(guān)于隨機(jī)抽樣的有效性已有很多描述,隨機(jī)抽樣能捕捉到數(shù)據(jù)基本特征的很小部分?jǐn)?shù)據(jù)子集來代表總數(shù)據(jù)集,根據(jù)該樣本集能獲得相似的或近似的查詢結(jié)果,這樣的樣本集還可以用于數(shù)據(jù)挖掘工作。近年來在很多領(lǐng)域中都采用了抽樣技術(shù),并達(dá)得了非常不錯的效果,這充分說明了抽樣技術(shù)的應(yīng)用越來越廣泛流行。
抽樣的方法與分類:數(shù)據(jù)項根據(jù)在抽樣技術(shù)中被選中的數(shù)據(jù)是否相同,抽樣方法可以被分為偏倚抽樣和均勻抽樣兩種。在偏倚抽樣中,不一樣的元素入選的概率也可能不一樣。而在均勻抽樣中各個元素入選的概率是相同的。相同的抽樣概率能以相同尺寸的抽樣產(chǎn)生互動類同。均勻抽樣經(jīng)典的兩種設(shè)計是,伯努利抽樣和水庫抽樣,這兩種抽樣方法是其他所有抽樣方法的基礎(chǔ)。伯努利抽樣是均勻抽樣,它的主要特點(diǎn)是所用的時間短、操作簡單。生成的均勻抽樣及大小為K,如果很多個元素到達(dá)時,數(shù)據(jù)流中的元素會以K/N的概率所選中,當(dāng)樣本集的大小超出了K,就會從中隨機(jī)除去這個樣本,各個元素的入選概率都是相同的。水庫抽樣方法是非常重要的隨機(jī)均勻抽樣方法,是由原來的傳統(tǒng)方法拓展到數(shù)據(jù)庫領(lǐng)域。大小空間固定、時間復(fù)雜度為零,更適合挖掘數(shù)據(jù)流的環(huán)境,成功的抽樣技術(shù)確保了抽樣的質(zhì)量。從提高抽樣質(zhì)量的角度上說,采取了三個類型的抽樣策略:第一,漸進(jìn)抽樣,漸進(jìn)抽樣就是先從一個小的抽樣開始,慢慢再加大抽樣的抽樣率或抽樣尺寸,直到抽樣的正確性不隨之改變?yōu)橹?;第二,從實驗樣本集中獲取數(shù)據(jù)集的特征假定或預(yù)評估,在這樣的基礎(chǔ)上再進(jìn)行抽樣;第三,為具體的應(yīng)用抽取特定的數(shù)據(jù)特征,而不是產(chǎn)生一個能適用于多種應(yīng)用的取樣集。
4 挖掘SAS數(shù)據(jù)的方法
SAS/EN可實現(xiàn)數(shù)據(jù)集市和同數(shù)據(jù)倉庫,以及商務(wù)智能報表工具的無縫集成。它有著數(shù)據(jù)抽樣工具、數(shù)據(jù)獲取工具、數(shù)據(jù)挖掘工具、數(shù)據(jù)篩算工具、數(shù)據(jù)挖掘過程、數(shù)據(jù)變量轉(zhuǎn)換工具和數(shù)據(jù)挖掘評價工具。
第一,數(shù)據(jù)抽樣。進(jìn)行數(shù)據(jù)抽樣時,要從企業(yè)大量的數(shù)據(jù)里找出要探索問題的樣板數(shù)據(jù)子集,并不是調(diào)用全部數(shù)據(jù)。在數(shù)據(jù)抽樣的過程中,一定要確保數(shù)據(jù)的質(zhì)量,保證抽樣的數(shù)據(jù)的有效性、真實性、完整性和代表性。只有這樣才能使以后的分析研究得出規(guī)律性的結(jié)果。
第二,探索數(shù)據(jù)特征,預(yù)處理分析和子處理分析。有了樣本數(shù)據(jù)集后,看它是不是達(dá)到了以前的設(shè)想要求,趨勢和規(guī)律是否明顯,是否有沒有設(shè)想過的數(shù)據(jù)狀態(tài),因素之間是否有關(guān)聯(lián)性,這些內(nèi)容是首先要探索的。分析探索數(shù)據(jù)的特征,可視化操作是最理想的操作方法。
第三,技術(shù)選擇和數(shù)據(jù)調(diào)整、問題明確化。想讓解決的問題更加明確時,盡可能把解決的問題進(jìn)一步量化。在問題量化后的基礎(chǔ)上,就能按問題要求審視數(shù)據(jù)集了,針對問題的需求看它是不是適應(yīng),必要時要對數(shù)據(jù)進(jìn)行刪除或增加,在數(shù)據(jù)挖掘過程會有新的認(rèn)識,生成或組合新的變量,對狀態(tài)的有效描述就得到充分體現(xiàn)。
5 結(jié) 語
隨著計算機(jī)科學(xué)的快速發(fā)展,數(shù)據(jù)挖掘已成為重要工具,本文對數(shù)據(jù)挖掘的概念、特征和本質(zhì)、取樣方法等進(jìn)行了詳細(xì)分析,希望為數(shù)據(jù)挖掘的計算流程優(yōu)化作出一定的貢獻(xiàn)。
主要參考文獻(xiàn)
[1]高彩霞.數(shù)據(jù)挖掘取樣方法研究[J].電子技術(shù)與軟件工程,2014(10).
[2]陳陽.數(shù)據(jù)挖掘取樣方法研究[J/OL].城市建設(shè)理論研究:電子版,2013(22).
[3]胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J].計算機(jī)研究與發(fā)展,2011(1).