周勝利
【摘 要】信息時代的特征之一就是數(shù)據(jù)的密集爆發(fā),人們積累的數(shù)據(jù)越來越多,而這種數(shù)據(jù)的變化沒有一個循序漸進的過程,而是呈現(xiàn)跨越式的特征,因此傳統(tǒng)的查詢、報表工具無法滿足挖掘有效信息的需求。從而就需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,即數(shù)據(jù)挖掘技術(shù)。本文深入淺出地闡述了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,概念以及數(shù)據(jù)挖掘的常用技術(shù)。
【關(guān)鍵詞】信息時代;數(shù)據(jù);挖掘;分析
一、大數(shù)據(jù)的定義
所謂“大數(shù)據(jù)”,一般具有幾個特點:首先是數(shù)據(jù)量很大,已經(jīng)從TB級躍升至PB級;其次是區(qū)別于傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu),“大數(shù)據(jù)”時代的數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜,超過80%都是非結(jié)構(gòu)化數(shù)據(jù),比如道路上的視頻監(jiān)控數(shù)據(jù)、網(wǎng)上的流媒體數(shù)據(jù)、物聯(lián)網(wǎng)中RFID的感應(yīng)數(shù)據(jù),以及社交網(wǎng)絡(luò)上產(chǎn)生的各種數(shù)據(jù)等。這兩個特點,給數(shù)據(jù)存儲、管理和挖掘帶來了困難。第三,數(shù)據(jù)更新快,比如視頻監(jiān)控每秒鐘都在進行,微博隨時都有人在更新;最后,是對數(shù)據(jù)的隨機訪問,這些更個人化的數(shù)據(jù)在存儲后被再次訪問的時間是不確定的。這兩點就要求新的IT系統(tǒng)更夠更快地處理數(shù)據(jù),并且能夠更智能地保存和管理數(shù)據(jù)。比如在某一天,你需要從監(jiān)控錄像中找出某個人,那么就需要能夠迅速地查找、調(diào)用、分析之前保存的海量數(shù)據(jù)?!按髷?shù)據(jù)”的這些特點,對數(shù)據(jù)搜索及管理提出了更高要求,因為在“大數(shù)據(jù)”時代只有經(jīng)過分析提煉的關(guān)鍵數(shù)據(jù)才有價值。
二、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程,它是一門涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等領(lǐng)域。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點是對數(shù)據(jù)庫中的大量數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式,它并不是用規(guī)范的數(shù)據(jù)庫查詢語言進行查詢,而是對查詢的內(nèi)容進行模式的總結(jié)和內(nèi)在規(guī)律的搜索。傳統(tǒng)的查詢和報表處理只是得到事件發(fā)生的結(jié)果,并沒有深入研究發(fā)生的原因,而數(shù)據(jù)挖掘則主要了解發(fā)生的原因,并且以一定的置信度對未來進行預(yù)測,用來為決策行為提供有利的支持。
(1)統(tǒng)計學(xué)
統(tǒng)計學(xué)在數(shù)據(jù)樣本選擇、數(shù)據(jù)預(yù)處理及評價抽取知識的步驟中有非常重要的作用。以往許多統(tǒng)計學(xué)的工作是針對數(shù)據(jù)和假設(shè)檢驗的模型進行評價,很明顯也包括了評價數(shù)據(jù)挖掘的結(jié)果。在數(shù)據(jù)預(yù)處理步驟中,統(tǒng)計學(xué)提出了估計噪聲參數(shù)過程中要用的平滑處理的技術(shù),在一定程度上對補足丟失數(shù)據(jù)有相當(dāng)?shù)淖饔?。統(tǒng)計學(xué)對檢測數(shù)據(jù)分析、聚類和實驗數(shù)據(jù)參數(shù)設(shè)計上也有用。但統(tǒng)計學(xué)研究的焦點是在于處理小規(guī)模數(shù)據(jù)樣本采集和小規(guī)模數(shù)據(jù)集處理的問題上。統(tǒng)計學(xué)的工作大多是針對技術(shù)和模型的理論方面。于是許多工作是著眼于線性模型、遞增的高斯噪聲模型、參數(shù)估計和嚴(yán)格分類參數(shù)模型上。只有在進行相近模式區(qū)別時才強調(diào)尋優(yōu)。
(2)模式識別
在模式識別工作中,傳統(tǒng)上是把注意力集中在符號形式化直接結(jié)合實際技術(shù)的工作過程中。模式識別主要用于分類技術(shù)和數(shù)據(jù)的聚類技術(shù)上。模式識別中的分類和含義分析是對數(shù)據(jù)挖掘概念形成的開端。多數(shù)模式識別的算法和方法對降維、變換和設(shè)置都有直接的參考意義。在數(shù)據(jù)挖掘的步驟中,模式識別比統(tǒng)計學(xué)更為重要,因為它強調(diào)了計算機算法、更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和更多的搜索。典型的數(shù)據(jù)分類是用一定的分類技術(shù)把數(shù)據(jù)從一個向量空間映射到另外一個向量空間。但這種映射并不總是有意義的。比如,形狀上“方”與“圓”的差別就很難說比性別上“男”與“女”的差別大。顯然,這其中應(yīng)當(dāng)注重其語言的含義。
(3)人工智能
人工智能對于數(shù)據(jù)挖掘來說原來一直是在符號的層次上處理數(shù)據(jù),而對于連續(xù)變量注意較少。在機器學(xué)習(xí)和基于案例的推理中,分類和聚類算法著重于啟發(fā)式搜索和非參數(shù)模型。對于其結(jié)果,并不象模式識別和統(tǒng)計學(xué)在數(shù)學(xué)上的精確和要求嚴(yán)格分析。隨著計算機學(xué)習(xí)理論的發(fā)展。人工智能把注意力集中在了表達廣義分類的模糊邊緣上。機器學(xué)習(xí)主要是對數(shù)據(jù)挖掘過程中的數(shù)據(jù)變量選擇處理極有幫助,在通過大量搜索表達式和選擇變量上有很大作用。另外,機器學(xué)習(xí)對于發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu),特別是人工智能中的不確定推理技術(shù)和基于貝葉斯模型推理是統(tǒng)計學(xué)意義上的分布密度估計的強有力的工具。人工智能技術(shù)建立了關(guān)于特定領(lǐng)域知識和數(shù)據(jù)的已有知識的相對容易理解和自然的框架。人工智能的其他技術(shù),包括知識獲取技術(shù)、知識搜索和知識表達在數(shù)據(jù)挖掘的數(shù)據(jù)變換、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理等步驟中都有作用。
(4)數(shù)據(jù)庫
數(shù)據(jù)庫及其相關(guān)技術(shù)顯然與數(shù)據(jù)挖掘有直接的關(guān)系。數(shù)據(jù)庫是原始數(shù)據(jù)的處理、儲存和操作的基礎(chǔ)。隨著平行和分布式數(shù)據(jù)庫的使用,對數(shù)據(jù)錄入和檢索有更高的要求。數(shù)據(jù)挖掘中很重要的一個問題是對數(shù)據(jù)庫中數(shù)據(jù)的在線分析,主要是如何利用多種方法對數(shù)據(jù)進行實時處理和分析。一般來說,通過相關(guān)數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化可以克服要求特殊存取數(shù)據(jù)的困難。在數(shù)據(jù)挖掘中為了對數(shù)據(jù)進行特定的統(tǒng)計和計數(shù),則要對各個特征屬性進行組合形成新的數(shù)據(jù)庫。其中,對于數(shù)據(jù)挖掘所得知識支持率的研究是個新領(lǐng)域。
三、數(shù)據(jù)挖掘技術(shù)的方法
數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,如多種分類法。根據(jù)開采任務(wù)分,可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等;根據(jù)開采對象分,有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web;根據(jù)開采方法分,可粗分為:機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。機器學(xué)習(xí)中,可細分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。
四、結(jié)束語
數(shù)據(jù)挖掘技術(shù)是一個發(fā)展十分快的領(lǐng)域,隨著對數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域日益廣泛的應(yīng)用,實現(xiàn)了數(shù)據(jù)資源共享及技術(shù)發(fā)展的跨域,從而大大提高了工作效率,并帶來巨大的成功。21世紀(jì)是信息時代的社會,“信息不僅是資源,更是財富”,要實現(xiàn)經(jīng)濟的騰飛,需依賴高新尖科技的發(fā)展,故利用提供的信息,充分進行數(shù)據(jù)挖掘,則將為數(shù)據(jù)庫的應(yīng)用開辟了廣闊的前景,也為人類的文明開辟了一個嶄新的時代。
數(shù)據(jù)挖掘技術(shù)及其應(yīng)用是目前國際上的一個研究熱點,并在許多行業(yè)中得到了很好的應(yīng)用,尤其是在市場營銷中獲得了成功,初步體現(xiàn)了其優(yōu)越性和發(fā)展?jié)摿?。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識、文獻知識等各類知識,將是實現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。
參考文獻:
[1]韓家煒,堪博著,范明,孟小峰譯數(shù)據(jù)挖掘概念與技術(shù)(第2版)[M]北京:機械工業(yè)出版社2007
[2]鄧納姆(Dunham,M.H.)著,郭崇慧,田鳳占,靳曉明等譯數(shù)據(jù)挖掘教程[M]北京:清華大學(xué)出版社2005
[3]王軍.數(shù)據(jù)挖掘技術(shù)[J].計算機世界,1998
[4]朱延劭.科學(xué)研究的好幫手[J].計算機世界,1998
[5]唐紀(jì),王景.組合預(yù)測方法評述[J].預(yù)測,1999