【文章摘要】
隨著信息技術的發(fā)展和互聯(lián)網(wǎng)技術的普及,現(xiàn)代信息系統(tǒng)已經進入了大數(shù)據(jù)的時代。如何從大量的數(shù)據(jù)中找到真正有價值的信息,成為急需解決的問題。鑒于此,數(shù)據(jù)挖掘技術應運而生。本文分析了數(shù)據(jù)挖掘技術的定義和過程,并介紹了常用的數(shù)據(jù)挖掘技術和對數(shù)據(jù)挖掘技術的應用進行了介紹。
【關鍵詞】
數(shù)據(jù)挖掘;分析;應用
數(shù)據(jù)挖掘是一個跨多學科和多個知識領域的交叉的新興課題,數(shù)據(jù)挖掘使人們對數(shù)據(jù)的應用方式從簡單的查詢提升至對數(shù)據(jù)挖掘行為的支持,數(shù)據(jù)挖掘涵蓋了模式識別領域、數(shù)據(jù)庫領域、統(tǒng)計學領域、可視化領域等多個領域,目前數(shù)據(jù)挖掘技術已經成了新興的研究技術熱點。
1 數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘準確的講就是對大量的、雜亂的數(shù)據(jù)進行分析處理,發(fā)現(xiàn)其中隱藏的有用的信息,并為一些決策提供支持;從數(shù)據(jù)挖掘的技術角度講,數(shù)據(jù)挖掘技術就是利用相關的技術和算法,從大量雜亂的數(shù)據(jù)中找到人們需要的有用信息和知識,知識可以以概念和模式、規(guī)則、規(guī)律等形式表現(xiàn)出來,通過對數(shù)據(jù)的分析,可以找到一些潛在的關系和模式,并協(xié)助預測未來可能發(fā)生的情況和產生的結果。
2 數(shù)據(jù)挖掘的過程
在數(shù)據(jù)挖掘之前,先要確定數(shù)據(jù)挖掘的目的,把問題和目標任務定義出來,確定數(shù)據(jù)挖掘的目的之后,根據(jù)數(shù)據(jù)挖掘的常規(guī)步驟開始挖掘知識信息,整個數(shù)據(jù)挖掘的過程可以概括總結分為數(shù)據(jù)準備階段、數(shù)據(jù)挖掘階段以及結果的解釋和評價階段,數(shù)據(jù)準備階段分為數(shù)據(jù)清理、集成、選擇和變換等過程。完整數(shù)據(jù)挖掘過程如下圖1所示:
3 數(shù)據(jù)挖掘常用技術簡介
數(shù)據(jù)挖掘技術有很多種,常用的有統(tǒng)計技術、關聯(lián)規(guī)則、基于歷史的分析MBR等,介紹如下:
3.1 統(tǒng)計技術
數(shù)據(jù)挖掘技術涉及到了多個學科領域和技術,其中也涉及到了統(tǒng)計技術,統(tǒng)計技術的應用主要是給數(shù)據(jù)聚合設定了一個分部模型,然后采用與模型相適應的方法進行數(shù)據(jù)挖掘。
3.2 關聯(lián)規(guī)則
如果兩個或者是多個變量的之間存在某種規(guī)律性,這就可以稱為關聯(lián),關聯(lián)分為簡單、因果和時序關聯(lián)。
3.3 基于歷史的分析MBR
MBR的主要概念就是用一些已知的案例作為模型,通過這些模型,對新案例進行估值和預測,MBR分析中主要有距離函數(shù)和結合函數(shù)兩個因素,距離函數(shù)的作用就是找出相似的相關案例,結合函數(shù)就是將這些相關的案例結合起來,在預測的時候可以用到這些案例,這個方法有兩個優(yōu)點,一是,能容許各種型態(tài)的數(shù)據(jù),二是,有學習的能力,可以從舊案例中獲取新知識。
3.4 遺傳算法GA
遺傳算法的主要思想是根據(jù)適者生存的原則,新的群體由最適合規(guī)則和這些規(guī)則的后代的這部分群體組成,一般情況下,樣本集分類的評估通過這些規(guī)則的適合度來完成。
3.5 連接分析
連接分析的主要理論是圖論,圖論的主題思想就是要尋找得出一個好結果的算法,這種好的結果不是最完美的結果的算法,如果這種不完美的結果是可行的,這樣的分析就是一個好分析,通過連接分析,可以從用戶的行為中分析總結出規(guī)律性的模式,并將這種新的概念應用在廣泛的用戶上。
3.6 決策樹
決策樹就是有著很強的解決歸類和預測的能力,它的表達方式是法則,這些法則的展示是通過一連串的問題表現(xiàn)出來,經過不斷詢問問題的過程,導出所需要的結果,典型的決策樹的底部有很多樹葉,其頂端是一個樹根,它將記錄分成很多的子集,每個子集中包含一個簡單的法則,決策樹有二元樹、三元樹等很多不同的外型。
3.7 聚類分析
聚類分析涵蓋的技術范圍很廣泛,很多算法都有聚類分析這個功能如基因算法、統(tǒng)計學中的群集分析、類神經網(wǎng)絡等,聚類分析的目標就是找出數(shù)據(jù)中以前所不知道的相似群體,研究的開端一般都會用到群集偵測技術。
3.8 神經網(wǎng)絡(Neural Networks)
神經網(wǎng)絡在結構上可以分為輸入層、輸出層和隱含層,它是利用重復學習的方法,在一串例子中進行歸納學習,然后歸納出可以區(qū)分的樣式,神經網(wǎng)絡可以通過對過去學習的成果進行歸納,推導出一些新的例證的結果,神經網(wǎng)絡的學習也屬于機器學習的一種,類神經學習的方式也可以應用在數(shù)據(jù)挖掘的相關問題上。
3.9 回歸分析
回歸分析可以分為線性回歸分析、非線性回歸分析、多元回歸分析三種,線性回歸分析中采用數(shù)據(jù)采用直線建模的方式,多元回歸涉及到多個預測變量,是線性回歸的一種擴展方式,非線性回歸模型是在非線性回歸的基本線性模型添加多項式。
4 應用研究
數(shù)據(jù)挖掘技術能在大量的數(shù)據(jù)信息中方便快捷的找到有用的信息,并將這些信息充分利用。數(shù)據(jù)挖掘技術的應用可以增強企業(yè)的競爭力,在縮短銷售周期的基礎上降低了產品的生產成本,在信息資源開發(fā)方面數(shù)據(jù)挖掘技術也有其明顯的優(yōu)勢,數(shù)據(jù)挖掘技術應用的行業(yè)越來越廣泛如保險、市場營銷、制造業(yè)、教育、醫(yī)療和電信業(yè)以及科學研究。
4.1 數(shù)據(jù)挖掘技術在制造業(yè)的應用
數(shù)據(jù)挖掘技術的在制造業(yè)中的應用,主要是在生產的過程中,如果零部件出現(xiàn)故障,可以通過數(shù)據(jù)挖掘技術對故障進行詳細的分析,發(fā)現(xiàn)故障產生的根本原因,并及時糾正,及時發(fā)現(xiàn)分布不正常的數(shù)據(jù),只有這樣才能幫助工程師及時發(fā)現(xiàn)問題并采取正確的措施改進。
4.2 數(shù)據(jù)挖掘技術在市場營銷的應用
數(shù)據(jù)挖掘技術在市場營銷上面應用也很頻繁和廣泛,在這個領域中數(shù)據(jù)挖掘技術可以分為貨籃分析數(shù)據(jù)庫和市場營銷數(shù)據(jù)庫兩種類型,貨籃分析數(shù)據(jù)庫的作用就是分析營銷的數(shù)據(jù),市場營銷數(shù)據(jù)庫就是利用自身的技術方法向顧客推銷產品,合理運用數(shù)據(jù)挖掘技術可以提高商家的信譽并及時發(fā)現(xiàn)潛在的客戶。
4.3 數(shù)據(jù)挖掘技術在科學研究的應用
在科學研究的技術領域,數(shù)據(jù)挖掘技術可以觀測和分析大量的實驗數(shù)據(jù),由于現(xiàn)在的科研數(shù)據(jù)很多,而且較為繁瑣,一些傳統(tǒng)的數(shù)據(jù)分析方法不能滿足科研的需要,所以對一些強大的數(shù)據(jù)分析的智能工具的需求力很強,這也在一定程度上促進了數(shù)據(jù)挖掘技術的發(fā)展。在生物的科研領域,實驗室人員對DNA的數(shù)據(jù)進行分析,通常利用相似的檢索技術和序列模式,采用關聯(lián)分析識別方法對同一時間出現(xiàn)的基因序列進行識別分析,這樣能夠及時發(fā)現(xiàn)每個階段產生疾病的根本原因。
【參考文獻】
[1]楊永升.基于數(shù)據(jù)挖掘的電信企業(yè)客戶關系管理研究[D].江蘇科技大學,2012.
[2]趙一丁,邵開麗,李志民,楚紀正. 基于測試需求的數(shù)據(jù)挖掘及測試數(shù)據(jù)生成[J]. 計算機測量與控制,2013,08:2043-2045.
【作者簡介】
宋偉,1984.10,男,西安人,本科,助理工程師,研究方向:入侵檢測,數(shù)據(jù)挖掘