国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談大數(shù)據(jù)背景下數(shù)據(jù)挖掘的方法及其應用

2018-05-14 21:29史慧陳俊褀
知識文庫 2018年8期
關(guān)鍵詞:遺傳算法神經(jīng)網(wǎng)絡數(shù)據(jù)挖掘

史慧 陳俊褀

人類已邁入大數(shù)據(jù)時代,但很多時候我們會感到被數(shù)據(jù)淹沒,卻缺乏知識的困窘,并沒有“得數(shù)據(jù)者得天下”的能力。因此,數(shù)據(jù)挖掘成了我們提取海量數(shù)據(jù)信息的必要窗口,本文主要探討數(shù)據(jù)挖掘的一些算法、模型及其應用以提高大數(shù)據(jù)處理能力。

1 什么是大數(shù)據(jù)

雖然說“大數(shù)據(jù)”一詞在當今時期是炙手可熱,很多人都曾對大數(shù)據(jù)進行定義,但至今為止仍然沒有人給出一個明確的定義。大家都認為它具備規(guī)模大、多樣化、動態(tài)化、處理速度快、蘊含有價值的信息,由于其具有規(guī)模龐大的特點,我們只能通過機器從浩如煙海、雜亂無章的數(shù)據(jù)中挖掘?qū)ξ覀冇袃r值的信息,實現(xiàn)數(shù)據(jù)為我們所用。

2 什么是數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是面向事實的,利用數(shù)據(jù)挖掘工具,以客觀統(tǒng)計分析方法挖掘出企業(yè)經(jīng)營的需求信息,得到正確的銷售模式、客戶關(guān)系和行為策略等,有利于企業(yè)掌握正確的經(jīng)營動態(tài),增加利潤并減少開支?!皵?shù)據(jù)挖掘”在方法論上強調(diào)“面向數(shù)據(jù)”,由于它充分運用了自動化的數(shù)據(jù)收集技術(shù)與速度快、容量大的計算機,從而具有處理大量復雜數(shù)據(jù)庫的能力。數(shù)據(jù)挖掘技術(shù)能夠進一步運用統(tǒng)計等方法對數(shù)據(jù)進行再分析,以獲得更深入的了解,并具有預測功能,可借助已有的數(shù)據(jù)預測未來。

3 數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘的過程一般可分為三個階段,包括數(shù)據(jù)準備、模式發(fā)現(xiàn)與數(shù)據(jù)挖掘結(jié)果。數(shù)據(jù)準備階段用于為后續(xù)的模式發(fā)現(xiàn)提供有質(zhì)量的數(shù)據(jù)。包括數(shù)據(jù)凈化、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。模式發(fā)現(xiàn)階段是數(shù)據(jù)挖掘過程中的核心階段,第一要確定挖掘任務和挖掘算法,通過對歷史數(shù)據(jù)的分析,結(jié)合用戶需求、數(shù)據(jù)特點等因素,得到供決策使用的各種模式與規(guī)則,從該任務的眾多算法中選擇合適算法進行實際挖掘,得出挖掘結(jié)果,即相應的模式。挖掘結(jié)果階段是怎樣將挖掘出來的模式與規(guī)則以一種直觀、容易理解的方式呈現(xiàn)給用戶,即可視化。

4 數(shù)據(jù)挖掘的方法及應用

4.1 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的本質(zhì),它通過對規(guī)模龐大的信息進行量化處理,然后建立各類信息的聯(lián)系,從而讓那些看似無關(guān)的信息的關(guān)聯(lián)性得以顯現(xiàn)并為我們所用。

4.2 聚類分析

聚類分析是通過一定的規(guī)則將已有的數(shù)據(jù)集合劃分成新的種類,而新的種類在性質(zhì)上是相似的。所以它是研究數(shù)據(jù)間物理上或邏輯上相互關(guān)系的技術(shù)。通俗地講即是“物以類聚”。聚類分析獲得的結(jié)果可以作為下一步研究的基礎數(shù)據(jù)。聚類分析的劃分方法包括K-means算法、K-medoid算法;層次方法包括BIRCH算法、CURE算法;密度方法包括DBSCN算法、OPTICS算法;網(wǎng)格算法包括STING算法、Wavecluster算法等。

聚類分析還可以幫助公司在客戶基本庫中獲得不同的客戶群體,通過購買模式來描述種類不同的客戶特征。除此,聚類分析在生物學、信息檢索、氣候、心理學和藥學領(lǐng)域也得到廣泛的應用。

4.3 遺傳算法

遺傳算法是對生物系統(tǒng)在計算機上模擬研究,基于生物遺傳、進化機制的適合于復雜系統(tǒng)優(yōu)化的自適用概率優(yōu)化算法。具有魯棒性強、應用范圍廣、簡單通用的特點。遺傳算法搜索最優(yōu)解的方法是模仿生物的進化過程,模擬自然選擇、遺傳中發(fā)生的復制、交叉、變異等現(xiàn)象。遵循“適者生存、不適者被淘汰”的進化規(guī)則,從而留下適應環(huán)境能力強的個體,結(jié)果群體不斷地向最優(yōu)解的方向進化,最終把最后一代種群里最優(yōu)的個體通過解碼得到滿足要求的最優(yōu)解。

遺傳算法由于全局搜索能力強、能勝任各種函數(shù)、高維空間的優(yōu)化問題,而且在數(shù)據(jù)庫領(lǐng)域中能較好地處理不同屬性之間的關(guān)系,所以大數(shù)據(jù)庫容量非常大時,我們進行窮舉搜索是行不通的或者解決范圍大、復雜的優(yōu)化問題時,這時采取遺傳算法進行搜索則是一個非常有效的選擇。在數(shù)據(jù)挖掘領(lǐng)域中常見的有基于遺傳算法的關(guān)聯(lián)規(guī)則挖掘,基于遺傳算法的聚類算法,基于遺傳算法的分類、遺傳算法和模擬退火算法相結(jié)合等。

比如在流水線生產(chǎn)調(diào)度、任務分配、生產(chǎn)規(guī)劃等方面。由于遺傳算法是基于人工自適用的系統(tǒng)研究,所以在機器人領(lǐng)域占據(jù)很重要的地位,例如:基于遺傳算法的模糊控制規(guī)則學習、使用遺傳算法來設計空間交匯控制器、機器人逆運動求解問題等。

4.4 神經(jīng)網(wǎng)絡

人工神經(jīng)網(wǎng)絡是由一個人工建立神經(jīng)元的、有著模擬人腦結(jié)構(gòu)和功能的有拓部結(jié)構(gòu)和學習規(guī)則的動態(tài)信息處理系統(tǒng)。神經(jīng)網(wǎng)絡由于模擬生物的神經(jīng)網(wǎng)絡進行信息的處理,有著不斷地自我學習的優(yōu)勢,被廣泛地應用在聚類、預測、偏差分析等數(shù)據(jù)挖掘方面。比如在信息領(lǐng)域,常用來進行系統(tǒng)識別、神經(jīng)控制和智能檢測;在醫(yī)學領(lǐng)域,神經(jīng)網(wǎng)絡被用于檢測數(shù)據(jù)分析、生物活性研究、建立醫(yī)學專家系統(tǒng);在經(jīng)濟領(lǐng)域上,用來進行信貸分析、市場預測;在軍事領(lǐng)域上導彈的智能引導、航天器的姿態(tài)調(diào)控、戰(zhàn)場管理和決策支持系統(tǒng)等。

未來,由于信息技術(shù)的應用普及,所產(chǎn)生的數(shù)據(jù)會越來越多,甚至以指數(shù)級速度增加。信息量過大導致數(shù)據(jù)應用也會變得越來越復雜,為了更加有效地提高大數(shù)據(jù)的利用率,更深層次地挖掘出對我們有價值的信息,我們還需要不斷地研究、提高數(shù)據(jù)挖掘技術(shù),實現(xiàn)對海量信息的掌控,讓信息更加安全,讓大數(shù)據(jù)更好地服務于人們。

(作者單位:山西總隊參謀部綜合信息保障中心)

猜你喜歡
遺傳算法神經(jīng)網(wǎng)絡數(shù)據(jù)挖掘
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡的學習成績預測
基于圖像處理與卷積神經(jīng)網(wǎng)絡的零件識別
基于自適應神經(jīng)網(wǎng)絡的電網(wǎng)穩(wěn)定性預測
基于遺傳算法對廣義神經(jīng)網(wǎng)絡的優(yōu)化
基于遺傳算法對廣義神經(jīng)網(wǎng)絡的優(yōu)化
基于遺傳算法的臨床路徑模式提取的應用研究
基于遺傳算法的臨床路徑模式提取的應用研究
遺傳算法在校園聽力考試廣播系統(tǒng)施工優(yōu)化中的應用
物流配送車輛路徑的免疫遺傳算法探討
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡與日本人口預測