張玉伽
【摘要】 由于多媒體等多種技術(shù)的發(fā)展與應(yīng)用,各領(lǐng)域都發(fā)生了很大的變化,每天不僅產(chǎn)生大量的數(shù)據(jù),而且數(shù)據(jù)更新?lián)Q代的速度極快。人們?cè)谔幚硪约胺治鰯?shù)據(jù)的過(guò)程中,繼續(xù)使用傳統(tǒng)的智能數(shù)據(jù)分析技術(shù)已經(jīng)難以實(shí)現(xiàn)理想的效果,專家開(kāi)始意識(shí)到必須盡快開(kāi)發(fā)新的技術(shù)。這就需要了解典型理論和技術(shù),掌握不同種方法的特點(diǎn),這樣才能有效的避免各自的劣勢(shì),充分發(fā)揮優(yōu)勢(shì)達(dá)到互補(bǔ)的作用。本文在分析不同種傳統(tǒng)數(shù)據(jù)智能分析方法的基礎(chǔ)上,分析了結(jié)合新平臺(tái)開(kāi)發(fā)的新型分析方法。
【關(guān)鍵詞】 大數(shù)據(jù) 智能數(shù)據(jù) 技術(shù)分析
一、前言
當(dāng)前世界依然迎來(lái)了大數(shù)據(jù)時(shí)代,隨著多媒體等多種技術(shù)的應(yīng)用,社會(huì)中的相關(guān)領(lǐng)域時(shí)刻都涌現(xiàn)大量的數(shù)據(jù),增加了技術(shù)處理以及分析的難度。通常情況下大數(shù)據(jù)具有復(fù)雜性,而且還具有數(shù)量大、分布式的特點(diǎn),這樣就必須要采取新的技術(shù)方法對(duì)數(shù)據(jù)進(jìn)行處理,因此智能分析技術(shù)在數(shù)據(jù)的處理中具有非常重要的意義。
二、幾種常見(jiàn)的智能數(shù)據(jù)分析法
雖然在大數(shù)據(jù)時(shí)代傳統(tǒng)的智能數(shù)據(jù)分析法已經(jīng)不能適應(yīng)當(dāng)前的需求,但是依然有一定的相似性,相關(guān)理論和技術(shù)依然可以沿用,幾種常見(jiàn)數(shù)據(jù)分析法:第一種方法是決策樹。這種數(shù)據(jù)分析方法需要基于信息論基礎(chǔ)上,這種方法實(shí)現(xiàn)的輸出結(jié)果容易理解,精確度較高,效率也較快,但是它不能用來(lái)對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行處理與分析[1]。第二種方法是關(guān)聯(lián)規(guī)則。這種方法主要是用于事物數(shù)據(jù)庫(kù)中,通常帶有大量的數(shù)據(jù),當(dāng)今使用這種方法來(lái)削減搜索空間。第三種方法是粗糙集。這種數(shù)據(jù)分析方法能夠?qū)?shù)據(jù)進(jìn)行主觀評(píng)價(jià),只要通過(guò)觀測(cè)數(shù)據(jù),就可以清除冗余的信息。第四種方法是模糊數(shù)學(xué)分析。這種數(shù)據(jù)分析方法能夠?qū)?shí)際問(wèn)題進(jìn)行模糊的分析,與其他的分析方法相比,能夠取得更為客觀的效果。第五種方法是人工神經(jīng)網(wǎng)絡(luò)。這種數(shù)據(jù)分析方法具有自學(xué)習(xí)功能,在此基礎(chǔ)上還具有聯(lián)想存儲(chǔ)的功能。第六種方法是混沌和分形理論。這兩種理論主要是用來(lái)對(duì)自然社會(huì)中存在的現(xiàn)象進(jìn)行解釋,一般用來(lái)進(jìn)行智能認(rèn)知研究,還能應(yīng)用于自動(dòng)控制等眾多領(lǐng)域中[2]。第七種方法是自然計(jì)算分析方法。這種數(shù)據(jù)分析方法根據(jù)不同生物層面的模擬與仿真,通??梢苑譃橐韵氯N不同類型的分析方法:一是群體智能算法,二是免疫算法,三是DNA算法。群體智能主要是對(duì)集體行為進(jìn)行研究,免疫算法具有多樣性,經(jīng)典的主要有反向、克隆選擇等,而DNA算法主要使屬于隨機(jī)化搜索方法,它可以進(jìn)行全局尋優(yōu),在實(shí)際的運(yùn)用中一般都能獲取優(yōu)化的搜索空間,在此基礎(chǔ)上還能自動(dòng)調(diào)整搜索方向,在整個(gè)過(guò)程中都不需要確定的規(guī)則。當(dāng)前DNA算法普遍應(yīng)用于多種行業(yè)中,并取得了不錯(cuò)的成效。
三、大數(shù)據(jù)背景下的智能數(shù)據(jù)分析技術(shù)
大數(shù)據(jù)具有一定的復(fù)雜性,只有通過(guò)使用新的智能分析技術(shù)才能對(duì)數(shù)據(jù)進(jìn)行有效處理。目前已經(jīng)有專家針對(duì)大數(shù)據(jù)提出了新的智能分析技術(shù)方案,例如HAVEn、Teradata Aster分析平臺(tái),經(jīng)過(guò)研究發(fā)現(xiàn)推出的一系列分析方案,基本上離不開(kāi)Hadoop分析平臺(tái)。Hadoop主要分為以下兩大部分,其中一個(gè)部分是分布文件系統(tǒng),專家稱之為HDFS,另一部分是分布計(jì)算系統(tǒng),專家稱之為MapReduce。一般來(lái)說(shuō)HDFS主要是表現(xiàn)為主/從結(jié)構(gòu),其中主結(jié)構(gòu)稱為名字節(jié)點(diǎn),主要功能是管理元數(shù)據(jù),從結(jié)構(gòu)通常稱為數(shù)據(jù)節(jié)點(diǎn)。主要功能是用來(lái)存放,或者管理相關(guān)的應(yīng)用數(shù)據(jù)[3]。一個(gè)HDFS系統(tǒng)能夠支持的數(shù)據(jù)非常龐大,一般能夠達(dá)到10PB數(shù)量級(jí),因此HDFS系統(tǒng)能夠應(yīng)用于大數(shù)據(jù)處理分析中。同時(shí)為了能夠更好的支持大數(shù)據(jù),在HDFS系統(tǒng)的基礎(chǔ)上,還繼續(xù)構(gòu)建Hbase系統(tǒng),該系統(tǒng)的接口語(yǔ)言色設(shè)為Pig。并且還構(gòu)建了Hivi系統(tǒng),該系統(tǒng)主要是屬于數(shù)據(jù)倉(cāng)庫(kù)。此外還構(gòu)建了機(jī)器學(xué)習(xí)軟件包,稱為Mahout,這樣就可以對(duì)大數(shù)據(jù)進(jìn)行有效管理以及分析。這些新的智能數(shù)據(jù)分析融合了多種傳統(tǒng)的技術(shù),能夠?qū)Υ髷?shù)據(jù)進(jìn)行更為全面、高效的分析。
四、結(jié)語(yǔ)
傳統(tǒng)中可應(yīng)用的數(shù)據(jù)智能分析技術(shù)多種多樣,常用的主要有七種方法,每一種方法都有自身的優(yōu)勢(shì)以及局限性,如果在大數(shù)據(jù)中單一使用一種方法,根本就不能達(dá)到理想的效果。但是憑借當(dāng)前的技術(shù)水平還不能找到通用的智能分析技術(shù)方法,這就需要將傳統(tǒng)的多種方法結(jié)合起來(lái),這樣就可以彌補(bǔ)各自的缺陷,而且還能充分發(fā)揮優(yōu)勢(shì),這是當(dāng)前大數(shù)據(jù)智能分析技術(shù)的重要研究方向。沿著這個(gè)方向,目前已經(jīng)開(kāi)發(fā)了hadoop,這個(gè)系統(tǒng)不僅集合了傳統(tǒng)的方法,而且還結(jié)合了新型平臺(tái),是一種全新的技術(shù),未來(lái)需要專家不斷的進(jìn)行探索與研究,繼續(xù)開(kāi)發(fā)更好的數(shù)據(jù)智能分析方法。
參 考 文 獻(xiàn)
[1]楊舒林.智能分析技術(shù)發(fā)展現(xiàn)狀及應(yīng)用[J].中國(guó)公共安全.2015,08(14):207-209.
[2]顧君忠.大數(shù)據(jù)與大數(shù)據(jù)分析[J].軟件產(chǎn)業(yè)與工程,2013(4):117-121.
[3]符新雙.淺析智能分析技術(shù)在集成領(lǐng)域的應(yīng)用與發(fā)展[J].中國(guó)安防.2014,10(12):105-107.