国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術的算法

2019-11-30 00:12:10赫然黃今慧
電子技術與軟件工程 2019年20期
關鍵詞:結構化數(shù)據(jù)挖掘聚類

文/赫然 黃今慧

在大數(shù)據(jù)背景下,許多傳統(tǒng)科學技術的發(fā)展達到了新的高度,同時也衍生出一些新興技術,這些推動著互聯(lián)網(wǎng)行業(yè)的前行。新技術的發(fā)展也伴隨著新問題的產生,現(xiàn)有的數(shù)據(jù)處理技術難以滿足大數(shù)據(jù)發(fā)展的需要,在數(shù)據(jù)保護等方面依舊存在著一定的風險。因此,進一步完善大數(shù)據(jù)技術是當下需要攻克的難題。本文主要進行了大數(shù)據(jù)的簡單引入,介紹數(shù)據(jù)挖掘技術及其應用,分析了當下的發(fā)展進度和面臨的困難。

1 大數(shù)據(jù)的相關引入

1.1 大數(shù)據(jù)的概念

大數(shù)據(jù)主要指傳統(tǒng)數(shù)據(jù)處理軟件無法處理的數(shù)據(jù)集,大數(shù)據(jù)有海量、多樣、高速和易變四大特點,通過大數(shù)據(jù)的使用,可以催生出新的信息處理形式,實現(xiàn)信息挖掘的有效性。大數(shù)據(jù)技術存在的意義不僅在于收集海量的信息,更在于專業(yè)化的處理和分析,將信息轉化為數(shù)據(jù),從數(shù)據(jù)中提取有價值的知識。大數(shù)據(jù)分析與云計算關系密切,數(shù)據(jù)分析必須依托于云計算的分布式處理、分布式數(shù)據(jù)庫等。

1.2 大數(shù)據(jù)的特點

伴隨著越來越多的學者投入到對大數(shù)據(jù)的研究當中,其特點也逐漸明晰,都廣泛的提及了這四個特點。

(1)海量的數(shù)據(jù)規(guī)模,信息的數(shù)據(jù)體量明顯區(qū)別于以往的GB、TB等計量單位,在大數(shù)據(jù)領域主要指可以突破IZP的數(shù)量級。

(2)快速的數(shù)據(jù)流轉,大數(shù)據(jù)作用的領域時刻處在數(shù)據(jù)更新的環(huán)境下,高效快速的分析數(shù)據(jù)是保證信息處理有效的前提。

(3)多樣的數(shù)據(jù)類型,廣泛的數(shù)據(jù)來源催生出更加多樣的數(shù)據(jù)結構。

(4)價值低密度,也是大數(shù)據(jù)的核心特征,相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)更加多變、模糊,給數(shù)據(jù)分析帶來困擾,從而難以從中高密度的取得有價值的信息。

1.3 大數(shù)據(jù)的結構

大數(shù)據(jù)主要分為結構化、半結構化和非結構化三種數(shù)據(jù)結構。結構化一般指類似于數(shù)據(jù)庫的數(shù)據(jù)管理模式。半結構化具有一定的結構性,但相比結構化來說更加靈活多變。目前非結構化數(shù)據(jù)占據(jù)所有數(shù)據(jù)的70%-80%,原因在于互聯(lián)網(wǎng)上的信息內容多種多樣,暫時無法找到有序的存儲歸類方法。

1.4 大數(shù)據(jù)技術

大數(shù)據(jù)技術是指如何從各種類型的數(shù)據(jù)中,獲得有利用價值的信息,其中大數(shù)據(jù)技術包括數(shù)據(jù)收集、數(shù)據(jù)存取、數(shù)據(jù)架構、數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、數(shù)據(jù)預測和結果呈現(xiàn)。在大數(shù)據(jù)的生命周期中,數(shù)據(jù)收集處于第一階段,主要來源有管理信息系統(tǒng)、Web信息系統(tǒng)等。根據(jù)數(shù)據(jù)結構類型不同,大數(shù)據(jù)的存取采用三種不同的形式,這樣有利于其他技術的應用。數(shù)據(jù)架構源于谷歌提出的一種基于軟件的可靠文件存儲體系GFS(Google文件系統(tǒng)),相應推出的還有MapReduce計算模型,二者共同解決了當時的文件存儲和運算問題。而后隨著需求的不斷增多,有學者基于谷歌的研究,開發(fā)出可以滿足更多需求的Hadoop。

2 數(shù)據(jù)挖掘技術

2.1 數(shù)據(jù)挖掘技術以及云計算

如今全球每年都有數(shù)十億人使用著計算機等電子設備,并產生了龐大的數(shù)據(jù),各行各業(yè)都已經(jīng)被數(shù)據(jù)所滲透,在大數(shù)據(jù)時代,數(shù)據(jù)挖掘已成為不可或缺的技術。數(shù)據(jù)挖掘通過統(tǒng)計、在線分析、情報檢索、機器學習、專家系統(tǒng)和模式識別等諸多方法來實現(xiàn)從海量數(shù)據(jù)中搜索隱藏于其中的信息這一過程。

云計算是分布計算的其中一種,通常是指:通過網(wǎng)絡搜集共享計算資源,并以最低的管理代價和最精準的計算方式獲取結果的新型IT運算模式。也就是說云計算技術將龐大的數(shù)據(jù)計算處理程序拆分為一個個小程序,再通過多個服務器分別計算、處理和分析,最后將結果匯總并返回給用戶。這項技術可以在短時間內迅速完成海量的數(shù)據(jù)處理,從而為日益更新的互聯(lián)網(wǎng)服務。

2.2 數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀

從最早的數(shù)據(jù)庫技術,到如今逐漸發(fā)展成熟的大數(shù)據(jù)技術,其目的都是實現(xiàn)數(shù)據(jù)的高效管理和有效利用。數(shù)據(jù)在我們身邊無處不在,數(shù)據(jù)的收集已經(jīng)不再是困擾我們的難題,如何將隱藏在數(shù)據(jù)背后的信息高效率的挖掘出來,才是我們需要探索的道路。如今數(shù)據(jù)挖掘技術已發(fā)展為:數(shù)據(jù)源提供數(shù)據(jù),再將預處理的數(shù)據(jù)整合成適用的模式,由模式分析出這些數(shù)據(jù)中有用的知識。

2.3 數(shù)據(jù)挖掘中的經(jīng)典算法

2.3.1 C4.5算法

C4.5算法是在決策樹算法的基礎之上改進的,根據(jù)對目標變量產生的效果的不同而構建的分類規(guī)則,其原理是根據(jù)每次選擇一個特征或分裂點作為當前節(jié)點的分類條件。C4.5算法繼承了決策樹算法的優(yōu)點:過程可見、操作簡便、準確率高,可同時也有難以基于組合的形式發(fā)現(xiàn)規(guī)律。

2.3.2 K-Means算法即K均值聚類算法

K均值聚類算法顧名思義是一種聚類算法,將n個對象根據(jù)屬性分為k個分割,計算出每個對象與各個種子聚類間的距離,然后將每類對象分配給最近的聚類中心,這樣每個聚類中心再不斷重復以上操作以達到某個終止條件。這種算法的優(yōu)點是容易實現(xiàn),但在大規(guī)模數(shù)據(jù)的運用上效率較低,一般適用于數(shù)值型數(shù)據(jù)。

3 最新數(shù)據(jù)挖掘技術及其應用

在新時代大數(shù)據(jù)的發(fā)展中,信息數(shù)據(jù)在我們的生活中無處不在,衣、食、住、行中都有大數(shù)據(jù)技術作為支撐,從“暗處”給用戶提供幫助。隨著大數(shù)據(jù)的出現(xiàn)到發(fā)展為現(xiàn)階段互聯(lián)網(wǎng)不可缺少的一部分,我們生活中大多數(shù)傳統(tǒng)的統(tǒng)計、計算、分析方法已無形中被大數(shù)據(jù)取代。

3.1 數(shù)據(jù)挖掘技術在金融領域的應用

在信息化發(fā)展如此迅速的時代,金融信息數(shù)據(jù)化已成為必然趨勢,各種互聯(lián)網(wǎng)金融企業(yè)如雨后春筍般出現(xiàn),給傳統(tǒng)金融帶來了不小的沖擊。線上支付、P2P模式的網(wǎng)貸,甚至于股票期貨,都已完成從傳統(tǒng)數(shù)據(jù)模式向大數(shù)據(jù)技術的更新。大數(shù)據(jù)時代給金融行業(yè)帶來了全新的一面,可以為客戶分類、風險評估等提供更高層次的參考價值。利用有效地數(shù)據(jù)分析把控客戶類別和客戶需求,從而提高經(jīng)濟效益和服務質量,為金融行業(yè)的發(fā)展提供更廣闊的平臺。

3.2 數(shù)據(jù)挖掘技術在教育領域的應用

教育數(shù)據(jù)挖掘(Education Data Mining)應用了多個大數(shù)據(jù)技術,綜合運用了數(shù)理統(tǒng)計、人工智能與機器學習和數(shù)據(jù)挖掘等。對教育原始數(shù)據(jù)進行分析、構建數(shù)據(jù)模型,從而有效地預測學習者的學習趨勢。也為互聯(lián)網(wǎng)教育提供發(fā)展的基礎,實現(xiàn)線上教育系統(tǒng)的普及和有效應用,增加新型的學習方式。同時教育信息數(shù)據(jù)化也可以進行全面的、精準的學習分析,提供有理論數(shù)據(jù)支撐的分析結果,有利于學生的自主學習和問題分析。

4 大數(shù)據(jù)的發(fā)展趨勢

大數(shù)據(jù)時代的來臨給我們帶來了全新的發(fā)展模式,同時也催生出許多新興行業(yè),如云計算、人工智能等。大數(shù)據(jù)技術如今已被應用到商業(yè)、工業(yè)等領域,更是諸多新領域的基礎,其中機器學習是人工智能的一個分支,研究方向是使計算機在沒有明確代碼的條件下自主學習,它所運用的原理就是大數(shù)據(jù)技術。在科學領域,大數(shù)據(jù)也是必不可少的計算方式,它擁有多種不同的算法,可適應性的解決一系列科學研究中的計算難題。

在信息技術發(fā)展如此迅速的今天,大數(shù)據(jù)技術依然面臨著許多挑戰(zhàn),龐大的數(shù)據(jù)資源,它的儲存和保護是長久以來人們需要克服的難題。近幾年數(shù)據(jù)泄露的消息比比皆是,大小企業(yè)都無法免受影響,而唯一措施就是從源頭阻止信息的泄露。盜取數(shù)據(jù)的方法在日益更新,保護數(shù)據(jù)就更難上加難,所以完善企業(yè)自身的安全防范能力,提前做好屏障保護,是大數(shù)據(jù)應用上的重要環(huán)節(jié)。

5 結束語

總而言之,在信息技術發(fā)展如此迅速的時代,大數(shù)據(jù)的廣泛應用已成為大勢所趨,從最早運用大數(shù)據(jù)進行簡單的分析,作為一種論據(jù)為科學研究提供數(shù)據(jù)支撐,到如今大數(shù)據(jù)成為互聯(lián)網(wǎng)技術的基石,操縱龐大的數(shù)據(jù)資源??梢哉f,大數(shù)據(jù)技術已走在當今科技發(fā)展的前沿。但科學技術的發(fā)展依舊伴隨著許多待解決的問題,在技術創(chuàng)新與實時出現(xiàn)的問題中尋求可持續(xù)發(fā)展的平衡,使得計算機技術可以更好的服務人們的生活,是我們需要努力的目標。

猜你喜歡
結構化數(shù)據(jù)挖掘聚類
促進知識結構化的主題式復習初探
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
結構化面試方法在研究生復試中的應用
計算機教育(2020年5期)2020-07-24 08:53:00
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于改進的遺傳算法的模糊聚類算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
基于圖模型的通用半結構化數(shù)據(jù)檢索
計算機工程(2015年8期)2015-07-03 12:20:35
一種層次初始的聚類個數(shù)自適應的聚類方法研究
基于軟信息的結構化轉換
临安市| 永登县| 枞阳县| 辉县市| 奉新县| 沈阳市| 镇原县| 舞阳县| 锦州市| 陕西省| 霍邱县| 彭山县| 四子王旗| 新田县| 玉树县| 南宫市| 阿荣旗| 当阳市| 新野县| 寻乌县| 醴陵市| 永泰县| 武穴市| 贵溪市| 睢宁县| 伊春市| 乌拉特前旗| 周口市| 通河县| 集安市| 迭部县| 神农架林区| 鄂尔多斯市| 镇坪县| 遂川县| 古浪县| 治县。| 平昌县| 桃源县| 松滋市| 江门市|