国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下的信息處理技術(shù)探究

2015-01-22 07:13:24
產(chǎn)業(yè)與科技論壇 2015年12期
關(guān)鍵詞:數(shù)據(jù)量數(shù)據(jù)挖掘分布式

□ 胡 輝

一、大數(shù)據(jù)概述

(一)大數(shù)據(jù)的概念。“大數(shù)據(jù)(mega data)”即是指海量的數(shù)據(jù)。人們對(duì)什么是大數(shù)據(jù)并沒(méi)有統(tǒng)一的定義,大數(shù)據(jù)即意味著極度的復(fù)雜,目前人們對(duì)于大數(shù)據(jù)的定義主要有以下三種說(shuō)法:一是任何超過(guò)一臺(tái)計(jì)算機(jī)能夠處理的龐大數(shù)據(jù)即為大數(shù)據(jù);二是一個(gè)個(gè)大而復(fù)雜、難以用現(xiàn)有數(shù)據(jù)庫(kù)系統(tǒng)處理的數(shù)據(jù);三是大數(shù)據(jù)即是具備各種復(fù)雜數(shù)據(jù)類型的海量的數(shù)據(jù)。無(wú)論大數(shù)據(jù)的定義如何,公認(rèn)的大數(shù)據(jù)應(yīng)該具有如下3V特征:

1.Volume。即數(shù)據(jù)體量巨大,對(duì)大數(shù)據(jù)而言,GB、TB(1TP=1024GB)已不足以表示數(shù)據(jù)量,現(xiàn)在某些企業(yè)級(jí)的數(shù)據(jù)量已經(jīng)進(jìn)入PB(1PB=1024TB),甚至是EB(1EB=1024PB,據(jù)統(tǒng)計(jì),到目前為止,人類印刷品的數(shù)據(jù)量約為200PB)級(jí)了。

2.Variety。即數(shù)據(jù)類型多樣,大數(shù)據(jù)中不僅僅有結(jié)構(gòu)化的數(shù)據(jù)如傳統(tǒng)數(shù)據(jù)庫(kù)文件、文本文件,還有大量非結(jié)構(gòu)化的數(shù)據(jù),如音頻、視頻等文件。

3.Velocity。即處理速度快,一方面數(shù)據(jù)量本身在不斷增長(zhǎng),另一方面訪問(wèn)和使用數(shù)據(jù)的用戶也在不斷增加,要求數(shù)據(jù)信息處理的反應(yīng)時(shí)間也要盡可能縮短。

(二)大數(shù)據(jù)的來(lái)源。大數(shù)據(jù)的來(lái)源是多方面的,就技術(shù)和社會(huì)層面而言,主要由三個(gè)方面構(gòu)成:

1.來(lái)自交易平臺(tái)。從電子商務(wù)到電子政務(wù)的發(fā)展,從ERP(企業(yè)資源技術(shù)系統(tǒng))到OLTP(在線交易處理系統(tǒng)),無(wú)論是傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)或是非結(jié)構(gòu)化數(shù)據(jù)正以前所未有的速度迅速增長(zhǎng)。

2.來(lái)自交互平臺(tái)。這一方面的數(shù)據(jù)來(lái)源于各種論壇、社交網(wǎng)站,如 YouTube、Facebook、微信、QQ 等的文本、照片、視頻,人們每時(shí)每刻不斷用各種方式不斷表達(dá)自我、分享喜悅。

3.來(lái)自處理平臺(tái)。各種平臺(tái)都需要數(shù)據(jù)管理系統(tǒng),常見(jiàn)的方式是使用各種管理工具處理來(lái)自各客戶端的各種數(shù)據(jù)。

二、數(shù)據(jù)挖掘技術(shù)

(一)數(shù)據(jù)挖掘技術(shù)概述。數(shù)據(jù)挖掘是一門(mén)涉及統(tǒng)計(jì)、信息處理、數(shù)據(jù)庫(kù)技術(shù)等方面知識(shí)的綜合技術(shù),它并不是這幾年才出現(xiàn)的技術(shù),而是在計(jì)算機(jī)性能提高,網(wǎng)絡(luò)帶寬增大,應(yīng)用需求迫切的情況下迅速發(fā)展并進(jìn)入公共視線的。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)關(guān)系較為密切,現(xiàn)在提到更多的是大數(shù)據(jù)挖掘,是已有的海量數(shù)據(jù)中的知識(shí)發(fā)現(xiàn),通常應(yīng)用于統(tǒng)計(jì)、在線分析、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等多個(gè)方面。

(二)數(shù)據(jù)挖掘在各行業(yè)中的應(yīng)用。數(shù)據(jù)挖掘技術(shù)如今已經(jīng)在各行各業(yè)中得到廣泛應(yīng)用,如在冶金產(chǎn)品質(zhì)量控制中用于質(zhì)量精準(zhǔn)控制;在電子商務(wù)的應(yīng)用中從網(wǎng)頁(yè)的設(shè)計(jì)、客戶關(guān)系管理、網(wǎng)絡(luò)營(yíng)銷(xiāo)三個(gè)角度預(yù)測(cè)并優(yōu)化;在商業(yè)數(shù)據(jù)分析中按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量數(shù)據(jù)進(jìn)行深沉次分析,支持商業(yè)決策活動(dòng);在金融領(lǐng)域、在資本市場(chǎng),通過(guò)大數(shù)據(jù)挖掘,給交易者提高準(zhǔn)確及時(shí)的預(yù)測(cè),為內(nèi)部風(fēng)險(xiǎn)控制和監(jiān)管提供更加準(zhǔn)確和透明的風(fēng)險(xiǎn)信息;在科研如基因序列分析的關(guān)鍵技術(shù)研究中,使研究人員更易從浩瀚的生物序列中發(fā)現(xiàn)知識(shí)和解釋生命的奧秘;在軟件工程中,從軟件的開(kāi)發(fā)和管理工程出現(xiàn)的海量數(shù)據(jù)中快速找出影響軟件開(kāi)發(fā)的大問(wèn)題,縮短開(kāi)發(fā)周期,減少BUG;在客戶關(guān)系管理中,通過(guò)數(shù)據(jù)挖掘可以及時(shí)準(zhǔn)確地了解客戶的偏好和需求,向客戶提供個(gè)性化服務(wù),與客戶建立長(zhǎng)久、穩(wěn)定、良好的溝通關(guān)系,建立一種良好的新型客戶管理機(jī)制。

三、分布式數(shù)據(jù)庫(kù)技術(shù)

(一)分布式數(shù)據(jù)庫(kù)概述。分布式數(shù)據(jù)庫(kù)(DDBS)的設(shè)計(jì)思路是將原來(lái)集中的數(shù)據(jù)庫(kù)數(shù)據(jù),通過(guò)計(jì)算機(jī)和高速網(wǎng)絡(luò)分散到多個(gè)存儲(chǔ)元,通過(guò)全局性調(diào)度管理數(shù)據(jù)庫(kù)集管理,形成邏輯上統(tǒng)一,實(shí)際上分散的數(shù)據(jù)庫(kù)形式。通過(guò)這種形式,可以提高數(shù)據(jù)庫(kù)的存儲(chǔ)容量和高并發(fā)性,提高訪問(wèn)效率和訪問(wèn)量,分布式數(shù)據(jù)庫(kù)的體系結(jié)構(gòu)圖如圖1所示。

圖1 分布式數(shù)據(jù)庫(kù)體系結(jié)構(gòu)圖

隨著大數(shù)據(jù)時(shí)代的到來(lái),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)也逐步從集中存儲(chǔ)轉(zhuǎn)變到分布式存儲(chǔ),從集中式運(yùn)算轉(zhuǎn)變到分布式計(jì)算。數(shù)據(jù)庫(kù)相關(guān)應(yīng)用也逐步在使用D非關(guān)系型數(shù)據(jù)庫(kù),如NoSQL文檔型數(shù)據(jù)庫(kù)。分布式數(shù)據(jù)庫(kù)技術(shù)也得到了快速的發(fā)展,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)開(kāi)始從集中式模型向分布式架構(gòu)發(fā)展,基于關(guān)系型的分布式數(shù)據(jù)庫(kù)在保留了傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)模型和基本特征下,從集中式存儲(chǔ)走向分布式存儲(chǔ),從集中式計(jì)算走向分布式計(jì)算。

(二)分布式數(shù)據(jù)庫(kù)技術(shù)的特點(diǎn)。由于存儲(chǔ)和處理大數(shù)據(jù)的需要,數(shù)據(jù)庫(kù)需要具有物理分散布置、局部場(chǎng)地自治和場(chǎng)地間協(xié)調(diào)的特點(diǎn),分布式數(shù)據(jù)庫(kù)不僅具備這些特點(diǎn),還具備靈活的體系結(jié)構(gòu)、分布式管理機(jī)構(gòu);較好的經(jīng)濟(jì)性能;較高的系統(tǒng)可靠性高、可用性、可擴(kuò)展性好;但是由于分布式數(shù)據(jù)庫(kù)需要較多的異步操作和網(wǎng)絡(luò)操作,必然會(huì)增大系統(tǒng)開(kāi)銷(xiāo),特別在網(wǎng)絡(luò)通訊和協(xié)調(diào)計(jì)算方面尤為突出,另外由于數(shù)據(jù)來(lái)源不一致,可能會(huì)導(dǎo)致復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和大量的預(yù)處理操作,而且由于數(shù)據(jù)不單單在本地處理,可能還存在較為明顯的數(shù)據(jù)安全問(wèn)題。

四、云計(jì)算技術(shù)

(一)云計(jì)算概述。云計(jì)算是客戶/服務(wù)器(B/S)模式的一種轉(zhuǎn)變,“云”一般用來(lái)比喻網(wǎng)絡(luò)即網(wǎng)絡(luò)上的虛擬化資源,云計(jì)算是一種通過(guò)網(wǎng)絡(luò),按流量付費(fèi)使用數(shù)字資源的一種模式,它具有分布式、虛擬化、并行計(jì)算、網(wǎng)絡(luò)存儲(chǔ)等特征,是計(jì)算機(jī)和網(wǎng)絡(luò)高度融合的產(chǎn)物。云計(jì)算的概念最早出現(xiàn)在1980年,2006年時(shí)又由Google首席執(zhí)行官埃里克·施密特(Eric Schmidt)正式提出,經(jīng)過(guò)了電廠模式、效用計(jì)算、網(wǎng)格計(jì)算和云計(jì)算四個(gè)階段才發(fā)展成熟,現(xiàn)在隨著網(wǎng)絡(luò)帶寬增大,網(wǎng)絡(luò)數(shù)據(jù)爆炸式增長(zhǎng),網(wǎng)絡(luò)大數(shù)據(jù)處理技術(shù)升級(jí),云計(jì)算正逐步被普及和應(yīng)用。

(二)云計(jì)算技術(shù)大數(shù)據(jù)背景下的應(yīng)用。云計(jì)算和大數(shù)據(jù)是兩個(gè)不同的事物,簡(jiǎn)單來(lái)說(shuō),云計(jì)算是硬件資源的虛擬化,而大數(shù)據(jù)是海量數(shù)據(jù)的高效處理。從技術(shù)上看,云計(jì)算和大數(shù)據(jù)密不可分,就是事物都具有兩面性一樣,大數(shù)據(jù)意味著不可能使用一臺(tái)計(jì)算機(jī)進(jìn)行處理,而大數(shù)據(jù)的存儲(chǔ)、處理都需要云計(jì)算的分布式環(huán)境、分布式數(shù)據(jù)庫(kù)、虛擬化等技術(shù)的支持,在大數(shù)據(jù)背景下,云計(jì)算已發(fā)展了很多具體應(yīng)用,如云物聯(lián),云游戲、移動(dòng)云服務(wù)、云存儲(chǔ)等。

五、結(jié)語(yǔ)

大數(shù)據(jù)因?yàn)榉N種原因引起人們的廣泛關(guān)注,各大公司和開(kāi)發(fā)者們投身于新技術(shù)的研發(fā),大數(shù)據(jù)以Hadoop以及“NO SQL”為主的Mongo和Cassandra等數(shù)據(jù)庫(kù)技術(shù)在不斷展現(xiàn),目前市場(chǎng)上超過(guò)25萬(wàn)個(gè)開(kāi)源技術(shù)已經(jīng)出現(xiàn),大數(shù)據(jù)的應(yīng)用會(huì)越來(lái)越廣、越來(lái)越精確,本文僅就大數(shù)據(jù)背景下的主要信息處理技術(shù)作粗淺分析,希望能為大數(shù)據(jù)的引用起到有益引導(dǎo)。

[1]嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,4:168 ~171

[2]《中國(guó)電子科學(xué)研究院學(xué)報(bào)》編輯部.大數(shù)據(jù)時(shí)代[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2013,1:27~31

[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,1:146 ~149

[4]楊澤民.?dāng)?shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013,34(11):71 ~72

[5]韓少鋒,陳立潮.?dāng)?shù)據(jù)挖掘技術(shù)及應(yīng)用綜述[J].機(jī)械管理開(kāi)發(fā),2006,2

[6]鐘瑛,張恒山.大數(shù)據(jù)的緣起、沖擊及其應(yīng)對(duì)[J].現(xiàn)代傳播(中國(guó)傳媒大學(xué)學(xué)報(bào)),2013,7

猜你喜歡
數(shù)據(jù)量數(shù)據(jù)挖掘分布式
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
電子制作(2019年13期)2020-01-14 03:15:18
分布式光伏熱錢(qián)洶涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于DDS的分布式三維協(xié)同仿真研究
新密市| 稷山县| 永城市| 岑溪市| 扎囊县| 鲁山县| 和顺县| 泽库县| 新民市| 吉木萨尔县| 兴海县| 泌阳县| 乌恰县| 闵行区| 濉溪县| 镇宁| 泰宁县| 城固县| 定兴县| 阿合奇县| 新民市| 乾安县| 江源县| 温泉县| 措勤县| 邻水| 兰溪市| 广南县| 门源| 泰州市| 新龙县| 津南区| 长顺县| 卢龙县| 化德县| 甘南县| 灌阳县| 叙永县| 永城市| 宜黄县| 舒兰市|