国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)環(huán)境下計(jì)算機(jī)信息處理技術(shù)的應(yīng)用及實(shí)踐要點(diǎn)分析

2016-01-19 17:13李海燕
科技與創(chuàng)新 2016年1期
關(guān)鍵詞:數(shù)據(jù)存儲(chǔ)數(shù)據(jù)挖掘計(jì)算機(jī)

李海燕

摘 要:首先簡(jiǎn)要闡述了大數(shù)據(jù)與計(jì)算機(jī)信息處理技術(shù),然后在此基礎(chǔ)上論述了大數(shù)據(jù)環(huán)境下計(jì)算機(jī)信息處理技術(shù)面臨的挑戰(zhàn)及其應(yīng)用實(shí)踐,希望能對(duì)數(shù)據(jù)信息加工處理效率的提升有所幫助。

關(guān)鍵詞:大數(shù)據(jù);計(jì)算機(jī);數(shù)據(jù)存儲(chǔ);數(shù)據(jù)挖掘

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.15913/j.cnki.kjycx.2016.01.156

1 大數(shù)據(jù)與計(jì)算機(jī)信息處理技術(shù)概述

1.1 大數(shù)據(jù)

大數(shù)據(jù)在業(yè)內(nèi)又被稱為“巨量數(shù)據(jù)集合”,具體是指在可承受的時(shí)間范圍內(nèi)無(wú)法借助常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)具有如下特征:①容量大,均為PB級(jí)以上;②種類多,數(shù)據(jù)類型多種多樣;③速度快,獲取數(shù)據(jù)的速度非???;④真實(shí),數(shù)據(jù)本身的質(zhì)量較高;⑤復(fù)雜性,數(shù)據(jù)來(lái)源的渠道較多。

1.2 計(jì)算機(jī)信息處理技術(shù)

計(jì)算機(jī)信息處理技術(shù)是一項(xiàng)綜合性技術(shù),具體包括通信、微電子、網(wǎng)絡(luò)等技術(shù)。計(jì)算機(jī)的信息處理過(guò)程非常復(fù)雜,所以該技術(shù)成為了數(shù)據(jù)獲取、傳輸、分析和處理的綜合體。大體上,可將該技術(shù)分為檢索技術(shù)、信息系統(tǒng)技術(shù)、通信網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)這幾種。它可以整合數(shù)據(jù)資料,然后存儲(chǔ)有效信息。

2 計(jì)算機(jī)信息處理技術(shù)面臨的挑戰(zhàn)

在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)信息處理技術(shù)的發(fā)展面臨著嚴(yán)峻挑戰(zhàn),具體表現(xiàn)在以下幾個(gè)方面:①巨量的數(shù)據(jù)信息要求具備足夠的儲(chǔ)存空間以及高效率的壓縮技術(shù)和數(shù)據(jù)傳輸技術(shù)。②數(shù)據(jù)挖掘要滿足全面性和可信度高的要求,然后要對(duì)數(shù)據(jù)進(jìn)行分類,以便于信息檢索,并要求數(shù)據(jù)處理結(jié)果可視化。③數(shù)據(jù)流的增多導(dǎo)致網(wǎng)絡(luò)黑客越來(lái)越多,對(duì)用戶信息的安全構(gòu)成了威脅,所以必須重視對(duì)信息安全防護(hù)技術(shù)的研發(fā)。同時(shí),為了保證大數(shù)據(jù)的安全,要求計(jì)算機(jī)信息處理技術(shù)能夠在處理信息的同時(shí),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)環(huán)境的跟蹤監(jiān)控,有效防范網(wǎng)絡(luò)黑客的惡意攻擊。④在大數(shù)據(jù)環(huán)境下,必須提高計(jì)算機(jī)對(duì)海量數(shù)據(jù)的處理能力,并要求網(wǎng)絡(luò)運(yùn)營(yíng)商提升硬件設(shè)備的性能和網(wǎng)絡(luò)寬帶的傳輸速度。⑤有價(jià)值的數(shù)據(jù)信息往往隱藏在海量信息中,為了快速提取這部分信息,就必須提高計(jì)算機(jī)的信息處理能力。⑥大數(shù)據(jù)的容量大、結(jié)構(gòu)復(fù)雜,所以必須優(yōu)化、創(chuàng)新計(jì)算機(jī)網(wǎng)絡(luò)結(jié)構(gòu),加快計(jì)算機(jī)與網(wǎng)絡(luò)融合的速度,以保證數(shù)據(jù)的高效存儲(chǔ)和傳輸。⑦大數(shù)據(jù)時(shí)代的發(fā)展需要一大批高素質(zhì)的計(jì)算機(jī)專業(yè)人才。

3 計(jì)算機(jī)信息處理技術(shù)的應(yīng)用實(shí)踐

在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)信息處理技術(shù)的應(yīng)用具體體現(xiàn)在如下幾個(gè)方面。

3.1 深網(wǎng)數(shù)據(jù)感知與數(shù)據(jù)獲取

這里所指的“深網(wǎng)”(DEEP WEB)又被稱為“網(wǎng)絡(luò)深層空間”,最為突出的特點(diǎn)是數(shù)據(jù)信息的規(guī)模較大,且所有的信息均呈動(dòng)態(tài)。它的訪問(wèn)方式較為特殊,數(shù)據(jù)信息十分分散。通過(guò)對(duì)網(wǎng)絡(luò)深層空間數(shù)據(jù)的利用,可以實(shí)現(xiàn)高質(zhì)量的數(shù)據(jù)集成,從而高效地完成數(shù)據(jù)信息的抽取和整合。

3.2 分布式數(shù)據(jù)存儲(chǔ)

由Google公司研發(fā)的GFS(可擴(kuò)展的分布式系統(tǒng))技術(shù)是分布式數(shù)據(jù)處理的核心,其主要應(yīng)用的是列存儲(chǔ)的概念。這種存儲(chǔ)方式以列為單位,與傳統(tǒng)的行存儲(chǔ)相比,它在數(shù)據(jù)壓縮上更方便,并且循環(huán)速度較快。目前,較為流行的存儲(chǔ)技術(shù)為行列混合式儲(chǔ)存,它可以在較短的時(shí)間內(nèi)以較快的速度加載海量數(shù)據(jù)信息,大幅縮短了信息查詢時(shí)間,使磁盤(pán)空間得到了高效利用。在具體應(yīng)用該技術(shù)時(shí),應(yīng)注意對(duì)數(shù)據(jù)分布的優(yōu)化,以提高數(shù)據(jù)的存儲(chǔ)效率和處理效率。

3.3 數(shù)據(jù)索引

Big Table(非關(guān)系型數(shù)據(jù)庫(kù))是當(dāng)前比較主流的一種數(shù)據(jù)索引技術(shù),同樣是由Google公司研發(fā)的。聚簇和互補(bǔ)式索引是現(xiàn)階段研究的熱點(diǎn)課題,前者是指根據(jù)索引的先后順序?qū)θ康臄?shù)據(jù)進(jìn)行存儲(chǔ);后者則是以多副本為數(shù)據(jù)索引列創(chuàng)出互為補(bǔ)充的索引表。在這兩種索引方式的基礎(chǔ)上,結(jié)合查詢結(jié)果估算方法,便可實(shí)現(xiàn)對(duì)最優(yōu)數(shù)據(jù)查詢的計(jì)劃。

3.4 基于信息內(nèi)容的數(shù)據(jù)挖掘

基于信息內(nèi)容的數(shù)據(jù)挖掘主要應(yīng)用了兩項(xiàng)關(guān)鍵技術(shù),分別是網(wǎng)絡(luò)搜索技術(shù)和實(shí)體關(guān)聯(lián)分析技術(shù)。目前,網(wǎng)絡(luò)信息搜索的熱點(diǎn)是排序?qū)W習(xí)算法。排序?qū)W習(xí)算法主要是針對(duì)大數(shù)據(jù)中半結(jié)構(gòu)化數(shù)據(jù)的社會(huì)媒體信息量提出的,包括逐點(diǎn)算法、逐對(duì)算法和逐列算法。在這一應(yīng)用領(lǐng)域中,關(guān)注的數(shù)據(jù)具有短文本的特點(diǎn)。在國(guó)內(nèi)的很多行業(yè)中,均存在數(shù)據(jù)量大、信息缺乏的現(xiàn)象,而應(yīng)用基于信息內(nèi)容的數(shù)據(jù)挖掘可以使這一問(wèn)題得到有效解決,有利于推動(dòng)行業(yè)的發(fā)展。

3.5 分類數(shù)據(jù)與聚類數(shù)據(jù)分析

分類數(shù)據(jù)的理論基礎(chǔ)是最大似然估計(jì)和其他可供選擇的估算方法,具體是指將數(shù)據(jù)點(diǎn)進(jìn)行歸類處理,在此基礎(chǔ)上確定出新的數(shù)據(jù)點(diǎn),然后在明確假設(shè)和客觀結(jié)構(gòu)后準(zhǔn)確預(yù)測(cè)客戶的行為。分類數(shù)據(jù)又被稱為“名義數(shù)據(jù)”,是社會(huì)科學(xué)研究的重要內(nèi)容,其數(shù)據(jù)信息具有單一性的特點(diǎn),即只能代表數(shù)據(jù)類別。依據(jù)每個(gè)類別的數(shù)量,分類數(shù)據(jù)能夠分析出不同類別數(shù)據(jù)之間的關(guān)系。

所謂“聚類數(shù)據(jù)分析”,是指將物理或抽象對(duì)象的集合分組為由類似的對(duì)象組成多個(gè)類的分析過(guò)程,主要目標(biāo)是在相似的基礎(chǔ)上對(duì)收集到的數(shù)據(jù)進(jìn)行分類。很多領(lǐng)域都需要應(yīng)用到聚類技術(shù),例如數(shù)學(xué)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)和計(jì)算機(jī)科學(xué)等。聚類數(shù)據(jù)分析能夠?qū)?shù)據(jù)進(jìn)行描述,衡量不同數(shù)據(jù)源之間的相似性,并將數(shù)據(jù)源分類到不同的簇中。

4 結(jié)束語(yǔ)

總而言之,在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)網(wǎng)絡(luò)朝著云計(jì)算網(wǎng)絡(luò)的方向發(fā)展已經(jīng)成為一個(gè)必然趨勢(shì)。由于現(xiàn)有的網(wǎng)絡(luò)架構(gòu)主要是以計(jì)算機(jī)硬件為基礎(chǔ),局限性相對(duì)較大,因此,要充分利用數(shù)據(jù)信息處理技術(shù),并通過(guò)重新定義網(wǎng)絡(luò)架構(gòu),使網(wǎng)絡(luò)中的數(shù)據(jù)信息與硬件分離,這樣計(jì)算機(jī)信息處理技術(shù)才能不再依靠硬件設(shè)備,而只要通過(guò)網(wǎng)絡(luò)就能實(shí)現(xiàn)連接,滿足大數(shù)據(jù)環(huán)境的要求。

參考文獻(xiàn)

[1]王東濱,智慧,余翔湛.網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)處理中的多線程內(nèi)存管理技術(shù)[J].網(wǎng)絡(luò)與信息安全技術(shù),2012(7):163-165.

[2]趙卓峰,馬強(qiáng),房俊.針對(duì)高速數(shù)據(jù)流的大規(guī)模數(shù)據(jù)實(shí)時(shí)處理方法[J].計(jì)算機(jī)學(xué)報(bào),2012(5):78-79.

[3]常明迪.網(wǎng)絡(luò)環(huán)境下的計(jì)算機(jī)信息處理與安全技術(shù)分析[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2013(9):56-57.

〔編輯:王霞〕

猜你喜歡
數(shù)據(jù)存儲(chǔ)數(shù)據(jù)挖掘計(jì)算機(jī)
中國(guó)計(jì)算機(jī)報(bào)202007、08合刊
中國(guó)計(jì)算機(jī)報(bào)2019年48、49期合刊
中國(guó)古代的“計(jì)算機(jī)”
數(shù)據(jù)挖掘綜述
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
開(kāi)源數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)的實(shí)現(xiàn)路徑分析
基于Android開(kāi)發(fā)的APP數(shù)據(jù)存儲(chǔ)研究
哈希算法在物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)中的應(yīng)用
基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
一體式,趨便攜雅蘭仕AL-225