国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)研究綜述

2018-01-31 08:31鄭強高群
科技視界 2018年30期
關(guān)鍵詞:數(shù)據(jù)處理數(shù)據(jù)挖掘大數(shù)據(jù)

鄭強 高群

【摘 要】隨著移動互聯(lián)網(wǎng)、無線傳感網(wǎng)等技術(shù)的的發(fā)展,新興應(yīng)用不斷涌現(xiàn),數(shù)據(jù)成爆炸式增長。大數(shù)據(jù)成為重要的生產(chǎn)要素,蘊含著巨大的知識價值。本文介紹了了大數(shù)據(jù)的定義和面臨的技術(shù)挑戰(zhàn),歸納了大數(shù)據(jù)集成與預(yù)處理技術(shù)、數(shù)據(jù)分析與挖掘技術(shù)、數(shù)據(jù)展現(xiàn)技術(shù),最后總結(jié)了大數(shù)據(jù)的發(fā)展趨勢,為大數(shù)據(jù)的研究提供有益參考。

【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)處理;數(shù)據(jù)挖掘

中圖分類號: TP311.13 文獻標識碼: A 文章編號: 2095-2457(2018)30-0179-002

DOI:10.19694/j.cnki.issn2095-2457.2018.30.078

0 引言

隨著無線傳感網(wǎng)、移動互聯(lián)網(wǎng)的普及,21世紀以來數(shù)據(jù)量呈現(xiàn)出指數(shù)級增長,社會已經(jīng)步入大數(shù)據(jù)時代?!洞髷?shù)據(jù)時代》一書的作者英國牛津大學(xué)教授維克托指出,大數(shù)據(jù)正在改變?nèi)藗兊墓ぷ骱蜕罘绞?,并且更多的改變正在悄然發(fā)生。大數(shù)據(jù)已在網(wǎng)絡(luò)通信、金融市場、氣象預(yù)報等諸多領(lǐng)域得到廣泛應(yīng)用[1]。大數(shù)據(jù)背后蘊含著巨大的價值,尤其是通過數(shù)據(jù)集成、分析與挖掘之后,其所表現(xiàn)出價值已經(jīng)遠遠超過傳統(tǒng)的數(shù)據(jù)。大數(shù)據(jù)研究成為經(jīng)濟和社會發(fā)展以及科技進步的重要推動力量。

本文歸納和總結(jié)了大數(shù)據(jù)的定義、發(fā)展現(xiàn)狀和面臨的挑戰(zhàn)及其關(guān)鍵技術(shù)。首先闡述了大數(shù)據(jù)概念及其發(fā)展現(xiàn)狀、數(shù)據(jù)處理面臨的問題及挑戰(zhàn),然后分析了大數(shù)據(jù)技術(shù),最后是全文總結(jié)并對大數(shù)據(jù)研究進行展望。

1 大數(shù)據(jù)的概念

著名咨詢公司麥肯錫給出的大數(shù)據(jù)定義:大數(shù)據(jù)指的是體量超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。并強調(diào),并非一定要超過TB級的數(shù)據(jù)才可以稱作大數(shù)據(jù)[2]。《Science》雜志在2008年出版的??卸x大數(shù)據(jù)為“代表著人類認知過程的進步,數(shù)據(jù)集的規(guī)模是無法在可容忍的時間內(nèi)用目前的技術(shù)、方法和理論去獲取、管理、處理的數(shù)據(jù)”。Gartner公司也給出了大數(shù)據(jù)的定義:大數(shù)據(jù)是高容量、高生成速率、種類繁多的信息價值,同時需要新的處理形式去確保判斷的作出、洞察力的發(fā)現(xiàn)和處理的優(yōu)化[3]。維基百科對大數(shù)據(jù)的定義則簡單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。

一般而言,大家比較認可關(guān)于大數(shù)據(jù)從早期的3V,4V說法到現(xiàn)在的5V。大數(shù)據(jù)的5V是指Volume,Velocity,Variety,Varacity,Value[4]。Volume:數(shù)據(jù)體量巨大;Velocity:數(shù)據(jù)生成速率高,時效要求高;Variety:數(shù)據(jù)類型繁多,既包括結(jié)構(gòu)化數(shù)據(jù),也包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);Veracity:數(shù)據(jù)真實且準確;Value:數(shù)據(jù)潛在價值密度低,但價值高。

2 大數(shù)據(jù)的現(xiàn)狀

隨著數(shù)據(jù)科學(xué)的深入發(fā)展,歐美等眾多發(fā)達國家都意識到作為國家戰(zhàn)略資產(chǎn)的數(shù)據(jù)的重要性,分別發(fā)布了大數(shù)據(jù)發(fā)展戰(zhàn)略。美國于2012年頒布了《大數(shù)據(jù)研究和發(fā)展計劃》,包括約150余個項目類別,計劃項目涵蓋國防、衛(wèi)生、能源等諸多領(lǐng)域。我國也把大數(shù)據(jù)技術(shù)也提到了國家的戰(zhàn)略發(fā)展日程。2013年,國內(nèi)多位院士聯(lián)合建議設(shè)立國家專項,開展大數(shù)據(jù)技術(shù)研究。事實上,大數(shù)據(jù)技術(shù)已經(jīng)應(yīng)用在互聯(lián)網(wǎng)、商業(yè)智能、金融業(yè)以及醫(yī)療、零售等行業(yè),并對社會、經(jīng)濟產(chǎn)生了巨大的影響[5]。

3 大數(shù)據(jù)面臨的挑戰(zhàn)

不同于與傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)來源廣泛、種類繁多、動態(tài)增長,以上特點使得大數(shù)據(jù)技術(shù)面臨新的挑戰(zhàn),以下幾個方面尤其值得關(guān)注:

3.1 數(shù)據(jù)異構(gòu)性和不完整性

據(jù)統(tǒng)計,目前半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)占當前社會數(shù)據(jù)總量的80%以上,已有的傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)已經(jīng)無法準確的描述它們。因此,將數(shù)據(jù)組織成易于處理的結(jié)構(gòu),進行數(shù)據(jù)集成是大數(shù)據(jù)處理面臨的一個重要難題。不完整性是指在大數(shù)據(jù)常常包含一些屬性值缺失的和錯誤的數(shù)據(jù)。在進行大數(shù)據(jù)分析處理之前,必須對數(shù)據(jù)的不完整性進行有效處理才能分析出有價值的信息。

3.2 數(shù)據(jù)處理的實時性

大數(shù)據(jù)有著很強的時效性,隨著時間的推移,數(shù)據(jù)背后所隱藏的的知識價值也會很快地降低。因此,大數(shù)據(jù)需要以較高的速率進行分析處理。

3.3 數(shù)據(jù)安全與隱私保護

大數(shù)據(jù)的隱私保護不僅僅涉及技術(shù)層面的問題同時也涉及到社會學(xué)倫理問題。相比于傳統(tǒng)的數(shù)據(jù)安全,大數(shù)據(jù)時代的數(shù)據(jù)安全變得尤為復(fù)雜,面臨著來自各方面的挑戰(zhàn)。因此在大數(shù)據(jù)環(huán)境下,如何保證數(shù)據(jù)共享的安全性以及怎樣為用戶提供精細可靠地的數(shù)據(jù)共享控制策略等問題的研究顯得越發(fā)重要。

3.4 高能耗問題

隨著大數(shù)據(jù)體量的爆炸式增長,數(shù)據(jù)中心規(guī)模的日漸擴大,高能耗制約大數(shù)據(jù)發(fā)展的問題已日益加重。針對降低能耗、提高數(shù)據(jù)中心可靠性問題,常見措施包括:冗余配置、云計算技術(shù)和分布式計算技術(shù)。在存儲時,首先要對數(shù)據(jù)進行分類,然后進行數(shù)據(jù)過濾和去重操作,來減少數(shù)據(jù)體量,同時建立多級索引以方便日后的查詢操作。

3.5 大數(shù)據(jù)易用性問題

易用性的挑戰(zhàn)突出體現(xiàn)在兩個方面:首先大數(shù)據(jù)的體量巨大,價值密度低,這使得分析過程更加復(fù)雜,而且輸出結(jié)果形式更加多樣化;其次,大數(shù)據(jù)展現(xiàn)技術(shù)也是易用性的一個重要方面。

4 大數(shù)據(jù)技術(shù)

大數(shù)據(jù)技術(shù)包含數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)展示技術(shù)及大數(shù)據(jù)安全等幾個方面。

4.1 大數(shù)據(jù)預(yù)處理

大數(shù)據(jù)最典型的特征是多源異構(gòu)。原始數(shù)據(jù)中會包含一些“臟數(shù)據(jù)”,比如離群點,值缺失等狀況。因此首先需要進行數(shù)據(jù)的預(yù)處理和集成,為將來的數(shù)據(jù)分析和挖掘提供方便處理的數(shù)據(jù)集。目前市面上常見的方法大體可分為4類:基于物化或ETL引擎方法、基于聯(lián)邦數(shù)據(jù)庫或中間件方法、基于數(shù)據(jù)流引擎方法以及基于搜索引擎方法。

4.2 大數(shù)據(jù)存儲與管理

數(shù)據(jù)壓縮技術(shù)雖然能減少數(shù)據(jù)量和提高存儲效率,但同時也加重了計算結(jié)點的數(shù)據(jù)處理負擔??紤]到存儲空間和數(shù)據(jù)的性質(zhì),針對不同的數(shù)據(jù)采取不同的存儲方式。核心業(yè)務(wù)數(shù)據(jù)依舊采用傳統(tǒng)的并行數(shù)據(jù)倉庫進行存儲;時效性要求高的數(shù)據(jù)則采用實時數(shù)據(jù)庫或內(nèi)存數(shù)據(jù)庫;對大量的累積數(shù)據(jù)和無結(jié)構(gòu)數(shù)據(jù)則采用分布式文件系統(tǒng)。

4.3 大數(shù)據(jù)分析與挖掘

人們希望如何從海量的數(shù)據(jù)中迅速的提煉出關(guān)鍵信息,為社會和企業(yè)帶來價值。大數(shù)據(jù)分析的主要方法分為:統(tǒng)計數(shù)據(jù)分析方法、基于機器學(xué)習的分析方法、基于圖的分析方法和自然語言中的分析方法。大數(shù)據(jù)的挖掘包括關(guān)聯(lián)規(guī)則、分類分析、聚類分析等。常用的數(shù)據(jù)挖掘工具有:R語言、RapidMiner、免費的Weka、KNIME以及Prange等。最典型的挖掘平臺包括基于Hadoop的平臺和基于Spark的平臺。

4.4 大數(shù)據(jù)展示技術(shù)

作為最重要的展示技術(shù),可視化技術(shù)可迅速有效地提煉數(shù)據(jù)流,幫助用戶迅速的從大量的數(shù)據(jù)中篩選出新的發(fā)現(xiàn)。大數(shù)據(jù)可視化技術(shù)包括:高維數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、網(wǎng)絡(luò)數(shù)據(jù)可視化、時空數(shù)據(jù)可視化等。在大數(shù)據(jù)可視化分析領(lǐng)先的公司是Tableau Software公司,該公司致力于讓不懂可視化技術(shù)的特定行業(yè)領(lǐng)域知識專家也能方便地進行實時數(shù)據(jù)分析展示。其他可視化工具包括:文本可視化工具Wordle、網(wǎng)絡(luò)可視化工具Gephi以及Data-Dirven Documents。

4.5 大數(shù)據(jù)隱私與安全

面對日益嚴峻的大數(shù)據(jù)安全形勢,目前主流的安全解決方法包括:經(jīng)典的文件訪問控制技術(shù)、設(shè)備加密技術(shù)、匿名保護技術(shù)、加密保護技術(shù)、數(shù)據(jù)水印技術(shù)等。同時提出利用大數(shù)據(jù)技術(shù)本身用作大數(shù)據(jù)安全防護的實現(xiàn)方法,增強大數(shù)據(jù)時代的信息安全防護性能。

5 大數(shù)據(jù)發(fā)展趨勢

隨著大數(shù)據(jù)應(yīng)用的日益廣泛,新的問題也不斷涌現(xiàn)。大數(shù)據(jù)研究的方向大體如下[6]:

(1)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫與日益壯大的非關(guān)系數(shù)據(jù)庫的集成

(2)采集的數(shù)據(jù)的不確定性與數(shù)據(jù)質(zhì)量

(3)跨領(lǐng)域數(shù)據(jù)集成方法的可移植性

(4)利用大數(shù)據(jù)進行預(yù)測

6 結(jié)束語

大數(shù)據(jù)關(guān)系到到國防軍事、社會生活、經(jīng)濟金融和科學(xué)技術(shù)等多方面的問題,大數(shù)據(jù)已經(jīng)成為推動社會經(jīng)濟發(fā)展的強進動力。本文首先闡述了大數(shù)據(jù)的概念和大數(shù)據(jù)技術(shù)面臨的挑戰(zhàn),然后介紹了大數(shù)據(jù)集成技術(shù)、數(shù)據(jù)分析與挖掘技術(shù)、數(shù)據(jù)展現(xiàn)技術(shù),最后總結(jié)了大數(shù)據(jù)研究的重點方向。如何高效、合理地利用大數(shù)據(jù)為社會服務(wù),還需要進一步地探索發(fā)現(xiàn)新技術(shù)。

【參考文獻】

[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶,ViktorMayer-Schonberger,等.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].浙江人民出版社,2013.

[2]孫勤紅,沈鳳仙.大數(shù)據(jù)時代的數(shù)據(jù)挖掘及應(yīng)用[J].電子技術(shù)與軟件工程,2016(6):204-204.

[3]Ji C,Li Y,Qiu W,et al.Big Data Processing in Cloud Computing Environments[C].International Symposium on Pervasive Systems,Algorithms and Networks.IEEE,2013:17-23.

[4]方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J]. 南京信息工程大學(xué)學(xué)報,2014(5):405-419.

[5]涂新莉,劉波,林偉偉.大數(shù)據(jù)研究綜述[J].計算機應(yīng)用研究,2014,31(6):1612-1616.

[6]中國計算機學(xué)會大數(shù)據(jù)專家委員會.中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書[R].2013.

猜你喜歡
數(shù)據(jù)處理數(shù)據(jù)挖掘大數(shù)據(jù)
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
基于POS AV610與PPP的車輛導(dǎo)航數(shù)據(jù)處理