国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

簡要分析大數(shù)據(jù)的發(fā)展現(xiàn)狀與挑戰(zhàn)

2016-06-11 06:26:30馬彬彬
科技資訊 2016年10期
關(guān)鍵詞:大數(shù)據(jù)

馬彬彬

摘要:近年來,隨著科學技術(shù)的迅猛發(fā)展,國家政府(航空航天,國防)、學術(shù)界(生物醫(yī)療工程,天文學,高能物理和光學研究)、產(chǎn)業(yè)界(互聯(lián)網(wǎng),金融,供應系統(tǒng))不斷產(chǎn)生海量數(shù)據(jù),人們早已進入網(wǎng)絡化的大數(shù)據(jù)(Big Data)時代。該文簡要概述了大數(shù)據(jù)發(fā)展的重要意義及國內(nèi)外現(xiàn)狀,并對大數(shù)據(jù)系統(tǒng)和其挑戰(zhàn)做了簡略分析。

關(guān)鍵詞:大數(shù)據(jù) 并行系統(tǒng) MapReduce 大數(shù)據(jù)系統(tǒng)

中圖分類號:TN919 文獻標識碼:A 文章編號:1672-3791(2016)04(a)-0142-02

1.大數(shù)據(jù)的重要意義

被稱為信息時代新“石油”的大數(shù)據(jù)隱含著巨大的社會、經(jīng)濟和科研價值,引起了政府部門、科研界及產(chǎn)業(yè)界的高度關(guān)注。

據(jù)國際數(shù)據(jù)公司IDC報道,2011年產(chǎn)生和復制的數(shù)據(jù)超過1.8ZB,是過去5年數(shù)據(jù)增長的9倍,并將以每兩年翻倍的速度增長,而這些數(shù)據(jù)約75%來自干與互聯(lián)網(wǎng),物聯(lián)網(wǎng)相關(guān)的人類社會,因而,對大數(shù)據(jù)的處理和解析將直接或間接地關(guān)系到國家的信息空間安全和社會穩(wěn)定甚至一個國家數(shù)據(jù)主權(quán)的競爭力。其次,大數(shù)據(jù)對各類產(chǎn)業(yè)結(jié)構(gòu)升級及新戰(zhàn)略的制定都有著不可忽視的影響,進入大數(shù)據(jù)時代以來,各類企業(yè)決策的制定和優(yōu)化越來越依賴大數(shù)據(jù)的處理和解析;計算機行業(yè)將自身的關(guān)注點由追求計算速度轉(zhuǎn)移到對大數(shù)據(jù)的處理機制,云計算也轉(zhuǎn)為分析即服務(Aaas)的Cloud 2.0時代;同時大數(shù)據(jù)的處理對生物、醫(yī)療、能源、金融和教育的發(fā)展應用有著重大意義如百度每天要處理大約幾十PB數(shù)據(jù),F(xiàn)acebook注冊用戶超過10億,每月上傳照片超過10億張,每天生成300TB以上的日志數(shù)據(jù)。因此,從海量數(shù)據(jù)中挖掘并提取出有價值的信息和知識顯得尤為重要。

2.大數(shù)據(jù)國內(nèi)外現(xiàn)狀

2009年至今,美國數(shù)據(jù)庫全面開放了40萬政府原始數(shù)據(jù)集,2012~3月,美國發(fā)布了“大數(shù)據(jù)研發(fā)計劃”涉及美國國家科學基金會(NSF)、國防部(DOD)、能源部(DOE)等6個聯(lián)邦部門和機構(gòu),共同提高處理分析共享海量數(shù)據(jù)所需的核心技術(shù),并加大數(shù)據(jù)應用技術(shù)人才的培養(yǎng)和供給。過去幾年歐盟投資1億多歐元將數(shù)據(jù)信息化基礎設施作為Horizon 2020計劃的優(yōu)先領(lǐng)域之一,2014年歐盟委員會呼吁各成員國家間大數(shù)據(jù)領(lǐng)域的公私合作,依托“地平線2020”科研計劃等促進大數(shù)據(jù)時代的發(fā)展。美國麻省理工大學計算科學與人工智能實驗室(CSAIL)建立大數(shù)據(jù)科學技術(shù)中心(ISTC)[2]致力于醫(yī)藥科學發(fā)明、行業(yè)計算的發(fā)展。

國內(nèi)各領(lǐng)域紛紛制定了大數(shù)據(jù)研究與應用的相關(guān)計劃,2012年科技部“十二五”部署了關(guān)于物聯(lián)網(wǎng)和云計算的相關(guān)專項,同年3月,國家“973計劃~863計劃”和國家自然科學基金等也分別制定了關(guān)于大數(shù)據(jù)的研究計劃和專項。與此同時,中國計算機學會和中國通信學會成立了大數(shù)據(jù)專家委員會,開展CCF大數(shù)據(jù)學術(shù)會議、大數(shù)據(jù)分析與管理國際研討會和大數(shù)據(jù)科學與工程國際學術(shù)研等學術(shù)活動促進大數(shù)據(jù)的應用研究,為其發(fā)展提供政策、資源和人才培養(yǎng)等方面強有力的支持。

3.大數(shù)據(jù)簡介

不同領(lǐng)域?qū)Υ髷?shù)據(jù)的定義和解讀至今未達成統(tǒng)一的認知,國際數(shù)據(jù)中心IDC,在2011年的報告中將大數(shù)據(jù)定義為“大數(shù)據(jù)技術(shù)描述了一個技術(shù)和體系的新時代,被設計于從大規(guī)模多樣性的數(shù)據(jù)中通過高速捕獲、發(fā)現(xiàn)和分析技術(shù)提取數(shù)據(jù)的價值”。大數(shù)據(jù)的四大顯著特征4V:容量(VOlume)、多樣性(variety)、速度(velocity)和價值(value)集中體現(xiàn)大數(shù)據(jù)體量浩大,模態(tài)繁多,數(shù)據(jù)生成更新快速,價值大而密度低的性質(zhì)。大數(shù)據(jù)系統(tǒng)主要分成數(shù)據(jù)生成、數(shù)據(jù)獲取、數(shù)據(jù)存儲和數(shù)據(jù)分析四個階段。

大數(shù)據(jù)最早出現(xiàn)在20世紀70年代到80年代,商業(yè)數(shù)據(jù)從MB上升至GB的數(shù)量級,為滿足數(shù)據(jù)存儲和數(shù)據(jù)查詢以完成商業(yè)數(shù)據(jù)分析和報告的需求,傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMs)應運而生。

20世紀80年代末,數(shù)字技術(shù)的盛行將數(shù)量級提升至TB,遠遠超過了單個計算機系統(tǒng)的存儲和處理能力,無共享并行數(shù)據(jù)庫利用節(jié)點劃分極大地優(yōu)化了數(shù)據(jù)處理性能,但其在擴展性、容錯性和對異構(gòu)環(huán)境的支持等方面仍存在欠缺。

20世紀90年代末進APB數(shù)量級的互聯(lián)網(wǎng)時代,web1.0的迅猛發(fā)展帶來了海量半結(jié)構(gòu)化和無結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù),而并行數(shù)據(jù)庫系統(tǒng)幾乎無法勝任對非結(jié)構(gòu)化和TB數(shù)量級的數(shù)據(jù)處理,為了應對web數(shù)據(jù)的挑戰(zhàn),Google提出MapReduce編程模型,實現(xiàn)了系統(tǒng)向上和向外擴展及海量數(shù)據(jù)的處理,而MapReduce較低的連接性能無法高效處理用戶創(chuàng)造內(nèi)容(UGC)和各類傳感器產(chǎn)生的大量混合數(shù)據(jù)結(jié)構(gòu),這要求在計算架構(gòu)和大規(guī)模數(shù)據(jù)處理機制上實現(xiàn)范式轉(zhuǎn)變,如NoSQL。

根據(jù)現(xiàn)有的發(fā)展趨勢,各業(yè)界存儲和分析數(shù)據(jù)將會達到EP的數(shù)量級,而且前還沒有與該數(shù)量級別相適應的數(shù)據(jù)技術(shù),簡單復用或集合各個數(shù)據(jù)庫系統(tǒng)的優(yōu)良性能,未能從本質(zhì)解決大數(shù)據(jù)的處理分析問題,可以考慮從數(shù)據(jù)產(chǎn)生的內(nèi)在機制、大數(shù)據(jù)間的關(guān)聯(lián)性以及數(shù)據(jù)背后的社會經(jīng)濟學機理等方面的進行研究。

4.大數(shù)據(jù)的挑戰(zhàn)

現(xiàn)有的數(shù)據(jù)處理和分析技術(shù)無法滿足大數(shù)據(jù)的需求,存儲能力的增長趕不上數(shù)據(jù)的爆炸式增長等都是大數(shù)據(jù)所面臨的技術(shù)挑戰(zhàn),該文作者認為以下幾個問題值得引起高度重視。

4.1大數(shù)據(jù)的去冗降噪技術(shù)

大數(shù)據(jù)一般是來自不同數(shù)據(jù)源的動態(tài)數(shù)據(jù)流,加上數(shù)據(jù)預處理階段的處理缺陷很容易產(chǎn)生多種形態(tài)的噪聲數(shù)據(jù)和數(shù)據(jù)冗余,從而導致傳輸開銷加大,存儲空間浪費以及數(shù)據(jù)分析負荷的加重。此外,過于嚴格的數(shù)據(jù)清洗可能會刪掉有價值的數(shù)據(jù),降低數(shù)據(jù)分析的準確性,科學合理的冗余檢測技術(shù)和數(shù)據(jù)壓縮技術(shù)值得進一步研究。

4.2數(shù)據(jù)共享與隱私保護間的矛盾

大數(shù)據(jù)是跨領(lǐng)域跨專業(yè)的交叉信息學科,只有建立良性的大數(shù)據(jù)生態(tài)環(huán)境消除各領(lǐng)域數(shù)據(jù)壁壘實現(xiàn)數(shù)據(jù)大共享才更可能形成真正的知識和智能,呈現(xiàn)利益價值最大化,而在一定程度上又暴露了用戶的隱私信息,由此引發(fā)的侵權(quán)和犯罪行為不容忽視。2006年Dwork提出了新的差分隱私方法,但這項技術(shù)離實際應用還很遠。

4.3數(shù)據(jù)處理系統(tǒng)

根據(jù)CAP理論,并行數(shù)據(jù)庫必然不能獲得較強的擴展性和系統(tǒng)可用性,而MapReduce和Hadoop在應用性能方面有待提高,還需要研發(fā)出能高效處理非數(shù)據(jù)結(jié)構(gòu)和半數(shù)據(jù)結(jié)構(gòu)的實用數(shù)據(jù)處理與分析系統(tǒng)。此外,以快速、高時效為特征的流處理和優(yōu)于處理復雜的數(shù)據(jù)存儲和管理的批處理以及二者的結(jié)合仍未真正實現(xiàn)大數(shù)據(jù)的實時處理,因此,目前還需要一個能夠滿足實際應用中不同業(yè)務需求和應用場景通用的大數(shù)據(jù)實時處理框架。

5.結(jié)語

該文介紹了大數(shù)據(jù)的基本概念和特征以及大數(shù)據(jù)在人類社會和科研等各個領(lǐng)域的重要意義,并簡要介紹了國內(nèi)外各界對大數(shù)據(jù)的高度重視和支持,最后就目前大數(shù)據(jù)處理和分析技術(shù)的現(xiàn)狀提出幾點值得引起重視的研究方向。機遇與挑戰(zhàn)并存,大數(shù)據(jù)研發(fā)工作任重道遠!

猜你喜歡
大數(shù)據(jù)
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
大兴区| 萨迦县| 卢龙县| 汉沽区| 玛纳斯县| 枣阳市| 丹凤县| 仪征市| 简阳市| 巴楚县| 大化| 万荣县| 浮梁县| 崇阳县| 莱芜市| 旺苍县| 富源县| 万山特区| 大英县| 盐边县| 彭山县| 祁东县| 兴宁市| 南澳县| 苏尼特右旗| 克什克腾旗| 海盐县| 外汇| 屯门区| 巴中市| 阿克陶县| 栾川县| 陈巴尔虎旗| 余庆县| 霸州市| 原阳县| 海南省| 方城县| 青岛市| 郓城县| 桐乡市|