許承亮
?
淺談大數(shù)據(jù)的發(fā)展現(xiàn)狀及應(yīng)用
許承亮
69010部隊,新疆 烏魯木齊 830000
在大數(shù)據(jù)時代,重視自動化和智能化運用前景,應(yīng)突出數(shù)據(jù)挖掘的在線分析處理(OLAP)和可視化編程的特點,創(chuàng)造性應(yīng)用統(tǒng)計理論開展統(tǒng)計工作,才能提高信息化社會知識經(jīng)濟時代的統(tǒng)計工作質(zhì)量,才能推動大統(tǒng)計的發(fā)展,才能提高信息分析重要組成部分的統(tǒng)計分析質(zhì)量。
大數(shù)據(jù);云計算;虛擬化
大數(shù)據(jù)被稱為是下一個社會發(fā)展階段的“金礦”和“石油”,具有催生社會變革的力量。那么,大數(shù)據(jù)究竟如何促進行業(yè)的變革,創(chuàng)造巨大的發(fā)展機遇?大數(shù)據(jù)在現(xiàn)實世界應(yīng)用的現(xiàn)狀又是怎樣?本文將就大數(shù)據(jù)的概念、大數(shù)據(jù)的技術(shù)基礎(chǔ)及在現(xiàn)實世界的應(yīng)用等作簡要探析。
大數(shù)據(jù)不僅僅意味著大量的數(shù)據(jù),還包含著更深層次的內(nèi)涵。
1.1 對數(shù)據(jù)和信息的進一步分析利用
傳統(tǒng)的統(tǒng)計和分析方法已經(jīng)不能滿足需求,需要利用復(fù)雜的模型和處理技術(shù)對大量的數(shù)據(jù)和信息進行深層次的挖掘和分析,從而提取出更具有價值的信息。
1.2 對信息資源的廣泛積累和規(guī)范管理
包括對現(xiàn)有內(nèi)部資源的整合和利用,以及對外部資源的積累和挖掘。隨著互聯(lián)網(wǎng)的快速發(fā)展,全球數(shù)據(jù)量也飛速增長,給數(shù)據(jù)存儲技術(shù)帶來巨大的挑戰(zhàn)。存儲成本、存儲性能和非結(jié)構(gòu)化數(shù)據(jù)的管理成為急需解決的問題。
對大數(shù)據(jù)集的分析處理技術(shù)。以往的分析多是使用計算機對單一數(shù)據(jù)的計算和統(tǒng)計,而大數(shù)據(jù)的分析不僅要實現(xiàn)對多元異構(gòu)數(shù)據(jù)分析的自動化,還需要能夠根據(jù)數(shù)據(jù)的特點和用戶的需求建立精準有效的分析模型,實現(xiàn)分析過程可視化,并產(chǎn)生時效性強、準確性高的結(jié)果。
由此可見“大數(shù)據(jù)”時代不僅僅是數(shù)據(jù)的爆炸性增長,還會帶來一系列的技術(shù)革新和工作方式的轉(zhuǎn)變,甚至對某些行業(yè)帶來巨大的影響和變化。
2.1 存儲管理技術(shù)
2000年前后,互聯(lián)網(wǎng)網(wǎng)頁爆發(fā)式增長,每天新增約700萬個網(wǎng)頁,到2000年底全球網(wǎng)頁數(shù)達到40億。谷歌公司為提供精準的搜索服務(wù),率先提出了一套以分布式為特征的全新技術(shù)體系,大大提高了并發(fā)訪問能力。[1]然而隨著應(yīng)用范圍不斷擴展,該系統(tǒng)還存在例如隨機訪問性能較低、海量小文件頻繁寫入能力較弱等不足。整體看來,未來大數(shù)據(jù)的存儲管理技術(shù)將進一步把關(guān)系型數(shù)據(jù)庫的操作便捷性特點和非關(guān)系型數(shù)據(jù)庫靈活性的特點結(jié)合起來,研發(fā)新的融合型存儲管理技術(shù)。
2.2 大數(shù)據(jù)并行計算技術(shù)
大數(shù)據(jù)的計算是數(shù)據(jù)密集型計算,對計算單元和存儲單元間的數(shù)據(jù)吞吐率要求極高。傳統(tǒng)的大型機計算系統(tǒng)不僅成本高,數(shù)據(jù)吞吐量也難以滿足大數(shù)據(jù)要求。谷歌在2004年公開的MapReduce分布式并行計算技術(shù),是新型分布式計算技術(shù)的代表。MapReduce 系統(tǒng)在成本和可擴展性上都有很大優(yōu)勢。Yahoo在此基礎(chǔ)上進行改進提出的S4系統(tǒng)、Twitter的Storm系統(tǒng)在實時廣告、微博等系統(tǒng)中已經(jīng)得到應(yīng)用。
2.3 大數(shù)據(jù)分析技術(shù)
美國McKinsey Global Institute在2011年5月發(fā)布了研究報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》。在大數(shù)據(jù)分析技術(shù)的闡述中,列舉了26項適用于眾多行業(yè)的分析技術(shù),包括A/B測試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機器學(xué)習(xí)、自然語言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識別、預(yù)測建模、回歸、情感分析、信號處理、空間分析、統(tǒng)計、監(jiān)督學(xué)習(xí)、模擬、時間薛烈分析、無監(jiān)督學(xué)習(xí)和可視化。
大數(shù)據(jù)應(yīng)用仍然處于初級發(fā)展階段。對大多數(shù)企業(yè),特別是傳統(tǒng)領(lǐng)域的行業(yè)而言,還未找到有效的應(yīng)用模式,大多數(shù)企業(yè)考慮的是投資和回報率的問題。隨著大數(shù)據(jù)技術(shù)不斷演進和引用持續(xù)深化,以數(shù)據(jù)為核心的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)正在加速構(gòu)建。
從實踐情況看,大數(shù)據(jù)產(chǎn)業(yè)生態(tài)中主要包括數(shù)據(jù)解決方案提供商、大數(shù)據(jù)處理服務(wù)提供商和數(shù)據(jù)資源提供商三個角色,分別向大數(shù)據(jù)的應(yīng)用者提供大數(shù)據(jù)服務(wù),解決方案和數(shù)據(jù)資源。數(shù)據(jù)成為重要的資源,大數(shù)據(jù)資源提供商業(yè)也應(yīng)運而生。商業(yè)化的數(shù)據(jù)交易活動催生了多方參加的數(shù)據(jù)交易市場。如微軟的Azure Data Marketplace、BlueKai、DataMarket等,主要提供地理空間、營銷數(shù)據(jù)和社交數(shù)據(jù)的交易服務(wù)。
美國在推動大數(shù)據(jù)研發(fā)和應(yīng)用上最為迅速和積極,強化頂層設(shè)計,力圖引領(lǐng)全球大數(shù)據(jù)發(fā)展。2012年美國政府推出“大數(shù)據(jù)行動計劃”,重點在基礎(chǔ)技術(shù)研究和公共部門應(yīng)用上加大投入。英國將大數(shù)據(jù)列為戰(zhàn)略性技術(shù),給予高度關(guān)注。2013年1月,英國政府為航天、醫(yī)藥等高新技術(shù)注資6億英鎊,其中1.89億用于大數(shù)據(jù)技術(shù)的研發(fā)。日本政府把大數(shù)據(jù)作為提升日本競爭力的關(guān)鍵,在新一輪IT振興計劃中把發(fā)展大數(shù)據(jù)作為國家戰(zhàn)略的重要內(nèi)容。澳大利亞、新加坡等過也非常重視大數(shù)據(jù)的發(fā)展,出臺政策并提供資金知識大數(shù)據(jù)的研發(fā)和應(yīng)用。我國于2014年在《政府工作報告》明確提出,“以創(chuàng)新支撐和引領(lǐng)經(jīng)濟結(jié)構(gòu)優(yōu)化升級;設(shè)立新興產(chǎn)業(yè)創(chuàng)業(yè)創(chuàng)新平臺”,在新一代移動通信,集成電路、大數(shù)據(jù)等方面趕超先進,引領(lǐng)未來產(chǎn)業(yè)發(fā)展。
本文就大數(shù)據(jù)的概念、大數(shù)據(jù)的技術(shù)發(fā)展現(xiàn)狀、大數(shù)據(jù)應(yīng)用發(fā)展以及大數(shù)據(jù)的政策環(huán)境進行了簡要闡述??偟膩碚f,大數(shù)據(jù)目前在國內(nèi)外的發(fā)展仍然處于探索階段,多數(shù)行業(yè)仍是在原有技術(shù)的基礎(chǔ)上增強了對海量數(shù)據(jù)的處理能力,大數(shù)據(jù)技術(shù)的創(chuàng)新應(yīng)用還不明顯,距離基于大數(shù)據(jù)的大規(guī)模應(yīng)用還有很長的路要走。然而大數(shù)據(jù)的發(fā)展毫無疑問仍然是一個趨勢,對大數(shù)據(jù)挖掘利用能夠發(fā)揮巨大的價值,能夠引領(lǐng)一系列的技術(shù)創(chuàng)新和產(chǎn)業(yè)革新,大數(shù)據(jù)的大規(guī)模應(yīng)用能給政府、企業(yè)帶來更大的競爭優(yōu)勢,并且將給人們的生活帶來巨大的便利,各個國家和各個行業(yè)對大數(shù)據(jù)研究和探索將持續(xù)進行下去。
[1]錢志森.淺析大數(shù)據(jù)的應(yīng)用及發(fā)展前景[J].信息通信,2014(5):168.
F49
A
1009-6434(2016)04-0052-01