馬彬彬
摘要:近年來,隨著科學技術(shù)的迅猛發(fā)展,國家政府(航空航天,國防)、學術(shù)界(生物醫(yī)療工程,天文學,高能物理和光學研究)、產(chǎn)業(yè)界(互聯(lián)網(wǎng),金融,供應系統(tǒng))不斷產(chǎn)生海量數(shù)據(jù),人們早已進入網(wǎng)絡化的大數(shù)據(jù)(Big Data)時代。該文簡要概述了大數(shù)據(jù)發(fā)展的重要意義及國內(nèi)外現(xiàn)狀,并對大數(shù)據(jù)系統(tǒng)和其挑戰(zhàn)做了簡略分析。
關(guān)鍵詞:大數(shù)據(jù) 并行系統(tǒng) MapReduce 大數(shù)據(jù)系統(tǒng)
中圖分類號:TN919 文獻標識碼:A 文章編號:1672-3791(2016)04(a)-0142-02
1.大數(shù)據(jù)的重要意義
被稱為信息時代新“石油”的大數(shù)據(jù)隱含著巨大的社會、經(jīng)濟和科研價值,引起了政府部門、科研界及產(chǎn)業(yè)界的高度關(guān)注。
據(jù)國際數(shù)據(jù)公司IDC報道,2011年產(chǎn)生和復制的數(shù)據(jù)超過1.8ZB,是過去5年數(shù)據(jù)增長的9倍,并將以每兩年翻倍的速度增長,而這些數(shù)據(jù)約75%來自干與互聯(lián)網(wǎng),物聯(lián)網(wǎng)相關(guān)的人類社會,因而,對大數(shù)據(jù)的處理和解析將直接或間接地關(guān)系到國家的信息空間安全和社會穩(wěn)定甚至一個國家數(shù)據(jù)主權(quán)的競爭力。其次,大數(shù)據(jù)對各類產(chǎn)業(yè)結(jié)構(gòu)升級及新戰(zhàn)略的制定都有著不可忽視的影響,進入大數(shù)據(jù)時代以來,各類企業(yè)決策的制定和優(yōu)化越來越依賴大數(shù)據(jù)的處理和解析;計算機行業(yè)將自身的關(guān)注點由追求計算速度轉(zhuǎn)移到對大數(shù)據(jù)的處理機制,云計算也轉(zhuǎn)為分析即服務(Aaas)的Cloud 2.0時代;同時大數(shù)據(jù)的處理對生物、醫(yī)療、能源、金融和教育的發(fā)展應用有著重大意義如百度每天要處理大約幾十PB數(shù)據(jù),F(xiàn)acebook注冊用戶超過10億,每月上傳照片超過10億張,每天生成300TB以上的日志數(shù)據(jù)。因此,從海量數(shù)據(jù)中挖掘并提取出有價值的信息和知識顯得尤為重要。
2.大數(shù)據(jù)國內(nèi)外現(xiàn)狀
2009年至今,美國數(shù)據(jù)庫全面開放了40萬政府原始數(shù)據(jù)集,2012~3月,美國發(fā)布了“大數(shù)據(jù)研發(fā)計劃”涉及美國國家科學基金會(NSF)、國防部(DOD)、能源部(DOE)等6個聯(lián)邦部門和機構(gòu),共同提高處理分析共享海量數(shù)據(jù)所需的核心技術(shù),并加大數(shù)據(jù)應用技術(shù)人才的培養(yǎng)和供給。過去幾年歐盟投資1億多歐元將數(shù)據(jù)信息化基礎設施作為Horizon 2020計劃的優(yōu)先領(lǐng)域之一,2014年歐盟委員會呼吁各成員國家間大數(shù)據(jù)領(lǐng)域的公私合作,依托“地平線2020”科研計劃等促進大數(shù)據(jù)時代的發(fā)展。美國麻省理工大學計算科學與人工智能實驗室(CSAIL)建立大數(shù)據(jù)科學技術(shù)中心(ISTC)[2]致力于醫(yī)藥科學發(fā)明、行業(yè)計算的發(fā)展。
國內(nèi)各領(lǐng)域紛紛制定了大數(shù)據(jù)研究與應用的相關(guān)計劃,2012年科技部“十二五”部署了關(guān)于物聯(lián)網(wǎng)和云計算的相關(guān)專項,同年3月,國家“973計劃~863計劃”和國家自然科學基金等也分別制定了關(guān)于大數(shù)據(jù)的研究計劃和專項。與此同時,中國計算機學會和中國通信學會成立了大數(shù)據(jù)專家委員會,開展CCF大數(shù)據(jù)學術(shù)會議、大數(shù)據(jù)分析與管理國際研討會和大數(shù)據(jù)科學與工程國際學術(shù)研等學術(shù)活動促進大數(shù)據(jù)的應用研究,為其發(fā)展提供政策、資源和人才培養(yǎng)等方面強有力的支持。
3.大數(shù)據(jù)簡介
不同領(lǐng)域?qū)Υ髷?shù)據(jù)的定義和解讀至今未達成統(tǒng)一的認知,國際數(shù)據(jù)中心IDC,在2011年的報告中將大數(shù)據(jù)定義為“大數(shù)據(jù)技術(shù)描述了一個技術(shù)和體系的新時代,被設計于從大規(guī)模多樣性的數(shù)據(jù)中通過高速捕獲、發(fā)現(xiàn)和分析技術(shù)提取數(shù)據(jù)的價值”。大數(shù)據(jù)的四大顯著特征4V:容量(VOlume)、多樣性(variety)、速度(velocity)和價值(value)集中體現(xiàn)大數(shù)據(jù)體量浩大,模態(tài)繁多,數(shù)據(jù)生成更新快速,價值大而密度低的性質(zhì)。大數(shù)據(jù)系統(tǒng)主要分成數(shù)據(jù)生成、數(shù)據(jù)獲取、數(shù)據(jù)存儲和數(shù)據(jù)分析四個階段。
大數(shù)據(jù)最早出現(xiàn)在20世紀70年代到80年代,商業(yè)數(shù)據(jù)從MB上升至GB的數(shù)量級,為滿足數(shù)據(jù)存儲和數(shù)據(jù)查詢以完成商業(yè)數(shù)據(jù)分析和報告的需求,傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMs)應運而生。
20世紀80年代末,數(shù)字技術(shù)的盛行將數(shù)量級提升至TB,遠遠超過了單個計算機系統(tǒng)的存儲和處理能力,無共享并行數(shù)據(jù)庫利用節(jié)點劃分極大地優(yōu)化了數(shù)據(jù)處理性能,但其在擴展性、容錯性和對異構(gòu)環(huán)境的支持等方面仍存在欠缺。
20世紀90年代末進APB數(shù)量級的互聯(lián)網(wǎng)時代,web1.0的迅猛發(fā)展帶來了海量半結(jié)構(gòu)化和無結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù),而并行數(shù)據(jù)庫系統(tǒng)幾乎無法勝任對非結(jié)構(gòu)化和TB數(shù)量級的數(shù)據(jù)處理,為了應對web數(shù)據(jù)的挑戰(zhàn),Google提出MapReduce編程模型,實現(xiàn)了系統(tǒng)向上和向外擴展及海量數(shù)據(jù)的處理,而MapReduce較低的連接性能無法高效處理用戶創(chuàng)造內(nèi)容(UGC)和各類傳感器產(chǎn)生的大量混合數(shù)據(jù)結(jié)構(gòu),這要求在計算架構(gòu)和大規(guī)模數(shù)據(jù)處理機制上實現(xiàn)范式轉(zhuǎn)變,如NoSQL。
根據(jù)現(xiàn)有的發(fā)展趨勢,各業(yè)界存儲和分析數(shù)據(jù)將會達到EP的數(shù)量級,而且前還沒有與該數(shù)量級別相適應的數(shù)據(jù)技術(shù),簡單復用或集合各個數(shù)據(jù)庫系統(tǒng)的優(yōu)良性能,未能從本質(zhì)解決大數(shù)據(jù)的處理分析問題,可以考慮從數(shù)據(jù)產(chǎn)生的內(nèi)在機制、大數(shù)據(jù)間的關(guān)聯(lián)性以及數(shù)據(jù)背后的社會經(jīng)濟學機理等方面的進行研究。
4.大數(shù)據(jù)的挑戰(zhàn)
現(xiàn)有的數(shù)據(jù)處理和分析技術(shù)無法滿足大數(shù)據(jù)的需求,存儲能力的增長趕不上數(shù)據(jù)的爆炸式增長等都是大數(shù)據(jù)所面臨的技術(shù)挑戰(zhàn),該文作者認為以下幾個問題值得引起高度重視。
4.1大數(shù)據(jù)的去冗降噪技術(shù)
大數(shù)據(jù)一般是來自不同數(shù)據(jù)源的動態(tài)數(shù)據(jù)流,加上數(shù)據(jù)預處理階段的處理缺陷很容易產(chǎn)生多種形態(tài)的噪聲數(shù)據(jù)和數(shù)據(jù)冗余,從而導致傳輸開銷加大,存儲空間浪費以及數(shù)據(jù)分析負荷的加重。此外,過于嚴格的數(shù)據(jù)清洗可能會刪掉有價值的數(shù)據(jù),降低數(shù)據(jù)分析的準確性,科學合理的冗余檢測技術(shù)和數(shù)據(jù)壓縮技術(shù)值得進一步研究。
4.2數(shù)據(jù)共享與隱私保護間的矛盾
大數(shù)據(jù)是跨領(lǐng)域跨專業(yè)的交叉信息學科,只有建立良性的大數(shù)據(jù)生態(tài)環(huán)境消除各領(lǐng)域數(shù)據(jù)壁壘實現(xiàn)數(shù)據(jù)大共享才更可能形成真正的知識和智能,呈現(xiàn)利益價值最大化,而在一定程度上又暴露了用戶的隱私信息,由此引發(fā)的侵權(quán)和犯罪行為不容忽視。2006年Dwork提出了新的差分隱私方法,但這項技術(shù)離實際應用還很遠。
4.3數(shù)據(jù)處理系統(tǒng)
根據(jù)CAP理論,并行數(shù)據(jù)庫必然不能獲得較強的擴展性和系統(tǒng)可用性,而MapReduce和Hadoop在應用性能方面有待提高,還需要研發(fā)出能高效處理非數(shù)據(jù)結(jié)構(gòu)和半數(shù)據(jù)結(jié)構(gòu)的實用數(shù)據(jù)處理與分析系統(tǒng)。此外,以快速、高時效為特征的流處理和優(yōu)于處理復雜的數(shù)據(jù)存儲和管理的批處理以及二者的結(jié)合仍未真正實現(xiàn)大數(shù)據(jù)的實時處理,因此,目前還需要一個能夠滿足實際應用中不同業(yè)務需求和應用場景通用的大數(shù)據(jù)實時處理框架。
5.結(jié)語
該文介紹了大數(shù)據(jù)的基本概念和特征以及大數(shù)據(jù)在人類社會和科研等各個領(lǐng)域的重要意義,并簡要介紹了國內(nèi)外各界對大數(shù)據(jù)的高度重視和支持,最后就目前大數(shù)據(jù)處理和分析技術(shù)的現(xiàn)狀提出幾點值得引起重視的研究方向。機遇與挑戰(zhàn)并存,大數(shù)據(jù)研發(fā)工作任重道遠!