趙蘇陽,李艷軍,錢小燕,曹愈遠,許振騰,喬磊,汪雷
(南京航空航天大學民航學院,南京 210000)
大數(shù)據(jù)基本概念、技術與挑戰(zhàn)
趙蘇陽,李艷軍,錢小燕,曹愈遠,許振騰,喬磊,汪雷
(南京航空航天大學民航學院,南京210000)
隨著云計算、物聯(lián)網(wǎng)、移動互連、社交媒體等新興信息技術和應用模式的快速發(fā)展,信息技術與人類世界政治、經濟、軍事、科研、生活等方方面面不斷交叉融合,全球數(shù)據(jù)量急劇增加,推動人類社會邁入大數(shù)據(jù)時代。大數(shù)據(jù)時代的到來迅速引起了科技界和企業(yè)界甚至世界各國政府關注。2008年Nature推出了Big Data專刊、2008年Computing Community Consortium發(fā)表了題為 “Big Data Computing;Creating Revolutionary Breakthrough in Commerce,Science,and Society”的報告、2012年奧巴馬政府公布“大數(shù)據(jù)研發(fā)計劃”、2013年Science推出了“Dealing with Data”,2012年我國學術界亦在北京大學召開了首屆中國大數(shù)據(jù)應用論壇。這些報告計劃以及論壇都是為了討論大數(shù)據(jù)的應用價值以及大數(shù)據(jù)可能面對的若干挑戰(zhàn)。
1.1基本概念
大數(shù)據(jù)本身并不是一個具體的概念,顧名思義,它是指數(shù)據(jù)的規(guī)模非常大,但是以往也有表示數(shù)據(jù)規(guī)模很大的名詞如“大規(guī)模數(shù)據(jù)”、“超大規(guī)模數(shù)據(jù)”等。麥肯錫第一次對大數(shù)據(jù)作出了定義:大數(shù)據(jù)是指數(shù)據(jù)規(guī)模大到傳統(tǒng)的數(shù)據(jù)庫軟件工具已經無法采集、存儲、管理和分析的數(shù)據(jù)集。也可以這樣理解:大數(shù)據(jù)是指利用現(xiàn)有理論、方法、技術和工具難以在短時間內完成分析計算、整體呈現(xiàn)高價值的海量復雜數(shù)據(jù)集合。
1.2基本特征
大數(shù)據(jù)的特征一般可以用“5V”來表示:Volume、Variety、Velocity、Value以及Virtual。具體的特征描述見表1[1~2]。
表1 大數(shù)據(jù)的主要特征
1.3應用
谷歌的首席經濟學家Hal Varian說過:數(shù)據(jù)是可以廣泛應用的只是缺乏從中提取知識的能力。收集數(shù)據(jù)的最終目的是根據(jù)具體的需要從數(shù)據(jù)中提取有用的知識。并將這些知識應用到具體的領域中,當然,不同領域的數(shù)據(jù)應用有其各自不同的特點。表2是某些具有代表性的大數(shù)據(jù)應用及相關的比較[3]。
表2 典型大數(shù)據(jù)應用之間的比較
維克托邁爾在《大數(shù)據(jù)時代》一書中指出了大數(shù)據(jù)時代處理數(shù)據(jù)理念的三大轉變:要全體不要抽樣、要效率不要絕對精確、要相關不要因果。目前,大數(shù)據(jù)的處理模式主要有靜態(tài)批量處理(batch processing)和實時的流處理(stream processing)。
2.1批處理
批處理首先要對數(shù)據(jù)進行存儲,然后再對這些靜態(tài)數(shù)據(jù)進行集中的處理。如:互聯(lián)網(wǎng)中的社交網(wǎng)絡產生的大量的文本、圖片、音視頻等不同形式的數(shù)據(jù),對這些數(shù)據(jù)進行批量處理分析,可以發(fā)現(xiàn)人與人之間隱含的關系;一些大型搜索引擎的廣告分析系統(tǒng),通過對廣告相關數(shù)據(jù)的批量處理可以提高廣告的投放效果來增加點擊量。圖1是大數(shù)據(jù)批處理模型。
2006年Hadoop成為了典型的大數(shù)據(jù)批量處理架構,由HDFS分布式文件系統(tǒng)負責靜態(tài)數(shù)據(jù)的存儲,并通過MapReduce將計算邏輯分配到各數(shù)據(jù)節(jié)點進行數(shù)據(jù)計算和價值發(fā)現(xiàn)。圖2是一個完整的MapReduceguoc[8]。
圖1 大數(shù)據(jù)批處理模型
2.2流處理
流處理的理念是數(shù)據(jù)的價值會隨著時間的流逝而不斷減小。新的數(shù)據(jù)出現(xiàn)時刻和順序也不能確定,所以,對于流式數(shù)據(jù)不再進行存儲,而是直接進行數(shù)據(jù)的實時計算。
圖2 MapReduce執(zhí)行流程圖
2010年,谷歌推出了Dremel,引領業(yè)界向實時數(shù)據(jù)處理邁進。流式處理典型的應用有(1)數(shù)據(jù)采集應用,(2)金融銀行業(yè)的應用。如推特的Storm、Yahoo的S4就是典型流式的數(shù)據(jù)計算架構,數(shù)據(jù)在任務中被計算,并輸出有價值的信息。圖3是流處理中基本的數(shù)據(jù)流模型。圖4為數(shù)據(jù)流計算模型。
圖3 數(shù)據(jù)流的基本模型
圖4 大數(shù)據(jù)流式計算
總之,批量數(shù)據(jù)通常具有3個特征:數(shù)據(jù)體積大、數(shù)據(jù)精確度高以及數(shù)據(jù)價值密度低。流式數(shù)據(jù)的特征是:數(shù)據(jù)連續(xù)不斷、出現(xiàn)時間不確定、格式復雜,且對應的處理工具需具備高性能、實時,以及可擴展等特性[4,10]。
如今,有很多工具被用來進行大數(shù)據(jù)的分析,專業(yè)或非專業(yè),昂貴或免費開源。2012年,KDNuggets針對專業(yè)人員進行了一份調查報告:“一年中在實際項目中用到的大數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)分析軟件”。這里簡要介紹使用頻率最高的前三種。
(1)R(30%)
R是開源編程語言,它可以用來進行數(shù)據(jù)挖掘/分析和可視化。在R軟件環(huán)境中可以調用C、C++和Fortran編寫的代碼。專業(yè)用戶也可以通過C語言直接調用R對象,R之所以有這么多的用戶另一個重要原因是R語言是開源免費的。在KDNuggets的另一份調查報告 “數(shù)據(jù)挖掘/分析中所使用的設計語言”顯示在2012年R語言擊敗了SQL和Java成為榜首。
(2)Excel(29%)
Excel是Office的核心組件之一。它提供了強大的數(shù)據(jù)處理、統(tǒng)計分析等功能。
(3)Rapid-I Rapidminer(26%)
Rapidminer是用于數(shù)據(jù)挖掘、機器學習、預測分析的開源軟件。Rapidminer提供的數(shù)據(jù)挖掘和機器學習程序包括:數(shù)據(jù)加載和轉換(ETL)、數(shù)據(jù)處理和可視化、建模、評估和部署。Rapidminer是用Java編寫的,還可以與R語言進行協(xié)同工作[5]。
當今,雖然大數(shù)據(jù)受到社會各界的高度重視,但是無論是在大數(shù)據(jù)的底層處理系統(tǒng)以及高層的分析手段都存在很多問題和挑戰(zhàn)。
(1)數(shù)據(jù)復雜
大數(shù)據(jù)的出現(xiàn),使人們在處理很多問題的時候可以獲得大量樣本,但這也直接使得數(shù)據(jù)類型模式多樣化、相互之間的關系繁雜、價值小密度大。目前,人們對于大數(shù)據(jù)復雜性的內在機理及背后的物理意義缺乏理解,極大地制約了人們對大數(shù)據(jù)高效計算模型和方法的設計能力。
解決大數(shù)據(jù)復雜的問題需:①研究大數(shù)據(jù)復雜性規(guī)律;②研究在多模態(tài)關聯(lián)關系下的數(shù)據(jù)分布理論和模型。
(2)計算復雜
大數(shù)據(jù)多源異構、規(guī)模巨大、快速多變、樣本量充足,內在關聯(lián)關系密切而復雜,價值度分布極不均衡等特性對研究大數(shù)據(jù)的可計算性及建立新型計算范式提供了機遇,同時也提出了挑戰(zhàn)。表3是科學發(fā)現(xiàn)的四種范式。
解決大數(shù)據(jù)計算復雜的問題需:①著眼大數(shù)據(jù)的全生命周期,研究以數(shù)據(jù)為中心的計算模式;②研究適應大數(shù)據(jù)的非確定性算法理論;③研究基于自舉和采樣的局部計算和近似方法;④研究按需約簡的方法。
(3)系統(tǒng)復雜
對于規(guī)模巨大、結構復雜、價值密度小的大數(shù)據(jù),計算復雜度高、周期長、實時性要求高是大數(shù)據(jù)處理的主要難點。這些難點對大數(shù)據(jù)處理系統(tǒng)的運行效率及單位能耗提出了苛刻要求,要求大數(shù)據(jù)處理系統(tǒng)必須具有高效能的特點。
表3 科學發(fā)現(xiàn)的4種范式
表4 各類型數(shù)據(jù)處理的代表性系統(tǒng)
解決系統(tǒng)復雜問題需:①結合大數(shù)據(jù)價值密度小的特點,針對大數(shù)據(jù)分布存儲和處理的系統(tǒng)架構,以大數(shù)據(jù)感知、存儲與計算融合為大數(shù)據(jù)的計算準則,在性能評價體系、分布式系統(tǒng)架構、流式數(shù)據(jù)計算框架、在線數(shù)據(jù)處理方法等方面展開基礎性研究,并對作為重要驗證工具的基準測試程序及系統(tǒng)性能預測方法進行研究,通過設計、實現(xiàn)與驗證的迭代完善,最終實現(xiàn)大數(shù)據(jù)計算系統(tǒng)的數(shù)據(jù)獲取高吞吐、數(shù)據(jù)存儲低能耗和數(shù)據(jù)計算高效率[6~7]。
大數(shù)據(jù)的時代已經到來,數(shù)據(jù)已經從傳統(tǒng)的處理對象轉變?yōu)橐环N基礎資源,正確利用大數(shù)據(jù)必將給人們生活帶來便利,促進我國未來的科技與經濟發(fā)展。但大數(shù)據(jù)規(guī)模巨大,結構復雜以及價值密度疏等特點也給大數(shù)據(jù)的正確利用和廣泛應用帶來了不少問題與挑戰(zhàn)。解決好這些問題與挑戰(zhàn),必須先要對大數(shù)據(jù)的基本概念、基本特征、計算方式、分析工具進行深度的剖析和理解。IDC預計到2020年中國產生的數(shù)據(jù)將占全球21%,而我國對于大數(shù)據(jù)方面的研究已經落后于美國等國家,如何開發(fā)、利用大數(shù)據(jù)這一重要資源,是我國當前亟需解決的問題[9]。
[1]陳美.大數(shù)據(jù)在公共交通中的應用.圖書與情報,1003-6938(2012)06-0022-07
[2]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述.系統(tǒng)仿真學報,1004-731X(2013)S-0142-05
[3]孟小峰.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn).計算機研究與發(fā)展,2013,50(1):146~169
[4]孫大為,張廣艷,鄭緯民.大數(shù)據(jù)流式計算:關鍵技術及系統(tǒng)實例.軟件學報,2014,25(4):839~862
[5]張引,陳敏,廖小飛.大數(shù)據(jù)應用的現(xiàn)狀與展望.計算機研究與發(fā)展,2013:16~23
[6]程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術綜述.軟件學報,2014,25(9):1889~1908
[7]The Economist.Data,Data,Everywhere-A Special Report on Managing Information[EB/OL].http://www.economist.com/node/15557443 [2012-10-02]
[8]Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C].Proc of OSDI 2004.Berkeley,CA:USENIX Association,2004:3:1~150
[9]王珊,王會舉.架構大數(shù)據(jù):挑戰(zhàn)現(xiàn)狀與展望.計算機學報
[10]李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性.計算機研究與發(fā)展,2013,50(6):1147~1162
趙蘇陽,男,江蘇揚州人,碩士研究生,研究方向為交通信息工程及控制
李艷軍(1968-),男,南京人,博士,教授,研究方向為載運技術與工程
錢小燕(1979-),女,南京人,博士,副教授,研究方向為交通信息工程與控制
曹愈遠(1983-),男,南京人,碩士,講師,研究方向為載運技術與工程
許振騰(1989-),男,山東人,碩士在讀,研究方向為載運技術與工程
喬磊(1990-),男,江蘇人,碩士在讀,研究方向為載運技術與工程
汪雷(1990-),男,湖南人,碩士在讀,研究方向為交通運輸與工程
Big Data;Basic Concept;Processing Mode;Problems and Challenges
Basic Concept,Technology and Challenge of Big Data
ZHAO Su-yang,LI Yan-jun,QIAN Xiao-yan,CAO Yu-yuan,XU Zhen-teng,QIAO Lei,WANG Lei
(Nanjing University of Aeronautics&Astronautics,Nanjing 210000)
1007-1423(2015)08-0051-05
10.3969/j.issn.1007-1423.2015.08.012
2015-01-15
2015-02-11
隨著云計算、物聯(lián)網(wǎng)、社交網(wǎng)絡的發(fā)展,數(shù)據(jù)類型和數(shù)量呈現(xiàn)出爆炸式的增長,大數(shù)據(jù)時代正式到來。人們發(fā)現(xiàn)數(shù)據(jù)可以被當做一種基礎性的資源而不僅僅只是簡單的處理對象。大數(shù)據(jù)的數(shù)據(jù)復雜性、計算復雜性以及數(shù)據(jù)處理系統(tǒng)的復雜性都給大數(shù)據(jù)的計算及應用帶來極大的挑戰(zhàn)。對大數(shù)據(jù)的基本概念、特征、處理模式以及技術難點進行剖析研究都有助于更好地利用挖掘大數(shù)據(jù)的潛能和優(yōu)勢。
大數(shù)據(jù);基本概念;處理模式;問題與挑戰(zhàn)
With the development of cloud computing,Internet of things,social networks,the number and types of data showing explosive growth,the big data era is coming.People found that the data can be used as a fundamental resource and not just a simple processing object.The complexity of data complexity,large data calculation complexity and data processing systems are a great challenge for calculation and application of large data.Analysing the basic concept,features of the data processing mode and technical difficulties is helpful to better tap the potential and advantages of large data.