摘要:大數(shù)據(jù)時(shí)代的到來引起了業(yè)界和學(xué)界的廣泛關(guān)注,大量研究成果不斷涌現(xiàn)。對大數(shù)據(jù)的概念和特征進(jìn)行了論述,對大數(shù)據(jù)的研究熱點(diǎn)和研究趨勢進(jìn)行了深入的分析,探討了大數(shù)據(jù)時(shí)代的應(yīng)對策略。
關(guān)鍵詞:大數(shù)據(jù);研究熱點(diǎn);研究趨勢;應(yīng)對策略
DOIDOI:10.11907/rjdk.151665
中圖分類號:TP3-0
文獻(xiàn)標(biāo)識碼:A 文章編號文章編號:16727800(2015)008000102
基金項(xiàng)目基金項(xiàng)目:
作者簡介作者簡介:曾雷(1992-),男,安徽安慶人,重慶交通大學(xué)信息科學(xué)與工程學(xué)院碩士研究生,研究方向?yàn)榇髷?shù)據(jù)集處理。
0 引言
21世紀(jì),隨著以博客、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等為代表的新型社交網(wǎng)絡(luò)的快速發(fā)展,以及平板電腦、智能手機(jī)等新型移動設(shè)備[1]的快速普及,數(shù)據(jù)一直呈爆炸式增長,世界已經(jīng)進(jìn)入了數(shù)據(jù)大爆炸時(shí)代。
大數(shù)據(jù)不僅復(fù)雜多樣,而且具有潛在價(jià)值,對數(shù)據(jù)進(jìn)行收集最根本的目的是從中提取出有價(jià)值的信息,可以根據(jù)需求不同將其運(yùn)用到生物、醫(yī)療、經(jīng)濟(jì)、科學(xué)、環(huán)保等眾多領(lǐng)域。大數(shù)據(jù)作為一種戰(zhàn)略性資源,對科技進(jìn)步和社會發(fā)展具有重要意義。
1 大數(shù)據(jù)概念
大數(shù)據(jù)本身是一個(gè)很抽象的概念。最早提出“大數(shù)據(jù)”概念的是全球知名咨詢公司麥肯錫[2],該公司在《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》報(bào)告中稱:“數(shù)據(jù)作為重要的生產(chǎn)因素已經(jīng)滲透到當(dāng)今的每一個(gè)行業(yè),對海量數(shù)據(jù)的挖掘效率和運(yùn)用效率將直接影響著新一輪生產(chǎn)力的增長?!?,其給出的定義簡單明了:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。2008年《Science》雜志出版的??薪o出的定義是:“代表著人類認(rèn)知過程的進(jìn)步,數(shù)據(jù)集的規(guī)模是無法在可容忍的時(shí)間內(nèi)用目前的技術(shù)、方法和理論去獲取、管理、處理的數(shù)據(jù)?!本S基百科[3]給出的定義是:“大數(shù)據(jù)是指利用常規(guī)軟件獲取、管理和處理數(shù)據(jù)所耗費(fèi)的時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集?!盙artner公司結(jié)合大數(shù)據(jù)的特點(diǎn)給出的定義:“大數(shù)據(jù)是種類繁多、高容量、高生成速率的信息價(jià)值,同時(shí)需要新的處理形式去確保判斷的作出、洞察力的發(fā)現(xiàn)和處理的優(yōu)化”[4]。其中比較有代表性的是5V定義[5],即大數(shù)據(jù)的5個(gè)特征,分別是:數(shù)據(jù)體量(Volume)巨大,數(shù)據(jù)級別從TB級別躍升到PB級別;數(shù)據(jù)類別(Variety)大,大數(shù)據(jù)的來源復(fù)雜多樣;處理速度(Velocity)快,需要實(shí)時(shí)地分析數(shù)據(jù);數(shù)據(jù)真實(shí)性(Veracity),大數(shù)據(jù)中的內(nèi)容與真實(shí)世界息息相關(guān);價(jià)值密度低,商業(yè)價(jià)值(Value)高,通過分析數(shù)據(jù)可獲得很高的商業(yè)價(jià)值。
目前,對大數(shù)據(jù)的定義尚未完全達(dá)成共識,對大數(shù)據(jù)的定義基本是從大數(shù)據(jù)的特征為出發(fā)點(diǎn),通過這些特征的闡述和歸納給出定義,這與云計(jì)算概念剛被提出來的情況是極其相似的。所以,在研究大數(shù)據(jù)的同時(shí),不需要過多地拘泥于具體的定義,可以對其不斷地分析研究,逐漸補(bǔ)充和完善大數(shù)據(jù)的定義。
2 大數(shù)據(jù)研究熱點(diǎn)及研究趨勢
2.1 大數(shù)據(jù)研究熱點(diǎn)
(1)大數(shù)據(jù)起源、概念和特點(diǎn)。1997年IEEE第8次會議上,美國NASA研究員Michael Cox將可視化領(lǐng)域中設(shè)備存儲能力的局限稱為大數(shù)據(jù)問題,“Big Data”這一術(shù)語第一次被提出并廣泛應(yīng)用于研究。大數(shù)據(jù)的概念和特點(diǎn)在上文中詳細(xì)探討過,這里不再贅述。
(2)生物信息學(xué)。生物信息學(xué)(Bioinformatics)是1991年美國學(xué)者Lim[6]首次提出的。生物信息學(xué)是一門集生物信息的獲取、處理、儲存、分析和解釋等的交叉學(xué)科,簡單來說,生物信息學(xué)就是以核酸、蛋白質(zhì)等生物分子數(shù)據(jù)庫作為主要研究對象,以數(shù)學(xué)和計(jì)算機(jī)為主要研究方法,對生物學(xué)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行存儲、管理、注釋和加工,使之成為具有生物學(xué)價(jià)值的信息。伴隨著大數(shù)據(jù)概念的出現(xiàn),生物信息學(xué)滿足大數(shù)據(jù)的5V特征,因此引入大數(shù)據(jù)作為研究技術(shù)將是當(dāng)下生物信息學(xué)的主要研究方向,必然會出現(xiàn)很多研究成果,這些成果也將會帶來重大的社會價(jià)值。
(3)云計(jì)算。計(jì)算機(jī)先驅(qū)John McCarthy在1961年預(yù)言:“未來的計(jì)算資源會像公共設(shè)施一樣被使用?!痹趲资甑陌l(fā)展里,集群計(jì)算、網(wǎng)格計(jì)算等技術(shù)被陸續(xù)提出,云計(jì)算就是在這些技術(shù)基礎(chǔ)上發(fā)展起來的。云計(jì)算具有5個(gè)特點(diǎn):①彈性服務(wù):服務(wù)的規(guī)模根據(jù)業(yè)務(wù)負(fù)載動態(tài)變化;②資源池化:以資源池的方式統(tǒng)一管理資源;③按需服務(wù):根據(jù)用戶的需求自動分配資源;④服務(wù)計(jì)費(fèi):根據(jù)用戶資源的使用量進(jìn)行計(jì)費(fèi);⑤泛在介入:用戶可以利用各種終端設(shè)備隨時(shí)隨地訪問云服務(wù)。不難看出,云計(jì)算是分布式計(jì)算、互聯(lián)網(wǎng)和大規(guī)模資源管理技術(shù)融合與發(fā)展的產(chǎn)物,云計(jì)算作為一種新興的信息技術(shù)發(fā)展迅猛。
(4)MapReduce模型和Hadoop開源計(jì)算平臺。
MapReduce是2004年Google提出的一種并行編程模型和任務(wù)調(diào)度模型,其中“Map”和“Reduce”的概念和主要思想是借鑒函數(shù)編程語言和矢量編程語言,Map函數(shù)負(fù)責(zé)分塊數(shù)據(jù)處理,Reduce函數(shù)負(fù)責(zé)對分塊函數(shù)的中間結(jié)果進(jìn)行歸約,綜合以上兩種函數(shù)的功能,MapReduce通過對問題進(jìn)行分割,使分割后的Map運(yùn)算高度并行,再將Map后的結(jié)果進(jìn)行Reduce,得到最終結(jié)果。
Hadoop是由Apache開發(fā)的一種基于批處理技術(shù)的開源計(jì)算平臺,以Java語言編寫,在Linux操作系統(tǒng)上運(yùn)行,核心組件包括HDFS(Hadoop Distribute File System)和Hadoop MapReduce,具有硬件低廉、高容錯性和高傳輸性等優(yōu)點(diǎn), Hadoop已經(jīng)成為處理大數(shù)據(jù)的主要手段。
(5)可視化。網(wǎng)絡(luò)傳輸過程中的數(shù)字化和大量的計(jì)算機(jī)仿真產(chǎn)生了海量數(shù)據(jù),這些海量數(shù)據(jù)規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超出了人類分析處理的能力范圍,為解決這一問題,可視化應(yīng)運(yùn)而生??梢暬侵赴褦?shù)據(jù)、信息和知識轉(zhuǎn)化為可視的表現(xiàn)形式,以達(dá)到對數(shù)據(jù)更深入認(rèn)識的目的。可視化技術(shù)主要包括數(shù)據(jù)可視化(Data Visualization)、科學(xué)計(jì)算可視化(Visualization in Scientific Computing)、信息可視化(Information Visualization)和知識可視化(Knowledge Visualization)??梢暬瘧?yīng)用范圍很廣,在數(shù)據(jù)挖掘、復(fù)雜網(wǎng)絡(luò)、物流、農(nóng)業(yè)、音樂方面都有著非常重要的應(yīng)用。
2.2 大數(shù)據(jù)研究趨勢
大數(shù)據(jù)幾乎存在于所有的社會領(lǐng)域,已經(jīng)成為一個(gè)多學(xué)科交叉融合的熱點(diǎn)研究領(lǐng)域,背后隱藏著復(fù)雜的新理念和應(yīng)用價(jià)值,所以對大數(shù)據(jù)的挖掘仍有很大的開拓空間。通過不斷研究和抽象,大數(shù)據(jù)的共性問題已經(jīng)逐漸清晰明朗,其研究趨勢有以下3方面:
(1)技術(shù)研究。未來的難點(diǎn)是如何系統(tǒng)科學(xué)地搭建和完善大數(shù)據(jù)相關(guān)理論、方法、模型以及探尋指導(dǎo)實(shí)踐應(yīng)用。未來一段時(shí)期里大數(shù)據(jù)的主要研究方向?qū)⑹谴髷?shù)據(jù)的獲取存儲、轉(zhuǎn)換融合、信息安全等問題。
(2)社會科學(xué)應(yīng)用研究。目前大數(shù)據(jù)的相關(guān)成果已在政治、經(jīng)濟(jì)、社會和科學(xué)研究等領(lǐng)域得到應(yīng)用,大數(shù)據(jù)的技術(shù)發(fā)展一方面使得大量產(chǎn)業(yè)和部門改革,另一方面也帶來了商業(yè)模式的發(fā)展創(chuàng)新。未來大數(shù)據(jù)的應(yīng)用將更加廣泛,如社交媒體言論實(shí)時(shí)監(jiān)管、自然災(zāi)害預(yù)測、國家安全保護(hù)等。
(3)多領(lǐng)域研究交融。目前大數(shù)據(jù)研究的立足點(diǎn)主要是信息科學(xué),隨著大數(shù)據(jù)技術(shù)發(fā)展,其應(yīng)用范圍將輻射到各個(gè)學(xué)科領(lǐng)域,學(xué)科間的交互滲透將是大勢所趨,將推動不同領(lǐng)域的融會貫通。
3 大數(shù)據(jù)時(shí)代應(yīng)對策略
大數(shù)據(jù)已經(jīng)掀起一股新的信息浪潮,下面從3個(gè)維度探討大數(shù)據(jù)的應(yīng)對策略。
(1)將大數(shù)據(jù)提升到國家戰(zhàn)略層面。政府部門要帶頭進(jìn)行大數(shù)據(jù)專項(xiàng)研究,從國家層面制定出大數(shù)據(jù)發(fā)展的戰(zhàn)略方向;要在立法層面予以支持,積極扶持大數(shù)據(jù)基礎(chǔ)產(chǎn)業(yè)的發(fā)展;鼓勵民間投資,加大大數(shù)據(jù)產(chǎn)業(yè)的研發(fā)力度。
(2)注重大數(shù)據(jù)的基礎(chǔ)科學(xué)研究。建立大數(shù)據(jù)科學(xué)研究平臺,成立國家級大數(shù)據(jù)共享聯(lián)盟,產(chǎn)業(yè)界、科技界和政府部門都積極參與進(jìn)來,為學(xué)術(shù)研究提供基本的數(shù)據(jù)資源,為大數(shù)據(jù)應(yīng)用提供理論支持和技術(shù)支持。
(3)人才是第一生產(chǎn)力,應(yīng)當(dāng)注重人才培養(yǎng)。中國雖然是人才大國,但大數(shù)據(jù)方面的創(chuàng)新型人才屬于稀缺資源。 因此,優(yōu)化人才培養(yǎng)、合理布局學(xué)科建設(shè)等問題顯得尤為重要。
4 結(jié)語
大數(shù)據(jù)已經(jīng)滲透到社會的各個(gè)領(lǐng)域,只有充分認(rèn)識到大數(shù)據(jù)具備的影響力,不斷創(chuàng)新和發(fā)展,才能立于不敗之地。大數(shù)據(jù)研究尚處于一個(gè)初步的階段,很多基礎(chǔ)性研究有待展開,因此,大數(shù)據(jù)的研究過程是一個(gè)漫長的過程,期望本文能對同行學(xué)者有一定的參考價(jià)值。
參考文獻(xiàn):
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(50):146169.
[2] 方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J].南京信息工程大學(xué)學(xué)報(bào),2014(23):315.
[3] Big data [EB/OL].[20121002]. http://en.wikipedia.org/wiki/Big_data.
[4] 王珊,王會舉,覃雄派.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011(34):17411752.
[5] 劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2014(48):212223.
[6] C R CANTOR,H A LIM.Electrophoresis,supercomputing and the human genomes[J].World Scientific Publishing Co,1991.
責(zé)任編輯(責(zé)任編輯:杜能鋼)