卷首語
大數(shù)據(jù)應(yīng)用實(shí)踐給我們的啟示(上)
“大數(shù)據(jù)”成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯大約始于2009年。大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。三年多前,從一個(gè)在英國的親戚那里聽說他正在用大數(shù)據(jù)技術(shù)從事智能交通、智慧城市方面的應(yīng)用研究,才第一次感受到大數(shù)據(jù)被廣泛應(yīng)用時(shí)代的來臨。
大數(shù)據(jù)(Big data),或稱巨量資料,是個(gè)比較抽象的概念。隨著科學(xué)技術(shù)及互聯(lián)網(wǎng)的發(fā)展,推動(dòng)著大數(shù)據(jù)時(shí)代的來臨,各行各業(yè)每天都在產(chǎn)生數(shù)量巨大的數(shù)據(jù)碎片,數(shù)據(jù)計(jì)量單位已從Byte(簡稱“B”,1Byte = 8 bit)、KB(千103)、MB(兆106B)、GB(吉109B)、TB(太1012B)發(fā)展到PB(拍1015B)、EB(艾1018B)、ZB(澤1021B)、YB(堯1024B )甚至BB(1027B)、NB(1030B)、DB(1033B)來衡量。“大數(shù)據(jù)”的起始計(jì)量單位至少應(yīng)是P(100萬個(gè)G)、E(10億個(gè)G)或Z(1萬億個(gè)G)。國際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長為1.2ZB,2011年的數(shù)量更是高達(dá)1.82ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB。IBM的研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍??萍嫉倪M(jìn)步已經(jīng)使創(chuàng)造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務(wù)上的商業(yè)投資也增長了整整50%,達(dá)到了4000億美元。事實(shí)上,當(dāng)你仍然在把微博等社交平臺當(dāng)作抒情或者發(fā)議論的工具時(shí),華爾街的斂財(cái)高手們卻正在挖掘這些互聯(lián)網(wǎng)的“數(shù)據(jù)財(cái)富”,先人一步用其預(yù)判市場走勢,而且取得了不俗的收益。這么大的數(shù)據(jù)量是無法用人腦來推算、估測,或者用單臺的計(jì)算機(jī)進(jìn)行處理,必須采用分布式計(jì)算架構(gòu),依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫、云存儲(chǔ)和虛擬化技術(shù),因此,大數(shù)據(jù)的挖掘和處理必須用到云技術(shù)。
大數(shù)據(jù)的特點(diǎn)通??捎?V來表示:Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實(shí)性)。
從“大數(shù)據(jù)”的特征看,它首先必須永遠(yuǎn)是在線的,而且在線的還得是熱備份的,不是冷備份的,不是放在磁帶里的,是隨時(shí)能調(diào)用的;其次,“大數(shù)據(jù)”必須實(shí)時(shí)反應(yīng)。我們上淘寶輸入一個(gè)商品,后臺必須在10億件商品當(dāng)中,瞬間進(jìn)行呈現(xiàn)。如果要等一個(gè)小時(shí)才呈現(xiàn)話,我相信沒有人再上淘寶。十億件商品、幾百萬個(gè)賣家、一億的消費(fèi)者,瞬間完成匹配呈現(xiàn),這才叫大數(shù)據(jù);最后,大數(shù)據(jù)還有一個(gè)最大的特征,它不再是樣本思維,它是一個(gè)全體思維。以前一提到數(shù)據(jù),人們第一個(gè)反應(yīng)是樣本、抽樣,但是大數(shù)據(jù)不再抽樣,不再調(diào)用部分,我們要的是所有可能的數(shù)據(jù),它是一個(gè)全貌。其實(shí)叫“全數(shù)據(jù)”比叫“大數(shù)據(jù)”更準(zhǔn)確。
大數(shù)據(jù)最核心的價(jià)值就是在于對海量數(shù)據(jù)進(jìn)行存儲(chǔ)和分析。相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價(jià)、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。所以大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
大數(shù)據(jù)未來的方向不在于數(shù)據(jù)挖掘技術(shù)本身,而在于數(shù)據(jù)應(yīng)用的商業(yè)化,從數(shù)據(jù)背后挖掘盈利模式、嫁接整合數(shù)據(jù)和商業(yè)資源成為關(guān)鍵。對于企業(yè)而言,如何趕在競爭對手之前掌握和正確運(yùn)用大數(shù)據(jù)是一項(xiàng)挑戰(zhàn)。所以“大數(shù)據(jù)”是需要特殊的技術(shù)來支持的,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)等。