詹國樞
《大數(shù)據(jù)時(shí)代》一書風(fēng)靡全球已有時(shí)日。大數(shù)據(jù)(Big Data),又稱“巨量資料”,是指其數(shù)據(jù)規(guī)模極其巨大,以致很難通過一般軟件工具加以擷取、管理、處理并整理成為有用資訊。按業(yè)界說法,大數(shù)據(jù)特點(diǎn)為4個(gè)“V”:即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。
大量、高速——到了什么程度呢?一個(gè)移動(dòng)硬盤,容量大約為10個(gè)G。2001年,全球互聯(lián)網(wǎng)總流量達(dá)到1EB(即10億個(gè)G);2004年,一個(gè)月即達(dá)到1EB;2007年,達(dá)到1EB只需一周;而到2013年,僅需一天!換句話說,全球互聯(lián)網(wǎng)一天產(chǎn)生的信息量,可以刻滿1.88億張DVD光盤。
多樣、價(jià)值——如此大量、高速的數(shù)據(jù),其多樣性毋庸置疑,小到個(gè)人與個(gè)人的數(shù)分鐘通話,大到公司與公司的巨額交易,雖然全是些風(fēng)馬牛不相及的數(shù)字,但經(jīng)過科學(xué)的收集、歸類、整理,再加以分析、排列、組合,就會(huì)神奇地演變成全新的極其有用的各種資訊。原始數(shù)據(jù)越大,處理難度自然越大,但處理后其應(yīng)用價(jià)值亦越大。大數(shù)據(jù)這種無中生有、化腐朽為神奇的增值功能,令人神往。
正因此,世界經(jīng)濟(jì)論壇報(bào)告將大數(shù)據(jù)認(rèn)定為新世紀(jì)的“新財(cái)富”,稱其價(jià)值“堪比石油”。也正因此,發(fā)達(dá)國家紛紛將開發(fā)利用大數(shù)據(jù)作為奪取新一輪競爭制高點(diǎn)的重要目標(biāo)。美國政府于2012年3月發(fā)布了《大數(shù)據(jù)研究與發(fā)展倡議》報(bào)告,這是繼1993年宣布“信息高速公路”之后又一重大部署。歐盟及日本等國也在大數(shù)據(jù)研發(fā)方面投入巨資,竭盡全力拼搶這一制高點(diǎn)。
大數(shù)據(jù)這塊餑餑雖然聞起來很香,但啃起來卻有點(diǎn)硬,其難度有四,一是數(shù)據(jù)收集難,不但難在大,海量信息,而且難在雜,萬千角度;二是數(shù)據(jù)存儲(chǔ)難,如此海量存儲(chǔ),既要低成本、低能耗,又要高質(zhì)量、高識別;三是數(shù)據(jù)處理難,信息如密網(wǎng)交織,錯(cuò)綜復(fù)雜,處理如剝繭抽絲,穿針引線,其難度可想而知;四是數(shù)據(jù)呈現(xiàn)難,數(shù)據(jù)最終是要拿來使用的,其呈現(xiàn)須簡單、實(shí)用,無疑,這是又一個(gè)由繁入簡的艱巨工程。
好在,大數(shù)據(jù)應(yīng)用已初見曙光,歐美各國均有成功先例。有人設(shè)想,倘若我們將大數(shù)據(jù)應(yīng)用于日常生活,那么,當(dāng)你打算購買某一產(chǎn)品時(shí),只消將名稱輸入手機(jī),大數(shù)據(jù)就會(huì)告訴你,這些東西在當(dāng)?shù)啬男┥虉鲇惺?,其價(jià)格分別是多少。于是,你可以馬上作出決策。這將給人們帶來多么大的方便,又將給商業(yè)流通帶來多么大的改變。
萬事雖然起頭難,堅(jiān)持動(dòng)手就不難。所謂數(shù)據(jù)之“大”,不過相對而言。目前,百度、阿里巴巴、騰訊等不少公司已著手成立大數(shù)據(jù)研發(fā)機(jī)構(gòu)。百度目前日處理數(shù)據(jù)量已達(dá)100PB(1EB=1024PB),相當(dāng)于2700萬冊藏書。而阿里則根據(jù)淘寶網(wǎng)上中小企業(yè)的交易狀況,篩選出財(cái)務(wù)健康及講誠信企業(yè),并對其發(fā)放無擔(dān)保貸款300多億元,壞賬率僅0.3%。這都是大數(shù)據(jù)應(yīng)用的好例子。endprint