文君
這是個技術(shù)奔騰,信息爆炸的時代,這是個數(shù)據(jù)無處不在,一切都依賴數(shù)據(jù)的時代。美國2010年《規(guī)劃數(shù)字化的未來:美國總統(tǒng)科學(xué)技術(shù)顧問委員會給總統(tǒng)和國會的報告》中說:“數(shù)據(jù)正在呈指數(shù)增長,都是數(shù)字化的。各種傳感器的劇增,高清晰度的圖像和視頻,都是數(shù)據(jù)爆炸的原因?!睌?shù)據(jù)爆炸是全方位的,是立體的,主要表現(xiàn)在同一類型的數(shù)據(jù)量快速增長,從不同角度圍繞同一對象的數(shù)據(jù)量快速增長;數(shù)據(jù)增長的速度在加快,因為信息技術(shù)的飛速發(fā)展使得數(shù)據(jù)采集更加便捷,采集速度更快;數(shù)據(jù)呈現(xiàn)多樣性特點,即數(shù)據(jù)種類和數(shù)據(jù)來源不斷增加,標(biāo)準(zhǔn)的和異構(gòu)的數(shù)據(jù)共存;歷史數(shù)據(jù)在不斷堆積,數(shù)據(jù)的總數(shù)量呈指數(shù)增長。
大數(shù)據(jù)之“大”
大數(shù)據(jù)之“大”,并不僅僅是數(shù)據(jù)容量之大,也不是數(shù)據(jù)種類繁多,“大”數(shù)據(jù)之大更主要體現(xiàn)在于人們可以分析和使用的數(shù)據(jù)在大量增加,在那些我們過去只能從單一角度認識的數(shù)據(jù),今天可以超越地域、時問,將不同內(nèi)容的數(shù)據(jù)、不同來源的數(shù)據(jù)、不同結(jié)構(gòu)的數(shù)據(jù)、不同表現(xiàn)形式的數(shù)據(jù)、不同時間采集的數(shù)據(jù),只要能得到的數(shù)據(jù)都可以加以利用。4個世紀前人類發(fā)明了顯微鏡,顯微鏡把人們的觀測水平第一次推進到“細胞”級水平,使人類第一次看到了微觀世界的奇妙,使人們認識自然的能力大大增強。大數(shù)據(jù)之“大”就像顯微鏡的發(fā)現(xiàn)那樣,使我們而對指數(shù)級的數(shù)據(jù),有能力暢游在更加廣闊的數(shù)據(jù)海洋中,通過對數(shù)據(jù)的分析、使用,我們可以發(fā)現(xiàn)新知識、創(chuàng)造新價值。
大數(shù)據(jù)之大,還在于面對如海的信息,如山的數(shù)據(jù),如何便利快捷地找到自己需要的信息,如何利用大數(shù)據(jù)創(chuàng)造有競爭力的商業(yè)模式,如何掌控火數(shù)據(jù)進行社會管理和服務(wù),如何使用大數(shù)據(jù)提高決策水平,這也正是今天個人用戶、眾多企業(yè)以及社會管理部門所而臨的重大機遇和挑戰(zhàn)。大數(shù)據(jù)像是個浩瀚的藍海,看上去無邊無際,又似乎有無數(shù)資源等著去開發(fā),去捕捉。視而不見,肯定會失去機會,但主動參與進去未必能成功。在迷茫中尋找新路,注定是大數(shù)據(jù)時代的歷史使命,無論他們是個人、企業(yè)還是政府。
大數(shù)據(jù)之“大”體現(xiàn)了幾個特征。一是數(shù)據(jù)的海量。這一點不容置疑。第二是數(shù)據(jù)的完整性和綜合性。大數(shù)據(jù)所包含的數(shù)據(jù)不僅包括網(wǎng)絡(luò)公司通過自身服務(wù)所獲得的用戶行為數(shù)據(jù),還包括千千萬萬個個體用戶自己創(chuàng)造的數(shù)據(jù),也包含社會的、經(jīng)濟的、政治的、自然的方方面面的數(shù)據(jù)。這些數(shù)據(jù)結(jié)構(gòu)可能不同,數(shù)據(jù)內(nèi)容可能千差萬別,而且可能分散在個人、不同企業(yè)、機構(gòu)和政府部門于中,但整體構(gòu)成一個完整的數(shù)據(jù)集。
第三是數(shù)據(jù)的開放性和公共性。因為完整的、綜合的數(shù)據(jù)不可能是一個人、一家公司、一個機構(gòu)或政府部門所產(chǎn)生外獲得的,也不可能是一群人、一個行業(yè)或社會管理者所能夠制造并獲得的,大數(shù)據(jù)必然產(chǎn)生于一個開放的,公共的網(wǎng)絡(luò)環(huán)境之中。比如你上網(wǎng)的軌跡,發(fā)的做博,寫的博客文章,比如遍布城市的視頻監(jiān)控系統(tǒng)所獲得的視頻數(shù)據(jù)等等,數(shù)據(jù)在有意無意間就產(chǎn)生了,這注定數(shù)據(jù)是具有開放性特征和公共性特征。
第四是數(shù)據(jù)的動態(tài)性和實時性。數(shù)據(jù)時刻都在產(chǎn)生,而且不問斷,每一時刻產(chǎn)生的數(shù)據(jù)都在變化。
第五是數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性。由于不同采集系統(tǒng)所收集的數(shù)據(jù)可能指向同一事物或事件,這種相互的關(guān)聯(lián)是由于數(shù)據(jù)所描述的對象所決定的,每一數(shù)據(jù)之間存在著天然聯(lián)系。
站在不同角度看大數(shù)據(jù),它既可能是大機會、大發(fā)展、大創(chuàng)新、也可能是大危機、大破壞、大淘汰。雖然現(xiàn)在對于大數(shù)據(jù)的認識、開發(fā)使用還處于低級階段,但大數(shù)據(jù)所包含的能量不容忽視。
大數(shù)據(jù)之“困”
隨著信息技術(shù)的發(fā)展,整個社會對數(shù)據(jù)認知程度的不斷提高,我們所能夠獲得數(shù)據(jù)的成本在逐漸降低,各種信息終端逐漸成為人們生活必須品,現(xiàn)在獲得完整和綜合的數(shù)據(jù)不僅是一種理想,也正在變?yōu)楝F(xiàn)實。但大數(shù)據(jù)浪潮可能令人們喜憂參半過去,我們因孤陋寡聞、數(shù)據(jù)不足、信息量不夠而決策錯誤;現(xiàn)在,我們掌握了大量數(shù)據(jù),在大數(shù)據(jù)的旋渦中,我們也可能因資訊太多而無所適從。
首先,數(shù)據(jù)能不能有效存儲。我們以天津為例,天津市的一個高清攝象頭,每小時產(chǎn)生3.6個GB的數(shù)據(jù),“十二五”末,天津?qū)惭b60萬個攝象頭,按照3個月的視頻存儲的要求,需要4665PB的存儲容量,再加上其他方式積累的數(shù)據(jù),存儲成為現(xiàn)實的難題。如何收集、保存、維護、管理、分析、共享、使用正在呈指數(shù)級增長的數(shù)據(jù)是新的挑戰(zhàn)。從網(wǎng)絡(luò)、博客、天文望遠鏡到城市視頻監(jiān)控攝像頭、手機、辦公數(shù)據(jù)、商業(yè)數(shù)據(jù)等等,來自不同渠道的數(shù)據(jù)像滾滾洪流不可阻擋,這些數(shù)據(jù)若存儲在不同地方,如何保證使這些數(shù)據(jù)的完整性、連續(xù)性、可用性?我們面臨巨大挑戰(zhàn)。
其次,如何管理好這些數(shù)據(jù)。在如何管理大數(shù)據(jù)的問題上,無論誰來做都難以同避三大挑戰(zhàn):個人隱私、企業(yè)利益和社會安全。再加上誰來管理的困擾,使得大數(shù)據(jù)管理成為當(dāng)前大數(shù)據(jù)的挑戰(zhàn)。
再次,如何利用大數(shù)據(jù)也存在技術(shù)上和管理上的新問題。數(shù)據(jù)存儲起來不容易,存完怎樣在浩如煙海的數(shù)據(jù)中找到有用數(shù)據(jù),難度不言而喻。而且就數(shù)據(jù)管理而言正在出現(xiàn)三種局面:數(shù)據(jù)獨占,數(shù)據(jù)共享和數(shù)據(jù)公開。因為大家都認識到數(shù)據(jù)是一種資源,無論在個人層面,企業(yè)層面還是政府層面,占有數(shù)據(jù)而且盡可能獨占幾乎是一種本能。因此一個又一個的數(shù)據(jù)孤島不可避免地產(chǎn)生。
另外,在數(shù)據(jù)中找到數(shù)據(jù)信息之間的相互關(guān)聯(lián)既有技術(shù)上的難度也有數(shù)據(jù)本身的問題。對同一數(shù)據(jù)對象的描述,有多個層面和多種數(shù)據(jù)方式,這些數(shù)據(jù)可能存在不同的數(shù)據(jù)模塊中,找到它們有點大海撈針的味道。如何使用這些數(shù)據(jù)又是新的挑戰(zhàn)。
實物的積累、貨幣的積累,過去曾經(jīng)是國力的標(biāo)志。而在信息時代,數(shù)據(jù)的積累、加工和利用能力將成為綜合國力的新象征。數(shù)據(jù)將是下一個大資源,但這種資源又不像自然資源那樣就在那里,這種資源是數(shù)字的,是一定要依賴于數(shù)據(jù)信息生成設(shè)備,還要依賴數(shù)字化的存儲設(shè)備的,與信息技術(shù)密不可分。我們身處數(shù)據(jù)之中,數(shù)據(jù)好像在我們身邊,但看不見,也摸不著,我們是數(shù)據(jù)的創(chuàng)造者、擁有者,又是數(shù)據(jù)的管理者和使用者。
我們走過工業(yè)化時代,靠的是光機電,因為計算機和網(wǎng)絡(luò)的出現(xiàn)讓我們走進信息化時代,今天工業(yè)化加信息化、物聯(lián)網(wǎng)加云計算、移動互聯(lián)和智能終端,讓我們面對大數(shù)據(jù)時代。工業(yè)和信息化部副部長楊學(xué)山指出,大數(shù)據(jù)對整個產(chǎn)業(yè)和社會來說都是新的機遇,但大數(shù)據(jù)并非新的概念,也并非顛覆性創(chuàng)新,仍有很多問題要解決,很多事情要做。大數(shù)據(jù)目前還處于應(yīng)用的低級階段,業(yè)界對大數(shù)據(jù)的概念本身、應(yīng)用本身都還有很多的不足和問題。
面對大數(shù)據(jù),任何一點顯著的進步都將是大數(shù)據(jù)時代的福音,不管是概念上還是實際應(yīng)用上的。