■文 /王國強(qiáng) 杜 影 吳秋月
王國強(qiáng),中國科協(xié)創(chuàng)新戰(zhàn)略研究院研究員。
杜影,吳秋月,中國科協(xié)創(chuàng)新戰(zhàn)略研究院研究助理。
大數(shù)據(jù)革命的歷史是人類認(rèn)知世界、改造世界的一個(gè)縮影。
在2011年麥肯錫公司發(fā)布《大數(shù)據(jù):下一個(gè)創(chuàng)新、競爭和生產(chǎn)力的前沿》研究報(bào)告、高德納公司發(fā)布《2011年度新興技術(shù)成熟度曲線》研究報(bào)告之后,經(jīng)2012年英國牛津大學(xué)教授維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)所著《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書的宣傳推廣,大數(shù)據(jù)概念(Big Data)迅速風(fēng)靡全球,一夜之間“火”了起來,成為科研機(jī)構(gòu)、高校、企業(yè)、政府部門等各界的“新寵”,但其中也不乏質(zhì)疑的聲音。
近年來,隨著大數(shù)據(jù)技術(shù)的成熟,大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)升級(jí)為國家戰(zhàn)略。當(dāng)前,德國“工業(yè)4.0”、美國“創(chuàng)新戰(zhàn)略”、英國“農(nóng)業(yè)技術(shù)戰(zhàn)略”、日本“復(fù)興戰(zhàn)略”、韓國“智慧首爾2015”以及我國《“十三五”規(guī)劃》都把開發(fā)運(yùn)用大數(shù)據(jù)作為奪取新一輪競爭制高點(diǎn)的重要抓手,大數(shù)據(jù)時(shí)代已真正來臨?;仨髷?shù)據(jù)的形成與發(fā)展,我們可以看到,大數(shù)據(jù)革命的歷史同樣是人類認(rèn)知世界、改造世界的一個(gè)縮影。
任何概念都是人類長期認(rèn)知活動(dòng)的結(jié)晶。大數(shù)據(jù)作為一個(gè)術(shù)語的歷史雖然短暫,但是大數(shù)據(jù)概念的形成與發(fā)展卻源遠(yuǎn)流長。顧名思義,大數(shù)據(jù)本質(zhì)上還是數(shù)據(jù)。要理解大數(shù)據(jù)概念,就要知道什么是數(shù)據(jù)。所謂數(shù)據(jù),簡單地講,就是用符號(hào)化的方式表達(dá)和記錄信息,而語言、文字、數(shù)字和數(shù)學(xué)符號(hào)則是這種信息表達(dá)方式最早、最重要的形式,其中數(shù)與數(shù)據(jù)的關(guān)系最為密切。
信息從直覺表達(dá)開始到抽象表達(dá)體系的形成是一個(gè)漫長的過程。從語言的出現(xiàn)到文字的形成,歷經(jīng)3萬多年,才搭建起人類認(rèn)識(shí)現(xiàn)實(shí)世界和自身存在的“信息”框架。人類語言系統(tǒng)的發(fā)展,特別是文字書寫系統(tǒng)的誕生,大大提高了人類的認(rèn)知能力,有效記錄了不同時(shí)期人類之間相互交流、交際的信息,形成了當(dāng)今龐大的人類認(rèn)知的知識(shí)集合——人類的文化世界。
同樣,從人類的原始計(jì)數(shù)方法的產(chǎn)生到數(shù)字符號(hào)的出現(xiàn),再到現(xiàn)代數(shù)學(xué)符號(hào)體系的形成,也經(jīng)歷了一個(gè)漫長的過程。計(jì)數(shù)是人類對(duì)數(shù)的認(rèn)識(shí)的第一次抽象,在人類的蒙昧?xí)r期,中國古人有“結(jié)繩記事”和“刻痕記數(shù)”。在公元前8000年至公元前3500年間,兩河流域有蘇美爾人的計(jì)數(shù)泥板。在人類漫長的生產(chǎn)勞動(dòng)和生活實(shí)踐中,由于“有無”“多少”“大小”“得失”等量的表達(dá)需要,出現(xiàn)了數(shù)和量的概念,這是人類關(guān)于數(shù)的認(rèn)識(shí)的第二次抽象。公元前四五千年,尼羅河流域的古埃及人創(chuàng)造了十進(jìn)制象形文數(shù)字,兩河流域的蘇美爾人和巴比倫人創(chuàng)造了六十進(jìn)制的巴比倫數(shù)字。二進(jìn)制的發(fā)現(xiàn)則較晚,是近代科學(xué)的產(chǎn)物。18世紀(jì)初,德國著名哲學(xué)家、數(shù)學(xué)家戈特弗里德·威廉·萊布尼茨(Gottfried Wilhelm Leibniz)發(fā)現(xiàn)了用“0”和“1”兩個(gè)數(shù)字表示的二進(jìn)制數(shù)制運(yùn)算規(guī)律。1854年,英國數(shù)學(xué)家喬治·布爾(George Boole)借鑒了二進(jìn)制的運(yùn)算規(guī)則,把形式邏輯轉(zhuǎn)化為一種代數(shù)運(yùn)算,建立了布爾代數(shù),為第三次科技革命重要標(biāo)志之一的計(jì)算機(jī)的發(fā)明與應(yīng)用奠定了理論基礎(chǔ)。
隨著計(jì)算機(jī)應(yīng)用的不斷發(fā)展,各種各樣的信息都可以用“0”和“1”表示,從而把信息變成了一種可以存儲(chǔ)、復(fù)制、運(yùn)算、判斷的數(shù)字化信息,這就是現(xiàn)代意義上的數(shù)據(jù)概念。在計(jì)算機(jī)普遍使用的今天,數(shù)以及可以轉(zhuǎn)換成數(shù)字的圖形、表格、文字都是數(shù)據(jù)的組成部分。數(shù)據(jù)概念不再僅僅用于表征事物的特定屬性,更為重要的是它已成為推演事物運(yùn)動(dòng)、變化規(guī)律的重要依據(jù)和基礎(chǔ)。
大數(shù)據(jù)概念發(fā)展史
1944年
美國衛(wèi)斯理大學(xué)藏書樓管理員弗萊蒙特·雷德(Fremont Rider)預(yù)測,圖書館的藏書量將超出人們的管理能力。
1964年
哈 里·格 雷(Harry Gray)和亨利·拉斯頓(Henry Ruston)在《電子計(jì)算機(jī)學(xué)報(bào)》上發(fā)表文章表達(dá)了對(duì)知識(shí)快速增長的擔(dān)憂。
1975年
1975年,日本郵電部實(shí)施“信息流普查”計(jì)劃,調(diào)查報(bào)告預(yù)言了“碎片化信息時(shí)代”的到來。
大數(shù)據(jù)概念是人們?cè)趯?duì)數(shù)據(jù)的規(guī)模、結(jié)構(gòu)、速度不斷變化的認(rèn)識(shí)過程中形成的。隨著人類行為的日趨復(fù)雜而規(guī)模不斷擴(kuò)張,人們一直坐擁不斷增長的海量信息,同時(shí)也面臨信息保存處理難的社會(huì)問題。1944年,美國衛(wèi)斯理大學(xué)藏書樓管理員弗萊蒙特·雷德(Fremont Rider)認(rèn)為,美國高校藏書樓的規(guī)模每16年就會(huì)翻一番,圖書的數(shù)量將超出人們的管理能力。1961年,科學(xué)計(jì)量學(xué)奠基人普賴斯(Derek John de Solla Price)通過研究科技期刊和論文得出,新期刊的數(shù)量將以指數(shù)形式增長而不是以線性形式增長,每15年翻一番,每50年以10的指數(shù)倍進(jìn)行增長。1964年,哈里·格雷(Harry Gray)和亨利·拉斯頓(Henry Ruston)在美國電氣與電子工程師協(xié)會(huì)(IEEE)雜志《電子計(jì)算機(jī)學(xué)報(bào)》上發(fā)表文章表達(dá)了對(duì)知識(shí)快速增長的擔(dān)憂,并建議:“不發(fā)表或發(fā)表不超過2 500字的文章以應(yīng)對(duì)信息爆炸時(shí)代的到來?!?/p>
1975年,日本郵電部實(shí)施“信息流普查”計(jì)劃,其后的調(diào)查報(bào)告指出,社會(huì)正在進(jìn)入一個(gè)新階段,在這一階段,處于優(yōu)勢地位的是那些能夠滿足個(gè)人需求的碎片性的、更為詳細(xì)的信息,而不再是那些傳統(tǒng)的被大量復(fù)制的、一致性的信息。報(bào)告預(yù)言了“碎片化信息時(shí)代”的到來。1980年,美國社會(huì)思想家阿爾文·托夫勒(Alvin Toffler)在《第三次浪潮》中前瞻性地指出,20世紀(jì)80年代計(jì)算機(jī)數(shù)據(jù)處理能力的大幅度提升將給人類社會(huì)帶來革命性的影響,并預(yù)言說:“如果說IBM公司的主機(jī)拉開了信息化革命的大幕,那么‘大數(shù)據(jù)’才是第三次浪潮的華彩樂章?!?997年,美國國家航空航天局的研究人員邁克爾·科克斯(Michael Cox)和戴維·埃爾斯沃思(David Ellsworth)首次在論文中正式提出大數(shù)據(jù)概念及其存儲(chǔ)所帶來的被稱之為“大數(shù)據(jù)問題”的問題,標(biāo)志著大數(shù)據(jù)概念初步形成。
2001年,高德納公司分析師道格拉斯·蘭尼(Douglas Laney)把大數(shù)據(jù)的特征概括為3個(gè)“V”:Volume(數(shù)據(jù)體量大)、Velocity(高速處理速度快)、Variety(數(shù)據(jù)類型繁多),進(jìn)一步揭示了大數(shù)據(jù)多樣性、多變性的數(shù)據(jù)特征。2008年,《自然》(Nature)雜志推出了名為“大數(shù)據(jù)”的專欄,“大數(shù)據(jù)”開始成為互聯(lián)網(wǎng)技術(shù)行業(yè)中的熱門詞匯。2011年,麥肯錫公司發(fā)布《大數(shù)據(jù):下一個(gè)創(chuàng)新、競爭和生產(chǎn)力的前沿》,首次談到大數(shù)據(jù)的采集與應(yīng)用,大數(shù)據(jù)開始走出技術(shù)圈進(jìn)入商業(yè)圈。2012年,舍恩伯格出版《大數(shù)據(jù)時(shí)代》一書,開大數(shù)據(jù)系統(tǒng)研究之先河,大數(shù)據(jù)概念開始在社會(huì)上廣泛流行。
互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、電子商務(wù)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,使人類社會(huì)的數(shù)據(jù)量呈現(xiàn)井噴式爆發(fā)性增長。據(jù)統(tǒng)計(jì),目前人類一年產(chǎn)生的數(shù)據(jù)相當(dāng)于人類進(jìn)入現(xiàn)代化以前產(chǎn)生數(shù)據(jù)的總和。特別是社交媒體的出現(xiàn),使這種快餐式碎片化海量信息“數(shù)據(jù)豐富而信息貧乏”的問題更加突顯。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心的數(shù)據(jù)顯示,2016年下半年用社交媒體獲取新聞資訊的用戶比例高達(dá)90.7%,微信、微博參與新聞評(píng)論的比例分別為62.8%和50.2%,朋友圈、微信公眾號(hào)轉(zhuǎn)發(fā)新聞的比例分別為43.2%和29.2%。2013年,IBM公司在白皮書《分析:大數(shù)據(jù)在現(xiàn)實(shí)世界中的應(yīng)用》解析說明會(huì)上提出大數(shù)據(jù)“4V”理論 :即Volume(數(shù)據(jù)體量大)、Velocity(高速處理速度快)、Variety(數(shù)據(jù)類型繁多)、Value(價(jià)值密度低)。大數(shù)據(jù)概念最終取代了數(shù)據(jù)概念,形成了當(dāng)前意義上的數(shù)據(jù)概念,即所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)獲取、管理、處理并整理成為人類所能解讀的信息。
1980年
美國社會(huì)思想家阿爾文·托 夫 勒(Alvin Toffler)在《第三次浪潮》中指出,大數(shù)據(jù)是第三次浪潮的華彩樂章。
1997年
美國國家航空航天局的研究人員正式提出大數(shù)據(jù)概念及其存儲(chǔ)所帶來的被稱之為“大數(shù)據(jù)問題”的問題,標(biāo)志著大數(shù)據(jù)概念初步形成。
2001年
高德納公司分析師道格拉 斯·蘭 尼(Douglas Laney)把大數(shù)據(jù)的特征概括為3個(gè)“V”,揭示了大數(shù)據(jù)多樣性多變性的數(shù)據(jù)特征。
社會(huì)的需求永遠(yuǎn)是技術(shù)發(fā)展的動(dòng)力,大數(shù)據(jù)技術(shù)也是如此。所謂大數(shù)據(jù)技術(shù),就是處理“海量數(shù)據(jù)”的技術(shù)。它是在人們不斷解決“數(shù)字化信息問題”“海量信息問題”“非結(jié)構(gòu)海量信息問題”等社會(huì)需求中逐漸產(chǎn)生發(fā)展起來的,大體上可分為3個(gè)階段:大數(shù)據(jù)技術(shù)前期、大數(shù)據(jù)技術(shù)形成期和大數(shù)據(jù)技術(shù)突破期。
計(jì)算機(jī)的發(fā)明與應(yīng)用要求人們把事物信息轉(zhuǎn)化為可計(jì)算、可度量、數(shù)字化的數(shù)據(jù)。從20世紀(jì)50年代到90年代初,隨著1946年第一臺(tái)數(shù)字電子計(jì)算機(jī)ENIAC的誕生和發(fā)展,人們開始普遍使用二進(jìn)制中“0”和“1”兩個(gè)數(shù)字來表達(dá)信息,采用電子線路來執(zhí)行算數(shù)運(yùn)算、邏輯運(yùn)算和儲(chǔ)存信息。大量用“0”或“1”代表的信號(hào)反過來又產(chǎn)生龐大快速的數(shù)據(jù)流,由此導(dǎo)致了涉及數(shù)字的轉(zhuǎn)換、存取、處理、控制等一系列高技術(shù)的發(fā)展,如微電子技術(shù)、光電傳輸技術(shù)、數(shù)字壓縮和編碼技術(shù)、多媒體數(shù)據(jù)庫技術(shù)等。1971年,英特爾公司生產(chǎn)出了世界上第一個(gè)微處理器芯片4004,人類第一次將高智能賦予無生命的設(shè)備,這是人工智能和計(jì)算處理歷史上的重要轉(zhuǎn)折點(diǎn)。它的誕生使微處理器打破了由大型中央處理器一統(tǒng)天下的局面,從而將計(jì)算機(jī)帶到辦公室的桌子上。微處理器的發(fā)明發(fā)展,使得數(shù)字轉(zhuǎn)化的速度、效率和范圍大大提高,讓計(jì)算機(jī)技術(shù)應(yīng)用無處不在。20世紀(jì)70年代中期,曾有人對(duì)計(jì)算機(jī)的各種應(yīng)用做過統(tǒng)計(jì),列出了6 000多種應(yīng)用,在這些應(yīng)用中,直接對(duì)人類產(chǎn)生最大影響的就是數(shù)據(jù)庫技術(shù)的應(yīng)用。數(shù)據(jù)庫技術(shù)是數(shù)據(jù)處理和信息管理系統(tǒng)的核心技術(shù),主要通過研究數(shù)據(jù)庫的結(jié)構(gòu)、存儲(chǔ)、設(shè)計(jì)、管理以及應(yīng)用的基本理論方法,來實(shí)現(xiàn)對(duì)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行處理、分析和理解的技術(shù)。其中,數(shù)據(jù)模型是數(shù)據(jù)庫系統(tǒng)的核心和基礎(chǔ)。計(jì)算機(jī)技術(shù)、數(shù)字化技術(shù)、數(shù)據(jù)庫技術(shù)等共同構(gòu)建了大數(shù)據(jù)的技術(shù)基礎(chǔ)。
海量信息的處理使數(shù)據(jù)挖掘理論與技術(shù)不斷發(fā)展。從20世紀(jì)90年代至21世紀(jì)初,隨著信息數(shù)字化能力和數(shù)據(jù)庫技術(shù)的不斷發(fā)展,人們開始思考如何解決大數(shù)據(jù)的“數(shù)據(jù)豐富而信息貧乏”的問題,于是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。1989年8月,在美國底特律召開的第11屆國際聯(lián)合人工智能學(xué)術(shù)會(huì)議上,數(shù)據(jù)挖掘 (Data Mining,也稱Knowledge Discovery in Database,簡稱KDD)概念被正式提出。從1995年開始,一年一度的KDD國際學(xué)術(shù)會(huì)議讓“數(shù)據(jù)挖掘”一詞逐漸在學(xué)術(shù)圈流行。數(shù)據(jù)挖掘指的是從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的、潛在有用信息的過程。主要的技術(shù)方法有面向數(shù)據(jù)庫或數(shù)據(jù)倉庫的技術(shù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、模糊集、粗糙集、遺傳算法、決策樹、最近鄰技術(shù)等。復(fù)雜的數(shù)據(jù)挖掘系統(tǒng)通常采用多種數(shù)據(jù)挖掘技術(shù)。隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識(shí)管理系統(tǒng)等。此時(shí),人們對(duì)大數(shù)據(jù)技術(shù)研究主要集中在“算法”(Algorithms)、“模型”(Model)、“模式”(Patterns)、“識(shí)別”(Identification)等問題上,大數(shù)據(jù)技術(shù)開始形成并不斷發(fā)展,人類處理海量信息的能力得到大幅度提升。
2008年
“大數(shù)據(jù)”開始成為互聯(lián)網(wǎng)技術(shù)行業(yè)中的熱門詞匯。
2011年
麥肯錫公司發(fā)布《大數(shù)據(jù):下一個(gè)創(chuàng)新、競爭和生產(chǎn)力的前沿》,大數(shù)據(jù)開始走出技術(shù)圈進(jìn)入商業(yè)圈。
2013年
IBM公司在白皮書《分析:大數(shù)據(jù)在現(xiàn)實(shí)世界中的應(yīng)用》解析說明會(huì)上提出大數(shù)據(jù)“4V”理論。大數(shù)據(jù)概念最終取代了數(shù)據(jù)概念,形成了當(dāng)前意義上的數(shù)據(jù)概念。
非結(jié)構(gòu)海量數(shù)據(jù)的迫切需求讓大數(shù)據(jù)技術(shù)取得突破。隨著計(jì)算機(jī)、互聯(lián)網(wǎng)和數(shù)字媒體進(jìn)一步普及,以文本、圖形、圖像、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)為主的信息急劇增加,特別是以2004年Facebook創(chuàng)立為標(biāo)志的社交網(wǎng)絡(luò)的流行,直接導(dǎo)致了大量非結(jié)構(gòu)化數(shù)據(jù)的涌現(xiàn),使得傳統(tǒng)的處理數(shù)據(jù)和海量數(shù)據(jù)的數(shù)據(jù)庫技術(shù)難以應(yīng)對(duì)。如何存儲(chǔ)、查詢、分析、挖掘和利用這些非結(jié)構(gòu)化數(shù)據(jù)信息成為社會(huì)的又一個(gè)重大難題。為應(yīng)對(duì)這一挑戰(zhàn),人們開始對(duì)數(shù)據(jù)處理系統(tǒng)和數(shù)據(jù)庫架構(gòu)進(jìn)行重新審視,這就出現(xiàn)了各種非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù),如基于NoSQL的非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)、網(wǎng)絡(luò)代價(jià)估算、多種支持模式演化等。2009年,谷歌公司軟件工程師杰夫·迪恩(Jeff Dean)在BigTable基礎(chǔ)上開發(fā)了全球首個(gè)分布式數(shù)據(jù)庫Spanner,標(biāo)志著“云計(jì)算”(Cloud Computing)、“大規(guī)模數(shù)據(jù)集并行運(yùn)算算法”(MapReduce)、“開源分布式系統(tǒng)基礎(chǔ)架構(gòu)”(Hadoop)等大數(shù)據(jù)前沿技術(shù)理論開始走向成熟,并行運(yùn)算與分布式系統(tǒng)成為當(dāng)前大數(shù)據(jù)處理的主要技術(shù)方法并得到廣泛應(yīng)用。
2011年,麥肯錫公司發(fā)布的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》研究報(bào)告,讓“大數(shù)據(jù)”走進(jìn)商業(yè)應(yīng)用領(lǐng)域。2012年1月,瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇發(fā)布《大數(shù)據(jù),大影響》大會(huì)報(bào)告,讓“數(shù)據(jù)就像貨幣或黃金一樣是新的經(jīng)濟(jì)資產(chǎn)類別”成為產(chǎn)業(yè)界的共識(shí)。2015年,全球大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模為1 403億美元,我國大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模為1 692億元人民幣,預(yù)計(jì)到2020年,全球大數(shù)據(jù)市場規(guī)模將超過10 270億美元,我國大數(shù)據(jù)市場規(guī)模將接近13 626億元人民幣。
美國是世界上第一個(gè)發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的國家,也是世界各國大數(shù)據(jù)產(chǎn)業(yè)的領(lǐng)頭羊。2012年3月,美國奧巴馬政府發(fā)布“大數(shù)據(jù)研究和發(fā)展倡議”,宣布將投資2億多美元以拉動(dòng)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,正式將大數(shù)據(jù)發(fā)展戰(zhàn)略從商業(yè)行為上升到國家戰(zhàn)略,標(biāo)志著大數(shù)據(jù)已成為當(dāng)今時(shí)代的重要特征。2012年4月19日,美國軟件公司Splunk成功上市,成為第一家上市的大數(shù)據(jù)處理公司,這一年被美國IT行業(yè)稱為大數(shù)據(jù)元年。在美國政府的推動(dòng)下,EMC、IBM、惠普、微軟、甲骨文等IT老牌巨頭積極通過并購實(shí)現(xiàn)技術(shù)整合,推出大數(shù)據(jù)相關(guān)產(chǎn)品和服務(wù),Splunk、Clustrix、Junar、DataSift等一大批大數(shù)據(jù)新興企業(yè)也開始出現(xiàn),形成了美國政府、企業(yè)、科研院校和非營利機(jī)構(gòu)等利益相關(guān)、系統(tǒng)共進(jìn)的產(chǎn)業(yè)發(fā)展局面。
受美國影響,世界發(fā)達(dá)國家紛紛制定大數(shù)據(jù)發(fā)展戰(zhàn)略,英國有《數(shù)據(jù)能力發(fā)展戰(zhàn)略規(guī)劃》、日本有《創(chuàng)建最尖端IT國家宣言》、韓國有《大數(shù)據(jù)中心戰(zhàn)略》,歐盟有《數(shù)據(jù)價(jià)值鏈戰(zhàn)略計(jì)劃》。2012年7月,聯(lián)合國發(fā)布的《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》政務(wù)白皮書指出,大數(shù)據(jù)對(duì)聯(lián)合國和各國政府來說是一個(gè)歷史性的機(jī)遇,世界各國對(duì)大數(shù)據(jù)產(chǎn)業(yè)的關(guān)注達(dá)到了前所未有的程度。高德納公司數(shù)據(jù)顯示,2014年全球數(shù)據(jù)中心系統(tǒng)支出達(dá)1 430億美元,比2013年增長2.3%。大數(shù)據(jù)對(duì)全球IT開支的直接或間接推動(dòng)達(dá)2 320億美元,預(yù)計(jì)到2018年這一數(shù)據(jù)將增長3倍。美國國際數(shù)據(jù)集團(tuán)(IDG)調(diào)查顯示,世界各國70%的大企業(yè)和56%的中小企業(yè)已經(jīng)部署或者正在計(jì)劃部署與大數(shù)據(jù)有關(guān)的項(xiàng)目和計(jì)劃。
中國和美國幾乎在同一時(shí)期關(guān)注大數(shù)據(jù)產(chǎn)業(yè)。2008年,秦皇島開發(fā)區(qū)確定把大數(shù)據(jù)產(chǎn)業(yè)作為龍頭產(chǎn)業(yè),提出建設(shè)“中國數(shù)谷”的目標(biāo),在國內(nèi)率先提出大數(shù)據(jù)產(chǎn)業(yè)概念。從2011年底到2012年上半年,國金證券計(jì)算機(jī)研究團(tuán)隊(duì)陸續(xù)推出3篇關(guān)于大數(shù)據(jù)的系列分析報(bào)告,首次在中國資本市場系統(tǒng)全面地闡述了大數(shù)據(jù)潛在的巨大社會(huì)意義和經(jīng)濟(jì)意義,開資本市場大數(shù)據(jù)之先河。2012年,首屆數(shù)據(jù)科學(xué)與信息產(chǎn)業(yè)大會(huì)召開,標(biāo)志著我國學(xué)術(shù)界、產(chǎn)業(yè)界和資產(chǎn)市場達(dá)成了共識(shí),共同推進(jìn)大數(shù)據(jù)的發(fā)展和落地。2013年,寬帶資本、用友軟件、云基地、百度在線、阿里巴巴等與大數(shù)據(jù)密切相關(guān)的企業(yè)共同發(fā)起成立“中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟”,標(biāo)志著我國大數(shù)據(jù)行業(yè)系統(tǒng)推進(jìn)局面初步形成。
從2014年開始,我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展進(jìn)入了快速推進(jìn)期,呈現(xiàn)出3個(gè)特點(diǎn)。一是市場規(guī)模增速不斷加快。易觀國際數(shù)據(jù)顯示,我國大數(shù)據(jù)市場規(guī)模達(dá)到75.7億元,同比增長28.4%,但與全球53.2%的增速仍有不小的差距。二是國外大數(shù)據(jù)企業(yè)進(jìn)入國內(nèi)市場的數(shù)量增多,除IBM、微軟、谷歌、甲骨文、亞馬遜等已經(jīng)在中國市場站穩(wěn)腳跟的傳統(tǒng)企外,Teradata、Splunk、Cloudera、Tableau、Hortonworks、10Gen等大數(shù)據(jù)企業(yè)也紛紛入駐。三是大數(shù)據(jù)產(chǎn)業(yè)政策逐漸推升為國家戰(zhàn)略。2015年,我國將軟件及大數(shù)據(jù)產(chǎn)業(yè)寫入“十三五”規(guī)劃,并印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》。2016年,我國頒布了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020年)》。2015年,國內(nèi)大數(shù)據(jù)產(chǎn)業(yè)高速發(fā)展,市場規(guī)模已達(dá)1 105.6億元,較2014年增長44.15%。其中,大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)、大數(shù)據(jù)軟件和大數(shù)據(jù)應(yīng)用分別占比64.53%、25.47%和10%。2016年,環(huán)境保護(hù)部、國務(wù)院辦公廳、國土資源部、國家林業(yè)局、煤礦與煤炭城市發(fā)展工作委員會(huì)、交通運(yùn)輸部、農(nóng)業(yè)部均推出大數(shù)據(jù)發(fā)展意見和方案,地方政府也紛紛出臺(tái)有關(guān)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的戰(zhàn)略,國內(nèi)大數(shù)據(jù)產(chǎn)業(yè)政策從全面、總體規(guī)劃逐漸朝各大產(chǎn)業(yè)、各細(xì)分領(lǐng)域不斷延伸,標(biāo)志著中國大數(shù)據(jù)產(chǎn)業(yè)政策已開始逐步落地。
當(dāng)前,隨著大數(shù)據(jù)技術(shù)被廣泛應(yīng)用到醫(yī)療衛(wèi)生、食品安全、終身教育、智慧交通、公共安全、科技服務(wù)等各個(gè)領(lǐng)域,大數(shù)據(jù)產(chǎn)業(yè)進(jìn)入到蓬勃發(fā)展的全新時(shí)期。但是,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展仍然面臨技術(shù)上的系統(tǒng)性和政策上的協(xié)同性等問題。
“大數(shù)據(jù)”無疑是最受當(dāng)今社會(huì)各界關(guān)注的時(shí)髦詞匯之一,但人們對(duì)大數(shù)據(jù)的關(guān)注點(diǎn)并不相同。根據(jù)高德納公司的新興技術(shù)成熟度曲線研究報(bào)告,2015年和2016年大數(shù)據(jù)已連續(xù)兩年沒有出現(xiàn)在該曲線上,這說明大數(shù)據(jù)技術(shù)已脫離概念炒作進(jìn)入應(yīng)用階段。根據(jù)媒體對(duì)大數(shù)據(jù)報(bào)道的內(nèi)容,從技術(shù)社會(huì)學(xué)的視角看,人們對(duì)大數(shù)據(jù)的反思也從對(duì)技術(shù)不確定性的擔(dān)心上升到技術(shù)的倫理價(jià)值判斷。
大數(shù)據(jù)有誤導(dǎo)結(jié)果的可能。大數(shù)據(jù)時(shí)代,“讓數(shù)據(jù)說話”的盛行使更多的社會(huì)空間被量化,定量科學(xué)和客觀方法的地位在一定程度上模糊了主觀與客觀之間的界限。美國微軟研究院首席研究員克凱特·克勞福德(Kate Crawford)在其《對(duì)大數(shù)據(jù)的再思考》文章中認(rèn)為:“數(shù)字無法自己說話。不論其規(guī)模有多大,數(shù)據(jù)集歸根到底是人類設(shè)計(jì)的產(chǎn)物,而大數(shù)據(jù)的工具并不能使人們擺脫曲解、隔閡和錯(cuò)誤的成見?!币簿褪钦f,大數(shù)據(jù)存在著偏見與盲區(qū),“先天不足”。因此,一部分人認(rèn)為,不僅某些數(shù)據(jù)并非中性,而且大數(shù)據(jù)測量對(duì)象的測量設(shè)計(jì)決策也源于設(shè)計(jì)者的主觀詮釋,大數(shù)據(jù)并不能完全準(zhǔn)確地推出客觀規(guī)律,被神化的大數(shù)據(jù)極有可能誤導(dǎo)結(jié)果。
大數(shù)據(jù)不一定是好數(shù)據(jù)?;ヂ?lián)網(wǎng)和各種社交媒體每時(shí)每刻都提供巨量的數(shù)據(jù),這些數(shù)據(jù)摻雜著大量冗余的、混亂的、虛假的甚至是有害的內(nèi)容,數(shù)據(jù)對(duì)象的價(jià)值密度被不斷降低。但是,大數(shù)據(jù)倡導(dǎo)者仍努力從不確定中尋找確定性的結(jié)論,熱情地?fù)肀е@種“混亂”。百度公司董事長兼首席執(zhí)行官李彥宏在百度聯(lián)盟大會(huì)上就曾表示:“現(xiàn)在每天產(chǎn)生大量數(shù)據(jù),但很多是沒有價(jià)值的數(shù)據(jù),沒有顯示出足夠的威力?!睌?shù)據(jù)分析不可能不經(jīng)過篩選而維持其完全原始的狀態(tài),這些數(shù)據(jù)盡管已經(jīng)覆蓋了數(shù)以百萬計(jì)的用戶群體,但依然有其局限性,真正需要的數(shù)據(jù)可能被更多混亂的海量“大”數(shù)據(jù)所掩蓋和淹沒。諸如此類的“魏則西事件”加劇了人們對(duì)數(shù)據(jù)“真?zhèn)巍钡膿?dān)心,著名導(dǎo)演尤小剛在談到利用大數(shù)據(jù)進(jìn)行創(chuàng)作時(shí)就提醒說:“如果僅僅把浮于表面上的炒作結(jié)果放進(jìn)去,很可能對(duì)文化建設(shè)造成某些破壞和誤導(dǎo)。”
被剝離語境的大數(shù)據(jù)將毫無意義。數(shù)據(jù)在經(jīng)過篩選簡化套入模型時(shí),其語境常常難以評(píng)估和保留。過去的社會(huì)學(xué)家和人類學(xué)家是通過問卷調(diào)查、訪談、觀察以及對(duì)照實(shí)驗(yàn)來搜集關(guān)于人類關(guān)系的數(shù)據(jù),并用這些數(shù)據(jù)來描述人類的“個(gè)人關(guān)系網(wǎng)絡(luò)”。社交網(wǎng)站興起后,大量研究者則常常是通過社交媒體去收集分析用戶信息,借此描述人們的社交關(guān)系。盡管社交網(wǎng)絡(luò)大數(shù)據(jù)是建立在聯(lián)系的緊密度上,但聯(lián)系的緊密度不等同于關(guān)系的緊密度,兩個(gè)沒聯(lián)系的人也不一定沒關(guān)系,兩個(gè)有關(guān)系的人也不一定有聯(lián)系。舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中就講到,只有能夠想象并重建人們行為的發(fā)生語境,你所觀察到的行為才有意義,缺乏對(duì)行為語境的了解,就不可能推出任何因果關(guān)系,也無法理解人們的行為原因。大數(shù)據(jù)面臨處理語境問題的挑戰(zhàn)。
大數(shù)據(jù)造成新的“數(shù)字鴻溝”。大數(shù)據(jù)時(shí)代,來自硬件的數(shù)字鴻溝在縮小,而來自軟件的數(shù)字鴻溝在擴(kuò)大。一是擁有數(shù)據(jù)的差別。例如,一些數(shù)據(jù)免費(fèi)使用,一些數(shù)據(jù)有償使用,還有一些數(shù)據(jù)嚴(yán)禁流出,這就導(dǎo)致了數(shù)據(jù)獲取的差別;一些數(shù)據(jù)資源豐富且使用權(quán)限較大,而另一些卻很少有機(jī)會(huì)拿到“數(shù)據(jù)通行證”,這就造成了數(shù)據(jù)儲(chǔ)備使用的差別。二是公眾利用數(shù)據(jù)的能力不同。在大數(shù)據(jù)時(shí)代,非結(jié)構(gòu)化數(shù)據(jù)往往占有很大的比例,同樣,擁有數(shù)據(jù)并不代表著能夠利用數(shù)據(jù)。世界經(jīng)濟(jì)論壇發(fā)布的《2015年全球信息技術(shù)報(bào)告》指出,各國之間的數(shù)字鴻溝正在擴(kuò)大。在技術(shù)大步前進(jìn)時(shí),這個(gè)問題更加令人擔(dān)憂。欠發(fā)達(dá)國家有可能會(huì)更加落后,必須盡快采取具體行動(dòng),應(yīng)對(duì)這樣的局面。
大數(shù)據(jù)存在隱私安全的倫理問題。技術(shù)進(jìn)步不可避免會(huì)帶來一些社會(huì)問題,大數(shù)據(jù)也不例外。大數(shù)據(jù)分析不僅面臨傳統(tǒng)的物理安全、網(wǎng)絡(luò)安全、數(shù)據(jù)安全等問題,還面臨新的隱私保護(hù)和信任安全問題。360公司董事長周鴻祎說過:“大數(shù)據(jù)時(shí)代可以不斷采集數(shù)據(jù),當(dāng)看起來是碎片的數(shù)據(jù)匯總起來,每個(gè)人就變成了透明人。每個(gè)人在干什么、想什么,云端全部都知道?!贝髷?shù)據(jù)讓我們時(shí)刻暴露在“第三只眼”之下。京東商城、天貓商城在時(shí)刻監(jiān)視著我們的購物習(xí)慣,谷歌公司、360公司在監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,微信、QQ在監(jiān)視著我們的社交關(guān)系,我們無時(shí)無刻不在被監(jiān)視、被數(shù)據(jù)化。盡管許多大數(shù)據(jù)的提供者盡力消除數(shù)據(jù)中的個(gè)人信息,但身份重新被確認(rèn)的風(fēng)險(xiǎn)仍然很大,不法分子仍可以從大量的公共數(shù)據(jù)集中推斷出個(gè)人信息并進(jìn)行售賣。