周世佳
(山西大學(xué)科學(xué)技術(shù)哲學(xué)研究中心,山西 太原 030006)
隨著科學(xué)技術(shù)的飛速發(fā)展,大數(shù)據(jù)時代悄然向我們走來。所謂大數(shù)據(jù)(big data),也稱巨量資料或海量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)具有“5V”特征:巨量(Volume)、多樣(Variety)、高速(Velocity)、真實(Veracity)和高價值(Value)?!按髷?shù)據(jù)”是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享,交叉復(fù)用,形成的智力資源和知識服務(wù)能力。大數(shù)據(jù)不僅是一種人類歷史上前所未有的大規(guī)模數(shù)據(jù)集,而且是全社會的寶貴生產(chǎn)資料。大數(shù)據(jù)概念,將對經(jīng)濟(jì)建設(shè)、社會發(fā)展和科學(xué)研究產(chǎn)生深遠(yuǎn)影響。伴隨大數(shù)據(jù)產(chǎn)生的大數(shù)據(jù)思維是人類為解決大數(shù)據(jù)帶來的數(shù)據(jù)采集、數(shù)據(jù)處理和結(jié)果可視化等問題而出現(xiàn)的,是大數(shù)據(jù)技術(shù)應(yīng)用的前提。
1980年,著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》一書中,已經(jīng)提到了大數(shù)據(jù)問題。進(jìn)入21世紀(jì)以來,人類社會的科學(xué)技術(shù)突飛猛進(jìn)。大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。互聯(lián)網(wǎng)上的數(shù)據(jù)每年增長50%,每兩年便將翻一番,而目前世界上90%以上的海量數(shù)據(jù)是最近幾年才產(chǎn)生的?!按髷?shù)據(jù)”將是創(chuàng)新競爭的下一個前沿,開始大規(guī)模應(yīng)用在財政政策、教育、醫(yī)療、農(nóng)業(yè)等方面。2012年3月,美國政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”(Big Data Research and Development Initiative)[1],提出了美國的大數(shù)據(jù)國家政策,這是全球范圍內(nèi)第一個國家層面的大數(shù)據(jù)戰(zhàn)略報告。日本、英國等發(fā)達(dá)國家也先后對大數(shù)據(jù)的相關(guān)應(yīng)用提出了自己的戰(zhàn)略計劃。大數(shù)據(jù)是本世紀(jì)最大的科學(xué)問題,是一場革命,龐大的數(shù)據(jù)來源所帶來的量化轉(zhuǎn)變將在學(xué)術(shù)界、企業(yè)界和政界中產(chǎn)生深刻的影響。
隨著大數(shù)據(jù)概念在計算機(jī)科學(xué)、移動互聯(lián)網(wǎng)等領(lǐng)域的廣泛討論,以及大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,大數(shù)據(jù)思維的輪廓逐漸清晰起來。大數(shù)據(jù)思維在更多的方面顯示出強(qiáng)大的應(yīng)用潛力。
在傳統(tǒng)科學(xué)方面,越來越多的科研項目正在借助大數(shù)據(jù)思維的力量實現(xiàn)突破。如在電網(wǎng)技術(shù)方面,通過安裝監(jiān)控與傳感設(shè)備,對發(fā)電環(huán)節(jié)、輸變電環(huán)節(jié)、調(diào)度用電環(huán)節(jié)實現(xiàn)全覆蓋,建立智能全景實時電網(wǎng),可對電網(wǎng)絕緣子放電頻譜進(jìn)行監(jiān)測,掌握用戶用電量數(shù)據(jù),實現(xiàn)電網(wǎng)安全穩(wěn)定運行和智能調(diào)度[2]。
在復(fù)雜性科學(xué)方面,從上帝粒子被發(fā)現(xiàn)存在到全球最快超級計算機(jī)“天河二號”投入運行,大數(shù)據(jù)思維的應(yīng)用正在影響這個時代。上帝粒子的發(fā)現(xiàn)得益于大數(shù)據(jù)思維的應(yīng)用,在粒子物理學(xué)模型中,上帝粒子即希格斯波色子(Higgs Boson)是一種自旋為零的粒子,能夠解釋為何存在質(zhì)量,它是預(yù)言存在的62種基本粒子中最后一種被發(fā)現(xiàn)的粒子。我國的“天河二號”超級計算機(jī)自主創(chuàng)新了新型異構(gòu)多態(tài)體系結(jié)構(gòu),在強(qiáng)化科學(xué)工程計算的同時,可高效支持大數(shù)據(jù)處理、高吞吐率和高安全信息服務(wù)等多類應(yīng)用需求。
從上世紀(jì)40年代計算機(jī)出現(xiàn)到上世紀(jì)90年代計算機(jī)互聯(lián)網(wǎng)迅速發(fā)展,短短50年給人類社會帶來的變化比第一次工業(yè)革命以來還要巨大。移動互聯(lián)網(wǎng)用了不到10年時間就再一次改變世界。隨著集成電路、計算機(jī)技術(shù)的大幅進(jìn)步,PC與移動通信設(shè)備的差別越來越小,互聯(lián)網(wǎng)帶寬越來越寬,手機(jī)、PAD等移動終端均可無縫接入互聯(lián)網(wǎng),移動互聯(lián)網(wǎng)時代就此來臨?;谝苿踊ヂ?lián)的通信服務(wù)、地理信息系統(tǒng)服務(wù)正在為人們生活提供便利。大數(shù)據(jù)時代正在向我們走來。基于大數(shù)據(jù)思維的物聯(lián)網(wǎng)、云計算技術(shù),將在更多方面推動人類社會進(jìn)步。
顯示著巨大潛力的大數(shù)據(jù)思維其特征主要有以下幾個方面:
大數(shù)據(jù)時代里,人與世界的關(guān)系、思維與存在的關(guān)系通過數(shù)據(jù)緊密聯(lián)系起來?;ヂ?lián)網(wǎng)數(shù)據(jù)中心(IDC)預(yù)測,全世界每年創(chuàng)建和復(fù)制的信息的總量,將按照新摩爾定律增長,每兩年翻一番。2011年預(yù)計僅1.8ZB,2012年為2.8ZB,2020年將達(dá)到40ZB。數(shù)據(jù)增長迅速的情況下,與以隨機(jī)樣本為核心的小數(shù)據(jù)思維形成鮮明對比的是,以全體數(shù)據(jù)為核心的大數(shù)據(jù)思維顯現(xiàn)出巨大能量,即整體性。在大數(shù)據(jù)思維的背景下,涌現(xiàn)性成為描述全體數(shù)據(jù)最合適的詞匯。全體大數(shù)據(jù)整體具有小數(shù)據(jù)或者所有小數(shù)據(jù)所不具有的屬性、特征和功能等,這就是大數(shù)據(jù)思維的涌現(xiàn)性。也就是說,當(dāng)我們把大數(shù)據(jù)拆分為各個小部分時,大數(shù)據(jù)所具有的這些屬性、特征和功能等便不可能體現(xiàn)在小數(shù)據(jù)上或者所有小數(shù)據(jù)上。從老子“有生于無,萬物生于有”到霍蘭“整體大于部分之和”“多源于少,復(fù)雜來自于簡單[3]”的表述均揭示了涌現(xiàn)的廣泛存在,同樣,涌現(xiàn)性也成為大數(shù)據(jù)思維的重要屬性。
大數(shù)據(jù)來源于物理世界中業(yè)已存在的數(shù)據(jù)和人類社會中后天產(chǎn)生的數(shù)據(jù)。按數(shù)據(jù)種類劃分,大數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。在統(tǒng)計學(xué)上,隨機(jī)抽樣是一項有效的統(tǒng)計方法,它的最大優(yōu)點是在根據(jù)樣本推論總體時,可用概率客觀地預(yù)測推論值的可靠程度,從而使這種推論建立在科學(xué)的基礎(chǔ)上。正因為此,隨機(jī)抽樣在社會調(diào)查和研究中應(yīng)用非常廣泛。但是,所有這些方法只能將樣本的情況較精確顯示,并且抽樣的合理性和對于統(tǒng)計結(jié)果的精確性影響很大。隨機(jī)抽樣無法展示事物全貌,細(xì)節(jié)更無法洞察,統(tǒng)計結(jié)果也會受到主觀性影響。例如,全國人口普查時,利用抽樣調(diào)查方法無法全面準(zhǔn)確掌握人口整體狀況,而不精確的那一小部分也許會影響微觀結(jié)果,甚至全局。在大數(shù)據(jù)時代,如果將所有發(fā)生的數(shù)據(jù)看成一個整體,95%的數(shù)據(jù)將是非結(jié)構(gòu)化的大數(shù)據(jù),僅有5%的數(shù)據(jù)是結(jié)構(gòu)化的小數(shù)據(jù)。相比較說,在大數(shù)據(jù)時代之前的計算機(jī)互聯(lián)網(wǎng)時代,我們所接觸到的信息是如此匱乏,并且只能通過關(guān)系數(shù)據(jù)庫方式來采集、處理這5%的數(shù)據(jù),而對另外95%的數(shù)據(jù)無可奈何。我們在信息缺乏時代執(zhí)迷于5%小數(shù)據(jù)的精確,總是在不斷地提高結(jié)果的精確度,甚至要到小數(shù)點后許多位,而在大數(shù)據(jù)時代,我們必須接受并擁抱95%大數(shù)據(jù)的混雜,即多樣性。在大數(shù)據(jù)時代,通過多樣數(shù)據(jù)考察世界的方式昭示了其非線性特點。與古希臘以來追求因果的古代哲學(xué)、追求線性解決方案的近代科學(xué)相比,大數(shù)據(jù)思維更重視現(xiàn)實世界的非線性特點,大數(shù)據(jù)思維是一種更清晰理解世界、認(rèn)識世界的進(jìn)步思維方式。從本體論看,大數(shù)據(jù)時代的世界本質(zhì)上是非線性的;從方法論看,非線性問題一般都不可以轉(zhuǎn)化為線性問題來處理,只有簡單情況下才將其轉(zhuǎn)化為線性問題,處理非線性問題要用非線性的方法。大數(shù)據(jù)思維在表現(xiàn)出多樣的同時,非線性也成為它的重要特征。
大數(shù)據(jù)的核心是預(yù)測,在數(shù)據(jù)總體量相同時,與單獨分析體量較小的小型數(shù)據(jù)集相比,將眾多小數(shù)據(jù)集歸攏為大數(shù)據(jù)后進(jìn)行處理可得出令人驚訝的結(jié)果,處理結(jié)果可以幫助商品銷售、洞察傳染疫情、改善城市交通甚至可以防止犯罪,對廣泛應(yīng)用的憧憬正是大數(shù)據(jù)概念盛行的原因。大數(shù)據(jù)思維代表了從原因到結(jié)果的因果思維和反向的(從結(jié)果到原因)的相關(guān)思維,具有同樣甚至更高的地位,凸顯了相關(guān)思維追求是什么而不是為什么的務(wù)實精神。從大數(shù)據(jù)中尋求事物相關(guān)性,通過這種相關(guān)思維對可能發(fā)生的事進(jìn)行預(yù)測,是大數(shù)據(jù)思維的最主要目的。在數(shù)理統(tǒng)計中,雖然邏輯關(guān)系(因果關(guān)系)不可以被相關(guān)關(guān)系表征,但統(tǒng)計結(jié)果卻可以幫助人們從大量數(shù)據(jù)中獲得直觀表述。不確定性是20世紀(jì)量子理論以來前沿科學(xué)表現(xiàn)出的突出性質(zhì),“從古至今,科學(xué)的基本目的就是一種對確定性的追求,總是希望將現(xiàn)實中的不確定情形轉(zhuǎn)化為服從確定性規(guī)律的過程[4]”,但是在20世紀(jì)初量子論誕生以后,物理學(xué)便開始關(guān)注不確定性對物理世界的影響。1927年海森堡在“關(guān)于量子論運動學(xué)和力學(xué)的直觀詮釋[5]”論文中,第一次提出了“海森堡不確定性原理”,表示“粒子不再有分別被很好定義的、能被同時觀測的位置和速度,而代之以位置和速度的結(jié)合物的量子態(tài)[6]”?;诮Y(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的多源異構(gòu)的數(shù)據(jù)新分類,以及關(guān)系數(shù)據(jù)庫、非關(guān)系數(shù)據(jù)庫的數(shù)據(jù)處理新局面,大數(shù)據(jù)思維在數(shù)據(jù)類型、數(shù)據(jù)挖掘等領(lǐng)域表現(xiàn)出明顯的不確定性。
并行性與實時性是大數(shù)據(jù)思維在數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)處理等數(shù)據(jù)挖掘的全過程中體現(xiàn)出的特征。在大數(shù)據(jù)思維出現(xiàn)以前,關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS,Relational Database Management System)已經(jīng)發(fā)展的相對成熟,它主要是對結(jié)構(gòu)化數(shù)據(jù)來講的,已經(jīng)擁有完整的產(chǎn)業(yè)鏈。RDBMS是以串行為主要計算方式的數(shù)據(jù)庫,有以下特點:①將數(shù)據(jù)存放在表格(tables)中;②行是數(shù)據(jù)名稱;③列是名稱相應(yīng)位置區(qū)域;④行和列組成一張表;⑤若干表成為數(shù)據(jù)庫(database)[7]。例如甲骨文公司的ORACLE,微軟的SQL Server,IBM的DB2等都是應(yīng)用較廣泛的數(shù)據(jù)庫系統(tǒng),RDBMS的特點決定了它在對于小數(shù)據(jù)系統(tǒng)的一致性和正確性上表現(xiàn)優(yōu)異。當(dāng)RDBMS遇到超大規(guī)模量級的數(shù)據(jù)時,即使通過增加內(nèi)存數(shù)量與容量,升級CPU處理能力,RDBMS的應(yīng)用也會受到較大挑戰(zhàn),只有開發(fā)新系統(tǒng)、應(yīng)用新模型才是解決方法。面向大數(shù)據(jù)的新型計算模型,體現(xiàn)了并行性與實時性的大數(shù)據(jù)思維特征。
大數(shù)據(jù)思維在表現(xiàn)出整體性與涌現(xiàn)性、多樣性與非線性、相關(guān)性與不確定性、并行性與實時性四大特征的同時,它的影響將向更廣泛領(lǐng)域進(jìn)發(fā)。大數(shù)據(jù)思維將對科技與社會的發(fā)展產(chǎn)生深刻的意義。
大數(shù)據(jù)思維把人們從舊的價值觀、發(fā)展觀中解脫出來,復(fù)雜技術(shù)涌現(xiàn)與科技進(jìn)步促使人們開始從大數(shù)據(jù)思維視角獲得可以正確理解世界的角度性工具。這是一場工作、生活和思維的深刻變革。大數(shù)據(jù)思維應(yīng)用前景廣泛,在公共交通、公共安全、社會管理等領(lǐng)域均有大規(guī)模應(yīng)用可能,大數(shù)據(jù)技術(shù)與物聯(lián)網(wǎng)、云計算一道,將會是經(jīng)濟(jì)的新增長點[8]。以數(shù)據(jù)科學(xué)為核心的計算機(jī)技術(shù)迅猛發(fā)展,正在推動大數(shù)據(jù)思維從幕后走向前臺。大數(shù)據(jù)思維的產(chǎn)生將推進(jìn)跨學(xué)科研究的開展,跨學(xué)科研究就是克服傳統(tǒng)思維障礙,打破所有社會科學(xué)與自然科學(xué)間傳統(tǒng)思維壁壘,是人類文化結(jié)構(gòu)發(fā)展的新趨勢。大數(shù)據(jù)思維在這個過程和趨勢中,或?qū)⒔⑵鹑祟愓w、多樣、相關(guān)、并行的新知識觀??茖W(xué)技術(shù)始終是推動人類歷史前進(jìn)的一種進(jìn)步的、革命的力量,大數(shù)據(jù)思維產(chǎn)生于當(dāng)代人類科學(xué)技術(shù)研究的前沿,我們需要厘清大數(shù)據(jù)思維對科技與社會的輻射范圍、影響程度,需要評價大數(shù)據(jù)思維在整個科技史中的地位、作用,更需要對大數(shù)據(jù)思維可能引發(fā)的社會、倫理問題進(jìn)行研判。
我們必須關(guān)注這樣一些重大的問題:大數(shù)據(jù)思維將在哪些方面影響我們的生活?在哪些領(lǐng)域?qū)⒂锌赡軙霈F(xiàn)跨越式的發(fā)展?面對這些問題,在大數(shù)據(jù)思維研究上還需要做更深入的工作,以積極的態(tài)度,迎接大數(shù)據(jù)思維新時代的到來。
[1]The W hite House.Big Data is a Big Deal [EB/OL].2013-10-05.
[2]宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,(4).
[3]J ohn H,Holland.Emergence:From Chaos To Order [M].M A:Helix Books,1998.115-124.
[4]李 堅.不確定性問題初探[D].中國社會科學(xué)院研究生院,2006.27.
[5]Heisenberg,Werner:über den anschaulichen Inhalt der quantentheoretischen Kinematik und Mechanik.Zeitschrift für Physik.1927,43:pp.172–198.
[6]不確定性原理(uncertainty principle)[EB/OL].維基百科,2014-09-22.
[7]覃雄派,王會舉,杜小勇,王珊.大數(shù)據(jù)分析——R DB M S 與M ap R educe 的競爭與共生[J].軟件學(xué)報,2012,(1).
[8]周世佳.山西省實施大數(shù)據(jù)戰(zhàn)略:優(yōu)勢、差距及路徑[J].理論探索,2014,(4):108.