陳瞳 林捷
摘要:“大數(shù)據(jù)”,這個(gè)現(xiàn)在大家耳熟能詳?shù)拿~,到底是怎么一回事?雖然大數(shù)據(jù)已經(jīng)為人所知,但是大數(shù)據(jù)到底是怎么一回事,可能還是有很多人沒有搞明白,甚至還有某些誤區(qū)。該文就大數(shù)據(jù)的起源開始述說,來解釋大數(shù)據(jù),從大數(shù)據(jù)的總體技術(shù)架構(gòu)講到大數(shù)據(jù)應(yīng)用,闡明大數(shù)據(jù)技術(shù)里的各種關(guān)系以及大數(shù)據(jù)在技術(shù)之外還包含什么,它們之間有什么聯(lián)系等,最后總結(jié)全文。
關(guān)鍵詞:大數(shù)據(jù);起源;技術(shù)架構(gòu);大數(shù)據(jù)應(yīng)用;關(guān)系
中文分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)13-0010-02
1概述
自從2013年成為大數(shù)據(jù)元年,“大數(shù)據(jù)”這個(gè)名詞越來越多地進(jìn)入了人們的視野,大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用也越發(fā)受到追捧,這個(gè)名詞已然成為了當(dāng)前社會科學(xué)領(lǐng)域的一種時(shí)尚或者時(shí)髦。即便不從事科研工作或者在科技領(lǐng)域甚至其平日里不需要接觸大數(shù)據(jù)概念的人們也對此熟悉,就可以類比成平日里漫天飛舞的廣告,雖然人們不深究廣告中所賣的東西的具體內(nèi)涵,但就其名字來講已經(jīng)了然于胸。
雖然大數(shù)據(jù)變成熱門話題是近幾年的事情,但其實(shí)大數(shù)據(jù)的概念是早就存在了的。對于“大數(shù)據(jù)”這三個(gè)字中的“大”字,可以理解成是快速發(fā)展的意思,因此已非常貼切地反映出了大數(shù)據(jù)發(fā)展的歷史性和快速增長性。大數(shù)據(jù)的歷史可以追溯到歷史上的1890年,也就是離現(xiàn)在大約一百二十多年(一個(gè)多世紀(jì))前,美國的一位統(tǒng)計(jì)學(xué)家赫爾曼·霍爾瑞斯發(fā)明的一臺電動(dòng)設(shè)備。這臺以普查人口數(shù)據(jù)為目的而出世的設(shè)備使得歷年完成美國調(diào)查統(tǒng)計(jì)人口數(shù)據(jù)的周期從8年時(shí)間縮短到了僅用1年時(shí)間。如此震撼人心的結(jié)果立馬傳遍了全世界,也由此開啟了數(shù)據(jù)處理的新紀(jì)元。
2什么是大數(shù)據(jù)
什么才是大數(shù)據(jù)?便于理解,以百度利用實(shí)時(shí)大數(shù)據(jù)分析,并進(jìn)行可視化處理后推出的百度通勤圖來解釋大數(shù)據(jù)。以下圖一就是以北京市為例的通勤圖大數(shù)據(jù)了,該圖具有實(shí)時(shí)、動(dòng)態(tài)、基于地理位置可定位、縮放等功能。我們可以通過網(wǎng)址:http://renqi.map.baidu.com/traffic/來查詢。
圖1展示的內(nèi)容就是基于大數(shù)據(jù)技術(shù)里典型的大數(shù)據(jù)分析、數(shù)據(jù)處理和數(shù)據(jù)可視化等IT技術(shù),而其處理的原始數(shù)據(jù)就是海量的北京市早晨上班人員的出勤數(shù)據(jù)。一般來講,從大數(shù)據(jù)的字面意思人手,作為形容詞的“大”是當(dāng)前社會步入大數(shù)據(jù)時(shí)代的主要原因,因此理解大數(shù)據(jù)可以先從“大”這個(gè)字開始。雖然大數(shù)據(jù)的特點(diǎn)在于“大”,但是大數(shù)據(jù)的重要價(jià)值并不在于此,而在于分析出隱藏在大數(shù)據(jù)內(nèi)部的、各類數(shù)據(jù)之間的可利用的價(jià)值。而這種能夠被挖掘出的可利用價(jià)值,才是大數(shù)據(jù)的價(jià)值所在。圖1正是利用百度搜集到的大規(guī)模數(shù)據(jù)來挖掘、分析出來的結(jié)果。
針對大數(shù)據(jù)技術(shù),完整的可以分為4層堆棧式技術(shù)架構(gòu)來理解。在第一層(基礎(chǔ)層)上,主要提供了一個(gè)高度自動(dòng)化且可擴(kuò)展、計(jì)算和存儲的大數(shù)據(jù)平臺。作為底層,針對這層的rr技術(shù),主要是由專門從事大數(shù)據(jù)架構(gòu)方面軟件開發(fā)和性能優(yōu)化的研究人員或軟件工程師完成的,屬于大數(shù)據(jù)技術(shù)的基礎(chǔ)架構(gòu)。在第二層(管理層)上,主要涉及數(shù)據(jù)的存儲和管理,一般由大數(shù)據(jù)的管理平臺——數(shù)據(jù)庫管理系統(tǒng)(DBMS)提供來管理各類數(shù)據(jù)。這個(gè)也一般多屬于軟件行業(yè)工作者中從事數(shù)據(jù)庫相關(guān)工作人員的工作范圍。在第三層(分析層)上,主要涉及大數(shù)據(jù)應(yīng)用前所需的大數(shù)據(jù)分析,一般需要基于統(tǒng)計(jì)學(xué)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法。在這層上做事的一般屬于數(shù)據(jù)科學(xué)家,并可以借助大數(shù)據(jù)分析平臺事半功倍。在第四層(應(yīng)用層)上,主要涉及一些具體的大數(shù)據(jù)應(yīng)用,比如幫助企業(yè)進(jìn)行決策和為終端客戶提供服務(wù)等,會和大數(shù)據(jù)預(yù)測技術(shù)相關(guān)。在這層上的應(yīng)用主要是根據(jù)具體用戶需求來的。因大數(shù)據(jù)應(yīng)用的需求越來越廣,大數(shù)據(jù)技術(shù)也跟著不斷地提高和發(fā)展。由大數(shù)據(jù)技術(shù)的分類角度也可以看出,大數(shù)據(jù)的內(nèi)涵里不僅僅包含著IT技術(shù)。從這4層的架構(gòu)來看:越是高級層,IT技術(shù)越是需要和其他領(lǐng)域的知識相結(jié)合。
大數(shù)據(jù)技術(shù)的最終目的,是為了大數(shù)據(jù)應(yīng)用。現(xiàn)在就先以參考文獻(xiàn)為例說明。首先這是一篇典型的大數(shù)據(jù)應(yīng)用文獻(xiàn),而寫這篇論文的研究者不算典型的IT行業(yè)從業(yè)者。根據(jù)介紹可以了解到作者研究的方向:一個(gè)是可持續(xù)發(fā)展,一個(gè)是經(jīng)濟(jì)地理。他們兩者的共通性可以看作在經(jīng)濟(jì)領(lǐng)域,但和IT領(lǐng)域還是有一定偏差的。從這里也可以看出,做大數(shù)據(jù)研究的,特別是作大數(shù)據(jù)應(yīng)用研究的,可以算作復(fù)合型人才。他們在具備大數(shù)據(jù)知識的同時(shí),必然具備其他領(lǐng)域的知識,特別對于做大數(shù)據(jù)應(yīng)用的研究者來講,在其他領(lǐng)域的知識儲備更多于大數(shù)據(jù)領(lǐng)域。這篇文章研究的領(lǐng)域是人文一經(jīng)濟(jì)地理學(xué)界??v觀全文可以看出作者具備優(yōu)秀的統(tǒng)計(jì)分析能力、邏輯歸納能力。他所要進(jìn)行應(yīng)用的大數(shù)據(jù)也不是簡單的現(xiàn)成的數(shù)據(jù),需要先通過合理的邏輯歸納整理。在這個(gè)前期準(zhǔn)備需要將區(qū)域劃分,并對區(qū)域中的數(shù)據(jù)通過點(diǎn)、線、面的方式進(jìn)行數(shù)據(jù)整理的過程,就需要非常深厚的專業(yè)知識和數(shù)學(xué)思維能力。否則,即便數(shù)據(jù)處理的方法都沒錯(cuò),得到的結(jié)果價(jià)值的有效性和完整性也是打了折扣的。有了這樣的數(shù)據(jù)準(zhǔn)備,再進(jìn)行的大數(shù)據(jù)分析得到城市交通可達(dá)性的評價(jià)結(jié)果,這個(gè)大數(shù)據(jù)分析也不是大眾眼里一般意義上的對數(shù)據(jù)進(jìn)行類似Excel表格那樣簡單的運(yùn)算得到的,而是需要基于一定專業(yè)背景下的知識,需要采用合適的算法得出的。可以理解成需要將大數(shù)據(jù)技術(shù)嵌入到原有的傳統(tǒng)的區(qū)域空間結(jié)構(gòu)算法中。而對于原始的算法來講,我們也可以推演出目前傳統(tǒng)的每一行領(lǐng)域在做大數(shù)據(jù)分析時(shí)多少已經(jīng)包含了IT技術(shù),而加入了大數(shù)據(jù)的應(yīng)用勢必是加入了數(shù)字處理、IT技術(shù)的成分。最后在得到分析結(jié)果后,對于數(shù)據(jù)的可視化環(huán)節(jié)在大數(shù)據(jù)里也是屬于典型的大數(shù)據(jù)技術(shù)。而在藝術(shù)領(lǐng)域,比如文獻(xiàn)中提到的:對于傳統(tǒng)音樂的大數(shù)據(jù)應(yīng)用來講,也需要結(jié)合除了IT技術(shù)之外的其他文人領(lǐng)域(心理學(xué)、統(tǒng)計(jì)學(xué)、文化生態(tài)學(xué)、社會學(xué)等)的學(xué)科理念和方法,才能將傳統(tǒng)音樂研究做得更好,促進(jìn)傳統(tǒng)音樂的發(fā)展。
當(dāng)然上述例子不僅闡明了大數(shù)據(jù)屬于交叉領(lǐng)域的學(xué)科,大數(shù)據(jù)技術(shù)應(yīng)用需要結(jié)合人文的力量,也可以闡明大數(shù)據(jù)應(yīng)用和分析處理所擁有的廣度和深度的問題,但是對于大數(shù)據(jù)的深度來講,這個(gè)還是屬于大數(shù)據(jù)應(yīng)用的范疇,更深入的大數(shù)據(jù)更主要的是要看大數(shù)據(jù)分析、挖掘這一層次的內(nèi)容(大數(shù)據(jù)分析服務(wù)于大數(shù)據(jù)應(yīng)用)。
除此,目前國內(nèi)相繼也有部分學(xué)者在他們的論文中有所涉及人文思想下的大數(shù)據(jù)觀,比如黃山學(xué)院的呂正兵在《三重視域下的大數(shù)據(jù)觀》里提到,自然科學(xué)希望用數(shù)據(jù)來客觀描述世界,人文社會科學(xué)希望用數(shù)據(jù)來主觀解釋世界。這種緊張、矛盾的關(guān)系已經(jīng)引起了學(xué)術(shù)界的探討,如去年日本ICA會議中大數(shù)據(jù)分會的主題就是“大數(shù)據(jù):批判性與可選擇性”。學(xué)術(shù)界和產(chǎn)業(yè)界都需要在認(rèn)識論的基礎(chǔ)上來理解大數(shù)據(jù),考慮大數(shù)據(jù)背后的人文、社會屬性。作者由此提出了三重大數(shù)據(jù)觀,其中整合視域就是指需要跨學(xué)科合作。文中指出通過大數(shù)據(jù)來解決社會問題,需要交叉學(xué)科來完成,各學(xué)科之間相互合作,不是單純某個(gè)學(xué)科能夠勝任的。西安電子科技大學(xué)的李瑩在《大數(shù)據(jù)時(shí)代行動(dòng)“可數(shù)據(jù)化”的人文關(guān)懷》里提到,大數(shù)據(jù)時(shí)代科技的進(jìn)步,使得不被外界關(guān)注的普通人的行為數(shù)據(jù)都被精確地記錄下來。這種持續(xù)性的關(guān)注帶來了生活的便利,也甚至不用大數(shù)據(jù)搜索就能通過大數(shù)據(jù)定位來找到每個(gè)個(gè)體,但這種關(guān)注也伴隨著監(jiān)視,令人不安。因此,要實(shí)現(xiàn)人性中的自由和便利這兩個(gè)屬于自我的維度時(shí),在這個(gè)原有生活方式和平衡已經(jīng)被大數(shù)據(jù)打破的今天,是否可以通過人文關(guān)懷來平衡?
3總結(jié)
由此可以看出,大數(shù)據(jù)可以理解為一種交叉學(xué)科,在這個(gè)領(lǐng)地原本是不存在東西的,它是科學(xué)技術(shù)與人文社會知識結(jié)合的產(chǎn)物,在數(shù)據(jù)爆發(fā)性增長的當(dāng)下,大數(shù)據(jù)應(yīng)時(shí)代需求而生。但大數(shù)據(jù)也是很早就有的,他可以追溯到上百年前,人們已經(jīng)利用信息技術(shù)和數(shù)據(jù)統(tǒng)計(jì)的結(jié)合來解決了實(shí)際重大問題。數(shù)字時(shí)代大勢所趨,如果想發(fā)揮大數(shù)據(jù)真正的優(yōu)勢、共享它原本的意義,那么大數(shù)據(jù)需集合自身特點(diǎn),基于4V,注重科技與人文的交叉,做好大數(shù)據(jù)應(yīng)用,做好5V,推動(dòng)社會的發(fā)展和時(shí)代的進(jìn)步。