◆李東興
作者:李東興,北京師范大學(xué)全球變化與地球系統(tǒng)科學(xué)研究院助理工程師,研究方向為高性能計算、大數(shù)據(jù)分析與處理(100875)。
李克強總理在2014年國務(wù)院會議上曾指出:“積極支持云計算、物聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)絡(luò)的發(fā)展,催生基于云計算的在線研發(fā)設(shè)計、教育醫(yī)療、智能制造等新業(yè)態(tài)。在疾病防治、災(zāi)害預(yù)防、社會保障、電子政務(wù)等領(lǐng)域開展大數(shù)據(jù)應(yīng)用示范?!贝髷?shù)據(jù)洶涌來襲,同互聯(lián)網(wǎng)的出現(xiàn)一樣,絕不僅僅是信息技術(shù)領(lǐng)域的革命,還是啟動透明政府、創(chuàng)造無限商機(jī)、加快企業(yè)創(chuàng)新、引領(lǐng)社會變革的利器[1]?;ヂ?lián)網(wǎng)、SNS和傳感器技術(shù)的發(fā)展使得每一個網(wǎng)民成為大數(shù)據(jù)的貢獻(xiàn)者,當(dāng)然也是大數(shù)據(jù)的消費者和受益者。隨著人們對數(shù)據(jù)重視程度的提升和收集數(shù)據(jù)意識的增強,大數(shù)據(jù)正在不斷改變?nèi)藗兊墓ぷ?、生活和思維方式。
數(shù)據(jù)指客觀事物的符號表示,包括文字、聲音、圖形圖像等多種表現(xiàn)形式。信息是把數(shù)據(jù)放置到一定的情境中,對數(shù)字的解釋。與信息不同,數(shù)據(jù)是信息的數(shù)字化記錄,是信息的載體,是與語義不可分隔的。大數(shù)據(jù)(Big Data),指的是數(shù)據(jù)規(guī)模巨大到無法通過傳統(tǒng)工具,在合理的時間內(nèi)達(dá)到收集、存儲、管理、處理、維護(hù)并整理成為服務(wù)于企業(yè)和社會的更積極的信息[1]。
從大數(shù)據(jù)的定義可以看出,之所以稱為大數(shù)據(jù),其一是數(shù)據(jù)量大到一定程度。但是,具體多大的數(shù)據(jù)才能稱之為“大”,業(yè)界也沒有統(tǒng)一的標(biāo)準(zhǔn)。當(dāng)前,數(shù)據(jù)正在呈指數(shù)級增長趨勢,十年之前TB甚至GB級別的數(shù)據(jù)可能是大數(shù)據(jù),現(xiàn)在達(dá)到PB級別的數(shù)據(jù)才能稱為大數(shù)據(jù),再過一段時間,也許ZB級別的數(shù)據(jù)方能稱為大數(shù)據(jù)。其二是數(shù)據(jù)價值大。大數(shù)據(jù)之“大”更多的意義在于人類可以“分析和使用”的數(shù)據(jù)在大量增加,通過對這些數(shù)據(jù)本身及它們內(nèi)在聯(lián)系的整合和分析,人類可以發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來“大知識”“大智慧”,更好地服務(wù)全社會,推動智慧地球朝著更文明的方向發(fā)展。
大數(shù)據(jù)技術(shù)是指從各種各樣類型的海量數(shù)據(jù)中,快速獲得有價值信息的技術(shù)。整個過程包括大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用。其中大數(shù)據(jù)的存儲與管理、大數(shù)據(jù)的分析與挖掘是整個過程的核心。
與小數(shù)據(jù)相比,大數(shù)據(jù)有4V特征,即:Volume、Velocity、Variety、Value。
Volume 數(shù)據(jù)量巨大,表現(xiàn)為存儲量和計算量巨大。目前達(dá)到PB級容量的大數(shù)據(jù)出現(xiàn)在眾多領(lǐng)域,據(jù)麥肯錫估計,全球企業(yè)2010年硬盤上存儲了超過7 EB的新數(shù)據(jù),消費者在PC等設(shè)備上存儲的新數(shù)據(jù)超過了6 EB(相當(dāng)于美國國會圖書館中存儲數(shù)據(jù)的4000多倍[1])。我國建成的四大超級計算機(jī)中心,不僅存儲容量達(dá)到PB級,其浮點計算能力也達(dá)到億萬億次每秒。
Velocity 高速,表現(xiàn)為大數(shù)據(jù)量的增長速度日新月異;大數(shù)據(jù)的存儲、傳輸、更新、處理等技術(shù)發(fā)展突飛猛進(jìn)。據(jù)Facebook統(tǒng)計,每秒有4.1萬張照片上傳,2011年以發(fā)圖1400億張成為世界上最大的照片庫。
Variety 多樣性,表現(xiàn)為:數(shù)據(jù)來源增多;數(shù)據(jù)類型繁多;數(shù)據(jù)表現(xiàn)形式不斷擴(kuò)展。從數(shù)據(jù)來源上看,傳統(tǒng)數(shù)據(jù)以交易事務(wù)型數(shù)據(jù)為主,而互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,則帶來了微博、社交網(wǎng)絡(luò)、傳感器等多種數(shù)據(jù)來源;從數(shù)據(jù)類型上看,傳統(tǒng)數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,互聯(lián)網(wǎng)數(shù)據(jù)以半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為主,大數(shù)據(jù)的數(shù)據(jù)類型是幾種類型的復(fù)雜組合,其中半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)占80%左右;從數(shù)據(jù)的表現(xiàn)形式上看,從傳統(tǒng)的聲音、文字、圖片不斷擴(kuò)展到網(wǎng)絡(luò)日志、系統(tǒng)日志、視頻、地圖等形式。
Value 價值,表現(xiàn)為數(shù)據(jù)價值大和價值密度低。從數(shù)據(jù)價值上看,小數(shù)據(jù)的價值適用于小眾群體和對小范圍地區(qū)更有實用意義,大數(shù)據(jù)的價值不僅具有普及性、普遍性和說服力,而且更有個性化,能說明任何實體之間的相關(guān)性;從價值密度上看,大數(shù)據(jù)的價值密度低,假如同種類型的數(shù)據(jù)的潛在價值是固定的,數(shù)據(jù)量越大,價值密度必然越小。以機(jī)房網(wǎng)絡(luò)監(jiān)控日志為例,要查看的僅僅是報警和錯誤日志。
大數(shù)據(jù)的核心和本質(zhì)是預(yù)測,通過分析方法和工具探索隱藏在數(shù)據(jù)表面背后的本質(zhì)和規(guī)律,從而使企業(yè)在未來的商業(yè)活動中更具有主動性,政府制定社會治理決策更準(zhǔn)確、更有針對性,個人在未來的生活和學(xué)習(xí)活動中更能找到適合自己的方式方法。這一過程又稱“知識發(fā)現(xiàn)”。著名的“啤酒與尿布”理論,沃爾瑪超市利用大數(shù)據(jù)發(fā)現(xiàn)了這一規(guī)律并應(yīng)用到商業(yè)活動中,從而使自身的利潤獲得質(zhì)的飛躍;美國管理學(xué)家、統(tǒng)計學(xué)家愛德華·戴明所言“除了上帝,任何人都必須用數(shù)據(jù)說話”,引領(lǐng)奧巴馬政府上任伊始就樹立了開放型政府的目標(biāo);作為“世界上量化最極致的人”,美國人克里斯·丹西克里斯利用谷歌眼鏡等無線傳感設(shè)備每天記錄自己的飲食、情緒變化等,通過這些數(shù)據(jù),他可以把自己的身體和情緒調(diào)整到最健康的狀態(tài)。
大數(shù)據(jù)分析是一門涉及計算機(jī)科學(xué)、信息科學(xué)、統(tǒng)計學(xué)等多門學(xué)科的交叉學(xué)科,大數(shù)據(jù)的應(yīng)用可以擴(kuò)展到與人類相關(guān)的任何領(lǐng)域、任何角落,尤其是社會學(xué)、新聞學(xué)、教育學(xué)等社會學(xué)科。隨著計算機(jī)技術(shù)的進(jìn)步、統(tǒng)計分析水平的提高,越來越多的方法和技術(shù)會應(yīng)用到大數(shù)據(jù)的分析過程中。以下重點介紹目前大數(shù)據(jù)分析涉及的相關(guān)技術(shù)。
人工智能 人工智能是關(guān)于知識的一門學(xué)科,是關(guān)于如何表示知識以及怎樣獲得知識和使用知識的學(xué)科[2]。隨著互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的發(fā)展,大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了主要地位,如電子郵件、圖形圖像、視頻等數(shù)據(jù)資源。結(jié)構(gòu)化數(shù)據(jù)的管理一般通過關(guān)系數(shù)據(jù)庫實現(xiàn),由SQL進(jìn)行分析;非結(jié)構(gòu)化的數(shù)據(jù)分析需要利用自然語言處理、圖像解析、語音識別等技術(shù),而這些技術(shù)正是人工智能的研究領(lǐng)域。將大數(shù)據(jù)與人工智能結(jié)合運用的經(jīng)典是Google語義搜索和Apple的語音識別技術(shù)Siri,這些技術(shù)的進(jìn)步,不僅需要理論的支撐,更需要大數(shù)據(jù)作為基礎(chǔ)[3]。大數(shù)據(jù)與人工智能的結(jié)合已經(jīng)給傳統(tǒng)行業(yè)帶來新的創(chuàng)新模式,其也必將在更廣的領(lǐng)域改變?nèi)祟惖乃季S方式和實踐能力。
數(shù)據(jù)倉庫 數(shù)據(jù)倉庫之父W. H. Inmon認(rèn)為,數(shù)據(jù)倉庫(Data Warehouse,DW)是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程。從W. H. Inmon對數(shù)據(jù)倉庫的定義可以看出,數(shù)據(jù)倉庫有四方面的特征,即面向主題、數(shù)據(jù)集成、隨時間而變化、數(shù)據(jù)不易丟失,這也是數(shù)據(jù)倉庫與關(guān)系數(shù)據(jù)庫的區(qū)別所在。
在大數(shù)據(jù)中,數(shù)據(jù)類型繁多,既有結(jié)構(gòu)化數(shù)據(jù),更存在大量的非結(jié)構(gòu)數(shù)據(jù),針對異構(gòu)數(shù)據(jù)的存儲和融合,應(yīng)采用混合存儲方式。結(jié)構(gòu)化數(shù)據(jù)存儲與處理借助于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,大量的非結(jié)構(gòu)化數(shù)據(jù)則需要借助于NoSQL非關(guān)系型數(shù)據(jù)庫。當(dāng)前大量的非關(guān)系型新型數(shù)據(jù)庫應(yīng)用到大數(shù)據(jù)的存儲中,如面向集合模式自由的文檔數(shù)據(jù)庫MongoDB、基于內(nèi)存的鍵值存儲數(shù)據(jù)庫Redis、分布式MPP架構(gòu)/列存儲數(shù)據(jù)庫HBase等。除了基本的存儲功能,數(shù)據(jù)倉庫還可以用來進(jìn)行信息處理和分析處理,特別是對大數(shù)據(jù)的聯(lián)機(jī)分析處理是其最重要的用途。
數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是指通過特定的計算機(jī)算法對大數(shù)據(jù)進(jìn)行自動分析,從而揭示數(shù)據(jù)的價值、發(fā)展趨勢和數(shù)據(jù)之間的相關(guān)關(guān)系,為決策者提供新的依據(jù)。在大數(shù)據(jù)中挖掘知識就像在礦山中掘金一樣,困難重重,任務(wù)繁重,是一個長期的反復(fù)的過程。大數(shù)據(jù)的積累使得從中提取有用的數(shù)據(jù)成為巨大的挑戰(zhàn)。由于大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,具有4V特性,無法使用傳統(tǒng)工具達(dá)到用戶的訴求。數(shù)據(jù)挖掘很好地將傳統(tǒng)的數(shù)據(jù)分析方法和處理大數(shù)據(jù)的復(fù)雜算法相結(jié)合。數(shù)據(jù)挖掘不僅要發(fā)現(xiàn)隱藏在數(shù)據(jù)內(nèi)部的客觀規(guī)律,而且對相關(guān)領(lǐng)域未來趨勢進(jìn)行預(yù)測。預(yù)測是大數(shù)據(jù)的核心,預(yù)測的技術(shù)支撐就是數(shù)據(jù)挖掘,挖掘數(shù)據(jù)的價值和內(nèi)含的規(guī)律。數(shù)據(jù)挖掘是大數(shù)據(jù)分析的核心技術(shù),只有尋求到更合理的挖掘算法,才能準(zhǔn)確有效地挖掘出大數(shù)據(jù)的真正價值,而且更能實現(xiàn)對動態(tài)發(fā)展數(shù)據(jù)的分析。
分布式技術(shù) 分布式技術(shù)是一種基于網(wǎng)絡(luò)的技術(shù),把網(wǎng)絡(luò)上物理位置不同的、分散的、閑置的資源整合起來,完成大型、復(fù)雜、大數(shù)據(jù)的計算與存儲[4]。該技術(shù)主要是應(yīng)對傳統(tǒng)集中式技術(shù)存在的缺陷而產(chǎn)生的。它的目標(biāo)是充分利用資源和提高大型任務(wù)的完成效率。所以它主要是針對那些大型任務(wù),為了縮短時間,提高效率,通常把任務(wù)按照一定的規(guī)則或算法分配到不同的子節(jié)點,由子節(jié)點完成子任務(wù),然后對每個子結(jié)果進(jìn)行匯總,各個子任務(wù)在不同的子節(jié)點上并行執(zhí)行,在充分利用子節(jié)點資源的同時,也降低了單個節(jié)點的負(fù)載。
分布式技術(shù)從20世紀(jì)80年代至今經(jīng)歷了網(wǎng)格計算、對等計算、并行計算、云計算等幾個階段。進(jìn)入21世紀(jì),Google推出分布式技術(shù)領(lǐng)域的三大典型技術(shù)——GFS、MapReduce、BigTable。當(dāng)前國內(nèi)外把分布式技術(shù)廣泛應(yīng)用于高性能計算領(lǐng)域。分布式技術(shù)在國內(nèi)成功應(yīng)用的案例是我國四大超算中心的建立,使得分布式技術(shù)廣泛應(yīng)用于氣候、環(huán)境、醫(yī)療衛(wèi)生、經(jīng)濟(jì)等領(lǐng)域。另外,很多NoSQL數(shù)據(jù)庫也是借助分布式技術(shù)實現(xiàn)的,如HBase、MogoDB等。
可視化技術(shù) 1983年,耶魯大學(xué)的政治學(xué)教授愛德華·塔夫特系統(tǒng)地考證了人類用“圖形”表達(dá)“數(shù)據(jù)”和“思想”的淵源,整理了種種歷史古籍中的圖形瑰寶,并結(jié)合計算機(jī)的發(fā)展給統(tǒng)計領(lǐng)域帶來的革命,出版了《定量信息的視覺展示》一書[5]。這本書后來被公認(rèn)為是“數(shù)據(jù)可視化”作為一門學(xué)科的開山之作[5]。
人工智能、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等大數(shù)據(jù)技術(shù)是面向機(jī)器和數(shù)據(jù)分析專業(yè)人員的,而可視化技術(shù)面向的是最終用戶。不管是數(shù)據(jù)分析專業(yè)人員還是普通的用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析的最終目標(biāo)??梢暬梢灾庇^展示數(shù)據(jù)之間的內(nèi)在聯(lián)系以及可能的潛在趨勢,讓數(shù)據(jù)說話,讓觀眾看到更形象的結(jié)果,決策才能更有信服力,目標(biāo)才更能接近成功。
互聯(lián)網(wǎng)、通訊技術(shù)和傳感器技術(shù)的發(fā)展使得全球數(shù)據(jù)量呈指數(shù)級增長趨勢。美國互聯(lián)網(wǎng)中心和IBM研究中心統(tǒng)計,從2011年開始,數(shù)據(jù)每年增長50%,每兩年翻一番。而大數(shù)據(jù)技術(shù)只有飛速發(fā)展方能解決不斷增長的數(shù)據(jù)分析需求。
人類已經(jīng)進(jìn)入一個無時不網(wǎng)、無處不網(wǎng)的“智慧世界”時代,大數(shù)據(jù)將在人們的社交網(wǎng)絡(luò)、電子商務(wù)等互聯(lián)網(wǎng)領(lǐng)域更好地服務(wù)人們的生活。更重要的是,其將在社會管理、經(jīng)濟(jì)管理、醫(yī)療與健康、數(shù)據(jù)新聞、物聯(lián)網(wǎng)、教育科技等諸多領(lǐng)域有更好的應(yīng)用并推動各領(lǐng)域的發(fā)展與進(jìn)步。但大數(shù)據(jù)的發(fā)展也面臨諸多挑戰(zhàn)。大量的數(shù)據(jù)中心每年正在成倍出現(xiàn),1998年,美國擁有432所數(shù)據(jù)中心,專門負(fù)責(zé)各類數(shù)據(jù)的存儲和維護(hù)工作;2010年,數(shù)據(jù)中心的總數(shù)躍升到2094所,翻了幾倍。就像物流成為電子商務(wù)的發(fā)展瓶頸一樣,制約數(shù)據(jù)中心發(fā)展的核心難題是日益攀升的能耗問題。未來可能通過收集更多的數(shù)據(jù)中心的能耗數(shù)據(jù)并進(jìn)行大數(shù)據(jù)挖掘技術(shù),破除影響其發(fā)展的屏障。
另外,隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)收集的途徑多種多樣,數(shù)據(jù)門類繁雜,可能會造成大量私密數(shù)據(jù)泄露和“人肉搜索”等不道德現(xiàn)象。因此,針對未來大數(shù)據(jù)運動的狂潮,應(yīng)該法律法規(guī)先行,并在數(shù)據(jù)收集、管理、處理和共享過程中建立完善的道德規(guī)范。
數(shù)據(jù)的整理和管理也是大數(shù)據(jù)時代面臨的重大挑戰(zhàn)。在這個數(shù)據(jù)爆炸時代,數(shù)據(jù)的數(shù)量、速度和多樣性都在呈現(xiàn)爆炸式增長,大量數(shù)據(jù)相互聯(lián)系、緊密交織在一起,而且呈螺旋狀發(fā)展,因此,開發(fā)高效的工具、方法和規(guī)范以及有效地歸類、整理、管理這些數(shù)據(jù)是必要的?!?/p>
[1]朱淑華.暨南大學(xué)公開課:開啟“智慧生活”的大數(shù)據(jù)[EB/OL].http://www.icourses.cn/viewVCourse.action?course Code=10559V003.
[2]張妮,徐文尚,王文文.人工智能技術(shù)發(fā)展及應(yīng)用研究綜述[J].煤礦機(jī)械,2009,30(2):4-7.
[3]王喜文.人工智能與大數(shù)據(jù)怎樣結(jié)合?[N].中國電子報,2014-7-17(3).
[4]寧葵,嚴(yán)毅.分布式計算技術(shù)發(fā)展研究[J].微機(jī)發(fā)展,2004,14(8):14-16.
[5]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活[M].廣西:廣西師范大學(xué)出版社,2012.