大數(shù)據(jù)技術(shù)發(fā)展的十個前沿方向（上）

2015-03-17 02:10:24吳甘沙

大數(shù)據(jù) 2015年2期

Ten Fronties for Big Data Technologies (Part A)

吳甘沙，男，現(xiàn)任英特爾中國研究院院長。2000年加入英特爾，先后在編程系統(tǒng)實驗室與嵌入式軟件實驗室承擔了技術(shù)與管理職位，期間參與或主持的研究項目有受控運行時、XScale微架構(gòu)、眾核架構(gòu)、數(shù)據(jù)并行編程及高生產(chǎn)率嵌入設備驅(qū)動程序開發(fā)工具等。2011年晉升為首席工程師，共同領導了公司的大數(shù)據(jù)中長期技術(shù)規(guī)劃，主持大數(shù)據(jù)方面的研究，工作重點為大數(shù)據(jù)內(nèi)存分析與數(shù)據(jù)貨幣化。在英特爾工作期間，發(fā)表了10余篇學術(shù)論文，有23項美國專利（10余項成為國際專利），14項專利進入審核期。

1 引言

“大數(shù)據(jù)”的發(fā)展與IT產(chǎn)業(yè)其他領域的發(fā)展相輔相成，近年來互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算和高性能計算等方面的高速發(fā)展從內(nèi)涵上不斷推動大數(shù)據(jù)的技術(shù)演進，從外延上不斷延展大數(shù)據(jù)的應用范圍。

多年來，筆者有幸接觸國內(nèi)外學術(shù)界和工業(yè)界的大數(shù)據(jù)研究，2014年底受清華數(shù)據(jù)科學研究院之邀，把所見、所得、所思總結(jié)為《大數(shù)據(jù)的十個技術(shù)前沿》的演講。這次得到《大數(shù)據(jù)》雜志邀請，將其改為綜述文章，并分為3期刊出，分別為：膨脹宇宙、巴別之難、數(shù)據(jù)有價；軟硬兼施、多快好省、天下三分、分久必合；精益求精、人機消長、智能之爭。筆者嘗試從廣度視角介紹大數(shù)據(jù)發(fā)展前沿的一些技術(shù)趨勢和實踐。限于篇幅，論述可能不夠嚴密，介紹可能不夠深入，唯愿拋磚引玉，激發(fā)同仁的思考和討論。

2 十大前沿方向綜述

大數(shù)據(jù)的根本出發(fā)點是指數(shù)思維方式。美國未來研究院（Institute of the Future）的發(fā)起人Roy Amara提出的Amara法則[1]認為人們往往會高估技術(shù)的短期影響力，而低估技術(shù)的長期影響力。數(shù)據(jù)總量的積累正是如此，在經(jīng)歷很長時間的緩慢增長之后，增長斜率會突然在一個臨界點后急劇增加，變?yōu)楸ㄊ皆鲩L。人們常說：“最近兩年產(chǎn)生的數(shù)據(jù)量相當于人類歷史上產(chǎn)生的數(shù)據(jù)量總和的90%”、“現(xiàn)在產(chǎn)生的數(shù)據(jù)總量每兩年翻一番”。所有這些橋段都指向同一個現(xiàn)象——指數(shù)增長效應。

在過去50年里，指數(shù)效應的主要驅(qū)動力是摩爾定律。英特爾的聯(lián)合創(chuàng)始人之一戈登·摩爾（Gordon Moore）預言：每過18個月，晶體管數(shù)量翻一番，相應地中央處理器（central processing unit，CPU）性能翻番，成本折半，功耗折半。這種指數(shù)增長以鏈式反應的方式波及各個方面，如磁介質(zhì)機械硬盤的容量增長以及主干網(wǎng)帶寬的增長，甚至是每美元能夠買到的數(shù)碼相機的像素數(shù)都呈現(xiàn)了指數(shù)級的增長效應。最后，帶來了數(shù)據(jù)的摩爾定律。

大數(shù)據(jù)發(fā)展的拐點已經(jīng)到來，目前正在逐漸成為經(jīng)濟活動的主要承載者。數(shù)據(jù)被稱為資產(chǎn)、原油、原材料、貨幣，無論哪種形容的方法都不過分。據(jù)IDC預測：2020年，70億人的數(shù)據(jù)化生存以及500億個互聯(lián)設備的感知、互聯(lián)和智能，將產(chǎn)生35 ZB的數(shù)據(jù)。1 ZB相當于1 000 EB，目前谷歌公司的數(shù)據(jù)量級為數(shù)十EB，這就意味著，一年將產(chǎn)生相當于1 000個谷歌公司的數(shù)據(jù)量。

從數(shù)據(jù)中提取出價值，海量數(shù)據(jù)才有存在的意義。大數(shù)據(jù)的生命周期和價值鏈條通?？梢苑殖?個階段：數(shù)據(jù)生成、獲取、存儲和分析。目前主流的大數(shù)據(jù)技術(shù)基本上是為了解決這4個問題。本文提到的10個技術(shù)前沿，基本上都落到這4個需求里，但總體來看又可以分成三大類。

● 解決數(shù)據(jù)本身的問題。分別為膨脹宇宙、巴別之難、數(shù)據(jù)有價。

● 解決大量的數(shù)據(jù)前提下，如何能夠?qū)崟r計算的問題。這里涉及技術(shù)手段與范式變遷，分為軟硬兼施、多快好省、天下三分、分久必合。

● 分析如何能夠提取更好、更精確的價值問題。分別為精益求精、人機消長、智能之爭。

本期主要介紹膨脹宇宙、巴別之難、數(shù)據(jù)有價3個技術(shù)前沿。

3 前沿方向一：膨脹宇宙

面對數(shù)據(jù)量的爆炸，IDC創(chuàng)造了一個名詞——數(shù)據(jù)宇宙（data universe）。現(xiàn)在單機硬盤的容量已在TB級別，而商業(yè)公司的數(shù)據(jù)存儲量級從PB到EB再到ZB，甚至再到下一步Y(jié)B（美國國家安全局已經(jīng)在猶他規(guī)劃YB級別的數(shù)據(jù)中心）。與之對應的是存儲技術(shù)的突飛猛進：存儲介質(zhì)技術(shù)發(fā)展、單服務器設計突破、分布式文件系統(tǒng)創(chuàng)新以及形形色色的分布式數(shù)據(jù)庫爆發(fā)。

3.1 不斷涌現(xiàn)的新存儲介質(zhì)

近年來，新的存儲介質(zhì)不斷涌現(xiàn)，在性能和成本上都取得了長足的進步，構(gòu)成了大數(shù)據(jù)發(fā)展的基礎。

首先，磁介質(zhì)的機械硬盤技術(shù)快速發(fā)展，單碟容量在TB級別翻倍增長。

其次，固態(tài)硬盤（solid state drives，SSD）獲得了廣泛普及，對革新存儲體系結(jié)構(gòu)起到畫龍點睛的作用，例如SAP HANA[2]架構(gòu)。又如AWS的SSD存儲I2，Databricks用它在2014年的Daytona Gray類Sort Benchmark奪魁（并列）。

第三，PCIe SSD和閃存存儲（flash storage）更為激進。從特立獨行的Fusion-io到眾望所歸的NVMe，以其輕量級棧、低CPU開銷、直接閃存訪問帶來高吞吐量和高IOPS（input/output operations per second，每秒進行讀寫（I/O）操作的次數(shù)）。

第四，包含閃存和磁盤的混合存儲或聯(lián)合存儲是對軟硬件協(xié)同設計的創(chuàng)新。谷歌公司的Janus智能地把數(shù)據(jù)在閃存和磁盤之間進行分配和遷移，閃存只存放1%的數(shù)據(jù)，卻能服務28%的讀操作。

第五，下一代非易失性隨機訪問存儲器（non-volatile random access memory，NVRAM）也將漸漸走上舞臺中央，它的特點包括訪問性能接近動態(tài)隨機存取存儲器（dynamic random access memory，DRAM）（最短時延為DRAM的2倍）、容量大、數(shù)據(jù)不易失、字節(jié)尋址（閃存只能塊訪問）等。這些特性將改寫整個存儲體系結(jié)構(gòu)的版圖，必將帶來內(nèi)存空間和文件系統(tǒng)的融合。

第六，磁帶在超大規(guī)模數(shù)據(jù)備份和管理上仍有一席之地。谷歌公司作為世界上最大的磁帶機買家，利用磁帶對EB級別的數(shù)據(jù)進行備份和管理，并通過位置隔離、應用層問題隔離、存儲問題隔離、存儲介質(zhì)問題隔離等多種混合手段保證數(shù)據(jù)的可用性。

3.2 不斷突出的單服務器的存儲極限

在新存儲介質(zhì)層出不窮的同時，單服務器的存儲極限也在不斷突破。從2008年到2014年，主流單服務器內(nèi)存從8 GB發(fā)展到現(xiàn)在的96～192 GB。貨架產(chǎn)品里，單服務器最高內(nèi)存容量可達48 TB。在硬盤方面，從2008年到2014年，主流單服務器磁盤容量從1 TB發(fā)展到48 TB。

2014年9月，英特爾開發(fā)者峰會展示了2U服務器可以容納1.5 TB內(nèi)存和100 TB硬盤，使高密度部署更上臺階。微軟公司在同年10月份宣布推出的Azure G系列虛擬機，能夠提供單虛擬機448 GB內(nèi)存。這不但推動了大數(shù)據(jù)“內(nèi)存計算[2,3]”的普及，而且模糊了內(nèi)存和磁盤的邊界，越來越多內(nèi)存被用于緩存，甚至當成RAM Disk使用[4]。

3.3 創(chuàng)新的分布式文件系統(tǒng)

大數(shù)據(jù)技術(shù)的發(fā)展起始于分布式文件系統(tǒng)（distributed file system，DFS）。當前，分布式文件系統(tǒng)以Apache HDFS為主，但用戶需求在持續(xù)變化。一方面，數(shù)據(jù)中心的資源開始統(tǒng)一管理調(diào)度，分離的小集群被轉(zhuǎn)換成統(tǒng)一的大集群，對存儲系統(tǒng)的容量上限、存儲的空間效率、訪問控制和數(shù)據(jù)安全有了更高的要求。另一方面，存儲系統(tǒng)的使用模式由周期性的批處理應用變成了交互式的查詢和實時流式應用。

下面簡單描述分布式文件系統(tǒng)的幾個最新發(fā)展。

首先，HDFS（Hodoop Distributed File System, Hadoop分布式文件系統(tǒng)）新實現(xiàn)的HDFS緩存功能允許用戶把某些常用數(shù)據(jù)塊保留在堆外內(nèi)存中，一方面可以增加數(shù)據(jù)帶寬，減少時延；另一方面，可以用于不同應用之間的高速數(shù)據(jù)共享。

第二，支持分層的存儲設備。數(shù)據(jù)中心一般都有內(nèi)存、SSD和硬盤等存儲設備，新型非易失存儲器（nonvolatile memory，NVM）也呼之欲出，還有各類傳統(tǒng)存儲系統(tǒng)，如SAN（存儲區(qū)域網(wǎng)絡）、NAS（網(wǎng)絡附屬存儲）和NETFS（網(wǎng)絡文件系統(tǒng)）。因此，HDFS推出新功能heterogeneous storages（HDFS-2832）以支持異構(gòu)的存儲設備，適用不同應用的存儲需求。

第三，加密文件系統(tǒng)?，F(xiàn)在的典型部署是一個大集群容納所有用戶，由此帶來的問題就是數(shù)據(jù)安全。HDFS的新功能——加密式文件系統(tǒng)（HADOOP-10150），使用AES-CTR加密算法，能夠透明地對HDFS上的文件塊加密、解密，并且只有很小的性能損失。

第四，內(nèi)存文件系統(tǒng)，如RAMCloud[6]。它是由成千上萬臺普通服務器的主存組成的大規(guī)模存儲系統(tǒng)，所有信息都存儲在這些快速的DRAM中，內(nèi)存取代了傳統(tǒng)系統(tǒng)中的硬盤，而硬盤只作為備份使用。其目標是同時實現(xiàn)大規(guī)模（100～1 000 TB）和低時延（5～10 ms），比目前系統(tǒng)快100～1 000倍。在Spark[4]軟件棧中也加入了內(nèi)存文件系統(tǒng)Tachyon，特別適合迭代式的計算需求以及多應用共享數(shù)據(jù)。

最后值得一提的是糾刪碼（erasure coding），它最早應用于通信領域，通過編碼機制實現(xiàn)傳輸過程中容錯甚至糾錯，如今它也被用到了大數(shù)據(jù)方向。英特爾公司和Cloudera公司一起推出了一種新的糾刪碼實現(xiàn)。

3.4 蓬勃發(fā)展的NoSQL數(shù)據(jù)庫

同時，基于DFS技術(shù)和MapReduce技術(shù)的演進，發(fā)展出品類豐富的NoSQL數(shù)據(jù)庫技術(shù)[3,6～12]。NoSQL數(shù)據(jù)庫摒棄了關(guān)系模型的約束，弱化了一致性的要求，從而獲得水平擴展能力，支持更大規(guī)模的數(shù)據(jù)。其模式自由（schema free），不再堅持SQL查詢語言，因此催生了多種多樣的數(shù)據(jù)庫類型，目前被廣為接受的如下。

（1）類表結(jié)構(gòu)數(shù)據(jù)庫

類表結(jié)構(gòu)數(shù)據(jù)庫是最早出現(xiàn)且在模式上也是最接近于傳統(tǒng)數(shù)據(jù)庫的NoSQL數(shù)據(jù)庫，但多采用列存儲。其源頭是谷歌公司的BigTable[7]，并且在此之上發(fā)展出HBase、Hypertable、Cassandra和著重安全的Accumulo（美國國家安全局使用）。

（2）文檔數(shù)據(jù)庫

數(shù)據(jù)保存載體是XML或JSON文件，從而能夠支持靈活豐富的數(shù)據(jù)模型。一般文檔數(shù)據(jù)庫可以通過鍵值或內(nèi)容進行查詢。MongoDB是典型的文檔數(shù)據(jù)庫，也是DB Engines數(shù)據(jù)庫排行榜中排名最前的NoSQL數(shù)據(jù)庫（前10名當中只有兩個NoSQL數(shù)據(jù)庫，另一個是Cassandra）。

（3）鍵—值存儲

因其易用性和普適性形成了NoSQL家族中最大的一支。鍵—值是最簡單的一種數(shù)據(jù)模型，在此之上可以實現(xiàn)更豐富的數(shù)據(jù)模型。目前，基于不同一致性和存儲介質(zhì)（內(nèi)存、SSD或硬盤）形成了很多選擇。比如，亞馬遜Dynamo[9]以最終一致性為主，而Berkeley DB[10]則保證串行一致性；Memcached[11]和Redis是基于主內(nèi)存的，而BigTable一族則是基于磁盤的。

除了上面3種數(shù)據(jù)庫類型外，值得一提的是圖數(shù)據(jù)庫，將數(shù)據(jù)存儲在高效的圖結(jié)構(gòu)中，典型代表是Neo4j。另一個案例，由谷歌公司工程師開發(fā)的開源圖數(shù)據(jù)庫Cayley針對Linked Data和圖數(shù)據(jù)（如語義網(wǎng)絡和社交網(wǎng)絡）。

在NoSQL的蓬勃發(fā)展中，其重要理論支持“CAP（consistency，availability，partition tolerance）理論”也在演進。傳統(tǒng)上CAP必須保證P（partition tolerance，分區(qū)容錯性），而在C（consistency，一致性）、A（availability，可用性）中取舍。Eric Brewer在名為《CAP理論十二周年回顧：“規(guī)則”變了》[12]一文中指出：CAP理論的3選2這一結(jié)論太過簡單化，實際情況要更復雜。首先，在同一數(shù)據(jù)中心，分區(qū)的情況很少出現(xiàn)，意味著在系統(tǒng)不存在分區(qū)的情況下未必要犧牲C或A；其次，C和A之間的取舍可以在同一系統(tǒng)內(nèi)以非常細小的顆粒度反復發(fā)生，其取決于特定的操作、數(shù)據(jù)或用戶；再者，這3種性質(zhì)都不是非黑即白的，每個屬性都有多種度量。在這個前提下，CAP理論的應用會更加復雜。Eric提出：CAP要在大部分時候允許完美的C和A；當分區(qū)存在或者可以感知時，需要定義一種策略來探知其存在，并根據(jù)CAP理論的指導對其進行處理。換句話說，創(chuàng)建一個CAP全都有的系統(tǒng)是可能的。

NoSQL一般損失強一致性以換取性能，而抽樣方法允許用戶犧牲精度，以加快大規(guī)模數(shù)據(jù)集上查詢的響應速度。其代表為BlinkDB，主要思想包括兩個方面：一個是自適應優(yōu)化框架，從原始數(shù)據(jù)中建立和維護一個多維度的采樣集合；另一個是動態(tài)采樣策略，根據(jù)查詢的精度和響應時間要求，決定采樣數(shù)據(jù)的規(guī)模。在VLDB 2012的展示上，BlinkDB使用100個Amazon EC2節(jié)點組成的機群處理17 TB的數(shù)據(jù)，能夠在2 s之內(nèi)響應一系列的查詢，速度是Hive的200倍，而錯誤率也被控制在2%～10%。

在NoSQL提出近4年后，來自The 451 Group的Matthew Aslett在2011年提出了NewSQL[13]數(shù)據(jù)庫的概念。NewSQL既能提供近似NoSQL的性能和可擴展性，又能提供類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫那樣的關(guān)系模型、事務和SQL語言接口。從架構(gòu)或者實現(xiàn)角度來看，NewSQL系統(tǒng)可以分成三大類。

（1）使用全新的架構(gòu)

該類又可以分成兩類：第一類系統(tǒng)一般使用shared-nothing（無共享）架構(gòu)，所有的節(jié)點都具有處理事務的能力，系統(tǒng)具有近似線性的擴展能力，其可以是通用的數(shù)據(jù)庫（如Google Spanner[3]）或者為某種特定場合設計的數(shù)據(jù)庫（如VoltDB[14]）；第二類系統(tǒng)則使用主從架構(gòu)，有專門的節(jié)點進行事務處理，這種設計使得系統(tǒng)的擴展能力會受到一定限制。

（2）各種MySQL存儲引擎

MySQL是一個高度可擴展的架構(gòu)，可以根據(jù)特定的應用場景為MySQL編寫各種存儲引擎，比較出名和成熟的有TokuDB、MemSQL、ScaleDB等。最新版本的MySQL 6.5既支持傳統(tǒng)的關(guān)系數(shù)據(jù)模型，又支持鍵值對數(shù)據(jù)模型，此外還支持Memcached的訪問協(xié)議。

（3）透明數(shù)據(jù)分區(qū)技術(shù)

與Cobar很相似，能夠自動地對數(shù)據(jù)分區(qū)，并進行分布式事務管理，如dbShards、Scalearc和ScaleBase等。

作為NewSQL的一種主流，內(nèi)存數(shù)據(jù)庫以其優(yōu)越性能成為新寵，主要包括兩類：一類是傳統(tǒng)數(shù)據(jù)庫加上內(nèi)存選項，如Oracle 12c[15]（包括Exalytics和Exadata）、IBM DB2帶BLU加速以及微軟SQL Server 2014等；另一類是完全重起爐灶設計的新型數(shù)據(jù)庫，包括Altibase、MemSQL、VoltDB、EXASOL、H20和SAP HANA等。不斷增加的內(nèi)存容量也為商業(yè)數(shù)據(jù)分析帶來了新的可能：hybrid transaction/analytical processing（HTAP）在同一片內(nèi)存中完成事務性的數(shù)據(jù)存取與分析過程，消除了數(shù)據(jù)ETL的代價。

Hadoop不支持ACID事務限制了其應用場景，如刪除舊的記錄、更新表格中任意一項等均無法在Hadoop生態(tài)圈的工具中完成。因此，Hadoop最新推出的特性也體現(xiàn)了NewSQL的影響。首先是Hive，從0.14版本開始能夠在給定的限制下支持NewSQL操作；隨后HBase也開始支持Transaction操作。

針對執(zhí)行時間較長的操作，Hive推出了LLAP優(yōu)化。其包括如下特性：有效降低啟動開銷；充分利用JIT優(yōu)化引擎；對于向量算子采用多線程執(zhí)行，并在這些線程之間共享元數(shù)據(jù)；異步I/O。這些優(yōu)化與Tez等執(zhí)行引擎相互獨立，協(xié)同工作，以加快Hive的查詢速度。被認為是Hadoop接班人的Spark也啟動了稱為Tungsten的項目，對Spark的核心引擎進行加速。Tungsten專注于改善Spark對內(nèi)存和CPU的利用情況，主要包括以下3個改動：使用程序語義以改善JVM的對象模型和垃圾收集功能；設計cache-aware的算法和數(shù)據(jù)結(jié)構(gòu)，以更好地利用層次存儲體系（memory hierarchy）；利用代碼生成（code generation），以更好地發(fā)揮現(xiàn)代編譯器和CPU的能力。

谷歌公司仍然推動著超大規(guī)模廣域數(shù)據(jù)庫研究的前沿，連續(xù)推出Metastore、Spanner和F1。尤其值得一提的是Spanner，可擴展到幾百萬個機器節(jié)點，跨越成百上千個數(shù)據(jù)中心，具備幾萬億個數(shù)據(jù)庫行的規(guī)模。在最高抽象層面，Spanner就是一個數(shù)據(jù)庫，把數(shù)據(jù)分片存儲在許多Paxos狀態(tài)機上，這些機器位于遍布全球的數(shù)據(jù)中心內(nèi)，通過復制技術(shù)實現(xiàn)全球可用性和地理局部性，保證即使面對大范圍的自然災害時數(shù)據(jù)依然可用（它的開源克隆CockroachDB名字取自蟑螂，寓指其超強的生存能力）。與Spanner同時現(xiàn)身的是新一代的谷歌文件系統(tǒng)Colossus，它們將取代BigTable和上一代谷歌文件系統(tǒng)的核心地位。F1是建筑在Spanner之上的關(guān)系數(shù)據(jù)庫。在上述的NoSQL/NewSQL數(shù)據(jù)庫上衍生出很多針對特定用途的數(shù)據(jù)庫。如OpenTSDB和KairosDB是基于HBase和Cassandra的時間序列數(shù)據(jù)庫。

傳統(tǒng)上，比較“小眾”的科學計算數(shù)據(jù)庫也開始向大數(shù)據(jù)融合，主要體現(xiàn)為并行數(shù)組數(shù)據(jù)庫（array DBMS）。目前得到最多關(guān)注的是SciDB，其作為開源的科學領域數(shù)據(jù)庫，設計初衷旨在提供多維數(shù)據(jù)管理，更好地支持具有科學計算特點的分析，比如它使用數(shù)組數(shù)據(jù)模型，允許行列交換，支持查詢語言和數(shù)學計算，性能上比傳統(tǒng)RDBMS快兩個數(shù)量級。另一個相關(guān)工作是TileDB，作為一個針對數(shù)組數(shù)據(jù)做優(yōu)化分塊（tiling）策略的存儲管理器，也將發(fā)展成為完整的分布式DBMS。它針對物理世界數(shù)據(jù)的高度skew和稀疏性，實現(xiàn)了非規(guī)則分塊的策略，從而達到更高效的存儲和負載均衡。

4 前沿方向二：巴別之難

圣經(jīng)里有一個巴別寓言：在人類文明初期，曾經(jīng)是“天下人用同一種口音語言說話”，人類語言相同，因而能夠高效地合作。于是他們聚在一起要造“一座城和一座塔，塔頂通天”。但是，神不容許人類破壞神所定的綱紀，所以一夜之間擾亂了人類的口音和語言，讓人類溝通困難，最終放棄建造工程，從而分布到不同的地方去。那個城叫巴別城，塔叫巴別塔。自此以后，“大一統(tǒng)”成為人類的夢想，但是語言障礙是最大的阻礙。

數(shù)據(jù)世界也面臨同樣的問題。不同來源、不同地方的數(shù)據(jù)用不同語言（格式）表示，即使相同格式，其語意和度量衡也可能不同。這些因素極大地阻礙了數(shù)據(jù)共享，限制了數(shù)據(jù)使用的范圍。另一方面，數(shù)據(jù)可能是不完備的，甚至是相互之間矛盾的，這樣導致了一個問題，即沒有辦法利用更多的數(shù)據(jù)產(chǎn)生更好的價值。

為解決這些問題，Data Curation1https://www. ideals.illinois.edu/ handle/2142/3493應運而生，中文可譯為“數(shù)據(jù)治理”。其原意是指在科學計算中的數(shù)據(jù)抽取、轉(zhuǎn)換、保存和復用。后來逐漸擴展，數(shù)據(jù)治理包含在科學、人文、社會、教育所有領域，對數(shù)據(jù)進行發(fā)現(xiàn)、獲取、質(zhì)保、增值、重用的活動。在這里強調(diào)的是數(shù)據(jù)治理中與數(shù)據(jù)分享相關(guān)的技術(shù)——data munging / data wrangling（數(shù)據(jù)再加工）2http://www. quora.com/ What-is-datamunging。數(shù)據(jù)再加工是指把數(shù)據(jù)從原始格式中抽取出來，然后向其他格式轉(zhuǎn)化的過程。以前這個過程以手工為主，現(xiàn)在將逐漸變?yōu)榘胱詣雍妥詣舆^程。這是一個很難的題目，參考NP困難的提法，將其稱為DB困難。

數(shù)據(jù)再治理技術(shù)希望打破數(shù)據(jù)的語義隔閡。新科圖靈獎得主Michael Stonebraker目前就在做data wrangling。他的goby.com項目（如圖1https://www. ideals.illinois.edu/ handle/2142/3493所示），根據(jù)某些條件返回與suicide six相關(guān)的幾個選項，如何甄別這幾個選項是否代表著同一個東西。Stonebraker開發(fā)的Data Tamer系統(tǒng)能夠模擬人的推理思路，從不同的選項里面發(fā)現(xiàn)不同的線索。首先比較這些選項的源網(wǎng)站，接著進入選項所指的網(wǎng)頁，分析數(shù)據(jù)的異同。通過對數(shù)據(jù)進一步發(fā)掘，發(fā)現(xiàn)數(shù)據(jù)描述的主體有很多特征，以這些這些特征為基礎，發(fā)現(xiàn)相似特征。通過證據(jù)的不斷疊加，發(fā)現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)性。

圖1 數(shù)據(jù)發(fā)現(xiàn)示例

Data Tamer技術(shù)的關(guān)鍵在于通過自動化的學習方式，發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律和關(guān)聯(lián)。首先是在文本這種典型的非結(jié)構(gòu)化數(shù)據(jù)中發(fā)現(xiàn)結(jié)構(gòu)；其次是發(fā)現(xiàn)重要的實體（entity）。而這一切都希望能夠通過自動化學習來完成。同樣在這個領域發(fā)力的還有Trifacta，該公司提出了“l(fā)ive in visualizations, not code”的口號，致力于讓用戶通過可視化完成data wrangling的工作。其基礎是專門針對data wrangling任務設計的DSL，追求靈活和擴展的用戶也可以在Trifacta提供的DSL上編寫自己的腳本。

Data Wrangling下一步希望從半結(jié)構(gòu)化或者多結(jié)構(gòu)化的數(shù)據(jù)進一步擴展到完全非結(jié)構(gòu)化的數(shù)據(jù)，如圖片和語音。

數(shù)據(jù)治理完畢和數(shù)據(jù)質(zhì)量提升以后，就是數(shù)據(jù)組織問題。

在今天的許多商業(yè)場景下，傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫在數(shù)據(jù)治理上暴露出難以操作和缺乏彈性的缺點。Schroeder認為Data Agility的重要性將不斷上升，其關(guān)鍵在于組織數(shù)據(jù)。數(shù)據(jù)組織的復雜性使得數(shù)據(jù)很難被及時利用，更遑論進行實時更新，這極大地提高了數(shù)據(jù)使用成本3http://www. cio.com/article/ 2862014/bigdata/5-bigdata-technologypredictions-for-2015.html。

主流的大數(shù)據(jù)處理框架紛紛提升其數(shù)據(jù)描述和組織的靈活性。Spark在1.4版本中引入了稱為DataFrame的新API。一個DataFrame就是許多列數(shù)據(jù)的集合，每一列都是被命名的?？梢詫⑵淇醋鹘Y(jié)構(gòu)化數(shù)據(jù)中的表格或R/Python中的data frame，不同之處在于其支持許多優(yōu)化算子。DataFrame可由多種來源構(gòu)成，如結(jié)構(gòu)化數(shù)據(jù)文件、Hive表格、外部數(shù)據(jù)庫或者RDD結(jié)構(gòu)。而GraphLab在圖數(shù)據(jù)之外，也開始支持表結(jié)構(gòu)SFrame。

另一個值得關(guān)注的數(shù)據(jù)組織工具是Apache的UIMA。IBMWatson在知識競賽jeopardy中戰(zhàn)勝了兩個此項目的前世界冠軍，其組織多種形態(tài)數(shù)據(jù)的基礎就是UIMA，它的優(yōu)點是組織數(shù)據(jù)以便于后期的分析。

5 前沿方向三：數(shù)據(jù)有價

數(shù)據(jù)作為未來經(jīng)濟的石油，自身必須有一個特性——價值。

數(shù)據(jù)的物理實質(zhì)是記錄在介質(zhì)上的比特。比特是可以低成本無限復制的，這就和物品稀缺性矛盾了。物品失去了稀缺性后，其價值也就趨近于零。所以，數(shù)據(jù)有價首先要確保數(shù)據(jù)的權(quán)利。

為了確保數(shù)據(jù)的權(quán)利，先要保證數(shù)據(jù)的安全。大數(shù)據(jù)的安全本身又分為大數(shù)據(jù)系統(tǒng)的安全、數(shù)據(jù)本身的安全以及數(shù)據(jù)使用中的安全。

有了數(shù)據(jù)權(quán)利和保障數(shù)據(jù)權(quán)利的數(shù)據(jù)安全，數(shù)據(jù)才能進行定價。

5.1 數(shù)據(jù)權(quán)利

在互聯(lián)網(wǎng)和物聯(lián)網(wǎng)時代，數(shù)據(jù)的存在形式已經(jīng)變得非常復雜。在整個價值鏈條中，有數(shù)據(jù)源頭、數(shù)據(jù)收集者、數(shù)據(jù)存儲者、數(shù)據(jù)使用者等。在多數(shù)商業(yè)場景下，他們都是不同客體。所以整個價值鏈中，權(quán)利的定義是一個重要的技術(shù)、商業(yè)和法律的課題。

如圖2所示，筆者初步認為有如下5個基本權(quán)利。

● 擁有權(quán)。必須明確數(shù)據(jù)的擁有權(quán)，像其他的物理財產(chǎn)一樣，擁有權(quán)可以出現(xiàn)變更和分割。

● 數(shù)據(jù)隱私權(quán)。即明確什么數(shù)據(jù)能夠披露、什么數(shù)據(jù)不能披露、披露到什么樣的粒度。

圖2 數(shù)據(jù)的權(quán)利

● 數(shù)據(jù)許可權(quán)。哪些人在什么時間有權(quán)利看數(shù)據(jù)，是有約束的，比如今天允許給某個人看數(shù)據(jù)，明天就不允許。這個權(quán)利是可撤銷的，也是可轉(zhuǎn)移的。

● 數(shù)據(jù)審計權(quán)。監(jiān)督用戶按照某個規(guī)范許可使用數(shù)據(jù)。需要有一種審計機制，確保用戶按照約定的許可規(guī)范使用數(shù)據(jù)。

● 數(shù)據(jù)分紅權(quán)?；跀?shù)據(jù)外部性，獲得數(shù)據(jù)使用許可的一方在反復使用數(shù)據(jù)中會產(chǎn)生新的價值，那么數(shù)據(jù)擁有者有沒有可能得到分紅？

5.2 數(shù)據(jù)安全

保障數(shù)據(jù)權(quán)利的核心是數(shù)據(jù)的安全問題。既有傳統(tǒng)的信息系統(tǒng)安全問題，也有復雜的數(shù)據(jù)內(nèi)容安全問題。

信息系統(tǒng)安全主要是大數(shù)據(jù)系統(tǒng)的安全控制，正在迅速地發(fā)展成熟。以Hadoop為例，加入了基于Kerberos的用戶和服務鑒權(quán)、HDFS文件和數(shù)據(jù)塊權(quán)限控制。比如Apache Accumulo是一個開源數(shù)據(jù)庫，美國國家安全局幾十個PB的數(shù)據(jù)存在這里，它采用了一種基于標簽（label）的非常靈活的訪問控制機制。在HBase里面也利用coprocessor的機制實現(xiàn)了類似的訪問控制。

數(shù)據(jù)內(nèi)容安全超越了訪問控制和數(shù)據(jù)加密，更加復雜，可以稱為“動態(tài)數(shù)據(jù)安全”。動態(tài)數(shù)據(jù)安全是大數(shù)據(jù)安全特有的新問題。

動態(tài)數(shù)據(jù)安全產(chǎn)生的原因是在監(jiān)控和審計數(shù)據(jù)使用的過程中，不能簡單地使用“允許/不允許”的靜態(tài)策略來管理數(shù)據(jù)訪問。數(shù)據(jù)一定要能被訪問，否則數(shù)據(jù)就不能流動。關(guān)鍵是要在數(shù)據(jù)被訪問和被加工的過程中動態(tài)地對數(shù)據(jù)流動方向、數(shù)據(jù)使用范圍、數(shù)據(jù)使用粒度進行跟蹤和監(jiān)控。

數(shù)據(jù)監(jiān)控主要分以下幾個步驟完成。

（1）在數(shù)據(jù)產(chǎn)生的源頭進行監(jiān)控和規(guī)劃

首先，個人對數(shù)據(jù)的控制?，F(xiàn)在個人用戶對自己的數(shù)據(jù)有了一定的控制能力，比如do not track功能可以防止互聯(lián)網(wǎng)服務商根據(jù)cookie不斷地跟蹤用戶行為，可以避免廣告的retargeting，比如在京東商城上看中一雙鞋，到了淘寶上它的廣告還是跟著消費者這種情況。

另外，個人數(shù)據(jù)的刪除。目前可以要求一些互聯(lián)網(wǎng)的服務提供商把個人的數(shù)據(jù)刪掉。值得一提的是MIT的創(chuàng)新項目OpenPDS（open personal data store），允許個人對自己的數(shù)據(jù)進行收集和控制，在保護隱私的前提下向第三方提供數(shù)據(jù)，并且獲得價值。

（2）對數(shù)據(jù)分享的粒度進行控制

數(shù)據(jù)脫敏或匿名化是目前數(shù)據(jù)安全中最熱的一個研究領域。如何保證開放數(shù)據(jù)里不泄露個人的隱私信息，是一個重大課題。在歷史上很多的數(shù)據(jù)開放都導致了這樣的問題。比如美國在線開放的匿名搜索數(shù)據(jù)，有人把這個跟美國選舉公開信息進行了匹配，使得某些個人的隱私被暴露出來。

傳統(tǒng)的脫敏方法是去標識符。比如一張表有姓名、年齡、性別、郵編和疾病幾列，姓名是可以唯一標識個人的，叫做標識符。針對隱私的攻擊方式還有很多。比如多數(shù)據(jù)源的相互匹配，Netflix嘗試在去標識后開放了一些數(shù)據(jù)，但是有人把去標識后的數(shù)據(jù)跟IMDB做了匹配，把一些有同性戀傾向的人找了出來，這就是多數(shù)據(jù)源的攻擊。而研究表明，根據(jù)年齡、性別和郵編的信息，有90%以上的概率可以定位個人，這些屬性叫準標識符，而這種攻擊基于數(shù)據(jù)概率分布。

要防止這些隱私攻擊，現(xiàn)在推出了很多技術(shù)，如K-anonymity[16]。K的意思是在所有準標識符都相同的組別里（比如，在上述的數(shù)據(jù)表例子中，年齡、性別和郵編都相同的所有數(shù)據(jù)記錄）保證至少有k個相同的記錄，從而提高單個記錄被多數(shù)據(jù)源交叉定位的難度。后續(xù)發(fā)展出了L-diversity[17]和T-Closeness[18]，繼續(xù)對跨組別敏感信息的統(tǒng)計分布提出更高的可區(qū)分度的要求。

2006年提出的差分隱私（differential privacy）[8]是近幾年最熱門的匿名化方法。這項技術(shù)提出，在數(shù)據(jù)中人為地插入噪聲，同時通過精確模型設定保證噪音的程度不足以干擾各種數(shù)據(jù)分析算法（已經(jīng)實際展示的有決策樹、分類、聚類等），這樣可以實現(xiàn)數(shù)據(jù)價值（信息粒度）和數(shù)據(jù)安全的平衡。

（3）建立數(shù)據(jù)使用的安全框架

未來，數(shù)據(jù)使用能夠做到可用但不可見，相交但不相識。因為在幾乎所有的大數(shù)據(jù)場景下，真正重要的數(shù)據(jù)分析結(jié)果，其實原始數(shù)據(jù)不是必須被公開或者傳遞的。為了實現(xiàn)這個目標，牽扯到以下幾種技術(shù)。

● 同態(tài)加密。典型的是CryptDB/ Monomi[19]，能夠在加密的數(shù)據(jù)庫上運行正常的SQL查詢，而不用擔心數(shù)據(jù)的明文被泄露，谷歌、SAP等公司都采用或借鑒了CryptDB的技術(shù)。

● 基于加密協(xié)議的多方安全計算。圖靈獎得主姚期智先生1982年開始研究這個問題，叫做“百萬富翁的窘境”：兩個百萬富翁要比誰更有錢，但是誰都不愿意說出自己的財富數(shù)值，這就是典型一種保護隱私下的多方安全計算場景。

● 基于可信計算環(huán)境的多方安全計算。前兩種需要涉及晦澀難懂的加密算法，而基于可信計算環(huán)境的多方安全計算對數(shù)據(jù)計算的改變最小，也最有前途。當然，可信計算環(huán)境需要一些硬件支持。英特爾平臺上開發(fā)了TXT、TPM、VT-d，目的都是保證應用計算環(huán)境是可信、可溯源的，計算中的數(shù)據(jù)被隔離保護。即將推出的下一個技術(shù)叫SGX[20]，它保證數(shù)據(jù)在磁盤和內(nèi)存里面都是加密的，只有載入CPU里面進行計算的時候才是明文，更進一步隔離了磁盤和內(nèi)存的物理攻擊機會。

（4）區(qū)塊鏈與零知識證明、多方安全計算等融合

在未來高度分布、去中心化場景下，可能會發(fā)展出各個數(shù)據(jù)實體之間不存在單個核心節(jié)點的安全控制機制。最典型的就是比特幣所依賴的區(qū)塊鏈（block chain）4http://www. bitcoin.org/ bitcoin.pdf, 2012技術(shù)被廣泛看好，將承擔全球規(guī)模的去中心化金融系統(tǒng)中事務記錄、支付、數(shù)據(jù)資產(chǎn)管理和交易、智能合約等業(yè)務，以太坊（Ethereum）5http:// ethereum.org/ ethereum. html, 2013是實現(xiàn)這些業(yè)務的開放應用開發(fā)環(huán)境。區(qū)塊鏈技術(shù)也將被應用于個人數(shù)據(jù)控制（如上述OpenPDS的下一代Open Mustard Seed框架）和分布式數(shù)據(jù)存儲（如MaidSafe）。區(qū)塊鏈與零知識證明、多方安全計算等融合，將有可能成為下一代互聯(lián)網(wǎng)基礎設施平臺。

5.3 數(shù)據(jù)審計監(jiān)管的技術(shù)

系統(tǒng)安全、數(shù)據(jù)安全、使用安全都需要審計作為保證。所謂審計就是給出一個數(shù)據(jù)使用的條款，按照條款監(jiān)控數(shù)據(jù)的使用。設計條款必須有形式化的描述，其目的在于讓非IT的專業(yè)領域人員編寫這些條款，如企業(yè)法務。如果一個企業(yè)的數(shù)據(jù)要開放給另外一個企業(yè)，需要法律人士給出邏輯嚴格的使用條例，條例的內(nèi)容本質(zhì)上不是IT范疇。同時，因為條例規(guī)范是形式化的，IT技術(shù)方案也可以據(jù)此對數(shù)據(jù)的使用進行必要的審計監(jiān)控。

5.4 數(shù)據(jù)定價的技術(shù)

數(shù)據(jù)定價是最具挑戰(zhàn)性的研究方向，尚無成熟的研究成果。目前數(shù)據(jù)的定價有兩個依據(jù)：一是根據(jù)效用，二是根據(jù)稀缺性。數(shù)據(jù)效用簡單來說，就是數(shù)據(jù)使用的頻率，也可以理解為從分析結(jié)果逆推數(shù)據(jù)的淵源（lineage），從而量化各方數(shù)據(jù)對結(jié)果的貢獻度。稀缺性則是根據(jù)數(shù)據(jù)價值的密度以及歷史價格的稀缺性進行定價。

5.5 數(shù)據(jù)咖啡館

基于上述這些前沿技術(shù)，英特爾中國研究院開發(fā)了一個數(shù)據(jù)分享原型平臺——數(shù)據(jù)咖啡館?？Х瑞^的寓意是讓不同的人能夠聚在一起進行思想的碰撞，產(chǎn)生新的價值。數(shù)據(jù)咖啡館希望能夠讓不同方的數(shù)據(jù)碰在一起，產(chǎn)生新的價值。

許多獨立垂直電商或者線下行業(yè)用戶，僅靠其自身收集的消費者數(shù)據(jù)不足以對消費者建立精準的營銷模型。因此，他們需要彼此間開放數(shù)據(jù)，甚至從通信、地圖等專業(yè)數(shù)據(jù)源持續(xù)地購買數(shù)據(jù)服務。

另一個案例是癌癥的研究和治療。癌癥是一個長尾病癥，過去50年癌癥的治愈率只提升了8%，在所有的疑難雜癥中是提升最少的，很大的原因是不同研究機構(gòu)癌癥的基因組樣本非常有限。但是，共享基因組樣本受到嚴格的隱私法律的限制。英特爾中國研究院希望通過技術(shù)創(chuàng)新把這些數(shù)據(jù)匯聚到一起，加速癌癥研究的技術(shù)突破?，F(xiàn)在，英特爾中國研究院跟美國幾家研究機構(gòu)有一個愿景：在2020年前，一天之內(nèi)一個癌癥患者來到醫(yī)院能夠完成全基因組測序，同時分析出致癌的基因，并且給出個性化的治療方案。

數(shù)據(jù)咖啡館的目標就是幫助這樣的場景能夠持續(xù)、高效、低成本地運作。其創(chuàng)新點包括：集成了分布式云環(huán)境下的可信任大數(shù)據(jù)計算環(huán)境；形式化地描述數(shù)據(jù)使用規(guī)范；探索基于數(shù)據(jù)使用規(guī)范的程序檢查器，包括對代碼的靜態(tài)檢查以及對結(jié)果的動態(tài)檢查。

未來數(shù)據(jù)咖啡館的應用場景：企業(yè)的數(shù)據(jù)擁有方是一方，但是沒有分析能力；具有分析能力的獨立的數(shù)據(jù)使用者又是一方。數(shù)據(jù)擁有方的IT人員準備了數(shù)據(jù)存儲和數(shù)據(jù)格式，商務和法務人員編寫數(shù)據(jù)使用規(guī)范。將數(shù)據(jù)格式和數(shù)據(jù)使用規(guī)范提交到數(shù)據(jù)咖啡館云。數(shù)據(jù)使用方的分析師們編寫分析代碼，并提交到云上。云首先對代碼進行檢查，把它拆成預處理和全局分析兩部分，其中預處理部分在數(shù)據(jù)擁有方的防火墻內(nèi)執(zhí)行。發(fā)送前，在云內(nèi)先運行一個靜態(tài)的檢查器，根據(jù)數(shù)據(jù)使用規(guī)范檢查代碼的合法性。只有通過合法性檢查的代碼才會被送到數(shù)據(jù)提供方進行計算。然后，把階段性的處理結(jié)果送回云。在送回前，由動態(tài)檢查器對結(jié)果進行審計檢查。只有完全符合數(shù)據(jù)使用規(guī)范，全局分析部分才能收到預處理結(jié)果，并在云里面完成最后的計算。這個架構(gòu)可以自然地衍生到多方的數(shù)據(jù)計算。

這個架構(gòu)創(chuàng)新點在于：數(shù)據(jù)的提供方和數(shù)據(jù)使用方實現(xiàn)了可控的隔離。原始數(shù)據(jù)和核心分析算法作為參與各方的核心資產(chǎn)，在計算過程中得到保護，并且計算過程不受保護措施干擾。英特爾中國研究院愿意與各位同仁在這一領域共同開展前沿研究。

[1] Amara R, Lipinski A J. Business Planning for AnUncertain Future: Scenarios & Strategies. New York: Pergamon Press, 1983

[2] F?rber F, Cha S K, Primsch J,et al. SAP HANA database: data management for modern business applications. ACM Sigmod Record, 2012, 40(4): 45～51

[3] Corbett J C, Dean J, Epstein M,et al. Spanner: Google’s globally distributed database. ACM Transactions on Computer Systems, 2013, 31(3)

[4] Zaharia M, Chowdhury M, Das T,et al. Resilient distributed datasets: a faulttolerant abstraction for in-memory cluster computing. Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation, San Jose, CA, USA, 2012

[5] Li H, Ghodsi A, Zaharia M,et al.Tachyon: reliable, memory speed storage for cluster computing frameworks.Proceedings of the ACM Symposium on Cloud Computing, Seattle, Washington, USA, 2014: 1～15

[6] Ousterhout J, Agrawal P, Erickson D,et al. The case for RAMClouds: scalable high-performance storage entirely in DRAM. ACM SIGOPS Operating Systems Review, 2010, 43(4): 92～105

[7] Chang F, Dean J, Ghemawat S,et al. Bigtable: a distributed storage system for structured data. ACM Transactions on Computer Systems, 2008, 26(2)

[8] Dwork, Cynthia. Encyclopedia of Cryptography and Security. New York: Springer US, 2011

[9] DeCandia G, Hastorun D, Madan J,et al. Dynamo: amazon’s highly available key-value store.ACM SIGOPS Operating Systems Review,2007, 41(6)

[10] OlsonM A, Keith B, Seltzer M I.Berkeley DB. Proceedings of USENIX Annual Technical Conference,Monterey, CA, USA, 1999

[11] Jose J, Subramoni H, Luo M,et al. Memcached design on high performance rdma capable interconnects. Proceeding of IEEE International Conference on Parallel Processing (ICPP), Taipei,China, 2011

[12] Brewer E. CAP twelve years later: how the“rules” have changed. Computer, 2012, 45(2): 23～29

[13] Moniruzzaman A B M. NewSQL: towards next-generation scalable RDBMS for online transaction processing (OLTP) for big data management. arXiv Preprint, 2014, arXiv:1411.7343

[14] Stonebraker M, Weisberg A. The VoltD Bmain memory DBMS. IEEE Data Engineering Bulletin, 2013, 36(2): 21～27

[15] Greenwald R, Stackowiak R, Stern J. Oracle Essentials: Oracle Database 12c. Sebastopol: O’Reilly Media Inc, 2013

[16] Sweeney L. K-anonymity: a model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 557～570

[17] Machanavajjhala A, Kifer D, Gehrke J,et al. l-diversity: privacy beyond k-anonymity. ACM Transactions on Knowledge Discovery from Data, 2007, 1(1)

[18] Li N H, Li T C, Venkatasubramanian S. T-closeness: privacy beyond k-anonymity and L-diversity. Proceedings of the 23rd International Conference on Data Engineering, Istanbul, Turkey,2007

[19] Popa R A, Redfield C M S, Zeldovich N,et al. CryptDB: protecting confidentiality with encrypted query processing.Proceedings of the 23rd ACM Symposium on Operating Systems Principles,Cascais, Portugal, 2011

[20] McKeen F,Alexandrovich L, Berenzon A,et al. Innovative instructions and software model for isolated execution. Proceedings of the 2nd International Workshop on Hardware and Architectural Support for Security and Privacy, New York, NY, USA, 2013 □

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)技術(shù)發(fā)展的十個前沿方向（上）

1 引言

2 十大前沿方向綜述

3 前沿方向一：膨脹宇宙

4 前沿方向二：巴別之難

5 前沿方向三：數(shù)據(jù)有價