梅宏,杜小勇,金海,程學旗,柴云鵬,石宣化,靳小龍,王亞沙,劉馳
1.高可信軟件技術教育部重點實驗室(北京大學),北京 100871;
2.中國人民大學信息學院,北京 100872;
3.華中科技大學計算機科學與技術學院,湖北 武漢 430074;
4.中國科學院計算技術研究所,北京 100086;
5.中國科學院大學計算機科學與技術學院,北京 100049;
6.北京理工大學計算機學院,北京 100081
世界主要國家高度重視大數據發(fā)展,我國也將發(fā)展大數據作為國家戰(zhàn)略。2015年8月,國務院印發(fā)了《促進大數據發(fā)展行動綱要》(國發(fā)〔2015〕50號),明確提出“數據已成為國家基礎性戰(zhàn)略資源”。2016年3月,《中華人民共和國國民經濟和社會發(fā)展第十三個五年規(guī)劃綱要》正式提出“實施國家大數據戰(zhàn)略”。2017年10月,黨的十九大報告中提出加快推進大數據與實體經濟深度融合發(fā)展。2017年12月8日,在中共中央政治局第二次集體學習時,習近平總書記發(fā)表講話,做出了“大數據是信息化發(fā)展的新階段”這一重要論斷,要求“審時度勢精心謀劃超前布局力爭主動,實施國家大數據戰(zhàn)略,加快建設數字中國”。黨的二十大報告指出數字技術與實體經濟深度融合具有重大意義。
大數據技術鏈條長,從采集、傳輸到管理、處理、分析、應用,形成一個完整的數據生命周期,同時在多個階段涉及數據治理。由于數據采集用到的傳感器技術和數據傳輸依賴的通信技術分別屬于基礎器件和通信學科領域,本文不涉及這兩類技術。同時,大數據應用面比較廣,應用發(fā)展狀態(tài)不是技術問題,故本文也不涉及。另外,雖然大數據的發(fā)展已經經歷了10多個年頭,在一些應用領域(特別是互聯網領域)取得了較好的成效,但是總體而言,大數據基礎理論和核心技術仍不成熟,大數據治理體系遠未建立,大數據發(fā)展仍然處于初級階段。因此,為了更好地發(fā)展大數據技術,本文聚焦數據生命周期中大數據管理、處理、分析和治理4類技術,梳理國內外技術發(fā)展現狀,特別是亟須清楚研判我國大數據技術發(fā)展與國際先進技術之間的差距。此外,信息技術發(fā)展的主流一直是以計算為中心的,數據僅作為輸入和輸出圍繞著計算任務組織,信息系統(tǒng)設計和優(yōu)化的核心目標是計算效能的提升。隨著數據體量的快速增長,以計算為中心的技術體系開始顯現出弊端,算力增長難以跟上數據規(guī)模的增長,形成“剪刀差”。近年來,一種以數據為中心的新技術體系日益受到關注,有望成為縮小“剪刀差”的突破點。一些具有潛力的創(chuàng)新技術已經出現了,包括:在算法理論體系上,從由多項式精確算法主導演變?yōu)橛蓙喚€性概率近似算法主導;在大數據方法體系上,從經驗沉淀驅動演變?yōu)閿祿P万寗?,從單純依賴機器發(fā)展到“人在回路”的協作計算模式;在大數據系統(tǒng)結構上,通過以數據為中心的泛在操作系統(tǒng),圍繞著數據間的互操作,高效組織廣域計算資源等。因此,在大數據應用需求的驅動下,計算技術體系正面臨重構,從“以計算為中心”向“以數據為中心”轉型。在新的計算技術體系下,一些基礎理論和核心技術問題亟待破解,新型大數據系統(tǒng)技術成為重要發(fā)展方向,同時面臨以下四大挑戰(zhàn)。
挑戰(zhàn)一:如何構建以數據為中心的計算體系。全球大數據規(guī)模增長快速。2020年全球新增數據規(guī)模為64 ZB,是2016年的400%,預計2035年新增數據將高達2 140 ZB,數據量呈現指數級增長。隨著數字經濟的發(fā)展和數字化轉型的深入,愈來愈多的數據資源正以數據要素的形態(tài)獨立存在,并參與數字經濟活動的全過程。因此需要構建以數據為中心的新型計算體系,以適應新的應用環(huán)境。如何組織和管理超大規(guī)模的數據要素已經成為一項難題,如大數據管理面臨著數據跨域訪問帶來的各種問題、系統(tǒng)規(guī)模持續(xù)增大帶來的可用性下降、維護大規(guī)模數據帶來的成本和能耗持續(xù)增高等嚴峻挑戰(zhàn)。
挑戰(zhàn)二:如何滿足大數據高效處理的需求。數據規(guī)模呈指數級增長,數據動態(tài)傾斜、稀疏關聯、應用復雜,傳統(tǒng)大數據處理架構處理成本高、時效性差,如何滿足規(guī)模海量、格式復雜、需求多變的大數據高效處理需求是大數據處理面臨的重要挑戰(zhàn)。
挑戰(zhàn)三:如何實現多源異構大數據的可解釋性分析。隨著數據量持續(xù)地爆炸式增長和各類應用的不斷拓展與深化,基于深度學習的主流方法因其僅關注單源單模態(tài)數據且模型只知其然不知其所以然的特性,已無法滿足發(fā)展需求。如何打破數據多源異構造成的隔閡,融合多域甚至全域數據中蘊含的知識,實現分析結果的可解釋,從而提升其可用性,是當前大數據分析面臨的主要挑戰(zhàn)。
挑戰(zhàn)四:如何形成系統(tǒng)化大數據治理框架與關鍵技術。針對大數據應用過程中的對數據匯聚融合、質量保障、開放流通、標準化和生態(tài)系統(tǒng)建設的需求,大數據治理技術逐漸成為發(fā)展熱點。然而當前系統(tǒng)化的大數據治理框架尚未形成,開放共享、質量評估、價值預測等關鍵技術遠未成熟,這成為制約大數據發(fā)展的主要瓶頸。
本文在計算體系重構的背景下,對大數據管理、處理、分析和治理4個方面的主要技術挑戰(zhàn)、國內外研究現狀與差距做出研判,并提出大數據技術發(fā)展的十大趨勢。
大數據管理是大數據生命周期中的重要環(huán)節(jié)。大數據管理技術主要包括大數據的組織、存儲、計算與訪問等相關技術。盡管數據管理技術與系統(tǒng)已經經歷了近60年的發(fā)展,但由于大數據具有超大規(guī)模、高速增長、類型多樣、高復雜性等特點,大數據管理仍然面臨諸多嚴峻挑戰(zhàn),特別表現在以下3個方面。
(1)高性能挑戰(zhàn)
一直以來,追求數據訪問的高性能是數據庫系統(tǒng)的核心問題。隨著摩爾定律接近終結,傳統(tǒng)硬件性能提升乏力。在數據規(guī)模高速增長的情況下,大數據管理遇到的高性能挑戰(zhàn)更加突出,迫切需要尋找性能提升的新驅動力,尤其是要充分利用近年來發(fā)展迅速的各種新硬件和人工智能技術,最大限度發(fā)揮異構架構帶來的機會。
(2)可用性挑戰(zhàn)
數據管理系統(tǒng)是大數據產業(yè)的核心基礎設施,因此其可用性至關重要。大數據規(guī)模呈現指數級高速增長,大數據業(yè)務環(huán)境也非常復雜,大數據管理系統(tǒng)往往規(guī)模極大且具有很高的復雜度,因此各類錯誤發(fā)生的概率顯著提升,可能導致服務中斷、無法保證正確性,甚至可能存在惡意節(jié)點引發(fā)虛假消息或數據篡改等嚴重問題。這給大數據管理系統(tǒng)的可用性帶來更大的挑戰(zhàn)。
(3)能效挑戰(zhàn)
目前維護和管理超大規(guī)模數據的能耗占比已經很高?,F有技術往往以性能提升為導向,能效不高,因此面向快速增長的大數據,迫切需要發(fā)展和應用高能效大數據管理技術。
新一代大數據管理技術的創(chuàng)新發(fā)展主要圍繞高性能、高可用、高能效3個方面展開。
在高性能大數據管理領域,新的性能提升動力主要包括新硬件和人工智能驅動兩個途徑。在新硬件方面,美國在內存數據庫并發(fā)控制、非易失存儲器(nonvolatile memory,NVM)數據管理、GPU數據庫、異構計算數據庫等方面的技術和產品均處于領先地位[1],德國的SAP HANA是高性能數據庫的代表之一[2]。我國在NVM、遠程直接內存訪問(remote direct memory access,RDMA)、硬件事務內存(hardware transactional memory,HTM)等新硬件數據管理技術方面也提出一系列先進的創(chuàng)新成果,如上海交通大學的RMDA和HTM結合方案[3],以及中國科學院計算技術研究所的NVM日志與恢復方法[4]等。在人工智能驅動的高性能大數據管理方面,美國率先提出學習索引[5]、Self-Design[6]等技術,微軟[7]、甲骨文[8]、亞馬遜等企業(yè)已在數據庫產品中使用智能驅動技術。我國在學習索引、自動調優(yōu)、智能查詢優(yōu)化、智能數據分區(qū)等領域的創(chuàng)新也非常活躍,如阿里巴巴[9]、華為[10]、騰訊等企業(yè)的數據庫產品加入了數據自動調優(yōu)、自動運維等自治技術,清華大學等高校提出一系列AI4DB創(chuàng)新技術[11-12]。
在高可用大數據管理領域,數據冗余是應對軟硬件錯誤的主要手段,核心技術是分布式共識和分布式事務處理,難點在于同時實現高可用和高性能[13]。美國是該方向的引領者,核心算法和最早的系統(tǒng)都來自美國[14-15]。國內阿里巴巴、清華大學、上海交通大學、中國人民大學等在核心的分布式事務和共識協同優(yōu)化技術等方面取得了系列創(chuàng)新成果[16-17]。國產數據庫PolarDB、TiDB等可用性水平已達到國際一流水準[16,18]。另一類可用性問題是網絡中部分節(jié)點存在惡意,如發(fā)送虛假消息或篡改數據等。目前國際主流應對技術是區(qū)塊鏈,主要發(fā)展趨勢是通過公鏈和聯盟鏈相互融合、適度降低安全性要求等方式提升區(qū)塊鏈的性能[19-20]。我國的區(qū)塊鏈大數據管理技術發(fā)展和應用已接近國際一流水平,國產聯盟鏈系統(tǒng)(螞蟻鏈、騰訊區(qū)塊鏈和百度超級鏈等)每秒交易量均超過1萬,并在區(qū)塊鏈發(fā)票、區(qū)塊鏈司法存證、區(qū)塊鏈物流溯源等領域廣泛應用。
在高能效大數據管理領域,云數據管理技術通過資源共享、資源調度來顯著減少硬件資源和能源的消耗,并使用低功耗硬件和數據壓縮等軟件方法進一步降低能耗。美國的亞馬遜和Snowflake分別是聯機事務處理(on-line transaction processing,OLTP)和聯機分析處理(online analysis processing,OLAP)領域云數據庫的全球引領者;美國亞馬遜、谷歌、微軟、Meta等公司率先探索基于異構硬件和壓縮的低功耗數據管理技術[21]。而國內的高能效云數據庫技術發(fā)展非???,已與美國技術水平接近,如阿里云的PolarDB率先提出分離內存技術[22],中國人民大學等高校也通過異構計算和壓縮數據直接計算方式構建了新型高能效數據管理引擎[23]。近年來,國內外在云數據管理的基礎上探索國家范圍內的一體化高能效數據管理,例如美國蘋果、谷歌等公司通過智能編排,將數據智能地在多個數據中心進行分布和計算,降低總體能耗[24]。我國提出了算力網絡的概念和國際標準,正式啟動“東數西算”工程,充分利用中西部地區(qū)的氣候、能源等優(yōu)勢,在全國布局算力網絡國家樞紐節(jié)點,并逐步在人工智能、圖像渲染、金融和政企業(yè)務等領域應用[25]。我國在高能效一體化數據管理技術方面走在世界前列。
綜上所述,近年來我國大數據管理技術和產品的發(fā)展都非???,如在聯機事務處理基準測試TPC-C排行榜中,OceanBase以707 351 007 tpmC的性能排名世界第一,打破了甲骨文等國外公司長期壟斷的局面。我國大數據管理技術與國外頂尖水平(絕大部分情況指美國)雖然存在一定差距,但大部分領域的差距并不大,具備趕超的機會;在高能效一體化大數據管理等領域,甚至有局部領先。
美國在新一代大數據管理技術方面仍處于全球領先和主導地位;歐盟在部分領域的產品和創(chuàng)新技術上有一定優(yōu)勢;日本、俄羅斯等其他國家相對而言在技術、產品和生態(tài)上均缺乏優(yōu)勢。而我國大數據管理技術進步非常快,在我國大規(guī)模市場的培育下,頭部企業(yè)的產品能力和頂尖高校的創(chuàng)新能力已經達到或接近國際一流水準,明顯超越日本、俄羅斯等國家一些領域的技術創(chuàng)新也領先于歐洲,與美國的差距在迅速減??;尤其是在高能效一體化大數據管理等領域,我國已經在國際上搶先一步發(fā)展。
過去10年,數據規(guī)模呈指數級增長,數據處理的時效性問題成為大數據處理系統(tǒng)面臨的核心問題。同時數據應用蓬勃發(fā)展,數據深度價值挖掘、數據實時處理等新型處理需求進一步提高了數據處理復雜度,大規(guī)模數據處理系統(tǒng)中數據動態(tài)傾斜、稀疏關聯、超大容量等特征給系統(tǒng)帶來資源效率低、時空開銷大、擴展困難等嚴重問題。作為大數據領域典型關聯關系的圖數據,由于其不規(guī)則數據訪問、計算-訪存比小、依賴關系復雜等特點,給現有大數據處理架構帶來了并行流水執(zhí)行效率低、訪存局部性低、內外存通道利用率低和鎖同步開銷大等技術挑戰(zhàn)。
大數據處理通常有兩種方式,一種為離線處理模式,另一種為在線處理模式,與之對應的系統(tǒng)為批處理系統(tǒng)和流處理系統(tǒng)。同時作為互聯網以及科學計算領域重要的數據形態(tài),圖數據因其結構特殊,多采用專用系統(tǒng)處理。本節(jié)將從批處理、流處理以及圖計算3個方面進行比較。
(1)批處理
作為最早的大數據處理模式,從谷歌公司提出MapReduce[26]模型開始,美國一直引領該領域的發(fā)展。近10年,從開源Apache Hadoop到美國加州大學伯克利分校的AMPLab研發(fā)的Spark系統(tǒng),在技術生態(tài)上完全詮釋了大數據處理從“擴展性優(yōu)先”設計到“性能優(yōu)先”設計的過渡,大幅提升了大數據的處理性能,同時也為更多類型的大數據處理業(yè)務(如數據挖掘、機器學習等)提供了支持。為了更好地支撐分布式AI應用,同樣由美國加州大學伯克利分校領導的AnyScale公司提出了Ray框架,通過動態(tài)定制計算依賴,取得了比Spark更優(yōu)異的計算性能。另外,異構計算成為大數據處理系統(tǒng)時效性提升的重要手段。美國NVIDIA公司牽頭針對不同應用領域,開源了RAPIDS GPU數據科學庫[27-28],存內計算[29]之類的近數據處理方法在體系結構領域獲得廣泛關注。
我國過去10年在大數據處理系統(tǒng)領域也取得了巨大進展,尤其以大型互聯網企業(yè)為代表,如阿里巴巴自研的MaxComput引擎可提供高效的數據處理功能,在大型互聯網企業(yè)的數據倉庫和BI分析、網站的日志分析、電子商務網站的交易分析、用戶特征和興趣挖掘等領域獲得較好應用。此外,阿里云基于Flink開發(fā)了Blin系統(tǒng),實現了流處理和批處理的統(tǒng)一,在批流融合相關技術指標方面達到了國際領先水平。在學術界,國內在大數據處理的單點技術突破上也取得了系列進展,如上海交通大學的Espresso[30]、華中科技大學的Deca系統(tǒng)[31],性能大幅領先國際同類系統(tǒng)。目前我國的多數大數據批處理系統(tǒng)還是建立在國際開源的基礎之上的,自研系統(tǒng)國際占有率非常有限,整體技術水平仍有較大差距,生態(tài)差距更大。
(2)流處理
國際上現有流處理系統(tǒng)按體系結構劃分主要可分為并行流處理系統(tǒng)[32]、分布式流處理系統(tǒng)[33]。采用分布式集群架構的分布式流處理系統(tǒng)成為當前國際上流處理系統(tǒng)的主流,近年來發(fā)展出圍繞Storm[33]、Flink、Spark Streaming[34]等開源系統(tǒng)的軟件生態(tài)。為了提高分布式流處理系統(tǒng)的性能,現有工作主要采用數據并行[35-36]、流水線并行[37]等技術提升系統(tǒng)性能。數據并行主要充分利用單個計算節(jié)點上的多核并行資源,對部署到某個計算節(jié)點的具體的計算階段進行多實例并行化,從而充分發(fā)揮多核資源的并行性,提高系統(tǒng)的吞吐率。數據并行優(yōu)化方面的代表性工作是Nasir M A U等人[35-36]提出的PKG(partial key grouping)數據劃分策略,該策略解決了系統(tǒng)由動態(tài)傾斜性帶來的負載不均問題,提升了系統(tǒng)的資源效率,并被Apache的Storm開源項目采納集成。流水線并行的主要思想是將流處理的計算邏輯分解為多個階段,將不同的計算階段部署到分布式集群中的不同計算節(jié)點上,通過流水線技術提高系統(tǒng)資源并行效率,從而提升系統(tǒng)的整體性能。流水線并行方面的代表性工作是Abdelhamid A S等人[37]提出的Prompt系統(tǒng)。
國內流處理系統(tǒng)方面主要基于現有國際開源的相關工作進行優(yōu)化改進。阿里巴巴通過收購德國創(chuàng)業(yè)公司Data Artisans,購入了Apache Flink,并進行了若干優(yōu)化改進,目前絕大部分阿里巴巴的業(yè)務跑在流處理平臺上。數據并行方面的典型系統(tǒng)工作是PStream[38],該系統(tǒng)基于Apache Storm平臺對高頻的鍵值使用輪詢劃分的方式平衡負載,同時對低頻的鍵值使用哈希劃分的方式避免額外的數據聚合開銷。相比于國際上最新的PKG系統(tǒng),PStream將系統(tǒng)吞吐率提升了2.3倍,處理時延縮短了64%。PStream在華為公司有所應用,但在開源社區(qū)的推廣方面不及PKG系統(tǒng)。在流水線并行方面,目前國內研究較少。同時,由于現有系統(tǒng)多基于國際開源軟件架構,國內的流處理系統(tǒng)研究也承襲了現有國際開源框架的弊端,如難以針對多語義查詢進行靈活部署等。
(3)圖計算
圖計算技術是由谷歌公司首次提出的。為了支持分布式圖計算,谷歌公司設計了國際上首個分布式圖計算系統(tǒng)Pregel[39]。該系統(tǒng)將迭代圖算法表示為簡單編程的多次迭代,以簡化分布式圖計算應用的開發(fā)和在底層分布式平臺上的高效執(zhí)行。后續(xù)國外研究團隊也提出了諸多軟件和硬件優(yōu)化技術[40-44]來提高圖計算性能。例如,為了支持PC上的圖計算,國外研究團隊研發(fā)了首個單機圖計算系統(tǒng)GraphChi[45],其采用并行滑動窗口技術,大幅降低外存的亂序訪問次數。普林斯頓大學的研究人員研發(fā)了首個面向圖計算的專用加速器Graphicionado[46],其將以頂點為中心的編程模型中的功能模塊抽象為相應的流水線階段,在保證通用性的同時,顯著提升了圖計算指令效率。
相比而言,國內研究團隊在圖計算領域起步略晚,但隨著國內互聯網行業(yè)和技術的迅猛發(fā)展,國內圖計算市場需求日益高漲?!笆濉逼陂g,我國科技部啟動了“面向圖計算的通用計算機技術與系統(tǒng)”項目。國內一批研究人員在圖計算領域進行了深入研究和大量攻關工作,提出了多種高性能圖計算系統(tǒng)[47-49]和圖計算硬件加速器[50-52]。清華大學研究團隊開發(fā)的基于神威·太湖之光的超大規(guī)模圖計算系統(tǒng)“神圖”系統(tǒng)入圍國際超算大會戈登貝爾獎[53]。華中科技大學研發(fā)的DepGraph[54]斬獲2021年11月國際Green Graph 500和Graph 500榜單兩項全球第一,基于鵬城云腦II系統(tǒng)研發(fā)的圖計算系統(tǒng)再次獲得2022年11月Graph 500 SSSP性能第一。隨著國內圖計算技術的迅猛發(fā)展,國內圖計算研發(fā)能力在圖計算的理論研究、系統(tǒng)研發(fā)和體系結構設計方面均已達到世界前列。
作為大數據技術生態(tài)的重要一環(huán),大數據處理技術在過去10年飛速發(fā)展,尤其因為其巨大的產業(yè)需求,國際、國內大型企業(yè)均投入了大量人力、物力參與研發(fā),技術生態(tài)上依舊蓬勃。我國在該領域發(fā)展迅速,但后發(fā)特征明顯,單點技術突破較好,整體生態(tài)與歐美差距較大,缺乏生態(tài)引領系統(tǒng)出現。在批處理系統(tǒng)、流處理系統(tǒng)上,我國基本以國外開源跟蹤改進為主,圖處理技術由于與國際發(fā)展時間基本同步,國內有部分系統(tǒng)與國際同類系統(tǒng)處于同一技術水平。
大數據分析技術旨在實現從數據到信息再到知識甚至到決策的價值轉換。近年來,大數據分析技術迅猛發(fā)展,性能和效率均取得了顯著的提升,并促進了相關行業(yè)或產業(yè)的智能化發(fā)展。例如,基于深度學習的蛋白質折疊分析技術幫助生物學取得了重大進展;金融數據分析技術幫助銀行業(yè)大幅降低了金融欺詐的風險。然而,廣泛深入的應用在給大數據分析技術的發(fā)展帶來更高的需求的同時,也使其面臨著更深層的挑戰(zhàn)。首先,大數據分析的對象逐漸從相對小規(guī)模、單模態(tài)的數據轉變?yōu)榇篌w量、多模態(tài)的數據,如何對大規(guī)模異構多模態(tài)數據進行融合分析?其次,單一來源的數據往往體量較小或統(tǒng)計分布的代表性不夠,相應分析模型的性能受到制約,如何在保護數據安全與隱私的前提下進行多方數據的聯合學習與分析從而實現數據價值的最大化?最后,諸多應用不再滿足于對大數據相關性的簡單建模與分析,更期待能夠挖掘現象背后的因果規(guī)律,如何通過因果推斷滿足分析技術在可解釋性、穩(wěn)定性、公平性以及可回溯性等方面的更高需求?
針對前述3個方面的挑戰(zhàn),本節(jié)對國內外相應的研究現狀進行了梳理,并比較了差距。
隨著信息技術的飛速發(fā)展,多模態(tài)數據已成為數據資源的主要形式,國內外研究者近些年對多模態(tài)數據融合分析給予了高度關注,也取得了顯著研究成效。當前,國際上多模態(tài)技術的頂尖研究團隊有卡內基梅隆大學的MultiComp Lab和麻省理工學院的Synthetic Intelligence Lab等。這些團隊在AAAI、ICLR等相關領域的國際頂會上發(fā)表了諸多突破性成果[55]。除此之外,微軟2022年提出通用多模態(tài)基礎模型BEiT-3[56],它在視覺和視覺-語言任務上都實現了當時最先進的遷移性能。同年,谷歌提出了多模態(tài)大模型PaLI[57],在多語言圖文數據上進行訓練,效果超過了BEiT-3。目前,多模態(tài)技術已在軍事、交通等領域得到了越來越深入的應用。例如,美國桑迪亞國家實驗室提出了多模態(tài)的軍事概念裝備。緊跟國外研究的步伐,國內研究團隊也加快了對多模態(tài)數據分析技術的攻關,并取得了一些突破性成果。例如,2021年,中國科學院自動化研究所研發(fā)了全球首個三模態(tài)大模型“紫東太初”[58],并在2022年的世界人工智能大會上獲得最高獎項。在應用方面,國內將多模態(tài)技術與商業(yè)、醫(yī)療等領域進行了有效結合。例如,地平線的多模語音算法團隊在2020年長安UNI-T車型上實現大規(guī)模量產,是全球首個能夠在端上實時預測并實現大規(guī)模量產的團隊。綜合來看,國內的多模態(tài)技術在基礎理論和核心技術方面與國際先進水平還存在著一定的差距,但是與具體應用領域結合較好,有效實現了科技成果的落地轉化。
隨著信息化進程的發(fā)展,各個企業(yè)或同一企業(yè)的不同部門生產并存儲了大量應用數據,跨部門、跨機構的數據流通與共享能夠更大程度地挖掘數據的潛在價值。然而,數據的流通共享受到數據安全、商業(yè)機密、個人隱私等多方面的嚴格約束。為了應對上述問題,2016年谷歌提出聯邦學習(federated learning)的概念[59],用于解決多方數據聯合學習與分析的挑戰(zhàn),并推出TensorFlow Federated聯邦學習開源框架,引起學術界和工業(yè)界的強烈關注。除此之外,Open Mind推出的Pysyft聯邦學習框架[60]能夠與主流深度學習框架兼容,熱度居高不下。目前,聯邦學習已經得到一定程度的領域應用。蘋果公司將聯邦學習應用在IOS 13跨設備QuickType鍵盤“Hey Siri”的人聲分類上;NVIDIA公司推出了NVIDIA Clara醫(yī)療學習平臺[61],將聯邦學習技術應用在醫(yī)療領域。在國內,微眾銀行AI團隊2018年系統(tǒng)性地闡述了聯邦學習理論,其能夠保證各企業(yè)在自有數據不出本地、不違規(guī)的前提下進行聯合建模,大幅提升了機器學習建模的效果,之后微眾銀行AI團隊又于2019年開源了首個工業(yè)級聯邦學習技術框架FATE[62],受到廣泛關注。此外,近幾年,百度推出了開源聯邦學習框架PaddleFL,阿里巴巴利用聯邦學習等隱私計算技術推出了DataTrust平臺,二者均在自然語言處理和推薦算法等領域進行了落地實踐。綜合來看,我國相關團隊與企業(yè)已成為聯邦學習技術的重要貢獻者,積極參與到聯邦學習技術的研發(fā)與標準的制定中。
現有大數據分析技術在穩(wěn)定性、可解釋性、公平性、可回溯性等方面存在著天然不足,主要原因是現有技術往往只關注變量統(tǒng)計意義上的相關性分析與建模,而這其中勢必存在不符合變量因果規(guī)律的偽相關。因果推斷技術旨在發(fā)現變量之間的因果規(guī)律?,F有最主流的因果模型為潛在結果框架[63]和結構因果模型[64],兩個模型分別由美國科學家Rubin和美國以色列裔科學家Pearl J等人提出。他們都認為因果關系指的是兩個事物之間改變一個是否能夠影響另一個的關系。Pearl J等人[65]提出了“因果之梯”的概念,自下而上將問題劃分為關聯、干預和反事實3個層次,分別對應于觀察、行動和想象3類活動。而回答因果問題需要借助干預或者反事實?;谶@兩個主流的因果模型,微軟[66]等外國公司在積極探索因果相關的研究。國內因果相關研究起步較晚,但發(fā)展較快。清華大學Cui P等人[67]提出了穩(wěn)定學習的概念,在傳統(tǒng)機器學習框架下通過引入因果推斷技術,尋求數據中的“不變性機制”。中國科學技術大學Zhang Y等人[68]關注因果推薦系統(tǒng)相關的研究,嘗試挖掘用戶與商品之間的因果關系。南京大學Zhu Z M等人[69]則關注因果強化學習的相關研究。綜合來看,因果推斷技術國外起步較早,并開創(chuàng)了奠基性的框架。國內研究雖然起步較晚,但相關研究的發(fā)展呈良好態(tài)勢。
從上述分析可以看出,面向大數據分析前沿需求,以美國為代表的西方國家起步較早,在多模態(tài)數據融合技術、聯邦學習技術以及因果推斷技術的基礎理論和核心技術上已經形成了比較完善的分析和應用生態(tài),且在諸多領域得到了廣泛應用。國內大數據分析技術在基礎理論和核心技術等方面不斷靠近國際先進水平,保持著快速發(fā)展的良好勢頭。
在應用蓬勃發(fā)展的過程中,大數據面臨數據產權、交易流通、收益分配等一系列問題,從而使大數據治理逐漸成為各國關注的熱點,相關技術也發(fā)展迅速。大數據治理是以數據為對象,以最大限度釋放數據價值為目的,在確保數據安全的前提下,貫穿于數據全生命周期的由多方主體參與的共建共享共治的數據價值釋放的過程。大數據治理技術面臨的主要挑戰(zhàn)包括5個方面:一是匯聚融合,如何將海量、多源、分散、異構的數據匯聚融合成便于分析利用的數據資源;二是質量保障,如何評估大數據的質量、檢測及修正其中存在的錯漏,提升數據質量;三是開放流通,如何打通數據孤島,使數據可以突破原生信息系統(tǒng)的邊界,通過開放流通形成更大范圍、更高價值的數據資源;四是數據安全與隱私保護,如何在釋放數據價值的同時保證數據不被破壞、泄露和濫用;五是標準化與生態(tài)系統(tǒng)建設,如何協調各利益方的訴求,建立共同遵循的數據標準體系,并促進形成大數據軟硬件生態(tài)系統(tǒng)等。
在大數據匯聚融合方面,圖靈獎獲得者Michael Stonebraker教授的研究最具代表性,其將大數據融合處理相關研究分為3代[70],分別解決傳統(tǒng)數據倉庫場景(十余個數據源)、跨組織數據共享場景(數十個數據源)和數據湖場景(數百個數據源)的數據融合問題。相應的技術路線也存在顯著的差異,從第一代基于規(guī)則的ETL系統(tǒng),到第二代基于機器學習的Data Curation系統(tǒng),再發(fā)展到第三代機器驅動、人在回路的智能融合系統(tǒng)。清華大學圍繞物聯網場景,主導研發(fā)了Apache IoTDB,在國內外產生了一定的影響力;阿里巴巴、華為、京東等企業(yè)提出了建設“數據中臺”[71],大數據匯聚融合作為數據中臺的核心技術能力,在實踐中得到了創(chuàng)新發(fā)展。
在大數據質量保障方面,ACM/IEEE Fellow加拿大滑鐵盧大學教授Ihab Ilyas研發(fā)了HoloClean系統(tǒng)[72],該系統(tǒng)主要解決關系數據的錯誤檢測和修復問題,在城市、醫(yī)療等領域的真實數據集上將數據質量提升了1~2倍。谷歌公司構建了Knowledge Vault系統(tǒng),提出了知識融合方法,解決了萬維網事實抽取過程中的數據質量問題,構建了規(guī)模遠大于現有開源知識圖譜的結構化知識庫[73]。清華大學的相關學者提出了人在回路的數據質量提升方法,提出在算法的回路中優(yōu)化地引入人的識別與推理能力,在提升數據質量的同時,有效地控制人工參與的成本[74]。哈爾濱工業(yè)大學的相關學者提出了一系列的數據清洗方法,解決了工業(yè)時序數據場景下的錯誤檢測與修復問題,顯著地提升了數據質量[75]。在工業(yè)界,阿里巴巴公司推出了DataWorks全鏈路數據治理工具,華為公司推出數智融合系統(tǒng),這些系統(tǒng)主要針對企業(yè)數據倉庫和數據湖的真實場景,通過數據建模、數據集成、數據血緣等技術手段,支持面向數據全生命周期的質量保障能力。
在大數據開放流通方面,數聯網成為互聯網之上實現可信可管可控的數據互聯互通和大數據應用的核心技術。數聯網是基于軟件定義的,將各種異構數據平臺和系統(tǒng)連接起來,在“物理/機器”互聯網之上形成的“虛擬/數據”網絡,它正在世界范圍內發(fā)展成為大數據時代的一種新型信息基礎設施。當前最有影響力的數聯網技術路線是互聯網發(fā)明人、圖靈獎得主Robert Kahn提出的數字對象架構(digital object architecture,DOA)[76],美國、英國、德國、俄羅斯、中國等國是DOA標識解析系統(tǒng)Handle全球根節(jié)點的參與者。北京大學自主研發(fā)的“黑盒式”互操作技術及燕云DaaS系統(tǒng)[77],提出顛覆式的數據互操作技術途徑——“黑盒”思路,消除了系統(tǒng)源碼、數據庫表、后臺權限、原開發(fā)團隊等“白盒”依賴,信息孤島開放效率得到大幅提升。在此基礎上,2018—2021年,北京大學、清華大學、中國科學院等,在科技部“云計算與大數據”國家重點研發(fā)計劃專項的支持下提出了數聯網中國云方案。中國信息通信研究院于2018年開始建設兼容DOA的國家工業(yè)互聯網標識解析系統(tǒng)。我國以DOA為代表的數聯網系統(tǒng)軟件方面取得了國際先進的技術成果[78]。
在大數據安全與隱私保護方面,同態(tài)加密允許數據分析處理過程中,直接在密文數據上進行計算而無須事先解密,很好地解決了大數據價值利用與數據安全和隱私保護的矛盾,近年來受到各界高度重視,從學術研究逐漸進入實際應用。2017年IBM、微軟、Intel、NIST的研究者主導創(chuàng)立了同態(tài)加密標注化委員會,致力于研制同態(tài)加密安全性、API和應用的標準。安全多方計算在保持各方數據隱私的同時,使多方可以合作完成某個共同的計算目標。此項技術是密碼學的分支領域,在大數據應用的推動下逐漸成為熱點,特別是針對機器學習場景,谷歌率先提出聯邦學習概念,近年來得到快速發(fā)展。2020年美國Meta、日本NTT、中國阿里巴巴等眾多企業(yè)共同創(chuàng)建了安全多方計算聯盟MPC Alliance,旨在推進安全多方計算的認知、接受和采用。當前谷歌、OpenMind、LatticeX基金會,以及我國的百度、字節(jié)跳動等公司推出了各自的開源聯邦學習框架,該領域呈現出百家爭鳴的態(tài)勢。
在標準化與生態(tài)系統(tǒng)建設方面,ISO/IEC JTC 1、ITU-T、IEEE等國際各大標準組織積極制定大數據相關標準,已形成包括參考模型、關鍵技術、安全隱私、領域應用等在內的比較全面的標準體系。我國成立了大數據標準工作組與大數據安全標準特別工作組,現已發(fā)布35項國家標準,并積極參與國際標準的制定。同時,圍繞大數據的開源軟硬件社區(qū)蓬勃發(fā)展,全球最大的代碼托管平臺GitHub截至2020年采用社交化方式匯聚了全球約1億代碼倉,以及近6 000萬名開發(fā)者,成為科技創(chuàng)新的強大引擎。開源硬件方面,OpenCores已經成為全世界最大的免費開源硬件IP核線上社區(qū)。在大數據開源軟件領域,截至2020年木蘭社區(qū)托管的代碼倉庫量超過1 500萬。在開源硬件方面,2007年美國賽靈思公司的大學計劃資助創(chuàng)建了中國首個開源硬件社區(qū)OpenHW。中國科學院的科學數據銀行、上海交通大學推動白玉蘭開放數據集社區(qū)做了很好的嘗試,已經產生影響力。
大數據治理技術整體上尚不成熟,很多技術仍然處于探索階段。在大數據匯聚融合方面,對比美歐日俄,我國的優(yōu)勢在于數據資源豐富、政府推動有力、行業(yè)應用廣泛,這些為技術的創(chuàng)新發(fā)展奠定了良好的基礎。然而,我國也顯示出單點研究居多、整體性的系統(tǒng)創(chuàng)新不足、研究比較分散、缺乏有影響力的主流系統(tǒng)、缺乏應用示范效應等不足。在大數據質量保障方面,我國處于追趕狀態(tài),差距主要體現為基礎理論薄弱、缺乏面向大數據全生命周期的統(tǒng)一的質量治理模型;缺乏可實現數據質量、治理成本、治理時延的統(tǒng)一優(yōu)化的通用數據質量保障系統(tǒng);缺乏尚無突破多組織跨轄域環(huán)境下的全鏈路數據質量追蹤與治理體系。在大數據開放流通方面,我國的“黑盒”互操作技術和燕云DaaS系統(tǒng)已成為打破數據孤島的“撒手锏”技術,達到國際領先水平;在此我國已提出了數聯網中國云方案,制定了DOIP新版標準,總體與國外處于技術并跑的階段。一批行業(yè)級和區(qū)域級數聯網基礎設施正在開展建設,使得我國在數聯網應用方面取得國際領先地位。在大數據安全與隱私保護方面,我國應用較多,基礎性、原創(chuàng)性成果不足,還有待大力發(fā)展;在標準化與生態(tài)系統(tǒng)建設方面,我國緊跟國際發(fā)展前沿,大數據標準體系設計已基本形成,并在穩(wěn)步推進中。我國開源生態(tài)建設方面近年來雖然有所進展,但總體處于跟跑階段,部分我國企業(yè)主導的開源項目(如華為CarbonData)嶄露頭角,但是我國主導的生態(tài)系統(tǒng)尚未建立。整體上我國數據治理技術發(fā)展較晚,體系遠未成形,技術產品生態(tài)仍由外國主導,同時在以數聯網為代表的數據開放流通技術方面與國際先進水平相當。
在大數據應用需求的驅動下,計算技術體系正在重構,從“以計算為中心”向“以數據為中心”轉型,在新的計算技術體系下,一些基礎理論和核心技術問題亟待破解。本文提出新型大數據系統(tǒng)技術發(fā)展的十大趨勢。
趨勢一:數據與應用進一步分離,實現數據要素化。數據一開始是依附于具體應用的。數據庫技術的出現使得數據與應用實現了第一次分離。數據存儲在數據庫中,不再依賴具體的應用而存在。數據要素化的需求將推動數據與應用進一步分離,數據不再依賴于具體的業(yè)務場景,數據以獨立的形態(tài)存在于數據庫中,并通過數據服務為不同的業(yè)務場景提供服務。例如,人口數據庫可以為全部的涉及人口信息的業(yè)務場景提供服務。
趨勢二:數聯網成為數字化時代的新型信息基礎設施。將形成一套完整的數聯網基礎軟件理論、系統(tǒng)軟件架構、關鍵技術體系,包括:針對數聯網軟件以數據為中心的特點,需要從復雜網絡和復雜系統(tǒng)等復雜性理論出發(fā),研究數聯網軟件的結構組成、行為模式和外在性質;針對數聯網軟件的數據傳存算一體化需求,需要采用數據互操作技術和軟件定義思想,研究數聯網軟件運行機理、體系結構與關鍵機制;針對數聯網軟件跨層級、跨地域、跨系統(tǒng)運行帶來的可靠性、可用性、安全性等質量挑戰(zhàn),需要以數據驅動為手段,研究數聯網環(huán)境下保障服務質量與保護質量的原理、機制與方法。
趨勢三:從單域到跨域數據管理,促進數據要素的共享與協同。以數據為中心的計算的核心目標是數據價值的最大化,關鍵要打破“數據孤島”,實現數據要素的高效共享與協同。傳統(tǒng)數據管理局限在單一企業(yè)、業(yè)務、數據中心等內部,未來大數據管理將從傳統(tǒng)的單域模式發(fā)展到跨域模式,跨越空間域、管轄域和信任域。但跨空間域會造成網絡時延較高且不穩(wěn)定;跨管轄域會造成數據與應用異構,數據管理復雜度大大提升;跨信任域則要求具備容忍各類惡意錯誤的能力。跨域帶來的這些變化將為大數據技術帶來新的機遇和挑戰(zhàn)。
趨勢四:大數據管理與處理系統(tǒng)體系結構異構化日趨明顯。體系結構創(chuàng)新進入“黃金十年”,圍繞不同數據處理特征的新型加速器(GPU、TPU、APU等各種xPU)層出不窮,存儲器件快速發(fā)展,高速固態(tài)硬盤(solid state disk,SSD)、新型非易失內存、新型計算網絡等成為大數據處理系統(tǒng)的重要硬件配置,計算與存儲的融合趨勢明顯。為了最大限度地發(fā)揮數據管理能力,大數據管理系統(tǒng)在存儲、網絡、計算等硬件上最大化挖掘新型硬件的處理能力。在處理上針對不同數據處理需求,配置不同計算與存儲硬件成為大數據處理系統(tǒng)的主流架構。數據驅動的計算架構快速發(fā)展,以數據流為中心的系統(tǒng)結構成為重要的系統(tǒng)設計理念。
趨勢五:擴展性優(yōu)先設計到性能優(yōu)先設計。數據規(guī)模急劇增長,大數據處理需求越來越走向深度價值挖掘,數據處理計算愈發(fā)密集,數據管理與處理的成本成為大數據管理與處理系統(tǒng)的重要考量因素,傳統(tǒng)“擴展性優(yōu)先”的大數據處理系統(tǒng)設計將會被“以性能優(yōu)先”的系統(tǒng)設計代替。Spark、Flink等系統(tǒng)在大數據處理生態(tài)系統(tǒng)中的占有率明顯體現了這一趨勢,圖計算(圖加速器、圖計算框架等)、深度學習框架(Tensorflow、PyTorch等)等領域專用大數據處理系統(tǒng)的崛起也是這一系統(tǒng)設計理念在技術生態(tài)上的表現。智能化數據管理、近似計算等新興管理和處理方法成為性能優(yōu)先設計的重要技術手段。
趨勢六:近數處理成為突破大數據處理系統(tǒng)性能瓶頸的重要途徑。存算一體類體系結構技術快速發(fā)展,新型SSD等新型存儲贏家功能愈發(fā)豐富,分布式計算系統(tǒng)邊緣能力迅速發(fā)展。以上3種體系結構技術發(fā)展為大數據近數處理提供了良好的發(fā)展契機。近數處理體現在“存儲上移”(如在GPU、現場可編程門陣列(fieldprogrammable gate array,FPGA)等計算設備上集成HBM)、“算力下沉”(如在DRAM內存或者SSD存儲設備上集成處理能力)、“分布擴展”(如在云、邊、端分布式處理數據,降低數據處理中心壓力)3個方面。
趨勢七:從單域單模態(tài)分析到多域多模態(tài)融合,實現廣譜關聯計算。傳統(tǒng)大數據分析技術大多僅聚焦于單一來源、單一模態(tài)的數據,而實際應用中往往要對來自不同來源、不同模態(tài)(如文本、圖像、音視頻等)的數據進行聯合分析,從而實現不同來源與不同模態(tài)數據之間的信息互補。此外,諸多領域的大數據具有重要的時空屬性,當前研究對這類信息的利用還不夠充分。因此,探究能夠跨模態(tài)關聯、跨時空關聯的廣譜關聯技術是大數據分析處理的一個重要趨勢。
趨勢八:從聚焦關聯到探究因果,實現分析結果可解釋。如何讓大數據分析模型更加穩(wěn)定且具有可解釋性,從而使其分析結果對于用戶而言變得更加可信、更加可用最好還能具備一定的可回溯性,是大數據分析面臨的巨大挑戰(zhàn)。雖然因果推斷與可解釋性分析技術取得了一定進展,但總體來說尚處于起步階段,離實際應用還有很長一段距離。因此,從關聯到因果也是未來大數據分析技術的重要研究方向。
趨勢九:高能效大數據技術是可持續(xù)發(fā)展的關鍵。全球大數據量的持續(xù)高速增長,以及“碳達峰、碳中和”目標的提出,要求大數據技術棧必須走低碳高效、可持續(xù)發(fā)展的路線。例如云數據管理系統(tǒng)以資源共享、節(jié)能高效為主要特點,將是未來大數據管理的主要基礎形態(tài);在云數據管理基礎上的全國一體化高能效大數據管理,由于算力和數據要素的大規(guī)模調度與流通,可以進一步成為未來大數據管理的主要方向,形成低碳發(fā)展新格局。
趨勢十:大數據標準規(guī)范和以開源社區(qū)為核心的軟硬件生態(tài)系統(tǒng)將成為發(fā)展的重點。隨著大數據在各個領域應用的迅速普及,標準化需求將不斷增長,與大數據流動融合、質量評估,以及與行業(yè)、領域應用密切相關的大數據標準將成為發(fā)展重點。開源社區(qū)在大數據軟硬件生態(tài)建設中的地位不斷加強,對開源社區(qū)的主導權爭奪將成為各國技術、產品和市場競爭的重點。
回顧國內外大數據技術在管理、處理、分析與治理4個方面近10年的發(fā)展,可以看出:數據規(guī)模高速增長,現有處理計算能力已經成為瓶頸;數據成為生產要素,但數據價值釋放不充分;從產業(yè)生態(tài)重點的變遷看,呈現出“應用先于理論技術,市場先于標準法規(guī)”的現象。雖然大數據已經在一些應用領域(特別是互聯網領域)取得了較好的成效,但是大數據基礎理論和應用技術不成熟,大數據治理體系遠未建立??傮w上,大數據發(fā)展仍然處于初級階段。
我國在大數據發(fā)展方面取得了積極進展,但總體上較國際先進水平,仍存在差距。具體地,大數據管理技術大部分領域與國外頂尖水平基本相同或接近,其中高能效一體化大數據管理領域處于國際領先水平;大數據處理技術多數領域與國外頂尖水平尚存在技術差距,在資源和互聯網應用領域大數據處理技術應用較好,與國際最高水平基本持平;大數據分析的基礎理論與核心技術方面與國際先進水平還存在著一定差距,在商業(yè)等領域應用方面已超越國外;大數據治理技術整體上發(fā)展較晚,體系遠未成形,技術產品生態(tài)仍由國外主導,同時在以數聯網為代表的數據開放流通技術方面與國際先進水平相當。
面向未來,在大數據應用需求的驅動下,計算技術體系有必要進行重構,以數據為中心的新型大數據系統(tǒng)技術成為重要方向,信息技術體系將從“以計算為中心”向“以數據為中心”轉型,新的基礎理論和核心技術問題仍有待探索和破解。以大數據管理、處理、分析和治理為核心的大數據技術在原有通用計算體系上的持續(xù)優(yōu)化仍有發(fā)展空間,以數據為中心的新技術體系將成為縮小大數據規(guī)模指數級增長與大數據計算需求和能力之間“剪刀差”的突破點。