梅宏
大數(shù)據(jù)導(dǎo)致了一個(gè)現(xiàn)象,就是信息技術(shù)體系進(jìn)入重構(gòu)前夜,實(shí)際上這給了我們一個(gè)顛覆式發(fā)展的機(jī)遇。
我想分四個(gè)方面講。
第一,應(yīng)用需求。大數(shù)據(jù)的應(yīng)用需求,使得我們的計(jì)算機(jī)體系結(jié)構(gòu)可能面臨重構(gòu)的需要。現(xiàn)在出現(xiàn)了很多新技術(shù),比如新型存儲(chǔ)介質(zhì)、新型運(yùn)算器件,它們使得計(jì)算機(jī)的體系結(jié)構(gòu)產(chǎn)生一定的變革。怎么變革,會(huì)不會(huì)出現(xiàn)以數(shù)據(jù)為核心而計(jì)算圍在周邊的一種結(jié)構(gòu)?目前正在研究在芯片上存算一體——這是一種可能的方向。
第二,云計(jì)算模式領(lǐng)域化、資源泛載化,資源平臺(tái)化的大態(tài)勢(shì)。我們希望在服務(wù)質(zhì)量提升、新型硬件管理、極致效能的追求方面做很多工作。同時(shí)我們也看到云邊端結(jié)合的新型計(jì)算也在涌現(xiàn),還有軟件定義對(duì)整個(gè)世界所形成的影響。我們對(duì)數(shù)據(jù)管理、軟件開發(fā)運(yùn)行、數(shù)據(jù)分析等都有很多要求。
第三,通信。5G能解決通信問題,網(wǎng)絡(luò)通信還需要更好發(fā)展帶寬、移動(dòng)、泛載。對(duì)于帶寬的問題,移動(dòng)、泛載的問題,我們看到信息技術(shù)體系按照過去的發(fā)展套路,還有很多值得探討的空間,在基礎(chǔ)器件上也有很多上升空間,比如大數(shù)據(jù)組織、分析等等相關(guān)技術(shù)理論都有待突破?;A(chǔ)器件,高性能、高時(shí)效、高吞吐等極端化的大數(shù)據(jù)需求,使得我們需要高通量的處理芯片,需要多通道數(shù)據(jù)化、可視設(shè)備等。
第四,軟件開源,硬件開放,正在導(dǎo)致我們產(chǎn)業(yè)生態(tài)發(fā)生變化。實(shí)際上,顛覆式發(fā)展的機(jī)遇可能就在這個(gè)地方。
大數(shù)據(jù)的管理、處理
管理是數(shù)據(jù)的存儲(chǔ)、組織,而處理就是把數(shù)據(jù)并行處理為內(nèi)容。
由于無法定義一個(gè)模式,一致性也沒法保持,不能夠事先定義數(shù)據(jù)模式,就沒辦法保持它的事務(wù)性等數(shù)據(jù)的一致性。由于單一表格存儲(chǔ)、高性能是非常難以實(shí)現(xiàn)的,這就使得對(duì)大規(guī)模、多表關(guān)聯(lián)查詢及復(fù)雜分析類型的SQL查詢性能嚴(yán)重下降,這就是在大數(shù)據(jù)時(shí)代傳統(tǒng)數(shù)據(jù)庫做不了的事。對(duì)于處理而言,實(shí)際上大體分成三個(gè)階段:前大數(shù)據(jù)時(shí)代,大數(shù)據(jù)早期、現(xiàn)在。
大數(shù)據(jù)和HaDoop不管發(fā)展如何,單臺(tái)計(jì)算能力都是有限的。所以我們必須要并行處理,沒辦法做一臺(tái)計(jì)算機(jī)滿足所有的處理需求。比如最早出現(xiàn)的HaDoop就是批處理,批處理好處是什么?吞吐率高,適用于海量預(yù)存數(shù)據(jù)的處理。其次是流處理,適用于在線型、產(chǎn)生速度快的時(shí)延數(shù)據(jù)處理。還有一種新的數(shù)據(jù)類型就是圖處理,用巨型的圖數(shù)據(jù),比如以社交網(wǎng)絡(luò)為代表的大量數(shù)據(jù)都是圖數(shù)據(jù),億萬個(gè)節(jié)點(diǎn),這樣大型的社交網(wǎng)絡(luò)圖怎么辦。所以現(xiàn)在這些系統(tǒng)很多,都是開源,但是沒有看到一個(gè)能滿足所有要求的一種處理模型。
再看現(xiàn)在的問題,比如說Spark,它是一個(gè)批處理平臺(tái),它是用VP的技術(shù)處理流模式,把流式計(jì)算用時(shí)間片切開,分解成一些小批量,本質(zhì)上還是批處理,只是每一批小一點(diǎn)。
圖處理。圖數(shù)據(jù)最大的問題就是并行,它本身量很大,大量的數(shù)據(jù)是沖突的,而且互相依賴性比較高,通信開銷就比較大。核心的一個(gè)問題,從數(shù)學(xué)上,如果能完成一個(gè)很好的圖分割,就可能完成這種圖的并行處理。但是最終也是要追求并行處理。
從三個(gè)維度看挑戰(zhàn)
第一,數(shù)據(jù)處理方式和數(shù)據(jù)來源的問題。我們提到了面臨數(shù)據(jù)來源有離線數(shù)據(jù)、在線、混合處理的需求,方式就出現(xiàn)了批處理、流處理和混合處理。從計(jì)算架構(gòu)角度、系統(tǒng)結(jié)構(gòu)的角度看,我們過去做的傳統(tǒng)計(jì)算最大的問題是計(jì)算產(chǎn)生的內(nèi)存要求,內(nèi)存要從外存取數(shù)據(jù),所以內(nèi)外交疊浪費(fèi)很多時(shí)間。所以我們還出現(xiàn)了內(nèi)存計(jì)算,既然這樣,就可以搞一個(gè)大內(nèi)存,把所有數(shù)據(jù)裝在內(nèi)存里面,這是一種方式。第二,新型的架構(gòu)。通過綜合GPU,還有其他的TPU、數(shù)據(jù)流等,構(gòu)建新型的計(jì)算架構(gòu)。第三,數(shù)據(jù)類型本身。數(shù)據(jù)類型本身有文檔等各種模式,我們目前看到的單一系統(tǒng)是沒有辦法去處理這種混合負(fù)載的,而混合負(fù)載的處理,實(shí)際上是存在著大量的需求。
大數(shù)據(jù)處理三大挑戰(zhàn)
挑戰(zhàn)一:怎么樣高效處理各類混合負(fù)載,這是當(dāng)前我們面臨的一個(gè)挑戰(zhàn)。什么叫混合處理的需求?我舉一個(gè)例子,比如說雙十一成交數(shù)據(jù)的一個(gè)實(shí)時(shí)分析。當(dāng)天處理的時(shí)候,它是實(shí)時(shí)的用戶數(shù)據(jù)和商品數(shù)據(jù),通過實(shí)時(shí)數(shù)據(jù)采集去弄。但實(shí)際上這兩個(gè)東西對(duì)實(shí)時(shí)數(shù)據(jù)、興趣模型到用戶的行為預(yù)測(cè)有局限,如果沒有離線數(shù)據(jù)支撐,它的準(zhǔn)確率和效果不會(huì)那么好。所以要完成個(gè)性化推薦,必須要用到離線的數(shù)據(jù),這就是流處理和批處理同時(shí)出現(xiàn)的一種場(chǎng)景?,F(xiàn)有的大數(shù)據(jù)處理系統(tǒng)沒辦法處理這種混合的處理。而現(xiàn)在新流進(jìn)來的實(shí)時(shí)的數(shù)據(jù),需要進(jìn)行流處理。
挑戰(zhàn)二:現(xiàn)有的大數(shù)據(jù)帶來的好處就是開源,但是HaDoop的生態(tài)系統(tǒng)、Spark的生態(tài)系統(tǒng)、Flink的生態(tài)系統(tǒng)都有各自的開源生態(tài),甚至有自己的開源許可證協(xié)議。
挑戰(zhàn)三:針對(duì)圖數(shù)據(jù),傳統(tǒng)應(yīng)用計(jì)算密集,而圖應(yīng)用,有較低的計(jì)算訪存比,有大量隨機(jī)的訪存,有復(fù)雜數(shù)據(jù)的依賴,還有非結(jié)構(gòu)化的分布,這是圖數(shù)據(jù)的問題,和傳統(tǒng)應(yīng)用所面臨的東西是不一樣的。所以我們能不能探討另一種新型的架構(gòu)來提高它的高并行的處理?這就是我們談到的各種大數(shù)據(jù)類型和計(jì)算結(jié)構(gòu)匹配起來之后的一些挑戰(zhàn)。
我們?cè)谠朴?jì)算平臺(tái)之上,要進(jìn)行各種大數(shù)據(jù)處理,而大數(shù)據(jù)的類型、存儲(chǔ)是迥然不同的,訪問模式有圖數(shù)據(jù)、KV的、列的、文檔的,各種各樣的東西?,F(xiàn)在,我們要構(gòu)建一個(gè)處理平臺(tái),是支持批處理的,也支持流處理的,還可以支持混合處理的?;齑嬷?,我們要支持人工智能應(yīng)用,要支持交互式的數(shù)據(jù)分析,進(jìn)一步支持各種應(yīng)用。
傳統(tǒng)的定制問題、系統(tǒng)選型難,不同處理系統(tǒng)融合難,系統(tǒng)調(diào)優(yōu)難,維護(hù)難、多系統(tǒng)之間數(shù)據(jù)傳輸也導(dǎo)致它的效率是比較低的——這就是我們的大環(huán)境面臨的問題。所以我們想做一件事,就是希望通過軟件定義的方式,通過大數(shù)據(jù)處理管理平臺(tái),讓它的功能實(shí)現(xiàn)可編程,可以面向不同的需求進(jìn)行定制。
原創(chuàng)的技術(shù)
我們希望資源調(diào)度優(yōu)化,進(jìn)一步依托數(shù)據(jù)多種需求,多模態(tài)存儲(chǔ),形成一套引擎,能夠高效的支撐多種處理模式。項(xiàng)目的目標(biāo),是希望研究和開發(fā)面向新型的、多處理模型融合架構(gòu)的一個(gè)高時(shí)效、可擴(kuò)展的新一代大數(shù)據(jù)分析支撐系統(tǒng)和工具平臺(tái)。我們還是希望站在巨人的肩膀上消化吸收,高時(shí)效、可擴(kuò)展就是它的關(guān)鍵詞,希望建立基于軟件定義的新型的自適應(yīng)融合架構(gòu)。一套引擎、一套數(shù)據(jù)、一套資源來支撐、滿足不同的處理模型的需求,進(jìn)一步支撐大數(shù)據(jù)分析和智能的應(yīng)用。我們要追求高時(shí)效、低時(shí)延,多計(jì)算模型的融合,自適應(yīng)的優(yōu)化;在可擴(kuò)展方面,面向云計(jì)算進(jìn)行可伸縮的調(diào)整,處理平臺(tái)跨數(shù)據(jù)中心的擴(kuò)展,機(jī)器學(xué)習(xí)模型的擴(kuò)展,還有一些具體的關(guān)鍵技術(shù)。
事情能不能做得成,就要靠我們團(tuán)隊(duì)的努力。我始終覺得中國的IT還存在很大的問題。畢竟,我們很多場(chǎng)合不在應(yīng)用第一線,很多問題都不是我們發(fā)現(xiàn)的。
過去五到十年,我們依然在談的問題就是海量:人多,數(shù)據(jù)多。所以,我們沒有原始的創(chuàng)新,我們一直在尋求原始創(chuàng)新,這是我們最大的一個(gè)欠缺。
我想留下一支可以開發(fā)系統(tǒng)軟件的隊(duì)伍完成這件事情,我們希望通過消化、吸收,打碎并重新組合,形成一種集成創(chuàng)新。