王永
數(shù)據(jù)量在以前所未有的速度增長(zhǎng),從 TB 級(jí)暴增至 PB 級(jí),甚至 EB 級(jí)。傳統(tǒng)的本地?cái)?shù)據(jù)分析方法不具有充分的擴(kuò)展能力,同時(shí)價(jià)格太貴,無(wú)法處理這樣大量的數(shù)據(jù)。企業(yè)需要從多個(gè)孤島提取所有的數(shù)據(jù),然后將這些數(shù)據(jù)集中在數(shù)據(jù)湖,從而直接對(duì)這一數(shù)據(jù)進(jìn)行分析和機(jī)器學(xué)習(xí)處理。
不過(guò),在這樣一個(gè)數(shù)據(jù)“迸發(fā)”的趨勢(shì)下,企業(yè)挖掘數(shù)據(jù)價(jià)值的挑戰(zhàn)也愈發(fā)明顯:從結(jié)構(gòu)化到半結(jié)構(gòu)化再到非結(jié)構(gòu)化數(shù)據(jù)的指數(shù)增長(zhǎng)、復(fù)雜的使用場(chǎng)景和實(shí)時(shí)數(shù)據(jù)的快速?zèng)Q策能力。
“在此之前,一個(gè)數(shù)倉(cāng)隔幾天跑一個(gè)報(bào)告是習(xí)以為常的,但是現(xiàn)在企業(yè)的整個(gè)業(yè)務(wù)和場(chǎng)景變化會(huì)驅(qū)動(dòng)企業(yè)的決策能力加快,甚至很多決策會(huì)是分鐘級(jí)的,這就要求在一些實(shí)時(shí)流分析時(shí)給到?jīng)Q策?!眮嗰R遜云科技大中華區(qū)服務(wù)產(chǎn)品部總經(jīng)理顧凡在接受筆者的采訪時(shí)表示,面對(duì)細(xì)分的應(yīng)用場(chǎng)景,目前市面上單一、通用的數(shù)據(jù)解決方案在性能上會(huì)有所妥協(xié),很難滿足客戶的真實(shí)需求,用戶亟需融合了易用、易擴(kuò)展、高性能、專門構(gòu)建、安全及智能等特性于一體的新一代數(shù)據(jù)管理架構(gòu)。
2021年6月24日,亞馬遜云科技針對(duì)數(shù)據(jù)及數(shù)據(jù)分析等服務(wù)持續(xù)發(fā)力,推出引領(lǐng)大數(shù)據(jù)未來(lái)的“智能湖倉(cāng)”架構(gòu),圍繞著“智能湖倉(cāng)”,亞馬遜云科技提供的數(shù)據(jù)分析服務(wù)包括:底層上,從數(shù)據(jù)庫(kù)把數(shù)據(jù)注入到數(shù)據(jù)湖中的DMS,從弱網(wǎng)的環(huán)境把數(shù)據(jù)搬到數(shù)據(jù)湖中的Amazon Snowball,以及有實(shí)時(shí)的流數(shù)據(jù)服務(wù)Amazon Kinesis系列。
中間層,Amazon S3是核心數(shù)據(jù)湖的關(guān)鍵構(gòu)成組件,數(shù)據(jù)進(jìn)入到Amazon S3,在EB級(jí)以及在高可用、高擴(kuò)展的情況下支撐結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),并在Amazon S3上也會(huì)有針對(duì)分析專門優(yōu)化過(guò)的存儲(chǔ)層。
上層是真正數(shù)據(jù)的處理和數(shù)據(jù)的消費(fèi)層。在數(shù)據(jù)分析領(lǐng)域里針對(duì)不同的分析場(chǎng)景會(huì)有不一樣的分析引擎——Amazon Redshift、Amazon EMR、Amazon Athena等。同時(shí)除數(shù)據(jù)處理和分析的引擎之外,還有商業(yè)智能BI類的像Amazon QuickSight以及大量的機(jī)器學(xué)習(xí)類的服務(wù)。
“智能湖倉(cāng)并不是一個(gè)產(chǎn)品,而是為解決客戶現(xiàn)實(shí)挑戰(zhàn)而生,為處理復(fù)雜場(chǎng)景而設(shè)計(jì)的架構(gòu)。”在顧凡看來(lái),亞馬遜云科技在數(shù)據(jù)分析整個(gè)產(chǎn)品設(shè)計(jì)的想法有三層方面的考量:首先,為云優(yōu)化。無(wú)論是Amazon Aurora還是Amazon Redshift,這些都是云原生的數(shù)據(jù)庫(kù)、數(shù)倉(cāng),其天然在彈性方面是沒(méi)有限制的,可以做到非常好的線性擴(kuò)展。
其次,專門構(gòu)建。數(shù)據(jù)分析場(chǎng)景越來(lái)越多元化,使用的人也會(huì)越來(lái)越多元化,所以,必須要去專門構(gòu)建不一樣的分析引擎。
最后,完全托管。這個(gè)是貫穿于云計(jì)算始終不會(huì)變的原則,針對(duì)客戶業(yè)務(wù)無(wú)差別的繁重的工作都由亞馬遜云科技來(lái)做,而不需要去重復(fù)地做整個(gè)倉(cāng)、湖的管理、構(gòu)建、甚至是數(shù)據(jù)的無(wú)縫移動(dòng)。
在智能湖倉(cāng)這個(gè)概念里,有一個(gè)方面是反復(fù)被提到的——數(shù)據(jù)的無(wú)縫移動(dòng)。
在客戶的業(yè)務(wù)場(chǎng)景中,數(shù)據(jù)移動(dòng)大概分為三類:由外向內(nèi),數(shù)據(jù)入湖。例如,在Amazon Redshift數(shù)據(jù)倉(cāng)庫(kù)做查詢,按照區(qū)域來(lái)劃分今年的銷售,查詢跑出結(jié)果之后,數(shù)據(jù)不會(huì)只呆在數(shù)倉(cāng)里,會(huì)從數(shù)倉(cāng)重新注入到數(shù)據(jù)湖中。因?yàn)闄C(jī)器學(xué)習(xí)的Amazon SageMaker直接就對(duì)接著數(shù)據(jù)湖,數(shù)據(jù)可以從數(shù)據(jù)湖再注入到Amazon SageMaker,Amazon SageMaker通過(guò)分區(qū)域產(chǎn)品銷售的分析數(shù)據(jù)去建立模型,即先由湖倉(cāng)完成查詢,查詢的數(shù)據(jù)入湖,機(jī)器學(xué)習(xí)調(diào)用數(shù)據(jù)。
由內(nèi)向外,數(shù)據(jù)出湖。當(dāng)客戶用實(shí)時(shí)數(shù)據(jù)流的服務(wù),將客戶在網(wǎng)站上的Web點(diǎn)擊流的數(shù)據(jù)注入到湖里面,這些數(shù)據(jù)已經(jīng)在湖里面。
環(huán)湖移動(dòng)。簡(jiǎn)單來(lái)說(shuō)是數(shù)據(jù)并不會(huì)只從外面往里進(jìn)和從里面往外出,無(wú)論是數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù),還是不一樣的分析引擎,環(huán)湖有不一樣目的的專用數(shù)據(jù)存儲(chǔ)。
“亞馬遜云科技智能湖倉(cāng)架構(gòu)提出已經(jīng)有幾年的時(shí)間,在2020的re:Invent上談到如何迭代這樣一個(gè)智能湖倉(cāng)架構(gòu)的時(shí)候,我們非常強(qiáng)調(diào)未來(lái)的整個(gè)數(shù)據(jù)做一個(gè)更好的支撐。”顧凡說(shuō)到。
從亞馬遜云科技的角度來(lái)看,智能湖倉(cāng)的架構(gòu)必須要有一個(gè)快速構(gòu)建可擴(kuò)展的數(shù)據(jù)湖,即Amazon S3。圍繞著Amazon S3,客戶使用專門構(gòu)建的這些數(shù)據(jù)分析的服務(wù)集合,例如,結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜查詢Amazon Redshift和Amazon Aurora交易型數(shù)據(jù)庫(kù)等,在湖、倉(cāng)和專門構(gòu)建的數(shù)據(jù)服務(wù)之間做好移動(dòng)數(shù)據(jù),包括 Amazon Glue和Amazon Glue Elastic view 等功能。以一種統(tǒng)一的方式管理湖里面數(shù)據(jù)的安全性、訪問(wèn)控制和審計(jì)。最后,以低成本擴(kuò)展系統(tǒng),但同時(shí)不降低性能。
“構(gòu)建一個(gè)數(shù)據(jù)湖要有專門構(gòu)建的數(shù)據(jù)分析服務(wù),要能做到數(shù)據(jù)、湖、倉(cāng)和專門構(gòu)建的數(shù)據(jù)服務(wù)的無(wú)縫數(shù)據(jù)移動(dòng),統(tǒng)一管理、低成本,這是我們所定義的亞馬遜云科技智能湖倉(cāng)架構(gòu)?!痹陬櫡部磥?lái),智能湖倉(cāng)不僅僅是湖和倉(cāng)的打通,更是湖、倉(cāng)專門構(gòu)建數(shù)據(jù)服務(wù)連接成一個(gè)整體。
亞馬遜云科技“智能湖倉(cāng)”架構(gòu)優(yōu)勢(shì)體現(xiàn)在五個(gè)方面:第一,靈活擴(kuò)展、安全可靠。這個(gè)架構(gòu)最重要的是Amazon S3數(shù)據(jù)湖的基礎(chǔ)組件,它擁有無(wú)與倫比的持久性是11個(gè)9。其可用性不僅可以跨3個(gè)可用區(qū)做數(shù)據(jù)復(fù)制,可擴(kuò)展性甚至可以做到EB級(jí)。更重要的是,可以在數(shù)據(jù)湖高擴(kuò)展性、高可用性的情況下,很好的控制成本。
第二,專門構(gòu)建、極致性能。任何一個(gè)技術(shù)都會(huì)各有優(yōu)劣,所以并不存在一個(gè)技術(shù),既能在功能、性能以及擴(kuò)展性上做到一個(gè)產(chǎn)品打天下。
第三,數(shù)據(jù)融合、統(tǒng)一治理。未來(lái)的整個(gè)的智能湖倉(cāng)架構(gòu)里面,數(shù)據(jù)會(huì)在各個(gè)點(diǎn)之間移動(dòng),亞馬遜云科技把數(shù)據(jù)移動(dòng)歸納為幾種方式:一種是傳統(tǒng)的ETL,提取轉(zhuǎn)換加載;一種是可視化數(shù)據(jù)準(zhǔn)備。例如,Amazon SageMaker里面的Data Wrangler,可以快速?gòu)臄?shù)據(jù)里面提取特征。
第四,敏捷分析、深度智能。談到數(shù)據(jù)永遠(yuǎn)分不開(kāi)三個(gè)話題:如何把數(shù)據(jù)基礎(chǔ)設(shè)施現(xiàn)代化,采用云上的云原生數(shù)據(jù)庫(kù);如何從數(shù)據(jù)中真正產(chǎn)生價(jià)值;如何用機(jī)器學(xué)習(xí)更好地輔助決策,甚至是驅(qū)動(dòng)決策。
因此,在智能湖倉(cāng)的架構(gòu)下,亞馬遜云科技首先集成就是Amazon SageMaker和湖倉(cāng)的融合。然后是機(jī)器學(xué)習(xí)的再擴(kuò)圈——不是只有數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)的數(shù)據(jù)開(kāi)發(fā)工程師在用機(jī)器學(xué)習(xí),更要鼓勵(lì)今天的DBA、數(shù)據(jù)分析師都可以用機(jī)器學(xué)習(xí)。
第五,擁抱開(kāi)源、開(kāi)放共贏。無(wú)論Amazon EMR,還是Amazon Elasticsearch以及Amazon MSK,都是針對(duì)開(kāi)源API的一種全面的支持和兼容。
值得一提的是,當(dāng)前已經(jīng)有數(shù)十萬(wàn)的客戶在借助亞馬遜云科技全球服務(wù)構(gòu)建數(shù)據(jù)湖,并將數(shù)據(jù)分析和機(jī)器學(xué)習(xí)等工作負(fù)載搭載其中。
“以客戶為先,讓亞馬遜云科技推動(dòng)數(shù)據(jù)架構(gòu)不斷演進(jìn)的同時(shí),自身也在通過(guò)客戶的反饋,汲取創(chuàng)新的源動(dòng)力——亞馬遜云科技90%的創(chuàng)新來(lái)自于直接聽(tīng)取客戶的建議。未來(lái),亞馬遜云科技還將不斷通過(guò)技術(shù)創(chuàng)新和實(shí)踐創(chuàng)新,加速其在中國(guó)區(qū)的業(yè)務(wù)布局的同時(shí),幫助客戶輕松應(yīng)對(duì)海量業(yè)務(wù)數(shù)據(jù),充分挖掘數(shù)據(jù)價(jià)值?!鳖櫡踩缡钦f(shuō)。