■本刊記者 趙志遠
隨著大數據時代的到來,越來越多的人意識到,世界上最有價值的資產就是數據,企業(yè)也紛紛踏入數字化轉型的浪潮中。
但眾所周知,大數據具有數據類型繁多、數據價值密度相對較低、處理速度快、時效性要求高等特點,想要吃到這一美味的“蛋糕”可不是那么容易的事,充分利用好數據的價值才是關鍵所在。
AWS 首席云計算企業(yè)戰(zhàn)略顧問張俠認為,數字化轉型包含很多方面的內容,其中很重要的一個內容就是把企業(yè)的數據化資產使用好。
IDC 統(tǒng)計顯示,全球近90%的數據將在這幾年內產生,預計到2025 年,全球數據量將比2016 年的16.1ZB 增加10 倍,達到163ZB。數據的海量與多元化決定了從數據中獲取有用的價值變得越來越困難,如果無法從數據中獲得益處,那么數據價值就無從談起。
傳統(tǒng)方法上,數據從產生到分析處理及使用總要經歷這樣的過程:數據通過一些底層交易型的數據庫,經過整理后形成中間層的數據倉庫,再到上層的商務智能BI。如果這些多元的數據無法被其它應用所使用,那么將不可避免地會形成數據孤島。
張俠表示:“用戶期盼從數據中獲取價值。”而傳統(tǒng)數據分析方式無法快速地將這些多元數據展示出來,從中獲取價值也就難以實現(xiàn)了。
雖然說數據湖的概念出現(xiàn)已有將近10 年了,近年來又不斷被提起,足見其價值所在。數據湖可以看作是一個中心數據存儲的容器,將各類設備及應用所產生的原始數據進行存儲,成為數據“倉庫”,進而可以進行查詢或分析等操作。與傳統(tǒng)所稱的數據倉庫不同,數據湖中存儲的是原始的數據,可以是結構化的或是非結構化的,借助云計算可以快速的縮放存儲海量數據,還可以實現(xiàn)進一步的查詢、分析及處理能力,通過應用機器學習與人工智能技術實現(xiàn)商業(yè)智能,預測分析等。張俠表示,數據湖在實現(xiàn)高可用、高持久、EB 級數據的同時,還可滿足安全、合規(guī)、審計等要求。
當然,不同的服務商對數據湖有不同的理解,AWS 對數據湖也有著自己的理解和應用。2006 年發(fā)布的Amazon S3是全球第一款公有云服務,在Amazon S3 中可以存儲包含結構化和非結構化的數據,以及進一步的各種預測分析等。
數據湖平臺在實現(xiàn)數據倉庫、大數據處理、交互查詢、實時分析、預測分析等能力時,需要有不同的產品服務用以支撐。例如,Amazon RDS服務是一個云托管的關系型數據庫,支持6 種常用數據庫引擎的關系型數據庫服務;Amazon Aurora 云原生的關系型數據庫可自動執(zhí)行各種耗時的管理任務等。
近期,AWS 宣布AWS Glue與Amazon Athena 在由西云數據運營的AWS 中國(寧夏)區(qū)域正式上線。其中,Amazon Athena 是一種交互式查詢服務,它讓客戶可以使用標準SQL 語言、輕松分析Amazon S3 中的數據。AWS Glue 是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄,讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。
這兩個服務都是AWS 數據湖平臺非常重要的組成部分。Amazon Athena 可 以 讓用戶方便地對Amazon S3 數據湖中的數據執(zhí)行查詢,由于Athena 是一種無服務器服務,用戶不用關心配置和管理服務器、集群等情況。
茄子快傳是一家全球化的互聯(lián)網科技公司,通過搭建一個數字內容連接入口,幫助全球200 多個國家和地區(qū)的用戶獲取優(yōu)質數字內容。茄子快傳此前面臨數據量大、分析維度多、業(yè)務復雜等挑戰(zhàn),所以經常需要多維度多顆粒度的高并發(fā)分析。茄子快傳數據運營負責人何誠表示:“茄子快傳通過使用Amazon Athena,使其運行新數據分析所需的時間縮短了30%,大幅減少了成本與運維方面的風險?!?/p>
AWS Glue 讓Amazon S3數據湖中的數據集可以被發(fā)現(xiàn),可用于查詢和分析。一般來說,客戶在使用數據湖架構實現(xiàn)數據分析解決方案時,通常有75%的時間花在數據集成任務上,而AWS Glue 消除了ETL 作業(yè)基礎設施方面的重復勞動,極大地縮短分析項目中做ETL 和數據編目階段的時間,讓ETL 變得很容易。
雖說數據湖對于實現(xiàn)數據價值是個行之有效的方法,但要構建真正安全高效的數據湖并非易事。傳統(tǒng)構建數據湖首先需要設置存儲,然后將數據移動及加載到不同位置,清理、準備數據及編寫數據目錄,配置并實施安全性與合規(guī)策略,最后使用相關工具提取數據并用于分析。
如今新技術的發(fā)展也使數據湖迸發(fā)出新的活力。張俠表示,AWS 已有多種新服務幫助用戶更快、更好地完成數據湖的構建。一類是無服務器分析,無需用戶手動管理即可實現(xiàn)數據湖的分析,以上提到的AWS Glue 就是典型的無服務器托管及分析服務,為用戶提供按需數據湖分析。
另一類是借助機器學習和人工智能服務實現(xiàn)對數據的預測性洞察,尤其是與Amazon SageMaker 服務相結合,可實現(xiàn)更多自動化的預測性分析。
值得指出的是,AWS 有著多種服務確保數據湖安全,以滿足對安全、合規(guī)、審計等的要求。張俠表示,Amazon S3 可 以 達 到“11 個9”的數據持久性,采取三個可用區(qū),來保障用戶的數據安全,AWS Identity and Access Management(IAM) 可實現(xiàn)用戶身份和接入管理等,以滿足對用戶以及當地相關法律法規(guī)的要求。
張俠表示,數據湖是數據分析智能商務的新趨勢,AWS提供的數據湖與分析服務可幫助企業(yè)用戶企業(yè)從數據中獲得洞察力。