金琦 劉宗凡 邱元陽 倪俊杰 楊磊 邵建勛
編者按:在大數據技術的幫助下,一個全新的世界正向我們敞開大門,隨著形態(tài)各異的數據的日益增多,大數據管理成為大數據發(fā)展中的一大挑戰(zhàn)。上期我們對大數據及其代表處理架構Hadoop做了技術流介紹,本期各位老師將解構數據領域(數據倉庫、數據湖、數據中臺)相關概念,引導讀者能據此有的放矢地構建自己的大數據體系觀。
金琦:在上一期中,我們對大數據的基本概念和大數據處理的代表框架Hadoop進行了介紹。Hadoop分布式文件系統(tǒng)(HDFS)是大數據技術典型代表。這個開源軟件框架的設計初衷就是解決在分布計算集群中的存儲和處理大量數據集的難題。隨著大數據的蓬勃發(fā)展,數據管理工具得到了飛速的發(fā)展,相關概念如雨后春筍一般應運而生,如數據倉庫、數據湖、數據中臺等,這些概念特別容易混淆,本期對這些名詞術語及內涵進行系統(tǒng)的解析,便于讀者對數據平臺相關概念有全面的認識。
數據倉庫
劉宗凡:包括教育在內眾多機構的數據建設經歷了分散建設、主數據集中和大數據平臺多個階段,大數據重在挖掘,提到數據挖掘不能不談數據庫和數據倉庫。數據庫主要是針對事務的,數據倉庫主要是針對主題。例如,露天市場與超市都在賣菜,它們的區(qū)別是市場里攤主自己賣菜,所以他會把青菜、蘿卜、冬瓜等放在一起銷售。換個角度說,市場里的蔬菜相當于計算機里的數據,攤主相當于應用程序,蔬菜按照攤主的要求歸堆,就相當于數據按照應用程序即事務去處理。但在超市里,青菜、蘿卜、冬瓜各自在一塊,也就相當于超市里蔬菜是按照同一類型放在一起的,這里的同一類型就相當于軟件里的主題。
邱元陽:劉老師的比喻很形象,我們再來談一下兩者的特性吧,首先數據倉庫具有時間屬性,因為出于決策的需要,倉庫中的數據必須表明它是什么時間建立的,但數據庫保存信息的時候并不強調一定有時間信息。此外,數據倉庫的另一個特性是不可修改。數據倉庫中的數據來源于歷史數據,所以其中的數據不一定是最新的,而數據庫中的數據都是日常事務,是時時更新的。例如,我們查詢的當月話費都是實時數據,這個數據庫是可以變化的,但電信服務器中存儲大量客戶信息以及他們過去時段所用的話費就是歷史數據,從這些歷史數據中我們可能會向分析師提供哪些是優(yōu)質客戶,哪些是大型客戶,這時庫里的數據就不可更改了。數據倉庫里的數據是過去的,數據庫里的數據是實時的,數據庫是為了捕獲數據,數據倉庫是為了分析數據。
倪俊杰:我們再對數據倉庫進行技術性描述,數據倉庫使用ETL(Extraction,提取;Transform,轉換;Load,加載)過程來攝取新數據,在將數據加載至數據倉庫前,需要使用預定義好的模組(Schema)將其結構化處理(或稱建模),即所謂的“寫入時建?!保⊿chema-on-Write),使用時再根據特定需求進行結構化處理,即所謂的“讀出時建模”(Schema-on-Read)。上期我們講的Hadoop上就包含Hive這一數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數據的機制。Hive定義了簡單的類SQL查詢語言,稱為HQL,它允許熟悉SQL的用戶查詢數據。同時,這個語言也允許熟悉MapReduce的開發(fā)者開發(fā)自定義的mapper和reducer來處理內建的mapper和reducer無法完成的復雜的分析工作。
楊磊:就教育系統(tǒng)而言,《國家教育管理信息系統(tǒng)建設總體方案》指出國家教育管理信息系統(tǒng)建設要以“兩級建設、五級應用”體系為重點,其中的“兩級建設”指國家級和省級兩級云數據中心。在智慧教育生態(tài)系統(tǒng)中,這兩級數據中心(Data Center)分別部署于教育公有云和區(qū)域混合云中。著眼于省級以下的各級自制系統(tǒng)管理發(fā)展水平不一,兩級數據中心是各自治系統(tǒng)互聯互通的外部接口,它對各級自治系統(tǒng)傳來的數據進行數據規(guī)整和數據清洗等處理,將數據轉換為統(tǒng)一的或合乎某一特定系統(tǒng)的標準格式,以便為各自治系統(tǒng)提供數據服務。而私有云配備數據倉庫是面向主題的、單一的、完整的、一致的數據存儲。數據倉庫中的數據來源于本地架構根據開放政策或協議公開的數據,同一數據一次、一處進入私有云(保證數據的準確性、及時性和完整性),其數據結構和存儲方式與系統(tǒng)具體功能或數據流無關(保證數據的共享性)。這樣的設計為各自治系統(tǒng)從兩兩互相調用的耦合向數據松耦合轉變創(chuàng)造了基礎條件。在基于數據中心的松耦合中,所有自治系統(tǒng)的簡單關聯均通過數據中心實現,目前比較典型的是用東方通中間件來完成各級系統(tǒng)的數據共享交換和協同運作。
數據中臺
金琦:隨著技術的進步,特別是存儲硬件價格的下降與分布式計算的發(fā)展,數據倉庫得到了廣泛的應用,但數據倉庫也遇到了一些問題,大家也可以對此探討一下。
邵建勛:是的。例如,數據實時性問題:由于數據倉庫是基于歷史數據的,它無法滿足現代機構管理需求,原來數據倉庫基于歷史數據設計主要是為了提高查詢效率,但是現代的硬件技術與分布式計算早已提供了更好的解決方法。數據共享問題:數據倉庫以主題方式組織數據,如學校就有不同主題諸如教師管理、學生管理、資源管理數據,就使得在解決數據孤島的問題上又形成了一個個“數據煙囪”,各部門在使用數據時,仍然會面臨數據不一致的問題,且數據倉庫與業(yè)務之間高度耦合,也使得數據倉庫難以維護,修改起來工作量巨大,跟不上管理變革。數據分析對業(yè)務的支撐不足:由于數據分析是基于歷史數據的分析,而業(yè)務是實時的,所以兩者之間存在一定的時間差,導致數據分析只能起到對業(yè)務的“支撐”作用,而無法起到對業(yè)務的“驅動”作用。
劉宗凡:為了解決這些問題,阿里提出了“數據中臺”概念,現在這個概念已經被很多機構所接受,“中臺”這個概念,是相對于前臺和后臺而生,是前臺和后臺的鏈接點,將業(yè)務共同的工具和技術予以沉淀。同時,以Hadoop等分布式技術和組件為核心的“計算和存儲混搭”的數據處理架構,能夠支持批量和實時的數據加載以及靈活的業(yè)務需求。另外,數據的預處理流程正在從前面提及的ETL結構向ELT(Extraction,提取;Load,加載;Transform,轉換)結構轉變。傳統(tǒng)的數據倉庫集成處理架構是ETL結構,這是構建數據倉庫的重要一環(huán),即用戶從數據源抽取出所需的數據,經過數據清洗,將數據加載到數據倉庫中去。而大數據背景下的架構體系是ELT結構,其根據上層的應用需求,隨時從數據中臺中抽取想要的原始數據進行建模分析。
邱元陽:好的,這時我們可以給出數據中臺的定義,即通過機構內外部多源異構的數據采集、治理、建模、分析、應用,使數據對內優(yōu)化管理提高業(yè)務,對外可以數據合作價值釋放,成為機構數據資產管理中樞。數據中臺建立后,會形成數據API,為機構和客戶提供高效的數據服務。數據中臺整體技術架構上采用云計算架構模式,將數據資源、計算資源、存儲資源充分云化,通過多租戶技術進行資源打包整合,并進行開放,為用戶提供“一站式”數據服務。利用大數據技術,對海量數據進行統(tǒng)一采集、計算、存儲,并使用統(tǒng)一的數據規(guī)范進行管理,將機構內部所有數據統(tǒng)一處理形成標準化數據,挖掘出對機構最有價值的數據,構建機構數據資產庫,提供一致的、高可用的大數據服務。數據中臺不是一套軟件,也不是一個信息系統(tǒng),而是一系列數據組件的集合,機構基于自身的信息化建設基礎、數據基礎以及業(yè)務特點對數據中臺的能力進行定義,基于能力定義利用數據組件搭建自己的數據中臺,其架構如上頁圖1所示。
倪俊杰:我來說一說數據中臺帶來的價值。數據中臺對一個單位的數字化轉型和可持續(xù)發(fā)展起著至關重要的作用。數據中臺為解耦而生,為單位建設數據中臺的最大意義就是應用與數據解耦,這樣單位就可以不受限制地按需構建滿足業(yè)務需求的數據應用。數據中臺構建了開放、靈活、可擴展的機構級統(tǒng)一數據管理和分析平臺,將機構內、外部數據隨需關聯,打破了數據的系統(tǒng)界限;利用大數據智能分析、數據可視化等技術,實現了數據共享、日常報表自動生成、快速和智能分析,滿足集團總部和各分子公司各級數據分析應用需求;深度挖掘數據價值,助力機構數字化轉型落地;實現了數據的目錄、模型、標準、認責、安全、可視化、共享等管理,實現數據集中存儲、處理、分類與管理,建立大數據分析工具庫、算法服務庫,實現報表生成自動化、數據分析敏捷化、數據挖掘可視化,實現數據質量評估、落地管理流程。
楊磊:我來列個表做個總結,同時也可以看一下數據倉庫與數據中臺的差異點(如表1)。
數據湖
金琦:數據倉庫得到了廣泛的應用,但隨著技術的進步,建設大數據平臺為平臺上其他應用需要提供通用的數據存儲服務,需要支持存儲用戶數據、業(yè)務數據、元數據、預測分析結果等傳統(tǒng)關系型數據和日志數據、圖片視頻、影像數據等非結構化或半結構化數據。許多機構開始面臨儲存大量不同形態(tài)數據的問題。這里我有兩個疑問:所有的數據都會進入數據中臺嗎?目前看來“沒用”的數據是否真的沒有用處呢?
邵建勛:一般遵循有用的數據才會進入數據中臺,同時會為進入數據中臺的數據完成模型定義。但有用無用依賴的是業(yè)務人員的經驗判斷,這明顯不符合大數據的價值發(fā)現原則,大數據方法希望盡可能攝取各種來源的“粗數據”,甚至暫時不知其用途,也得收藏起來,而這些需求傳統(tǒng)的架構可能無法負荷,由此誕生了“數據湖”。數據湖的概念最初是由大數據廠商提出的,是一種數據存儲的理念,相較于將數據以數據倉庫模式儲存,數據湖被廣泛視為大數據快速演進的下一步。其最主要的特點有兩個:數據是以原始格式存儲,不同于數據中臺的結構化存儲方式;數據湖以自然格式存儲數據,數據不需要提前進行定義,在準備使用數據時,再定義即可,提高了靈活性與可擴展性。
劉宗凡:一般數據湖架構有別于傳統(tǒng)的數據倉庫,傳統(tǒng)的數據倉庫的數據通常是品質較高且預先處理過的數據;而數據湖架構的設計是可擷取大量的、各種類型的數據作為數據素材的儲存管理,以便于分析應用。因為數據湖架構范圍更廣、在數據分析上擁有更多彈性,所以它很適合作為導入巨量數據分析應用的架構藍圖。數據湖數據可包含各式的大規(guī)模并行處理數據庫、內存數據庫及HDFS分散式儲存數據庫,各種來源、各類型的數據在數據湖經由不同方式的儲存、處理、凈化、管理后,有彈性地產出各種分析數據。不同的是,數據湖可同時包含“未被清理的數據”,保持其最原始的形式,故分析者可取得最原始模式的數據,以減少資源上處理數據的必要,讓來自各機關的數據來源更易于結合。數據湖主要有四點特性:以低成本保存巨量數據、維持數據高度真實性、數據易取得及數據分析富有彈性。最常用的部署數據湖的技術就是我們之前講的Hadoop技術,而數據湖作為第二數據平面最重要的數據平臺,與Hadoop技術的融合越來越緊密,相輔相成。例如,HBase可以讓數據湖存儲海量數據;基于內存處理數據的Spark(上期我們講過通過磁盤處理數據的MapReduce)使得數據湖可以更快地批量計算和分析海量數據;Storm、Flink、NiFi等使數據湖能夠實時接入和處理物聯傳感數據。Hadoop本身更多地聚焦于數據的處理與應用,但是對于底層的數據存儲工作并未過多地關注。例如,傳統(tǒng)的Hadoop使用三副本技術保存數據,數據利用率只有百分之三十三,數據保存成本較高;同時客戶對Hadoop承載的數據可靠性要求也越來越高,數據保護(備份、容災等)需求越來越多,Hadoop3.x開啟了存儲和計算分離的趨勢,但這些還不能完全滿足用戶需求,數據湖需要從數據存儲、數據治理等方面繼續(xù)發(fā)展。目前的數據湖架構如圖2所示。
楊磊:我再來列個表,看一下數據倉庫與數據湖的差異(如表2)。
總結
金琦:感謝各位老師參與這次對數據領域相關概念的討論。雖然部分人將數據湖作為數據倉庫的替代品,但許多專業(yè)人士也認為這兩種技術是互補的,不同應用程序的業(yè)務數據通過數據湖匯聚到一起,之后在數據湖的基礎上建構數據倉庫和高級分析環(huán)境,將這些應用與技術全部云化后,擁抱第三方平臺,從而實現系統(tǒng)與第三方平臺的數據整合。數據湖這種“存儲一切數據、分析一切數據”的技術以及數據湖與數據倉庫相連接的理念,為企事業(yè)單位數據中心的松耦合架構設計提供了新思路。在這樣的混搭結構中,數據統(tǒng)一以原始格式存儲于數據湖內,確認有用的數據從數據湖內轉為結構化存儲,進入數據中臺使用,讓數據中臺能更好地支撐數據預測分析、跨領域分析、主動分析、實時分析、多元化結構化數據分析,而數據中臺建設為各級數據部門提供數據服務和共享奠定重要的基礎,可以加速從數據到價值轉變的過程,提高相應業(yè)務能力。