齊艷平
大數(shù)據(jù)時代,數(shù)據(jù)已成為一種新的生產(chǎn)資源,其價值日益凸顯。組織對數(shù)據(jù)的需求變得更加多樣化,海量數(shù)據(jù)可能駐留在分布式環(huán)境中的多個應用系統(tǒng)中,特別是隨著大量半結構化、非結構化數(shù)據(jù)量的積累、外部數(shù)據(jù)源相關性的增加及混合多云環(huán)境的發(fā)展,組織的數(shù)據(jù)管理和應用過程充滿了挑戰(zhàn)。
數(shù)據(jù)編織(DataFabric)被視為此類問題的良好解決方案,它在數(shù)據(jù)倉庫和數(shù)據(jù)湖的基礎上,引入了新的架構,從而以較低代價實現(xiàn)了統(tǒng)一的數(shù)據(jù)應用模式。數(shù)據(jù)編織的理念和方法將為未來數(shù)據(jù)治理提供一種新途徑、新思路,本文對數(shù)據(jù)編織的概念、特點、關鍵技術進行初步的分析探討,以期為數(shù)據(jù)工程師們做好數(shù)據(jù)分析與數(shù)據(jù)治理工作提供一點借鑒和參考。
數(shù)據(jù)編織是一種基于網(wǎng)絡架構而非點對點連接處理數(shù)據(jù)的新興方法,是一種全面支持從數(shù)據(jù)源匯聚、洞察分析預測、數(shù)據(jù)編排生成和業(yè)務程序應用的集成數(shù)據(jù)層架構。其實現(xiàn)原理是在底層數(shù)據(jù)組件上設置了抽象層,使業(yè)務用戶可以直接使用數(shù)據(jù)分析結果并形成預測能力,而無需重復進行復雜的數(shù)據(jù)科學工作。
自企業(yè)信息系統(tǒng)誕生之日起,企業(yè)就需要為多個應用系統(tǒng)的數(shù)據(jù)源提供一個集成的、一致的視圖,否則組織各個部門各自存儲數(shù)據(jù),部門之間的數(shù)據(jù)無法互通,將導致這些數(shù)據(jù)像一個個孤島一樣缺乏關聯(lián)性,最終常常因為難以流通和利用而變成死數(shù)據(jù)。長期以來,數(shù)據(jù)倉庫一直是解決這一問題的首選方式。近年來,隨著大數(shù)據(jù)技術的快速發(fā)展,數(shù)據(jù)湖和數(shù)據(jù)中心也被引入用于解決此問題。
1.數(shù)據(jù)倉庫的特點。數(shù)據(jù)倉庫誕生于數(shù)據(jù)庫時代。數(shù)據(jù)倉庫技術使用預定義的數(shù)據(jù)模型使用戶預先知道數(shù)據(jù)結構,專家事先定義數(shù)據(jù)模型,用戶能夠順利進行業(yè)務數(shù)據(jù)關聯(lián)分析和數(shù)據(jù)價值挖掘。然而固定的數(shù)據(jù)結構變更靈活度不夠,關聯(lián)分析過程復雜,而且隨著數(shù)據(jù)量的增大和數(shù)據(jù)價值重要性提升,用戶希望從數(shù)據(jù)中獲取的信息不斷增多,傳統(tǒng)的數(shù)據(jù)倉庫已經(jīng)無法滿足快速迭代模型的變化速度和用戶需求。
2.數(shù)據(jù)湖的特點。數(shù)據(jù)湖來源于大數(shù)據(jù)時代開源技術體系,具備統(tǒng)一的原始數(shù)據(jù)存儲架構。數(shù)據(jù)湖環(huán)境中,原始數(shù)據(jù)以原始狀態(tài)推送到存儲,可以是結構化、非結構化的形式。與數(shù)據(jù)倉庫一樣,用戶不需要預先定義數(shù)據(jù)元素如何相互關聯(lián),從數(shù)據(jù)湖中檢索數(shù)據(jù)時才創(chuàng)建數(shù)據(jù)關系。不同的是,數(shù)據(jù)倉庫場景下,數(shù)據(jù)建模工作是先完成的,業(yè)務人員可在復雜的數(shù)據(jù)模型中查詢數(shù)據(jù);而在數(shù)據(jù)湖的情況下,用戶需要具有數(shù)據(jù)科學家的知識,才能分析各種數(shù)據(jù)塊并將它們連接在一起,以便合理使用。
3.數(shù)據(jù)倉庫和數(shù)據(jù)湖目前面臨的困難。大多組織的人力資源管理系統(tǒng)、客戶關系管理系統(tǒng)、銷售管理系統(tǒng)和運輸管理系統(tǒng)等應用系統(tǒng)由于歸屬部門、建設時間和部署地點等存在差異,數(shù)據(jù)很容易出現(xiàn)分散存儲的情況,然而決策者要全面了解企業(yè)經(jīng)營或其他決策分析問題,數(shù)據(jù)分析部門需要匯聚來自多個應用系統(tǒng)的數(shù)據(jù),運營部門還需要集成不同系統(tǒng)數(shù)據(jù)訪問權限,才能為決策者提供諸如客戶畫像、訂單背景或患者健康情況的360度視圖。
為此,數(shù)據(jù)倉庫、數(shù)據(jù)湖的解決方式是將數(shù)據(jù)從多個系統(tǒng)復制到一個集中式數(shù)據(jù)庫,然后授權數(shù)據(jù)消費者訪問該數(shù)據(jù)庫。然而這些將多個數(shù)據(jù)孤島整合到一個集成存儲管理平臺中的各類解決方案,在提供便利性的同時,也面臨數(shù)據(jù)集中的安全風險、業(yè)務系統(tǒng)存儲架構不一致、未來混合云以及多云環(huán)境下異構系統(tǒng)數(shù)據(jù)集成代價巨大等現(xiàn)實問題。
數(shù)據(jù)湖作為集中組織數(shù)據(jù)資產(chǎn)的一種形式,不能完全確保數(shù)據(jù)可用,特別是在數(shù)據(jù)缺乏治理時易形成數(shù)據(jù)沼澤,這是由于數(shù)據(jù)湖實現(xiàn)數(shù)據(jù)集中的原理是基于數(shù)據(jù)位置而不是數(shù)據(jù)含義,只能在存儲層連接數(shù)據(jù)而無法在計算層實現(xiàn)數(shù)據(jù)真正意義上的邏輯連接。數(shù)據(jù)倉庫作為基于存儲的老一代集成系統(tǒng),實際效果上甚至不如數(shù)據(jù)湖,因為它們一開始只接受結構化數(shù)據(jù),從而使半結構化和非結構化數(shù)據(jù)完全分離。
4.數(shù)據(jù)編織架構的優(yōu)勢。面對上述其他方法難以應對的情況,數(shù)據(jù)編織架構具備特定的優(yōu)勢。
(1)數(shù)據(jù)編織將許多來源的數(shù)據(jù)編織在一起,包括組織內部和外部以及云上系統(tǒng)等數(shù)據(jù)。數(shù)據(jù)編織所具備的數(shù)據(jù)洞察力是在數(shù)據(jù)模型中捕獲的,每個數(shù)據(jù)資產(chǎn)的所有上下文都以機器可理解的形式展示和使用。數(shù)據(jù)編織可輔助人工和算法決策,同時降低數(shù)據(jù)誤用或錯誤解釋的可能性和風險。
(2)數(shù)據(jù)編織通過強大的查詢功能為組織決策提供依據(jù)。數(shù)據(jù)編織不是靜態(tài)的,它借助一個可提供動態(tài)查詢能力的數(shù)據(jù)層,允許用戶跨數(shù)據(jù)孤島獲取來自不同數(shù)據(jù)倉庫的數(shù)據(jù)分析結果。在數(shù)據(jù)編織架構中,查詢操作發(fā)生在實際存儲層之上的計算層,這一層連接了原本互不相連的孤島和系統(tǒng)。數(shù)據(jù)從源流向應用,然后再返回,不斷豐富和改進數(shù)據(jù)編織體系。
(3)數(shù)據(jù)編織將現(xiàn)有的數(shù)據(jù)管理系統(tǒng)動態(tài)組織在一起,豐富了其所連接應用程序的數(shù)據(jù)應用場景。數(shù)據(jù)編織是為協(xié)作而構建的,通過以較低代價利用和連接組織現(xiàn)有數(shù)據(jù),從而推動跨職能數(shù)據(jù)管理項目實現(xiàn)。當然,數(shù)據(jù)編織方法也不是萬能的,必然會與基于數(shù)據(jù)庫的解決方案并存。例如,在應用程序無法跟蹤歷史數(shù)據(jù),而數(shù)據(jù)編織出于分析目的需要存儲這些歷史記錄時,必然需要數(shù)據(jù)庫。此外,在支持高效數(shù)據(jù)查詢服務時,數(shù)據(jù)必須存儲在可以快速執(zhí)行這些查詢的數(shù)據(jù)庫中,服務層內也會存儲部分數(shù)據(jù)。因此,即便是數(shù)據(jù)編織具有如此多的便捷之處,它也無法完全取代現(xiàn)有以數(shù)據(jù)庫為中心的解決方案。
編織(Fabric)一詞來自一種架構方法,該方法在節(jié)點之間提供完整的點對點連接。數(shù)據(jù)編織架構中的節(jié)點可以是數(shù)據(jù)源、存儲、內部/外部應用程序、用戶,即任何訪問數(shù)據(jù)或與數(shù)據(jù)相關的元素。數(shù)據(jù)編織提供可重用的服務,涵蓋數(shù)據(jù)集成、訪問、轉換、建模、可視化、治理和交付,還包括連接到數(shù)據(jù)生態(tài)系統(tǒng)工具的各種連接器。從這個意義上講,數(shù)據(jù)編織不是一種替代技術,而是一個框架。通過這一框架可以幫助組織釋放出阻塞在不同來源和系統(tǒng)中的數(shù)據(jù),挖掘其中的價值,并形成數(shù)據(jù)間的廣泛關聯(lián)關系。這一框架包括多個組件,組件間以組合或組裝形式完成跨業(yè)務異構系統(tǒng)的復雜數(shù)據(jù)分析過程。
數(shù)據(jù)編織沒有固定的數(shù)據(jù)架構,根據(jù)業(yè)務數(shù)據(jù)處理流程的不同有相應的需求。使用數(shù)據(jù)編織框架的企業(yè)在其架構中也會表現(xiàn)出共同性,這是數(shù)據(jù)編織區(qū)別于其他數(shù)據(jù)集成架構的特點。有關機構在研究報告中對數(shù)據(jù)編織中的共同組件進行了描述,定義的數(shù)據(jù)編織有6個基本組件。
1.數(shù)據(jù)獲取。該組件開始將數(shù)據(jù)拼接在一起,尋找結構化和非結構化數(shù)據(jù)之間的聯(lián)系。
2.數(shù)據(jù)發(fā)現(xiàn)。該組件提供整合不同數(shù)據(jù)源的新契機和不同應用系統(tǒng)數(shù)據(jù)對接方法,可為用戶提供新的商業(yè)機會或提升服務滿意度。
3.數(shù)據(jù)管理和智能。該組件負責數(shù)據(jù)治理和數(shù)據(jù)安全。
4.數(shù)據(jù)編排。該組件是關鍵組件,為數(shù)據(jù)結構執(zhí)行一些最重要的工作—轉換、集成和清理數(shù)據(jù),使其可供整個業(yè)務的團隊使用。
5.數(shù)據(jù)處理。該組件對數(shù)據(jù)進行細化,確保只探索相關數(shù)據(jù)集合進行數(shù)據(jù)提取。
6.數(shù)據(jù)訪問。該組件確保數(shù)據(jù)使用者擁有合法的數(shù)據(jù)訪問權限,同時通過儀表板和其他數(shù)據(jù)可視化工具顯示權限內可訪問的數(shù)據(jù)視圖。
數(shù)據(jù)編織的優(yōu)勢和重要性使其越來越受數(shù)據(jù)集成平臺廠商關注。通過分析這些廠商數(shù)據(jù)編織架構的實現(xiàn)過程,可以看出以下技術在數(shù)據(jù)編織實現(xiàn)過程中起到重要的作用。
1.數(shù)據(jù)虛擬化。國際商業(yè)機器公司(IBM)在其數(shù)據(jù)編織架構中應用了數(shù)據(jù)虛擬化技術。這種技術可以幫助組織在不遷移數(shù)據(jù)的情況下訪問數(shù)據(jù)源中的數(shù)據(jù),實現(xiàn)更快、更準確的查詢,縮短數(shù)據(jù)價值實現(xiàn)時間。
數(shù)據(jù)虛擬化一般包括兩個組成部分:數(shù)據(jù)虛擬化表示層和數(shù)據(jù)聯(lián)邦。比如,組織的一類數(shù)據(jù)存儲在Oracle數(shù)據(jù)庫中,另一類數(shù)據(jù)集存儲在DB2數(shù)據(jù)庫中,數(shù)據(jù)虛擬化表示層能夠在虛擬層或語義層提供查詢服務,屏蔽底層數(shù)據(jù)庫存儲,使之看起來像一個單一的數(shù)據(jù)模型;下層數(shù)據(jù)聯(lián)邦機制在接收到該查詢后,將其分解為針對Oracle數(shù)據(jù)庫的查詢部分和針對DB2數(shù)據(jù)庫的查詢部分,實施真正的數(shù)據(jù)查詢操作并返回查詢結果。整個過程既避免了大量數(shù)據(jù)遷移和復制工作,又提供了統(tǒng)一數(shù)據(jù)應用視圖,使數(shù)據(jù)在其原始來源中格式化及其管理的詳細信息對數(shù)據(jù)消費者透明,最終實現(xiàn)了由消費者來定義數(shù)據(jù)返回形式,同時按照這種形式來組合多種來源數(shù)據(jù)的過程。
數(shù)據(jù)虛擬化特點:一是隱藏底層數(shù)據(jù)源(關系型數(shù)據(jù)庫、NOSQL、NEWSQL、數(shù)據(jù)倉庫)的技術訪問細節(jié),從不同的來源、位置和格式中抽取數(shù)據(jù)創(chuàng)建整合視圖。二是能夠廣泛提取多種結構化、半結構化和非結構化數(shù)據(jù)源,并提供給各類數(shù)據(jù)消費者。三是能夠實現(xiàn)前端與后端的解耦,解決多源異構數(shù)據(jù)集成難的問題。四是缺點是查詢的執(zhí)行過程中會對數(shù)據(jù)源系統(tǒng)有影響,需要變更與源系統(tǒng)的聯(lián)動形式,響應延遲長。
2.主動元數(shù)據(jù)。被動元數(shù)據(jù)只是技術元數(shù)據(jù),包括數(shù)據(jù)模式、數(shù)據(jù)類型、模型等。主動元數(shù)據(jù)是智能增強的元數(shù)據(jù),可用于根據(jù)元數(shù)據(jù)形成行動方案或作出決策。元數(shù)據(jù)具備洞察力時才能對行動有指導作用,并且需要以支持行動的方式存儲和提供。元數(shù)據(jù)管理平臺應用智能模型來賦予元數(shù)據(jù)洞察力,主動元數(shù)據(jù)不但定義數(shù)據(jù)的數(shù)據(jù),還包括發(fā)生在數(shù)據(jù)上的所有業(yè)務及其過程中產(chǎn)生的數(shù)據(jù)。
主動元數(shù)據(jù)的出現(xiàn)為打造智能化以行動為導向的數(shù)據(jù)生態(tài)系統(tǒng)奠定了基礎,被認為是2021年數(shù)據(jù)編織、數(shù)據(jù)網(wǎng)格、自治化數(shù)據(jù)運營等重要數(shù)據(jù)技術的核心和靈魂。主動元數(shù)據(jù)平臺主要包括元數(shù)據(jù)湖、可編程智能機器人、數(shù)據(jù)流程自動化等關鍵組件。
(1)元數(shù)據(jù)湖。元數(shù)據(jù)湖是一個統(tǒng)一的存儲庫,以原始形式和處理后的形式存儲各種元數(shù)據(jù),可用于驅動數(shù)據(jù)用例。作為主動元數(shù)據(jù)平臺的基石,元數(shù)據(jù)湖具有開放的API接口和語義特征支持兩個關鍵特征。
開放的API接口特征:使每個階段利用單個元數(shù)據(jù)存儲來驅動數(shù)據(jù)用例變得容易,具備發(fā)現(xiàn)、可觀察性和可繼承性。語義特征支持:當數(shù)據(jù)資產(chǎn)之間的所有連接都活躍起來后,元數(shù)據(jù)的真正潛力就會被釋放,形成知識圖譜,從而使這些元數(shù)據(jù)的連接真正主動起來。
(2)可編程智能機器人。未來元數(shù)據(jù)本身將形成大數(shù)據(jù)體系,而理解這些元數(shù)據(jù)是創(chuàng)建現(xiàn)代數(shù)據(jù)管理生態(tài)系統(tǒng)的關鍵。過去幾年,元數(shù)據(jù)在這方面有了一些創(chuàng)新,“增強型”數(shù)據(jù)目錄越來越流行。然而主動元數(shù)據(jù)平臺中智能算法并不是能夠解決所有問題的萬能算法,相反,它是一個框架,允許團隊創(chuàng)建可編程智能機器人,可以輕松地針對不同的上下文和用例進行定制。隨著安全性和合規(guī)性要求成為主流,組織將不得不遵循更多規(guī)則,比如針對醫(yī)療保健數(shù)據(jù)和針對銀行業(yè)務等特定行業(yè)的規(guī)則等??删幊讨悄軝C器人可用于根據(jù)適用于每個組織的數(shù)據(jù)特征來識別和標記敏感列。對其數(shù)據(jù)集有特定命名約定的組織可以自己創(chuàng)建機器人,以根據(jù)預設規(guī)則自動組織、分類和標記其數(shù)據(jù)生態(tài)系統(tǒng)。
(3)數(shù)據(jù)流程自動化。數(shù)據(jù)結構、數(shù)據(jù)網(wǎng)格和數(shù)據(jù)操作等概念成為數(shù)據(jù)平臺思考方式的主流,它們將引發(fā)對數(shù)據(jù)流程自動化(DPA,Digital Process Automation)的需求。這是一種構建、部署和管理工作流自動化方法,將模擬人類決策過程或操作來管理組織的數(shù)據(jù)生態(tài)系統(tǒng)。
真正的主動元數(shù)據(jù)平臺可以向相鄰的數(shù)據(jù)管理工具推薦參數(shù)化指令,以進行資源分配和作業(yè)管理等操作,例如通過利用商業(yè)智能儀表盤以及工具的高峰使用時間、數(shù)據(jù)歷史運行統(tǒng)計以及歷史計算性能等各種來源的元數(shù)據(jù),推薦用于擴展數(shù)據(jù)倉庫的參數(shù),分配倉庫資源等都屬于此類操作。
3.知識圖譜。組織級的數(shù)據(jù)編織體系將覆蓋現(xiàn)有的數(shù)據(jù)資產(chǎn),并通過將這些資產(chǎn)編織在一起形成一個統(tǒng)一的數(shù)據(jù)編織層。這種做法實際上增加了現(xiàn)有數(shù)據(jù)資產(chǎn)的商業(yè)價值,整個轉變過程中的關鍵要素就是數(shù)據(jù)資產(chǎn)知識圖譜的構建。
數(shù)據(jù)編織所依賴的知識圖譜能夠表示發(fā)生在組織數(shù)據(jù)上的所有事務。一般來說,組織數(shù)據(jù)的集成過程相當復雜,往往涉及各種應用程序之間的提取、翻譯、建模和映射等。其中,建模和映射所需的定制代碼很難大規(guī)模使用,阻礙了組織業(yè)務數(shù)據(jù)創(chuàng)新和預測分析深化。相比之下,知識圖譜將創(chuàng)建一個可重用的知識網(wǎng)絡來為組織業(yè)務提供動力,通過圖譜很容易表示各種結構的數(shù)據(jù),還可以提供對組織內部和第三方數(shù)據(jù)的語義理解,形成對業(yè)務預測分析能力的有效接入,這一點是數(shù)據(jù)編織所需的核心能力。
知識圖譜不是用行、列、表和鍵來表示數(shù)據(jù)信息,而是用節(jié)點和邊來表示數(shù)據(jù)資產(chǎn)以及這些資產(chǎn)之間的關系。從根本上來說,這種圖形數(shù)據(jù)模型比關系模型簡單,但它更具表現(xiàn)力和功能,更容易修改,并且可無限擴展,而且知識圖譜實際上存在于數(shù)據(jù)管理體系的計算層,而不是存儲層,這意味著可以通過添加新的節(jié)點和邊來隨時修改,而不必在某個時間點費力地想出涵蓋所有當前和未來組織數(shù)據(jù)需求的單一共享數(shù)據(jù)模型。
■雪覆山巔|韓鳳平/攝
數(shù)據(jù)治理是對數(shù)據(jù)的全生命周期進行管理,包含傳統(tǒng)數(shù)據(jù)集成和存儲環(huán)節(jié)的工作、同時還包含數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標準、質量、安全、數(shù)據(jù)開發(fā)、數(shù)據(jù)價值、數(shù)據(jù)服務與應用等。
然而隨著企業(yè)數(shù)據(jù)資產(chǎn)的不斷增多,數(shù)據(jù)治理工作面臨諸多難題,例如數(shù)據(jù)通常呈現(xiàn)碎片化分布,共有多少數(shù)據(jù)存儲系統(tǒng),這些系統(tǒng)之間是什么關系,在缺乏元數(shù)據(jù)管理時很難厘清;另外,海量異構數(shù)據(jù)和業(yè)務分割帶來的數(shù)據(jù)孤島,對數(shù)據(jù)治理的實施帶來了阻礙,特別是隨著云上數(shù)據(jù)業(yè)務的增加,這一影響越發(fā)突出,數(shù)據(jù)可能在本地、云端甚至全球區(qū)域分布存儲,實現(xiàn)無縫實時數(shù)據(jù)訪問越來越難;最后組織內部的多元異構數(shù)據(jù)具有多樣性和復雜性,嚴重限制了數(shù)據(jù)科學家對數(shù)據(jù)的分析效率,同時提高了其他業(yè)務用戶的溝通和使用成本。
數(shù)據(jù)編織會為組織創(chuàng)建一個環(huán)境,在該環(huán)境中數(shù)據(jù)訪問和數(shù)據(jù)共享更快、更容易實現(xiàn),還可以集中方式提供必要的安全性和數(shù)據(jù)治理能力,從而有效解決上述問題。
數(shù)據(jù)使用過程中以自助服務的方式快速定位所需要數(shù)據(jù)資產(chǎn),對用戶很重要。以數(shù)據(jù)虛擬化技術為基礎的數(shù)據(jù)編織,與物理數(shù)據(jù)集成方式相比,更容易構建和部署針對各種元數(shù)據(jù)的訪問,以及基于元數(shù)據(jù)的機器學習。
在數(shù)據(jù)編織架構中,增強型數(shù)據(jù)目錄與底層數(shù)據(jù)交付層緊密集成,幫助用戶實現(xiàn)快速數(shù)據(jù)發(fā)現(xiàn)和探索。一方面,根據(jù)元數(shù)據(jù)創(chuàng)建業(yè)務視圖目錄,根據(jù)業(yè)務類別對其進行分類,并為其分配標簽以便于訪問;另一方面,通過增強的協(xié)作功能,將數(shù)據(jù)集使用情境化,幫助用戶更有效識別數(shù)據(jù)集。
數(shù)據(jù)分布在多個云和本地數(shù)據(jù)中心時,由于物理數(shù)據(jù)結構不同,兩個或多個系統(tǒng)數(shù)據(jù)往往無法實時同步,無法確保數(shù)據(jù)質量和時效性。
數(shù)據(jù)編織不需要進行任何數(shù)據(jù)復制工作,即可為業(yè)務用戶和分析師提供全組織范圍的數(shù)據(jù)視圖,提高了數(shù)據(jù)治理的效率。具體來講,數(shù)據(jù)編織體系能夠接入來自分布在本地或不同云計算環(huán)境上的多個系統(tǒng)數(shù)據(jù),并以對用戶透明的方式實時集成數(shù)據(jù);同時在跨越各種云、本地數(shù)據(jù)中心和地理位置的情況下,數(shù)據(jù)編織還能保證語義一致性,確保在任何位置用戶都可以使用統(tǒng)一的工具來查詢和分析數(shù)據(jù)。
數(shù)據(jù)科學家和高級分析團隊通常非常重視數(shù)據(jù)湖。但是數(shù)據(jù)湖有一些固有的局限性,特別是需要大量的數(shù)據(jù)復制工作,這將產(chǎn)生從數(shù)據(jù)湖中提取數(shù)據(jù)的高昂成本,并且采用一個物理數(shù)據(jù)湖保存大型組織(如大型企業(yè)、跨國公司等)全部范圍的數(shù)據(jù)是不切實際的。
數(shù)據(jù)編織基于數(shù)據(jù)虛擬化技術架構,將高級分析所需數(shù)據(jù)通過邏輯數(shù)據(jù)湖的形式提供給數(shù)據(jù)科學家,某些數(shù)據(jù)在數(shù)據(jù)中心集中存儲,另外一些數(shù)據(jù)可遠程訪問,還有某些數(shù)據(jù)則在本地緩存,從而避免了昂貴的大型物理數(shù)據(jù)湖,同時可擴展到對不同形式的數(shù)據(jù)源使用,例如對運營分析報告的引用、對各類商業(yè)智能BI分析工具的引用,從而適應企業(yè)各種業(yè)務用戶——從傳統(tǒng)的財務、市場營銷、人力資源用戶到進行高級決策分析的數(shù)據(jù)科學家——的不同需求。
大數(shù)據(jù)時代必然帶來數(shù)據(jù)整理、分析、篩選、共享共用、增值服務等數(shù)據(jù)治理難題,傳統(tǒng)的數(shù)據(jù)處理方法已不能滿足海量數(shù)據(jù)、云端數(shù)據(jù)、分布式數(shù)據(jù)的有效高效利用,數(shù)據(jù)編織的理念和方法將會為未來數(shù)據(jù)治理提供一種新途徑、新思路,也期待上述初步的分析探討可為數(shù)據(jù)工程師們做好數(shù)據(jù)分析與數(shù)據(jù)治理工作提供借鑒和參考。