劉建輝 修姍姍
當前,大數(shù)據(jù)、人工智能、區(qū)塊鏈等新技術成為掀起數(shù)字化轉(zhuǎn)型浪潮的關鍵變量,萬物互聯(lián),數(shù)字時代的到來,對各行各業(yè)的諸多方面產(chǎn)生了深遠影響。特別是“云大物移智鏈邊”的結(jié)合對社會中任何實體的活動和行為數(shù)據(jù)化、模型化都成為可能,而從中抽取出的結(jié)構(gòu)化信息,在市場預測、工業(yè)自動化等眾多領域創(chuàng)造出了前所未有的價值??萍寄芰Φ臉O大豐富,數(shù)據(jù)價值日益凸顯,全息畫像、精準監(jiān)測、風險預警、輔助決策等等,正在打破傳統(tǒng)的業(yè)務模式,催生出更加共享的經(jīng)濟生態(tài),通過與傳統(tǒng)產(chǎn)業(yè)的融合實現(xiàn)價值增量,為各行各業(yè)賦能,推動高質(zhì)量的發(fā)展。
盡管越來越多的信息能為業(yè)務工作提供更大的便利,但在業(yè)務發(fā)展過程中,涉及的數(shù)據(jù)量大、數(shù)據(jù)種類多,信息數(shù)據(jù)的搜集整理難度越來越大。要想全面整合信息,真正獲取這些數(shù)據(jù)的價值,需建立數(shù)據(jù)思維,通過數(shù)據(jù)采集、數(shù)據(jù)建模、數(shù)據(jù)分析、數(shù)據(jù)呈現(xiàn),總結(jié)數(shù)據(jù)深層次的規(guī)律,通過建立標準化數(shù)據(jù)平臺進行數(shù)據(jù)處理,發(fā)現(xiàn)數(shù)據(jù)隱含的潛在價值。
數(shù)據(jù)處理與共享平臺主要由數(shù)據(jù)接入服務、數(shù)據(jù)存儲服務、數(shù)據(jù)分析服務和數(shù)據(jù)共享服務組成,主要功能如下:
(一)數(shù)據(jù)接入服務
數(shù)據(jù)接入服務作為底層基礎支撐性服務,是數(shù)據(jù)處理與共享平臺的核心組成部分。數(shù)據(jù)接入服務通過提供多種數(shù)據(jù)接入工具,將基礎數(shù)據(jù)進行統(tǒng)一的匯聚接入,為數(shù)據(jù)分析提供原始數(shù)據(jù)支撐。
(二)數(shù)據(jù)存儲服務
數(shù)據(jù)存儲服務作為數(shù)據(jù)采集的上層,作為數(shù)據(jù)分析共享的支撐服務,也是數(shù)據(jù)處理與共享平臺的核心組成部分。數(shù)據(jù)存儲服務需要滿足對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲和查詢的需求。查詢的高效性和存儲的安全性是數(shù)據(jù)存儲服務的兩項關鍵指標。
(三)數(shù)據(jù)分析服務
數(shù)據(jù)分析服務提供數(shù)據(jù)深度挖掘和分析,利用分布式存儲和并行計算框架,結(jié)合多種分布式計算引擎,對各類結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的信息資源進行快速的分布式計算、并提供基于關聯(lián)、聚類、分類、預測等類算法庫以及可視化組件、拖拽式的數(shù)據(jù)挖掘分析開發(fā)工具包。
(四)數(shù)據(jù)共享服務
數(shù)據(jù)共享服務通過數(shù)據(jù)共享交換手段,實現(xiàn)數(shù)據(jù)的匯聚、流通,構(gòu)建以數(shù)據(jù)為核心,業(yè)務為牽引、預警決策為目標的信息樞紐,為業(yè)務提供數(shù)據(jù)服務和決策支持。同時通過數(shù)據(jù)共享交換,實現(xiàn)跨部門、跨地域、跨層級的數(shù)據(jù)共享交換應用。
數(shù)據(jù)處理與共享平臺包括數(shù)據(jù)處理模塊和數(shù)據(jù)共享模塊,主要包括存儲層、交互層、數(shù)據(jù)處理層、數(shù)據(jù)服務層。其中存儲層、交互層、數(shù)據(jù)處理層主要進行原始數(shù)據(jù)存儲以及數(shù)據(jù)處理,服務層主要提供數(shù)據(jù)共享服務,可以實現(xiàn)兩種模式數(shù)據(jù)共享,原始數(shù)據(jù)以及治理后的數(shù)據(jù)共享。
數(shù)據(jù)處理與共享平臺的在處理業(yè)務數(shù)據(jù)時,會將數(shù)據(jù)進行匯集、標準化處理以及融合,以便使用者查詢數(shù)據(jù)、分析數(shù)據(jù)。例如在獲取不同渠道的數(shù)據(jù)時,數(shù)據(jù)處理與共享平臺會先進行源數(shù)據(jù)存儲,接著進行數(shù)據(jù)標準化,將散亂的源數(shù)據(jù)進行有序的分類、存儲,最后在按照不同的需求進行數(shù)據(jù)的初步歸類,以便前端數(shù)據(jù)服務進行調(diào)用。
(一)數(shù)據(jù)處理模塊
數(shù)據(jù)處理模塊主要負責數(shù)據(jù)存儲、數(shù)據(jù)管控及數(shù)據(jù)分析,模塊采取扁平化設計,分布式部署,各節(jié)點之間完全對等,都可以對外提供服務。模塊建設將本著由內(nèi)至外的原則設計實現(xiàn)。
一是要整合當前運行數(shù)據(jù),建立基于云技術的數(shù)據(jù)交互共享平臺。明確大數(shù)據(jù)的采集、傳輸、存儲、使用、開放等各環(huán)節(jié),保障網(wǎng)絡安全的范圍邊界、責任主體和具體要求,制定和實施大數(shù)據(jù)的采集開放、指標口徑、分類目錄、交換接口、訪問接口等關鍵共性標準。
二是要打通上下游系統(tǒng)數(shù)據(jù)資源,初步形成體系化應用的業(yè)態(tài)和數(shù)據(jù)產(chǎn)業(yè)鏈條。收集與深度挖掘業(yè)務系統(tǒng)數(shù)據(jù)源進行數(shù)據(jù)采集,實現(xiàn)各數(shù)據(jù)源數(shù)據(jù)統(tǒng)一匯總、統(tǒng)一存儲,解決“各自為政、條塊分割、煙囪林立、信息孤島”,初步實現(xiàn)數(shù)據(jù)整合。
三是要實現(xiàn)數(shù)據(jù)資源深度融合?;趥€性化業(yè)務要求,結(jié)合大數(shù)據(jù)分析和智能決策,實現(xiàn)數(shù)據(jù)資源的深度融合,提高數(shù)據(jù)輸出價值。
數(shù)據(jù)處理模塊功能結(jié)構(gòu)上分為數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)路由、數(shù)據(jù)輸出,數(shù)據(jù)采集對接大量外部接口,更加有效的保證數(shù)據(jù)采集高效、穩(wěn)定;數(shù)據(jù)處理模塊主要是對收集到的數(shù)據(jù)進行清洗及模型化等處理,保證數(shù)據(jù)能夠被有效處理及存儲;數(shù)據(jù)路由主要為針對數(shù)據(jù)進行輸入輸出路由配置,保證數(shù)據(jù)路由有跡可循,同時滿足靈活多變的路由規(guī)則配置;數(shù)據(jù)輸出主要面向外部對接系統(tǒng)提供相關輸出數(shù)據(jù),更加全面滿足不同對接系統(tǒng)協(xié)議需求,同時對異常進行監(jiān)控處理,保證系統(tǒng)持續(xù)可用性。
數(shù)據(jù)處理模塊采用數(shù)據(jù)即服務(DaaS)技術理念,革新數(shù)據(jù)采集模式,深化數(shù)據(jù)應用服務, 探索設立數(shù)據(jù)開放共享關鍵共性標準,推進解決數(shù)據(jù)孤島問題,建立完整的共享平臺。
(二)數(shù)據(jù)共享
數(shù)據(jù)共享模塊包括常規(guī)數(shù)據(jù)收集、數(shù)據(jù)共享,共享數(shù)據(jù)種類除了能進行源數(shù)據(jù)的共享外,還可以將平臺中標準化的數(shù)據(jù)進行共享,從而使得共享的數(shù)據(jù)內(nèi)容更加豐富,在此基礎上,該模塊還能提供一定程度的數(shù)據(jù)服務,即將收集來的數(shù)據(jù)以特定的條件進行分析并輸出一個結(jié)果或者趨勢,使該模塊的功能更加豐富。同時,數(shù)據(jù)共享模塊加入安全管理,其中包括數(shù)據(jù)授權、數(shù)據(jù)審計、數(shù)據(jù)加密、數(shù)據(jù)脫敏、安全治理功能。在實現(xiàn)源數(shù)據(jù)收集共享、數(shù)據(jù)服務共享、第三方數(shù)據(jù)交換的基礎上進一步強化數(shù)據(jù)安全、數(shù)據(jù)隱私的管控。數(shù)據(jù)共享模塊通過web Service的服務請求和調(diào)用,實現(xiàn)數(shù)據(jù)的交換和共享,數(shù)據(jù)使用者通過Rest API接口獲取相應的數(shù)據(jù),具備支持多種協(xié)議、數(shù)據(jù)格式的共享,確保數(shù)據(jù)安全、有序、有效共享。
數(shù)據(jù)共享模塊整體框架是開放的生態(tài)框架,為了支持各系統(tǒng)業(yè)務模塊、業(yè)務功能的動態(tài)擴展、靈活更新,模塊采用以下原則進行設計實現(xiàn)。
業(yè)務數(shù)據(jù)共享“索引管道式”交換,數(shù)據(jù)共享模塊根據(jù)實際需求可通過網(wǎng)絡對松耦合、粗粒度的應用組件進行分布式部署、使用和組合。組合之間采用簡單的、可精準定義的接口進行通訊,不涉及底層編程接口標準、協(xié)議和通訊模型。所有數(shù)據(jù)訪問均通過數(shù)據(jù)接口組件,具有服務可重用、服務即時性、標準化服務接口、支持各種消息模式等特點,能夠更加從容的面對業(yè)務的變化、實時獲取相應數(shù)據(jù)。
微服務架構(gòu)支撐數(shù)據(jù)采集、清洗、加工、共享等服務運行,數(shù)據(jù)共享模塊采用微服務體系架構(gòu),服務可獨立部署在不同進程中,不同服務之間是通過一些輕量級的機制進行通信,同時服務可獨立擴展伸縮,每個服務又定義了明確邊界。數(shù)據(jù)共享模塊使用分布式服務組成系統(tǒng),根據(jù)業(yè)務對組織進行劃分,強調(diào)服務個體和弱通信,自動化運維,支持快速演化。
數(shù)據(jù)共享模塊運用數(shù)據(jù)管道運行服務引擎為驅(qū)動,通過建立不同信息資源共享交換的數(shù)據(jù)傳輸管道,形成各個獲取的數(shù)據(jù) API 接口,按統(tǒng)一共性建設需求,整合并建立標準共享數(shù)據(jù)訪問接口和統(tǒng)一的數(shù)據(jù)格式,以接口形式對外提供各類數(shù)據(jù)服務,高效構(gòu)建“數(shù)據(jù)接口資源池”,以降低數(shù)據(jù)使用者的開發(fā)難度和成本,最終實現(xiàn)數(shù)據(jù)的按需、按權、合規(guī)調(diào)度、適時共享,支持實時、精準共享與交換服務。
綜上所述,數(shù)據(jù)處理與共享平臺的研究與應用,對數(shù)據(jù)資源有效利用,對用好、用活數(shù)據(jù),具有重大促進作用。本文研究的數(shù)據(jù)處理與共享平臺是為了實現(xiàn)跨地區(qū)、跨層級的信息交換和共享,區(qū)別于傳統(tǒng)業(yè)務系統(tǒng)數(shù)據(jù)平臺,數(shù)據(jù)共享模塊基于數(shù)據(jù)處理模塊,提供的共享數(shù)據(jù)范圍廣、數(shù)據(jù)量大,數(shù)據(jù)交互更高效可靠,并提供統(tǒng)一的數(shù)據(jù)資源目錄,支持線上的資源申請,實現(xiàn)第三方應用的統(tǒng)一管理,提供統(tǒng)一的監(jiān)控和日志記錄,更全面的數(shù)據(jù)脫敏策略和安全策略,提高業(yè)務協(xié)同效率,具有很高的實用價值。