劉運席 隆巖
(山東省人民政府辦公廳)
大數(shù)據像水、礦石、石油一樣,正成為新的要素資源,以容量大、類型多、存取速度快、應用價值高為主要特征,具有可復制、可共享、無限增長和供給的稟賦,打破了傳統(tǒng)要素有限供給對增長的制約,為持續(xù)增長和永續(xù)發(fā)展提供了基礎和可能[1]。大數(shù)據是繼云計算、物聯(lián)網、移動互聯(lián)網之后信息技術融合應用的新焦點,已逐步成為經濟持續(xù)增長的新引擎,并快速驅動整個實體經濟的數(shù)字化轉型升級,成為創(chuàng)新驅動發(fā)展和建設現(xiàn)代化經濟體系的新動力。2015年,《國務院關于印發(fā)促進大數(shù)據發(fā)展行動綱要的通知》從多方面闡述了大數(shù)據發(fā)展的重要性和對我國發(fā)展建設的意義[2]?!笆奈濉币?guī)劃提出要構建全國一體化大數(shù)據中心,培育壯大大數(shù)據等新興產業(yè),并在政務服務、市場、經濟治理、綠色發(fā)展、社會治安等多方面提到大數(shù)據的應用[3]。
大數(shù)據所涉及的資料量規(guī)模巨大到無法在一定時間內通過常規(guī)軟件工具進行捕捉、管理、處理,并整理成為幫助經營決策的數(shù)據集合或資料,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產[4]。在實際中,高質量的大數(shù)據治理成果已成為政府、企業(yè)最核心的隱形財富,誰掌握了高質量的數(shù)據,誰就能獲得先機[5]。2020年9月發(fā)布的《關于加快推進國有企業(yè)數(shù)字化轉型工作的通知》中明確提到,建設基礎數(shù)字技術平臺(數(shù)據中臺),構建數(shù)據治理體系,實現(xiàn)數(shù)據治理、數(shù)據采集、數(shù)據交換、數(shù)據融合、數(shù)據共享,加快推進產業(yè)數(shù)字化創(chuàng)新,全面推進數(shù)字產業(yè)化發(fā)展[6]。在學術研究中,大數(shù)據的治理與服務已經成為普遍關注的話題[7]??v觀近十年大數(shù)據相關的研究,學者使用最多的關鍵詞為大數(shù)據、云計算、數(shù)據挖掘等,數(shù)據管理僅排在第25位[8-9]。
隨著當前信息化深入推進,數(shù)據呈幾何式暴發(fā)增長,組織的數(shù)據治理能力不足逐步顯現(xiàn)出來,成為困擾組織的重大問題之一,若缺乏對大數(shù)據有效得當?shù)闹卫?,那么很難正確整合開發(fā)數(shù)據資源,無法發(fā)揮其蘊含的巨大價值[10]。
一是數(shù)據沼澤或數(shù)據多頭管理問題,缺少專門對數(shù)據管理進行監(jiān)督和控制的組織。例如,有許多數(shù)據源,卻不知道誰擁有數(shù)據,無法聯(lián)系相應的負責人。不知道組織中已經存在哪些數(shù)據集,也很難找到有意義的、可信賴的數(shù)據,沒有適當?shù)牧鞒虂碚埱笏麄冃枰臄?shù)據,沒有簡單的方法在一個地方準確識別可信數(shù)據源,也不知道數(shù)據意味著什么或者應該如何使用數(shù)據。
二是組織多系統(tǒng)分散建設,沒有統(tǒng)一、規(guī)范的數(shù)據標準和數(shù)據模型,尚未形成完整的數(shù)據治理體系,缺乏數(shù)據管理的流程和機制。各信息系統(tǒng)間的數(shù)據資源整合和共享能力不能滿足組織發(fā)展的要求。例如,數(shù)據標準不統(tǒng)一、技術類型不統(tǒng)一等造成數(shù)據不一致、不規(guī)范等。由于數(shù)據元和數(shù)據編碼不一致造成了代碼數(shù)據混亂等問題。
三是缺乏統(tǒng)一的數(shù)據質量管理流程體系。缺少對數(shù)據質量的有效管理及考核,可能會導致在跨部門、跨領域數(shù)據集成與共享時數(shù)據質量難以保證,同時,數(shù)據質量管理工作能力有所欠缺。例如,缺少數(shù)據質量檢查,存在大量的臟數(shù)據,影響了應用效果,缺少問題數(shù)據管控,發(fā)現(xiàn)問題數(shù)據后不能進行合理的處理等。
四是數(shù)據安全管理重視程度不夠。由于缺乏對數(shù)據架構管理統(tǒng)一的要求,會造成在數(shù)據共享與應用過程中安全管理欠缺,數(shù)據提供方對于數(shù)據的共享安全存在的疑慮會降低在單位內數(shù)據共享的程度。例如,缺少流程審批機制,造成數(shù)據安全管控缺失,存在數(shù)據安全風險。缺少敏感數(shù)據的管控,造成敏感數(shù)據不安全的問題。
當前,國內對大數(shù)據治理的研究大多都基于宏觀層面,實證性研究較少[11],也處在比較基礎的階段[12],理論與實踐的結合度不高,尚缺乏系統(tǒng)深入的著作和成果。國外特別是G8國家比較重視數(shù)據治理研究,形成了許多研究成果,對數(shù)理治理提出了許多建設性的研究思路和方向,但在大數(shù)據治理與服務體系建設方面,也是在不斷糾錯與發(fā)展之中,有關數(shù)據治理的框架體系等仍是未來研究的重點[11]。
一個成功實施的大數(shù)據治理項目能夠解決組織內或組織間的數(shù)據孤島問題[13],滿足多樣化的數(shù)據采集、交換共享需求,提供易用的數(shù)據服務實現(xiàn)數(shù)據匯聚、按需流動與共享。基于組織業(yè)務規(guī)范,實現(xiàn)與數(shù)據服務深度融合。實現(xiàn)數(shù)據資源的歸集,數(shù)據整合和數(shù)據治理實現(xiàn)數(shù)據資產化,通過面向各業(yè)務領域的深度融合實現(xiàn)數(shù)據的增值,通過數(shù)據交換與共享提供有價值的數(shù)據資產服務,通過數(shù)據平臺加區(qū)塊鏈技術,各環(huán)節(jié)上鏈保證數(shù)據資產增值過程可回溯、數(shù)據安全可信。
實施大數(shù)據治理項目建設需要制訂大數(shù)據治理實施方案,全面梳理組織的信息系統(tǒng)數(shù)據,并進行現(xiàn)狀分析。厘清大數(shù)據治理項目的工作范圍是做好大數(shù)據治理項目的首要工作,一般包括項目實施的數(shù)據范圍、組織用戶范圍和工作范圍。通過對大數(shù)據管理(包括數(shù)據質量管理、數(shù)據標準管理、數(shù)據安全管理、共享開放、數(shù)據架構、數(shù)據全生命周期管理、保障機制)的現(xiàn)狀和問題分析提出數(shù)據治理和服務的改進建議,明確下一步數(shù)據治理的發(fā)展方向。比如,建議全面建立數(shù)據管理組織機構,覆蓋組織內各部門和信息化內部支持單位等;發(fā)布組織數(shù)據管理辦法,明確數(shù)據管理目的、原則、要求,并形成各職能領域的管理規(guī)范及指南;組織建立數(shù)據權責體系,并以主題域為依托,以問題多發(fā)數(shù)據、重點指標相關數(shù)據、跨部門跨系統(tǒng)協(xié)同數(shù)據為重點,開展數(shù)據認責工作等。建立數(shù)據質量管理體系,實現(xiàn)數(shù)據質量需求、檢查、分析、提升的數(shù)據質量閉環(huán)流程,以數(shù)倉進行試點落地,進一步推動源系統(tǒng)開展源端治理工作,從源頭上提升數(shù)據質量,做到事前預防、事中控制,同時以數(shù)據應用為目標,從數(shù)據應用系統(tǒng)端同步開展數(shù)據質量的事后檢查,實現(xiàn)從源端到應用端數(shù)據質量的全面提升等。建議建設組織數(shù)據標準體系,發(fā)布為企業(yè)級數(shù)據標準。針對組織機構等數(shù)據應用過程中面臨的標準不統(tǒng)一等突出問題,推動統(tǒng)建系統(tǒng)全面落標,保證數(shù)據的一致性,為共享應用提供支撐。建立組織數(shù)據共享目錄,制定數(shù)據共享流程,促進數(shù)據共享和交換,打破數(shù)據孤島。梳理核心數(shù)據在業(yè)務部門、應用系統(tǒng)的分布關系,識別可信數(shù)據源。建立數(shù)據安全保護機制,制定數(shù)據訪問授權流程,保證數(shù)據安全。建立數(shù)據全生命周期的管理流程和規(guī)范要求,確保在信息化全生命周期過程中,數(shù)據能夠得到有效管理,并滿足多樣化的數(shù)據應用需求等。
通過統(tǒng)一有效的頂層架構設計,打通各大數(shù)據治理與服務間的數(shù)據關系,形成一體化的數(shù)據治理與服務體系(即一體化大數(shù)據平臺)非常有必要,形成基于統(tǒng)一運行管理運維可視化界面,解決政府和企業(yè)面臨的數(shù)據孤島、數(shù)據管理、數(shù)據治理及數(shù)據安全的相關問題,提升組織的數(shù)據應用價值,增強競爭力(一體化數(shù)據治理與服務框架如圖1所示)。
圖1 一體化數(shù)據治理與服務框架圖
一體化大數(shù)據平臺通過數(shù)據實體管理、數(shù)據標準管理、質量管理、安全管理等數(shù)據治理組件實現(xiàn)包含數(shù)據標準、業(yè)務規(guī)則的業(yè)務規(guī)范管理,以業(yè)務規(guī)范為基礎生成數(shù)據采集、交換、加工、融合、質量處理、脫敏、開放共享等數(shù)據服務,數(shù)據服務可以直接使用業(yè)務規(guī)范的數(shù)據標準與業(yè)務規(guī)則,促進了業(yè)務規(guī)范與數(shù)據服務的深度融合。
一體化大數(shù)據平臺以規(guī)則為核心,統(tǒng)一了數(shù)據資源接口、服務接口、數(shù)據處理接口、元數(shù)據接口,將數(shù)據、計算、服務等作為插件插入到大數(shù)據平臺,方便擴展和融合?;诮y(tǒng)一工具快速生成服務模型(含交換、傳輸、整合、數(shù)據質量、共享等服務模型),方便基于模型的賦能,實現(xiàn)服務和算法松耦合、可重用,方便融合,無孤島,提供數(shù)據治理和服務,方便數(shù)據資產全面管理,提升數(shù)據質量和安全管控。實現(xiàn)集中運維和安全管理,并能通過工具可視化管理。
一體化大數(shù)據平臺在了解數(shù)據(數(shù)據盤點)方面,提供初始化數(shù)據的模板和工具,通過豐富業(yè)務屬性、模板導入等迭代實現(xiàn)數(shù)據盤點,并通過平臺數(shù)據管理模塊完善數(shù)據架構、數(shù)據標準、數(shù)據質量、數(shù)據安全等相關信息。從平臺中導出數(shù)據模型、數(shù)據分布、數(shù)據流向、數(shù)據質量、數(shù)據安全等數(shù)據現(xiàn)狀明細及相關統(tǒng)計信息。以此達到降低數(shù)據盤點成本,提高了盤點效率的目的。
一體化大數(shù)據平臺在治理數(shù)據(數(shù)據治理活動)方面,基于流程進行E2E數(shù)據管理,采用以業(yè)務規(guī)范為核心的自上向下和自下向上相結合的方式抓好基礎數(shù)據的管理,從源頭提升數(shù)據質量,通過數(shù)據治理生成數(shù)據標準、業(yè)務規(guī)則等業(yè)務規(guī)范,方便基于業(yè)務規(guī)范生成數(shù)據服務。提供數(shù)據資源目錄、全景化視圖、治理評估等指導信息系統(tǒng)設計、優(yōu)化、建設、運維各階段工作。
一體化大數(shù)據平臺在利用數(shù)據(采集、交換、加工、共享)方面,根據數(shù)據流程清冊,發(fā)現(xiàn)數(shù)據流轉瓶頸,提升業(yè)務流轉效率。利用數(shù)據治理的數(shù)據標準、業(yè)務規(guī)則生成數(shù)據采集、交換、加工、質量、脫敏、共享等數(shù)據服務工具,實現(xiàn)數(shù)據服務與業(yè)務規(guī)范的深度融合。實現(xiàn)了跨部門、跨區(qū)域的數(shù)據采集、交換與共享,解決數(shù)據孤島、復雜情況下堵包丟數(shù)據問題,滿足多樣化的數(shù)據采集、交換共享需求,提供易用數(shù)據服務實現(xiàn)數(shù)據匯聚、按需流動與共享。
一體化大數(shù)據平臺實現(xiàn)組織數(shù)據的資產化處理,將數(shù)據進行業(yè)務化封裝或者重構,以交換、共享、開放等方式提供面向業(yè)務的數(shù)據服務,支撐前后端業(yè)務快速創(chuàng)新,實現(xiàn)數(shù)據資產的增值,實現(xiàn)組織的數(shù)據集中、融合、共享及流轉,實現(xiàn)數(shù)據業(yè)務化、數(shù)據資產化,保證數(shù)據的安全和質量,加快業(yè)務數(shù)據流轉效率,提升數(shù)據價值。數(shù)據資產化很重要的就是要完善數(shù)據實體(人、財、物、事等),使其具有元數(shù)據、標準、模型、標簽、質量、安全等屬性,方便數(shù)據的管理和增值。數(shù)據資產服務化是數(shù)據服務基于大數(shù)據平臺實現(xiàn)數(shù)據的業(yè)務化封裝或者重構,以服務的方式給前后臺業(yè)務系統(tǒng)、接入終端等提供安全可控的數(shù)據。以多種方式實現(xiàn)數(shù)據服務價值化,為區(qū)塊鏈的落地提供了可能。
一體化大數(shù)據平臺內置數(shù)據架構管理、數(shù)據來源管理、數(shù)據質量管理、數(shù)據安全管理等數(shù)據管理組件,建立統(tǒng)一的業(yè)務規(guī)范包含數(shù)據元、取值范圍等數(shù)據標準,數(shù)據加工、質量處理、脫敏、交換共享等業(yè)務規(guī)則,以業(yè)務規(guī)范為基礎生成數(shù)據采集、交換、加工、融合、質量處理、脫敏、開放共享等服務,通過可視化配置和智能化運維極大地降低了項目的運維風險和總體成本。
一體化大數(shù)據平臺內置數(shù)據服務總線,對外開放門戶,提供統(tǒng)一數(shù)據服務,接口接入規(guī)范,可對各信息系統(tǒng)的接口進行統(tǒng)一管理,在此基礎上可實現(xiàn)各信息系統(tǒng)之間數(shù)據的有效整合,提供面向各信息系統(tǒng)的數(shù)據共享及共享流程管理,保障各信息系統(tǒng)與政府、企業(yè)、院所等之間數(shù)據互通、業(yè)務交互。
一體化大數(shù)據平臺內置區(qū)塊鏈引擎,通過可視化配置工具實現(xiàn)信息資源(部門、節(jié)點、數(shù)據庫等)、服務(服務配置、服務共享、關鍵運行日志)、關鍵業(yè)務(庫表數(shù)據、文件數(shù)據、接口數(shù)據)等的上鏈功能。主要包括數(shù)據上鏈、可信數(shù)據聯(lián)邦、可信數(shù)據服務、可信數(shù)據交換共享、可信數(shù)據管理、可信數(shù)據質量管理、可信數(shù)據安全、可信數(shù)據生態(tài)等功能,保證數(shù)據交換、集成、融合、治理、利用等過程均在可信環(huán)境下進行,全過程公開透明。
總之,大數(shù)據治理工作是一把手工程,需要組織內各方的共同參與,共同做好數(shù)據治理的頂層設計、局部落地、數(shù)據管理持續(xù)迭代工作,需要在組織內成立專門的數(shù)據管理機構,統(tǒng)籌協(xié)調好各方資源,共同開展數(shù)據管理活動,推動大數(shù)據治理體系建設,提升數(shù)據管理能力。將數(shù)據管理活動落到一線信息系統(tǒng)內并嵌入到系統(tǒng)全生命周期,解決好數(shù)據治理過程中存在的數(shù)據質量問題,從源頭提升數(shù)據資源質量,促使參與各方共同分享高質量數(shù)據治理成果,打造“共建、共治、共享”的數(shù)據治理新格局,構建一體化的大數(shù)據治理體系。從而提升組織的數(shù)據管理能力,實現(xiàn)數(shù)據資產增值,進一步挖掘和利用數(shù)據,全面推進組織的發(fā)展戰(zhàn)略。