摘要:文章提出了基于數(shù)據(jù)中臺的產(chǎn)業(yè)數(shù)據(jù)治理系統(tǒng),介紹了系統(tǒng)總體架構(gòu),詳細闡述了數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)融合以及數(shù)據(jù)服務等功能。通過系統(tǒng)建設(shè),解決產(chǎn)業(yè)數(shù)據(jù)分散和產(chǎn)業(yè)數(shù)據(jù)分析欠缺等問題,提升產(chǎn)業(yè)數(shù)據(jù)治理能力。
關(guān)鍵詞:數(shù)據(jù)中臺;數(shù)據(jù)治理;數(shù)據(jù)采集;數(shù)據(jù)融合;電子政務
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)07-0022-02
2020年8月,習近平總書記在合肥主持召開扎實推進長三角一體化發(fā)展座談會指出“要發(fā)揮數(shù)字經(jīng)濟優(yōu)勢,加快產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型,提高產(chǎn)業(yè)鏈供應鏈穩(wěn)定性和競爭力”。當前,我省重點產(chǎn)業(yè)發(fā)展態(tài)勢良好,但是產(chǎn)業(yè)數(shù)據(jù)分散,產(chǎn)業(yè)數(shù)據(jù)分析和應用能力欠缺,亟須構(gòu)建產(chǎn)業(yè)數(shù)據(jù)治理系統(tǒng)對產(chǎn)業(yè)數(shù)據(jù)進行統(tǒng)一匯聚、治理、分析和應用,加快強鏈補鏈和產(chǎn)業(yè)集聚速度,提升產(chǎn)業(yè)治理能力。
1 數(shù)據(jù)中臺
中臺是相對于前后臺而生的概念,中臺是前臺和后臺之間聯(lián)動的齒輪,將其共有的工具、技術(shù)、服務等進行梳理和集成。數(shù)據(jù)中臺是按照業(yè)務、技術(shù)和管理等數(shù)據(jù)標準對分散在不同地方的數(shù)據(jù)進行統(tǒng)一的采集、處理、融合、計算、存儲、共享和應用等,是集數(shù)據(jù)采集、數(shù)據(jù)清洗、共享融合、組織處理、建模分析、數(shù)據(jù)管理和服務應用于一體的平臺。ThoughtWorks 數(shù)字化轉(zhuǎn)型專家史凱認為,“數(shù)據(jù)中臺是聚合和治理跨域數(shù)據(jù),將數(shù)據(jù)抽象封裝成服務,提供給前臺以業(yè)務價值的邏輯概念”。數(shù)據(jù)中臺主要為了彌補數(shù)據(jù)開發(fā)和應用開發(fā)速度不匹配的問題,使應用開發(fā)不受數(shù)據(jù)開發(fā)的影響,快速響應業(yè)務的創(chuàng)新,加速從數(shù)據(jù)到業(yè)務價值的過程。
2 系統(tǒng)架構(gòu)
通過批量交換、接口調(diào)用和動態(tài)采集等方式,交換匯聚相關(guān)政府部門的企業(yè)主體、園區(qū)、人才、專利、創(chuàng)新平臺和稅收等數(shù)據(jù)以及互聯(lián)網(wǎng)和第三方機構(gòu)等相關(guān)數(shù)據(jù)。按照相關(guān)數(shù)據(jù)標準,將匯聚的數(shù)據(jù)進行抽取、轉(zhuǎn)換、融合等,形成企業(yè)信息庫、產(chǎn)業(yè)載體庫、人才庫、專利庫、事件庫、項目信息庫、指標庫、規(guī)則庫等產(chǎn)業(yè)主題庫,并對外提供數(shù)據(jù)服務[1-3]。
3 系統(tǒng)功能
3.1 數(shù)據(jù)采集系統(tǒng)
實現(xiàn)對政府部門、互聯(lián)網(wǎng)和第三方機構(gòu)等多源數(shù)據(jù)的采集,主要包括庫表交換、文件解析、服務接口、人工導入等方式[4]。
(1) 庫表交換:數(shù)據(jù)提供方將數(shù)據(jù)推送至指定服務器的數(shù)據(jù)庫中,數(shù)據(jù)接收方將數(shù)據(jù)直接提取加載至數(shù)據(jù)庫表中。
(2) 文件解析:數(shù)據(jù)提供方根據(jù)約定的數(shù)據(jù)格式定期將數(shù)據(jù)打包成數(shù)據(jù)文件推送至指定服務器的特定位置,數(shù)據(jù)接收方進行自動提取、解析、加載入庫。
(3) 服務接口:數(shù)據(jù)接收方按照數(shù)據(jù)提供方提供的數(shù)據(jù)接口(webservice、API等)規(guī)范及查詢方式,開發(fā)定制化的數(shù)據(jù)提取、解析、加載任務。
(4) 人工導入:對于部分無法自動對接的數(shù)據(jù),需要利用文件導入工具進行加載入庫,包括提供文件導入模板、自動加載入庫等功能。
3.2 數(shù)據(jù)處理系統(tǒng)
數(shù)據(jù)處理系統(tǒng)主要實現(xiàn)對數(shù)據(jù)的清洗轉(zhuǎn)換以及對清洗后數(shù)據(jù)的融合。
3.2.1 清洗轉(zhuǎn)換
對各個來源的數(shù)據(jù)進行抽取、清洗、轉(zhuǎn)換、加載,形成符合數(shù)據(jù)標準的結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù),同時對處理后的數(shù)據(jù)進行復核校驗,保障數(shù)據(jù)清洗的準確性。
(1) 數(shù)據(jù)抽?。喊ㄈ砍槿』蛟隽砍槿?,根據(jù)具體業(yè)務制定抽取的時間和頻率等,其中增量抽取采用基于時間戳方式。
(2) 數(shù)據(jù)清洗:對抽取過來的數(shù)據(jù)進行清洗處理,包括數(shù)據(jù)過濾、數(shù)據(jù)剔重、類型轉(zhuǎn)換、編碼映射、拆分與合并、維度轉(zhuǎn)換等功能。從數(shù)據(jù)的準確性、完整性、一致性、時效性、合理性和唯一性等方面進行考慮,確保數(shù)據(jù)的質(zhì)量。
(3) 數(shù)據(jù)轉(zhuǎn)換:按照一定的轉(zhuǎn)換規(guī)則將數(shù)據(jù)轉(zhuǎn)換生成新的數(shù)據(jù)并存放至新的數(shù)據(jù)庫表或數(shù)據(jù)字段中,支持數(shù)據(jù)字段之間一對多、多對一以及多對多的映射關(guān)系。
(4) 數(shù)據(jù)加載:將抽取與清洗轉(zhuǎn)換的數(shù)據(jù)準確、及時地存儲到不同的庫中。在數(shù)據(jù)加載過程中,針對數(shù)據(jù)加載中斷或者出錯,支持采用斷點續(xù)傳、一致性數(shù)據(jù)保障等方法進行過程控制。
(5) 復核校驗:主要包括規(guī)則校驗、質(zhì)量稽核、數(shù)據(jù)糾錯。規(guī)則校驗是指在數(shù)據(jù)處理過程中,通過ETL工具,針對特定的數(shù)據(jù)項的數(shù)據(jù)規(guī)范,制定校驗規(guī)則,當數(shù)據(jù)清洗結(jié)束,進行數(shù)據(jù)入庫加載時,執(zhí)行校驗規(guī)則,將不符合數(shù)據(jù)規(guī)范的記錄進行標識并進行流轉(zhuǎn)處理,直至數(shù)據(jù)符合規(guī)范。質(zhì)量稽核是指對已經(jīng)進入主題數(shù)據(jù)庫的數(shù)據(jù)記錄,根據(jù)數(shù)據(jù)規(guī)范及數(shù)據(jù)字段之間存在的特定關(guān)系,制定不同的質(zhì)量檢測規(guī)則,定期執(zhí)行,將不符合質(zhì)檢規(guī)則的數(shù)據(jù)進行標識并進行流轉(zhuǎn)處理。數(shù)據(jù)糾錯是指對已經(jīng)進入主題數(shù)據(jù)庫或已在應用系統(tǒng)中使用等數(shù)據(jù)記錄,設(shè)計數(shù)據(jù)糾錯機制,標識可能的錯誤數(shù)據(jù),反饋并進行流轉(zhuǎn)處理。
3.2.2 數(shù)據(jù)融合
結(jié)合實際業(yè)務,對數(shù)據(jù)進行多源異構(gòu)融合、實體關(guān)聯(lián)、打標處理、指標計算和模型運算等處理,提升數(shù)據(jù)資源利用水平。
(1) 多源異構(gòu)融合:緊密結(jié)合業(yè)務,制定融合規(guī)則,實現(xiàn)對不同來源(如政務數(shù)據(jù)、互聯(lián)網(wǎng)及第三方數(shù)據(jù)等)的同類數(shù)據(jù)進行深度融合,為業(yè)務運轉(zhuǎn)提供數(shù)據(jù)支撐。
(2) 實體關(guān)聯(lián):以企業(yè)、人物、區(qū)域等實體唯一性為基礎(chǔ),將產(chǎn)業(yè)載體數(shù)據(jù)、企業(yè)數(shù)據(jù)、專利數(shù)據(jù)、投資數(shù)據(jù)、資訊數(shù)據(jù)等進行融合關(guān)聯(lián),實現(xiàn)對實體的全面性認知,為區(qū)域產(chǎn)業(yè)評價體系分析、企業(yè)評價等提供數(shù)據(jù)支撐。
(3) 標簽處理:依據(jù)產(chǎn)業(yè)數(shù)據(jù)標簽體系,通過對數(shù)據(jù)進行達標處理,實現(xiàn)基礎(chǔ)數(shù)據(jù)與標簽體系之間的關(guān)聯(lián)。產(chǎn)業(yè)數(shù)據(jù)標簽體系包括企業(yè)標簽體系、人才標簽體系、專利標簽體系和產(chǎn)品標簽體系等。企業(yè)標簽體系包括企業(yè)價值標簽(上市企業(yè)、規(guī)模以上工業(yè)企業(yè)、高潛力、高價值技術(shù)擁有者、多領(lǐng)域投資等)、企業(yè)資質(zhì)標簽(特精高企業(yè)、高新技術(shù)企業(yè)、A級納稅人等)、企業(yè)所屬產(chǎn)業(yè)標簽(新一代信息技術(shù)、人工智能、新能源汽車、新材料等)和企業(yè)行為標簽(融資、投資、行政處罰等)。人才標簽體系包括人才類型標簽(學術(shù)人才、科研人才和投資精英等)、人才所屬產(chǎn)業(yè)標簽等。專利標簽體系和產(chǎn)品標簽體系主要以所屬產(chǎn)業(yè)標簽為主。
(4) 指標計算:將統(tǒng)計分析、區(qū)域評價模型、企業(yè)評估模型等指標體系中指標化,配置并計算指標數(shù)據(jù),并將指標數(shù)據(jù)的計算結(jié)果寫入指標數(shù)據(jù)庫表中。
(5) 模型運算:以各類實體的關(guān)聯(lián)數(shù)據(jù)、指標數(shù)據(jù)為基礎(chǔ),構(gòu)建區(qū)域發(fā)展評價模型、區(qū)域發(fā)展對標模型、企業(yè)評估模型等后,通過數(shù)據(jù)的提取、轉(zhuǎn)換、加載和融合,然后計算獲得模型的輸出結(jié)果,并將輸出結(jié)果寫入數(shù)據(jù)庫表中。
3.3 數(shù)據(jù)服務系統(tǒng)
基于產(chǎn)業(yè)數(shù)據(jù)治理系統(tǒng)提供的計算和存儲等基礎(chǔ)支撐能力,利用行為分析、文本挖掘、全文檢索等多種信息技術(shù)工具,為相關(guān)應用系統(tǒng)提供數(shù)據(jù)支撐服務,同時對外提供數(shù)據(jù)共享、統(tǒng)計分析、查詢檢索、可視化展示等服務。
3.4 數(shù)據(jù)管理支撐系統(tǒng)
3.4.1 元數(shù)據(jù)管理
元數(shù)據(jù)管理包括數(shù)據(jù)字典管理、數(shù)據(jù)標準管理和數(shù)據(jù)血緣分析。數(shù)據(jù)字典管理對各個數(shù)據(jù)庫模型(表單)數(shù)據(jù)項、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)流、數(shù)據(jù)存儲、處理邏輯等進行定義和描述。數(shù)據(jù)標準管理[5]對各項數(shù)據(jù)的規(guī)范標準進行定義與管理的功能,包括業(yè)務范圍、數(shù)據(jù)來源、數(shù)據(jù)更新頻率、數(shù)據(jù)項規(guī)范等。數(shù)據(jù)血緣分析對數(shù)據(jù)進行從歸集到處理再到應用的全過程跟蹤管理。
3.4.2 主數(shù)據(jù)管理
主數(shù)據(jù)管理[6]實現(xiàn)對各類標準化的核心產(chǎn)業(yè)數(shù)據(jù)的可視化管理,包括數(shù)據(jù)資產(chǎn)查詢、單表記錄檢索、單表記錄操作等功能。
(1) 數(shù)據(jù)資產(chǎn)查詢:構(gòu)建完整的產(chǎn)業(yè)數(shù)據(jù)資產(chǎn)資源目錄,設(shè)計資源檢索功能,支持對數(shù)據(jù)資產(chǎn)的模糊檢索、精確查找等。
(2) 單表記錄檢索:針對選擇的數(shù)據(jù)表單進行數(shù)據(jù)檢索。檢索功能包括顯示字段選擇、去代碼化的數(shù)據(jù)篩選條件編輯等。支持模糊檢索、精確檢索、多條件并行的高級檢索等。
(3) 單表記錄操作:支持對數(shù)據(jù)表單的記錄新增、記錄修改、記錄刪除等操作,同時支持數(shù)據(jù)以Excel的方式導出,方便使用。
3.4.3 數(shù)據(jù)質(zhì)量管理
對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段的質(zhì)量進行識別、度量、監(jiān)控、預警等一系列管理活動,包括規(guī)則校驗引擎配置管理、質(zhì)量稽核引擎配置管理、數(shù)據(jù)糾錯和質(zhì)量管理中心等。
(1) 質(zhì)量規(guī)則引擎配置管理:為規(guī)則校驗提供質(zhì)量校驗規(guī)則的配置和管理。
(2) 質(zhì)量稽核引擎配置管理:為質(zhì)量稽查提供質(zhì)量檢測規(guī)則的配置和管理。
(3) 數(shù)據(jù)糾錯:為數(shù)據(jù)使用者提供發(fā)現(xiàn)數(shù)據(jù)錯誤反饋機制,及時處理、及時反饋,包括數(shù)據(jù)標記工具、后臺提醒、糾錯反饋等功能。
(4) 任務管理中心:將經(jīng)由質(zhì)量規(guī)則引擎、質(zhì)量稽核引擎及數(shù)據(jù)糾錯發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進行集中歸集與分發(fā)處理,主要包括任務檢索、新增任務提醒、任務分配、任務處理、任務反饋等功能。
3.4.4 數(shù)據(jù)應用管理
(1) 標簽體系管理:為各類標準化標簽體系提供標簽的構(gòu)建、管理、變更等功能。
(2) 指標體系管理:為各類指標體系(如企業(yè)、人物、區(qū)域等主體進行統(tǒng)計分析、評估評價等相關(guān)指標體系)提供指標的構(gòu)建、管理、變更等功能。
(3) 算法模型管理:為各類算法模型提供集中化的管理記錄工具,包括算法模型設(shè)計思路、數(shù)據(jù)模型設(shè)計方案、模型構(gòu)建等內(nèi)容。
3.4.5 數(shù)據(jù)調(diào)度體系
在數(shù)據(jù)處理過程中,對ETL工具配置的任務進行管理,包括ETL任務管理、調(diào)度監(jiān)控管理、日志管理、異常監(jiān)控預警。
(1) ETL任務管理:對ETL任務進行集中管理,包括啟動、禁止、執(zhí)行周期維護、任務維護等。
(2) 調(diào)度監(jiān)控管理:對ETL任務進行進度監(jiān)控管理,并根據(jù)任務緊急度、臨時資源分配調(diào)整等情況,對ETL任務的執(zhí)行進行干預處理。
(3) 日志管理:對ETL任務的執(zhí)行日志進行維護,進行必要的任務執(zhí)行分析及錯誤核查等工作。
(4) 異常監(jiān)控預警:對任務執(zhí)行過程中的異常狀態(tài)設(shè)置預警機制,包括任務執(zhí)行超時、資源不足、任務失敗等。
3.4.6 數(shù)據(jù)安全管理
主要包括數(shù)據(jù)加解密、數(shù)據(jù)脫敏、分級分類、行為審計等功能。
(1) 數(shù)據(jù)加解密:在數(shù)據(jù)傳輸和數(shù)據(jù)存儲時可選擇不同的加密算法進行加密,確保數(shù)據(jù)可信傳輸和存儲。在接收數(shù)據(jù)和使用數(shù)據(jù)時使用解密算法進行解密,得到所需要的數(shù)據(jù)。
(2) 數(shù)據(jù)脫敏:實現(xiàn)對敏感性信息的脫敏,包括新增、修改和刪除脫敏的數(shù)據(jù)項及脫敏規(guī)則等。
(3) 分級分類:實現(xiàn)對用戶的分類、分級的授權(quán)管理,控制用戶能夠按權(quán)限訪問數(shù)據(jù),加強用戶身份安全管理。
(4) 行為審計:記錄用戶對數(shù)據(jù)的所有訪問和操作記錄日志,并對用戶的行為進行分類統(tǒng)計和分析,對用戶的違規(guī)訪問和危險操作進行告警。行為審計內(nèi)容包括:用戶登錄審計、用戶訪問審計和用戶操作審計等。
4 結(jié)束語
該系統(tǒng)的設(shè)計與實現(xiàn)立足產(chǎn)業(yè)分析和產(chǎn)業(yè)監(jiān)測的需求,設(shè)計了數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)服務系統(tǒng)和數(shù)據(jù)管理支撐系統(tǒng),詳述了數(shù)據(jù)采集的方式、數(shù)據(jù)清洗和數(shù)據(jù)融合的方法等。通過產(chǎn)業(yè)數(shù)據(jù)治理系統(tǒng)的搭建,有效拓寬了產(chǎn)業(yè)數(shù)據(jù)的渠道,提高了產(chǎn)業(yè)數(shù)據(jù)質(zhì)量,提升了產(chǎn)業(yè)數(shù)據(jù)治理水平,為產(chǎn)業(yè)監(jiān)測、產(chǎn)業(yè)分析和產(chǎn)業(yè)決策提供了數(shù)據(jù)支撐。
參考文獻:
[1] 芮忠.基于數(shù)據(jù)中臺的數(shù)據(jù)治理系統(tǒng)的實現(xiàn)[J].科技創(chuàng)新與應用,2020(26):39-40.
[2] 胡銳,芮忠.基于數(shù)據(jù)中臺的高校數(shù)據(jù)治理系統(tǒng)的設(shè)計[J].電子世界,2020(12):187-188.
[3] 姚洪.基于數(shù)據(jù)中臺的數(shù)據(jù)治理系統(tǒng)的設(shè)計與實現(xiàn)[J].科學技術(shù)創(chuàng)新,2020(35):74-75.
[4] 王逸晨.基于數(shù)據(jù)共享及開放的數(shù)據(jù)治理體系研究[J].中小企業(yè)管理與科技(中旬刊),2020(6):154-155.
[5] 呂淵.高校的數(shù)據(jù)治理系統(tǒng)的設(shè)計與實現(xiàn)[J].電子技術(shù)與軟件工程,2020(10):157-158.
[6] 胡志偉,汪振強.關(guān)于大數(shù)據(jù)治理的研究與分析[J].時代報告,2014(7):177.
【通聯(lián)編輯:代影】
收稿日期:2021-07-26
作者簡介:王曉波,高級工程師,碩士研究生,主要研究方向為電子政務、數(shù)據(jù)分析和軟件工程。