吳信東,應(yīng)澤宇,盛紹靜,蔣婷婷,卜晨陽,張贊
1.大數(shù)據(jù)知識工程教育部重點實驗室(合肥工業(yè)大學(xué)),安徽 合肥 230009;
2.合肥工業(yè)大學(xué)計算機與信息學(xué)院,安徽 合肥 230009
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等信息技術(shù)的快速發(fā)展,人類社會進入了大數(shù)據(jù)時代。為了充分利用大數(shù)據(jù)時代海量數(shù)據(jù)蘊含的巨大價值,社會各機構(gòu)(政府、企業(yè)等)紛紛進入數(shù)字化轉(zhuǎn)型,引發(fā)了數(shù)字化轉(zhuǎn)型方法的積極探索。但是數(shù)字化轉(zhuǎn)型卻伴隨著許多困難,很多機構(gòu)的數(shù)字化轉(zhuǎn)型并不成功,而其中一個重要的原因是沒有統(tǒng)一、可行的轉(zhuǎn)型路徑和相關(guān)技術(shù)方案。
通過中臺實現(xiàn)數(shù)據(jù)化轉(zhuǎn)型是一條可行的道路。2015年年底,阿里巴巴集團對外宣布全面啟動阿里巴巴集團2018年中臺戰(zhàn)略[1]。此后,騰訊、今日頭條等企業(yè)開始了中臺建設(shè)的摸索與實踐。中臺建設(shè)已經(jīng)成為互聯(lián)網(wǎng)企業(yè)尋求數(shù)字化轉(zhuǎn)型的突破口。經(jīng)過近5年時間的發(fā)展,中臺已經(jīng)取得相當(dāng)成熟的推廣和應(yīng)用。數(shù)據(jù)中臺行業(yè)的市場份額已經(jīng)由開始商品化的2019年的38億元在兩年時間內(nèi)增長到101億元[2],選擇搭建數(shù)據(jù)中臺的企業(yè)也越來越多,已經(jīng)不限于互聯(lián)網(wǎng)企業(yè)。不過數(shù)據(jù)中臺面臨著未有統(tǒng)一的中臺概念和數(shù)據(jù)中臺建設(shè)標(biāo)準(zhǔn)、規(guī)范以及評價指標(biāo)的問題[3],這使得很多有數(shù)字化轉(zhuǎn)型需求的機構(gòu)無法準(zhǔn)確把握中臺的意義而錯失了中臺建設(shè)的良機。
因此,為數(shù)據(jù)中臺下一個貼切的定義,總結(jié)一套具有共性的數(shù)據(jù)中臺建設(shè)方法很有必要。本文首先分析中臺建設(shè)必要性和重要性,對國內(nèi)外數(shù)據(jù)中臺相關(guān)研究進行介紹,并給出數(shù)據(jù)中臺的正式定義;其次給出基本技術(shù)框架(物理管理、邏輯管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)服務(wù)、信息安全管理)并介紹相關(guān)內(nèi)容;接著,以華譜數(shù)據(jù)中臺建設(shè)為例,介紹華譜數(shù)據(jù)中臺結(jié)合HAO智能模型的總體架構(gòu)和相關(guān)開發(fā)方案是如何成功處理海量家譜數(shù)據(jù)的;最后總結(jié)當(dāng)前數(shù)據(jù)中臺的挑戰(zhàn)和產(chǎn)業(yè)發(fā)展前景。
人類利用計算機技術(shù)管理數(shù)據(jù)到目前為止大體上經(jīng)歷了(手工)報表、報表系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)、大數(shù)據(jù)平臺等概念階段[4]。每個階段人們都在尋找更加有效的數(shù)據(jù)利用方式,而數(shù)據(jù)中臺是現(xiàn)階段有效實現(xiàn)數(shù)據(jù)價值的解決方案之一。
目前國內(nèi)對數(shù)據(jù)中臺的研究趨于成熟,數(shù)據(jù)中臺已在互聯(lián)網(wǎng)、電力等多個行業(yè)廣泛應(yīng)用[5]。阿里巴巴提出的OneData中臺體系為中臺建設(shè)的實踐打下了堅實的基礎(chǔ)[6]。在基礎(chǔ)能力平臺的建設(shè)上,林鴻等[7]提出使用分布式微服務(wù)技術(shù)架構(gòu)的方案。在數(shù)據(jù)治理上,中國通信標(biāo)準(zhǔn)化協(xié)會發(fā)布《數(shù)據(jù)治理標(biāo)準(zhǔn)化白皮書》,確定了一系列數(shù)據(jù)治理的標(biāo)準(zhǔn)和實踐方案。在數(shù)據(jù)服務(wù)方面,微服務(wù)框架Duboo提供了一系列可進行微服務(wù)治理的開源組件[8]。
國外并沒有提出數(shù)據(jù)中臺這一概念,但在大數(shù)據(jù)技術(shù)上有成熟的發(fā)展。在數(shù)據(jù)治理上有ApacheAtlas這樣在 Hadoop 生態(tài)系統(tǒng)上的元數(shù)據(jù)治理框架[9],基礎(chǔ)能力平臺上有諸如Spring Cloud等微服務(wù)框架。
綜上所述,在數(shù)字化轉(zhuǎn)型的背景下,各行各業(yè)都在建設(shè)數(shù)據(jù)中臺。但各行各業(yè)的場景千差萬別,難以總結(jié)出行業(yè)間共同享有的業(yè)務(wù)共性,本文由此提出可能用于數(shù)據(jù)中臺構(gòu)建過程的技術(shù)框架。
中臺的概念是基于前后臺架構(gòu)的傳統(tǒng)模式提出的。前臺指的是由各類用戶終端系統(tǒng)組成的一個整體,后臺指的是可以管理企業(yè)的核心資源(數(shù)據(jù)+計算)的系統(tǒng)[10]。前后臺基于特定的業(yè)務(wù)而成立,并僅為這條業(yè)務(wù)線服務(wù),久而久之許多業(yè)務(wù)產(chǎn)生各種獨立的前后臺整體,形成“煙囪式開發(fā)”的形式。前后臺交互模式如圖1所示。
圖1 前后臺交互模式
由于大數(shù)據(jù)時代業(yè)務(wù)需求具有快速響應(yīng)和定制化的特點,單獨設(shè)立后臺定制化開發(fā)會產(chǎn)生重復(fù)開發(fā)、交付周期延長等弊端。同時前后臺開發(fā)會導(dǎo)致“數(shù)據(jù)孤島”,數(shù)據(jù)和數(shù)據(jù)能力彼此孤立、難以共享,造成信息化協(xié)作困難,大數(shù)據(jù)分析和知識圖譜建設(shè)無法進行,數(shù)據(jù)價值不能體現(xiàn),不能快速響應(yīng)業(yè)務(wù)需求。為解決上述問題,中臺的概念開始被提出。中臺對全域數(shù)據(jù)進行數(shù)據(jù)治理,以共享數(shù)據(jù)服務(wù)的方式實現(xiàn)數(shù)據(jù)共享,通過搭建獨立的中間平臺,打通業(yè)務(wù)和數(shù)據(jù)環(huán)節(jié),減少冗余,增加復(fù)用,快速響應(yīng)用戶需求,實現(xiàn)數(shù)據(jù)驅(qū)動的業(yè)務(wù)創(chuàng)新。
總體來說,數(shù)據(jù)中臺是想要打通“數(shù)據(jù)孤島”提高數(shù)據(jù)價值的策略,但目前還沒有統(tǒng)一的定義[11-12]。筆者在此提供一個從數(shù)據(jù)資產(chǎn)化角度的定義[13]:數(shù)據(jù)中臺將一個機構(gòu)(企業(yè)、事業(yè),或政府部門)的數(shù)據(jù)作為戰(zhàn)略資產(chǎn)進行管理,是從數(shù)據(jù)收集到處理應(yīng)用的一套管理機制,以期提高數(shù)據(jù)質(zhì)量,實現(xiàn)廣泛的數(shù)據(jù)共享,最終實現(xiàn)數(shù)據(jù)價值最大化。
從上述定義出發(fā),可以得到數(shù)據(jù)中臺必須滿足的兩點要求。其一,數(shù)據(jù)中臺需要實現(xiàn)數(shù)據(jù)的全局管理。首先,數(shù)據(jù)中臺管理全局數(shù)據(jù)是從數(shù)據(jù)收集到處理應(yīng)用的全流程管理。此外,數(shù)據(jù)中臺掌控的全局數(shù)據(jù)要為業(yè)務(wù)賦能、避免“數(shù)據(jù)孤島”,需要提供廣泛的高質(zhì)量數(shù)據(jù)共享服務(wù)。因此,數(shù)據(jù)中臺的管理要做到全數(shù)域管理、全時段管理、數(shù)據(jù)全平臺共享。
其二,數(shù)據(jù)中臺需要實現(xiàn)數(shù)據(jù)智能化。數(shù)據(jù)中臺管理全局數(shù)據(jù)的最終目的是數(shù)據(jù)資產(chǎn)價值最大化,其主要方法是通過數(shù)據(jù)挖掘等技術(shù)從數(shù)據(jù)中獲取有價值的信息和新知,為業(yè)務(wù)和決策賦能。
綜上所述,數(shù)據(jù)中臺在整個機構(gòu)的業(yè)務(wù)行為鏈中處于中心位置,具有核心重要性。各個業(yè)務(wù)前臺和組織部門通過中臺取得驅(qū)動業(yè)務(wù)、決策展開的數(shù)據(jù)或數(shù)據(jù)洞見,同時,前臺在業(yè)務(wù)中產(chǎn)生的新數(shù)據(jù)也會源源不斷地匯聚到中臺中,形成交互閉環(huán),驅(qū)動機構(gòu)良性發(fā)展。中臺交互模式如圖2所示。另外,筆者為強調(diào)中臺的中心化管理能力和核心重要性,沒有使用Middle Platform等說明中臺處在前后臺中的中間環(huán)節(jié)的英文翻譯,而是使用了Central Platform作為中臺的英文翻譯。
圖2 中臺交互模式
數(shù)據(jù)中臺的建設(shè)依托于建設(shè)機構(gòu)的原信息化系統(tǒng)和具體業(yè)務(wù)需求進行[4],因此數(shù)據(jù)中臺的建設(shè)方案具有特殊性,很難有完全通用的數(shù)據(jù)中臺標(biāo)準(zhǔn)建設(shè)架構(gòu)。但是,數(shù)據(jù)中臺的建設(shè)都基于相同的最終目的——實現(xiàn)數(shù)據(jù)價值最大化(數(shù)據(jù)全局管理和數(shù)據(jù)智能化)。同時數(shù)據(jù)中臺的建設(shè)與前沿的大數(shù)據(jù)技術(shù)息息相關(guān),因此在數(shù)據(jù)中臺的建設(shè)思路和技術(shù)選擇上具有共性。本文結(jié)合大數(shù)據(jù)技術(shù)的發(fā)展,以筆者在對數(shù)據(jù)中臺的實際建設(shè)中歸納出的7個數(shù)據(jù)中臺的核心功能[13](如圖2所示)為基礎(chǔ),提出了數(shù)據(jù)中臺的參考框架,如圖3所示。
圖3 數(shù)據(jù)中臺的參考框架
數(shù)據(jù)中臺的參考框架是一個層次模型。物理管理解決整個系統(tǒng)數(shù)據(jù)存儲、運算、共享等基礎(chǔ)能力的實體機器搭建和軟件操作平臺搭建,并完成大數(shù)據(jù)采集和匯聚;在此基礎(chǔ)上對存儲數(shù)據(jù)進行邏輯管理,使得原始數(shù)據(jù)經(jīng)過整治變成標(biāo)準(zhǔn)可操作的有統(tǒng)一數(shù)據(jù)模型管理的數(shù)據(jù)集;數(shù)據(jù)資產(chǎn)管理對標(biāo)準(zhǔn)化、可操作的全局數(shù)據(jù)進行價值管理和共享管理,并利用算法開發(fā)數(shù)據(jù)資產(chǎn),使之智能化,釋放資本價值;數(shù)據(jù)服務(wù)與業(yè)務(wù)相結(jié)合,通過統(tǒng)一的數(shù)據(jù)接口為業(yè)務(wù)提供數(shù)據(jù)服務(wù),完成數(shù)據(jù)資產(chǎn)的實際利用;信息安全管理貫穿建設(shè)的始終,為數(shù)據(jù)的處理提供安全保障。
物理管理包括物理工具支撐、基礎(chǔ)能力平臺、數(shù)據(jù)采集與匯聚。物理工具支撐是最底層的硬件集合,基礎(chǔ)能力平臺是對物理工具存儲、計算能力的抽象、管理,數(shù)據(jù)采集與匯聚是基于基礎(chǔ)能力平臺實現(xiàn)的數(shù)據(jù)中臺的初步功能。
(1)物理工具支撐
隨著機構(gòu)規(guī)模的擴大、數(shù)據(jù)量的激增,機構(gòu)對算力和存儲等物理工具的要求自然進入了云計算的時代,機構(gòu)需要部署其云服務(wù)平臺以滿足基本的算力和存儲需求。此外,機構(gòu)還需要根據(jù)自己的業(yè)務(wù)特性增派一些特殊實體資源,如物聯(lián)網(wǎng)系統(tǒng)需要增派大量傳感器。
云服務(wù)系統(tǒng)的架構(gòu)部署有3種模式[14]:公有云、私有云和混合云。公有云是第三方公司通過互聯(lián)網(wǎng)連接提供給用戶的云,如AWS、華為云等,采用這種架構(gòu)能夠減少硬件開銷,但安全性得不到足夠的保障;私有云是機構(gòu)搭建基礎(chǔ)設(shè)施且只供內(nèi)部使用的云,這種架構(gòu)安全性高,但是需要耗費硬件且運維成本高;混合云的架構(gòu)結(jié)合了公有云和私有云的優(yōu)勢,將重要的數(shù)據(jù)服務(wù)建設(shè)在私有云上以求得安全穩(wěn)定,把不重要的資源鋪設(shè)在公有云上,減少硬件成本。
(2)基礎(chǔ)能力平臺
基礎(chǔ)能力平臺是對底層復(fù)雜硬件資源的抽象,并提供統(tǒng)一數(shù)據(jù)存取、計算等基礎(chǔ)能力的技術(shù)集合。單體架構(gòu)模式[15]難以滿足云計算時代應(yīng)用可彈性擴展、異構(gòu)數(shù)據(jù)資源標(biāo)準(zhǔn)化管理、適應(yīng)業(yè)務(wù)快速迭代等需求,因而云計算領(lǐng)域經(jīng)過多年的發(fā)展積累已經(jīng)形成了一套高可用的、彈性、可管理的被稱為云原生(cloud native)技術(shù)的基礎(chǔ)架構(gòu)。
云原生架構(gòu)是一種利用云計算優(yōu)勢來構(gòu)建和運行應(yīng)用程序的方法[16],它是一個技術(shù)和方法論的集合,包含4個要素:容器、微服務(wù)、DevOps、持續(xù)集成和持續(xù)交付(CI/CD)。這4個要素可以很好地滿足中臺建設(shè)的需求。首先,容器化開發(fā)使應(yīng)用能夠輕易地擴容到系統(tǒng)之中,容器化又具有相對封閉性保障數(shù)據(jù)的安全,通過微服務(wù)的接口方式使共享變得簡單;其次,通過持續(xù)集成和持續(xù)交付技術(shù)能夠極大地提高軟件上線效率,滿足了快速迭代的需求;再次,通過容器化和微服務(wù)方式開發(fā)的應(yīng)用能夠被當(dāng)作組件,由云平臺的自動化工具統(tǒng)一管理、實時監(jiān)控,實現(xiàn)了標(biāo)準(zhǔn)化配置和管理;最后,云原生架構(gòu)本身就是建立在云計算基礎(chǔ)上的架構(gòu)體系,對分布式架構(gòu)具有優(yōu)良的適應(yīng)性。綜上所述,數(shù)據(jù)中臺的基礎(chǔ)能力平臺建設(shè)適合在云原生架構(gòu)上進行。
CNCF(cloud native computing foundation)是Google、Red Hat、Microsoft等大型云計算廠商以及一些開源軟件公司共同成立的云原生計算基金會,它提供了云原生架構(gòu)的路線圖[17],云原生架構(gòu)建設(shè)步驟見表1。
表1 云原生架構(gòu)建設(shè)步驟
云原生架構(gòu)之內(nèi)還需要選擇合適的大數(shù)據(jù)計算能力。數(shù)據(jù)中臺的大數(shù)據(jù)計算引擎可以分為即席查詢、離線計算、分布式計算、流式計算4個平臺[18]。即席查詢引擎需要對海量數(shù)據(jù)進行秒級的實時查詢和計算,可以使用高性能和低時延的Impala;離線計算技術(shù)需要實現(xiàn)超大規(guī)模的批量計算,Hive是一款基于HDFS的MapReduce計算框架,對單節(jié)點的處理器利用率達到90%,是離線計算的選擇之一;分布式計算平臺可以選擇Hadoop、Spark、Flink等;流式處理平臺可以選擇Storm、Spark Streaming等。
(3)數(shù)據(jù)采集與匯聚
系統(tǒng)全域的原始數(shù)據(jù)都存放在各部門自身的業(yè)務(wù)系統(tǒng)中,需要經(jīng)過數(shù)據(jù)采集將數(shù)據(jù)匯聚起來,構(gòu)建一個打通所有原始數(shù)據(jù)域的數(shù)據(jù)湖(data lake)[16]。
數(shù)據(jù)湖需要存儲,可以根據(jù)數(shù)據(jù)的種類和結(jié)構(gòu)類型選取適宜的存儲工具。例如,日志數(shù)據(jù)和通用文件可以選擇HDFS進行存儲,HIVE存儲關(guān)系型數(shù)據(jù),采用圖數(shù)據(jù)庫存儲具有關(guān)聯(lián)性的大數(shù)據(jù)集等。
邏輯管理要將在物理管理得到的原始數(shù)據(jù)經(jīng)過處理加工,轉(zhuǎn)變成可理解、可操作的具有統(tǒng)一語義和結(jié)構(gòu)的數(shù)據(jù)資產(chǎn)。邏輯管理分為數(shù)據(jù)表示和數(shù)據(jù)治理兩部分。
3.2.1 數(shù)據(jù)表示
數(shù)據(jù)中臺需要集中管理海量多源異構(gòu)的業(yè)務(wù)數(shù)據(jù),因此需要根據(jù)不同數(shù)據(jù)源的數(shù)據(jù)特征,明確數(shù)據(jù)的結(jié)構(gòu)、語義和標(biāo)準(zhǔn)等表示信息。數(shù)據(jù)表示主要包括數(shù)據(jù)標(biāo)準(zhǔn)管理和元數(shù)據(jù)管理。
數(shù)據(jù)標(biāo)準(zhǔn)是指保障數(shù)據(jù)的內(nèi)外部使用和交換的一致性和準(zhǔn)確性的規(guī)范性約束[19]。一般數(shù)據(jù)標(biāo)準(zhǔn)會通過標(biāo)準(zhǔn)文件發(fā)布,但在中臺建設(shè)中,由于各個“數(shù)據(jù)孤島”間的獨立性,各個業(yè)務(wù)系統(tǒng)人員對標(biāo)準(zhǔn)的理解難免產(chǎn)生認知偏差,難以保證標(biāo)準(zhǔn)的落實,因此數(shù)據(jù)中臺要有一套由規(guī)范要求、流程制度、技術(shù)工具共同組成的管理體系確保數(shù)據(jù)治理各個階段的數(shù)據(jù)的標(biāo)準(zhǔn)化以及標(biāo)準(zhǔn)的沉淀。數(shù)據(jù)標(biāo)準(zhǔn)管理包括數(shù)據(jù)接入標(biāo)準(zhǔn)、命名標(biāo)準(zhǔn)、數(shù)據(jù)格式標(biāo)準(zhǔn)、數(shù)據(jù)安全標(biāo)準(zhǔn)、資源管理標(biāo)簽等多個方面。數(shù)據(jù)中臺數(shù)據(jù)標(biāo)準(zhǔn)管理可通過區(qū)塊鏈[20]、流程自動化等技術(shù)工具來保障。
元數(shù)據(jù)管理包含了一系列標(biāo)準(zhǔn):數(shù)據(jù)格式、代碼規(guī)范、數(shù)據(jù)隱私規(guī)則、數(shù)據(jù)表的命名原則等。其將數(shù)據(jù)資產(chǎn)用清晰直觀的方式呈現(xiàn),讓數(shù)據(jù)資產(chǎn)真正被讀懂。但由于“數(shù)據(jù)孤島”問題,元數(shù)據(jù)自發(fā)產(chǎn)生多元化、非標(biāo)準(zhǔn)化的協(xié)調(diào)發(fā)展問題。為保障元數(shù)據(jù)的統(tǒng)一性,可以采用語義互操作、結(jié)構(gòu)互操作、協(xié)議互操作等方法[21]來解決相關(guān)問題。
3.2.2 數(shù)據(jù)治理
根據(jù)數(shù)據(jù)管理能力成熟度評估模型[22],數(shù)據(jù)治理是指對數(shù)據(jù)進行處置、格式化和規(guī)范化的過程。由此可見,數(shù)據(jù)中臺的數(shù)據(jù)治理是對數(shù)據(jù)中臺中的機構(gòu)全局數(shù)據(jù)進行處置、格式化和規(guī)范化的過程。數(shù)據(jù)治理的格式化、規(guī)范化過程在數(shù)據(jù)中臺建設(shè)中的內(nèi)涵可以理解為統(tǒng)一的數(shù)據(jù)規(guī)范和統(tǒng)一的數(shù)據(jù)建模及其管理的落地。數(shù)據(jù)中臺的數(shù)據(jù)治理主要包括4個子功能的實現(xiàn):數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換、數(shù)據(jù)集成。
(1)數(shù)據(jù)規(guī)范
數(shù)據(jù)規(guī)范是指進入數(shù)據(jù)中臺的數(shù)據(jù)(輸入)和經(jīng)過數(shù)據(jù)中臺處理的數(shù)據(jù)(輸出)都必須符合的規(guī)范[16]。其通過一系列技術(shù)手段確保數(shù)據(jù)中臺中的數(shù)據(jù)I/O符合數(shù)據(jù)標(biāo)準(zhǔn)。例如,通過對數(shù)據(jù)庫屬性值設(shè)置一系列約束(完整性約束、唯一性約束、空值規(guī)則等)實現(xiàn)對數(shù)據(jù)的檢驗。
(2)數(shù)據(jù)清洗
數(shù)據(jù)清洗的功能是偵測數(shù)據(jù)集中的“臟數(shù)據(jù)”,并對“臟數(shù)據(jù)”進行清洗進而達到提高數(shù)據(jù)質(zhì)量的目的。數(shù)據(jù)清洗可以分為屬性錯誤清洗、不完整數(shù)據(jù)清洗以及相似重復(fù)記錄的清洗[23]。
屬性錯誤清洗識別并清洗違反數(shù)據(jù)庫原定義的完整性約束的沖突數(shù)據(jù)。識別方法有通過指定合法數(shù)據(jù)庫實例模式的定性方法或在離群點檢測的基礎(chǔ)上采用統(tǒng)計方法識別沖突數(shù)據(jù)的定量方法。屬性錯誤可以通過光滑噪聲技術(shù)自動修正,或人工修正。
不完整數(shù)據(jù)清洗針對的是數(shù)據(jù)缺失現(xiàn)象。清洗工作可以通過忽略、全局變量填充的方法處理缺失數(shù)值,也可以通過統(tǒng)計和數(shù)值預(yù)測的方法,如中心度填充、最可能值填充處理。
相似重復(fù)記錄清洗的重點是識別出相同或不同數(shù)據(jù)集中兩個實體是否指代同一實體,即實體對齊。實體對齊的基礎(chǔ)方法是文本相似度度量,大致分為基于字符的(如編輯距離)、基于單詞的(如 Jaccard系數(shù))、混合型(如 softTF-IDF)和基于語義(如 WordNet)的4種方法。相似重復(fù)數(shù)據(jù)集的清洗一般采用先排序后合并的思想,使用優(yōu)先隊列算法、近鄰排序算法等實現(xiàn)。
(3)數(shù)據(jù)交換
數(shù)據(jù)交換的功能是將原始數(shù)據(jù)轉(zhuǎn)換為符合特定模式的目標(biāo)數(shù)據(jù),同時保證目標(biāo)數(shù)據(jù)能正確反映原始數(shù)據(jù)的內(nèi)容。數(shù)據(jù)交換給數(shù)據(jù)集成提供了基本條件。數(shù)據(jù)交換的實現(xiàn)一般分為以下兩種方式[23]。
● 協(xié)議式交換:指源系統(tǒng)和目標(biāo)系統(tǒng)之間定義一個數(shù)據(jù)交換交互協(xié)議,遵循制定的協(xié)議,通過將一個系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)移植到另一個系統(tǒng)的數(shù)據(jù)庫來完成數(shù)據(jù)交換。
● 標(biāo)準(zhǔn)化交換:建立一個可供多方共享的方法作為統(tǒng)一的標(biāo)準(zhǔn),實現(xiàn)跨平臺應(yīng)用程序之間的數(shù)據(jù)共享和交換。
在數(shù)據(jù)中臺中需要靈活運用以上兩種方法。如果幾個數(shù)據(jù)源與中臺的轉(zhuǎn)換規(guī)則相似,那么可以使用標(biāo)準(zhǔn)化交換減少點對點的協(xié)議式交換開發(fā)成本;如果有的數(shù)據(jù)源比較特殊,無法復(fù)用標(biāo)準(zhǔn)化交換功能,那么可以單獨做點對點的協(xié)議式交換開發(fā)。
協(xié)議式交換可與區(qū)塊鏈技術(shù)結(jié)合。區(qū)塊鏈技術(shù)具有公開透明、不易被篡改等優(yōu)勢,因此可以保障已經(jīng)處理過的有價值數(shù)據(jù)進行流轉(zhuǎn)、存儲及追溯,從而提升數(shù)據(jù)交互效能。劉峰等[24]基于此提出了一種面向雙中臺雙鏈架構(gòu)的內(nèi)生性數(shù)據(jù)安全交互協(xié)議,取得了優(yōu)良的實驗結(jié)果。
(4)數(shù)據(jù)集成
數(shù)據(jù)集成的目標(biāo)是將多源異構(gòu)數(shù)據(jù)匯聚后的無序原始數(shù)據(jù)(可以是數(shù)據(jù)湖)通過標(biāo)準(zhǔn)化得到能夠客觀描述機構(gòu)主要業(yè)務(wù)和功能時序狀態(tài)的可理解、可操作的有序數(shù)據(jù)集。數(shù)據(jù)集成技術(shù)協(xié)調(diào)數(shù)據(jù)源之間不匹配問題[25],將異構(gòu)、分布數(shù)據(jù)集成在一起,為用戶提供統(tǒng)一視圖,便于用戶更加透明地訪問數(shù)據(jù)源。數(shù)據(jù)集成的方式主要分為3種:數(shù)據(jù)復(fù)制、虛擬集成、基于本體建模的數(shù)據(jù)集成。
① 數(shù)據(jù)復(fù)制
數(shù)據(jù)復(fù)制方法是將用戶可能用到的其他數(shù)據(jù)源的數(shù)據(jù)預(yù)先復(fù)制到統(tǒng)一的數(shù)據(jù)源中,用戶使用時,僅需要訪問單一的數(shù)據(jù)源或少量的數(shù)據(jù)源。數(shù)據(jù)復(fù)制方法使得異構(gòu)、分布數(shù)據(jù)統(tǒng)一在一個數(shù)據(jù)庫中,因此提高了解析查詢效率;但數(shù)據(jù)復(fù)制需要一定的時間,因此數(shù)據(jù)的實時一致性難以保證。數(shù)據(jù)復(fù)制方法的常用方式是數(shù)據(jù)倉庫方法[26]。
② 虛擬集成
虛擬集成技術(shù)保持各數(shù)據(jù)源的分散狀態(tài),通過建立一個反映全局數(shù)據(jù)的由邏輯模型構(gòu)成的邏輯視圖達到間接掌握全局數(shù)據(jù)的效果。虛擬集成技術(shù)使用虛擬化技術(shù)實現(xiàn)邏輯模型到各分散數(shù)據(jù)源的數(shù)據(jù)控制。杜小勇等[27]提出了一種基于中間模式的數(shù)據(jù)集成系統(tǒng)架構(gòu),中間模式對下層數(shù)據(jù)源管理各個分散數(shù)據(jù)源的邏輯封裝,中間模式向上層數(shù)據(jù)應(yīng)用提供統(tǒng)一的數(shù)據(jù)模式和數(shù)據(jù)訪問的通用接口。當(dāng)用戶有查詢請求時,中間模式按照元數(shù)據(jù)編譯請求語句,分解成對各數(shù)據(jù)源的特定操作。
虛擬集成系統(tǒng)免去了海量數(shù)據(jù)匯聚的弊端,虛擬化服務(wù)和基于邏輯視圖的操作對用戶也非常友好。但如果異構(gòu)的數(shù)據(jù)源繁多復(fù)雜,開發(fā)封裝器和映射模式的代價將會非常大。
③ 基于本體建模的數(shù)據(jù)集成
集成同一領(lǐng)域的異構(gòu)數(shù)據(jù)庫有3個主要問題:語義、語法和結(jié)構(gòu)的異質(zhì)性。基于本體的建模方法能描述領(lǐng)域概念術(shù)語,表達概念間的內(nèi)在聯(lián)系,實現(xiàn)不同概念之間的集成和轉(zhuǎn)換,并保持語義上的一致性。同時能夠通過本體的推理機制消除不同領(lǐng)域的重復(fù)定義,發(fā)現(xiàn)其中隱含的關(guān)系,能夠充分解決上述3個問題[28]。在具有跨專業(yè)跨流程的電網(wǎng)企業(yè)全類別全過程項目管理信息模型的信息描述中有成功應(yīng)用[29]。目前,基于本體建模的數(shù)據(jù)集成方法包括單本體方法、多本體方法和混合本體方法3種[23]。
在數(shù)據(jù)中臺的實際應(yīng)用中,統(tǒng)一的本體模型不僅要結(jié)合組織絕大部分數(shù)據(jù)需求,還要提供兼容性和擴展性以滿足特定的數(shù)據(jù)需求。以國家電網(wǎng)公司統(tǒng)一數(shù)據(jù)模型(SG-CIM)[30]為例,其通過組織智能審定出企業(yè)的公共信息模型,保證統(tǒng)一性,同時其為分派部門提供了統(tǒng)一的物理模型基線版,保證底層結(jié)構(gòu)的一致性,各分部門按照本地需求可在模型的允許范圍內(nèi)擴展模型,這樣從根本上保證了數(shù)據(jù)模型的一致性,又兼具了可擴展性。
數(shù)據(jù)資產(chǎn)管理的任務(wù)是面向業(yè)務(wù)設(shè)置配套的管理體系以達到數(shù)據(jù)資產(chǎn)價值的釋放。數(shù)據(jù)資產(chǎn)管理主要包括:數(shù)據(jù)價值管理、數(shù)據(jù)共享管理、算法開發(fā)管理。
3.3.1 數(shù)據(jù)價值管理
數(shù)據(jù)價值管理是對數(shù)據(jù)內(nèi)在價值的度量,可以從數(shù)據(jù)投入成本和數(shù)據(jù)應(yīng)用價值兩方面來開展[31],即對數(shù)據(jù)資產(chǎn)的總投資收益率(return on investment,ROI)的衡量。數(shù)據(jù)價值管理目的是衡量數(shù)據(jù)的價值以便調(diào)整數(shù)據(jù)資產(chǎn)的投資結(jié)構(gòu),提高資產(chǎn)收益。其作用是挖掘數(shù)據(jù)資產(chǎn)價值潛力和評估數(shù)據(jù)采集維護成本,將兩者做綜合評判以幫助機構(gòu)合理調(diào)度整體資源,實現(xiàn)降本增效的目的,數(shù)據(jù)價值管理是數(shù)據(jù)資產(chǎn)管理的核心部分。數(shù)據(jù)投入成本主要包括硬件、能源和人力成本,這一部分成本投入較容易計算。而數(shù)據(jù)中臺為機構(gòu)提供集中化、智能化的數(shù)據(jù)服務(wù),進而將數(shù)據(jù)轉(zhuǎn)化為經(jīng)濟價值實現(xiàn)數(shù)據(jù)資產(chǎn)變現(xiàn)的過程是間接的、漫長的,故數(shù)據(jù)應(yīng)用價值是難以即時獲知的。
目前對數(shù)據(jù)資產(chǎn)總投資收益率的估計可以通過對數(shù)據(jù)進行統(tǒng)計和情感分析得到,用訪問量、好評率等信息表現(xiàn)數(shù)據(jù)價值;或者通過回溯實際業(yè)務(wù)經(jīng)驗,歸納可靠的評估指標(biāo)來界定數(shù)據(jù)的應(yīng)用價值,如活性評估、數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)稀缺性評估、數(shù)據(jù)時效性評估、數(shù)據(jù)應(yīng)用場景經(jīng)濟性評估等。
3.3.2 數(shù)據(jù)共享管理
數(shù)據(jù)中臺提供的廣泛數(shù)據(jù)共享會帶來數(shù)據(jù)安全和資源占用等相關(guān)問題,如越權(quán)訪問數(shù)據(jù)、大量訪問導(dǎo)致服務(wù)器崩潰等。為了避免以上問題,維護核心功能和資產(chǎn)價值的順利實現(xiàn),需要一套預(yù)防、監(jiān)控、分析數(shù)據(jù)共享的管理方案。
這套方案需要從共享的需求和實際問題入手,制訂數(shù)據(jù)共享的條件、規(guī)范流程以及監(jiān)管手段。例如,某數(shù)據(jù)服務(wù)在業(yè)務(wù)中共享量比較大,可以在管理機制上優(yōu)先保障該數(shù)據(jù)服務(wù)的共享資源;又或者數(shù)據(jù)共享中涉及資源競爭,數(shù)據(jù)共享管理機制就要事先制訂好涉及資源競爭時的共享策略。
3.3.3 算法開發(fā)管理
數(shù)據(jù)資產(chǎn)管理的核心作用是使經(jīng)過采集、治理后的數(shù)據(jù)通過算法被使用起來,服務(wù)于業(yè)務(wù)和產(chǎn)生商業(yè)洞見。根據(jù)使用數(shù)據(jù)的目的,算法可以分為業(yè)務(wù)型算法和數(shù)據(jù)開發(fā)型算法。
業(yè)務(wù)型算法是基于前臺業(yè)務(wù)產(chǎn)生的一系列操作數(shù)據(jù)需求定制并由中臺統(tǒng)一管理的算法。在中臺框架下,業(yè)務(wù)數(shù)據(jù)需求會先搜索中臺的數(shù)據(jù)服務(wù)體系中是否存在可復(fù)用的接口,如果直接調(diào)用,可免去二次開發(fā)的過程;如果不能直接調(diào)用,中臺將開發(fā)任務(wù)派發(fā)給后臺,讓其按照中臺的規(guī)定進行開發(fā),后臺接口開發(fā)完成后由中臺統(tǒng)一管理。
數(shù)據(jù)開發(fā)型算法應(yīng)由數(shù)據(jù)中臺內(nèi)部開發(fā)。數(shù)據(jù)開發(fā)型算法是基于數(shù)據(jù)中臺管理全局數(shù)據(jù)的能力進行的對決策洞見、業(yè)務(wù)優(yōu)化的探索。數(shù)據(jù)開發(fā)型算法會從全局數(shù)據(jù)中挖掘新知識,或者通過機器學(xué)習(xí)優(yōu)化業(yè)務(wù)功能,以此達到數(shù)據(jù)驅(qū)動決策,數(shù)據(jù)賦能業(yè)務(wù)的資產(chǎn)價值。
數(shù)據(jù)中臺進行全局大數(shù)據(jù)開發(fā),首先要建立一個機器學(xué)習(xí)平臺。機器學(xué)習(xí)平臺建設(shè)基于數(shù)據(jù)中臺的發(fā)展理念,要求對數(shù)據(jù)處理、特征工程、特征重要性分析、常見算法模型和一致性校驗等核心功能進行組件化封裝,同時要求開發(fā)按照統(tǒng)一的代碼規(guī)范、協(xié)作機制、模型管理、上線流程進行,以便共享和復(fù)用,此外平臺應(yīng)該根據(jù)實際的算法技術(shù)特點和業(yè)務(wù)需求變化進行算法的升級。目前機器學(xué)習(xí)平臺在市面上有不少產(chǎn)品,比如Google TFX、Facebook的FBLearner、阿里巴巴的PAI平臺等[32]。
數(shù)據(jù)服務(wù)是數(shù)據(jù)中臺的最后一個環(huán)節(jié),也是數(shù)據(jù)資產(chǎn)發(fā)揮其價值的時刻。對全局數(shù)據(jù)進行能力抽象和統(tǒng)一管理是為了將數(shù)據(jù)價值和數(shù)據(jù)能力共享給各部門,各部門通過復(fù)用中臺提供的數(shù)據(jù)服務(wù)給業(yè)務(wù)賦能。數(shù)據(jù)中臺管理數(shù)據(jù)服務(wù)有以下4點要求:
● 數(shù)據(jù)服務(wù)的形式是應(yīng)用程序接口(application programming interface,API)且API要交由數(shù)據(jù)中臺統(tǒng)一管理;
● API要避免重復(fù)建設(shè);
● 保障數(shù)據(jù)獲取及時、高效和穩(wěn)定;
● 數(shù)據(jù)中臺管理的API具有可擴展性。
數(shù)據(jù)服務(wù)可分為通用型服務(wù)和專用型服務(wù)。通用型服務(wù)是指能夠被廣泛復(fù)用的數(shù)據(jù)服務(wù),一般指對數(shù)據(jù)中臺管理的數(shù)據(jù)集的增刪改查以及利用人工智能和數(shù)據(jù)挖掘技術(shù)開發(fā)的分析工具。專用型服務(wù)應(yīng)對的是無法全部通過復(fù)用通用型服務(wù)解決的業(yè)務(wù)場景,基于特定場景的特征開發(fā)出的數(shù)據(jù)服務(wù)。專用型服務(wù)中具有共性的部分也可被分離出來作為通用型服務(wù)。
數(shù)據(jù)中臺構(gòu)建在云上,與互聯(lián)網(wǎng)天然連接,必須要做好對互聯(lián)網(wǎng)的安全防范工作。全局的安全保障體系需要圍繞 ISO 七層模型建立,對各個層級進行安全把控,保障系統(tǒng)正常使用[33]。除了建設(shè)一般性的外部網(wǎng)絡(luò)安全保障,在內(nèi)部也需要依其自身特點構(gòu)建相應(yīng)的安全管理措施。此外,數(shù)據(jù)中臺打通分散數(shù)據(jù)源的過程會帶來不可預(yù)知的數(shù)據(jù)泄露風(fēng)險。而且數(shù)據(jù)中臺匯聚的數(shù)據(jù)是全局性的,一旦遭到威脅必將帶來巨大的損失。
針對數(shù)據(jù)安全威脅,機構(gòu)應(yīng)當(dāng)從數(shù)據(jù)安全和隱私保護兩方面使用對應(yīng)的安全管理技術(shù)手段。
(1)數(shù)據(jù)安全
● 數(shù)據(jù)容災(zāi)備份:為避免因為災(zāi)害、停電、誤刪等意外性事件造成資產(chǎn)流失,數(shù)據(jù)需要備份。
● 數(shù)據(jù)權(quán)限:控制數(shù)據(jù)能夠被哪些用戶做哪些操作。一般在數(shù)據(jù)建模階段就要明確,同時要保證權(quán)限的動態(tài)調(diào)整。
● 非法操作警報和審計:要有詳細的日志記錄,用于實時審計或者事后審計,對敏感數(shù)據(jù)要建立實時的報警機制以防事態(tài)蔓延。
(2)隱私保護
● 身份認證:證明用戶身份,保證數(shù)據(jù)權(quán)限的實施。
● 數(shù)據(jù)脫敏:個人私密信息,如密碼、身份證號、手機號、郵箱、地址等,應(yīng)該采取加密存儲、模糊化存儲的方式。
家譜歷史悠久,蘊含豐富的歷史、經(jīng)濟和文化等信息,具有極高的社會和經(jīng)濟價值。與此同時,家譜數(shù)據(jù)是具有海量、多源、異構(gòu)、自治等大數(shù)據(jù)特征[34]的碎片化數(shù)據(jù),通過信息化手段進行家譜數(shù)據(jù)系統(tǒng)建設(shè)和家譜知識挖掘、推理等面臨許多難題。難題主要包括數(shù)據(jù)數(shù)字化、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)服務(wù)化3個方面。數(shù)據(jù)數(shù)字化是指將傳統(tǒng)文本類型多樣的家譜電子化并匯聚起來需要極大的成本;數(shù)據(jù)標(biāo)準(zhǔn)化是指多源家譜數(shù)據(jù)的不一致性使得數(shù)據(jù)融合、治理困難;數(shù)據(jù)服務(wù)化是指家譜修撰面向龐大且需求復(fù)雜的用戶,家譜修撰功能不能單一,需要做到個性化、定制化。為提高家譜大數(shù)據(jù)的挖掘和分析利用,從2016年開始, 筆者團隊建設(shè)了一個面向所有華人姓氏的家譜系統(tǒng)——華譜系統(tǒng)。到目前為止,華譜系統(tǒng)已有超過1 867萬條人物數(shù)據(jù)和721個姓氏。華譜系統(tǒng)主頁如圖4所示。
圖4 華譜系統(tǒng)主頁
華譜系統(tǒng)為解決上述數(shù)據(jù)數(shù)字化、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)服務(wù)化問題,采用一套人類智能(HI)、人工智能(AI)和組織智能(OI)三者的交互和協(xié)同的HAO智能體系[35],在數(shù)據(jù)中臺的參考框架上進一步細化,結(jié)合家譜修建的具體場景打造了Huapu-CP框架進行數(shù)據(jù)中臺建設(shè)。以下將圍繞Huapu-CP介紹現(xiàn)階段華譜數(shù)據(jù)中臺應(yīng)對的問題和解決方法。Huapu-CP框架[13]如圖5所示。
圖5 Huapu-CP框架[13]
在物理管理層,華譜數(shù)據(jù)中臺選用圖數(shù)據(jù)庫集群的方式將數(shù)據(jù)分布存儲在云端,實現(xiàn)高性能、彈性擴展和容災(zāi)的數(shù)據(jù)存儲。在對比MapReduce與Spark用于大數(shù)據(jù)分析的優(yōu)缺點[36]后,華譜數(shù)據(jù)中臺選用Spark計算架構(gòu),提高了系統(tǒng)的運行效率。在分布式查詢方面,華譜數(shù)據(jù)中臺通過圖劃分算法,將子圖分布到不同機器上進行并行查詢[37],分布式查詢框架如圖6所示。華譜數(shù)據(jù)中臺的數(shù)據(jù)采集主要通過線下數(shù)據(jù)采集、互聯(lián)網(wǎng)數(shù)據(jù)采集、線上行為采集和內(nèi)部數(shù)據(jù)匯聚4種方式。其中互聯(lián)網(wǎng)數(shù)據(jù)采集借助WebCollector[38]工具。
圖6 分布式查詢框架
邏輯管理層是數(shù)據(jù)中臺建設(shè)的核心,是數(shù)據(jù)資產(chǎn)化的主戰(zhàn)場。其中邏輯管理包括數(shù)據(jù)表示和數(shù)據(jù)治理兩層。在數(shù)據(jù)表示層,華譜數(shù)據(jù)中臺基于HAO智能構(gòu)建親屬關(guān)系模型,并采用本體粒度劃分技術(shù),分別以“家譜”“人物”“用戶”為單元構(gòu)建知識圖譜。數(shù)據(jù)治理層分成了4個模塊——數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換和數(shù)據(jù)集成,4個模塊依次進行。
華譜系統(tǒng)采用領(lǐng)域?qū)<铱偨Y(jié)的一套計算機可理解的規(guī)則庫的啟發(fā)式字典方法和數(shù)據(jù)字典完成數(shù)據(jù)規(guī)范。數(shù)據(jù)清洗模塊面對原始數(shù)據(jù)丟失、采集或錄入信息有誤的問題,通過錯誤關(guān)系模式挖掘[39]和屬性自動填充機制解決。屬性自動填充機制是將人類智能定義的屬性自動填充規(guī)則轉(zhuǎn)化為可執(zhí)行程序的方法。錯誤關(guān)系模式挖掘是基于人類智能歸納總結(jié)定義的親屬關(guān)系圖中的錯誤模式圖,通過子圖匹配算法定位噪聲,然后將檢測的噪聲數(shù)據(jù)反饋給用戶修正以實現(xiàn)數(shù)據(jù)清洗。數(shù)據(jù)交換模塊采用協(xié)議式交換的方法,制訂了一套通用的必須遵守的交互協(xié)議,打通了數(shù)據(jù)壁壘。團隊利用實體對齊、沖突消解和數(shù)據(jù)融合等技術(shù)開發(fā)了碎片化家譜融合框架——FDFHAO(結(jié)合 HAO 智能模型的碎片化數(shù)據(jù)融合框架)[40],對家譜數(shù)據(jù)進行集成,實現(xiàn)碎片化家譜知識的融合。FDF-HAO框架深度融合了人類智能(HI)和組織智能(OI)中的專家知識和數(shù)據(jù)標(biāo)準(zhǔn),給出了一套新的面向家譜數(shù)據(jù)的數(shù)據(jù)抽取方法、無監(jiān)督實體對齊算法、沖突解決機制和屬性融合算法。筆者通過實驗證明了在家譜數(shù)據(jù)上的有效性和高性能。FDF-HAO框架如圖7所示。
圖7 FDF-HAO框架[40]
從海量異構(gòu)的家譜數(shù)據(jù)中獲取潛在知識是使數(shù)據(jù)資產(chǎn)價值最大化的關(guān)鍵,因此構(gòu)建知識圖譜是數(shù)據(jù)中臺數(shù)據(jù)智能化的關(guān)鍵環(huán)節(jié),是華譜數(shù)據(jù)中臺數(shù)據(jù)資產(chǎn)管理的中心。但是由于知識圖譜模型在譜系學(xué)領(lǐng)域還處于起步階段,一般的家譜知識模型不適用于中國家譜的知識圖譜構(gòu)建,因此筆者團隊基于中國家譜的特點構(gòu)建了中國家譜知識圖譜模型[41],并將其應(yīng)用在華譜知識圖譜(Huapu-KG)的構(gòu)建中。
Huapu-KG采用本體粒度劃分技術(shù),劃分了“家譜”“人物”“用戶”3種家譜知識元素。在知識元素內(nèi)部,本文對該粒度下本體屬性的描述進行了靜態(tài)屬性和動態(tài)屬性的區(qū)分,保證了本體信息的可變性。在家譜知識元素的基礎(chǔ)上,通過組合家譜知識元素數(shù)據(jù)中臺可得到能夠表達復(fù)雜語義、提高知識描述能力的家譜知識單元,如“超點”“跨姓家譜”“群組”。
此外,由于中國家譜中存在大量專有名詞和生僻詞匯,筆者在領(lǐng)域?qū)<业膸椭?,利用HAO智能和“簡化復(fù)雜性”策略開發(fā)了親屬名詞庫。名詞庫解釋了晦澀難懂的單詞,提高了家譜知識的可讀性。Huapu-KG示例[41]如圖8所示。
圖8 Huapu-KG示例[41]
華譜數(shù)據(jù)中臺的建設(shè)是以數(shù)據(jù)應(yīng)用為驅(qū)動的,通過開發(fā)數(shù)據(jù)服務(wù),實現(xiàn)敏捷的應(yīng)用開發(fā),最終將數(shù)據(jù)使用起來,發(fā)揮數(shù)據(jù)資產(chǎn)的價值。目前華譜數(shù)據(jù)中臺已經(jīng)開發(fā)出家譜人物查詢、家譜樹展示、家譜自動分卷、譜系圖打印和家譜打印等服務(wù)。
家譜人物查詢服務(wù)提供了統(tǒng)一的人物查詢?nèi)肟冢鐖D9所示,方便家譜人物的快速查找和后續(xù)操作。家譜樹展示功能憑借華譜知識圖譜,以樹狀圖的形式向用戶展示整個家譜結(jié)構(gòu),如圖10所示,家族脈絡(luò)清晰。家譜自動分卷服務(wù)適用于家譜立世人物較多的情況,系統(tǒng)會提供自動分卷功能,智能分配每卷人數(shù)。譜系圖打印和家譜打印等服務(wù)可以離線文件的形式輸出譜系圖便于修譜中的校對工作,如圖11所示,也能夠直接輸出可打印的家譜文件。
圖9 家譜人物查詢
圖10 家譜樹展示示例
圖11 譜系圖打印
在華譜數(shù)據(jù)中臺的建設(shè)過程中,主要出現(xiàn)了3個層面的信息安全問題。
● 數(shù)據(jù)治理層:收集的數(shù)據(jù)存在不一致的問題,同一實體對應(yīng)多個實體數(shù)據(jù),在數(shù)據(jù)清洗階段無法辨別不一致的數(shù)據(jù)是否應(yīng)該舍棄,如果將不一致的數(shù)據(jù)舍棄,可能會產(chǎn)生重要信息的丟失,降低數(shù)據(jù)的質(zhì)量。
● 用戶權(quán)限管理:系統(tǒng)內(nèi)不同角色的權(quán)限不同,用戶也可能擁有多個角色,同時用戶對應(yīng)的角色也可能變化,角色對應(yīng)的權(quán)限也會動態(tài)變化。在這樣復(fù)雜的權(quán)限變動中僅根據(jù)角色難以判斷用戶權(quán)限,需要進一步進行數(shù)據(jù)層面的權(quán)限判斷。因此,如何管理好靈活變動的用戶權(quán)限是一個重要的問題。
● 應(yīng)用權(quán)限管理:華譜系統(tǒng)的應(yīng)用都通過數(shù)據(jù)中臺獲取數(shù)據(jù),但是不同系統(tǒng)能夠獲取的數(shù)據(jù)是不同的。限制數(shù)據(jù)中臺對應(yīng)用的數(shù)據(jù)獲取權(quán)限保證數(shù)據(jù)安全,同時保證數(shù)據(jù)中臺能夠發(fā)揮最大限度的數(shù)據(jù)共享能力非常關(guān)鍵。
針對不一致數(shù)據(jù)的存儲問題,華譜數(shù)據(jù)中臺采用了基于超點的多源數(shù)據(jù)存儲方案,如圖12所示。超點是在保留原數(shù)據(jù)的情況下,將所有相同實體融合成一個新的節(jié)點。超點保留了各數(shù)據(jù)源的初始數(shù)據(jù),做到全面保留信息以便對信息進行查缺補漏;通過人類智能校驗,審查多條不一致數(shù)據(jù)是不是同一實體,保證了超點內(nèi)信息的真實可靠,而且超點提供了信息溯源的依據(jù),可以根據(jù)用戶的需要和權(quán)限提供對應(yīng)實體最相關(guān)的信息。
圖12 基于超點的多源數(shù)據(jù)存儲方案
針對用戶權(quán)限的多重角色沖突問題和應(yīng)用權(quán)限過高造成數(shù)據(jù)泄露的問題,筆者采用基于圖數(shù)據(jù)庫“粗細粒度結(jié)合”的權(quán)限管理方法和基于HAO模型權(quán)限管理的閉環(huán)架構(gòu),構(gòu)建了統(tǒng)一的權(quán)限控制中心管理用戶和應(yīng)用權(quán)限[13]?;趫D數(shù)據(jù)庫的“粗細粒度結(jié)合”的權(quán)限管理方法用粗粒度表示用戶所擁有的角色,通過查詢用戶角色表和角色權(quán)限表實現(xiàn),如果有權(quán)限則直接返回;否則,執(zhí)行細粒度的權(quán)限查詢。細粒度表示的是數(shù)據(jù)層面的權(quán)限管理,即某個具體的數(shù)據(jù)被設(shè)置的權(quán)限,權(quán)限控制通過查詢圖數(shù)據(jù)庫中該數(shù)據(jù)被設(shè)定的權(quán)限邊完成?!按旨毩6冉Y(jié)合”的權(quán)限管理方法通過粗細粒度相結(jié)合的查詢方法,既保證了訪問控制管理的靈活性,又保證了用戶權(quán)限的完備性,能夠有效地解決同一用戶多重角色沖突的問題。而且在細粒度查詢中,圖數(shù)據(jù)庫用邊的形式存儲用戶是否具有人物的修改權(quán)限,因此對細粒度數(shù)據(jù)查詢的時間復(fù)雜度只有O(1),具有良好的查詢效率?!按旨毩6冉Y(jié)合”的用戶權(quán)限管理方法[13]如圖13所示。
圖13 “粗細粒度結(jié)合”的用戶權(quán)限管理方法[13]
基于HAO模型的權(quán)限管理閉環(huán)架構(gòu)如圖14所示,利用HI、AI、OI的協(xié)同作用,準(zhǔn)確、靈活、可靠地分配多粒度下的權(quán)限。系統(tǒng)設(shè)計與維護人員發(fā)揮專家知識和組織通用標(biāo)準(zhǔn)決定角色定義、用戶組劃分等權(quán)限內(nèi)容;AI基于日志進行用戶分析,通過用戶行為追蹤、操作日志分析、用戶畫像等工作分析現(xiàn)有權(quán)限管理的不足之處,同時發(fā)掘操作行為較好的優(yōu)質(zhì)用戶,數(shù)據(jù)分析結(jié)果交由系統(tǒng)設(shè)計維護人員重新定義權(quán)限;最后,系統(tǒng)管理員根據(jù)權(quán)限管理規(guī)定動態(tài)分配權(quán)限。
圖14 基于HAO模型的權(quán)限管理閉環(huán)架構(gòu)[13]
華譜系統(tǒng)中的應(yīng)用或服務(wù)都通過數(shù)據(jù)中臺的統(tǒng)一數(shù)據(jù)接口獲取數(shù)據(jù),用戶通過請求應(yīng)用或服務(wù)獲取數(shù)據(jù),為了實現(xiàn)對用戶權(quán)限、應(yīng)用權(quán)限的統(tǒng)一管控,分別設(shè)置了用戶權(quán)限控制中心和應(yīng)用權(quán)限控制中心,如圖15所示,用戶對應(yīng)用/服務(wù)的請求會經(jīng)過用戶權(quán)限控制中心的驗證,用戶有權(quán)請求該服務(wù),那么用戶權(quán)限控制中心將調(diào)用請求應(yīng)用/服務(wù),如果驗證不通過,用戶請求將會被駁回。通過驗證的用戶請求調(diào)用的應(yīng)用/服務(wù)將請求數(shù)據(jù)中臺的數(shù)據(jù)接口,應(yīng)用權(quán)限控制中心首先驗證應(yīng)用是否有使用該數(shù)據(jù)接口的權(quán)限,通過驗證再由應(yīng)用權(quán)限控制中心調(diào)用請求的數(shù)據(jù)接口,查詢數(shù)據(jù)直接返回給應(yīng)用。
圖15 權(quán)限控制中心[13]
通過華譜數(shù)據(jù)中臺的建設(shè),筆者成功實踐了基于HAO的家譜數(shù)據(jù)中臺建設(shè)框架Huapu-CP。但在實踐之中筆者也發(fā)現(xiàn)數(shù)據(jù)中臺研究和開發(fā)還面臨著以下挑戰(zhàn)。
挑戰(zhàn)1:廣泛共享的理念和數(shù)據(jù)安全之間的矛盾。
廣泛的數(shù)據(jù)共享是數(shù)據(jù)中臺建設(shè)的初衷和目標(biāo)之一。但要實現(xiàn)廣泛的數(shù)據(jù)共享就需要提高分散數(shù)據(jù)源的數(shù)據(jù)開放程度,操作不慎可能會威脅到數(shù)據(jù)和隱私安全,得不償失;如果過度重視數(shù)據(jù)和隱私安全導(dǎo)致“數(shù)據(jù)孤島”則使數(shù)據(jù)中臺的建設(shè)失去了意義。如何從實際業(yè)務(wù)環(huán)境中把握總臺數(shù)據(jù)開放性的尺度是未來研究的重點和難點。
挑戰(zhàn)2:難以將數(shù)據(jù)中臺建設(shè)方案統(tǒng)一化。
雖然本文提出的中臺框架的五大部分是絕大多數(shù)數(shù)據(jù)中臺建設(shè)中要進行的,但卻不能直接把這五大部分當(dāng)成統(tǒng)一建設(shè)框架,原因有3個。其一,機構(gòu)內(nèi)原本的信息化建設(shè)程度不一,為了保持原系統(tǒng)的功能可持續(xù)同時接入統(tǒng)一的中臺系統(tǒng)是難題;其二,機構(gòu)內(nèi)要整合的數(shù)據(jù)多源、異構(gòu),建設(shè)者必須要根據(jù)具體情況靈活使用技術(shù)、方法;其三,中臺建設(shè)方使用中臺的目的、業(yè)務(wù)場景多樣,這就意味著必須根據(jù)實際業(yè)務(wù)需求調(diào)整中臺的建設(shè)方向。
挑戰(zhàn)3:數(shù)據(jù)中臺建設(shè)的動態(tài)性、長期性。
數(shù)據(jù)中臺的建設(shè)不是一朝一夕完成的。在大數(shù)據(jù)時代,業(yè)務(wù)需求會隨著市場發(fā)生快速變化,建設(shè)者需要根據(jù)數(shù)據(jù)做出精細化管理,而組織數(shù)據(jù)、訓(xùn)練數(shù)據(jù)模型必須在實踐中積累能力,中臺沉淀這些能力為未來的業(yè)務(wù)和決策提供快速、高效的服務(wù),因此數(shù)據(jù)中臺是在動態(tài)中建設(shè)的,是一個長期性的工程。
挑戰(zhàn)4:沒有經(jīng)驗豐富的技術(shù)團隊和成熟的檢驗工具、標(biāo)準(zhǔn)。
數(shù)據(jù)中臺建設(shè)團隊涉及業(yè)務(wù)、技術(shù)、管理部門之間的協(xié)作,單一的技術(shù)人才無法勝任,需要更多的復(fù)合型人才。同時數(shù)據(jù)中臺的建設(shè)缺少成熟的檢驗工具、標(biāo)準(zhǔn),數(shù)據(jù)中臺建設(shè)的優(yōu)劣短期內(nèi)可能仍舊停留在數(shù)據(jù)服務(wù)的效果這個單一評價指標(biāo)上。
目前來看,數(shù)據(jù)中臺依然有不錯的前景,主要包括以下幾個方面。
前景一:數(shù)據(jù)中臺助力機構(gòu)數(shù)字化轉(zhuǎn)型將成為趨勢。
對于海量數(shù)據(jù)的存儲、管理和價值實現(xiàn)問題,數(shù)據(jù)中臺展現(xiàn)了其可行性和有效性。這將促進越來越多的數(shù)字化轉(zhuǎn)型機構(gòu)選擇建設(shè)數(shù)據(jù)中臺。
前景二:數(shù)據(jù)中臺產(chǎn)品逐漸具備標(biāo)準(zhǔn)化潛力。
隨著近年來選擇建設(shè)數(shù)據(jù)中臺的領(lǐng)域越來越多,其中包括互聯(lián)網(wǎng)、零售、物聯(lián)網(wǎng)、政府部門、城市建設(shè)等,數(shù)據(jù)中臺建設(shè)的總體經(jīng)驗越來越多,相信未來關(guān)于數(shù)據(jù)中臺建設(shè)的理論一定會取得長足的進步。
前景三:促進機構(gòu)內(nèi)團隊協(xié)作能力。
數(shù)據(jù)中臺打破“數(shù)據(jù)孤島”現(xiàn)象,通過數(shù)據(jù)將業(yè)務(wù)、技術(shù)、組織等相關(guān)人員聯(lián)系在一起,加強了跨部門之間的交流,提高了團隊協(xié)作能力,由技術(shù)上的數(shù)字化轉(zhuǎn)型推動了組織結(jié)構(gòu)上的平臺化轉(zhuǎn)型。
前景四:促進大數(shù)據(jù)、云計算及人工智能技術(shù)發(fā)展。
數(shù)據(jù)中臺推動了海量數(shù)據(jù)在機構(gòu)內(nèi)的集成,為人工智能技術(shù)提供了數(shù)據(jù)資源。龐大的數(shù)據(jù)將會推動大數(shù)據(jù)治理技術(shù)的升級,海量的運算需求也會增加云計算的需要。
前景五:知識圖譜技術(shù)對新一代數(shù)據(jù)中臺技術(shù)的推動作用。
傳統(tǒng)的二維表在知識表達上有很多局限性,而知識圖譜則能更好地描述實體與關(guān)系,復(fù)雜的圖結(jié)構(gòu)更有利于探索數(shù)據(jù)之間的關(guān)聯(lián),獲取知識。新一代數(shù)據(jù)中臺技術(shù)不僅要融合數(shù)據(jù),還要存取知識、使用知識,因此知識圖譜技術(shù)將對新一代數(shù)據(jù)中臺的建設(shè)起到推動作用。
數(shù)據(jù)中臺是數(shù)字化轉(zhuǎn)型中的一個技術(shù)熱點,目前數(shù)據(jù)中臺面臨理論不完善、概念不統(tǒng)一、建設(shè)方案差異大的問題。本文總結(jié)了數(shù)據(jù)中臺的相關(guān)研究背景,敘述了數(shù)據(jù)中臺的概念,接著分析了數(shù)據(jù)中臺的架構(gòu)方案差異和建設(shè)目標(biāo),給出了數(shù)據(jù)中臺的建設(shè)框架,對建設(shè)框架中的物理管理、邏輯管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)服務(wù)、信息安全管理做出介紹。然后以華譜系統(tǒng)的建設(shè)為例證明了基于 HAO 智能的家譜數(shù)據(jù)中臺框架Huapu-CP的實際可行性。最后介紹了當(dāng)前數(shù)據(jù)中臺建設(shè)的挑戰(zhàn)和前景。