貢桑德慶 安淵
引言
數(shù)據(jù)血緣是指在數(shù)據(jù)的全生命周期中,因數(shù)據(jù)的加工、融合、流轉(zhuǎn)等產(chǎn)生的數(shù)據(jù)與數(shù)據(jù)之間的多種關(guān)系。通俗地講,數(shù)據(jù)A經(jīng)過處理產(chǎn)生了數(shù)據(jù)B,我們則稱數(shù)據(jù)A和數(shù)據(jù)B具有血緣關(guān)系。不管是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),都存在數(shù)據(jù)血緣關(guān)系。數(shù)據(jù)血緣還具有歸屬性、多源性、可溯性和層次性等特性。
數(shù)據(jù)血緣應(yīng)用
目前,數(shù)據(jù)血緣分析技術(shù)在數(shù)據(jù)治理和數(shù)據(jù)倉庫領(lǐng)域的應(yīng)用已經(jīng)比較廣泛,基于數(shù)據(jù)血緣的四大特征,其主要應(yīng)用有以下幾個(gè)方面:
數(shù)據(jù)溯源
依托于數(shù)據(jù)血緣關(guān)系可溯性的特點(diǎn),根據(jù)血緣中的數(shù)據(jù)鏈路關(guān)系,可實(shí)現(xiàn)指定數(shù)據(jù)的來源和去向追溯,幫助用戶理解數(shù)據(jù)含義,在全流程上定位數(shù)據(jù)問題,進(jìn)行數(shù)據(jù)關(guān)聯(lián)影響分析等,解決多層復(fù)雜邏輯處理后數(shù)據(jù)難以理解、難以應(yīng)用和錯(cuò)誤難以定位的問題。
數(shù)據(jù)價(jià)值評估
數(shù)據(jù)價(jià)值是數(shù)據(jù)管理的核心標(biāo)準(zhǔn),不管是數(shù)據(jù)交易中的數(shù)據(jù)定價(jià)還是數(shù)據(jù)安全中的保護(hù)等級,數(shù)據(jù)價(jià)值都是一個(gè)重要的參考因素。因此,如何準(zhǔn)確地評估數(shù)據(jù)價(jià)值成為企業(yè)面臨的一大難題。傳統(tǒng)的數(shù)據(jù)價(jià)值評估,往往完全依靠相關(guān)法規(guī)要求和業(yè)務(wù)經(jīng)驗(yàn),缺少在具體應(yīng)用場景中的評估依據(jù),數(shù)據(jù)價(jià)值評估脫離了數(shù)據(jù)的應(yīng)用場景和真實(shí)的業(yè)務(wù)價(jià)值。而數(shù)據(jù)血緣則提供了一種基于數(shù)據(jù)實(shí)際應(yīng)用的價(jià)值評估方法,使用者越多、使用量級越大、更新越頻繁的數(shù)據(jù)具有更高價(jià)值。
數(shù)據(jù)質(zhì)量評估
數(shù)據(jù)血緣清晰地記錄了數(shù)據(jù)來源以及數(shù)據(jù)流轉(zhuǎn)過程中的處理方式和處理規(guī)則,能實(shí)現(xiàn)對各個(gè)數(shù)據(jù)節(jié)點(diǎn)的分析和數(shù)據(jù)質(zhì)量評估。
數(shù)據(jù)歸檔參考
數(shù)據(jù)血緣中記錄了數(shù)據(jù)的去向,可清晰地掌握數(shù)據(jù)被消費(fèi)的情況,一旦數(shù)據(jù)沒有消費(fèi)者,也就意味著數(shù)據(jù)已失去價(jià)值。此時(shí),可以對這些數(shù)據(jù)進(jìn)行進(jìn)一步評估,考慮進(jìn)行歸檔或銷毀處理。
在數(shù)據(jù)安全治理中,數(shù)據(jù)血緣的應(yīng)用場景主要是數(shù)據(jù)溯源和數(shù)據(jù)價(jià)值評估。數(shù)據(jù)溯源可以幫助數(shù)據(jù)管理者理清數(shù)據(jù)脈絡(luò),形成數(shù)據(jù)圖譜,協(xié)助構(gòu)建數(shù)據(jù)安全管理體系,或追蹤數(shù)據(jù)泄露節(jié)點(diǎn)、數(shù)據(jù)風(fēng)險(xiǎn)節(jié)點(diǎn)等。數(shù)據(jù)價(jià)值評估可以輔助數(shù)據(jù)分類分級體系建設(shè),指導(dǎo)數(shù)據(jù)的分級管控和分級保護(hù)。
數(shù)據(jù)血緣分析
盡管數(shù)據(jù)血緣分析還未在數(shù)據(jù)安全治理中廣泛應(yīng)用,但考慮數(shù)據(jù)血緣的特性和應(yīng)用場景,其在未來必將發(fā)揮重要作用。數(shù)據(jù)血緣分析作為數(shù)據(jù)血緣的應(yīng)用方式,是一個(gè)貫穿數(shù)據(jù)生命周期的過程,涉及流程、技術(shù)、產(chǎn)品等多維度內(nèi)容。數(shù)據(jù)血緣分析可分為三大模塊:數(shù)據(jù)血緣建設(shè)、數(shù)據(jù)血緣分析、數(shù)據(jù)血緣可視化。
數(shù)據(jù)血緣建設(shè)
數(shù)據(jù)血緣建設(shè)并不是建設(shè)數(shù)據(jù)血緣關(guān)系,因?yàn)閿?shù)據(jù)血緣關(guān)系是數(shù)據(jù)流轉(zhuǎn)過程中自動(dòng)產(chǎn)生的。數(shù)據(jù)血緣建設(shè)的目標(biāo)是當(dāng)數(shù)據(jù)被生產(chǎn)時(shí),數(shù)據(jù)生產(chǎn)過程能被及時(shí)、準(zhǔn)確地記錄和存儲(chǔ)下來。因此,數(shù)據(jù)血緣建設(shè)并不是一個(gè)指定的動(dòng)作,而是一種管理流程和數(shù)據(jù)意識,需要延伸到數(shù)據(jù)產(chǎn)生之前,從數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)開始。
數(shù)據(jù)血緣建設(shè)是數(shù)據(jù)血緣分析的前提條件,準(zhǔn)確、完整、及時(shí)記錄信息才能帶來有效的血緣分析效果,由于部分?jǐn)?shù)據(jù)源本身的數(shù)據(jù)血緣建設(shè)準(zhǔn)備較差,在某些業(yè)務(wù)場景中需要人工介入進(jìn)行梳理。
數(shù)據(jù)血緣分析
數(shù)據(jù)血緣分析針對數(shù)據(jù)流轉(zhuǎn)過程中產(chǎn)生并記錄的各種信息進(jìn)行采集、處理和分析,對數(shù)據(jù)之間的血緣關(guān)系進(jìn)行系統(tǒng)性梳理、關(guān)聯(lián),并將梳理完成后的信息進(jìn)行存儲(chǔ)。由于企業(yè)數(shù)據(jù)龐雜等問題,數(shù)據(jù)血緣分析通常需要借助工具或系統(tǒng)展開,實(shí)現(xiàn)血緣信息數(shù)據(jù)的自動(dòng)采集分析。
數(shù)據(jù)血緣分析通常按數(shù)據(jù)血緣的層級進(jìn)行,層級基于業(yè)務(wù)需求和某些數(shù)據(jù)特性可能有差別,常見的分析層級為應(yīng)用級、數(shù)據(jù)級和字段級。數(shù)據(jù)血緣分析的目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)來源的精確追溯、流轉(zhuǎn)過程的準(zhǔn)確還原、數(shù)據(jù)去向的精準(zhǔn)定位。數(shù)據(jù)血緣分析需要考慮以下幾個(gè)方面:
(1)全面性。數(shù)據(jù)處理過程實(shí)際上是程序?qū)?shù)據(jù)進(jìn)行傳遞、運(yùn)算演繹和歸檔的過程。為確保數(shù)據(jù)血緣的完整性,必須將整個(gè)系統(tǒng)作為數(shù)據(jù)血緣的分析對象,才能夠真正做到溯源。
(2)及時(shí)性。數(shù)據(jù)之間的關(guān)系是隨時(shí)變動(dòng)的,為保證數(shù)據(jù)血緣的準(zhǔn)確性和可用性,數(shù)據(jù)血緣分析必須與數(shù)據(jù)保持同步更新,確保數(shù)據(jù)血緣的分析結(jié)果面向最新的數(shù)據(jù)和數(shù)據(jù)關(guān)系。
(3)適用性。數(shù)據(jù)血緣分析技術(shù)和實(shí)現(xiàn)方式有多種,分析的廣度、深度和維度也有不同,因此,數(shù)據(jù)血緣分析需要在實(shí)現(xiàn)需求目標(biāo)的前提下開展。
數(shù)據(jù)血緣可視化
血緣分析完成后,需要依靠可視化技術(shù)將分析結(jié)果清晰、直觀地傳遞給用戶,幫助客戶進(jìn)行二次分析和具體應(yīng)用。數(shù)據(jù)血緣圖譜是血緣分析中最常用的可視化方案。
業(yè)務(wù)需求的差異將決定血緣分析層次和血緣層級的差異,進(jìn)而體現(xiàn)在數(shù)據(jù)血緣圖譜上。因此,數(shù)據(jù)血緣圖譜要基于數(shù)據(jù)血緣層級進(jìn)行分層展現(xiàn),直觀地從應(yīng)用層級、數(shù)據(jù)層級、字段層級呈現(xiàn)數(shù)據(jù)的血緣關(guān)系。
在具體應(yīng)用中,受到業(yè)務(wù)需求差異和可采集分析的血緣信息影響,數(shù)據(jù)血緣圖譜的呈現(xiàn)方式可能存在差異,但其整體形態(tài)基本一致。以某個(gè)數(shù)據(jù)為核心節(jié)點(diǎn),體現(xiàn)該節(jié)點(diǎn)的數(shù)據(jù)來源、數(shù)據(jù)去向、流轉(zhuǎn)路徑以及路徑中的處理方式和規(guī)則。因此,數(shù)據(jù)血緣可視化視圖中應(yīng)至少包含以下元素:
(1)數(shù)據(jù)節(jié)點(diǎn)標(biāo)記數(shù)據(jù)的具體信息,如所有者、層次信息、終端信息等,根據(jù)不同的血緣層次和業(yè)務(wù)需求,數(shù)據(jù)節(jié)點(diǎn)的信息有所差異。根據(jù)數(shù)據(jù)類型的不同,數(shù)據(jù)節(jié)點(diǎn)可分為主節(jié)點(diǎn)、數(shù)據(jù)流入節(jié)點(diǎn)和數(shù)據(jù)流出節(jié)點(diǎn)。
(2)數(shù)據(jù)血緣圖譜呈現(xiàn)數(shù)據(jù)血緣關(guān)系,而主節(jié)點(diǎn)作為數(shù)據(jù)血緣圖譜的核心,應(yīng)是可方便切換的。
(3)數(shù)據(jù)流入節(jié)點(diǎn)是主節(jié)點(diǎn)的父節(jié)點(diǎn),標(biāo)記了主節(jié)點(diǎn)的數(shù)據(jù)來源,可能有多個(gè)或多層。
(4)數(shù)據(jù)流出節(jié)點(diǎn)是主節(jié)點(diǎn)的子節(jié)點(diǎn),標(biāo)記主節(jié)點(diǎn)的數(shù)據(jù)去向,也可能有多個(gè)或多層。在數(shù)據(jù)流出節(jié)點(diǎn)中有一種特殊的終端節(jié)點(diǎn),數(shù)據(jù)到達(dá)終端節(jié)點(diǎn)后,將不再向別處流轉(zhuǎn)。
(5)流轉(zhuǎn)線路標(biāo)記數(shù)據(jù)的流轉(zhuǎn)路徑,通常從流入節(jié)點(diǎn)匯聚到主節(jié)點(diǎn),再從主節(jié)點(diǎn)擴(kuò)散到流出節(jié)點(diǎn)。在流轉(zhuǎn)線路中,不僅可標(biāo)記數(shù)據(jù)的流轉(zhuǎn)關(guān)系,還可以通過線路的粗細(xì)、長短等標(biāo)記數(shù)據(jù)量級和更新頻率。
(6)處理節(jié)點(diǎn)標(biāo)記數(shù)據(jù)流轉(zhuǎn)過程中的處理方式和規(guī)則,通常用于數(shù)據(jù)節(jié)點(diǎn)之間的流轉(zhuǎn)線路上。通過處理節(jié)點(diǎn)可以直觀地了解數(shù)據(jù)在兩個(gè)節(jié)點(diǎn)之間流轉(zhuǎn)時(shí),利用何種規(guī)則進(jìn)行了處理。
結(jié)語
隨著數(shù)據(jù)爆發(fā)式增長,數(shù)據(jù)之間的關(guān)系越發(fā)復(fù)雜,為數(shù)據(jù)安全治理工作帶來巨大挑戰(zhàn)。在這樣的背景下,具備可溯性、歸屬性等特征的數(shù)據(jù)血緣將在數(shù)據(jù)安全治理過程中發(fā)揮越來越大的作用。數(shù)據(jù)血緣應(yīng)用需要依賴豐富的可分析數(shù)據(jù)、強(qiáng)大的數(shù)據(jù)采集能力、血緣分析能力和清晰直觀的血緣圖譜,貫穿數(shù)據(jù)全生命周期。數(shù)據(jù)血緣應(yīng)用不僅要從技術(shù)層面重視,還需從數(shù)據(jù)安全治理的流程、制度、意識層面進(jìn)行配合,才能產(chǎn)生預(yù)期的效果。
參考文獻(xiàn):
[1]劉勇.一種計(jì)算機(jī)網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)識別方法[J].電子設(shè)計(jì)工程,2021,29(17):99-103,108.
[2]溫婷.網(wǎng)絡(luò)與數(shù)據(jù)安全產(chǎn)業(yè)迎高光時(shí)刻[N].上海證券報(bào),2021-09-02(005).
[3]張思瑋.網(wǎng)絡(luò)安全發(fā)展迎來新拐點(diǎn)[N].中國科學(xué)報(bào),2021-09-02(003).
[4]安全信任試點(diǎn) 助力車聯(lián)網(wǎng)產(chǎn)業(yè)健康發(fā)展[N].中國電子報(bào),2021-08-31(006).
[5]劉勇.一種計(jì)算機(jī)網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)識別方法[J].電子設(shè)計(jì)工程,2021,29(17):99-103,108.
作者簡介:貢桑德慶(1989—),西藏拉薩人,現(xiàn)就職于西藏自治區(qū)黨委網(wǎng)信辦。