■ 安徽 劉揚(yáng)
關(guān)于數(shù)據(jù)沖突問(wèn)題的研究總體來(lái)看分布在三個(gè)領(lǐng)域:一是數(shù)據(jù)清洗方法;二是信息融合算法及其應(yīng)用;三是分布式存儲(chǔ)的數(shù)據(jù)一致性。
隨著跨地區(qū)跨行業(yè)的分布式數(shù)據(jù)湖逐步成為技術(shù)演進(jìn)方向,如何保證數(shù)據(jù)一致性,保障數(shù)據(jù)可信度,已經(jīng)成為數(shù)據(jù)湖建設(shè)的基礎(chǔ)工作。而數(shù)據(jù)可信度的提高目前面臨以下三方面的制約:
一是沒(méi)有數(shù)據(jù)清洗。在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)的可信度是與可用性一起由人工處理解決的。在將業(yè)務(wù)邏輯人工轉(zhuǎn)換為數(shù)據(jù)邏輯的同時(shí),確定進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的合規(guī)數(shù)據(jù)標(biāo)準(zhǔn),并在原始數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)前進(jìn)行數(shù)據(jù)清洗。盡管對(duì)于數(shù)據(jù)湖的定義尚未統(tǒng)一,但其核心理念——數(shù)據(jù)湖是一種在系統(tǒng)中以自然格式存儲(chǔ)數(shù)據(jù)的方法已被普遍接受。這也就意味著不同數(shù)據(jù)源中的原始數(shù)據(jù)將會(huì)直接進(jìn)入數(shù)據(jù)湖中,不會(huì)進(jìn)行數(shù)據(jù)清洗。
二是存在原始數(shù)據(jù)的不一致。在許多系統(tǒng)或模塊中,原始數(shù)據(jù)并非全部準(zhǔn)確,為了兼顧計(jì)算效率、性能等,往往采用信息融合的方式。而進(jìn)入數(shù)據(jù)湖的只是原始數(shù)據(jù),不包含其他相關(guān)信息如信息融合算法。同時(shí),大部分的系統(tǒng)或模塊,在存儲(chǔ)與其核心功能無(wú)關(guān)的數(shù)據(jù)時(shí),不會(huì)在數(shù)據(jù)層面嚴(yán)格規(guī)范。
三是趨向采用分布式存儲(chǔ)。由于計(jì)算和傳輸成本下降速度遠(yuǎn)快于存儲(chǔ)成本,存儲(chǔ)和計(jì)算分離已成為技術(shù)發(fā)展趨勢(shì)??绲貐^(qū)跨行業(yè)的分布式數(shù)據(jù)湖正在逐步成為技術(shù)演進(jìn)方向。
不難看出,數(shù)據(jù)沖突與數(shù)據(jù)可信度之間存在顯著的負(fù)相關(guān)性,數(shù)據(jù)沖突水平越高,數(shù)據(jù)可信度越低。因此,解決數(shù)據(jù)沖突問(wèn)題直接關(guān)系到數(shù)據(jù)可信度水平,是完成可信數(shù)據(jù)湖建設(shè)的關(guān)鍵所在。
實(shí)際上,數(shù)據(jù)沖突是數(shù)據(jù)的經(jīng)濟(jì)價(jià)值展現(xiàn)的另一種形式,解決數(shù)據(jù)沖突問(wèn)題的潛在經(jīng)濟(jì)效益也是數(shù)據(jù)湖建設(shè)內(nèi)在驅(qū)動(dòng)力的組成部分。
首先,在有些應(yīng)用場(chǎng)景中,存在數(shù)據(jù)沖突的原始數(shù)據(jù)是進(jìn)行數(shù)據(jù)探索的基礎(chǔ)。比如,在安全生產(chǎn)中,可以用于復(fù)盤安全生產(chǎn)系統(tǒng)在事故發(fā)生時(shí)是否出現(xiàn)工作異常。
其次,數(shù)據(jù)沖突有助于數(shù)據(jù)補(bǔ)齊。盡管不同數(shù)據(jù)源的原始數(shù)據(jù)之間存在數(shù)據(jù)冗余,但這種冗余并非絕對(duì)意義上的重復(fù)數(shù)據(jù),在特定的數(shù)據(jù)探索中可能成為數(shù)據(jù)補(bǔ)齊的基礎(chǔ)數(shù)據(jù),提升數(shù)據(jù)探索的潛在價(jià)值。
最后,數(shù)據(jù)沖突可以幫助查找風(fēng)險(xiǎn)隱患。在數(shù)據(jù)湖使用中,如果在經(jīng)常使用的數(shù)據(jù)探索中突然出現(xiàn)了大量數(shù)據(jù)沖突,表明數(shù)據(jù)湖或相關(guān)的數(shù)據(jù)源當(dāng)前的運(yùn)行狀態(tài)出現(xiàn)異常。
數(shù)據(jù)校驗(yàn)起源于數(shù)據(jù)傳輸,其本質(zhì)是為保證數(shù)據(jù)經(jīng)過(guò)傳輸后的數(shù)據(jù)完整性而進(jìn)行的一種驗(yàn)證操作。在數(shù)據(jù)湖建設(shè)過(guò)程中,對(duì)于降低數(shù)據(jù)沖突,數(shù)據(jù)校驗(yàn)有以下兩方面的重要作用:
圖1 基于數(shù)據(jù)沖突和數(shù)據(jù)校驗(yàn)的數(shù)據(jù)可信矩陣
一是保證數(shù)據(jù)傳輸?shù)男逝c可靠性,降低數(shù)據(jù)湖因采用分布式存儲(chǔ)而在數(shù)據(jù)傳輸過(guò)程中產(chǎn)生的數(shù)據(jù)沖突:通過(guò)采用低密度奇偶校驗(yàn)(LDPC)碼等方式,可以實(shí)現(xiàn)在低誤碼率下的高可靠性傳輸,從而減少采用分布式存儲(chǔ)時(shí)的數(shù)據(jù)傳輸開(kāi)銷,進(jìn)而起到減少數(shù)據(jù)沖突的作用。
二是檢查同一數(shù)據(jù)在不同數(shù)據(jù)源中的數(shù)據(jù)一致性,降低數(shù)據(jù)湖中因數(shù)據(jù)不完整或被篡改產(chǎn)生的數(shù)據(jù)沖突:由于數(shù)據(jù)湖中的存儲(chǔ)的是原始數(shù)據(jù),因此可以采用數(shù)字簽名等數(shù)據(jù)校驗(yàn)方法,通過(guò)計(jì)算與比對(duì)同一數(shù)據(jù)在不同數(shù)據(jù)源中的哈希值,檢驗(yàn)數(shù)據(jù)是否完整或被篡改。
概括起來(lái),數(shù)據(jù)校驗(yàn)可以減少因數(shù)據(jù)湖采用分布式存儲(chǔ)或原始數(shù)據(jù)被人為篡改等因素產(chǎn)生的數(shù)據(jù)沖突。這些因素主要影響數(shù)據(jù)在數(shù)據(jù)湖中進(jìn)行數(shù)據(jù)處理時(shí)的數(shù)據(jù)一致性,對(duì)于數(shù)據(jù)在數(shù)據(jù)源中的生成過(guò)程沒(méi)有影響。也就是說(shuō),與原始數(shù)據(jù)直接相關(guān)的數(shù)據(jù)沖突(包括不同來(lái)源的數(shù)據(jù)本身以及在數(shù)據(jù)融合時(shí)產(chǎn)生的數(shù)據(jù)沖突等)是無(wú)法通過(guò)數(shù)據(jù)校驗(yàn)解決的。
綜合重塑數(shù)據(jù)湖的通用技術(shù)路徑,結(jié)合數(shù)據(jù)沖突、數(shù)據(jù)校驗(yàn)和數(shù)據(jù)可信度之間的關(guān)系,可以從數(shù)據(jù)沖突來(lái)源和數(shù)據(jù)的非結(jié)構(gòu)化程度兩個(gè)維度對(duì)數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)一步細(xì)分,構(gòu)建基于數(shù)據(jù)沖突和數(shù)據(jù)校驗(yàn)的數(shù)據(jù)可信矩陣,如圖1所示。
對(duì)于數(shù)據(jù)湖而言,在進(jìn)行數(shù)據(jù)探索時(shí)提供幫助用戶的自助式數(shù)據(jù)可信度展現(xiàn)工具——通過(guò)細(xì)分?jǐn)?shù)據(jù)沖突檢測(cè)途徑將不同類型的數(shù)據(jù)沖突區(qū)分并完整呈現(xiàn)出來(lái),有助于用戶自行判斷選取合適的數(shù)據(jù)沖突消解方式并獲取經(jīng)濟(jì)效益。
從圖中可以直接看到,數(shù)據(jù)沖突的來(lái)源和數(shù)據(jù)的非結(jié)構(gòu)化程度不同,發(fā)現(xiàn)數(shù)據(jù)沖突的途徑是有區(qū)別的:
對(duì)于結(jié)構(gòu)化數(shù)據(jù),與原始數(shù)據(jù)相關(guān)的數(shù)據(jù)沖突,主要通過(guò)一致性檢驗(yàn)(即信度檢驗(yàn))和數(shù)據(jù)匹配等途徑發(fā)現(xiàn);與數(shù)據(jù)處理相關(guān)的數(shù)據(jù)沖突,依據(jù)數(shù)據(jù)同步功能的運(yùn)行狀態(tài)判斷。對(duì)于半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)等,與原始數(shù)據(jù)相關(guān)的數(shù)據(jù)沖突,通過(guò)文本匹配、圖數(shù)據(jù)匹配、矢量數(shù)據(jù)匹配等途徑發(fā)現(xiàn);與數(shù)據(jù)處理相關(guān)的數(shù)據(jù)沖突,通過(guò)區(qū)塊鏈等技術(shù)進(jìn)行數(shù)據(jù)校驗(yàn)結(jié)果判斷。
這里需要指出的是,數(shù)據(jù)沖突的水平高低也會(huì)對(duì)用戶所選取的數(shù)據(jù)沖突消解方式產(chǎn)生的效果產(chǎn)生影響。因此,在可信數(shù)據(jù)湖的建設(shè)中,數(shù)據(jù)沖突的展現(xiàn)應(yīng)當(dāng)集成于數(shù)據(jù)湖的沖突檢測(cè)功能中,并采用可視化技術(shù),便于用戶準(zhǔn)確判斷。同時(shí),需要為用戶配置完備的數(shù)據(jù)沖突消解工具,不同來(lái)源的數(shù)據(jù)共同使用時(shí)的信任問(wèn)題統(tǒng)一由用戶在使用沖突檢測(cè)功能時(shí)依據(jù)檢測(cè)結(jié)果自助解決。
在可信數(shù)據(jù)湖建設(shè)過(guò)程中,沖突檢測(cè)功能不僅可以服務(wù)于數(shù)據(jù)可信度,解決數(shù)據(jù)沖突展現(xiàn)等問(wèn)題,還可為數(shù)據(jù)重構(gòu)等功能的使用提供輔助。此外,可信數(shù)據(jù)湖還可以通過(guò)沖突檢測(cè)功能進(jìn)一步演化出模擬數(shù)據(jù)源所在系統(tǒng)功能的能力,方便用戶通過(guò)真實(shí)數(shù)據(jù)探索其改進(jìn)空間或可能,幫助用戶擺脫單一數(shù)據(jù)來(lái)源下的思維束縛。