孫文凱 張孝臨 姜山紅 張 軍 孫祎楠
1.遼寧科技大學(xué)計(jì)算機(jī)與軟件工程學(xué)院 遼寧 鞍山 114000
2.鞍鋼集團(tuán)礦業(yè)有限公司 遼寧 鞍山 114000
作為數(shù)字經(jīng)濟(jì)的核心生產(chǎn)要素,數(shù)據(jù)正成為經(jīng)濟(jì)轉(zhuǎn)型和發(fā)展的新引擎,以及社會(huì)治理的有效工具。隨著5G、寬帶業(yè)務(wù)、網(wǎng)格化運(yùn)營(yíng)的發(fā)展,涉及的數(shù)據(jù)量也在不斷上升。伴隨數(shù)據(jù)量的增多,企業(yè)面對(duì)的問題和調(diào)整以隨之增加。
我們?cè)诿鎸?duì)大量數(shù)據(jù)時(shí),數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)使用問題和數(shù)據(jù)安全問題都是值得關(guān)注也是經(jīng)常遇到的三個(gè)問題。伴隨著數(shù)據(jù)平臺(tái)及數(shù)據(jù)日益復(fù)雜,數(shù)據(jù)也存在著開發(fā)投入大數(shù)據(jù)價(jià)值密度低,冗余數(shù)據(jù)增多,運(yùn)維困難等問題。
我們?cè)诿鎸?duì)大量數(shù)據(jù)時(shí),數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)使用問題和數(shù)據(jù)安全問題都是值得關(guān)注也是經(jīng)常遇到的三個(gè)問題。伴隨著數(shù)據(jù)平臺(tái)及數(shù)據(jù)日益復(fù)雜,數(shù)據(jù)也存在著開發(fā)投入大數(shù)據(jù)價(jià)值密度低,冗余數(shù)據(jù)增多,運(yùn)維困難等問題。
在整個(gè)數(shù)據(jù)治理過程中,我們認(rèn)為數(shù)據(jù)治理是和數(shù)據(jù)資產(chǎn)是融合的,每一個(gè)治理方案都有一套單獨(dú)的治理體系。我們預(yù)期的數(shù)據(jù)治理模式是和數(shù)據(jù)生成過程是融合的,不應(yīng)該是一套孤立的體系。數(shù)據(jù)治理同生產(chǎn),最好做到的是事前治理,事中治理。是同數(shù)據(jù)生產(chǎn)是貫穿的,盡量避免事后補(bǔ)救治理[1]。
首先對(duì)企業(yè)元數(shù)據(jù)進(jìn)行采集。在數(shù)據(jù)采集方便數(shù)據(jù)管理,針對(duì)不同格式的數(shù)據(jù)做了分類的模型,模型對(duì)應(yīng)數(shù)據(jù)庫(kù)中各種表結(jié)構(gòu)??梢圆捎枚喾N方式進(jìn)行針對(duì)數(shù)據(jù)進(jìn)行采集??梢酝ㄟ^數(shù)據(jù)庫(kù)導(dǎo)入。在使用數(shù)據(jù)庫(kù)導(dǎo)入,手動(dòng)選好數(shù)據(jù)庫(kù),選好表,也可以自擬規(guī)則進(jìn)行篩選。另外我們希望的是系統(tǒng)可以進(jìn)行自動(dòng)導(dǎo)入,我們可以寫好定時(shí)任務(wù),在規(guī)定時(shí)間點(diǎn)進(jìn)行數(shù)據(jù)反向工程導(dǎo)入,同時(shí)檢測(cè)數(shù)據(jù)表是否發(fā)生過改動(dòng)當(dāng)檢測(cè)到數(shù)據(jù)改動(dòng),我們同樣將數(shù)據(jù)版本體現(xiàn)到數(shù)據(jù)庫(kù)上。同時(shí)我們還可以對(duì)導(dǎo)入的元數(shù)據(jù)進(jìn)行更深層次的管理,可以對(duì)數(shù)據(jù)進(jìn)行脫敏標(biāo)記,是否選擇加密,是否定期清理和備份等等。
將采集的元數(shù)據(jù)形成資產(chǎn)目錄。根據(jù)不企業(yè)不同模式,形成不同的目錄類型。在管理者界面中方便管理和查看數(shù)據(jù)。
將資產(chǎn)信息根據(jù)資產(chǎn)目錄進(jìn)行導(dǎo)入,進(jìn)一步完善資產(chǎn)業(yè)務(wù)信息。我們將最后形成的數(shù)據(jù)統(tǒng)一放入信息中心,在信息中心我們可以查看到各種各樣的數(shù)據(jù),同樣可以選擇對(duì)應(yīng)的庫(kù)進(jìn)行直接或者間接檢索數(shù)據(jù),并含有多種檢索方式,提供用戶去檢索。
維護(hù)完成會(huì)形成資產(chǎn)數(shù)據(jù)知識(shí)庫(kù),形成知識(shí)庫(kù)就方便用戶查閱,用戶資產(chǎn)申請(qǐng)。在形成數(shù)據(jù)庫(kù)在宏觀上會(huì)形成數(shù)據(jù)地圖。在用戶數(shù)據(jù)申請(qǐng)的過程中也會(huì)設(shè)計(jì)數(shù)據(jù)安全方面的問題,對(duì)數(shù)據(jù)進(jìn)行脫敏處理,添加數(shù)據(jù)水印的能力做一個(gè)貫穿。[2]
針對(duì)數(shù)據(jù)安全方面,我們針對(duì)不同數(shù)據(jù)進(jìn)行定義不同等級(jí),打上安全級(jí)別標(biāo)簽。在數(shù)據(jù)保護(hù)過程中同樣給出一定的安全存儲(chǔ)建議。同時(shí)也標(biāo)記訪問和導(dǎo)出建議,以保證數(shù)據(jù)安全性。相對(duì)數(shù)據(jù)敏感度低的數(shù)據(jù),部分?jǐn)?shù)據(jù)需要明文還是密文加密處理等等。[3]
除此之外,我們還定義了敏感信息數(shù)據(jù)規(guī)則,像電話號(hào)身份證等等規(guī)則,自由度很高也可以自定義規(guī)則手寫正則表達(dá)式的方式去形成最終的過濾規(guī)則。
制定數(shù)據(jù)標(biāo)準(zhǔn)體系,在治理中主要分為兩條鏈路,一個(gè)是層量,另一個(gè)是增量。層量的方式是一種被動(dòng)的方式進(jìn)行治理維護(hù)。增量就是對(duì)數(shù)據(jù)進(jìn)行強(qiáng)管控的方式,我們要做的就是管好增量,把層量在特定時(shí)間內(nèi)進(jìn)行處置。
針對(duì)標(biāo)準(zhǔn)體系建模,目前標(biāo)準(zhǔn)主要分為一下幾種標(biāo)準(zhǔn)。主要有字段標(biāo)準(zhǔn),詞根標(biāo)準(zhǔn),分層分域標(biāo)準(zhǔn),前后綴標(biāo)準(zhǔn),術(shù)語(yǔ)標(biāo)準(zhǔn),指標(biāo)標(biāo)準(zhǔn),維度標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)針對(duì)數(shù)據(jù)治理都有著不同的作用。字段標(biāo)準(zhǔn)為例,在創(chuàng)建表數(shù)據(jù)時(shí),我們使用這些標(biāo)準(zhǔn)來(lái)針對(duì)數(shù)據(jù)庫(kù)進(jìn)行命名,而不是根據(jù)自己一套標(biāo)準(zhǔn)去修改的命名格式。使用這種方式對(duì)數(shù)據(jù)進(jìn)行整合的時(shí)候有以下幾個(gè)優(yōu)點(diǎn),在收集身份信息的時(shí)候使用相同的標(biāo)準(zhǔn)方便對(duì)數(shù)據(jù)進(jìn)行整合,方便數(shù)據(jù)進(jìn)行管理和關(guān)聯(lián)性的處理。同時(shí),使用同一套標(biāo)準(zhǔn)也能方便大家理解數(shù)據(jù)所代表含義。通過標(biāo)準(zhǔn)能讓大家形成一套相同的數(shù)據(jù)語(yǔ)言,方便管理人員還開發(fā)人員針對(duì)數(shù)據(jù)整合和管理交流,都是可以規(guī)避交流困難的障礙,減少數(shù)據(jù)歧義。同時(shí)我們管理者也可以根據(jù)自己規(guī)定一套數(shù)據(jù)標(biāo)準(zhǔn)體系進(jìn)行規(guī)劃數(shù)據(jù)。
數(shù)據(jù)標(biāo)準(zhǔn)稽核,在數(shù)據(jù)發(fā)布之前的一種檢查機(jī)制,任務(wù)上線前,提供標(biāo)準(zhǔn)化的檢查機(jī)制。分為以下幾個(gè)部分對(duì)數(shù)據(jù)進(jìn)行打分,表命名規(guī)范,字段命名規(guī)范,在任務(wù)發(fā)布是否存在大表掃描等等不合規(guī)的情況,臨時(shí)表有沒有清理的檢查,在事前進(jìn)行一個(gè)強(qiáng)管控的檢查在數(shù)據(jù)治理前進(jìn)行檢查動(dòng)作。[4]
數(shù)據(jù)稽核規(guī)則配置,更多的是從數(shù)據(jù)質(zhì)量進(jìn)行保障,系統(tǒng)提供很多提供規(guī)則,像數(shù)據(jù)是否關(guān)聯(lián),數(shù)據(jù)表是否一致,表和表之間,文件和文件之間是否有一致性。規(guī)范性稽查,查看數(shù)據(jù)是否非空,是否超長(zhǎng)方面進(jìn)行稽查。波動(dòng)性稽查,主要是查看趨勢(shì)的波動(dòng),準(zhǔn)確性稽查等等。在一定稽核中可以使用規(guī)定的稽核腳本模板進(jìn)行對(duì)數(shù)據(jù)進(jìn)行稽核,另一種方式就是使用自寫腳本片段的方式進(jìn)行稽核,去拼接稽核體系。
數(shù)據(jù)質(zhì)量稽核,我們可以對(duì)數(shù)據(jù)質(zhì)量進(jìn)行檢查,我們可以創(chuàng)建,可以添加具體某一張表,去選擇目標(biāo)模式,最終選擇規(guī)則上的指定,最終形成檢查的邏輯,會(huì)根據(jù)需要進(jìn)行執(zhí)行??梢允褂弥芷谛缘姆绞?也可以使用一次性的方式。更多的稽核工具需要結(jié)合ETL工具進(jìn)行貫穿。ETL的方式就是使用稽核過程和數(shù)據(jù)調(diào)度的過程進(jìn)行融合。
數(shù)據(jù)質(zhì)量問題預(yù)警,我們將稽核的結(jié)果問題進(jìn)行統(tǒng)計(jì)列表,將出現(xiàn)問題的稽核數(shù)據(jù)列表發(fā)送給稽核數(shù)據(jù)責(zé)任人的手中,形成數(shù)據(jù)處理的閉環(huán)。
我們?cè)跀?shù)據(jù)治理的過程中,表和模型都是有聲明周期,我們通過識(shí)別數(shù)據(jù)使用的情況,我們創(chuàng)建了一套數(shù)據(jù)熱度分析的體系。
數(shù)據(jù)熱度信息采集,主要從數(shù)據(jù)庫(kù)執(zhí)行日志的視角進(jìn)行采集信息,數(shù)據(jù)庫(kù)平臺(tái)獲取數(shù)據(jù)庫(kù)操作日志,通過日志獲取表使用情況。如果單單依靠數(shù)據(jù)表的情況是遠(yuǎn)遠(yuǎn)不夠的,另外也可以使用數(shù)據(jù)庫(kù)瀏覽的熱度,瀏覽權(quán)重,數(shù)字化起源依賴進(jìn)行評(píng)估。便依此針對(duì)數(shù)據(jù)熱度進(jìn)行打分,評(píng)估出來(lái)的數(shù)據(jù)熱度高的數(shù)據(jù)我們需要做的就是保障。相反,熱度低的數(shù)據(jù)是否考慮做數(shù)據(jù)下線的處理。在熱度處理的時(shí)候也考慮數(shù)據(jù)血緣的關(guān)系,部分?jǐn)?shù)據(jù)可能在用戶使用占比較少,但是在維護(hù)整個(gè)數(shù)據(jù)關(guān)系發(fā)揮著巨大的作用,我們便以此對(duì)表進(jìn)行加權(quán)處理。這樣在數(shù)據(jù)處理會(huì)有著更加客觀的治理體系和能力,方便運(yùn)維人員參考和指導(dǎo)意義。[5]
我們通過熱源分析,可以找到數(shù)據(jù)熱度分布圖,找到數(shù)據(jù)熱度主要分布的數(shù)據(jù)庫(kù)。找到拓?fù)浞植窟€有數(shù)據(jù)趨勢(shì)的分析??梢詫?shù)據(jù)熱度詳情的方式進(jìn)行導(dǎo)出。
在解決礦山數(shù)據(jù)時(shí),根據(jù)礦山數(shù)據(jù)源特點(diǎn),礦山數(shù)據(jù)在治理過程中會(huì)面臨著治理困難,冗余度高等缺點(diǎn),在導(dǎo)入系統(tǒng)的時(shí)候會(huì)重新生成一份心得模型表,來(lái)協(xié)助礦山數(shù)據(jù)治理。[6]
通過導(dǎo)入的數(shù)據(jù),創(chuàng)建資產(chǎn)虛擬目錄,方便礦山系統(tǒng)管理者維護(hù)信息資產(chǎn)。導(dǎo)入完礦山數(shù)據(jù)后,會(huì)形成數(shù)據(jù)知識(shí)庫(kù)。安流程進(jìn)行導(dǎo)入和治理數(shù)據(jù)。[7]
在導(dǎo)入完快閃數(shù)據(jù)后我們便可以根據(jù)礦山數(shù)據(jù)制定特定的數(shù)據(jù)標(biāo)準(zhǔn)管理體系。建立相對(duì)于的數(shù)據(jù)模型,建立好的數(shù)據(jù)模型,便可以針對(duì)礦山老數(shù)據(jù)平臺(tái)進(jìn)行在平臺(tái)的虛擬重構(gòu)。重新定義表結(jié)構(gòu),重新定義表名稱和落地標(biāo)準(zhǔn)。這樣對(duì)數(shù)據(jù)庫(kù)再次進(jìn)行操作便可以開啟稽核,準(zhǔn)許符合稽核規(guī)則標(biāo)準(zhǔn)的數(shù)據(jù),過濾不合規(guī)則的危險(xiǎn)數(shù)據(jù)。[8]當(dāng)出現(xiàn)稽核預(yù)警危險(xiǎn)時(shí),將問題提交給礦山數(shù)據(jù)管理人員,這樣便可以針對(duì)礦山數(shù)據(jù)進(jìn)行重構(gòu)處理,對(duì)后期礦山數(shù)據(jù)維護(hù)起來(lái)更加方便。在礦山數(shù)據(jù)上線數(shù)據(jù)治理中臺(tái)時(shí),我們便可以根據(jù)血緣分析標(biāo)簽,針對(duì)血緣對(duì)數(shù)據(jù)進(jìn)行標(biāo)簽化處理,評(píng)估數(shù)據(jù)熱度。形成一個(gè)綜合數(shù)據(jù)熱度圖,我們便可以參照這一熱度圖進(jìn)行數(shù)據(jù)處理,熱數(shù)據(jù)我們便加權(quán)維護(hù)處理,相對(duì)冷數(shù)據(jù)我們便可以進(jìn)行推薦下線處理。這樣高熱的數(shù)據(jù)得以維護(hù),地?zé)岬臄?shù)據(jù)也可以減少數(shù)據(jù)庫(kù)冗余,優(yōu)化數(shù)據(jù)庫(kù)結(jié)構(gòu)。
在了解大數(shù)據(jù)治理中臺(tái)體系中,了解到了大數(shù)據(jù)治理平臺(tái)管理方法。數(shù)據(jù)治理在近年來(lái)是個(gè)火熱的詞,他的出現(xiàn)實(shí)現(xiàn)了老數(shù)據(jù)的管理和維護(hù)變得運(yùn)籌帷幄。
在大數(shù)據(jù)平臺(tái)階段,用戶對(duì)數(shù)據(jù)信息的需求持續(xù)上升,用戶范疇從數(shù)據(jù)信息部門拓展到全企業(yè),數(shù)據(jù)治理無(wú)法再僅僅面向數(shù)據(jù)信息部門了,需用變?yōu)槊嫦蛉髽I(yè)用戶的辦公環(huán)境,需用以全企業(yè)用戶為中心,從給用戶提供服務(wù)的角度,管控好數(shù)據(jù)信息的同時(shí)為用戶提供自助式獲得大數(shù)據(jù)的能力,幫助企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。
在以往數(shù)據(jù)模型包括礦山數(shù)據(jù)在內(nèi)的老數(shù)據(jù)模型,都存在這治理困難,維護(hù)困難等等問題,我們逐漸的將老的數(shù)據(jù)去架構(gòu)到新的數(shù)據(jù)治理中臺(tái)體系中,老的數(shù)據(jù)冗余度高的數(shù)據(jù)便可以變得容易維護(hù),可操作,降冗余,減輕服務(wù)器負(fù)擔(dān),提升管理者管理數(shù)據(jù)困難程度。
在以往數(shù)據(jù)中都是靠著主外鍵關(guān)系來(lái)確定各個(gè)表之間的關(guān)系網(wǎng),有了數(shù)據(jù)治理中臺(tái)我們便可以通過這一中臺(tái)通過界面化可視化的方式去進(jìn)一步了解和理解礦山數(shù)據(jù)表各個(gè)數(shù)據(jù)分部和聯(lián)系關(guān)系。
現(xiàn)階段各領(lǐng)域都開始了大數(shù)據(jù)平臺(tái)的搭建,期望運(yùn)用大數(shù)據(jù)的能力,來(lái)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。大數(shù)據(jù)平臺(tái)的搭建實(shí)際上還是數(shù)據(jù)信息的搭建,傳統(tǒng)型數(shù)據(jù)平臺(tái)遇到的全部難題大數(shù)據(jù)平臺(tái)都會(huì)有可能遇到,鑒于數(shù)據(jù)信息量級(jí)的發(fā)生變化,大數(shù)據(jù)平臺(tái)必定還會(huì)出現(xiàn)新的難題。
大數(shù)據(jù)時(shí)代,企業(yè)急需建立以用戶為中心的自服務(wù)大數(shù)據(jù)治理,信息梳理、數(shù)據(jù)管控、連接用戶、智能化是實(shí)現(xiàn)自服務(wù)大數(shù)據(jù)治理的四個(gè)主要階段,掌握一系列關(guān)鍵技術(shù)和技術(shù)原則,是實(shí)現(xiàn)自服務(wù)大數(shù)據(jù)治理的重要基礎(chǔ)。