李柳音
【摘要】由于許多企業(yè)存在數(shù)據(jù)資產(chǎn)過量的現(xiàn)象,治理起來較為繁瑣復(fù)雜,所以出現(xiàn)了一種基于數(shù)據(jù)智能分類技術(shù)的數(shù)據(jù)處理方法。先借助于數(shù)據(jù)智能分類技術(shù)對企業(yè)的數(shù)據(jù)展開分類,接著運(yùn)用關(guān)鍵詞提取方法對數(shù)據(jù)展開關(guān)鍵詞提取,然后聯(lián)系專家的評(píng)判建議來確立每一類數(shù)據(jù)中可表現(xiàn)當(dāng)下類別的關(guān)鍵詞,同時(shí)做出敏感度標(biāo)記,以此來處理企業(yè)數(shù)據(jù)量級(jí)過盛問題,查找出當(dāng)中的敏感性數(shù)據(jù)。在這一背景態(tài)勢下,本文展開數(shù)據(jù)智能分類技術(shù)在數(shù)據(jù)治理當(dāng)中的運(yùn)用分析,以為業(yè)內(nèi)人士提供可鑒參考。
【關(guān)鍵詞】數(shù)據(jù)治理;智能分類技術(shù);應(yīng)用研究
中圖分類號(hào):TN01 ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? 文章編號(hào):1673-0348(2020)09-015-03
[Absrtact] due to the fact that many enterprises have excessive data assets and the management is complicated, a data processing method based on data intelligent classification technology has emerged. First, the data of the enterprise is classified by means of the data intelligent classification technology, then the keyword extraction method is used to extract the data, and then the expert's evaluation suggestions are contacted to establish the keywords that can represent the current category in each type of data, and at the same time, the sensitivity mark is made, so as to deal with this paper analyzes the application of data intelligent classification technology in data governance to provide reference for the industry.
[Key words]data governance; intelligent classification technology; Application Research
如今社會(huì)訊息化速度加快,網(wǎng)絡(luò)化發(fā)展迅捷,數(shù)據(jù)呈現(xiàn)爆炸式增長。全世界的數(shù)據(jù)量大概每兩年漲一倍,這表示人類在近兩年間產(chǎn)生形成的數(shù)據(jù)總量和此前產(chǎn)生形成的數(shù)據(jù)總量相當(dāng)。按照IDC數(shù)據(jù)顯示,到2020年底,全世界會(huì)共掌控有35ZB的數(shù)據(jù)量,比2010年數(shù)據(jù)量上漲了大約30多倍。大數(shù)據(jù)一方面為大眾帶來極大的便利性,一方面也造成了訊息的安全和隱私問題。像其他訊息一樣,大數(shù)據(jù)在儲(chǔ)存、處理、傳輸當(dāng)中會(huì)存在大量的安全風(fēng)險(xiǎn),伴隨而來的管理、監(jiān)管要求也越來越高越來越嚴(yán)苛。信息安全國際標(biāo)準(zhǔn)表示,不同數(shù)據(jù)的價(jià)值性是截然不同的,價(jià)值越高的數(shù)據(jù)越需要更為嚴(yán)苛的保護(hù)。國資委《中央企業(yè)商業(yè)秘密保護(hù)暫行規(guī)定》中明確表示要把數(shù)據(jù)進(jìn)行分類化、分級(jí)式管理,同時(shí)加以標(biāo)識(shí)。銀監(jiān)會(huì)《十二五信息科技發(fā)展規(guī)劃監(jiān)管指導(dǎo)意見》中也明確表示要推動(dòng)信息資產(chǎn)分類、分級(jí)管理的發(fā)展進(jìn)度。所以在大數(shù)據(jù)時(shí)代下,企業(yè)亟需進(jìn)行數(shù)據(jù)治理。
1. 數(shù)據(jù)治理相關(guān)理論簡述
1.1 數(shù)據(jù)治理的概念
最近幾年伴隨著大數(shù)據(jù)時(shí)代的發(fā)展,各大企事業(yè)單位都累積了大量的數(shù)據(jù)資源,社會(huì)各界也都意識(shí)到這些累積的海量數(shù)據(jù)資源具備可利用價(jià)值,并著手進(jìn)行對數(shù)據(jù)資源的深層次挖掘和分析,建立了具備有企業(yè)特色的知識(shí)數(shù)據(jù)。數(shù)據(jù)是一個(gè)企業(yè)最為關(guān)鍵的資產(chǎn)之一,如今怎樣盤活企業(yè)內(nèi)部數(shù)據(jù)資產(chǎn),挖掘數(shù)據(jù)資產(chǎn)的深層次價(jià)值是一項(xiàng)亟待完善的業(yè)務(wù),自保值朝著增值跨越的目標(biāo)也發(fā)展為當(dāng)下企業(yè)數(shù)據(jù)治理工作的首要任務(wù)。數(shù)據(jù)治理工作內(nèi)容有多種,包括有對數(shù)據(jù)資產(chǎn)的搜集、處理、儲(chǔ)存、運(yùn)用、核實(shí)、監(jiān)管等等多項(xiàng)。數(shù)據(jù)治理是企事業(yè)單位為了增強(qiáng)數(shù)據(jù)資產(chǎn)質(zhì)量、促進(jìn)數(shù)據(jù)交融、充分施展數(shù)據(jù)資產(chǎn)的內(nèi)在價(jià)值而建立的一套體系化技術(shù)方式、規(guī)范準(zhǔn)則、管理制度。
1.2 數(shù)據(jù)治理的價(jià)值性
因?yàn)閿?shù)據(jù)生產(chǎn)源頭變得多元化,數(shù)量銳增且結(jié)構(gòu)差異化較大,同時(shí)系統(tǒng)更新升級(jí)的速度加快,技術(shù)的運(yùn)用頻度也明顯提高,所以令不同的數(shù)據(jù)源或者相同的數(shù)據(jù)源間產(chǎn)生了矛盾和問題,加上數(shù)據(jù)搜集、集成是多個(gè)團(tuán)隊(duì)協(xié)作的結(jié)果,這一過程也是增加了數(shù)據(jù)處理中引發(fā)問題數(shù)據(jù)的幾率性。運(yùn)用傳統(tǒng)數(shù)據(jù)人工錯(cuò)誤檢測修復(fù)或其他程序進(jìn)行解決,很明顯是完全跟不上大數(shù)據(jù)環(huán)境之下的各類復(fù)雜的數(shù)據(jù)問題的。所以怎樣確保數(shù)據(jù)的完整、數(shù)據(jù)質(zhì)量的真實(shí)穩(wěn)妥,創(chuàng)建高效數(shù)據(jù)治理底層解決體系是非常有必要的。
1.3 數(shù)據(jù)治理的體系框架
1.3.1 數(shù)據(jù)模型管理
這一模型包含有概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型兩類。可以對數(shù)據(jù)源展開統(tǒng)一化管理,多是運(yùn)用可視化方法來管理異構(gòu)數(shù)據(jù)源,內(nèi)容包含各個(gè)數(shù)據(jù)源的物理儲(chǔ)存地址、認(rèn)證鑒權(quán)訊息等,規(guī)避了傳統(tǒng)管理方法中要采用諸多個(gè)不同客戶端操作的不足。也可以用可視化語言來定義模型的概念,按照顯示訴求,拓展出更符合客戶業(yè)務(wù)語言的類型。
1.3.2 進(jìn)行數(shù)據(jù)血緣管理
血緣、影響分析管理目標(biāo)是借助于數(shù)據(jù)血統(tǒng)追蹤,于分布數(shù)據(jù)共享過程中處理數(shù)據(jù)的質(zhì)量、版本等多方面訊息。血緣分析即對來源加以溯源,來測量數(shù)據(jù)是否可信以及質(zhì)量如何。影響力分析指的是自特定模型著手,找尋倚重這一實(shí)體的處理過程模型。比如可采取遞歸形式加以尋找處理。
1.3.3 數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量管理包括數(shù)據(jù)絕對質(zhì)量管理、過程質(zhì)量管理。在數(shù)據(jù)質(zhì)量稽核方面,要提供自統(tǒng)一管理數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范輻射至每一數(shù)據(jù)字段的質(zhì)量屬性的能力以及數(shù)據(jù)質(zhì)量稽核配置,來保障輻射行業(yè)的質(zhì)量標(biāo)準(zhǔn),同時(shí)保障數(shù)據(jù)在轉(zhuǎn)換、儲(chǔ)存、傳輸?shù)冗^程中不會(huì)發(fā)生錯(cuò)誤等等。數(shù)據(jù)質(zhì)量回溯方面,需對數(shù)據(jù)質(zhì)量稽核發(fā)覺的問題展開根本性溯源分析和維護(hù),如此保障歷史經(jīng)驗(yàn)、數(shù)據(jù)累積的準(zhǔn)確性,從而推進(jìn)指導(dǎo)管理的發(fā)展。
1.3.4 數(shù)據(jù)安全管理
主要處理的是數(shù)據(jù)儲(chǔ)存、運(yùn)用、交換當(dāng)中的安全問題。具體表現(xiàn)下四點(diǎn)上,其一數(shù)據(jù)運(yùn)用的安全性,如數(shù)據(jù)儲(chǔ)存、訪問、權(quán)限管控。其二數(shù)據(jù)隱私問題,如銀行賬號(hào)等訊息有無加密,以防止被非法訪問。其三訪問權(quán)限管理。其四數(shù)據(jù)安全審計(jì),數(shù)據(jù)修訂、運(yùn)用等步驟中軍需設(shè)置審計(jì)方法,事后予以審計(jì)和究責(zé)。
2. 數(shù)據(jù)智能分類技術(shù)的具體方法和過程分析
本文把自然語言處理技術(shù)運(yùn)用到數(shù)據(jù)治理當(dāng)中,借助數(shù)據(jù)智能分類技術(shù)對企業(yè)的資產(chǎn)展開數(shù)據(jù)治理工作。其一,對企業(yè)當(dāng)中有待分類的數(shù)據(jù)通過智能分類方法加以分類,其二采用關(guān)鍵詞提取技術(shù)來對每一類數(shù)據(jù)加以關(guān)鍵詞提取,然后聯(lián)系專家的判斷來確立每一類數(shù)據(jù)當(dāng)中可用作甄別當(dāng)下分類的關(guān)鍵詞,同時(shí)對敏感度予以標(biāo)注。另外本文采取樸素葉貝斯、SVM算法效果比較展開對數(shù)據(jù)智能分類算法的篩選,結(jié)果顯示后者在關(guān)鍵詞提取當(dāng)中的精確度更高、召回率更強(qiáng)。
2.1 待分類數(shù)據(jù)
待分類數(shù)據(jù),指的是企業(yè)當(dāng)中那些有待整理的過量數(shù)據(jù),比如分布于企業(yè)服務(wù)器、郵件、數(shù)據(jù)庫、終端等多地的一些數(shù)據(jù),或齊整或雜亂,均在等待被整理和挖掘。
2.2 數(shù)據(jù)智能分類
數(shù)據(jù)智能分類是運(yùn)用智能分類技術(shù)把待分類數(shù)據(jù)整理成不同的類別,比如把企業(yè)當(dāng)中那些雜亂的、無序的、過多的數(shù)據(jù),整理分成專利、企業(yè)訊息、審計(jì)稽查報(bào)告、公文、圖紙、財(cái)務(wù)數(shù)據(jù)等多個(gè)不同類型的數(shù)據(jù)。具體的步驟如下。
2.2.1 進(jìn)行預(yù)處理
文檔數(shù)據(jù)預(yù)處理包含了對文檔的切分、文本的分詞、去停用詞等幾個(gè)步驟。如果文檔集合是一個(gè)單獨(dú)性文件,全部文章都被儲(chǔ)存在這一文件中時(shí),可進(jìn)行文檔切分,來把當(dāng)中的文章提取出來獨(dú)立的儲(chǔ)存于一個(gè)文件中。換句話講,單一文件的文檔集合當(dāng)中,各個(gè)文章間會(huì)采用不同的標(biāo)記加以區(qū)分,例如特定的符號(hào)或者空行等。文檔分詞是把文檔中具備獨(dú)立型含義的詞匯予以單獨(dú)匯總出來。去停用詞是因?yàn)椴⒎俏谋局忻恳粋€(gè)單詞都可對該文檔進(jìn)行代表和體現(xiàn),所以要將這些詞自文本當(dāng)中除去。
2.2.2 特征的表示與提取
其主要功用是提取足以表現(xiàn)文檔核心關(guān)鍵訊息的詞匯,通過一定的特征項(xiàng)來對文檔予以代表。文本挖掘之時(shí)要對這些特征予以處理,進(jìn)而完成對于非結(jié)構(gòu)化文本的處理,此為非結(jié)構(gòu)化朝著結(jié)構(gòu)化轉(zhuǎn)型的一大必經(jīng)步驟。在詞條權(quán)值的處理上,本文選用的是TF IDF方法。
2.2.3 特征匹配、分類
文本轉(zhuǎn)作向量方式,且經(jīng)過特征提取之后,則可展開分類挖掘了,也就是特征匹配工作。本文選用文獻(xiàn)檢索技術(shù)相似度法。假定樣本文檔是U,待學(xué)習(xí)文檔是V,其相似度可以通過向量夾角度數(shù)來進(jìn)行衡量,簡言之,夾角愈小,相似度愈高。
2.2.4 文本分類體系
智能分類算法篩選當(dāng)中,應(yīng)用頻率最高的分類算法有兩種,即為樸素貝葉斯算法、SVM算法。前者是借助于計(jì)算向量分類至兩大類別中的機(jī)率值來統(tǒng)計(jì)分類結(jié)果。后者則是一種在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上建立起來的模式識(shí)別方法。該方法最早誕生于1995年,在分類領(lǐng)域中運(yùn)用價(jià)值非常高。
2.3 關(guān)鍵詞提取
關(guān)鍵詞提取,指的是不同類別數(shù)據(jù)當(dāng)中查找出定位最精準(zhǔn)、權(quán)重比例最高、區(qū)分力最強(qiáng)的關(guān)鍵詞,借助于自然語言處理技術(shù),對分類數(shù)據(jù)文本內(nèi)容加以切詞,采用機(jī)器統(tǒng)計(jì),實(shí)現(xiàn)對關(guān)鍵詞的自動(dòng)提取。候選關(guān)鍵詞提取之時(shí)是進(jìn)行自動(dòng)排序的,依靠下述幾點(diǎn)展開,其一指定分類中出現(xiàn)次數(shù),出現(xiàn)次數(shù)愈多,排序則愈居于前列;其二,其他分類中的出現(xiàn)次數(shù),次數(shù)愈少,排序愈居前;其三關(guān)鍵詞的長度,長度愈長,排序愈居前。就像能源行業(yè)市場分析報(bào)告當(dāng)中,關(guān)鍵詞特征提取時(shí),原油期貨價(jià)格必然是排在期貨價(jià)格之前的。
2.4 專家判斷結(jié)果
專家按照軟件給出的統(tǒng)計(jì)數(shù)據(jù)、評(píng)定的分?jǐn)?shù),聯(lián)系自我專業(yè)的知識(shí)儲(chǔ)備,自對每一個(gè)類別候選關(guān)鍵詞列表中篩選出的可用作甄別當(dāng)下分類的關(guān)鍵詞,展開敏感度標(biāo)注。實(shí)現(xiàn)對企業(yè)數(shù)據(jù)的分級(jí)、分類管理,建立健全按照數(shù)據(jù)敏感度差異訂立的截然不同的保護(hù)制度。
3. 實(shí)驗(yàn)數(shù)據(jù)結(jié)果研究
實(shí)驗(yàn)數(shù)據(jù)挑選的十大類別的文檔數(shù)據(jù),包含合同類、專利類等,每一類的樣本數(shù)量大概在85篇左右,即合計(jì)850篇文檔,把這些文檔散布于企業(yè)內(nèi)服務(wù)器、郵件、數(shù)據(jù)庫、終端等當(dāng)中。采用訊息檢索領(lǐng)域的評(píng)價(jià)準(zhǔn)則對數(shù)據(jù)分類展開評(píng)價(jià),即精確率P、召回率R、評(píng)測值F。具體公式為:P=A(AцB) R=A/(AцC) F=2*P*R*(P+R),當(dāng)中,A指的是正確分類的文檔數(shù)量,B指的是分類失誤的文檔數(shù)量。C指的是文檔本應(yīng)分在這一類,但卻并未劃分到這一類當(dāng)中的文檔數(shù)量。文章采用樸素貝葉斯、SVM兩類算法展開分類,具體的實(shí)驗(yàn)結(jié)果詳見表1。
如表1當(dāng)中,相較于樸素貝葉斯,SVM算法精準(zhǔn)率、召回率都要偏高許多,而這也證明,SVM算法在數(shù)據(jù)智能分類當(dāng)中效果更佳。
4. 結(jié)語
為了處理大數(shù)據(jù)時(shí)代企事業(yè)單位數(shù)據(jù)資產(chǎn)引發(fā)的一些問題和不足,本文應(yīng)用自然語言處理技術(shù)來展開數(shù)據(jù)治理工作,也就是借助于數(shù)據(jù)智能分類技術(shù)對企業(yè)的超多數(shù)據(jù)展開分類統(tǒng)計(jì),運(yùn)用關(guān)鍵詞提取方式對每一個(gè)類別的數(shù)據(jù)展開關(guān)鍵詞提取,最終聯(lián)系專家的判斷來對每個(gè)類別中關(guān)鍵詞數(shù)據(jù)予以確立,同時(shí)加以敏感度標(biāo)注。借助于上述步驟和方法完成對企業(yè)數(shù)據(jù)資產(chǎn)的分級(jí)化、分類式管理,幫助企業(yè)建立健全的數(shù)據(jù)治理系統(tǒng)。本文選用Naive Bayes(樸素貝葉斯)、SVM(支持向量機(jī))兩種算法展開核算,最終發(fā)覺后者在數(shù)據(jù)智能分類當(dāng)中的效果更優(yōu)。
參考文獻(xiàn)
[1]馮登國,張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào).2017(05)
[2]張偉麗,馮偉.萬物互聯(lián)網(wǎng)帶來的新風(fēng)險(xiǎn)及其技術(shù)對策[J].信息安全與通信保密.2018(4)
[3]李振,鮑宗豪.云治理:大數(shù)據(jù)時(shí)代社會(huì)治理的新模式[J].天津社會(huì)科學(xué).2018(33)