冉冉 李峰 王欣柳 楊立春 丁紅發(fā)
摘 要:數(shù)據(jù)脫敏是政府、金融、電力等行業(yè)數(shù)據(jù)去除隱私敏感信息,進行大規(guī)模系統(tǒng)測試、數(shù)據(jù)開放共享、數(shù)據(jù)流通的核心技術(shù),對激活大數(shù)據(jù)價值有重要意義。論文分析數(shù)據(jù)脫敏技術(shù)的原理和評價標準,并針對電力大數(shù)據(jù)領(lǐng)域提出了一種面向隱私保護的系統(tǒng)化數(shù)據(jù)脫敏方案,在遼寧電網(wǎng)針對GIS、財務、PMS等包含個人隱私敏感信息的數(shù)據(jù)進行流程化應用。經(jīng)分析,方案具備良好的脫敏效果、算法可組合性強、擴展性強,能夠為不同行業(yè)數(shù)據(jù)脫敏提供借鑒。
關(guān)鍵詞:數(shù)據(jù)脫敏; 隱私保護; 電力大數(shù)據(jù); 隱私信息
中圖分類號:TP309.1 文獻標識碼:A
A method of data desensitization for privacy protection in electric power industry and its application
Abstract: Data desensitization is used for removing personal privacy data in many fields, such as government, finance and electric power. Its one of the important privacy protect technologies to process the original sensitive data for large-scale system testing, data opening and sharing, and data circulation. And it is very significant for activating the values of big data. In this paper, some technologies of data desensitization and the evaluation criterions are analyzed, and a systematized data desensitization method for privacy protection is suggested for the electric power bigdata. And then this method is applied in GIS, finance and PMS during State Grid Liaoning Electric Power Supply Co., LTD. Some delicate analysis implies that this method is very productive for data delicate, the composability of the algorithms and the expansibility of our method are very strong. This method provides a useful benchmark of data desensitization for the other fields.
Key words: data desensitization; privacy protection; electric power bigdata; privacy information
1 引言
隨著大數(shù)據(jù)技術(shù)的爆發(fā)式增長,海量的數(shù)據(jù)積累和應用的縱深擴展使得數(shù)據(jù)的價值進一步凸顯,并成為國家基礎性戰(zhàn)略資源。政府、學術(shù)界及產(chǎn)業(yè)界圍繞數(shù)據(jù)價值挖掘做了大量深入的工作,特別認為數(shù)據(jù)開放、共享、交易將成為引爆數(shù)據(jù)價值的關(guān)鍵。國家“十三五”綱要[1]明確提出:“實施國家大數(shù)據(jù)戰(zhàn)略,推進數(shù)據(jù)資源開放共享?!睘榇髷?shù)據(jù)價值發(fā)現(xiàn)和利用創(chuàng)造了新的契機,也為科技創(chuàng)新、服務民生創(chuàng)造了新的平臺。然而,數(shù)據(jù)開放共享程度越高,數(shù)據(jù)匯聚程度越廣,數(shù)據(jù)價值挖掘深度越深,數(shù)據(jù)應用范圍越廣,其面臨的安全與隱私風險就越高,引發(fā)的安全與隱私問題影響面就越廣[2,3]。
在我國,政府、企業(yè)掌握著全社會90%以上的數(shù)據(jù)資源,特別是掌握國家經(jīng)濟命脈的能源、電信、金融大型企業(yè)因業(yè)務復雜且客戶面覆蓋整個社會,擁有海量的機密和敏感數(shù)據(jù),如企業(yè)戰(zhàn)略、財務、重大決策、分析報告等業(yè)務敏感數(shù)據(jù)以及用戶姓名、身份證號、住址、賬號等用戶隱私數(shù)據(jù)。在電力行業(yè),電網(wǎng)公司除了擁有大量涉及國家安全、企業(yè)核心商業(yè)利益的機密數(shù)據(jù),還擁有電力設備名稱、位置、客戶個人信息等敏感數(shù)據(jù),特別是隨著智能電網(wǎng)的發(fā)展,敏感數(shù)據(jù)的保護需求更加突出,如果這些數(shù)據(jù)被泄露、損壞,不僅會給電力行業(yè)帶來經(jīng)濟上的損失,而且會給電力管理部門的聲譽帶來負面影響。如何在數(shù)據(jù)交換、共享及使用等過程中實現(xiàn)對敏感數(shù)據(jù)的定向、精準和徹底脫敏,達到數(shù)據(jù)安全、可信、受控使用的目標,是電力大數(shù)據(jù)產(chǎn)生者和管理者亟待解決的技術(shù)問題。
近幾年,一些研究人員和行業(yè)技術(shù)人員開始探索以敏感信息保護為驅(qū)動的數(shù)據(jù)脫敏方法和技術(shù)方案。一些安全企業(yè)較早地關(guān)注了銀行數(shù)據(jù)的脫敏需求[4],隨后研究人員從多方角度對銀行數(shù)據(jù)敏進行了探索性研究[5-7],2016年人民銀行在揚州農(nóng)商行進行了數(shù)據(jù)脫敏試點,取得了較好的隱私保護效果[8]。在GIS地理信息數(shù)據(jù)[9,10]、公積金數(shù)據(jù)[11]、云環(huán)境存儲數(shù)據(jù)[12]、電信運營商[13]等領(lǐng)域,也先后有研究人員進行了脫敏應用研究。在電力大數(shù)據(jù)領(lǐng)域,內(nèi)蒙古電網(wǎng)在其電力數(shù)據(jù)庫安全防護項目中有所涉及,但還尚未有完善的電力數(shù)據(jù)脫敏防護方案和應用。
本文針對電力大數(shù)據(jù)的敏感數(shù)據(jù)防護需求,對電網(wǎng)行業(yè)中涉及機密及用戶隱私信息的敏感數(shù)據(jù)進行梳理,提出一種面向隱私保護的電力大數(shù)據(jù)脫敏方案,并以國家電網(wǎng)遼寧省電力有限公司的具體項目實施為案例進行應用。該方案針對電網(wǎng)敏感數(shù)據(jù)防護需求,富有針對性,有較強的可實施性。
2數(shù)據(jù)脫敏安全防護技術(shù)
2.1 數(shù)據(jù)脫敏技術(shù)
數(shù)據(jù)脫敏是指根據(jù)設定的數(shù)據(jù)脫敏策略,對業(yè)務數(shù)據(jù)中存在的敏感信息實施變形,以實現(xiàn)對數(shù)據(jù)中的敏感信息的進行隱藏。數(shù)據(jù)脫敏的內(nèi)涵[12]是:借助數(shù)據(jù)脫敏技術(shù),屏蔽數(shù)據(jù)中敏感信息,達到被屏蔽的數(shù)據(jù)還保留其原始數(shù)據(jù)格式和屬性的要求,以確保應用程序在對脫敏數(shù)據(jù)的開發(fā)與測試過程中正常運行。
數(shù)據(jù)脫敏技術(shù)主要包含去除標識信息幾個方面。
去除標識信息[14]:從數(shù)據(jù)中去除能夠識別個體的明顯標識變量,如個體的姓名、地址等。即使原始隱私數(shù)據(jù)去除了標識符,其仍有高可能識別其中的個體,被處理過的數(shù)據(jù)仍然存在個體層面的信息,潛在的標識信息仍然存在于被去除表示信息的數(shù)據(jù)中。
假名替換[14,15]:用人工標識符或者假名替換數(shù)據(jù)庫中的標識性字段,如用引用性編碼或假名替代姓名等標識符。應用編造假名可以在保持數(shù)據(jù)原始可用性的同時降低數(shù)據(jù)中個體的可標識性,有利于數(shù)據(jù)共享。若關(guān)聯(lián)其他仍包含個人標識隱私信息的數(shù)據(jù),通過假名替換處理過的數(shù)據(jù)仍存在一定程度泄露隱私的風險。
降低數(shù)據(jù)精度[14]:降低數(shù)據(jù)集中個人標識數(shù)值的精度,如出生日期或年齡用年齡區(qū)間代替,工資值用工資區(qū)間代替。應當注意的是,若區(qū)間設置不合理,則存在通過小區(qū)間和統(tǒng)計分析方法識別個體,造成隱私泄露。進而,可通過用隨機值或者添加隨機噪音的方法降低數(shù)據(jù)精度,同時保持數(shù)據(jù)的統(tǒng)計特征。
數(shù)據(jù)聚合[14]:將原始數(shù)據(jù)中的個人信息數(shù)據(jù)聚合起來提供群組信息或總體信息。個人信息的群組分組越大、含有個人特定信息越少的數(shù)據(jù),群組中的個體被識別出的可能性就越小。
匿名技術(shù)[16]:對數(shù)據(jù)集用加密或者剔除個人標識信息的方法使得數(shù)據(jù)集中的個人保持匿名。常用的匿名技術(shù)有k-匿名算法、l-多樣性匿名算法等。
差分隱私[17,18]:設有隨機算法M,PM為M所有可能的設計出構(gòu)成的集合。對于任意兩個鄰近數(shù)據(jù)集D和D以及PM的任何子集SM,若算法M滿足Pr[M(D)∈SM]≤exp(ε)×Pr[M(D) ∈SM],則稱算法M提供ε-差分隱私保護,其中ε成為隱私保護預算。差分隱私算法能夠為隱私保護提供理論化的數(shù)學模型,可以將隱私泄露風險降低到可控范圍內(nèi),被認為是最具有應用前景的數(shù)據(jù)脫敏保護方法。
2.2 數(shù)據(jù)脫敏技術(shù)評估標準
數(shù)據(jù)脫敏的難點在于保持數(shù)據(jù)的完整性。以屏蔽非生產(chǎn)環(huán)境數(shù)據(jù)中敏感數(shù)據(jù)為基礎,實現(xiàn)對生產(chǎn)數(shù)據(jù)進行抽取變形處理,保證變形后的數(shù)據(jù)保持原生產(chǎn)數(shù)據(jù)屬性和數(shù)據(jù)間的依賴關(guān)系,確保數(shù)據(jù)能夠真實反映生產(chǎn)數(shù)據(jù)和生產(chǎn)環(huán)境的運行情況。針對測試需求及數(shù)據(jù)分析等大數(shù)據(jù)量的數(shù)據(jù)調(diào)用工作,需要具有針對性,能夠批量、自動化和智能化的工具,穩(wěn)定、高效地完成數(shù)據(jù)脫敏工作。
對數(shù)據(jù)脫敏技術(shù)進行評估,主要可以從敏感信息去除程度、數(shù)據(jù)缺損、計算開銷、通信開銷等方面考慮。
2.2.1 敏感信息去除程度
敏感信息的去除程度是相對于原始數(shù)據(jù)而言的,例如對客戶身份證號后四位進行隨機替換(371325199209026156脫敏后為371325199209022516),則脫敏后仍然保留了具有敏感信息的地區(qū)和生日信息,如果進行全部位進行替換(371325199209026156脫敏后為500601199705023416),則敏感信息全部去除。
2.2.2 數(shù)據(jù)缺損
數(shù)據(jù)缺損是對脫敏后數(shù)據(jù)質(zhì)量的度量,經(jīng)過數(shù)據(jù)脫敏操作后數(shù)據(jù)的信息丟失來反映。信息丟失越多,數(shù)據(jù)缺損越高,數(shù)據(jù)利用率越低。例如對身份證號中間生日段用*替換(371325199209026156脫敏后為502502********6156),則數(shù)據(jù)缺損較高。
2.2.3 計算開銷
計算的開銷主要是通過時間和空間復雜度評估,與硬件和軟件環(huán)境有關(guān)。一般來數(shù)計算開銷越小越好,加解密算法對計算開銷消耗大,數(shù)據(jù)失真/干擾技術(shù)對于計算開銷小。
2.2.4 通信開銷
通信開銷主要通過交互信息量和輪數(shù)評估,一般來說在保障通信安全的情況下,通信開銷越小越好。如表1 脫敏算法對比分析。
傳統(tǒng)加密技術(shù)由對稱、非對稱和散列算法構(gòu)成,具有極高的安全強度,能夠保證數(shù)據(jù)在傳輸過程中的機密性和完整性。但是,由于數(shù)據(jù)在使用時必須完全解密,對最終用戶而言,敏感數(shù)據(jù)依然是明文,因而無法同時滿足敏感數(shù)據(jù)安全性和可用性的需求。通過三種數(shù)據(jù)脫敏技術(shù)的對比分析,基于數(shù)據(jù)失真/擾亂的數(shù)據(jù)脫敏技術(shù),性能效率比較高,卻存在一定程度的數(shù)據(jù)缺損和信息丟失;基于加密的技術(shù)則能保證數(shù)據(jù)的準確性和安全性,但計算開銷比較大;數(shù)據(jù)匿名化技術(shù)能保證數(shù)據(jù)一定的真實性,但會有信息丟失。
綜上所述,這些手段均有各自的優(yōu)點和適應領(lǐng)域,但它們用于敏感數(shù)據(jù)防護方面仍有欠缺,無法在不妨礙已有的數(shù)據(jù)處理、操作及分析過程的同時,實現(xiàn)對敏感數(shù)據(jù)的針對性保護。
3 電力大數(shù)據(jù)環(huán)境下敏感數(shù)據(jù)保護方案
3.1 電力敏感數(shù)據(jù)管理現(xiàn)狀
隨著電力業(yè)務的快速發(fā)展,特別是智能電網(wǎng)的深入推進,電力行業(yè)積累了大量包含敏感信息的數(shù)據(jù),在業(yè)務分析、開發(fā)測試、審計監(jiān)管等使用過程中如何保障生產(chǎn)數(shù)據(jù)安全已經(jīng)成為一個重要的問題。
加強數(shù)據(jù)、文檔的安全管理,逐步建立信息資產(chǎn)分類分級保護機制,完善敏感信息存儲和傳輸?shù)雀唢L險環(huán)節(jié)的控制措施,對數(shù)據(jù)、文檔的訪問應建立嚴格的審批機制,對用于測試的生產(chǎn)數(shù)據(jù)要進行脫敏處理,嚴格防止敏感數(shù)據(jù)泄露。除了擁有數(shù)據(jù)的企業(yè)要遵守道德準則以及持續(xù)進行安全和保密技術(shù)的更新升級外,工信部等相關(guān)部門已經(jīng)牽頭著手起草相關(guān)的法律法規(guī)。
但目前為止,在電力系統(tǒng)尚缺乏系統(tǒng)性的敏感數(shù)據(jù)保障與管理方案,僅在少數(shù)機構(gòu)[24]的系統(tǒng)安全解方案中以模塊化的形式部署了數(shù)據(jù)脫敏功能。為了能夠有效保障敏感數(shù)據(jù)安全與隱私安全,需要針對電力系統(tǒng)的人力資源、財務、PMIS系統(tǒng)等業(yè)務敏感數(shù)據(jù)進行系統(tǒng)化管理和部署,確保其安全、可靠,避免敏感隱私數(shù)據(jù)泄露。這樣的系統(tǒng)需要滿足幾個目標。
(1)需達到電監(jiān)會、公安、審計等安全審計部門的要求。
(2)有效屏蔽敏感數(shù)據(jù),能夠?qū)y試、開放數(shù)據(jù)進行漂白。
(3)能夠?qū)γ舾小㈦[私數(shù)據(jù)進行有效監(jiān)管。
同時,這樣的系統(tǒng)需要具備專業(yè)化的數(shù)據(jù)脫敏工具,配合專業(yè)化的管理手段,進行可視化的非生產(chǎn)環(huán)境,測試數(shù)據(jù)脫敏管理,實現(xiàn)圖形化、界面化、自動化的數(shù)據(jù)脫敏運維管理,實現(xiàn)電力行業(yè)各業(yè)務系統(tǒng)的隱私數(shù)據(jù)安全生命周期管理,全面提高敏感數(shù)據(jù)的脫敏自動化程度。
3.2 總體邏輯架構(gòu)
本方案采用三層架構(gòu),基于BS的管理模式,針對測試數(shù)據(jù)管理和敏感數(shù)據(jù)屏蔽提供統(tǒng)一的元數(shù)據(jù)管理,從而方便元數(shù)據(jù)的安裝、使用、備份和維護,工具具備高可擴展的架構(gòu),可支持多個數(shù)據(jù)庫的數(shù)據(jù)抽取和數(shù)據(jù)脫敏。如圖1所示,大數(shù)據(jù)環(huán)境下敏感數(shù)據(jù)保護總體邏輯架構(gòu)從低至上分別為數(shù)據(jù)存儲層、數(shù)據(jù)服務引擎層、業(yè)務引擎層、流程管理層、邏輯界面層和物理界面層。
系統(tǒng)架構(gòu)采用分層模式,各層分離設計,確保數(shù)據(jù)處理過程中的性能和容量可按需擴展,實現(xiàn)集群化處理,適應海量化隱私敏感數(shù)據(jù)的脫敏需求,為企業(yè)構(gòu)建一個統(tǒng)一的數(shù)據(jù)脫敏管理平臺,支持各種業(yè)務和數(shù)據(jù)庫的脫敏服務。同時,通過協(xié)議優(yōu)化,以提高數(shù)據(jù)處理速度。
在各層設計中,數(shù)據(jù)存儲層主要面向元數(shù)據(jù)庫和文件內(nèi)容管理,可以對各個業(yè)務系統(tǒng)的數(shù)據(jù)進行分離式的對接;數(shù)據(jù)服務引擎層包括數(shù)據(jù)存取控制、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)緩存、適配器控制,針對數(shù)據(jù)進行預處理,對數(shù)據(jù)脫敏進行加速;業(yè)務引擎層包括元數(shù)據(jù)控制、日志控制、歸檔處理引擎、脫敏處理引擎等,是整個脫敏系統(tǒng)的核心,負責對隱私敏感數(shù)據(jù)進行脫敏處理,脫敏規(guī)則可以進行插件化管理、應用,可根據(jù)實際脫敏需求進行更新;流程管理層主要包括歸檔模型定義、歸檔規(guī)則定義、歸檔模型列表、歸檔模型樹,對脫敏后的數(shù)據(jù)進行按需歸檔;邏輯界面層包括動態(tài)界面生成、請求處理、個性化服務,是系統(tǒng)的用戶接口,為用戶提供便捷的使用接口。
3.3 方案設計的技術(shù)保障架構(gòu)
本方案采用獨特的元數(shù)據(jù)驅(qū)動法使用戶能夠快速創(chuàng)建小容量子集,由此提高數(shù)據(jù)庫管理人員的工作效率。如圖2所示,系統(tǒng)可以為不同的目標創(chuàng)建不同大小的測試數(shù)據(jù)子集,不但加快了速度,提高了效率,而且減少了存儲空間,節(jié)省了大量的存儲成本。
數(shù)據(jù)脫敏用于保護敏感性專有數(shù)據(jù),是將數(shù)據(jù)屏蔽脫密為無法識別但具有高度仿真的數(shù)據(jù)來實現(xiàn)數(shù)據(jù)保護。本方案從實際生產(chǎn)系統(tǒng)和備份數(shù)據(jù)庫中直接抽取原始數(shù)據(jù),通過統(tǒng)一接口進行數(shù)據(jù)讀取,然后通過平臺核心模塊對抽取數(shù)據(jù)按照脫敏需求進行子集抽取,對目標子集數(shù)據(jù)進行脫敏處理,并將脫敏后的數(shù)據(jù)按照實際業(yè)務需求歸檔,最后分發(fā)到目標系統(tǒng)中,如測試、開放、共享和交易,具體流程如圖3所示。本方案如圖4所示,綜合了移動、代替、屏蔽、歸零、加解密及自定義脫敏算法等多項數(shù)據(jù)脫敏技術(shù)和算法,能夠保持業(yè)務關(guān)聯(lián)關(guān)系,在數(shù)據(jù)識別、抽取、脫敏過程中不破壞數(shù)據(jù)的業(yè)務關(guān)聯(lián),不同數(shù)據(jù)庫中相同數(shù)據(jù)通過歸檔,保證脫敏后一致且跨庫關(guān)聯(lián)性不破壞。該方案還適用于常見敏感字段的專用內(nèi)置內(nèi)容和規(guī)則,例如名稱、地址、社會保險號碼、信用卡號以及電話號碼。
3.4 電力數(shù)據(jù)脫敏應用及流程
數(shù)據(jù)脫敏的核心任務是將生產(chǎn)數(shù)據(jù)中的敏感數(shù)據(jù)進行脫敏,通過數(shù)據(jù)脫敏系統(tǒng),經(jīng)過標準化的數(shù)據(jù)建模以及自動化流程,可以將數(shù)據(jù)安全、方便、標準地將測試數(shù)據(jù)進行脫敏。
本方案以遼寧電網(wǎng)為案例進行具體應用實施,采用圖5所示數(shù)據(jù)脫敏流程。在遼寧電網(wǎng)中主要針對GIS、財務管控、PMS三個業(yè)務系統(tǒng)數(shù)據(jù)進行脫敏處理,脫敏后的數(shù)據(jù)主要應用在測試系統(tǒng)中,防止在大規(guī)模測試過程中泄露個人隱私。同時,脫敏后的數(shù)據(jù)為下一步電力大數(shù)據(jù)開放、共享、流通打下一定基礎。
第一步:針對GIS、財務管控、PMS三個業(yè)務系統(tǒng)需要脫敏的業(yè)務數(shù)據(jù)進行業(yè)務需求的梳理,確認需要脫敏的數(shù)據(jù)對象。
第二步:針對GIS、財務管控、PMS三個業(yè)務系統(tǒng)需要脫敏的業(yè)務數(shù)據(jù)進行業(yè)數(shù)據(jù)模型的梳理,包括業(yè)務對象、基本表、表列、表大小、索引狀況、分區(qū)狀況等相關(guān)信息。
第三步:針對GIS、財務管控、PMS三個業(yè)務系統(tǒng)需要脫敏的業(yè)務系統(tǒng)業(yè)務對象的關(guān)聯(lián)關(guān)系以及脫敏準則進行梳理,包括主外鍵信息、父子關(guān)系信息、跨系統(tǒng)關(guān)聯(lián)信息、脫敏規(guī)則等。
第四步:評估生產(chǎn)系統(tǒng)接口脫敏用戶的所需權(quán)限,創(chuàng)建相關(guān)資源,并在數(shù)據(jù)脫敏系統(tǒng)中進行連接配置,確保測試數(shù)據(jù)源的可用性。
第五步:通過人工配置脫敏規(guī)則與流程細節(jié),人工配置需要針對用戶權(quán)限信息、系統(tǒng)屬性信息、系統(tǒng)連接信息、脫敏表、表關(guān)系、表列、脫敏函數(shù)分級、脫敏函數(shù)配置、脫敏函數(shù)規(guī)則指定、脫敏流程控制等相關(guān)信息進行配置。如果無需配置自動導入,可略過第六步。
第六步:數(shù)據(jù)脫敏系統(tǒng)預留了跟元數(shù)據(jù)管理系統(tǒng)的接口,并且可以依據(jù)具體接口信息進行修改,實現(xiàn)敏感配置信息的導入。
第七步:脫敏操作執(zhí)行,包括通過手工觸發(fā)配置執(zhí)行、設定時間調(diào)度執(zhí)行、基于命令行通過操作系統(tǒng)級別的計劃任務執(zhí)行等,實現(xiàn)數(shù)據(jù)抽取并脫敏至相應的測試環(huán)境。在執(zhí)行過程中,可以根據(jù)執(zhí)行狀況、錯誤信息等動態(tài)修改、展示、繼續(xù)執(zhí)行相關(guān)脫敏任務。
第八步:配置審計報告,根據(jù)各業(yè)務系統(tǒng)的審計內(nèi)容與需求,對指定用戶、指定時間段、指定應用系統(tǒng)進行相關(guān)操作的審計報表,同時支持自定制報告以及審計報告的下載等。
4 方案分析
智能電網(wǎng)的發(fā)展使得電網(wǎng)行業(yè)中的業(yè)務系統(tǒng)越來越復雜且有云化趨勢,產(chǎn)生并積累的包含敏感信息的數(shù)據(jù)呈現(xiàn)海量化,對敏感信息的管理和維護帶來巨大挑戰(zhàn),需要有系統(tǒng)性的面向數(shù)據(jù)全生命周期的敏感數(shù)據(jù)管理平臺,對敏感信息進行脫敏管理。本方案的提出,有效滿足了大數(shù)據(jù)時代電力數(shù)據(jù)的脫敏管理需求,而且具備多方面的優(yōu)勢特征。
脫敏服務便捷高效。本方案支持完全的不落地脫敏,不需要對現(xiàn)有系統(tǒng)進行改造和升級;具備多種分發(fā)能力,支持庫到庫、庫到文件、文件到文件、文件到庫的數(shù)據(jù)分發(fā),不需在生產(chǎn)系統(tǒng)和本地安裝任何客戶端程序或插件即可進行敏感的管理和脫敏。
滿足復雜的數(shù)據(jù)脫敏要求。本方案內(nèi)置眾多通用脫敏函數(shù),支持各類脫敏算法,能有有效進行各類脫敏算法的模塊化組合;同時支持脫敏函數(shù)二次開發(fā),進行自定義的數(shù)據(jù)脫敏功能開發(fā),進而滿足復雜的數(shù)據(jù)脫敏要求;支持鍵值脫密,保證主外鍵邏輯關(guān)系,保持數(shù)據(jù)關(guān)聯(lián)關(guān)系,進而保持數(shù)據(jù)的引用完整性。
具備良好的開放性和兼容性。支持同系統(tǒng)、跨系統(tǒng)的業(yè)務關(guān)聯(lián)定制、支持各種主流數(shù)據(jù)類型和主流操作系統(tǒng)。
具備高性能和大數(shù)據(jù)處理能力。本方案可以部署在云化的集群系統(tǒng)中,具有較好的可擴展性,能夠進行分布式數(shù)據(jù)脫敏,支持導入元數(shù)據(jù),自動配置關(guān)聯(lián)模型,能夠進行大規(guī)模數(shù)據(jù)的脫敏處理。
方便安全管理。本方案支持快速開發(fā)和部署,能夠迅速提供脫敏數(shù)據(jù),方便數(shù)據(jù)測試、開放、共享和交易,方便數(shù)據(jù)版本控制。
5 結(jié)束語
本文提出一種面向隱私保護的電力大數(shù)據(jù)脫敏方案,并應用于遼寧電網(wǎng)。該方案支持支持業(yè)務對象的自動識別與靈活配置,單個業(yè)務對象同時支持多種結(jié)構(gòu)化數(shù)據(jù),能夠確保數(shù)據(jù)屬性的完整性,保持業(yè)務關(guān)聯(lián)關(guān)系,具有可擴展統(tǒng)一架構(gòu),適用于云服務平臺。能夠保障用戶間的透明,實現(xiàn)一個平臺上的多數(shù)據(jù)源與目標對接的敏感數(shù)據(jù)脫敏服務。本方案可為電力行業(yè)客戶隱私數(shù)據(jù)保護提供良好的借鑒,有利于減少數(shù)據(jù)泄露風險、降低數(shù)據(jù)訪問和數(shù)據(jù)應用安全風險。
基金項目:
貴州省科技基金計劃項目(黔科合基礎[2016]1023, 黔科合基礎[2017]1045); 貴州省教育廳青年科技人才成長項目(黔教合KY字[2016]169); 貴州省哲學社會科學規(guī)劃課題(項目編號:16GZQN06); 貴州省教育廳高校人文社會科學研究項目(項目編號:2015DXS03)
參考文獻
[1] 中華人民共和國人民代表大會,中華人民共和國政治協(xié)商會議.中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年(2016-2020年)規(guī)劃綱要, 2016年3月17日.
[2] 孟小峰,林東岱. 數(shù)據(jù)開放與隱私管理專題前言[J]. 軟件學報,2016,08:1889-1890.
[3] 翁列恩,李幼蕓. 政務大數(shù)據(jù)的開放與共享:條件、障礙與基本準則研究[J]. 經(jīng)濟社會體制比較,2016,02:113-122.
[4] 桂溫. 數(shù)據(jù)脫敏:保障銀行數(shù)據(jù)安全的重要手段[J]. 中國金融電腦, 2012(12):72.
[5] 郭嘉凱. 數(shù)據(jù)脫敏:敏感數(shù)據(jù)的安全衛(wèi)士[J]. 軟件和信息服務, 2014(02):66-67.
[6] 周期律, 郭麗雯. 測試數(shù)據(jù)脫敏綜合評價體系的研究與探討[J]. 中國金融電腦, 2014(07):55-58.
[7] 周期律, 焦偉, 周曉聰. 銀行測試數(shù)據(jù)的可復用管理研究[J]. 中國金融電腦, 2015(10):32-41.
[8] 任小抒, 李福盛, 曾嵩, 等. 銀行卡信息安全管理的利器:數(shù)據(jù)脫敏技術(shù)[J]. 中國信用卡, 2016(09):52-54.
[9] 聶時貴, 劉玫, 王會娜. 基于ArcGIS的江蘇省地理信息公共服務平臺數(shù)據(jù)脫密方法[J]. 現(xiàn)代測繪, 2012(06):42-44.
[10] 李安波, 吳雪榮, 解憲麗, 等. 精度可控的矢量地理數(shù)據(jù)脫密方法[J]. 中國礦業(yè)大學學報, 2016(05):1050-1057.
[11] 潘明. 數(shù)據(jù)脫敏在公積金系統(tǒng)中的運用[J]. 信息技術(shù)與信息化, 2015(06):150-151.
[12] 劉明輝, 張尼, 張云勇, 等. 云環(huán)境下的敏感數(shù)據(jù)保護技術(shù)研究[J]. 電信科學, 2014(11):2-8.
[13] 喬宏明, 梁奐. 運營商面向大數(shù)據(jù)應用的數(shù)據(jù)脫敏方法探討[J]. 移動通信, 2015(13):17-20.
[14] Privacy Committee of South Australia. Privacy and Open Data Guideline[R]. Government of South Australia.
[15] Encryption.chat. Pseudonymised Data[OL]. https://www.pseudonymised.com/, 2016-12-21.
[16] Wikipedia. Data anonymization[OL]. https://en.wikipedia.org/wiki/Data_anonymization, 2016-12-25.
[17] 熊平,朱天清,王曉峰. 差分隱私保護及其應用[J]. 計算機學報,2014,(01):101-122.
[18] Dwork, C. Differential Privacy[C]. Proceedings of the 33rd International Colloquium on Automata, Languages and Programming (ICALP) (2), 2006, 1–12.
[19] Aggarwal C C, Yu P S. A Condensation Approach to Privacy Preserving Data Mining[C]// Advances in Database Technology - EDBT 2004, International Conference on Extending Database Technology, Heraklion, Crete, Greece, March 14-18, 2004, Proceedings. 2004:183-199.
[20] Du W, Zhan Z. ABSTRACT Using Randomized Response Techniques for Privacy-Preserving Data Mining[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Washington, Dc, Usa, August. 2003:505-510.
[21] Clifton C, Kantarcioglu M, Vaidya J, et al. Tools for privacy preserving distributed data mining[J]. Acm Sigkdd Explorations Newsletter, 2002, 4(2):28-34.
[22] 楊曉春, 劉向宇, 王斌,等. 支持多約束的K-匿名化方法[J]. 軟件學報, 2006, 17(5):1222-1231.
[23] Sweeney L. Achieving k-anonymity privacy protection using generalization and suppression[J]. International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, 2012, 10(5):571-588.
[24] 李宗濤. 內(nèi)蒙古電力信息系統(tǒng)數(shù)據(jù)庫安全防護項目實施并通過功能驗收[J]. 內(nèi)蒙古電力技術(shù), 2014(02):100.