裴成飛 楊高明 方賢進(jìn) 梁興柱
摘 要:對(duì)系統(tǒng)脫敏方法進(jìn)行改進(jìn),新增了差分隱私、隨機(jī)響應(yīng)、保留格式加密等方法,為用戶提供了更多的脫敏選擇.實(shí)際測試結(jié)果表明,系統(tǒng)展示出更強(qiáng)的隱私保護(hù)能力.改進(jìn)的數(shù)據(jù)庫脫敏系統(tǒng)已經(jīng)應(yīng)用在眾多公司和政府機(jī)關(guān),用戶評(píng)價(jià)良好.
關(guān)鍵詞:數(shù)據(jù)庫安全;數(shù)據(jù)脫敏;差分隱私
[中圖分類號(hào)]TP-391 ? [文獻(xiàn)標(biāo)志碼]A
Abstract:We have improved the system's desensitization method, and added differential privacy, random response, and retained format encryption. The goal is to provide users with more desensitization options. The actual test results show that our system has stronger privacy protection capabilities. The improved database desensitization system has been applied in many companies and government agencies, and users have evaluated our system well.
Key words:database security; data desensitization; differential privacy
數(shù)字化導(dǎo)致大量數(shù)字內(nèi)容呈指數(shù)級(jí)增長,這些數(shù)據(jù)的共享可以為大數(shù)據(jù)挖掘和應(yīng)用帶來可觀的經(jīng)濟(jì)利益和社會(huì)效益,而與此伴隨的是用戶隱私泄露問題.[1]數(shù)據(jù)隱私領(lǐng)域的研究表明,數(shù)據(jù)庫入侵的安全問題大部分來自內(nèi)部威脅,內(nèi)部安全漏洞的成本幾乎是外部安全漏洞的一半.2018年Verizon發(fā)布的網(wǎng)絡(luò)安全報(bào)告顯示[2],在世界范圍內(nèi),醫(yī)療行業(yè)是唯一內(nèi)部威脅高于外部威脅的行業(yè),內(nèi)部從業(yè)人員對(duì)醫(yī)療數(shù)據(jù)的泄露達(dá)到了驚人的程度,有必要在保證數(shù)據(jù)效用的前提下保護(hù)個(gè)人隱私信息不被泄露.
由于大部分組織依賴數(shù)據(jù)庫系統(tǒng),這也意味著當(dāng)數(shù)據(jù)庫出現(xiàn)安全問題時(shí),破壞的不僅僅是單個(gè)用戶或程序,也會(huì)對(duì)整個(gè)公司造成嚴(yán)重的后果,且由于Web應(yīng)用程序和信息系統(tǒng)的快速增長,以及云計(jì)算和外包數(shù)據(jù)管理等的發(fā)展趨勢進(jìn)一步增加了數(shù)據(jù)庫系統(tǒng)的風(fēng)險(xiǎn),使數(shù)據(jù)庫不僅面臨外部攻擊的威脅,也面臨內(nèi)部攻擊的威脅.數(shù)據(jù)庫安全的三種屬性是:機(jī)密性、完整性和可用性.機(jī)密性是指保護(hù)數(shù)據(jù)免于未經(jīng)授權(quán)的披露,從而保護(hù)個(gè)人隱私;完整性是指存在數(shù)據(jù)庫中的所有數(shù)據(jù)值均處于正確狀態(tài),為了保護(hù)數(shù)據(jù)庫免遭惡意的破壞和非法存取,針對(duì)不符合語義規(guī)定的數(shù)據(jù)以及因錯(cuò)誤輸入輸出導(dǎo)致的無效操作和錯(cuò)誤信息保護(hù)措施;可用性是指防止硬件和軟件錯(cuò)誤以及惡意數(shù)據(jù)訪問致使數(shù)據(jù)庫系統(tǒng)不可用.
數(shù)據(jù)庫所面臨的主要威脅是隱私數(shù)據(jù)泄露:一是授權(quán)與非授權(quán)用戶惡意破壞和非法存取.數(shù)據(jù)庫存在多種特權(quán)濫用方式,使用者可濫用特權(quán)作未經(jīng)授權(quán)的用途,主要分為三種表現(xiàn)形式[3]:過度的特權(quán)濫用、合法特權(quán)濫用和未使用的特權(quán)的特權(quán)濫用.根據(jù)第三方機(jī)構(gòu)統(tǒng)計(jì),對(duì)公司數(shù)據(jù)庫攻擊的80%都是內(nèi)部人員,而外部攻擊引發(fā)的數(shù)據(jù)泄密不到20%,授予過多的特權(quán)或是不及時(shí)撤銷這些特權(quán)會(huì)使他們過于簡單的執(zhí)行一些錯(cuò)誤行為,如果惡意用戶濫用數(shù)據(jù)庫訪問特權(quán),則可以將其視為數(shù)據(jù)庫漏洞.二是SQL注入.SQL注入攻擊的主要威脅是盜取網(wǎng)站的敏感信息,繞過認(rèn)證,比如繞過登陸驗(yàn)證進(jìn)入網(wǎng)站后臺(tái),另外,SQL注入還可以借助數(shù)據(jù)庫的存儲(chǔ)過程進(jìn)行提權(quán)操作等.作為黑客對(duì)數(shù)據(jù)庫最常用的攻擊手段之一,SQL注入的具體實(shí)現(xiàn)是在頁面請(qǐng)求的查詢字符串或Web表單提交中插入SQL命令,然后在后臺(tái)SQL服務(wù)器上解析進(jìn)行攻擊.三是審計(jì)線索不足.數(shù)據(jù)庫審計(jì)系統(tǒng)是數(shù)據(jù)庫安全的重要組成部分,需要確保自動(dòng)并及時(shí)準(zhǔn)確的記錄數(shù)據(jù)庫事務(wù),以便日后進(jìn)行查詢、分析、過濾,實(shí)現(xiàn)監(jiān)控和審計(jì)目標(biāo)數(shù)據(jù)庫系統(tǒng)的用戶操作,但是這樣傳統(tǒng)的審計(jì)系統(tǒng)只能作為數(shù)據(jù)泄露事件的事后審計(jì)措施,無法有效的進(jìn)行事前控制與事中監(jiān)控,等追查到責(zé)任人時(shí),損失已經(jīng)造成.四是認(rèn)證不足.弱身份驗(yàn)證策略使數(shù)據(jù)庫更容易受到攻擊者的攻擊,數(shù)據(jù)庫用戶的身份被盜或登錄憑證通過某些來源獲得,有助于攻擊者修改或獲取敏感信息.五是數(shù)據(jù)庫漏洞和錯(cuò)誤配置.最常見的情況是發(fā)現(xiàn)易受攻擊的未打補(bǔ)丁數(shù)據(jù)庫,或是發(fā)現(xiàn)仍然具有默認(rèn)賬號(hào)和配置參數(shù)的數(shù)據(jù)庫,攻擊者經(jīng)常利用這些漏洞攻擊數(shù)據(jù)庫.遺憾的是,即便是有補(bǔ)丁,組織也難以掌握數(shù)據(jù)庫的配置.典型問題包括高工作負(fù)載和數(shù)據(jù)庫管理員的積壓備份,導(dǎo)致測試補(bǔ)丁復(fù)雜、耗時(shí)且查找維護(hù)困難,經(jīng)常需要花幾個(gè)月修補(bǔ)數(shù)據(jù)庫,而在此期間數(shù)據(jù)庫仍然容易受到攻擊.六是拒絕服務(wù).DoS(Denial Of Service)攻擊目的是使計(jì)算機(jī)或網(wǎng)絡(luò)無法提供正常的服務(wù),最常見的DoS攻擊有計(jì)算機(jī)網(wǎng)絡(luò)帶寬攻擊和連通性攻擊.帶寬攻擊指以極大的通信量沖擊網(wǎng)絡(luò),連通性攻擊指用大量的鏈接請(qǐng)求沖擊計(jì)算機(jī),使得所有可用網(wǎng)絡(luò)資源被消耗殆盡,最終都會(huì)導(dǎo)致計(jì)算機(jī)無法再處理合法用戶的請(qǐng)求.七是敏感屬性未加密.數(shù)據(jù)庫中有著許多敏感信息,例如姓名、身份證號(hào)、地址等,但是這些數(shù)據(jù)同時(shí)具有極大的挖掘價(jià)值,而數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)或是備份數(shù)據(jù)時(shí)通常是未加密的,當(dāng)這些敏感數(shù)據(jù)泄露、丟失或是用于挖掘分析時(shí),難以保證用戶的隱私信息不被泄露.
本文分析數(shù)據(jù)庫安全的脫敏方法,提出改進(jìn)的數(shù)據(jù)庫脫敏系統(tǒng).改進(jìn)的數(shù)據(jù)庫脫敏系統(tǒng)已經(jīng)應(yīng)用在眾多公司和政府機(jī)關(guān),用戶評(píng)價(jià)良好.
1 傳統(tǒng)數(shù)據(jù)庫脫敏技術(shù)
數(shù)據(jù)庫脫敏主要對(duì)原數(shù)據(jù)中的敏感數(shù)據(jù)按照脫敏規(guī)則,如替換、刪除、屏蔽、加密,對(duì)數(shù)據(jù)庫中包含個(gè)人隱私敏感數(shù)據(jù)進(jìn)行保護(hù),在保護(hù)數(shù)據(jù)隱私的同時(shí)也保持?jǐn)?shù)據(jù)的可用性,讓脫敏后的數(shù)據(jù)可以用于開發(fā)測試、數(shù)據(jù)交換、數(shù)據(jù)分析、數(shù)據(jù)共享等場景[4-5],而如何去度量數(shù)據(jù)的隱私性與效用是數(shù)據(jù)脫敏重點(diǎn)研究方向之一.數(shù)據(jù)脫敏的主要過程為:請(qǐng)求者向數(shù)據(jù)庫發(fā)出查詢請(qǐng)求,數(shù)據(jù)庫根據(jù)查詢請(qǐng)求對(duì)數(shù)據(jù)操作,將擾動(dòng)后的結(jié)果反饋給數(shù)據(jù)分析者,數(shù)據(jù)分析者不能看到數(shù)據(jù)集的全貌,從而保證隱私.
替換技術(shù)[6]:隨機(jī)選擇原數(shù)據(jù)閾值范圍內(nèi)的任意值替換數(shù)據(jù)庫中的原始數(shù)據(jù),其優(yōu)點(diǎn)是替換之后的數(shù)據(jù)和原數(shù)據(jù)具有相同分布,缺點(diǎn)是替換之后數(shù)據(jù)和原數(shù)據(jù)屬性之間可能會(huì)失去關(guān)聯(lián)性.替換技術(shù)針對(duì)數(shù)字和日期類型數(shù)據(jù)的脫敏,能夠在特定的范圍內(nèi)改變?cè)瓟?shù)據(jù),使得數(shù)字和日期能夠在設(shè)定的百分比范圍內(nèi)浮動(dòng),例如數(shù)字值增加3%,日期減少5天等.
屏蔽技術(shù)[6]:在實(shí)際生活中使用較多,將敏感數(shù)據(jù)的一部分采用*等特定的字符替換,例如電話號(hào)碼、身份證號(hào)、地址等.類似的還有刪除技術(shù),對(duì)于數(shù)據(jù)庫中的敏感數(shù)據(jù)直接采取刪除操作,并用NULL字段替代.
傳統(tǒng)的脫敏技術(shù)較為簡單,只能夠應(yīng)對(duì)一些較為簡單的場景,而面對(duì)復(fù)雜的海量數(shù)據(jù)以及各種層出不窮不斷進(jìn)化的攻擊手段,這些方法已經(jīng)不足以應(yīng)對(duì)時(shí)代的改變,為此,筆者在保留簡單脫敏的基礎(chǔ)上,引入最新的隱私保護(hù)研究成果[7],以加強(qiáng)客戶數(shù)據(jù)的隱私保護(hù).
2 差分隱私
差分隱私(differential privacy)是Dwork提出的統(tǒng)計(jì)數(shù)據(jù)隱私保護(hù)框架.[8]差分隱私不對(duì)攻擊者的背景知識(shí)做任何假設(shè),除了某一條記錄,攻擊者知曉原數(shù)據(jù)中的所有信息,即便是在這種情況下,差分隱私依然能夠有效保護(hù)隱私信息,并且不需要隨著新型攻擊的出現(xiàn)去不斷修改模型.差分隱私擁有嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)學(xué)模型,有利于數(shù)學(xué)工具的使用以及定量分析和證明.差分隱私基本框架見圖1.
4 保留格式加密
隨機(jī)響應(yīng)實(shí)現(xiàn)差分隱私主要是通過對(duì)數(shù)據(jù)加噪實(shí)現(xiàn)數(shù)據(jù)脫敏,而加密技術(shù)也是數(shù)據(jù)庫敏感數(shù)據(jù)脫敏常用的一種方式.加密技術(shù)使得密鑰算法加密后的數(shù)據(jù)具有可逆性,同時(shí)需要考慮算法效率.傳統(tǒng)數(shù)據(jù)脫敏方法大多數(shù)是對(duì)數(shù)據(jù)進(jìn)行不可逆加密,例如使用AES算法對(duì)name字段進(jìn)行加密,這可以屏蔽名稱并區(qū)分不同的個(gè)體,但是得到的結(jié)果是一個(gè)二進(jìn)制字符串,丟失了原有的數(shù)據(jù)格式,因此,既不能保存回?cái)?shù)據(jù)庫,也不能將其標(biāo)識(shí)為有效信息.一些金融公司選擇匿名化個(gè)人信息保護(hù)個(gè)人隱私,例如使用固定名稱代替所有名稱,使得匿名數(shù)據(jù)失去了原有個(gè)人特征,且匿名數(shù)據(jù)無法恢復(fù)到原始數(shù)據(jù),失去挖掘價(jià)值.
保留格式加密方法(Format-Preserving Encryption,簡稱FPE)[12]能夠在不破壞完整性的情況下加密敏感信息,通過克隆原始數(shù)據(jù)進(jìn)行掩碼轉(zhuǎn)換,輸出格式與原數(shù)據(jù)相同的數(shù)據(jù).相對(duì)于其他加密方法,F(xiàn)PE既解決了敏感數(shù)據(jù)用于開發(fā)測試的可用性,又保證了敏感數(shù)據(jù)的安全性,并且FPE可以在不改變數(shù)據(jù)格式的情況下保護(hù)傳輸過程中的數(shù)據(jù),從而提高網(wǎng)絡(luò)的安全性.
使用FPE時(shí)需要保證密文滿足數(shù)據(jù)對(duì)于數(shù)據(jù)格式的約束,主要包括以下4個(gè)方面:數(shù)據(jù)不能被擴(kuò)充,例如當(dāng)加密N位的數(shù)字時(shí),必須輸出另外一個(gè)N位的數(shù)字;數(shù)據(jù)類型不能被改變;數(shù)據(jù)必須能被正確性地加密,對(duì)于數(shù)據(jù)庫中作為主鍵或者索引字段地?cái)?shù)據(jù),被加密后將保留其所在地列作為主鍵或者索引的特性;加、解密過程可逆.
從表2可以看出,屏蔽、遮蓋等方法用*號(hào)替換掉了原有的數(shù)據(jù),雖然可以達(dá)到保護(hù)數(shù)據(jù)隱私的目的,但是會(huì)使得數(shù)據(jù)失去可用性,無法用于數(shù)據(jù)挖掘分析.傳統(tǒng)的加密技術(shù)會(huì)改變?cè)紨?shù)據(jù)類型以及長度,而數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)的格式和長度通常都是固定的,導(dǎo)致加密后的數(shù)據(jù)由于結(jié)構(gòu)變化無法存回?cái)?shù)據(jù)庫或被使用.
5 總結(jié)
數(shù)據(jù)庫脫敏系統(tǒng)在保護(hù)敏感數(shù)據(jù)方面有著十分豐富強(qiáng)大的功能,系統(tǒng)支持在WEB端進(jìn)行脫敏源管理,并建立脫敏轉(zhuǎn)換過程,監(jiān)控脫敏狀態(tài),對(duì)敏感數(shù)據(jù)類別分析,對(duì)于不同的數(shù)據(jù)源,包括數(shù)據(jù)庫、文本文件、DMP文件、數(shù)據(jù)倉庫等,都能夠做到敏感數(shù)據(jù)自動(dòng)發(fā)現(xiàn),并根據(jù)需求選擇動(dòng)態(tài)脫敏或者靜態(tài)脫敏,自定義脫敏規(guī)則等.脫敏后的數(shù)據(jù)依然保持?jǐn)?shù)據(jù)的一致性和業(yè)務(wù)性的關(guān)聯(lián)性,實(shí)現(xiàn)數(shù)據(jù)隱私可靠保護(hù)的同時(shí),也可以應(yīng)用于開發(fā)測試、數(shù)據(jù)交換、數(shù)據(jù)分析、數(shù)據(jù)共享等場景.
本文根據(jù)已有系統(tǒng)數(shù)據(jù)脫敏強(qiáng)度不夠、隱私保護(hù)效果欠佳等缺點(diǎn),針對(duì)系統(tǒng)脫敏方法進(jìn)行改進(jìn),新增差分隱私、隨機(jī)響應(yīng)、保留格式加密等方法,為用戶提供了更多的脫敏選擇,并且在實(shí)際測試時(shí)展示出更強(qiáng)的隱私保護(hù)能力.數(shù)據(jù)的隱私性與有效性多年來一直是大家所關(guān)注研究的一個(gè)重要方向,接下來我們將繼續(xù)開發(fā)用于數(shù)據(jù)庫脫敏的更有效的方法(包括數(shù)據(jù)庫訪問控制系統(tǒng)、審計(jì)系統(tǒng)等),提出新的方案,對(duì)數(shù)據(jù)庫實(shí)現(xiàn)更加安全有效的保護(hù).
參考文獻(xiàn)
[1]李亞薇,周建鵬.大數(shù)據(jù)背景下隱私倫理問題研究[J].牡丹江師范學(xué)院學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2018(4):23-27.
[2]MATHEWS A.What can machine learning do for information security?[J].Network Security,2019,2019(4):15-17.
[3]KHANUJA H K,ADANE D S.Database security threats and challenges in database forensic:a survey[C].International Conference on Advancements in Information Technology,With workshop of ICBMG 2011,Singapore,2011:171-175.
[4]ESPOSITOA C,F(xiàn)ICCOB M,PALMIERIB F,et al.A knowledge-based platform for big data analytics based on publish/subscribe services and stream processing[J].Knowledge-Based System,2015,79:3-17.
[5]陳小芳,葛曉濱,馬冠駿.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)購物用戶行為分析[J].牡丹江師范學(xué)院學(xué)報(bào):自然科學(xué)版,2016(1):32-35.
[6]SARADA G,ABITHA N,MANIKANDAN G,et al.A few new approaches for data masking[C].IEEE International Conference on Circuit,Power and Computing Technologies,2015:1-4.
[7]楊高明,朱海明,方賢進(jìn),等.局部差分隱私約束的關(guān)聯(lián)屬性不變后隨機(jī)響應(yīng)擾動(dòng)[J].電子學(xué)報(bào),2019,47(5):1079-1085.
[8]ZHU Tianqing,LI Gang, ZHOU Wanlei,et al.Differentially private data publishing and analysis: a survey[J].IEEE Transactions on Knowledge and Data Engineering,2017,29(8):1619-1638.
[9]DWORK C.A firm foundation for private data analysis[J].Communications of the ACM,2011,54(1):86-95.
[10]HOLOHAN N,LEITH D J,MASON O.Optimal differentially private mechanisms for randomised response[J].IEEE Transactions on Information Forensics and Security,2017,12(11):2726-2735.
[11]WANG Yue,WU Xintao,HU Donghui.Using randomized response for differential privacy preserving data collection[C].In Proceedings of the Workshops of the EDBT/ICDT 2016 Joint Conference,EDBT/ICDT Workshops,2016.
[12]劉哲理,李經(jīng)緯,賈春福.保留格式加密技術(shù)研究[[J].軟件學(xué)報(bào),2012,23(1):153-169.
[13]KIFER D,MACHANAVAJJHALA A.No free lunch in data privacy[C].In Proceedings of the 10th ACM SIGMOD International Conference on Management of Data,Athens,Greec,2011:193-204.
牡丹江師范學(xué)院學(xué)報(bào)(自然科學(xué)版)2020年1期