陳磊,劉文懋
1.綠盟科技集團(tuán)股份有限公司,北京 100089
2.清華大學(xué),自動(dòng)化系,北京 100084
在當(dāng)今大數(shù)據(jù)時(shí)代,數(shù)據(jù)得到人們?cè)絹?lái)越多的重視。大數(shù)據(jù)和人工智能的深度融合深刻而廣泛地影響了包括政府、金融、運(yùn)營(yíng)商、電力和互聯(lián)網(wǎng)的各行各業(yè),數(shù)據(jù)價(jià)值的流通與釋放進(jìn)一步促進(jìn)了經(jīng)濟(jì)和生產(chǎn)力的發(fā)展。然而,數(shù)據(jù)帶來(lái)的發(fā)展機(jī)遇也伴隨著安全挑戰(zhàn):近年來(lái),大規(guī)模數(shù)據(jù)泄露事件頻頻發(fā)生、“大數(shù)據(jù)殺熟”、數(shù)據(jù)歧視、個(gè)人信息非法采集和隱私竊取等安全問(wèn)題愈發(fā)嚴(yán)峻,且這些問(wèn)題對(duì)公民以及社會(huì)造成了不可忽視的負(fù)面影響與危害。
為了應(yīng)對(duì)挑戰(zhàn),全球掀起數(shù)據(jù)安全與隱私的立法熱潮,法規(guī)監(jiān)管力度不斷強(qiáng)化。歐盟于 2018 年實(shí)施《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR)[1],美國(guó)于 2020 年實(shí)施《加州消費(fèi)者隱私法案》(California Consumer Privacy Act,CCPA),日本于2020年6月通過(guò)修訂版《個(gè)人信息保護(hù)法》。中國(guó)在 2020 年7月和10月陸續(xù)公開(kāi)發(fā)布兩部重量級(jí)的法規(guī)草案:《數(shù)據(jù)安全法(草案)》和《個(gè)人信息保護(hù)法(草案)》。隨著全球數(shù)據(jù)安全法規(guī)監(jiān)管的不斷強(qiáng)化,合規(guī)性問(wèn)題成為企業(yè)數(shù)據(jù)安全建設(shè)迫切需要考慮的安全任務(wù)。換句話說(shuō),合規(guī)性成為了企業(yè)數(shù)據(jù)安全建設(shè)與治理的重要驅(qū)動(dòng)力。然而,法規(guī)向企業(yè)提出范圍更廣和約束更嚴(yán)的數(shù)據(jù)安全的相關(guān)要求,給傳統(tǒng)的網(wǎng)絡(luò)與數(shù)據(jù)安全技術(shù)和產(chǎn)品帶來(lái)了前所未有的巨大挑戰(zhàn)。
在這樣的背景下,本文通過(guò)對(duì)實(shí)際應(yīng)用中的三類重點(diǎn)數(shù)據(jù)安全場(chǎng)景——用戶隱私數(shù)據(jù)安全合規(guī)、企業(yè)內(nèi)部數(shù)據(jù)安全治理和企業(yè)間數(shù)據(jù)安全共享與計(jì)算的合規(guī)性與安全需求進(jìn)行梳理與分析,并分別選取當(dāng)前業(yè)界可以應(yīng)對(duì)的十種前沿?cái)?shù)據(jù)安全技術(shù)進(jìn)行研究和分析,包括:處于學(xué)術(shù)前沿的差分隱私、數(shù)據(jù)匿名和同態(tài)加密,工業(yè)界內(nèi)炙手可熱的安全多方計(jì)算、聯(lián)邦學(xué)習(xí),以及從其他領(lǐng)域引入的新技術(shù)知識(shí)圖譜、流程自動(dòng)化、用戶實(shí)體行為分析等。通過(guò)對(duì)這十種前沿技術(shù)展開(kāi)原理與應(yīng)用研究,旨在為國(guó)內(nèi)數(shù)據(jù)安全合規(guī)、隱私保護(hù)等場(chǎng)景提供技術(shù)指導(dǎo)。
2018年5月25日,歐盟正式實(shí)施《通用數(shù)據(jù)保護(hù)條例》(GDPR)用以保護(hù)歐盟成員國(guó)境內(nèi)企業(yè)的個(gè)人數(shù)據(jù),也包括歐盟境外企業(yè)處理歐盟公民的個(gè)人數(shù)據(jù)以及公民享有的各項(xiàng)數(shù)據(jù)權(quán)利。
受GDPR的影響,全球其他國(guó)家也陸續(xù)推出了各自相關(guān)的法規(guī):巴西于2019年7月通過(guò)《通用數(shù)據(jù)保護(hù)法》(葡萄牙語(yǔ)簡(jiǎn)稱LGPD);印度公布修改后的《2019年個(gè)人數(shù)據(jù)保護(hù)法(草案)》(Personal Data Protection Bill, 2019);泰國(guó)于2020年5月正式實(shí)施了《個(gè)人數(shù)據(jù)保護(hù)法》(Personal Data Protection Act,PDPA)等。此外,美國(guó)各個(gè)州在數(shù)據(jù)隱私領(lǐng)域上紛紛重新立法,包括加利福尼亞州 (加州)、蒙佛特州、夏威夷、馬里蘭、馬薩諸塞、密西西比和華盛頓等。其中,最具代表的是加州于2018年6月通過(guò)的《加州消費(fèi)者隱私保護(hù)法案》(CCPA)。由于CCPA的影響涉及大部分知名IT科技公司,如惠普、Oracle、Apple、Google和Facebook等,該法案從立法到頒布備受各界人士的關(guān)注。2019年10月,美國(guó)加州州長(zhǎng)正式簽署CCPA的最終法案,已于2020年1月1日正式生效。CCPA與GDPR類似,同樣對(duì)企業(yè)提出更高的數(shù)據(jù)合規(guī)性要求,據(jù)IAPP和OneTrust調(diào)查結(jié)果顯示,大約僅有2%的受訪者認(rèn)為他們的企業(yè)已經(jīng)完全做好了應(yīng)對(duì)CCPA合規(guī) 的準(zhǔn)備[2]。
在執(zhí)法方面,歐盟GDPR相較其他國(guó)家的法規(guī),已經(jīng)進(jìn)入全面執(zhí)法階段,多個(gè)歐盟成員國(guó)已經(jīng)陸續(xù)開(kāi)出多張違反GDPR的罰單。其中,英國(guó)執(zhí)法力度最大,英國(guó)ICO (Information Commissioner’s Office)2019年于7月對(duì)英國(guó)航空公司和萬(wàn)豪國(guó)際集團(tuán)由于數(shù)據(jù)泄露事件分別開(kāi)出1.83億英鎊和9900萬(wàn)英鎊的巨額罰單。另外,Google罰款事件非常具代表性,備受關(guān)注——作為一家大型國(guó)際互聯(lián)網(wǎng)公司,Google卻已被歐盟的兩個(gè)國(guó)家罰款:2019年1月被法國(guó)處罰5000萬(wàn)歐元,原因是執(zhí)法方認(rèn)為Google的隱私條款未充分體現(xiàn)GDPR公開(kāi)透明和清晰原則;2020年3月被瑞典處罰700萬(wàn)歐元,原因是Google未充分履行GDPR賦予用戶的數(shù)據(jù)“遺忘權(quán)”。GDPR立法與執(zhí)法的嚴(yán)苛程度,從以上的事件可見(jiàn)一斑。
我國(guó)于2017年6月1日正式實(shí)施《中華人民共和國(guó)網(wǎng)絡(luò)安全法》(以下簡(jiǎn)稱《網(wǎng)絡(luò)安全法》)[3]。它是我國(guó)首部較為全面規(guī)范網(wǎng)絡(luò)空間安全管理方面問(wèn)題的基礎(chǔ)性法律,不僅包括網(wǎng)絡(luò)運(yùn)行安全、關(guān)鍵信息基礎(chǔ)設(shè)施的運(yùn)行安全,同時(shí)給出數(shù)據(jù)安全與個(gè)人信息保護(hù)的一般規(guī)定。
自2019以來(lái),我國(guó)數(shù)據(jù)安全相關(guān)立法進(jìn)程明顯加快:根據(jù)《網(wǎng)絡(luò)安全法》,國(guó)家互聯(lián)網(wǎng)信息辦公室分別于2019年5月和6月發(fā)布了《數(shù)據(jù)安全管理辦法 (征求意見(jiàn)稿)》和《個(gè)人信息出境安全評(píng)估辦法(征求意見(jiàn)稿)》等法規(guī);同年10月1號(hào)正式實(shí)施《兒童個(gè)人信息網(wǎng)絡(luò)保護(hù)規(guī)定》,對(duì)兒童個(gè)人信息安全進(jìn)行特殊和更加嚴(yán)格的保護(hù)。2020年5月我國(guó)發(fā)布《中華人民共和國(guó)民法典》,其首次在我國(guó)法律中明確且具體提出“隱私權(quán)”的概念,并確立隱私權(quán)范圍和個(gè)人信息保護(hù)的一些基本規(guī)范。2020年7月,我國(guó)對(duì)外發(fā)布《中華人民共和國(guó)數(shù)據(jù)安全法(草案)》(以下簡(jiǎn)稱《數(shù)據(jù)安全法(草案)》),確立了數(shù)據(jù)分級(jí)分類保護(hù)、數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估、應(yīng)急處置機(jī)制和安全審查的重要制度,明確了開(kāi)展數(shù)據(jù)活動(dòng)必須履行數(shù)據(jù)安全保護(hù)義務(wù)等內(nèi)容。2020年10月,《中華人民共和國(guó)個(gè)人信息保護(hù)法(草案)》(以下簡(jiǎn)稱《個(gè)人信息保護(hù)法(草案)》)在人大網(wǎng)公開(kāi),該法律完善和豐富了個(gè)人各項(xiàng)數(shù)據(jù)權(quán)利,賦予個(gè)人包括知情權(quán)、決定權(quán)、查詢權(quán)、更正權(quán)、刪除權(quán)等;同時(shí)相比《網(wǎng)絡(luò)安全法》,其對(duì)違法的行為加大了懲處力度,最高可處罰5000萬(wàn)人民幣或企業(yè)上一年度營(yíng)業(yè)總額的5%?!稊?shù)據(jù)安全法》和《個(gè)人信息保護(hù)法》作為兩部較為綜合性的法律,前者更加強(qiáng)調(diào)在總體國(guó)家安全觀的指導(dǎo)下,對(duì)國(guó)家利益、公共利益和個(gè)人、組織合法權(quán)益方面給予全面保護(hù),后者則更加側(cè)重于對(duì)個(gè)人信息、隱私等涉及公民自身安全的個(gè)人信息與權(quán)益進(jìn)行保護(hù)。
在標(biāo)準(zhǔn)層面上,我國(guó)數(shù)據(jù)安全多部標(biāo)準(zhǔn)已經(jīng)發(fā)布或者正在制定中,相關(guān)的標(biāo)準(zhǔn)體系正逐步趨向完善,包括《數(shù)據(jù)安全能力成熟度模型》 (GB/T 37988-2019)、《個(gè)人信息安全規(guī)范》(GB/T 35273-2020)、《個(gè)人信息去標(biāo)識(shí)化指南》(GB/T 37964-2019)、《大數(shù)據(jù)安全管理指南》(GB/T 37973-2019)等。
在數(shù)據(jù)安全相關(guān)執(zhí)法上,我國(guó)監(jiān)管部門主要聚焦在兩個(gè)方面:一是針對(duì)APP個(gè)人信息侵權(quán)專項(xiàng)治理,近年來(lái)網(wǎng)信辦、工業(yè)和信息化部、公安部、市場(chǎng)監(jiān)管總局四部門成立專項(xiàng)治理工作組,對(duì)三十余萬(wàn)款A(yù)PP開(kāi)展個(gè)人信息合規(guī)性評(píng)估與整治,包括未公開(kāi)收集使用規(guī)則、未經(jīng)用戶同意收集使用個(gè)人信息和私自共享給第三方用戶信息等,對(duì)涉及違規(guī)APP進(jìn)行通報(bào)、約談、整改、下架等處罰形式,通報(bào)對(duì)象不乏有大型企業(yè)的APP[4]。二是針對(duì)個(gè)人信息非法交易與數(shù)據(jù)黑灰產(chǎn)的整治,公安部在多個(gè)城市連續(xù)開(kāi)展“凈網(wǎng)2019”、“凈網(wǎng) 2020”專項(xiàng)行動(dòng)[5],對(duì)此類案件重拳出擊,從源頭上進(jìn)行杜絕,降低由于個(gè)人信息非法交易與泄露導(dǎo)致的定向電信詐騙、短信騷擾等給用戶帶來(lái)的精神困擾與財(cái)產(chǎn)損失。
根據(jù)數(shù)據(jù)業(yè)務(wù)的應(yīng)用場(chǎng)景以及數(shù)據(jù)域分布的不同,企業(yè)數(shù)據(jù)安全建設(shè)可分為三類場(chǎng)景:
(1)用戶隱私數(shù)據(jù)安全合規(guī):企業(yè)與用戶交互的場(chǎng)景,它們需滿足數(shù)據(jù)安全與隱私合規(guī)性。具體包括數(shù)據(jù)采集的隱私保護(hù)、個(gè)人信息治理與可視化、用戶數(shù)據(jù)權(quán)利請(qǐng)求響應(yīng)(訪問(wèn)權(quán)、刪除權(quán)和限制處理權(quán)等)等子場(chǎng)景。
(2)企業(yè)內(nèi)部數(shù)據(jù)安全治理:企業(yè)內(nèi)部網(wǎng)絡(luò)環(huán)境中,需對(duì)其敏感數(shù)據(jù)和重要數(shù)據(jù)在存儲(chǔ)、使用等環(huán)節(jié)進(jìn)行安全防護(hù)和監(jiān)控。具體包括敏感數(shù)據(jù)的識(shí)別與分類、脫敏數(shù)據(jù)的殘余風(fēng)險(xiǎn)評(píng)估、數(shù)據(jù)操作行為的異常檢測(cè)等子場(chǎng)景。
(3)企業(yè)間數(shù)據(jù)共享與計(jì)算:兩個(gè)或兩個(gè)以上企業(yè)組織之間,實(shí)現(xiàn)數(shù)據(jù)的共享與計(jì)算任務(wù),在滿足正常業(yè)務(wù)同時(shí)確保數(shù)據(jù)與隱私安全。具體包括涉及個(gè)人數(shù)據(jù)的發(fā)布與共享、云上數(shù)據(jù)安全存儲(chǔ)與計(jì)算、多方數(shù)據(jù)安全共享與計(jì)算、多方數(shù)據(jù)安全的聯(lián)合AI建模等子場(chǎng)景。
上述三大類場(chǎng)景的各個(gè)子場(chǎng)景不僅有自身的安全與隱私需求,也有合規(guī)性要求,具體可以對(duì)應(yīng)到GDPR和《網(wǎng)絡(luò)安全法》的合規(guī)性條款。為了應(yīng)對(duì)這些場(chǎng)景的安全與合規(guī)挑戰(zhàn),可選取差分隱私、同態(tài)加密、安全多方計(jì)算和聯(lián)邦學(xué)習(xí)等十種前沿技術(shù),具體如圖1所示。下文2.2-2.4小節(jié)將分別從三類場(chǎng)景出發(fā),具體闡述如何通過(guò)前沿技術(shù)超越合規(guī),解決隱私與安全問(wèn)題。
2.2.1 差分隱私
在法規(guī)中,為了應(yīng)對(duì)隱私問(wèn)題帶來(lái)的風(fēng)險(xiǎn)挑戰(zhàn),歐盟GDPR指出數(shù)據(jù)控制者與處理者處理個(gè)人數(shù)據(jù)時(shí)“應(yīng)當(dāng)執(zhí)行合適的技術(shù)措施和有組織性的措施來(lái)保證合理應(yīng)對(duì)風(fēng)險(xiǎn)的安全水平”(第32條);而我國(guó)《網(wǎng)絡(luò)安全法》規(guī)定:“網(wǎng)絡(luò)運(yùn)營(yíng)者應(yīng)當(dāng)采取技術(shù)措施和其他必要措施,確保其收集的個(gè)人信息安全,防止信息泄露、毀損、丟失”(第42條)。這些法規(guī)均要求企業(yè)采取一定的技術(shù)與管理措施,確保采集的用戶個(gè)人信息與隱私安全。在數(shù)據(jù)采集中,如何平衡數(shù)據(jù)可用性與隱私保護(hù)的矛盾,下面介紹的是當(dāng)前應(yīng)用的一種關(guān)鍵技術(shù)。
差分隱私(Differential Privacy, DP)技術(shù)由于無(wú)需假設(shè)攻擊者掌握的背景知識(shí),其安全性可通過(guò)數(shù)學(xué)證明等優(yōu)勢(shì),近年來(lái)受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
它最早由微軟研究者Dwork 在2007年提出[6],它可以確保數(shù)據(jù)庫(kù)插入或刪除一條記錄不會(huì)對(duì)查詢或統(tǒng)計(jì)的結(jié)果造成顯著性影響,數(shù)學(xué)化描述如下:
其中,D和D′分別指相鄰的數(shù)據(jù)集(差別只有一條記錄),f(g)是某種操作或算法(比如查詢、求平均、總和等)。對(duì)于它的任意輸出C,兩個(gè)數(shù)據(jù)集輸出這樣結(jié)果的概率幾乎是接近的,即兩者概率比值小于eε,那么稱為滿足?ε隱私。主要實(shí)現(xiàn)思路通過(guò)在查詢結(jié)果中加入噪聲,比如Laplace類型的噪聲,使得查詢結(jié)果在一定范圍內(nèi)失真,并且保持兩個(gè)相鄰數(shù)據(jù)庫(kù)概率分布幾乎相同。ε參數(shù)通常被稱為隱私預(yù)算(Privacy budget),ε越小,兩次查詢相鄰數(shù)據(jù)集D和D′分的結(jié)果越接近,即隱私保護(hù)程度越高。一般將ε設(shè)置為一個(gè)較小的數(shù),比如0.01,0.1。實(shí)際應(yīng)用中需通過(guò)調(diào)節(jié)ε參數(shù),以平衡隱私性與數(shù)據(jù)可用性。
在早期差分隱私應(yīng)用場(chǎng)景中,數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,通過(guò)提供具有差分隱私功能的查詢接口給查詢者使用,通常稱該方案為中心化的差分隱私模型(Centralized Differential Privacy,CDP),代表性應(yīng)用是微軟開(kāi)發(fā)了PINQ(Privacy Integrated Queries)系統(tǒng)。隨著研究與發(fā)展,出現(xiàn)了另一種模式——本地差分隱私(Local Differential Privacy, LDP),代表性應(yīng)用是谷歌公司的Chrome瀏覽器的Rappor應(yīng)用,以及蘋果公司的iphone的隱私數(shù)據(jù)采集。以蘋果公司為例,它通過(guò)差分隱私技術(shù)可挖掘到iPhone用戶使用表情的頻率分布,但無(wú)法獲得具體某一個(gè)用戶的確切隱私,如圖2所示。其原理是在LDP模式下,每一個(gè)用戶終端都會(huì)運(yùn)行一個(gè)DP算法,每一個(gè)終端采集的數(shù)據(jù)都會(huì)加入噪聲,然后將其上傳給服務(wù)器;服務(wù)器雖然無(wú)法獲得某一個(gè)用戶的確切隱私,但通過(guò)聚合與轉(zhuǎn)換可以挖掘出用戶群體的行為趨勢(shì)。雖然差分隱私技術(shù)已經(jīng)在工業(yè)界有一部分的成功應(yīng)用,尤其是LDP,然而仍然面臨實(shí)現(xiàn)算法復(fù)雜度高,特色數(shù)據(jù)分布數(shù)據(jù)集的差分隱私結(jié)果噪聲過(guò)大,隱私預(yù)算難以控制等的實(shí)用化瓶頸。
圖2 差分隱私在iPhone的應(yīng)用(圖引自[7])Fig.2 Application of differential privacy in iPhone
2.2.2 知識(shí)圖譜
歐盟GDPR賦予給用戶關(guān)于個(gè)人數(shù)據(jù)的訪問(wèn)權(quán)、修改權(quán)和被遺忘權(quán)等多項(xiàng)權(quán)利。相應(yīng)地,企業(yè)必須履行和響應(yīng)用戶提出的請(qǐng)求。比如用戶發(fā)起數(shù)據(jù)查看請(qǐng)求,那么企業(yè)必須完整呈現(xiàn)數(shù)據(jù)主體的個(gè)人數(shù)據(jù)報(bào)告,包括收集了哪些用戶數(shù)據(jù)、共享給了哪些企業(yè)(第 12至22 條)。我國(guó)《網(wǎng)絡(luò)安全法》賦予了用戶一定程度的“刪除權(quán)”和“修改權(quán)”,同樣地企業(yè)須履行和配合用戶完成數(shù)據(jù)權(quán)利請(qǐng)求的流程。企業(yè)如何更好地完成該項(xiàng)法律規(guī)定的義務(wù),即如何對(duì)同一個(gè)個(gè)人信息主體進(jìn)行實(shí)體識(shí)別與數(shù)據(jù)關(guān)聯(lián)是一個(gè)技術(shù)挑戰(zhàn)。
知識(shí)圖譜(Knowledge Graph)技術(shù)可以很好應(yīng)對(duì)以上合規(guī)性帶來(lái)的挑戰(zhàn)。它最早由Google在2012年提出[8],應(yīng)用于優(yōu)化搜索引擎,通過(guò)信息的提取與關(guān)聯(lián)以實(shí)現(xiàn)更好地查詢復(fù)雜的信息。隨著理論與技術(shù)的發(fā)展與完善,目前知識(shí)圖譜已廣泛應(yīng)用于社交網(wǎng)絡(luò)、金融、電商等領(lǐng)域的數(shù)據(jù)挖掘。
知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識(shí)圖譜里,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。知識(shí)圖譜是關(guān)系的最有效的表示方式。通俗地講,知識(shí)圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜提供了從“關(guān)系”的角度去分析問(wèn)題的能力。
同樣,知識(shí)圖譜應(yīng)用于個(gè)人數(shù)據(jù)保護(hù)領(lǐng)域,它可以幫助企業(yè)快速識(shí)別個(gè)人與敏感數(shù)據(jù)的存儲(chǔ)位置,這些數(shù)據(jù)是如何被使用的,以及它的合同、法律和監(jiān)管義務(wù),同時(shí)可以將個(gè)人數(shù)據(jù)主體所有的屬性維度信息,比如姓名、出生年月、手機(jī)號(hào)和地區(qū)等信息進(jìn)行關(guān)聯(lián)。RSAC 2020創(chuàng)新沙盒比賽的冠軍公司——Securit.ai,它將知識(shí)圖譜技術(shù)引入到隱私合規(guī)領(lǐng)域,稱為個(gè)人數(shù)據(jù)圖譜(People data graph),它可以將個(gè)人數(shù)據(jù)主體所有的屬性維度信息,比如姓名、出生年月、手機(jī)號(hào)和地區(qū)等信息進(jìn)行關(guān)聯(lián),如圖3所示;同時(shí)在此基礎(chǔ)上能給出敏感數(shù)據(jù)存儲(chǔ)的分布地圖,以及傳輸?shù)臄?shù)據(jù)映射圖。這樣,當(dāng)用戶提出個(gè)人數(shù)據(jù)請(qǐng)求時(shí),比如刪除數(shù)據(jù),企業(yè)可快速獲取用戶實(shí)體所有的數(shù)據(jù)維度、存儲(chǔ)位置以及共享的第三方信息,進(jìn)而短時(shí)間內(nèi)響應(yīng)與處理用戶請(qǐng)求,滿足GDPR和CCPA的合規(guī)要求。
圖3 個(gè)人數(shù)據(jù)圖譜(圖引自[9])Fig.3 Personal data graph(cited from Ref.[9])
2.2.3 流程自動(dòng)化
歐盟GDPR一方面賦予了用戶各種數(shù)據(jù)權(quán)利,另一方面也規(guī)定了企業(yè)在收到用戶數(shù)據(jù)權(quán)利請(qǐng)求后的響應(yīng)時(shí)間,即“必須在一個(gè)月內(nèi)對(duì)所有的請(qǐng)求進(jìn)行響應(yīng)和處理,若請(qǐng)求過(guò)于復(fù)雜,可延長(zhǎng)至兩個(gè)月”(第 12至22 條)。我國(guó)《網(wǎng)絡(luò)安全法》雖未明確規(guī)定具體的響應(yīng)時(shí)間,但在國(guó)家標(biāo)準(zhǔn)《個(gè)人信息安全規(guī)范》(GB/T 35273-2020)中,規(guī)定從請(qǐng)求到響應(yīng)的時(shí)間是30天內(nèi)(第 43 條)。對(duì)于該合規(guī)性要求,據(jù)Gartner調(diào)查,約有三分之二企業(yè)對(duì)單個(gè)數(shù)據(jù)主體權(quán)利請(qǐng)求(Subject Rights Request, SRR)的回復(fù)需要超過(guò)兩周以上的時(shí)間,且這些流程通常是人工完成,平均成本約高達(dá)1400美元。如何提升運(yùn)營(yíng)效率,降低響應(yīng)超時(shí)的違規(guī)風(fēng)險(xiǎn)是一個(gè)極具挑戰(zhàn)性的問(wèn)題。
流程自動(dòng)化技術(shù)可幫助企業(yè)的數(shù)據(jù)安全運(yùn)營(yíng)團(tuán)隊(duì)從繁瑣重復(fù)的手工處理“請(qǐng)求-響應(yīng)”轉(zhuǎn)為自動(dòng)化處理,一方面可降低人工的運(yùn)營(yíng)成本,另一方面可減少由于響應(yīng)時(shí)間延誤帶來(lái)的違規(guī)風(fēng)險(xiǎn)。它可以賦能兩類隱私合規(guī)產(chǎn)品中:主體權(quán)利請(qǐng)求 (Subject Rights Request, SRR)和統(tǒng)一許可偏好性設(shè)置管理(Universal Consent and Preference Management, UCPM)。SRR可處理與響應(yīng)用戶提出的個(gè)人數(shù)據(jù)訪問(wèn)、修改和刪除等權(quán)利請(qǐng)求;UCPM可處理與響應(yīng)用戶對(duì)被收集的個(gè)人數(shù)據(jù)提出限制處理和拒絕的權(quán)利請(qǐng)求。SRR和UCPM產(chǎn)品,可劃分為兩個(gè)功能層:
(1)用戶側(cè)功能:在移動(dòng)App、應(yīng)用程序或網(wǎng)站網(wǎng)頁(yè)的產(chǎn)品界面中,為用戶增加清晰透明的請(qǐng)求窗戶與按鈕,包括提供個(gè)人數(shù)據(jù)查看、修改、刪除按鈕,或者限制處理的目的和拒絕與第三方公司共享等偏好性設(shè)置面板,類似于圖4所示;
圖4 SRR/UCPM產(chǎn)品為用戶提供面板(圖引自[9])Fig.4 Panel for SRR/UCPM products(cited from Ref.[9])
(2)企業(yè)側(cè)功能:企業(yè)后端系統(tǒng)收到請(qǐng)求,進(jìn)行身份識(shí)別與確認(rèn)后,對(duì)請(qǐng)求的內(nèi)容進(jìn)行解析,并對(duì)映射關(guān)聯(lián)實(shí)體數(shù)據(jù),在規(guī)定時(shí)間內(nèi)對(duì)請(qǐng)求進(jìn)行響應(yīng),將結(jié)果通過(guò)郵件或網(wǎng)頁(yè)形式反饋給發(fā)出請(qǐng)求的用戶。
歐美安全初創(chuàng)公司Securiti.ai、BigID和One Trust等多家均推出SRR和UCPM相關(guān)產(chǎn)品。但作為近年來(lái)的新興隱私合規(guī)技術(shù),未來(lái)仍然可進(jìn)一步發(fā)展:(1)提升流程效率,優(yōu)化響應(yīng)單個(gè)SRR/UCPM請(qǐng)求流程;(2)降低運(yùn)營(yíng)成本,包括考慮運(yùn)營(yíng)團(tuán)隊(duì)處理請(qǐng)求時(shí)所涉及的計(jì)算資源;(3)引入人工智能技術(shù),提升自動(dòng)化處理的效率與精度。
2.3.1 敏感數(shù)據(jù)智能識(shí)別
歐盟GDPR的核心是保護(hù)個(gè)人數(shù)據(jù),但對(duì)個(gè)人數(shù)據(jù)的定義十分寬泛,不僅包括姓名、年齡、性別等基本個(gè)人信息,還包括個(gè)人照片、IP、Mac、網(wǎng)絡(luò)Cookie等一系列信息(第4條);我國(guó)《網(wǎng)絡(luò)安全法》的“個(gè)人信息”同樣蘊(yùn)含豐富的個(gè)人基本信息以及特殊數(shù)據(jù),比如包括個(gè)人照片、身份證照片和指紋等(第76條)。如何識(shí)別這些特殊的“個(gè)人信息”,傳統(tǒng)的敏感數(shù)據(jù)識(shí)別方法,需要人工設(shè)計(jì)規(guī)則與字典,難以覆蓋全面,易出現(xiàn)漏檢現(xiàn)象。
智能敏感數(shù)據(jù)識(shí)別技術(shù)主要應(yīng)用在文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)類型中。它包括以下三類智能算法:(1)基于相似度算法:可準(zhǔn)確檢測(cè)以文檔形式存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù),例如 Word 與 PowerPoint 文件、PDF 文檔、財(cái)務(wù)文檔。主要思路是分別提取敏感信息文檔和待檢測(cè)文檔的指紋特征,然后通過(guò)相似度算法比較,根據(jù)預(yù)設(shè)的相似度閾值去確認(rèn)被檢測(cè)文檔是否為敏感信息文檔。(2)基于非監(jiān)督學(xué)習(xí)算法:它無(wú)需人工打標(biāo)簽。待檢測(cè)敏感數(shù)據(jù)提取特征后,使用K-means、DBSCAN等聚類算法,將輸入的樣本向量進(jìn)行聚類,聚類完成形成不同“簇”的數(shù)據(jù)集合,人工對(duì)這些“簇”的部分樣本進(jìn)行分析確定相應(yīng)“簇”的類別,比如敏感型、非敏感型。(3)基于監(jiān)督學(xué)習(xí)算法:它需收集一定數(shù)量的訓(xùn)練數(shù)據(jù)(比如文檔、圖片),同時(shí)對(duì)數(shù)據(jù)進(jìn)行人工打標(biāo)簽,比如敏感與非敏感標(biāo)簽。然后選擇相應(yīng)的監(jiān)督學(xué)習(xí)算法,比如支持向量機(jī)(SVM)、決策樹(shù)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等,再對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練與調(diào)參。訓(xùn)練完成,將輸出的模型應(yīng)用在新的數(shù)據(jù)進(jìn)行智能識(shí)別與預(yù)測(cè),自動(dòng)化輸出數(shù)據(jù)類型——敏感或非敏感數(shù)據(jù)。
在實(shí)際應(yīng)用中,創(chuàng)新公司Securiti.ai和 BigID均宣稱利用機(jī)器學(xué)習(xí)和聚類算法在大規(guī)模數(shù)據(jù)實(shí)現(xiàn)分類,以自動(dòng)化發(fā)現(xiàn)個(gè)人數(shù)據(jù)以及其他敏感數(shù)據(jù)。但算法的效率、識(shí)別精度以及可擴(kuò)展性仍然是一系列富有挑戰(zhàn)性的關(guān)鍵問(wèn)題。
2.3.2 數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估
歐盟GDPR規(guī)定,在數(shù)據(jù)處理過(guò)程中,應(yīng)當(dāng)選擇合適的技術(shù)措施合理地應(yīng)對(duì)安全風(fēng)險(xiǎn)(第32條)。我國(guó)《網(wǎng)絡(luò)安全法》要求企業(yè)采取一定的技術(shù)與管理措施,確保用戶個(gè)人信息與隱私安全(第42條)。數(shù)據(jù)脫敏是企業(yè)廣泛采用的一種安全技術(shù)措施,然而發(fā)現(xiàn)脫敏方法選擇不對(duì),脫敏強(qiáng)度不夠,仍然存在隱私泄露風(fēng)險(xiǎn)。在風(fēng)險(xiǎn)管理的視角下,如何刻畫和評(píng)估風(fēng)險(xiǎn)尤為關(guān)鍵。
數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估,是對(duì)脫敏后的數(shù)據(jù)的隱私泄露風(fēng)險(xiǎn)進(jìn)行分析和刻畫。其技術(shù)主要可分為兩類:基于人工抽查的定性判定方法和通用的評(píng)估技術(shù)。其中,基于人工抽查的定性判定方法,指的是按照標(biāo)準(zhǔn)流程和表格進(jìn)行專家檢查和判定,然而,這種方法成本十分昂貴。
通用的風(fēng)險(xiǎn)評(píng)估技術(shù)與數(shù)據(jù)脫敏方法與模型無(wú)關(guān),在學(xué)術(shù)上通常稱為重標(biāo)識(shí)風(fēng)險(xiǎn)(Re-identification risk)的度量。加拿大學(xué)者El Emam等人建立了較為通用的重標(biāo)識(shí)風(fēng)險(xiǎn)評(píng)估理論與方法[10],并根據(jù)攻擊者能力與攻擊意圖,將攻擊分為三類場(chǎng)景并將其形象化命名為:檢察官攻擊 (Prosecutor attack)、記者攻擊 (Journalist attack)和營(yíng)銷者攻擊 (Marketer attack)。在三種攻擊場(chǎng)景下,El Emam等人基于概率和分布設(shè)計(jì)了一套評(píng)價(jià)指標(biāo)體系,它包括8種指標(biāo),分別可以刻畫平均重標(biāo)識(shí)概率、最大重標(biāo)識(shí)概率、高重標(biāo)識(shí)記錄占比等風(fēng)險(xiǎn)信息。它們的數(shù)值范圍均為[0,1],1表示最高重標(biāo)識(shí)風(fēng)險(xiǎn),0表示幾乎最低重標(biāo)識(shí)風(fēng)險(xiǎn)。在具體應(yīng)用中,需根據(jù)實(shí)際情況,選擇合適的指標(biāo)進(jìn)行重標(biāo)識(shí)風(fēng)險(xiǎn)評(píng)估。
在工業(yè)應(yīng)用中,數(shù)據(jù)安全公司Privacy Analytics提供數(shù)據(jù)脫敏以及風(fēng)險(xiǎn)評(píng)估與檢測(cè),幫助數(shù)據(jù)處理企業(yè)實(shí)現(xiàn)HIPAA合規(guī),同時(shí)將數(shù)據(jù)共享或出售給保險(xiǎn)、藥企和科研結(jié)構(gòu)等第三方。目前該技術(shù)被我國(guó)一些專家學(xué)者重視,制定了一些相關(guān)標(biāo)準(zhǔn),并開(kāi)發(fā)一些相關(guān)的評(píng)估工具。比較有代表性的是綠盟科技提出的數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估方案,當(dāng)敏感數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)脫敏后,對(duì)脫敏數(shù)據(jù)集結(jié)果進(jìn)行風(fēng)險(xiǎn)評(píng)估,最終得到風(fēng)險(xiǎn)值,根據(jù)預(yù)置場(chǎng)景(內(nèi)部使用、與第三方共享、對(duì)外交易的、對(duì)外公開(kāi)發(fā)布的)閾值進(jìn)行比較,若不滿足分析原因,實(shí)施二次脫敏,直到脫敏的殘余風(fēng)險(xiǎn)在可控范圍。如圖5所示,對(duì)身份證號(hào)和手機(jī)號(hào)的數(shù)據(jù)集進(jìn)行三次“脫敏-評(píng)估”循環(huán),直至風(fēng)險(xiǎn)的可能性和危害性落入可接收范圍內(nèi)。
圖5 綠盟科技的數(shù)據(jù)脫敏風(fēng)險(xiǎn)評(píng)估應(yīng)用Fig.5 Application of risk assessment for data masking
2.3.3 用戶實(shí)體行為分析
同上一節(jié)的歐盟GDPR規(guī)定(第32條)和我國(guó)《網(wǎng)絡(luò)安全法》規(guī)定(第42條)的相關(guān)要求。在數(shù)據(jù)庫(kù)、大數(shù)據(jù)平臺(tái)的安全防護(hù)中,需記錄和分析用戶實(shí)體的正常和異常行為模式,比如防止數(shù)據(jù)由于外部攻擊或內(nèi)部原因?qū)е碌男孤┬袨?。傳統(tǒng)基于規(guī)則的異常檢測(cè)方法無(wú)法應(yīng)對(duì)復(fù)雜業(yè)務(wù)帶來(lái)的挑戰(zhàn)。
用戶實(shí)體行為分析(User and Entity Behavior Analytics, UEBA)技術(shù)通過(guò)對(duì)用戶實(shí)體持續(xù)的畫像與建模,可從海量收集的安全數(shù)據(jù)中及時(shí)發(fā)現(xiàn)和識(shí)別出攻擊以及異常的行為[11]。UEBA包括一些基本的分析方法(閾值分析),同時(shí)也包括一些高級(jí)分析方法(關(guān)聯(lián)分析,機(jī)器學(xué)習(xí)):
(1)閾值分析:主要是基于統(tǒng)計(jì)方法做異常檢測(cè)。對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),然后和閾值比較,如果超出閾值范圍,則判定為異常。比如統(tǒng)計(jì)正常的歷史流入流出流量的統(tǒng)計(jì)值作為閾值,進(jìn)行異常行為判定。
(2)關(guān)聯(lián)分析:用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系。可以基于算法做關(guān)聯(lián)分析,挖出數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,另外,還可以借助圖數(shù)據(jù)庫(kù)等工具,挖掘數(shù)據(jù)之間的關(guān)聯(lián)。
(3)機(jī)器學(xué)習(xí):通過(guò)對(duì)大量歷史數(shù)據(jù)持續(xù)進(jìn)化不斷學(xué)習(xí),能夠檢測(cè)和識(shí)別異常或惡意行為,特別是對(duì)數(shù)據(jù)安全未知威脅的檢測(cè)具有優(yōu)勢(shì)。UEBA通常應(yīng)用邏輯回歸、SVM、K-Means聚類、DBSCAN密度聚類、隨機(jī)森林等算法。
根據(jù) Gartner 報(bào)告,UEBA 在中大型企業(yè)(比如IBM,Google)已在一些安全場(chǎng)景實(shí)現(xiàn)落地與應(yīng)用,該技術(shù)已逐步趨向成熟。而在數(shù)據(jù)安全領(lǐng)域的應(yīng)用,典型應(yīng)用場(chǎng)景是數(shù)據(jù)庫(kù)泄露的異常檢測(cè)。以敏感數(shù)據(jù)為中心,通過(guò)采集用戶實(shí)體對(duì)數(shù)據(jù)操作相關(guān)維度信息,通過(guò)數(shù)據(jù)分析與學(xué)習(xí)過(guò)程,建立多維度實(shí)體的行為基線,利用機(jī)器學(xué)習(xí)算法和預(yù)定義規(guī)則找出嚴(yán)重偏離基線的異常行為,及時(shí)發(fā)現(xiàn)內(nèi)部用戶、合作伙伴竊取數(shù)據(jù)等違規(guī)行為。在該場(chǎng)景中,通常采用5W1H模型進(jìn)行UEBA分析與建模:Who(何人),When(何時(shí)),Where(何地),What(何事),Why(原因),How(行為方式)。通過(guò)6個(gè)維度實(shí)體行為的分析,可及時(shí)發(fā)現(xiàn)數(shù)據(jù)泄露與異常操作行為。
2.4.1 數(shù)據(jù)匿名
GDPR規(guī)定,企業(yè)不能直接共享原始的個(gè)人數(shù)據(jù),但對(duì)個(gè)人數(shù)據(jù)進(jìn)行匿名化處理得到的匿名數(shù)據(jù),可用于統(tǒng)計(jì)和研究目的,其不受該法規(guī)約束與限制(前言的第26段);我國(guó)《網(wǎng)絡(luò)安全法》也有類似的規(guī)定,“經(jīng)過(guò)處理無(wú)法識(shí)別特定個(gè)人且不能復(fù)原”的數(shù)據(jù)可與第三方進(jìn)行共享(第42條)。如何實(shí)現(xiàn)低成本的、安全合規(guī)的個(gè)人數(shù)據(jù)共享與發(fā)布,這對(duì)于企業(yè)來(lái)說(shuō)是挑戰(zhàn)性問(wèn)題。
數(shù)據(jù)匿名 (Data Anonymization),是對(duì)個(gè)人信息進(jìn)行泛化和屏蔽等處理,使得對(duì)應(yīng)的個(gè)人信息主體無(wú)法被識(shí)別,達(dá)到“身份匿名或隱藏”的效果。
在匿名化技術(shù)中,K-匿名是最早研究的技術(shù)[12]。它可以保證數(shù)據(jù)表中至少有K條記錄泛化為相同的取值。這樣處理保證了一定的數(shù)據(jù)可用性,同時(shí)也保護(hù)了患者的隱私——即使攻擊者有背景知識(shí),也無(wú)法唯一地確定到底哪一條記錄屬于朋友的診斷記錄。
由于K-匿名不對(duì)敏感屬性進(jìn)行約束,當(dāng)?shù)葍r(jià)組的敏感屬性取值相同時(shí),仍然存在隱私泄露風(fēng)險(xiǎn)。后續(xù)學(xué)者提出了L-多樣性(L-diversity)[13]和T-近似性(T-closeness)[14]模型。
(1)L-多樣性模型:它不僅可以保證形成的等價(jià)組至少包含K個(gè)記錄,同時(shí)通過(guò)修改敏感屬性或者添加偽造記錄,使得任意等價(jià)組的敏感屬性至少包含L個(gè)不同的值。
(2)T-近似性模型:它不僅可以保證形成的等價(jià)組至少包含K個(gè)記錄,同樣通過(guò)修改敏感屬性或者添加偽造記錄,使得任意的等價(jià)組的敏感屬性的分布與全局的敏感屬性分布之間的距離度量值小于參數(shù)T。
總的來(lái)說(shuō),各個(gè)模型的隱私保護(hù)程度效果,T-近似性優(yōu)于L-多樣性,L-多樣性優(yōu)于K-匿名;然而對(duì)于數(shù)據(jù)可用性,卻正好相反。在實(shí)際應(yīng)用場(chǎng)景中,需根據(jù)兩者的具體需求進(jìn)行技術(shù)選型。
在工業(yè)界應(yīng)用中,數(shù)據(jù)匿名技術(shù)有豐富開(kāi)源項(xiàng)目,其中ARX較為成熟,支持K-匿名、L-多樣和T-近似模型,且提供豐富的界面和API接口。同時(shí)數(shù)據(jù)匿名技術(shù)在Google、Privitar和Anonos等公司均有一定的應(yīng)用。然而,該技術(shù)仍然存在挑戰(zhàn)性問(wèn)題有待進(jìn)一步解決,比如在高維數(shù)據(jù)集上表現(xiàn)的數(shù)據(jù)可用性急劇下降問(wèn)題,多個(gè)敏感屬性的匿名化處理,匿名算法優(yōu)化以及在大數(shù)據(jù)平臺(tái)的應(yīng)用等問(wèn)題。
2.4.2 同態(tài)加密
歐盟GDPR對(duì)于個(gè)人數(shù)據(jù)保護(hù)的安全措施,推薦使用加密等手段,以應(yīng)對(duì)數(shù)據(jù)存儲(chǔ)與處理環(huán)節(jié)的安全風(fēng)險(xiǎn)(32條);我國(guó)《網(wǎng)絡(luò)安全法》同樣推薦應(yīng)用加密等技術(shù)措施,以防止數(shù)據(jù)與個(gè)人信息的泄露以及毀損等安全問(wèn)題(21條)。傳統(tǒng)的數(shù)據(jù)加密方法,如AES、3DES和SM4,加密得到的密文數(shù)據(jù)無(wú)法進(jìn)一步分析。在兼顧數(shù)據(jù)安全與數(shù)據(jù)利用的應(yīng)用場(chǎng)景中,如云上的敏感數(shù)據(jù)計(jì)算,需要使用一種新型的加密技術(shù),不僅能保障數(shù)據(jù)的安全,同時(shí)加密后仍然可以執(zhí)行數(shù)據(jù)處理操作。
同態(tài)加密(Homomorphic Encryption,HE)是應(yīng)對(duì)以上需求的一類關(guān)鍵技術(shù)。它的概念最早由Rivest等人在1978年提出[15],它是一種特殊加密算法,其形式化可表述為:假設(shè)A和B是兩個(gè)待加密的明文,Enc(g)是其加密函數(shù),那么它存在以下關(guān)系(被稱為數(shù)學(xué)同態(tài)):
通俗地講,密文域進(jìn)行?操作相當(dāng)于在明文域進(jìn)行?操作(?和?是兩種特定的數(shù)學(xué)運(yùn)算)。這種性質(zhì)使得加密數(shù)據(jù)的處理、分析與檢索等操作成為可能,同時(shí)在云計(jì)算趨勢(shì)下該技術(shù)具有極其重要的應(yīng)用價(jià)值。下面以簡(jiǎn)單例子進(jìn)行闡述:如圖6表示,假設(shè)在不可信的云環(huán)境中,員工C1上傳兩個(gè)密文數(shù)Enc(A)和Enc(B),到不可信的云平臺(tái)中,員工C2提交兩個(gè)明文數(shù)據(jù)進(jìn)行?的任務(wù),那么公有云平臺(tái)翻譯過(guò)來(lái)的數(shù)據(jù)執(zhí)行動(dòng)作為:密文操作Enc(A))?Enc(B)。由于數(shù)據(jù)從始至終一直處于加密狀態(tài),那么無(wú)論是云服務(wù)廠商,還是攻擊者他們都將無(wú)法訪問(wèn)或竊取明文數(shù)據(jù),從而保障了云平臺(tái)的數(shù)據(jù)安全。
圖6 同態(tài)加密在云平臺(tái)應(yīng)用Fig.6 Homomorphic encryption in the cloud
根據(jù)同態(tài)加密能力,將同態(tài)加密分為加法同態(tài)、乘法同態(tài)和全同態(tài)加密(Full Homomorphic Encryption,F(xiàn)HE)。其中,全同態(tài)加密可同時(shí)滿足加法同態(tài)和乘法同態(tài),同時(shí)可執(zhí)行任何次數(shù)的加和乘運(yùn)算后仍具有同態(tài)性。全同態(tài)加密方案具有重要的理論與應(yīng)用價(jià)值。2009年IBM的研究人員Gentry首次提出了一個(gè)完整的FHE方案[16]。但研究發(fā)現(xiàn),Gentry方案計(jì)算開(kāi)銷較高,且密鑰規(guī)模、密文尺寸較大。隨后,一些改進(jìn)方案被提出,例如BGV方案、基于誤差學(xué)習(xí)(Learning with Errors, LWE)、理想陪集問(wèn)題(Ideal Coset Problem,ICP)、整數(shù)上的近似最大公因子問(wèn)題(Approximate Greatest Common Devisior,AGCD)等方案。
在工業(yè)界應(yīng)用上,微軟有在Github開(kāi)源的同態(tài)加密庫(kù)SEAL;IBM公司將同態(tài)加密(FHE)在Linux系統(tǒng)的應(yīng)用工具進(jìn)行開(kāi)源——FHE Toolkit Linux,以及IBM同態(tài)加密庫(kù)HElib;Duality公司推出同態(tài)加密SecurePlus平臺(tái)[17],圖7是該平臺(tái)在金融領(lǐng)域應(yīng)用,通過(guò)應(yīng)用同態(tài)加密技術(shù)可使得敏感數(shù)據(jù)在整個(gè)處理生命周期中,始終保持加密狀態(tài),用戶無(wú)需解密即可計(jì)算和分析數(shù)據(jù)。也就是說(shuō),平臺(tái)用戶可在遵守隱私和金融法規(guī)下,即不暴露敏感的個(gè)人或商業(yè)信息前提下,實(shí)現(xiàn)交易查詢、實(shí)體和賬戶及金融犯罪信息的調(diào)查。然而,現(xiàn)有的同態(tài)加密技術(shù)與方案需要消耗大量的計(jì)算資源、存儲(chǔ)資源(體現(xiàn)在高額的實(shí)現(xiàn)成本)是目前實(shí)用化的主要挑戰(zhàn),目前只能應(yīng)用和部署在安全要求較高的特定場(chǎng)景中,離廣泛的商業(yè)應(yīng)用仍然有一段較長(zhǎng)的距離。
圖7 Duality SecurePlus平臺(tái)在金融數(shù)據(jù)查詢的應(yīng)用(圖引自[17])Fig.7 Application of Duality SecurePlus platform in financial data query(cited from Ref.[17])
2.4.3 安全多方計(jì)算
同上一節(jié)的歐盟GDPR規(guī)定(第32條)和我國(guó)《網(wǎng)絡(luò)安全法》規(guī)定(第21條)的相關(guān)合規(guī)性要求。在傳統(tǒng)的多方數(shù)據(jù)共享與計(jì)算場(chǎng)景,各方需將各自的敏感數(shù)據(jù)分別上傳至服務(wù)器后,再進(jìn)行計(jì)算。然而該方案仍然存在第三方隱私竊取問(wèn)題。因此需提出“去中心化”的隱私保護(hù)方案。
安全多方計(jì)算(Secure Multi-party Computation,MPC)正是實(shí)現(xiàn)以上安全與合規(guī)目標(biāo)的一類重要技術(shù)方案。它可以看作是多個(gè)節(jié)點(diǎn)參與的特殊計(jì)算協(xié)議,即在一個(gè)分布式的環(huán)境中,各參與方在互不信任的情況下進(jìn)行協(xié)同計(jì)算,輸出計(jì)算結(jié)果,并保證任何一方均無(wú)法得到除應(yīng)得的計(jì)算結(jié)果之外的其他任何信息,包括輸入和計(jì)算過(guò)程的狀態(tài)等信息。它解決了在不信任環(huán)境下多個(gè)參與方聯(lián)合計(jì)算一個(gè)函數(shù)的問(wèn)題[18]。為了闡述原理,圖8給出了安全多方計(jì)算與傳統(tǒng)分布式計(jì)算兩種模式的區(qū)別。
圖8 安全多方計(jì)算與傳統(tǒng)分布式計(jì)算的比較:(a)傳統(tǒng)分布式計(jì)算;(b)安全多方計(jì)算Fig.8 Comparison between secure multi-party computing and traditional distributed computing: (a)Traditional distributed computing; (b)Secure multi-party computing
MPC具有以下的特點(diǎn):(1)隱私性:參與方僅限于獲得自己一方的輸入和輸出數(shù)據(jù),除此之外,其他方的數(shù)據(jù)無(wú)法獲得。(2)正確性:可確保聯(lián)合計(jì)算之后所有參與方都能獲得正確的計(jì)算結(jié)果。(3)去中心化:不同于傳統(tǒng)的分布式計(jì)算,在安全多方計(jì)算中提供了一種去中心化的計(jì)算模式,各參與方的地位平等,不存在擁有特權(quán)的第三方。
實(shí)現(xiàn)多方安全計(jì)算協(xié)議主要有基于混淆電路(Garbled Circuit,GC)、秘密分享(Secret Sharing,SS)和同態(tài)加密三種方式。根據(jù)支持的計(jì)算任務(wù)場(chǎng)景可分為專用MPC和通用MPC兩類。其中,專用MPC支持特定計(jì)算任務(wù)的MPC,比如比較數(shù)值大小、隱私求交集(Private Set Intersection,PSI)計(jì)算協(xié)議等;而通用場(chǎng)景MPC理論上可支持任何計(jì)算任務(wù),它具有完備性。
在工業(yè)應(yīng)用中,兩方計(jì)算技術(shù)發(fā)展較為成熟,目前有多種實(shí)現(xiàn)方案,比如2004年發(fā)布的Fairplay系統(tǒng)是第一個(gè)實(shí)現(xiàn)的系統(tǒng);Google使用PSI技術(shù)對(duì)Chrome用戶的其他網(wǎng)絡(luò)賬戶密碼進(jìn)行泄露密碼庫(kù)的檢測(cè),同時(shí)保證無(wú)法獲取原始密碼信息。對(duì)于多方計(jì)算,在某些特定場(chǎng)景下也具有較好性能,然而通用的場(chǎng)景具有諸多挑戰(zhàn),例如擴(kuò)展性問(wèn)題、效率問(wèn)題以及誠(chéng)實(shí)性問(wèn)題(輸入方可能輸入虛假數(shù)據(jù)或篡改狀態(tài)數(shù)據(jù)),這些問(wèn)題亟需未來(lái)進(jìn)一步研究與解決。
2.4.4 聯(lián)邦學(xué)習(xí)
同2.4.2節(jié)的歐盟GDPR規(guī)定(第32條)和我國(guó)《網(wǎng)絡(luò)安全法》規(guī)定(第21條)的相關(guān)要求。傳統(tǒng)的分布式機(jī)器學(xué)習(xí)主要用于解決計(jì)算瓶頸,但無(wú)法保障輸入數(shù)據(jù)與隱私的安全。具備隱私保護(hù)的機(jī)器學(xué)習(xí)成為新一代機(jī)器學(xué)習(xí)發(fā)展的關(guān)鍵需求。
聯(lián)邦學(xué)習(xí)(Federated Learning, FL)正是滿足以上隱私與安全需求的一類機(jī)器學(xué)習(xí)方法。它的概念最早由Google在2016年提出[19],原本用于解決大規(guī)模Android終端協(xié)同分布式機(jī)器學(xué)習(xí)的隱私問(wèn)題。作為一種新興的技術(shù),聯(lián)邦學(xué)習(xí)有機(jī)融合了機(jī)器學(xué)習(xí)、分布式通信,以及隱私保護(hù)技術(shù)與理論。
隨著全球隱私法規(guī)的強(qiáng)化,以及數(shù)據(jù)挖掘需求的旺盛,自從聯(lián)邦學(xué)習(xí)概念提出以來(lái),在學(xué)術(shù)界和工業(yè)界受到廣泛的關(guān)注與研究,發(fā)展十分迅速,不僅可應(yīng)用于2C場(chǎng)景——如用戶移動(dòng)設(shè)備,還推廣到了面向企業(yè)場(chǎng)景——企業(yè)組織間的敏感數(shù)據(jù)共享與機(jī)器學(xué)習(xí)。聯(lián)邦學(xué)習(xí)可以使得多個(gè)參與方(如企業(yè)、用戶移動(dòng)設(shè)備)在不交換原始數(shù)據(jù)情況下,實(shí)現(xiàn)聯(lián)合機(jī)器學(xué)習(xí)建模、訓(xùn)練和模型部署。簡(jiǎn)單來(lái)看,聯(lián)邦學(xué)習(xí)它是一個(gè)可隱私保護(hù)的分布式機(jī)器學(xué)習(xí)框架與算法。
按照參與方使用數(shù)據(jù)集的場(chǎng)景不同,聯(lián)邦學(xué)習(xí)分為三種類別:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和遷移聯(lián)邦學(xué)習(xí)。橫向聯(lián)邦學(xué)習(xí)各方使用的不同數(shù)據(jù)集,其樣本的維度大部分是相同的,但各方的樣本ID是不同的;縱向聯(lián)邦學(xué)習(xí)各方使用的數(shù)據(jù)集樣本ID大部分是相同的,但各方的樣本維度是不同的;遷移聯(lián)邦學(xué)習(xí)各方使用的數(shù)據(jù)集樣本具有高度的差異,即樣本ID和樣本維度僅有少部分的重疊。
聯(lián)邦學(xué)習(xí)的核心思想是在保證原始數(shù)據(jù)不出本地域情況下,實(shí)現(xiàn)多方的數(shù)據(jù)共享與聯(lián)合建模。那么,多方建模過(guò)程涉及的原始數(shù)據(jù)需進(jìn)行轉(zhuǎn)換,聯(lián)邦學(xué)習(xí)首先將原始數(shù)據(jù)進(jìn)行特征化、參數(shù)化過(guò)程保證了原始數(shù)據(jù)的“不可見(jiàn)”;同時(shí)通過(guò)對(duì)提取的特征向量、參數(shù)用差分隱私、同態(tài)加密或安全多方計(jì)算技術(shù)避免數(shù)據(jù)重構(gòu)攻擊、模型反演攻擊導(dǎo)致的隱私泄露。
聯(lián)邦學(xué)習(xí)近年來(lái)在工業(yè)界得到了廣泛關(guān)注,國(guó)內(nèi)外多家企業(yè)開(kāi)展了探索,并且開(kāi)展了一些商業(yè)化落地案例。例如谷歌將聯(lián)邦學(xué)習(xí)應(yīng)用在Android手機(jī)的新聞推薦、輸入法Gboard,并推出 TensorFlow Federated聯(lián)邦學(xué)習(xí)開(kāi)源框架;Intel 將TEE(可信任執(zhí)行環(huán)境)技術(shù)與聯(lián)邦學(xué)習(xí)進(jìn)行結(jié)合;國(guó)內(nèi)的以微眾銀行為代表的企業(yè)將聯(lián)邦學(xué)習(xí)應(yīng)用在保險(xiǎn)定價(jià)、圖像檢測(cè)等領(lǐng)域,并開(kāi)源了FATE聯(lián)邦學(xué)習(xí)框架。然而,總的來(lái)說(shuō),聯(lián)邦學(xué)習(xí)的發(fā)展仍處于初步發(fā)展階段,當(dāng)前仍面臨諸多挑戰(zhàn),例如:如何解決參與方誠(chéng)信問(wèn)題,如何設(shè)計(jì)聯(lián)邦學(xué)習(xí)框架有效的激勵(lì)機(jī)制,高效通信機(jī)制研究,以及探索更多聯(lián)邦學(xué)習(xí)的應(yīng)用場(chǎng)景。
在全球數(shù)據(jù)安全法規(guī)監(jiān)管的不斷強(qiáng)化趨勢(shì)背景下,合規(guī)性成為了企業(yè)數(shù)據(jù)安全建設(shè)與治理的重要驅(qū)動(dòng)力。在合規(guī)視角下,數(shù)據(jù)安全的內(nèi)涵在合規(guī)與業(yè)務(wù)安全雙重需求驅(qū)動(dòng)下不斷外延和擴(kuò)展,安全問(wèn)題的日益凸顯及數(shù)據(jù)安全覆蓋的應(yīng)用場(chǎng)景將變得更加多樣化,這給傳統(tǒng)的數(shù)據(jù)安全技術(shù)與解決方案帶來(lái)了巨大的挑戰(zhàn)。為此,本文引入十種前沿的數(shù)據(jù)安全技術(shù),包括知識(shí)圖譜、用戶實(shí)體行為分析、同態(tài)加密、安全多方計(jì)算、聯(lián)邦學(xué)習(xí)和差分隱私等;根據(jù)這十種技術(shù)的發(fā)展起源與功能特點(diǎn),將其映射到三大類企業(yè)數(shù)據(jù)安全場(chǎng)景——用戶隱私合規(guī)、數(shù)據(jù)安全治理、數(shù)據(jù)共享計(jì)算,本文詳細(xì)剖析了這三類場(chǎng)景的合規(guī)要求與安全挑戰(zhàn),同時(shí)分別闡述和探討這些技術(shù)的原理、應(yīng)用以及當(dāng)前面臨的挑戰(zhàn)。
從宏觀視角看,數(shù)據(jù)安全領(lǐng)域當(dāng)前面臨諸多關(guān)鍵性挑戰(zhàn),亟需未來(lái)進(jìn)一步解決。首先,數(shù)據(jù)安全建設(shè)是一個(gè)系統(tǒng)性工程,不僅要靠技術(shù)也需靠管理,如何建立完善的數(shù)據(jù)安全管理體系和技術(shù)體系,充分利用和發(fā)揮好技術(shù)與管理的關(guān)系,如何將新型技術(shù)與成熟技術(shù)(如加密、去標(biāo)識(shí)化等)進(jìn)行有效結(jié)合等是重要的關(guān)注點(diǎn);其次,數(shù)據(jù)安全建設(shè)是一個(gè)長(zhǎng)期持續(xù)改進(jìn)的過(guò)程,需研究與建立一套基于數(shù)據(jù)安全風(fēng)險(xiǎn)管理的評(píng)估模型,通過(guò)“風(fēng)險(xiǎn)識(shí)別-風(fēng)險(xiǎn)控制-風(fēng)險(xiǎn)評(píng)估”的閉環(huán)迭代,持續(xù)進(jìn)行改進(jìn)與優(yōu)化;最后,需強(qiáng)調(diào)的是數(shù)據(jù)安全與數(shù)據(jù)應(yīng)用不應(yīng)是矛盾與對(duì)立的關(guān)系,如何平衡兩者的關(guān)系,在保障數(shù)據(jù)安全的同時(shí)讓數(shù)據(jù)價(jià)值最大化,未來(lái)需從技術(shù)的理論和應(yīng)用兩個(gè)角度開(kāi)展深入研究。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。