桑亮
目前,個人數(shù)據(jù)已成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重要基礎(chǔ)資源之一,需求日趨旺盛。而個人數(shù)據(jù)被濫用和黑市交易的日益猖獗,使隱私保護(hù)呼聲日益高漲。面對這一供需矛盾,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展亟須完善個人數(shù)據(jù)的隱私保護(hù)。
數(shù)據(jù)隱私保護(hù)刻不容緩
在大數(shù)據(jù)發(fā)展成為國家戰(zhàn)略的背景下,個人數(shù)據(jù)已成為重要資源,其使用中面臨的隱私保護(hù)問題亟待解決。大數(shù)據(jù)浪潮洶涌來襲,與互聯(lián)網(wǎng)的發(fā)明一樣,不僅是信息技術(shù)領(lǐng)域的革命,更是在全球范圍啟動透明政府、加速企業(yè)創(chuàng)新、引領(lǐng)社會變革的利器。
進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)的隱私問題包括兩個方面:一方面是個人隱私的保護(hù)。隨著數(shù)據(jù)采集技術(shù)的發(fā)展,在用戶無法察覺的時(shí)候就能容易地獲得用戶的個人興趣、習(xí)慣、身體特征等隱私信息;另一方面是個人隱私數(shù)據(jù)在存放、傳輸和使用的過程中,也有被泄露的風(fēng)險(xiǎn)。
美國Facebook公司被認(rèn)為是目前擁有最多的社交網(wǎng)絡(luò)數(shù)據(jù)的大數(shù)據(jù)公司。這些擁有大數(shù)據(jù)的組織,都試圖通過復(fù)雜計(jì)算來挖掘數(shù)據(jù)中有價(jià)值的信息。其中的隱私保護(hù)技術(shù)是關(guān)鍵。
據(jù)報(bào)道,通過一款信息收集工具,Skull Security的研究人員羅恩·鮑維斯獲取了Facebook用戶公共頁面的數(shù)據(jù),而這些用戶沒有修改他們的隱私設(shè)置。鮑維斯將這些數(shù)據(jù)打包成一份2.8GB的內(nèi)容,并創(chuàng)建BT種子供他人下載,并將其用于建立模型,以精準(zhǔn)投放廣告等方式干預(yù)全球多地選舉或公民投票前的民意。Facebook公司承認(rèn),8700萬用戶受影響。
在美國參議院相關(guān)委員會的聽證會上,扎克伯格承認(rèn),在預(yù)防Facebook等社交工具被濫用等方面做得還不夠,使其被用來傳播假新聞、仇恨言論、干涉選舉等等。
由此可見,大數(shù)據(jù)的分析能力導(dǎo)致看似簡單的信息可能會被挖掘出其中的隱私,因此面對大數(shù)據(jù)時(shí)代的隱私保護(hù)成為新的課題。
個人數(shù)據(jù)成為重要基礎(chǔ)資源
2012年3月,奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,旨在提升美國從龐大而復(fù)雜的數(shù)字資料中提煉真知灼見的能力,以協(xié)助科學(xué)、工程領(lǐng)域加快創(chuàng)新步伐,強(qiáng)化美國國土安全,轉(zhuǎn)變教育和學(xué)習(xí)模式。
2012年5月,英國政府宣布建立世界首個開放數(shù)據(jù)研究所,旨在從開放數(shù)據(jù)中尋求產(chǎn)品創(chuàng)新、創(chuàng)業(yè)機(jī)遇和經(jīng)濟(jì)增長點(diǎn)。在發(fā)達(dá)國家紛紛將大數(shù)據(jù)發(fā)展上升為國家戰(zhàn)略的背景下,無論是技術(shù)還是產(chǎn)業(yè),在大數(shù)據(jù)領(lǐng)域喪失主動權(quán),都意味著國家安全將在數(shù)字空間出現(xiàn)漏洞,國家創(chuàng)新能力將在未來國際競爭中落后于人。
我國人口眾多,很多領(lǐng)域都能出現(xiàn)全球最大、最復(fù)雜的“數(shù)據(jù)池”,大數(shù)據(jù)應(yīng)用前景十分廣闊。國內(nèi)不少企業(yè)家已經(jīng)意識到了數(shù)據(jù)的戰(zhàn)略價(jià)值,如阿里巴巴集團(tuán)董事局主席馬云就提出過銷售數(shù)據(jù)的觀點(diǎn)。而大數(shù)據(jù)是如何產(chǎn)生的?它的來源主要有哪些呢?大數(shù)據(jù)的原材料即數(shù)據(jù),其來源主要有以下四類。
一是網(wǎng)絡(luò)。社交網(wǎng)站以及電子商務(wù)網(wǎng)站是大數(shù)據(jù)的主要來源,服務(wù)提供商可以利用這些數(shù)據(jù)對用戶進(jìn)行仔細(xì)的分析,從而深入了解用戶的需求,提供更加具有針對性的服務(wù),如亞馬遜、京東等電子商務(wù)平臺提供的商品推薦服務(wù)。
二是移動智能終端。通過智能手機(jī)、平板電腦、電子書、PDA、導(dǎo)航儀等移動互聯(lián)網(wǎng)終端設(shè)備搜集相關(guān)信息,可以進(jìn)行有效的決策,比如交通監(jiān)控和疏導(dǎo)系統(tǒng)。
三是物聯(lián)網(wǎng)終端。分布在不同地理位置上的傳感器以及嵌入物體中的RFID,對所處環(huán)境進(jìn)行感知,不斷生成數(shù)據(jù)。
四是科研。如在物理研究方面,大型強(qiáng)子對撞機(jī)每年積累的新數(shù)據(jù)量為15PB左右。
顯而易見,數(shù)據(jù)來源中不少是個人數(shù)據(jù)。個人數(shù)據(jù)的大數(shù)據(jù)分析能直接產(chǎn)生經(jīng)濟(jì)效益,是現(xiàn)階段極為重要的基礎(chǔ)資源。而關(guān)于個人數(shù)據(jù),按照數(shù)據(jù)的來源,2011年世界經(jīng)濟(jì)論壇編制的報(bào)告將個人數(shù)據(jù)分為以下三類。
一是自愿提供的數(shù)據(jù)。即用戶自愿提供的一系列數(shù)據(jù),如微博發(fā)表的各種言論及照片、向某些網(wǎng)站注冊時(shí)提交的信息等。
二是被觀測到的數(shù)據(jù)。即用戶在使用信息設(shè)施或者軟件時(shí),被記錄和觀察到的一系列行為數(shù)據(jù),如上網(wǎng)記錄、購物記錄、搜索記錄等。
三是被推斷的數(shù)據(jù)。即根據(jù)用戶的各種信息推測的個人數(shù)據(jù),如個人信用評級、消費(fèi)需求、購物偏好等。
按照是否涉及隱私,可以將個人數(shù)據(jù)分為敏感性和非敏感性個人數(shù)據(jù)。
敏感性個人數(shù)據(jù)涉及個人隱私,法律給予特殊保護(hù),某些數(shù)據(jù)會有專門法律進(jìn)行規(guī)制,如個人征信數(shù)據(jù)。不同的國家對于敏感性數(shù)據(jù)的劃分有所不同,如歐盟將種族、宗教信仰作為敏感性數(shù)據(jù),中國對此沒有特殊規(guī)定。
非敏感性個人數(shù)據(jù)指不涉及個人隱私的數(shù)據(jù),一般沒有特殊保護(hù)。
詳解個人隱私數(shù)據(jù)
主要發(fā)達(dá)國家在積極部署國家安全的同時(shí),著力加強(qiáng)了對個人隱私的保護(hù)。反觀我國大數(shù)據(jù)領(lǐng)域的發(fā)展,面對日益增長的需求,在當(dāng)前個人數(shù)據(jù)規(guī)制還不健全的情況下,如何保證在當(dāng)前的大數(shù)據(jù)時(shí)代,用戶隱私不泄露的前提下,提高大數(shù)據(jù)的利用率,挖掘大數(shù)據(jù)的價(jià)值,是目前大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵問題。
而談到大數(shù)據(jù)環(huán)境下的個人隱私保護(hù),首先需要清楚大數(shù)據(jù)產(chǎn)生的過程中,哪些個人數(shù)據(jù)屬于個人隱私數(shù)據(jù)。個人數(shù)據(jù)的內(nèi)容復(fù)雜多樣,不勝枚舉,以下以當(dāng)前頻繁使用的主要數(shù)據(jù)進(jìn)行分類。
一是交易數(shù)據(jù)。交易數(shù)據(jù)中的用戶賬戶、支付記錄、消費(fèi)商品記錄及電子賬戶余額等均為重要的個人數(shù)據(jù)。
二是電子郵件數(shù)據(jù)。電子郵件中,用戶隱私數(shù)據(jù)和商務(wù)機(jī)密數(shù)據(jù)較多。不僅可能包括用戶對某一熱點(diǎn)事件的看法,而且可能包括用戶的年齡、愛好和學(xué)歷等重要基本信息。
三是社交媒體數(shù)據(jù)。社交媒體數(shù)據(jù)則包括了位置信息、行為特征甚至與意識形態(tài)相關(guān)的重要數(shù)據(jù)等。這些重要的個人數(shù)據(jù)不僅蘊(yùn)涵著較大的商業(yè)價(jià)值,而且對于經(jīng)濟(jì)組織乃至國家而言,極具戰(zhàn)略性意義。
四是位置信息/數(shù)據(jù)。隨著移動終端的普及并成為生活必需品,個人的位置信息無所遁形,都被移動終端記載下來。
五是醫(yī)療信息。世界上不少國家已經(jīng)應(yīng)用了電子健康記錄。隨著電子健康記錄的逐步推廣,個人的病史、健康狀況、醫(yī)療保險(xiǎn)等也將成為重要的個人數(shù)據(jù)。
部分個人數(shù)據(jù)屬于個人隱私。并非所有個人數(shù)據(jù)都是隱私。有時(shí)候,每個碎片化的個人數(shù)據(jù)不是隱私,一旦將其組合分析,便涉及個人隱私。
大數(shù)據(jù)的發(fā)展可能使個人隱私無所遁形,以至于國外隱私保護(hù)主義者擔(dān)憂出現(xiàn)“Big Data is Big Brother”(美國著名小說《1984》中的獨(dú)裁者老大哥,隨時(shí)監(jiān)控著人們)的情況。只有解除這一擔(dān)憂,才能給大數(shù)據(jù)發(fā)展掃清道路。
用策略性技術(shù)保障數(shù)據(jù)安全
那么,如何在大數(shù)據(jù)時(shí)代盡量保證個人的隱私數(shù)據(jù)不被泄露呢?在當(dāng)前大數(shù)據(jù)時(shí)代中,大家普遍認(rèn)可的隱私保護(hù)技術(shù),主要有k-anonymity(k-匿名化)、l-diversity( l-多樣化)、t-closeness個性化匿名、m-invariance匿名、基于“角色構(gòu)成”的匿名方法等,這里我們不再詳細(xì)做展開闡述,不論是從隱私保護(hù)模型、數(shù)據(jù)生命周期,還是數(shù)據(jù)隱私保護(hù)技術(shù)本身的算法,很多技術(shù)性的文章已經(jīng)詳細(xì)介紹了這些隱私保護(hù)技術(shù)對數(shù)據(jù)的保護(hù)。
行文至此,數(shù)據(jù)隱私保護(hù)的重要性已經(jīng)不言而喻,如何使用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)的安全加固,恰當(dāng)?shù)募夹g(shù)策略更顯得尤為重要。所以,下文將通過5個方面的隱私保護(hù)技術(shù)進(jìn)行策略性的說明。
采用數(shù)據(jù)加密技術(shù)保護(hù)數(shù)據(jù)隱私
在考慮大數(shù)據(jù)發(fā)展的同時(shí)必須防止數(shù)據(jù)的丟失。安全問題在信息時(shí)代越來越多,對加密技術(shù)的靈活性和針對性的要求也越來越高。因此多模透明加密技術(shù)就成為最佳選項(xiàng)。這種技術(shù)結(jié)合了對稱和非對稱算法的優(yōu)點(diǎn),在不損失加密質(zhì)量的同時(shí)更加靈活。處理方式越靈活,越有利于為大規(guī)模的數(shù)據(jù)安全提供保障。
此外,在透明加密技術(shù)的幫助下,人們幾乎感覺不到大數(shù)據(jù)的加密。該技術(shù)是基于系統(tǒng)內(nèi)核的,這意味著它將具有更好的兼容性。既然我們要對數(shù)據(jù)隱私進(jìn)行保護(hù),那么保護(hù)數(shù)據(jù)本身就應(yīng)該是我們考慮的起點(diǎn),因此我們最好使用加密軟件。針對性強(qiáng)、防護(hù)全面的加密軟件像哨兵一樣保護(hù)了大數(shù)據(jù)的發(fā)展。對于企業(yè)來說,為了保護(hù)數(shù)據(jù)安全,擁有快速檢測數(shù)據(jù)威脅的能力是非常重要的,目前部分企業(yè)已經(jīng)能夠做到這一點(diǎn)。
重新設(shè)計(jì)大數(shù)據(jù)架構(gòu)層面的安全工具
大數(shù)據(jù)和關(guān)系型數(shù)據(jù)庫,這二者看似差別甚微,實(shí)際上有很大的區(qū)別。首先,它們具有不同的實(shí)時(shí)性,數(shù)據(jù)量也有差別。其次,它們的分布式架構(gòu)也不盡相同,而分布式架構(gòu)正是給安全防護(hù)帶來獨(dú)特困難的“元兇”。此外,大數(shù)據(jù)在存儲與查詢時(shí)采取與后者不同的模式,此外還需要協(xié)調(diào)不同網(wǎng)絡(luò)會話。在大數(shù)據(jù)環(huán)境中,安全產(chǎn)品中有很多技術(shù)已經(jīng)處于失效狀態(tài),其中包括監(jiān)視與分析日志、發(fā)現(xiàn)數(shù)據(jù)以及評估漏洞等方面。因此,需要在架構(gòu)層面上重新設(shè)計(jì)安全工具,以滿足大數(shù)據(jù)環(huán)境中的安全需要。
加固大數(shù)據(jù)網(wǎng)絡(luò)技術(shù)的安全防護(hù)
進(jìn)行大數(shù)據(jù)應(yīng)用開發(fā)時(shí),將數(shù)據(jù)結(jié)構(gòu)化是一個好方法。該方法降低了數(shù)據(jù)處理和分類的難度,同時(shí)也方便了數(shù)據(jù)管理和加密。這樣當(dāng)發(fā)生非法入侵時(shí),系統(tǒng)就可以準(zhǔn)確高效地分辨出入侵行為,從而保證了大量數(shù)據(jù)在使用前不會被破壞。這種方法提高了系統(tǒng)的效率,但本質(zhì)上并沒有改變數(shù)據(jù)安全格局。數(shù)據(jù)結(jié)構(gòu)化已經(jīng)成為安全模式的發(fā)展趨勢。作為當(dāng)前數(shù)據(jù)安全模式的常規(guī)做法,分層構(gòu)建需要進(jìn)一步完善。同時(shí)隨著網(wǎng)絡(luò)攻擊次數(shù)的暴增及云計(jì)算造成的攻擊方法隱秘性的增強(qiáng),現(xiàn)有的端點(diǎn)安全模式已暴露出明顯的弱點(diǎn),因而使網(wǎng)絡(luò)層受到強(qiáng)大的壓力。所以我們應(yīng)該在維護(hù)端點(diǎn)數(shù)據(jù)安全時(shí)重點(diǎn)考慮網(wǎng)絡(luò)層。這要求我們在把數(shù)據(jù)結(jié)構(gòu)化、辨識智能化與本地系統(tǒng)的監(jiān)控機(jī)制結(jié)合起來時(shí),只允許常態(tài)數(shù)據(jù)運(yùn)行。
提高本地?cái)?shù)據(jù)層面的安全技術(shù)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)可以帶來豐厚的經(jīng)濟(jì)收益,這也誘發(fā)了許多信息泄露事件,其中很大一部分來自內(nèi)部。因此,對端點(diǎn)而言,本地安全防護(hù)系統(tǒng)看上去完整而成熟了,但實(shí)際上相差很大。這就要求調(diào)整安全防護(hù)思路,在本地安全策略中加入內(nèi)部監(jiān)控功能。為防止人為故意破壞,應(yīng)使用純數(shù)據(jù)模式。此外還應(yīng)重視加強(qiáng)各環(huán)節(jié)的協(xié)作。在處理數(shù)據(jù)時(shí)數(shù)據(jù)調(diào)用有很大的風(fēng)險(xiǎn),要想避免這種風(fēng)險(xiǎn)就要進(jìn)一步劃分鏈接,改進(jìn)存儲及緩存方式。
數(shù)據(jù)存儲作為“終端”,受到了高度的重視,但其安全保護(hù)措施仍然需要加強(qiáng),這樣才能與新的數(shù)據(jù)模式相適應(yīng)。這要求完善數(shù)據(jù)邏輯策略,作用于存儲隔離與調(diào)用之間。在大數(shù)據(jù)領(lǐng)域,只有少數(shù)開發(fā)資源被投入到增加安全功能中,而其他功能,例如分析功能、易用性和可升性,占據(jù)了大部分資源。
此外還有一個顯著的問題:大多數(shù)系統(tǒng)缺乏配套安全產(chǎn)品,而即便是有,也難以應(yīng)對常見威脅,而且非關(guān)系型數(shù)據(jù)庫、Hadoop等無法包含大多數(shù)安全產(chǎn)品,因此企業(yè)構(gòu)建安全策略就極其重要。本地安全策略可能存在許多未知隱患,這就需要企業(yè)一邊開發(fā),一邊完善自有系統(tǒng)。
個人層面的數(shù)據(jù)隱私防護(hù)建議
對于個人用戶來說,將數(shù)據(jù)存放在對方服務(wù)器中就意味著一種抵押,由于對方想取用時(shí)無須任何申請,用戶對此束手無策,因此也談不上什么保護(hù)隱私。對此有以下幾點(diǎn)建議:
采用匿名IP地址。禁止網(wǎng)站搜集和跟蹤C(jī)ookies,不使用不支持Do Not Track請求的瀏覽器。
加密數(shù)據(jù)。主要針對企業(yè)級用戶,對于個人用戶來說,當(dāng)其將一個私密文件上傳到網(wǎng)絡(luò)上,最好在壓縮時(shí)設(shè)置加密密碼,這無疑讓用戶的數(shù)據(jù)多了一道屏障。
拒絕不合理的權(quán)限要求。這主要是針對手機(jī)用戶,現(xiàn)在的手機(jī)應(yīng)用程序,尤其是部分國產(chǎn)軟件不顧用戶的實(shí)際需求,所要求的權(quán)限超出了其本身的功能范圍。此外,垃圾軟件在后臺運(yùn)行占用硬件資源,嚴(yán)重影響手機(jī)性能及用戶體驗(yàn)。
瀏覽網(wǎng)頁時(shí)使用HTTPS協(xié)議。HTTPS協(xié)議是可進(jìn)行加密傳輸、身份認(rèn)證的網(wǎng)絡(luò)協(xié)議,比HTTP協(xié)議安全,這樣就增強(qiáng)了電腦與服務(wù)器之間收發(fā)的信息傳輸安全性。
最后,面對大數(shù)據(jù)應(yīng)用帶來的創(chuàng)新與隱私保護(hù)的兩難選擇,首先梳理國外經(jīng)驗(yàn),調(diào)研國民對隱私的態(tài)度,再進(jìn)行隱私保護(hù)總體設(shè)計(jì),明確隱私保護(hù)的價(jià)值取向、機(jī)制構(gòu)成及其內(nèi)在關(guān)系,同時(shí)建立個人數(shù)據(jù)隱私泄露舉報(bào)機(jī)制和個人數(shù)據(jù)隱私泄露溯源機(jī)制。這里仍然引用作者王忠關(guān)于個人隱私數(shù)據(jù)的技術(shù)路線圖(如圖3)作為隱私保護(hù)手段的總結(jié)??傊?,在大數(shù)據(jù)時(shí)代到來以后,隱私泄露會更加嚴(yán)重,除非你不上網(wǎng),否則在技術(shù)上無法做到完全的保護(hù)。要真正保障每個公民的隱私權(quán)和安全,需要靠法律和道德,靠每一個人的良知和社會組織的進(jìn)步,以及科學(xué)技術(shù)的發(fā)展。