王靜婷+孫亞紅+肖淑蘋
摘要:大數(shù)據(jù)是目前廣受社會(huì)各界研究的熱點(diǎn),它成為了信息社會(huì)的重要財(cái)富,同時(shí)也給數(shù)據(jù)的處理和管理帶來(lái)了巨大挑戰(zhàn)。因此,該文從大數(shù)據(jù)概念入手,闡述了大數(shù)據(jù)的定義、特點(diǎn)、來(lái)源以及應(yīng)用目標(biāo),分析了大數(shù)據(jù)帶來(lái)的安全挑戰(zhàn)。同時(shí),結(jié)合大數(shù)據(jù)面臨的安全考驗(yàn),對(duì)隱私保護(hù)的關(guān)鍵技術(shù)進(jìn)行了探究。最后,總結(jié)了大數(shù)據(jù)時(shí)代的隱私保護(hù)的意義。
關(guān)鍵詞:大數(shù)據(jù);隱私保護(hù);關(guān)鍵技術(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)21-0009-02
Abstract: Big data is the popular hot topic in the study of the social from all walks of life. It has become an important wealth of information society, but it has brought about great challenge to data processing and management. Therefore, this article obtains from the concept of big data and expounds the definition, characteristics, sources and applications. It also analyzes the security challenges. At the same time, combined with the security test of big data, it has carried on the exploration to the key technologies of privacy protection. Finally, it summarizes the significance of privacy protection in the era of big data.
Key words: big data; privacy protection; key technologies
當(dāng)今,隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等技術(shù)的迅猛發(fā)展,以Web 2.0技術(shù)為基礎(chǔ)的博客、社交網(wǎng)絡(luò)等新興服務(wù)產(chǎn)生了種類繁多的數(shù)據(jù),而云計(jì)算為存儲(chǔ)數(shù)據(jù)提供了平臺(tái),這一切造就了大數(shù)據(jù)時(shí)代的正式到來(lái)。大數(shù)據(jù)吸引了越來(lái)越多的關(guān)注,成為了學(xué)術(shù)界和產(chǎn)業(yè)界的熱點(diǎn)研究問(wèn)題。大數(shù)據(jù)中蘊(yùn)藏著巨大的價(jià)值,成為了信息社會(huì)的重要財(cái)富,但同時(shí)也面臨著前所未有的挑戰(zhàn),大數(shù)據(jù)的安全與隱私問(wèn)題就是其中之一。如何在大數(shù)據(jù)時(shí)代對(duì)企業(yè)和個(gè)人隱私進(jìn)行保護(hù),這是人們應(yīng)該思考的問(wèn)題。
1 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)的概念
維基百科對(duì)大數(shù)據(jù)進(jìn)行了定義:大數(shù)據(jù)是指使用常用工具對(duì)數(shù)據(jù)進(jìn)行捕抓、存儲(chǔ)、管理和分析所耗費(fèi)的時(shí)間已遠(yuǎn)遠(yuǎn)超過(guò)可承受時(shí)間的數(shù)據(jù)集合。也就是說(shuō)大數(shù)據(jù)是規(guī)模龐大,數(shù)據(jù)類別繁多的復(fù)雜數(shù)據(jù)集,因此,使用現(xiàn)有軟件工具對(duì)其內(nèi)容進(jìn)行捕獲、管理和處理難度較大[1]。
1.2 大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)從3V、4V到現(xiàn)在的5V特點(diǎn)(IBM提出),其歸納為Volume(大量),Velocity(高速),Variety(多樣),Veracity(真實(shí)),Value(價(jià)值)。
(1)數(shù)據(jù)量(Volume)龐大
數(shù)據(jù)量龐大,包括捕抓、存儲(chǔ)、管理和分析的數(shù)據(jù)量都非常大,計(jì)量單位已經(jīng)提升到TB、PB、EB甚至ZB級(jí)別。
(2)數(shù)據(jù)處理速度(Velocity)快
數(shù)據(jù)的創(chuàng)建、處理和分析速度持續(xù)加快。該特點(diǎn)與傳統(tǒng)的數(shù)據(jù)挖掘特征有著顯著的區(qū)別。
(3)數(shù)據(jù)類型(Variety)多
過(guò)去的數(shù)據(jù)種類較為單一,通常多以結(jié)構(gòu)化數(shù)據(jù)為主。現(xiàn)在,大數(shù)據(jù)中的數(shù)據(jù)類型繁多,不僅存在結(jié)構(gòu)化數(shù)據(jù),如文本類型數(shù)據(jù),而且越來(lái)越多的數(shù)據(jù)類型以半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為主,包括視頻、地理位置等信息。
(4)數(shù)據(jù)真實(shí)性(Veracity)
大數(shù)據(jù)是從龐大的數(shù)據(jù)中提取出的,因此,大數(shù)據(jù)必然具有真實(shí)性,只有真實(shí)的數(shù)據(jù)才有參考價(jià)值和應(yīng)用價(jià)值。在信息化進(jìn)程飛速發(fā)展的今天,任何不合理、不真實(shí)的數(shù)據(jù)都將導(dǎo)致決策或是方案的錯(cuò)誤,影響社會(huì)、經(jīng)濟(jì)和生活發(fā)展。
(5)價(jià)值密度低(Value)
價(jià)值密度低,商業(yè)價(jià)值高。通過(guò)分析數(shù)據(jù)得出如何抓住機(jī)遇及收獲價(jià)值成為目前大數(shù)據(jù)背景下最需要解決的問(wèn)題。
1.3 大數(shù)據(jù)的來(lái)源
根據(jù)不同的數(shù)據(jù)來(lái)源,將大數(shù)據(jù)分為以下三類[2,3]:
(1)來(lái)自于人
人類使用互聯(lián)網(wǎng)所產(chǎn)生的種類繁多的數(shù)據(jù),包括文本、圖形等信息。
(2)來(lái)自于計(jì)算機(jī)
由各類計(jì)算機(jī)軟件工具所產(chǎn)生的數(shù)據(jù),主要以文件、多媒體等形式存在的信息。
(3)來(lái)自于物理世界
通過(guò)各類儀器、設(shè)備或科學(xué)實(shí)驗(yàn)所獲取和采集的數(shù)據(jù)。如攝像頭產(chǎn)生的圖像信息和天文望遠(yuǎn)鏡所產(chǎn)生的大量數(shù)據(jù)等。
1.4 大數(shù)據(jù)的應(yīng)用目標(biāo)
大數(shù)據(jù)被廣泛應(yīng)用于多個(gè)領(lǐng)域中,其應(yīng)用目標(biāo)主要包括以下三點(diǎn):
(1)通過(guò)分析現(xiàn)有數(shù)據(jù)、挖掘事物規(guī)律,可以更及時(shí)地獲取有價(jià)值的信息以及更準(zhǔn)確地推測(cè)事物發(fā)展的趨勢(shì)。
(2)通過(guò)長(zhǎng)期的、多維度數(shù)據(jù)的分析、積累和對(duì)比,可以獲得用戶個(gè)性化的特征,因此,可以為用戶提供更優(yōu)質(zhì)的、種類更多的個(gè)性化服務(wù)等等。
(3)通過(guò)分析數(shù)據(jù),及時(shí)辨別出數(shù)據(jù)的真?zhèn)涡浴?/p>
2 大數(shù)據(jù)帶來(lái)的挑戰(zhàn)
大數(shù)據(jù)為信息社會(huì)帶來(lái)了重要財(cái)富,同時(shí)也存在讓人擔(dān)憂的安全性問(wèn)題。在大數(shù)據(jù)時(shí)代,安全性挑戰(zhàn)主要有以下兩方面:
2.1 企業(yè)和用戶的隱私保護(hù)
主要表現(xiàn)在以下三個(gè)方面:
(1)對(duì)用戶而言,安全性問(wèn)題不僅僅局限于用戶個(gè)體的隱私泄露,還在于對(duì)個(gè)體狀態(tài)、行為進(jìn)行分析和預(yù)測(cè)。通過(guò)對(duì)用戶的歷史記錄等分析,可以發(fā)現(xiàn)用戶的政治傾向、消費(fèi)習(xí)慣及愛好等。
(2)企業(yè)認(rèn)為對(duì)數(shù)據(jù)進(jìn)行了匿名處理,信息就可以公開發(fā)布了,但事實(shí)證明,匿名保護(hù)這種方法并不能達(dá)到對(duì)隱私保護(hù)的理想效果。
(3)對(duì)用戶數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、管理和使用都缺乏規(guī)范和監(jiān)管,主要依靠企業(yè)的自律。此外,隱私信息被用于何處,用戶不會(huì)被告知。
2.2 大數(shù)據(jù)的可信程度
數(shù)據(jù)就是事實(shí),可以說(shuō)明一切。但若不認(rèn)真仔細(xì)地甄別數(shù)據(jù),很容易被數(shù)據(jù)所騙。在大數(shù)據(jù)中,欺騙性表現(xiàn)在以下兩點(diǎn):
(1)偽造的數(shù)據(jù)。由于偽造數(shù)據(jù)隱藏于大量信息中,同時(shí)數(shù)據(jù)的多樣性和規(guī)模性,使得人們無(wú)法鑒別真?zhèn)危瑥亩赡軙?huì)誤導(dǎo)人們得出錯(cuò)誤結(jié)論和做出錯(cuò)誤判斷。
(2)失真的數(shù)據(jù)。數(shù)據(jù)在收集和傳播過(guò)程中出現(xiàn)的誤差,使得真假信息很難辨別,從而失真的信息可能影響人們對(duì)于信息的判斷。
3 隱私保護(hù)關(guān)鍵技術(shù)
3.1 數(shù)據(jù)溯源技術(shù)
數(shù)據(jù)溯源技術(shù)早在在大數(shù)據(jù)概念形成之前已被廣泛研究,其出發(fā)點(diǎn)是有助于使用者確定各項(xiàng)數(shù)據(jù)的來(lái)源。數(shù)據(jù)溯源技術(shù)的基本方法是標(biāo)記法,并且逐漸細(xì)化為Why 和 Where 兩類[4],側(cè)重點(diǎn)分別為計(jì)算的方法和數(shù)據(jù)的出處。該技術(shù)也可用于文件的溯源和恢復(fù),并且可被運(yùn)用于云存儲(chǔ)中。數(shù)據(jù)溯源技術(shù)被列為未來(lái)確保國(guó)家關(guān)鍵基礎(chǔ)設(shè)施安全的重要技術(shù)之一,其在未來(lái)信息安全領(lǐng)域中仍面臨著很多挑戰(zhàn)。
3.2 角色挖掘技術(shù)
基于角色的訪問(wèn)控制是當(dāng)前使用較為廣泛的一種訪問(wèn)控制模型。在早期基于角色的訪問(wèn)控制的管理模式是“自頂向下”,而后期研究者則采用的管理模式為“自底向上”,即角色挖掘[5],通俗來(lái)講,就是如何對(duì)角色的合理設(shè)置。通常情況下,使用角色挖掘技術(shù)可以根據(jù)用戶的訪問(wèn)記錄自動(dòng)生成角色,這不僅為用戶提供高效及時(shí)地個(gè)性化服務(wù),同時(shí)還可以分析異常行為發(fā)現(xiàn)用戶潛在的危險(xiǎn)。
3.3 數(shù)據(jù)水印技術(shù)
數(shù)據(jù)水印是指將標(biāo)識(shí)信息以難以察覺的方式嵌入在數(shù)據(jù)載體內(nèi)部且不影響其使用的方法[2]。根據(jù)數(shù)據(jù)的特點(diǎn)決定了在數(shù)據(jù)庫(kù)、文本中添加水印的多種方法。將數(shù)據(jù)庫(kù)指紋信息嵌入到水印中[6],這樣便于識(shí)別出信息的擁有者及被分發(fā)的對(duì)象,有助于追蹤泄密者。若嵌入脆弱性水印到數(shù)據(jù)庫(kù)表中,有助于及時(shí)發(fā)現(xiàn)數(shù)據(jù)項(xiàng)的變化。文本水印生成方法較多,可分為基于文檔結(jié)構(gòu)微調(diào)的水印、基于文本內(nèi)容的水印和基于自然語(yǔ)言的水印。其中一些水印方法可用于驗(yàn)證部分的數(shù)據(jù),基于該特性的數(shù)據(jù)水印技術(shù)在大數(shù)據(jù)應(yīng)用背景下具有廣闊的發(fā)展和應(yīng)用前景。
3.4 數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)
對(duì)于大數(shù)據(jù)中的關(guān)系數(shù)據(jù)而言,該技術(shù)是實(shí)現(xiàn)隱私保護(hù)的基本手段和核心關(guān)鍵技術(shù),最典型的例子是k匿名方案,該模型主要研究的對(duì)象是靜態(tài)的、一次性發(fā)布的情況,而現(xiàn)實(shí)中數(shù)據(jù)發(fā)布常常出現(xiàn)數(shù)據(jù)連續(xù)、多次發(fā)布的情況,這就需要防止攻擊者對(duì)多次發(fā)布的數(shù)據(jù)聯(lián)合進(jìn)行分析,從而破壞了數(shù)據(jù)原有的匿名特性。在大數(shù)據(jù)中,攻擊者從多種渠道獲得數(shù)據(jù),而數(shù)據(jù)不僅是同一發(fā)布源,因此,對(duì)于數(shù)據(jù)發(fā)布匿名保護(hù)這類復(fù)雜問(wèn)題有待更深入的研究。
4 大數(shù)據(jù)時(shí)代隱私保護(hù)的意義
在大數(shù)據(jù)時(shí)代,深入探究隱私保護(hù)所涉及的重要理論問(wèn)題,對(duì)相關(guān)技術(shù)進(jìn)行梳理和體系化,構(gòu)建科學(xué)合理的隱私保護(hù)體系,為隱私權(quán)法提供理論支持和學(xué)術(shù)建議,保障公民個(gè)人信息不會(huì)受到他人非法侵?jǐn)_、搜集、利用等的人格權(quán)。
在現(xiàn)實(shí)生活中,隱私保護(hù)技術(shù)的應(yīng)用越來(lái)越重要,所以越來(lái)越引起人們的重視。目前,回應(yīng)社會(huì)的現(xiàn)實(shí)需求,因應(yīng)國(guó)家隱私保護(hù)的立法契機(jī),對(duì)目前隱私保護(hù)方面存在的問(wèn)題提出具體的應(yīng)對(duì)技術(shù)措施,推動(dòng)實(shí)現(xiàn)從宏觀政策的提倡到具體技術(shù)和配套措施的跟進(jìn),促進(jìn)企業(yè)和個(gè)人隱私的有效保護(hù)。
5 小結(jié)
在大數(shù)據(jù)時(shí)代,不僅為信息社會(huì)帶來(lái)了重要財(cái)富,同時(shí)也給數(shù)據(jù)的處理和管理帶來(lái)了巨大挑戰(zhàn)。若要實(shí)現(xiàn)大數(shù)據(jù)安全與隱私的保護(hù),就應(yīng)運(yùn)用各種隱私保護(hù)技術(shù),同時(shí)仍需要建立相關(guān)的政策法規(guī),只有通過(guò)技術(shù)手段與相關(guān)政策法規(guī)等相結(jié)合,才能更好地對(duì)大數(shù)據(jù)安全與隱私進(jìn)行保護(hù)。
參考文獻(xiàn):
[1] 方巍,鄭玉,徐江. 大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J].南京信息工程大學(xué)學(xué)報(bào),2014,6(5):405-419.
[2] 馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014(1):246-258.
[3] 李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究: 未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域[J]. 中國(guó)科學(xué)院院刊,2012,27( 6) : 647-657.
[4] Buneman P, Khanna S, Wang-Chiew T. Why and where: A characterization of data provenance[C].Proceedings of the 8th International Conference on Database Theory (ICDT2001). London, UK, 2001:316-330.
[5] Ene A, Horne W, Milosavljevic N, etal. Fast exact and heuristic methods for role minimization problems[C].Proceedings of the 13th ACM Symposium on Access Control Models and Technologies. Estes Park, USA, 2008:1-10.
[6] Guo Fei, Wang Jian-Min, Li De-Yi. Fingerprinting relational databases[C].Proceedings of the 2006 ACM Symposium on Applied Computing (SAC06). Dijon, France, 2006:487-492.