大數(shù)據(jù)是近年來非常熱的一個(gè)話題,目前IT科學(xué)問題基本三年為一個(gè)周期,但是大數(shù)據(jù)預(yù)計(jì)會(huì)有6~9年的話題周期,因?yàn)樵朴?jì)算話題從成熟到應(yīng)用,已經(jīng)走過約八九年的歷程。從大數(shù)據(jù)本身來看,存在有很多觀點(diǎn)。比如《Science》上曾有刊文指出,能夠根據(jù)個(gè)體之前的行為軌跡預(yù)測他/她未來行蹤的可能性,即93%的人類行為可預(yù)測。
大數(shù)定理告訴我們,在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它的概率。“有規(guī)律的隨機(jī)事件”在大量重復(fù)出現(xiàn)的條件下,往往呈現(xiàn)幾乎必然的統(tǒng)計(jì)特性。從“數(shù)據(jù)”到“大數(shù)據(jù)”,不僅僅是數(shù)量上的差別,更是數(shù)據(jù)質(zhì)量上的提升,即從量變到質(zhì)變。
機(jī)遇和網(wǎng)絡(luò)安全挑戰(zhàn)共存
隨著計(jì)算機(jī)處理能力的日益強(qiáng)大,人們能獲得的數(shù)據(jù)量越大,能挖掘到的價(jià)值就越多。實(shí)驗(yàn)的不斷反復(fù)、大數(shù)據(jù)的日漸積累讓人類發(fā)現(xiàn)規(guī)律、預(yù)測未來不再是科幻電影里的讀心術(shù),這也是大數(shù)據(jù)分析可見的價(jià)值之一。
從大數(shù)據(jù)分析挖掘的價(jià)值角度來看,大數(shù)據(jù)分析挖掘和數(shù)據(jù)融合的異同在于:大數(shù)據(jù)分析挖掘因?yàn)橛袠O其豐富的數(shù)據(jù)作為基礎(chǔ),可以讓“有規(guī)律的隨機(jī)事件”在大量重復(fù)出現(xiàn)的條件下,呈現(xiàn)幾乎必然的統(tǒng)計(jì)特性。
而數(shù)據(jù)融合其實(shí)是在一定的數(shù)據(jù)量條件下,通過多源傳感器的協(xié)同,改進(jìn)測量和預(yù)測的結(jié)果,在發(fā)現(xiàn)規(guī)律、預(yù)測未來的準(zhǔn)確性方面和大數(shù)據(jù)分析挖掘不在一個(gè)數(shù)量級(jí)上。從數(shù)據(jù)融合到大數(shù)據(jù)分析挖掘,其實(shí)是從小智能到大智慧,這也是大數(shù)據(jù)分析挖掘的核心價(jià)值。大數(shù)據(jù)作為社會(huì)的又一個(gè)基礎(chǔ)性資源,將給社會(huì)進(jìn)步、經(jīng)濟(jì)發(fā)展帶來強(qiáng)大的驅(qū)動(dòng)力。大數(shù)據(jù)代表了先進(jìn)生產(chǎn)力方向,已經(jīng)成為不可阻擋的趨勢。大數(shù)據(jù)的安全問題表現(xiàn)在:
一是網(wǎng)絡(luò)攻擊成愈演愈烈之勢。如今的網(wǎng)絡(luò)攻擊,往往是通過各種手段獲得政府、企業(yè)或者個(gè)人的私密數(shù)據(jù)。因此在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的收集與保護(hù)成為競爭的著力點(diǎn)。從隱私的角度來看,大數(shù)據(jù)時(shí)代把網(wǎng)絡(luò)大眾帶入到了一種開放透明的“裸奔”時(shí)代。
二是DT(數(shù)據(jù)技術(shù))時(shí)代是開放與安全的二元挑戰(zhàn)。在大數(shù)據(jù)獲得開放的同時(shí),也帶來了對數(shù)據(jù)安全的隱憂。大數(shù)據(jù)安全是“互聯(lián)網(wǎng)+”時(shí)代的核心挑戰(zhàn),安全問題具有線上和線下融合在一起的特征。
傳統(tǒng)解決網(wǎng)絡(luò)安全的基本思想是劃分邊界,在每個(gè)邊界設(shè)立網(wǎng)關(guān)設(shè)備和網(wǎng)絡(luò)流量設(shè)備,用守住邊界的辦法來解決安全問題。但隨著移動(dòng)互聯(lián)網(wǎng)、云服務(wù)的出現(xiàn),網(wǎng)絡(luò)邊界實(shí)際上已經(jīng)消亡了。信息安全的危險(xiǎn)正在進(jìn)一步升級(jí),在APT、DDoS、異常風(fēng)險(xiǎn)、網(wǎng)絡(luò)漏洞等威脅下,傳統(tǒng)防御型、檢測型的安全防護(hù)措施已經(jīng)力不從心,無法適應(yīng)新形勢下的要求。
三是難以用有效的方式向用戶申請權(quán)限,實(shí)現(xiàn)角色預(yù)設(shè),難以檢測、控制開發(fā)者的訪問行為,防止過度的大數(shù)據(jù)分析、預(yù)測和連接。在大數(shù)據(jù)時(shí)代,很多數(shù)據(jù)在收集時(shí)并不知道其用途是什么,往往是二次開發(fā)創(chuàng)造了價(jià)值,公司無法事先告訴用戶尚未想到的用途,而個(gè)人也無法同意這種尚是未知的用途。
大數(shù)據(jù)帶來諸多網(wǎng)絡(luò)安全和用戶隱私問題
一是大數(shù)據(jù)依托的NoSQL(非關(guān)系型數(shù)據(jù)庫)缺乏數(shù)據(jù)安全機(jī)制。從基礎(chǔ)技術(shù)角度來看,大數(shù)據(jù)依托的基礎(chǔ)技術(shù)是NoSQL。當(dāng)前廣泛應(yīng)用的SQL(關(guān)系型數(shù)據(jù)庫)技術(shù),經(jīng)過長期改進(jìn)和完善,在維護(hù)數(shù)據(jù)安全方面已經(jīng)設(shè)置嚴(yán)格的訪問控制和隱私管理工具。
二是社會(huì)工程學(xué)攻擊帶來的安全問題。社會(huì)工程學(xué)的特點(diǎn)是:無技術(shù)性、成本低、效率高。該攻擊與其他攻擊的最大不同是其攻擊手段不是利用高超的攻擊技術(shù),而是利用受害者的心理弱點(diǎn)進(jìn)行攻擊。
三是軟件后門,也會(huì)成為大數(shù)據(jù)安全的軟肋。在軟件定義世界的時(shí)代,云計(jì)算、大數(shù)據(jù)的基礎(chǔ),軟件是IT系統(tǒng)的核心,也就是大數(shù)據(jù)的核心,所有的后門可能都是開放在軟件上面的。
四是文件安全面臨極大挑戰(zhàn)。文件是整個(gè)數(shù)據(jù)和運(yùn)行核心,大多數(shù)的用戶文件都是在第三方的運(yùn)行平臺(tái)中存儲(chǔ)的和處理的,這些文件往往包含了很多部門和個(gè)人的敏感信息,安全性和隱私性自然成為重要的問題。
五是大數(shù)據(jù)存儲(chǔ)安全問題。大數(shù)據(jù)會(huì)使數(shù)據(jù)量呈非線性增長,而復(fù)雜多樣的數(shù)據(jù)集中存儲(chǔ)在一起,多種應(yīng)用的并發(fā)運(yùn)行以及頻繁無序的使用狀況,有可能會(huì)出現(xiàn)數(shù)據(jù)類別存放錯(cuò)位的情況,造成數(shù)據(jù)存儲(chǔ)管理混亂或?qū)е滦畔踩芾聿缓弦?guī)范。
六是大數(shù)據(jù)安全搜索挑戰(zhàn)和問題。我們需要更高效更智慧的分割數(shù)據(jù),搜索、過濾和整理信息的理論與技術(shù),以應(yīng)對大數(shù)據(jù)越來越龐大的處理量,特別是實(shí)時(shí)性數(shù)據(jù)變化加快,以及非結(jié)構(gòu)化數(shù)據(jù)品種增多。
大數(shù)據(jù)安全搜索服務(wù)將上述浩瀚數(shù)據(jù)整理分類,可以幫助人們更快更高效地從中找到所需要的內(nèi)容和信息。
七是基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)挑戰(zhàn)?;诖髷?shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)雖然具有上述的優(yōu)點(diǎn),但它目前存在一些挑戰(zhàn):一方面,大數(shù)據(jù)的收集很難做到全面,它的片面性會(huì)導(dǎo)致分析結(jié)果的偏差。為了分析企業(yè)信息資產(chǎn)面臨的威脅,不但要全面收集企業(yè)內(nèi)部的數(shù)據(jù),還要對一些企業(yè)外的數(shù)據(jù)進(jìn)行收集;另一方面,大數(shù)據(jù)分析能力的不足,影響分析的準(zhǔn)確性。
八是大數(shù)據(jù)帶來的高級(jí)可持續(xù)攻擊挑戰(zhàn)。傳統(tǒng)的檢測是基于單個(gè)時(shí)間點(diǎn)進(jìn)行的基于威脅特征的實(shí)時(shí)匹配檢測,而高級(jí)可持續(xù)攻擊(APT)是一個(gè)實(shí)施過程,無法被實(shí)時(shí)檢測。
九是大數(shù)據(jù)支撐平臺(tái)--云計(jì)算安全。云計(jì)算的核心安全問題是用戶不再對數(shù)據(jù)和環(huán)境擁有完全控制權(quán),云計(jì)算的出現(xiàn)徹底打破了地域的概念,數(shù)據(jù)不再存放于某個(gè)確定的物理節(jié)點(diǎn),而是由服務(wù)商動(dòng)態(tài)提供存儲(chǔ)空間。這些空間有可能是現(xiàn)實(shí)的,也可能是虛擬的,還有可能分布在不同國家及區(qū)域。
十是大數(shù)據(jù)用戶隱私保護(hù)考驗(yàn)問題。大數(shù)據(jù)分析預(yù)測帶來的用戶隱私挑戰(zhàn)。從核心價(jià)值角度來看,大數(shù)據(jù)關(guān)鍵在于數(shù)據(jù)分析和利用,但數(shù)據(jù)分析技術(shù)的發(fā)展,對用戶隱私產(chǎn)生極大的威脅。在大數(shù)據(jù)時(shí)代,想屏蔽外部數(shù)據(jù)商挖掘個(gè)人信息是不可能的。
十一是大數(shù)據(jù)共享安全性問題。我們不知道該如何分享私人數(shù)據(jù),才能既保證數(shù)據(jù)隱私不被泄漏,又保證數(shù)據(jù)的正常使用。真實(shí)數(shù)據(jù)不是靜態(tài)的,而是越變越大,并且隨著時(shí)間的變化而變化。當(dāng)前沒有一種技術(shù)能在這種情況下產(chǎn)生任何有用的結(jié)果。
十二是大數(shù)據(jù)訪問控制難題。訪問控制是實(shí)現(xiàn)數(shù)據(jù)受控共享的有效手段,由于大數(shù)據(jù)可能被用于多種不同場景,其訪問控制需求十分突出。
十三是大數(shù)據(jù)的可信性難以保障。網(wǎng)絡(luò)的數(shù)據(jù)并非都可信,這主要反映在偽造的數(shù)據(jù)和失真的數(shù)據(jù)兩個(gè)方面。有人可能通過偽造數(shù)據(jù)來制造假象,進(jìn)而對數(shù)據(jù)分析人員進(jìn)行誘導(dǎo),或者數(shù)據(jù)在傳播中逐步失真。這可讓大數(shù)據(jù)分析和預(yù)測得出無意義或錯(cuò)誤的結(jié)果。
應(yīng)對用戶隱私問題的對策
首先,是基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)。利用該技術(shù),企業(yè)可以超越以往的“保護(hù)-檢測-響應(yīng)-恢復(fù)”(PDRR)模式,更主動(dòng)地發(fā)現(xiàn)潛在的安全威脅。相比于傳統(tǒng)技術(shù),基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)有以下優(yōu)點(diǎn):分析內(nèi)容的范圍更大。企業(yè)信息資產(chǎn)包括數(shù)據(jù)資產(chǎn)、軟件資產(chǎn)、實(shí)物資產(chǎn)、人員資產(chǎn)、服務(wù)資產(chǎn)和其他為業(yè)務(wù)提供支持的無形資產(chǎn)。
其次,基于大數(shù)據(jù)的認(rèn)證技術(shù)?;诖髷?shù)據(jù)的認(rèn)證技術(shù)指的是收集用戶行為和設(shè)備行為數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行分析,獲得用戶行為和設(shè)備行為的特征,進(jìn)而通過鑒別操作者行為及其設(shè)備行為來確定其身份。這與傳統(tǒng)認(rèn)證技術(shù)利用用戶所知秘密,所持有憑證,或具有的生物特征來確認(rèn)其身份有很大不同。
最后,基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析。目前,基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析被廣泛認(rèn)為是最為有效的方法。
(本文根據(jù)上海交通大學(xué)信息安全工程學(xué)院常務(wù)副院長李建華在“2016高等教育信息化創(chuàng)新論壇”上部分演講內(nèi)容整理而成。)