張靖雨 王瀟楓 周楠
摘要 大數(shù)據(jù)時代,數(shù)據(jù)在成為國家戰(zhàn)略資源和創(chuàng)新生產(chǎn)要素,資產(chǎn)和戰(zhàn)略價值急速攀升的同時,伴隨著海量數(shù)據(jù)的不斷產(chǎn)生,安全性也成為人們無法忽略的問題。而機器學(xué)習(xí)是一門新興學(xué)科,應(yīng)用廣泛。本文以大數(shù)據(jù)為基礎(chǔ),分析了以機器學(xué)習(xí)來解決一定范圍的數(shù)據(jù)安全問題。
【關(guān)鍵詞】大數(shù)據(jù) 數(shù)據(jù)安全 機器學(xué)習(xí)
1 引言
隨著計算機等多種學(xué)科的發(fā)展,機器學(xué)習(xí)應(yīng)運而生,且得到廣泛應(yīng)用。如檢測垃圾郵件、檢測信用卡的欺詐、人臉識別、識別語音等。通過已有的研究成果可知,機器學(xué)習(xí)已經(jīng)在數(shù)據(jù)安全方面得到了一些應(yīng)用。
本文對大數(shù)據(jù)的概念、特點進(jìn)行了分析,并以此為基礎(chǔ)分析了當(dāng)前數(shù)據(jù)安全的重要性,探討了如何利用機器學(xué)習(xí)解決一定的數(shù)據(jù)安全問題。
2 大數(shù)據(jù)概述
2.1 大數(shù)據(jù)的產(chǎn)生和來源
網(wǎng)絡(luò)的普及使得人們的網(wǎng)絡(luò)行為成為常態(tài)化,而大數(shù)據(jù)就伴隨著這些網(wǎng)絡(luò)而產(chǎn)生,一些企業(yè)、部門對著些數(shù)據(jù)進(jìn)行采集。這些行為滲透面廣泛,如社交軟件的言論、網(wǎng)絡(luò)購物數(shù)據(jù)等等。和傳統(tǒng)結(jié)構(gòu)和意義的數(shù)據(jù)不同,這些數(shù)據(jù)包含了數(shù)據(jù)的生產(chǎn)者一些真實的信息,如習(xí)慣、喜好、意圖等??偟膩碚f,大數(shù)據(jù)具有極大的價值,大數(shù)據(jù)時代已經(jīng)到來。
2.2 大數(shù)據(jù)的特點
不同于傳統(tǒng)意義上的數(shù)據(jù),大數(shù)據(jù)來源廣泛,可以來源于人、機、物。這就決定了大數(shù)據(jù)規(guī)模龐大且具有高復(fù)雜??偟膩碚f大數(shù)據(jù)具有以下幾個特征:高速行、多樣性、大規(guī)模。
3 基于大數(shù)據(jù)的數(shù)據(jù)安全
數(shù)據(jù)的產(chǎn)生、流通和應(yīng)用更加普遍和密集。然而,新的技術(shù)、需求和應(yīng)用場景給數(shù)據(jù)安全防護(hù)帶來了全新的挑戰(zhàn)。
3.1 新技術(shù)帶來的挑戰(zhàn)
分布式計算存儲架構(gòu)、數(shù)據(jù)深度發(fā)掘及可視化等新技術(shù)提升了數(shù)據(jù)資源的存儲規(guī)模和處理能力,但也為數(shù)據(jù)安全保護(hù)帶來了新挑戰(zhàn)。首先,系統(tǒng)安全邊界模糊、可能引入的未知漏洞、分布式節(jié)點之間和大數(shù)據(jù)相關(guān)組件之間的通信安全已逐漸成為新的安全薄弱環(huán)節(jié)其次,分布式數(shù)據(jù)資源池能夠匯集眾多用戶數(shù)據(jù),卻造成了用戶數(shù)據(jù)隔離的困難。大數(shù)據(jù)往往在云端存儲,而云端的開放性強、使用范圍、用戶數(shù)據(jù)較龐大,使數(shù)據(jù)安全風(fēng)險更加集中。
3.2 新需求帶來的挑戰(zhàn)
大數(shù)據(jù)時代下,各方對數(shù)據(jù)資源的占有和利用的需求持續(xù)增加,數(shù)據(jù)被廣泛收集并共享開放。移動智能終端、傳感器、智能聯(lián)網(wǎng)設(shè)備廣泛應(yīng)用,使得虛擬世界正在成為現(xiàn)實世界的完整映射。數(shù)據(jù)的廣泛、多源收集對數(shù)據(jù)安全本身及個人信息保護(hù)帶來了新的挑戰(zhàn),數(shù)據(jù)來源和真實性驗證存在困難,個人信息過度收集、未履行告知義務(wù)等現(xiàn)象侵害了個人合法權(quán)益。
3.3 新應(yīng)用場景帶來的挑戰(zhàn)
當(dāng)前,數(shù)據(jù)應(yīng)用浪潮逐漸從互聯(lián)網(wǎng)、金融、電信等熱點行業(yè)領(lǐng)域向融合業(yè)務(wù)、物聯(lián)網(wǎng)、傳統(tǒng)制造等行業(yè)和領(lǐng)域拓展?jié)B透。數(shù)字化生活、智慧城市、工業(yè)大數(shù)據(jù)等新技術(shù)新業(yè)務(wù)新領(lǐng)域創(chuàng)造出紛繁多樣的數(shù)據(jù)應(yīng)用場景,使得數(shù)據(jù)安全保護(hù)具體情境更為復(fù)雜。頻繁的數(shù)據(jù)共享和交換使得數(shù)據(jù)溯源中數(shù)據(jù)標(biāo)記的可信性、數(shù)據(jù)標(biāo)記與數(shù)據(jù)內(nèi)容之間捆綁的安全性等問題更加突出。一旦發(fā)生數(shù)據(jù)安全事故,導(dǎo)致的損失往往是不可估量的,且危害具有延續(xù)性、擴散性??梢?,數(shù)據(jù)安全問題已經(jīng)成為大數(shù)據(jù)時代不可忽略的一個問題。
4 機器學(xué)習(xí)概述
機器學(xué)習(xí)是一門新興的交叉科學(xué),已被應(yīng)用在多個領(lǐng)域,如信用卡詐騙檢測、語音識別、垃圾郵件檢測等。機器學(xué)習(xí)策略豐富,包括機械學(xué)習(xí)、類比學(xué)習(xí)、歸納學(xué)習(xí)、演繹學(xué)習(xí)等。如今機器學(xué)習(xí)已經(jīng)被應(yīng)用到了大數(shù)據(jù)一些領(lǐng)域,如基于大數(shù)據(jù)利用機器學(xué)習(xí)對微博用戶行為進(jìn)行分析等。
5 機器學(xué)習(xí)技術(shù)在數(shù)據(jù)安全的應(yīng)用
機器學(xué)習(xí)具有一定的智能行為,方法多樣,而大數(shù)據(jù)具有高復(fù)雜性和多樣性,因此機器學(xué)習(xí)可以為數(shù)據(jù)安全提供一些新的思路。
(1)大數(shù)據(jù)中的一個重要環(huán)節(jié)是存儲,往往用戶信息的泄露都是由于存儲機制不健全,導(dǎo)致受到惡意攻擊,從而導(dǎo)致數(shù)據(jù)安全事故。對大數(shù)據(jù)存儲建立防火墻,利用機器學(xué)習(xí)對防火墻異常進(jìn)行檢測,應(yīng)對各種攻擊。
在機器學(xué)習(xí)過程中,自學(xué)習(xí)與訓(xùn)練是基礎(chǔ),大數(shù)據(jù)中數(shù)據(jù)量巨大,但受到入侵的數(shù)據(jù)占少數(shù),因為產(chǎn)生的樣本數(shù)量較少,這樣使學(xué)習(xí)模型與訓(xùn)練較為困難。機器學(xué)習(xí)使用監(jiān)督學(xué)習(xí)方法解決這個問題,利用統(tǒng)計學(xué)習(xí)模型,從海量的數(shù)據(jù)中獲得隱蔽的、可以理解的、有效的信息,通過這些信息甄別出與正常數(shù)據(jù)不同的異常數(shù)據(jù)。
模型中首先建立數(shù)據(jù)特征集,其次針對數(shù)據(jù)特征建立統(tǒng)計模型,針對每個測試樣本,利用Chebyshev不等式計算異常值(用P表示),得到異常程度。用μ表示均值,σ2表示方差,x表示隨機變量。用公式Pr(|X-μ|>=kσ)<=1/k2進(jìn)行統(tǒng)計。找到偏離正常值的異常數(shù)據(jù),并進(jìn)行進(jìn)一步分析,從而采取措施對異常數(shù)據(jù)進(jìn)行防御,預(yù)防數(shù)據(jù)安全問題發(fā)生。
不同于傳統(tǒng)的入侵檢測,監(jiān)督學(xué)習(xí)使入侵者更難繞開,增加了檢測的靈活性和效率。而大數(shù)據(jù)數(shù)量巨大,統(tǒng)計數(shù)據(jù)更具有說服力、且容易聚類,符合機器學(xué)習(xí)對數(shù)據(jù)的基礎(chǔ)需求。
(2)隨著移動網(wǎng)絡(luò)的普及,截止到2017年6月,我國手機用戶超過7億,用戶更多的網(wǎng)絡(luò)行為都與軟件相關(guān),在大量的軟件中惡意軟件數(shù)量也不斷增長。這些惡意軟件威脅著用戶的數(shù)據(jù)安全。針對此問題,機器學(xué)習(xí)可發(fā)揮一定的作用。在訓(xùn)練過程中,從大數(shù)據(jù)中己知軟件行為中提取樣本,區(qū)分惡意軟件和正常軟件的行為特征,并進(jìn)行存儲。隨后建立相應(yīng)的算法、模型,最終的出檢測結(jié)果,甄別出惡意軟件。在此過程中,可通過自學(xué)習(xí)進(jìn)行不斷地修正、補充。當(dāng)新型惡意軟件出現(xiàn)時,機器學(xué)習(xí)通過發(fā)現(xiàn)這些新型惡意軟件與己學(xué)習(xí)過的惡意軟件的特征聯(lián)系與共同點,提前進(jìn)行判斷、預(yù)測和分析,從而進(jìn)行一定的預(yù)警,進(jìn)而提高檢測的效率。
6 結(jié)論
大數(shù)據(jù)時代使數(shù)據(jù)發(fā)揮了極其重要的作用,同時也增加了數(shù)據(jù)安全風(fēng)險。機器學(xué)習(xí)為數(shù)據(jù)安全提供了新的思路。本文通過對大數(shù)據(jù)特點機器學(xué)習(xí)技術(shù)模型進(jìn)行分析,得出大數(shù)據(jù)特點適用于機器學(xué)習(xí)的模型建立及訓(xùn)練學(xué)習(xí),機器學(xué)習(xí)具有一定的靈活性,對惡意攻擊檢測有一定的優(yōu)勢。
參考文獻(xiàn)
[1]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰,大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,25 (09):1889-1908.
[2]章博亨,劉健,朱宇翔,吳帆,程維,基于大數(shù)據(jù)和機器學(xué)習(xí)的微博用戶行為分析系統(tǒng)[J].電腦知識與技術(shù),2017:1009-3044.
[3]張巍,任環(huán),張凱,李成明,姜青山.基于移動軟件行為大數(shù)據(jù)挖掘的惡意軟件檢測技術(shù)[J].集成技術(shù),2016 (05).