基于大數(shù)據(jù)分析技術(shù)的數(shù)據(jù)安全與機器學(xué)習(xí)

2018-02-23 12:47張靖雨王瀟楓周楠

電子技術(shù)與軟件工程 2018年6期

關(guān)鍵詞：機器學(xué)習(xí)數(shù)據(jù)安全大數(shù)據(jù)

張靖雨王瀟楓周楠

摘要大數(shù)據(jù)時代，數(shù)據(jù)在成為國家戰(zhàn)略資源和創(chuàng)新生產(chǎn)要素，資產(chǎn)和戰(zhàn)略價值急速攀升的同時，伴隨著海量數(shù)據(jù)的不斷產(chǎn)生，安全性也成為人們無法忽略的問題。而機器學(xué)習(xí)是一門新興學(xué)科，應(yīng)用廣泛。本文以大數(shù)據(jù)為基礎(chǔ)，分析了以機器學(xué)習(xí)來解決一定范圍的數(shù)據(jù)安全問題。

【關(guān)鍵詞】大數(shù)據(jù) 數(shù)據(jù)安全機器學(xué)習(xí)

1 引言

隨著計算機等多種學(xué)科的發(fā)展，機器學(xué)習(xí)應(yīng)運而生，且得到廣泛應(yīng)用。如檢測垃圾郵件、檢測信用卡的欺詐、人臉識別、識別語音等。通過已有的研究成果可知，機器學(xué)習(xí)已經(jīng)在數(shù)據(jù)安全方面得到了一些應(yīng)用。

本文對大數(shù)據(jù)的概念、特點進(jìn)行了分析，并以此為基礎(chǔ)分析了當(dāng)前數(shù)據(jù)安全的重要性，探討了如何利用機器學(xué)習(xí)解決一定的數(shù)據(jù)安全問題。

2 大數(shù)據(jù)概述

2.1 大數(shù)據(jù)的產(chǎn)生和來源

網(wǎng)絡(luò)的普及使得人們的網(wǎng)絡(luò)行為成為常態(tài)化，而大數(shù)據(jù)就伴隨著這些網(wǎng)絡(luò)而產(chǎn)生，一些企業(yè)、部門對著些數(shù)據(jù)進(jìn)行采集。這些行為滲透面廣泛，如社交軟件的言論、網(wǎng)絡(luò)購物數(shù)據(jù)等等。和傳統(tǒng)結(jié)構(gòu)和意義的數(shù)據(jù)不同，這些數(shù)據(jù)包含了數(shù)據(jù)的生產(chǎn)者一些真實的信息，如習(xí)慣、喜好、意圖等?？偟膩碚f，大數(shù)據(jù)具有極大的價值，大數(shù)據(jù)時代已經(jīng)到來。

2.2 大數(shù)據(jù)的特點

不同于傳統(tǒng)意義上的數(shù)據(jù)，大數(shù)據(jù)來源廣泛，可以來源于人、機、物。這就決定了大數(shù)據(jù)規(guī)模龐大且具有高復(fù)雜?？偟膩碚f大數(shù)據(jù)具有以下幾個特征：高速行、多樣性、大規(guī)模。

3 基于大數(shù)據(jù)的數(shù)據(jù)安全

數(shù)據(jù)的產(chǎn)生、流通和應(yīng)用更加普遍和密集。然而，新的技術(shù)、需求和應(yīng)用場景給數(shù)據(jù)安全防護(hù)帶來了全新的挑戰(zhàn)。

3.1 新技術(shù)帶來的挑戰(zhàn)

分布式計算存儲架構(gòu)、數(shù)據(jù)深度發(fā)掘及可視化等新技術(shù)提升了數(shù)據(jù)資源的存儲規(guī)模和處理能力，但也為數(shù)據(jù)安全保護(hù)帶來了新挑戰(zhàn)。首先，系統(tǒng)安全邊界模糊、可能引入的未知漏洞、分布式節(jié)點之間和大數(shù)據(jù)相關(guān)組件之間的通信安全已逐漸成為新的安全薄弱環(huán)節(jié)其次，分布式數(shù)據(jù)資源池能夠匯集眾多用戶數(shù)據(jù)，卻造成了用戶數(shù)據(jù)隔離的困難。大數(shù)據(jù)往往在云端存儲，而云端的開放性強、使用范圍、用戶數(shù)據(jù)較龐大，使數(shù)據(jù)安全風(fēng)險更加集中。

3.2 新需求帶來的挑戰(zhàn)

大數(shù)據(jù)時代下，各方對數(shù)據(jù)資源的占有和利用的需求持續(xù)增加，數(shù)據(jù)被廣泛收集并共享開放。移動智能終端、傳感器、智能聯(lián)網(wǎng)設(shè)備廣泛應(yīng)用，使得虛擬世界正在成為現(xiàn)實世界的完整映射。數(shù)據(jù)的廣泛、多源收集對數(shù)據(jù)安全本身及個人信息保護(hù)帶來了新的挑戰(zhàn)，數(shù)據(jù)來源和真實性驗證存在困難，個人信息過度收集、未履行告知義務(wù)等現(xiàn)象侵害了個人合法權(quán)益。

3.3 新應(yīng)用場景帶來的挑戰(zhàn)

當(dāng)前，數(shù)據(jù)應(yīng)用浪潮逐漸從互聯(lián)網(wǎng)、金融、電信等熱點行業(yè)領(lǐng)域向融合業(yè)務(wù)、物聯(lián)網(wǎng)、傳統(tǒng)制造等行業(yè)和領(lǐng)域拓展?jié)B透。數(shù)字化生活、智慧城市、工業(yè)大數(shù)據(jù)等新技術(shù)新業(yè)務(wù)新領(lǐng)域創(chuàng)造出紛繁多樣的數(shù)據(jù)應(yīng)用場景，使得數(shù)據(jù)安全保護(hù)具體情境更為復(fù)雜。頻繁的數(shù)據(jù)共享和交換使得數(shù)據(jù)溯源中數(shù)據(jù)標(biāo)記的可信性、數(shù)據(jù)標(biāo)記與數(shù)據(jù)內(nèi)容之間捆綁的安全性等問題更加突出。一旦發(fā)生數(shù)據(jù)安全事故，導(dǎo)致的損失往往是不可估量的，且危害具有延續(xù)性、擴散性?？梢?，數(shù)據(jù)安全問題已經(jīng)成為大數(shù)據(jù)時代不可忽略的一個問題。

4 機器學(xué)習(xí)概述

機器學(xué)習(xí)是一門新興的交叉科學(xué)，已被應(yīng)用在多個領(lǐng)域，如信用卡詐騙檢測、語音識別、垃圾郵件檢測等。機器學(xué)習(xí)策略豐富，包括機械學(xué)習(xí)、類比學(xué)習(xí)、歸納學(xué)習(xí)、演繹學(xué)習(xí)等。如今機器學(xué)習(xí)已經(jīng)被應(yīng)用到了大數(shù)據(jù)一些領(lǐng)域，如基于大數(shù)據(jù)利用機器學(xué)習(xí)對微博用戶行為進(jìn)行分析等。

5 機器學(xué)習(xí)技術(shù)在數(shù)據(jù)安全的應(yīng)用

機器學(xué)習(xí)具有一定的智能行為，方法多樣，而大數(shù)據(jù)具有高復(fù)雜性和多樣性，因此機器學(xué)習(xí)可以為數(shù)據(jù)安全提供一些新的思路。

（1）大數(shù)據(jù)中的一個重要環(huán)節(jié)是存儲，往往用戶信息的泄露都是由于存儲機制不健全，導(dǎo)致受到惡意攻擊，從而導(dǎo)致數(shù)據(jù)安全事故。對大數(shù)據(jù)存儲建立防火墻，利用機器學(xué)習(xí)對防火墻異常進(jìn)行檢測，應(yīng)對各種攻擊。

在機器學(xué)習(xí)過程中，自學(xué)習(xí)與訓(xùn)練是基礎(chǔ)，大數(shù)據(jù)中數(shù)據(jù)量巨大，但受到入侵的數(shù)據(jù)占少數(shù)，因為產(chǎn)生的樣本數(shù)量較少，這樣使學(xué)習(xí)模型與訓(xùn)練較為困難。機器學(xué)習(xí)使用監(jiān)督學(xué)習(xí)方法解決這個問題，利用統(tǒng)計學(xué)習(xí)模型，從海量的數(shù)據(jù)中獲得隱蔽的、可以理解的、有效的信息，通過這些信息甄別出與正常數(shù)據(jù)不同的異常數(shù)據(jù)。

模型中首先建立數(shù)據(jù)特征集，其次針對數(shù)據(jù)特征建立統(tǒng)計模型，針對每個測試樣本，利用Chebyshev不等式計算異常值（用P表示），得到異常程度。用μ表示均值，σ2表示方差，x表示隨機變量。用公式Pr（|X-μ|>=kσ）<=1/k2進(jìn)行統(tǒng)計。找到偏離正常值的異常數(shù)據(jù)，并進(jìn)行進(jìn)一步分析，從而采取措施對異常數(shù)據(jù)進(jìn)行防御，預(yù)防數(shù)據(jù)安全問題發(fā)生。

不同于傳統(tǒng)的入侵檢測，監(jiān)督學(xué)習(xí)使入侵者更難繞開，增加了檢測的靈活性和效率。而大數(shù)據(jù)數(shù)量巨大，統(tǒng)計數(shù)據(jù)更具有說服力、且容易聚類，符合機器學(xué)習(xí)對數(shù)據(jù)的基礎(chǔ)需求。

（2）隨著移動網(wǎng)絡(luò)的普及，截止到2017年6月，我國手機用戶超過7億，用戶更多的網(wǎng)絡(luò)行為都與軟件相關(guān)，在大量的軟件中惡意軟件數(shù)量也不斷增長。這些惡意軟件威脅著用戶的數(shù)據(jù)安全。針對此問題，機器學(xué)習(xí)可發(fā)揮一定的作用。在訓(xùn)練過程中，從大數(shù)據(jù)中己知軟件行為中提取樣本，區(qū)分惡意軟件和正常軟件的行為特征，并進(jìn)行存儲。隨后建立相應(yīng)的算法、模型，最終的出檢測結(jié)果，甄別出惡意軟件。在此過程中，可通過自學(xué)習(xí)進(jìn)行不斷地修正、補充。當(dāng)新型惡意軟件出現(xiàn)時，機器學(xué)習(xí)通過發(fā)現(xiàn)這些新型惡意軟件與己學(xué)習(xí)過的惡意軟件的特征聯(lián)系與共同點，提前進(jìn)行判斷、預(yù)測和分析，從而進(jìn)行一定的預(yù)警，進(jìn)而提高檢測的效率。

6 結(jié)論

大數(shù)據(jù)時代使數(shù)據(jù)發(fā)揮了極其重要的作用，同時也增加了數(shù)據(jù)安全風(fēng)險。機器學(xué)習(xí)為數(shù)據(jù)安全提供了新的思路。本文通過對大數(shù)據(jù)特點機器學(xué)習(xí)技術(shù)模型進(jìn)行分析，得出大數(shù)據(jù)特點適用于機器學(xué)習(xí)的模型建立及訓(xùn)練學(xué)習(xí)，機器學(xué)習(xí)具有一定的靈活性，對惡意攻擊檢測有一定的優(yōu)勢。

參考文獻(xiàn)

[1]程學(xué)旗，靳小龍，王元卓，郭嘉豐，張鐵贏，李國杰，大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報，2014，25 （09）：1889-1908.

[2]章博亨，劉健，朱宇翔，吳帆，程維，基于大數(shù)據(jù)和機器學(xué)習(xí)的微博用戶行為分析系統(tǒng)[J].電腦知識與技術(shù)，2017：1009-3044.

[3]張巍，任環(huán)，張凱，李成明，姜青山.基于移動軟件行為大數(shù)據(jù)挖掘的惡意軟件檢測技術(shù)[J].集成技術(shù)，2016 （05）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于大數(shù)據(jù)分析技術(shù)的數(shù)據(jù)安全與機器學(xué)習(xí)