焦冬艷,吳 永,賀桂英
(廣東開放大學(xué) 信息與工程學(xué)院,廣東 廣州 510091)
在2011年,麥肯錫公司最早提出“大數(shù)據(jù)”的概念,并且明確提出,數(shù)據(jù)已經(jīng)逐漸滲透到世界上不同領(lǐng)域和不同行業(yè),并在每個(gè)部分占據(jù)越來越重要的地位,未來大數(shù)據(jù)的發(fā)展必將成為人類實(shí)際生產(chǎn)應(yīng)用中提高生產(chǎn)率的主要模式,并將持續(xù)引領(lǐng)新的增長(zhǎng)浪潮[1-2]。值得注意的是,大數(shù)據(jù)是指一種分析并處理多樣化信息的方式,并不是以數(shù)據(jù)量的多少而進(jìn)行劃分的。其基本思想是通過對(duì)大量信息的分析研究以快捷高效地獲取各種有用信息。目前還沒有具體的軟件能做到這一點(diǎn),因此,在大數(shù)據(jù)的環(huán)境下高效處理大量數(shù)據(jù)并獲得新穎的知識(shí)和價(jià)值顯得尤為重要。隨著互聯(lián)網(wǎng)技術(shù)的廣泛普及,大數(shù)據(jù)逐漸進(jìn)入了人們的視線[3]。世界上不同國(guó)家的企業(yè)和機(jī)構(gòu)均在重視關(guān)注著大數(shù)據(jù)的發(fā)展,任何一家企業(yè)如果能運(yùn)用現(xiàn)有的資源在大數(shù)據(jù)時(shí)代占據(jù)領(lǐng)先地位,那么它的核心競(jìng)爭(zhēng)力是不容小覷的,并且自身的競(jìng)爭(zhēng)力將飛速發(fā)展。因此,研究和應(yīng)用大數(shù)據(jù)的競(jìng)爭(zhēng)局面必然十分劇烈。歐美等發(fā)達(dá)國(guó)家已經(jīng)在該領(lǐng)域制定了詳細(xì)的戰(zhàn)略規(guī)劃,而中國(guó)也陸續(xù)投入了大量的人力和財(cái)力,并取得了不錯(cuò)的成績(jī)[1]。在這一時(shí)代背景下,大數(shù)據(jù)的高效發(fā)展和應(yīng)用,有助于提升整個(gè)人類的人均知識(shí)水平,在給人類社會(huì)發(fā)展帶來諸多便利的同時(shí),也存在被不法分子利用的危險(xiǎn)。他們以破壞網(wǎng)絡(luò)安全獲取非法利益為目的,通過非法技術(shù)手段竊取數(shù)據(jù)信息,影響網(wǎng)絡(luò)環(huán)境數(shù)據(jù)安全,嚴(yán)重?cái)_亂互聯(lián)網(wǎng)技術(shù)和大數(shù)據(jù)技術(shù)的正常發(fā)展。大數(shù)據(jù)均是基于網(wǎng)絡(luò)而開發(fā)的,保障網(wǎng)絡(luò)的安全以及數(shù)據(jù)的安全是發(fā)展大數(shù)據(jù)的前提?;谝陨显?,文中介紹了大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)安全現(xiàn)狀,利用關(guān)聯(lián)算法探討了檢查并驗(yàn)證現(xiàn)有網(wǎng)絡(luò)安全的問題,為大數(shù)據(jù)環(huán)境下的異構(gòu)網(wǎng)絡(luò)安全監(jiān)控提供了一些思路,也為信息安全企業(yè)提供了一個(gè)分析大數(shù)據(jù)下隱含規(guī)律的參考模型。
隨著APT等高級(jí)攻擊手段的出現(xiàn),給大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)安全帶來了大量新問題。對(duì)于大型企業(yè)的多來源、多維度的數(shù)據(jù)安全比單一安全數(shù)據(jù)源勢(shì)必需要更多安全保障措施;隨著數(shù)據(jù)接入的多樣性,可供安全人員分析的事件類型也多種多樣,若不能有效利用就無法提升系統(tǒng)的整體安全性,而多源異構(gòu)數(shù)據(jù)的引入又給安全分析帶來了難以避免的復(fù)雜性;APT采用一些定制化攻擊手法,常規(guī)手段難以及時(shí)檢測(cè),分析人員必須對(duì)較長(zhǎng)時(shí)間的安全數(shù)據(jù)進(jìn)行掌握,時(shí)間跨度大勢(shì)必帶來更大的數(shù)據(jù)量,而安全檢測(cè)的及時(shí)性對(duì)分析處理的速度提出了較高的要求;安全管理者缺乏對(duì)整個(gè)網(wǎng)絡(luò)安全態(tài)勢(shì)的全局實(shí)時(shí)感知能力。傳統(tǒng)方法產(chǎn)生的報(bào)警使得安全管理者不能有效掌握系統(tǒng)運(yùn)行的安全狀況,難以評(píng)估網(wǎng)絡(luò)整體安全態(tài)勢(shì),而作為響應(yīng)依據(jù),網(wǎng)絡(luò)安全防護(hù)也有實(shí)時(shí)性要求?,F(xiàn)今在大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)安全問題體現(xiàn)在以下幾點(diǎn):
(1)網(wǎng)絡(luò)安全意識(shí)不夠。雖然當(dāng)前的計(jì)算機(jī)系統(tǒng)已經(jīng)具有相對(duì)完善和功能強(qiáng)大的安全環(huán)境和安全措施,但是由于網(wǎng)絡(luò)技術(shù)使用者的安全意識(shí)薄弱,即使網(wǎng)絡(luò)有監(jiān)控,但仍然存在難以填補(bǔ)的漏洞。
(2)隨著網(wǎng)絡(luò)軟件的大量應(yīng)用,網(wǎng)絡(luò)軟件本身的設(shè)計(jì)存在某種漏洞或者問題,在使用軟件時(shí),網(wǎng)民私密性的個(gè)人信息有可能被竊取。
(3)計(jì)算機(jī)病毒和黑客泛濫。不同的系統(tǒng)軟件和程序都存在一定的安全漏洞,病毒可以說是無孔不入。需要網(wǎng)絡(luò)安全監(jiān)管部門做出更加具有實(shí)效更加科學(xué)的安全監(jiān)管和處理方案。
因此,要解決大數(shù)據(jù)網(wǎng)絡(luò)安全行為下的檢測(cè)與預(yù)警問題,最有效和可行的方法還是要依賴于大數(shù)據(jù)技術(shù)本身的能力,上述問題的根本解決途徑是大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)安全事件關(guān)聯(lián)處理。
大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)安全包含網(wǎng)絡(luò)流量、API攻擊和用戶行為三個(gè)特征[4]。首先,網(wǎng)絡(luò)流量異常的產(chǎn)生主要是由于分布式拒絕服務(wù)攻擊DDoS。一般而言,用戶操作網(wǎng)頁搜索時(shí)需要流量小,但是搜索之后的網(wǎng)絡(luò)涉及視頻、語音和圖片等等,這時(shí)返回的網(wǎng)絡(luò)流量遠(yuǎn)遠(yuǎn)超出搜索前的。DDos攻擊結(jié)果與之相反,通過控制端發(fā)送命令來操作對(duì)方控制端的使用,下行流量會(huì)遠(yuǎn)遠(yuǎn)大于上行流量。其次是APT攻擊,是指持續(xù)攻擊的網(wǎng)絡(luò)行為,屬于高級(jí)行為。它是目前網(wǎng)絡(luò)安全中危害指數(shù)最高的攻擊行為,具有高隱蔽性,長(zhǎng)潛伏期,絕大部分是經(jīng)過嚴(yán)密的計(jì)劃性攻擊,能對(duì)網(wǎng)絡(luò)數(shù)據(jù)造成破壞性的影響。通常當(dāng)移動(dòng)設(shè)備的系統(tǒng)服務(wù)器出現(xiàn)漏洞時(shí),APT攻擊會(huì)潛入到用戶的網(wǎng)絡(luò)系統(tǒng)并植入各種惡意軟件,并且不會(huì)被使用者立即察覺。一旦被APT攻擊,受到攻擊的用戶的各種重要數(shù)據(jù)隨時(shí)會(huì)被竊取,造成嚴(yán)重的損失。最后是用戶行為,是指人們?cè)谌粘5木W(wǎng)絡(luò)活動(dòng)中進(jìn)行的社區(qū)互動(dòng)、問題討論和論壇交流等等搜索瀏覽行為。這些行為簡(jiǎn)單反映了不同用戶的行為特征,如果被黑客入侵,每個(gè)用戶的私人信息如銀行密碼和賬戶信息都會(huì)泄露,更為嚴(yán)重的是,黑客可能會(huì)假冒某些用戶,破解用戶所有密碼,更改并盜取用戶的資金賬戶,甚至自行安裝惡意軟件破壞用戶的網(wǎng)絡(luò)系統(tǒng)。當(dāng)然,這些均會(huì)被網(wǎng)絡(luò)數(shù)據(jù)庫(kù)記錄并保存下自動(dòng)形成黑客對(duì)的行為數(shù)據(jù),使得用戶可以對(duì)比自身行為和黑客行為來識(shí)別可能的網(wǎng)絡(luò)行為,保障網(wǎng)絡(luò)的安全。
面向大數(shù)據(jù)的異構(gòu)網(wǎng)絡(luò)安全監(jiān)控體系對(duì)監(jiān)測(cè)到的數(shù)據(jù)進(jìn)行邏輯推理和分析最重要的部分就是對(duì)數(shù)據(jù)的關(guān)聯(lián)性分析。面向大數(shù)據(jù)環(huán)境的異構(gòu)網(wǎng)絡(luò)安全關(guān)聯(lián)算法設(shè)計(jì)需要從以下幾個(gè)方面進(jìn)行考慮[5]。首先需要考慮各種處理后的核心數(shù)據(jù)中不同數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系即規(guī)則關(guān)聯(lián);其次面向大數(shù)據(jù)環(huán)境的異構(gòu)網(wǎng)絡(luò)安全監(jiān)控系統(tǒng)網(wǎng)絡(luò)中各種相關(guān)設(shè)備的流量信息也需要重點(diǎn)分析,從而發(fā)現(xiàn)其中的規(guī)律并提取流量規(guī)則;最后異構(gòu)的各種設(shè)備核心數(shù)據(jù)和設(shè)備流量數(shù)據(jù)之間的相關(guān)性也需要協(xié)調(diào)分析,這種規(guī)則間關(guān)聯(lián)使用分布式序列圖模式挖掘。如何將大量數(shù)據(jù)準(zhǔn)確、高效地轉(zhuǎn)換成有用以及可靠的信息成為工作人員研究的重要課題。在當(dāng)今異構(gòu)網(wǎng)絡(luò)模式下,對(duì)于網(wǎng)絡(luò)安全的監(jiān)控難度更大,只有建立科學(xué)、健全、完善的異構(gòu)網(wǎng)絡(luò)安全監(jiān)控體系,才能確保監(jiān)測(cè)信息的準(zhǔn)確性和可靠性,同時(shí)提高監(jiān)測(cè)效率,確保網(wǎng)絡(luò)安全問題被及時(shí)準(zhǔn)確地發(fā)現(xiàn)并解決。
在大數(shù)據(jù)環(huán)境下,要提煉核心有效的數(shù)據(jù)需要明確數(shù)據(jù)內(nèi)在的各種內(nèi)容和聯(lián)系,并較好地組織各類信息,使得研究人員或者開發(fā)人員能輕易獲取并處理各種數(shù)據(jù)之間的關(guān)聯(lián)信息。數(shù)據(jù)的關(guān)聯(lián)分析是異構(gòu)網(wǎng)絡(luò)安全監(jiān)控系統(tǒng)需要攻克的難點(diǎn)[6]。因此,在大數(shù)據(jù)背景下,異構(gòu)網(wǎng)絡(luò)的安全監(jiān)控系統(tǒng)具有更加復(fù)雜的規(guī)則,對(duì)其關(guān)聯(lián)的算法則應(yīng)包括如下幾個(gè)方面[7]:第一,要弄清各種處理后的核心數(shù)據(jù)之間的相互關(guān)系,也就是規(guī)則關(guān)聯(lián);第二,對(duì)整個(gè)網(wǎng)絡(luò)中的所有設(shè)備流量使用情況進(jìn)行重點(diǎn)分析,找出其使用的規(guī)律并進(jìn)一步得到相應(yīng)的流量規(guī)則,使得面向大數(shù)據(jù)環(huán)境的異構(gòu)網(wǎng)絡(luò)安全監(jiān)控在整個(gè)網(wǎng)絡(luò)中高效安全的運(yùn)行;第三,協(xié)調(diào)分析異構(gòu)之間各種設(shè)備流量數(shù)據(jù)和核心數(shù)據(jù)之間的關(guān)系,判斷其是否存在一定的相關(guān)性,并基于分布式序列圖模式進(jìn)行關(guān)聯(lián)規(guī)則的挖掘[4]。在異構(gòu)網(wǎng)絡(luò)安全監(jiān)控系統(tǒng)中,需要分析網(wǎng)絡(luò)數(shù)據(jù)系統(tǒng)屬性之間的聯(lián)系,可以使用關(guān)聯(lián)分析及其他模式的挖掘方式。根據(jù)以往的研究,采用規(guī)范化處理和去除冗余的方式可以聚集有效數(shù)據(jù)并導(dǎo)出新的屬性,一般用四元組(A,P,C,O)來分析和描述不同事件之間的因果聯(lián)系,其中A、P、C分別指安全事件、前提條件集合、安全事件之后可能發(fā)生的不同結(jié)果的集合,O指的是與安全事件相關(guān)的一組屬性的事件總集合。若任意兩個(gè)事件的屬性不同,則表明兩個(gè)事件會(huì)有不同的實(shí)例。
在模糊理論的基礎(chǔ)上,用e1和e2表示任意兩個(gè)安全事件,用C(e1)×P(e2)表示事件e1與e2之間的二元模糊因果關(guān)系;用μR(c,p)表示整個(gè)隸屬度函數(shù),并規(guī)定其取值區(qū)間為[0,1],因此,其在模糊集合R上的隸屬度則以序偶函數(shù)(c,p)表示,即1表明c和p的模糊因果關(guān)系最大,0表示兩者基本沒有任何模糊因果關(guān)系。同時(shí),高級(jí)安全事件集合e1的屬性集合為A1={u1,u2,…,un},同理,高級(jí)安全事件集合e2的屬性集合A2={v1,v2,…,vm},同時(shí)設(shè)定e1與e2的基本屬性集分別為B1={u1,u2,…,uq}和B2={v1,v2,…,vq}。如果B1事件和B2事件存在等量關(guān)系,稱事件e1與e2滿足模糊等量約束,如果有另外一函數(shù)c使得μ(c,p)集合有相應(yīng)的值,此時(shí)e1和e2事件之間存在模糊等量因果關(guān)系,表明集合C(e1)×P(e2)有模糊二元因果聯(lián)系R。其函數(shù)式如下:
其中,u和v為序偶函數(shù)(c,p)所對(duì)應(yīng)的一種相關(guān)屬性;Mat表示其相匹配個(gè)數(shù)。
用函數(shù)W(ui,vi)表示屬性事件ui、vi的權(quán)值概率[2],其值介于0~1之間,公式如下:
其中,ui、vi,W(ui,vi)可以表示基本屬性和非基本屬性,前者其值只能為0或者1;而后者其具體值會(huì)隨相應(yīng)領(lǐng)域知識(shí)的變化而變化[8]。基于上述前提,用支持度函數(shù)SupR(C,P)表示C(e1)×P(e2)的二元模糊關(guān)系,具體公式如下:
其中,i,j均為大于1的正整數(shù),支持度函數(shù)Sup(C,P)的值介于0到1,但不包括0或者1,并且集合P和集合C中相匹配的元素個(gè)數(shù)則以Mat(C,P)來表示[4]。若支持度閾值TSup∈(0,1),且此時(shí)Sup(C,P)的數(shù)值要比其高,那么則說明集合C(e1)×P(e2)之間具有二元模糊關(guān)系R,即這種安全事件可能存在某種關(guān)聯(lián)。
考慮到關(guān)聯(lián)算法的實(shí)際應(yīng)用能力,文中在上述研究的基礎(chǔ)上,通過對(duì)真實(shí)數(shù)據(jù)進(jìn)行化簡(jiǎn),清洗以及不斷規(guī)劃等一系列處理操作并得到核心分析數(shù)據(jù)庫(kù),構(gòu)建了一個(gè)可以提供測(cè)試環(huán)境以及模擬實(shí)際攻擊行為的集群實(shí)驗(yàn)環(huán)境,從而測(cè)試和驗(yàn)證大數(shù)據(jù)環(huán)境下異構(gòu)化網(wǎng)絡(luò)安全監(jiān)控平臺(tái)的不同分析算法。首先新建一個(gè)簡(jiǎn)單的HadoopMapReduce實(shí)驗(yàn)集群環(huán)境,根據(jù)并行規(guī)則處理核心數(shù)據(jù)。此次的實(shí)驗(yàn)集群包括6個(gè)計(jì)算機(jī)節(jié)點(diǎn)以及1個(gè)主控節(jié)點(diǎn)[9],其具體的計(jì)算節(jié)點(diǎn)配置如表1所示。
表1 實(shí)驗(yàn)集群中計(jì)算節(jié)點(diǎn)的配置
續(xù)表1
在實(shí)驗(yàn)測(cè)試環(huán)境下,對(duì)不同事件的模糊等量約束的因果關(guān)聯(lián)因素采用MapReduce方法的并行處理原則,分析并處理分布式序列圖的模式挖掘規(guī)則之間的聯(lián)系和算法差異,實(shí)現(xiàn)了高速處理大數(shù)據(jù)環(huán)境下的各種安全海量規(guī)則的目標(biāo)。對(duì)于測(cè)試環(huán)境的參數(shù)設(shè)置方面,將大數(shù)據(jù)安全監(jiān)控的關(guān)聯(lián)分析的漏報(bào)率控制在8%左右,而誤報(bào)率的設(shè)置值應(yīng)低于11%,對(duì)基本安全事件行為的最小置信度設(shè)置值至少控制在50%以上,而最小支持度的設(shè)置值不應(yīng)少于60%[10]。構(gòu)建一個(gè)大數(shù)據(jù)安全監(jiān)控綜合檢測(cè)環(huán)境,如圖1所示,能全面測(cè)試并驗(yàn)證異構(gòu)網(wǎng)絡(luò)的安全監(jiān)控系統(tǒng)的性能、功能等其他參數(shù)。
圖1 大數(shù)據(jù)環(huán)境下的安全監(jiān)控系統(tǒng)
互聯(lián)網(wǎng)的安全防護(hù)是大數(shù)據(jù)環(huán)境下解決安全問題的重中之重,那么維護(hù)互聯(lián)網(wǎng)的安全和加強(qiáng)安全監(jiān)督力度是保障互聯(lián)網(wǎng)安全的關(guān)鍵[11-13]。目前維護(hù)互聯(lián)網(wǎng)安全的首要措施是控制訪問設(shè)置,通過設(shè)置用戶訪問權(quán)限以及時(shí)監(jiān)控不明用戶,能有效保證互聯(lián)網(wǎng)絡(luò)的安全使用。例如,通過輸入密碼和用戶身份認(rèn)證的形式來阻止黑客的攻擊,可以使用訪問權(quán)限設(shè)置。其次,需要對(duì)數(shù)據(jù)進(jìn)行加密設(shè)置,將用戶的數(shù)據(jù)信息進(jìn)行隱蔽,并加強(qiáng)密碼設(shè)置的難度系數(shù),使得黑客在攻擊用戶數(shù)據(jù)后難以短時(shí)間內(nèi)破解密碼,保證了用戶數(shù)據(jù)的安全使用。這是維護(hù)安全網(wǎng)絡(luò)系統(tǒng)的重要手段。然后,為了進(jìn)一步加強(qiáng)網(wǎng)絡(luò)安全,需要設(shè)置網(wǎng)絡(luò)隔離,對(duì)用戶數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)置防火墻以達(dá)到隔離的效果,可以對(duì)大量的信息進(jìn)行識(shí)別,有選擇性地篩選有效的信息。防火墻設(shè)置是對(duì)計(jì)算機(jī)使用內(nèi)部網(wǎng)絡(luò)進(jìn)行隔離,保證被隔離之后的網(wǎng)絡(luò)一定是安全的,而外部網(wǎng)絡(luò)很大程度上是具有危險(xiǎn)隱患的網(wǎng)絡(luò)[10]。最后是對(duì)用戶網(wǎng)絡(luò)的入侵檢測(cè),主要檢測(cè)并分析互聯(lián)網(wǎng)系統(tǒng)有效的關(guān)鍵信息,對(duì)非法用戶的入侵行為作出及時(shí)的攔截。這種監(jiān)控技術(shù)采用主動(dòng)的形式防御網(wǎng)絡(luò)安全,能消除防火墻的不足,是一種能實(shí)現(xiàn)全方位的網(wǎng)絡(luò)化安全的實(shí)時(shí)保護(hù)技術(shù)。
互聯(lián)網(wǎng)的安全防護(hù)不僅僅需要可靠有效的技術(shù)來維護(hù),更需要嚴(yán)格有力的管理制度對(duì)其監(jiān)督。一方面,對(duì)網(wǎng)絡(luò)工作人員應(yīng)該制定嚴(yán)格的管理制度,加強(qiáng)網(wǎng)絡(luò)安全應(yīng)急措施;另一方面,建立完善的安全管理體系,提升用戶網(wǎng)絡(luò)安全意識(shí),達(dá)到維護(hù)網(wǎng)絡(luò)安全的目的。
面對(duì)大數(shù)據(jù)時(shí)代下網(wǎng)絡(luò)出現(xiàn)的種種問題,不僅需要安全可靠的新技術(shù)來維護(hù),更需要嚴(yán)格有力的管理制度對(duì)其監(jiān)督,廣大的互聯(lián)網(wǎng)用戶也需要增強(qiáng)安全防護(hù)意識(shí),為互聯(lián)網(wǎng)的安全運(yùn)行奉獻(xiàn)一份力。針對(duì)大數(shù)據(jù)的查詢分析復(fù)雜和大數(shù)據(jù)量的特點(diǎn),分析面向大數(shù)據(jù)的異構(gòu)網(wǎng)絡(luò)安全監(jiān)控的相關(guān)技術(shù),提出對(duì)各類異構(gòu)數(shù)據(jù)源進(jìn)行清洗整合。通過安全事件的關(guān)聯(lián)和分布式序列圖的模式等方式進(jìn)行網(wǎng)絡(luò)安全監(jiān)控的整體態(tài)勢(shì)分析,為大數(shù)據(jù)環(huán)境下的異構(gòu)網(wǎng)絡(luò)安全監(jiān)控提供了一些思路,也為信息安全企業(yè)提供了一個(gè)分析大數(shù)據(jù)下隱含規(guī)律的參考模型。