邱金龍
(上海市信息安全測(cè)評(píng)認(rèn)證中心 上海市 200011)
當(dāng)前社會(huì),信息發(fā)揮著越來越重要的作用,在信息大爆炸的時(shí)代背景下,隨著網(wǎng)絡(luò)應(yīng)用在社會(huì)發(fā)展、生活等各個(gè)方面的不斷滲透,各類大數(shù)據(jù)已越來越多的被重視和廣泛應(yīng)用,大數(shù)據(jù)時(shí)代已經(jīng)到來。在這樣的大環(huán)境下,由此而帶來的網(wǎng)絡(luò)的結(jié)構(gòu)及環(huán)境也更加的紛繁復(fù)雜,在為人們生活、工作帶來便捷的前提下,網(wǎng)絡(luò)安全問題也成為目前信息社會(huì)的一大問題,也對(duì)人們生產(chǎn)生活及社會(huì)發(fā)展產(chǎn)生重要影響。網(wǎng)絡(luò)安全已成為一門新興的學(xué)科和研究專題,隨著人們重視的提高,目前的網(wǎng)絡(luò)安全已經(jīng)在向更實(shí)用、更完善、更便捷的方向發(fā)展。目前網(wǎng)絡(luò)安全技術(shù)仍不完善,仍存在較多的安全漏洞,整體防護(hù)能力無法全面防范,也為信息的采集、存儲(chǔ)和加工等工作帶來了挑戰(zhàn),可以說網(wǎng)絡(luò)安全問題越來越嚴(yán)峻,也成為目前信息社會(huì)亟待解決的重要問題。在這樣的背景下,大數(shù)據(jù)挖掘技術(shù)這種新型的網(wǎng)絡(luò)信息安全處理手段應(yīng)運(yùn)而生,其自身所具有的精準(zhǔn)分析和預(yù)測(cè)的功能,可以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)入侵的有效分析,精準(zhǔn)的監(jiān)測(cè)網(wǎng)絡(luò)入侵行為,從而進(jìn)行有效防范,達(dá)到保障和提升網(wǎng)絡(luò)安全的目的。
第十一屆人工智能聯(lián)合會(huì)議于1989年8月在美國(guó)底特律市召開。本次會(huì)議中,科學(xué)家們首次提出知識(shí)發(fā)現(xiàn)(knowledge discover in database,KDD)的概念,這一概念也被有些人稱為數(shù)據(jù)挖掘,但兩者并不完全相同。1995年,在加拿大蒙特利爾市召開的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議上,KDD這個(gè)術(shù)語得以認(rèn)同接受,并通過分析確定了數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的子過程這一概念。
數(shù)據(jù)挖掘就是在龐大的、不完整的、模糊的、隨機(jī)的數(shù)據(jù)中挖掘、發(fā)現(xiàn)有效信息,提取人們現(xiàn)實(shí)所不知道,隱藏的但又有著潛在利用價(jià)值的信息,通過科學(xué)分析來發(fā)現(xiàn)數(shù)據(jù)之間的有效聯(lián)系、趨勢(shì)及模式。數(shù)據(jù)挖掘是一門技術(shù),其產(chǎn)生依托于近年來數(shù)據(jù)庫(kù)系統(tǒng)的大量建立以及互聯(lián)網(wǎng)的廣泛應(yīng)用。它是一門交叉性學(xué)科,融合了機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)、人工智能、統(tǒng)計(jì)學(xué)、模式識(shí)別、可視化分析等多門學(xué)科。
處理挖掘出的大數(shù)據(jù)需要復(fù)雜、綜合和多方位的系統(tǒng)支撐,這種系統(tǒng)中有很多處理模塊,大數(shù)據(jù)挖掘技術(shù)就是為了完成數(shù)據(jù)挖掘這項(xiàng)任務(wù)而采用的技術(shù)手段,在整個(gè)系統(tǒng)中是以一個(gè)獨(dú)立的身份而存在的,這一研究領(lǐng)域由多學(xué)科交叉組成,將人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)信息檢索等技術(shù)相融合,與其他模塊是一個(gè)相輔相成、協(xié)調(diào)發(fā)展的關(guān)系。其地位在當(dāng)今的大數(shù)據(jù)時(shí)代中無可比擬。一般來說大數(shù)據(jù)挖掘技術(shù)的流程是通過對(duì)數(shù)據(jù)庫(kù)或源數(shù)據(jù)的分析,提煉出用戶所需要的具有一定潛在意義的信息。通過有針對(duì)性的加工處理,形成適合深度挖掘的數(shù)據(jù)模式。隨后通過符合實(shí)際的數(shù)據(jù)算法進(jìn)行提取、評(píng)估,改變數(shù)據(jù)信息晦澀難懂的現(xiàn)象,通過簡(jiǎn)單易懂的方式,方便用戶。通常情況下,數(shù)據(jù)提取、初步預(yù)處理、后續(xù)深度挖掘及最終信息模式評(píng)估等環(huán)節(jié)共同組成大數(shù)據(jù)挖掘技術(shù)。一般采用數(shù)據(jù)關(guān)聯(lián)、分類和聚類算法。
在學(xué)術(shù)領(lǐng)域,大數(shù)據(jù)挖掘技術(shù)研究的主力軍仍然是各大高校?;谄渲匾?,全世界各國(guó)均在相關(guān)領(lǐng)域研究上投入了大量的精力,并且越來越重視。從國(guó)家層面上來看,由于經(jīng)濟(jì)及科技上的優(yōu)勢(shì),美國(guó)等發(fā)達(dá)國(guó)家仍然是這項(xiàng)工作研究的主體。我國(guó)由于人口眾多,具有較好的調(diào)查樣本數(shù)據(jù)基礎(chǔ),相對(duì)而言更容易采取到豐富的信息。
從目前的研究成果上來看,大數(shù)據(jù)的挖掘技術(shù)呈現(xiàn)出兩個(gè)方面的特點(diǎn)。一方面在網(wǎng)絡(luò)安全體系中主打應(yīng)用功能,通過應(yīng)用來推動(dòng)該項(xiàng)技術(shù)在更多的領(lǐng)域?qū)r(jià)值發(fā)揮最大化。另一方面以研究為主。從目前的發(fā)展情況看,整體上數(shù)據(jù)挖掘技術(shù)在完善度和成熟度上還有欠缺,隱患較多,影響應(yīng)用效果,因此研究是下一步的主要趨勢(shì),通過不斷的研究、完善來實(shí)現(xiàn)這一技術(shù)的日趨成熟,從而發(fā)揮更大的作用。
近些年,人工智能、5G通信、物聯(lián)網(wǎng)以及區(qū)塊鏈等技術(shù)的飛速發(fā)展,使信息呈現(xiàn)爆炸式增長(zhǎng),大量的數(shù)據(jù)為人們的生活、工作提供了幫助,可以說信息是當(dāng)下推動(dòng)社會(huì)進(jìn)步的一大重要因素。但同時(shí),大量的信息在沒有經(jīng)過甄別和挑選的情況下,無效信息、負(fù)面信息等數(shù)據(jù)也十分龐大,這些信息在一定程度上影響著社會(huì)的進(jìn)步,甚至起到相反的作用。如何在海量的信息中找到真正有意義的、正向的信息數(shù)據(jù),以滿足不同用戶、不同場(chǎng)景、不同領(lǐng)域的需要,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用就顯得十分重要和必要。
伴隨著社會(huì)的進(jìn)步、科技水平的不斷提高,出現(xiàn)了越來越多的性能多元化的網(wǎng)絡(luò)設(shè)備,在實(shí)現(xiàn)高速傳輸信息數(shù)據(jù)的同時(shí),更加要求信息數(shù)據(jù)采集的安全性。多年來,在傳統(tǒng)技術(shù)模式下,結(jié)構(gòu)化的數(shù)據(jù)庫(kù)是信息存儲(chǔ)的主要處理方式。不但成本較高,同時(shí)也會(huì)存在數(shù)據(jù)丟失的問題。而有效應(yīng)用大數(shù)據(jù)挖掘技術(shù)就可以降低這種信息數(shù)據(jù)丟失概率,進(jìn)而確保數(shù)據(jù)采集以及加工、使用的精確度和實(shí)效性,以達(dá)到提升工作效率的作用。同時(shí),大數(shù)據(jù)挖掘技術(shù)的深度應(yīng)用,在有效完善網(wǎng)絡(luò)安全防御體系上還發(fā)揮著重要作用。
數(shù)據(jù)信息時(shí)代下個(gè)人隱私數(shù)據(jù)的大量增加,對(duì)網(wǎng)絡(luò)安全的要求更高。而病毒代碼是導(dǎo)致數(shù)據(jù)信息泄露、損壞等現(xiàn)象的出現(xiàn)越來越多頻發(fā)的重要因素,危害著人們的信息安全,為生活帶來了不利影響。針對(duì)這種情況,大數(shù)據(jù)挖掘技術(shù)采取收集數(shù)據(jù)信息的方式減少網(wǎng)絡(luò)安全隱患,將病毒代碼從數(shù)據(jù)信息中找出,通過有效監(jiān)測(cè)、預(yù)防惡意攻擊及異常入侵等手段,確保網(wǎng)絡(luò)安全。網(wǎng)絡(luò)病毒往往以代碼的方式隱藏在計(jì)算機(jī)系統(tǒng)中,利用計(jì)算機(jī)系統(tǒng)的支持對(duì)系統(tǒng)進(jìn)行滲透性破壞。這些病毒程序與部分軟件相似度極高,往往不容易判斷,因此會(huì)被忽視,最終導(dǎo)致系統(tǒng)的崩潰。而大數(shù)據(jù)挖掘技術(shù)就是通過充分分析各種代碼程序,掌握其關(guān)鍵點(diǎn),及時(shí)發(fā)現(xiàn)不同程序中的異常問題,有針對(duì)性地采取預(yù)防措施。通過對(duì)這些病毒代碼程序信息的收集,分類分析彼此之間的共性特征,在數(shù)據(jù)上為建立網(wǎng)絡(luò)安全防御機(jī)制提供支持。
利用大數(shù)據(jù)挖掘技術(shù),依托對(duì)數(shù)據(jù)信息的深入挖掘,進(jìn)而進(jìn)行數(shù)據(jù)分析,用科學(xué)的方法精準(zhǔn)地找出并明確危害網(wǎng)絡(luò)安全的問題根源。程序代碼是破壞網(wǎng)絡(luò)安全的常見方式,因此需要破解與轉(zhuǎn)換存在安全隱患的程序代碼,以方便技術(shù)人員的甄別,從而發(fā)現(xiàn)其根本意圖,有針對(duì)性地采取相關(guān)防御措施。這種破解與轉(zhuǎn)換一般通過數(shù)據(jù)處理模塊實(shí)施,其主要方式是識(shí)別數(shù)據(jù)IP位置、數(shù)據(jù)源位置與相關(guān)信息,再通過充分的、深層次的挖掘,對(duì)IP目標(biāo)進(jìn)行精準(zhǔn)定位,以此來找到網(wǎng)絡(luò)病毒的根源。在此基礎(chǔ)上,通過全面分析病毒類型,采取可行的封鎖措施,截?cái)嗥鋫鞑ヂ窂剑瑢⑦@類病毒的攻擊范圍最大限度的鎖定在一定的區(qū)間之內(nèi),從而阻斷病毒的深入傳播路徑。同時(shí),數(shù)據(jù)信息終端的分析、分類及處理是數(shù)據(jù)處理的基礎(chǔ)工作,通過這些工作,大數(shù)據(jù)挖掘技術(shù)對(duì)后續(xù)網(wǎng)絡(luò)安全相關(guān)問題的破解將發(fā)揮更大的作用,從而保障網(wǎng)絡(luò)信息的安全。
在數(shù)據(jù)庫(kù)方面應(yīng)用是關(guān)聯(lián)分析大數(shù)據(jù)挖掘技術(shù)的主要形式,是數(shù)據(jù)聚類技術(shù)的應(yīng)用基礎(chǔ),同時(shí)結(jié)合網(wǎng)絡(luò)安全問題進(jìn)行深入識(shí)別。利用關(guān)聯(lián)數(shù)據(jù)庫(kù)全面記錄和分析網(wǎng)絡(luò)病毒攻擊行為的特征、軌跡及執(zhí)行程度,依托聚類分析算法識(shí)別網(wǎng)絡(luò)病毒的基本特征,從而強(qiáng)化系統(tǒng)整體防御能力。
通過自帶的數(shù)據(jù)分析記憶功能,數(shù)據(jù)挖掘模塊對(duì)比分析的數(shù)據(jù)和模塊數(shù)據(jù),如果通過分析發(fā)現(xiàn)兩者有著較高的數(shù)據(jù)匹配度,則判斷為系統(tǒng)中存在安全隱患。在當(dāng)下的領(lǐng)域中,此類的防御系統(tǒng)不斷出現(xiàn)并持續(xù)進(jìn)行迭代更新。其中以應(yīng)用較為廣泛的360防火墻為代表的軟件,就是通過這種模式對(duì)病毒代碼產(chǎn)生的安全隱患進(jìn)行防御,但從實(shí)際應(yīng)用上來看,往往還會(huì)出現(xiàn)錯(cuò)誤判斷的情況,從而造成對(duì)代碼的“誤殺”,在準(zhǔn)確性上還需要進(jìn)一步地提高,網(wǎng)絡(luò)安全決策機(jī)制還需要進(jìn)一步完善。因此,大數(shù)據(jù)挖掘技術(shù)需要配合決策模塊中發(fā)現(xiàn)、分析、總結(jié)網(wǎng)絡(luò)病毒特征等操作后進(jìn)行相關(guān)應(yīng)用,同時(shí)在此基礎(chǔ)上進(jìn)行科學(xué)有效地判斷及決策,防止出現(xiàn)系統(tǒng)誤判的問題,從而造成干預(yù)不當(dāng)?shù)默F(xiàn)象,防止為病毒代碼滲入系統(tǒng)留下可乘之機(jī)。
通過數(shù)據(jù)挖掘整理,全面了解病毒特征以及決策條件,同時(shí)在此基礎(chǔ)上進(jìn)行更進(jìn)一步的分類、分析及審核,從而完善數(shù)據(jù)處理結(jié)果,這就是對(duì)數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理通過科學(xué)的手段進(jìn)一步驗(yàn)證網(wǎng)絡(luò)安全問題,以提取出的驗(yàn)證指標(biāo)和關(guān)鍵數(shù)據(jù)參數(shù)為構(gòu)建防御系統(tǒng)的重要依據(jù)。由此可見,數(shù)據(jù)預(yù)處理在大數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中精準(zhǔn)分析判斷系統(tǒng)漏洞、病毒類型等原始特征的功能可以得以全面實(shí)現(xiàn),使計(jì)算機(jī)系統(tǒng)的防御能力得到進(jìn)一步的提升。
入侵檢測(cè)技術(shù)是網(wǎng)絡(luò)安全防護(hù)中的重要組成部分。主要有兩種檢測(cè)形式,異常入侵檢測(cè)和正常入侵檢測(cè)。兩者雖各有不同,但通常進(jìn)行配合使用。大數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)中的應(yīng)用,可以實(shí)現(xiàn)入侵檢測(cè)技術(shù)水平的極大提高,從而強(qiáng)化整體網(wǎng)絡(luò)安全水平。
異常入侵檢測(cè)的第一步是收集異常數(shù)據(jù),要構(gòu)建科學(xué)有效的分析模型,對(duì)已發(fā)生的入侵行為的特征進(jìn)行分析匯總,進(jìn)一步豐富異常數(shù)據(jù)模型。在這種操作方式下,如果再次發(fā)生非法入侵,因?yàn)榇嬖谂c之前的異常入侵行為相似的特征,通過入侵檢測(cè)技術(shù)就可以快速地得以識(shí)別其發(fā)生與擴(kuò)散,從而保護(hù)網(wǎng)絡(luò)安全。從技術(shù)層面上來講,異常入侵檢測(cè)的數(shù)據(jù)信息相對(duì)較為簡(jiǎn)單,比較容易建立數(shù)據(jù)模型。正是因?yàn)檫@種簡(jiǎn)單的特征,就只能通過這種技術(shù)來識(shí)別曾經(jīng)發(fā)生過的異常入侵行為,卻沒有辦法準(zhǔn)確識(shí)別到還沒有發(fā)生或者是發(fā)生前還沒有攻破的入侵特征,由此可見仍存在較多漏洞。如果在這一過程中應(yīng)用大數(shù)據(jù)挖掘技術(shù),就能夠建立協(xié)助入侵檢測(cè)技術(shù)預(yù)測(cè)的功能,針對(duì)性地預(yù)測(cè)未知入侵行為。這一應(yīng)用就是依托數(shù)據(jù)關(guān)聯(lián)技術(shù),提取曾經(jīng)發(fā)生過的入侵行為的數(shù)據(jù),并進(jìn)行分析。深度挖掘分析入侵行為的攻擊路徑中通過分析產(chǎn)生的數(shù)據(jù)分類參數(shù)的設(shè)定標(biāo)準(zhǔn),同時(shí)通過算法進(jìn)行科學(xué)預(yù)測(cè)。通過二者的結(jié)合,使得大數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)分析預(yù)測(cè)功能得到充分發(fā)揮,也實(shí)現(xiàn)了異常入侵檢測(cè)對(duì)未知入侵行為的有效檢測(cè)與預(yù)測(cè),使入侵檢測(cè)更加精準(zhǔn)。
相比較異常入侵檢測(cè),正常的網(wǎng)絡(luò)行為是正常入侵檢測(cè)的對(duì)象,主要通過科學(xué)系統(tǒng)的分析與建模,以篩選、分析出正常模型特征。通過用戶行為的特征與正常模型的特征進(jìn)行對(duì)比的匹配度,確定是否是正常的網(wǎng)絡(luò)行為。如果出現(xiàn)不相符的現(xiàn)象,即為不正常入侵。從技術(shù)層面講,這種判斷模式也會(huì)存在一定程度上的誤差。鑒于此,在使用正常入侵檢測(cè)技術(shù)時(shí),可以通過對(duì)同類別數(shù)據(jù)信息的劃分,更加精準(zhǔn)的對(duì)數(shù)據(jù)進(jìn)行分析,以確保其檢測(cè)的精準(zhǔn)度。
網(wǎng)絡(luò)應(yīng)用伴隨著網(wǎng)絡(luò)時(shí)代的到來越來越多地滲透到人們生活中的方方面面,為社會(huì)發(fā)展和人們生活提供了各種便利,為大數(shù)據(jù)挖掘技術(shù)也帶來了全新的變化和更多的機(jī)遇。與此同時(shí),網(wǎng)絡(luò)安全問題也成為衍生物,影響著人們的生活。因此,在大數(shù)據(jù)環(huán)境下,網(wǎng)絡(luò)安全管理尤為重要。網(wǎng)絡(luò)安全工作與大數(shù)據(jù)挖掘技術(shù)的融合,不但可以充分發(fā)揮大數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì),還可以顯著提升網(wǎng)絡(luò)防御病毒的能力,防止出現(xiàn)病毒程序入侵網(wǎng)絡(luò)導(dǎo)致系統(tǒng)受損的現(xiàn)象。相比較傳統(tǒng)網(wǎng)絡(luò)安全技術(shù),以發(fā)掘隱藏在網(wǎng)絡(luò)安全數(shù)據(jù)中的安全信息及關(guān)鍵屬性為手段,以及時(shí)發(fā)現(xiàn)并判斷未知侵入行為為目的的大數(shù)據(jù)挖掘技術(shù)已成為當(dāng)下網(wǎng)絡(luò)安全應(yīng)用的熱門研究方向。正是由于這一技術(shù)的廣泛、科學(xué)的運(yùn)用,使得各種龐大的商業(yè)智能數(shù)據(jù)、科學(xué)應(yīng)用數(shù)據(jù)及網(wǎng)絡(luò)技術(shù)數(shù)據(jù)的安全性得以保障。未來,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用和研究還會(huì)進(jìn)一步加強(qiáng),網(wǎng)絡(luò)安全問題還將提升到一個(gè)戰(zhàn)略性的高度,只有這樣整體網(wǎng)絡(luò)環(huán)境才能更加健康。同時(shí),也可以做出這樣的判斷,未來,關(guān)于大數(shù)據(jù)研究的相關(guān)技術(shù)應(yīng)用,數(shù)據(jù)信息領(lǐng)域的各類研究以及發(fā)展趨勢(shì)的判斷將會(huì)是IT產(chǎn)業(yè)在物聯(lián)網(wǎng)、5G網(wǎng)絡(luò)產(chǎn)業(yè)之后又一重大的技術(shù)變革,可以斷定這一變革勢(shì)必將影響未來整個(gè)行業(yè)的發(fā)展。