奚雨新
【關鍵詞】入侵檢測技術;網絡入侵檢測模型;遷移學習
如今,我們已經進入了“互聯(lián)網+”社會,互聯(lián)網廣泛應用在跨境電商、金融交易、在線學習、移動醫(yī)療、生活服務等領域,讓人們的生活更加便捷。與此同時,它也帶來了黑客的襲擊、信息泄露等網絡安全問題。而網絡入侵技術則是網絡技術不斷發(fā)展的成果,它能夠彌補傳統(tǒng)的網絡安全技術的不足,協(xié)助網絡用戶檢測網絡內各種安全漏洞,對網絡設備及流量進行監(jiān)視和分析,并在發(fā)現(xiàn)入侵時發(fā)出警報。目前如何提高檢測技術的有效性、實用性、適應性、可擴展性是網絡安全方面研究的關鍵[1]。
(一)按數(shù)據來源不同分類
1、基于主機的入侵檢測系統(tǒng)
系統(tǒng)檢查的數(shù)據主要依據計算機操作系統(tǒng)日志文件,包括安全日志、應用程序日志等。它不需要網絡數(shù)據的參與,只需要通過計算機內部入侵數(shù)據庫判斷這些日志文件是否異常。它的優(yōu)點是檢測速度比較快,能夠準確地檢測到計算機系統(tǒng)所發(fā)生的事件,不受被加密的網絡數(shù)據所影響。但它的缺點是該檢測系統(tǒng)占用的空間大,檢測時占用計算機資源,CPU被占用后無法進行其他的分析,因此無法檢測網絡中的多點入侵。
2、基于網絡的入侵檢測系統(tǒng)
系統(tǒng)對網絡的流量數(shù)據進行檢測,實時監(jiān)控網絡的數(shù)據包并建立對數(shù)據包的實時分析,通常采用模式匹配、頻率等判斷網絡是否處于異常。該系統(tǒng)一般設置在網關或防火墻之后。它的優(yōu)點是適用于大規(guī)模網絡的入侵檢測,占用的資源少,成本低。它的缺點是難以訓練出一個較好的檢測數(shù)據模型,對數(shù)據庫及時更新所需成本很大。
3、分布式的入侵檢測系統(tǒng)
針對以上兩種檢測系統(tǒng)的不足,分布式檢測系統(tǒng)使以上兩種系統(tǒng)協(xié)調工作,既能檢測主機運行所產生的數(shù)據,又能對網絡中的數(shù)據包進行檢測,這樣不僅做到了對主機的保護,也實現(xiàn)了對不斷變化的網絡進行監(jiān)控,確保計算機系統(tǒng)的安全。
(二)按照檢測技術的分類
檢測技術一直處于發(fā)展的狀態(tài),新技術不斷地產生。網絡入侵檢測方法根據當前網絡狀態(tài)和正常狀態(tài)下的網絡行為對比可以劃分為以下兩種:
1、誤用的網絡入侵檢測方法:該方法主要依據系統(tǒng)已有的特征庫來檢測不正常行為, 該方法首先通過對網絡被入侵模式下工作的數(shù)據進行收集,形成入侵情況下的數(shù)據庫。將需要檢測的對象為目標指令與形成的數(shù)據庫進行對比,成功則判斷為入侵,反之則正常。由于直接匹配對比異常的行為模式,誤報率很低,但是該方法無法檢測到新的入侵行為,所以該策略的漏報率較高?,F(xiàn)如今網絡經常出現(xiàn)一些新的入侵行為,同時一些入侵行為也會發(fā)生變異,誤用的網絡入侵檢測已經處于淘汰狀態(tài)。
2、異常的網絡入侵檢測方法:該方法是基于入侵的行為進行檢測,建立正常工作時的行為模式,然后利用正常時的模式與計算機行為進行比較,屬于正常工作模式范圍內的行為被允許,反之阻止。由于是該方法可以檢測到新的入侵行為,因此漏報率很低。但正常工作時的數(shù)據有很多可能沒有得到訓練,這就出現(xiàn)了非攻擊行為不在正常工作模式范圍內的情況,所以這種方法的誤報率較高。我們如何利用算法來降低異常入侵檢測方法的誤報率,是我們研究的關鍵。
但是該方法需要部署配置文件,在其過程需要訓練和測試數(shù)據。訓練數(shù)據的目的是形成網絡正常時候的配置文件,在測試數(shù)據的過程是用新的入侵數(shù)據來測試配置文件,觀察其結果,判斷是否有效。
(一)概念
遷移學習是指利用數(shù)據、任務或者模型的相似性,將在原領域學習的知識,應用到新的領域的一種學習過程[2]。
生活中,我們人類經常會使用遷移學習的思想,比如,我們學會了C語言的語法,可以應用于C++語言的學習中。再比如,我們學會了騎自行車的技能,可以將該技能應用于學騎電動車上。其實就是利用相關領域知識完成目標領域的任務,也就是我們生活中所說的“舉一反三”。但是機器就沒有舉一反三的能力。比如,阿爾法圍棋(AlphaGo)在19×19的圍棋棋盤能夠戰(zhàn)勝人類,而換一種棋盤和場景它就不一定可以戰(zhàn)勝人類了。
在如今數(shù)據時代,做什么都需要大量的數(shù)據,很多領域由于行業(yè)性質、用戶隱私、商業(yè)利益,會造成小數(shù)據和數(shù)據孤島。我們之前是無能為力的,現(xiàn)在可以用遷移學習將已有的大數(shù)據模型遷移到小數(shù)據模型上來解決問題,只要這個大數(shù)據模型和我們要解決的問題有一定的相似性。
(二)遷移學習與傳統(tǒng)機器學習的區(qū)別
機器學習應用的場景越來越多,但要想有更好的應用效果,需要足夠的數(shù)據標簽。我們知道足夠的數(shù)據標簽需要經過大量的訓練和測試,在大多數(shù)情況下,我們是無法實現(xiàn)的。傳統(tǒng)的機器學習在每個任務中都需要利用大量訓練的數(shù)據來創(chuàng)建模型,少量的訓練數(shù)據是無法建立可靠的模型。而遷移學習作為機器學習的一個重要分支,它可以利用與我們需要的數(shù)據相似且已有標注的數(shù)據建立模型,并不要求訓練和測試的數(shù)據分布相同,它還可以將在大量標注數(shù)據上訓練好的模型進行調節(jié)適應,重用到新的任務中。
(三)遷移學習基本方法
遷移學習不是一種算法,而是一種解決問題的思想。我們設定源域為,目標域為,通過遷移學習思想應用知識幫助目標域的學習。按學習方法分類分為以下四種:
1、基于樣本的遷移學習方法:通過對和的樣本概率分析,根據的數(shù)據分布情況,來對有標記數(shù)據的權重進行增減,增加與相似的數(shù)據權重,降低與差別大的數(shù)據權重。通過對目標領域有用的實例不斷加權,最后和的概率分布越來越相似。
2、基于模型的遷移學習方法:找到和數(shù)據模型中共享的參數(shù),構造一個參數(shù)共享模型。
3、基于關系的遷移學習方法:這種方法挖掘和利用和樣本之間的關系進行類比遷移,在和之間建立相應的映射。
4、基于特征的遷移學習方法:我們找一個方法將和的特征統(tǒng)一到一個空間中,減少它們之間的差距。
(一)網絡入侵檢測工作過程
它的過程一般包括數(shù)據收集、數(shù)據預處理、數(shù)據分析檢測和根據安全策略做出響應[3],其中數(shù)據收集包括計算機軟硬件工作狀態(tài)、網絡數(shù)據流、系統(tǒng)日志信息等。數(shù)據預處理則是對收集到的數(shù)據屬性特征進行精簡分類。之后,我們使用誤用或異常入侵檢測的方法對數(shù)據分析檢測。事件響應是經過分析后讓管理員或用戶知道系統(tǒng)存在的安全問題。
(二)基于遷移學習的網絡入侵檢測模型
在實際檢測模型中,如果想要應對新的入侵情況,那么需要重新訓練模型,訓練一個新的模型復雜度高且需要時間久。這時候考慮到數(shù)據具有相關性,可以在數(shù)據預處理后將遷移學習方法用于檢測技術中,利用已有的訓練數(shù)據構成新模型的訓練數(shù)據,也可以對已有的模型進行調整來適應新的入侵,既實現(xiàn)了使用大量數(shù)據不斷更新模型,又實現(xiàn)了對模型的重用,加快了網絡入侵檢測技術的速度,同時也提高了入侵檢測的適應性。
總的來說,要重視和落實互聯(lián)網安全工作,盡可能避免互聯(lián)網安全事故的發(fā)生。因為一旦發(fā)生安全事件,其影響是不可逆轉的。各類網絡入侵手段層出不窮,這也使得網絡安全問題成為當下研究的熱點問題。本文結合了網絡入侵檢測模型和遷移學習方法,將遷移學習用于網絡入侵檢測模型,能夠很好地完善入侵檢測的技術,具有積極的研究價值。