2014年9月,國家互聯(lián)網(wǎng)應(yīng)急中心對木馬、僵尸程序活動狀況的抽樣監(jiān)測顯示,中國大陸地區(qū)1,042,303個IP地址對應(yīng)的主機被木馬或僵尸程序秘密控制,被篡改的網(wǎng)站達11,152個。而對僵尸網(wǎng)絡(luò)進行監(jiān)測的目的是了解跟蹤木馬僵尸網(wǎng)絡(luò)變化發(fā)展趨勢,對控制服務(wù)器或動態(tài)域名進行屏蔽,掌握控制網(wǎng)絡(luò)內(nèi)的感染情況,并針對性地采取措施,最終保護終端用戶的安全和利益。
上海交通大學(xué)木馬僵尸網(wǎng)絡(luò)監(jiān)測系統(tǒng)開發(fā)主要涉及到以下幾方面的工作:
使用了零拷貝技術(shù)解決高速網(wǎng)絡(luò)的流量捕獲,多處優(yōu)化了Linux操作系統(tǒng),優(yōu)化了開源的Snort 2.9版本并利用其作為DPI檢測引擎,通過控制多檢測進程并行工作充分利用了多核CPU資源和內(nèi)存,通過日志文件到數(shù)據(jù)庫的轉(zhuǎn)儲解決了突發(fā)峰值的數(shù)據(jù)庫插入瓶頸,最大化提升了x86平臺整體網(wǎng)絡(luò)流量處理性能。
這是系統(tǒng)開發(fā)過程中耗時最久,投入資源最多,并且還在不斷持續(xù)進行的一項工作。經(jīng)過了多年積累和這次項目進一步研究,我們已經(jīng)在僵尸網(wǎng)絡(luò)、網(wǎng)站后門、網(wǎng)頁篡改等有害行為的樣本搜集、分析整理、特征提取、后期驗證反饋等方面形成了一整套完整的流程和體系。系統(tǒng)研究了大量流行木馬、各類僵尸網(wǎng)絡(luò)的傳播模型,初步了解了其傳播和控制規(guī)律,并從中出抽取了大量的流量特征碼和其特殊的應(yīng)用行為。
讓數(shù)百個或更多的DPI識別引擎同時運行,并且保證特征規(guī)則庫的同步下發(fā)更新,保障每個引擎報出的安全事件可以被迅速送到匯聚節(jié)點記錄入庫,使用自動化監(jiān)控進程去處理各種異常并快速恢復(fù),并不是一件簡單的事情。要讓這套復(fù)雜的系統(tǒng)正常運轉(zhuǎn)起來,需要在很多細節(jié)方面進行相應(yīng)的開發(fā)和集成工作。包括批量網(wǎng)絡(luò)安裝操作系統(tǒng)的套件Cobbler研究,批量部署應(yīng)用和日常管理的工具下fabric使用,應(yīng)用于服務(wù)器狀態(tài)分布式監(jiān)控的Ganglia系統(tǒng)搭建,應(yīng)用于滿足數(shù)億條原始安全事件存儲的數(shù)據(jù)庫設(shè)計和優(yōu)化,都是分布式系統(tǒng)必須要解決的問題。
這部分工作在降低誤報率,增加預(yù)報準(zhǔn)確率,從海量的原始安全事件長期記錄中挖掘出真正有威脅的有害行為,對攻擊者和受害主機進行追蹤定位和行為分析有著特別重要的意義?;跀?shù)據(jù)挖掘的有害行為識別方法比較新,目前缺少一套成熟的體系,還在進一步進行研究完善。在開發(fā)中研究了基于高可用性分布式文件系統(tǒng)HDFS存儲、對網(wǎng)絡(luò)流量和日志友好的編程接口,如Hive/Impala的使用、適合處理非關(guān)系型數(shù)據(jù)的NoSQL數(shù)據(jù)庫、用戶友好易用的行為數(shù)據(jù)可視化頁面等。