国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法

2016-11-22 11:35:28郭亮羅森林潘麗敏
關(guān)鍵詞:網(wǎng)絡(luò)協(xié)議字段數(shù)據(jù)包

郭亮, 羅森林, 潘麗敏

(北京理工大學(xué) 信息系統(tǒng)及安全對(duì)抗實(shí)驗(yàn)中心, 北京 100081)

?

基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法

郭亮, 羅森林, 潘麗敏

(北京理工大學(xué) 信息系統(tǒng)及安全對(duì)抗實(shí)驗(yàn)中心, 北京 100081)

為解決網(wǎng)絡(luò)協(xié)議語法分析方法中,依賴人工干預(yù)、分析效率低下、分析范圍較小等問題,提出一種基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法. 通過嗅探采集網(wǎng)絡(luò)原始數(shù)據(jù)包,解析基礎(chǔ)協(xié)議并對(duì)數(shù)據(jù)包進(jìn)行預(yù)處理,提取9維不同角度的特征,建立了網(wǎng)絡(luò)協(xié)議語法相似分析模型,分析網(wǎng)絡(luò)協(xié)議細(xì)節(jié)語法特征. 通過將TCP協(xié)議作為已知協(xié)議,對(duì)UDP、DNS、QQ等3種不同類型的協(xié)議測(cè)試,結(jié)果表明這3類協(xié)議報(bào)頭中,33%以上的字段能在TCP協(xié)議中找到對(duì)應(yīng)的相似語法,而且平均準(zhǔn)確率均在96%以上,該方法不需人工干預(yù),可以提高分析效率、減少限制條件、擴(kuò)大分析范圍,并能較為有效地分析出網(wǎng)絡(luò)協(xié)議語法特征.

協(xié)議語法分析;協(xié)議逆向;相似度匹配

網(wǎng)絡(luò)協(xié)議語法分析在網(wǎng)絡(luò)安全中地位越來越重要,涉及到入侵檢測(cè)[1]、漏洞挖掘[2]、協(xié)議重用[3]等. 目前主要采用協(xié)議逆向分析的手段實(shí)現(xiàn)協(xié)議語法信息的提取,可分為兩類,基于流量跟蹤進(jìn)行分析和基于指令執(zhí)行進(jìn)行分析. PAN-Fan等[4]對(duì)這兩類方法進(jìn)行了比較,后者逆向能力和準(zhǔn)確度優(yōu)于前者,而前者限制條件和分析速度由于后者.

基于流量跟蹤分析的協(xié)議逆向方法,最早是Marshall Beddoe[5]啟動(dòng)的PI(protocol information)項(xiàng)目來分析未知或者未公開的網(wǎng)絡(luò)協(xié)議的結(jié)構(gòu). CUI等[6]提出一種Discoverer方案,采用聚類的方法,比PI中基于字節(jié)的方法,更有針對(duì)性,同時(shí)還針對(duì)標(biāo)志、長(zhǎng)度、偏移、cookie等語法,分別采用了一種啟發(fā)式識(shí)別規(guī)則. 但是該方法的無監(jiān)督聚類方法,并不能保證聚類結(jié)果完全可靠,而其使用的識(shí)別規(guī)則,針對(duì)性太強(qiáng),識(shí)別結(jié)果較固定. Antunes等[7]提出一種以偏序比對(duì)算法為基礎(chǔ),構(gòu)建有窮自動(dòng)機(jī)識(shí)別報(bào)文的方法,但該識(shí)別并不能識(shí)別具體語法,只能識(shí)別狀態(tài)變化等,只滿足協(xié)議識(shí)別的基本需求. 基于指令執(zhí)行分析的逆向方法研究也比較多. 比如應(yīng)凌云等[8]提出惡意軟件網(wǎng)絡(luò)協(xié)議的語法和行為語義分析方法,這類方法有很高的準(zhǔn)確性和可靠性,但其復(fù)雜度依賴于分析對(duì)象軟件的代碼復(fù)雜度,而且分析過程長(zhǎng),效率低.

本文提出的基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法是屬于流量跟蹤的分析方法. 該方法能夠提高協(xié)議分析效率,進(jìn)行自動(dòng)化協(xié)議分析,并且擴(kuò)大了協(xié)議語法分析的范圍,能夠適用于更多類型的語法分析.

1 網(wǎng)絡(luò)協(xié)議語法相似分析模型

1.1 原理框架

本文提出的網(wǎng)絡(luò)協(xié)議語法相似分析模型,原理圖如圖1所示.

1.2 網(wǎng)絡(luò)數(shù)據(jù)采集

對(duì)數(shù)據(jù)包進(jìn)行主要采集依靠網(wǎng)絡(luò)嗅探技術(shù),捕獲經(jīng)過網(wǎng)卡的所有數(shù)據(jù)包,解析已知的基礎(chǔ)協(xié)議,過濾掉非目標(biāo)協(xié)議的所有數(shù)據(jù)包,只采集目標(biāo)協(xié)議的網(wǎng)絡(luò)數(shù)據(jù)包. 本文所采用的訓(xùn)練數(shù)據(jù)使用最為常見的TCP協(xié)議數(shù)據(jù),本文實(shí)驗(yàn)所用到的測(cè)試數(shù)據(jù),主要包括UDP、DNS、QQ等協(xié)議數(shù)據(jù). 所采集數(shù)據(jù)均為原始數(shù)據(jù)包,每類數(shù)據(jù)均采集50 MB左右.

1.3 數(shù)據(jù)預(yù)處理

數(shù)據(jù)采集后,需要進(jìn)行基礎(chǔ)協(xié)議解析、數(shù)據(jù)截?cái)嗟炔襟E. 基礎(chǔ)協(xié)議解析主要指將原始數(shù)據(jù)流依據(jù)基礎(chǔ)協(xié)議語法拆分成一個(gè)個(gè)獨(dú)立數(shù)據(jù)包,并且去掉基礎(chǔ)協(xié)議的報(bào)頭. 而數(shù)據(jù)截?cái)嘀冈O(shè)置一個(gè)數(shù)據(jù)截?cái)嚅L(zhǎng)度N,截?cái)嗨虚L(zhǎng)度大于N字節(jié)的數(shù)據(jù)包,丟棄掉所有長(zhǎng)度小于N字節(jié)的數(shù)據(jù)包.

將輸入的原始網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化成c[N][M]的標(biāo)準(zhǔn)二維向量,其中N表示數(shù)據(jù)包長(zhǎng)度,M表示參與統(tǒng)計(jì)特征提取的數(shù)據(jù)包個(gè)數(shù). 對(duì)于N的選取,原則上只需要覆蓋協(xié)議的報(bào)頭即可,本文選取的4類協(xié)議,報(bào)頭長(zhǎng)度均在30以下,同時(shí)考慮到32位計(jì)算機(jī)中默認(rèn)4字節(jié)對(duì)齊的問題,本文選取了N=32. 對(duì)于M的選取,本文采用網(wǎng)格法進(jìn)行了多組實(shí)驗(yàn),選取了實(shí)驗(yàn)結(jié)果最佳的M=300.

1.4 特征提取

特征提取是最核心的一步,為了選擇更有效的特征,本文從取值范圍、隨機(jī)性、統(tǒng)計(jì)參數(shù)等3個(gè)角度選取了9維特征. 在預(yù)處理之后,將其輸出的c[N][M]的數(shù)據(jù)包,按照單字節(jié)進(jìn)行拆分,拆分成N個(gè)ci[M]序列,然后分別選取對(duì)每一組ci[M]序列進(jìn)行統(tǒng)計(jì)特征提取,得到N組9維特征向量λi[N](i=1,2,…,9),對(duì)應(yīng)的特征如表1所示.

1.5 向量分組

根據(jù)網(wǎng)絡(luò)協(xié)議的一般特征,協(xié)議報(bào)頭中相同偏移的字節(jié)語法相同,而不同偏移地址的字節(jié)也存在語法相同的情況. 本文選取的訓(xùn)練協(xié)議TCP協(xié)議,根據(jù)其協(xié)議語義,對(duì)20位偏移地址進(jìn)行分組,最終分組結(jié)果為:[1、3] [2、4] [5、9] [6、10] [7、11] [8、12] [13] [14] [15] [16] [17、18] [19、20]等12組. 將每一組數(shù)據(jù)輸入,均可得到N組特征向量λi[N](i=1,2,…,9),所有訓(xùn)練數(shù)據(jù)根據(jù)這12類分組,計(jì)算其每組的質(zhì)心向量,作為相似匹配的模型參數(shù).

1.6 相似匹配

提取出已知協(xié)議的特征向量質(zhì)心模型之后,需要將未知協(xié)議特征向量與該模型進(jìn)行相似匹配. 本文對(duì)歐幾里得距離函數(shù),Jffreys 距離,Manhattan 距離,相關(guān)系數(shù),余弦函數(shù)等5類相似度函數(shù)從時(shí)間性能和匹配成功率兩個(gè)角度進(jìn)行了對(duì)比分析實(shí)驗(yàn)(鑒于篇幅考慮,略去該實(shí)驗(yàn)具體內(nèi)容),選擇匹配率和時(shí)間性能較好的Jffreys距離作為相似度函數(shù),其公式為

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)?zāi)康?/p>

將TCP協(xié)議數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),UDP、DNS、QQ協(xié)議等作為測(cè)試數(shù)據(jù),來驗(yàn)證算法有效性.

2.2 評(píng)價(jià)方法說明

統(tǒng)計(jì)每一類協(xié)議中各字段所匹配結(jié)果中,概率最大的TCP匹配類別及其匹配概率,并且人為根據(jù)其語義判定是否相似,將相似類別的平均匹配概率作為準(zhǔn)確率進(jìn)行評(píng)價(jià).

2.3 實(shí)驗(yàn)過程和參數(shù)說明

本實(shí)驗(yàn)選取TCP協(xié)議視為已知協(xié)議,UDP、DNS、QQ協(xié)議等視為未知協(xié)議. 首先分別選取50 MB的TCP、UDP、DNS、QQ協(xié)議數(shù)據(jù),每300個(gè)數(shù)據(jù)包為一組,并對(duì)所有數(shù)據(jù)進(jìn)行預(yù)處理和特征提取. 將TCP協(xié)議數(shù)據(jù)提取出的特征向量進(jìn)行分組,計(jì)算每一組的質(zhì)心. 分別選取UDP、DNS、QQ協(xié)議數(shù)據(jù)提取出特征向量各100組,輸入相似匹配模塊,與TCP協(xié)議各組質(zhì)心進(jìn)行相似匹配,選取與該輸入Jffreys距離最小的質(zhì)心,視為該組數(shù)據(jù)的匹配結(jié)果,并選擇匹配次數(shù)最多的質(zhì)心,作為該類協(xié)議該字段的匹配最終結(jié)果.

2.4 實(shí)驗(yàn)結(jié)果及分析

其中UDP相似匹配詳細(xì)結(jié)果如表2所示,從結(jié)果可以看出,UDP的字段1、3、7字段分別與TCP的1、1、11類字段相似,而從其字段含義也可以看出其語法相同,并且準(zhǔn)確率很高,在98%以上.

表2 UDP相似匹配結(jié)果

此外,UDP其他字段,比如兩個(gè)端口號(hào)的第二字節(jié),分別匹配到了TCP的序列號(hào)的1、2字節(jié),雖然從字段含義中看不到其聯(lián)系,但通過分析其語法,也可以得到其語法相似的結(jié)果,不過本文結(jié)果并未采用這類隱藏較深的結(jié)果.

鑒于篇幅原因,不將中間結(jié)果一一展示,實(shí)驗(yàn)結(jié)果如表 3所示. 經(jīng)過UDP、DNS、QQ等3種不同類型的協(xié)議測(cè)試,分別有3、4、3個(gè)字段與TCP中對(duì)應(yīng)字段有明顯相似關(guān)系. 而在這些相似語法字段的匹配中,平均準(zhǔn)確率均在97%以上,說明了本文方法的有效性. 此外,從結(jié)果看出,與TCP協(xié)議越相似的協(xié)議,如UDP協(xié)議,有著越高的算法準(zhǔn)確率.

表3 UDP、DNS、QQ匹配結(jié)果

本文選取了具有代表性的3類方法進(jìn)行比較,包括CUI所用的Discoverer[6]方法、Antonio Trifil[7]所用方法和應(yīng)凌云所用的Prama[9]方法進(jìn)行了對(duì)比分析,其比較結(jié)果如表 4所示. 與同樣基于流量跟蹤方法的Discoverer方法和Antonio方法比較來看,本文方法能夠分析出更多的特征,并且自動(dòng)分析能力和時(shí)間性能都比較優(yōu)秀. 而與基于指令執(zhí)行的Prama方法比較來看,可以進(jìn)行實(shí)時(shí)、自動(dòng)分析,并且分析范圍為相似特征,與Prama方法分析的行為特征各有優(yōu)劣,雖然在分析內(nèi)容方面比Prama方法分析出的語義信息略有遜色,但本文方法在分析出字段語法之后,可以通過參考相似字段的語義信息,進(jìn)行人工語義分析,一定程度地彌補(bǔ)該方法的不足.

表4 本文方法與Discoverer、Antonio及Prama方法對(duì)比分析

Tab.4 Comparison with Discoverer、 Antonio and Prama’s methods

方法分析條件分析手段分析范圍分析內(nèi)容分析時(shí)間本文方法流量跟蹤自動(dòng)相似特征語法分析實(shí)時(shí)Discoverer流量跟蹤自動(dòng)3類特征語法分析實(shí)時(shí)Antonio流量跟蹤半自動(dòng)1類特征狀態(tài)分析略長(zhǎng)Prama指令執(zhí)行人工行為特征語義分析較長(zhǎng)

綜上所述,相比Discoverer方法、Antonio方法和Prama方法,網(wǎng)絡(luò)協(xié)議語法相似分析方法不需人工干預(yù),能提高分析效率、減少限制條件、擴(kuò)大分析范圍,并能較為有效的分析出網(wǎng)絡(luò)協(xié)議語法特征.

3 結(jié) 論

本文提出了一種基于相似度匹配的網(wǎng)絡(luò)協(xié)議語法分析方法,并建立了網(wǎng)絡(luò)協(xié)議語法相似分析模型.

通過實(shí)驗(yàn)確定了各項(xiàng)參數(shù)指標(biāo),然后通過UDP、DNS、QQ等3種不同類型的語法分析實(shí)驗(yàn),結(jié)果表明這3類協(xié)議報(bào)頭中,33%以上的字段都能在TCP協(xié)議中找到對(duì)應(yīng)的相似語法,而在這些相似語法字段的匹配中,平均準(zhǔn)確率均在96%以上,說明了本文方法的有效性.

與同類方法比,該方法不需人工干預(yù),能提高分析效率、減少限制條件、擴(kuò)大分析范圍,并能較為有效地分析出網(wǎng)絡(luò)協(xié)議語法特征,有較好的實(shí)用性.

本文方法也存在一些缺點(diǎn)和不足. 首先該方法結(jié)果的準(zhǔn)確率,依賴于用于訓(xùn)練的已知協(xié)議的選取,不同于其他協(xié)議分析方法直接對(duì)目標(biāo)協(xié)議進(jìn)行分析. 其次本文所采用的特征,對(duì)于TCP、UDP、DNS等固定長(zhǎng)度的協(xié)議有較好效果,但對(duì)于HTTP、XML等采用分隔符類的協(xié)議并不合適,對(duì)該類協(xié)議需要尋找一批新的特征,做進(jìn)一步的研究工作.

[1] Caballero J, Poosankam P, Kreibich C. Dispatcher: enabling active botnet infiltration using automatic protocol reverse engineering[C]∥Proceedings of the ACM Conference on Computer and Communications Security. [S.l.]: ACM, 2009:621-634.

[2] Comparetti P M, Wondracek G, Kruegel C. Prospex Protocol specification extraction[C]∥Proceedings of 2009 30th IEEE Symposium on Security and Privacy (SP). [S.l.]: IEEE, 2009:110-125.

[3] Brumley D, Caballero J, Liang Zhenkai. Towards automatic discovery of deviations in binaryimplementations with applications to error detection and fingerprint generation[C]∥16th USENIX Security Symposium.[S.l.]: USEMX Assaciation, 2007:213-228.

[4] Pan Fan, Wu Lifa, Du Youxiang, et al. Overviews on protocol reverse engineering[J]. Application Research of Computers, 2011,28(8):2801-2806.

[5] Beddoe M. Protocd information project[EB/OL]. [2004-01-02]. http://www.4tphi.net/~awalters/PI/PI.htrnl.

[6] Cui Weidong, Paxson V, Weaver N C. Discoverer: automatic protocol reverse engineering from network traces[C]∥16th USENIX Security Symposium. [S.l.]: USENIX, 2008.

[7] Jo?o Antunes, Nuno Neves, Paulo Verissimo. Reverse engineering of protocols from network traces[C]∥18th Working Conference on Reverse Engineering. [S.l.]: IEEE, 2011:169-178.

[8] 應(yīng)凌云,楊軼,馮登國(guó),等.惡意軟件網(wǎng)絡(luò)協(xié)議的語法和行為語義分析方法[J].軟件學(xué)報(bào),2011,22(7):1676-1689.

Ying Lingyun, Yang Yi, Feng Dengguo, et al. Syntax and behavior semantics analysis of network protocol of malware[J]. Journal of Software, 2011,22(7):1676-1689. (in Chinese)

(責(zé)任編輯:劉芳)

Analysis of the Network Protocol Syntax Based on Similarity Matching

GUO Liang, LUO Sen-lin, PAN Li-min

(Information System and Security & Countermeasures Experimental Center,Beijing Institute of Technology, Beijing 100081, China)

To solve the problems in analysis of the network protocol syntax, which are rely on human intervention, low efficiency and narrow scope, a method was proposed for analysis of network protocol syntax based on similarity matching. The main process of the method include collecting the raw packets by network sniffer, and then preprocessing the packets, using a variety of methods for 9 features extraction, establishing a network protocol syntax analysis model based on similarity matching method, to analyze the syntax feature of network protocol. Taking the TCP protocol as a known protocol, experiments were actualized with different types of protocols as UDP, DNS and QQ. The results show that in the three types of protocol header, more than 33% of the correct similar syntax fields can be found in TCP protocol, and the average accuracy rate was over 96%, the process needs not manual intervention, it can improve the analysis efficiency, reduce the constraints, expand the scope of the analysis, and analyze the network protocol syntax more effectively.

analysis of the network protocol syntax; protocol reverse; similarity matching

2014-03-24

北京理工大學(xué)科技創(chuàng)新計(jì)劃重大項(xiàng)目(2011CX01015);國(guó)家“二四二”計(jì)劃項(xiàng)目(2005C48)

郭亮(1986—),男,博士生,E-mail:liang4358@163.com.

潘麗敏(1968—),女,碩士,實(shí)驗(yàn)師,E-mail:panlimin@bit.edu.cn.

TP 391

A

1001-0645(2016)05-0520-04

10.15918/j.tbit1001-0645.2016.05.015

猜你喜歡
網(wǎng)絡(luò)協(xié)議字段數(shù)據(jù)包
計(jì)算機(jī)網(wǎng)絡(luò)理論下的傳播研究結(jié)構(gòu)模型:Communication一詞的兩種翻譯
圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
SmartSniff
一種藍(lán)牙多跳網(wǎng)絡(luò)協(xié)議的設(shè)計(jì)與研究
電子制作(2018年17期)2018-09-28 01:56:52
基于DPI技術(shù)的語音視頻流量監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
芻議局域網(wǎng)中網(wǎng)絡(luò)協(xié)議的添加與配置
科技資訊(2015年10期)2015-06-29 18:17:23
CNMARC304字段和314字段責(zé)任附注方式解析
無正題名文獻(xiàn)著錄方法評(píng)述
基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
關(guān)于CNMARC的3--字段改革的必要性與可行性研究
陆良县| 车致| 凤山县| 佛坪县| 蓝田县| 仪陇县| 沂水县| 东光县| 中牟县| 博湖县| 南乐县| 万源市| 张家口市| 蒙山县| 晋城| 扬州市| 乐昌市| 万源市| 随州市| 乐平市| 永安市| 建德市| 巴林左旗| 深州市| 望谟县| 阜南县| 土默特右旗| 资阳市| 吴江市| 贵州省| 鄂伦春自治旗| 深水埗区| 稻城县| 深泽县| 安乡县| 日土县| 常熟市| 绥宁县| 开封县| 普兰店市| 宁安市|