魏璐露 程楠楠
收稿日期:2023-07-05
基金項目:江西省教育廳科學技術(shù)研究項目(GJJ2202609)
DOI:10.19850/j.cnki.2096-4706.2024.04.035
摘? 要:隨著Web應(yīng)用程序的普及,網(wǎng)絡(luò)攻擊和安全漏洞的風險日益增加。Web日志文件詳細記錄了網(wǎng)站運行信息,對日志中的流量進行分類從而檢測出異常攻擊流量是保障網(wǎng)頁長期提供穩(wěn)定、安全服務(wù)行之有效的方法之一。文中將Voting特征選擇與Stacking集成相結(jié)合,構(gòu)建了SVM-DT-MLP模型,并將其用于Web日志異常流量檢測。測試結(jié)果表明,SVM-DT-MLP模型的性能顯著優(yōu)于單一算法模型,其Precision(精確度)達到92.44%,Recall(召回率)達到92.43%,F(xiàn)1-Score(F1值)達到92.44%。這意味著該模型能夠有效地檢測出異常攻擊流量,并在保障網(wǎng)頁提供穩(wěn)定和安全服務(wù)方面具有很好的效果。
關(guān)鍵詞:Web日志;異常流量檢測;Stacking集成;Voting特征選擇;機器學習
中圖分類號:TP391.1;TP183? 文獻標識碼:A? 文章編號:2096-4706(2024)04-0171-05
Research on Web Log Abnormal Traffic Detection Based on the SVM-DT-MLP Model
WEI Lulu, CHENG Nannan
(Information Engineering College, Jiangxi University of Technology, Nanchang? 330029, China)
Abstract: With the popularity of Web applications, the risk of cyber attacks and security vulnerabilities is increasing. Web log files record the running information of websites in detail. Classifying the traffic in logs to detect abnormal attack traffic is one of the effective methods to ensure the long-term stability and security service provided by Web pages. In this paper, Voting feature selection and the Stacking integration are combined to construct the SVM-DT-MLP model, and it is used to detect abnormal traffic in Web logs. The test results show that the performance of SVM-DT-MLP model is significantly better than that of the single algorithm model, with the precision reaching 92.44%, the recall reaching 92.43% and the F1-Score reaching 92.44%. This means that the model can effectively detect abnormal attack traffic and has a good effect in ensuring stable and secure services provided by Web pages.
Keywords: Web log; abnormal traffic detection; Stacking integration; Voting feature selection; Machine Learning
0? 引? 言
隨著信息技術(shù)的迅猛發(fā)展,Web程序在各個領(lǐng)域得到了廣泛的應(yīng)用和普及。Web程序的優(yōu)勢在于其便捷性和靈活性,使得用戶可以通過互聯(lián)網(wǎng)輕松訪問和利用各種服務(wù)和資源。無論是電子商務(wù)、在線教育、社交娛樂還是企業(yè)管理,Web程序為人們的生活和工作帶來了巨大的益處。然而,正是因為Web程序部署在開放共享的互聯(lián)網(wǎng)上,它也面臨著一系列的攻擊威脅。黑客和惡意分子利用網(wǎng)絡(luò)漏洞和弱點,可能會進行各種形式的攻擊,如數(shù)據(jù)泄露、拒絕服務(wù)攻擊和惡意代碼注入等。這些安全威脅不僅對個人用戶造成風險,也對企業(yè)和組織的信息資產(chǎn)和業(yè)務(wù)運營帶來嚴重的威脅。為了應(yīng)對這些安全威脅,Web日志的檢測和分析成為一種有效的方法。通過監(jiān)控和分析Web日志,可以檢測出異常流量和潛在的攻擊行為,提前采取相應(yīng)的防護措施。然而,以往基于規(guī)則匹配的Web日志分析方法存在一定的局限性。這些方法依賴于預先定義的規(guī)則和模式來識別攻擊,但隨著攻擊手段的不斷演變和變異,這種基于規(guī)則的方法往往無法準確地檢測新型的和未知的攻擊[1]。
近年來,隨著人工智能的興起,機器學習算法模型成為改進Web日志處理的一種更好的選擇。采取機器學習算法模型處理Web日志不僅能超越基于規(guī)則的方法的限制,還可以提高威脅檢測的準確性和效率[2]。為此,本課題從大量的Web日志數(shù)據(jù)中提取特征和模式,通過機器學習算法模型的訓練和學習,以期實現(xiàn)對異常流量的準確分類。
1? 數(shù)據(jù)處理
1.1? 實驗環(huán)境
本實驗是在64位Windows 10操作系統(tǒng)中進行的,計算機型號和參數(shù)為Intel(R)Core(TM)i7-4790K的CPU,主頻是3.60 GHz,主要開發(fā)平臺是PyCharm,采用的編程語言是Python 3.6。
1.2? 數(shù)據(jù)獲取與清洗
實驗數(shù)據(jù)一部分為HTTP CSIC 2010數(shù)據(jù)集,這是西班牙研究委員會信息安全研究所制作的一套開源網(wǎng)絡(luò)流量數(shù)據(jù)集,制作初衷是為了測試Web攻擊進而對系統(tǒng)加以安全保護。該數(shù)據(jù)集中涵蓋了36 000條正常HTTP行記錄(分類標簽為1)以及逾25 000條異常HTTP行記錄(分類標簽為0),現(xiàn)已廣泛應(yīng)用于Web異常流量檢測研究中。實驗數(shù)據(jù)另一部分是已發(fā)表油菜多組學數(shù)據(jù)庫BnIR從2021年12月6日到2022年3月4日期間自身產(chǎn)生的1 668 668條Web日志原始記錄[3,4]。本研究對原始Web日志文件進行了數(shù)據(jù)清洗,已刪除毫無意義的HTTP請求記錄以及狀態(tài)碼為403或者404的HTTP請求記錄。經(jīng)過數(shù)據(jù)清洗這一操作,1 668 668條原始記錄轉(zhuǎn)換為392 291條有效記錄[5]。
1.3? 基于URL的特征提取
基于Web日志的異常檢測是為站點提供系統(tǒng)應(yīng)用層面的安全防護,并不是要對惡意網(wǎng)站、釣魚鏈接進行排查。所以在特征提取過程中,本研究重點關(guān)注的是如何從URL參數(shù)中提煉出適合的特征。本課題重點分析了Web日志中HTTP請求字符串包含的參數(shù)所具有的數(shù)學特征,共提取出以下9個特征:1)url_total_len:表示HTTP請求的長度。2)path_str_len:表示HTTP請求中訪問路徑的長度。3)canshu_len:表示HTTP請求中參數(shù)的長度。4)canshu_num:表示HTTP請求中參數(shù)的數(shù)量。5)big_num:表示HTTP請求中包含的大寫字符的數(shù)量。6)small_num:表示HTTP請求中包含的小寫字符的數(shù)量。7)not_alpha_fre:表示HTTP請求中特殊字符出現(xiàn)的頻率。8)digit_num:表示HTTP請求中數(shù)字出現(xiàn)的頻率。9)key_num:表示HTTP請求中包含的關(guān)鍵字的數(shù)量。其中關(guān)鍵字是指攻擊流量中常包含的字符[6,7]。
基于URL提取出的各個特征單位各不相同,而每維特征需同等處理,故為消除特征間單位和尺度差異的影響以提高模型訓練效率,本實驗還使用scikit-learn庫中的MinMaxScaler來對提取出的9個特征進行歸一化處理。設(shè)x是需歸一化的數(shù)據(jù),x.min(axis=0)和x.max(axis=0)分別為表示每列最小和最大值組成的行向量,min和max控制數(shù)據(jù)壓縮范圍,默認是[0,1]。
2? 算法介紹
2.1? 向量機算法
支持向量機算法(Support Vector Machine, SVM)為二分類模型,是構(gòu)建在特征空間上間隔的最大線性分類器。例如對于給定的訓練樣本集為T,xi為第i個特征向量,yi為類標記,可以使用如式(1)表示的超平面進行劃分:
(1)
兩個不同分類下訓練樣本點間的最小距離定義為式(2):
(2)
于是如式(3),最優(yōu)化以下約束即可以求解出SVM算法模型最大分割超平面問題:
(3)
對于包含了不等式約束的凸二次規(guī)劃公式,最優(yōu)參數(shù)w和b可以使用拉格朗日乘子法和對偶算法求解出來。
2.2? 決策樹
決策樹(Decision Tree, DT)是樹結(jié)構(gòu),由節(jié)點和有向邊組成,其學習的關(guān)鍵是選擇最優(yōu)屬性進行劃分。決策過程從決策樹的根節(jié)點開始,將待測數(shù)據(jù)與決策樹中的特征節(jié)點進行比較,使得樹的分支節(jié)點所包含的樣本盡可能屬于同一個類別,即節(jié)點的“純度”越來越高。決策樹模型包含有基于信息熵劃分的ID3決策樹、基于信息增益率劃分的C4.5決策樹和基于基尼指數(shù)劃分的CART決策樹。
假定當前樣本集合D中第i類樣本所占的比例為Pi(i = 1,2,…,| n |),則D的信息熵定義為式(4),熵值越小則樣本純度越高。
(4)
選用屬性a對D進行劃分,并且a有V個可能值,所有值為av的樣本記為DV,那么信息增益定義為式(5),信息增益率定義為式(6),基尼值定義為式(7):
(5)
(6)
(7)
2.3? 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是對生物神經(jīng)網(wǎng)絡(luò)抽象模擬的算法模型。多層感知器(Multilayer Perceptron, MLP)是ANN中的一種,輸入層、輸出層及多個隱藏層組成了MLP的前向結(jié)構(gòu)。本研究使用了深度學習框架PyTorch中已安裝好的庫torch.nn來搭建三層感知器算法模型,選用Adam優(yōu)化器來更好地實現(xiàn)二分類任務(wù),并利用包含各種優(yōu)化算法的庫torch.optim優(yōu)化神經(jīng)網(wǎng)絡(luò)中的參數(shù)。此外,在三層MLP算法中引入迭代優(yōu)化思想,其步驟如下:
一是先就有標簽的數(shù)據(jù)訓練,訓練完后再在無標簽的數(shù)據(jù)上進行一輪預測,形成偽標簽數(shù)組predictions,元素為0或者1。
二是使用激活函數(shù)求0和1類別對應(yīng)的概率,表達式如式(8):
(8)
三是設(shè)定閾值,如果在0或1下的概率高于設(shè)定的值,則將其作為高質(zhì)量的預測值,對應(yīng)的樣本可加入訓練集。該方法具有擴充和均衡訓練集的效果,MLP能在新的數(shù)據(jù)上繼續(xù)訓練以提高模型精度。
3? 單個機器學習算法模型的訓練與評估
如圖1所示,為檢測出BnIR的Web日志中的異常流量記錄,本實驗首先從HTTP CSIC 2000數(shù)據(jù)集中隨機取70%作為初始訓練集,另外30%當作測試集。其次將初始訓練集分別輸入到各個機器學習算法模型中,經(jīng)參數(shù)配置調(diào)優(yōu)后創(chuàng)建初始異常檢測模型。然后將未分類的油菜多組學數(shù)據(jù)庫的Web日志數(shù)據(jù)作為初始檢測模型的輸入以獲取每行日志記錄的偽標簽。鑒于油菜多組學數(shù)據(jù)庫系統(tǒng)其本身是一個面向科研人員的知識傳播站點,Web日志中必然客觀存在正常流量記錄條數(shù)遠遠大于異常流量記錄條數(shù)的情況。而樣本類別的不均衡率越低,模型的效果越好[8]。所以我們利用Python中imbalanced-learn庫下的過采樣(增加標簽少樣本的數(shù)量)、欠采樣(減少標簽多樣本的數(shù)量)和設(shè)置樣本類別不同權(quán)重的方法來均衡類別失衡的數(shù)據(jù)集,再將數(shù)據(jù)集二次輸入到初始模型中,最后用測試集來驗證各個算法模型在BnIR日志異常檢測問題上的可應(yīng)用性,評估指標包含有精確度、召回率、F1-Score。
圖2為各個機器學習算法模型在異常檢測問題上的性能對比,可以得出以下結(jié)論:與SVM模型對比,DT模型和MLP模型在BnIR日志異常檢測問題上表現(xiàn)更為良好。SVM算法的精確度、召回率和F1-Score分別是75.70%、74.84%、73.55%。而MLP算法的精確度、召回率和F1-Score分別是82.84%、82.92%、82.82%。DT算法的精確度、召回率和F1-Score均是最高值,分別為91.52%、91.52%、91.48%。
圖1? 基于單一機器學習分類器的異常檢測流程
圖2? LR、SVM、DT和MLP模型在BnIR日志異常流量檢測問題上的性能對比
4? Stacking集成算法模型的訓練與評估
為構(gòu)建更適用于Web日志流量分類問題的算法模型,本課題將Stacking集成策略引入日志中流量記錄的分類預測中[9,10]。LR、SVM、DT和MLP組合形成了若干Stacking模型,圖3為元分類器是LR的實驗流程。
特征選擇是提高分類器性能的必要預處理步驟,能獲取兼具冗余最小化和相關(guān)性最大化的特征子集,本實驗對特征集的二次選擇主要采用過濾法和嵌入法:1)過濾法:選用單變量特征選擇方法中的SelectBest和SelectFdr,根據(jù)卡方檢驗保留了若干個最高分的特征。2)嵌入法:在若干機器學習算法模型上采用SelectFromModel方法對特征集中的每個特征按照重要性權(quán)重排序。設(shè)[M0, M2, …, M8]為初始特征集,n需獲取的特征子集的維數(shù),最優(yōu)特征子集選擇的具體步驟為:1)設(shè)n為4,在SelectBest中采用chi2方法篩選出4個最佳特征,形成Mvoting_1特征子集。2)在SelectFdr中為估計的錯誤發(fā)現(xiàn)率選擇P值,設(shè)置預期的錯誤發(fā)現(xiàn)率上限為0.01,形成Mvoting_2特征子集。3)在SelectFromModel中選擇DT作為基本估算器,形成Mvoting_3特征子集。4)在SelectFromModel中選擇SVM作為基本估算器,形成Mvoting_4特征子集。5)在SelectFromModel中選擇LR作為基本估算器,形成Mvoting_5特征子集。6)在SelectFromModel中選擇XGBoost作為基本估算器,形成Mvoting_6特征子集。7)在SelectFromModel中選擇RF作為基本估算器,形成Mvoting_7特征子集。8)排列Mvoting_1、Mvoting_2、Mvoting_3、Mvoting_4、Mvoting_5、Mvoting_6和Mvoting_7,依次計算Mi在各個特征子集中的出現(xiàn)次數(shù)。9)得出[M0,M2,…,M8]基于投票機制下?lián)襁x出的最優(yōu)特征子集Mmix。
圖3? 元分類器為LR的實驗流程
表1記錄了以上方法對特征集[M0,M2,…,M8]的選擇情況,F(xiàn)i為第i個SelectFromModel方式。參照Voting原則中的“少數(shù)服從多數(shù)思想”,實驗最后選取[M0,M2,M3,M5,M6]形成新的特征子集,用于接下來的模型訓練。
表1? 不同特征選擇方式下的特征子集
方式 特征子集
SelectBest [M0,M2,M3,M8]
SelectFdr [M0,M1,M2,M3,M4,M5,M6,M7,M8]
F1 [M0,M2,M5,M6]
F2 [M0,M2,M3,M6]
F3 [M0,M2,M3,M6]
F4 [M0,M2,M5,M6]
F5 [M0,M2,M5,M6,M7]
MIDS具有精準識別出已知的攻擊模式的優(yōu)勢,故在Stacking模型為未分類的BnIR日志數(shù)據(jù)集生成偽標簽后,加入MIDS的判斷,如果類別為1(正常)的記錄被MIDS判定包含有攻擊關(guān)鍵詞,則將其類別轉(zhuǎn)換為0(異常)。
表2為Stacking模型在異常流量檢測問題上的實驗結(jié)果,可得出結(jié)論:1)組合多個機器學習分類器形成的Stacking分類器比單一分類器更適于BnIR的日志異常檢測。2)在日志異常流量檢測問題上,當我們將LR作為元分類器時,基于SVM-DT-MLP的Stacking模型分類效果達至最佳,精確度是92.44%,召回率是92.43%,F(xiàn)1-Score是92.44%。這些評估指標均體現(xiàn)了該模型對正常流量和異常流量的檢測效果較好。
表2? 不同算法組合下的Stacking模型實驗結(jié)果
基分類器 元分類器 Precision / % Recall / % F1-Score / %
SVM-DT-MLP LR 92.44 92.43 92.44
LR-DT-MLP SVM 91.55 91.54 91.50
LR-SVM-MLP DT 87.35 83.95 82.94
圖4中記錄了3個單一分類器(SVM、DT和MLP)和基于SVM-DT-MLP的Stacking分類器的性能對比,并以折線圖的形式展示。對比結(jié)果顯示了SVM-DT-MLP的Stacking模型具有較高的性能優(yōu)勢,其比SVM模型在精確度、召回率和F1-Value分別多出16.74%、17.59%和18.89%,其比DT模型在精確度、召回率和F1-Value分別多出0.92%、0.91%和0.96%,其比MLP模型在精確度、召回率和F1-Value分別多出9.6%、9.51%和9.62%。
圖4? 多個異常檢測模型在最優(yōu)性能上的對比
5? 結(jié)? 論
本文收集了HTTP CSIC 2010數(shù)據(jù)集和BnIR的Web日志數(shù)據(jù),并通過Stacking集成思想和Voting特征選擇提出了SVM-DT-MLP的算法模型,用于解決Web日志中異常流量檢測問題,實驗結(jié)果顯示,與單一分類器模型相比,該模型展現(xiàn)出更高的檢測性能,因此適用于解決Web日志異常流量檢測問題。本研究的Web檢測研究實質(zhì)上是對日志流量的二分類問題,后續(xù)將使用更多的公共數(shù)據(jù)集,嘗試使用更多不同的特征集,同時結(jié)合更多前沿的深度學習算法,通過實驗來尋找能給出最優(yōu)解的模型,并輸出不同類別的攻擊流量。
參考文獻:
[1] JEUNE L L,GOEDEME T,MENTENS N. Machine Learning for Misuse-Based Network Intrusion Detection:? Overview, Unified Evaluation and Feature Choice Comparison Framework [J].IEEE Access,2021,9:63995-64015.
[2] AGOSTI M,CRIVELLARI F,DI NUNZIO G M. Web log analysis: a review of a decade of studies about information acquisition, inspection and interpretation of user interaction [J].Data Mining and Knowledge Discovery,2012,24:663-696.
[3] 蹇詩婕,盧志剛,杜丹,等.網(wǎng)絡(luò)入侵檢測技術(shù)綜述 [J].信息安全學報,2020,5(4):96-122.
[4] YANG Z Q,WANG S B,WEI L L,et al. BnIR: A multi-omics database with various tools for Brassica napus research and breeding [J].Molecular Plant,2023,16(4):775-789.
[5] 魏璐露.油菜多組學數(shù)據(jù)庫開發(fā)及基于Web日志的異常檢測 [D].武漢:華中農(nóng)業(yè)大學,2022.
[6] ZHANG J Q,WANG Z Z,MENG J J,et al. Boosting Positive and Unlabeled Learning for Anomaly Detection With Multi-Features [J].IEEE Transactions Multimedia,2019,21(5):1332-1344.
[7] 巫家宏,楊振國,劉文?。诙喑叨忍卣魅诤系膼阂釮TTP請求檢測方法 [J].計算機應(yīng)用研究,2021,38(3):871-874+880.
[8] LIANG X W,JIANG A P,LI T,et al. LR-SMOTE-An improved unbalanced data set oversampling based on K-means and SVM [J].Knowledge-Based Systems,2020,196(21):1-10.
[9] BOL?N CANEDO V,ALONSO BETANZOS A. Ensembles for feature selection: A review and future trends [J].Information Fusion,2019,52:1-12.
[10] MATLOOB F,GHAZAL T M,TALEB N,et al. Software Defect Prediction Using Ensemble Learning: A Systematic Literature Review [J].IEEE Access,2021,9:98754-98771.
作者簡介:魏璐露(1998.01—),女,漢族,江西南昌人,助教,碩士,研究方向:機器學習、生物信息學;程楠楠(1987.12—),女,漢族,江蘇南通人,高級工程師,博士在讀,研究方向:知識推薦算法、深度學習。