国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樣本分布特征的數(shù)據(jù)投毒防御

2023-10-18 23:14:21楊立圣羅文華
計算機應用研究 2023年9期

楊立圣 羅文華

摘 要:流量分類模型在更新過程中易受數(shù)據(jù)污染的干擾而降低模型性能,現(xiàn)有基于數(shù)據(jù)清洗的防御方法需依賴專家經(jīng)驗和人工篩選,且無法有效應對利用未知分布樣本構(gòu)造的投毒攻擊。針對上述問題,受分布外檢測和判別主動學習的啟發(fā),設計一種基于樣本分布特征的數(shù)據(jù)投毒防御方法,通過二分類判別器篩選每輪新增樣本中的已知及未知分布樣本。對于新增的已知分布樣本,通過模型預測與標注結(jié)果一致率評估新增樣本的數(shù)據(jù)質(zhì)量,決定是否進行模型更新;對于新增的未知分布樣本,則利用基于標注正確率的少樣本抽檢評估樣本可用性。實驗結(jié)果表明,該方法在抵御數(shù)據(jù)投毒攻擊的同時可以保證模型準確率,并有效識別利用未知分布樣本構(gòu)造的數(shù)據(jù)投毒攻擊。

關(guān)鍵詞:AI安全;流量分類模型;數(shù)據(jù)投毒攻擊;樣本分布特征

中圖分類號:TP309?? 文獻標志碼:A

文章編號:1001-3695(2023)09-045-2845-06

doi:10.19734/j.issn.1001-3695.2023.01.0025

Data poisoning defense based on sample distribution characteristics

Yang Lisheng,Luo Wenhua

(School of Public Security Information Technology & Intelligence,Criminal Investigation Police University of China,Shenyang 110035,China)

Abstract:The traffic classification model is vulnerable to the interference of data pollution in the update process and reduces the performance of the model.The existing defense methods based on data cleaning need to rely on expert experience and ma-nual screening,and cannot effectively deal with the poison attack constructed by using unknown distributed samples.In view of the above problems,inspired by out-of-distribution detection and discrimination active learning,this paper designed a data poisoning prevention method based on sample distribution characteristics,and used the binary classification discriminator to screen out the known and unknown distribution samples in each new round of samples.For the new known distribution samples,it used the concordant rate of prediction and annotation to evaluate the data quality of the new samples and determine whether to update the model.For the new unknown distribution samples,it used the small sample sampling based on the labeling accuracy to evaluate the sample availability.The experimental results show that this method can guarantee the accuracy of the model while resisting the data poisoning attack,and effectively identify the data poisoning attack constructed by using unknown distribution samples.

Key words:AI security;traffic classification model;data poisoning attack;sample distribution characteristics

0 引言

深度學習技術(shù)的快速發(fā)展正改變網(wǎng)絡空間安全領(lǐng)域的格局。其中,基于深度學習的流量分類模型可有效檢測出各類網(wǎng)絡安全威脅[1],其已成為保護網(wǎng)絡系統(tǒng)安全的重要手段之一。流量分類模型雖可保護目標網(wǎng)絡系統(tǒng)免遭網(wǎng)絡攻擊[2],但其模型自身亦存在巨大安全風險[3],這些安全風險存在的根本原因是模型在設計之初并未考慮相關(guān)安全威脅,使得模型的預測結(jié)果容易被惡意攻擊所影響[4]。數(shù)據(jù)投毒攻擊作為一種新型的持續(xù)破壞模型可用性和完整性的攻擊方式,可對流量分類模型造成嚴重的安全威脅。流量分類模型遭受數(shù)據(jù)投毒攻擊后,分類性能會下降,喪失對惡意流量的識別能力。因此,如何高效識別數(shù)據(jù)投毒攻擊對流量分類模型安全具有重要意義。

目前已有國內(nèi)外學者對入侵檢測模型的安全性及防御方法展開了相關(guān)研究,現(xiàn)有工作提出了增強模型魯棒性和數(shù)據(jù)清洗等防御方法。

Ibitoye等人[5]提出一種自歸一化神經(jīng)網(wǎng)絡,該模型具有更強的魯棒性,可以防御對抗攻擊。Khamis等人[6]提出一種應用鞍點法來訓練入侵檢測系統(tǒng)以防御對抗攻擊的方法,有效提高了基于DNN的入侵檢測模型的魯棒性,并指出使用主成分分析對數(shù)據(jù)集進行降維有助于降低規(guī)避率。Anthi等人[7]針對入侵檢測模型提出了一種對抗機器學習的防御方法,采用基于雅可比矩陣的顯著圖攻擊生成對抗樣本,并利用對抗樣本進行對抗訓練,以提高模型的魯棒性,實現(xiàn)對對抗攻擊的防御。基于魯棒性學習的防御方法雖在一定程度上增強了模型的安全性,但也存在一定的局限。經(jīng)過對抗學習的模型只能對特定攻擊樣本產(chǎn)生防御效果,對新型攻擊樣本并不能起到防御作用[8]。采用魯棒性學習的方法不僅會降低模型精度,而且可能會帶來瞬態(tài)誤差、條件誤差、系統(tǒng)性錯誤等新的安全問題[9]。而且魯棒性學習主要應對由對抗樣本和噪聲帶來的攻擊問題,對標簽翻轉(zhuǎn)式數(shù)據(jù)投毒攻擊的防御效果并不理想。

Apruzzese等人[10]提出一種針對網(wǎng)絡入侵檢測系統(tǒng)模型投毒攻擊的防御方法,該方法在訓練數(shù)據(jù)集上引入數(shù)據(jù)轉(zhuǎn)換,使攻擊者注入的投毒樣本經(jīng)過數(shù)據(jù)轉(zhuǎn)換后得到的特征與攻擊者所期望的特征不同,以減輕投毒攻擊對模型的影響。Bao等人[11]提出Februus方法可以精準地去除輸入樣本的異常擾動,以防御數(shù)據(jù)投毒攻擊。Tang等人[12]提出了一種基于表征分析及統(tǒng)計屬性的后門檢測方法,設計了統(tǒng)計污染分析器,利用每個類別的全局信息統(tǒng)計分析來判斷模型是否遭受后門攻擊,并對中毒樣本進行過濾。然而由于存在概念漂移現(xiàn)象,在實際場景中流量分類模型需及時更新以適應新的樣本分布。上述工作并未考慮到模型更新場景,且集中于識別單獨樣本的毒性,會引起較高的誤報率,模型復原代價較高[13]。而在更新過程中新增數(shù)據(jù)分布識別依靠專家經(jīng)驗,也會導致模型更新后的準確率反而降低的情況[14]。最近,劉廣睿等人[15]提出了一套針對智能入侵檢測系統(tǒng)的污染數(shù)據(jù)過濾的通用模型更新方法,使用EdgeGAN算法及模糊測試擬合模型的邊緣樣本分布,通過對比新增樣本與原模型的MSE值及更新后模型對舊邊緣樣本的Fβ分數(shù),從而識別被污染樣本。該方法雖在模型更新的場景下進行研究,但并未考慮攻擊者利用新型惡意流量構(gòu)造數(shù)據(jù)投毒攻擊的情況,無法識別未知分布樣本的數(shù)據(jù)投毒攻擊[16],而攻擊者極易利用該部分樣本構(gòu)造針對流量分類模型的“0day”攻擊。

為了解決上述問題,實現(xiàn)流量分類模型的安全穩(wěn)定更新,設計一種基于樣本分布特征的數(shù)據(jù)投毒防御方法。首先,設計模型預測與標注結(jié)果一致率指標,借助更新前的良性模型對新增訓練樣本的質(zhì)量進行評估。其次,對于未知分布的惡意流量樣本,模型對其分類性能較差,此時僅依靠模型預測與標注結(jié)果一致率指標會引起誤報。為避免誤報,受分布外檢測[17]和判別主動學習[18]思路的啟發(fā),將已知分布樣本和未知分布樣本的判別轉(zhuǎn)換為二元分類任務,并據(jù)此設計新增樣本空間分布判別器,以區(qū)分已知分布樣本和未知分布樣本,防止攻擊者利用未知分布樣本進行數(shù)據(jù)投毒攻擊。

1 方法設計

由于流量樣本類別情況會隨時間而發(fā)生變化,流量分類模型需頻繁更新,但數(shù)據(jù)驅(qū)動的流量分類模型自身存在脆弱性,導致其在模型更新過程中極易受到數(shù)據(jù)投毒攻擊。在此場景下,需要實現(xiàn):a)以自動化的流程完成樣本篩選,并利用篩選好的干凈樣本進行模型更新;b)以較小的代價快速、便捷地實現(xiàn)未知分布樣本識別,防止攻擊者利用此部分樣本構(gòu)造針對流量分類模型的“0day”攻擊;c)及時發(fā)現(xiàn)投毒數(shù)據(jù)樣本,并對投毒樣本進行有效過濾。

為了實現(xiàn)上述目標,設計一種基于樣本分布特征的數(shù)據(jù)投毒防御的方法。首先需要實現(xiàn)未知分布樣本的判別,即需要對訓練樣本和新增樣本進行分布外檢測。在此場景下,需快速、高效地完成未知分布樣本和已知分布樣本的二分類任務,故可將解決無標注集和有標注集分類任務的判別主動學習的思路遷移到新增樣本分布判別任務中。過濾未知分布樣本后,可保證剩余樣本的分布與訓練樣本相比不會發(fā)生劇烈變化。因此可根據(jù)未更新模型的預測結(jié)果與標注結(jié)果的一致性判別該批新增樣本的數(shù)據(jù)質(zhì)量,以實現(xiàn)對投毒數(shù)據(jù)樣本的檢測。

基于樣本分布特征的數(shù)據(jù)投毒防御方法流程如圖1所示。對于每批用于模型更新的新增樣本,首先經(jīng)過新增樣本分布判別器的判別,從該批新增樣本中篩選出與自身訓練集數(shù)據(jù)分布差異較大及分布差異較小的樣本,這兩部分樣本對于模型而言可分別認為是未知分布樣本和已知分布樣本;若為未知分布樣本,則觸發(fā)少樣本抽檢判斷樣本是否符合質(zhì)量,如果符合質(zhì)量,則將該部分樣本作為模型更新訓練樣本;若不符合質(zhì)量則決定丟棄該部分樣本。對于已知分布樣本,通過計算模型預測與標注結(jié)果一致率判斷其是否符合樣本更新要求。如果符合,則使用該部分樣本對模型更新,否則就丟棄該部分樣本。若整個過程沒有符合條件的新增樣本,則不對模型進行更新。關(guān)于流程中的關(guān)鍵部分,將在1.1節(jié)和1.2節(jié)中詳細闡述。

1.1 模型預測與標注結(jié)果一致率

對于預訓練好的流量分類模型來說,模型需要頻繁更新以識別不斷變化的惡意流量[19],故其數(shù)據(jù)投毒安全風險存在于模型更新階段。記模型預訓練的數(shù)據(jù)集為Dpretrain,模型訓練過程可描述為:找到=Ψ(x),使得對于輸入x∈Dpretrain,其標簽為y,有較高概率成立=y。若新增訓練樣本中不存在投毒樣本,即DpoisonDiter,則更新好的模型Ψ′(x)對于輸入x∈(Dpretrain∪Diter) 有較高概率成立=y,且對于測試集中的數(shù)據(jù)x∈Dtest也有較高概率成立=y。若新增訓練樣本中存在投毒樣本,即DpoisonDiter,則更新好的模型Ψ′(x)對于輸入x∈(Dpretrain∪Diter) 有較高概率成立=y,但對于測試集中的數(shù)據(jù)x∈Dtest中成立=y的概率會下降,即模型的分類效果變差,故需設計方案保證流量分類模型的安全更新。

2.2 實驗參數(shù)設置

實驗使用的主機環(huán)境配置如下:處理器為Intel CoreTM i7-10870H CPU,顯卡為NVIDIA GeForce RTX 3070 Laptop,顯存大小為8 GB,運行內(nèi)存為64 GB,操作系統(tǒng)為Windows 11 專業(yè)版,代碼基于Python 3.9.6,深度學習框架主要使用PyTorch 1.12.0+CUDA 11.3版本,集成開發(fā)環(huán)境為PyCharm。模型設置的訓練參數(shù)為:訓練數(shù)據(jù)的batch大小設置為64,學習率設置為0.001,損失函數(shù)采用交叉熵損失函數(shù),優(yōu)化器選用Adam[26]。

2.3 新增樣本空間分布判別器閾值的設定

實驗構(gòu)建的新增樣本空間分布判別器網(wǎng)絡結(jié)構(gòu)如圖3所示。

新增樣本空間分布判別器由特征輸入模塊、特征提取模塊、特征判別模塊組成。特征輸入模塊由linear層和LeakyReLU層構(gòu)成,用于將輸入流量數(shù)據(jù)輸入到判別器網(wǎng)絡中;特征提取模塊由兩層linear層和LeakyReLU層構(gòu)成,負責提取流量數(shù)據(jù)的未知分布和已知分布特征;特征判別模塊由一層linear層和softmax函數(shù)構(gòu)成,實現(xiàn)對未知分布樣本和已知分布樣本的分類判別。對于softmax函數(shù)得到分類的置信度結(jié)果[p0i,p1i],其中p0i為判別器對于樣本xi預測 add_label標簽為0的概率,p1i為判別器對于樣本xi預測add_label標簽為1的概率,p0i+p1i=1。由于Dpretrain中的add_label標簽為1,Diter中的add_label標簽為0,選用[p0i,p1i]中的p1i作為本實驗閾值θ篩選的概率值依據(jù),其中p1i的值越大,代表該樣本xi與預訓練樣本的分布較為相似。對于新增樣本空間分布判別器閾值θ的設定,進行如下實驗。實驗的數(shù)據(jù)選用數(shù)據(jù)集Dpretrain及新增樣本數(shù)據(jù)Diter,為方便評估實驗效果,對于Diter的數(shù)據(jù)保留BENIGE、DoS、PortScan、Brute Force、Web Attack、Bot的標注標簽。預訓練數(shù)據(jù)集Dpretrain中只包含BENIGE、DoS兩類數(shù)據(jù),故Diter中的PortScan、Brute Force、Web Attack、Bot類數(shù)據(jù)為相較于Dpretrain中數(shù)據(jù)的不同分布數(shù)據(jù)。首先從Diter中隨機采樣100 000條數(shù)據(jù)記為Dtest_discriminator,為了保證每次實驗選取相同樣本,對采樣器設置相同的隨機狀態(tài)(random_state)參數(shù)。從Dtest_discriminator中再隨機選取20%的數(shù)據(jù),并同樣設置隨機狀態(tài),與Dpretrain數(shù)據(jù)混合,得到Dtrain_discriminator。將Dtrain_discriminator數(shù)據(jù)用于判別器模型訓練,訓練完畢后,將Dtest_discriminator數(shù)據(jù)輸入模型中,并通過閾值θ,將Dtest_discriminator分為與預訓練集數(shù)據(jù)分布類似的樣本集合Dknown和與預訓練集數(shù)據(jù)分布不同的樣本集合Dunknown。再進行多次實驗時,每次判別器訓練完畢后的參數(shù)不保存,下次實驗重新訓練。

為了更好地評估不同閾值θ下的判別器效果,設計未知樣本檢測率(unknown samples detection rate,USDR)與誤報率(false alarm rate,F(xiàn)AR)。

USDR=TrueUnknownTrueUnknown+FalseKnown(7)

FAR=FalseUnKnownFalseUnknown+TrueKnown(8)

式(7)(8)展示了USDR與FAR的具體計算方法,其中TrueUnknown為正確識別的未知分布樣本數(shù)量;FalseUnknown為錯誤識別的已知分布樣本數(shù)量;TrueKnown為正確識別的已知分布樣本數(shù)量;FalseKnown為錯誤識別的未知分布樣本數(shù)量。USDR表示在識別未知分布樣本時,正確識別的樣本占比;FAR表示識別為未知分布樣本的集合中,錯誤識別的樣本占比。不同閾值θ下USDR與FAR情況如表3所示。

根據(jù)表3可以得出,閾值θ越高,判別器的未知樣本檢測率越高,當閾值θ選定為0.8時,判別器的未知樣本檢測率最高,為0.921 2。但此時,模型的誤報率也為最高,為0.078 9。綜合考慮未知樣本檢測率及誤報率,選用閾值θ為0.75較為合適,即置信度超過0.75的樣本可以認為是已知分布的樣本,置信度低于0.75的樣本可認為是未知分布的樣本。后續(xù)實驗中,新增樣本空間分布判別器閾值θ選定為0.75。

2.4 CRPA閾值的設定

CRPA是評估是否利用該批樣本進行模型更新訓練的重要評價指標,對于流量分類模型來說,在正常情況下模型對新增樣本的預測結(jié)果與標注結(jié)果的差異不會過高[27],如果差異較大,則說明該批次樣本存在數(shù)據(jù)投毒攻擊的風險。為了確定CRPA閾值,進行如下實驗:

對于流量分類模型,進行正常模型更新訓練,每次更新模型時從Diter中選取n個樣本,其中n∈{10 000,25 000,50 000,75 000,100 000},模型更新的總次數(shù)epochs取10,計算n取不同值時每一更新輪次的CRPA指標。

表4展示了在正常訓練情況下n取不同值時,CRPA指標的最大值與最小值情況。根據(jù)表中數(shù)據(jù)可知,CRPA最小值在0.946 0~0.947 0波動,CRPA最大值在0.975~0.982波動。后續(xù)實驗的CRPA的閾值選定為0.94,即對于一批新增樣本,其CRPA指標小于0.94時,該批新增樣本的數(shù)據(jù)質(zhì)量不合格,不符合模型更新的要求,則丟棄該批樣本;若CRPA指標大于0.94時,該批新增樣本的數(shù)據(jù)質(zhì)量合格,符合模型更新的要求,利用該批新增樣本進行模型更新。

2.5 數(shù)據(jù)投毒防御效果

本實驗的更新樣本數(shù)據(jù)集采用Diter,測試數(shù)據(jù)集采用Dtest,總共進行n輪模型更新訓練,每次更新訓練從Diter新增樣本池中隨機抽取的樣本集合,記為Di,其中i=1,2,3,…,n。Di中包含模型未知分布樣本和已知分布樣本。本實驗將判別器的判別閾值θ設置為0.75,每輪的更新樣本Di通過判別器判別可得到未知分布樣本D_Unknowni以及已知分布樣本D_Knowni。為了模擬少樣本抽檢過程,將每輪的未知分布樣本D_Unknowni進行清洗。設置CRPA的閾值為0.94。對于已知分布樣本D_Knowni計算CRPA指標,若CRPA指標小于CRPA閾值,證明該批新增樣本Di中的D_Knowni數(shù)據(jù)集不符合模型更新的要求,丟棄該批D_Knowni樣本,將清洗后的D_Unknowni樣本與預訓練樣本Dpretrain混合構(gòu)成訓練樣本D_traini,利用D_traini樣本對模型進行更新訓練;若CRPA指標大于CRPA閾值,則將清洗后的D_Unknowni與D_Knowni樣本進行混合得到訓練樣本D_traini,利用D_traini樣本對模型進行更新訓練。本實驗總共進行10輪模型更新訓練,每次更新訓練從Diter新增樣本池中隨機抽取100 000個樣本,對前5輪的更新數(shù)據(jù)進行投毒,投毒的比例分別設置為10%和20%。

實驗驗證了本文方案對數(shù)據(jù)投毒攻擊的防御效果,圖4、5展示了投毒比例為0.1、0.2時使用該防御方法與未使用防御方法模型準確率變化情況。圖6、7為投毒比例為0.1、0.2時的使用該防御方法與未使用防御方法模型CRPA指標變化情況。

模型在投毒比例為10%和20%時均展現(xiàn)了對數(shù)據(jù)投毒攻擊的良好防御效果,在前5輪對模型進行投毒的訓練輪次中,使用本文防御方法的流量分類模型,其準確率并未發(fā)生顯著下降,而且與后5輪未投毒情況下的模型預測準確率差距不大,使用該防御方法可以保證模型在數(shù)據(jù)投毒攻擊的情況下仍能保持較為良好的分類性能。對于20%的投毒比例,其對模型造成的破壞與10%的數(shù)據(jù)投毒比例相比,攻擊效果是顯著的,但該方法仍可保證流量分類模型的預測準確率在較小的范圍內(nèi)浮動,且與投毒比例為10%時的防御效果接近。從圖6、7可以發(fā)現(xiàn),在數(shù)據(jù)投毒攻擊的輪數(shù)內(nèi),其CRPA指標較正常模型更新時差距明顯。在投毒比例為10%的情況下,模型的CRPA指標下降到了92%左右,在投毒比例為20%的情況下,模型的CRPA指標下降更為顯著,為87%左右,而在正常訓練時模型的CRPA指標在94%以上。本文防御方法根據(jù)CRPA指標有效判斷數(shù)據(jù)投毒攻擊的攻擊輪數(shù),并對其數(shù)據(jù)投毒攻擊進行攔截,防止模型利用被投毒的數(shù)據(jù)進行模型更新從而導致的模型性能急劇下降。

2.6 對比實驗

在對比實驗中,數(shù)據(jù)投毒攻擊的基準防御方法選用最新的基于邊緣樣本的防御方法[15]。本部分實驗總共進行10輪模型更新訓練,每次更新訓練從Diter新增樣本池中隨機抽取100 000個樣本,對前5輪的更新數(shù)據(jù)進行投毒,投毒的比例設置為10%。圖8展示了在流量分類模型前5輪投毒、正常更新以及采用基于邊緣樣本防御方法的MSE變化情況,通過觀察正常訓練以及投毒時的MSE變化情況,基準防御方法的MSE閾值設置為0.06。圖9展示了分別使用基于邊緣樣本的防御方法和本文防御方法的流量分類模型準確率的變化情況,在投毒攻擊的前5個輪次,可以觀察到基于邊緣樣本的防御方法和新防御方法均對數(shù)據(jù)投毒攻擊起到了防御的效果,新方法可以在保證抵御數(shù)據(jù)投毒攻擊的前提下進一步提高模型的準確率,并且新方法在絕大多數(shù)數(shù)據(jù)迭代更新的輪次過程中,模型的準確率高于基于邊緣樣本的防御方法。

為了對比基于邊緣樣本的防御方法與本文方法在模型未知分布樣本上進行數(shù)據(jù)投毒的防御情況,每次更新訓練從Diter新增樣本池中隨機抽取100 000個樣本集合Di,將Di中的未知分布樣本D_Unknowni進行數(shù)據(jù)投毒,用來模擬針對流量分類模型的“0day”攻擊。

圖10展示了對于未知分布樣本數(shù)據(jù)投毒攻擊不同防御方法下的模型準確率變化情況,圖11展示了本實驗條件下的基于邊緣樣本的數(shù)據(jù)投毒防御方法的MSE值的變化情況。從圖10可知,本文方法在面對未知分布樣本的數(shù)據(jù)投毒攻擊時仍能保持流量分類模型較高的準確率,且在10輪訓練過程中,絕大多數(shù)輪次的流量分類模型準確率要高于基于邊緣樣本的防御方法。而在前5輪未知分布樣本投毒攻擊的輪次中,基于邊緣樣本的防御方法的模型準確率幾乎保持在0.95左右,是因為此時的模型與預訓練的流量分類模型一樣,對于未知分布樣本的分類性能較差,模型將絕大部分未知分布的惡意樣本識別為良性樣本,此時利用測試集對模型進行測試,得到的就是0.95左右的準確率。結(jié)合圖11可知,基于邊緣樣本的防御方法并未有效實現(xiàn)防御。由于模型本身對未知分布樣本的分類能力差,而此時針對未知分布的惡意樣本進行了標簽翻式的數(shù)據(jù)投毒攻擊,模型預測結(jié)果與標注結(jié)果就會一致,這樣MSE值就會低于閾值,基于邊緣樣本的數(shù)據(jù)投毒防御方法就會失效。而本文方法利用新增樣本判別器將絕大數(shù)的未知分布樣本進行過濾,有效抵御了基于未知布樣本的數(shù)據(jù)投毒攻擊。

3 結(jié)束語

本文提出了一種基于樣本空間分布的數(shù)據(jù)投毒防御方法,并設計了該方法的兩個重要部分——新增樣本空間判別器以及CRPA指標。對于新增樣本空間判別器,詳細論述了其原理及算法實現(xiàn),并通過實驗驗證新增樣本判別器的可行性及其判別效果。對于CRPA指標,論述了其計算方法及將其作為模型更新時的樣本質(zhì)量評估指標的依據(jù)。判別器閾值和CRPA閾值是影響防御方法效能的關(guān)鍵因素,通過對比實驗,探究了不同條件下的判別器樣本分布情況和CRPA情況,并確定了判別器閾值和CRPA閾值。最后通過實驗驗證了基于樣本空間分布的數(shù)據(jù)投毒防御方法的有效性,并通過對比實驗展現(xiàn)了本文方法對數(shù)據(jù)投毒攻擊的良好防御效果,該方法可以在抵御數(shù)據(jù)投毒攻擊的前提下保證模型的準確率高于基于邊緣樣本的防御方法,且可以有效識別利用未知分布樣本構(gòu)造的數(shù)據(jù)投毒攻擊。未來會構(gòu)造多種不同的數(shù)據(jù)投毒方式,完善本文方案,進一步提升針對流量分類模型數(shù)據(jù)投毒攻擊的防御效果。

參考文獻:

[1]張昊,張小雨,張振友,等.基于深度學習的入侵檢測模型綜述[J].計算機工程與應用,2022,58(6):17-28.(Zhang Hao,Zhang Xiaoyu,Zhang Zhenyou,et al.Summary of intrusion detection models based on deep learning[J].Computer Engineering and Applications,2022,58(6):17-28.)

[2]羅文華,許彩滇.利用改進DBSCAN聚類實現(xiàn)多步式網(wǎng)絡入侵類別檢測[J].小型微型計算機系統(tǒng),2020,41(8):1725-1731.(Luo Wenhua,Xu Caidian.Using improved DBSCAN clustering to implement multi-step network intrusion detection[J].Journal of Chinese Computer Systems,2020,41(8):1725-1731.)

[3]陳宇飛,沈超,王騫,等.人工智能系統(tǒng)安全與隱私風險[J].計算機研究與發(fā)展,2019,56(10):2135-2150.(Chen Yufei,Shen Chao,Wang Qian,et al.Security and privacy risks in artificial intel-ligence systems[J].Journal of Computer Research and Development,2019,56(10):2135-2150.)

[4]隋然.網(wǎng)絡空間安全與人工智能研究綜述[J].信息工程大學學報,2021,22(5):584-589.(Sui Ran.Survey of cyberspace security and artificial intelligence research[J].Journal of Information Engineering University,2021,22(5):584-589.)

[5]Ibitoye O,Shafiq O,Matrawy A.Analyzing adversarial attacks against deep learning for intrusion detection in IoT networks[C]//Proc of IEEE Global Communications Conference.Piscataway,NJ:IEEE Press,2019:1-6.

[6]Khamis R A,Shafiq M O,Matrawy A.Investigating resistance of deep learning-based IDS against adversaries using min-max optimization[C]//Proc of IEEE International Conference on Communications.Piscataway,NJ:IEEE Press,2020:1-7.

[7]Anthi E,Williams L,Rhode M,et al.Adversarial attacks on machine learning cybersecurity defences in industrial control systems[J].Journal of Information Security and Applications,2021,58(8):102717.

[8]Koh P W,Steinhardt J,Liang P.Stronger data poisoning attacks break data sanitization defenses[J].Machine Learning,2022,111(1):1-47.

[9]Lechner M,Hasani R,Grosu R,et al.Adversarial training is not ready for robot learning[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2021:4140-4147.

[10]Apruzzese G,Colajanni M,F(xiàn)erretti L,et al.Addressing adversarial attacks against security systems based on machine learning[C]//Proc of the 11th International Conference on Cyber Conflict.Piscataway,NJ:IEEE Press,2019:1-18.

[11]Bao G D,Abbasnejad E,Ranasinghe D.Februus:input purification defense against trojan attacks on deep neural network systems[C]//Proc of Annual Computer Security Applications Conference.Piscataway,NJ:IEEE Press,2020:897-912.

[12]Tang Di,Wang Xiaofeng,Tang Haixu,et al.Demon in the variant:statistical analysis of DNNs for robust backdoor contamination detection[C]//Proc of the 30th USENIX Security Symposium.Berkeley,CA:USENIX Association,2021:1541-1558.

[13]余正飛,閆巧,周鋆.面向網(wǎng)絡空間防御的對抗機器學習研究綜述[J].自動化學報,2022,48(7):1625-1649.(Yu Zhengfei,Yan Qiao,Zhou Yun.A survey on adversarial machine learning for cyberspace defense[J].Acta Automatica Sinica,2022,48(7):1625-1649.)

[14]Al S,Dener M.STL-HDL:a new hybrid network intrusion detection system for imbalanced dataset on big data environment[J].Compu-ters & Security,2021,110:102435.

[15]劉廣睿,張偉哲,李欣潔.基于邊緣樣本的智能網(wǎng)絡入侵檢測系統(tǒng)數(shù)據(jù)污染防御方法[J].計算機研究與發(fā)展,2022,59(10):2348-2361.(Liu Guangrui,Zhang Weizhe,Li Xinjie.Data contamination defense method for intelligent network intrusion detection systems based on edge examples[J].Journal of Computer Research and Development,2022,59(10):2348-2361.)

[16]Truex S,Liu Ling,Gursoy M E,et al.Towards demystifying membership inference attacks[EB/OL].(2019-02-01).https://arxiv.org/abs/1807.09173.

[17]Yang Jingkang,Zhou Kaiyang,Li Yixuan,et al.Generalized out-of-distribution detection:a survey[EB/OL].(2022-08-03).https://arxiv.org/abs/2110.11334.

[18]Gissin D,Shalev-Shwartz S.Discriminative active learning[EB/OL].(2019-07-15).https://arxiv.org/abs/1907.06347.

[19]Otoum S,Kantarci B,Mouftah H.A comparative study of AI-based intrusion detection techniques in critical infrastructures[J].ACM Trans on Internet Technology,2021,21(4):1-22.

[20]Rosay A,Carlier F,Leroux P.MLP4NIDS:an efficient MLP-based network intrusion detection for CICIDS2017 dataset[C]//Proc of International Conference on Machine Learning for Networking.Berlin:Springer,2019:240-254.

[21]Shahraki A,Abbasi M,Taherkordi A,et al.A comparative study on online machine learning techniques for network traffic streams analysis[J].Computer Networks:the International Journal of Computer and Telecommunications Networking,2022,207:108836.

[22]Ahmad Z,Khan A S,Shiang C W,et al.Network intrusion detection system:a systematic study of machine learning and deep learning approaches[J].Trans on Emerging Telecommunications Technologies,2021,32(1):e4150.

[23]Li Yupeng,Liang Ben,Tizghadam A.Robust online learning against malicious manipulation and feedback delay with application to network flow classification[J].IEEE Journal on Selected Areas in Communications,2021,39(8):2648-2663.

[24]羅文華,許彩滇.基于改進MajorClust聚類的網(wǎng)絡入侵行為檢測[J].信息網(wǎng)絡安全,2020,20(2):14-21.(Luo Wenhua,Xu Caidian.Network intrusion detection based on improved MajorClust clustering[J].Netinfo Security,2020,20(2):14-21.)

[25]Engelen G,Rimmer V,Joosen W.Troubleshooting an intrusion detection dataset:the CICIDS2017 case study[C]//Proc of IEEE Security and Privacy Workshops.Piscataway,NJ:IEEE Press,2021:7-12.

[26]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.

[27]Singh N B,Singh M M,Sarkar A,et al.A novel wide & deep transfer learning stacked GRU framework for network intrusion detection[J].Journal of Information Security and Applications,2021,61:102899.

收稿日期:2023-01-15;修回日期:2023-03-13? 基金項目:國家重點研發(fā)計劃資助項目(2018YFC0830600);中國刑事警察學院研究生創(chuàng)新能力提升項目(2022YCZD05)

作者簡介:楊立圣(1999-),男,遼寧營口人,碩士研究生,主要研究方向為信息網(wǎng)絡安全與電子數(shù)據(jù)取證;羅文華(1977-),男(通信作者),遼寧沈陽人,教授,碩導,碩士,主要研究方向為信息網(wǎng)絡安全與電子數(shù)據(jù)取證(luowenhua770404@126.com).

克拉玛依市| 西平县| 梁河县| 潮州市| 九江县| 双城市| 革吉县| 淅川县| 威宁| 安图县| 长寿区| 汤原县| 恩平市| 迁西县| 孙吴县| 武宁县| 马尔康县| 静宁县| 梨树县| 阳原县| 津南区| 宣化县| 民和| 贺兰县| 新田县| 平邑县| 屏南县| 鄯善县| 栖霞市| 汽车| 黄平县| 兴安县| 丰镇市| 南岸区| 江都市| 乡城县| 阿拉善左旗| 西昌市| 垫江县| 赤水市| 定结县|