基于深度學(xué)習(xí)的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別方法

2023-03-14 15:42王芳

現(xiàn)代電子技術(shù) 2023年6期

王芳

（北京科技大學(xué)天津?qū)W院信息工程學(xué)院，天津 301830）

0 引言

近年來，互聯(lián)網(wǎng)技術(shù)的興起與普及極大地提升了人們生產(chǎn)與生活的便利程度，網(wǎng)絡(luò)用戶數(shù)量呈現(xiàn)飛速增長的狀態(tài)。根據(jù)國內(nèi)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計數(shù)據(jù)顯示，截至2022年底，中國互聯(lián)網(wǎng)普及率達到了72.5%。由此可見，互聯(lián)網(wǎng)已經(jīng)成為人們生產(chǎn)與生活過程中必不可少的一部分[1]。從大眾角度出發(fā)，互聯(lián)網(wǎng)可以改善生活方式，例如VR看房、共享經(jīng)濟等；從企業(yè)角度出發(fā)，互聯(lián)網(wǎng)的逐步滲入可以改變企業(yè)的辦公模式與服務(wù)方式，促進企業(yè)改革與發(fā)展；從國家角度出發(fā)，互聯(lián)網(wǎng)能夠推動國家信息技術(shù)的發(fā)展，改革貿(mào)易模式，促進“地球村”的建設(shè)。在當(dāng)今這個大數(shù)據(jù)時代背景下，網(wǎng)絡(luò)傳輸數(shù)據(jù)中包含著大量的用戶隱私信息、企業(yè)核心數(shù)據(jù)、國家核心機密等，但是大部分用戶并沒有強烈的隱私數(shù)據(jù)保護意識，導(dǎo)致網(wǎng)絡(luò)傳輸數(shù)據(jù)過程中經(jīng)常出現(xiàn)惡意攻擊現(xiàn)象；再加之網(wǎng)絡(luò)環(huán)境、噪聲等多種因素的影響，致使網(wǎng)絡(luò)傳輸數(shù)據(jù)中存在很多異常數(shù)據(jù)，不但影響網(wǎng)絡(luò)數(shù)據(jù)的傳輸質(zhì)量，也為需求數(shù)據(jù)查詢帶來了較大的難度，制約著網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用與持續(xù)發(fā)展[2]。

網(wǎng)絡(luò)用戶的急劇增加和網(wǎng)絡(luò)應(yīng)用范圍的擴大，使得網(wǎng)絡(luò)傳輸數(shù)據(jù)體量呈現(xiàn)指數(shù)級別暴增趨勢，常規(guī)異常數(shù)據(jù)識別方法識別性能較差，影響網(wǎng)絡(luò)用戶的應(yīng)用體驗，已經(jīng)無法適應(yīng)海量數(shù)據(jù)異常識別需求，故本文提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別方法研究。該方法在LSTM神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用下，大幅度提升了評價指標——F1值，能夠更加精確地識別異常數(shù)據(jù)，為網(wǎng)絡(luò)傳輸數(shù)據(jù)的應(yīng)用與處理提供更有效的方法支撐。

1 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別方法研究

1.1 網(wǎng)絡(luò)傳輸數(shù)據(jù)預(yù)處理

在互聯(lián)網(wǎng)正常運行過程中，網(wǎng)絡(luò)傳輸數(shù)據(jù)種類、量綱存在著較大的差異性，若是直接對其進行異常識別，會產(chǎn)生較大的運算量，從而降低異常識別的效率。因此，在數(shù)據(jù)異常識別之前，需要對網(wǎng)絡(luò)傳輸數(shù)據(jù)進行一定的預(yù)處理[3]。

此研究應(yīng)用歸一化方法將網(wǎng)絡(luò)傳輸數(shù)據(jù)控制在0～1之間，表達式為：

式中：Y表示的是歸一化處理后的網(wǎng)絡(luò)傳輸數(shù)據(jù)，取值范圍為[0,1]；X表示的是歸一化處理前的網(wǎng)絡(luò)傳輸數(shù)據(jù)，取值范圍不確定，量綱也不同；Xmin與Xmax分別表示的是原始網(wǎng)絡(luò)傳輸數(shù)據(jù)中的最小值與最大值。

由于網(wǎng)絡(luò)傳輸數(shù)據(jù)體量較大，再加之后續(xù)構(gòu)建模型需要訓(xùn)練集合與測試集合，故在此節(jié)應(yīng)用高斯混合模型對網(wǎng)絡(luò)傳輸數(shù)據(jù)集合進行分割處理，表達式為：

式中：P(y)表示的是網(wǎng)絡(luò)傳輸數(shù)據(jù)集合的高斯密度函數(shù)；n表示的是數(shù)據(jù)集合分割數(shù)量，依據(jù)異常數(shù)據(jù)識別需求，設(shè)置n取值為2；βi表示的是混合參數(shù)，取值范圍為[0,1]；δi(y,μi,Σi)表示的是協(xié)方差為Σi、均值為μi的高斯分布；δi(y)表示的是δi(y,μi,Σi)的概率分布函數(shù)；d表示的是時間滑動窗口。

通過式（2）可知，要想精準地分割網(wǎng)絡(luò)傳輸數(shù)據(jù)集合，首要任務(wù)就是計算βi，表達式為：

式中φold表示的是混合參數(shù)更新因子，依據(jù)每個數(shù)據(jù)特征而變化[4]。

將式（3）計算結(jié)果代入式（2）即可實現(xiàn)對網(wǎng)絡(luò)傳輸數(shù)據(jù)集合的有效分割，具體如圖1所示。

圖1 網(wǎng)絡(luò)傳輸數(shù)據(jù)集合分割示例圖

如圖1所示，高斯混合模型可以有效地將網(wǎng)絡(luò)傳輸數(shù)據(jù)集合分割為2個集合，分別為訓(xùn)練集合（深色圓圈）與測試集合（淺色圓圈），記為集合Y1與Y2，為后續(xù)網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別的實現(xiàn)奠定堅實的基礎(chǔ)[5]。

1.2 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型構(gòu)建

以預(yù)處理完成后的網(wǎng)絡(luò)傳輸數(shù)據(jù)集合為基礎(chǔ)，引入深度學(xué)習(xí)技術(shù)——LSTM，構(gòu)建網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型，為研究目標實現(xiàn)提供支撐[6]。

基于LSTM的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型具體如圖2所示。

如圖2所示，由于網(wǎng)絡(luò)傳輸數(shù)據(jù)在時間維度上存在著前后關(guān)系，具備時間序列特征，再加之?dāng)?shù)據(jù)傳輸是一個較為復(fù)雜的過程，還會受到多種因素的直接或間接影響，致使異常數(shù)據(jù)是否存在具有一定的不確定性，而LSTM對時間序列數(shù)據(jù)處理具備較好的收斂性，故以此為基礎(chǔ)構(gòu)建網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型[7]。

圖2 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型示意圖

構(gòu)建模型中，隱藏層將Dense全連接層與LSTM層進行有效的結(jié)合。其中，LSTM層主要承擔(dān)輸入數(shù)據(jù)處理與分析的任務(wù)，能夠?qū)?shù)據(jù)進行選擇性的保存與摒棄，對構(gòu)建模型性能提升具有一定的作用[8]。Dense全連接層主要是對LSTM層輸出數(shù)據(jù)進行轉(zhuǎn)換處理，方便異常數(shù)據(jù)識別。Dense全連接層需要添加激活函數(shù)才能體現(xiàn)構(gòu)建模型層次之間的非線性關(guān)系[9]。根據(jù)網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別需求，選取Sigmoid函數(shù)作為Dense全連接層激活函數(shù)，表達式為：

式中λ(y)表示的是Sigmoid函數(shù)，即激活函數(shù)。

依據(jù)已有研究成果可知，Dense全連接層與LSTM層的數(shù)量并不是越多越好，過多或過少均會影響模型性能的發(fā)揮，具體層數(shù)需要通過模型訓(xùn)練確定。

1.3 網(wǎng)絡(luò)傳輸數(shù)據(jù)輸入重塑

由于上述構(gòu)建模型中LSTM神經(jīng)網(wǎng)絡(luò)包含長期與短期記憶單元狀態(tài)，對輸入數(shù)據(jù)形式具有一定的要求，因此，需要對網(wǎng)絡(luò)傳輸數(shù)據(jù)進行重塑，使其滿足構(gòu)建模型輸入需求，最大限度地提升異常數(shù)據(jù)的識別精度[10]。

設(shè)定網(wǎng)絡(luò)傳輸數(shù)據(jù)為Y={y1,y2,…,y m}，LSTM神經(jīng)網(wǎng)絡(luò)長期與短期記憶單元關(guān)聯(lián)長度分別為LC與LD，則重塑后的輸入數(shù)據(jù)表達式為：

式中：y i與z i表示的是重塑前、后的第i個網(wǎng)絡(luò)傳輸數(shù)據(jù)；αC與αD表示的是長期與短期記憶單元背景下的重塑因子，其取值范圍為[0,5]，具體取值大小需要根據(jù)數(shù)據(jù)實際情況而定。

利用式（5）將全部網(wǎng)絡(luò)傳輸數(shù)據(jù)進行重塑處理，獲得構(gòu)建模型的輸入數(shù)據(jù)集合S={S1,S2,…,S m}，為網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別的實現(xiàn)做準備。

1.4 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別

應(yīng)用梯度下降法制定構(gòu)建模型訓(xùn)練程序，確定異常數(shù)據(jù)判別規(guī)則，將測試集合輸入至訓(xùn)練好的識別模型中，其輸出結(jié)果即為異常數(shù)據(jù)識別結(jié)果[11]。

基于梯度下降法的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型訓(xùn)練過程如下所示：

1）初始化識別模型相關(guān)參數(shù)，設(shè)置初始步長為0.001，初始衰減速率為0.9。

2）在訓(xùn)練集合Y1中隨機采集q個樣本數(shù)據(jù)，記為{y1,y2,…,y q}，其對應(yīng)模型輸出目標為R j。

3）計算梯度數(shù)值g，更新有偏一階矩估計H與有偏二階矩估計K。

4）修正一階矩與二階矩偏差，獲得新的估計數(shù)值，記為與。

5）計算更新參數(shù)，表達式為：

式中：Δψ表示的是更新參數(shù)；ε表示的是誤差項。

6）重復(fù)進行步驟2）～步驟5），直至滿足最大迭代次數(shù)為止，輸出最終識別模型相關(guān)參數(shù)。

異常數(shù)據(jù)判別參量計算公式為：

式中：Γ表示的是異常數(shù)據(jù)判別參量[12]；y(t)與(t)分別表示的是模型擬合值與實際值。

以式（7）計算結(jié)果為依據(jù)，制定異常數(shù)據(jù)判別規(guī)則：當(dāng)Γ大于或等于0.43時，認定網(wǎng)絡(luò)傳輸數(shù)據(jù)為異常數(shù)據(jù)；當(dāng)Γ小于0.43時，認定網(wǎng)絡(luò)傳輸數(shù)據(jù)為正常數(shù)據(jù)[13]。將上述訓(xùn)練獲得的相關(guān)參數(shù)值與異常數(shù)據(jù)判別規(guī)則代入至網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型中，即可完成識別模型的訓(xùn)練與完善。將測試集合作為識別模型輸入，模型輸出就是異常數(shù)據(jù)識別結(jié)果，從而實現(xiàn)了網(wǎng)絡(luò)傳輸數(shù)據(jù)異常的精準識別，為網(wǎng)絡(luò)傳輸數(shù)據(jù)的安全提供更有效的保障，為需求數(shù)據(jù)查詢提供一定的便利。

2 實驗與結(jié)果分析

2.1 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別性能評價指標選取

選取基于局部離群因子的數(shù)據(jù)異常識別方法及其在古建結(jié)構(gòu)監(jiān)測中的應(yīng)用[14]與改進云模型在大壩安全監(jiān)測數(shù)據(jù)異常識別中的應(yīng)用[15]作為對比方法1與方法2，設(shè)計網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別對比實驗，驗證所提方法的應(yīng)用效果。

網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別性能很難被直觀反映出來，故選取適當(dāng)?shù)姆椒☉?yīng)用性能評價指標，主要包括精度、召回率與F1值，計算公式為：

式中：F表示的是精度；N1表示的是正常數(shù)據(jù)被判定為正常數(shù)據(jù)類別的樣本數(shù)量；N2表示的是異常數(shù)據(jù)被判定為正常數(shù)據(jù)類別的樣本數(shù)量；G表示的是召回率；N3表示的是異常數(shù)據(jù)被判定為異常數(shù)據(jù)類別的樣本數(shù)量；F1表示的是綜合度量精度與召回率后的數(shù)值。

常規(guī)情況下，單一評價指標具有一定的片面性，不具備可信度，再加之精度與召回率兩者之間存在著一定的對立關(guān)系，無法直接衡量異常數(shù)據(jù)識別性能，因此，設(shè)計F1值對精度與召回率進行綜合的衡量，更加精準地體現(xiàn)提出方法的應(yīng)用效果。

2.2 實驗結(jié)果分析

以上述訓(xùn)練好的LSTM神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)，進行網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別對比實驗，完整地記錄實驗數(shù)據(jù)，應(yīng)用式（8）計算網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別的精度與召回率，具體如表1與表2所示。

表1 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別精度 %

以表1與表2所示數(shù)據(jù)為依據(jù)，通過式（8）計算評價指標F1值，具體如圖3所示。

表2 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別召回率 %

如圖3所示，隨著時間的推移，網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別性能評價指標——F1值呈現(xiàn)波動狀態(tài)，無規(guī)律可循，這主要是因為數(shù)據(jù)異常識別過程中的影響因素過多，并且很多因素不可控、不可預(yù)測。

圖3 評價指標F1值示意圖

其中，提出方法應(yīng)用后，第3 h時，F(xiàn)1值達到最小值83.70%，第8 h時，F(xiàn)1值達到最大值94.50%；對比方法1應(yīng)用后，第3 h時，F(xiàn)1值達到最小值45.55%，第10 h時，F(xiàn)1值達到最大值58.40%；對比方法2應(yīng)用后，第8 h時，F(xiàn)1值達到最小值45.59%，第10 h時，F(xiàn)1值達到最大值60.40%。

通過上述數(shù)據(jù)對比可知，提出方法應(yīng)用后獲得的評價指標——F1值最小值均高于對比方法1與方法2的F1值最大值，表明提出方法異常數(shù)據(jù)識別性能更好。

3 結(jié) 語

網(wǎng)絡(luò)普及程度的不斷提升，使其內(nèi)部傳輸數(shù)據(jù)體量也在逐步增加，而設(shè)備更新、惡意攻擊種類多變、傳輸性能等因素的影響，使得異常數(shù)據(jù)的占比越來越大，對于需求數(shù)據(jù)的查詢和隱私數(shù)據(jù)的安全造成極大的不利影響，故本文提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別方法。該方法在LSTM神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用下，大幅度提升了評價指標——F1值，能夠更加精確地識別異常數(shù)據(jù)，為網(wǎng)絡(luò)傳輸數(shù)據(jù)的應(yīng)用與處理提供更有效的方法支撐。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡