王 芳
(北京科技大學(xué)天津?qū)W院 信息工程學(xué)院,天津 301830)
近年來,互聯(lián)網(wǎng)技術(shù)的興起與普及極大地提升了人們生產(chǎn)與生活的便利程度,網(wǎng)絡(luò)用戶數(shù)量呈現(xiàn)飛速增長的狀態(tài)。根據(jù)國內(nèi)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計數(shù)據(jù)顯示,截至2022年底,中國互聯(lián)網(wǎng)普及率達到了72.5%。由此可見,互聯(lián)網(wǎng)已經(jīng)成為人們生產(chǎn)與生活過程中必不可少的一部分[1]。從大眾角度出發(fā),互聯(lián)網(wǎng)可以改善生活方式,例如VR看房、共享經(jīng)濟等;從企業(yè)角度出發(fā),互聯(lián)網(wǎng)的逐步滲入可以改變企業(yè)的辦公模式與服務(wù)方式,促進企業(yè)改革與發(fā)展;從國家角度出發(fā),互聯(lián)網(wǎng)能夠推動國家信息技術(shù)的發(fā)展,改革貿(mào)易模式,促進“地球村”的建設(shè)。在當(dāng)今這個大數(shù)據(jù)時代背景下,網(wǎng)絡(luò)傳輸數(shù)據(jù)中包含著大量的用戶隱私信息、企業(yè)核心數(shù)據(jù)、國家核心機密等,但是大部分用戶并沒有強烈的隱私數(shù)據(jù)保護意識,導(dǎo)致網(wǎng)絡(luò)傳輸數(shù)據(jù)過程中經(jīng)常出現(xiàn)惡意攻擊現(xiàn)象;再加之網(wǎng)絡(luò)環(huán)境、噪聲等多種因素的影響,致使網(wǎng)絡(luò)傳輸數(shù)據(jù)中存在很多異常數(shù)據(jù),不但影響網(wǎng)絡(luò)數(shù)據(jù)的傳輸質(zhì)量,也為需求數(shù)據(jù)查詢帶來了較大的難度,制約著網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用與持續(xù)發(fā)展[2]。
網(wǎng)絡(luò)用戶的急劇增加和網(wǎng)絡(luò)應(yīng)用范圍的擴大,使得網(wǎng)絡(luò)傳輸數(shù)據(jù)體量呈現(xiàn)指數(shù)級別暴增趨勢,常規(guī)異常數(shù)據(jù)識別方法識別性能較差,影響網(wǎng)絡(luò)用戶的應(yīng)用體驗,已經(jīng)無法適應(yīng)海量數(shù)據(jù)異常識別需求,故本文提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別方法研究。該方法在LSTM神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用下,大幅度提升了評價指標——F1值,能夠更加精確地識別異常數(shù)據(jù),為網(wǎng)絡(luò)傳輸數(shù)據(jù)的應(yīng)用與處理提供更有效的方法支撐。
在互聯(lián)網(wǎng)正常運行過程中,網(wǎng)絡(luò)傳輸數(shù)據(jù)種類、量綱存在著較大的差異性,若是直接對其進行異常識別,會產(chǎn)生較大的運算量,從而降低異常識別的效率。因此,在數(shù)據(jù)異常識別之前,需要對網(wǎng)絡(luò)傳輸數(shù)據(jù)進行一定的預(yù)處理[3]。
此研究應(yīng)用歸一化方法將網(wǎng)絡(luò)傳輸數(shù)據(jù)控制在0~1之間,表達式為:
式中:Y表示的是歸一化處理后的網(wǎng)絡(luò)傳輸數(shù)據(jù),取值范圍為[0,1];X表示的是歸一化處理前的網(wǎng)絡(luò)傳輸數(shù)據(jù),取值范圍不確定,量綱也不同;Xmin與Xmax分別表示的是原始網(wǎng)絡(luò)傳輸數(shù)據(jù)中的最小值與最大值。
由于網(wǎng)絡(luò)傳輸數(shù)據(jù)體量較大,再加之后續(xù)構(gòu)建模型需要訓(xùn)練集合與測試集合,故在此節(jié)應(yīng)用高斯混合模型對網(wǎng)絡(luò)傳輸數(shù)據(jù)集合進行分割處理,表達式為:
式中:P(y)表示的是網(wǎng)絡(luò)傳輸數(shù)據(jù)集合的高斯密度函數(shù);n表示的是數(shù)據(jù)集合分割數(shù)量,依據(jù)異常數(shù)據(jù)識別需求,設(shè)置n取值為2;βi表示的是混合參數(shù),取值范圍為[0,1];δi(y,μi,Σi)表示的是協(xié)方差為Σi、均值為μi的高斯分布;δi(y)表示的是δi(y,μi,Σi)的概率分布函數(shù);d表示的是時間滑動窗口。
通過式(2)可知,要想精準地分割網(wǎng)絡(luò)傳輸數(shù)據(jù)集合,首要任務(wù)就是計算βi,表達式為:
式中φold表示的是混合參數(shù)更新因子,依據(jù)每個數(shù)據(jù)特征而變化[4]。
將式(3)計算結(jié)果代入式(2)即可實現(xiàn)對網(wǎng)絡(luò)傳輸數(shù)據(jù)集合的有效分割,具體如圖1所示。
圖1 網(wǎng)絡(luò)傳輸數(shù)據(jù)集合分割示例圖
如圖1所示,高斯混合模型可以有效地將網(wǎng)絡(luò)傳輸數(shù)據(jù)集合分割為2個集合,分別為訓(xùn)練集合(深色圓圈)與測試集合(淺色圓圈),記為集合Y1與Y2,為后續(xù)網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別的實現(xiàn)奠定堅實的基礎(chǔ)[5]。
以預(yù)處理完成后的網(wǎng)絡(luò)傳輸數(shù)據(jù)集合為基礎(chǔ),引入深度學(xué)習(xí)技術(shù)——LSTM,構(gòu)建網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型,為研究目標實現(xiàn)提供支撐[6]。
基于LSTM的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型具體如圖2所示。
如圖2所示,由于網(wǎng)絡(luò)傳輸數(shù)據(jù)在時間維度上存在著前后關(guān)系,具備時間序列特征,再加之?dāng)?shù)據(jù)傳輸是一個較為復(fù)雜的過程,還會受到多種因素的直接或間接影響,致使異常數(shù)據(jù)是否存在具有一定的不確定性,而LSTM對時間序列數(shù)據(jù)處理具備較好的收斂性,故以此為基礎(chǔ)構(gòu)建網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型[7]。
圖2 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型示意圖
構(gòu)建模型中,隱藏層將Dense全連接層與LSTM層進行有效的結(jié)合。其中,LSTM層主要承擔(dān)輸入數(shù)據(jù)處理與分析的任務(wù),能夠?qū)?shù)據(jù)進行選擇性的保存與摒棄,對構(gòu)建模型性能提升具有一定的作用[8]。Dense全連接層主要是對LSTM層輸出數(shù)據(jù)進行轉(zhuǎn)換處理,方便異常數(shù)據(jù)識別。Dense全連接層需要添加激活函數(shù)才能體現(xiàn)構(gòu)建模型層次之間的非線性關(guān)系[9]。根據(jù)網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別需求,選取Sigmoid函數(shù)作為Dense全連接層激活函數(shù),表達式為:
式中λ(y)表示的是Sigmoid函數(shù),即激活函數(shù)。
依據(jù)已有研究成果可知,Dense全連接層與LSTM層的數(shù)量并不是越多越好,過多或過少均會影響模型性能的發(fā)揮,具體層數(shù)需要通過模型訓(xùn)練確定。
由于上述構(gòu)建模型中LSTM神經(jīng)網(wǎng)絡(luò)包含長期與短期記憶單元狀態(tài),對輸入數(shù)據(jù)形式具有一定的要求,因此,需要對網(wǎng)絡(luò)傳輸數(shù)據(jù)進行重塑,使其滿足構(gòu)建模型輸入需求,最大限度地提升異常數(shù)據(jù)的識別精度[10]。
設(shè)定網(wǎng)絡(luò)傳輸數(shù)據(jù)為Y={y1,y2,…,y m},LSTM神經(jīng)網(wǎng)絡(luò)長期與短期記憶單元關(guān)聯(lián)長度分別為LC與LD,則重塑后的輸入數(shù)據(jù)表達式為:
式中:y i與z i表示的是重塑前、后的第i個網(wǎng)絡(luò)傳輸數(shù)據(jù);αC與αD表示的是長期與短期記憶單元背景下的重塑因子,其取值范圍為[0,5],具體取值大小需要根據(jù)數(shù)據(jù)實際情況而定。
利用式(5)將全部網(wǎng)絡(luò)傳輸數(shù)據(jù)進行重塑處理,獲得構(gòu)建模型的輸入數(shù)據(jù)集合S={S1,S2,…,S m},為網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別的實現(xiàn)做準備。
應(yīng)用梯度下降法制定構(gòu)建模型訓(xùn)練程序,確定異常數(shù)據(jù)判別規(guī)則,將測試集合輸入至訓(xùn)練好的識別模型中,其輸出結(jié)果即為異常數(shù)據(jù)識別結(jié)果[11]。
基于梯度下降法的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型訓(xùn)練過程如下所示:
1)初始化識別模型相關(guān)參數(shù),設(shè)置初始步長為0.001,初始衰減速率為0.9。
2)在訓(xùn)練集合Y1中隨機采集q個樣本數(shù)據(jù),記為{y1,y2,…,y q},其對應(yīng)模型輸出目標為R j。
3)計算梯度數(shù)值g,更新有偏一階矩估計H與有偏二階矩估計K。
4)修正一階矩與二階矩偏差,獲得新的估計數(shù)值,記為與。
5)計算更新參數(shù),表達式為:
式中:Δψ表示的是更新參數(shù);ε表示的是誤差項。
6)重復(fù)進行步驟2)~步驟5),直至滿足最大迭代次數(shù)為止,輸出最終識別模型相關(guān)參數(shù)。
異常數(shù)據(jù)判別參量計算公式為:
式中:Γ表示的是異常數(shù)據(jù)判別參量[12];y(t)與(t)分別表示的是模型擬合值與實際值。
以式(7)計算結(jié)果為依據(jù),制定異常數(shù)據(jù)判別規(guī)則:當(dāng)Γ大于或等于0.43時,認定網(wǎng)絡(luò)傳輸數(shù)據(jù)為異常數(shù)據(jù);當(dāng)Γ小于0.43時,認定網(wǎng)絡(luò)傳輸數(shù)據(jù)為正常數(shù)據(jù)[13]。將上述訓(xùn)練獲得的相關(guān)參數(shù)值與異常數(shù)據(jù)判別規(guī)則代入至網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別模型中,即可完成識別模型的訓(xùn)練與完善。將測試集合作為識別模型輸入,模型輸出就是異常數(shù)據(jù)識別結(jié)果,從而實現(xiàn)了網(wǎng)絡(luò)傳輸數(shù)據(jù)異常的精準識別,為網(wǎng)絡(luò)傳輸數(shù)據(jù)的安全提供更有效的保障,為需求數(shù)據(jù)查詢提供一定的便利。
選取基于局部離群因子的數(shù)據(jù)異常識別方法及其在古建結(jié)構(gòu)監(jiān)測中的應(yīng)用[14]與改進云模型在大壩安全監(jiān)測數(shù)據(jù)異常識別中的應(yīng)用[15]作為對比方法1與方法2,設(shè)計網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別對比實驗,驗證所提方法的應(yīng)用效果。
網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別性能很難被直觀反映出來,故選取適當(dāng)?shù)姆椒☉?yīng)用性能評價指標,主要包括精度、召回率與F1值,計算公式為:
式中:F表示的是精度;N1表示的是正常數(shù)據(jù)被判定為正常數(shù)據(jù)類別的樣本數(shù)量;N2表示的是異常數(shù)據(jù)被判定為正常數(shù)據(jù)類別的樣本數(shù)量;G表示的是召回率;N3表示的是異常數(shù)據(jù)被判定為異常數(shù)據(jù)類別的樣本數(shù)量;F1表示的是綜合度量精度與召回率后的數(shù)值。
常規(guī)情況下,單一評價指標具有一定的片面性,不具備可信度,再加之精度與召回率兩者之間存在著一定的對立關(guān)系,無法直接衡量異常數(shù)據(jù)識別性能,因此,設(shè)計F1值對精度與召回率進行綜合的衡量,更加精準地體現(xiàn)提出方法的應(yīng)用效果。
以上述訓(xùn)練好的LSTM神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),進行網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別對比實驗,完整地記錄實驗數(shù)據(jù),應(yīng)用式(8)計算網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別的精度與召回率,具體如表1與表2所示。
表1 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別精度 %
以表1與表2所示數(shù)據(jù)為依據(jù),通過式(8)計算評價指標F1值,具體如圖3所示。
表2 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別召回率 %
如圖3所示,隨著時間的推移,網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別性能評價指標——F1值呈現(xiàn)波動狀態(tài),無規(guī)律可循,這主要是因為數(shù)據(jù)異常識別過程中的影響因素過多,并且很多因素不可控、不可預(yù)測。
圖3 評價指標F1值示意圖
其中,提出方法應(yīng)用后,第3 h時,F(xiàn)1值達到最小值83.70%,第8 h時,F(xiàn)1值達到最大值94.50%;對比方法1應(yīng)用后,第3 h時,F(xiàn)1值達到最小值45.55%,第10 h時,F(xiàn)1值達到最大值58.40%;對比方法2應(yīng)用后,第8 h時,F(xiàn)1值達到最小值45.59%,第10 h時,F(xiàn)1值達到最大值60.40%。
通過上述數(shù)據(jù)對比可知,提出方法應(yīng)用后獲得的評價指標——F1值最小值均高于對比方法1與方法2的F1值最大值,表明提出方法異常數(shù)據(jù)識別性能更好。
網(wǎng)絡(luò)普及程度的不斷提升,使其內(nèi)部傳輸數(shù)據(jù)體量也在逐步增加,而設(shè)備更新、惡意攻擊種類多變、傳輸性能等因素的影響,使得異常數(shù)據(jù)的占比越來越大,對于需求數(shù)據(jù)的查詢和隱私數(shù)據(jù)的安全造成極大的不利影響,故本文提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識別方法。該方法在LSTM神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用下,大幅度提升了評價指標——F1值,能夠更加精確地識別異常數(shù)據(jù),為網(wǎng)絡(luò)傳輸數(shù)據(jù)的應(yīng)用與處理提供更有效的方法支撐。