童 瀛,周 宇, 姚煥章,梁 劍,薛 虎
(1.江蘇省公安廳網安總隊,江蘇 南京 210024;2.南京航空航天大學 計算機科學與技術學院,江蘇 南京 211106)
隨著互聯網技術的廣泛應用,網絡信息的安全問題日益受到社會各領域的關注和重視。網絡異常行為監(jiān)測是保證網絡數據安全和網絡運行環(huán)境健康的有效手段之一[1]。在網絡存在異常行為時,網絡信息中常常包含敏感信息[2],對網絡敏感信息的自動監(jiān)測及預警,對及時準確地監(jiān)測網絡異常行為、保障網絡數據安全來說具有重要意義。
網絡敏感信息預警是指運用多線程、數據庫、信息檢測與跟蹤、區(qū)塊鏈等技術及時發(fā)現網絡中存在異常行為的信息,從而增強網絡態(tài)勢感知[3],這也是維護網絡空間安全的一項重要工作。網絡高敏感信息具有獨特的編碼特征,根據其編碼轉換形式構建多形式敏感信息語料庫,可以在決策樹等技術的基礎上實現多形式敏感信息捕捉、預警及過濾[4]。
文獻[5]針對多階段動態(tài)博弈模型不符合實際網絡攻防連續(xù)對抗、實時變化的問題,借鑒傳染病動力學模型分析敏感信息傳播過程,并基于定性微分博弈理論構建針對敏感信息的攻防博弈模型,引入多維歐氏距離度量不同敏感信息的威脅嚴重程度,進而設計預警算法。文獻[6]結合局部敏感哈希的性質和圖的隨機游走來識別異常數據節(jié)點,即通過局部敏感哈希處理網絡數據,然后利用數據之間距離獲取其相似性,并將其轉化為隨機游走的轉移概率。在此基礎上,使用隨機游走技術計算數據之間的游走概率,從而辨識其中的敏感信息節(jié)點并發(fā)出預警。盡管以上傳統(tǒng)算法在預警網絡高敏感信息中取得了一定程度的應用效果,但因難以有效聚類信息而導致預警效果度偏低。
深度神經網絡是深度學習領域的一個分支,通過學習樣本數據的內在規(guī)律和表示層次來識別數據的特征,在完成所有層訓練后,通過明確深度學習中心后可高效實現數據聚類。因此,針對傳統(tǒng)算法的不足,本研究基于深度神經網絡設計了新的網絡高敏感信息預警算法。
深度神經網絡的層次式學習模式是深度學習領域的一個重要特點。深度神經元因結合了淺表神經元的特點,從而形成了更加復雜抽象的高級特征[7-9]。在此基礎上,分層次展開特征性學習,利用淺層神經元提取信息的簡單特征性,利用深層神經元提取信息的高級特征性,可實現對網絡高敏感信息的挖掘。
基于此,首先比較網絡敏感信息的詞頻。在通過網絡的信息內容中收集頻率較高的詞元,并利用淺層神經元提取其中的敏感信息[10]。
步驟1 將任意一個屬性異常的信息作為聚類中心。
步驟2 計算網絡中不同屬性異常信息間的相似程度。
步驟3 若不同屬性的異常信息特征間的相似程度低于設定的閾值,則對聚類中心進行調整;否則,保留該異常信息特征[11]。
步驟4 對所有網絡異常信息特征依次執(zhí)行步驟2和步驟3。
步驟5 通過式(1)實現對異常信息特征的交叉處理,從而篩選出其中的敏感信息[12-14]。
(1)
式中:R為網絡異常行為特征參量;ω為異常行為信息權重;e為異常信息相似度。
利用以上過程可以在網絡信息文本中提取敏感信息,為后續(xù)挖掘高敏感信息奠定基礎。
結合上述采集的敏感信息,利用式(2)計算敏感信息特征參量集:
(2)
式中:m為網絡信息總量;n為網絡信息中敏感信息總量;h為敏感信息在所有網絡信息中的比例;Q為所有網絡信息中的敏感信息特征數量。
利用上述過程得到的敏感信息特征參量集,結合深層神經元從敏感信息中提取信息的高級特征性,即篩選出其中的高敏感信息,最后,利用深度神經網絡對其展開高效的聚類處理。
在利用以上過程獲得的敏感信息高級特征集中隨機選取一個樣本q,將其設為深度學習中心[15-16]。然后合理設置門限,并結合深度神經網絡中心對敏感信息特征參量集展開聚類。
1) 計算高敏感信息的特征隸屬度。假設bk為網絡中高敏感信息的特征參數,網絡中高敏感信息的特征隸屬度可表示為
I=Yenbk
(3)
2) 將高敏感信息的特征隸屬度作為深度神經網絡的輸入數據,并在感知層中,通過計算高敏感信息特征間距離對其做擴展。文中高敏感信息特征間距離通過歐式距離ρ來計算[17-18],可表示為
(4)
式中:bkl為網絡高敏感信息第k個學習中心的第l個特征參數;bk(l-1)為網絡高敏感信息第k個學習中心的第l-1個特征參數;l=1,2,…,r。
3) 在隱藏層中,結合深度神經網絡中心q實現高敏感信息聚類。在此引入類間類內劃分(between-within proportion,BWP)指標。BWP指標可確定最佳聚類數目,并用第j類第i個樣本數據的聚類離差距離d′和聚類距離d的比值來更加真實的反映聚類簇內高敏感信息的緊密度[19-20]。
4) 根據輸出的數據聚類結果提取網絡高敏感信息,可表示為
(5)
式中:umax為獲取網絡高敏感信息同正常信息間的距離極大值。
在上述利用深度神經網絡和聚類過程準確提取網絡中高敏感信息的基礎上,對高敏感信息展開監(jiān)測與預警。
計算并標記網絡中包含的所有IP節(jié)點,并基于標簽構造 IP索引數據IP_Index[21-22]。假定共有N個IP節(jié)點存在網絡節(jié)點連接圖中,它們對應一個N×N階的鄰接矩陣M。如果矩陣M中的某一值Mxy(x,y=1,2,…,N)為零,則表示一個源IP節(jié)點與其他節(jié)點之間的連接關系所決定的索引數據IP_Index和目標IP節(jié)點都為Mxy,且x和y之間沒有任何連接。相反,Mxy的值越大,對應的2個節(jié)點就越緊密。由此,可根據構建的鄰接矩陣M反映源IP節(jié)點與目標IP節(jié)點之間交互的字節(jié)總數,為網絡高敏感信息監(jiān)測與預警奠定基礎。
本文采用均值參數表示網絡節(jié)點的連接狀態(tài),并初步量化了這些連接關系的復雜性。一般來說,網絡中節(jié)點的連接關系越復雜,其參數的平均值就越高[23-24]。與此相反,當節(jié)點參數的平均值越低,說明網絡中包含的孤立點越多。網絡節(jié)點連接狀態(tài)均值參數?可表示為
(6)
式中:z為網絡總節(jié)點數;α為網絡節(jié)點擁有的最大度數;f、g分別為距離深度數據網絡中心最遠和最近節(jié)點。
在此基礎上,引入數據流最大比數的概念實現對高敏感信息的預警。最大比數是指一個連接狀態(tài)均值參數大于1的節(jié)點數與總節(jié)點數量的比率。一般而言,最大比數越接近于1,說明均值參數節(jié)點存在的可能性越大,越有利于監(jiān)測到高敏感信息。
通常情況下,對敏感信息的監(jiān)測過程即為監(jiān)測網絡掃描異?,F象的過程。無論是服務器還是客戶機,在敏感信息監(jiān)測中,當均值參數節(jié)點的數目很多時,就意味著網絡中存在異常掃描,即存在高敏感信息,然后可通過發(fā)布預報指令實現對高敏感信息的預警。預警算法流程如圖1所示。
圖 1 預警算法流程Fig.1 Flow chart of early warning algorithm
為驗證深度神經網絡的網絡高敏感信息預警算法的實際應用效果。實驗所用網絡覆蓋范圍為1 200 km×1 200 km,節(jié)點總數設定為2 000個,節(jié)點信號傳輸碼元長度為1 024 bit,網絡干擾強度為-15 dB。
為避免實驗結果過于單一,將傳統(tǒng)的基于定性微分博弈的網絡安全威脅信息預警算法和基于局部敏感哈希和隨機游走的異常信息檢測預警算法作為對比,與本文算法共同完成性能驗證。
在上述網絡中設置掃描攻擊信息。網絡掃描攻擊是指同時掃描一個或多個主機上的網絡生存狀態(tài)和網絡服務類型的行為。該攻擊行為保護的所有信息屬于高敏感信息,易對網絡的平穩(wěn)運行造成較大影響。網絡掃描攻擊主要是針對遠程通信端口發(fā)起的網絡攻擊。利用網絡掃描攻擊,攻擊者能夠發(fā)現網絡中存在的安全漏洞。當存在網絡掃描攻擊時,網絡服務不受影響,但掃描攻擊是其他網絡攻擊的前兆。因此,有效檢測出掃描攻擊行為發(fā)出的高敏感信息,是保護網絡數據安全的先決條件。
因此,利用不同算法對網絡掃描攻擊信息展開監(jiān)測,測試不同算法對高敏感信息預警過程的響應耗時,從而對比不同算法的應用性能。
利用不同預警算法對分布式拒絕服務攻擊信息和網絡掃描攻擊信息展開監(jiān)測預警,并分析不同算法的預警效果。
對實驗網絡展開分布式拒絕服務攻擊,分別利用定性微分博弈法、局部敏感哈希和隨機游走法、深度神經網絡法分析網絡節(jié)點連接關系變化特征,結果如圖2所示。
(a) 定性微分博弈法
(b) 局部敏感哈希和隨機游走法
(c) 深度神經網絡算法圖 2 不同算法分布式拒絕服務攻擊信息監(jiān)測結果Fig.2 Distributed denial of service attack information monitoring results of different algorithms
從圖2可以看出,在定性微分博弈法、局部敏感哈希和隨機游走法的監(jiān)測下,信息節(jié)點不具有規(guī)律性,節(jié)點間連接情況較為混亂,高敏感信息節(jié)點可通過間接傳播的方式破壞其他信息節(jié)點的安全性。而在深度神經網絡法的監(jiān)測下,網絡形成了一個中心聚類簇數,并且各節(jié)點間呈現全連接狀態(tài),在中心節(jié)點之外的節(jié)點行為相似度較低。若傀儡機向被攻擊主機發(fā)送服務申請,一旦目標主機被攻擊,其將不能繼續(xù)向其他節(jié)點發(fā)送高敏感數據,從而有效捕捉到網絡高敏感信息節(jié)點。
綜上,深度神經網絡法可有效實現對網絡高敏感信息的捕捉和監(jiān)測。產生這一結果的原因在于該算法在挖掘敏感信息的基礎上,計算網絡參數節(jié)點的連接平均度,再通過深度學習對高敏感信息展開有效聚類,實現節(jié)點與中心節(jié)點間的全連接,從而便于監(jiān)測高敏感信息。
在此基礎上,以高敏感信息預警過程的響應耗時為檢驗指標,測試不同算法的應用性能,結果如圖3所示。
圖 3 不同算法預警過程響應耗時對比Fig.3 Comparison of response time of different algorithms in early warning process
從圖3可以看出,隨著高敏感信息節(jié)點數量的增加,不同算法的預警過程響應耗時隨之減少。但2種傳統(tǒng)算法的預警響應耗時均在2 s以上。相比之下,深度神經網絡法的預警過程響應耗時始終在1 s之內,預警耗時最多時也僅需0.92 s。由此可知,深度神經網絡法可快速實現對網絡高敏感信息的預警。產生這一結果的原因在于該算法在提取網絡中敏感信息的基礎上,通過設置合理閾值完成對高敏感信息的準確、快速挖掘,從而有效縮短了預警過程響應耗時。
本文基于深度神經網絡對網絡高敏感信息的預警算法,在挖掘高敏感信息的基礎上對其實施節(jié)點聚類,確定節(jié)點間的連接關系,然后利用深度學習過程實現對敏感信息的有效、快速監(jiān)測與預警。研究中發(fā)現,網絡中節(jié)點的連接關系越復雜,其參數的平均值就越高,且當均值參數節(jié)點的數目很多時,就意味著網絡中存在異常掃描,即存在高敏感信息。
不平衡數據問題導致數據流不精確,在預警算法的實際應用中,網絡通道中所有流量比例一致是不現實的。因此,如何在不平衡數據的情況下實現對高敏感信息的監(jiān)測與預警是下一步的研究方向,從而進一步提高預警算法的實用價值。