尹 虹,趙 閃,李 澤,王 蕊,岳 超
(1.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081;2.興唐通信科技有限公司,北京 100191;3.中國(guó)國(guó)家鐵路集團(tuán)有限公司 辦公廳,北京 100844)
鐵路網(wǎng)絡(luò)作為我國(guó)的關(guān)鍵信息基礎(chǔ)設(shè)施,極易受到有組織黑客、網(wǎng)絡(luò)對(duì)抗的攻擊[1],面臨的大多是組織性、針對(duì)性較強(qiáng)的網(wǎng)絡(luò)威脅。數(shù)據(jù)加密技術(shù)、密鑰協(xié)商技術(shù)和隧道傳輸技術(shù)等密碼技術(shù)的應(yīng)用,保障了鐵路網(wǎng)絡(luò)通信數(shù)據(jù)在傳輸過(guò)程中的完整性、真實(shí)性和機(jī)密性。但攻擊者也會(huì)使用密碼技術(shù)加密攻擊行為和惡意通信流量,規(guī)避各類檢測(cè)技術(shù)[2],造成對(duì)鐵路網(wǎng)絡(luò)的攻擊與破壞。因此,監(jiān)測(cè)鐵路網(wǎng)絡(luò)加密流量中的攻擊行為和惡意流量,是當(dāng)前網(wǎng)絡(luò)對(duì)抗嚴(yán)峻形式下的基本要求。
目前,加密流量監(jiān)測(cè)分析研究的主要方向?yàn)榧用芰髁繎?yīng)用類型識(shí)別、加密協(xié)議分析識(shí)別和加密流量異常識(shí)別等[3]。在加密流量應(yīng)用類型識(shí)別中,通過(guò)提取與加密無(wú)關(guān)的數(shù)據(jù)包字節(jié)數(shù)長(zhǎng)度和持續(xù)時(shí)間等特征信息,識(shí)別加密流量的網(wǎng)絡(luò)應(yīng)用類型[4],如文字、語(yǔ)音或視頻等類型[5];在加密協(xié)議分析識(shí)別中,由于動(dòng)態(tài)端口對(duì)比困難的問(wèn)題,基于通信端口的加密協(xié)議識(shí)別技術(shù)整體識(shí)別準(zhǔn)確率較低[6],基于數(shù)據(jù)流或數(shù)據(jù)包識(shí)別網(wǎng)絡(luò)流量的通信協(xié)議特征,并通過(guò)匹配各加密協(xié)議特征庫(kù)進(jìn)行識(shí)別的準(zhǔn)確率較高[7];加密流量異常識(shí)別可基于數(shù)據(jù)流或數(shù)據(jù)包提取網(wǎng)絡(luò)流量的持續(xù)時(shí)間、流量大小、包間隔時(shí)間等特征,使用支持向量機(jī)、樸素貝葉斯及C4.5決策樹等機(jī)器學(xué)習(xí)算法對(duì)加密流量特征進(jìn)行分析[8],也可依據(jù)網(wǎng)絡(luò)流量加密協(xié)議通信周期行為特征的差異進(jìn)行識(shí)別,利用機(jī)器學(xué)習(xí)或圖論等算法完成加密協(xié)議識(shí)別分類,例如,文獻(xiàn)[9]依據(jù)某下載軟件的網(wǎng)絡(luò)行為特征,實(shí)現(xiàn)加密流量異常識(shí)別。
在當(dāng)前的研究中,機(jī)器學(xué)習(xí)等智能算法在加密流量監(jiān)測(cè)中具備明顯的優(yōu)勢(shì),但現(xiàn)有的加密流量監(jiān)測(cè)方法僅針對(duì)特定的、單一的協(xié)議或業(yè)務(wù),存在普適性低等問(wèn)題。因此,通過(guò)研究加密流量應(yīng)用類型、加密協(xié)議、加密流量異常識(shí)別等智能算法,分析鐵路網(wǎng)絡(luò)加密流量重要特征,構(gòu)建一套智能算法協(xié)同的鐵路網(wǎng)絡(luò)加密流量智能監(jiān)測(cè)系統(tǒng)勢(shì)在必行。
本文設(shè)計(jì)的鐵路網(wǎng)絡(luò)加密流量智能監(jiān)測(cè)系統(tǒng)主要由數(shù)據(jù)獲取、特征建模、智能分析、配置管理4個(gè)子系統(tǒng)組成,系統(tǒng)架構(gòu)如圖1所示。
圖1 鐵路加密流量智能監(jiān)測(cè)系統(tǒng)架構(gòu)
數(shù)據(jù)獲取子系統(tǒng)為整個(gè)系統(tǒng)獲取原始流量,包括流量鏡像獲取、深度流解析(DFI,Deep Flow Inspection)、流量預(yù)處理和數(shù)據(jù)存儲(chǔ)等功能。部署時(shí),針對(duì)需要監(jiān)測(cè)的業(yè)務(wù)系統(tǒng),使用探針設(shè)備對(duì)其核心交換機(jī)或服務(wù)器交換機(jī)上的流量設(shè)置旁路,使用端口鏡像技術(shù)將業(yè)務(wù)流量復(fù)制,并從特定輸出端口發(fā)出。DFI設(shè)備直接與探針相連,以pcap數(shù)據(jù)包的形式獲取采集到的端口鏡像流量數(shù)據(jù),經(jīng)過(guò)流量預(yù)處理,將流量數(shù)據(jù)中的網(wǎng)絡(luò)廣播或心跳包等冗余流量過(guò)濾后,存儲(chǔ)在存儲(chǔ)設(shè)備中。
特征建模子系統(tǒng)從經(jīng)過(guò)預(yù)處理的鐵路網(wǎng)絡(luò)流量中提取可用于后續(xù)分析的網(wǎng)絡(luò)流量數(shù)據(jù)流和數(shù)據(jù)包特征、加密協(xié)議特征、密碼服務(wù)特征、異常特征、攻擊行為特征等。
(1)網(wǎng)絡(luò)流量數(shù)據(jù)流和數(shù)據(jù)包特征建模。提取明文流量、加密流量的流特征和包特征。流特征包括分組特征、熵特征、統(tǒng)計(jì)特征和距離特征;包特征包括負(fù)載特征、包分布特征、五元組信息及隨機(jī)性特征。
(2)加密流量協(xié)議特征建模。識(shí)別提取加密流量的加密協(xié)議特征,包括隧道通信特征、層疊加密特征、行為特征和距離特征。
(3)加密流量服務(wù)特征建模。提取其服務(wù)流量特征,包括密鑰協(xié)商流量特征、業(yè)務(wù)流量特征、管理流量特征和加密數(shù)據(jù)特征。
(4)加密流量異常特征建模。結(jié)合鐵路領(lǐng)域特征與深度模型特征對(duì)鐵路網(wǎng)絡(luò)加密流量進(jìn)行行為畫像。鐵路領(lǐng)域特征主要與鐵路業(yè)務(wù)系統(tǒng)有關(guān),如鐵路領(lǐng)域內(nèi)網(wǎng)絡(luò)流時(shí)長(zhǎng)、包時(shí)間間隔、背景流量特征、域名特征等。深度模型特征是指通過(guò)神經(jīng)網(wǎng)絡(luò)模型的自我學(xué)習(xí)獲得的網(wǎng)絡(luò)流量特征。構(gòu)造基線監(jiān)測(cè)模型,計(jì)算鐵路網(wǎng)絡(luò)加密流量行為畫像與基線監(jiān)測(cè)模型的距離向量,作為加密流量異常特征。
(5)攻擊行為特征建模。在對(duì)攻擊行為進(jìn)行識(shí)別時(shí),主要提取攻擊行為的行為模式、特征組合及上下文關(guān)聯(lián)。
智能分析子系統(tǒng)利用關(guān)聯(lián)分析模型、分類器模型、機(jī)器學(xué)習(xí)模型等對(duì)鐵路網(wǎng)絡(luò)加密流量特征、協(xié)議特征、服務(wù)特征、攻擊行為特征等進(jìn)行分析與分類,輸出鐵路網(wǎng)絡(luò)加密應(yīng)用類型、加密協(xié)議、加密服務(wù)、加密流量異常情況、攻擊行為等內(nèi)容。
配置管理子系統(tǒng)向上承擔(dān)了整個(gè)系統(tǒng)的異常上報(bào)和策略下發(fā)功能,向下承擔(dān)了系統(tǒng)內(nèi)部各子系統(tǒng)、各組件及功能模塊間的接口定義和協(xié)同工作,主要包括特征建模管理、模型管理、策略管理、告警管理和系統(tǒng)管理等。
鐵路網(wǎng)絡(luò)流量加密后,其數(shù)據(jù)包中的報(bào)文載荷內(nèi)容已無(wú)法解析,但在通信時(shí),數(shù)據(jù)包間的分組、字節(jié)數(shù)、熵值、負(fù)載、持續(xù)時(shí)間等時(shí)間序列特征仍存在可識(shí)別性。為實(shí)現(xiàn)鐵路網(wǎng)絡(luò)加密流量應(yīng)用類型識(shí)別,本文引入長(zhǎng)短期記憶(LSTM ,Long Short-Term Memory)網(wǎng)絡(luò),識(shí)別鐵路網(wǎng)絡(luò)流量中的時(shí)間序列特征。LSTM網(wǎng)絡(luò)可計(jì)算本時(shí)刻與上一時(shí)刻的數(shù)據(jù)狀態(tài),并傳輸給下一時(shí)刻;考慮到加密協(xié)議的復(fù)雜性,增加Elmo自回歸語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練;增加自注意力(Self-Attention)結(jié)構(gòu)層,充分學(xué)習(xí)加密流量的交互協(xié)議特征。加密流量應(yīng)用類型識(shí)別架構(gòu)如圖2所示。
圖2 基于Elmo+LSTM+Self-Attention模型的密文流量識(shí)別架構(gòu)
(1)數(shù)據(jù)預(yù)處理。加密流量輸入后按流或會(huì)話的形式劃分為獨(dú)立的數(shù)據(jù)包。
(2)模型訓(xùn)練向量。截取數(shù)據(jù)包字節(jié),使用Elmo自回歸語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,通過(guò)密文流量上文及數(shù)據(jù)包字節(jié)等信息,對(duì)當(dāng)前字節(jié)進(jìn)行預(yù)測(cè),過(guò)濾噪聲等干擾,輸出統(tǒng)一的包含密文流量特征信息的數(shù)據(jù)包數(shù)組向量。
(3)模型特征學(xué)習(xí)。通過(guò)構(gòu)建LSTM、Self-Attention結(jié)構(gòu)層及分類器算法,實(shí)現(xiàn)對(duì)數(shù)據(jù)包數(shù)組向量的特征信息提取及加密流量應(yīng)用類型的分類識(shí)別等。Self-Attention結(jié)構(gòu)層能提取到更加全面的密文流量特征,達(dá)到較高的識(shí)別準(zhǔn)確性[10]。
鐵路網(wǎng)絡(luò)中存在多種流量加密技術(shù)和算法,使得加密后的流量特征各異,難以設(shè)計(jì)出一套通用的加密流量異常識(shí)別方法。因此,本文通過(guò)結(jié)合流時(shí)長(zhǎng)、包時(shí)間間隔、包大小轉(zhuǎn)移矩陣、熵值、域名等領(lǐng)域特征和神經(jīng)網(wǎng)絡(luò)模型自我學(xué)習(xí)獲得的深度模型特征,構(gòu)建了一個(gè)基于兩階段LSTM的加密流量異常識(shí)別模型,如圖3所示。該模型可更好地獲取網(wǎng)絡(luò)流量數(shù)據(jù)包中的各類特征信息。
圖3 基于兩階段LSTM網(wǎng)絡(luò)的加密流量異常識(shí)別模型
(1)加密流量輸入后,按流或會(huì)話的形式劃分為獨(dú)立數(shù)據(jù)包。(2)分別提取或識(shí)別加密流量的領(lǐng)域特征和深度模型特征,其中,領(lǐng)域特征可通過(guò)對(duì)數(shù)據(jù)包時(shí)長(zhǎng)、間隔時(shí)間、熵值等數(shù)據(jù)的統(tǒng)計(jì)、分析與計(jì)算來(lái)提?。辉谏疃饶P吞卣鳙@取中,需對(duì)數(shù)據(jù)包進(jìn)行編碼,輸入至第1階段LSTM網(wǎng)絡(luò)中,針對(duì)
每個(gè)數(shù)據(jù)包進(jìn)行深度學(xué)習(xí),并逐個(gè)輸出特征數(shù)據(jù),即深度模型特征。(3)獲取到鐵路網(wǎng)絡(luò)領(lǐng)域特征和深度模型特征后,通過(guò)聯(lián)合拼接方式將兩類特征拼接在一起,形成完整的加密流量特征數(shù)據(jù),輸入至第2階段LSTM網(wǎng)絡(luò)中,進(jìn)一步學(xué)習(xí)加密流量間的序列關(guān)系,并使用分類器算法進(jìn)行分類識(shí)別。
本文從加密流量研究入手,分析了加密流量應(yīng)用類型識(shí)別、加密流量異常識(shí)別等方法,設(shè)計(jì)了鐵路網(wǎng)絡(luò)加密流量智能監(jiān)測(cè)系統(tǒng),結(jié)合智能算法闡述了鐵路加密流量監(jiān)測(cè)關(guān)鍵技術(shù),有效協(xié)同多個(gè)模型,提升鐵路行業(yè)加密流量監(jiān)測(cè)、識(shí)別與分析的能力,為加密流量監(jiān)測(cè)技術(shù)的后續(xù)研究提供參考。