陳 娜,劉海姣,李今宋,鄧清飛,田昕澤,張騰飛
(1.南瑞集團(tuán)有限公司,江蘇 南京 211106;2.南京郵電大學(xué) 自動化學(xué)院 人工智能學(xué)院,江蘇 南京 210023)
配電物聯(lián)網(wǎng)是配電技術(shù)與物聯(lián)網(wǎng)技術(shù)深度融合產(chǎn)生的一種新型配電網(wǎng)絡(luò)形態(tài)[1-2]。配電物聯(lián)網(wǎng)各個環(huán)節(jié)重要參數(shù)的在線監(jiān)測,為配電環(huán)節(jié)的科學(xué)運(yùn)維提供智能輔助決策依據(jù);而進(jìn)一步提升電網(wǎng)運(yùn)行安全水平,則依賴于配電物聯(lián)網(wǎng)管理平臺海量感知信息的智能管理和數(shù)據(jù)處理分析技術(shù)[3]。
配電物聯(lián)網(wǎng)管理平臺可以實(shí)現(xiàn)鏈接管理、數(shù)據(jù)處理、設(shè)備管理、應(yīng)用管理和標(biāo)識管理等功能,而平臺信息安全是保障業(yè)務(wù)和數(shù)據(jù)安全、支撐公司應(yīng)用發(fā)展的首要前提。為了規(guī)避網(wǎng)絡(luò)數(shù)據(jù)安全問題,國家電網(wǎng)環(huán)境中部署了防火墻、入侵檢測系統(tǒng)和防病毒軟件檢測系統(tǒng)等一系列的安全設(shè)備,以全方位監(jiān)測網(wǎng)絡(luò)環(huán)境中出現(xiàn)的攻擊和威脅。然而,安全設(shè)備的簡單堆積并沒有徹底解決復(fù)雜的網(wǎng)絡(luò)環(huán)境中出現(xiàn)的各種各樣的問題,甚至大量的冗余告警信息反而影響了管理員應(yīng)對系統(tǒng)中遭受的重要攻擊的及時(shí)性。為了應(yīng)對這些問題,幫助管理員從海量安全數(shù)據(jù)中分析并明確發(fā)生的攻擊與威脅,需要對這些安全數(shù)據(jù)進(jìn)行有效的管理和分析。其中,通過對多源數(shù)據(jù)進(jìn)行聚合以減少冗余信息、挖掘各個設(shè)備之間信息的聯(lián)系,是主要的解決方案[4]。
文獻(xiàn)[5]提出了一種基于感知語義的窄帶物聯(lián)網(wǎng)多源異構(gòu)數(shù)據(jù)聚合方法,其通過分析窄帶物聯(lián)網(wǎng)中的集中式和分布式模式,提出了基于語義感知的多源異構(gòu)數(shù)據(jù)聚合以形成統(tǒng)一的聚合模式,消除數(shù)據(jù)冗余并延長網(wǎng)絡(luò)壽命。文獻(xiàn)[6]針對網(wǎng)絡(luò)安全防御設(shè)備產(chǎn)生的大量冗余告警信息存在的數(shù)據(jù)瑣碎、誤警率高等問題,提出一種改進(jìn)的多源異構(gòu)數(shù)據(jù)的聚合方案,綜合分析告警類型、源IP、目的IP、目的端口及時(shí)間間隔幾個屬性,總結(jié)出4條規(guī)則,并在聚合過程中動態(tài)更新時(shí)間間隔閾值,提高聚合精確度。文獻(xiàn)[7]通過核典型關(guān)聯(lián)分析方法學(xué)習(xí)網(wǎng)頁圖像和關(guān)聯(lián)的文本的語義表達(dá),其中語義空間提供了圖像和文本之間共同的表達(dá)方式,使得圖像和文本之間可以進(jìn)行比較。文獻(xiàn)[8]提出了轉(zhuǎn)移網(wǎng)絡(luò)方案,其可以通過學(xué)習(xí)域不變的表達(dá)方式和較好的賦值方案來量化源域樣本的可轉(zhuǎn)移性。文獻(xiàn)[9]用最大均值差異法在再生核希爾伯特空間中學(xué)習(xí)源域和目標(biāo)域之間可遷移的部分,但只利用了特征匹配,卻忽略了樣本可以重新調(diào)整權(quán)重的問題。文獻(xiàn)[10]通過最大平均差異法減少源域和目標(biāo)域之間的分布欠適配,并對通用空間中的每一種特征值類型的數(shù)據(jù)分布進(jìn)行比較。
現(xiàn)階段,配電物聯(lián)網(wǎng)終端對數(shù)據(jù)采集和共享的要求顯著提高[11],海量電網(wǎng)安全監(jiān)測數(shù)據(jù)是配電物聯(lián)網(wǎng)終端自動化運(yùn)維、全景態(tài)勢感知、個性化功能推薦、綜合能源協(xié)調(diào)運(yùn)行等高級應(yīng)用決策依據(jù)的來源[12]。雖然數(shù)據(jù)存在的形式不同,但都用于描述同一事物或事件;而信息檢索需要的往往不只是同一事件單一模態(tài)的安全監(jiān)測數(shù)據(jù),也可能需要其他模態(tài)的安全監(jiān)測數(shù)據(jù)來豐富配電物聯(lián)網(wǎng)終端對同一事物或事件的認(rèn)知,此時(shí)就需要跨模態(tài)算法來實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)的綜合分析和處理。針對當(dāng)前海量安全數(shù)據(jù)監(jiān)測的需求,本文對海量數(shù)據(jù)進(jìn)行綜合分析和處理,提出一種跨模態(tài)的多源異構(gòu)安全監(jiān)測數(shù)據(jù)聚合算法,揭示其中隱藏的邏輯關(guān)聯(lián),發(fā)現(xiàn)攻擊者的真正意圖,從而對網(wǎng)絡(luò)攻擊行為進(jìn)行預(yù)防和響應(yīng),實(shí)現(xiàn)對整個網(wǎng)絡(luò)安全態(tài)勢的有效監(jiān)控。
數(shù)據(jù)聚合技術(shù)[13]是指網(wǎng)絡(luò)中的中間節(jié)點(diǎn)在接收到前驅(qū)節(jié)點(diǎn)的數(shù)據(jù)后并不直接轉(zhuǎn)發(fā),而是對接收到的數(shù)據(jù)和自身節(jié)點(diǎn)感知的數(shù)據(jù)進(jìn)行某種運(yùn)算(例如:求平均值運(yùn)算、求和運(yùn)算、求最大/最小值運(yùn)算等),最后生成單個數(shù)據(jù)并轉(zhuǎn)發(fā)給后繼節(jié)點(diǎn)。數(shù)據(jù)聚合減少了節(jié)點(diǎn)的能耗及帶寬等資源;鑒于傳感器節(jié)點(diǎn)的能量及帶寬等資源是受限的,數(shù)據(jù)聚合延長了網(wǎng)絡(luò)的生命周期,因此成為物聯(lián)網(wǎng)技術(shù)中的關(guān)鍵技術(shù)之一。
安全數(shù)據(jù)聚合理論包括數(shù)據(jù)集成技術(shù)與多源信息聚合技術(shù)。數(shù)據(jù)集成解決的關(guān)鍵問題是如何將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,屏蔽底層數(shù)據(jù)源差異,使用戶能夠以透明的方式訪問這些數(shù)據(jù)源[14]。多源信息聚合要解決的關(guān)鍵問題是如何通過對多方面的信息進(jìn)行有規(guī)則的組合,解決語義異構(gòu)[15]問題,進(jìn)而推導(dǎo)出更多有價(jià)值的信息。
傳統(tǒng)的安全數(shù)據(jù)理論方法主要用于單模態(tài)源域(只包含單一數(shù)據(jù))和單模態(tài)目標(biāo)域(只包含單一數(shù)據(jù))的情況。在此基礎(chǔ)上,一些多模態(tài)源域(包含多種輔助數(shù)據(jù),如電力系統(tǒng)的頻率、節(jié)點(diǎn)電壓水平、主變壓器和線路的負(fù)載率)的安全數(shù)據(jù)聚合理論方法被提出。文獻(xiàn)[16]提出了一種結(jié)構(gòu)框架,可以從源域中的多種模態(tài)獲得有判別力的并且可轉(zhuǎn)移的特征值。文獻(xiàn)[17]提出了一種深度域的自適應(yīng)結(jié)構(gòu),可以探尋視覺數(shù)據(jù)庫中的潛在域。然而,由于在真實(shí)世界的場景中,源域中的物體類別總是要大于目標(biāo)域中的物體類別,使得傳統(tǒng)的跨模態(tài)安全數(shù)據(jù)聚合理論方法很難在真實(shí)世界的場景中使用。相較于跨模態(tài)域的自適應(yīng)方法,部分域的自適應(yīng)方法主要關(guān)注目標(biāo)域中的物體類別數(shù)小于源域中的物體類別數(shù)的任務(wù)。文獻(xiàn)[18]提出了選擇性對抗網(wǎng)絡(luò),可以通過對抗網(wǎng)絡(luò)和賦權(quán)值機(jī)制選出源域中不包含在目標(biāo)域中的類別。文獻(xiàn)[19]提出了著重賦值對抗網(wǎng)絡(luò)(importance weighted adversarial net)以提高獲取源域樣本的概率,使源域中的樣本可以在域的對抗網(wǎng)絡(luò)中被賦值。
為了應(yīng)對復(fù)雜的網(wǎng)絡(luò)環(huán)境中出現(xiàn)的各種攻擊與威脅問題,本文提出一種多源異構(gòu)安全監(jiān)測數(shù)據(jù)聚合算法。該算法通過構(gòu)建各類型安全監(jiān)測數(shù)據(jù)域的自適應(yīng)方法來對網(wǎng)絡(luò)威脅進(jìn)行更加全面地描述,并進(jìn)一步挖掘潛在的未知網(wǎng)絡(luò)威脅。不同類別的安全檢測數(shù)據(jù)包含大量不同的有辨別能力的信息,可以幫助配電物聯(lián)網(wǎng)終端對網(wǎng)絡(luò)威脅有更好的認(rèn)知。同時(shí),在真實(shí)世界中,源域和目標(biāo)域有著不同的數(shù)據(jù)分布,并且存在不相等的類別數(shù)目。本文旨在將所解決的問題和提出的算法建立在更加真實(shí)的場景上,并通過縮小源域和目標(biāo)域之間的最大均值差異來解決源域和目標(biāo)域的欠適配問題;同時(shí)在源域中添加多種安全檢測數(shù)據(jù)信息并考慮源域和目標(biāo)域中的類別不平等情況;最后借助非負(fù)矩陣分解以獲得強(qiáng)健的視圖不變的子空間。通過多源異構(gòu)安全監(jiān)測數(shù)據(jù)聚合算法,使得通過源域中已知的類別為目標(biāo)域中未知的類別勾畫出一種準(zhǔn)確的邊界成為可能。
如圖1所示,通過分解和子空間學(xué)習(xí),可為原始數(shù)據(jù)中的安全告警數(shù)據(jù)(實(shí)心的紅色、黃色、藍(lán)色和綠色圖案)和網(wǎng)絡(luò)日志數(shù)據(jù)(空心的各種顏色圖案)探索模態(tài)不變的子空間;并在多源異構(gòu)數(shù)據(jù)的融合階段,為多源異構(gòu)數(shù)據(jù)探索不隨模態(tài)變化的子空間。本文所提方法可以在低維空間中對混合的類別和隨模態(tài)改變的結(jié)構(gòu)進(jìn)行拆解,并通過添加的圖形對這些結(jié)構(gòu)進(jìn)行正則化處理。圖中,融合過的數(shù)據(jù)用半透明的顏色表示。
圖1 多源異構(gòu)數(shù)據(jù)聚合算法示意圖Fig. 1 Schematic diagram of multi-source heterogeneous monitoring data aggregation algorithm
在自適應(yīng)分布嵌入的階段,算法會提高條件分布和邊緣分布的重要性,通過獲得對齊目標(biāo)域(黑色方塊和圓圈)和轉(zhuǎn)換過的源域(半透明的方塊和圓圈)的決策邊界,預(yù)防目標(biāo)域中的樣本被錯誤地估計(jì)。
原始數(shù)據(jù)源域s中包含帶標(biāo)簽的各種類型安全監(jiān)測數(shù)據(jù):安全告警數(shù)據(jù)s1、網(wǎng)絡(luò)日志數(shù)據(jù)s2和系統(tǒng)日志數(shù)據(jù)s3等,s={s1,s2,s3, …,sn}。原始數(shù)據(jù)源域s的標(biāo)簽集合可以用Ys表示,未知網(wǎng)絡(luò)目標(biāo)域t的標(biāo)簽集合用Yt表示。
假設(shè)Ps為原始數(shù)據(jù)源域s的邊緣分布,Pt為未知網(wǎng)絡(luò)目標(biāo)域t的邊緣分布,且Ps≠Pt;同時(shí)各帶標(biāo)簽數(shù)據(jù)的條件分布p(Ys|s1)≠p(Ys|s2)≠…≠p(Ys|sn)≠p(Yt|t)。算法第一階段的目標(biāo)是,通過尋找視圖不變的子空間,獲得轉(zhuǎn)換過的源域snew1和轉(zhuǎn)換過的目標(biāo)域snew2。第二階段的目標(biāo)是,使用轉(zhuǎn)換過的源域snew1,預(yù)測出未知網(wǎng)絡(luò)目標(biāo)域t的標(biāo)簽Yt,即潛在的未知網(wǎng)絡(luò)威脅。通過域的自適應(yīng),縮小域之間的邊緣分布(Ps,Pt)和條件分布(p(Ys|s1),p(Ys|s2), …,p(Ys|sn),p(Yt|t))的偏移;然后通過自適應(yīng)地調(diào)節(jié)這兩個偏移,構(gòu)建各類型安全監(jiān)測數(shù)據(jù)域的自適應(yīng)方法,以對網(wǎng)絡(luò)威脅做出更加全面的描述。借助非負(fù)矩陣分解,獲得強(qiáng)健的視圖不變的子空間。
為了加強(qiáng)學(xué)習(xí)系統(tǒng)的辨別能力,通過共同學(xué)習(xí),把各種類型安全監(jiān)測數(shù)據(jù)連接到一個模型中。在安全監(jiān)測數(shù)據(jù)嵌入階段,首先獲取源域中有標(biāo)簽的各種類型安全監(jiān)測數(shù)據(jù)中的共享潛在基和單獨(dú)子空間,并利用非負(fù)矩陣分解去探索各種類型安全監(jiān)測數(shù)據(jù)之間共享的成分,目標(biāo)函數(shù)為
式中:U——基矩陣;X——系數(shù)共享矩陣;λi——平衡各種類型數(shù)據(jù)重要性的參數(shù),由于安全數(shù)據(jù)聚合中默認(rèn)各種類型安全監(jiān)測數(shù)據(jù)是同樣重要的,故設(shè)定λi=1。
由于非負(fù)矩陣分解不能發(fā)現(xiàn)數(shù)據(jù)空間本質(zhì)的、具有辨別能力的結(jié)構(gòu),為了盡最大可能地保護(hù)安全監(jiān)測數(shù)據(jù)的重要結(jié)構(gòu),可以通過概率分布的方法解決這個問題。算法通過Jensen-Shannon散度來縮小各種安全監(jiān)測數(shù)據(jù)的概率分布:
結(jié)合式(1)和式(2),可以得到最終的目標(biāo)函數(shù):
式中:η——控制表達(dá)式(2)的平滑度的參數(shù)。
最后,通過正交投影將深度數(shù)據(jù)信息的知識遷移到目標(biāo)數(shù)據(jù)庫,去對齊共享的潛在特征空間和目標(biāo)域中的數(shù)據(jù):
式中:I——單位矩陣;Π——目標(biāo)域的正定投影。
圖2 安全數(shù)據(jù)在不同類別與模態(tài)下的距離Fig. 2 Distance of security data in different categories and modes
在自適應(yīng)嵌入階段,為了使特征值匹配,在再生核希爾伯特空間中非參數(shù)的最大均值差異被縮?。?/p>
式中:Ns——snew1中樣本的個數(shù),Nt——snew2中樣本的個數(shù),
同時(shí),為了調(diào)整樣本權(quán)重,算法對共享的潛在空間樣本縮小其結(jié)構(gòu)稀疏2和1范數(shù)。在這個步驟中,需要解決的是如何在共享的潛在空間和映射所得到目標(biāo)域之間同時(shí)匹配特征值并調(diào)整樣本權(quán)重,從而得到一個自適應(yīng)的分類器。在實(shí)際應(yīng)用中,訓(xùn)練樣本和測試樣本之間是存在域的欠適配問題。在這種情況下得到的特征結(jié)果是不準(zhǔn)確的,會影響系統(tǒng)的識別能力。
源域和目標(biāo)域的欠適配問題在大多數(shù)非監(jiān)督域的自適應(yīng)情境下是難以被忽略的。2.1節(jié)和2.2節(jié)中的方法解決了如何使用多源異構(gòu)數(shù)據(jù)和域的欠適配問題。值得注意的是,在本項(xiàng)目中,為了研究更適合現(xiàn)實(shí)中的情景,假設(shè)源域的標(biāo)簽數(shù)大于目標(biāo)域中的標(biāo)簽數(shù),也就是每一個域中類別的概率都不相同。因此,對類別不平等的問題,采用條件分布的估計(jì):
式中:PYs,PYt,和分別為Ys,Yt,snew1和snew2的邊緣分布;為與Ys之間的條件分布;為與Yt之間的條件分布。snew1和snew2的類先驗(yàn)值用來估計(jì)和,對條件分布的散度需要估計(jì)邊緣分布PVnew1和PVnew2??梢詫γ糠N類別數(shù)據(jù)構(gòu)建出所需要的權(quán)重矩陣,最終可以得到被訓(xùn)練后的自適應(yīng)分類器f。由于源域中有標(biāo)簽的數(shù)據(jù)和目標(biāo)域中無標(biāo)簽的數(shù)據(jù)來自不同的分布,使用交叉驗(yàn)證無法獲得最優(yōu)參數(shù),于是選用不需要調(diào)整交叉驗(yàn)證參數(shù)的最近鄰分類器為基礎(chǔ)分類器。分類器將通過整合各類型安全監(jiān)測數(shù)據(jù),對是否產(chǎn)生網(wǎng)絡(luò)威脅做出判斷。
為驗(yàn)證算法的有效性,本文通過實(shí)驗(yàn)對幾類安全監(jiān)測數(shù)據(jù)進(jìn)行算法評估。在配電物聯(lián)網(wǎng)配電終端收集了10個不同類別不同的安全檢測數(shù)據(jù),包括電力系統(tǒng)的頻率、節(jié)點(diǎn)電壓水平、主變和線路負(fù)載率等,并對目標(biāo)域的數(shù)據(jù)是否產(chǎn)生網(wǎng)絡(luò)威脅進(jìn)行評估。為了評估類別不平等的情況,在所有的任務(wù)中,10個有標(biāo)簽的安全監(jiān)測數(shù)據(jù)被選取為源域數(shù)據(jù),并隨機(jī)挑選4~8個不含標(biāo)簽的安全監(jiān)測數(shù)據(jù)作為目標(biāo)域。為了進(jìn)行全面且公平的比較,選擇了3種不同的方法:
(1)多視角學(xué)習(xí)支持向量機(jī)(support vector machine, SVM2K)[7]。這種經(jīng)典的方法在源域的訓(xùn)練中使用了多源數(shù)據(jù)。
(2)非監(jiān)督域的自適應(yīng)。通過樣本遷移網(wǎng)絡(luò)(example transfer network, ETN)[8]和遷移成分分析(transfer component analysis,TCA)[9],使用源域和目標(biāo)域視覺特征值來訓(xùn)練分類器,然后預(yù)測目標(biāo)數(shù)據(jù)標(biāo)簽。
(3)同時(shí)使用特權(quán)信息和非監(jiān)督域的自適應(yīng)。將從多視角到單視角的域適應(yīng)(domain adaptation from multi-view to single-view, DA-M2S)[10]和雞尾酒網(wǎng)絡(luò)(deep cocktail transfer network, DCTN)[16]使用源域中的多源數(shù)據(jù)作為特權(quán)信息,同時(shí)減少源域和目標(biāo)域數(shù)據(jù)分布之間的不匹配。
此外,從各類型安全監(jiān)測數(shù)據(jù)中提取的不同特征值對結(jié)果的影響同樣被考慮進(jìn)來,淺層特征和深度模型特征被用來評估所提出的算法。對于淺層特征,安全監(jiān)測數(shù)據(jù)提取梯度核描述子(kernel density estimation, KDES)特征值和局部二值模式(local binary pattern, LBP)梯度核描述子特征值;對于深度特征值,選擇從預(yù)訓(xùn)練的Caffe模型中提取安全監(jiān)測數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)特征值,特征值的維度為409 6。為便于分析,對算法的參數(shù)敏感度、收斂情況、T分布隨機(jī)鄰域嵌入(T-distributed stochastic neighbor embedding, T-SNE)進(jìn)行可視化。
各類型安全監(jiān)測數(shù)據(jù)的不同特征值在上文提到的5種算法以及本文提出的多源異構(gòu)安全監(jiān)測數(shù)據(jù)聚合算法下得到的識別準(zhǔn)確度如表1所示。
表1 不同算法的識別準(zhǔn)確度Tab.1 Recognition accuracy of different algorithm
從實(shí)驗(yàn)結(jié)果可以看出,通過整合各類型安全監(jiān)測數(shù)據(jù),本文所提算法對目標(biāo)域中的數(shù)據(jù)是否產(chǎn)生網(wǎng)絡(luò)威脅較之前的方法做出了更準(zhǔn)確的判斷:相比DAM2S, ETN, TCA和DCTN算法,其判斷準(zhǔn)確度至少提高了7%;相比SVM2K算法,其判斷準(zhǔn)確度約提高了20%。SVM2K是經(jīng)典的分類算法,但是由于沒有考慮域的自適應(yīng)問題,并沒有展現(xiàn)出好的結(jié)果。DA-M2S雖然解決了域的自適應(yīng)問題,但并沒有考慮源域中可以有多種模態(tài)的情況,導(dǎo)致效果遠(yuǎn)不如本文所提算法的。ETN和TCA是經(jīng)典的域自適應(yīng)方法,但由于做了源域和目標(biāo)域之間類別數(shù)目相等的非真實(shí)世界的假設(shè),導(dǎo)致結(jié)果并不理想。DCTN雖然能夠解決源域中存在的多模態(tài)和域的自適應(yīng)等問題,但由于其參數(shù)過多,導(dǎo)致目標(biāo)函數(shù)收斂困難,使得DCTN比本文所提算法的結(jié)果要差。本算法基于CNN特征值的分類混淆矩陣如圖3所示??梢钥闯?,數(shù)據(jù)6,7和10均被識別正確;其余數(shù)據(jù),識別出現(xiàn)了不同程度的誤差。
圖3 基于CNN特征值的分類混淆矩陣Fig. 3 Classification confusion matrix based on CNN eigenvalue
下面對算法的參數(shù)敏感度、收斂情況和T-SNE可視化進(jìn)行進(jìn)一步分析。
不同特征值和不同參數(shù)下,算法的參數(shù)敏感度如圖4所示。
圖4 不同特征值下算法參數(shù)敏感度Fig. 4 Sensitivity of algorithm parameters in the condition of different eigenvalues
從圖4可以看出,無論特征值是KDES還是CNN,當(dāng)η=10且λi=0.1的時(shí)候,算法的準(zhǔn)確度最高。這個結(jié)果表明,本文所提算法具有較高的穩(wěn)定性,其對參數(shù)的選擇不敏感,無論選擇何種特征值,都可以在η=10且λi=0.1的情況下得到最大的準(zhǔn)確度。
不同特征值下算法收斂情況如圖5所示。
圖5 不同特征值下算法收斂情況Fig. 5 Convergence of algorithm in the condition of different eigenvalues
從圖5可以看出,本文所提算法隨著循環(huán)次數(shù)的增加逐漸穩(wěn)定,且在3 500次循環(huán)以后收斂到最低錯誤率,表明該算法是可收斂的且具有較快的收斂速度。其他方法雖然同樣可以較快地收斂,但有著較高錯誤率。錯誤率表示所有判斷錯誤的樣本數(shù)占所有樣本數(shù)的比例,其計(jì)算公式為
通過T-SNE,DA-M2S方法和本算法在安全測試數(shù)據(jù)上深度特征值的表現(xiàn)被可視化。不同算法源域和目標(biāo)域數(shù)據(jù)的T-SNE可視化如圖6所示。圖6(a)和圖6(b)中,每一種顏色代表了一個類別,是將類別信息可視化;圖6(c)和圖6(d)中,兩種不同的顏色分別代表源域和目標(biāo)域中的數(shù)據(jù),是將信息可視化。
圖6 不同算法源域和目標(biāo)域數(shù)據(jù)的T-SNE可視化Fig. 6 T-SNE visualization of data in source domain and target domain in the condition of different algorithms
從圖6(a)和圖6(c)可以看出,采用DA-M2S方法提取的特征值在T-SNE可視化下混在了一起,從而揭示了DA-M2S易錯誤地估計(jì)目標(biāo)域中安全測試數(shù)據(jù)的原因。從圖6(b)和圖6(d)可以看出,本文所提算法成功地分離了目標(biāo)域中各種不同的特征值,從而可以對未知的測試數(shù)據(jù)做出正確的評估。
本文針對配電終端安全監(jiān)測數(shù)據(jù)具有的多源和高度異構(gòu)的特征并面對網(wǎng)絡(luò)攻擊與威脅安全的數(shù)據(jù)聚合的需求,提出了一種跨模態(tài)聚合算法。通過分解和子空間學(xué)習(xí)原始數(shù)據(jù)中的安全告警數(shù)據(jù)和網(wǎng)絡(luò)日志數(shù)據(jù),探索模態(tài)不變的子空間;通過共同學(xué)習(xí),把各類型安全監(jiān)測數(shù)據(jù)連接到一個模型,在自適應(yīng)嵌入階段,解決了源域和目標(biāo)域之間的欠適配和不平等問題。與現(xiàn)有算法相比,本文所設(shè)計(jì)的算法具有對參數(shù)的選擇不敏感、可收斂且識別準(zhǔn)確率高等優(yōu)點(diǎn)。
后續(xù)將通過深度學(xué)習(xí)建立類別不平等域的自適應(yīng)學(xué)習(xí)模型,在此基礎(chǔ)上將各類型安全監(jiān)測數(shù)據(jù)信息特征進(jìn)行融合,并且減少源域和目標(biāo)域之間的欠適配,保持?jǐn)?shù)據(jù)的結(jié)構(gòu)信息;通過計(jì)算出的差,識別源域中包含的存在于目標(biāo)域中的類別和不存在于目標(biāo)域中的類別,從而更好地解決配電物聯(lián)網(wǎng)管理平臺信息的網(wǎng)絡(luò)安全問題。