王子淵
(中鐵第五勘察設計院集團有限公司 北京 102600)
智慧城軌具有如下特征:一是具有實時控制特性,涉及行車安全;二是具有大數(shù)據(jù)共享;三是需要通過跨域訪問和移動互聯(lián)[1]。軌道交通網(wǎng)絡規(guī)模的不斷擴大,對數(shù)據(jù)共享和大容量數(shù)據(jù)通信的迫切需求,使系統(tǒng)對外界具有了前所未有的開放性、互聯(lián)性,導致被入侵概率增加[2],一旦出現(xiàn)網(wǎng)絡安全事故將直接影響人民的正常生活,造成的損失不可估量。
作為城市綜合運輸體系,安全生產(chǎn)面臨著前所未有的挑戰(zhàn)[3]。王宇嘉等人[4-5]提出應用層次分析法的模糊綜合評價模型評價軌道集團行車組織和安全的影響,并從目標、原則、方法及步驟等方面對客運專業(yè)的技術規(guī)章進行優(yōu)化。本文利用非負矩陣算法對跨域網(wǎng)絡降維分析解決智慧城軌入侵檢測,可達到國家對關鍵信息基礎設施的高安全等級保護的要求。
歐盟信息安全局(ENISA)2020年11月發(fā)布了《鐵路網(wǎng)絡空間安全—鐵路運輸行業(yè)的安全度量》,美國政府總審計署2020年4月發(fā)布GAO-20-404審計報告-《鐵路空運網(wǎng)絡安全》,英國政府運輸部于2016年發(fā)布了《鐵路網(wǎng)絡空間安全—行業(yè)指南》等,均發(fā)布了相應的行業(yè)網(wǎng)絡安全戰(zhàn)略或規(guī)范,但解決網(wǎng)絡安全問題的技術路徑依然堅持了威脅對抗的思路。
我國互聯(lián)網(wǎng)應急中心(CNCERT)最新發(fā)布的“城市軌道交通行業(yè)網(wǎng)絡安全態(tài)勢分析報告”指出,城市軌道交通WEB系統(tǒng)暴露情況全國共發(fā)現(xiàn)聯(lián)網(wǎng)的城軌相關系統(tǒng)99個,涉及運行管理類88個,其中47個暴露系統(tǒng)存在漏洞,涉及保護機制故障、敏感信息的明文傳輸、跨站請求偽造等14種不同漏洞類型。城軌行業(yè)主要供應商的工控產(chǎn)品共計發(fā)布漏洞539個,中高危漏洞數(shù)量占93.69%。整個城軌行業(yè)面臨的安全態(tài)勢日益嚴峻,主要存在安全體系建設離散化、用戶業(yè)務行為保護弱相關、協(xié)同性安全保護不足等問題。需深刻認識智慧城軌的豐富內(nèi)涵,構建安全、便捷、高效、綠色、經(jīng)濟的新一代中國式智慧型城市軌道交通[6]。針對不同的安全威脅部署了相應安全功能的安全部件,卻難以抵抗多樣化攻擊帶來的安全問題。
智能城軌以云平臺為承載,支撐智能建造、智能裝備和智能運營三大板塊的智能化應用。云平臺以城市軌道交通數(shù)據(jù)全生命周期為目標,實現(xiàn)設計、建造階段的BIM一體化、運維專業(yè)數(shù)據(jù)共享化、設備感知物聯(lián)化和線路管理網(wǎng)絡化,見圖1。
圖1 智慧城軌系統(tǒng)網(wǎng)絡
將各個層來源不同、格式不同的數(shù)據(jù)在物理或邏輯上進行集成的過程,非結構化數(shù)據(jù)產(chǎn)生于城軌系統(tǒng)工程包括勘測、設計、施工、運維、IOT數(shù)據(jù)及生產(chǎn)調(diào)度等在內(nèi)的各個環(huán)節(jié)。將這些非結構化的數(shù)據(jù)通過Hadoop MapReduce處理[7],生成計算機可識別數(shù)據(jù)供計算機處理,然后使用 Streamsets采集工具并通過FTP、SFTP等方式進行交換處理。
軌道交通建設、運營生產(chǎn)等過程中已產(chǎn)生出海量數(shù)據(jù)信息,如BIM數(shù)據(jù)、PMS系統(tǒng)資產(chǎn)數(shù)據(jù)、應急處置、票務數(shù)據(jù)、清分數(shù)據(jù)、POI數(shù)據(jù)、手機信令數(shù)據(jù)、視頻數(shù)據(jù)、IOT數(shù)據(jù)等大量高維數(shù)據(jù)(10 or 10 000 dimensions),且在高維空間中點間的距離看起來都是近似的,處理起來比較復雜。故存儲方案采用HDFS分布式文件系統(tǒng)[8],以流式數(shù)據(jù)訪問模式存儲大數(shù)據(jù)文件。
上文提到的存儲工點設備歷史行為數(shù)據(jù),一個最重要的問題是計算請求域中用戶在服務域中信任度,且必須考慮其時間復雜度[9]。一般來說,城軌云各業(yè)務系統(tǒng)間訪問協(xié)議名、域名、端口名均一樣的情況下,才允許訪問相同的 COOKIE、LOCALSTORAGE或是發(fā)起AJAX請求等。若在不同源的情況下訪問,跨域的訪問會帶來許多安全性的問題??缬騿栴}就是同源策略所導致的,同源策略是一個重要的安全策略,它用于限制一個origin的文檔或者它加載的腳本如何能與另外一個源的資源進行交互,它能減少可能被攻擊的媒介。在日常的運維時會不可避免地需要進行跨域操作,而在實際進行跨域請求時CORS驗證機制需要客戶端和服務端協(xié)同處理,產(chǎn)生非法跨域?qū)е翪SRF攻擊安全問題。
大數(shù)據(jù)的人工智能神經(jīng)網(wǎng)絡算法逐漸發(fā)展成熟[10]。機器學習訓練模型適合對入侵檢測進行分類應用[11]。但網(wǎng)絡結構日益復雜化,攻擊手段日益多樣化,特征趨向高維化,數(shù)量也日益增多,嚴重影響了入侵檢測系統(tǒng)的性能。數(shù)據(jù)存在分布不均,維度大以及入侵檢測處理時間消耗大等缺陷,需采用矩陣的方式來存儲,然后對數(shù)據(jù)進行維數(shù)約減。
NMF能夠挖掘數(shù)據(jù)集合特征并進行特征提取和降維[12],在匯聚節(jié)點完成對分類規(guī)則和屬性約簡規(guī)則的學習,分別在簇頭和匯聚節(jié)點做聚類分析,減小數(shù)據(jù)傳輸時的通信開銷,提高分類器分類性能。其算法相較于傳統(tǒng)的一些算法而言,具有實現(xiàn)上的簡便性、分解形式和分解結果上的可解釋性,它能將多維的數(shù)據(jù)矩陣降維處理,適合處理大規(guī)模數(shù)據(jù)。
令待處理數(shù)據(jù)n個m維度集合,即:m×n大小的非負矩陣V,待分解矩陣V不能為負,則有V[i][j]≥0。排除負值無效性,NMF算法目的是將原始矩陣Vm×n進行降維處理近似分解,獲得數(shù)據(jù)特征的低秩矩陣:m×k的基矩陣U和k×n投影矩陣F。
通過設定k?n,一般地,令k為數(shù)據(jù)聚類的類數(shù),則矩陣U和F的乘積近似等于矩陣V中的值,如式(1):
將原矩陣Vm×n降維,如式(2):
式(2)中,原矩陣V與重構矩陣之間同時加入混淆矩陣W。原矩陣進行降維分解后仍包含原樣本矩陣信息,故節(jié)省了數(shù)據(jù)存儲的空間,聚類過程中減少計算時間和內(nèi)存開銷。研究提出非負矩陣U、F的距離度量兩種方法歐氏距離、Kullback-Liebler(KL)散度。
(1)矩陣分解優(yōu)化目標。最小化U矩陣F矩陣的乘積和原始矩陣V之間的差別,目標函數(shù)見式(3):
(2)KL散度的優(yōu)化目標,損失函數(shù)見式(4):
根據(jù)函數(shù)式(4)找區(qū)間最優(yōu)。(1)梯度下降:每次選取當前點的梯度方向,極小值不確定、函數(shù)收斂慢。(2)共軛梯度:N維方向極小值不沖突,兩兩共軛、函數(shù)收斂快。如上第一種目標更新規(guī)則可得式(5):
其中,a、u指矩陣第a行第u列元素,充分條件為分母為零,對應位置元素不變。充要條件為基矩陣U和投影矩陣F在靜態(tài)點時,歐氏距離|V-UF|在更新規(guī)則中非上升。如上第二種目標更新規(guī)則可得式(6):
充要條件V=UF,V和歐式距離為零,散度D(V‖UF)在更新規(guī)則中非上升,損失函數(shù)越小,模型的性能越好。
本文數(shù)據(jù)進行迭代處理中函數(shù)相應的偽代碼如下:
軌道交通作為積累工程數(shù)據(jù)的典型行業(yè),積累了大量的BIM數(shù)據(jù)、PMS系統(tǒng)資產(chǎn)數(shù)據(jù)、應急處置、票務數(shù)據(jù)、清分數(shù)據(jù)、POI數(shù)據(jù)、手機信令數(shù)據(jù)、視頻數(shù)據(jù)、IOT數(shù)據(jù)等。一方面這些數(shù)據(jù)可以被用來研究軌道交通站臺站廳實時客流量監(jiān)控;軌道交通站內(nèi)換乘客流量分析;軌道交通精準清分清算。另一方面,由于這些行為數(shù)據(jù)具有地理上下文,因此也可以基于網(wǎng)絡理論來研究軌道交通TOD地產(chǎn)、商業(yè)物業(yè)競合關系與功能。
本文實驗提取鐵建工程設計一體化平臺與軌道交通運維海量數(shù)據(jù)作為基礎數(shù)據(jù)進行NMF降維分析。
通過不斷的迭代優(yōu)化將一個項目矩陣分解為兩個矩陣,那么需要將數(shù)據(jù)集分為訓練集和測試集來對預處理后構建的監(jiān)督模型進行評估。將訓練集數(shù)據(jù)進行劃分為 TRAIN、VAL、TEST和 TRAINVAL集。代碼保存為 TRAIN_VAL_TEST.PY,并將放置在云機Worker節(jié)點下執(zhí)行迭代。
數(shù)據(jù)集包含569個數(shù)據(jù)點,每個數(shù)據(jù)點由30個測量值表示。我們將數(shù)據(jù)集分成包含426個樣本的訓練集與包含143個樣本的測試集。模型代碼片段如下:
然后,使用FIT方法擬合縮放器Scaler,并將其應用于訓練數(shù)據(jù)。對于MinMaxScaler來說FIT方法計算訓練集中每個特征的最大值和最小值,與梯度下降分類器和回歸器Regressor不同,在對縮放器調(diào)用FIT時只提供X_TRAIN,而不用Y_TRAIN。
本過程目的就是壓縮數(shù)據(jù),NMF通常用于特征提取,將數(shù)據(jù)分解成非負加權求和的這個過程,對由多個獨立源疊加創(chuàng)建而成的數(shù)據(jù)特別有用,NMF可以識別出組成合成數(shù)據(jù)的原始分量,因為負的分量和系數(shù)可能會導致難以解釋的抵消效應(Cancellation effect)。我們可以用NMF來還原這三個信號:
本過程目的算法步驟如圖2所示。
圖2 算法步驟
步驟1:特征提取。
步驟2:判斷屬于訓練數(shù)據(jù)集進一步的處理,結合修正后的入侵檢測標簽交給向量機,否則直接將為數(shù)據(jù)交給向量機。
步驟3:生成訓練模型,跳轉(zhuǎn)到步驟1。
步驟4:基于訓練模型進行入侵檢測。
步驟5:檢測值滿足,發(fā)出警告。
本文提出的非負矩陣分解更新規(guī)則算法,基于軌道交通大規(guī)模工程數(shù)據(jù)網(wǎng)絡跨域安全降維分析,其對傳統(tǒng)聚類算法進行了改進:(1)利用梯度下降法計算函數(shù)最小值并將每次梯度向量模長列出,從而對目標進行更新,使得更容易尋找區(qū)間最優(yōu)解;(2)提出工程數(shù)據(jù)相似性度量方法,得出損失函數(shù)越小,模型的性能越好。為了算法驗證效果,提取了鐵建工程設計一體化平臺和城軌運維海量數(shù)據(jù),詳細介紹了實驗步驟,測試證明使用NMF進行跨域網(wǎng)絡安全降維可以很好地完成入侵檢測。