鄒 丹,王 喆,馬小寧,孫思齊,王沛然
(中國鐵道科學研究院集團有限公司 鐵路大數(shù)據(jù)研究與應用創(chuàng)新中心,北京 100081)
數(shù)據(jù)融合是大數(shù)據(jù)領域一個重要的研究方向,指集成多個數(shù)據(jù)源以產(chǎn)生比單一數(shù)據(jù)源更有價值的信息的過程。數(shù)據(jù)融合最早產(chǎn)生于軍事領域,后來廣泛應用于多影像復合、無人駕駛、圖像分析與理解、目標檢測與識別等領域[1]。目前,鐵路行業(yè)在跨系統(tǒng)多源數(shù)據(jù)融合方面的研究相對較少,在多源數(shù)據(jù)融合的過程中,面臨著數(shù)據(jù)不準確、不一致、不完整、數(shù)據(jù)要素分散等問題[2],為解決這些問題和提高數(shù)據(jù)融合效率[3],需要構建統(tǒng)一的多源數(shù)據(jù)融合架構。
本文基于鐵路數(shù)據(jù)服務平臺(簡稱:平臺),提出鐵路多源數(shù)據(jù)融合架構,以數(shù)據(jù)流為主線,將鐵路數(shù)據(jù)融合的主要工作環(huán)節(jié)與平臺功能建立對應關系,構建鐵路數(shù)據(jù)融合模型,為實施跨專業(yè)、跨系統(tǒng)的數(shù)據(jù)融合提供參考。
鐵路數(shù)據(jù)服務平臺是鐵路行業(yè)自主研發(fā)的一站式鐵路大數(shù)據(jù)解決方案。該平臺是鐵路數(shù)據(jù)集中管理、大數(shù)據(jù)分析的公共基礎設施,面向鐵路數(shù)據(jù)的采集、存儲、處理、分析和共享,采用分布式架構構建。平臺可實現(xiàn)海量結構化與非結構化數(shù)據(jù)接入、PB 級數(shù)據(jù)離線分析、TB 級數(shù)據(jù)實時分析、數(shù)據(jù)多維分析、自助分析、數(shù)據(jù)可視化等功能。此外,建立了數(shù)據(jù)資產(chǎn)管理制度和標準化管理流程,規(guī)范常態(tài)化數(shù)據(jù)資產(chǎn)管理活動,保證數(shù)據(jù)獲取和使用的一致性、準確性和安全性。
鐵路數(shù)據(jù)服務平臺主要功能包括:
(1)多源異構數(shù)據(jù)匯集:匯集數(shù)據(jù)的類型分為結構化、半結構化、非結構化數(shù)據(jù),采集方式包括實時采集與離線采集;
(2)大數(shù)據(jù)管理:運用主數(shù)據(jù)、地理信息、元數(shù)據(jù)管理方法,構建企業(yè)級數(shù)據(jù)資產(chǎn)目錄;采用大數(shù)據(jù)存儲與清洗技術,合理安排數(shù)據(jù)存儲,保證高質量數(shù)據(jù);
(3)大數(shù)據(jù)分析:采用批處理、流計算、內存計算等分布式計算方法,構建大數(shù)據(jù)平臺在線數(shù)據(jù)分析計算環(huán)境;
(4)大數(shù)據(jù)共享:實現(xiàn)大數(shù)據(jù)交換共享、數(shù)據(jù)申請審批和接口調用權限管理和接口自動配置,支持細粒度的數(shù)據(jù)共享管理。
鐵路多源數(shù)據(jù)融合涉及3 項主要任務:(1)對鐵路數(shù)據(jù)進行集中匯集;(2)根據(jù)數(shù)據(jù)融合的目的與要求進行數(shù)據(jù)梳理和預處理,選擇合適的層次完成數(shù)據(jù)融合;(3)將數(shù)據(jù)融合的結果進行共享。
為了使這些任務能夠在鐵路數(shù)據(jù)服務平臺上落地實施,將鐵路數(shù)據(jù)融合架構劃分為上下2 層,如圖1 所示。
圖1 鐵路數(shù)據(jù)融合架構
上層為概念模型層,以數(shù)據(jù)在平臺中的流轉為主線,包括數(shù)據(jù)匯集、融合處理和數(shù)據(jù)共享。下層為平臺功能層,數(shù)據(jù)匯集對應鐵路數(shù)據(jù)服務平臺的功能模塊為數(shù)據(jù)登記、數(shù)據(jù)匯集;融合處理對應平臺功能模塊為數(shù)據(jù)清洗、數(shù)據(jù)管理、數(shù)據(jù)分析等;數(shù)據(jù)共享對應平臺的數(shù)據(jù)開放共享、數(shù)據(jù)可視化等功能模塊。
數(shù)據(jù)匯集是數(shù)據(jù)融合的基礎,為實現(xiàn)跨行業(yè)、跨系統(tǒng)的數(shù)據(jù)融合,首先需要將不同業(yè)務線、不同系統(tǒng)、不同類型的數(shù)據(jù)采集并集中到鐵路數(shù)據(jù)服務平臺中。
由于多源數(shù)據(jù)存在數(shù)據(jù)庫類型多樣、網(wǎng)絡環(huán)境復雜、數(shù)據(jù)歸屬權分散等問題[4],需要對現(xiàn)有系統(tǒng)進行詳細的數(shù)據(jù)源調查,調查內容主要包括:系統(tǒng)名稱,部署層級,業(yè)務主管部門,系統(tǒng)研發(fā)及運維單位,部署網(wǎng)絡,數(shù)據(jù)類型,數(shù)據(jù)產(chǎn)生周期及數(shù)據(jù)量,詳細的數(shù)據(jù)表結構說明等。
根據(jù)數(shù)據(jù)源調查結果,與各業(yè)務系統(tǒng)的開發(fā)單位進行深入對接,制定詳細接口方案。接口方案需要考慮接口類型、數(shù)據(jù)量、數(shù)據(jù)實時性、數(shù)據(jù)傳輸效率、數(shù)據(jù)傳輸安全性、硬件及網(wǎng)絡環(huán)境等,制定數(shù)據(jù)匯集策略和實施計劃;接口應具有較好的通用性及可擴展性。
融合處理是整個數(shù)據(jù)融合架構中最重要的部分,主要解決多源數(shù)據(jù)不準確、不完全、不一致等問題,按照融合數(shù)據(jù)的具體需求,采用不同的融合層次及方法,并存儲數(shù)據(jù)的過程。
2.2.1 數(shù)據(jù)預處理
匯集后的數(shù)據(jù)一般不能直接融合,需要先進行數(shù)據(jù)預處理,數(shù)據(jù)預處理主要分為以下幾類:
(1)數(shù)據(jù)管理:數(shù)據(jù)管理是對數(shù)據(jù)進行描述和組織的過程,主要通過鐵路數(shù)據(jù)服務平臺的元數(shù)據(jù)管理和數(shù)據(jù)分類功能模塊實現(xiàn)。元數(shù)據(jù)管理記錄數(shù)據(jù)結構和對數(shù)據(jù)變換處理的過程,實現(xiàn)數(shù)據(jù)的血緣分析及影響度分析;數(shù)據(jù)分類通過構建鐵路數(shù)據(jù)分類和標簽體系,實現(xiàn)鐵路數(shù)據(jù)的多維度組織和管理;
(2)數(shù)據(jù)標準化:通過構建數(shù)據(jù)元標準,開展數(shù)據(jù)質量管理,達到統(tǒng)一量綱、消除數(shù)據(jù)差異、建立數(shù)據(jù)關聯(lián)等目的;數(shù)據(jù)標準化包括數(shù)據(jù)元標準化、數(shù)據(jù)質量標準化、數(shù)據(jù)管理流程標準化等;
(3)數(shù)據(jù)清洗:主要包括數(shù)據(jù)去噪、數(shù)據(jù)填充等,清除垃圾數(shù)據(jù),解決數(shù)據(jù)沖突,提高數(shù)據(jù)質量,以保證數(shù)據(jù)分析的準確性,取得預期的大數(shù)據(jù)綜合應用的成果。
2.2.2 鐵路數(shù)據(jù)融合層次
結合鐵路業(yè)務特點以及基于鐵路數(shù)據(jù)服務平臺已開展的數(shù)據(jù)處理工作,將數(shù)據(jù)融合分為3 個層次,如圖2 所示。
圖2 數(shù)據(jù)融合層次
(1)數(shù)據(jù)級融合
數(shù)據(jù)級融合的輸入項是來自多個業(yè)務系統(tǒng)的原始數(shù)據(jù),通過分析數(shù)據(jù)表間的關聯(lián)關系,將關聯(lián)度較高的數(shù)據(jù)進行關聯(lián),形成新的數(shù)據(jù)集,并不斷迭代這個過程。數(shù)據(jù)級融合結果可作為“特征級融合”的輸入項。
數(shù)據(jù)級融合屬于低層級融合,其特點是數(shù)據(jù)處理量大,處理時間長,實時性較差,但融合過程比較簡單,處理難度較小[5]。
(2)特征級融合
特征級融合是對信息進行特征提取,并對提取后的特征進行融合。特征級融合的輸入可以是數(shù)據(jù)級融合的結果,也可以是原始數(shù)據(jù)集。在特征提取方面,鐵路數(shù)據(jù)服務平臺的人工智能模塊可對文本、圖像等非結構化數(shù)據(jù)進特征提取。這些特征項可作為結構化數(shù)據(jù)與其他結構化數(shù)據(jù)進行特征項融合,融合結果可作為“決策級融合”的輸入項。
特征層融合數(shù)據(jù)處理量適中,利于實時處理,處理難度適中。特征級融合可用來對數(shù)據(jù)降維,降低分析及數(shù)據(jù)處理難度,提取的特征可作為“決策級融合”的輸入項。
(3)決策級融合
決策級融合是對特征數(shù)據(jù)、結論數(shù)據(jù)進行融合判定,獲得聯(lián)合推斷結果。決策級融合需要借助特征級融合的結果,一般不用來直接處理原始數(shù)據(jù)。決策層融合的優(yōu)點是具有較好的容錯性,所需的信息量小,數(shù)據(jù)通信量低,但融合難度大,對融合算法要求較高[6]。
決策層融合一般用于決策支持,需要按照明確的決策目標進行算法的構建和迭代優(yōu)化,部分決策結果還需要結合專家經(jīng)驗進行綜合評定后,才能得到所需的決策和評估結果。
2.2.3 融合算法對比分析
表1 列出了幾種常用的數(shù)據(jù)融合算法,對其特點和適用性進行對比。這些數(shù)據(jù)融合算法存在互補性,在實際處理過程中,會使用其中一種或多種算法,或基于這些算法構建新的算法模型[7]。
表1 常用數(shù)據(jù)融合算法比較
2.2.4 數(shù)據(jù)存儲
鐵路數(shù)據(jù)服務平臺根據(jù)數(shù)據(jù)的不同特點提供多種數(shù)據(jù)存儲組件。對于有實時共享需求或應用查詢需求的熱數(shù)據(jù)、溫數(shù)據(jù),主要存放在數(shù)據(jù)倉庫或HBase 中;對于歷史全量冷數(shù)據(jù),主要存放在Hive中用于離線分析。對于非結構化數(shù)據(jù)的存儲,提供HDFS 文件系統(tǒng)和對象存儲組件,滿足不同數(shù)據(jù)量的數(shù)據(jù)文件存儲需求;對于零碎的中小文件,將這些數(shù)據(jù)存放在對象存儲組件中,而數(shù)據(jù)量較多的大文件,則會將數(shù)據(jù)存放在HDFS 文件系統(tǒng)中。
數(shù)據(jù)共享是將數(shù)據(jù)融合處理后生成的數(shù)據(jù)或結論以服務的形式進行提供。目前,鐵路數(shù)據(jù)服務平臺提供2 種方式的數(shù)據(jù)共享:(1)利用鐵路數(shù)據(jù)服務平臺的開放共享模塊,發(fā)布融合結果,數(shù)據(jù)使用者申請通過審批后可獲取數(shù)據(jù);(2)利用鐵路數(shù)據(jù)服務平臺的可視化模塊,將數(shù)據(jù)融合的結果直接生成可視化圖表進行展示。
不同層次的數(shù)據(jù)融合產(chǎn)生的數(shù)據(jù)量不同:數(shù)據(jù)級融合,產(chǎn)生的數(shù)據(jù)量較大、數(shù)據(jù)屬性豐富,可以用于通過數(shù)據(jù)開放共享模塊進行數(shù)據(jù)共享;特征級融合的特征結果數(shù)據(jù)量相對適中,既可以利用數(shù)據(jù)開放共享模塊共享數(shù)據(jù)結果,又可按不同特征維度生成可視化圖表進行展示;決策級融合,產(chǎn)生的數(shù)據(jù)量較小,但其計算結果可為運輸生產(chǎn)提供決策參考,適于以可視化方式制作領導駕駛艙,為分析、決策、指揮提供支持。融合結果的共享形式由使用者的需求決定,鐵路數(shù)據(jù)服務平臺本身具備兼容性和可擴展性,能夠在未來支撐更多的數(shù)據(jù)共享方式,提供更合理更有價值的數(shù)據(jù)融合成果。
為了解決數(shù)據(jù)融合面臨的問題,提升數(shù)據(jù)融合效率,提出基于鐵路數(shù)據(jù)服務平臺的數(shù)據(jù)融合架構,對數(shù)據(jù)融合過程中所涉及的數(shù)據(jù)匯集、融合處理和數(shù)據(jù)共享展開研究。重點研究數(shù)據(jù)融合處理過程,基于鐵路數(shù)據(jù)服務平臺功能,對數(shù)據(jù)預處理,融合層次及相關數(shù)據(jù)融合算法進行研究,對實現(xiàn)鐵路數(shù)據(jù)跨系統(tǒng)、跨專業(yè)的大數(shù)據(jù)融合,具有一定的參考價值。
隨著鐵路數(shù)據(jù)匯集范圍的逐步擴大,集中存儲的數(shù)據(jù)資源將越來越豐富,在數(shù)據(jù)融合方面,將結合鐵路業(yè)務場景開展具體的深入研究。