基于鐵路數(shù)據(jù)服務平臺的多源數(shù)據(jù)融合架構研究

2021-05-10 13:39馬小寧孫思齊王沛然

鐵路計算機應用 2021年4期

鄒丹，王喆，馬小寧，孫思齊，王沛然

（中國鐵道科學研究院集團有限公司鐵路大數(shù)據(jù)研究與應用創(chuàng)新中心，北京 100081）

數(shù)據(jù)融合是大數(shù)據(jù)領域一個重要的研究方向，指集成多個數(shù)據(jù)源以產(chǎn)生比單一數(shù)據(jù)源更有價值的信息的過程。數(shù)據(jù)融合最早產(chǎn)生于軍事領域，后來廣泛應用于多影像復合、無人駕駛、圖像分析與理解、目標檢測與識別等領域[1]。目前，鐵路行業(yè)在跨系統(tǒng)多源數(shù)據(jù)融合方面的研究相對較少，在多源數(shù)據(jù)融合的過程中，面臨著數(shù)據(jù)不準確、不一致、不完整、數(shù)據(jù)要素分散等問題[2]，為解決這些問題和提高數(shù)據(jù)融合效率[3]，需要構建統(tǒng)一的多源數(shù)據(jù)融合架構。

本文基于鐵路數(shù)據(jù)服務平臺（簡稱：平臺），提出鐵路多源數(shù)據(jù)融合架構，以數(shù)據(jù)流為主線，將鐵路數(shù)據(jù)融合的主要工作環(huán)節(jié)與平臺功能建立對應關系，構建鐵路數(shù)據(jù)融合模型，為實施跨專業(yè)、跨系統(tǒng)的數(shù)據(jù)融合提供參考。

1 鐵路數(shù)據(jù)服務平臺簡介

鐵路數(shù)據(jù)服務平臺是鐵路行業(yè)自主研發(fā)的一站式鐵路大數(shù)據(jù)解決方案。該平臺是鐵路數(shù)據(jù)集中管理、大數(shù)據(jù)分析的公共基礎設施，面向鐵路數(shù)據(jù)的采集、存儲、處理、分析和共享，采用分布式架構構建。平臺可實現(xiàn)海量結構化與非結構化數(shù)據(jù)接入、PB 級數(shù)據(jù)離線分析、TB 級數(shù)據(jù)實時分析、數(shù)據(jù)多維分析、自助分析、數(shù)據(jù)可視化等功能。此外，建立了數(shù)據(jù)資產(chǎn)管理制度和標準化管理流程，規(guī)范常態(tài)化數(shù)據(jù)資產(chǎn)管理活動，保證數(shù)據(jù)獲取和使用的一致性、準確性和安全性。

鐵路數(shù)據(jù)服務平臺主要功能包括：

（1）多源異構數(shù)據(jù)匯集：匯集數(shù)據(jù)的類型分為結構化、半結構化、非結構化數(shù)據(jù)，采集方式包括實時采集與離線采集；

（2）大數(shù)據(jù)管理：運用主數(shù)據(jù)、地理信息、元數(shù)據(jù)管理方法，構建企業(yè)級數(shù)據(jù)資產(chǎn)目錄；采用大數(shù)據(jù)存儲與清洗技術，合理安排數(shù)據(jù)存儲，保證高質量數(shù)據(jù)；

（3）大數(shù)據(jù)分析：采用批處理、流計算、內存計算等分布式計算方法，構建大數(shù)據(jù)平臺在線數(shù)據(jù)分析計算環(huán)境；

（4）大數(shù)據(jù)共享：實現(xiàn)大數(shù)據(jù)交換共享、數(shù)據(jù)申請審批和接口調用權限管理和接口自動配置，支持細粒度的數(shù)據(jù)共享管理。

2 多源數(shù)據(jù)融合架構

鐵路多源數(shù)據(jù)融合涉及3 項主要任務：（1）對鐵路數(shù)據(jù)進行集中匯集；（2）根據(jù)數(shù)據(jù)融合的目的與要求進行數(shù)據(jù)梳理和預處理，選擇合適的層次完成數(shù)據(jù)融合；（3）將數(shù)據(jù)融合的結果進行共享。

為了使這些任務能夠在鐵路數(shù)據(jù)服務平臺上落地實施，將鐵路數(shù)據(jù)融合架構劃分為上下2 層，如圖1 所示。

圖1 鐵路數(shù)據(jù)融合架構

上層為概念模型層，以數(shù)據(jù)在平臺中的流轉為主線，包括數(shù)據(jù)匯集、融合處理和數(shù)據(jù)共享。下層為平臺功能層，數(shù)據(jù)匯集對應鐵路數(shù)據(jù)服務平臺的功能模塊為數(shù)據(jù)登記、數(shù)據(jù)匯集；融合處理對應平臺功能模塊為數(shù)據(jù)清洗、數(shù)據(jù)管理、數(shù)據(jù)分析等；數(shù)據(jù)共享對應平臺的數(shù)據(jù)開放共享、數(shù)據(jù)可視化等功能模塊。

2.1 數(shù)據(jù)匯集

數(shù)據(jù)匯集是數(shù)據(jù)融合的基礎，為實現(xiàn)跨行業(yè)、跨系統(tǒng)的數(shù)據(jù)融合，首先需要將不同業(yè)務線、不同系統(tǒng)、不同類型的數(shù)據(jù)采集并集中到鐵路數(shù)據(jù)服務平臺中。

由于多源數(shù)據(jù)存在數(shù)據(jù)庫類型多樣、網(wǎng)絡環(huán)境復雜、數(shù)據(jù)歸屬權分散等問題[4]，需要對現(xiàn)有系統(tǒng)進行詳細的數(shù)據(jù)源調查，調查內容主要包括：系統(tǒng)名稱，部署層級，業(yè)務主管部門，系統(tǒng)研發(fā)及運維單位，部署網(wǎng)絡，數(shù)據(jù)類型，數(shù)據(jù)產(chǎn)生周期及數(shù)據(jù)量，詳細的數(shù)據(jù)表結構說明等。

根據(jù)數(shù)據(jù)源調查結果，與各業(yè)務系統(tǒng)的開發(fā)單位進行深入對接，制定詳細接口方案。接口方案需要考慮接口類型、數(shù)據(jù)量、數(shù)據(jù)實時性、數(shù)據(jù)傳輸效率、數(shù)據(jù)傳輸安全性、硬件及網(wǎng)絡環(huán)境等，制定數(shù)據(jù)匯集策略和實施計劃；接口應具有較好的通用性及可擴展性。

2.2 融合處理

融合處理是整個數(shù)據(jù)融合架構中最重要的部分，主要解決多源數(shù)據(jù)不準確、不完全、不一致等問題，按照融合數(shù)據(jù)的具體需求，采用不同的融合層次及方法，并存儲數(shù)據(jù)的過程。

2.2.1 數(shù)據(jù)預處理

匯集后的數(shù)據(jù)一般不能直接融合，需要先進行數(shù)據(jù)預處理，數(shù)據(jù)預處理主要分為以下幾類：

（1）數(shù)據(jù)管理：數(shù)據(jù)管理是對數(shù)據(jù)進行描述和組織的過程，主要通過鐵路數(shù)據(jù)服務平臺的元數(shù)據(jù)管理和數(shù)據(jù)分類功能模塊實現(xiàn)。元數(shù)據(jù)管理記錄數(shù)據(jù)結構和對數(shù)據(jù)變換處理的過程，實現(xiàn)數(shù)據(jù)的血緣分析及影響度分析；數(shù)據(jù)分類通過構建鐵路數(shù)據(jù)分類和標簽體系，實現(xiàn)鐵路數(shù)據(jù)的多維度組織和管理；

（2）數(shù)據(jù)標準化：通過構建數(shù)據(jù)元標準，開展數(shù)據(jù)質量管理，達到統(tǒng)一量綱、消除數(shù)據(jù)差異、建立數(shù)據(jù)關聯(lián)等目的；數(shù)據(jù)標準化包括數(shù)據(jù)元標準化、數(shù)據(jù)質量標準化、數(shù)據(jù)管理流程標準化等；

（3）數(shù)據(jù)清洗：主要包括數(shù)據(jù)去噪、數(shù)據(jù)填充等，清除垃圾數(shù)據(jù)，解決數(shù)據(jù)沖突，提高數(shù)據(jù)質量，以保證數(shù)據(jù)分析的準確性，取得預期的大數(shù)據(jù)綜合應用的成果。

2.2.2 鐵路數(shù)據(jù)融合層次

結合鐵路業(yè)務特點以及基于鐵路數(shù)據(jù)服務平臺已開展的數(shù)據(jù)處理工作，將數(shù)據(jù)融合分為3 個層次，如圖2 所示。

圖2 數(shù)據(jù)融合層次

（1）數(shù)據(jù)級融合

數(shù)據(jù)級融合的輸入項是來自多個業(yè)務系統(tǒng)的原始數(shù)據(jù)，通過分析數(shù)據(jù)表間的關聯(lián)關系，將關聯(lián)度較高的數(shù)據(jù)進行關聯(lián)，形成新的數(shù)據(jù)集，并不斷迭代這個過程。數(shù)據(jù)級融合結果可作為“特征級融合”的輸入項。

數(shù)據(jù)級融合屬于低層級融合，其特點是數(shù)據(jù)處理量大，處理時間長，實時性較差，但融合過程比較簡單，處理難度較小[5]。

（2）特征級融合

特征級融合是對信息進行特征提取，并對提取后的特征進行融合。特征級融合的輸入可以是數(shù)據(jù)級融合的結果，也可以是原始數(shù)據(jù)集。在特征提取方面，鐵路數(shù)據(jù)服務平臺的人工智能模塊可對文本、圖像等非結構化數(shù)據(jù)進特征提取。這些特征項可作為結構化數(shù)據(jù)與其他結構化數(shù)據(jù)進行特征項融合，融合結果可作為“決策級融合”的輸入項。

特征層融合數(shù)據(jù)處理量適中，利于實時處理，處理難度適中。特征級融合可用來對數(shù)據(jù)降維，降低分析及數(shù)據(jù)處理難度，提取的特征可作為“決策級融合”的輸入項。

（3）決策級融合

決策級融合是對特征數(shù)據(jù)、結論數(shù)據(jù)進行融合判定，獲得聯(lián)合推斷結果。決策級融合需要借助特征級融合的結果，一般不用來直接處理原始數(shù)據(jù)。決策層融合的優(yōu)點是具有較好的容錯性，所需的信息量小，數(shù)據(jù)通信量低，但融合難度大，對融合算法要求較高[6]。

決策層融合一般用于決策支持，需要按照明確的決策目標進行算法的構建和迭代優(yōu)化，部分決策結果還需要結合專家經(jīng)驗進行綜合評定后，才能得到所需的決策和評估結果。

2.2.3 融合算法對比分析

表1 列出了幾種常用的數(shù)據(jù)融合算法，對其特點和適用性進行對比。這些數(shù)據(jù)融合算法存在互補性，在實際處理過程中，會使用其中一種或多種算法，或基于這些算法構建新的算法模型[7]。

表1 常用數(shù)據(jù)融合算法比較

2.2.4 數(shù)據(jù)存儲

鐵路數(shù)據(jù)服務平臺根據(jù)數(shù)據(jù)的不同特點提供多種數(shù)據(jù)存儲組件。對于有實時共享需求或應用查詢需求的熱數(shù)據(jù)、溫數(shù)據(jù)，主要存放在數(shù)據(jù)倉庫或HBase 中；對于歷史全量冷數(shù)據(jù)，主要存放在Hive中用于離線分析。對于非結構化數(shù)據(jù)的存儲，提供HDFS 文件系統(tǒng)和對象存儲組件，滿足不同數(shù)據(jù)量的數(shù)據(jù)文件存儲需求；對于零碎的中小文件，將這些數(shù)據(jù)存放在對象存儲組件中，而數(shù)據(jù)量較多的大文件，則會將數(shù)據(jù)存放在HDFS 文件系統(tǒng)中。

2.3 數(shù)據(jù)共享

數(shù)據(jù)共享是將數(shù)據(jù)融合處理后生成的數(shù)據(jù)或結論以服務的形式進行提供。目前，鐵路數(shù)據(jù)服務平臺提供2 種方式的數(shù)據(jù)共享：（1）利用鐵路數(shù)據(jù)服務平臺的開放共享模塊，發(fā)布融合結果，數(shù)據(jù)使用者申請通過審批后可獲取數(shù)據(jù)；（2）利用鐵路數(shù)據(jù)服務平臺的可視化模塊，將數(shù)據(jù)融合的結果直接生成可視化圖表進行展示。

不同層次的數(shù)據(jù)融合產(chǎn)生的數(shù)據(jù)量不同：數(shù)據(jù)級融合，產(chǎn)生的數(shù)據(jù)量較大、數(shù)據(jù)屬性豐富，可以用于通過數(shù)據(jù)開放共享模塊進行數(shù)據(jù)共享；特征級融合的特征結果數(shù)據(jù)量相對適中，既可以利用數(shù)據(jù)開放共享模塊共享數(shù)據(jù)結果，又可按不同特征維度生成可視化圖表進行展示；決策級融合，產(chǎn)生的數(shù)據(jù)量較小，但其計算結果可為運輸生產(chǎn)提供決策參考，適于以可視化方式制作領導駕駛艙，為分析、決策、指揮提供支持。融合結果的共享形式由使用者的需求決定，鐵路數(shù)據(jù)服務平臺本身具備兼容性和可擴展性，能夠在未來支撐更多的數(shù)據(jù)共享方式，提供更合理更有價值的數(shù)據(jù)融合成果。

3 結束語

為了解決數(shù)據(jù)融合面臨的問題，提升數(shù)據(jù)融合效率，提出基于鐵路數(shù)據(jù)服務平臺的數(shù)據(jù)融合架構，對數(shù)據(jù)融合過程中所涉及的數(shù)據(jù)匯集、融合處理和數(shù)據(jù)共享展開研究。重點研究數(shù)據(jù)融合處理過程，基于鐵路數(shù)據(jù)服務平臺功能，對數(shù)據(jù)預處理，融合層次及相關數(shù)據(jù)融合算法進行研究，對實現(xiàn)鐵路數(shù)據(jù)跨系統(tǒng)、跨專業(yè)的大數(shù)據(jù)融合，具有一定的參考價值。

隨著鐵路數(shù)據(jù)匯集范圍的逐步擴大，集中存儲的數(shù)據(jù)資源將越來越豐富，在數(shù)據(jù)融合方面，將結合鐵路業(yè)務場景開展具體的深入研究。