文:葉鸝君丨重慶市鐵路(集團)有限公司系統(tǒng)設(shè)備部項目主管
元數(shù)據(jù)作為數(shù)據(jù)治理中的基石以及信息化發(fā)展中的必要條件,已經(jīng)廣泛的應(yīng)用在各個領(lǐng)域的信息化建設(shè)與數(shù)據(jù)治理發(fā)展中。中國城市軌道交通發(fā)展中的信息化建設(shè)與海量軌道交通的數(shù)據(jù)治理也已經(jīng)被提上了日程,將元數(shù)據(jù)概念引入軌道交通行業(yè)是智慧城軌發(fā)展的必經(jīng)之路。本文對于城軌現(xiàn)狀與問題進行了簡要概述,并將元數(shù)據(jù)的概念以及元數(shù)據(jù)對于城軌行業(yè)的綜合應(yīng)用進行了簡要闡述。
2020年3月12日,中國城市軌道交通協(xié)會發(fā)布了《中國城市軌道交通智慧城軌發(fā)展綱要》,綱要中的總體布局中明確提出以面向中國城市軌道交通行業(yè),以強國建設(shè)為戰(zhàn)略導(dǎo)向,以推進城軌信息化、發(fā)展智能系統(tǒng)、建設(shè)智慧城軌為主題,以城軌交通的關(guān)鍵核心業(yè)務(wù)為主線,以數(shù)字化、智能化、網(wǎng)絡(luò)化為手段,構(gòu)建高度集成的城軌云與大數(shù)據(jù)平臺,建立系統(tǒng)完備的技術(shù)標準體系,堅持智能化和自主化“兩手抓”的實施策略,準確把握智慧城軌的發(fā)展方向,統(tǒng)籌鋪畫智慧城軌的發(fā)展藍圖。而利用最新科技成果,推進城軌信息化,發(fā)展智能系統(tǒng),建設(shè)智慧城軌,大力開創(chuàng)自主創(chuàng)新發(fā)展新局面,正可成為實現(xiàn)彎道超車的重要平臺。
目前,我國城軌交通企業(yè)運營管理信息化建設(shè)主要存在以下的問題:建設(shè)數(shù)據(jù)標準不統(tǒng)一;運營管理信息化建設(shè)不完整,可擴展性較低;運營管理信息化建設(shè)安全機制缺失。對于以上問題,建議采取引入元數(shù)據(jù)的概念予以解決。
元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(data about data),主要是描述數(shù)據(jù)屬性(property)的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)算是一種電子式目錄,為了達到編制目錄的目的,必須在描述并收藏數(shù)據(jù)的內(nèi)容或特色,進而達成協(xié)助數(shù)據(jù)檢索的目的。元數(shù)據(jù)可以為數(shù)據(jù)說明其元素或?qū)傩裕Q、大小、數(shù)據(jù)類型等),或結(jié)構(gòu)(長度、字段、數(shù)據(jù)列),或其相關(guān)數(shù)據(jù)(位于何處、如何聯(lián)系、擁有者)。
隨著軌道交通行業(yè)的發(fā)展,企業(yè)每年收集和使用的數(shù)據(jù)與日俱增,而對于不同企業(yè)的大數(shù)據(jù)環(huán)境不同,數(shù)據(jù)的形態(tài)、分類、標準等并不統(tǒng)一,所以在這些類型不同的軌道交通數(shù)據(jù)之間進行采集、傳遞、共享就成了較大問題,首先需要對企業(yè)所有元數(shù)據(jù)進行整體規(guī)劃、抽象描述,進而設(shè)計出所需元模型(圖1);再對企業(yè)這些數(shù)據(jù)有一個標準的管控,即元數(shù)據(jù)管理。
圖1 元模型關(guān)系圖
元模型由元數(shù)據(jù)組成,元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),而元數(shù)據(jù)的集合被稱作為模型。元模型與元數(shù)據(jù)的關(guān)系參考圖書館中找書的例子,通過對書的元數(shù)據(jù)信息檢索定位,從而找到了想要的那本書,而圖書館中的這些元數(shù)據(jù)信息的組合即元模型。圖書館中的管理員通過對于書的元數(shù)據(jù)信息的格式化采集(圖2), 收集書的相關(guān)元數(shù)據(jù)信息(書名,作者,書的分類等),為后續(xù)的檢索做準備。而有了元模型,就能根據(jù)元模型采集元數(shù)據(jù)信息。
圖2 元數(shù)據(jù)信息格式化采集示例
在元數(shù)據(jù)管理中,元數(shù)據(jù)又按照功能及用處對元數(shù)據(jù)有一個進一步的劃分。具體分為以下幾種分類:
1.業(yè)務(wù)元數(shù)據(jù)。主要包括業(yè)務(wù)術(shù)語、信息分類、指標定義、業(yè)務(wù)規(guī)則等;
2.技術(shù)元數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理細節(jié)方面的技術(shù)化描述,主要包括源系統(tǒng)接口規(guī)范、數(shù)據(jù)倉庫結(jié)構(gòu)的描述(接口信息、表信息、程序信息等)以及經(jīng)營分析數(shù)據(jù)處理過程的描述等。
3.管理元數(shù)據(jù)。主要包括人員角色、崗位職責(zé)、管理流程等信息。
4.安全元數(shù)據(jù)。主要包括訪問安全、權(quán)限控制、分級管理、隱私控制、流程約束等信息。
5.稽核元數(shù)據(jù)。主要包括數(shù)據(jù)完整性和一致性檢查、數(shù)據(jù)采集日志追蹤、稽核規(guī)則、稽核流程、預(yù)警通知規(guī)則(數(shù)據(jù)質(zhì)量)等信息。
支撐業(yè)務(wù)發(fā)展。方便業(yè)務(wù)人員能夠更快速地理解公司內(nèi)部或外部業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù),包括業(yè)務(wù)流程、業(yè)務(wù)系統(tǒng)、數(shù)據(jù)分類、從屬關(guān)系等方面,從而快速精準查找到對應(yīng)的業(yè)務(wù)需求,大幅提高業(yè)務(wù)人員熟悉業(yè)務(wù)的速度,更快的提高業(yè)務(wù)人員的業(yè)務(wù)開發(fā)效率。
降低數(shù)據(jù)系統(tǒng)建設(shè)成本。元數(shù)據(jù)管理是企業(yè)數(shù)據(jù)治理的基礎(chǔ),有了元數(shù)據(jù)管理平臺作為基礎(chǔ),使得系統(tǒng)的數(shù)據(jù)質(zhì)量與數(shù)據(jù)安全有了保障,從而在建設(shè)數(shù)據(jù)治理系統(tǒng)時提高效率與減少返工,使得開發(fā)成本大幅降低。
在元數(shù)據(jù)實施的不同階段,需要涉及以下工作:
1.定義范圍。分析當(dāng)前元數(shù)據(jù)管理現(xiàn)狀制定元數(shù)據(jù)管理藍圖,總體目標包括標準化元數(shù)據(jù)及數(shù)據(jù)處理過程;集中式元數(shù)據(jù)管理;消除冗余、重復(fù)元數(shù)據(jù)信息,提高數(shù)據(jù)完整性、精確性;靈活健壯元數(shù)據(jù)管理架構(gòu);降低BI系統(tǒng)在開發(fā)、升級、維護等方面的投入。制定配套元數(shù)據(jù)管理體系,包括管理辦法、流程和技術(shù)標準;建立元數(shù)據(jù)管理團隊:包括管理員、協(xié)調(diào)者、信息分析員以及DBAs等。
2.明確需求。定義元數(shù)據(jù)管理范圍,如數(shù)據(jù)模型,ETL過程,數(shù)據(jù)字典,業(yè)務(wù)術(shù)語字典,現(xiàn)有元數(shù)據(jù)環(huán)境和系統(tǒng)文檔;明確元數(shù)據(jù)需求,如所需遵循業(yè)界標準、元模型需求、元數(shù)據(jù)接口需求、元數(shù)據(jù)系統(tǒng)需求、元數(shù)據(jù)報表需求、安全需求、變更管理需求、培訓(xùn)需求等方面。
3.設(shè)計方案。設(shè)計并歸檔元數(shù)據(jù)管理解決方案的所有重要特征和功能,如元數(shù)據(jù)標準化設(shè)計、內(nèi)部接口機制設(shè)計、外部接口機制設(shè)計、協(xié)同工作機制設(shè)計、元數(shù)據(jù)同步機制設(shè)計等。
4.開發(fā)工具。依據(jù)元數(shù)據(jù)需求及設(shè)計要求開發(fā)元數(shù)據(jù)管理平臺。整體功能涵蓋包括:
(1)采集管理:采集適配器列表,元模型管理,基礎(chǔ)元模型列表,數(shù)據(jù)源管理,采集任務(wù)配置,元數(shù)據(jù)入庫審核,采集日志;
(2)變更管理:元數(shù)據(jù)變更訂閱,查詢,申請,審批;
(3)元數(shù)據(jù)瀏覽分析:數(shù)據(jù)地圖,血緣分析,影響分析,全鏈分析,關(guān)聯(lián)度分析,屬性差異分析,元數(shù)據(jù)列表瀏覽,元數(shù)據(jù)檢索;
(4)核檢機制:環(huán)境一致性核檢,元數(shù)據(jù)導(dǎo)出,元數(shù)據(jù)版本維護,元數(shù)據(jù)標準覆蓋核檢。
目前,我國城軌交通行業(yè)已有企業(yè)對元數(shù)據(jù)在軌道交通的應(yīng)用作了示范,如呼和浩特城軌云示范工程,建立自主可控的城軌云平臺;在城軌云平臺構(gòu)建數(shù)據(jù)共享平臺,突破數(shù)據(jù)共享的壁壘,為大數(shù)據(jù)應(yīng)用奠定基礎(chǔ);擴大智能創(chuàng)新應(yīng)用建設(shè),推進大數(shù)據(jù)在業(yè)務(wù)領(lǐng)域的深化應(yīng)用;建成網(wǎng)絡(luò)安全縱深防護體系;建成適應(yīng)云平臺體系架構(gòu)的運行維護體系和運行管理機制。此外,武漢也建立了城市軌道交通網(wǎng)絡(luò)信息化建設(shè)示范工程,該示范工程采用基于云平臺、大數(shù)據(jù)的新IT架構(gòu),構(gòu)建異地雙活的數(shù)據(jù)中心,實施新建線路和既有線的信息系統(tǒng)全部納入和遷移到云平臺的技術(shù)方案,實現(xiàn)云平臺對城軌業(yè)務(wù)的綜合承載和數(shù)據(jù)共享,為智慧城軌建設(shè)提供信息技術(shù)支撐。其元數(shù)據(jù)的綜合應(yīng)用如下:
通過元數(shù)據(jù)可以對企業(yè)數(shù)據(jù)進行完整的梳理、采集和整合,從而形成企業(yè)完整的數(shù)據(jù)資產(chǎn)地圖。數(shù)據(jù)資產(chǎn)地圖支持以拓撲圖的形式進行可視化展示各類元數(shù)據(jù)和數(shù)據(jù)處理過程,通過不同層次的圖形展現(xiàn)粒度控制,滿足業(yè)務(wù)上不同應(yīng)用場景的數(shù)據(jù)查詢和輔助分析需要。
企業(yè)級的業(yè)務(wù)主題元數(shù)據(jù)地圖和數(shù)據(jù)系統(tǒng)的數(shù)據(jù)地圖用于宏觀層面,組織信息,力求以用戶視角對企業(yè)信息進行歸并、整理,展現(xiàn)企業(yè)的宏觀信息,還可以下鉆展示詳細的元數(shù)據(jù)詳情,便于數(shù)據(jù)分析人員有效挖掘企業(yè)信息的潛在價值。
元數(shù)據(jù)地圖作為引導(dǎo)入口,通過元數(shù)據(jù)檢索、元數(shù)據(jù)目錄和元數(shù)據(jù)收藏多種方式去輔助數(shù)據(jù)分析人員檢索,最終檢索的結(jié)果都是通過關(guān)系圖譜的方式進行展示,可在圖譜上靈活擴展關(guān)系節(jié)點。通過業(yè)務(wù)元數(shù)據(jù)構(gòu)建的數(shù)據(jù)目錄,方便用戶準確定位具體系統(tǒng),并查看具體元數(shù)據(jù)業(yè)務(wù)關(guān)聯(lián)關(guān)系和血緣關(guān)系,使得數(shù)據(jù)治理出來的結(jié)果初步得到資產(chǎn)化使用,降低“找數(shù)據(jù)”的溝通成本,來加速數(shù)據(jù)的資產(chǎn)化,提高數(shù)據(jù)治理結(jié)果易用性,為數(shù)據(jù)的使用和大數(shù)據(jù)挖掘提供支撐。
圖3 全鏈分析的數(shù)據(jù)鏈路展示
針對于尋找數(shù)據(jù)從哪里來,其價值在于當(dāng)發(fā)現(xiàn)數(shù)據(jù)問題時可以通過數(shù)據(jù)的血緣關(guān)系,追根溯源,快速地定位到問題數(shù)據(jù)的來源和加工過程,減少數(shù)據(jù)問題排查分析的時間和難度。這個功能常用于數(shù)據(jù)分析發(fā)現(xiàn)數(shù)據(jù)問題時,快速定位和找到數(shù)據(jù)問題的原因。
針對于數(shù)據(jù)去向哪里,其價值在于當(dāng)發(fā)現(xiàn)數(shù)據(jù)問題時可以通過數(shù)據(jù)的關(guān)聯(lián)關(guān)系,向下追蹤,快速找到都哪些應(yīng)用或數(shù)據(jù)庫使用了這個數(shù)據(jù),從而避免或降低數(shù)據(jù)問題帶來的更大的影響。這個功能常用于數(shù)據(jù)源的元數(shù)據(jù)變更對下游ETL、ODS、DW等應(yīng)用應(yīng)用的影響分析。我們通過對于腳本的解析以及各平臺對于數(shù)據(jù)鏈路流轉(zhuǎn)關(guān)系的記載分析獲取到對于血緣元數(shù)據(jù)的關(guān)系,從而依據(jù)于血緣元數(shù)據(jù)的當(dāng)前結(jié)點,子節(jié)點的關(guān)系來構(gòu)建血緣分析圖譜。
針對于數(shù)據(jù)的全鏈路關(guān)系查看,從數(shù)據(jù)的產(chǎn)生,到最終流轉(zhuǎn)的地方,數(shù)據(jù)的全鏈路分析??梢院暧^的查看數(shù)據(jù)的整體流轉(zhuǎn)情況,幫助業(yè)務(wù)分析人員快速查看數(shù)據(jù)鏈路整體架構(gòu)。具體的業(yè)務(wù)流程數(shù)據(jù)鏈路如圖3所示:
分析數(shù)據(jù)和其他數(shù)據(jù)的關(guān)系以及它們的關(guān)系是怎樣建立的關(guān)聯(lián)度分析是從某一實體關(guān)聯(lián)的其它實體和其參與的處理過程兩個角度來查看具體數(shù)據(jù)的使用情況,形成一張實體和所參與處理過程的網(wǎng)絡(luò),從而進一步了解該實體的重要程度。
如果我們對一個超大城市軌道交通的客流與行車業(yè)務(wù)分析為例,元數(shù)據(jù)管理平臺通過對于客流表元數(shù)據(jù)數(shù)據(jù)與行車表原始數(shù)據(jù)的元數(shù)據(jù)信息的采集,獲取到了客流與行車業(yè)務(wù)的相關(guān)表信息與業(yè)務(wù)邏輯?;谶@些元數(shù)據(jù),我們按照數(shù)據(jù)倉庫的設(shè)計理念分成了4層:
ODS(原始數(shù)據(jù)層):主要采集的是客流表原始數(shù)據(jù)與列車表原始數(shù)據(jù),包括帶時間和OD信息的乘客信息,列車實際運行圖等信息。這些數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù),不對外開放;存放在接口數(shù)據(jù)的臨時存儲區(qū)域,為后一步的數(shù)據(jù)處理做準備。
DW(數(shù)據(jù)明細層):主要用于生成客流明細表數(shù)據(jù)與行車明細表數(shù)據(jù),是業(yè)務(wù)層與數(shù)據(jù)倉庫的隔離層,此層的數(shù)據(jù)是對源系統(tǒng)數(shù)據(jù)進行了清洗、轉(zhuǎn)換等操作后的數(shù)據(jù)。同時,為了提高數(shù)據(jù)明細層的易用性,該層數(shù)據(jù)還會采用一些處理方式,減少事實表和維表的關(guān)聯(lián),做部分數(shù)據(jù)聚合,提高數(shù)據(jù)的可用性。
OTM(數(shù)據(jù)對象層):主要用于生成對象的數(shù)據(jù),例如車站對象、線路對象、站臺對象、換乘通道對象、斷面對象、列車對象、站外對象等,用于提供后續(xù)的業(yè)務(wù)查詢,OLAP分析,數(shù)據(jù)分發(fā)等。一般來講,該層的數(shù)據(jù)表會相對比較少,一張表會涵蓋比較多的業(yè)務(wù)內(nèi)容。
ADS(數(shù)據(jù)應(yīng)用層):主要用于生成各個指標數(shù)據(jù),如車站進站量、車站出站量、進出站不平衡、符合最高的車站top、單站晚高峰客流、各線路晚高峰客流分布、斷面客流量等,這些指標主要用于后續(xù)的上層決策支撐與優(yōu)化開發(fā)分析等。是同業(yè)務(wù)強相關(guān)的定制化報表層。
具體業(yè)務(wù)分層情況如圖4所示:
圖4 客流與行車業(yè)務(wù)數(shù)倉分層圖
目前,城市軌道交通已成為大中型城市的動脈、城市發(fā)展的引領(lǐng)、城市公共交通的主導(dǎo)。隨著行業(yè)的迅猛發(fā)展,以及運營線路數(shù)量的快速增加,其運營的經(jīng)濟壓力也在不斷增大,智能化及可持續(xù)發(fā)展已成為城市軌道交通發(fā)展的必然趨勢。本文從城市軌道交通智能化及信息化出發(fā),對其未來發(fā)展進行了展望。城市軌道交通企業(yè)應(yīng)對行業(yè)所處的宏觀環(huán)境分析和謀劃,進而建立起具有自身特點的智慧城軌的優(yōu)勢,通過元數(shù)據(jù)引入與數(shù)據(jù)治理,為實現(xiàn)我國城市軌道交通的智能化及信息化貢獻力量。