宋大治,張 浩,徐鐘全,劉光杰
(1.南京地鐵建設(shè)有限責(zé)任公司,南京 210017;2.北京全路通信信號研究設(shè)計(jì)院集團(tuán)有限公司,北京 100070;3.南京信息工程大學(xué)電子與信息工程學(xué)院,南京 210044)
近些年來,各大城市軌道交通基本已實(shí)現(xiàn)網(wǎng)絡(luò)化和信息化,軌道交通涉及多種服務(wù),包括日常運(yùn)營、生產(chǎn)、管理等,這些服務(wù)的擴(kuò)增帶來了海量的數(shù)據(jù)積累。然而數(shù)據(jù)形式多種多樣,數(shù)據(jù)結(jié)構(gòu)錯(cuò)綜復(fù)雜,如何利用統(tǒng)一的管理中心實(shí)現(xiàn)數(shù)據(jù)治理,從海量數(shù)據(jù)中挖掘有價(jià)值的指標(biāo)數(shù)據(jù),進(jìn)而指揮生產(chǎn)運(yùn)營,是當(dāng)前城市軌道交通研究的一個(gè)重點(diǎn)和難題。以部分大城市為例,軌道交通通常建立傳統(tǒng)的數(shù)據(jù)中心。在數(shù)據(jù)中心中,數(shù)據(jù)按照來源/主題/規(guī)則的形式存儲,這種形式能夠?qū)崿F(xiàn)數(shù)據(jù)資源的采集和存儲。然而隨著數(shù)據(jù)規(guī)模的擴(kuò)大,存儲硬件、軟件程序?yàn)檫m應(yīng)數(shù)據(jù)量的增加應(yīng)同步更新適配和增容。一方面,傳統(tǒng)的數(shù)據(jù)存儲形式難以擴(kuò)展,且擴(kuò)展成本較高;另一方面,數(shù)據(jù)庫存儲形式在業(yè)務(wù)數(shù)據(jù)擴(kuò)增后數(shù)據(jù)查詢效率明顯降低,而且不同類型的數(shù)據(jù)難以關(guān)聯(lián)分析。
傳統(tǒng)數(shù)據(jù)存儲和計(jì)算形式難以適應(yīng)海量數(shù)據(jù),大數(shù)據(jù)技術(shù)和云計(jì)算的發(fā)展帶來了海量數(shù)據(jù)存儲和計(jì)算方式的革新[1-4]。文獻(xiàn)[5-6]總結(jié)了當(dāng)前基于大數(shù)據(jù)Hadoop技術(shù)的應(yīng)用及創(chuàng)新。池亞平[7]等設(shè)計(jì)了一種基于大數(shù)據(jù)Hadoop平臺的海量數(shù)據(jù)資源存儲和計(jì)算效率的改進(jìn)措施。李敏[8]等提出了一種應(yīng)用于物聯(lián)網(wǎng)領(lǐng)域的大數(shù)據(jù)分析處理的改進(jìn)架構(gòu),該方法主要是基于海量異構(gòu)數(shù)據(jù)的時(shí)間和空間特點(diǎn)改進(jìn)。這些方法是大數(shù)據(jù)分析處理、應(yīng)用實(shí)施、優(yōu)化改進(jìn)的不同嘗試。除了理論研究,一些城市的數(shù)據(jù)中心也逐步應(yīng)用了大數(shù)據(jù)技術(shù),包括基于MPP結(jié)構(gòu)、基于Hadoop大數(shù)據(jù)架構(gòu)、基于虛擬化技術(shù)平臺的形式。這些方法通常規(guī)避了傳統(tǒng)數(shù)據(jù)庫在應(yīng)對海量數(shù)據(jù)時(shí)的不足,重點(diǎn)關(guān)注了架構(gòu)擴(kuò)展時(shí)的成本因素和數(shù)據(jù)處理分析的便捷應(yīng)用。
為解決城市軌道交通中海量數(shù)據(jù)在存儲、計(jì)算、分析時(shí)快速、便捷、實(shí)用的需求,針對當(dāng)前城市軌道交通數(shù)據(jù)形式多樣化、異構(gòu)性、多源性的特點(diǎn),設(shè)計(jì)采用基于MPP和Hadoop的城市軌道交通線網(wǎng)指揮平臺。通過建立大數(shù)據(jù)處理平臺,根據(jù)數(shù)據(jù)流分級分層處理的特點(diǎn),深入挖掘海量數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),形成一套適用于當(dāng)前城市軌道交通海量數(shù)據(jù)的綜合解決方案,從而為業(yè)務(wù)決斷、運(yùn)營管理、生產(chǎn)優(yōu)化提供技術(shù)支撐和數(shù)據(jù)依據(jù)。
城市軌道交通各業(yè)務(wù)系統(tǒng)生產(chǎn)的數(shù)據(jù)還存在很多問題,主要表現(xiàn)在以下幾個(gè)方面。
數(shù)據(jù)關(guān)聯(lián)性差:城市軌道交通各系統(tǒng)各自為政,獨(dú)立建設(shè),數(shù)據(jù)共享不夠,集成較弱。
數(shù)據(jù)結(jié)構(gòu)差異大:數(shù)據(jù)管控力度薄弱,數(shù)據(jù)標(biāo)準(zhǔn)化程度不高,存在數(shù)據(jù)不一致、不準(zhǔn)確問題,數(shù)據(jù)質(zhì)量有待提高。
數(shù)據(jù)處理方式落后:技術(shù)手段薄弱,仍采用傳統(tǒng)的數(shù)據(jù)庫技術(shù)、數(shù)據(jù)處理技術(shù)開展大數(shù)據(jù)的應(yīng)用分析,缺乏專用技術(shù)及工具支撐,數(shù)據(jù)處理的時(shí)效性、可用性不強(qiáng)。
缺少數(shù)據(jù)挖掘方法:對于數(shù)據(jù)的利用還停留在初級階段,深層次的數(shù)據(jù)分析、數(shù)據(jù)挖掘較少;對于數(shù)據(jù)的利用仍以專業(yè)為界限,缺乏跨部門、跨業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)綜合分析。
數(shù)據(jù)共享模式不成熟:為實(shí)現(xiàn)數(shù)據(jù)綜合分析,需采集不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。但不同部門在合作模式不清晰情況下,不愿意提供專業(yè)業(yè)務(wù)數(shù)據(jù),需先解決不同業(yè)務(wù)部門之間合作的“共贏”模式。
各業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)形式不同,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)類型繁多,包括文本、圖像、音頻、表格等。不同類型和形式的數(shù)據(jù)結(jié)構(gòu)需要對應(yīng)的存儲方式和存儲大小。除此之外,數(shù)據(jù)存儲時(shí)間要求也有所區(qū)別,例如關(guān)鍵事件、報(bào)警事件等數(shù)據(jù)保存時(shí)間較長,以便在需要時(shí)隨時(shí)調(diào)出使用;而普通的視頻類文件存儲時(shí)間通常是一個(gè)月左右。數(shù)據(jù)在形式、存儲時(shí)間上的差異性決定了其需要定制化的存儲策略。
除了數(shù)據(jù)形式外,數(shù)據(jù)的來源和采集方式也不盡相同。根據(jù)數(shù)據(jù)采集周期,數(shù)據(jù)可分為實(shí)時(shí)數(shù)據(jù)、近實(shí)時(shí)數(shù)據(jù)、離線數(shù)據(jù)和非固定數(shù)據(jù)。根據(jù)數(shù)據(jù)類型和數(shù)據(jù)傳輸要求,數(shù)據(jù)傳輸接口也有多種形式,包括協(xié)議傳輸、文件傳輸、報(bào)文傳輸、消息隊(duì)列傳輸、Webservice傳輸?shù)取?/p>
通過采用共享數(shù)據(jù)的形式實(shí)現(xiàn)海量異構(gòu)數(shù)據(jù)的統(tǒng)一化管理,不同類型的數(shù)據(jù)通過數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)抽取、數(shù)據(jù)加載等步驟形成規(guī)范化的數(shù)據(jù)形式。業(yè)務(wù)系統(tǒng)通過數(shù)據(jù)訂閱形式實(shí)現(xiàn)數(shù)據(jù)訪問,數(shù)據(jù)共享方式能夠解決業(yè)務(wù)之間存在的數(shù)據(jù)壁壘,避免數(shù)據(jù)孤島現(xiàn)象的出現(xiàn)。海量數(shù)據(jù)的關(guān)聯(lián)有利于從更宏觀、更全面的視角去把握當(dāng)前城市軌道交通運(yùn)營、生產(chǎn)、管理等業(yè)務(wù)中存在的問題,為推進(jìn)線網(wǎng)協(xié)會指揮、實(shí)現(xiàn)智能決策分析提供強(qiáng)有力的技術(shù)保障。
線網(wǎng)指揮平臺(NCC)采集各線路行車數(shù)據(jù)(ATS)、客流數(shù)據(jù)(ACC)、供電、風(fēng)水電等設(shè)備及運(yùn)行數(shù)據(jù)(ISCS)、能耗數(shù)據(jù)(EMS)、圖紙文檔及視頻、外部數(shù)據(jù)(包括氣象信息系統(tǒng)、地理信息系統(tǒng)、互聯(lián)網(wǎng)數(shù)據(jù)、公共服務(wù)部門數(shù)據(jù))等,大量運(yùn)行數(shù)據(jù)日益呈現(xiàn)體量大、類型多、價(jià)值高等特征。數(shù)據(jù)量爆炸式的增長,數(shù)據(jù)分析處理能力落后與數(shù)據(jù)快速增長之間的矛盾將更加突出。隨著數(shù)據(jù)量、數(shù)據(jù)類型的不斷增多,也出現(xiàn)數(shù)據(jù)分析性能瓶頸、缺少數(shù)據(jù)分析挖掘的高級方法、非結(jié)構(gòu)化數(shù)據(jù)尚缺乏有效利用等問題。
線網(wǎng)大數(shù)據(jù)平臺定位為數(shù)據(jù)共享平臺、數(shù)據(jù)分析應(yīng)用平臺、大數(shù)據(jù)應(yīng)用開發(fā)運(yùn)行平臺,從數(shù)據(jù)采集、存儲、預(yù)處理、計(jì)算、分析、可視化等多個(gè)層面為數(shù)據(jù)分析人員、大數(shù)據(jù)應(yīng)用開發(fā)人員提供服務(wù),并為業(yè)務(wù)應(yīng)用開發(fā)和運(yùn)行提供支撐平臺。各異構(gòu)的業(yè)務(wù)源系統(tǒng)數(shù)據(jù)通過數(shù)據(jù)采集與交換平臺進(jìn)行數(shù)據(jù)抽取、清洗和轉(zhuǎn)換后存儲到高性能數(shù)據(jù)存儲平臺。為軌道交通的客流預(yù)測、數(shù)據(jù)挖掘、應(yīng)急指揮、能耗分析預(yù)測、信息發(fā)布等業(yè)務(wù)提供數(shù)據(jù)分析支持。
城市軌道交通線網(wǎng)指揮平臺在架構(gòu)上重點(diǎn)研究適用于海量異構(gòu)數(shù)據(jù)的系統(tǒng)框架、數(shù)據(jù)接入和交互、數(shù)據(jù)組織、數(shù)據(jù)分發(fā)、數(shù)據(jù)流控制、數(shù)據(jù)質(zhì)量管理等。在功能上重點(diǎn)研究對外數(shù)據(jù)服務(wù)接口等數(shù)據(jù)融合及綜合管理服務(wù)、實(shí)時(shí)監(jiān)控系統(tǒng)及應(yīng)用系統(tǒng),其中實(shí)時(shí)監(jiān)控系統(tǒng)的數(shù)據(jù)接口規(guī)范,包括數(shù)據(jù)的傳輸機(jī)制、采用協(xié)議、采集周期、重傳與補(bǔ)傳等。在業(yè)務(wù)上重點(diǎn)研究實(shí)時(shí)和歷史數(shù)據(jù)在MPP數(shù)據(jù)倉庫中如何存儲、數(shù)據(jù)如何組織、如何分發(fā)、數(shù)據(jù)流控制以及數(shù)據(jù)質(zhì)量管理等;在設(shè)計(jì)架構(gòu)上研究Hadoop歷史結(jié)構(gòu)化與非架構(gòu)化數(shù)據(jù)的存儲、檢索、以及MPP數(shù)據(jù)倉庫與Hadoop歷史數(shù)據(jù)平臺的數(shù)據(jù)傳輸和轉(zhuǎn)換。
基于數(shù)據(jù)中心的分析及應(yīng)用服務(wù)由統(tǒng)一的數(shù)據(jù)發(fā)布平臺完成數(shù)據(jù)共享對外發(fā)布,以J2EE體系和面向服務(wù)的架構(gòu)(SOA)為基礎(chǔ)采用中間件技術(shù)、Web服務(wù)及企業(yè)ESB完成松散耦合的服務(wù)集成及數(shù)據(jù)發(fā)布。通過數(shù)據(jù)發(fā)布平臺將數(shù)據(jù)存儲計(jì)算層與應(yīng)用層有機(jī)地結(jié)合在一起。各業(yè)務(wù)應(yīng)用系統(tǒng)與軌道交通NCC數(shù)據(jù)交換中心相連,通過數(shù)據(jù)共享交換中心來實(shí)現(xiàn)數(shù)據(jù)共享和路由。這種連接方式實(shí)現(xiàn)了數(shù)據(jù)的無縫交換和共享訪問,保證各業(yè)務(wù)系統(tǒng)的有效協(xié)同,同時(shí)又能保證各應(yīng)用系統(tǒng)的相互獨(dú)立性和低耦合性,從整體上提高了系統(tǒng)運(yùn)作效率和安全性。
2.2.1 平臺架構(gòu)
基于MPP和Hadoop的城市軌道交通線網(wǎng)指揮平臺是一套綜合的業(yè)務(wù)信息管控平臺,在平臺上實(shí)現(xiàn)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)集中訪問、資源同步更新,在數(shù)據(jù)流上包括數(shù)據(jù)資源收集、數(shù)據(jù)存儲、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)清洗、挖掘分析等步驟?;跇I(yè)務(wù)系統(tǒng)數(shù)據(jù)統(tǒng)一接入和訪問的應(yīng)用需求,設(shè)計(jì)采用基于MPP結(jié)構(gòu)的數(shù)據(jù)倉庫、基于Hadoop的大數(shù)據(jù)存儲模型和常規(guī)關(guān)系型數(shù)據(jù)庫混合應(yīng)用的數(shù)據(jù)管控模式,多種存儲模式共存滿足各業(yè)務(wù)系統(tǒng)數(shù)據(jù)在存儲形式、結(jié)構(gòu)、采集頻率、更新時(shí)間上的特定需求。通過構(gòu)建分層多級的數(shù)據(jù)中心實(shí)現(xiàn)線網(wǎng)指揮平臺基礎(chǔ)數(shù)據(jù)訪問。如圖1所示,線網(wǎng)指揮平臺依據(jù)數(shù)據(jù)流分為5個(gè)層面,分別是數(shù)據(jù)接入層、數(shù)據(jù)持久層、數(shù)據(jù)清洗層、數(shù)據(jù)挖掘?qū)雍蛿?shù)據(jù)應(yīng)用層。
圖1 平臺架構(gòu)Fig.1 Platform architecture
1)數(shù)據(jù)接入層
數(shù)據(jù)接入層負(fù)責(zé)采集從各個(gè)專業(yè)系統(tǒng)的源數(shù)據(jù),包括ISCS、SIG、AFC、PIS以及其他數(shù)據(jù)。ACC與信息化系統(tǒng)數(shù)據(jù)直接由數(shù)據(jù)中心ETL作業(yè)接入近/離線數(shù)據(jù)。數(shù)據(jù)類型主要分為3種:一是近線數(shù)據(jù),滿足查詢和分析處理當(dāng)天30 min之內(nèi)的業(yè)務(wù)類別的數(shù)據(jù);二是離線數(shù)據(jù),在當(dāng)天生產(chǎn)系統(tǒng)結(jié)束后統(tǒng)一采集并處理分析的數(shù)據(jù);三是實(shí)時(shí)數(shù)據(jù),滿足查詢當(dāng)前業(yè)務(wù)狀態(tài)或?qū)?shí)時(shí)業(yè)務(wù)數(shù)據(jù)提供給在線監(jiān)察、應(yīng)用的業(yè)務(wù)類別的數(shù)據(jù)。
2)數(shù)據(jù)持久層
數(shù)據(jù)持久層是NCC數(shù)據(jù)中心數(shù)據(jù)資源的系統(tǒng)管理環(huán)境與核心平臺,其在功能上包括數(shù)據(jù)狀態(tài)監(jiān)控、數(shù)據(jù)監(jiān)控、數(shù)據(jù)維護(hù)等功能組件,并通過對這些組件的綜合管理,實(shí)現(xiàn)NCC數(shù)據(jù)中心所有數(shù)據(jù)處理流程的存儲和監(jiān)控管理。
數(shù)據(jù)持久層通過實(shí)時(shí)數(shù)據(jù)庫將其他專業(yè)數(shù)據(jù)接入到MPP倉庫和Hadoop歷史倉庫中,使用Kafka消息組件做為數(shù)據(jù)傳輸?shù)闹虚g件。MPP數(shù)據(jù)倉庫保留指定周期的貼源層數(shù)據(jù),Hadoop保留全量貼源層數(shù)據(jù),Hadoop存儲數(shù)據(jù)分為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)存儲在HIVE數(shù)據(jù)倉庫中,非結(jié)構(gòu)化數(shù)據(jù)直接存儲在HDFS中,再通過結(jié)構(gòu)化數(shù)據(jù)進(jìn)行調(diào)用查詢功能。Hadoop集群的多節(jié)點(diǎn),保證了數(shù)據(jù)的穩(wěn)定與安全。
3)數(shù)據(jù)清洗層
數(shù)據(jù)清洗層實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一化管理,通過規(guī)范化的訪問接口、通用組件、模型工具等形成數(shù)據(jù)模板庫。通過將業(yè)務(wù)服務(wù)化、數(shù)據(jù)接口統(tǒng)一化、服務(wù)標(biāo)準(zhǔn)化、計(jì)算模型化、數(shù)據(jù)規(guī)范化等組件集成并按照函數(shù)調(diào)用的形式提供訪問接口。數(shù)據(jù)清洗后形成上層系統(tǒng)直接調(diào)用的數(shù)據(jù)資源,數(shù)據(jù)資源根據(jù)業(yè)務(wù)類型被劃分成多層級的數(shù)據(jù)單元,通過對數(shù)據(jù)單元組合關(guān)聯(lián)和建模匯聚形成業(yè)務(wù)單元。
4)數(shù)據(jù)挖掘?qū)?/p>
數(shù)據(jù)挖掘?qū)又饕伺c數(shù)據(jù)管理和統(tǒng)計(jì)分析相關(guān)的業(yè)務(wù)工具,包括指標(biāo)管理、基礎(chǔ)信息管理、統(tǒng)計(jì)分析、OD分析、調(diào)查管理、票制票價(jià)管理、報(bào)表管理、報(bào)告管理、配置管理等。
5)數(shù)據(jù)應(yīng)用層
數(shù)據(jù)應(yīng)用層作為城市軌道交通日常運(yùn)營、決策、管理等方面數(shù)據(jù)應(yīng)用服務(wù)的標(biāo)準(zhǔn)化工具,實(shí)現(xiàn)信息共享,構(gòu)建便捷安全的數(shù)據(jù)資源訪問系統(tǒng)。數(shù)據(jù)應(yīng)用層分為業(yè)務(wù)核心板塊、業(yè)務(wù)高級分析和信息共享服務(wù)3類。其中業(yè)務(wù)核心板塊包括生產(chǎn)調(diào)度類系統(tǒng)、運(yùn)營管理類系統(tǒng)、管理辦公類系統(tǒng)、資源能耗類系統(tǒng)等;業(yè)務(wù)高級分析包括運(yùn)營相關(guān)主題、設(shè)備管理主題、調(diào)度管理主題、監(jiān)控管理主題等;信息共享服務(wù)包括分析視圖組件化服務(wù)、數(shù)據(jù)集成組件化服務(wù)、共享技術(shù)統(tǒng)一化服務(wù)、公用數(shù)據(jù)規(guī)范化服務(wù)等。
2.2.2 數(shù)據(jù)流規(guī)劃
各線路側(cè)實(shí)時(shí)業(yè)務(wù)系統(tǒng)的實(shí)時(shí)數(shù)據(jù)通過線網(wǎng)側(cè)的接口服務(wù)器匯集到實(shí)時(shí)監(jiān)控系統(tǒng)中,由實(shí)時(shí)監(jiān)控系統(tǒng)完成對關(guān)鍵業(yè)務(wù)的歷史數(shù)據(jù)存庫工作。實(shí)時(shí)數(shù)據(jù)庫用于存儲從實(shí)時(shí)監(jiān)控系統(tǒng)中接入的數(shù)據(jù),并支撐應(yīng)用系統(tǒng)實(shí)時(shí)業(yè)務(wù),包括線網(wǎng)行車檢察、報(bào)警警告管理等。MPP數(shù)據(jù)倉庫作為數(shù)據(jù)中心的核心,用于存儲一定時(shí)間段的結(jié)構(gòu)化數(shù)據(jù),分為緩沖層(數(shù)據(jù)處理)、基礎(chǔ)層(數(shù)據(jù)分析)與訪問層(數(shù)據(jù)輸出),基礎(chǔ)層又包括核心層與通用匯總層。包括客流、行車、設(shè)備、票務(wù)等不同主題的數(shù)據(jù)。Hadoop數(shù)據(jù)倉庫用于數(shù)據(jù)中心的歷史數(shù)據(jù)存儲,包括結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),將數(shù)據(jù)分布在不同的節(jié)點(diǎn)之中,通過主節(jié)點(diǎn)進(jìn)行訪問和更新。結(jié)構(gòu)化數(shù)據(jù)存儲于Hive數(shù)據(jù)倉庫中,非結(jié)構(gòu)化文件直接存放在HDFS分布式文件系統(tǒng)中。Hadoop集群的多節(jié)點(diǎn),保證了數(shù)據(jù)的穩(wěn)定與安全。
數(shù)據(jù)的存儲與計(jì)算由關(guān)系型數(shù)據(jù)庫和MPP和Hadoop混合架構(gòu)的高性能數(shù)據(jù)存儲系統(tǒng)構(gòu)成。其中:
1)實(shí)時(shí)監(jiān)控系統(tǒng)關(guān)鍵業(yè)務(wù)的歷史數(shù)據(jù)、信號系統(tǒng)的歷史數(shù)據(jù)需要存入到關(guān)系型歷史數(shù)據(jù)庫中,另外一些業(yè)務(wù)系統(tǒng),如應(yīng)急指揮系統(tǒng)、統(tǒng)計(jì)分析業(yè)務(wù)系統(tǒng)、可視化展示等業(yè)務(wù)系統(tǒng)的配置信息、參數(shù)信息等存儲到關(guān)系型數(shù)據(jù)庫;
2)MPP平臺和Hadoop平臺主要用于處理海量高價(jià)值密度的結(jié)構(gòu)化數(shù)據(jù),對于數(shù)據(jù)維度關(guān)聯(lián)性強(qiáng)的業(yè)務(wù)數(shù)據(jù)存放到MPP數(shù)據(jù)平臺,對于數(shù)據(jù)維度關(guān)聯(lián)性較弱或可通過寬表、高表等技術(shù)手段對數(shù)據(jù)模型進(jìn)行合理處理的業(yè)務(wù)數(shù)據(jù)存放到Hadoop平臺;
3)Hadoop平臺主要用于處理其他非結(jié)構(gòu)化數(shù)據(jù)及低價(jià)值密度的結(jié)構(gòu)化數(shù)據(jù),如存儲軌道交通視頻分析資料、建設(shè)圖紙、影像資料、標(biāo)準(zhǔn)等非結(jié)構(gòu)化內(nèi)容數(shù)據(jù)。對于實(shí)時(shí)客流計(jì)算、短期客流預(yù)測準(zhǔn)實(shí)時(shí)計(jì)算業(yè)務(wù)可通過Hadoop計(jì)算框架進(jìn)行分布式計(jì)算;
4)MPP平臺和Hadoop平臺可通過數(shù)據(jù)交互接口完成數(shù)據(jù)擺渡;
5)關(guān)系型歷史數(shù)據(jù)庫可通過定制的ETL JOB抽取到MPP平臺或Hadoop平臺安裝數(shù)據(jù)分層分級存儲的策略進(jìn)行存儲。
2.2.3 數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)化
在傳統(tǒng)的存儲模式中,數(shù)據(jù)采集后直接按照設(shè)定的數(shù)據(jù)結(jié)構(gòu)存儲在數(shù)據(jù)表中,數(shù)據(jù)通過向數(shù)據(jù)庫發(fā)送請求來訪問數(shù)據(jù)。在數(shù)據(jù)量較小時(shí),傳統(tǒng)的數(shù)據(jù)存儲模式能夠滿足業(yè)務(wù)需求。然而,城市軌道交通業(yè)務(wù)繁多,業(yè)務(wù)數(shù)據(jù)錯(cuò)綜復(fù)雜,數(shù)據(jù)累積時(shí)間長,這種傳統(tǒng)的存儲模式可能會面臨數(shù)據(jù)前后不一致、數(shù)據(jù)讀取效率低、數(shù)據(jù)關(guān)聯(lián)性差等問題。
為避免數(shù)據(jù)存儲帶來的業(yè)務(wù)瓶頸,設(shè)計(jì)采用數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)化思想來應(yīng)對城市軌道交通復(fù)雜的數(shù)據(jù)形式。在數(shù)據(jù)接入后,按照基本數(shù)據(jù)單元的形式保存,為上層業(yè)務(wù)系統(tǒng)直接提供數(shù)據(jù)單元。建立一套通用的數(shù)據(jù)統(tǒng)一模型,將接入數(shù)據(jù)經(jīng)過準(zhǔn)實(shí)時(shí)的運(yùn)算和架構(gòu)化形成模型化的數(shù)據(jù)單元,極大地減少后續(xù)業(yè)務(wù)處理數(shù)據(jù)的復(fù)雜性,更便捷地使用業(yè)務(wù)數(shù)據(jù)。通過對數(shù)據(jù)采集后實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)化處理,從數(shù)據(jù)處理的流程、效率、準(zhǔn)則等角度對數(shù)據(jù)標(biāo)準(zhǔn)化模型進(jìn)行細(xì)化,保障數(shù)據(jù)單元的可用性、可靠性、準(zhǔn)確性和完整性。數(shù)據(jù)標(biāo)準(zhǔn)化服務(wù)包含3個(gè)步驟,分別是數(shù)據(jù)接入服務(wù)、數(shù)據(jù)模型化、數(shù)據(jù)應(yīng)用。
1)數(shù)據(jù)接入服務(wù)
數(shù)據(jù)接入服務(wù)通過NCC系統(tǒng)接口服務(wù)器與源數(shù)據(jù)層的各業(yè)務(wù)系統(tǒng)進(jìn)行通信,在收到數(shù)據(jù)后根據(jù)數(shù)據(jù)表達(dá)式將數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)單元,將各專業(yè)數(shù)據(jù)單元接入到數(shù)據(jù)倉庫和實(shí)時(shí)數(shù)據(jù)庫中。
在Hadoop大數(shù)據(jù)結(jié)構(gòu)中,數(shù)據(jù)接入服務(wù)定義為Producer,數(shù)據(jù)持久服務(wù)定義為Consumer。如果有數(shù)據(jù)訪問請求,數(shù)據(jù)接入服務(wù)接收則為Consumer,數(shù)據(jù)持久服務(wù)則為Producer。
2)數(shù)據(jù)模型化
數(shù)據(jù)模型化實(shí)現(xiàn)數(shù)據(jù)表的規(guī)范化管理,在數(shù)據(jù)倉庫中啟動數(shù)據(jù)模型化服務(wù),數(shù)據(jù)模型化服務(wù)被加入到服務(wù)容器中,服務(wù)容器開啟對數(shù)據(jù)進(jìn)行計(jì)算,在計(jì)算后將數(shù)據(jù)發(fā)送至后續(xù)的存儲系統(tǒng)中。
通過數(shù)據(jù)模型化,將各業(yè)務(wù)數(shù)據(jù)定制化形成規(guī)范的表達(dá)式形式,并按照數(shù)據(jù)表的形式保存。根據(jù)業(yè)務(wù)數(shù)據(jù)的需求,數(shù)據(jù)表中的數(shù)據(jù)單元被應(yīng)用到對應(yīng)的數(shù)據(jù)計(jì)算流程中。
3)數(shù)據(jù)應(yīng)用
數(shù)據(jù)應(yīng)用主要是實(shí)現(xiàn)上層業(yè)務(wù),比如監(jiān)控系統(tǒng)、應(yīng)急事件處置協(xié)調(diào)系統(tǒng)等。通過定義規(guī)范化的數(shù)據(jù)處理模型,將不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)信息統(tǒng)一格式并完善,對數(shù)據(jù)編碼便于標(biāo)準(zhǔn)識別。監(jiān)控系統(tǒng)結(jié)合調(diào)度員各自業(yè)務(wù),根據(jù)不同的應(yīng)用場景對路網(wǎng)全局信息展示、路網(wǎng)行車監(jiān)視、線路行車監(jiān)視、行車告警、客流監(jiān)視、路網(wǎng)設(shè)施設(shè)備監(jiān)視及路網(wǎng)視頻監(jiān)控等進(jìn)行不同的組合,形成不同的可視化信息聚合,以便支撐調(diào)度員日常調(diào)度業(yè)務(wù)。應(yīng)急事件處置協(xié)調(diào)系統(tǒng)主要包括路網(wǎng)運(yùn)營信息監(jiān)視業(yè)務(wù)、路網(wǎng)應(yīng)急管理業(yè)務(wù)、突發(fā)事件數(shù)字化處置業(yè)務(wù)以及日常工作管理業(yè)務(wù)。其中路網(wǎng)運(yùn)營信息監(jiān)視業(yè)務(wù)有日常運(yùn)營信息展示、突發(fā)事件信息展示;路網(wǎng)應(yīng)急管理業(yè)務(wù)有應(yīng)急資源管理、預(yù)案電子化管理。
MPP架構(gòu)和Hadoop大數(shù)據(jù)處理技術(shù)是城市軌道交通數(shù)據(jù)處理的重要解決手段,對客流預(yù)測、規(guī)律總結(jié)、決策調(diào)控等多個(gè)應(yīng)用需求都有關(guān)鍵的數(shù)據(jù)支撐作用。通過大數(shù)據(jù)技術(shù)對數(shù)據(jù)處理和關(guān)聯(lián)分析,不僅能實(shí)現(xiàn)基本的業(yè)務(wù)數(shù)據(jù)解析和數(shù)據(jù)統(tǒng)計(jì)歸檔,還能夠挖掘數(shù)據(jù)背后的價(jià)值。通過探索對各類數(shù)據(jù)以及現(xiàn)有各控制中心各線路不同監(jiān)控平臺數(shù)據(jù)源的抽取、轉(zhuǎn)換和加載,按照統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)存儲;通過搭建各種共享服務(wù)平臺為應(yīng)用層面服務(wù),支持生產(chǎn)管理指標(biāo)分析、應(yīng)急指揮、信息報(bào)送及發(fā)布等基本功能。
客流是為了實(shí)現(xiàn)各類出行活動,乘客借助地鐵形成的有目的流動??土髅枋龅某丝瓦M(jìn)入交通路網(wǎng)后的乘車軌跡,即描述乘客的進(jìn)站、出站、及進(jìn)入交通路網(wǎng)后的換乘、乘車途經(jīng)的車站路徑及時(shí)間信息。城市軌道交通客流數(shù)據(jù)的保存時(shí)間是1~3年,它是線網(wǎng)指揮平臺大數(shù)據(jù)存儲和分析的重要數(shù)據(jù)資源,客流數(shù)據(jù)是軌道交通編制列車運(yùn)營方案、指定列車運(yùn)營計(jì)劃的主要數(shù)據(jù)支撐??土鲾?shù)據(jù)主要包括周期性地采集進(jìn)出站、上下行區(qū)間、換乘、乘客路徑OD等數(shù)據(jù)。
通過大數(shù)據(jù)技術(shù)對客流量數(shù)據(jù)進(jìn)行分析,利用Hive將一定周期內(nèi)的客流資源數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)表,便于從中查找和抽取客流特征數(shù)據(jù)。抽取某個(gè)時(shí)間區(qū)間內(nèi)的客流特征,形成客流數(shù)據(jù)模型和業(yè)務(wù)數(shù)據(jù)資源集合。通過將業(yè)務(wù)數(shù)據(jù)資源集合應(yīng)用到客流數(shù)據(jù)模型得到客流特征值。將客流特征定義為基本數(shù)據(jù)和進(jìn)階數(shù)據(jù)兩種不同的數(shù)據(jù)類型?;A(chǔ)數(shù)據(jù)包括列車線路、車站名稱、車站區(qū)域、車票類型、乘客OD路徑、進(jìn)站名稱、出站名稱、換乘路線、換入路線、換出路線;進(jìn)階數(shù)據(jù)包括乘車高峰起止時(shí)間、超出乘車閾值的車站名、乘客量最大的車站名稱、乘客區(qū)間最大的方向和時(shí)間段等。
通過對選定時(shí)間段內(nèi)的數(shù)據(jù)關(guān)聯(lián)分析,提取與城市軌道交通關(guān)聯(lián)程度高的因素作為客流特征的影響要素,對相關(guān)要素按照分級關(guān)系進(jìn)行聚類,然后根據(jù)不同業(yè)務(wù)目標(biāo)下的業(yè)務(wù)傾向設(shè)計(jì)各因子的權(quán)重。經(jīng)過客流信息統(tǒng)計(jì)分析,并設(shè)定統(tǒng)計(jì)特征的權(quán)重系數(shù),得到當(dāng)前時(shí)期內(nèi)客流的畫像。在數(shù)據(jù)聚類中,將車站換乘客流量、乘車區(qū)間的客流量、進(jìn)出站點(diǎn)的客流量作為均值聚類的中心點(diǎn),設(shè)定聚類中心個(gè)數(shù),應(yīng)用均值聚類算法和收斂系數(shù),最終得到目標(biāo)數(shù)據(jù)并輸出結(jié)果。
本文提出一種混合式的基于MPP和Hadoop的城市軌道交通線網(wǎng)指揮平臺架構(gòu),探索對各類數(shù)據(jù)以及現(xiàn)有各控制中心各線路不同監(jiān)控平臺數(shù)據(jù)源的抽取、轉(zhuǎn)換和加載,按照統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)存儲。搭建各種共享服務(wù)平臺為應(yīng)用層面服務(wù),支持生產(chǎn)管理指標(biāo)分析、應(yīng)急指揮、信息報(bào)送及發(fā)布等基本功能。通過該平臺的建設(shè),挖掘數(shù)據(jù)潛在價(jià)值,實(shí)現(xiàn)對運(yùn)營優(yōu)化和決策預(yù)警的技術(shù)支撐。