許盛剛
(中國鐵路北京局集團有限公司 客運處,北京 100860)
目前,我國鐵路營業(yè)里程達到12.7萬km,高速鐵路營業(yè)里程達到2.5萬km,“四橫四縱”的高速鐵路服務(wù)網(wǎng)絡(luò)已建設(shè)完成,初步形成了以北京為中心的8小時高速鐵路交通圈,通過高速鐵路在8 h內(nèi)抵達國內(nèi)大部分省會城市和50萬人口以上的城市,覆蓋全國90%以上地區(qū),極大縮短了城市間的時空距離,為我國經(jīng)濟發(fā)展和人才交流提供了強有力的保障。與此同時,鐵路客運管理工作涉及的業(yè)務(wù)量、數(shù)據(jù)量也隨之大幅增長[1],如何建設(shè)滿足新時期需求的鐵路客運管理信息系統(tǒng),提高鐵路客運管理效率,為旅客提供安全、高效、舒適的客運服務(wù),吸引更多鐵路客流,提高鐵路運營效益,增加鐵路競爭力成為亟需研究的重要課題。
鐵路客運管理涉及業(yè)務(wù)部門多、業(yè)務(wù)種類繁雜、數(shù)據(jù)量龐大,需要綜合性強、處理能力高的客運管理信息系統(tǒng)。為此,我國鐵路在各級客運管理部門信息化方面積極探索并建設(shè)了一系列客運信息系統(tǒng),如鐵路客票發(fā)售和預(yù)定系統(tǒng)、客運營銷輔助決策系統(tǒng)等[2],為鐵路客運管理信息系統(tǒng)的建設(shè)和應(yīng)用打下了良好的基礎(chǔ)。但是,原有的客運管理信息系統(tǒng)大多自成體系,功能相對集中在某一業(yè)務(wù)范圍內(nèi),各系統(tǒng)之間的數(shù)據(jù)沒有形成網(wǎng)絡(luò),導(dǎo)致數(shù)據(jù)源眾多、信息孤島和數(shù)據(jù)煙囪現(xiàn)象十分嚴重,無法實現(xiàn)信息的有效互聯(lián)互通,鐵路客運信息得不到綜合管理和應(yīng)用,現(xiàn)有的客運管理信息系統(tǒng)難以滿足鐵路客運管理工作的需要。
隨著互聯(lián)網(wǎng)及信息處理技術(shù)的快速發(fā)展,大數(shù)據(jù)已經(jīng)從技術(shù)研究階段進入實用階段,鐵路大數(shù)據(jù)研究與應(yīng)用的核心目標(biāo)定位在如何盤活鐵路數(shù)據(jù)資產(chǎn)及最大限度挖掘數(shù)據(jù)價值,進而發(fā)現(xiàn)新知識、提升新能力,更好更快助推鐵路轉(zhuǎn)型升級,驅(qū)動鐵路創(chuàng)新發(fā)展[3-4]。研究基于大數(shù)據(jù),分析其來源及相關(guān)技術(shù),對基于大數(shù)據(jù)技術(shù)的客運管理信息系統(tǒng)應(yīng)用功能進行探討,以精準把握市場需求及變化趨勢,全面刻畫用戶出行特征,準確預(yù)測客流,進而提供鐵路客運的個性化服務(wù)及精準營銷,研發(fā)出更貼近用戶需求的客運產(chǎn)品,提升鐵路公共服務(wù)水平,提高鐵路運輸收益[5]。
鐵路客運服務(wù)的本質(zhì)是完成旅客的位移,為解決旅客“走得了”和“走得好”的問題,需要完善、高效的鐵路客運管理信息系統(tǒng)提供業(yè)務(wù)及信息上的有力支持。中國鐵路北京局集團有限公司(以下簡稱“北京鐵路局”)客運管理信息系統(tǒng)運用大數(shù)據(jù)技術(shù)手段,以中國鐵路總公司信息化總體規(guī)劃目標(biāo)為基礎(chǔ),結(jié)合鐵路局各級客運部門信息化的具體情況,搭建大數(shù)據(jù)平臺,整合鐵路客運管理各專業(yè)、各業(yè)務(wù)部門的客運信息,實現(xiàn)對鐵路客運信息的統(tǒng)一化管理,為鐵路客運管理工作提供數(shù)據(jù)高度共享、客運管理業(yè)務(wù)流程優(yōu)化合理的信息系統(tǒng)。北京鐵路局客運管理信息系統(tǒng)架構(gòu)總體需求如下。
(1)研究搭建北京鐵路局客運管理信息大數(shù)據(jù)平臺,實現(xiàn)基于統(tǒng)一管理平臺的鐵路客運動態(tài)、靜態(tài)數(shù)據(jù)的整合、存儲、分析、共享與展示等,可滿足結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的管理并且兼顧既有系統(tǒng)數(shù)據(jù)共享和新增數(shù)據(jù)管理的需求,滿足鐵路客運信息在客運系統(tǒng)內(nèi)部及跨專業(yè)的共享需求。
(2)統(tǒng)籌考慮各方面的因素,從北京鐵路局鐵路客運管理信息化需求的整體出發(fā),探討基于大數(shù)據(jù)平臺客運系統(tǒng)需要提供的業(yè)務(wù)功能。
(3)系統(tǒng)架構(gòu)設(shè)計主要考慮客運數(shù)據(jù)的完備性、海量數(shù)據(jù)的高效率存儲、多用戶同時請求的高并發(fā)處理、數(shù)據(jù)實時動態(tài)的獲取和更新、數(shù)據(jù)的高擴展性和高可用性,促進客運支持系統(tǒng)不間斷正常運行。
基于大數(shù)據(jù)技術(shù)的處理系統(tǒng)主要包括數(shù)據(jù)準備、存儲管理、計算處理、數(shù)據(jù)分析和知識展現(xiàn)5個環(huán)節(jié)[6],大數(shù)據(jù)分層架構(gòu)如圖1所示。對于北京鐵路局客運管理信息系統(tǒng)而言,明確數(shù)據(jù)源,完成數(shù)據(jù)準備工作具有非常大的難度,其涵蓋的信息包括列車、車站、客票、財務(wù)等多個業(yè)務(wù)部門的各類信息,文件類型包括文本、圖片、視頻、日志等結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)。隨著鐵路的運營發(fā)展,其數(shù)據(jù)量也呈指數(shù)級增長,這些數(shù)據(jù)符合大數(shù)據(jù)大體量、多樣性、時效性和大價值的4V特征。
圖1 大數(shù)據(jù)分層架構(gòu)Fig.1 Layered architecture of big data
(1)數(shù)據(jù)準備。在數(shù)據(jù)準備階段,北京鐵路局客運處組織開展客運專業(yè)信息系統(tǒng)及數(shù)據(jù)梳理工作,確定專業(yè)數(shù)據(jù)資源分類、數(shù)據(jù)內(nèi)容和數(shù)據(jù)規(guī)格,按照統(tǒng)一格式形成本專業(yè)信息系統(tǒng)數(shù)據(jù)資源表單,建立客運系統(tǒng)大數(shù)據(jù)資源目錄??瓦\處組織制訂數(shù)據(jù)采集方案,確定數(shù)據(jù)采集范圍、方式、頻次、時間等內(nèi)容,協(xié)調(diào)相關(guān)信息系統(tǒng)維護單位或研發(fā)廠家,開放數(shù)據(jù)訪問權(quán)限或提供數(shù)據(jù)訪問接口,實現(xiàn)各專業(yè)數(shù)據(jù)向平臺的匯聚。
(2)存儲管理。實現(xiàn)滿足結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的數(shù)據(jù)存儲,按照客運業(yè)務(wù)分類實現(xiàn)主數(shù)據(jù)、元數(shù)據(jù)的存儲及管理。
(3)計算處理。以業(yè)務(wù)需求為核心,從大數(shù)據(jù)平臺提取所需數(shù)據(jù)進行計算處理。
(4)數(shù)據(jù)分析。根據(jù)計算結(jié)果,按需求進行分析處理,為客運業(yè)務(wù)提供目標(biāo)導(dǎo)向。
(5)知識展現(xiàn)。利用可視化技術(shù),通過熱點圖、直方圖等多種豐富的圖形化界面,直觀描述數(shù)據(jù)的規(guī)律、趨勢,鐵路客運管理部門通過圖形可以很容易獲取關(guān)鍵信息,進行相應(yīng)的管理決策。
通過客運管理信息系統(tǒng)總體需求及分析,結(jié)合鐵路客運管理的實際需求,設(shè)計北京鐵路局鐵路客運管理信息系統(tǒng)架構(gòu)如圖2所示,系統(tǒng)架構(gòu)包括數(shù)據(jù)源層、數(shù)據(jù)整合層、數(shù)據(jù)存儲層、數(shù)據(jù)分析層、數(shù)據(jù)服務(wù)層和業(yè)務(wù)應(yīng)用層[7-8],各層之間緊密協(xié)作,實現(xiàn)鐵路客運信息的產(chǎn)生、聚集、分析和應(yīng)用。
(1)數(shù)據(jù)源層。該層完成鐵路客運信息管理所需的各類數(shù)據(jù)源,包括現(xiàn)有業(yè)務(wù)系統(tǒng),如客票系統(tǒng)、車站管理系統(tǒng)、旅客服務(wù)系統(tǒng)等,也包括需要新納入本架構(gòu)管理的數(shù)據(jù)源,如旅游、酒店、公交等其他業(yè)務(wù)數(shù)據(jù)。
圖2 北京鐵路局客運管理信息系統(tǒng)架構(gòu)Fig.2 System architecture of Beijing railway passenger transport management information system
(2)數(shù)據(jù)整合層。利用網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)采集技術(shù)將分散在各處的相關(guān)數(shù)據(jù)進行傳輸和整合,根據(jù)業(yè)務(wù)分類對數(shù)據(jù)源進行有針對性的采集交換,并對數(shù)據(jù)源進行分類處理,實現(xiàn)對結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的采集處理,并對數(shù)據(jù)內(nèi)容進行整理形成高質(zhì)量的數(shù)據(jù)資產(chǎn)。
(3)數(shù)據(jù)存儲層。構(gòu)建適用于結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)存儲架構(gòu),用于存儲鐵路客運管理相關(guān)的關(guān)鍵數(shù)據(jù),主要使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和支持非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫Hbase。
(4)數(shù)據(jù)分析層。利用回歸分析、聚類分析、關(guān)聯(lián)分析、神經(jīng)網(wǎng)絡(luò)分析算法和模型工具等數(shù)據(jù)分析組件來實現(xiàn)對客運數(shù)據(jù)的處理和分析,建立大數(shù)據(jù)分析模型,通過結(jié)果不斷驗證和優(yōu)化模型,為數(shù)據(jù)服務(wù)層提供數(shù)據(jù)分析服務(wù)。
(5)數(shù)據(jù)服務(wù)層。將鐵路客運信息按照業(yè)務(wù)對象進行細分,建立標(biāo)準化的數(shù)據(jù),構(gòu)建統(tǒng)一、規(guī)范的數(shù)據(jù)服務(wù),為上層業(yè)務(wù)應(yīng)用及用戶提供鐵路客運信息管理相關(guān)的數(shù)據(jù)共享、數(shù)據(jù)分發(fā)、數(shù)據(jù)交換等數(shù)據(jù)服務(wù)。
(6)業(yè)務(wù)應(yīng)用層。該層結(jié)合具體的應(yīng)用場景,利用數(shù)據(jù)服務(wù)層及數(shù)據(jù)分析層提供的服務(wù),為用戶提供具體的業(yè)務(wù)應(yīng)用服務(wù)。北京鐵路局局客運管理信息系統(tǒng)主要應(yīng)用功能包括鐵路客運信息管理、旅客信息管理、客流及市場預(yù)測、客運產(chǎn)品優(yōu)化設(shè)計、鐵路客運生產(chǎn)作業(yè)管理、應(yīng)急指揮管理、客運人員管理、客運智慧營銷、客運服務(wù)質(zhì)量評價等多個應(yīng)用場景,以客運產(chǎn)品優(yōu)化設(shè)計為例,可以利用實名制購票數(shù)據(jù)對列車等級、票價、旅行時長、換乘時間等旅客出行選擇因素進行分析,為列車開行方案制訂、客運組織等提供數(shù)據(jù)支持。
鐵路客運管理涉及到多個系統(tǒng),為高效完成客運管理工作,需要從多個系統(tǒng)中獲取與客運相關(guān)的信息,但這些系統(tǒng)之間的關(guān)聯(lián)性不強并且數(shù)據(jù)類型復(fù)雜、分散,因而為了將各個分散的數(shù)據(jù)資源進行整合實現(xiàn)數(shù)據(jù)的統(tǒng)一管理,確定數(shù)據(jù)源及數(shù)據(jù)采集方式顯得尤其重要。通過對客運專業(yè)信息進行梳理,確定數(shù)據(jù)目錄及主要數(shù)據(jù)項,按照統(tǒng)一格式形成客運管理信息數(shù)據(jù)資源目錄如表1所示。
表1 客運管理信息數(shù)據(jù)資源目錄Tab.1 Data resources catalogue for passenger transport management information
以確定的數(shù)據(jù)目錄為依據(jù),確定各信息來源,如到發(fā)線及站臺數(shù)據(jù)來源為車站管理系統(tǒng),站房及空調(diào)數(shù)據(jù)來源為土房系統(tǒng),線路、徑路、車輛等數(shù)據(jù)來源為列車開行方案系統(tǒng)等。在明確來源系統(tǒng)后,協(xié)調(diào)相關(guān)系統(tǒng)維護單位或研發(fā)廠家,確定數(shù)據(jù)的采集范圍、方式、頻次、時間,開放訪問權(quán)限或提供數(shù)據(jù)訪問接口。對各數(shù)據(jù)源采集整合的關(guān)鍵是根據(jù)數(shù)據(jù)類型確定合適的采集方法,如何保證這些數(shù)據(jù)高效、準確地進行數(shù)據(jù)采集,需要對相關(guān)數(shù)據(jù)采集方法進行研究。對來源于既有業(yè)務(wù)系統(tǒng)的關(guān)系型數(shù)據(jù)庫數(shù)據(jù)而言,采集相對簡單,可以利用SQL和ETL工具來實現(xiàn)。對于電子郵件、電報文件、點擊流等形式半結(jié)構(gòu)化數(shù)據(jù)和圖形、語音、視頻等形式的非結(jié)構(gòu)化數(shù)據(jù)無法用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫進行處理,可采用ETL、Flume、MapReduce編程等技術(shù)手段將數(shù)據(jù)抽取出來形成元數(shù)據(jù)并存儲在數(shù)據(jù)庫中,實體數(shù)據(jù)可以存儲在Hadoop系統(tǒng)中,通過建立數(shù)據(jù)之間的鏈接關(guān)系以實現(xiàn)數(shù)據(jù)的統(tǒng)一管理。
數(shù)據(jù)應(yīng)用分析主要以客運業(yè)務(wù)需求為導(dǎo)向,查詢檢索及數(shù)據(jù)的可視化展示。大數(shù)據(jù)處理提供流計算、內(nèi)存計算等多種分布式計算能力,可對數(shù)據(jù)存儲層的數(shù)據(jù)進行分析處理。
(1)數(shù)據(jù)分析技術(shù)。主要對鐵路客運業(yè)務(wù)的需求進行分析,客運管理對象主要以結(jié)構(gòu)化為主,數(shù)據(jù)主要來源于相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫,這部分數(shù)據(jù)的分析處理是研究的重點。對于結(jié)構(gòu)化數(shù)據(jù)主要采用統(tǒng)計分析、聯(lián)機分析處理、數(shù)據(jù)挖掘、可視化等技術(shù)進行分析。統(tǒng)計分析是鐵路客運常用的分析方法,通過對旅客列車對數(shù)統(tǒng)計分析、旅客列車指標(biāo)統(tǒng)計分析、旅客列車停站統(tǒng)計分析等若干統(tǒng)計分析內(nèi)容,以及不同年份、不同階段旅客列車各項指標(biāo)進行對比分析,再對數(shù)據(jù)進行篩選、匯總、計算、圖表顯示等使客運管理人員對旅客列車的運營情況有更精準地了解,根據(jù)統(tǒng)計分析結(jié)果可以為下一步的客運管理提供決策依據(jù)。
(2)數(shù)據(jù)處理技術(shù)。使用Hadoop分布式系統(tǒng)架構(gòu)對數(shù)據(jù)進行處理,Hadoop系統(tǒng)具有高可靠性、高擴展性、高效性及低成本性等特點,提供高吞吐量來訪問應(yīng)用程序相關(guān)數(shù)據(jù),通過并行的處理方式加快處理速度,這種處理方式對于結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)都可以實現(xiàn)海量存儲和快速查詢。系統(tǒng)本身負責(zé)數(shù)據(jù)的高可用性、系統(tǒng)的可擴展性及系統(tǒng)的容錯性等復(fù)雜管理任務(wù),應(yīng)用開發(fā)人員只需關(guān)注業(yè)務(wù)邏輯本身即可[9],這在很大程度上提高了應(yīng)用的開發(fā)效率。
至2018年,北京鐵路局客運管理信息系統(tǒng)已整合了列車、車站、客票等大量客運管理信息,通過信息系統(tǒng)平臺實現(xiàn)全局客運信息的互聯(lián)互通,資源共享,大大提高了鐵路客運管理與服務(wù)的工作效率。例如,按照約定的數(shù)據(jù)范圍、數(shù)據(jù)格式、采集方式及采集頻次,匯集旅客列車運行圖數(shù)據(jù),包括列車時刻、編組、交路、經(jīng)由等詳細數(shù)據(jù),納入北京鐵路局客運管理信息系統(tǒng)中進行管理,該信息可以共享給客票系統(tǒng),減少客票系統(tǒng)人工錄入及核對工作量。目前,研究僅從大數(shù)據(jù)處理的流程、數(shù)據(jù)的來源及基于大數(shù)據(jù)的鐵路客運信息管理系統(tǒng)架構(gòu)設(shè)計方面進行了探討,在數(shù)據(jù)分析算法及模型方面還需進一步通過大數(shù)據(jù)平臺結(jié)合算法模型有效整合數(shù)據(jù),利用大數(shù)據(jù)的優(yōu)勢提升客運服務(wù)質(zhì)量和客運管理效率。