靳繼紅 劉淑芝
摘要:該文詳細(xì)分析了大數(shù)據(jù)技術(shù)在鐵路貨運(yùn)信息系統(tǒng)中的應(yīng)用方向及應(yīng)用層次,提出大數(shù)據(jù)在系統(tǒng)中的應(yīng)用框架及參考性的混搭架構(gòu)模式,以推動(dòng)鐵路貨運(yùn)對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)應(yīng)用;鐵路貨運(yùn)
中圖分類(lèi)號(hào):TP302 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)13-0005-02
1 引言
鐵路貨運(yùn)信息系統(tǒng)的構(gòu)建,從TMIS(中國(guó)鐵路運(yùn)輸管理系統(tǒng))到TDCS(調(diào)度指揮信息管理系統(tǒng))及CTC(新一代分散自律調(diào)度集中控制系統(tǒng)),正在實(shí)現(xiàn)由單項(xiàng)管理自動(dòng)化到綜合管理自動(dòng)化的過(guò)渡。而于2012年9月試運(yùn)行的鐵路電子商務(wù)系統(tǒng)則開(kāi)啟了一個(gè)嶄新的篇章,對(duì)外實(shí)現(xiàn)貨運(yùn)需求信息的采集功能,對(duì)內(nèi)以既有系統(tǒng)為支撐形成完整的受理業(yè)務(wù)信息鏈[1,2]。大量數(shù)據(jù)(包括實(shí)時(shí)的、結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))正在產(chǎn)生,增強(qiáng)大數(shù)據(jù)利用意識(shí),借助大數(shù)據(jù)技術(shù),發(fā)現(xiàn)大數(shù)據(jù)的真正價(jià)值,才能在企業(yè)競(jìng)爭(zhēng)中擺脫被動(dòng)狀況,重新成為行業(yè)中的“火車(chē)頭”。
2 大數(shù)據(jù)技術(shù)
大數(shù)據(jù)是為了更經(jīng)濟(jì)地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類(lèi)型的數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。大數(shù)據(jù)的4V特點(diǎn):Volume(海量)、Variety(多樣)、Velocity(實(shí)時(shí))、Value(價(jià)值)[1]。
一個(gè)大數(shù)據(jù)系統(tǒng)從邏輯上可以分為數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用展現(xiàn)等五個(gè)層次[3-5]。其中包含多方面的技術(shù):海量存儲(chǔ)、實(shí)時(shí)流數(shù)據(jù)處理、數(shù)據(jù)挖掘(DW)、數(shù)據(jù)可視化、商業(yè)智能(BI)、聯(lián)機(jī)分析處理(OLAP)、并行計(jì)算、NoSQL(Not only SQL非關(guān)系型數(shù)據(jù)庫(kù))數(shù)據(jù)庫(kù)等。
3 大數(shù)據(jù)應(yīng)用框架的探討
3.1 數(shù)據(jù)應(yīng)用的三個(gè)層次
大數(shù)據(jù)在鐵路貨運(yùn)信息系統(tǒng)中的應(yīng)用主要分三層:起步階段、發(fā)展階段、運(yùn)營(yíng)階段。目前國(guó)內(nèi)應(yīng)處于大數(shù)據(jù)應(yīng)用的起步階段。
第一層,主要是積累、收集數(shù)據(jù),應(yīng)用大數(shù)據(jù)存儲(chǔ)相關(guān)技術(shù)及數(shù)據(jù)采集工具。已有的和正在擴(kuò)建、補(bǔ)充完善的各項(xiàng)相關(guān)信息系統(tǒng)是大數(shù)據(jù)的各種來(lái)源,包括來(lái)自日志文件、終端設(shè)備、傳感設(shè)備、視頻設(shè)備、各項(xiàng)運(yùn)營(yíng)系統(tǒng)、財(cái)務(wù)系統(tǒng)、電子商務(wù)系統(tǒng)、安全監(jiān)測(cè)系統(tǒng)等。基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)仍然占據(jù)目前的主流地位,但大量的,實(shí)時(shí)性要求比較高的非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)正在產(chǎn)生。
數(shù)據(jù)基礎(chǔ):結(jié)構(gòu)化數(shù)據(jù)為主流。
業(yè)務(wù)邏輯:以因果關(guān)系為主線。
挖掘工具:以SAS等統(tǒng)計(jì)分析工具為主,自主研發(fā)為輔。
應(yīng)用目標(biāo):用數(shù)據(jù)促進(jìn)企業(yè)精細(xì)運(yùn)營(yíng),整合優(yōu)化資源配置,提高運(yùn)營(yíng)效率。降低運(yùn)營(yíng)成本。
實(shí)施運(yùn)作:主要是第三方數(shù)據(jù)挖掘服務(wù)機(jī)構(gòu)。
第二層,是將收集的數(shù)據(jù)進(jìn)行初步的融合、集成、篩選、分析出有用的信息來(lái),這一層次的應(yīng)用是目前發(fā)展的重點(diǎn),其應(yīng)用范圍也較為廣泛。如鐵路運(yùn)輸流量分析、智能布警、鐵路違法與事故模式挖掘。對(duì)數(shù)據(jù)的使用方式上,仍然以精確性計(jì)算分析為主,但隨著應(yīng)用層次的提高,趨勢(shì)性計(jì)算分析會(huì)得到逐步地應(yīng)用和發(fā)展。
數(shù)據(jù)基礎(chǔ):仍然以結(jié)構(gòu)化數(shù)據(jù)為主,進(jìn)一步融合數(shù)據(jù)業(yè)務(wù)平臺(tái),非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)比重增加。
業(yè)務(wù)邏輯:以因果關(guān)系為主線,基于非結(jié)構(gòu)化數(shù)據(jù)的預(yù)測(cè)為輔。
挖掘工具:以SAS等統(tǒng)計(jì)分析工具為主,Hadoop/Hbase等技術(shù)為輔。
應(yīng)用目標(biāo):深入洞察客戶需求,助力企業(yè)轉(zhuǎn)型。
實(shí)施運(yùn)作:借助外力輔助建立數(shù)據(jù)運(yùn)營(yíng)機(jī)構(gòu)。
第三層,大數(shù)據(jù)的價(jià)值最大體現(xiàn):預(yù)測(cè)、對(duì)數(shù)據(jù)更深度的分析、統(tǒng)計(jì)、挖掘處理,更好地支持日常運(yùn)營(yíng)、決策、安全管理等方面,甚至可以幫助發(fā)現(xiàn)創(chuàng)造新的價(jià)值,形成新的收入增長(zhǎng)點(diǎn)。目前處于規(guī)劃建設(shè)階段。
數(shù)據(jù)基礎(chǔ):視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)成為核心數(shù)據(jù),更多融合企業(yè)內(nèi)外部數(shù)據(jù),傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)比重減少。
業(yè)務(wù)邏輯:因果關(guān)系變?yōu)閭鹘y(tǒng)業(yè)務(wù)運(yùn)營(yíng)的基本邏輯,基于非結(jié)構(gòu)化數(shù)據(jù)的預(yù)測(cè)成為主流。
挖掘工具:Hadoop/Hbase等新興技術(shù)漸成主流,SAS等統(tǒng)計(jì)分析工具的應(yīng)用退居次要地位。
應(yīng)用目標(biāo):全方位深入洞察客戶需求,探索如何借助大數(shù)據(jù)推動(dòng)企業(yè)轉(zhuǎn)型。
實(shí)施運(yùn)作:以自身建立的數(shù)據(jù)運(yùn)營(yíng)機(jī)構(gòu)為主,外力為輔。
3.2 大數(shù)據(jù)應(yīng)用的四個(gè)方向
大數(shù)據(jù)在鐵路貨運(yùn)信息系統(tǒng)中的應(yīng)用方向主要有:生產(chǎn)運(yùn)作服務(wù)、安全監(jiān)控服務(wù)、客戶管理與服務(wù)、營(yíng)銷(xiāo)決策支持。
生產(chǎn)運(yùn)作服務(wù)
利用大數(shù)據(jù)可以為生產(chǎn)運(yùn)作提供支持服務(wù),如貨物的調(diào)撥、路線的安排、在途監(jiān)控等方面活動(dòng),有助于優(yōu)化業(yè)務(wù)流程,及時(shí)發(fā)現(xiàn)問(wèn)題,提高業(yè)務(wù)運(yùn)作效率。
安全監(jiān)控服務(wù)
大數(shù)據(jù)能為鐵路貨運(yùn)的安全監(jiān)控提供服務(wù),幫助實(shí)現(xiàn)實(shí)時(shí)監(jiān)控和安全運(yùn)營(yíng)。可以分系統(tǒng)的統(tǒng)籌設(shè)置海量的傳感器、視頻監(jiān)測(cè)設(shè)備等,將傳感器及相關(guān)設(shè)備的信息匯集到終端,工程師便可實(shí)時(shí)發(fā)現(xiàn)、分析鐵路及貨車(chē)存在的安全問(wèn)題,并及時(shí)下達(dá)指令消除各種安全隱患。
客戶管理與服務(wù)
主要是針對(duì)電子商務(wù)平臺(tái)客戶提出的管理與服務(wù)形式,通過(guò)各種類(lèi)型數(shù)據(jù)的分析來(lái)有效地發(fā)現(xiàn)需求,為客戶提供個(gè)性化的服務(wù)。
營(yíng)銷(xiāo)決策支持
包括產(chǎn)品服務(wù)的推廣、平臺(tái)宣傳等,提供營(yíng)銷(xiāo)方面的決策支持,以更好地的切合市場(chǎng)需求以及吸引潛在客戶的關(guān)注。
利用大數(shù)據(jù)分析將有助于鐵路貨運(yùn)的市場(chǎng)細(xì)分、定向營(yíng)銷(xiāo)以及物流新產(chǎn)品的推出。充分利用大數(shù)據(jù)可以更好、更全面地掌握客戶的特點(diǎn),及時(shí)得到客戶的需求信息。幫助鐵路實(shí)時(shí)改進(jìn)和創(chuàng)新鐵路物流產(chǎn)品,并根據(jù)客戶的實(shí)時(shí)反饋信息,改進(jìn)服務(wù),研究制定業(yè)務(wù)營(yíng)銷(xiāo)方案,根據(jù)目的利用合適的處理技術(shù)分析找出最優(yōu)的營(yíng)銷(xiāo)決策。
3.3 大數(shù)據(jù)的應(yīng)用框架
大數(shù)據(jù)技術(shù)框架在鐵路貨運(yùn)行業(yè)中的應(yīng)用也體現(xiàn)了軟件分層的概念,每個(gè)層次包含有不同的組件對(duì)應(yīng)于不同的應(yīng)用場(chǎng)景,層次之間相對(duì)獨(dú)立:數(shù)據(jù)采集層——負(fù)責(zé)數(shù)據(jù)的積累、整合、抽取,凈化等;數(shù)據(jù)存儲(chǔ)層——負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和處理;數(shù)據(jù)分析層——對(duì)數(shù)據(jù)進(jìn)行深層次的分析和挖掘等處理;數(shù)據(jù)展現(xiàn)層——數(shù)據(jù)價(jià)值最終呈現(xiàn)給用戶的形式化。其中數(shù)據(jù)存儲(chǔ)和分析層所涉及的組件有:關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、分布式文件/對(duì)象存儲(chǔ)系統(tǒng)、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、OLAP等。
大數(shù)據(jù)技術(shù)框架在鐵路貨運(yùn)信息系統(tǒng)規(guī)劃實(shí)施中,應(yīng)側(cè)重于具體應(yīng)用,考察各種組件組合的可能性,快速形成原型系統(tǒng),再根據(jù)具體需求,不斷補(bǔ)充完善,直至找到“最適合的”方案。
3.4 大數(shù)據(jù)架構(gòu)的選擇(存儲(chǔ)方案設(shè)計(jì))
大數(shù)據(jù)存儲(chǔ)技術(shù)路線最典型的共有三種。
第一種MPP(massively parallel processing)數(shù)據(jù)庫(kù),是采用MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群。MPP 是將任務(wù)并行的分散到多個(gè)服務(wù)器和節(jié)點(diǎn)上,在每個(gè)節(jié)點(diǎn)上計(jì)算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果。相對(duì)于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),MPP數(shù)據(jù)庫(kù)可以支持PB級(jí)的結(jié)構(gòu)化數(shù)據(jù)分析,通過(guò)列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)分布式計(jì)算模式,能夠勝任新一代的數(shù)據(jù)庫(kù)倉(cāng)庫(kù)和結(jié)構(gòu)化數(shù)據(jù)的分析。運(yùn)行環(huán)境多為普通PC Server,具備高性能、高擴(kuò)展性的特點(diǎn),在分析類(lèi)應(yīng)用領(lǐng)域獲得較為廣泛的應(yīng)用。
第二種是基于Hadoop的技術(shù)擴(kuò)展和封裝。Hadoop,被稱(chēng)為L(zhǎng)inux以來(lái)最成功的開(kāi)源軟件,是一個(gè)基于分布式文件系統(tǒng),能夠存儲(chǔ)和處理非結(jié)構(gòu)化數(shù)據(jù)的大框架。Hadoop旨在通過(guò)一個(gè)高度可擴(kuò)展的分布式批量處理系統(tǒng),對(duì)大型數(shù)據(jù)集進(jìn)行掃描,以產(chǎn)生其結(jié)果。
第三種是大數(shù)據(jù)一體機(jī),這是一種專(zhuān)為大數(shù)據(jù)的分析處理而設(shè)計(jì)的軟、硬件結(jié)合的產(chǎn)品,由一組集成的服務(wù)器、存儲(chǔ)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫(kù)管理系統(tǒng)以及為數(shù)據(jù)查詢、處理、分析用途而特別預(yù)先安裝及優(yōu)化的軟件組成,高性能大數(shù)據(jù)一體機(jī)具有良好的穩(wěn)定性和縱向擴(kuò)展性[4]。
在架構(gòu)選擇方面,鐵路貨運(yùn)系統(tǒng)要受到數(shù)據(jù)分布、數(shù)據(jù)源及分析要求等方面的制約,單一的BI技術(shù)、Hadoop技術(shù),MPP技術(shù)無(wú)法同時(shí)適應(yīng)鐵路貨運(yùn)系統(tǒng)的大數(shù)據(jù)技術(shù)應(yīng)用,所以鐵路貨運(yùn)的大數(shù)據(jù)架構(gòu)應(yīng)該是一種混合的架構(gòu)模式。要把MPP數(shù)據(jù)庫(kù)、Hadoop融合在一起,形成統(tǒng)一的大數(shù)據(jù)應(yīng)用架構(gòu)。用MPP處理PB級(jí)別的、高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),同時(shí)為應(yīng)用提供豐富的SQL和事務(wù)支持能力;用Hadoop實(shí)現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理。這樣可同時(shí)滿足結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理需求。
4 結(jié)語(yǔ)
結(jié)合鐵路貨運(yùn)信息系統(tǒng)的發(fā)展現(xiàn)狀,提出了大數(shù)據(jù)技術(shù)在系統(tǒng)中應(yīng)用的三個(gè)層次及四個(gè)應(yīng)用方向。探討了大數(shù)據(jù)技術(shù)在鐵路貨運(yùn)系統(tǒng)中的應(yīng)用框架,提出了相應(yīng)的大數(shù)據(jù)混搭架構(gòu)模式,為大數(shù)據(jù)技術(shù)的應(yīng)用發(fā)展提供參考。
參考文獻(xiàn):
[1] 王珊,王會(huì)舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.
[2] 張延松,焦敏,王占偉,等.海量數(shù)據(jù)分析的One-size-fits—OLAP技術(shù)[J1.計(jì)算機(jī)學(xué)報(bào),2011,34(10):1936-1946.
[3] 覃雄派,王會(huì)舉,杜小勇,等.大數(shù)據(jù)分析--RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012,23(1):32-34.
[4] 吳廣君,王樹(shù)鵬,陳明,等.海量結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2012,49(1):1-5.
[5] 曾志勇,楊輝,余建坤.基于HMT和哈希樹(shù)的Apriori并行算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(1):214-248.