張紅+王曉明+曹潔+朱昶勝
信息通信技術(shù)的發(fā)展,使交通運輸從數(shù)據(jù)貧乏轉(zhuǎn)向數(shù)據(jù)豐富的大數(shù)據(jù)時代,北京市6萬余輛出租車一天就會產(chǎn)生數(shù)億條GPS數(shù)據(jù),車牌識別、交通監(jiān)控視頻等數(shù)據(jù)量更大,交通相關的數(shù)據(jù)量級已從TB級別躍升到PB級別,對智能交通系統(tǒng)的運營和管理產(chǎn)生了巨大影響。面對眾多的交通大數(shù)據(jù),如何對其進行準確、高效的處理和分析及預測,挖掘其中蘊含的深層應用,做出即時和正確的交通誘導和疏通,以有效改善實際交通擁堵狀況成為智能化交通信息處理分析的核心內(nèi)容。
交通大數(shù)據(jù)應用帶來變化
交通大數(shù)據(jù)的活化應用對交通的發(fā)展將帶來巨大的變化,這主要體現(xiàn)在大數(shù)據(jù)技術(shù)的實時性、分布性、高效性及預測性方面。在實時性方面,傳統(tǒng)的海量數(shù)據(jù)模糊查詢和統(tǒng)計分析無法達到交通實時性的需求,大數(shù)據(jù)能夠?qū)崟r地對交通大數(shù)據(jù)分析、處理,提供秒級響應,幫助人們在海量的交通數(shù)據(jù)中快速發(fā)現(xiàn)交通異常,并定位癥結(jié),方便交通管理,使交通運行得更加合理。
從分布性角度入手,傳統(tǒng)的數(shù)據(jù)應用多為單表挖掘分析,一旦涉及到跨表關聯(lián)就會因效率問題而無能為力,大數(shù)據(jù)的分布式并行處理擅長復雜的塊表關聯(lián)分析,推動數(shù)據(jù)串并關聯(lián),提高數(shù)據(jù)處理能力,支撐高并發(fā)多用戶訪問,協(xié)同人們在交通緊急事件中多方協(xié)作、快速處置。高效的交通大數(shù)據(jù)挖掘能力,能夠快速發(fā)現(xiàn)海量交通數(shù)據(jù)中的內(nèi)在關聯(lián)規(guī)律,進而提高交通運營效率以及路網(wǎng)的通行能力。倫敦市利用大數(shù)據(jù)減少了交通擁堵時間,提高了交通運轉(zhuǎn)方面的效率。
大數(shù)據(jù)技術(shù)較高的預測能力可降低交通狀態(tài)誤報和漏報的概率,通過建立區(qū)域交通狀態(tài)的監(jiān)測及預測模型,共享交通運行與路況環(huán)境數(shù)據(jù),隨時對交通的動態(tài)性進行實時監(jiān)控,幫助駕駛者及用戶預先了解交通擁堵狀況,避開擁堵路段。
數(shù)據(jù)對交通的巨大影響除了以上幾個方面外,對交通環(huán)境的安全性也有巨大影響。大數(shù)據(jù)的實時性和可預測性以及綜合的決策模型有助于提高交通安全系統(tǒng)的數(shù)據(jù)處理能力;大數(shù)據(jù)快速整合各個傳感器數(shù)據(jù),結(jié)合車輛運行軌跡數(shù)據(jù),綜合分析車輛行駛安全性,為應急決策提供輔助,提高應急救援能力,有效降低交通事故的發(fā)生。由此可見,大數(shù)據(jù)技術(shù)的出現(xiàn)及應用能夠有效地解決智能交通面臨的好多難題。為了利用大數(shù)據(jù)技術(shù),深入挖掘交通數(shù)據(jù)的潛在價值,就迫切需要一個數(shù)據(jù)管理平臺來處理各種類型和規(guī)模的數(shù)據(jù)。
交通大數(shù)據(jù)處理平臺
交通大數(shù)據(jù)處理基本流程與傳統(tǒng)數(shù)據(jù)處理流程基本相似,整個處理流程可以概括為數(shù)據(jù)采集、數(shù)據(jù)錄入和預處理、數(shù)據(jù)存儲、數(shù)據(jù)處理和結(jié)果展現(xiàn)。由于交通大數(shù)據(jù)要處理大量的、非結(jié)構(gòu)化的數(shù)據(jù),如視頻數(shù)據(jù)及監(jiān)控數(shù)據(jù),而且要求處理的強實時性,所以在各個處理環(huán)節(jié)中采用MapReduce分布式計算框架以及實時流數(shù)據(jù)處理計算框架;數(shù)據(jù)存儲采用支持文本和圖像存儲,面向列、可伸縮,支持事務以及B樹范圍查詢和排序的分布式數(shù)據(jù)庫HBase和分布式文件存儲系統(tǒng)HDFS依據(jù)大數(shù)據(jù)處理流程及交通數(shù)據(jù)處理的特性。
整個平臺的構(gòu)建分為兩部分,依次是對交通大數(shù)據(jù)離線批處理、深度挖掘的Hadoop生態(tài)系統(tǒng)以及對交通大數(shù)據(jù)進行強實時流式計算的Storm處理系統(tǒng),使用構(gòu)建在Hadoop生態(tài)系統(tǒng)上的分布式日志處理系統(tǒng)Chukwa收集交通數(shù)據(jù)源,用數(shù)據(jù)同步工具Sqoop實現(xiàn)各種交通數(shù)據(jù)源和Hadoop分布式文件系統(tǒng)HDFS間的數(shù)據(jù)轉(zhuǎn)移和傳輸。
鑒于交通流數(shù)據(jù)處理的強實時性,系統(tǒng)構(gòu)建對Hadoop平臺進行了擴展,引入實時大數(shù)據(jù)流處理系統(tǒng)Storm。因此在交通大數(shù)據(jù)處理層包含基于Hadoop的分布式離線處理計算框架和基于Storm的實時流數(shù)據(jù)處理計算框架。其中,MapReduce通過Map和Reduce兩個步驟實現(xiàn)交通數(shù)據(jù)的并行處理;Impala提供SQL語義,對存儲在Hadoop的HDFS和HBase中的PB級交通大數(shù)據(jù)實現(xiàn)交互式的快速查詢;利用Mahout提供的可擴展的機器學習和數(shù)據(jù)挖掘的分布式框架,實現(xiàn)交通大數(shù)據(jù)的并行分析與實時挖掘。
Storm平臺克服了Hadoop平臺不能有效適應實時數(shù)據(jù)處理的缺陷,提供全內(nèi)存計算,實現(xiàn)對流式交通數(shù)據(jù)的實時處理,它提供的輸入流組件Spout負責將數(shù)據(jù)傳遞給另一個組件Bolt并執(zhí)行任務,例如交通流數(shù)據(jù)的過濾、計算、訪問文件、數(shù)據(jù)庫等方面,并創(chuàng)建新的流作為下一個Bolt的輸入流。
數(shù)據(jù)展現(xiàn)層利用大數(shù)據(jù)分析工具實現(xiàn)結(jié)果數(shù)據(jù)的可視化,迅速有效地簡化提煉數(shù)據(jù)流,提供具有交互功能的動態(tài)圖表,幫助人們探索和解釋復雜的數(shù)據(jù),理解和分析數(shù)據(jù)的內(nèi)涵與特征,更好地從復雜數(shù)據(jù)中得到新的發(fā)現(xiàn)。
交通大數(shù)據(jù)處理體系框架
交通數(shù)據(jù)不僅量大而且異構(gòu)源多,實時性要求強,處理速度快,是典型的大數(shù)據(jù),如何利用好這些多源的大量數(shù)據(jù)為交通決策與誘導提供便利,有效緩解交通擁堵是交通領域的難題,也是智能交通首要解決的問題。在綜合考慮了交通數(shù)據(jù)的特性以及應用需求的基礎上,交通異構(gòu)數(shù)據(jù)源有結(jié)構(gòu)化的數(shù)據(jù)大部分都是非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)源主要包括無線射頻識別數(shù)據(jù)、視頻監(jiān)控、卡扣數(shù)據(jù)(包括ETC、交叉口信號燈等)、GPS軌跡數(shù)據(jù)、IC卡刷卡數(shù)據(jù)、交通應用服務數(shù)據(jù)等。
數(shù)據(jù)處理層是大數(shù)據(jù)處理體系框架的核心層,Sqoop整合數(shù)據(jù)源數(shù)據(jù),存儲于分布式數(shù)據(jù)庫HBase中。這里采用基于HDFS的HBase和Impala的存儲系統(tǒng),Impala提供實時的交互式SQL大數(shù)據(jù)查詢功能,直接從HBase中用SELECT、JOIN和統(tǒng)計函數(shù)查詢數(shù)據(jù),實現(xiàn)快速的大數(shù)據(jù)存儲和分析。
根據(jù)不同的交通需求,系統(tǒng)設計了兩套計算框架,MapReduce離線計算框架用作交通模型的預測和交通運行規(guī)律的挖掘,Storm實時交通流計算框架用于處理實時交通流數(shù)據(jù),并對交通流進行短期的預測,數(shù)據(jù)處理結(jié)果進行可視化分析,以動態(tài)圖表的形式展現(xiàn)給用戶。
交通大數(shù)據(jù)的處理就是要對數(shù)據(jù)進行深層分析、挖掘數(shù)據(jù)所蘊含的深層知識,尋找數(shù)據(jù)內(nèi)部隱藏的規(guī)律,這里主要包含居民日常出行行為、居民的出行模式、依據(jù)城市特點的交通運營決策及規(guī)劃、居民個體活動知識、城市的動態(tài)性特征、城市的空間分布規(guī)律等。對交通視頻及圖像采用CUDA架構(gòu),快速提取其特征和摘要以備挖掘分析,對卡扣和應用服務數(shù)據(jù)及GPS等數(shù)據(jù)基于MapReduce計算模型用Mahout進行并行分析與挖掘,形成知識,為智能交通系統(tǒng)提供更高層的應用與管理。
眾所周知,所有的研究都將歸結(jié)于應用,大數(shù)據(jù)為智能交通的進一步發(fā)展起到了極大的促進作用,主要產(chǎn)生了以下幾個方面的應用:交通擁堵自動檢測、路網(wǎng)地圖更新、交通供求分析、道路規(guī)劃、交通費用預測、實時路況展現(xiàn)、交通異常檢測、智能電子停車、出行信息服務、交通誘導等。數(shù)據(jù)是驅(qū)動智能交通發(fā)展的基礎,大數(shù)據(jù)技術(shù)的開發(fā)利用將為智能交通的進一步發(fā)展帶來質(zhì)的飛躍,同時為人們的生活帶來便捷。