国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)技術(shù)在智能交通系統(tǒng)中的應(yīng)用研究

2020-08-27 07:58鄭紹振遼寧金洋集團(tuán)信息技術(shù)有限公司
消費(fèi)導(dǎo)刊 2020年25期
關(guān)鍵詞:體系結(jié)構(gòu)交通預(yù)測(cè)

鄭紹振 遼寧金洋集團(tuán)信息技術(shù)有限公司

一、引言

近年來(lái),隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)絡(luò)應(yīng)用的普及,人們的生活、工作方式發(fā)生了改變。智能手機(jī)帶來(lái)的技術(shù)革命,每天在各行各業(yè)產(chǎn)生海量的數(shù)據(jù)。城市交通、高速公路、鐵路、航空等交通運(yùn)輸業(yè)從傳感器、感測(cè)移動(dòng)設(shè)備、照相機(jī)等各種設(shè)備采集大量的交通數(shù)據(jù)。智能交通系統(tǒng)(Intelligent Traffic Systems, ITS)是將先進(jìn)的信息技術(shù)、數(shù)據(jù)通信技術(shù)、傳感器技術(shù)、電子控制技術(shù)以及計(jì)算機(jī)技術(shù)等有效地綜合運(yùn)用于整個(gè)交通運(yùn)輸管理體系,從而建立起一種大范圍內(nèi)、全方位發(fā)揮作用的,實(shí)時(shí)、準(zhǔn)確、高效的綜合運(yùn)輸和管理系統(tǒng)[1]。智能交通系統(tǒng)需要處理各種設(shè)備收集的大量數(shù)據(jù),以進(jìn)行分析處理,為交通運(yùn)輸、道路規(guī)劃等提供輔助決策。

車(chē)輛的增多,使得城市交通擁堵日益嚴(yán)重,二氧化碳排放量嚴(yán)重超標(biāo),交通事故、環(huán)境污染等問(wèn)題已經(jīng)成為亟待解決的問(wèn)題,傳統(tǒng)的交通管理方式已不能滿足現(xiàn)代交通發(fā)展的需求。智能交通系統(tǒng)利用現(xiàn)代信息技術(shù)、基于交通大數(shù)據(jù)分析,改善城市交通網(wǎng)絡(luò)的效率,緩解城市交通問(wèn)題,減少不必要的損失并改善公共交通效率[2]。目前,車(chē)輛中的新型傳感器和通信功能交通基礎(chǔ)設(shè)施的建設(shè),現(xiàn)代信息應(yīng)用和通信技術(shù)等運(yùn)用在智能交通領(lǐng)域中,使得實(shí)時(shí)監(jiān)控車(chē)輛行駛速度、行駛路徑成為可能,使用這些數(shù)據(jù)實(shí)時(shí)評(píng)估城市道路交通狀況得以實(shí)現(xiàn)[3]。感測(cè)移動(dòng)設(shè)備、空中傳感技術(shù)、軟件日志、相機(jī)、麥克風(fēng)、射頻識(shí)別讀取器和無(wú)線傳感器網(wǎng)絡(luò)等設(shè)備無(wú)處不在的收集著各種信息,數(shù)據(jù)爆炸式地增長(zhǎng),如何處理和建模這些非結(jié)構(gòu)化的大量數(shù)據(jù),為智能交通系統(tǒng)提出了挑戰(zhàn)。

二、智能交通系統(tǒng)中的大數(shù)據(jù)特征

大數(shù)據(jù)一詞用于表示非常大和復(fù)雜的數(shù)據(jù)集,使用傳統(tǒng)的方法和工具無(wú)法正確處理。大數(shù)據(jù)代表資產(chǎn)具有高容量,高速度和多樣化的特點(diǎn),需要特定的技術(shù)和分析方法將其轉(zhuǎn)化為價(jià)值[4]。

智能交通系統(tǒng)融合了很多先進(jìn)技術(shù)包括電子傳感器技術(shù),數(shù)據(jù)傳輸技術(shù)和運(yùn)輸系統(tǒng)的智能控制技術(shù)等。智能交通系統(tǒng)包括六個(gè)基本組成部分:先進(jìn)的運(yùn)輸管理系統(tǒng)、智能出行信息系統(tǒng),先進(jìn)的車(chē)輛控制系統(tǒng),商務(wù)車(chē)輛管理、先進(jìn)的公共交通系統(tǒng)和先進(jìn)的城市交通系統(tǒng)。智能交通系統(tǒng)的數(shù)據(jù)每天在數(shù)以萬(wàn)億的產(chǎn)生,而且數(shù)據(jù)越來(lái)越復(fù)雜,綜合各種異構(gòu)數(shù)據(jù)源的數(shù)據(jù)來(lái)看,可以從數(shù)據(jù)種類(lèi)、數(shù)據(jù)量和速率三個(gè)方面來(lái)表示交通領(lǐng)域大數(shù)據(jù)的特點(diǎn)。

數(shù)據(jù)種類(lèi)是指交通大數(shù)據(jù)的數(shù)據(jù)格式和協(xié)議具有多樣性、異構(gòu)性。交通數(shù)據(jù)采集設(shè)備種類(lèi)繁多,包括傳感器、探測(cè)器、社交軟件等等,都能提供交通運(yùn)輸相關(guān)的數(shù)據(jù),并且數(shù)據(jù)質(zhì)量不一、類(lèi)型不同,這為如何融合及協(xié)調(diào)交通大數(shù)據(jù)帶來(lái)了困難。

數(shù)據(jù)量即數(shù)據(jù)體積,從收集到的不斷增加的數(shù)據(jù)中得出數(shù)據(jù)數(shù)量。各種軟硬件設(shè)備數(shù)據(jù)源采集的數(shù)據(jù)仍在不斷地增長(zhǎng),隨著交通工具、傳感器等數(shù)量的增長(zhǎng),運(yùn)輸數(shù)據(jù)也已經(jīng)大大地增長(zhǎng)。此外,當(dāng)定位裝置被使用時(shí),旅客、貨物、車(chē)輛會(huì)生成更多的數(shù)據(jù)。來(lái)自基礎(chǔ)設(shè)施、環(huán)境、氣象等方面監(jiān)測(cè)的數(shù)據(jù)也作為交通大數(shù)據(jù)中重要的一部分,為決策者提供數(shù)據(jù)支持。

速率指隨著通訊技術(shù)的發(fā)展交通數(shù)據(jù)采集的速度增快,數(shù)據(jù)采集、檢測(cè)和處理的能力和速度也增強(qiáng)。比如,目前應(yīng)用的電子售票及收費(fèi)交易系統(tǒng),可以立即生成記錄和報(bào)告,而傳統(tǒng)的人工紙質(zhì)售票,需要人工處理才能匯總交易數(shù)據(jù)。當(dāng)前的智能交通系統(tǒng)極大地提高了各種數(shù)據(jù)的處理效率。

三、大數(shù)據(jù)技術(shù)及研究方法

(一)大數(shù)據(jù)技術(shù)

智能交通系統(tǒng)能夠處理和建模大量原始流量數(shù)據(jù),其系統(tǒng)體系結(jié)構(gòu)需要考慮到數(shù)據(jù)質(zhì)量,適應(yīng)交通領(lǐng)域的現(xiàn)有數(shù)據(jù)標(biāo)準(zhǔn),保證數(shù)據(jù)之間的協(xié)調(diào),并且提供強(qiáng)大且可擴(kuò)展的存儲(chǔ)系統(tǒng)。開(kāi)發(fā)大數(shù)據(jù)融合和協(xié)調(diào)異構(gòu)數(shù)據(jù)、動(dòng)態(tài)的智能交通平臺(tái),共享各部門(mén)提供的交通運(yùn)輸數(shù)據(jù)流,解決數(shù)據(jù)互操作性是智能交通系統(tǒng)架構(gòu)首要解決的問(wèn)題。

目前大數(shù)據(jù)技術(shù)應(yīng)用較為廣泛的框架是來(lái)自Apache的Hadoop,Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,它運(yùn)用一種可靠、高效、可擴(kuò)展的方式進(jìn)行數(shù)據(jù)處理。Hadoop的并行工作方式、多個(gè)工作數(shù)據(jù)副本、依賴(lài)社區(qū)服務(wù)等特點(diǎn),使用戶可以輕松、便捷地在Hadoop上開(kāi)發(fā)、處理、運(yùn)行海量數(shù)據(jù)的應(yīng)用程序。Apache Spark是一個(gè)高級(jí)且完整的通用內(nèi)存并行計(jì)算框架,它包含Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件。它運(yùn)行在Hadoop上,但使用了另一種工作數(shù)據(jù)集,以及彈性分布式數(shù)據(jù)集(RDD),RDD可在發(fā)生故障后提供有效的恢復(fù)。Spark的另一個(gè)巨大優(yōu)勢(shì)是可以在內(nèi)存中運(yùn)行,在某些操作中效率更高。Apache Storm是一種免費(fèi)的開(kāi)源實(shí)時(shí)分布式計(jì)算系統(tǒng),專(zhuān)注于數(shù)據(jù)流處理或者一些調(diào)用復(fù)雜的事件處理。Storm用于實(shí)時(shí)分析,在線機(jī)器學(xué)習(xí),連續(xù)計(jì)算,分布式RPC,ETL等。Storm 速度非常快,并且可擴(kuò)展,確保數(shù)據(jù)得到實(shí)時(shí)處理,易于設(shè)置和操作。關(guān)于數(shù)據(jù)存儲(chǔ),常規(guī)SQL關(guān)系數(shù)據(jù)庫(kù)并不支持當(dāng)今的大數(shù)據(jù),通常采用NoSQL技術(shù)。大數(shù)據(jù)存儲(chǔ)方面,常用的工具有Hive,Cloudera,Cassandra和MongoDB。前兩個(gè)是基于Hadoop,后兩個(gè)基于NoSQL。

(二)研究方法

CRISP-DM是1999年首次發(fā)布的較為成熟的跨行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)挖掘過(guò)程的方法論。它分為六個(gè)步驟,(1)業(yè)務(wù)理解:主要理解業(yè)務(wù)需求,理解數(shù)據(jù)采集目標(biāo)和要求,及相關(guān)業(yè)務(wù)術(shù)語(yǔ)和技術(shù)術(shù)語(yǔ)。(2)數(shù)據(jù)理解:主要工作是數(shù)據(jù)收集,檢查數(shù)據(jù)質(zhì)量,發(fā)掘隱藏?cái)?shù)據(jù)信息。對(duì)數(shù)據(jù)進(jìn)行可用性評(píng)估,確定數(shù)據(jù)源級(jí)別。(3)數(shù)據(jù)準(zhǔn)備:最終數(shù)據(jù)的選擇和準(zhǔn)備數(shù)據(jù)集。此階段包括許多任務(wù),例如記錄,表和屬性選擇以及數(shù)據(jù)清理和數(shù)據(jù)轉(zhuǎn)換。(4)建模:選擇和應(yīng)用建模技術(shù),針對(duì)具體問(wèn)題設(shè)置不同的參數(shù),構(gòu)建不同的模型。(5)評(píng)估:評(píng)估所建模型和決策的準(zhǔn)確性及效率,給出模型算法使用結(jié)果,評(píng)估其是否實(shí)現(xiàn)了預(yù)期目標(biāo)。(6)部署:確定獲取的可能用到的知識(shí)和結(jié)果。這個(gè)階段還著重于組織,報(bào)告和展示發(fā)現(xiàn)的知識(shí)。

四、智能交通系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)

及時(shí)準(zhǔn)確的交通流信息為運(yùn)輸管理提供有價(jià)值的數(shù)據(jù)參考。智能交通系統(tǒng)中的大數(shù)據(jù)分析能夠進(jìn)行交通流量預(yù)測(cè)。本文以交通流量擁堵計(jì)算模型為應(yīng)用場(chǎng)景,提出一種有效提取、轉(zhuǎn)換和存儲(chǔ)數(shù)據(jù)的體系結(jié)構(gòu),體系結(jié)構(gòu)滿足以下技術(shù)要求:(1)能夠處理多種格式和大小的原始數(shù)據(jù);(2)確保數(shù)據(jù)質(zhì)量;(3)高效的大數(shù)據(jù)轉(zhuǎn)換和存儲(chǔ);(4)能夠在數(shù)據(jù)級(jí)別解決互操作性;(5)強(qiáng)大而高效的分布式存儲(chǔ)系統(tǒng),可擴(kuò)展,以便處理來(lái)自其他交通傳感器的數(shù)據(jù)。

(一)工作流程

本模型的原始數(shù)據(jù)集來(lái)源于交通部門(mén),數(shù)據(jù)集上傳到Hadoop數(shù)據(jù)系統(tǒng),并使用Hive數(shù)據(jù)轉(zhuǎn)換以進(jìn)行分析。本模型使用Python和Pandas庫(kù)完成對(duì)6268個(gè)JSON文件的解析,導(dǎo)出兩個(gè)CSV表文件,并將文件上傳到Hadoop文件系統(tǒng),使用HiveQL創(chuàng)建表結(jié)構(gòu),對(duì)數(shù)據(jù)進(jìn)行清洗,為數(shù)據(jù)分析和采樣創(chuàng)建匯總表,以便預(yù)測(cè)和輸出結(jié)果。大數(shù)據(jù)預(yù)測(cè)及分析的體系結(jié)構(gòu)如圖1所示。

圖1 大數(shù)據(jù)預(yù)測(cè)及分析體系結(jié)構(gòu)

輸出文件被下載到本地計(jì)算機(jī)后,能夠可視化顯示交通事故或交通擁堵?tīng)顟B(tài)。在預(yù)測(cè)模型中,需要對(duì)上傳的樣本數(shù)據(jù)集進(jìn)行應(yīng)用數(shù)據(jù)轉(zhuǎn)換,并將數(shù)據(jù)集切分為訓(xùn)練集和測(cè)試集,建模,預(yù)測(cè)及評(píng)估模型準(zhǔn)確性。大數(shù)據(jù)預(yù)測(cè)及分析的體系結(jié)構(gòu)如圖2所示。

(二)數(shù)據(jù)清洗

解析后的文件,上傳并存儲(chǔ)到Hadoop分布式文件系統(tǒng)中,用于數(shù)據(jù)分析。但是此時(shí)的數(shù)據(jù)文件中存在不準(zhǔn)確、不完整或不合理數(shù)據(jù),需要在數(shù)據(jù)集中發(fā)現(xiàn)并對(duì)這些數(shù)據(jù)進(jìn)行修補(bǔ)或移除以提高數(shù)據(jù)質(zhì)量。本體系結(jié)構(gòu)中,分為五步完成交通領(lǐng)域數(shù)據(jù)清洗工作,首先定義錯(cuò)誤類(lèi)型,其次搜索并標(biāo)識(shí)錯(cuò)誤實(shí)例,然后改正錯(cuò)誤,再次文檔記錄錯(cuò)誤實(shí)例和錯(cuò)誤類(lèi)型,最后修改數(shù)據(jù)、錄入程序。在數(shù)據(jù)清洗的過(guò)程中,特別注意數(shù)據(jù)格式檢查、數(shù)據(jù)完整性檢查、數(shù)據(jù)合理性檢查和極限檢查。

比如,采集的交通警報(bào)信息和個(gè)體車(chē)輛信息,兩者具有不同的數(shù)據(jù)格式,因?yàn)榻煌ň瘓?bào)信息可能是通過(guò)交通部門(mén)的應(yīng)用程序采集,例如道路擁堵、道路封閉、危險(xiǎn)路況、交通事故等數(shù)據(jù);另一個(gè)信息可能通過(guò)用戶的移動(dòng)設(shè)備采集,比如車(chē)輛的位置、速度、路線等。兩者設(shè)備和程序采集的信息格式不同,參數(shù)屬性不同,因此需要進(jìn)一步進(jìn)行數(shù)據(jù)清洗,以便后續(xù)進(jìn)行數(shù)據(jù)分析。本系統(tǒng)使用正則表達(dá)式,條件語(yǔ)句,子字符串,表聯(lián)接,日期和時(shí)間格式以及時(shí)間轉(zhuǎn)換等,清理并清除無(wú)關(guān)字段,使數(shù)據(jù)規(guī)范可用。此外,本體系結(jié)構(gòu)中還創(chuàng)建了一個(gè)摘要表來(lái)描繪有關(guān)流量的基本信息,匯總表來(lái)顯示按時(shí)間,天數(shù)交通擁堵的程度。

(三)數(shù)據(jù)分析及可視化顯示

清洗后的數(shù)據(jù)用于準(zhǔn)備進(jìn)一步分析,本系統(tǒng)采用Microsoft Excel和Power BI進(jìn)行數(shù)據(jù)可視化顯示。在設(shè)計(jì)可視化顯示過(guò)程中考慮不同的交互式視覺(jué)效果,來(lái)顯示交通事件。包括3D地理地圖顯示,通過(guò)帶有時(shí)間軸的動(dòng)畫(huà)地圖和熱圖來(lái)顯示交通堵塞情況,并報(bào)告事故數(shù)量和封路情況等。通過(guò)使用時(shí)間軸,我們建立一個(gè)隨時(shí)間變化的動(dòng)態(tài)地理地圖,顯示時(shí)間線在地圖上的流量。通過(guò)分析不同設(shè)備采集的數(shù)據(jù),可以顯示用戶端設(shè)備跟蹤的交通擁堵情況,交通事故報(bào)告;也可以按周或者按小時(shí)來(lái)顯示交通狀況。可視化顯示交通狀況讓用戶更直觀地了解交通情況。

(四)數(shù)據(jù)預(yù)測(cè)

智能交通系統(tǒng)中,交通堵塞數(shù)據(jù)集是從用戶設(shè)備的GPS中捕獲的,擁有超過(guò)9800萬(wàn)行數(shù)據(jù)。使用這個(gè)采樣數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)模型,數(shù)據(jù)集大小為10MB,以CSV格式保存,將訓(xùn)練數(shù)據(jù)集上傳到預(yù)測(cè)模型中。

對(duì)上傳后的樣本數(shù)據(jù)集計(jì)算和過(guò)濾不必要的列,選擇一個(gè)標(biāo)簽列用來(lái)記錄擁堵水平,用數(shù)字1―5來(lái)表示,1表示暢通無(wú)阻,5表示紅色飽和,此標(biāo)簽類(lèi)用來(lái)建立分類(lèi)模型。采用數(shù)據(jù)中存在數(shù)據(jù)不平衡情況,即水平1到水平5所占數(shù)據(jù)比例差距大,導(dǎo)致預(yù)測(cè)模型不準(zhǔn)確,因此對(duì)5類(lèi)數(shù)據(jù)進(jìn)行分組,分組后數(shù)據(jù)如果還存在偏差,則補(bǔ)充特殊時(shí)段采集的數(shù)據(jù)到數(shù)據(jù)集中。

在進(jìn)行模型訓(xùn)練之前,我們分別選擇數(shù)據(jù)集中90%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為測(cè)試集;和80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集。經(jīng)過(guò)多次迭代模型和訓(xùn)練,得出90%數(shù)據(jù)作為訓(xùn)練集預(yù)測(cè)更為準(zhǔn)確。通過(guò)調(diào)整模型參數(shù),確定參數(shù)最優(yōu)值。在評(píng)估驗(yàn)證階段,選取了分類(lèi)精度、精度/靈敏度、召回率三個(gè)指標(biāo)來(lái)驗(yàn)證模型預(yù)測(cè)結(jié)果。

五、結(jié)論

通過(guò)介紹大數(shù)據(jù)特征,及大數(shù)據(jù)平臺(tái)的相關(guān)技術(shù),本文介紹了智能交通系統(tǒng)體系結(jié)構(gòu)搭建過(guò)程,數(shù)據(jù)分析和預(yù)測(cè)過(guò)程。通過(guò)智能交通系統(tǒng),用戶能夠了解城市公路及高速公路上交通更擁擠時(shí)間;識(shí)別交通早、晚高峰時(shí)間,識(shí)別易擁堵道路和路段。智能交通系統(tǒng)的數(shù)據(jù)集是不斷變化的,因此本文智能交通平臺(tái)支持?jǐn)U展數(shù)據(jù)集,兵提供交互式工具,用于數(shù)據(jù)分析、處理和數(shù)據(jù)預(yù)測(cè)。未來(lái)進(jìn)一步的工作是豐富更大的數(shù)據(jù)集和更多的分類(lèi)模型,以便更準(zhǔn)確地分析和預(yù)測(cè)交通情況。隨著移動(dòng)應(yīng)用設(shè)備的普及,網(wǎng)絡(luò)基礎(chǔ)設(shè)施的升級(jí)換代,大數(shù)據(jù)處理和挖掘技術(shù)在智能交通領(lǐng)域的應(yīng)用將會(huì)越來(lái)越廣泛和深入,智能交通產(chǎn)業(yè)化發(fā)展將是未來(lái)的發(fā)展趨勢(shì)。

猜你喜歡
體系結(jié)構(gòu)交通預(yù)測(cè)
無(wú)可預(yù)測(cè)
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
繁忙的交通
小小交通勸導(dǎo)員
不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
基于粒計(jì)算的武器裝備體系結(jié)構(gòu)超網(wǎng)絡(luò)模型
作戰(zhàn)體系結(jié)構(gòu)穩(wěn)定性突變分析
基于DODAF的裝備體系結(jié)構(gòu)設(shè)計(jì)
基于云計(jì)算的航天器控制系統(tǒng)自組織體系結(jié)構(gòu)
景东| 新民市| 嘉禾县| 运城市| 双鸭山市| 邹平县| 秭归县| 高邮市| 和林格尔县| 合肥市| 平原县| 孟村| 朝阳市| 墨玉县| 宁德市| 重庆市| 临海市| 珠海市| 班戈县| 略阳县| 秦安县| 灌南县| 绍兴市| 托克托县| 航空| 宜川县| 冕宁县| 神农架林区| 万山特区| 宁乡县| 彭泽县| 海林市| 化隆| 崇左市| 固镇县| 泸定县| 大庆市| 来凤县| 桂平市| 高尔夫| 温泉县|