国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop平臺(tái)的交通大數(shù)據(jù)智能特征分析研究

2020-07-03 08:09:24閆鵬張林
關(guān)鍵詞:詞頻特征分析機(jī)動(dòng)車

閆鵬,張林

(華北理工大學(xué) 建筑工程學(xué)院,河北 唐山 063210)

0 引言

上世紀(jì)80年代以來,我國(guó)智能交通系統(tǒng)逐步加速發(fā)展,目前,在城市交通管理、交通控制以及交通規(guī)劃等領(lǐng)域智能交通系統(tǒng)得到廣泛應(yīng)用。在城市智能交通系統(tǒng)的發(fā)展過程中,雖然城市道路交通擁堵的緊張形勢(shì)得到了有效緩解,但是通過車輛檢測(cè)器、電子警察抓拍以及GPS定位系統(tǒng)等智能交通數(shù)據(jù)采集設(shè)備產(chǎn)生了數(shù)據(jù)量巨大的交通數(shù)據(jù),主要包含交通流量、道路事故以及車輛違法數(shù)據(jù),然而,交通大數(shù)據(jù)隱藏的價(jià)值信息尚未得到有效挖掘。

面對(duì)交通大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、處理以及分析方法已經(jīng)不能充分挖掘出具有高價(jià)值密度的數(shù)據(jù)信息。因此,目前城市交通系統(tǒng)面臨數(shù)據(jù)種類繁多以及價(jià)值密度較低等諸多問題,如何智能化分析交通大數(shù)據(jù),成為制約實(shí)現(xiàn)城市交通良好發(fā)展目標(biāo)的瓶頸,必須積極采取有效措施加以解決。通過采用合適高效的數(shù)據(jù)挖掘方法,分析交通流量、道路事故以及車輛違法數(shù)據(jù)的時(shí)間或者空間特征,力爭(zhēng)為城市交警部門準(zhǔn)確判斷道路交通運(yùn)行狀態(tài)效果、道路事故和車輛違法預(yù)警提供具有參考價(jià)值的建議[1-3]。

當(dāng)今,以Hadoop大數(shù)據(jù)平臺(tái)為代表的新興大數(shù)據(jù)技術(shù)在處理大數(shù)據(jù)時(shí)表現(xiàn)不凡,為高效分析交通大數(shù)據(jù)難題提供了有效解決途徑。通過采用Hadoop大數(shù)據(jù)平臺(tái)智能分析城市交通大數(shù)據(jù)時(shí)空分布特征,可以深度挖掘交通大數(shù)據(jù)的潛在價(jià)值信息,為城市交通管理提供理論及技術(shù)支持,有效提升城市交通系統(tǒng)管理水平[4-5]。

1 研究基礎(chǔ)

1.1 詞頻統(tǒng)計(jì)方法

1997年,加拿大Robert教授首次應(yīng)用詞頻統(tǒng)計(jì)方法[6-7]解決了所在領(lǐng)域研究的熱點(diǎn)問題,2002年,國(guó)內(nèi)梁立明和邱均平2位教授首次采用詞頻統(tǒng)計(jì)方法分析相關(guān)問題的發(fā)展?fàn)顩r以及變化趨勢(shì)。在諸多專業(yè)領(lǐng)域數(shù)據(jù)特征分析挖掘研究時(shí),詞頻統(tǒng)計(jì)方法得到了廣泛的應(yīng)用。詞頻統(tǒng)計(jì)方法的原理即根據(jù)用戶需求統(tǒng)計(jì)指定關(guān)鍵詞的頻率,并按照指定的關(guān)鍵詞頻率高低排列,進(jìn)而分析所研究問題的本質(zhì)特征。該方法的實(shí)質(zhì)在于統(tǒng)計(jì)規(guī)定的文件內(nèi)特定詞語出現(xiàn)的頻率,可根據(jù)分析統(tǒng)計(jì)結(jié)果得到特定詞語的分布特征規(guī)律。

目前,應(yīng)用詞頻統(tǒng)計(jì)方法挖掘數(shù)據(jù)方式主要為人工統(tǒng)計(jì),此種方式極大降低了大數(shù)據(jù)計(jì)算效率。此外,詞頻統(tǒng)計(jì)分析小樣本量數(shù)據(jù)不足以說明數(shù)據(jù)分布特征,必須具備充足數(shù)據(jù)量才可明確數(shù)據(jù)的隱藏的價(jià)值信息,因此,該方法適用于交通大數(shù)據(jù)的智能特征分析研究。

1.2 Hadoop平臺(tái)搭建

由于CentOS7系統(tǒng)具有良好的穩(wěn)定性以及極高的安全性等優(yōu)勢(shì),因此,選擇CentOS7系統(tǒng)作為Hadoop集群運(yùn)行環(huán)境,并安裝配置相應(yīng)的基礎(chǔ)運(yùn)行文件,保障Hadoop集群正常運(yùn)行。交通大數(shù)據(jù)智能特征分析需要不斷調(diào)試編譯MapReduce程序以及綜合考慮數(shù)據(jù)分析平臺(tái)前期開發(fā)和后期Hadoop集群部署的便捷性,因此,Hadoop集群采用偽分布式安裝模式部署。偽分布Hadoop集群軟件[8-11]配置如表1所示。

表1 Hadoop集群軟件配置

Hadoop集群正常運(yùn)行需要安裝合適JDK(Java Development Kit)開發(fā)環(huán)境,因此,下載JDK1.8版本壓縮包并安裝,在CentOS7.2操作系統(tǒng)中終端輸入java-version命令查看JDK是否成功安裝,圖1所示表明JDK 1.8成功安裝。

圖1 JDK成功安裝界面

在上述步驟安裝之后,即可安裝配置Hadoop集群,Hadoop集群配置文件分別為core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件以及yarn-site.xml文件配置。Hadoop集群主要文件完成環(huán)境配置,運(yùn)行CentOS7.2操作系統(tǒng)終端輸入./start-all.sh命令查看偽分布式Hadoop集群是否可以正常啟動(dòng),輸入jps查看Hadoop集群所有進(jìn)程進(jìn)程是否配置成功。Hadoop集群節(jié)點(diǎn)正常啟動(dòng)如圖2所示。

圖2 Hadoop集群正常啟動(dòng)

2 交通大數(shù)據(jù)智能特征分析實(shí)現(xiàn)

基于Hadoop平臺(tái)的交通大數(shù)據(jù)智能特征分析研究,主要包含3個(gè)關(guān)鍵步驟,分別為讀取配置文件、創(chuàng)建Job(設(shè)置Job運(yùn)行主類)以及設(shè)置Job,其中,設(shè)置Job步驟主要包含Input和Output階段、Map階段、Shuffle階段以及Reduce階段。詞頻統(tǒng)計(jì)MapReduce實(shí)現(xiàn)流程如圖3所示。

(1)Input和Output階段

Input階段負(fù)責(zé)指定文件的輸入目錄位置以及將數(shù)據(jù)文件劃分為N個(gè)片段,片段的大小應(yīng)和HDFS分布式文件系統(tǒng)的Block大小(64MB)相符合。Output階段主要負(fù)責(zé)整理以及輸出數(shù)據(jù),并將輸出文件存儲(chǔ)于指定目錄位置。

(2)Map階段

該階段以解析以及實(shí)現(xiàn)Map函數(shù)為核心,計(jì)算處理輸入數(shù)據(jù)片段的鍵值對(duì),將計(jì)算結(jié)果以另一種鍵值對(duì)格式輸出。

(3)Shuffle階段

將Map階段具有相同key值的鍵值對(duì)劃分為一組,并將具有相同key值的數(shù)據(jù)傳遞至相同的Reduce階段。

(4)Reduce階段

根據(jù)Reduce函數(shù)處理具有相同key值的鍵值對(duì),并將最終分析結(jié)果寫入HDFS分布式文件系統(tǒng)存儲(chǔ)。

圖3 詞頻統(tǒng)計(jì)MapReduce實(shí)現(xiàn)流程

3 實(shí)例分析

3.1 數(shù)據(jù)來源

城市交通數(shù)據(jù)主要包含交通流量數(shù)據(jù)、道路事故數(shù)據(jù)以及車輛違法數(shù)據(jù)3種數(shù)據(jù),由于所研究的城市交通數(shù)據(jù)采集設(shè)備受限以及保密性原則等原因,該項(xiàng)研究主要以城市交通道路事故數(shù)據(jù)為例,開展基于Hadoop平臺(tái)的交通大數(shù)據(jù)智能特征分析研究,力爭(zhēng)通過分析道路事故數(shù)據(jù)的時(shí)空分布特征規(guī)律,為城市交通管理良好發(fā)展提供技術(shù)以及數(shù)據(jù)支持。

采集的道路事故數(shù)據(jù)來源于某市交警支隊(duì)所屬城市道路事故數(shù)據(jù)管理系統(tǒng),采集時(shí)間間隔為2019年1月1日至8月31日,共計(jì)30903起道路交通事故,包含8個(gè)月的交通事故的報(bào)警時(shí)間、地址類型、事發(fā)地址、報(bào)警細(xì)類(事故類型)等內(nèi)容,并將采集的數(shù)據(jù)存儲(chǔ)在HDFS分布式文件系統(tǒng),道路事故數(shù)據(jù)示例以及數(shù)據(jù)項(xiàng)描述分別如表2和表3所示。

表2 道路事故數(shù)據(jù)示例

表3 道路事故數(shù)據(jù)項(xiàng)描述

3.2 交通事故大數(shù)據(jù)智能特征分析

3.2.1 時(shí)間特征分析

(1)小時(shí)特征分析

根據(jù)Hadoop數(shù)據(jù)平臺(tái)智能分析存儲(chǔ)于HDFS分布式文件系統(tǒng)的道路事故數(shù)據(jù),道路事故發(fā)生數(shù)小時(shí)分布的結(jié)果如圖4所示。從小時(shí)分布特征角度分析,道路事故發(fā)生數(shù)小時(shí)分布呈波動(dòng)式變化趨勢(shì),在上午9時(shí)事故發(fā)生數(shù)達(dá)到最大值為2 473起,凌晨4時(shí)事故數(shù)達(dá)到最小值為77起。上午7時(shí)至晚上19時(shí)時(shí)間段內(nèi),不同小時(shí)事故發(fā)生數(shù)高于小時(shí)事故發(fā)生次數(shù)平均值1 287起。此外,上午8時(shí)至中午11時(shí)以及下午17時(shí)至18時(shí),兩個(gè)時(shí)間段內(nèi)不同小時(shí)事故數(shù)均達(dá)到2 000起以上,屬于道路事故發(fā)生率較高時(shí)段。

圖4 道路事故發(fā)生數(shù)小時(shí)分布

從報(bào)警細(xì)類發(fā)生數(shù)角度分析,不同小時(shí)報(bào)警細(xì)類主要以機(jī)動(dòng)車與機(jī)動(dòng)車以及機(jī)動(dòng)車與非機(jī)動(dòng)車報(bào)警細(xì)類居多,非機(jī)動(dòng)車與行人報(bào)警細(xì)類占比相對(duì)于其它報(bào)警細(xì)類較少;根據(jù)不同報(bào)警細(xì)類發(fā)生數(shù)小時(shí)分布圖5可知,不同報(bào)警細(xì)類發(fā)生數(shù)最低值均處于夜晚0時(shí)至凌晨4時(shí),然而,單車肇事以及非機(jī)動(dòng)車與行人報(bào)警細(xì)類發(fā)生數(shù)最大值,分別處于下午15時(shí)以及上午9時(shí),其它4種報(bào)警細(xì)類均處于8時(shí),在7時(shí)至21時(shí)時(shí)間段內(nèi)不同報(bào)警細(xì)類發(fā)生數(shù)高于其它時(shí)段。

圖5 不同報(bào)警細(xì)類發(fā)生數(shù)小時(shí)分布

(2)日特征分析

分析道路事故發(fā)生數(shù)時(shí)間特征分布,不僅可通過小時(shí)周分布體現(xiàn),也可以通過統(tǒng)計(jì)分析日期分布特征體現(xiàn),通過編寫并運(yùn)行MapReduce程序?qū)Σ煌掌诘缆肥鹿拾l(fā)生數(shù)分類統(tǒng)計(jì),具體統(tǒng)計(jì)分析結(jié)果如圖6和圖7所示。根據(jù)道路事故發(fā)生數(shù)日期分布圖6可知,不同日期道路事故發(fā)生數(shù)基本在均值997起(占比3%)上下浮動(dòng),事故發(fā)生數(shù)日期分布相對(duì)穩(wěn)定。但是,不同日期的事故發(fā)生率較高,多數(shù)日期發(fā)生的事故數(shù)在970起以上,13日至26日期間事故發(fā)生數(shù)略高于其它日期,17日發(fā)生道路事故發(fā)生數(shù)最多共1086起,日期事故數(shù)占比達(dá)4%。

圖6 道路事故發(fā)生數(shù)日期分布

從不同報(bào)警細(xì)類發(fā)生數(shù)角度分析,由圖7可知,不同報(bào)警細(xì)類發(fā)生數(shù)日期分布整體相對(duì)穩(wěn)定,不同日期的報(bào)警細(xì)類主要以機(jī)動(dòng)車與機(jī)動(dòng)車以及非機(jī)動(dòng)車與機(jī)動(dòng)車類型居多,機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類日期發(fā)生數(shù)均值為677起,多半數(shù)日期機(jī)動(dòng)車與機(jī)動(dòng)車發(fā)生數(shù)超過該報(bào)警細(xì)類發(fā)生數(shù)均值,尤其在1日、10日、15日至17日以及24日至25日等12 d該報(bào)警細(xì)類發(fā)生數(shù)均在700起及以上,屬于機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類高發(fā)日期。非機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類發(fā)生數(shù)分布基本在均值199起上下變化,在23日該報(bào)警細(xì)類發(fā)生數(shù)達(dá)到日期分布最高值為234起。此外,諸如單車肇事以及非機(jī)動(dòng)車與非動(dòng)車報(bào)警細(xì)類日期發(fā)生數(shù)均在60起以下,與機(jī)動(dòng)車與機(jī)動(dòng)車以及非機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類相比而言,屬于低發(fā)報(bào)警細(xì)類類型。

圖7 不同報(bào)警細(xì)類發(fā)生數(shù)日期分布

(3)周特征分析

采用Hadoop數(shù)據(jù)平臺(tái)智能詞頻統(tǒng)計(jì)道路事故發(fā)生數(shù),道路事故發(fā)生數(shù)以及不同報(bào)警細(xì)發(fā)生數(shù)周分布分別如圖8和圖9所示。根據(jù)事故發(fā)生數(shù)周分布圖8可知,道路事故發(fā)生數(shù)周分布差異性較大,例如,周二事故發(fā)生數(shù)和周六事故發(fā)生數(shù)相差約600起。對(duì)比道路事故發(fā)生數(shù)周分布也可知,周五和周六道路事故發(fā)生數(shù)較高,周二和周日道路事故數(shù)較低,周六為道路事故發(fā)生數(shù)周分布最大值,周二道路事故發(fā)生數(shù)為周分布最低值。

根據(jù)不同報(bào)警細(xì)類發(fā)生數(shù)周分布圖9可知,不同報(bào)警細(xì)類周分布特征相對(duì)穩(wěn)定。與其它報(bào)警細(xì)類相比,不同報(bào)警細(xì)類發(fā)生數(shù)周分布中機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類占比最高,非機(jī)動(dòng)車與行人報(bào)警細(xì)類占比最低。此外,在周五非機(jī)動(dòng)車與非機(jī)動(dòng)車、非機(jī)動(dòng)車與行人以及機(jī)動(dòng)車與行人報(bào)警細(xì)類發(fā)生數(shù)均達(dá)到最高值,單車肇事、機(jī)動(dòng)車與非機(jī)動(dòng)車以及機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類發(fā)生數(shù)分別在周一、周三以及周六達(dá)到最高值。

圖8 道路事故發(fā)生數(shù)周分布

圖9 不同報(bào)警細(xì)類發(fā)生數(shù)周分布

3.2.2空間分布特征

根據(jù)采集的道路事故數(shù)據(jù)以及實(shí)地調(diào)研結(jié)果可知,該市交警部門主要將主城區(qū)劃分為5個(gè)管轄區(qū)域,因此,將道路事故數(shù)按照不同區(qū)域以及不同報(bào)警細(xì)類分類統(tǒng)計(jì),以便分析不同區(qū)域事故形態(tài)特征分布規(guī)律,經(jīng)過Hadoop數(shù)據(jù)平臺(tái)智能詞頻統(tǒng)計(jì)分析結(jié)果如圖10所示。

圖10 道路事故發(fā)生數(shù)區(qū)域分布

從區(qū)域事故發(fā)生數(shù)角度分析,由圖10可知,該市道路事故主要發(fā)生B區(qū)域以及E區(qū)域,2個(gè)區(qū)域事故發(fā)生數(shù)占比高于其它區(qū)域事故發(fā)生數(shù)占比,B區(qū)域事故發(fā)生數(shù)9 038起,屬于道路事故高發(fā)區(qū)域。根據(jù)不同報(bào)警細(xì)類區(qū)域分布表4可知,5個(gè)管轄區(qū)域不同報(bào)警細(xì)類分布規(guī)律較為明顯且變化趨勢(shì)相對(duì)穩(wěn)定。在5個(gè)管轄區(qū)域中,機(jī)動(dòng)車與機(jī)動(dòng)車、機(jī)動(dòng)車與非機(jī)動(dòng)車仍然屬于報(bào)警細(xì)類高發(fā)類型,2種報(bào)警細(xì)類發(fā)生數(shù)占比分別在67%和20%左右變化,高于其它3種報(bào)警細(xì)類發(fā)生數(shù)占比。其中,在B區(qū)域以及E區(qū)域機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類發(fā)生數(shù)均達(dá)到6 000起,高于其它5種報(bào)警細(xì)類發(fā)生數(shù)占比。此外,不同區(qū)域非機(jī)動(dòng)車與行人報(bào)警細(xì)類發(fā)生數(shù)占比均為1%,低于其它報(bào)警細(xì)類發(fā)生數(shù),屬于低發(fā)報(bào)警細(xì)類類型。

表4 不同報(bào)警細(xì)類區(qū)域分布

4 結(jié)論

(1)基于大數(shù)據(jù)分布式并行計(jì)算技術(shù),采用HDFS分布式文件系統(tǒng)實(shí)現(xiàn)了城市交通道路事故大數(shù)據(jù)的分布式存儲(chǔ);采用MapReduce分布式計(jì)算框架并行化詞頻統(tǒng)計(jì)方法的技術(shù),以某城市道路事故數(shù)據(jù)為例,從道路事故發(fā)生數(shù)以及報(bào)警細(xì)類2個(gè)方面,智能分析了道路事故數(shù)據(jù)的時(shí)空分布特征,明確了道路事故時(shí)間分布特征和空間分布特征規(guī)律。

(2)根據(jù)道路事故特征分析結(jié)果可知,從城市道路事故發(fā)生數(shù)角度分析,道路事故發(fā)生數(shù)小時(shí)分布呈波動(dòng)式變化趨勢(shì),上午8時(shí)至中午11時(shí)以及下午17時(shí)至18時(shí),屬于道路事故發(fā)生率較高時(shí)段;道路事故發(fā)生數(shù)日分布相對(duì)穩(wěn)定,13日至26日期間事故發(fā)生數(shù)略高于其它日期;道路事故發(fā)生數(shù)周分布相對(duì)穩(wěn)定,周五和周六道路事故發(fā)生數(shù)較高,周二和周日道路事故數(shù)較低;道路事故主要發(fā)生B區(qū)域以及E區(qū)域,2個(gè)區(qū)域事故發(fā)生數(shù)占比高于其它區(qū)域事故發(fā)生數(shù)占比。此外,從城市道路事故報(bào)警細(xì)類角度分析,城市道路事故主要以機(jī)動(dòng)車與機(jī)動(dòng)車、機(jī)動(dòng)車與非機(jī)動(dòng)車2種報(bào)警細(xì)類為主,非機(jī)動(dòng)車與行人報(bào)警細(xì)類為報(bào)警細(xì)類低發(fā)事故類型。

猜你喜歡
詞頻特征分析機(jī)動(dòng)車
讓機(jī)動(dòng)車交通安全統(tǒng)籌更
公民與法治(2022年7期)2022-07-22 07:12:22
由一起廠內(nèi)機(jī)動(dòng)車事故引發(fā)的思考
基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
鐵路機(jī)動(dòng)車管理信息系統(tǒng)
電子制作(2019年24期)2019-02-23 13:22:30
2012 年南海夏季風(fēng)特征分析
基于PowerPC的脈內(nèi)特征分析算法的工程實(shí)現(xiàn)
詞頻,一部隱秘的歷史
云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
圖書館論壇(2014年8期)2014-03-11 18:47:59
不良汽車駕駛行為特征分析
河南科技(2014年16期)2014-02-27 14:13:27
恩施市| 博爱县| 辉南县| 临夏县| 西华县| 天台县| 河南省| 黄浦区| 邵东县| 大港区| 新化县| 天柱县| 宝兴县| 新巴尔虎右旗| 夏河县| 如皋市| 凤台县| 清流县| 卢湾区| 磴口县| 涞水县| 鲜城| 桑日县| 册亨县| 蕲春县| 云霄县| 高雄县| 鲁甸县| 阿拉善右旗| 健康| 盐津县| 延寿县| 沙雅县| 南安市| 筠连县| 兴海县| 阳高县| 盘锦市| 哈巴河县| 万全县| 轮台县|