閆鵬,張林
(華北理工大學(xué) 建筑工程學(xué)院,河北 唐山 063210)
上世紀(jì)80年代以來,我國(guó)智能交通系統(tǒng)逐步加速發(fā)展,目前,在城市交通管理、交通控制以及交通規(guī)劃等領(lǐng)域智能交通系統(tǒng)得到廣泛應(yīng)用。在城市智能交通系統(tǒng)的發(fā)展過程中,雖然城市道路交通擁堵的緊張形勢(shì)得到了有效緩解,但是通過車輛檢測(cè)器、電子警察抓拍以及GPS定位系統(tǒng)等智能交通數(shù)據(jù)采集設(shè)備產(chǎn)生了數(shù)據(jù)量巨大的交通數(shù)據(jù),主要包含交通流量、道路事故以及車輛違法數(shù)據(jù),然而,交通大數(shù)據(jù)隱藏的價(jià)值信息尚未得到有效挖掘。
面對(duì)交通大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、處理以及分析方法已經(jīng)不能充分挖掘出具有高價(jià)值密度的數(shù)據(jù)信息。因此,目前城市交通系統(tǒng)面臨數(shù)據(jù)種類繁多以及價(jià)值密度較低等諸多問題,如何智能化分析交通大數(shù)據(jù),成為制約實(shí)現(xiàn)城市交通良好發(fā)展目標(biāo)的瓶頸,必須積極采取有效措施加以解決。通過采用合適高效的數(shù)據(jù)挖掘方法,分析交通流量、道路事故以及車輛違法數(shù)據(jù)的時(shí)間或者空間特征,力爭(zhēng)為城市交警部門準(zhǔn)確判斷道路交通運(yùn)行狀態(tài)效果、道路事故和車輛違法預(yù)警提供具有參考價(jià)值的建議[1-3]。
當(dāng)今,以Hadoop大數(shù)據(jù)平臺(tái)為代表的新興大數(shù)據(jù)技術(shù)在處理大數(shù)據(jù)時(shí)表現(xiàn)不凡,為高效分析交通大數(shù)據(jù)難題提供了有效解決途徑。通過采用Hadoop大數(shù)據(jù)平臺(tái)智能分析城市交通大數(shù)據(jù)時(shí)空分布特征,可以深度挖掘交通大數(shù)據(jù)的潛在價(jià)值信息,為城市交通管理提供理論及技術(shù)支持,有效提升城市交通系統(tǒng)管理水平[4-5]。
1997年,加拿大Robert教授首次應(yīng)用詞頻統(tǒng)計(jì)方法[6-7]解決了所在領(lǐng)域研究的熱點(diǎn)問題,2002年,國(guó)內(nèi)梁立明和邱均平2位教授首次采用詞頻統(tǒng)計(jì)方法分析相關(guān)問題的發(fā)展?fàn)顩r以及變化趨勢(shì)。在諸多專業(yè)領(lǐng)域數(shù)據(jù)特征分析挖掘研究時(shí),詞頻統(tǒng)計(jì)方法得到了廣泛的應(yīng)用。詞頻統(tǒng)計(jì)方法的原理即根據(jù)用戶需求統(tǒng)計(jì)指定關(guān)鍵詞的頻率,并按照指定的關(guān)鍵詞頻率高低排列,進(jìn)而分析所研究問題的本質(zhì)特征。該方法的實(shí)質(zhì)在于統(tǒng)計(jì)規(guī)定的文件內(nèi)特定詞語出現(xiàn)的頻率,可根據(jù)分析統(tǒng)計(jì)結(jié)果得到特定詞語的分布特征規(guī)律。
目前,應(yīng)用詞頻統(tǒng)計(jì)方法挖掘數(shù)據(jù)方式主要為人工統(tǒng)計(jì),此種方式極大降低了大數(shù)據(jù)計(jì)算效率。此外,詞頻統(tǒng)計(jì)分析小樣本量數(shù)據(jù)不足以說明數(shù)據(jù)分布特征,必須具備充足數(shù)據(jù)量才可明確數(shù)據(jù)的隱藏的價(jià)值信息,因此,該方法適用于交通大數(shù)據(jù)的智能特征分析研究。
由于CentOS7系統(tǒng)具有良好的穩(wěn)定性以及極高的安全性等優(yōu)勢(shì),因此,選擇CentOS7系統(tǒng)作為Hadoop集群運(yùn)行環(huán)境,并安裝配置相應(yīng)的基礎(chǔ)運(yùn)行文件,保障Hadoop集群正常運(yùn)行。交通大數(shù)據(jù)智能特征分析需要不斷調(diào)試編譯MapReduce程序以及綜合考慮數(shù)據(jù)分析平臺(tái)前期開發(fā)和后期Hadoop集群部署的便捷性,因此,Hadoop集群采用偽分布式安裝模式部署。偽分布Hadoop集群軟件[8-11]配置如表1所示。
表1 Hadoop集群軟件配置
Hadoop集群正常運(yùn)行需要安裝合適JDK(Java Development Kit)開發(fā)環(huán)境,因此,下載JDK1.8版本壓縮包并安裝,在CentOS7.2操作系統(tǒng)中終端輸入java-version命令查看JDK是否成功安裝,圖1所示表明JDK 1.8成功安裝。
圖1 JDK成功安裝界面
在上述步驟安裝之后,即可安裝配置Hadoop集群,Hadoop集群配置文件分別為core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件以及yarn-site.xml文件配置。Hadoop集群主要文件完成環(huán)境配置,運(yùn)行CentOS7.2操作系統(tǒng)終端輸入./start-all.sh命令查看偽分布式Hadoop集群是否可以正常啟動(dòng),輸入jps查看Hadoop集群所有進(jìn)程進(jìn)程是否配置成功。Hadoop集群節(jié)點(diǎn)正常啟動(dòng)如圖2所示。
圖2 Hadoop集群正常啟動(dòng)
基于Hadoop平臺(tái)的交通大數(shù)據(jù)智能特征分析研究,主要包含3個(gè)關(guān)鍵步驟,分別為讀取配置文件、創(chuàng)建Job(設(shè)置Job運(yùn)行主類)以及設(shè)置Job,其中,設(shè)置Job步驟主要包含Input和Output階段、Map階段、Shuffle階段以及Reduce階段。詞頻統(tǒng)計(jì)MapReduce實(shí)現(xiàn)流程如圖3所示。
(1)Input和Output階段
Input階段負(fù)責(zé)指定文件的輸入目錄位置以及將數(shù)據(jù)文件劃分為N個(gè)片段,片段的大小應(yīng)和HDFS分布式文件系統(tǒng)的Block大小(64MB)相符合。Output階段主要負(fù)責(zé)整理以及輸出數(shù)據(jù),并將輸出文件存儲(chǔ)于指定目錄位置。
(2)Map階段
該階段以解析以及實(shí)現(xiàn)Map函數(shù)為核心,計(jì)算處理輸入數(shù)據(jù)片段的鍵值對(duì)
(3)Shuffle階段
將Map階段具有相同key值的鍵值對(duì)劃分為一組,并將具有相同key值的數(shù)據(jù)傳遞至相同的Reduce階段。
(4)Reduce階段
根據(jù)Reduce函數(shù)處理具有相同key值的鍵值對(duì),并將最終分析結(jié)果寫入HDFS分布式文件系統(tǒng)存儲(chǔ)。
圖3 詞頻統(tǒng)計(jì)MapReduce實(shí)現(xiàn)流程
城市交通數(shù)據(jù)主要包含交通流量數(shù)據(jù)、道路事故數(shù)據(jù)以及車輛違法數(shù)據(jù)3種數(shù)據(jù),由于所研究的城市交通數(shù)據(jù)采集設(shè)備受限以及保密性原則等原因,該項(xiàng)研究主要以城市交通道路事故數(shù)據(jù)為例,開展基于Hadoop平臺(tái)的交通大數(shù)據(jù)智能特征分析研究,力爭(zhēng)通過分析道路事故數(shù)據(jù)的時(shí)空分布特征規(guī)律,為城市交通管理良好發(fā)展提供技術(shù)以及數(shù)據(jù)支持。
采集的道路事故數(shù)據(jù)來源于某市交警支隊(duì)所屬城市道路事故數(shù)據(jù)管理系統(tǒng),采集時(shí)間間隔為2019年1月1日至8月31日,共計(jì)30903起道路交通事故,包含8個(gè)月的交通事故的報(bào)警時(shí)間、地址類型、事發(fā)地址、報(bào)警細(xì)類(事故類型)等內(nèi)容,并將采集的數(shù)據(jù)存儲(chǔ)在HDFS分布式文件系統(tǒng),道路事故數(shù)據(jù)示例以及數(shù)據(jù)項(xiàng)描述分別如表2和表3所示。
表2 道路事故數(shù)據(jù)示例
表3 道路事故數(shù)據(jù)項(xiàng)描述
3.2.1 時(shí)間特征分析
(1)小時(shí)特征分析
根據(jù)Hadoop數(shù)據(jù)平臺(tái)智能分析存儲(chǔ)于HDFS分布式文件系統(tǒng)的道路事故數(shù)據(jù),道路事故發(fā)生數(shù)小時(shí)分布的結(jié)果如圖4所示。從小時(shí)分布特征角度分析,道路事故發(fā)生數(shù)小時(shí)分布呈波動(dòng)式變化趨勢(shì),在上午9時(shí)事故發(fā)生數(shù)達(dá)到最大值為2 473起,凌晨4時(shí)事故數(shù)達(dá)到最小值為77起。上午7時(shí)至晚上19時(shí)時(shí)間段內(nèi),不同小時(shí)事故發(fā)生數(shù)高于小時(shí)事故發(fā)生次數(shù)平均值1 287起。此外,上午8時(shí)至中午11時(shí)以及下午17時(shí)至18時(shí),兩個(gè)時(shí)間段內(nèi)不同小時(shí)事故數(shù)均達(dá)到2 000起以上,屬于道路事故發(fā)生率較高時(shí)段。
圖4 道路事故發(fā)生數(shù)小時(shí)分布
從報(bào)警細(xì)類發(fā)生數(shù)角度分析,不同小時(shí)報(bào)警細(xì)類主要以機(jī)動(dòng)車與機(jī)動(dòng)車以及機(jī)動(dòng)車與非機(jī)動(dòng)車報(bào)警細(xì)類居多,非機(jī)動(dòng)車與行人報(bào)警細(xì)類占比相對(duì)于其它報(bào)警細(xì)類較少;根據(jù)不同報(bào)警細(xì)類發(fā)生數(shù)小時(shí)分布圖5可知,不同報(bào)警細(xì)類發(fā)生數(shù)最低值均處于夜晚0時(shí)至凌晨4時(shí),然而,單車肇事以及非機(jī)動(dòng)車與行人報(bào)警細(xì)類發(fā)生數(shù)最大值,分別處于下午15時(shí)以及上午9時(shí),其它4種報(bào)警細(xì)類均處于8時(shí),在7時(shí)至21時(shí)時(shí)間段內(nèi)不同報(bào)警細(xì)類發(fā)生數(shù)高于其它時(shí)段。
圖5 不同報(bào)警細(xì)類發(fā)生數(shù)小時(shí)分布
(2)日特征分析
分析道路事故發(fā)生數(shù)時(shí)間特征分布,不僅可通過小時(shí)周分布體現(xiàn),也可以通過統(tǒng)計(jì)分析日期分布特征體現(xiàn),通過編寫并運(yùn)行MapReduce程序?qū)Σ煌掌诘缆肥鹿拾l(fā)生數(shù)分類統(tǒng)計(jì),具體統(tǒng)計(jì)分析結(jié)果如圖6和圖7所示。根據(jù)道路事故發(fā)生數(shù)日期分布圖6可知,不同日期道路事故發(fā)生數(shù)基本在均值997起(占比3%)上下浮動(dòng),事故發(fā)生數(shù)日期分布相對(duì)穩(wěn)定。但是,不同日期的事故發(fā)生率較高,多數(shù)日期發(fā)生的事故數(shù)在970起以上,13日至26日期間事故發(fā)生數(shù)略高于其它日期,17日發(fā)生道路事故發(fā)生數(shù)最多共1086起,日期事故數(shù)占比達(dá)4%。
圖6 道路事故發(fā)生數(shù)日期分布
從不同報(bào)警細(xì)類發(fā)生數(shù)角度分析,由圖7可知,不同報(bào)警細(xì)類發(fā)生數(shù)日期分布整體相對(duì)穩(wěn)定,不同日期的報(bào)警細(xì)類主要以機(jī)動(dòng)車與機(jī)動(dòng)車以及非機(jī)動(dòng)車與機(jī)動(dòng)車類型居多,機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類日期發(fā)生數(shù)均值為677起,多半數(shù)日期機(jī)動(dòng)車與機(jī)動(dòng)車發(fā)生數(shù)超過該報(bào)警細(xì)類發(fā)生數(shù)均值,尤其在1日、10日、15日至17日以及24日至25日等12 d該報(bào)警細(xì)類發(fā)生數(shù)均在700起及以上,屬于機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類高發(fā)日期。非機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類發(fā)生數(shù)分布基本在均值199起上下變化,在23日該報(bào)警細(xì)類發(fā)生數(shù)達(dá)到日期分布最高值為234起。此外,諸如單車肇事以及非機(jī)動(dòng)車與非動(dòng)車報(bào)警細(xì)類日期發(fā)生數(shù)均在60起以下,與機(jī)動(dòng)車與機(jī)動(dòng)車以及非機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類相比而言,屬于低發(fā)報(bào)警細(xì)類類型。
圖7 不同報(bào)警細(xì)類發(fā)生數(shù)日期分布
(3)周特征分析
采用Hadoop數(shù)據(jù)平臺(tái)智能詞頻統(tǒng)計(jì)道路事故發(fā)生數(shù),道路事故發(fā)生數(shù)以及不同報(bào)警細(xì)發(fā)生數(shù)周分布分別如圖8和圖9所示。根據(jù)事故發(fā)生數(shù)周分布圖8可知,道路事故發(fā)生數(shù)周分布差異性較大,例如,周二事故發(fā)生數(shù)和周六事故發(fā)生數(shù)相差約600起。對(duì)比道路事故發(fā)生數(shù)周分布也可知,周五和周六道路事故發(fā)生數(shù)較高,周二和周日道路事故數(shù)較低,周六為道路事故發(fā)生數(shù)周分布最大值,周二道路事故發(fā)生數(shù)為周分布最低值。
根據(jù)不同報(bào)警細(xì)類發(fā)生數(shù)周分布圖9可知,不同報(bào)警細(xì)類周分布特征相對(duì)穩(wěn)定。與其它報(bào)警細(xì)類相比,不同報(bào)警細(xì)類發(fā)生數(shù)周分布中機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類占比最高,非機(jī)動(dòng)車與行人報(bào)警細(xì)類占比最低。此外,在周五非機(jī)動(dòng)車與非機(jī)動(dòng)車、非機(jī)動(dòng)車與行人以及機(jī)動(dòng)車與行人報(bào)警細(xì)類發(fā)生數(shù)均達(dá)到最高值,單車肇事、機(jī)動(dòng)車與非機(jī)動(dòng)車以及機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類發(fā)生數(shù)分別在周一、周三以及周六達(dá)到最高值。
圖8 道路事故發(fā)生數(shù)周分布
圖9 不同報(bào)警細(xì)類發(fā)生數(shù)周分布
3.2.2空間分布特征
根據(jù)采集的道路事故數(shù)據(jù)以及實(shí)地調(diào)研結(jié)果可知,該市交警部門主要將主城區(qū)劃分為5個(gè)管轄區(qū)域,因此,將道路事故數(shù)按照不同區(qū)域以及不同報(bào)警細(xì)類分類統(tǒng)計(jì),以便分析不同區(qū)域事故形態(tài)特征分布規(guī)律,經(jīng)過Hadoop數(shù)據(jù)平臺(tái)智能詞頻統(tǒng)計(jì)分析結(jié)果如圖10所示。
圖10 道路事故發(fā)生數(shù)區(qū)域分布
從區(qū)域事故發(fā)生數(shù)角度分析,由圖10可知,該市道路事故主要發(fā)生B區(qū)域以及E區(qū)域,2個(gè)區(qū)域事故發(fā)生數(shù)占比高于其它區(qū)域事故發(fā)生數(shù)占比,B區(qū)域事故發(fā)生數(shù)9 038起,屬于道路事故高發(fā)區(qū)域。根據(jù)不同報(bào)警細(xì)類區(qū)域分布表4可知,5個(gè)管轄區(qū)域不同報(bào)警細(xì)類分布規(guī)律較為明顯且變化趨勢(shì)相對(duì)穩(wěn)定。在5個(gè)管轄區(qū)域中,機(jī)動(dòng)車與機(jī)動(dòng)車、機(jī)動(dòng)車與非機(jī)動(dòng)車仍然屬于報(bào)警細(xì)類高發(fā)類型,2種報(bào)警細(xì)類發(fā)生數(shù)占比分別在67%和20%左右變化,高于其它3種報(bào)警細(xì)類發(fā)生數(shù)占比。其中,在B區(qū)域以及E區(qū)域機(jī)動(dòng)車與機(jī)動(dòng)車報(bào)警細(xì)類發(fā)生數(shù)均達(dá)到6 000起,高于其它5種報(bào)警細(xì)類發(fā)生數(shù)占比。此外,不同區(qū)域非機(jī)動(dòng)車與行人報(bào)警細(xì)類發(fā)生數(shù)占比均為1%,低于其它報(bào)警細(xì)類發(fā)生數(shù),屬于低發(fā)報(bào)警細(xì)類類型。
表4 不同報(bào)警細(xì)類區(qū)域分布
(1)基于大數(shù)據(jù)分布式并行計(jì)算技術(shù),采用HDFS分布式文件系統(tǒng)實(shí)現(xiàn)了城市交通道路事故大數(shù)據(jù)的分布式存儲(chǔ);采用MapReduce分布式計(jì)算框架并行化詞頻統(tǒng)計(jì)方法的技術(shù),以某城市道路事故數(shù)據(jù)為例,從道路事故發(fā)生數(shù)以及報(bào)警細(xì)類2個(gè)方面,智能分析了道路事故數(shù)據(jù)的時(shí)空分布特征,明確了道路事故時(shí)間分布特征和空間分布特征規(guī)律。
(2)根據(jù)道路事故特征分析結(jié)果可知,從城市道路事故發(fā)生數(shù)角度分析,道路事故發(fā)生數(shù)小時(shí)分布呈波動(dòng)式變化趨勢(shì),上午8時(shí)至中午11時(shí)以及下午17時(shí)至18時(shí),屬于道路事故發(fā)生率較高時(shí)段;道路事故發(fā)生數(shù)日分布相對(duì)穩(wěn)定,13日至26日期間事故發(fā)生數(shù)略高于其它日期;道路事故發(fā)生數(shù)周分布相對(duì)穩(wěn)定,周五和周六道路事故發(fā)生數(shù)較高,周二和周日道路事故數(shù)較低;道路事故主要發(fā)生B區(qū)域以及E區(qū)域,2個(gè)區(qū)域事故發(fā)生數(shù)占比高于其它區(qū)域事故發(fā)生數(shù)占比。此外,從城市道路事故報(bào)警細(xì)類角度分析,城市道路事故主要以機(jī)動(dòng)車與機(jī)動(dòng)車、機(jī)動(dòng)車與非機(jī)動(dòng)車2種報(bào)警細(xì)類為主,非機(jī)動(dòng)車與行人報(bào)警細(xì)類為報(bào)警細(xì)類低發(fā)事故類型。