李劍 曹文雅
(河北云聯(lián)網(wǎng)絡(luò)科技有限公司 河北省石家莊市 050000)
隨著經(jīng)濟(jì)社會(huì)發(fā)展和國(guó)家環(huán)保工作的縱深推進(jìn),機(jī)動(dòng)車(chē)排氣污染排放占大氣污染物排放比重越來(lái)越大,導(dǎo)致空氣中各種污染物的數(shù)量和濃度呈逐年上升趨勢(shì),嚴(yán)重危及人類(lèi)的健康。雖然各市、省都在建立機(jī)動(dòng)車(chē)污染大氣防止系統(tǒng),但由于各類(lèi)系統(tǒng)數(shù)據(jù)較為分散,無(wú)法形成統(tǒng)一的數(shù)據(jù)格式,并且隨著時(shí)間的推移,數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),這也大大的為管理人員造成了數(shù)據(jù)準(zhǔn)確性、及時(shí)性的困擾。本文從機(jī)動(dòng)車(chē)環(huán)污檢測(cè)系統(tǒng)出發(fā),在原有數(shù)據(jù)收集基礎(chǔ)上建立以Hadoop 為集群的大數(shù)據(jù)集群,在數(shù)據(jù)收集時(shí)進(jìn)行數(shù)據(jù)處理,并直接將數(shù)據(jù)灌入大數(shù)據(jù)集群中,在短時(shí)間內(nèi)將大量數(shù)據(jù)進(jìn)行預(yù)計(jì)算,最終為領(lǐng)導(dǎo)層提供全省機(jī)動(dòng)車(chē)現(xiàn)狀及污染物排放數(shù)據(jù)支撐。
Hadoop 由HDFS、MapReduce、YARN、Common 四個(gè)模塊組成,HDFS:高吞吐量的分布式文件系統(tǒng);MapReduce:分布式的離線并行計(jì)算框架;YARN:任務(wù)調(diào)度與資源管理;Common:為其它模塊提供基礎(chǔ)設(shè)施。如圖1所示。
Hadoop 核心設(shè)計(jì)如圖2所示。
2.2.1 HDFS
是Hadoop 中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ),是一個(gè)高度容錯(cuò)的系統(tǒng),能檢測(cè)和應(yīng)對(duì)硬件故障。它以流式訪問(wèn)模式訪問(wèn)應(yīng)用程序的數(shù)據(jù),這大大提高了整個(gè)系統(tǒng)的數(shù)據(jù)吞吐量,因而非常適合用于具有超大數(shù)據(jù)集的應(yīng)用程序中。
HDFS 架構(gòu)采用主從架構(gòu)(master/slave)。一個(gè)典型的HDFS集群包含一個(gè)NameNode 節(jié)點(diǎn)和多個(gè)DataNode 節(jié)點(diǎn)。HDFS 通過(guò)NameNode、DataNode 和Client 來(lái)進(jìn)行文件系統(tǒng)的管理,NameNode 是分布式文件系統(tǒng)中的管理者,主要負(fù)責(zé)文件系統(tǒng)中的命名空間、集群配置信息和存儲(chǔ)塊的復(fù)制等;DataNode 是文件存儲(chǔ)的基本單元,它將文件塊存儲(chǔ)在本地文件系統(tǒng)中,并且周期性地將所有存在的文件塊信息發(fā)送給NameNode;Client 是需要獲取分布式系統(tǒng)文件的應(yīng)用程序。
MapReduce 是一個(gè)高性能的分布式計(jì)算框架,用于對(duì)海量數(shù)據(jù)進(jìn)行并行分析和處理。與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和分析技術(shù)相比,MapReduce 更適合處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。MapReduce 任務(wù)運(yùn)行在多個(gè)服務(wù)器上,指定一個(gè)Map(映射)函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce(歸約)函數(shù),用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。把一堆雜亂無(wú)章的數(shù)據(jù)按照某種特征歸納起來(lái),然后處理并得到最后的結(jié)果。Map 面對(duì)的是雜亂無(wú)章的互不相關(guān)的數(shù)據(jù),它解析每個(gè)數(shù)據(jù),從中提取出數(shù)據(jù)的特征(Key 和Value)。經(jīng)過(guò)MapReduce的Shuffle 階段之后,在Reduce 階段看到的都是已經(jīng)歸納好的數(shù)據(jù)。
Kettle 是一個(gè)組件化的集成系統(tǒng),包括如下幾個(gè)主要部分:
(1)Spoon:圖形化界面工具(GUI 方式),Spoon 允許你通過(guò)圖形界面來(lái)設(shè)計(jì)Job 和Transformation,可以保存為文件或者保存在數(shù)據(jù)庫(kù)中。也可以直接在Spoon 圖形化界面中運(yùn)行Job 和Transformation。
圖1
(2)Pan:Transformation 執(zhí)行器(命令行方式),Pan 用于在終端執(zhí)行Transformation,沒(méi)有圖形界面。
(3)Kitchen:Job 執(zhí)行器(命令行方式),Kitchen 用于在終端執(zhí)行Job,沒(méi)有圖形界面。
(4)Carte:嵌入式Web 服務(wù),用于遠(yuǎn)程執(zhí)行Job 或Transformation,Kettle 通過(guò)Carte 建立集群。
(5)Encr:Kettle 用于字符串加密的命令行工具,如:對(duì)在Job 或Transformation 中定義的數(shù)據(jù)庫(kù)連接參數(shù)進(jìn)行加密。
圖2
此次研究數(shù)據(jù)來(lái)源主要包含:車(chē)輛定期檢驗(yàn)數(shù)據(jù)、車(chē)輛遙感抓拍數(shù)據(jù)、車(chē)輛路檢路查數(shù)據(jù)、車(chē)輛黑煙車(chē)抓拍數(shù)據(jù)、車(chē)輛OBD 遠(yuǎn)程在線監(jiān)控車(chē)輛數(shù)據(jù)。此次研究采用以上五類(lèi)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,采用Hadoop 集群對(duì)數(shù)據(jù)進(jìn)行ETL 數(shù)據(jù)清洗、轉(zhuǎn)換、歸類(lèi),形成統(tǒng)一的數(shù)據(jù)資源池,供系統(tǒng)進(jìn)行數(shù)據(jù)調(diào)取及展示,通過(guò)一系列數(shù)據(jù)處理后,查看系統(tǒng)在保證數(shù)據(jù)一致性、完整性、實(shí)時(shí)性的基礎(chǔ)上進(jìn)行數(shù)據(jù)調(diào)取時(shí)性能指標(biāo)是否滿足日常需求,為領(lǐng)導(dǎo)層提供決策支撐。
心怡說(shuō):“我們的爺爺奶奶,外公外婆,他們是50后或60后,他們剩下的日子不是很多了,我的外公外婆身體也不好了,我很難受?!边@時(shí),教室里一片沉默。
此次研究涉及到的五類(lèi)數(shù)據(jù)量級(jí)依次為:定期檢驗(yàn)數(shù)據(jù)、遙感抓拍數(shù)據(jù)、路檢路查數(shù)據(jù)、黑煙車(chē)抓拍數(shù)據(jù)采取2018年-2019年兩年(4TB)的全省數(shù)據(jù)進(jìn)行研究;OBD 遠(yuǎn)程在線監(jiān)控車(chē)輛數(shù)據(jù)采用2019年1-6月份(10TB)的數(shù)據(jù)進(jìn)行研究。
此次研究搭建的系統(tǒng)采用Hadoop 分布式系統(tǒng)的基礎(chǔ)架構(gòu);采用Hbase 對(duì)數(shù)據(jù)進(jìn)行分布式存儲(chǔ);采用Hive 數(shù)據(jù)倉(cāng)庫(kù)工具對(duì)數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)化、加載、查詢(xún)、分析等;采用sqoop 在Hive 與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)傳遞,采用zookeeper 為整個(gè)分布式應(yīng)用提供一致性服務(wù),包含配置維護(hù)、分布式同步等。集群采用1 主節(jié)點(diǎn)5 從節(jié)點(diǎn)及1 主節(jié)點(diǎn)10 從節(jié)點(diǎn)的兩種方式進(jìn)行。
依次將五類(lèi)數(shù)據(jù)灌入到Hadoop 集群中,車(chē)輛信息以定期檢驗(yàn)數(shù)據(jù)為準(zhǔn),建立基于一車(chē)一檔的車(chē)輛基本信息,將定期檢驗(yàn)、遙感抓拍、路檢路查、黑煙車(chē)抓拍數(shù)據(jù)中的超標(biāo)數(shù)據(jù)建立超標(biāo)數(shù)據(jù)資源庫(kù),按照汽油、柴油對(duì)車(chē)輛進(jìn)行分類(lèi),柴油車(chē)中按照車(chē)輛總質(zhì)量進(jìn)行詳細(xì)分類(lèi),對(duì)于重型柴油車(chē)篩選出高排放車(chē)輛并建立高排放車(chē)輛資源池,進(jìn)行重點(diǎn)監(jiān)控。將OBD 遠(yuǎn)程在線監(jiān)控車(chē)輛進(jìn)行車(chē)輛信息匹配,獲取各個(gè)車(chē)輛的排放階段以及上傳的實(shí)時(shí)數(shù)據(jù),以國(guó)標(biāo)為依據(jù)進(jìn)行超標(biāo)數(shù)據(jù)篩選,對(duì)OBD 遠(yuǎn)程在線監(jiān)控車(chē)輛進(jìn)行ETL 數(shù)據(jù)提取、轉(zhuǎn)化、加載后存入至正式資源庫(kù)中,并對(duì)數(shù)據(jù)進(jìn)行預(yù)計(jì)算,供數(shù)據(jù)匹配及查詢(xún)分析。將高排放車(chē)輛匹配OBD 遠(yuǎn)程在線監(jiān)控車(chē)輛,進(jìn)行車(chē)輛運(yùn)行軌跡數(shù)據(jù)篩選,并耦合至地圖中,根據(jù)排放因子對(duì)高排放車(chē)輛污染物計(jì)算,在地圖中標(biāo)注出污染較為嚴(yán)重的主要國(guó)道、省道、高速、鄉(xiāng)道等。以黑煙車(chē)數(shù)據(jù)抓拍為基礎(chǔ),匹配定期檢驗(yàn)、遙感抓拍、路檢路查數(shù)據(jù),進(jìn)行匹配溯源,以車(chē)輛品牌、車(chē)輛型號(hào)、發(fā)動(dòng)機(jī)型號(hào)等為粒度,進(jìn)行數(shù)據(jù)分類(lèi)展示。
在進(jìn)行OBD 遠(yuǎn)程在線監(jiān)控車(chē)輛時(shí),系統(tǒng)首次引用了污染管控及環(huán)境參數(shù),在天氣晴朗及重污染天氣下,分別對(duì)某地區(qū)環(huán)境污染物濃度進(jìn)行監(jiān)測(cè)。同一環(huán)境參數(shù)下,過(guò)往車(chē)輛對(duì)于此地區(qū)的環(huán)境污染物濃度影響較大。
在系統(tǒng)滿足以上所有指標(biāo)的基礎(chǔ)上,生成以上五類(lèi)數(shù)據(jù),數(shù)據(jù)總量為1TB,作為系統(tǒng)實(shí)時(shí)性性能指標(biāo)測(cè)試的基礎(chǔ),在以上14TB數(shù)據(jù)處理后,對(duì)系統(tǒng)進(jìn)行查看,是否滿足目前應(yīng)用與管理的要求,并對(duì)系統(tǒng)進(jìn)行優(yōu)化測(cè)試。將1TB 實(shí)時(shí)數(shù)據(jù)灌入集群中,查看集群負(fù)載及運(yùn)行狀況,在系統(tǒng)中查看數(shù)據(jù)實(shí)時(shí)展示效果,是否滿足需求。
5 節(jié)點(diǎn)集群對(duì)于上述15TB 數(shù)據(jù)處理上能基本滿足應(yīng)用需要,但在實(shí)時(shí)性上無(wú)法保證是否滿足系統(tǒng)性能要求;10 節(jié)點(diǎn)集群則能完全滿足上述15TB 數(shù)據(jù)處理,并且在實(shí)時(shí)性上可以滿足系統(tǒng)性能要求,對(duì)于節(jié)點(diǎn)數(shù)量的不同,主要差別在于數(shù)據(jù)容量及數(shù)據(jù)處理能力上,經(jīng)過(guò)大量實(shí)驗(yàn)后,實(shí)驗(yàn)表明在以上數(shù)據(jù)量級(jí)的基礎(chǔ)上,1 主節(jié)點(diǎn)10 從節(jié)點(diǎn)完全滿足管理部門(mén)日常需要并且在數(shù)據(jù)容量擴(kuò)展上也基本滿足數(shù)據(jù)存儲(chǔ)要求,數(shù)據(jù)完整性、一致性、實(shí)時(shí)性上能做到快速處理并呈現(xiàn)的要求。
通過(guò)Hadoop 集群對(duì)15TB 的數(shù)據(jù)進(jìn)行處理及展示,發(fā)現(xiàn)系統(tǒng)在性能要求上,10 節(jié)點(diǎn)的集群相較于5 節(jié)點(diǎn)的集群,數(shù)據(jù)處理能力上有很大的提升,數(shù)據(jù)實(shí)時(shí)性上面,最大延遲在90 秒之內(nèi),符合目前應(yīng)用與管理的要求。溯源的超標(biāo)數(shù)據(jù)及高排放數(shù)據(jù),經(jīng)過(guò)應(yīng)用系統(tǒng)及視頻監(jiān)控系統(tǒng)確認(rèn)后,均為可利用的超標(biāo)數(shù)據(jù),此類(lèi)數(shù)據(jù)進(jìn)行分類(lèi)歸檔,為后續(xù)業(yè)務(wù)檢查及執(zhí)法提供數(shù)據(jù)來(lái)源及執(zhí)法依據(jù)。
在進(jìn)行OBD 遠(yuǎn)程在線監(jiān)控車(chē)輛時(shí),對(duì)某地區(qū)進(jìn)行環(huán)境污染物濃度監(jiān)測(cè),發(fā)現(xiàn)在同一環(huán)境參數(shù)下,過(guò)往車(chē)輛對(duì)于地區(qū)的環(huán)境污染物濃度影響較大,系統(tǒng)在這一基礎(chǔ)上,即會(huì)采取重污染天氣應(yīng)急污染管控措施,對(duì)重污染區(qū)域采用限行,工業(yè)企業(yè)減排等手段。對(duì)于發(fā)現(xiàn)高排放車(chē)輛連續(xù)使用排放超標(biāo)的情況,可進(jìn)行設(shè)置道路卡口的方式對(duì)此類(lèi)車(chē)輛進(jìn)行攔截,并指定維修點(diǎn)進(jìn)行維修,為防治大氣污染提供有力的數(shù)據(jù)支撐。