国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Hadoop與ETL技術(shù)在視頻數(shù)據(jù)中的應(yīng)用

2018-09-22 06:41:20張敬鋒劉瓊李磊安徽省公安廳科技信息化處
警察技術(shù) 2018年5期
關(guān)鍵詞:數(shù)據(jù)源海量集市

張敬鋒 劉瓊 李磊 安徽省公安廳科技信息化處

引言

公安視頻圖像信息系統(tǒng)會(huì)產(chǎn)生大量視頻、文字、圖片、音頻等數(shù)據(jù)。系統(tǒng)中產(chǎn)生的大量多種類型數(shù)據(jù),價(jià)值密度極低,以視頻為例,一部一小時(shí)的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒。在如此海量的數(shù)據(jù)面前,如何通過強(qiáng)大的機(jī)器算法迅速完成數(shù)據(jù)的價(jià)值“提純”是目前大數(shù)據(jù)背景下最重要的應(yīng)用。

大數(shù)據(jù)時(shí)代,人們?cè)絹碓角宄匾庾R(shí)到數(shù)據(jù)中蘊(yùn)藏的價(jià)值。海量數(shù)據(jù)的擁有者在積極尋求方法利用手中的數(shù)據(jù)。然而,爆發(fā)式增長的數(shù)據(jù)量正在超出傳統(tǒng)數(shù)據(jù)庫的處理能力。為了應(yīng)對(duì)這樣的增長,需要對(duì)數(shù)據(jù)庫進(jìn)行升級(jí)?;谛⌒蜋C(jī)DB2或Oracle架構(gòu)的傳統(tǒng)數(shù)據(jù)庫升級(jí)依靠縱向擴(kuò)展,也就是通過提升服務(wù)器本身的性能來提高處理能力。更大更強(qiáng)的服務(wù)器價(jià)格高昂,但性能的提升卻是有限的。

Hadoop架構(gòu)很好地解決了擴(kuò)展的瓶頸,它設(shè)計(jì)部署在經(jīng)濟(jì)實(shí)惠的硬件上,通過橫向擴(kuò)展,便可無限提升數(shù)據(jù)處理能力?;贖adoop的大數(shù)據(jù)軟件因?yàn)槠鋸?qiáng)大的處理能力和高性價(jià)比在數(shù)據(jù)分析市場(chǎng)嶄露頭角。

本文主要介紹利用Hadoop技術(shù)與ETL技術(shù)實(shí)現(xiàn)海量視頻監(jiān)控?cái)?shù)據(jù)的處理,主要通過視頻數(shù)據(jù)清洗與處理重點(diǎn)完成海量視頻數(shù)據(jù)的統(tǒng)一存儲(chǔ)、管理、信息共享和提供數(shù)據(jù)資源服務(wù),并作為應(yīng)用系統(tǒng)的支撐,針對(duì)不同業(yè)務(wù)建立不同專題,建立完善的視頻數(shù)據(jù)采集、加載、存儲(chǔ)、分析和應(yīng)用展示的架構(gòu)體系。

一、基于Hadoop與ETL實(shí)現(xiàn)海量視頻數(shù)據(jù)處理

(一)視頻數(shù)據(jù)清洗與處理

視頻數(shù)據(jù)清洗與處理通過ETL平臺(tái)進(jìn)行高效數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載等,完成對(duì)各種不同類型視頻數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)庫轉(zhuǎn)化的過程。

為了處理有限數(shù)據(jù)量的結(jié)構(gòu)化視頻數(shù)據(jù),選擇傳統(tǒng)ETL平臺(tái)。而對(duì)于大量的半結(jié)構(gòu)化視頻數(shù)據(jù)或非結(jié)構(gòu)化視頻數(shù)據(jù),ETL過程采用以Hadoop為基礎(chǔ)搭建的ETL平臺(tái)。ETL過程包括以下幾類:數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)匯聚。視頻數(shù)據(jù)清洗與處理流程如圖1所示。

數(shù)據(jù)清洗:實(shí)現(xiàn)對(duì)視頻數(shù)據(jù)的標(biāo)準(zhǔn)化統(tǒng)一,具有去除重復(fù)記錄、替換處理和去除無效數(shù)據(jù)等功能。對(duì)不同來源的視頻數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,將不同標(biāo)準(zhǔn)規(guī)范下的視頻數(shù)據(jù)統(tǒng)一轉(zhuǎn)換成符合平臺(tái)數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)定義的數(shù)據(jù)。

數(shù)據(jù)轉(zhuǎn)換:對(duì)于低價(jià)值密度的非結(jié)構(gòu)化視頻數(shù)據(jù),通過元數(shù)據(jù)提取特征,將特征數(shù)據(jù)保存到MPP數(shù)據(jù)庫集群中,從而實(shí)現(xiàn)向高價(jià)值密度的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換。在元數(shù)據(jù)的作用下,提取出來的特征信息通過加載,最終保存到數(shù)據(jù)倉庫中,為實(shí)現(xiàn)高性能的查詢分析提供基礎(chǔ)。

數(shù)據(jù)匯聚:數(shù)據(jù)匯聚過程包括數(shù)據(jù)拆分和數(shù)據(jù)合并,是將各不同來源的視頻數(shù)據(jù)進(jìn)行初步匯總,形成完整數(shù)據(jù)集。將各種視頻數(shù)據(jù)的特征提取數(shù)據(jù)合并,去除重復(fù)字段,打破范式關(guān)系,原實(shí)體集匯聚成數(shù)據(jù)集。

(二)大數(shù)據(jù)平臺(tái)

視頻數(shù)據(jù)清洗與處理軟件需要建立大數(shù)據(jù)平臺(tái),以整合優(yōu)化內(nèi)外各類視頻資源,形成基礎(chǔ)資源庫,并在基礎(chǔ)數(shù)據(jù)資源庫建設(shè)的基礎(chǔ)上,通過二次抽取、索引化整合、邏輯關(guān)聯(lián)等方式,建設(shè)形成應(yīng)用服務(wù)資源庫。大數(shù)據(jù)平臺(tái)架構(gòu)采用Hadoop技術(shù),通過Hadoop分布式文件系統(tǒng)(HDFS)進(jìn)行視頻數(shù)據(jù)分布存儲(chǔ),針對(duì)各種應(yīng)用場(chǎng)景,采用Hbase數(shù)據(jù)庫對(duì)需要隨機(jī)訪問、實(shí)時(shí)讀寫的視頻數(shù)據(jù)進(jìn)行存儲(chǔ);同時(shí)利用MapReduce/Storm等并行處理技術(shù)的并行計(jì)算。大數(shù)據(jù)框架包括數(shù)據(jù)源層、數(shù)據(jù)集獲取層、數(shù)據(jù)處理層、數(shù)據(jù)應(yīng)用層,其框架設(shè)計(jì)如圖2。

數(shù)據(jù)源層:主要實(shí)現(xiàn)前端各種視頻數(shù)據(jù)的對(duì)接,包括政府視頻數(shù)據(jù)、社會(huì)視頻數(shù)據(jù)等。

數(shù)據(jù)集獲取層:可針對(duì)不同類型的視頻數(shù)據(jù)源采用不同的數(shù)據(jù)獲取策略,實(shí)現(xiàn)結(jié)構(gòu)化視頻數(shù)據(jù)、非結(jié)構(gòu)化視頻數(shù)據(jù)、半結(jié)構(gòu)化視頻數(shù)據(jù)的導(dǎo)入導(dǎo)出。

數(shù)據(jù)處理層:實(shí)現(xiàn)視頻數(shù)據(jù)的分布式存儲(chǔ)和并行計(jì)算,并統(tǒng)一提供資源的調(diào)度服務(wù)、訪問服務(wù)、管理監(jiān)控服務(wù)和權(quán)限控制服務(wù)等,支撐公安各部門業(yè)務(wù)應(yīng)用。

數(shù)據(jù)應(yīng)用層:實(shí)現(xiàn)業(yè)務(wù)查詢、業(yè)務(wù)辦理、數(shù)據(jù)共享、信息統(tǒng)計(jì)等服務(wù)。

HDFS分布式文件系統(tǒng):實(shí)現(xiàn)視頻數(shù)據(jù)的分布式存儲(chǔ),隱藏下層負(fù)載均衡、冗余復(fù)制等細(xì)節(jié),對(duì)上層程序提供一個(gè)統(tǒng)一的文件系統(tǒng)API接口。HDFS針對(duì)海量視頻數(shù)據(jù)特點(diǎn)做了特別優(yōu)化,包括超大文件的訪問,讀、寫操作比例過大,PC機(jī)極易發(fā)生故障造成的節(jié)點(diǎn)失效等。HDFS把文件分成若干大小的塊(可調(diào),如64Mb),分布在集群的機(jī)器上,使用Linux或Windows的文件系統(tǒng)存放,同時(shí)每塊文件至少有3份以上的冗余(可自定義)。中心是一個(gè)管理節(jié)點(diǎn)(NameNode),根據(jù)文件索引,找尋文件塊數(shù)據(jù)節(jié)點(diǎn)(DataNode)。

Hbase大數(shù)據(jù)庫:利用分布式、按列存儲(chǔ)、多維表結(jié)構(gòu)的實(shí)時(shí)分布式數(shù)據(jù)庫,可以提供大數(shù)據(jù)量結(jié)構(gòu)化和非結(jié)構(gòu)化視頻數(shù)據(jù)的高速讀寫操作,為高速在線數(shù)據(jù)服務(wù)而設(shè)計(jì)。

利用MapReduce/Storm等框架實(shí)現(xiàn)復(fù)雜任務(wù)的并行處理,如大多數(shù)分布式運(yùn)算可以抽象為MapReduce操作。Map是把輸入Input分解成中間的Key/Value對(duì),Reduce把Key/Value合成最終輸出Output。下層設(shè)施把Map和Reduce操作分布在集群上運(yùn)行,并把結(jié)果存儲(chǔ)在HDFS上。

(三)數(shù)據(jù)交換共享平臺(tái)

數(shù)據(jù)交換共享平臺(tái)即為多種視頻數(shù)據(jù)源提供包含提取、轉(zhuǎn)換、傳輸和加載等操作的數(shù)據(jù)集成,自動(dòng)、方便、快捷地實(shí)現(xiàn)視頻數(shù)據(jù)的抽取清洗,完成基于數(shù)據(jù)的應(yīng)用集成。

ETL工具將視頻數(shù)據(jù)清洗至公安數(shù)據(jù)中心庫,并完成數(shù)據(jù)匯總、整理、預(yù)警與反饋。在ETL平臺(tái)中可以根據(jù)數(shù)學(xué)模型二次加工生產(chǎn)衍生數(shù)據(jù),并通過服務(wù)發(fā)布平臺(tái)將數(shù)據(jù)中心數(shù)據(jù)發(fā)布推送到其他政府應(yīng)用系統(tǒng)。

ETL平臺(tái)通過進(jìn)行高效數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載等,完成對(duì)視頻數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程。

ETL平臺(tái)處理的源視頻數(shù)據(jù)分為三類,結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。為了高效處理不同類型的海量視頻數(shù)據(jù),ETL平臺(tái)可劃分為傳統(tǒng)ETL和云化ETL兩部分。所有數(shù)據(jù)可經(jīng)ETL平臺(tái)處理后加載到數(shù)據(jù)集市中。

數(shù)據(jù)清洗實(shí)現(xiàn)對(duì)視頻數(shù)據(jù)的標(biāo)準(zhǔn)化統(tǒng)一,去除重復(fù)記錄、替換處理和去除無效數(shù)據(jù)等功能。對(duì)不同來源的視頻數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,將不同標(biāo)準(zhǔn)規(guī)范下的視頻數(shù)據(jù)統(tǒng)一轉(zhuǎn)換成符合平臺(tái)數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)定義的數(shù)據(jù),提供多種數(shù)據(jù)清洗方式,利用條件過濾、去除重復(fù)記錄、空值處理和去除無效數(shù)據(jù)等方式對(duì)視頻數(shù)據(jù)進(jìn)行清洗。利用ETL數(shù)據(jù)交換平臺(tái)可以快速實(shí)現(xiàn)不同系統(tǒng)之間的信息共享與交換,實(shí)現(xiàn)應(yīng)用的集成。

(四)數(shù)據(jù)集市

通過視頻數(shù)據(jù)清洗與處理軟件將不同類型的視頻數(shù)據(jù)通過ETL交換共享平臺(tái)將數(shù)據(jù)采集抽取到基礎(chǔ)數(shù)據(jù)中心,形成各類數(shù)據(jù)集市,根據(jù)類型分為基礎(chǔ)數(shù)據(jù)庫、業(yè)務(wù)數(shù)據(jù)庫、主題數(shù)據(jù)庫。

基礎(chǔ)數(shù)據(jù)庫存儲(chǔ)人、車、戶、證等基本信息,業(yè)務(wù)數(shù)據(jù)庫存儲(chǔ)業(yè)務(wù)辦理和審批信息,主題數(shù)據(jù)庫存儲(chǔ)系統(tǒng)生成的查詢結(jié)果和各類報(bào)表數(shù)據(jù)。存儲(chǔ)的數(shù)據(jù)可以通過數(shù)據(jù)管理平臺(tái)查詢展示,通過數(shù)據(jù)分析平臺(tái)實(shí)現(xiàn)決策分析功能。數(shù)據(jù)流程如圖3所示。

數(shù)據(jù)集市根據(jù)業(yè)務(wù)應(yīng)用需求進(jìn)行建設(shè),包括固定報(bào)表、即席查詢、OLAP、數(shù)據(jù)挖掘等,存放的數(shù)據(jù)主要為分析型數(shù)據(jù)。數(shù)據(jù)集市數(shù)據(jù)可從中心數(shù)據(jù)層來,也可以直接由基礎(chǔ)數(shù)據(jù)層來。數(shù)據(jù)集市數(shù)據(jù)直接對(duì)外,可直接取用,也可以從中心數(shù)據(jù)層或基礎(chǔ)數(shù)據(jù)層取數(shù)據(jù)。

數(shù)據(jù)集市是以數(shù)據(jù)倉庫數(shù)據(jù)為唯一數(shù)據(jù)源、面向特定分析應(yīng)用、按一定方式重新組織的數(shù)據(jù)集合,是數(shù)據(jù)倉庫的子集。數(shù)據(jù)集市基于數(shù)據(jù)倉庫創(chuàng)建,用于不同分析數(shù)據(jù)的存儲(chǔ)。數(shù)據(jù)集市模型也按主題組織,可以采用星型模型或雪花型模型進(jìn)行組織。

數(shù)據(jù)集市的搭建為各類應(yīng)用提供標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)接口,避免各類系統(tǒng)在數(shù)據(jù)傳輸、整理、匯聚、統(tǒng)計(jì)過程中,因各類系統(tǒng)設(shè)計(jì)不統(tǒng)一問題,形成新的信息孤島。

二、Hadoop大數(shù)據(jù)平臺(tái)在公安實(shí)戰(zhàn)中的應(yīng)用

在大數(shù)據(jù)時(shí)代,安防大數(shù)據(jù)應(yīng)用建設(shè)是提高視頻監(jiān)控投資效能的有效措施,是公安信息化建設(shè)的必然發(fā)展趨勢(shì)。Hadoop大數(shù)據(jù)平臺(tái)在很多信息化建設(shè)項(xiàng)目中都可應(yīng)用,在平安城市、雪亮工程等項(xiàng)目都可使用Hadoop大數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)的采集、加載、存儲(chǔ)和分析。

在某二線城市基于Hadoop技術(shù)搭建的卡口大數(shù)據(jù)平臺(tái),目前已接入1400余路實(shí)體卡口和1100余路虛擬卡口,現(xiàn)單日過車數(shù)據(jù)800萬,總過車數(shù)據(jù)25億條。如此海量的視頻數(shù)據(jù),除了支撐過往車輛查詢與布控,同時(shí)基于大數(shù)據(jù)技術(shù),引入聚類分析算法等,實(shí)現(xiàn)落腳點(diǎn)分析、套牌車分析、軌跡分析及車立方等技戰(zhàn)法,助力實(shí)戰(zhàn)應(yīng)用。

使用了Hadoop大數(shù)據(jù)平臺(tái)具有明顯的優(yōu)勢(shì):

(1)支持對(duì)FTP、WebService、數(shù)據(jù)庫、消息等接口方式的采集;

(2)支持采集xml、txt、圖片、視頻、json等數(shù)據(jù)格式;

(3)支持抽取結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)類型;

(4)數(shù)據(jù)抽取性能:10000條/秒,1000條/次;

(5)數(shù)據(jù)并發(fā)能力:寫入能力不小于10000,讀取能力不小于100000;

(6)支持不小于5PB的存儲(chǔ)能力。

三、結(jié)語

本文基于Hadoop技術(shù)與ETL技術(shù),通過視頻數(shù)據(jù)清洗與處理業(yè)務(wù)完成對(duì)公安部門海量視頻監(jiān)控?cái)?shù)據(jù)的統(tǒng)一存儲(chǔ)、管理、信息共享,實(shí)現(xiàn)海量視頻數(shù)據(jù)的深度應(yīng)用。視頻數(shù)據(jù)清洗與處理業(yè)務(wù)重點(diǎn)完成海量視頻數(shù)據(jù)的統(tǒng)一存儲(chǔ)、管理、信息共享和提供數(shù)據(jù)資源服務(wù),并作為應(yīng)用系統(tǒng)的支撐,針對(duì)不同業(yè)務(wù)建立不同專題,建立完善的視頻數(shù)據(jù)采集、加載、存儲(chǔ)、分析和應(yīng)用展示的架構(gòu)體系。通過建設(shè)Hadoop大數(shù)據(jù)平臺(tái),公安部門可以分析和使用更多的視頻數(shù)據(jù),為公安數(shù)據(jù)的交換、整合和分析發(fā)展提供了一個(gè)重要平臺(tái)。利用大數(shù)據(jù)技術(shù),公安機(jī)關(guān)可以通過對(duì)海量視頻數(shù)據(jù)的收集、整理、歸類、分析,得出傳統(tǒng)手段不易發(fā)現(xiàn)的客觀規(guī)律,挖掘數(shù)據(jù)中蘊(yùn)藏的巨大價(jià)值,推進(jìn)公安實(shí)戰(zhàn)工作的大發(fā)展。

猜你喜歡
數(shù)據(jù)源海量集市
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
熱鬧的集市
海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
探訪于山“相親集市”
海峽姐妹(2018年12期)2018-12-23 02:39:20
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
一個(gè)圖形所蘊(yùn)含的“海量”巧題
熱鬧的集市
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲(chǔ)與組織研究
兴海县| 定日县| 九龙县| 虎林市| 乾安县| 揭西县| 南华县| 德江县| 岑巩县| 海盐县| 阿拉善右旗| 阳信县| 安达市| 玛多县| 朝阳市| 麦盖提县| 菏泽市| 吉隆县| 扶风县| 稷山县| 承德市| 许昌市| 南昌市| 牡丹江市| 民权县| 胶州市| 新安县| 湘乡市| 姜堰市| 牡丹江市| 托克逊县| 黄大仙区| 孟州市| 印江| 湘潭市| 嵊州市| 德阳市| 连云港市| 红安县| 涞水县| 鲜城|