国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)技術(shù)綜述

2020-03-05 07:24:08韓浦霞
關(guān)鍵詞:分布式節(jié)點(diǎn)

韓浦霞

(天津商務(wù)職業(yè)學(xué)院,天津 300350)

一、大數(shù)據(jù)概念

顧名思義,大數(shù)據(jù)技術(shù)的根本是對大量信息的處理。企業(yè)往往會將多種數(shù)據(jù)集中起來進(jìn)行分析處理,數(shù)量級一般在PB規(guī)模左右。數(shù)據(jù)量級不僅指數(shù)據(jù)體量,也包括數(shù)據(jù)源個數(shù)和數(shù)據(jù)的種類。大數(shù)據(jù)特性往往從數(shù)據(jù)量、速度、類型、價(jià)值密度四個方面進(jìn)行概括。

(一) 數(shù)據(jù)量巨大

對于當(dāng)前各領(lǐng)域的數(shù)據(jù)集合,TB、PB的數(shù)量級單位已經(jīng)不能滿足,目前已經(jīng)開始使用EB和ZB進(jìn)行衡量。例如百度搜索2020年第26周的日均IP訪問量為5833.93萬,其VP的日均訪問量為25653.98萬。

(二) 數(shù)據(jù)速度快

一般指處理速度與產(chǎn)生速度。大數(shù)據(jù)往往和人工智能、物聯(lián)網(wǎng)等行業(yè)結(jié)合應(yīng)用,對數(shù)據(jù)的實(shí)時響應(yīng)要求高。大數(shù)據(jù)的處理效率又稱為“1秒定律”,即可以秒級時間內(nèi)獲取分析結(jié)果。

(三) 數(shù)據(jù)類型繁多

全球IT技術(shù)的不斷發(fā)展催生出各種交互產(chǎn)業(yè),各種類型的數(shù)據(jù)隨之產(chǎn)生,區(qū)別于傳統(tǒng)IT時期的結(jié)構(gòu)化數(shù)據(jù),現(xiàn)在整個大數(shù)據(jù)產(chǎn)業(yè)中充滿了半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。

(四) 數(shù)據(jù)價(jià)值密度低

龐大的數(shù)據(jù)量,必定存在大量的非有效信息,因此數(shù)據(jù)的價(jià)值密度是比較低的。例如,城聯(lián)網(wǎng)系統(tǒng)中的監(jiān)控系統(tǒng),每日的視頻存儲量驚人,但實(shí)際的有效信息僅為其中的數(shù)百兆。

大數(shù)據(jù)技術(shù)使得人們的思維方式發(fā)生了顛覆性改變,科研人員不在局限于小數(shù)據(jù)量級的精確性指標(biāo),更多的開始追求大數(shù)據(jù)量級下的普遍性規(guī)律。對于較復(fù)雜的事件,通過歸納與演繹的方式進(jìn)行建模與推演,獲得大概率的事件結(jié)果。

二、大數(shù)據(jù)采集技術(shù)

大數(shù)據(jù)技術(shù)包括數(shù)據(jù)采集、預(yù)處理、存儲、可視化等。數(shù)據(jù)采集是眾多流程環(huán)節(jié)中的第一步,重要程度不言而喻。大數(shù)據(jù)的采集一般是通過RFID、互聯(lián)網(wǎng)交互、傳感器等獲取海量的數(shù)據(jù),大數(shù)據(jù)采集方法與傳統(tǒng)數(shù)據(jù)采集差異較大。

大數(shù)據(jù)采集面臨的首要壓力即為數(shù)據(jù)的并發(fā)性,同一時刻可能會產(chǎn)生數(shù)以億計(jì)的數(shù)據(jù)信息,因此需要在采集端部署多個數(shù)據(jù)庫進(jìn)行采集,并且還需考慮各個數(shù)據(jù)庫之間的負(fù)載均衡?;谝陨咸匦?,大數(shù)據(jù)采集方式主要分兩種:MapReduce分布式并行處理模式和基于內(nèi)存的流處理模式。

MapReduce分布式并行處理模式的基本思想就是分而治之。假如我們想知道一幅撲克的黑桃數(shù)量,分布式模式是將所有撲克分發(fā)給所有玩家,讓每個玩家統(tǒng)計(jì)各自的黑桃數(shù)量,然后匯總數(shù)據(jù),得出最終的結(jié)論。顯然,該模式通過拆分的思想,可以迅速得到結(jié)果。MapReduce模型處理流程首先是針對數(shù)據(jù)集,將不具有依賴關(guān)系的數(shù)據(jù)進(jìn)行并行處理,然后利用Map函數(shù)與Reduce函數(shù)實(shí)現(xiàn)高層的并行抽象模型。最后將分而治之的思想再提升至架構(gòu)層面,統(tǒng)一架構(gòu)方式為研發(fā)人員隱藏了大部分系統(tǒng)層面的處理細(xì)節(jié)。下圖1為MapReduce模式的原理圖。

圖1 基于MapReduce的并行計(jì)算模型

基于內(nèi)存的流處理模式與批處理模式是截然不同的,它不需要針對整個數(shù)據(jù)集進(jìn)行操作,而是對隨時輸入系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算。因此流處理模式的數(shù)據(jù)集是無止境的,除非明確停止計(jì)算。流處理模式單位時間內(nèi)有且只可處理一條或很少量的數(shù)據(jù),數(shù)據(jù)流經(jīng)過此處就會被篩選過濾,獲取有價(jià)值的數(shù)據(jù),然后將其丟棄。伴隨著近幾年大數(shù)據(jù)技術(shù)迅猛發(fā)展,人們開始更多的關(guān)注數(shù)據(jù)處理的時效性,處理模式開始慢慢向流處理模式轉(zhuǎn)變,例如阿里等電商的“雙十一”,會要求以秒為計(jì)量單位的輸出結(jié)果。

三、大數(shù)據(jù)預(yù)處理

隨著數(shù)據(jù)量的不斷增大,每秒產(chǎn)生的數(shù)據(jù)中絕大部分可能是無效信息,包括噪聲數(shù)據(jù)、沖突數(shù)據(jù)和殘缺數(shù)據(jù)等,如果不加區(qū)分而將這類數(shù)據(jù)也進(jìn)行分析計(jì)算的話,勢必會影響最終結(jié)果的準(zhǔn)確性,因此為保證數(shù)據(jù)結(jié)果具有有效價(jià)值,需對收集到的數(shù)據(jù)集進(jìn)行預(yù)處理。

大數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的清洗、集成、轉(zhuǎn)換、削減。這些處理環(huán)節(jié)可以有效檢測出噪聲數(shù)據(jù)、無效數(shù)據(jù)等,是大數(shù)據(jù)分析結(jié)果質(zhì)量的保證。

(一) 數(shù)據(jù)清洗

數(shù)據(jù)清洗是針對殘缺數(shù)據(jù)、噪聲數(shù)據(jù)和不一致數(shù)據(jù)的處理。針對殘缺數(shù)據(jù)常用的處理方法有以下幾種:丟棄該遺漏屬性值數(shù)據(jù);利用默認(rèn)值填補(bǔ)遺漏屬性值;利用數(shù)據(jù)均值填補(bǔ)遺漏屬性值;利用回歸分析填補(bǔ)遺漏屬性值;利用同類別數(shù)據(jù)集屬性值填補(bǔ)該遺漏屬性值。噪聲數(shù)據(jù)一般是數(shù)據(jù)集出現(xiàn)隨機(jī)屬性值,常用的降噪方式有:對噪聲點(diǎn)數(shù)據(jù)的周邊數(shù)據(jù)進(jìn)行平滑;通過聚類分析方法定位噪聲點(diǎn);尋找數(shù)據(jù)集的擬合函數(shù)進(jìn)行回歸。不一致數(shù)據(jù)處理往往是數(shù)據(jù)記錄錯誤問題或者屬性取名規(guī)范問題,可以通過人工進(jìn)行修改。

(二) 數(shù)據(jù)集成

數(shù)據(jù)集成是將對各數(shù)據(jù)源的數(shù)據(jù)進(jìn)行合并統(tǒng)一形成新的數(shù)據(jù)集,提升數(shù)據(jù)的完整性與可用性。目前數(shù)據(jù)集成面臨三個問題:集成模式的問題;數(shù)據(jù)冗余問題;數(shù)據(jù)值存在檢測沖突。

(三) 數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)進(jìn)行轉(zhuǎn)換或歸并,形成適合數(shù)據(jù)處理的模式。常見的數(shù)據(jù)轉(zhuǎn)換處理方法包括:平滑處理;泛化處理;合計(jì)操作;歸一化處理與重構(gòu)屬性。轉(zhuǎn)換后的數(shù)據(jù)有效的保證了數(shù)據(jù)的統(tǒng)一性。

(四) 數(shù)據(jù)削減

數(shù)據(jù)削減是指在保證數(shù)據(jù)集完整性的前提下對數(shù)據(jù)集的精簡,進(jìn)而提升數(shù)據(jù)分析的效率。常用削減方法有維度削減、數(shù)據(jù)立方合計(jì)、數(shù)據(jù)塊削減、數(shù)據(jù)壓縮、離散化等。

四、大數(shù)據(jù)存儲技術(shù)

面對海量的數(shù)據(jù)資源,大數(shù)據(jù)存儲就成了十分關(guān)鍵的問題。目前大數(shù)據(jù)領(lǐng)域主流方式為分布式架構(gòu),在分布式存儲中,將大數(shù)據(jù)存儲任務(wù)切分為小塊,分配到集群中各機(jī)器去獲取支持。常用的大數(shù)據(jù)存儲技術(shù)包括:分布式文件系統(tǒng)HDFS和分布式存儲系統(tǒng)HBase。

(一)HDFS

HDFS是分布式文件系統(tǒng),分布于集群機(jī)器上,利用副本文件進(jìn)行容錯,確??煽啃浴DFS的設(shè)計(jì)原則是十分明確的,一般適用于存儲非常大的文件,采用流式模式進(jìn)行訪問。

HDFS系統(tǒng)的主要組件有:NameNode、Block和Rack。其中NameNode是系統(tǒng)的主站,它對系統(tǒng)里的文件與目錄文件系統(tǒng)樹以及元數(shù)據(jù)進(jìn)行管理,執(zhí)行文件系統(tǒng)的操作。DataNode作為系統(tǒng)的從機(jī),所有機(jī)器均會分布于各自的集群中,然后進(jìn)行存儲,并且根據(jù)客戶端的讀寫請求,提供相應(yīng)的服務(wù)。主節(jié)點(diǎn)NameNode會管理多個工作節(jié)點(diǎn)DataNode。

HDFS的寫過程流程如下:主節(jié)點(diǎn)確認(rèn)客戶端請求信息,并記錄文件名稱和存儲該文件的工作節(jié)點(diǎn)集合。然后將這些信息存放在文件分配表中。如下圖2為客戶端向主節(jié)點(diǎn)發(fā)送test.log文件寫請求的響應(yīng)流程圖。

圖2 HDFS寫過程流程圖

對于分布式文件系統(tǒng)而言,最重要的就是數(shù)據(jù)的一致性,當(dāng)HDFS系統(tǒng)中,所有需要保存數(shù)據(jù)的工作節(jié)點(diǎn)均擁有副本文件,才會認(rèn)為該文件的寫操作完成。那么數(shù)據(jù)一致性就會確??蛻舳藷o論從任何工作節(jié)點(diǎn)進(jìn)行讀取,所得到的數(shù)據(jù)是一致的。

HDFS的讀過程流程如下圖3所示。其中數(shù)據(jù)塊信息包括文件副本工作節(jié)點(diǎn)的IP地址、工作節(jié)點(diǎn)在本地硬盤查找數(shù)據(jù)塊所需要的數(shù)據(jù)塊ID。

圖3 HDFS讀過程流程圖

HDFS是目前被認(rèn)為Hadoop系統(tǒng)兼容最好的文件系統(tǒng),基于該系統(tǒng)的開源性,目前已經(jīng)被廣泛商用。

(二)HBase

HBase是面向列的非關(guān)系型分布式存儲系統(tǒng),可進(jìn)行實(shí)時讀寫,并隨機(jī)對大規(guī)模數(shù)據(jù)集進(jìn)行訪問,具有高可靠性與高伸縮性。

HBase具有以下特性:強(qiáng)讀寫一致性;自動的故障轉(zhuǎn)移;HDFS集成;豐富的“簡潔,高效”API;具有塊緩存、布隆過濾器,可高效的列查詢優(yōu)化;提供了內(nèi)置的web界面來操作,還可以監(jiān)控JMX指標(biāo)。

常見的HBase應(yīng)用分三類:存儲業(yè)務(wù)數(shù)據(jù)、存儲日志數(shù)據(jù)和存儲業(yè)務(wù)附件。其中存儲業(yè)務(wù)數(shù)據(jù)包括用戶的操作信息、設(shè)備訪問信息等。存儲日志數(shù)據(jù)包括登錄日志、郵件發(fā)送記錄、訪問日志等。存儲業(yè)務(wù)附件包括所包含的圖像、視頻和文檔等附件信息。

HBase系統(tǒng)主要包括4個關(guān)鍵節(jié)點(diǎn):Zookeeper、HDFS、RegionServer和Master。Zookeeper主要進(jìn)行配置維護(hù)、分布式同步、組服務(wù)等,它的主要功能就是向用戶提供簡易、安全、高可用的封裝系統(tǒng)。HDFS是HBase運(yùn)行過程中的底層文件系統(tǒng)。RegionServer負(fù)責(zé)響應(yīng)用戶讀寫請求。Master是主服務(wù)器的實(shí)現(xiàn),它負(fù)責(zé)實(shí)時監(jiān)視RegionServer實(shí)例,也可作為元數(shù)據(jù)更改的接口,可以控制該節(jié)點(diǎn)的故障轉(zhuǎn)移和Region切分。下圖4為HBase系統(tǒng)架構(gòu)圖。

圖4 HBase架構(gòu)體系關(guān)系圖

HBase應(yīng)用于大數(shù)據(jù)高并發(fā)情況和數(shù)據(jù)的隨機(jī)讀寫,例如淘寶指數(shù)就是利用該系統(tǒng)查詢歷史的交易記錄。

五、大數(shù)據(jù)處理系統(tǒng)

在一定時間內(nèi),人類或者機(jī)器是無法通過常規(guī)數(shù)據(jù)軟件對大規(guī)模數(shù)據(jù)進(jìn)行獲取、存儲、管理以及處理的,需要專業(yè)的數(shù)據(jù)操作系統(tǒng)對其進(jìn)行操作。大數(shù)據(jù)處理系統(tǒng)分為:批處理模式和流式處理模式。當(dāng)前主流的批處理系統(tǒng)是分布式計(jì)算架構(gòu)Hadoop,該系統(tǒng)可對完整的大數(shù)據(jù)集合進(jìn)行分析,但無法獲得實(shí)時數(shù)據(jù),數(shù)據(jù)的遲滯高。流處理大數(shù)據(jù)系統(tǒng)代表:Spark Streaming、Storm,可對實(shí)時數(shù)據(jù)實(shí)現(xiàn)高效分析處理。

(一)分布式計(jì)算架構(gòu)Hadoop

Hadoop包括分布式文件系統(tǒng)HDFS、任務(wù)調(diào)配YARN、大數(shù)據(jù)并行運(yùn)算框架MapReduce。HDFS存儲性與百度云、阿里云文件存儲系統(tǒng)類似,同時它還涉及分布式計(jì)算等。HDFS作為分布式文件系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)的存儲。YARN是該架構(gòu)的資源管理器,為上層應(yīng)用提供統(tǒng)一的資源管理與調(diào)度。MapReduce是針對大數(shù)據(jù)實(shí)現(xiàn)并行計(jì)算的編程模型,通過指定某映射函數(shù),將一組鍵值對映射為新的鍵值對,然后指定并發(fā)函數(shù),確保所有映射的鍵值對共享相同的鍵組。

(二)Spark Streaming

Spark Streaming框架具有實(shí)時計(jì)算、高吞吐量和容錯機(jī)制的特性,可多元獲取數(shù)據(jù),接受HDFS等數(shù)據(jù)源的數(shù)據(jù),經(jīng)過處理后存儲到相應(yīng)系統(tǒng)。該框架的運(yùn)行原理是:按照某一時間間隔,將實(shí)時數(shù)據(jù)進(jìn)行劃分,然后分批交由Spark engine引擎進(jìn)行處理,獲得結(jié)果。每批數(shù)據(jù)都將在spark內(nèi)核對應(yīng)一個彈性分布式數(shù)據(jù)集RDD,所有批次的RDD即構(gòu)成離散流Dstream。

(三)Storm

Storm是分布式實(shí)時處理數(shù)據(jù)框架,具備不易丟失數(shù)據(jù)、低延遲、易擴(kuò)展和高可用等特性,具備簡單的編程模型,易于開發(fā)。Storm框架屬于主從架構(gòu)模式,Nimbus作為主節(jié)點(diǎn)進(jìn)行資源的分配,ZooKeeper作為中間過度單元存放調(diào)度消息,supervisor作為從節(jié)點(diǎn)接收任務(wù),產(chǎn)生對worker進(jìn)程的響應(yīng)。

六、大數(shù)據(jù)應(yīng)用

隨著我國大數(shù)據(jù)相關(guān)政策的普及,越來越多的行業(yè)開始考慮結(jié)合大數(shù)據(jù)技術(shù)實(shí)現(xiàn)本行業(yè)的創(chuàng)新與升級。目前我國大數(shù)據(jù)技術(shù)應(yīng)用度較高的行業(yè)包括:電信、金融、政務(wù)、交通與醫(yī)療。

電信行業(yè)毋庸置疑是我國最大的數(shù)據(jù)信息源,中國聯(lián)通利用大數(shù)據(jù)分析技術(shù),對全國的移動用戶進(jìn)行畫像,為客戶的特性化服務(wù)以及整個市場運(yùn)營提供了支持。金融行業(yè)比較典型的應(yīng)用實(shí)例就是阿里小貸業(yè)務(wù),是阿里巴巴、淘寶網(wǎng)以及支付寶三個平臺合作提供交易數(shù)據(jù),然后對平臺提供用戶近100天的數(shù)據(jù)進(jìn)行分析,實(shí)時準(zhǔn)確的把握用戶的資金情況。政務(wù)領(lǐng)域繼我國提出“大數(shù)據(jù)成為提升政府治理能力的新途徑”論點(diǎn)后,開啟政務(wù)治理新模式。例如身份證系統(tǒng)、網(wǎng)上辦事窗口等,實(shí)實(shí)在在做到了便民服務(wù)。交通領(lǐng)域的數(shù)據(jù)資源豐富度高,實(shí)時性強(qiáng)。例如各交通運(yùn)行的監(jiān)控?cái)?shù)據(jù),高速公路、干線公路等的氣象監(jiān)測數(shù)據(jù),城市公共交通、出租車等的定位數(shù)據(jù),以及交通道路的費(fèi)用數(shù)據(jù)。醫(yī)療領(lǐng)域依靠各個醫(yī)療機(jī)構(gòu)每年都會產(chǎn)生PB數(shù)量級的數(shù)據(jù)信息,包括各種門診就診數(shù)據(jù)、住院數(shù)據(jù)、用藥數(shù)據(jù)、手術(shù)數(shù)據(jù)、醫(yī)保數(shù)據(jù)等,因此醫(yī)療數(shù)據(jù)在種類以及體量方面均滿足大數(shù)據(jù)的要求。

2020年初國內(nèi)爆發(fā)的新冠肺炎,大數(shù)據(jù)技術(shù)在疫情阻擊戰(zhàn)中得到了充分的應(yīng)用,依據(jù)各省市的疫情情況,通過“大數(shù)據(jù)+網(wǎng)格化”方式進(jìn)行判斷分析,逐步指導(dǎo)各地因時因地有序復(fù)工復(fù)產(chǎn)。專家們依托大數(shù)據(jù)平臺對感染患者分布、接觸者追蹤以及疫苗研發(fā)等進(jìn)行實(shí)時有效的分析。研發(fā)人員廣泛收集地圖信息、遙感數(shù)據(jù)、衛(wèi)健委發(fā)布的疫情數(shù)據(jù)、輿情數(shù)據(jù)、網(wǎng)頁抓取的數(shù)據(jù)、共享單車軌跡等數(shù)據(jù),繪制疫情地圖,為全國各地的人們提供了實(shí)時準(zhǔn)確的疫情信息。

七、結(jié)語

依托于大數(shù)據(jù)的背景,人們可以分析出數(shù)據(jù)背后的意義,獲得更深層次的理解,服務(wù)于人類,形成新的技術(shù)變革之力。數(shù)據(jù)作為世界各國未來競爭的資源,其價(jià)值度不亞于石油、貴金屬。大數(shù)據(jù)行業(yè)也必將成為未來國家之間競爭的領(lǐng)域之一。未來幾年將會是我國大數(shù)據(jù)行業(yè)發(fā)展的重要時期,結(jié)合各行業(yè)的發(fā)展規(guī)律與特征,充分利用大數(shù)據(jù)技術(shù)有利于行業(yè)整體的品質(zhì)提升與轉(zhuǎn)型。

猜你喜歡
分布式節(jié)點(diǎn)
CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
Analysis of the characteristics of electronic equipment usage distance for common users
基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
概念格的一種并行構(gòu)造算法
結(jié)合概率路由的機(jī)會網(wǎng)絡(luò)自私節(jié)點(diǎn)檢測算法
分布式光伏發(fā)展的四大矛盾
能源(2017年7期)2018-01-19 05:05:03
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
桦南县| 四平市| 平江县| 通州市| 鸡泽县| 双流县| 金山区| 山丹县| 鹤壁市| 石景山区| 潼南县| 辽源市| 阿坝县| 南宫市| 辽阳市| 南昌县| 云浮市| 鹤庆县| 类乌齐县| 玛多县| 永胜县| 苗栗市| 铜川市| 贵德县| 子长县| 成武县| 霞浦县| 叶城县| 德州市| 右玉县| 万源市| 建宁县| 久治县| 闽侯县| 拉萨市| 故城县| 唐河县| 金堂县| 措美县| 疏勒县| 福海县|