水電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)處理技術(shù)研究

2019-05-31 02:42曾廣移李德華陳澤陽彭大鵬

水電站機電技術(shù) 2019年5期

關(guān)鍵詞：關(guān)系數(shù)據(jù)庫監(jiān)測數(shù)據(jù)數(shù)據(jù)處理

曾廣移，鞏宇，李德華，陳澤陽，彭大鵬

（1.調(diào)峰調(diào)頻發(fā)電有限公司，廣東廣州510000；2.北京華科同安監(jiān)控技術(shù)有限公司，北京100043）

1 引言

隨著科技的發(fā)展和管理水平的提高，水電設(shè)備狀態(tài)監(jiān)測的廣度和深度不斷加強，數(shù)據(jù)量不斷擴大。傳統(tǒng)的設(shè)備狀態(tài)監(jiān)測系統(tǒng)通常單獨建設(shè)，針對單個領(lǐng)域，解決某類問題，互相獨立，彼此間沒有關(guān)聯(lián)。隨著數(shù)字化、智能化水電站建設(shè)的推進，要求在電站或者集團級成立狀態(tài)監(jiān)測數(shù)據(jù)中心，接入并融合各個狀態(tài)監(jiān)測子系統(tǒng)數(shù)據(jù)，實現(xiàn)對設(shè)備狀態(tài)的全方位、多維度的監(jiān)測、分析和評價，為生產(chǎn)管理決策提供全面、準確的技術(shù)支撐。

狀態(tài)監(jiān)測系統(tǒng)持續(xù)、高頻地產(chǎn)生各種數(shù)據(jù)，數(shù)據(jù)種類多，數(shù)據(jù)量巨大。如何處理好這些數(shù)據(jù)，發(fā)揮其應(yīng)有作用是一個巨大的挑戰(zhàn)。傳統(tǒng)的狀態(tài)監(jiān)測系統(tǒng)通常獨立存儲數(shù)據(jù)，由于受存儲條件限制，一般只保存經(jīng)過加工后的特征數(shù)據(jù)，原始數(shù)據(jù)沒有保存，遺漏了隱藏在原始數(shù)據(jù)中的部分信息，且超過一定時間的歷史數(shù)據(jù)就會被丟棄，不能實現(xiàn)設(shè)備全生命周期的狀態(tài)監(jiān)測。雖然近年來大數(shù)據(jù)技術(shù)發(fā)展迅速，在金融、醫(yī)療、消費等領(lǐng)域均得到了成功應(yīng)用，但是由于水電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的特殊性，如果照搬其他領(lǐng)域的大數(shù)據(jù)處理方法很難取得理想的效果。為此，需要全面分析水電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的特征，根據(jù)數(shù)字化、智能化水電站建設(shè)對狀態(tài)監(jiān)測系統(tǒng)的要求，結(jié)合當(dāng)下成熟的大數(shù)據(jù)技術(shù)，設(shè)計適合的水電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)處理方案。

2 水電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的特點

大數(shù)據(jù)一般具有“3 V”特征，即規(guī)模大Volume、類型多Variety和價值密度低Value。水電設(shè)備狀態(tài)監(jiān)測系統(tǒng)測點多，數(shù)據(jù)產(chǎn)生頻度高，類型眾多，具有典型的大數(shù)據(jù)特征，是名副其實的大數(shù)據(jù)，同時又超越了普適的大數(shù)據(jù)概念，具有其他行業(yè)所無法比擬的體量及內(nèi)涵。

（1）規(guī)模大：水電設(shè)備狀態(tài)監(jiān)測系統(tǒng)測點眾多（單個電站的測點以數(shù)萬計），數(shù)據(jù)產(chǎn)生頻率高（通常為秒級甚至毫秒級），且為全天候不間斷采集，數(shù)據(jù)量巨大。

（2）類型多：水電站設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)來源廣，數(shù)據(jù)類型復(fù)雜，既有結(jié)構(gòu)化數(shù)據(jù)，也有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

（3）價值密度低：這個特點在水電設(shè)備狀態(tài)監(jiān)測系統(tǒng)中體現(xiàn)得尤為明顯，大量的數(shù)據(jù)為設(shè)備正常運行的狀態(tài)數(shù)據(jù)，對分析和評價設(shè)備狀態(tài)意義不大，少部分反映設(shè)備狀態(tài)變化的特征數(shù)據(jù)則隱藏在大數(shù)據(jù)中。

水電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的這些特征，給數(shù)據(jù)的接入、傳輸、處理、存儲和應(yīng)用均帶來了挑戰(zhàn)，需要制定合適的策略來管理這些數(shù)據(jù)，才能最大限度地發(fā)揮其作用。

3 數(shù)據(jù)接入及遠程傳輸技術(shù)

在大數(shù)據(jù)背景下，需要構(gòu)建狀態(tài)監(jiān)測數(shù)據(jù)中心，接入各個狀態(tài)監(jiān)測子系統(tǒng)數(shù)據(jù)。這些數(shù)據(jù)產(chǎn)生頻率高、數(shù)據(jù)量大、類型多，需要系統(tǒng)具有極高的吞吐量、實時處理能力及可靠性，才能確保對每一條信息都進行處理，并無一遺漏地保存下來。傳統(tǒng)的處理方式是把數(shù)據(jù)直接寫入數(shù)據(jù)庫進行存儲，由于前端數(shù)據(jù)產(chǎn)生的速度有可能高于后端數(shù)據(jù)處理的速度，這種方式會造成部分數(shù)據(jù)遺漏，從而降低數(shù)據(jù)分析結(jié)論的真實性和可靠性。

基于消息隊列（如Kafka，ActiveQM等）的數(shù)據(jù)接入方案可以解決上述問題。該方案將數(shù)據(jù)首先寫入消息隊列，再由數(shù)據(jù)管理程序存儲到數(shù)據(jù)庫中。消息隊列具有緩存機制，已經(jīng)寫入數(shù)據(jù)庫的消息會被清除，尚未寫入的數(shù)據(jù)緩存在消息隊列中。采用這種機制，在進行海量設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)實時處理時，可以解決前端監(jiān)測數(shù)據(jù)產(chǎn)生速度快，而實時處理速度跟不上，導(dǎo)致數(shù)據(jù)丟失的問題。同時，引入消息隊列之后，后端處理速度就不會影響前端監(jiān)測數(shù)據(jù)的接入，解除數(shù)據(jù)接入和數(shù)據(jù)處理環(huán)節(jié)的耦合，系統(tǒng)各組件異步運行，增加系統(tǒng)可靠性。

在進行數(shù)據(jù)遠距離傳輸時，可以利用消息隊列機制控制數(shù)據(jù)的傳輸。在某些情況下，狀態(tài)監(jiān)測系統(tǒng)會突然產(chǎn)生大量數(shù)據(jù)（如故障發(fā)生時的快速錄波數(shù)據(jù)），由于傳輸帶寬有限，如果這些數(shù)據(jù)不加處理就直接進行傳輸，有可能因為瞬間數(shù)據(jù)傳輸量過大而導(dǎo)致網(wǎng)絡(luò)癱瘓。采用消息隊列機制，數(shù)據(jù)管理程序可以根據(jù)帶寬的情況，控制每次數(shù)據(jù)傳輸量，未被傳輸?shù)臄?shù)據(jù)被暫存在消息隊列中，在帶寬空閑時再傳輸。這樣的處理方式，當(dāng)數(shù)據(jù)以井噴的方式產(chǎn)生時，仍然可以確保數(shù)據(jù)能夠穩(wěn)定、完整地進行傳輸。

圖1 基于消息隊列的數(shù)據(jù)接入技術(shù)

4 數(shù)據(jù)存儲策略

在大數(shù)據(jù)背景下，設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的存儲策略不僅要能讓數(shù)據(jù)完整地“存起來”，更要能讓數(shù)據(jù)“用起來，用得好”。在數(shù)據(jù)存儲技術(shù)如此發(fā)達的今天，將數(shù)據(jù)完整保存起來已經(jīng)不是難事，但是“存起來”不等于能“用起來，用得好”。大量存儲下來的數(shù)據(jù)不能用，或者不好用，這些數(shù)據(jù)就是毫無價值的垃圾數(shù)據(jù)，反而會成為生產(chǎn)管理工作的負擔(dān)。因此，數(shù)據(jù)存儲策略的制定，既要確保數(shù)據(jù)能夠全面、完整地保存，同時也要考慮各種應(yīng)用對數(shù)據(jù)的需求，能對數(shù)據(jù)訪問做出快速的反應(yīng)。

傳統(tǒng)的狀態(tài)監(jiān)測系統(tǒng)通常采用企業(yè)級關(guān)系數(shù)據(jù)庫來存儲數(shù)據(jù)，數(shù)據(jù)存儲量小，存儲間隔長（通常是分鐘級以上），一般只存儲重要的特征數(shù)據(jù)，且經(jīng)過一段時間后，歷史數(shù)據(jù)通常會被丟棄。這種存儲方式會造成大量的信息遺漏，不能實現(xiàn)設(shè)備全生命周期的分析及評價。因此，需要根據(jù)狀態(tài)監(jiān)測數(shù)據(jù)的特點，結(jié)合各種數(shù)據(jù)庫的優(yōu)缺點，以及當(dāng)前方興未艾的大數(shù)據(jù)技術(shù)，構(gòu)建一套更為合適的數(shù)據(jù)存儲體系。

4.1 各種數(shù)據(jù)庫優(yōu)缺點分析

（1）關(guān)系型數(shù)據(jù)庫：關(guān)系型數(shù)據(jù)庫通過構(gòu)建關(guān)系模型來組織并存儲數(shù)據(jù)，由二維表格及其相互關(guān)系組成，主要用于存儲穩(wěn)定、永久的數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫構(gòu)建了數(shù)據(jù)（測點）之間的關(guān)系，數(shù)據(jù)存取的同時也存取了它們之間的關(guān)系，便于人們理解和應(yīng)用；同時，關(guān)系數(shù)據(jù)庫提供了標準的SQL查詢，便于對數(shù)據(jù)進行訪問。其缺點是在海量存儲的情況下，數(shù)據(jù)存取速度慢。另外，關(guān)系數(shù)據(jù)庫單個數(shù)據(jù)表的存儲維度有限，不適用于有大量測點的應(yīng)用場景。

（2）實時數(shù)據(jù)庫：實時數(shù)據(jù)庫是采用實時數(shù)據(jù)模型建立起來的數(shù)據(jù)庫，用于處理不斷更新、快速變化的數(shù)據(jù)，主要應(yīng)用于工業(yè)監(jiān)控領(lǐng)域，如電力、石化、鋼鐵等工業(yè)領(lǐng)域的監(jiān)控。實時數(shù)據(jù)庫的優(yōu)點是存取快速，每秒的存取速度可達100萬個數(shù)據(jù)點；同時，實時數(shù)據(jù)庫具有在線壓縮機制，能夠?qū)?shù)據(jù)進行壓縮存儲，最大限度降低磁盤占用空間；此外，實時數(shù)據(jù)庫是高維數(shù)據(jù)庫，可以支持10萬個以上測點的存儲。這些優(yōu)點，使得實時數(shù)據(jù)庫非常適用來存儲設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)。但是實時數(shù)據(jù)庫采用的是“＜時間+數(shù)值＞”的列存儲機制，無法存儲橫向測點之間的邏輯關(guān)系，因此無法像關(guān)系數(shù)據(jù)庫那樣通過邏輯關(guān)系來對數(shù)據(jù)進行條件查詢。這個缺點極大地限制了實時數(shù)據(jù)庫的應(yīng)用。

（3）內(nèi)存數(shù)據(jù)庫：內(nèi)存數(shù)據(jù)庫利用內(nèi)存的讀寫速度比磁盤快的特點，將數(shù)據(jù)放在內(nèi)存中直接進行操作。內(nèi)存數(shù)據(jù)庫可模仿關(guān)系數(shù)據(jù)庫建立表結(jié)構(gòu)和索引，以便對數(shù)據(jù)進行管理。相比從磁盤上訪問，內(nèi)存數(shù)據(jù)庫能夠極大地提高數(shù)據(jù)的存取速度。但是由于內(nèi)存空間有限，內(nèi)存數(shù)據(jù)庫的數(shù)據(jù)存儲量受到限制；另外，在機器關(guān)機后，內(nèi)存中的數(shù)據(jù)將不復(fù)存在。內(nèi)存數(shù)據(jù)庫的特點，使得其適用于對數(shù)據(jù)進行緩存，用于實時顯示、快速計算、預(yù)警報警等低延時的應(yīng)用場景。

（4）文檔數(shù)據(jù)庫：文檔數(shù)據(jù)庫以文檔作為處理信息的基本單位，一個文檔相當(dāng)于關(guān)系數(shù)據(jù)庫中的一條記錄。文檔數(shù)據(jù)庫適用于存儲半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，如報告、圖像、音頻、視頻等。

4.2 狀態(tài)監(jiān)測大數(shù)據(jù)存儲策略

在大數(shù)據(jù)背景下，使用單一數(shù)據(jù)庫來對設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)進行管理及存儲很難取得理想效果。單一數(shù)據(jù)庫，比如關(guān)系數(shù)據(jù)庫或?qū)崟r數(shù)據(jù)庫，均可滿足將數(shù)據(jù)“存起來”這個要求，但是要滿足各種應(yīng)用場景，對各個應(yīng)用軟件的數(shù)據(jù)需求做出快速反應(yīng)，實現(xiàn)“用得好”這個目標卻并非易事。為此，可以聯(lián)合多種數(shù)據(jù)庫，構(gòu)建數(shù)據(jù)庫群來存儲數(shù)據(jù)，互相取長補短，實現(xiàn)狀態(tài)監(jiān)測數(shù)據(jù)既“存起來”，又“用得好”這兩個目標。

如圖2所示，在多種數(shù)據(jù)庫聯(lián)合存儲的方案中，系統(tǒng)根據(jù)數(shù)據(jù)特征、作用以及各種應(yīng)用的數(shù)據(jù)需求，對數(shù)據(jù)進行分類存儲。實時數(shù)據(jù)庫用于存儲狀態(tài)監(jiān)測歷史數(shù)據(jù)，充分發(fā)揮實時數(shù)據(jù)庫存儲速度快、高效壓縮的優(yōu)勢，將全部數(shù)據(jù)（包括特征數(shù)據(jù)和原始數(shù)據(jù)）進行存儲，保證數(shù)據(jù)存儲的完整性；關(guān)系數(shù)據(jù)庫用于存儲分析統(tǒng)計結(jié)果、評價及診斷結(jié)論等，能夠在保存數(shù)據(jù)的同時保存它們之間的邏輯關(guān)系，便于后續(xù)的查詢及應(yīng)用；內(nèi)存數(shù)據(jù)庫用于緩存一定時間的數(shù)據(jù)，把部分常用的數(shù)據(jù)載入內(nèi)存庫中，可以充分發(fā)揮內(nèi)存數(shù)據(jù)庫存取快速的特點，為應(yīng)用提供快速的數(shù)據(jù)訪問功能；文件數(shù)據(jù)庫則專門用于存儲報表、圖片、視頻、音頻等半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)。

5 數(shù)據(jù)預(yù)處理技術(shù)

水電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)量巨大，但價值密度低，如何將有價值的信息從數(shù)據(jù)的汪洋大海中挖掘出來是一個難題。一個普遍的認識誤區(qū)是：當(dāng)把全部的數(shù)據(jù)都存儲起來后，便可以實現(xiàn)任何想要功能。但是，如果數(shù)據(jù)沒有經(jīng)過處理就進行存儲，或者存儲后沒有再進行加工，直接對巨量數(shù)據(jù)進行查詢和檢索，系統(tǒng)的反應(yīng)會極其緩慢，再好的應(yīng)用架構(gòu)設(shè)計也不能解決這個問題。因此，采用合適的計算框架，對狀態(tài)監(jiān)測大數(shù)據(jù)進行預(yù)處理，提取有價值的信息，將大數(shù)據(jù)由“大”變“小”，是狀態(tài)監(jiān)測數(shù)據(jù)“用得好”的關(guān)鍵所在。

圖2 數(shù)據(jù)存儲策略

狀態(tài)監(jiān)測大數(shù)據(jù)的預(yù)處理可以從以下3個方面進行（圖 3）：

圖3 數(shù)據(jù)預(yù)處理架構(gòu)

（1）流式計算：利用分布式流式計算框架（如Storm等），對狀態(tài)監(jiān)測系統(tǒng)傳送過來的實時數(shù)據(jù)進行處理、計算，得出計算結(jié)果。流式計算要求事先設(shè)計好數(shù)據(jù)的處理流程節(jié)點，當(dāng)有新數(shù)據(jù)產(chǎn)生時按照既定流程對數(shù)據(jù)進行處理。流式計算適用于對當(dāng)前數(shù)據(jù)進行簡單運算和分析，如閾值報警判斷，實時狀態(tài)評估、模式識別等。

（2）內(nèi)存計算：利用分布式內(nèi)存計算框架（如Spark等），對數(shù)據(jù)進行處理、計算，得出結(jié)果。由于是基于內(nèi)存進行計算，數(shù)據(jù)及中間結(jié)果都放在內(nèi)存中，減少了磁盤的I/O操作，因此，內(nèi)存計算比起基于磁盤的計算具有明顯的速度優(yōu)勢。內(nèi)存計算適用于需要快速計算和復(fù)雜迭代的應(yīng)用場景（如神經(jīng)網(wǎng)絡(luò)運算）等。在運算前，需要將計算用到的歷史數(shù)據(jù)從實時數(shù)據(jù)庫中載入，再在內(nèi)存中進行運算。平時也可將部分常用的數(shù)據(jù)存儲到內(nèi)存中，以提高系統(tǒng)的反應(yīng)速度。

（3）磁盤計算：磁盤計算的數(shù)據(jù)及其中間結(jié)果均存入磁盤（如Map/Reduce等），由于是基于磁盤I/O操作的運算，其運算效率較低。硬盤計算適用于數(shù)據(jù)量大，運算時間較長，對運算效率要求不高的應(yīng)用場景。

狀態(tài)監(jiān)測系統(tǒng)需要綜合運用流式計算、內(nèi)存計算及硬盤計算等多種手段對數(shù)據(jù)進行預(yù)處理，從大數(shù)據(jù)中提取出有價值的信息，才能對各種數(shù)據(jù)需求做出快速反應(yīng)，達到最佳效果。此外，由于計算結(jié)果數(shù)據(jù)量通常較小，適合于存儲到關(guān)系數(shù)據(jù)庫中，便于檢索及查詢。

6 基于Hadoop的狀態(tài)監(jiān)測大數(shù)據(jù)處理框架

6.1 Hadoop的優(yōu)點

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)，是當(dāng)前比較成熟大數(shù)據(jù)處理技術(shù)，已經(jīng)在醫(yī)療、金融、消費等領(lǐng)域得到廣泛應(yīng)用。它實現(xiàn)了一個分布式文件系統(tǒng)（Hadoop Distributed File System），簡稱HDFS。HDFS被設(shè)計用來部署在低廉的硬件上，并提供高吞吐量數(shù)據(jù)訪問，適合那些有著超大數(shù)據(jù)集的應(yīng)用場景。用戶可以在不了解分布式底層細節(jié)的情況下，開發(fā)分布式程序，充分利用集群的威力進行高速運算和存儲。Hadoop架構(gòu)的優(yōu)點包括：

（1）高可靠性：Hadoop按位存儲和處理數(shù)據(jù)，且采用冗余副本策略，可存儲數(shù)據(jù)的多個副本，在部分節(jié)點故障的情況下能保持數(shù)據(jù)的完整性。

（2）高擴展性：Hadoop在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的，這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。

（3）高效性：Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù)，并保證各個節(jié)點的動態(tài)平衡，因此處理速度非?？?。

（4）高容錯性：Hadoop能夠自動保存數(shù)據(jù)的多個副本，并且能夠自動將失敗的任務(wù)重新分配。

鑒于Hadoop的特點及其優(yōu)勢，它非常適合于用來作為狀態(tài)監(jiān)測大數(shù)據(jù)處理的基礎(chǔ)架構(gòu)。

6.2 Hadoop子項目

Hadoop框架最核心的設(shè)計包括HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲，則MapReduce為海量的數(shù)據(jù)提供了計算。其子項目包括：

（1）HDFS：分布式文件管理系統(tǒng)，是 Hadoop的核心子項目，它可以將數(shù)據(jù)存儲到多個節(jié)點上，同時存儲數(shù)據(jù)的多個副本，具有高容錯、高可靠性、高可擴展性、高吞吐率等特征。

（2）MapReduce：分布式數(shù)據(jù)處理模型，用于大規(guī)模數(shù)據(jù)集（大于1 TB）的多節(jié)點并行運算。

（3）Hbase：分布式數(shù)據(jù)庫，可以對數(shù)據(jù)進行分布式管理及存儲，具有存取快速、高可靠性、高擴展性等特點。

（4）Hive：基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的sql查詢功能，可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。

圖4 Hadoop子項目

6.3 基于Hadoop的狀態(tài)監(jiān)測大數(shù)據(jù)處理架構(gòu)

本文以Hadoop作為基本架構(gòu)，融合流式處理、內(nèi)存計算、多數(shù)據(jù)庫聯(lián)合存儲等技術(shù)，設(shè)計一套適合狀態(tài)監(jiān)測大數(shù)據(jù)處理的技術(shù)方案，如圖5所示。

圖5 基于Hadoop的大數(shù)據(jù)處理架構(gòu)

方案以分布式文件系統(tǒng)HDFS作為數(shù)據(jù)存儲的基礎(chǔ)，利用其分布式存儲、讀取快速、可擴展性好、高度可靠的優(yōu)點，為數(shù)據(jù)存儲提供基礎(chǔ)服務(wù)。報表、聲音、圖像等半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)直接存儲在HDFS中。在HDFS的基礎(chǔ)上，部署HBase數(shù)據(jù)庫，存儲設(shè)備狀態(tài)數(shù)據(jù)，包括全部特征數(shù)據(jù)和原始數(shù)據(jù)等。HBase是一種分布式，面向列、可伸縮的數(shù)據(jù)庫，可為數(shù)據(jù)的存儲提供快速存取服務(wù)。通過構(gòu)建“＜時間，數(shù)值＞”的存儲模式，實現(xiàn)類似于實時數(shù)據(jù)庫的功能，但比實時數(shù)據(jù)庫具有更好的可擴展性和更高的可靠性。方案部署分布式內(nèi)存數(shù)據(jù)庫（Redis）和內(nèi)存計算框架（Spark），從HBase中讀取數(shù)據(jù)，加載進內(nèi)存中，利用Spark進行分布式計算，對數(shù)據(jù)進行預(yù)處理，為高級應(yīng)用提供有價值的數(shù)據(jù)。方案部署關(guān)系數(shù)據(jù)（Orcale）來存儲流式處理及內(nèi)存計算結(jié)果，便于應(yīng)用程序的查詢和訪問。

方案設(shè)置數(shù)據(jù)服務(wù)層為應(yīng)用程序提供數(shù)據(jù)服務(wù)，實現(xiàn)應(yīng)用層和數(shù)據(jù)存儲層的分離，高級應(yīng)用無需關(guān)心數(shù)據(jù)存儲的細節(jié)，有利于提高應(yīng)用的獨立性和可擴展性。

6.4 基于Hadoop的狀態(tài)監(jiān)大測數(shù)據(jù)處理架構(gòu)的優(yōu)點

（1）高吞吐量：系統(tǒng)采用分布式消息隊列、分布式流式計算以及分布式存儲（HDFS、HBase）等技術(shù)，多節(jié)點并行對數(shù)據(jù)進行處理，使得系統(tǒng)具有極高的吞吐量，能夠滿足狀態(tài)監(jiān)測大數(shù)據(jù)實時、并發(fā)的處理要求。

（2）高可靠性：系統(tǒng)采用消息隊列機制，實現(xiàn)前端數(shù)據(jù)接入及后端數(shù)據(jù)處理的分離；設(shè)置數(shù)據(jù)服務(wù)層，實現(xiàn)應(yīng)用和數(shù)據(jù)存儲的分離。這些措施解除了各個模塊之間的耦合，有利于提高系統(tǒng)的可靠性。此外，Hadoop采用冗余副本策略，可以存儲數(shù)據(jù)的多個副本，在某些節(jié)點出現(xiàn)故障的情況下仍然能夠保證數(shù)據(jù)的完整性，保證系統(tǒng)的正常運行，具有極高的可靠性。

（3）高效性：系統(tǒng)聯(lián)合多節(jié)點并行對數(shù)據(jù)進行處理，并采用了內(nèi)存計算技術(shù)，極大地提高了數(shù)據(jù)處理速度。

（4）高擴展性：Hadoop可以根據(jù)需要擴展其計算和存儲節(jié)點，且擴展不影響之前的數(shù)據(jù)存儲，具有很好的可擴展性。

7 結(jié)語

水電設(shè)備狀態(tài)監(jiān)測系統(tǒng)測點眾多，數(shù)據(jù)產(chǎn)生頻率高，數(shù)據(jù)量巨大，給數(shù)據(jù)的處理、存儲、分析帶來了挑戰(zhàn)。本文對狀態(tài)監(jiān)測系統(tǒng)數(shù)據(jù)特點進行了分析，對數(shù)據(jù)接入、存儲及預(yù)處理技術(shù)進行了研究，提出了一套基于Hadoop的水電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)的處理方案。方案綜合利用消息隊列、流式計算、內(nèi)存計算技術(shù)對數(shù)據(jù)進行處理，并根據(jù)數(shù)據(jù)特點以及各種數(shù)據(jù)庫的優(yōu)缺點，綜合運行實時數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、文件數(shù)據(jù)庫對數(shù)據(jù)進行管理、存儲，最終通過數(shù)據(jù)服務(wù)層對外提供數(shù)據(jù)服務(wù)，實現(xiàn)水電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)“存起來”、“用得好”的目標。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡