曾廣移,鞏 宇,李德華,陳澤陽,彭大鵬
(1.調(diào)峰調(diào)頻發(fā)電有限公司,廣東 廣州510000;2.北京華科同安監(jiān)控技術(shù)有限公司,北京100043)
隨著科技的發(fā)展和管理水平的提高,水電設(shè)備狀態(tài)監(jiān)測的廣度和深度不斷加強,數(shù)據(jù)量不斷擴大。傳統(tǒng)的設(shè)備狀態(tài)監(jiān)測系統(tǒng)通常單獨建設(shè),針對單個領(lǐng)域,解決某類問題,互相獨立,彼此間沒有關(guān)聯(lián)。隨著數(shù)字化、智能化水電站建設(shè)的推進,要求在電站或者集團級成立狀態(tài)監(jiān)測數(shù)據(jù)中心,接入并融合各個狀態(tài)監(jiān)測子系統(tǒng)數(shù)據(jù),實現(xiàn)對設(shè)備狀態(tài)的全方位、多維度的監(jiān)測、分析和評價,為生產(chǎn)管理決策提供全面、準確的技術(shù)支撐。
狀態(tài)監(jiān)測系統(tǒng)持續(xù)、高頻地產(chǎn)生各種數(shù)據(jù),數(shù)據(jù)種類多,數(shù)據(jù)量巨大。如何處理好這些數(shù)據(jù),發(fā)揮其應(yīng)有作用是一個巨大的挑戰(zhàn)。傳統(tǒng)的狀態(tài)監(jiān)測系統(tǒng)通常獨立存儲數(shù)據(jù),由于受存儲條件限制,一般只保存經(jīng)過加工后的特征數(shù)據(jù),原始數(shù)據(jù)沒有保存,遺漏了隱藏在原始數(shù)據(jù)中的部分信息,且超過一定時間的歷史數(shù)據(jù)就會被丟棄,不能實現(xiàn)設(shè)備全生命周期的狀態(tài)監(jiān)測。雖然近年來大數(shù)據(jù)技術(shù)發(fā)展迅速,在金融、醫(yī)療、消費等領(lǐng)域均得到了成功應(yīng)用,但是由于水電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的特殊性,如果照搬其他領(lǐng)域的大數(shù)據(jù)處理方法很難取得理想的效果。為此,需要全面分析水電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的特征,根據(jù)數(shù)字化、智能化水電站建設(shè)對狀態(tài)監(jiān)測系統(tǒng)的要求,結(jié)合當(dāng)下成熟的大數(shù)據(jù)技術(shù),設(shè)計適合的水電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)處理方案。
大數(shù)據(jù)一般具有“3 V”特征,即規(guī)模大Volume、類型多Variety和價值密度低Value。水電設(shè)備狀態(tài)監(jiān)測系統(tǒng)測點多,數(shù)據(jù)產(chǎn)生頻度高,類型眾多,具有典型的大數(shù)據(jù)特征,是名副其實的大數(shù)據(jù),同時又超越了普適的大數(shù)據(jù)概念,具有其他行業(yè)所無法比擬的體量及內(nèi)涵。
(1)規(guī)模大:水電設(shè)備狀態(tài)監(jiān)測系統(tǒng)測點眾多(單個電站的測點以數(shù)萬計),數(shù)據(jù)產(chǎn)生頻率高(通常為秒級甚至毫秒級),且為全天候不間斷采集,數(shù)據(jù)量巨大。
(2)類型多:水電站設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)來源廣,數(shù)據(jù)類型復(fù)雜,既有結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
(3)價值密度低:這個特點在水電設(shè)備狀態(tài)監(jiān)測系統(tǒng)中體現(xiàn)得尤為明顯,大量的數(shù)據(jù)為設(shè)備正常運行的狀態(tài)數(shù)據(jù),對分析和評價設(shè)備狀態(tài)意義不大,少部分反映設(shè)備狀態(tài)變化的特征數(shù)據(jù)則隱藏在大數(shù)據(jù)中。
水電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的這些特征,給數(shù)據(jù)的接入、傳輸、處理、存儲和應(yīng)用均帶來了挑戰(zhàn),需要制定合適的策略來管理這些數(shù)據(jù),才能最大限度地發(fā)揮其作用。
在大數(shù)據(jù)背景下,需要構(gòu)建狀態(tài)監(jiān)測數(shù)據(jù)中心,接入各個狀態(tài)監(jiān)測子系統(tǒng)數(shù)據(jù)。這些數(shù)據(jù)產(chǎn)生頻率高、數(shù)據(jù)量大、類型多,需要系統(tǒng)具有極高的吞吐量、實時處理能力及可靠性,才能確保對每一條信息都進行處理,并無一遺漏地保存下來。傳統(tǒng)的處理方式是把數(shù)據(jù)直接寫入數(shù)據(jù)庫進行存儲,由于前端數(shù)據(jù)產(chǎn)生的速度有可能高于后端數(shù)據(jù)處理的速度,這種方式會造成部分數(shù)據(jù)遺漏,從而降低數(shù)據(jù)分析結(jié)論的真實性和可靠性。
基于消息隊列(如Kafka,ActiveQM等)的數(shù)據(jù)接入方案可以解決上述問題。該方案將數(shù)據(jù)首先寫入消息隊列,再由數(shù)據(jù)管理程序存儲到數(shù)據(jù)庫中。消息隊列具有緩存機制,已經(jīng)寫入數(shù)據(jù)庫的消息會被清除,尚未寫入的數(shù)據(jù)緩存在消息隊列中。采用這種機制,在進行海量設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)實時處理時,可以解決前端監(jiān)測數(shù)據(jù)產(chǎn)生速度快,而實時處理速度跟不上,導(dǎo)致數(shù)據(jù)丟失的問題。同時,引入消息隊列之后,后端處理速度就不會影響前端監(jiān)測數(shù)據(jù)的接入,解除數(shù)據(jù)接入和數(shù)據(jù)處理環(huán)節(jié)的耦合,系統(tǒng)各組件異步運行,增加系統(tǒng)可靠性。
在進行數(shù)據(jù)遠距離傳輸時,可以利用消息隊列機制控制數(shù)據(jù)的傳輸。在某些情況下,狀態(tài)監(jiān)測系統(tǒng)會突然產(chǎn)生大量數(shù)據(jù)(如故障發(fā)生時的快速錄波數(shù)據(jù)),由于傳輸帶寬有限,如果這些數(shù)據(jù)不加處理就直接進行傳輸,有可能因為瞬間數(shù)據(jù)傳輸量過大而導(dǎo)致網(wǎng)絡(luò)癱瘓。采用消息隊列機制,數(shù)據(jù)管理程序可以根據(jù)帶寬的情況,控制每次數(shù)據(jù)傳輸量,未被傳輸?shù)臄?shù)據(jù)被暫存在消息隊列中,在帶寬空閑時再傳輸。這樣的處理方式,當(dāng)數(shù)據(jù)以井噴的方式產(chǎn)生時,仍然可以確保數(shù)據(jù)能夠穩(wěn)定、完整地進行傳輸。
圖1 基于消息隊列的數(shù)據(jù)接入技術(shù)
在大數(shù)據(jù)背景下,設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的存儲策略不僅要能讓數(shù)據(jù)完整地“存起來”,更要能讓數(shù)據(jù)“用起來,用得好”。在數(shù)據(jù)存儲技術(shù)如此發(fā)達的今天,將數(shù)據(jù)完整保存起來已經(jīng)不是難事,但是“存起來”不等于能“用起來,用得好”。大量存儲下來的數(shù)據(jù)不能用,或者不好用,這些數(shù)據(jù)就是毫無價值的垃圾數(shù)據(jù),反而會成為生產(chǎn)管理工作的負擔(dān)。因此,數(shù)據(jù)存儲策略的制定,既要確保數(shù)據(jù)能夠全面、完整地保存,同時也要考慮各種應(yīng)用對數(shù)據(jù)的需求,能對數(shù)據(jù)訪問做出快速的反應(yīng)。
傳統(tǒng)的狀態(tài)監(jiān)測系統(tǒng)通常采用企業(yè)級關(guān)系數(shù)據(jù)庫來存儲數(shù)據(jù),數(shù)據(jù)存儲量小,存儲間隔長(通常是分鐘級以上),一般只存儲重要的特征數(shù)據(jù),且經(jīng)過一段時間后,歷史數(shù)據(jù)通常會被丟棄。這種存儲方式會造成大量的信息遺漏,不能實現(xiàn)設(shè)備全生命周期的分析及評價。因此,需要根據(jù)狀態(tài)監(jiān)測數(shù)據(jù)的特點,結(jié)合各種數(shù)據(jù)庫的優(yōu)缺點,以及當(dāng)前方興未艾的大數(shù)據(jù)技術(shù),構(gòu)建一套更為合適的數(shù)據(jù)存儲體系。
(1)關(guān)系型數(shù)據(jù)庫:關(guān)系型數(shù)據(jù)庫通過構(gòu)建關(guān)系模型來組織并存儲數(shù)據(jù),由二維表格及其相互關(guān)系組成,主要用于存儲穩(wěn)定、永久的數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫構(gòu)建了數(shù)據(jù)(測點)之間的關(guān)系,數(shù)據(jù)存取的同時也存取了它們之間的關(guān)系,便于人們理解和應(yīng)用;同時,關(guān)系數(shù)據(jù)庫提供了標準的SQL查詢,便于對數(shù)據(jù)進行訪問。其缺點是在海量存儲的情況下,數(shù)據(jù)存取速度慢。另外,關(guān)系數(shù)據(jù)庫單個數(shù)據(jù)表的存儲維度有限,不適用于有大量測點的應(yīng)用場景。
(2)實時數(shù)據(jù)庫:實時數(shù)據(jù)庫是采用實時數(shù)據(jù)模型建立起來的數(shù)據(jù)庫,用于處理不斷更新、快速變化的數(shù)據(jù),主要應(yīng)用于工業(yè)監(jiān)控領(lǐng)域,如電力、石化、鋼鐵等工業(yè)領(lǐng)域的監(jiān)控。實時數(shù)據(jù)庫的優(yōu)點是存取快速,每秒的存取速度可達100萬個數(shù)據(jù)點;同時,實時數(shù)據(jù)庫具有在線壓縮機制,能夠?qū)?shù)據(jù)進行壓縮存儲,最大限度降低磁盤占用空間;此外,實時數(shù)據(jù)庫是高維數(shù)據(jù)庫,可以支持10萬個以上測點的存儲。這些優(yōu)點,使得實時數(shù)據(jù)庫非常適用來存儲設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)。但是實時數(shù)據(jù)庫采用的是“<時間+數(shù)值>”的列存儲機制,無法存儲橫向測點之間的邏輯關(guān)系,因此無法像關(guān)系數(shù)據(jù)庫那樣通過邏輯關(guān)系來對數(shù)據(jù)進行條件查詢。這個缺點極大地限制了實時數(shù)據(jù)庫的應(yīng)用。
(3)內(nèi)存數(shù)據(jù)庫:內(nèi)存數(shù)據(jù)庫利用內(nèi)存的讀寫速度比磁盤快的特點,將數(shù)據(jù)放在內(nèi)存中直接進行操作。內(nèi)存數(shù)據(jù)庫可模仿關(guān)系數(shù)據(jù)庫建立表結(jié)構(gòu)和索引,以便對數(shù)據(jù)進行管理。相比從磁盤上訪問,內(nèi)存數(shù)據(jù)庫能夠極大地提高數(shù)據(jù)的存取速度。但是由于內(nèi)存空間有限,內(nèi)存數(shù)據(jù)庫的數(shù)據(jù)存儲量受到限制;另外,在機器關(guān)機后,內(nèi)存中的數(shù)據(jù)將不復(fù)存在。內(nèi)存數(shù)據(jù)庫的特點,使得其適用于對數(shù)據(jù)進行緩存,用于實時顯示、快速計算、預(yù)警報警等低延時的應(yīng)用場景。
(4)文檔數(shù)據(jù)庫:文檔數(shù)據(jù)庫以文檔作為處理信息的基本單位,一個文檔相當(dāng)于關(guān)系數(shù)據(jù)庫中的一條記錄。文檔數(shù)據(jù)庫適用于存儲半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如報告、圖像、音頻、視頻等。
在大數(shù)據(jù)背景下,使用單一數(shù)據(jù)庫來對設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)進行管理及存儲很難取得理想效果。單一數(shù)據(jù)庫,比如關(guān)系數(shù)據(jù)庫或?qū)崟r數(shù)據(jù)庫,均可滿足將數(shù)據(jù)“存起來”這個要求,但是要滿足各種應(yīng)用場景,對各個應(yīng)用軟件的數(shù)據(jù)需求做出快速反應(yīng),實現(xiàn)“用得好”這個目標卻并非易事。為此,可以聯(lián)合多種數(shù)據(jù)庫,構(gòu)建數(shù)據(jù)庫群來存儲數(shù)據(jù),互相取長補短,實現(xiàn)狀態(tài)監(jiān)測數(shù)據(jù)既“存起來”,又“用得好”這兩個目標。
如圖2所示,在多種數(shù)據(jù)庫聯(lián)合存儲的方案中,系統(tǒng)根據(jù)數(shù)據(jù)特征、作用以及各種應(yīng)用的數(shù)據(jù)需求,對數(shù)據(jù)進行分類存儲。實時數(shù)據(jù)庫用于存儲狀態(tài)監(jiān)測歷史數(shù)據(jù),充分發(fā)揮實時數(shù)據(jù)庫存儲速度快、高效壓縮的優(yōu)勢,將全部數(shù)據(jù)(包括特征數(shù)據(jù)和原始數(shù)據(jù))進行存儲,保證數(shù)據(jù)存儲的完整性;關(guān)系數(shù)據(jù)庫用于存儲分析統(tǒng)計結(jié)果、評價及診斷結(jié)論等,能夠在保存數(shù)據(jù)的同時保存它們之間的邏輯關(guān)系,便于后續(xù)的查詢及應(yīng)用;內(nèi)存數(shù)據(jù)庫用于緩存一定時間的數(shù)據(jù),把部分常用的數(shù)據(jù)載入內(nèi)存庫中,可以充分發(fā)揮內(nèi)存數(shù)據(jù)庫存取快速的特點,為應(yīng)用提供快速的數(shù)據(jù)訪問功能;文件數(shù)據(jù)庫則專門用于存儲報表、圖片、視頻、音頻等半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)。
水電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)量巨大,但價值密度低,如何將有價值的信息從數(shù)據(jù)的汪洋大海中挖掘出來是一個難題。一個普遍的認識誤區(qū)是:當(dāng)把全部的數(shù)據(jù)都存儲起來后,便可以實現(xiàn)任何想要功能。但是,如果數(shù)據(jù)沒有經(jīng)過處理就進行存儲,或者存儲后沒有再進行加工,直接對巨量數(shù)據(jù)進行查詢和檢索,系統(tǒng)的反應(yīng)會極其緩慢,再好的應(yīng)用架構(gòu)設(shè)計也不能解決這個問題。因此,采用合適的計算框架,對狀態(tài)監(jiān)測大數(shù)據(jù)進行預(yù)處理,提取有價值的信息,將大數(shù)據(jù)由“大”變“小”,是狀態(tài)監(jiān)測數(shù)據(jù)“用得好”的關(guān)鍵所在。
圖2 數(shù)據(jù)存儲策略
狀態(tài)監(jiān)測大數(shù)據(jù)的預(yù)處理可以從以下3個方面進行(圖 3):
圖3 數(shù)據(jù)預(yù)處理架構(gòu)
(1)流式計算:利用分布式流式計算框架(如Storm等),對狀態(tài)監(jiān)測系統(tǒng)傳送過來的實時數(shù)據(jù)進行處理、計算,得出計算結(jié)果。流式計算要求事先設(shè)計好數(shù)據(jù)的處理流程節(jié)點,當(dāng)有新數(shù)據(jù)產(chǎn)生時按照既定流程對數(shù)據(jù)進行處理。流式計算適用于對當(dāng)前數(shù)據(jù)進行簡單運算和分析,如閾值報警判斷,實時狀態(tài)評估、模式識別等。
(2)內(nèi)存計算:利用分布式內(nèi)存計算框架(如Spark等),對數(shù)據(jù)進行處理、計算,得出結(jié)果。由于是基于內(nèi)存進行計算,數(shù)據(jù)及中間結(jié)果都放在內(nèi)存中,減少了磁盤的I/O操作,因此,內(nèi)存計算比起基于磁盤的計算具有明顯的速度優(yōu)勢。內(nèi)存計算適用于需要快速計算和復(fù)雜迭代的應(yīng)用場景(如神經(jīng)網(wǎng)絡(luò)運算)等。在運算前,需要將計算用到的歷史數(shù)據(jù)從實時數(shù)據(jù)庫中載入,再在內(nèi)存中進行運算。平時也可將部分常用的數(shù)據(jù)存儲到內(nèi)存中,以提高系統(tǒng)的反應(yīng)速度。
(3)磁盤計算:磁盤計算的數(shù)據(jù)及其中間結(jié)果均存入磁盤(如Map/Reduce等),由于是基于磁盤I/O操作的運算,其運算效率較低。硬盤計算適用于數(shù)據(jù)量大,運算時間較長,對運算效率要求不高的應(yīng)用場景。
狀態(tài)監(jiān)測系統(tǒng)需要綜合運用流式計算、內(nèi)存計算及硬盤計算等多種手段對數(shù)據(jù)進行預(yù)處理,從大數(shù)據(jù)中提取出有價值的信息,才能對各種數(shù)據(jù)需求做出快速反應(yīng),達到最佳效果。此外,由于計算結(jié)果數(shù)據(jù)量通常較小,適合于存儲到關(guān)系數(shù)據(jù)庫中,便于檢索及查詢。
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),是當(dāng)前比較成熟大數(shù)據(jù)處理技術(shù),已經(jīng)在醫(yī)療、金融、消費等領(lǐng)域得到廣泛應(yīng)用。它實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS被設(shè)計用來部署在低廉的硬件上,并提供高吞吐量數(shù)據(jù)訪問,適合那些有著超大數(shù)據(jù)集的應(yīng)用場景。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力進行高速運算和存儲。Hadoop架構(gòu)的優(yōu)點包括:
(1)高可靠性:Hadoop按位存儲和處理數(shù)據(jù),且采用冗余副本策略,可存儲數(shù)據(jù)的多個副本,在部分節(jié)點故障的情況下能保持數(shù)據(jù)的完整性。
(2)高擴展性:Hadoop在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。
(3)高效性:Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非???。
(4)高容錯性:Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。
鑒于Hadoop的特點及其優(yōu)勢,它非常適合于用來作為狀態(tài)監(jiān)測大數(shù)據(jù)處理的基礎(chǔ)架構(gòu)。
Hadoop框架最核心的設(shè)計包括HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。其子項目包括:
(1)HDFS:分布式文件管理系統(tǒng),是 Hadoop的核心子項目,它可以將數(shù)據(jù)存儲到多個節(jié)點上,同時存儲數(shù)據(jù)的多個副本,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征。
(2)MapReduce:分布式數(shù)據(jù)處理模型,用于大規(guī)模數(shù)據(jù)集(大于1 TB)的多節(jié)點并行運算。
(3)Hbase:分布式數(shù)據(jù)庫,可以對數(shù)據(jù)進行分布式管理及存儲,具有存取快速、高可靠性、高擴展性等特點。
(4)Hive:基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。
圖4 Hadoop子項目
本文以Hadoop作為基本架構(gòu),融合流式處理、內(nèi)存計算、多數(shù)據(jù)庫聯(lián)合存儲等技術(shù),設(shè)計一套適合狀態(tài)監(jiān)測大數(shù)據(jù)處理的技術(shù)方案,如圖5所示。
圖5 基于Hadoop的大數(shù)據(jù)處理架構(gòu)
方案以分布式文件系統(tǒng)HDFS作為數(shù)據(jù)存儲的基礎(chǔ),利用其分布式存儲、讀取快速、可擴展性好、高度可靠的優(yōu)點,為數(shù)據(jù)存儲提供基礎(chǔ)服務(wù)。報表、聲音、圖像等半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)直接存儲在HDFS中。在HDFS的基礎(chǔ)上,部署HBase數(shù)據(jù)庫,存儲設(shè)備狀態(tài)數(shù)據(jù),包括全部特征數(shù)據(jù)和原始數(shù)據(jù)等。HBase是一種分布式,面向列、可伸縮的數(shù)據(jù)庫,可為數(shù)據(jù)的存儲提供快速存取服務(wù)。通過構(gòu)建“<時間,數(shù)值>”的存儲模式,實現(xiàn)類似于實時數(shù)據(jù)庫的功能,但比實時數(shù)據(jù)庫具有更好的可擴展性和更高的可靠性。方案部署分布式內(nèi)存數(shù)據(jù)庫(Redis)和內(nèi)存計算框架(Spark),從HBase中讀取數(shù)據(jù),加載進內(nèi)存中,利用Spark進行分布式計算,對數(shù)據(jù)進行預(yù)處理,為高級應(yīng)用提供有價值的數(shù)據(jù)。方案部署關(guān)系數(shù)據(jù)(Orcale)來存儲流式處理及內(nèi)存計算結(jié)果,便于應(yīng)用程序的查詢和訪問。
方案設(shè)置數(shù)據(jù)服務(wù)層為應(yīng)用程序提供數(shù)據(jù)服務(wù),實現(xiàn)應(yīng)用層和數(shù)據(jù)存儲層的分離,高級應(yīng)用無需關(guān)心數(shù)據(jù)存儲的細節(jié),有利于提高應(yīng)用的獨立性和可擴展性。
(1)高吞吐量:系統(tǒng)采用分布式消息隊列、分布式流式計算以及分布式存儲(HDFS、HBase)等技術(shù),多節(jié)點并行對數(shù)據(jù)進行處理,使得系統(tǒng)具有極高的吞吐量,能夠滿足狀態(tài)監(jiān)測大數(shù)據(jù)實時、并發(fā)的處理要求。
(2)高可靠性:系統(tǒng)采用消息隊列機制,實現(xiàn)前端數(shù)據(jù)接入及后端數(shù)據(jù)處理的分離;設(shè)置數(shù)據(jù)服務(wù)層,實現(xiàn)應(yīng)用和數(shù)據(jù)存儲的分離。這些措施解除了各個模塊之間的耦合,有利于提高系統(tǒng)的可靠性。此外,Hadoop采用冗余副本策略,可以存儲數(shù)據(jù)的多個副本,在某些節(jié)點出現(xiàn)故障的情況下仍然能夠保證數(shù)據(jù)的完整性,保證系統(tǒng)的正常運行,具有極高的可靠性。
(3)高效性:系統(tǒng)聯(lián)合多節(jié)點并行對數(shù)據(jù)進行處理,并采用了內(nèi)存計算技術(shù),極大地提高了數(shù)據(jù)處理速度。
(4)高擴展性:Hadoop可以根據(jù)需要擴展其計算和存儲節(jié)點,且擴展不影響之前的數(shù)據(jù)存儲,具有很好的可擴展性。
水電設(shè)備狀態(tài)監(jiān)測系統(tǒng)測點眾多,數(shù)據(jù)產(chǎn)生頻率高,數(shù)據(jù)量巨大,給數(shù)據(jù)的處理、存儲、分析帶來了挑戰(zhàn)。本文對狀態(tài)監(jiān)測系統(tǒng)數(shù)據(jù)特點進行了分析,對數(shù)據(jù)接入、存儲及預(yù)處理技術(shù)進行了研究,提出了一套基于Hadoop的水電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)的處理方案。方案綜合利用消息隊列、流式計算、內(nèi)存計算技術(shù)對數(shù)據(jù)進行處理,并根據(jù)數(shù)據(jù)特點以及各種數(shù)據(jù)庫的優(yōu)缺點,綜合運行實時數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、文件數(shù)據(jù)庫對數(shù)據(jù)進行管理、存儲,最終通過數(shù)據(jù)服務(wù)層對外提供數(shù)據(jù)服務(wù),實現(xiàn)水電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)“存起來”、“用得好”的目標。