基于大數(shù)據(jù)技術(shù)的量測數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)

2016-12-10 01:16謝玉波

無線互聯(lián)科技 2016年21期

關(guān)鍵詞：測數(shù)據(jù)批量數(shù)據(jù)量

猶鋒，曹健，謝玉波

（國網(wǎng)電力科學(xué)研究院江蘇瑞中數(shù)據(jù)股份有限公司，江蘇南京 210000）

基于大數(shù)據(jù)技術(shù)的量測數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)

猶鋒，曹健，謝玉波

（國網(wǎng)電力科學(xué)研究院江蘇瑞中數(shù)據(jù)股份有限公司，江蘇南京 210000）

針對傳統(tǒng)關(guān)系型數(shù)據(jù)庫用于電力信息系統(tǒng)量測數(shù)據(jù)處理效率低的問題，文章設(shè)計(jì)并實(shí)現(xiàn)了基于大數(shù)據(jù)技術(shù)的量測數(shù)據(jù)處理系統(tǒng)。基于分布式消息隊(duì)列技術(shù)，該系統(tǒng)實(shí)現(xiàn)了大規(guī)模量測數(shù)據(jù)的緩沖接入；基于流計(jì)算技術(shù)，提高了量測數(shù)據(jù)在入庫前的實(shí)時(shí)處理效率；設(shè)計(jì)了量測數(shù)據(jù)列式存儲模型，實(shí)現(xiàn)了大規(guī)模量測數(shù)據(jù)的高效存取。

量測數(shù)據(jù)；大數(shù)據(jù)技術(shù)；列式存儲模型

隨著智能電網(wǎng)信息化不斷發(fā)展，調(diào)度自動化和采集監(jiān)測類系統(tǒng)積累了海量的電網(wǎng)量測數(shù)據(jù)[1]，量測數(shù)據(jù)作為電網(wǎng)領(lǐng)域四大數(shù)據(jù)類型之一，是設(shè)備狀態(tài)監(jiān)測、輔助決策分析、大數(shù)據(jù)挖掘的重要基礎(chǔ)，目前其采用傳統(tǒng)關(guān)系型數(shù)據(jù)庫進(jìn)行存儲。隨著大數(shù)據(jù)技術(shù)的不斷成熟，先進(jìn)的存儲與計(jì)算架構(gòu)與傳統(tǒng)架構(gòu)在性能和擴(kuò)展性上不斷拉開差距，采用傳統(tǒng)架構(gòu)的關(guān)系型數(shù)據(jù)庫逐漸暴露出技術(shù)不足與局限性，不能夠很好地支撐大數(shù)據(jù)環(huán)境下對量測數(shù)據(jù)的高效計(jì)算與深度挖掘。

本文提出一種基于大數(shù)據(jù)技術(shù)的量測數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)，解決海量量測數(shù)據(jù)的數(shù)據(jù)接入、存儲、訪問難的問題。

1 電網(wǎng)量測數(shù)據(jù)特點(diǎn)分析

電網(wǎng)量測數(shù)據(jù)是一種具有明顯時(shí)序性的半結(jié)構(gòu)化數(shù)據(jù)，可描述為三元組＜DeviceID, TimeStamp, Value＞，其中DeviceID，TimeStamp，Value分別表示設(shè)備ID、時(shí)間戳、值，主要由電力設(shè)備或儀表產(chǎn)生，隨著時(shí)間的推移，設(shè)備或儀表周期性輸出量測數(shù)據(jù)，由采集系統(tǒng)收集并上傳到數(shù)據(jù)庫中。量測數(shù)據(jù)采集周期較為密集，由于量測點(diǎn)眾多，一般單個(gè)省電力公司每年產(chǎn)生量測數(shù)據(jù)量在10 TB以上，由于數(shù)據(jù)量巨大所以對數(shù)據(jù)處理系統(tǒng)性能要求非常高，主要體現(xiàn)在對海量數(shù)據(jù)的接入、存儲與查詢3方面。

電網(wǎng)業(yè)務(wù)模型具有明顯的層次結(jié)構(gòu)如圖1所示，基于電網(wǎng)模型的量測數(shù)據(jù)業(yè)務(wù)應(yīng)用以批量和斷面兩種訪問方式為主，批量查詢即查詢某個(gè)設(shè)備在一段時(shí)間內(nèi)產(chǎn)生的數(shù)據(jù)值，斷面查詢即查詢某個(gè)時(shí)間點(diǎn)某個(gè)范圍內(nèi)所有設(shè)備產(chǎn)生的數(shù)據(jù)值。其中非周期性量測數(shù)據(jù)以批量查詢?yōu)橹?，固定周期量測數(shù)據(jù)以斷面查詢?yōu)橹鳌？紤]到目前量測數(shù)據(jù)中固定周期數(shù)據(jù)（例如低電壓開關(guān)、低電壓線路、用戶表計(jì)的采集數(shù)據(jù)）占絕大多數(shù)，因而在存儲模型設(shè)計(jì)時(shí)應(yīng)充分滿足固定周期數(shù)據(jù)斷面查詢需求，兼顧批量查詢需求。

圖1 電網(wǎng)模型示意圖

2 系統(tǒng)設(shè)計(jì)

2.1 系統(tǒng)總體架構(gòu)

本系統(tǒng)主要由數(shù)據(jù)接入、實(shí)時(shí)處理、數(shù)據(jù)存儲、數(shù)據(jù)訪問接口4大功能模塊組成，采用大數(shù)據(jù)技術(shù)中對應(yīng)的開源組件集成實(shí)現(xiàn)。其中數(shù)據(jù)接入由分布式消息隊(duì)列Kafka組件實(shí)現(xiàn)；實(shí)時(shí)處理由分布式并行流計(jì)算框架Storm組件實(shí)現(xiàn)；數(shù)據(jù)存儲由分布式列式存儲Hbase和緩存數(shù)據(jù)庫Redis以及關(guān)系型數(shù)據(jù)庫MYSQL實(shí)現(xiàn)；數(shù)據(jù)訪問由結(jié)合量測數(shù)據(jù)特點(diǎn)的統(tǒng)一訪問接口UAPI組件實(shí)現(xiàn)，整體架構(gòu)如圖2所示。

系統(tǒng)運(yùn)行時(shí)，數(shù)據(jù)源系統(tǒng)通過適配器接口將數(shù)據(jù)傳輸?shù)終afka消息隊(duì)列中，適配器在此過程中對通信協(xié)議進(jìn)行轉(zhuǎn)換以及對原始數(shù)據(jù)進(jìn)行規(guī)整；Kafka具有緩沖作用，對數(shù)據(jù)進(jìn)行高速緩沖，防止數(shù)據(jù)波峰沖垮后續(xù)組件，并將數(shù)據(jù)按照規(guī)則存儲于相應(yīng)的隊(duì)列中，Storm從Kafka中按照隊(duì)列進(jìn)行數(shù)據(jù)訂閱，并將不同隊(duì)列的數(shù)據(jù)應(yīng)用于預(yù)設(shè)的計(jì)算程序中進(jìn)行處理，計(jì)算處理后的數(shù)據(jù)按照業(yè)務(wù)需求存儲于Hbase和Redis中，如果只產(chǎn)生統(tǒng)計(jì)性結(jié)果則存儲于MYSQL中。業(yè)務(wù)應(yīng)用通過統(tǒng)一訪問接口UAPI訪問處理后的數(shù)據(jù)，進(jìn)行展示或應(yīng)用，UAPI屏蔽了底層的存儲模型以及不同存儲方式間的調(diào)度復(fù)雜性，對上層應(yīng)用起到透明訪問作用。

圖2 系統(tǒng)總體架構(gòu)圖

2.2 數(shù)據(jù)接入

由于生產(chǎn)系統(tǒng)眾多，數(shù)據(jù)接口實(shí)現(xiàn)方式千差萬別，量測數(shù)據(jù)接入系統(tǒng)前需要定制適配器與數(shù)據(jù)源系統(tǒng)對接，一是用于協(xié)議轉(zhuǎn)換，二是用于對生數(shù)據(jù)進(jìn)行初步加工，使其格式統(tǒng)一。適配器一端連接數(shù)據(jù)源系統(tǒng)，一段連接量測數(shù)據(jù)處理系統(tǒng)的Kafka組件，根據(jù)接入數(shù)據(jù)類型的不同在Kafka上配置不同的消息隊(duì)列，一個(gè)數(shù)據(jù)源系統(tǒng)接入的量測數(shù)據(jù)類型可能有多種，即一個(gè)數(shù)據(jù)源系統(tǒng)可能對應(yīng)Kafka中的多個(gè)隊(duì)列。由于Kafka是分布式消息隊(duì)列，具有異步通信特點(diǎn)，其吞吐量非常大，可以同時(shí)接入多套數(shù)據(jù)源系統(tǒng)，并且能夠?qū)Ψ逯稻薮蟮臄?shù)據(jù)起到緩沖作用，避免對整個(gè)系統(tǒng)構(gòu)成沖擊。

2.3 實(shí)時(shí)計(jì)算

在量測數(shù)據(jù)入庫前，采用Storm組件對數(shù)據(jù)流進(jìn)行流計(jì)算。由于Kafka中不同消息隊(duì)列對應(yīng)不同的量測數(shù)據(jù)類型，處理方式千差萬別，所以需要根據(jù)業(yè)務(wù)需求開發(fā)相應(yīng)的Storm處理邏輯。Strom作為一個(gè)分布式實(shí)時(shí)計(jì)算系統(tǒng)[2]，提供了很好的并行流計(jì)算框架，可以對數(shù)據(jù)進(jìn)行分布式加工處理，支持大規(guī)模數(shù)據(jù)的實(shí)時(shí)計(jì)算。

此過程主要完成兩類工作，一是對進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行深度加工，例如數(shù)據(jù)補(bǔ)全、數(shù)據(jù)質(zhì)量檢查等，加工后的數(shù)據(jù)一般存儲于Hbase和Redis中；二是對流過的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析，一般分析后的數(shù)據(jù)作廢，只保留分析結(jié)果存儲于MYSQL中。對于第一種情況，其中的Redis主要用于熱數(shù)據(jù)緩存，因?yàn)榈谝环N情況一般是對量測數(shù)據(jù)的入庫處理，入庫后的數(shù)據(jù)需要被頻繁訪問，而越新的數(shù)據(jù)訪問熱度往往越高。為了提高熱數(shù)據(jù)的訪問效率，數(shù)據(jù)存儲到Hbase時(shí)同時(shí)存儲一份到Redis，Redis作為內(nèi)存數(shù)據(jù)庫具有更高的訪問效率。需要說明的是Redis只保存最近一段時(shí)間的數(shù)據(jù)，數(shù)據(jù)超過一定時(shí)間將被定期清除。

2.4 存儲模型

數(shù)據(jù)的存儲方式至關(guān)重要，對數(shù)據(jù)的存儲、修改、查詢等操作的效率有著直接的影響?？傮w而言，數(shù)據(jù)的存儲方式可以被分為兩種：隨機(jī)存儲方式和固定存儲方式。這兩種方法各有利弊，如何選擇取決于實(shí)際的具體需求。在大數(shù)據(jù)的情況下，數(shù)據(jù)量非常龐大，多達(dá)數(shù)TB乃至數(shù)PB，讀取數(shù)據(jù)時(shí)需要在磁盤或內(nèi)存里四處查找，這樣不僅增加了數(shù)據(jù)讀取代價(jià)，而且也加重了系統(tǒng)負(fù)擔(dān)。

如果能夠把經(jīng)常需要讀取的數(shù)據(jù)集中存儲在一起（物理上放在位置比較靠近的地方），這樣，磁盤在實(shí)際存取時(shí)就能通過少量的IO次數(shù)把數(shù)據(jù)讀取出來，即將隨機(jī)IO轉(zhuǎn)化為順序IO，此時(shí)則不論處理范圍有多大，均能夠獲得非常好的讀取效率。改進(jìn)數(shù)據(jù)存儲策略已經(jīng)成為提升大數(shù)據(jù)系統(tǒng)數(shù)據(jù)處理性能的熱點(diǎn)研究方向[3]，本文著重討論海量量測數(shù)據(jù)在Hbase列式存儲中的存儲模型，在深入研究Hbase存儲機(jī)制（此為公開信息，本文不作詳細(xì)講解）的前提下，針對量測數(shù)據(jù)應(yīng)用時(shí)的斷面訪問和批量訪問特點(diǎn)設(shè)計(jì)了高效的存儲模型，如圖3所示。

（1）表名規(guī)則：數(shù)據(jù)按月分表，每月一張表。表名規(guī)則為“2位省碼_3位業(yè)務(wù)類型碼_6位年月”，如：LN_101_201608表示遼寧用采系統(tǒng)2016年8月份的數(shù)據(jù)。

（2）分區(qū)規(guī)則：每一張HBase表內(nèi)分多個(gè)Region，Region的數(shù)量根據(jù)機(jī)器數(shù)量和現(xiàn)場的單表數(shù)據(jù)量共同決定，由工程施工時(shí)設(shè)定，設(shè)置的原則是盡量使Region數(shù)量為機(jī)器數(shù)量的整數(shù)倍，單Region所管理的數(shù)據(jù)量在2GB-4GB。

（3）行鍵規(guī)則：系統(tǒng)設(shè)計(jì)為行鍵規(guī)則可配置，將電網(wǎng)模型的相關(guān)層次信息預(yù)處理到數(shù)據(jù)的RowKey中去，配合時(shí)間等固定屬性形成靈活可配的復(fù)合行鍵，如通過城區(qū)、變電站、時(shí)間、類型組合形成Rowkey，形如“城區(qū)變電站0525123035類型”。通過對行鍵的設(shè)計(jì)使得同一變電站下的所有數(shù)據(jù)處于一行記錄，根據(jù)測試分析可知，每行包含的數(shù)量為10～20萬性能最優(yōu)。

圖3 量測數(shù)據(jù)在Hbase中的存儲模型

（4）列名規(guī)則：列名為每一個(gè)數(shù)據(jù)采集設(shè)備的唯一ID。

通過以上設(shè)計(jì)，某一時(shí)刻同一變電站覆蓋的所有設(shè)備數(shù)據(jù)邏輯上將在同一行上，并且物理上存儲在磁盤同一位置。由于Hbase天生擅長列式存儲，大規(guī)模的列不會對訪問性能造成影響，并且行存儲上是稀疏的，同一行上沒有值的單元不會占用存儲空間。通過這樣的設(shè)計(jì)，當(dāng)發(fā)生斷面查詢時(shí)，將能夠很快查出某時(shí)刻指定變電站覆蓋區(qū)域的所有設(shè)備斷面示值。在批量場景下，本設(shè)計(jì)對表進(jìn)行了按時(shí)間分表分區(qū)，數(shù)據(jù)散落在多臺服務(wù)器上，當(dāng)發(fā)生批量查詢時(shí)多臺機(jī)器并行處理，查詢效率較高。理論與測試證明，以上量測數(shù)據(jù)存儲模型設(shè)計(jì)能夠很好地滿足在大規(guī)模數(shù)據(jù)量情況下批量查詢與斷面查詢的高效需求。

2.5 數(shù)據(jù)訪問

本系統(tǒng)根據(jù)數(shù)據(jù)的時(shí)效性特點(diǎn)將數(shù)據(jù)存儲在Redis緩存和Hbase列式存儲中，并且對量測數(shù)據(jù)的存儲模型進(jìn)行了設(shè)計(jì)，如果要求上層應(yīng)用直接操作多種存儲容器，操作較為復(fù)雜，為了屏蔽數(shù)據(jù)訪問的復(fù)雜度，本系統(tǒng)設(shè)計(jì)基于大數(shù)據(jù)平臺原生態(tài)接口，構(gòu)造統(tǒng)一訪問接口UAPI，屏蔽底層數(shù)據(jù)的存儲細(xì)節(jié)，使得業(yè)務(wù)應(yīng)用根據(jù)電網(wǎng)模型訪問數(shù)據(jù)，配套機(jī)制實(shí)現(xiàn)結(jié)果緩存、訪問分流、高可用等功能。

3 實(shí)驗(yàn)驗(yàn)證

本文基于JAVA語言以及開源大數(shù)據(jù)產(chǎn)品實(shí)現(xiàn)了以上系統(tǒng)，并采用7臺PC服務(wù)器組建集群對系統(tǒng)進(jìn)行了實(shí)驗(yàn)驗(yàn)證與測試，服務(wù)器配置如表1所示。

表1 服務(wù)器配置

實(shí)驗(yàn)1斷面訪問效率測試，驗(yàn)證在10TB數(shù)據(jù)量的情況下，系統(tǒng)斷面查詢效率。

如圖4所示，X軸為斷面查詢的數(shù)據(jù)量，Y軸為查詢耗時(shí)。結(jié)果顯示查詢數(shù)據(jù)量在1～4萬條時(shí)，平均每秒查詢效率達(dá)2萬條左右，隨著查詢數(shù)據(jù)量增大，斷面存儲優(yōu)勢逐步體現(xiàn)，查詢效率不但未降低反而有升高。

圖4 系統(tǒng)斷面查詢效率示意

實(shí)驗(yàn)2 批量訪問效率測試，驗(yàn)證在10TB數(shù)據(jù)量的情況下，系統(tǒng)批量查詢效率。

如圖5所示，X軸為批量查詢的數(shù)據(jù)量，Y軸為查詢耗時(shí)。結(jié)果顯示查詢數(shù)據(jù)量與耗時(shí)基本成正比，平均每秒查詢效率在2 100條左右，隨著查詢數(shù)據(jù)量增大，查詢效率基本不變。

4 結(jié)語

本文針對電網(wǎng)量測數(shù)據(jù)特征，并結(jié)合大數(shù)據(jù)技術(shù)，設(shè)計(jì)實(shí)現(xiàn)了海量量測數(shù)據(jù)處理系統(tǒng)，解決了電網(wǎng)應(yīng)用中由于量測數(shù)據(jù)的數(shù)據(jù)量過大，導(dǎo)致接入、存儲、訪問困難的問題。該技術(shù)普適于大數(shù)據(jù)場景下的量測數(shù)據(jù)處理。本設(shè)計(jì)未對業(yè)務(wù)模型變動導(dǎo)致歷史數(shù)據(jù)需要重建Rowkey問題進(jìn)行考慮，一旦業(yè)務(wù)模型出現(xiàn)變動，歷史數(shù)據(jù)將無法與變動后的業(yè)務(wù)模型對應(yīng)，導(dǎo)致部分歷史數(shù)據(jù)成為死數(shù)據(jù)。

圖5 批量訪問效率示意

[1]姚建國，楊勝春.電網(wǎng)調(diào)度自動化系統(tǒng)發(fā)展趨勢展望[J]. 電力系統(tǒng)自動化，2007（13）：7-11.

[2]王銘坤，袁少光，朱永利，等. 基于Storm的海量數(shù)據(jù)實(shí)時(shí)聚類[J]. 計(jì)算機(jī)應(yīng)用，2014（11）：3078-3081.

[3]楊俊杰，廖卓凡. 大數(shù)據(jù)存儲架構(gòu)和算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用，2016（9）：2465-2471.

Design of metrology data processing system based on big data technology

You Feng, Cao Jian, Xie Yubo
（Jiangsu Ruizhong Data Company Limited by State Ltd of Grid Electric Power Research Institute, Nanjing 210000, China）

Aiming at the problem of traditional relational database being used for metrology data of electric power information system to process low efficiency, this paper designed and realized the metrology data processing system based on big data technology. Based on the distributed message queue technology, the buffer access of the large-scale metrology data is realized in this system. Based on the stream computing technology, the real-time processing efficiency of the metrology data is improved. The data storage model of metrology data is designed, which realizes the high efficient access of the data of large-scale metrology data.

metrology data; big data technology; column storage model

猶鋒（1975— ），男，四川南充，碩士，工程師；研究方向：電力系統(tǒng)自動化。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于大數(shù)據(jù)技術(shù)的量測數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)

1 電網(wǎng)量測數(shù)據(jù)特點(diǎn)分析

2 系統(tǒng)設(shè)計(jì)

3 實(shí)驗(yàn)驗(yàn)證

4 結(jié)語