白紅偉,馬志偉,朱永利,白紅浩
(1.華北電力大學控制與計算機工程學院,河北保定 071003;2.華能沁北發(fā)電有限責任公司檢修部,河南濟源 459012;3.南華大學環(huán)境保護與安全工程學院,湖南衡陽 421001)
基于Hadoop的錄波數(shù)據(jù)的存儲與訪問
白紅偉1,馬志偉2,朱永利1,白紅浩3
(1.華北電力大學控制與計算機工程學院,河北保定 071003;2.華能沁北發(fā)電有限責任公司檢修部,河南濟源 459012;3.南華大學環(huán)境保護與安全工程學院,湖南衡陽 421001)
在智能電網(wǎng)環(huán)境下,錄波數(shù)據(jù)具有廣域、全景、海量和可靠的特征,傳統(tǒng)的存儲硬件采用磁盤陣列,數(shù)據(jù)庫管理軟件采用關系數(shù)據(jù)庫系統(tǒng)的方法由于系統(tǒng)擴展性差、成本高、可靠性低,難以適應要求。本文提出了一種基于Hadoop的錄波數(shù)據(jù)分布式存儲與訪問的新方法,并將其與傳統(tǒng)方法的訪問速度進行了對比,證明了新方法的高效性。
錄波數(shù)據(jù);Hadoop;數(shù)據(jù)存儲;數(shù)據(jù)訪問
故障錄波器監(jiān)視電網(wǎng)運行狀況,根據(jù)錄波數(shù)據(jù)能分析系統(tǒng)的故障參數(shù)、諧波含量、故障點定位和系統(tǒng)元件參數(shù)測量[1]。故障錄波系統(tǒng)已經(jīng)成為電網(wǎng)自動化控制和管理的必不可少的組成部分。
實現(xiàn)電網(wǎng)的信息化是智能電網(wǎng)的基本特征之一,即信息的高度集成、共享和利用。這就要求電網(wǎng)調(diào)度端可以隨時收集分布于各個廠站的故障錄波器的信息,建立故障信息處理系統(tǒng)總站,改變傳統(tǒng)裝置分散、各自獨立、故障信息不能共享的缺陷。建立故障錄波聯(lián)網(wǎng)系統(tǒng)后,系統(tǒng)總站將從各分站接收大量故障報告,并做整理和分析。面對這些數(shù)據(jù)量大、可靠性和實時性要求高的錄波數(shù)據(jù),常規(guī)的數(shù)據(jù)存儲方法會遇到極大的困難。
如何將錄波數(shù)據(jù)快速存儲成為本文研究的重點。Hadoop具有超大規(guī)模、高可靠性、高可擴展性、按需服務和極其廉價的特點,為上述問題的解決帶來了機遇。
Hadoop是最知名的云計算開源系統(tǒng)[2],它模仿和實現(xiàn)了Google云計算的主要技術,可以在大量廉價的硬件設施組成的集群上運行應用程序,為應用程序提供了一組穩(wěn)定可靠的接口,旨在構建一個具有高可靠性和良好擴展性的分布式系統(tǒng)。Hadoop的核心技術是HDFS、Map Reduce和HBase。
本研究數(shù)據(jù)存儲系統(tǒng)HDFS[4]采用分布式存儲的方式來存儲數(shù)據(jù),它是一個分布式文件系統(tǒng),有著高容錯性的特點。而且它提供高傳輸率來訪問應用程序的數(shù)據(jù),適合有著超大數(shù)據(jù)集(錄波數(shù)據(jù))的應用程序。
HBase[5]是一種構建在HDFS之上的分布式、面向列的存儲系統(tǒng),適合實時讀寫、隨機訪問超大數(shù)據(jù)集的應用。HBase通過線性方式從上到下增加節(jié)點來進行擴展,不是關系型數(shù)據(jù)庫,也不支持SQL,但它巧妙地將大而稀疏的表放到廉價服務器上。它是一個稀疏的,長期存儲的,多維度的,排序的映射表。這張表的索引是行關鍵字,列關鍵字和時間戳。每個值是一個不解釋的字符數(shù)組,數(shù)據(jù)都是字符串,沒類型。用戶在表格中存儲數(shù)據(jù),每一行都有一個可排序的主鍵和任意多的列。由于是稀疏存儲的,所以同一張表里面的每一行數(shù)據(jù)都可以有截然不同的列。列名字的格式是"<family>:<label>",都是由字符串組成,每一張表有一個family集合,這個集合是固定不變的,相當于表的結構,只能通過改變表結構來改變。但是label值相對于每一行來說都是可以改變的。
微機故障錄波器在電力系統(tǒng)的廣泛應用,可以得到電網(wǎng)故障狀態(tài)下豐富的暫態(tài)數(shù)據(jù),但是由于在電網(wǎng)運行的這些裝置來自不同的制造商,種類繁多、數(shù)據(jù)格式互不兼容。智能電網(wǎng)環(huán)境下,需要建立統(tǒng)一的故障錄波分析平臺,這樣就可以利用故障線路的兩側錄波數(shù)據(jù),精確計算出故障點位置,建立統(tǒng)一的故障分析平臺。因此本研究采用暫態(tài)數(shù)據(jù)交換通用格式,即COMTRADE數(shù)據(jù)格式,它能為故障錄波器之間交換數(shù)據(jù)提供有效手段,便于不同型號故障錄波器聯(lián)網(wǎng)。
COMTRADE標準的數(shù)據(jù)文件有三種類型[3]:引導文件,以HDR作后綴;組態(tài)文件,以CFG作后綴;數(shù)據(jù)文件,以DAT作后綴。引導文件為用戶提供一個附加信息的描述樣本,以便更好地了解暫態(tài)記錄條件。組態(tài)文件由計算機程序識別,有特定的格式。組態(tài)文件中記錄的數(shù)據(jù)包括采樣率、通道號及線路頻率等內(nèi)容。
以組態(tài)文件和數(shù)據(jù)文件為例,對COMTRADE標準進行解析。組態(tài)文件是ASCII文本文件,為數(shù)據(jù)文件提供必要的信息,以便解釋相關數(shù)據(jù)文件中的數(shù)據(jù)值。文件被分為行,每一行以回車和換行為終止,逗號用以分隔一行內(nèi)的內(nèi)容。包含(1)站名,記錄裝置的特征,COMTRADE標準的修改年份。(2)通道的數(shù)量和類型。(3)通道名稱、單位和轉換系數(shù)。(4)線路頻率。(5)采樣速率和每一速率下的采樣數(shù)量。(6)第1數(shù)據(jù)點的日期和時間。(7)觸發(fā)點的日期和時間。(8)數(shù)據(jù)文件類型。(9)時間標記倍乘系數(shù)。配置文件實例:
數(shù)據(jù)文件包含被采樣的暫態(tài)事件的數(shù)據(jù)值。數(shù)據(jù)必須完全符合配置文件定義的格式,即ASCII文本文件或Binary二進制文件。本文采用ASCII數(shù)據(jù)文件格式,在文件中,一個采樣中每個通道的數(shù)據(jù)通過一個逗號與下一通道分開。序列采用回車/換行在一個采樣的數(shù)據(jù)值與下一采樣的采樣數(shù)值分開,數(shù)據(jù)行的數(shù)量根據(jù)記錄的長度而變化。每一行分為TT+2列,TT是記錄中通道的總數(shù),另外兩個是時間標記和采樣數(shù)量。每個數(shù)據(jù)采樣記錄應包含排列如下的整數(shù):
n,timestamp,A1,A2,…,Ak,D1,D2,…,Dm<CR/LF>:其中,n為采樣數(shù),必須是整數(shù);timestamp為時間標記,基本單位是μs。一個數(shù)據(jù)文件中以第1個數(shù)據(jù)采樣至任意一個時間標記區(qū)所標志的采樣所經(jīng)過的時間是配置文件中的時間標記與時間乘數(shù)(timestamp*timemult)的乘積(單位為μs)。下面給出一個有6個模擬值和6個狀態(tài)值的例子:
根據(jù)HBase數(shù)據(jù)模型的特點,設計的錄波數(shù)據(jù)模型如表1所示。將變電站的名稱作為主鍵。表1共有3個列族:HDR列存儲任何需要的信息。CFG列存儲通道的數(shù)量和類型、通道名稱、單位和轉換系數(shù)、線路頻率等信息。Data列存儲被采樣的暫態(tài)事件的數(shù)據(jù)值。該表設計為一張半結構化的表,一張表就已經(jīng)能夠滿足系統(tǒng)大部分要求。對于一個Rowkey來說,只需要指定相關的列族名就可以獲取相關數(shù)據(jù)的全部數(shù)據(jù)。
表1 錄波數(shù)據(jù)模型
在海量的智能電網(wǎng)錄波數(shù)據(jù)中及時訪問到需要的數(shù)據(jù),以便進行故障診斷與預測是十分重要的,Hadoop平臺通過Map Reduce方法實現(xiàn)數(shù)據(jù)訪問和處理。Map Reduce[6]是一種并行編程模式,它的主要兩個概念是Map(映射)和Reduce(化簡)。Map函數(shù)是用來把一組鍵值對映射成一組新的鍵值對,用于子任務執(zhí)行;而Reduce函數(shù)是用來保證所有映射的鍵值對中的每一個共享相同的鍵組,用于子任務處理結果的合并。
在Hadoop平臺上實現(xiàn)數(shù)據(jù)訪問時,借助廣度優(yōu)先的思想,進行基于層的擴展。設計思想如下:
(1)將用戶訪問請求交給Hadoop平臺的名字節(jié)點,Job Tracker將訪問任務分發(fā)給各個名字節(jié)點上的Map函數(shù)。
(2)Mapper進行Map操作(Initial Key,Intial Value)->[(Inter Key,Inter Value)]從Input key,value產(chǎn)生中間數(shù)據(jù)集。
(3)Reducer進行Reduce操作(Interkey,Inter Valueslterator)->[(Inter Key,Inter Value)],Reducer遍歷所有節(jié)點取得需要的中間數(shù)據(jù)集,再對其進行去重、過濾等后期處理,得到結果。
(4)由Output Format類內(nèi)含的Record Writer,將最終結果輸出到所需程序。
下面給出Map、Reduce以及Run函數(shù)偽代碼:
接下來交給Hadoop系統(tǒng)[7]運行。它的主要工作有:
(1)Job Tracker,創(chuàng)建一個Input Format的實例,調(diào)用它的getSplits0方法,把輸入目錄的文件拆分成FileSplist作為Mapper task的輸入,生成Mapper task加入Queue。
(2)Mapper Task先從Input Format創(chuàng)建Record Reader,循環(huán)讀入FileSplits的內(nèi)容生成Key與Value,傳給Mapper函數(shù),處理完后中間結果寫成SequenceFile;Reducer Task從運行Mapper的Task Tracker獲取中間值執(zhí)行Reducer函數(shù),最后按照Output Format寫入結果目錄。
(3)Task Tracker每10s向Job Tracker報告一次運行情況,每完成一個Task,10s后,就會向Job-Tracker索求下一個Map/Reduce。
(4)將結果導出,存放到指定的數(shù)據(jù)庫中,這些數(shù)據(jù)有一定的標準輸出格式,經(jīng)過一系列計算后方便在數(shù)據(jù)庫中進行數(shù)據(jù)挖掘,為智能電網(wǎng)故障診斷提供方法。
由一臺單獨的機器單機模擬HBase集群,由一臺機器單機測試Oracle。由3臺服務器組成的Hadoop集群組成分布式文件系統(tǒng),均使用red-h(huán)at Linux操作系統(tǒng),安裝好Hadoop、HBASE以及JDK。其中一臺部署HDFS的名字節(jié)點,另外兩臺部署HDFS的數(shù)據(jù)節(jié)點。
實驗采用單層擴展方式,考察數(shù)據(jù)規(guī)模對Hadoop平臺的性能。數(shù)據(jù)源分別為10萬,50萬,500萬,2000萬,5000萬條記錄,為了減少單次試驗的偶然性,表2的實驗結果是5次實驗的平均值。
表2 不同數(shù)據(jù)規(guī)模擴展實驗耗時比較
為了直觀觀察結果,將表用折線圖(圖2)表示出來,其中橫坐標為數(shù)據(jù)集大小,縱坐標為時間,“☆”為Oracle單機版,“○”為單機模擬的HBase集群。
從圖2中可以看出:隨著數(shù)據(jù)量的不斷增大,Hadoop版系統(tǒng)解約的時間越多,優(yōu)勢越明顯。對于實驗數(shù)據(jù)源按照一條記錄2k來計算,5000萬條記錄實際上只有大約80G的數(shù)據(jù)量,而Hadoop平臺只有在處理超大規(guī)模數(shù)據(jù)量時優(yōu)勢才能明顯顯現(xiàn)。如果其處理的是智能電網(wǎng)內(nèi)部的錄波數(shù)據(jù),Hadoop平臺就能發(fā)揮出強大的數(shù)據(jù)處理能力。
本文根據(jù)智能電網(wǎng)環(huán)境下錄波數(shù)據(jù)的特點提出用Hadoop作為平臺、用HDFS作文件存儲系統(tǒng)的云存儲方法,并設計了錄波數(shù)據(jù)在HBase中的面向列的存儲格式,最后將用Oracle做數(shù)據(jù)庫的傳統(tǒng)方法與本研究所提方法進行了訪問速速的對比,證明了新方法的高效性。下一步的工作主要是在原型系統(tǒng)上利用Map Reduce分析HBase數(shù)據(jù)庫中存儲的錄波數(shù)據(jù),更高效地對電網(wǎng)故障進行狀態(tài)評估與預測。
圖2 不同數(shù)據(jù)規(guī)模實驗結果對比圖
[1]趙賓.電力系統(tǒng)故障錄波器的研究與實現(xiàn)[D].東北大學,2006.02.
[2]http://hadoop.apache.org/.
[3]張杰,涂東明,張克元.基于COMTRADE標準的故障錄波的分析與再現(xiàn)[J].繼電器,2000,20(11):20-21.
[4]The Hadoop Distributed File System:Architecture and Design.http://hadoop.apache.org/core/docs/r0.16.4/hdfs_design.html.
[5]Hadoop HBase Performance Evaluation Introduction.http://www.cs.duke.edu/~kcd/hadoop/kcd-h(huán)adoop-report.pdf.
[6]Jeffrey Dean,sanjay Ghemawat.MapReduce:simplified data processing on large clusters[C]//6th Symposium on Operating Systems Design and Implementation.USA,2004.
[7]http://www.hadoop.org,2009-5-15.
The storage and access of the recorded data based on Hadoop
BAI Hong-wei1,MA Zhi-wei2,ZHU Yong-li1,BAI Hong-h(huán)ao3
(1.SchoolofControlandComputerEngineeringNorthChinaElectricPowerUniversity,BaodingHebei071003,China;2.HuanengQinbeiPowerPlantDepartmentofElectricalMaintenance,Jiyuan,Henan459012,China;3.SchoolofEnvironmentalProtectionandSafetyEngineering,UniversityofSouthChina,HenyangHunan421001,China)
In the smart grid,recorded date is wide,panoramic,reliable and mass.The old way is using ER database management system based on disk arrays,which leads the poor system scalability,high cost,and low reliability,those are all really hard to match the requirements.Compared the access speed with the traditional method,the method of the access and recorded data based on the Hadoop with distributed storages It is proposed more efficiently.
Recorded data;Hadoop;Data Storage;Data Access
TP393
:A
1001-9383(2011)03-0043-05
2011-06-30
國家自然科學基金資助項目(60974125);中央高校基本科研業(yè)務費專項資金項目(10QG22)
白紅偉(1985-),女,碩士研究生,主要研究領域:計算機應用、云計算.