国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

地震監(jiān)測數(shù)據(jù)的Hadoop存儲解決方案

2020-10-20 05:40:22
華南地震 2020年3期
關(guān)鍵詞:測震監(jiān)測數(shù)據(jù)臺站

趙 輝

(內(nèi)蒙古自治區(qū)地震局,呼和浩特 010000)

0 引言

在地震系統(tǒng)內(nèi),日常的地震監(jiān)測數(shù)據(jù)都是保存在服務(wù)器或者相關(guān)電腦上,對數(shù)據(jù)的應(yīng)用也是將數(shù)據(jù)保存到本地主機后再進行分析使用,然而隨著日常地震監(jiān)測數(shù)據(jù)量的增長,常規(guī)的單機以及服務(wù)器存儲方式逐漸將無法滿足日常監(jiān)測數(shù)據(jù)的存儲需求。以測震數(shù)據(jù)為例,內(nèi)蒙古自治區(qū)地震局共有測震臺站48個,日均產(chǎn)生的測震數(shù)據(jù)在1.4 G以上,這些數(shù)據(jù)在存儲的過程中又分為“臺站卷”與“臺網(wǎng)卷”,所以每日最終所產(chǎn)生的需要存儲的測震數(shù)據(jù)就在4.48G以上,光測震數(shù)據(jù)的年均存儲量就在1.6T以上。

因此,為了滿足地震監(jiān)測數(shù)據(jù)的存儲需求,創(chuàng)新性的將目前較為流行hadoop技術(shù)應(yīng)用到地震監(jiān)測數(shù)據(jù)的存儲中,既解決了海量監(jiān)測數(shù)據(jù)的存儲問題,也增加了監(jiān)測數(shù)據(jù)的分析手段。本文將會從物理環(huán)境到軟件配置以及對數(shù)據(jù)的簡單操作給出相應(yīng)的實現(xiàn)方法和解決策略,以實現(xiàn)對地震監(jiān)測數(shù)據(jù)的大規(guī)模存儲。

1 關(guān)于Hadoop和大數(shù)據(jù)

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),主要解決海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的分析計算問題,具有高可靠性、高擴展性、高效性、高容錯性等特點。廣義上來說,Hadoop通常指一個更廣泛的概念—Hadoop生態(tài)圈。

Hadoop由HDFS、MapReduce、YARN、Common等組件構(gòu)成,這四個組建是其基本生態(tài)圈的框架。

1.1 MapReduce離線計算

MapReduce是Hadoop中的計算工具,主要用于進行離線計算,其將計算過程分為兩個階段。首先Map階段對輸入的數(shù)據(jù)進行并行處理,然后Reduce階段對Map階段所處理數(shù)據(jù)的結(jié)果進行匯總。將MapReduce技術(shù)應(yīng)用到對地震監(jiān)測數(shù)據(jù)的分析上,便可以實現(xiàn)對歷史地震監(jiān)測數(shù)據(jù)的大規(guī)模并行處理分析。這樣在分析過程中,所獲得的數(shù)據(jù)將更為全面準(zhǔn)確。

1.2 YARN資源調(diào)度

YARN是Hadoop的資源管理器,主要負(fù)責(zé)集群的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大的好處。

YARN主要由四部分構(gòu)成。ResourceManager是總調(diào)度,用來處理請求,資源分配與調(diào)度。NodeManager負(fù)責(zé)單個節(jié)點上的資源管理。ApplicationMaster負(fù)責(zé)管理任務(wù)job,申請資源。Container是對任務(wù)運行環(huán)境的抽象,封裝了CPU、內(nèi)存等多維資源以及環(huán)境變量、啟動命令等,任務(wù)運行相關(guān)信息(圖1)。

由于YARN在整個Hadoop中起著最為關(guān)鍵的作用,因此在部署集群的過程中, YARN是否能部署好,直接關(guān)系到整個方案的成敗。下文在部署集群時將會著重說明如何部署YARN。

圖1 YARN資源調(diào)度流程圖Fig.1 Resources schedule flow chart of YARN

2 地震監(jiān)測數(shù)據(jù)存儲方案

以測震數(shù)據(jù)為例,內(nèi)蒙古自治區(qū)地震局48個測震點分布相對稀疏,需要處理的測震數(shù)據(jù)相對較分散。因此從測震數(shù)據(jù)的使用需求來看,更加側(cè)重于數(shù)據(jù)分析,即對歷史測震數(shù)據(jù)進行分析研究。但是,現(xiàn)階段采用的是將監(jiān)測數(shù)據(jù)存儲到服務(wù)器與PC擴展硬盤上,隨著數(shù)據(jù)量的不斷增長,存儲介質(zhì)易損壞、恢復(fù)難、數(shù)據(jù)導(dǎo)入導(dǎo)出慢等問題也日益突出,構(gòu)建可靠性高的存儲分析系統(tǒng)也更為重要。

2.1 監(jiān)測數(shù)據(jù)的存儲結(jié)構(gòu)

以測震數(shù)據(jù)為例,目前國家地震臺網(wǎng)中心采用基于JOPENS的SSS流服務(wù)器來負(fù)責(zé)接收和分發(fā)波形數(shù)據(jù),接收512字節(jié)的純數(shù)據(jù)SEED卷(Miniseed數(shù)據(jù)),包含有固定頭段本分(48字節(jié))和數(shù)據(jù)部分,主要記錄臺站名、起始時間、樣本數(shù)目、測震數(shù)據(jù)等,以一個臺站一個分項[1]。而對測震數(shù)據(jù)的分析與應(yīng)用所使用的軟件是Jopens-msdp5.2,所以考慮到應(yīng)用數(shù)據(jù)時的便捷性,我們在數(shù)據(jù)的存儲過程仍采用這一結(jié)構(gòu)對數(shù)據(jù)進行存儲,數(shù)據(jù)包為seed格式。同理,其他監(jiān)測數(shù)據(jù)也均采用目前所使用的格式直接進行存儲。

2.2 大數(shù)據(jù)的數(shù)量級

數(shù)據(jù)的存儲結(jié)構(gòu)可以確定后,就需要確定數(shù)據(jù)的數(shù)量級以便選擇合適的硬件。內(nèi)蒙古地震局測震數(shù)據(jù)存儲量年均在1.6 T以上,加上分析后所產(chǎn)出的測震數(shù)據(jù),年均需要存儲量在6T以上。另外還有前兆的相關(guān)監(jiān)測與分析數(shù)據(jù),年數(shù)據(jù)規(guī)模在10 T以上。面對如此規(guī)模龐大的數(shù)據(jù)量需要引入大數(shù)據(jù)的數(shù)量級這一概念來加以探討。因此以大數(shù)據(jù)的數(shù)量級來看,根據(jù)內(nèi)蒙古地震局的數(shù)據(jù)規(guī)模以及確保系統(tǒng)有一定的數(shù)據(jù)冗余這兩點要求來確定大數(shù)據(jù)數(shù)量級,需要達到EB級。所以在選擇服務(wù)器與存儲矩陣時要遵循EB級的數(shù)量級這一原則。

2.3 物理硬件選擇

對集群硬件的選擇往往被輕視,認(rèn)為選擇配置較高價格較貴的硬件既可滿足一切需要。然而幾乎在所有情形下,MapReduce要么會在從硬盤讀取數(shù)據(jù)時遇到瓶頸,要么在處理數(shù)據(jù)數(shù)時遇到瓶頸,前者稱為IO受限后者稱為CPU受限。所以在選擇硬件時,一定要根據(jù)工作負(fù)載進行選擇。在這里可以將根據(jù)工作負(fù)載選擇硬件的一般原則總結(jié)成一張圖(圖2)。

因此,根據(jù)對使用需求以及內(nèi)蒙古自治區(qū)地震局現(xiàn)有的監(jiān)測數(shù)據(jù)量進行分析,依據(jù)工作負(fù)載,在性能和經(jīng)濟性上選擇硬件的最佳平衡。基于硬件選擇的規(guī)律,在這里選擇了通用的服務(wù)器均衡配置,結(jié)果見表1。

圖2 根據(jù)工作負(fù)載選擇服務(wù)器原則Fig.2 Principles for selecting servers based on workload

表1 服務(wù)器配置方案表Table 1 Server configuration schema table

2.4 集群規(guī)劃部署

HDFS的三個組件均需要部署,YARN的四個組件其中兩個組件需要部署。HDFS中的NameNode、SecondaryNameNode比 較 占資 源,需要部署在一個節(jié)點上,DataNode為實際存放數(shù)據(jù)的模塊,根據(jù)需要部署即可。YARN中需要部署的ResourceManager較占資源,需要部署在一個節(jié)點上。NodeManager與NameNode對應(yīng)部署。因此,根據(jù)上述原理,我們?yōu)榧阂?guī)劃了3臺服務(wù)器,并按表2進行規(guī)劃部署。

從表2中可以看到將比較占用資源的Name No de、Se conda ryNa meNode、ResourceManager部署在了不同的節(jié)點上。隨著數(shù)據(jù)量的增多,如果需要對集群進行擴展,我們也可以將這三個較為占資源的服務(wù)部署在三個獨立的服務(wù)器上,其余服務(wù)器均作為數(shù)據(jù)存儲服務(wù)器,便于日后進行再次擴展。

表2 集群規(guī)劃部署表Table 2 The table of cluster planning and deployment

2.5 環(huán)境配置

根據(jù)上述原則做好集群的搭建后,需要對集群環(huán)境進行配置。選擇Linux系統(tǒng)一般都會選擇較為穩(wěn)定的CentOS-6.8版本。同時需要安裝JAVA、ant、maven和protobuf工 具 為 編 譯Hadoop做好準(zhǔn)備。在這里之所以要重新配置環(huán)境變量以及編譯Hadoop的源代碼,是為了讓整個系統(tǒng)與硬件更加適配。所配置的軟件與Hadoop源碼參考版本如下:

jdk-8u181-linux-x64.tar、ant-1.9.14-bin.tar、maven-3.6.1-bin.tar、protobuf-2.5.0.tar、glibc-2.14.1.tar、hadoop-2.7.7-src.tar。

在這里需要需注意的是,CentOS7.1以前的版本,默認(rèn)支持的glibc最高版本為glibc-2.12,而hadoop-2.7.1以上的源碼所需要的glibc版本需要在2.14以上,如果我們不對CentOS-6.8中的glibc進行升級的話,在進行源碼編譯的過程中會報錯,從而導(dǎo)致編譯失敗。因此在這里需要下載glibc-2.14.1或以上的版本對原系統(tǒng)中的glibc進行升級。

對相關(guān)環(huán)境做好配置后,再根據(jù)具體情況 與 參 數(shù) 做 好core-site.xml、yarn-site.xml、mapred-site.xml這3個核心配置文件的配置,這樣Hadoop的存儲集群就搭建完畢了。

3 可行性驗證

為驗證上述方案的可行性,我們通過在電腦上安裝VMware軟件,并搭建偽分布式集群的形式來進行測震數(shù)據(jù)的上傳存儲并對已上傳的數(shù)據(jù)進行簡單的操作以驗證上傳數(shù)據(jù)的可操作性。所使用的電腦配置參數(shù)如下表3所示。

表3 電腦配置參數(shù)Table 3 Computer configuration parameters

在VMware上 安 裝Linux的CentOS-6.8版本,并在此系統(tǒng)上搭建偽分布式集群,做好相應(yīng)的集群環(huán)境準(zhǔn)備。配置好相應(yīng)的環(huán)境后,安裝Hadoop2.7.7版本。

3.1監(jiān)測數(shù)據(jù)上傳測試

啟動hadoop,創(chuàng)建“tz”(臺站卷)與“tw”(臺網(wǎng)卷)文件目錄,分別存儲對應(yīng)數(shù)據(jù)。使用“hdfs dfs –put”命令分別上傳內(nèi)蒙古自治區(qū)地震局2018年1月1日的臺網(wǎng)卷與臺站卷的部分測震數(shù)據(jù)進行測試(圖3)。

從圖中可以看出,名為20180101.NM.AGL的臺站卷與2018010100.NM的臺網(wǎng)卷數(shù)據(jù)已經(jīng)上傳,并提供了可下載數(shù)據(jù)的對應(yīng)地址。因此,此次實驗的測震數(shù)據(jù)已成功上傳。

圖3 數(shù)據(jù)上傳測試圖Fig.3 Data upload test chart

3.2 已上傳數(shù)據(jù)可操作性測試

我們繼續(xù)使用YARN運行簡單的MR程序?qū)σ焉蟼鞯臄?shù)據(jù)進行運算操作,并通過Hadoop的All Applications進行監(jiān)控(圖4、圖5)。

圖4 數(shù)據(jù)操作圖Fig.4 Data manipulation chart

從圖4與圖5可以看出,對臺站卷數(shù)據(jù)20180101.NM.AGL與臺網(wǎng)卷2018010100.NM的WORDCOUNT操作已經(jīng)成功運行,分別用時為1分58秒與4分39秒,并在文件夾“tzwc”與“twwc”產(chǎn)出了對應(yīng)的數(shù)據(jù)文件。因此,上傳至服務(wù)器的測震數(shù)據(jù)文件均可正常使用,并可使用大數(shù)據(jù)技術(shù)對已上傳的數(shù)據(jù)進行操作。

圖5 數(shù)據(jù)操作記錄圖Fig.5 Data operation record chart

4 總結(jié)

根據(jù)上述的測試結(jié)果來看,本文所提出的地震監(jiān)測數(shù)據(jù)的Hadoop存儲解決方案可行。雖然本方案還未應(yīng)用到內(nèi)蒙古地震局實際工作中,但使用Hadoop技術(shù)對地震監(jiān)測數(shù)據(jù)進行存儲與分析勢必將應(yīng)用到整個地震行業(yè)。Hadoop技術(shù)不僅可以使地震監(jiān)測數(shù)據(jù)在日常存儲上具有更高的可靠性,同時在對歷史地震監(jiān)測數(shù)據(jù)進行處理時,具有了更多的分析統(tǒng)計手段和更快的數(shù)據(jù)讀取速度。同時在地震監(jiān)測數(shù)據(jù)不斷增長的情況下,使用Hadoop技術(shù)對監(jiān)測數(shù)據(jù)進行存儲日后對服務(wù)器進行存儲擴展也極為便利。

猜你喜歡
測震監(jiān)測數(shù)據(jù)臺站
中國科學(xué)院野外臺站檔案工作回顧
基于信號精度分析的高速鐵路沿線測震井地震動力反應(yīng)研究
氣象基層臺站建設(shè)
西藏科技(2021年12期)2022-01-17 08:46:38
鐘祥臺測震觀測質(zhì)量影響淺析
科技研究(2021年6期)2021-09-10 07:22:44
GSM-R接口監(jiān)測數(shù)據(jù)精確地理化方法及應(yīng)用
遼寧流動測震觀測系統(tǒng)現(xiàn)狀分析
基層臺站綜合觀測業(yè)務(wù)管理之我見
西藏科技(2015年6期)2015-09-26 12:12:13
GPS異常監(jiān)測數(shù)據(jù)的關(guān)聯(lián)負(fù)選擇分步識別算法
基于小波函數(shù)對GNSS監(jiān)測數(shù)據(jù)降噪的應(yīng)用研究
變電站監(jiān)測數(shù)據(jù)采集系統(tǒng)
電測與儀表(2014年3期)2014-04-04 09:08:32
含山县| 弥渡县| 高淳县| 兰坪| 龙陵县| 荔浦县| 龙门县| 丹凤县| 怀集县| 新晃| 嘉荫县| 肇庆市| 浪卡子县| 屏南县| 永胜县| 碌曲县| 岳普湖县| 图们市| 莱西市| 襄樊市| 新安县| 遂溪县| 汨罗市| 莱州市| 乌兰浩特市| 孝感市| 栾川县| 乌海市| 乌兰县| 饶河县| 重庆市| 临海市| 汕尾市| 石屏县| 霍州市| 冕宁县| 乌兰浩特市| 庆元县| 苍南县| 将乐县| 读书|