国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Hadoop平臺的分布式重刪存儲系統(tǒng)研究

2019-10-21 05:11:01荊東星
科技風(fēng) 2019年20期
關(guān)鍵詞:存儲系統(tǒng)

荊東星

摘 要:在本篇文章當(dāng)中,我們針對數(shù)據(jù)中心存在大量的數(shù)據(jù)冗余的問題進(jìn)行了簡單的探討,并且對于備份數(shù)據(jù)造成的存儲容量浪費(fèi)現(xiàn)象,提出了一種基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除解決方案。

關(guān)鍵詞:Hadoop;分布式重刪;存儲系統(tǒng)

一、我們對于重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行研究和探討分析

我們可以從圖1當(dāng)中了解到,對于刪除重復(fù)數(shù)據(jù)技術(shù)來講,它內(nèi)在的主要思想是:可以將存入到內(nèi)部的數(shù)據(jù)進(jìn)行分割成塊,接著對于這一類的數(shù)據(jù)進(jìn)行判斷是否進(jìn)行存儲。如果沒有進(jìn)行存儲的話,那么便需要使用到存儲塊的指針來進(jìn)行存儲。因此在本篇文章當(dāng)中,我們主要是對基于數(shù)據(jù)塊的重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行簡單的探討和分析。

二、相關(guān)工作探討

對于分布式刪除技術(shù),主要是指分布式集群存儲系統(tǒng)中的刪除操作。在當(dāng)前的分布式重刪數(shù)據(jù)主要面對著效率,磁盤大小,可靠性以及擴(kuò)展性等方面的問題,因此相關(guān)的工作人員就考慮到使用Hadoop平臺來進(jìn)行操作。對于Hadoop平臺來講,它有著高效率,低成本,高容錯等優(yōu)點(diǎn),能夠?qū)⒆詣硬⑿谢?,?fù)載均衡等多項復(fù)雜的操作變?yōu)楹喕?,大大的減輕了程序員的工作內(nèi)容。

三、基于Hadoop平臺的分布式重刪存儲系統(tǒng)

在基于Hadoop平臺的重刪研究當(dāng)中,我們需要使用到MapReduce的方式來進(jìn)行重刪并行化,但是重刪的速度仍然需要有效的提高。雖然分布式重刪可以在很大的程度上提升重刪速度,但是在每一個節(jié)點(diǎn)當(dāng)中仍然保留了一部分的指紋值,從而會在一定的程度上影響到數(shù)據(jù)的重刪率。本文實(shí)現(xiàn)了一個基于Hadoop分布式平臺的可擴(kuò)展分布式刪除集群,固定塊用于離線和精確地存儲備份數(shù)據(jù),可以備份和使用某些大型文件。相應(yīng)的也提高了重刪的速度。我們主要是按照KB級的大小分塊來進(jìn)行數(shù)據(jù)塊級的重刪。系統(tǒng)體系如圖2所示。

(一)并行化重刪分析

為了能夠很好的提高重刪速度,我們對MapReduce這一個機(jī)制進(jìn)行了大力的改進(jìn),并且減少了Reduce的流程,僅僅是通過Map函數(shù)并能夠?qū)崿F(xiàn)相應(yīng)的一些功能和操作。大致的說來,對于系統(tǒng)當(dāng)中存在的MAP函數(shù),這一個函數(shù)主要是對數(shù)據(jù)進(jìn)行讀取和預(yù)處理操作的。而對于REDUCE函數(shù)來講,它主要是進(jìn)行負(fù)責(zé)合并MAP中間產(chǎn)生的數(shù)據(jù)。因此對于REDUCE函數(shù)來講,它不能實(shí)現(xiàn)分組以及排序等操作。進(jìn)行處理。并且能夠在一定的程度上有效的避免Shuffle以及Sort這兩個階段的處理延時,因此在本篇文章當(dāng)中忽略了Reduce這一個操作,我們只需要通過MAP函數(shù)便可以實(shí)現(xiàn)重刪等操作,并且還可以提高重刪的速度。

(二)可擴(kuò)展性

在集群當(dāng)中可擴(kuò)展是內(nèi)部的一個重點(diǎn)關(guān)鍵,因此,如何在擴(kuò)展簇大小的同時有效地實(shí)現(xiàn)重復(fù)數(shù)據(jù)刪除的性能和容量,這也是我們在設(shè)計集群時需要注意的問題,對于系統(tǒng)當(dāng)中的地層來講,它是基于HADOOP平臺來進(jìn)行操作的,其內(nèi)部當(dāng)中的索引表會保存在數(shù)據(jù)當(dāng)中,那么當(dāng)我們在進(jìn)行刪除操作以及查詢操作的時候便有著很好的擴(kuò)展性能。

當(dāng)我們需要擴(kuò)展集群的大小時,我們可以通過在元數(shù)據(jù)服務(wù)器節(jié)點(diǎn)的配置文件中注冊來在線添加和刪除存儲節(jié)點(diǎn),接著我們還需要操作系統(tǒng)來完成數(shù)據(jù)平衡操作,當(dāng)系統(tǒng)在對數(shù)據(jù)進(jìn)行處理的過程中,系統(tǒng)出現(xiàn)了負(fù)載的情況發(fā)生,我們能夠加入MAPPER節(jié)點(diǎn)來讓系統(tǒng)內(nèi)部的處理性能有所提高,另外,對于增加重刪存儲節(jié)點(diǎn)還可以在一定的程度上擴(kuò)展存儲容量。

(三)重刪操作之后如何進(jìn)行快速恢復(fù)

為了快速恢復(fù)已刪除 的文件,我們添加了元數(shù)據(jù)表來存儲文件數(shù)據(jù)的信息。對于系統(tǒng)來講,其內(nèi)部的操作只需要對元數(shù)據(jù)表進(jìn)行簡單的維護(hù)和保存便可,我們在進(jìn)行保存的過程中,可以發(fā)現(xiàn)在該表當(dāng)中我們可以將文件保存為記錄。對于數(shù)據(jù)表來講內(nèi)部有著兩個方面,第一個方面,主要是要用對文件的絕對路徑進(jìn)行記錄,另一個方面是用于對文件的數(shù)據(jù)信息進(jìn)行記錄,并且在記錄的過程當(dāng)中需要對文件的大小以及塊偏移值信息進(jìn)行有效的保存。我們可以從圖3當(dāng)中看出元數(shù)據(jù)表和索引表的關(guān)系。

當(dāng)對于刪除過后還需要進(jìn)行恢復(fù)的文件來講,那么我們便需要按照文件的路徑來進(jìn)行搜索,接著搜索到文件的原始數(shù)據(jù)信息便可。然后我們可以瀏覽存儲在文件元數(shù)據(jù)中的塊信息,這樣我們就可以獲得塊指紋值。然后我們可以通過塊指紋值找到索引表,這樣我們就可以得到數(shù)據(jù)塊的具體存儲位置。經(jīng)過幾次后,我們可以獲得原始文件了。

四、結(jié)語

總體的說來,我們?yōu)榱四軌蚋玫淖屜到y(tǒng)的可用性變得十分穩(wěn)定,應(yīng)當(dāng)在日后的操作當(dāng)中,采用糾刪編碼技術(shù)來對需要進(jìn)行備份的文件進(jìn)行備份等相關(guān)操作。通過對存儲的單一副本數(shù)據(jù)進(jìn)行編碼,從而有效的提高系統(tǒng)的可靠性。

參考文獻(xiàn):

[1]王奏鳴.分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)中路由方法的研究[D].重慶大學(xué),2017.

[2]劉青,付印金,倪桂強(qiáng),梅建民.基于Hadoop平臺的分布式重刪存儲系統(tǒng)[J].計算機(jī)應(yīng)用,2016,36(02):330-335.

[3]王建輝,石宇良.支持文件重刪的HDFS分布式備份系統(tǒng)研究[J].電子設(shè)計工程,2014,22(04):19-22.

猜你喜歡
存儲系統(tǒng)
分布式存儲系統(tǒng)在企業(yè)檔案管理中的應(yīng)用
哈爾濱軸承(2020年2期)2020-11-06 09:22:36
天河超算存儲系統(tǒng)在美創(chuàng)佳績
天河超算存儲系統(tǒng)在美創(chuàng)佳績
華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲系統(tǒng)
一種基于STM32的具有斷電保護(hù)機(jī)制的采集存儲系統(tǒng)設(shè)計
基于電池管理系統(tǒng)的數(shù)據(jù)存儲系統(tǒng)設(shè)計
平顶山市| 湖南省| 阜宁县| 绍兴市| 林西县| 铜梁县| 铜鼓县| 通江县| 上虞市| 项城市| 沙洋县| 黄龙县| 黄骅市| 鄂托克前旗| 饶阳县| 清水河县| 永泰县| 新泰市| 梧州市| 佛坪县| 龙海市| 大兴区| 稷山县| 丰宁| 东方市| 绥芬河市| 沧州市| 中方县| 会宁县| 霍邱县| 石渠县| 四子王旗| 宾阳县| 双鸭山市| 应城市| 滨州市| 绵阳市| 闻喜县| 武乡县| 灵寿县| 容城县|