国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Hadoop異構(gòu)系統(tǒng)下數(shù)據(jù)安全分配研究

2017-06-15 11:20馮軒黃剛
計(jì)算機(jī)時(shí)代 2017年6期
關(guān)鍵詞:數(shù)據(jù)安全

馮軒+黃剛

摘 要: Apache Hadoop是一種廣泛使用的分布式系統(tǒng)基礎(chǔ)架構(gòu),它實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(HDFS),并假定系統(tǒng)中的數(shù)據(jù)節(jié)點(diǎn)是同構(gòu)的。當(dāng)云系統(tǒng)向上擴(kuò)展時(shí),數(shù)據(jù)節(jié)點(diǎn)很可能變得異構(gòu)。而絕大多數(shù)的研究是為了提高Hadoop在異構(gòu)環(huán)境下的性能,很少注意到數(shù)據(jù)安全的改進(jìn)。文章提出的SecHDFS數(shù)據(jù)分配方案通過(guò)秘密共享技術(shù)來(lái)提高異構(gòu)Hadoop系統(tǒng)中數(shù)據(jù)存儲(chǔ)的安全性,可在提高安全性的同時(shí)保持系統(tǒng)的性能。

關(guān)鍵詞: 數(shù)據(jù)節(jié)點(diǎn); 分布式文件系統(tǒng); 異構(gòu)系統(tǒng); 數(shù)據(jù)安全; 秘密共享技術(shù)

中圖分類號(hào):TP311.5 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)06-08-03

Research on data security assignment in Hadoop heterogeneous system

Feng Xuan, Huang Gang

(School of Computer, Nanjing University of Posts and Telecommunications, Nanjing, Jiangsu 210003, China)

Abstract: Apache Hadoop is a widely used distributed system infrastructure, which implements a distributed file system (HDFS) and assumes that the data nodes in the system are homogeneous. When the cloud system expands, the data nodes are likely to become heterogeneous. The vast majority of the research is to improve the performance of Hadoop in heterogeneous environment, while little to improve the data security. In this paper, the SecHDFS data allocation scheme is proposed to improve the security of data storage in a heterogeneous Hadoop system by secret sharing technology, which can improve the security while maintaining the system performance.

Key words: data node; Hadoop distributed file system; heterogeneous systems; data security; secret sharing technology

0 引言

Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶可以輕松地在Hadoop上開(kāi)發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。在所有的系統(tǒng)設(shè)計(jì)中,分布式框架最容易受到安全性攻擊并成為侵入式攻擊的目標(biāo)。在數(shù)據(jù)安全性方面,HDFS[1],Hadoop的數(shù)據(jù)存儲(chǔ)系統(tǒng),非常依賴于加密技術(shù)來(lái)保護(hù)數(shù)據(jù)。通過(guò)一個(gè)異構(gòu)環(huán)境,當(dāng)DataNode因?yàn)槊總€(gè)節(jié)點(diǎn)的加密和安全標(biāo)準(zhǔn)變化被破壞,系統(tǒng)作為一個(gè)整體,不會(huì)受到影響。但是,HDFS并不考慮異構(gòu)性。HDFS的主要安全風(fēng)險(xiǎn)之一是數(shù)據(jù)復(fù)制[2]。盡管數(shù)據(jù)復(fù)制提升了可靠性,它也可能因?yàn)樵铺幚砥鞯拇鎯?chǔ)片段的增加而帶來(lái)安全風(fēng)險(xiǎn)[3]。有證據(jù)表明,異構(gòu)特性可用于提高非復(fù)制數(shù)據(jù)的存儲(chǔ)安全性。

我們的工作重點(diǎn)在于通過(guò)引入安全Hadoop分布式文件系統(tǒng)(SecHDFS),使用S-FAS分段分配方案并將其應(yīng)用于Hadoop中的HDFS,來(lái)解決Hadoop中的數(shù)據(jù)復(fù)制的安全問(wèn)題。在將文件提交到Hadoop系統(tǒng)之后, SecHDFS方案將生成一個(gè)分組的候選節(jié)點(diǎn)的目標(biāo)列表,這些節(jié)點(diǎn)將被傳遞到Hadoop數(shù)據(jù)放置策略的修改版本中。Sec HDFS將嘗試使用盡可能多的不同類型的數(shù)據(jù)節(jié)點(diǎn)來(lái)存儲(chǔ)不同的片段,同時(shí)在DataNodes中保持同一類型的復(fù)制。

考慮到加密方法需要將分段的加密密鑰從NameNode傳播到DataNode, 如果一個(gè)攻擊者能夠攔截加密密鑰的片段,那么,根據(jù)秘密共享理論[4],攻擊者將能夠在獲得部分片段后重建加密密鑰和解密截取的文件。 但是,如果兩個(gè)DataNodes具有不同的漏洞,則對(duì)其中一個(gè)DataNode的成功攻擊不一定可以對(duì)另一個(gè)DataNode的成功攻擊。

1 背景知識(shí)

1.1 Hadoop的HDFS文件存儲(chǔ)

Hadoop的分布式文件系統(tǒng)HDFS,采用流式數(shù)據(jù)訪問(wèn)模式,可以用來(lái)存儲(chǔ)超大文件和海量數(shù)據(jù),其具有分布式存儲(chǔ)管理、方便部署、高吞吐率的特點(diǎn)[5-6]。集群HDFS擁有兩種節(jié)點(diǎn)(名稱節(jié)點(diǎn)NameNode和數(shù)據(jù)節(jié)點(diǎn)DataNode),在內(nèi)存中名稱節(jié)點(diǎn)保存著整個(gè)文件系統(tǒng)的名字空間和文件數(shù)據(jù)塊映射的映像信息,而數(shù)據(jù)節(jié)點(diǎn)則負(fù)責(zé)存儲(chǔ)和讀取數(shù)據(jù)文件。從數(shù)據(jù)加密安全性來(lái)看,可以分為對(duì)數(shù)據(jù)文件加密和對(duì)數(shù)據(jù)塊加密,而由于一個(gè)數(shù)據(jù)文件加密很可能會(huì)被破解或泄漏,降低了安全性,所以本文從數(shù)據(jù)塊加密角度出發(fā),闡述利用秘密共享技術(shù)的數(shù)據(jù)塊加解密方案。一個(gè)簡(jiǎn)單的HDFS文件系統(tǒng)架構(gòu)如圖1所示。

[NameNode][DataNode][DataNode][DataNode][DataNode][客戶端] [機(jī)架1] [read] [數(shù)據(jù)請(qǐng)求][DataNode][DataNode] [機(jī)架2] [備份][客戶端] [write] [塊信息]

1.2 秘密共享技術(shù)

秘密共享的思想是將秘密以適當(dāng)?shù)姆绞讲鸱郑鸱趾蟮拿恳粋€(gè)份額由不同的參與者管理,單個(gè)參與者無(wú)法恢復(fù)秘密信息,只有若干個(gè)參與者一同協(xié)作才能恢復(fù)秘密消息。更重要的是,當(dāng)其中任何相應(yīng)范圍內(nèi)參與者出問(wèn)題時(shí),秘密仍可以完整恢復(fù)。

一個(gè)秘密共享系統(tǒng)[4]由秘密分發(fā)者D,參與者集合P={U1,U2,…,Un},訪問(wèn)結(jié)構(gòu)T,秘密空間S,秘密份額空間K,一個(gè)秘密分配算法Divide-Secret和一個(gè)秘密重構(gòu)算法Recover-Secret等構(gòu)成。秘密共享的人員由參與者集合P給出;哪些參與者可一起恢復(fù)秘密由接入結(jié)構(gòu)T指出;秘密空間S給出秘密的取值范圍;秘密份額的取值范圍由份額空間K指出;秘密產(chǎn)生秘密份額的概率多項(xiàng)式時(shí)間算法給出分配算法;恢復(fù)算法是確定性的,如何恢復(fù)秘密由接入結(jié)構(gòu)中P的子集給出。

1.3 SecHDFS密鑰管理和分發(fā)方案

在Hadoop中實(shí)現(xiàn)數(shù)據(jù)復(fù)制以提高可靠性。然而,這增加了數(shù)據(jù)存儲(chǔ)中涉及的安全風(fēng)險(xiǎn)。在提出的SecHDFS方案中,根據(jù)異構(gòu)Hadoop系統(tǒng)中的漏洞特征對(duì)DataNode進(jìn)行分類和分組。理想的數(shù)據(jù)分配是將一個(gè)片段的所有副本存儲(chǔ)到同一組的DataNode中。假設(shè)我們?cè)诿糠N類型中有足夠的DataNode可以選擇,我們的SecHDFS就具體使用以下策略來(lái)進(jìn)行數(shù)據(jù)塊的放置。

⑴ 基于其安全漏洞,把Hadoop系統(tǒng)中的所有DataNode分為不同的節(jié)點(diǎn)類型組。

⑵ 當(dāng)放置數(shù)據(jù)時(shí),SecHDFS方案將盡可能采取很多不同組的DataNodes,同時(shí)保持Hadoop的原始隨機(jī)數(shù)據(jù)節(jié)點(diǎn)選擇。

⑶ 相同數(shù)據(jù)片段的所有副本將存儲(chǔ)在同一組的DataNode中。

⑷ 將(m,n)秘密共享方案并入SecHDFS分配機(jī)制。

2 安全性分析

根據(jù)秘密共享技術(shù)中門限多重秘密共享方案[5],一般的(t,n)門限方案就是一個(gè)秘密K被n個(gè)參與者共享,至少t個(gè)參與者聯(lián)合可以重構(gòu)這個(gè)秘密;而t-1個(gè)或者更少的參與者不能得到這個(gè)秘密的任何信息。由于重構(gòu)n階多項(xiàng)式f(x)需要知道(n+1)個(gè)滿足Yi=f(Xi)的點(diǎn)(Xi,Yi)。由于(t-1)個(gè)或更少的參與者的合作不能得到這樣的(n+1)個(gè)點(diǎn)。利用n個(gè)或更少的點(diǎn)來(lái)重構(gòu)n階多項(xiàng)式f(x)的難度等價(jià)于成功地攻破了Shamir[6]的(t,n)門限方案,這在計(jì)算上是不可行的。因此,(t-1)個(gè)或者更少的參與者的合作不能正確地重構(gòu)n階多項(xiàng)式f(x),換句話說(shuō),就不能恢復(fù)出共享的秘密。

因此,通過(guò)對(duì)任何DataNode使用一組成功的攻擊方法,只會(huì)有一個(gè)文件的片段會(huì)被泄露,整個(gè)文件的安全性得以保證。

3 模型實(shí)現(xiàn)和性能分析

在本節(jié)中,我們開(kāi)發(fā)了一個(gè)保證模型,以保證定量評(píng)估Hadoop異構(gòu)系統(tǒng)的數(shù)據(jù)存儲(chǔ)。

在實(shí)現(xiàn)該模型的時(shí)候采用了以下幾個(gè)工具:hadoop-0.20.2-core.jar、jdk1.7、MyEclipse、dom4j.jar、bcprov-jdk16-145.jar。其中hadoop-0.20.2-core.jar提供了利用hadoop的API接口函數(shù),我們還搭建了一個(gè)裝有hadoop的分布式集群環(huán)境,用來(lái)分布式存儲(chǔ)數(shù)據(jù)文件,bcprov-jdk16-145.jar負(fù)責(zé)實(shí)現(xiàn)對(duì)數(shù)據(jù)的加解密算法。

其中SecHDFS方案控制數(shù)據(jù)放置的決策。最后,我們制定了以下保證模型:

該模型的實(shí)現(xiàn)包括以下幾個(gè)模塊:文件存儲(chǔ)模塊,文件訪問(wèn)控制模塊,數(shù)據(jù)加解密模塊,數(shù)據(jù)文件I/O模塊,如圖2所示。

[客戶端][文件存儲(chǔ)][文件訪問(wèn)控制][數(shù)據(jù)加解密][數(shù)據(jù)文件I/O][Hadoop平臺(tái)]

這一模型表明,保證受K DataNode類型,Hadoop系統(tǒng)中的N個(gè)DataNode和第j組中的Sj DataNode的影響。此外,成功攻擊片段的概率受到P(Z)的影響,文件中的閾值m和片段數(shù)(與塊號(hào)相同)r的重復(fù)也對(duì)系統(tǒng)保證有所影響。

如果目標(biāo)Hadoop系統(tǒng)中的所有DataNode,共享同一組安全漏洞,則一個(gè)成功的攻擊方法將能夠重建受損文件。圖3表明對(duì)于具有同類漏洞的Hadoop系統(tǒng),閾值m對(duì)系統(tǒng)保證沒(méi)有影響。當(dāng)涉及具有Hadoop異構(gòu)系統(tǒng)時(shí),系統(tǒng)保證隨著K和閾值m的值的增加而顯著增加(參見(jiàn)圖3)。這種趨勢(shì)意味著高度的異構(gòu)使系統(tǒng)的機(jī)密性更好的得以保證。

在所有四個(gè)測(cè)試案例中,N設(shè)置為120,K設(shè)置為1至6,r設(shè)置為2;當(dāng)K為1時(shí),系統(tǒng)是一個(gè)同構(gòu)系統(tǒng)。

SecHDFS通過(guò)將他們安全方法在不同組的應(yīng)用來(lái)識(shí)別DataNode。當(dāng)一些節(jié)點(diǎn)做出寫入請(qǐng)求時(shí),通過(guò)定義放置決策擴(kuò)展的數(shù)據(jù)片段的數(shù)量,模塊將通過(guò)參考我們的預(yù)處理的DataNode配置信息來(lái)生成包含HDFS最佳候選的列表。這個(gè)過(guò)程是基于我們的SecHDFS方案,并將節(jié)點(diǎn)列表導(dǎo)出到HDFS。

在SecHDFS應(yīng)用中,所有信息(包括安全漏洞和存儲(chǔ)負(fù)載)都將存儲(chǔ)在節(jié)點(diǎn)配置文件中。配置文件將在我們的方案初始化期間加載,并且放置決策擴(kuò)展將在SecHDFS方案之前預(yù)處理信息。此外,在SecHDFS方案確定候選節(jié)點(diǎn)列表之后,SecHDFS模塊將把該列表發(fā)送到我們的定制數(shù)據(jù)放置策略中。

4 SecHDFS的性能評(píng)估

我們的實(shí)驗(yàn)結(jié)果如圖4,SecHDFS方案和HDFS默認(rèn)方案在放置同量數(shù)據(jù)時(shí)花費(fèi)的時(shí)間相似。這兩種策略在文件增大時(shí)顯示相同的趨勢(shì)。

系統(tǒng)大小N為16,復(fù)制度為1。

5 結(jié)束語(yǔ)

本文結(jié)合秘密共享理論提出了一種SecHDFS的安全數(shù)據(jù)分配方案和基于HDFS的一種分布式數(shù)據(jù)安全存儲(chǔ)模型,以提高Hadoop異構(gòu)系統(tǒng)中的數(shù)據(jù)存儲(chǔ)安全性同時(shí)保持系統(tǒng)性能。我們討論了SecHDFS的動(dòng)機(jī),設(shè)計(jì),實(shí)施,保證評(píng)估模型和性能評(píng)估?;诜植际綌?shù)據(jù)安全存儲(chǔ)模型的分析和實(shí)驗(yàn)結(jié)果表明,SecHDFS方案與默認(rèn)HDFS方案相比,明顯提升了數(shù)據(jù)存儲(chǔ)安全性,同時(shí)不影響Hadoop系統(tǒng)的性能。采用基于HDFS的分布式數(shù)據(jù)安全存儲(chǔ)模型有以下四點(diǎn)優(yōu)勢(shì):①可移植性;②高效數(shù)據(jù)存?。虎劭蓴U(kuò)展性;④數(shù)據(jù)的保密性和完整性。利用秘密共享技術(shù)和HDFS,有效解決了對(duì)數(shù)據(jù)安全存儲(chǔ)問(wèn)題。下一步的研究?jī)?nèi)容包括保證Hadoop中的MapReduce多任務(wù)之間調(diào)度的安全性和HDFS的I/O效率的優(yōu)化。

參考文獻(xiàn)(References):

[1] Azzedin F. Towards a scalable HDFS architecture[C]//

International Conference on Collaboration Technologies and Systems,2013:155-161

[2] Islam N S, Rahman M W, Jose J, et al. High performance

RDMA-based design of HDFS over InfiniBand[C]//International Conference for High PERFORMANCE Computing, Networking, Storage and Analysis. IEEE Computer Society,2012:1-12

[3] Daoud M I, Kharma N. A high performance algorithm for

static task scheduling in heterogeneous dist-ributed computing systems[J]. Journal of Parallel & Distributed Computing,2008.68(4):399-409

[4] Dragan C C, Tiplea F L. Distributive Weighted Threshold

Secret Sharing Schemes[J]. Information Sciences,2016.339:85-97

[5] 許春香,肖國(guó)鎮(zhèn).門限多重秘密共享方案[J].電子學(xué)報(bào),

2004.32(10):1688-1689

[6] Ning C, Wu Z H, Liu H Z, et al. Improving downloading

performance in hadoop distributed file system[J]. Journal of Computer Applications,2010.30(8):2060-2065

[7] Yang C C, Chang T Y, Hwang M S. A (t, n) multi-secret

sharing scheme[J].Applied Mathematics & Computation,2004.151(2):483-490

[8] Wilson R, Tse D, Scholtz R A. Channel Identification:

Secret Sharing using Reciprocity in Ultrawideband Channels[J]. IEEE Transactions on Information Forensics & Security,2007.2:364-375

猜你喜歡
數(shù)據(jù)安全
高速公路ETC用戶隱私數(shù)據(jù)安全保護(hù)策略
我國(guó)5G數(shù)據(jù)安全保護(hù)供給不足,“四步”拉動(dòng)產(chǎn)業(yè)發(fā)展
云計(jì)算中基于用戶隱私的數(shù)據(jù)安全保護(hù)方法
建立激勵(lì)相容機(jī)制保護(hù)數(shù)據(jù)安全
大數(shù)據(jù)云計(jì)算環(huán)境下的數(shù)據(jù)安全
大數(shù)據(jù)安全和隱私保護(hù)技術(shù)架構(gòu)研究
實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)數(shù)據(jù)安全采集方案
云環(huán)境中數(shù)據(jù)安全去重研究進(jìn)展
數(shù)據(jù)安全重刪系統(tǒng)與關(guān)鍵技術(shù)研究
大數(shù)據(jù)安全搜索與共享
措美县| 三原县| 姜堰市| 新田县| 广水市| 新邵县| 靖州| 当阳市| 呼和浩特市| 洛浦县| 镇坪县| 桐柏县| 新源县| 伊川县| 蕉岭县| 韶关市| 麻江县| 平山县| 政和县| 乐陵市| 龙川县| 石阡县| 和田市| 兴义市| 浏阳市| 鄂州市| 佳木斯市| 长宁区| 泸水县| 卫辉市| 朝阳市| 潞西市| 四子王旗| 白玉县| 徐州市| 乌恰县| 宁国市| 枣庄市| 万宁市| 永登县| 咸阳市|