王永銀
摘要:現(xiàn)階段,隨著社會(huì)的發(fā)展,科學(xué)技術(shù)也有了很大的發(fā)展。當(dāng)今時(shí)代,互聯(lián)網(wǎng)網(wǎng)絡(luò)的深化發(fā)展、移動(dòng)通訊設(shè)備的普及以及計(jì)算機(jī)設(shè)備的更新?lián)Q代,種種科學(xué)技術(shù)極大的便利了人們的生活,給人們的生活、出行、娛樂(lè)帶來(lái)了不一樣的體驗(yàn),這些都是互聯(lián)時(shí)代“大數(shù)據(jù)”的功勞。通過(guò)大數(shù)據(jù)的分析和使用,人們可以在眾多紛繁復(fù)雜的信息中找到最需要、最準(zhǔn)確的數(shù)據(jù),節(jié)省了大量的時(shí)間。但是隨著人們社會(huì)生活的逐漸豐富,信息增長(zhǎng)的速度也越來(lái)越快,信息總量越來(lái)越大,因此有必要加強(qiáng)云計(jì)算的大數(shù)據(jù)處理技術(shù)的研究才能不斷滿(mǎn)足新的時(shí)代需求。
關(guān)鍵詞:基于云計(jì)算:大數(shù)據(jù)處理;關(guān)鍵技術(shù)
引言
云計(jì)算是一種基于互聯(lián)網(wǎng)的新型計(jì)算方式。在這種計(jì)算方式下計(jì)算機(jī)按照不同需求通過(guò)云平臺(tái)實(shí)現(xiàn)信息資源共享。這些共享資源有很多種,如應(yīng)用程序,服務(wù)器、存儲(chǔ)器等。在云計(jì)算環(huán)境下不需要管理員的干預(yù)就可便捷地釋放或配置共享資源。而大數(shù)據(jù)是指規(guī)模龐大的數(shù)據(jù)總和,現(xiàn)有數(shù)據(jù)處理存儲(chǔ)技術(shù)已無(wú)法快捷地對(duì)海量數(shù)據(jù)進(jìn)行管理,更無(wú)法從中整理出具有價(jià)值的信息。
1 云計(jì)算概述
最早提出云計(jì)算這一概念的是谷歌公司的首席執(zhí)行官,它是一種全新的計(jì)算模式,可為用戶(hù)提供付費(fèi)服務(wù)。云計(jì)算的典型服務(wù)方式有三種,軟件即服務(wù)( SaaS)、平臺(tái)即服務(wù)(PaaS)以及基礎(chǔ)架構(gòu)即服務(wù)( IssS),這三種服務(wù)方式也可以說(shuō)是云計(jì)算所具備的主要功能,在諸多領(lǐng)域中得到了應(yīng)用實(shí)施。用戶(hù)可對(duì)較高層次的云服務(wù)進(jìn)行直接調(diào)用,也可對(duì)封裝在較低層次中的服務(wù)資源進(jìn)行調(diào)用,據(jù)此構(gòu)建定制云服務(wù)。如,用戶(hù)可從軟件即服務(wù)( SaaS)的提供商處,對(duì)已有的云服務(wù)進(jìn)行調(diào)用,或是使用平臺(tái)即服務(wù)( PaaS)對(duì)應(yīng)用進(jìn)行開(kāi)發(fā)。云計(jì)算是以云平臺(tái)作為依托,按照用戶(hù)所需的計(jì)算資源為他們提供相應(yīng)的服務(wù),美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院( NIST)依據(jù)部署模式,對(duì)云計(jì)算平臺(tái)進(jìn)行具體分類(lèi),即公有云、私有云和混合云。不同類(lèi)型的云計(jì)算平臺(tái)有著自己的特點(diǎn),如公有云的提供商,可借助互聯(lián)網(wǎng)為用戶(hù)提供云服務(wù),而用戶(hù)在對(duì)公有云中的資源進(jìn)行使用時(shí),則需要支付一定的費(fèi)用;私有云是一種特定的云計(jì)算解決方案,針對(duì)的群體為一些特定的企業(yè)或是用戶(hù),以定制的方式為他們提供云計(jì)算服務(wù)。通常情況下,用戶(hù)可以自行搭建私有云;混合云實(shí)質(zhì)上就是公有云和私有云的一種延伸,它的存在主要是為了滿(mǎn)足企業(yè)的某些業(yè)務(wù)需求。
2 大數(shù)據(jù)的安全隱私問(wèn)題
2.1 基于保護(hù)數(shù)據(jù)隱私的安全計(jì)算方案
當(dāng)前云服務(wù)提供商在數(shù)據(jù)計(jì)算安全性和數(shù)據(jù)隱私性方面的保護(hù)措施非常有限。本章中提到的基于隱式機(jī)制的數(shù)據(jù)存儲(chǔ)方案中是基于代數(shù)中的多項(xiàng)式以及矩陣?yán)碚摚簧婕皵?shù)據(jù)加密,避免了管理密鑰等復(fù)雜的數(shù)據(jù)處理過(guò)程。但是,如果存儲(chǔ)用戶(hù)數(shù)據(jù)的云服務(wù)器合謀就會(huì)導(dǎo)致用戶(hù)數(shù)據(jù)泄露,威脅到用戶(hù)數(shù)據(jù)的安全隱私。和顯式的同態(tài)加密機(jī)制相比,隱式機(jī)制無(wú)需密鑰管理,但是也解決不了云服務(wù)器合謀導(dǎo)致數(shù)據(jù)泄漏的問(wèn)題。為此,文本提出了一種基于多個(gè)云服務(wù)器的數(shù)據(jù)存儲(chǔ)計(jì)算方案,經(jīng)過(guò)加密的用戶(hù)數(shù)據(jù)被分別存儲(chǔ)在多個(gè)云服務(wù)器中,然后再統(tǒng)一通過(guò)一個(gè)云服務(wù)器進(jìn)行數(shù)據(jù)計(jì)算,最終得到加密的數(shù)據(jù),數(shù)據(jù)被使用之前需要使用者先解密數(shù)據(jù)。這種數(shù)據(jù)存儲(chǔ)計(jì)算方案可以顯著降低數(shù)據(jù)存儲(chǔ)計(jì)算成本,同時(shí)云計(jì)算技術(shù)的應(yīng)用能夠顯著提升數(shù)據(jù)的計(jì)算處理效率,有效提高用戶(hù)數(shù)據(jù)的安全性。此方案的主要優(yōu)勢(shì)在于不但能保護(hù)數(shù)據(jù)計(jì)算結(jié)果的安全隱私,還能保證計(jì)算條目?jī)?nèi)容,計(jì)算條目數(shù)的安全隱私,同時(shí)確保計(jì)算結(jié)果的準(zhǔn)確性。
2.2 數(shù)據(jù)存儲(chǔ)技術(shù)
信息數(shù)據(jù)在進(jìn)行存儲(chǔ)時(shí)的可靠性、安全性以及讀寫(xiě)時(shí)的效率是云計(jì)算技術(shù)的基礎(chǔ),利用云計(jì)算技術(shù)在存儲(chǔ)時(shí),往往采用分布式存儲(chǔ),將大量的數(shù)據(jù)進(jìn)行匯總并儲(chǔ)存到集群服務(wù)器中。這種存儲(chǔ)技術(shù)往往會(huì)對(duì)數(shù)據(jù)進(jìn)行備份儲(chǔ)存,利用先進(jìn)的數(shù)據(jù)加密技術(shù)配合冗余存儲(chǔ)能夠確保數(shù)據(jù)的可靠性、安全性。以HDFS為例:HDFS是一種分布式文件存儲(chǔ)系統(tǒng),被廣泛應(yīng)用在通用硬件中。這一系統(tǒng)具備較高的容錯(cuò)功能,能夠在廉價(jià)設(shè)備上實(shí)現(xiàn)應(yīng)用,并且其對(duì)數(shù)據(jù)訪問(wèn)的吞吐量也很大,適合應(yīng)用在大數(shù)據(jù)集的處理上。HDFS系統(tǒng)可以進(jìn)一步的實(shí)現(xiàn)文件系統(tǒng)中的數(shù)據(jù)流式讀取,在大數(shù)據(jù)處理中,HDFS常被設(shè)計(jì)成能夠?qū)崿F(xiàn)平臺(tái)間便于遷移的系統(tǒng),這就令大數(shù)據(jù)集的應(yīng)用更便捷。
2.3 數(shù)據(jù)管理技術(shù)
對(duì)于大數(shù)據(jù)而言,存儲(chǔ)是基礎(chǔ)性工作也是先決條件,但是存儲(chǔ)之后對(duì)于大數(shù)據(jù)的另外一個(gè)重要工作便是管理,這里的管理分為兩個(gè)主要部分,第一個(gè)是大數(shù)據(jù)的內(nèi)容管理,另外一個(gè)是大數(shù)據(jù)的存儲(chǔ)管理。針對(duì)內(nèi)容管理,重點(diǎn)是在于數(shù)據(jù)內(nèi)容的完整性和真實(shí)性上,要確保大數(shù)據(jù)是真實(shí)的、可靠地,而且是完整的,如此針對(duì)大數(shù)據(jù)的分析才是有價(jià)值和有意義的;對(duì)于大數(shù)據(jù)的存儲(chǔ)而言,要采用科學(xué)的、更容易被計(jì)算機(jī)系統(tǒng)識(shí)別的存儲(chǔ)方式和分布方式,以此提升計(jì)算機(jī)系統(tǒng)軟硬件對(duì)于大數(shù)據(jù)內(nèi)容的識(shí)別,提高信息資源的使用效率和利用效率。
2.4 軟硬件環(huán)境的搭建
本文所提出的算法需要通過(guò)搭建軟硬件環(huán)境來(lái)實(shí)現(xiàn)。借助云計(jì)算開(kāi)發(fā)環(huán)境中的hadoop,這是一個(gè)開(kāi)源分布式框架,并采用分布式編程模型MapReduce。在搭建前,需要先行安裝Linux系統(tǒng)準(zhǔn)備好計(jì)算機(jī)集群,分別在每臺(tái)虛擬機(jī)上加裝vim和ssh。隨后對(duì)主機(jī)名及網(wǎng)絡(luò)配置進(jìn)行修改,主要包括子網(wǎng)掩碼和DNS服務(wù)器;對(duì)每臺(tái)計(jì)算機(jī)上的etc/hosts/文件進(jìn)行修改,經(jīng)過(guò)修改之后,配置ssh,由此便可實(shí)現(xiàn)無(wú)需密碼登錄。為對(duì)本文提出的分布式密度峰值聚類(lèi)算法的有效性進(jìn)行驗(yàn)證,可通過(guò)大規(guī)模高維數(shù)據(jù)性能測(cè)試,由測(cè)試結(jié)果可知,該算法所產(chǎn)生出來(lái)的數(shù)據(jù)點(diǎn)副本個(gè)數(shù)具有增長(zhǎng)緩慢的特點(diǎn),副本的數(shù)量會(huì)逐漸變少,由此使得數(shù)據(jù)點(diǎn)之間距離計(jì)算次數(shù)隨之減少,大幅度縮短了程序的執(zhí)行時(shí)間。
結(jié)語(yǔ)
總而言之,加強(qiáng)大數(shù)據(jù)處理技術(shù)方面的研究是現(xiàn)如今互聯(lián)網(wǎng)技術(shù)飛速發(fā)展下的必然要求,也是人類(lèi)社會(huì)的前進(jìn)方向,此外應(yīng)該進(jìn)一步從數(shù)據(jù)存儲(chǔ)技術(shù)、數(shù)據(jù)管理技術(shù)和數(shù)據(jù)分析技術(shù)三個(gè)方面進(jìn)行鞏固和提升,基于云計(jì)算技術(shù)做好大數(shù)據(jù)處理技術(shù)的基礎(chǔ)性研究工作,實(shí)現(xiàn)數(shù)據(jù)處理技術(shù)效率的提升,為開(kāi)啟信息數(shù)據(jù)處理的智能化時(shí)代提供技術(shù)支撐。但由于本人時(shí)間以及自身工作經(jīng)驗(yàn)有限,并未能針對(duì)計(jì)算機(jī)大數(shù)據(jù)處理技術(shù)展開(kāi)更為深入的研究,因此仍需要更多計(jì)算機(jī)信息領(lǐng)域的專(zhuān)業(yè)人士進(jìn)行深入研究和挖掘,本文僅做拋磚引玉之用。
參考文獻(xiàn)
[1]孫海軍.基于云計(jì)算的大數(shù)據(jù)處理技術(shù)[J]信息安全與技術(shù),2014(11):61-63.
[2]龔旭.基于云計(jì)算的大數(shù)據(jù)處理技術(shù)探討[J]電子技術(shù)與軟件工程,2015(10):198-198.