国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)環(huán)境下的平臺架構(gòu)技術(shù)研究

2014-04-29 00:44陸麗婷
計(jì)算機(jī)時代 2014年10期
關(guān)鍵詞:云計(jì)算大數(shù)據(jù)

陸麗婷

摘 要: 大數(shù)據(jù)時代的到來,對數(shù)據(jù)的管理和存儲帶來了挑戰(zhàn)。為了更好地管理和利用大數(shù)據(jù),對大數(shù)據(jù)的基本特征進(jìn)行了剖析,從大數(shù)據(jù)和分析技術(shù)平臺的視角,分析了海量并行處理架構(gòu)、云計(jì)算、網(wǎng)格計(jì)算和MapReduce這幾種重要的技術(shù),比較了其技術(shù)特點(diǎn),對運(yùn)用不同的技術(shù)對大數(shù)據(jù)時代數(shù)據(jù)管理產(chǎn)生的作用進(jìn)行了分析,討論了大數(shù)據(jù)分析工作所需要的混合環(huán)境,整合環(huán)境資源以使能夠協(xié)同工作,使得每一項(xiàng)技術(shù)變得更加強(qiáng)大有效。

關(guān)鍵詞: 大數(shù)據(jù); 海量并行處理系統(tǒng); 云計(jì)算; 網(wǎng)格計(jì)算; MapReduce

中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2014)10-22-02

Research on technology of platform architecture under environment of big data

Lu Liting

(Dept. of Electronic Information Engineering, Wuxi City College of Vocational Technology, Wuxi, Jiangsu 214153, China)

Abstract: The advent of the era of big data brings challenges to data management and storage. In order to manage and use big data better, the basic features of the big data is analyzed. From the angle of big data and analysis on technological platform, several important technologies are analyzed, such as the massive parallel processing architecture, cloud computing, grid computing and MapReduce. The characteristics of different technologies are compared. The role of data management using different techniques is analyzed. The mixed environment which big data analysis needed is discussed. The environmental resources are integrated to work harmoniously, which makes every technology become more powerful.

Key words: big data; massive parallel processing system; cloud computing; grid computing; MapReduce

0 引言

近年來,大數(shù)據(jù)如雨后春筍般地出現(xiàn)在各行各業(yè)中,如何適當(dāng)?shù)厥褂么髷?shù)據(jù)已經(jīng)成為人們研究的熱點(diǎn),研究人員積極地去收集和分析這些新的數(shù)據(jù)源,并深入了解這些新數(shù)據(jù)源帶來的新信息。大數(shù)據(jù)的世界需要更高層次的可擴(kuò)展性,隨著數(shù)據(jù)量持續(xù)增長,原有的數(shù)據(jù)處理方式已無法應(yīng)對現(xiàn)有的數(shù)據(jù)量,在大數(shù)據(jù)處理、分析與應(yīng)用的不同層面中,有很多技術(shù)可以使用[1-2],本文對處理大數(shù)據(jù)的幾種重要技術(shù)進(jìn)行了分析。

1 大數(shù)據(jù)

大數(shù)據(jù)(Big Data),是隨著計(jì)算機(jī)技術(shù)及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展而產(chǎn)生的獨(dú)特數(shù)據(jù)現(xiàn)象,通常來說,凡是數(shù)據(jù)量超過一定大小,導(dǎo)致常規(guī)軟件無法在一個可接受的時間范圍內(nèi)完成對其抓取、管理和處理工作的數(shù)據(jù)即可稱為大數(shù)據(jù),包括互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)據(jù)、社交網(wǎng)站上的用戶交互數(shù)據(jù)、物聯(lián)網(wǎng)中產(chǎn)生的活動數(shù)據(jù)等。大數(shù)據(jù)除了具有大容量、多類型和高時效等基本特征外,還具有一些區(qū)別于傳統(tǒng)數(shù)據(jù)源的重要特征[3]。

⑴ 大數(shù)據(jù)通常是由機(jī)器自動生成的。在新數(shù)據(jù)的產(chǎn)生過程中,并不會涉及人工參與,它們完全由機(jī)器自動生成,例如:引擎中內(nèi)置的傳感器,即使沒有人觸摸或下達(dá)指令,它也會自動地生成關(guān)于周圍環(huán)境的數(shù)據(jù)。

⑵ 大數(shù)據(jù)通常是一種全新的數(shù)據(jù)源。例如:通過互聯(lián)網(wǎng),顧客與商家進(jìn)行在線交易,對顧客來說只是多了一種不同的交易渠道,這種交易和傳統(tǒng)的交易方式并沒有本質(zhì)上的差別,但對商家來說通過對顧客在線交易時的瀏覽行為進(jìn)行收集,產(chǎn)生了一種本質(zhì)上全新的數(shù)據(jù)。

⑶ 很多大數(shù)據(jù)的設(shè)計(jì)并不友好。例如:對于社交媒體網(wǎng)站上的文本流,用戶不一定會使用標(biāo)準(zhǔn)的語法或語序,當(dāng)發(fā)布信息時,可以獲得這些數(shù)據(jù),但對這些數(shù)據(jù)的處理卻不那么容易。

⑷ 大數(shù)據(jù)可能并不蘊(yùn)含大量的價值。傳統(tǒng)數(shù)據(jù)源在定義之初,要求所有的數(shù)據(jù)都是有用的,主要是由于當(dāng)時的可擴(kuò)展性的限制,如今,存儲空間已不再是主要的瓶頸,因此,大數(shù)據(jù)會收集所有可能使用到的信息,例如:一篇網(wǎng)頁日志中會含有非常重要的數(shù)據(jù),但其中也包含了很多沒有價值的數(shù)據(jù),對其進(jìn)行提煉,從而保留有價值的部分是非常必要的。

2 駕馭大數(shù)據(jù)的幾種技術(shù)

2.1 海量并行處理系統(tǒng)

大數(shù)據(jù)時代的到來,傳統(tǒng)的數(shù)據(jù)處理方式已經(jīng)不能滿足海量數(shù)據(jù)處理的實(shí)時性與實(shí)效性要求,海量并行處理系統(tǒng)(MPP)適應(yīng)了大數(shù)據(jù)時代的要求。MPP架構(gòu)由多個對稱多處理器結(jié)構(gòu)SMP服務(wù)器(每個SMP服務(wù)器稱為一個節(jié)點(diǎn))通過節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)進(jìn)行連接,每個節(jié)點(diǎn)只訪問自己的本地資源,協(xié)同工作,完成相同的任務(wù)[4]。MPP數(shù)據(jù)庫會把一個任務(wù)數(shù)據(jù)切分成不同的獨(dú)立數(shù)據(jù)塊,利用獨(dú)立存儲與CPU資源進(jìn)行管理,把數(shù)據(jù)分配到不同的磁盤空間和不同的CPU單元。

[一臺過載的服務(wù)器][多臺輕負(fù)載

的服務(wù)器]

圖1 海量并行處理系統(tǒng)的數(shù)據(jù)存儲

例如:對于一張1T的數(shù)據(jù)表,傳統(tǒng)的數(shù)據(jù)庫在同一時間只能查詢一行,如果是一個擁有10個處理單元的MPP系統(tǒng),它可以把這個1T的數(shù)據(jù)表切分成10份,每份100GB數(shù)據(jù),并分配給不同的處理單元,也就是在同一時間可以同時查詢10份100GB的數(shù)據(jù)。如果需要更強(qiáng)大的分析能力和更快的分析速度,只要增加更多的處理單元,系統(tǒng)能力就會得到提高。

MPP服務(wù)器架構(gòu)的并行處理能力比SMP更適合于大數(shù)據(jù)時代下的復(fù)雜的數(shù)據(jù)綜合分析與處理環(huán)境,它需要借助于支持MPP技術(shù)的關(guān)系數(shù)據(jù)庫系統(tǒng)來屏蔽節(jié)點(diǎn)之間負(fù)載平衡與調(diào)度的復(fù)雜性[5]。

2.2 云計(jì)算

云計(jì)算是硬件資源的虛擬化,大數(shù)據(jù)是云計(jì)算處理的數(shù)據(jù)之源,大數(shù)據(jù)的指數(shù)級增長使得數(shù)據(jù)的提取、存儲、處理、管理以及分析具有較高的復(fù)雜性,因此,大數(shù)據(jù)對云計(jì)算環(huán)境有著很高的依賴。

云計(jì)算是融合諸如網(wǎng)格計(jì)算、分布式計(jì)算、并行計(jì)算、內(nèi)存計(jì)算、虛擬化等傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展起來的產(chǎn)物,通過將計(jì)算任務(wù)分布在大量的分布式計(jì)算機(jī)上,形成類網(wǎng)狀的服務(wù)器集群。云計(jì)算具有較強(qiáng)的可擴(kuò)展性,高效的交互處理能力,可以實(shí)現(xiàn)根據(jù)任務(wù)自由地分配資源,用戶按照需求訪問存儲空間和服務(wù)器集群,從而大大地提高了計(jì)算能力,并降低了用戶對客戶端的要求,大數(shù)據(jù)的出現(xiàn),為云計(jì)算提供了發(fā)展空間,云計(jì)算作為計(jì)算資源的底層,支撐著上層的大數(shù)據(jù)處理。

目前較多運(yùn)用云計(jì)算平臺(Hadoop)架構(gòu)和Mapreduce模式組合應(yīng)用處理海量數(shù)據(jù),Hadoop是云計(jì)算平臺的架構(gòu),Mapreduce是一種處理海量數(shù)據(jù)的模式方法,在Hadoop架構(gòu)體系中運(yùn)用了Mapreduce并行編程計(jì)算模式處理海量的數(shù)據(jù),提高了大數(shù)據(jù)分析的性能。

2.3 網(wǎng)格計(jì)算

某些計(jì)算過程與算法無法全部轉(zhuǎn)換成SQL,或者難以嵌入數(shù)據(jù)庫的某個自定義函數(shù)中。在這種情況下,必須把數(shù)據(jù)從傳統(tǒng)的分析環(huán)境中抽取出來,然后用傳統(tǒng)的分析工具和軟件進(jìn)行分析,隨著分析師越來越多,以及分析任務(wù)越來越繁重,必須對這些服務(wù)器進(jìn)行擴(kuò)容或者增加更多的服務(wù)器,這些都是相當(dāng)昂貴的,網(wǎng)格配置可以降低系統(tǒng)成本并提高性能,它使用大量的低成本計(jì)算機(jī),而不是一臺或幾臺高性能的服務(wù)器。網(wǎng)格計(jì)算并不是只使用一臺大型服務(wù)器來管理執(zhí)行不同任務(wù)的CPU和資源,相反地,不同任務(wù)被獨(dú)立地分配給不同的計(jì)算機(jī),并讓每一臺計(jì)算機(jī)并發(fā)執(zhí)行。每一臺計(jì)算機(jī)也許都會承擔(dān)原有服務(wù)器的某一部分任務(wù),同一時間一臺計(jì)算機(jī)通常只能執(zhí)行一項(xiàng)任務(wù),因此,網(wǎng)格計(jì)算這種系統(tǒng)機(jī)制在提升系統(tǒng)性能和容量的同時,可以顯著地降低系統(tǒng)的總體成本。

網(wǎng)格計(jì)算還有一個剛出現(xiàn)不久的創(chuàng)新,即高性能的分析架構(gòu),在這個架構(gòu)中,網(wǎng)格計(jì)算環(huán)境下的不同計(jì)算機(jī)都知道其他計(jì)算機(jī)的存在,并且不同計(jì)算機(jī)可以共享信息。這種協(xié)作方式,在同一時間充分使用了網(wǎng)格計(jì)算環(huán)境下的所有計(jì)算資源,使得某些大型任務(wù)可以更快地完成。

2.4 MapReduce

MapReduce是谷歌提出的一個使用簡易的軟件框架,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算,基于它寫出來的應(yīng)用程序能夠運(yùn)行在由上千個普通機(jī)器組成的大型集群上,并以一種可靠容錯的方式并行處理上太級別的數(shù)據(jù)集[6]。

MapReduce里內(nèi)置了兩個主要的處理過程:映射過程“map”和歸納過程“reduce”,MapReduce會在一系列的工作結(jié)點(diǎn)上并發(fā)執(zhí)行這些處理過程,這類似于MPP系統(tǒng),MapReduce將復(fù)雜的運(yùn)行于大規(guī)模集群上的并行計(jì)算過程抽象為兩個函數(shù)(map和reduce),執(zhí)行時先指定一個map函數(shù),把輸入對映射成一組新的對,經(jīng)過一定處理后交給reduce,reduce對相同key下的所有value處理后再輸出對作為最終結(jié)果。與MPP系統(tǒng)的區(qū)別在于:MapReduce里的節(jié)點(diǎn)之間不會發(fā)生信息交互。它把一個任務(wù)分解成許多小任務(wù),它們相互獨(dú)立運(yùn)行,如圖2所示。

[映射功能][映射(Map)][洗牌][歸納(Reduce)][調(diào)度] [結(jié)果]

圖2 MapReduce處理過程

分析師可以創(chuàng)建一個映射程序來搜索并分析文本記錄中的每一個詞語,然后將這些詞語從段落中解析出來;當(dāng)每個工作節(jié)點(diǎn)都執(zhí)行完映射程序,調(diào)度程序就會得到通知,之后,每個歸納節(jié)點(diǎn)的歸納程序開始匯總計(jì)算每個詞語出現(xiàn)的頻率,然后標(biāo)上這個詞語出現(xiàn)的次數(shù)統(tǒng)計(jì),映射程序的輸出結(jié)果就是詞語與計(jì)數(shù)的組合。例如,網(wǎng)站的在線客服人員與客戶交流的大量文本記錄被不斷地導(dǎo)入系統(tǒng)中,歸納程序的輸出物可能是“<他,10>,”“<商品,25>,”“<壞了,20>,”,這里的數(shù)字表明這個詞語在文章中出現(xiàn)的總次數(shù),獲得了詞語的出現(xiàn)次數(shù)后,分析師就開始工作了,一些特定產(chǎn)品的名稱,以及像“壞了”之類的詞語都將被識別出來并進(jìn)行重點(diǎn)研究,原來大段文字的文本數(shù)據(jù)經(jīng)過處理后轉(zhuǎn)換成了一種簡單的格式,便于人們進(jìn)行分析。

許多大型的數(shù)據(jù)流都包含了大量沒有長期價值的信息,部署在云端的彈性MapReduce可以根據(jù)需求實(shí)時地按需配置和訪問服務(wù)器集群,實(shí)現(xiàn)對大量和密集型數(shù)據(jù)任務(wù)的處理,比如日志文件分析、數(shù)據(jù)挖掘等。

3 結(jié)束語

在駕馭大數(shù)據(jù)的分析生態(tài)環(huán)境中,海量并行關(guān)系型數(shù)據(jù)庫、云計(jì)算、MapReduce都可以發(fā)揮重要的作用,可以將這三項(xiàng)技術(shù)整合起來協(xié)同工作,并從大數(shù)據(jù)中獲得最大的價值。例如,數(shù)據(jù)庫可以運(yùn)行在云里;數(shù)據(jù)庫可以內(nèi)置MapReduce功能,MapReduce也可以直接處理云計(jì)算環(huán)境內(nèi)的數(shù)據(jù),MapReduce還可以對部署在云內(nèi)的數(shù)據(jù)庫的庫內(nèi)數(shù)據(jù)進(jìn)行處理。這三種技術(shù)可以相互影響并協(xié)同工作,每一項(xiàng)技術(shù)都能加強(qiáng)其他技術(shù),分析環(huán)境內(nèi)可以同時包含這些不同的技術(shù)與方案,使得每一項(xiàng)技術(shù)都變得更加強(qiáng)大和高效。

參考文獻(xiàn):

[1] 嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013.168.

[2] 王珊,王會舉等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報,

2011.1741.

[3] Bill Franks.駕馭大數(shù)據(jù)[M].人民郵電出版社,2013.

[4] 劉軍.hadoop大數(shù)據(jù)處理[M].人民郵電出版社,2013.

[5] 楊池然.跟隨大數(shù)據(jù)旅行[M].機(jī)械工業(yè)出版社,2014.

[6] 周寶曜,劉偉等.大數(shù)據(jù)戰(zhàn)略技術(shù)實(shí)踐[M].電子工業(yè)出版社,2013.

猜你喜歡
云計(jì)算大數(shù)據(jù)
基于云計(jì)算的移動學(xué)習(xí)平臺的設(shè)計(jì)
實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
云計(jì)算中的存儲虛擬化技術(shù)應(yīng)用
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究