林艷雯
(廣東省電信規(guī)劃設(shè)計(jì)院有限公司,廣東湛江,524000)
大數(shù)據(jù)處理技術(shù)基于云計(jì)算的探討
林艷雯
(廣東省電信規(guī)劃設(shè)計(jì)院有限公司,廣東湛江,524000)
隨著社會(huì)經(jīng)濟(jì)的不斷進(jìn)步,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)得到前所未有的快速發(fā)展,其中大數(shù)據(jù)更是滲透到現(xiàn)代社會(huì)的各個(gè)領(lǐng)域,給人們的生產(chǎn)生活帶來(lái)了極大的便利。近年來(lái),高速發(fā)展的物聯(lián)網(wǎng)技術(shù)、移動(dòng)互聯(lián)網(wǎng)技術(shù)等使得網(wǎng)絡(luò)終端產(chǎn)生了海量的網(wǎng)絡(luò)數(shù)據(jù),數(shù)據(jù)處理壓力十分巨大。基于這種大數(shù)據(jù)存儲(chǔ)和處理需要,網(wǎng)絡(luò)云計(jì)算技術(shù)應(yīng)運(yùn)而生并且得到了巨大發(fā)展。對(duì)此,本文在分析云計(jì)算的基礎(chǔ)上對(duì)大數(shù)據(jù)處理技術(shù)進(jìn)行了重點(diǎn)探討。
大數(shù)據(jù);云計(jì)算;數(shù)據(jù)處理
近幾年,隨著互聯(lián)網(wǎng)技術(shù)的日益發(fā)達(dá)和普及,各種信息傳播的速度越來(lái)越快,數(shù)據(jù)規(guī)模也越來(lái)越大,現(xiàn)有的網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)已經(jīng)無(wú)法滿足這種“爆炸式”的數(shù)據(jù)增長(zhǎng),這使得云計(jì)算技術(shù)應(yīng)運(yùn)而生[1]。大數(shù)據(jù)產(chǎn)生依賴(lài)于云計(jì)算技術(shù)的發(fā)展,在此背景下,大數(shù)據(jù)具有5V特征,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)以及Veracity(真實(shí)性)。與傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、計(jì)算等方面相比,大數(shù)據(jù)具有復(fù)雜性、隨機(jī)性、發(fā)散性等特點(diǎn),因此更能精準(zhǔn)有效的反映現(xiàn)實(shí)世界。而云計(jì)算技術(shù)隨著大數(shù)據(jù)的產(chǎn)生而日益發(fā)展和成熟,它們之間相互依托,使數(shù)據(jù)存儲(chǔ)和處理能力得到進(jìn)一步的提升。
所謂的云計(jì)算是指利用可配置的計(jì)算資源共享池,使用資源付費(fèi)模式來(lái)為用戶(hù)提供服務(wù)的網(wǎng)絡(luò)技術(shù)[2]。云計(jì)算在進(jìn)行數(shù)據(jù)處理時(shí)具有以下特點(diǎn):規(guī)模巨大、虛擬化、可靠性高、擴(kuò)展性強(qiáng)、成本低廉等。在這些特點(diǎn)之下云計(jì)算又衍生出許多獨(dú)特的數(shù)據(jù)處理技術(shù),主要有數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理以及虛擬化技術(shù)。由于云計(jì)算技術(shù)能夠進(jìn)行大規(guī)模的數(shù)據(jù)存儲(chǔ)和傳輸,因此是進(jìn)行大數(shù)據(jù)處理的最佳選擇。云計(jì)算能夠最大程度的為大數(shù)據(jù)提供巨大的存儲(chǔ)空間以滿足其龐大的數(shù)據(jù)資源,這樣一來(lái),就會(huì)加快數(shù)據(jù)處理速度,大大提高數(shù)據(jù)處理效率。
云計(jì)算與大數(shù)據(jù)其實(shí)是主客觀的關(guān)系,云計(jì)算主要進(jìn)行數(shù)據(jù)計(jì)算,而大數(shù)據(jù)則是計(jì)算的對(duì)象。前者注重?cái)?shù)據(jù)計(jì)算,后者注重?cái)?shù)據(jù)存儲(chǔ),它們之間相互依存,共同構(gòu)成一個(gè)完整的數(shù)據(jù)處理系統(tǒng)。云計(jì)算大數(shù)據(jù)處理平臺(tái)架構(gòu)如圖1所示。
圖1 云計(jì)算大數(shù)據(jù)處理平臺(tái)架構(gòu)
2.1 大數(shù)據(jù)的采集技術(shù)
一般情況下,集中式采集和分布式采集是當(dāng)前數(shù)據(jù)采集的兩個(gè)主要方式,兩種采集方式各有優(yōu)點(diǎn),其中集中式采集會(huì)較好的反映出數(shù)據(jù)的全局性,而分布式采集相對(duì)來(lái)說(shuō)會(huì)有較強(qiáng)的靈活性,需根據(jù)實(shí)際情況來(lái)選擇恰當(dāng)?shù)臄?shù)據(jù)采集方式。事實(shí)上,大數(shù)據(jù)采集對(duì)象的范圍比較廣泛,除了組織內(nèi)部的數(shù)據(jù),還包括相互獨(dú)立組織間的各種數(shù)據(jù),而并行處理恰好是云計(jì)算的一個(gè)顯著優(yōu)勢(shì),所以混合式采集方式可以幫助我們更好的完成數(shù)據(jù)采集任務(wù),
2.2 大數(shù)據(jù)的存儲(chǔ)技術(shù)
云計(jì)算的數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)特點(diǎn)是列式存儲(chǔ),即根據(jù)數(shù)據(jù)的不同屬性進(jìn)行具體的劃分和排列,之所以采取列式存儲(chǔ)方式是因?yàn)榭梢愿鶕?jù)屬性來(lái)進(jìn)行數(shù)據(jù)投影查詢(xún),同時(shí)還可以對(duì)相似數(shù)據(jù)進(jìn)行壓縮處理,這不僅大大加快了數(shù)據(jù)存儲(chǔ)速度,提高了數(shù)據(jù)處理效率,而且還節(jié)省了倉(cāng)庫(kù)存儲(chǔ)空間,降低了索引和視圖的維護(hù)成本。
2.3 大數(shù)據(jù)的挖掘技術(shù)
云計(jì)算背景下的大數(shù)據(jù)挖掘采用分布式并行數(shù)據(jù)挖掘技術(shù),此挖掘技術(shù)的獨(dú)特之處就在于它適合處理大規(guī)模的數(shù)據(jù)資源,而傳統(tǒng)的串行數(shù)據(jù)挖掘技術(shù)只能處理一些小規(guī)模的數(shù)據(jù)資源并且處理效率也較為低下。所謂的分布式并行數(shù)據(jù)挖掘技術(shù)就是先利用機(jī)器集群將預(yù)定的數(shù)據(jù)處理資源進(jìn)行具體劃分,然后再由閑散的機(jī)器對(duì)數(shù)據(jù)進(jìn)行有規(guī)律的處理,這樣一來(lái)就大大加快了數(shù)據(jù)處理速度,提高了工作效率。
2.4 大數(shù)據(jù)的可視化技術(shù)
所謂數(shù)據(jù)可視化是指用圖形或圖像的形式來(lái)表示大型數(shù)據(jù)庫(kù)中的數(shù)據(jù),大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是數(shù)據(jù)可視化的主要對(duì)象,并且人們可以利用其中的數(shù)據(jù)分析和開(kāi)發(fā)工具來(lái)發(fā)現(xiàn)其他未知的信息,這樣人們對(duì)數(shù)據(jù)的觀察和分析便變得更加直觀,不再只依賴(lài)于傳統(tǒng)的關(guān)系數(shù)據(jù)表。在云平臺(tái)下,大數(shù)據(jù)可視化技術(shù)除了利于用戶(hù)理解數(shù)據(jù)的含義外,還可以用來(lái)指引整個(gè)檢索過(guò)程。
云計(jì)算摒棄了許多傳統(tǒng)數(shù)據(jù)處理技術(shù)的弊端,它能對(duì)數(shù)據(jù)進(jìn)行更加準(zhǔn)確且深層次的分析,極大的提高了大數(shù)據(jù)分析的能力和水平。在云計(jì)算的依托之下,大數(shù)據(jù)更加注重對(duì)數(shù)據(jù)的挖掘和創(chuàng)新,因而能夠最大程度的發(fā)揮出自身的資源優(yōu)勢(shì),所以必須要將兩者充分緊密的結(jié)合起來(lái),從而為網(wǎng)絡(luò)用戶(hù)提供更加全面可靠的數(shù)據(jù)服務(wù)。
[1]張焰,李楊.用大數(shù)據(jù)武裝”云”:基于云計(jì)算的大數(shù)據(jù)處理技術(shù)[J].中國(guó)新通信,2015,04:87-88.
[2]龔旭.基于云計(jì)算的大數(shù)據(jù)處理技術(shù)探討[J].電子技術(shù)與軟件工程,2015,10:198.
[3]李曉飛.基于云計(jì)算技術(shù)的大數(shù)據(jù)處理系統(tǒng)的研究[J].長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,01:116-118+125.
The research of large data processing technology based on Cloud Computing
Lin Yanwen
(Guangdong Telecom Planning & Design Institute Co.,Ltd.,Zhanjiang Guangdong,524000)
Since With the progress of social economy, the rapid development of computer network technology has been hitherto unknown, the data of which is penetrated into every field of the modern society, which brings great convenience to people’s production and life. In recent years, the rapid development of Internet of things technology, mobile Internet technology makes the network terminal produce massive network data, and the pressure of data processing is very huge. Based on this large data storage and processing needs, the network cloud computing technology came into being and has been greatly developed. In this regard, this paper focuses on the large data processing technology based on the analysis of cloud computing.
Big data;Cloud computing;Data processing