黃根華
?
試論云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)
黃根華
廣東省電信規(guī)劃設(shè)計(jì)院有限公司,廣東 廣州 510630
互聯(lián)網(wǎng)基礎(chǔ)建設(shè)和普及的時(shí)代已經(jīng)過(guò)去,云計(jì)算的產(chǎn)生使得一個(gè)平臺(tái)多種應(yīng)用成為可能。近年來(lái),隨著網(wǎng)絡(luò)帶寬等網(wǎng)絡(luò)技術(shù)的發(fā)展,通過(guò)網(wǎng)絡(luò)訪問(wèn)非本地計(jì)算服務(wù)的條件越來(lái)越成熟,對(duì)大規(guī)模數(shù)據(jù)的處理應(yīng)用實(shí)踐,更加促進(jìn)了云計(jì)算技術(shù)往更加廣闊的方向發(fā)展。研究的主要內(nèi)容是云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)及其在實(shí)際應(yīng)用的意義,旨在通過(guò)構(gòu)建基于云計(jì)算虛擬機(jī)集群來(lái)解決圖數(shù)據(jù)計(jì)算難題,提高大規(guī)模圖數(shù)據(jù)處理效率,促進(jìn)云計(jì)算技術(shù)的發(fā)展和推廣。
云計(jì)算環(huán)境;處理技術(shù);大規(guī)模圖數(shù)據(jù)
圖是互聯(lián)網(wǎng)計(jì)算中最常用的數(shù)據(jù)結(jié)構(gòu)之一,相對(duì)于常見的諸如線性表類的數(shù)據(jù)結(jié)構(gòu),圖在語(yǔ)義和結(jié)構(gòu)表達(dá)上更為復(fù)雜,表示能力更具有一般性,能夠高度模擬不斷演變的網(wǎng)絡(luò)模型。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)業(yè)務(wù)日益豐富和多樣,對(duì)計(jì)算能力提出了更高的要求。與此同時(shí)大規(guī)模圖數(shù)據(jù)處理技術(shù)研究也發(fā)展到了一個(gè)更高的層次,基于云計(jì)算環(huán)境的圖數(shù)據(jù)處理是一個(gè)重要的研究方向,如何對(duì)大規(guī)模的圖數(shù)據(jù)進(jìn)行高效處理,成為新的挑戰(zhàn)[1]。
云計(jì)算是指以互聯(lián)網(wǎng)核心技術(shù)為基礎(chǔ),以非常必要的實(shí)際應(yīng)用平臺(tái)為主要內(nèi)容的一種應(yīng)用程序。云計(jì)算具有通用性、虛擬化、經(jīng)濟(jì)性、可擴(kuò)展性等優(yōu)勢(shì)。
云計(jì)算主要涉及三種技術(shù)。一是海量分布式存儲(chǔ)技術(shù)。這種存儲(chǔ)技術(shù)對(duì)應(yīng)用中的重要數(shù)據(jù)以及信息具有強(qiáng)大的存儲(chǔ)功能,可以有效提高云計(jì)算存儲(chǔ)數(shù)據(jù)的質(zhì)量和安全性。二是數(shù)據(jù)管理技術(shù)。對(duì)高速訪問(wèn)和讀寫的數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)的比較、分析、存儲(chǔ)管理,從而有效避免由于重要數(shù)據(jù)丟失影響應(yīng)用的正常運(yùn)行。三是并行編程模式技術(shù)。對(duì)于云計(jì)算中的各種應(yīng)用服務(wù)對(duì)象,進(jìn)行科學(xué)合理的編程,按照合理的優(yōu)先級(jí)進(jìn)行同步或異步響應(yīng),提高計(jì)算資源的利用率。
2.1 云計(jì)算環(huán)境下的圖數(shù)據(jù)存儲(chǔ)模型
在云計(jì)算的環(huán)境下,對(duì)于大規(guī)模圖數(shù)據(jù)的存儲(chǔ),主要有超圖和單圖兩種數(shù)據(jù)模型。二者的差異主要體現(xiàn)在存儲(chǔ)的格式:一個(gè)是基于數(shù)據(jù)庫(kù)格式;一個(gè)是文件系統(tǒng)格式[2]。云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)的存儲(chǔ)應(yīng)用,主要是借助這兩種方式實(shí)現(xiàn)對(duì)重要數(shù)據(jù)或是信息的海量存儲(chǔ),并在存儲(chǔ)的過(guò)程中實(shí)現(xiàn)對(duì)相關(guān)信息的安全維護(hù)。這兩種存儲(chǔ)方式都具有便捷、靈活的特點(diǎn),可以較大程度地提高對(duì)數(shù)據(jù)信息的高效處理。
分布式文件和分布式數(shù)據(jù)庫(kù)兩種不同形式的存儲(chǔ)方式,適用不同的應(yīng)用場(chǎng)景,同一場(chǎng)景下運(yùn)行將出現(xiàn)兩種完全不同的應(yīng)用結(jié)果。因此,在實(shí)際應(yīng)用的過(guò)程中,為了盡可能地提高大規(guī)模圖數(shù)據(jù)處理效率,需要我們結(jié)合其相關(guān)數(shù)據(jù)圖形的特點(diǎn),采取恰當(dāng)?shù)拇鎯?chǔ)格式進(jìn)行相應(yīng)的處理。大量實(shí)踐結(jié)果證明,一般情況下,分布式數(shù)據(jù)庫(kù)主要是用來(lái)對(duì)各種數(shù)據(jù)模型的存儲(chǔ),分布式文件主要是對(duì)接表和臨接矩陣來(lái)進(jìn)行存儲(chǔ)。
2.2 云計(jì)算環(huán)境下的分割圖數(shù)據(jù)
在實(shí)際應(yīng)用中,為了進(jìn)一步提高對(duì)圖數(shù)據(jù)的處理質(zhì)量,需要對(duì)云計(jì)算環(huán)境下的圖數(shù)據(jù)進(jìn)行必要的分割處理。簡(jiǎn)單而言,需要進(jìn)行以下步驟:首先,結(jié)合云計(jì)算集群中的大規(guī)模存儲(chǔ)工作節(jié)點(diǎn),對(duì)具有復(fù)雜邏輯結(jié)構(gòu)的圖進(jìn)行分割處理;其次,對(duì)已經(jīng)分割完的圖進(jìn)行連通性與均衡性比較,以保證被分割的圖之間還可以實(shí)現(xiàn)相互之間聯(lián)通。通過(guò)以上兩個(gè)步驟反復(fù)執(zhí)行,達(dá)到一定的均衡性指標(biāo)之后,即可實(shí)現(xiàn)對(duì)大規(guī)模圖數(shù)據(jù)的分割到合理的水平。圖數(shù)據(jù)過(guò)大時(shí),不同分割的子圖之間的計(jì)算處理會(huì)出現(xiàn)時(shí)間差,出現(xiàn)“木桶理論”的時(shí)間瓶頸,降低圖數(shù)據(jù)整理處理效率,影響到應(yīng)用系統(tǒng)的正常運(yùn)轉(zhuǎn)。通過(guò)對(duì)這種分割之后的圖數(shù)據(jù)處理,可以有效地避免大規(guī)模圖數(shù)據(jù)計(jì)算的不同子圖之間的時(shí)間差,從而提高圖數(shù)據(jù)整體處理效率。
2.3 云計(jì)算環(huán)境下的圖數(shù)據(jù)計(jì)算模型
云計(jì)算環(huán)境下的圖數(shù)據(jù)計(jì)算模型有兩種,分別是BSP模型和Map Reduce模型。其中BSP模型主要是保障云計(jì)算環(huán)境下的圖數(shù)據(jù)之間通信,高效及時(shí)的通信機(jī)制可以避免計(jì)算機(jī)運(yùn)行系統(tǒng)出現(xiàn)鎖死。Map Reduce模型是多個(gè)Reduce、Map組成的共同體,以實(shí)現(xiàn)多個(gè)共同體可以并行的對(duì)數(shù)據(jù)信息的并行處理,確保云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)的處理效率。通常的處理流程如下:首先,通過(guò)Reduce對(duì)接受到的實(shí)際數(shù)據(jù)進(jìn)行聚集處理,對(duì)分布式文件中的相關(guān)數(shù)據(jù)進(jìn)行保存,得到輸出的結(jié)果;其次,借助Map階段,實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析計(jì)算,并進(jìn)行統(tǒng)一的資源分配。通過(guò)計(jì)算得到相對(duì)應(yīng)的Key值,之后在使其與之相對(duì)應(yīng)的數(shù)據(jù)信息在Reduce任務(wù)中進(jìn)行映射[3]。
2.4 云計(jì)算環(huán)境下的圖數(shù)據(jù)查詢處理
在現(xiàn)階段的云計(jì)算環(huán)境下,有兩種模式可以支持大規(guī)模圖數(shù)據(jù)驅(qū)動(dòng):一種是以圖頂點(diǎn)驅(qū)動(dòng)的主動(dòng)遍歷模式;另一種是與之相反的以消息驅(qū)動(dòng)的被動(dòng)式遍歷模式。這兩種模式僅僅是驅(qū)動(dòng)對(duì)象不同,應(yīng)用操作對(duì)象都是圖頂點(diǎn)。因此,在查詢處理圖數(shù)據(jù)過(guò)程中,圖頂點(diǎn)的維護(hù)有著至關(guān)重要的作用。對(duì)二者的優(yōu)缺點(diǎn)進(jìn)行比較,主動(dòng)遍歷模式的優(yōu)點(diǎn)在于應(yīng)用性強(qiáng),可以支持所有的圖應(yīng)用場(chǎng)景,但明顯的缺點(diǎn)是會(huì)出現(xiàn)較大程度的資源浪費(fèi);被動(dòng)便利模式在不調(diào)動(dòng)處理函數(shù)的情況下,可以有效地降低不必要節(jié)點(diǎn),避免資源的浪費(fèi)。
2.5 云計(jì)算環(huán)境下的圖數(shù)據(jù)容錯(cuò)管理
在云計(jì)算環(huán)境下,大規(guī)模圖數(shù)據(jù)持續(xù)時(shí)間長(zhǎng),由于云平臺(tái)硬件性能普遍較低,單個(gè)節(jié)點(diǎn)出現(xiàn)故障的概率高,出錯(cuò)重新處理的代價(jià)非常大,因此容錯(cuò)機(jī)制必不可少。大規(guī)模圖數(shù)據(jù)處理技術(shù)在云環(huán)境中的容錯(cuò)管理主要是通過(guò)對(duì)相應(yīng)的冗余數(shù)據(jù)備份,或者是借助硬盤來(lái)進(jìn)行讀寫,以實(shí)現(xiàn)對(duì)其數(shù)據(jù)的保護(hù)。其主要內(nèi)容包括對(duì)冗余備份寫入時(shí)機(jī)的把握,確定冗余備份的相關(guān)數(shù)據(jù)存放位置,以及冗余備份過(guò)程中相關(guān)出現(xiàn)故障的檢測(cè)與恢復(fù)等。
云計(jì)算環(huán)境下大規(guī)模圖數(shù)據(jù)處理技術(shù)應(yīng)用的現(xiàn)實(shí)意義。其一,強(qiáng)大的存儲(chǔ)能力,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的統(tǒng)一集中管理,統(tǒng)一高效維護(hù),大大提高了信息數(shù)據(jù)量較大圖數(shù)據(jù)存儲(chǔ)以及保護(hù)水;第二,算法的靈活性拓展了大規(guī)模圖數(shù)據(jù)的實(shí)際應(yīng)用領(lǐng)域,滿足不同場(chǎng)景的計(jì)算需求;其三,大規(guī)模圖數(shù)據(jù)處理技術(shù)將云計(jì)算技術(shù)的發(fā)展引入了一個(gè)新的方向,也促進(jìn)互聯(lián)網(wǎng)計(jì)算技術(shù)的進(jìn)一步發(fā)展[4]。
綜上所述,云計(jì)算是一項(xiàng)將計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)技術(shù)進(jìn)行有效整合而成的新型信息產(chǎn)物,這一技術(shù)有著非常廣闊的應(yīng)用背景。云計(jì)算技術(shù)與大規(guī)模圖數(shù)據(jù)處理技術(shù)兩者在發(fā)展歷程中相輔相成、相互促進(jìn)?;谠朴?jì)算環(huán)境的下大規(guī)模圖數(shù)據(jù)處理技術(shù)的應(yīng)用,將會(huì)帶給我們更加豐富和完善的用戶體驗(yàn)。
[1]李東升.云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)[J].信息與電腦:理論版,2015,34(8):1753-1767.
[2]王欣.云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)[J].決策與信息旬刊,2015,34(10):209.
[3]李淵.淺析云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)[J].中國(guó)高新技術(shù)企業(yè),2014(6):53-54.
[4]于雙紅.云計(jì)算環(huán)境下大規(guī)模圖數(shù)據(jù)處理技術(shù)的應(yīng)用研究[J].信息與電腦:理論版,2016(1):6-7.
A Large-Scale Map Data Processing Technology in Cloud Computing Environment
Huang Genhua
Guangdong planning and Design Institute Co., Ltd., Guangdong Guangzhou 510630
The Internet infrastructure and the popularity of the era of the past, cloud computing makes a platform for a variety of applications possible.In recent years, with the rapid development of network technology such as network bandwidth, access condition and non local computing services through the network more mature, application of large-scale data processing, more to promote cloud computing the technology to broader direction. The main contents of this paper are large graph data processing technology in cloud computing environment and its significance in practical application, aims to build a cloud based virtual machine cluster to solve the graph data calculation problem, improve the large graph data processing efficiency, promote the development and promotion of cloud computing technology.
cloud computing; processing technology; large graph data
TN919.5
A
黃根華(1984—),男,工程師,畢業(yè)于中山大學(xué),碩士,現(xiàn)就職于廣東省電信規(guī)劃設(shè)計(jì)院有限公司,長(zhǎng)期從事網(wǎng)絡(luò)咨詢與規(guī)劃工作,在云計(jì)算、業(yè)務(wù)網(wǎng)絡(luò)等方面具有深厚的理論功底和豐富的項(xiàng)目經(jīng)驗(yàn)。