黃冬梅,隨宏運(yùn),賀 琪,趙丹楓,杜艷玲,蘇 誠(chéng)
(1.上海海洋大學(xué)信息學(xué)院,上海201306;2.國(guó)家海洋局東海信息中心,上海200136)
“空天地底”海洋立體觀測(cè)技術(shù)的飛速發(fā)展,使得高精度、高頻度、大覆蓋的多模態(tài)海洋數(shù)據(jù)[1]呈幾何級(jí)數(shù)爆炸式增長(zhǎng)。此外,海洋監(jiān)測(cè)數(shù)據(jù)具有多學(xué)科交叉性、海洋數(shù)據(jù)獲取手段和數(shù)據(jù)格式復(fù)雜化、數(shù)據(jù)種類(lèi)多樣化等特性,是典型的大數(shù)據(jù)。對(duì)于獲得的海洋監(jiān)測(cè)大數(shù)據(jù),如何有效地進(jìn)行存儲(chǔ)和布局是日后研究人員合理使用和分析海洋大數(shù)據(jù)的基礎(chǔ)。
數(shù)據(jù)布局策略主要解決如何合理地將海量數(shù)據(jù)布局到合適的數(shù)據(jù)中心的問(wèn)題。隨著大規(guī)模數(shù)據(jù)存儲(chǔ)系統(tǒng)體系結(jié)構(gòu)的發(fā)展,數(shù)據(jù)布局策略從設(shè)計(jì)目標(biāo)到應(yīng)用環(huán)境發(fā)生了很大的改變,并應(yīng)用于多種存儲(chǔ)系統(tǒng)中。如在傳統(tǒng)的RAID 機(jī)制中,運(yùn)用分條技術(shù)將數(shù)據(jù)分成多個(gè)條帶單元,以每個(gè)條帶單元為單位將數(shù)據(jù)分布在多個(gè)磁盤(pán)上以提高讀/寫(xiě)速度[2]。在P2P系統(tǒng)中,通過(guò)分析數(shù)據(jù)的可用性,將文件作為數(shù)據(jù)存儲(chǔ)[3]的基本單位對(duì)數(shù)據(jù)進(jìn)行布局。然而,由于海洋監(jiān)測(cè)大數(shù)據(jù)[4]自身具有特殊的性質(zhì),使得傳統(tǒng)的布局策略在對(duì)海洋監(jiān)測(cè)大數(shù)據(jù)布局時(shí)缺乏實(shí)用性。例如,在對(duì)海洋大數(shù)據(jù)進(jìn)行監(jiān)測(cè)時(shí),監(jiān)測(cè)點(diǎn)數(shù)據(jù)的分布呈分散性,不同監(jiān)測(cè)點(diǎn)對(duì)應(yīng)不同的領(lǐng)域。同時(shí),一些用戶(hù)在執(zhí)行某特定監(jiān)測(cè)任務(wù)時(shí),將集中應(yīng)用某些監(jiān)測(cè)點(diǎn),從而產(chǎn)生監(jiān)測(cè)點(diǎn)之間的關(guān)聯(lián)。因此,在對(duì)海洋監(jiān)測(cè)大數(shù)據(jù)布局時(shí)應(yīng)適當(dāng)考慮監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)度。此外,監(jiān)測(cè)點(diǎn)內(nèi)海洋數(shù)據(jù)的屬性繁多,在這些屬性之間也存在著潛在的聯(lián)系,故需進(jìn)一步考慮監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)度。
隨著科學(xué)技術(shù)與海洋監(jiān)測(cè)設(shè)備技術(shù)的不斷發(fā)展,海洋的數(shù)據(jù)量已發(fā)展到PB、EB 級(jí)甚至更大級(jí)別,成為名副其實(shí)的大數(shù)據(jù)。此外,海洋監(jiān)測(cè)過(guò)程中,每個(gè)數(shù)據(jù)都呈分散性,傳統(tǒng)的集中式數(shù)據(jù)布局策略對(duì)海洋監(jiān)測(cè)大數(shù)據(jù)具有一定的局限性,這使得如何將關(guān)聯(lián)緊密的海洋監(jiān)測(cè)大數(shù)據(jù)合理地布局在同一數(shù)據(jù)中心,有效地減少響應(yīng)時(shí)間顯得十分重要。因此,本文采用云環(huán)境下的分布式存儲(chǔ)模式對(duì)海洋監(jiān)測(cè)大數(shù)據(jù)進(jìn)行布局,提出云計(jì)算環(huán)境下基于數(shù)據(jù)關(guān)聯(lián)度的海洋監(jiān)測(cè)大數(shù)據(jù)布局策略。通過(guò)分析云環(huán)境下的數(shù)據(jù)中心容量以及海洋監(jiān)測(cè)數(shù)據(jù)、監(jiān)測(cè)點(diǎn)和監(jiān)測(cè)任務(wù)之間的關(guān)聯(lián),利用具備超大規(guī)模、高可擴(kuò)展性等特點(diǎn)的云計(jì)算環(huán)境來(lái)實(shí)現(xiàn)海洋監(jiān)測(cè)大數(shù)據(jù)的存儲(chǔ)。
本節(jié)首先闡述了現(xiàn)有的數(shù)據(jù)布局策略[5~9],分析各個(gè)策略的布局效果;然后介紹了目前關(guān)于云計(jì)算環(huán)境下的數(shù)據(jù)管理方法[10~18];最后介紹當(dāng)前針對(duì)云計(jì)算環(huán)境下的海洋數(shù)據(jù)布局問(wèn)題的相關(guān)研究,指出其局限性。
數(shù)據(jù)布局主要解決如何合理地存放數(shù)據(jù)的問(wèn)題。在分布式計(jì)算中,針對(duì)數(shù)據(jù)布局的問(wèn)題進(jìn)行了很多研究。文獻(xiàn)[6]從數(shù)據(jù)密集型計(jì)算中負(fù)載均衡性方面,提出了在特定環(huán)境下實(shí)現(xiàn)負(fù)載均衡的數(shù)據(jù)布局方法,有效地提高了并行性。文獻(xiàn)[7]提出一種基于釋放和重構(gòu)的數(shù)據(jù)布局策略,使得在超大規(guī)模的解空間中盡快找到更加接近全局最優(yōu)的數(shù)據(jù)布局方案,有效地減少了數(shù)據(jù)的傳輸代價(jià)。文獻(xiàn)[8]采取將一致Hash方法和聚類(lèi)算法相結(jié)合的方法,按照設(shè)備的權(quán)重大小進(jìn)行聚類(lèi),同時(shí)按照類(lèi)別分配區(qū)間對(duì)數(shù)據(jù)進(jìn)行布局,減少了對(duì)存儲(chǔ)空間的消耗。文獻(xiàn)[9]從節(jié)能方面介紹了一種適于連續(xù)數(shù)據(jù)存儲(chǔ)的節(jié)能數(shù)據(jù)布局方案,通過(guò)關(guān)閉部分處于空閑狀態(tài)的磁盤(pán)達(dá)到數(shù)據(jù)布局過(guò)程中節(jié)能的效果。上述工作分別從負(fù)載均衡性、數(shù)據(jù)傳輸代價(jià)、存儲(chǔ)空間和節(jié)能不同的角度對(duì)數(shù)據(jù)進(jìn)行布局。然而,在當(dāng)前大數(shù)據(jù)時(shí)代,上述研究把更多的注意力放在提高存儲(chǔ)設(shè)備性能上,忽略了海洋監(jiān)測(cè)大數(shù)據(jù)之間的關(guān)聯(lián)性,尤其是對(duì)于如何根據(jù)海洋數(shù)據(jù)關(guān)聯(lián)性進(jìn)行數(shù)據(jù)布局的研究較少。
近年來(lái),大數(shù)據(jù)技術(shù)的發(fā)展為海洋信息化開(kāi)辟了新的研究途徑與產(chǎn)業(yè)化的新思路。隨著面向海洋的大數(shù)據(jù)管理與布局技術(shù)不斷地發(fā)展,云計(jì)算受到了眾多國(guó)內(nèi)外研究者的關(guān)注。文獻(xiàn)[15]認(rèn)為云計(jì)算環(huán)境由多個(gè)分布的數(shù)據(jù)中心組成,并利用云計(jì)算環(huán)境,從跨數(shù)據(jù)中心數(shù)據(jù)傳輸、數(shù)據(jù)依賴(lài)關(guān)聯(lián)和全局負(fù)載均衡三個(gè)方面,提出一種三階段的面向數(shù)據(jù)密集型流程應(yīng)用的數(shù)據(jù)布局策略,有效地降低了跨數(shù)據(jù)中心數(shù)據(jù)傳輸?shù)臅r(shí)間開(kāi)銷(xiāo)。文獻(xiàn)[16]模擬混合云計(jì)算模式,針對(duì)科學(xué)工作流數(shù)據(jù),從跨數(shù)據(jù)中心時(shí)數(shù)據(jù)移動(dòng)的時(shí)間開(kāi)銷(xiāo)和產(chǎn)生的傳輸費(fèi)用方面對(duì)數(shù)據(jù)進(jìn)行布局,提出了一種優(yōu)化的數(shù)據(jù)布局方法。文獻(xiàn)[17]以紅十字會(huì)組織物資采購(gòu)的例子,提出了在云計(jì)算環(huán)境下對(duì)隱私數(shù)據(jù)和非隱私數(shù)據(jù)的布局方法。這些學(xué)者針對(duì)一般數(shù)據(jù)進(jìn)行了高效的布局,但是海洋監(jiān)測(cè)大數(shù)據(jù)不同于一般數(shù)據(jù),有其自身的特點(diǎn)[18],在監(jiān)測(cè)任務(wù)、監(jiān)測(cè)點(diǎn)和監(jiān)測(cè)數(shù)據(jù)間存在著一定的關(guān)聯(lián)。因此,面對(duì)具有特殊性質(zhì)的海洋監(jiān)測(cè)大數(shù)據(jù),在進(jìn)行布局時(shí)還需要考慮數(shù)據(jù)本身存在的特性。
綜上所述,文獻(xiàn)[19~24]從多角度研究了數(shù)據(jù)布局方法以及云計(jì)算環(huán)境下數(shù)據(jù)管理策略,在通用數(shù)據(jù)上具有顯著的效果,但是對(duì)于海洋監(jiān)測(cè)大數(shù)據(jù)間潛在關(guān)聯(lián)性分析的研究較少,數(shù)據(jù)布局的同時(shí)易丟失海洋監(jiān)測(cè)大數(shù)據(jù)原有的特色。針對(duì)此問(wèn)題,本文將在考慮海洋監(jiān)測(cè)大數(shù)據(jù)自身特點(diǎn)的基礎(chǔ)上,綜合考慮監(jiān)測(cè)任務(wù)、監(jiān)測(cè)點(diǎn)和監(jiān)測(cè)數(shù)據(jù)三者之間的關(guān)聯(lián)度,研究云計(jì)算環(huán)境下更加適合于海洋監(jiān)測(cè)大數(shù)據(jù)的布局策略。
本文主要研究云計(jì)算環(huán)境下的海洋監(jiān)測(cè)大數(shù)據(jù)布局問(wèn)題。云計(jì)算環(huán)境由多個(gè)分布式數(shù)據(jù)中心組成,每一個(gè)數(shù)據(jù)按照合理的數(shù)據(jù)布局策略[25~28]存儲(chǔ)在數(shù)據(jù)中心內(nèi),每一個(gè)監(jiān)測(cè)任務(wù)按照用戶(hù)需求調(diào)用所需的數(shù)據(jù)。云計(jì)算環(huán)境下的數(shù)據(jù)存儲(chǔ)、海洋監(jiān)測(cè)數(shù)據(jù)和監(jiān)測(cè)任務(wù)之間的關(guān)聯(lián)如圖1所示。
Figure 1 Dependency map of data storage,marine monitoring data and applications圖1 數(shù)據(jù)存儲(chǔ)、海洋監(jiān)測(cè)數(shù)據(jù)和監(jiān)測(cè)任務(wù)之間的關(guān)聯(lián)圖
定義1(云計(jì)算環(huán)境) 云計(jì)算環(huán)境由多個(gè)分布式數(shù)據(jù)中心組成,數(shù)據(jù)中心集表示為DC,每個(gè)數(shù)據(jù)中心dci∈DC,可表示為一個(gè)三元組〈IDdc,λ,f〉。其中,IDdc是數(shù)據(jù)中心的標(biāo)識(shí)符;λ是存儲(chǔ)數(shù)據(jù)時(shí)數(shù)據(jù)中心的使用百分比,它是數(shù)據(jù)中心負(fù)載的一個(gè)閾值,用于保證各個(gè)數(shù)據(jù)中心負(fù)載均衡;f是數(shù)據(jù)中心的個(gè)數(shù)。
定義2(海洋監(jiān)測(cè)數(shù)據(jù)集) 海洋監(jiān)測(cè)數(shù)據(jù)集表示為D,每個(gè)數(shù)據(jù)di∈D,可表示為一個(gè)四元組〈IDd,si,pi,ui〉。其中,IDd表 示 海 洋 監(jiān) 測(cè) 數(shù) 據(jù) 的標(biāo)識(shí)符,si表示海洋監(jiān)測(cè)數(shù)據(jù)的大小,pi表示海洋監(jiān)測(cè)數(shù)據(jù)di所屬的監(jiān)測(cè)點(diǎn),ui表示海洋監(jiān)測(cè)數(shù)據(jù)的屬性。
定義3(監(jiān)測(cè)任務(wù)集) 監(jiān)測(cè)任務(wù)集表示為T(mén),每個(gè)監(jiān)測(cè)任務(wù)ti∈T,可表示為一個(gè)三元組〈IDt,pi,A〉。其中,A表示監(jiān)測(cè)任務(wù)ti在監(jiān)測(cè)點(diǎn)pi處所監(jiān)測(cè)的屬性集。
為了實(shí)現(xiàn)同一數(shù)據(jù)中心內(nèi)的每個(gè)數(shù)據(jù)之間具有較高的關(guān)聯(lián)度,不僅需要考慮數(shù)據(jù)中心存儲(chǔ)容量λ的值,還需要考慮監(jiān)測(cè)點(diǎn)間和監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)度。對(duì)于這兩個(gè)標(biāo)準(zhǔn),本文優(yōu)先考慮海洋監(jiān)測(cè)點(diǎn)間和監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)度。首先,通過(guò)分析云計(jì)算環(huán)境下海洋監(jiān)測(cè)過(guò)程中監(jiān)測(cè)任務(wù)、監(jiān)測(cè)點(diǎn)和監(jiān)測(cè)數(shù)據(jù)之間的關(guān)聯(lián),得出監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)矩陣、監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)矩陣、監(jiān)測(cè)數(shù)據(jù)全局關(guān)聯(lián)矩陣;然后,運(yùn)用鍵能算法BEA(Bond Energy Algorithm)[29]將關(guān)聯(lián)矩陣轉(zhuǎn)換為聚類(lèi)矩陣;最后,通過(guò)非重疊劃分算法[30]對(duì)聚類(lèi)后的矩陣進(jìn)行劃分,形成N類(lèi)子數(shù)據(jù)集,使得每類(lèi)子數(shù)據(jù)集中各個(gè)數(shù)據(jù)間具有較高的關(guān)聯(lián)度,并根據(jù)數(shù)據(jù)中心的存儲(chǔ)容量進(jìn)行布局。
4.1.1 監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)度
研究人員在執(zhí)行海洋數(shù)據(jù)監(jiān)測(cè)任務(wù)前,首先需要確定監(jiān)測(cè)點(diǎn)的信息,然后對(duì)監(jiān)測(cè)點(diǎn)進(jìn)行數(shù)據(jù)采集。在對(duì)數(shù)據(jù)布局時(shí),如果僅以單一監(jiān)測(cè)點(diǎn)數(shù)據(jù)為基準(zhǔn)進(jìn)行布局,將會(huì)忽略監(jiān)測(cè)點(diǎn)之間存在的潛在相關(guān)性,使得有關(guān)聯(lián)的幾個(gè)監(jiān)測(cè)點(diǎn)本應(yīng)存儲(chǔ)在同一數(shù)據(jù)中心,卻被存儲(chǔ)到不同的數(shù)據(jù)中心內(nèi),導(dǎo)致用戶(hù)在執(zhí)行某項(xiàng)監(jiān)測(cè)任務(wù)時(shí)需要訪問(wèn)多個(gè)數(shù)據(jù)中心,造成不必要的時(shí)間消耗。因此,本文通過(guò)分析監(jiān)測(cè)任務(wù)與監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)度,計(jì)算同時(shí)應(yīng)用兩個(gè)監(jiān)測(cè)點(diǎn)的監(jiān)測(cè)任務(wù)個(gè)數(shù),構(gòu)建兩監(jiān)測(cè)點(diǎn)之間的關(guān)聯(lián)矩陣。當(dāng)某些監(jiān)測(cè)點(diǎn)常常被多個(gè)監(jiān)測(cè)任務(wù)同時(shí)應(yīng)用時(shí),便把他們歸為一類(lèi)。
被歸為一類(lèi)的監(jiān)測(cè)點(diǎn)可以同屬某單一領(lǐng)域,也可屬于不同領(lǐng)域,例如監(jiān)測(cè)區(qū)1內(nèi)的監(jiān)測(cè)點(diǎn)都屬于物理海洋領(lǐng)域,而監(jiān)測(cè)區(qū)2內(nèi)的監(jiān)測(cè)點(diǎn)既有屬于物理海洋領(lǐng)域的監(jiān)測(cè)點(diǎn),又有屬于生物生態(tài)領(lǐng)域的監(jiān)測(cè)點(diǎn),雖然含有不同領(lǐng)域的監(jiān)測(cè)點(diǎn),但是他們之間有著潛在的、隱藏的內(nèi)在聯(lián)系。
定義4(監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)度) 設(shè)Tpi表示對(duì)監(jiān)測(cè)點(diǎn)pi進(jìn)行監(jiān)測(cè)的監(jiān)測(cè)任務(wù);Tpj表示對(duì)監(jiān)測(cè)點(diǎn)pj進(jìn)行監(jiān)測(cè)的監(jiān)測(cè)任務(wù);i,j=1,2,…,n;n表示監(jiān)測(cè)點(diǎn)的個(gè)數(shù)。兩點(diǎn)間的關(guān)聯(lián)度由同時(shí)在監(jiān)測(cè)點(diǎn)pi和pj進(jìn)行監(jiān)測(cè)的任務(wù)個(gè)數(shù)總和得出,則監(jiān)測(cè)點(diǎn)pi和pj之間的關(guān)聯(lián)度Iij為:
4.1.2 監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)度
各監(jiān)測(cè)點(diǎn)的海洋數(shù)據(jù)屬值繁多,包括經(jīng)度、緯度、溫度、濕度、鹽度、大氣壓、螢光度等,在這些監(jiān)測(cè)數(shù)據(jù)的屬性之間也存在著一定的聯(lián)系,如由物理知識(shí)可知大氣壓值與溫度值有密切的關(guān)聯(lián)。因此,在對(duì)海洋監(jiān)測(cè)大數(shù)據(jù)進(jìn)行布局時(shí),除了考慮監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)度,還需要考慮監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)度。但是,由于不同監(jiān)測(cè)點(diǎn)擁有不同的屬性集,如在p1點(diǎn)監(jiān)測(cè)的數(shù)據(jù)屬性包括u0、u1、u3、u4,而在p2點(diǎn)監(jiān)測(cè)的數(shù)據(jù)屬性包括u1、u3、u5、u6、u7,這使得在以數(shù)據(jù)屬性關(guān)聯(lián)度為基準(zhǔn)進(jìn)行布局時(shí)難以分辨數(shù)據(jù)來(lái)源。因此,在數(shù)據(jù)布局時(shí)將屬性值和監(jiān)測(cè)點(diǎn)進(jìn)行對(duì)應(yīng),構(gòu)建形如的對(duì)應(yīng)監(jiān)測(cè)數(shù)據(jù)(注,簡(jiǎn)稱(chēng)為監(jiān)測(cè)數(shù)據(jù)),表示監(jiān)測(cè)點(diǎn)pi處的第k個(gè)數(shù)據(jù),其中,k=1,2,…,N;N為監(jiān)測(cè)點(diǎn)pi處的數(shù)據(jù)個(gè)數(shù)。對(duì)于每個(gè)監(jiān)測(cè)數(shù)據(jù),通過(guò)計(jì)算同時(shí)應(yīng)用兩個(gè)數(shù)據(jù)的監(jiān)測(cè)任務(wù)個(gè)數(shù)構(gòu)建兩監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)矩陣。
4.1.3 監(jiān)測(cè)數(shù)據(jù)全局關(guān)聯(lián)度
Iij反映了監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)度,Sij反映了監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)度,但是單獨(dú)考慮某一關(guān)聯(lián)度,較難很好地從整體角度反映數(shù)據(jù)之間的緊密程度。例如,在監(jiān)測(cè)過(guò)程中應(yīng)用pr處數(shù)據(jù)di的頻數(shù)為5,應(yīng)用ps處的數(shù)據(jù)dj的頻數(shù)為20,從數(shù)值上可看出dj比di的使用量高,但是對(duì)于監(jiān)測(cè)點(diǎn)pr的任務(wù)個(gè)數(shù)為15,監(jiān)測(cè)點(diǎn)ps的任務(wù)個(gè)數(shù)為100,則在平均頻率上數(shù)據(jù)di較高。因此,需綜合分析數(shù)據(jù)布局中監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)度和監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)度。
定義6(監(jiān)測(cè)數(shù)據(jù)全局關(guān)聯(lián)度) 全局關(guān)聯(lián)度反映了監(jiān)測(cè)數(shù)據(jù)間的整體緊密程度,可由監(jiān)測(cè)數(shù)據(jù)關(guān)聯(lián)度與監(jiān)測(cè)點(diǎn)間關(guān)聯(lián)度的比值得出。此處,由于比值較小不利于計(jì)算,為了便于數(shù)據(jù)處理以及保證程序運(yùn)行時(shí)收斂加快,利用f(·)函數(shù)將其歸一化處理[31],并取不大于其值的最大整數(shù)作為監(jiān)測(cè)數(shù)據(jù)的全局關(guān)聯(lián)度,即:
其中,r對(duì)應(yīng)數(shù)據(jù)di所在的監(jiān)測(cè)點(diǎn),s對(duì)應(yīng)數(shù)據(jù)dj所在的監(jiān)測(cè)點(diǎn)。
4.2.1 關(guān)聯(lián)矩陣的建立
通過(guò)分析監(jiān)測(cè)點(diǎn)、監(jiān)測(cè)任務(wù)和監(jiān)測(cè)數(shù)據(jù)之間的關(guān)聯(lián)(見(jiàn)表1),利用公式(1)~公式(3)得到監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)矩陣I圖、監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)矩陣S圖和全局關(guān)聯(lián)矩陣IS圖(見(jiàn)圖2)。
Table1 Dependency table of monitoring points,monitoring applications and part of the monitoring data表1 監(jiān)測(cè)點(diǎn)、監(jiān)測(cè)任務(wù)和部分監(jiān)測(cè)數(shù)據(jù)之間的關(guān)聯(lián)表
Figure 2 Correlation matrixes圖2 關(guān)聯(lián)矩陣
4.2.2 聚類(lèi)矩陣的建立
將關(guān)聯(lián)矩陣轉(zhuǎn)換為聚類(lèi)矩陣旨在使矩陣中相似的元素聚集在一起,本文利用BEA 算法將關(guān)聯(lián)矩陣轉(zhuǎn)換為聚類(lèi)矩陣。BEA 算法[29]是應(yīng)用于分布式數(shù)據(jù)庫(kù)系統(tǒng)中表的垂直劃分算法,它通過(guò)對(duì)矩陣中的行和列不斷改變和排列,使聚集在一起的元素具有較高的相似性。通過(guò)BEA 算法將得到的三個(gè)矩陣I、S、SI分別做行列變換運(yùn)算,轉(zhuǎn)換后的聚類(lèi)矩陣I′、S′、和SI′如圖3所示。
Figure 3 Converted clustering matrixes圖3 轉(zhuǎn)換后的聚類(lèi)矩陣
4.2.3 海洋監(jiān)測(cè)大數(shù)據(jù)的劃分
為了使劃分后的每類(lèi)子數(shù)據(jù)集中各個(gè)數(shù)據(jù)之間具有較高的關(guān)聯(lián)度,而與其余數(shù)據(jù)集內(nèi)數(shù)據(jù)具有較低的關(guān)聯(lián)度,需對(duì)聚類(lèi)矩陣中的數(shù)據(jù)進(jìn)行劃分。本文利用非重疊劃分算法[30],計(jì)算dp值,如公式(4)所示。當(dāng)dp取最大值時(shí),記錄此時(shí)對(duì)應(yīng)的劃分點(diǎn)h的值,這時(shí)的劃分點(diǎn)h將聚類(lèi)矩陣劃分為兩個(gè)不重疊的數(shù)據(jù)子塊,依次遞歸地劃分直到滿(mǎn)足數(shù)據(jù)中心的存儲(chǔ)容量λ為止。
由圖3可以發(fā)現(xiàn),根據(jù)非重疊劃分算法,聚類(lèi)矩陣被劃分為三個(gè)數(shù)據(jù)塊,數(shù)據(jù)塊1由監(jiān)測(cè)點(diǎn)p1組成,數(shù)據(jù)塊2由監(jiān)測(cè)點(diǎn)p3和p6組成,數(shù)據(jù)塊3由監(jiān)測(cè)點(diǎn)p2、p4、p5和p7組成。
云計(jì)算環(huán)境下基于監(jiān)測(cè)數(shù)據(jù)關(guān)聯(lián)度的海洋大數(shù)據(jù)布局過(guò)程描述如下:
輸入:監(jiān)測(cè)任務(wù)、監(jiān)測(cè)點(diǎn)、海洋監(jiān)測(cè)大數(shù)據(jù);
輸出:海洋監(jiān)測(cè)大數(shù)據(jù)的布局方案。
主要步驟:
步驟1 初始化云計(jì)算環(huán)境下的數(shù)據(jù)中心個(gè)數(shù)f、存儲(chǔ)容量λ;
步驟2 根據(jù)公式(1)~公式(3)計(jì)算數(shù)據(jù)集內(nèi)各監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)度、監(jiān)測(cè)數(shù)據(jù)的關(guān)聯(lián)度和監(jiān)測(cè)數(shù)據(jù)全局關(guān)聯(lián)度;
步驟3 構(gòu)建關(guān)聯(lián)矩陣I、S和監(jiān)測(cè)數(shù)據(jù)全局關(guān)聯(lián)矩陣SI;
步驟4 通過(guò)BEA 算法使得矩陣中的相似項(xiàng)聚集在一起,形成聚類(lèi)矩陣I′、S′和SI′;
步驟5 以各類(lèi)數(shù)據(jù)中心間關(guān)聯(lián)度低、數(shù)據(jù)中心內(nèi)數(shù)據(jù)關(guān)聯(lián)度高為標(biāo)準(zhǔn),利用非重疊劃分算法劃分聚類(lèi)矩陣,將具有較高關(guān)聯(lián)度的數(shù)據(jù)劃分為一類(lèi)子數(shù)據(jù)集;
步驟6 判斷劃分后各子數(shù)據(jù)集合的容量是否滿(mǎn)足數(shù)據(jù)中心的存儲(chǔ)容量λ。如果滿(mǎn)足,則將該子數(shù)據(jù)集分配到相應(yīng)的數(shù)據(jù)中心,否則,轉(zhuǎn)到步驟5。
步驟7 根據(jù)步驟6,輸出海洋監(jiān)測(cè)大數(shù)據(jù)的布局方案。
仿真實(shí)驗(yàn)平臺(tái)配置為酷睿四核處理器,2.8GHz,6GB內(nèi)存,采用開(kāi)源的Openstack云計(jì)算管理平臺(tái),在云計(jì)算環(huán)境下對(duì)海洋監(jiān)測(cè)大數(shù)據(jù)布局。經(jīng)過(guò)調(diào)研得知,某國(guó)家海洋局某監(jiān)測(cè)中心有監(jiān)測(cè)點(diǎn)8個(gè),每個(gè)監(jiān)測(cè)點(diǎn)有7~10個(gè)監(jiān)測(cè)數(shù)據(jù)屬性,選用相關(guān)的600個(gè)監(jiān)測(cè)任務(wù)作為實(shí)驗(yàn)數(shù)據(jù)集,如表2所示。實(shí)驗(yàn)選用五折交叉驗(yàn)證法,隨機(jī)選擇80%的數(shù)據(jù)集作為訓(xùn)練集,剩余作為測(cè)試集,通過(guò)數(shù)據(jù)傳輸速度、用戶(hù)訪問(wèn)數(shù)據(jù)的響應(yīng)時(shí)間和算法運(yùn)行時(shí)間來(lái)評(píng)估算法的執(zhí)行效率。
Table 2 Part of the monitoring missions supplied by a monitoring center表2 監(jiān)測(cè)中心提供的部分監(jiān)測(cè)任務(wù)列表
為了說(shuō)明本文提出的策略能有效地減少數(shù)據(jù)傳輸次數(shù),實(shí)驗(yàn)將其與數(shù)據(jù)隨機(jī)布局策略(簡(jiǎn)稱(chēng)Random 策略)進(jìn)行比較。其中,IRM 表示以監(jiān)測(cè)點(diǎn)間關(guān)聯(lián)度為標(biāo)準(zhǔn)時(shí)的布局策略,DRM 表示以監(jiān)測(cè)點(diǎn)數(shù)據(jù)間關(guān)聯(lián)度為標(biāo)準(zhǔn)時(shí)的布局方策略,MRM表示以監(jiān)測(cè)數(shù)據(jù)全局關(guān)聯(lián)度為標(biāo)準(zhǔn)時(shí)的布局策略。
如圖4所示,隨著數(shù)據(jù)集數(shù)量的增加,對(duì)應(yīng)的跨數(shù)據(jù)中心數(shù)據(jù)傳輸次數(shù)呈明顯上升趨勢(shì),然而,由于本文提出的IRM、DRM 和MRM 策略根據(jù)監(jiān)測(cè)點(diǎn)和監(jiān)測(cè)數(shù)據(jù)間的關(guān)系將相關(guān)度大的數(shù)據(jù)集放置到同一數(shù)據(jù)中心,在一定程度上降低了數(shù)據(jù)傳輸次數(shù),因此IRM、DRM 和MRM 在數(shù)據(jù)傳輸次數(shù)上明顯少于Random 策略,且具有一定穩(wěn)定性。
圖5反映了每50個(gè)監(jiān)測(cè)任務(wù)的響應(yīng)時(shí)間對(duì)比圖。從圖5中可看出,MRM 策略在響應(yīng)時(shí)間方面優(yōu)于其他方法。其中,Random 方法的響應(yīng)時(shí)間最長(zhǎng),原因在于對(duì)數(shù)據(jù)布局是該方法忽略了海洋數(shù)據(jù)的特點(diǎn),降低了響應(yīng)效率。IRM 和DRM 的響應(yīng)時(shí)間相近,而MRM 具有明顯的優(yōu)勢(shì),較IRM 和DRM,MRM 布局策略能夠較快速地響應(yīng)監(jiān)測(cè)任務(wù),具備高效數(shù)據(jù)布局的特點(diǎn)。當(dāng)監(jiān)測(cè)任務(wù)量提升時(shí),效果尤為顯著。
Figure 4 Comparison chart of data’s transfer numbers圖4 數(shù)據(jù)傳輸次數(shù)對(duì)比圖
Figure 5 Comparison chart of data’s response time圖5 數(shù)據(jù)響應(yīng)時(shí)間對(duì)比圖
雖然MRM 在圖5中響應(yīng)時(shí)間最短,但由圖6可以明顯看出,隨著數(shù)據(jù)集個(gè)數(shù)的增加,四種算法的運(yùn)行時(shí)間有明顯的變化,本文提出的三種策略在運(yùn)行時(shí)間方面明顯優(yōu)于Random 策略。其中,IRM的計(jì)算量相對(duì)較少,尤其是當(dāng)數(shù)據(jù)集超過(guò)50的時(shí)候,IRM 算法運(yùn)行時(shí)間最短,具有快速數(shù)據(jù)布局的特點(diǎn),雖然DRM 的計(jì)算量較大,但算法的運(yùn)行時(shí)間與其他策略相差不大,仍可接受。
為了進(jìn)一步分析本文提出的方法在各類(lèi)型海洋數(shù)據(jù)上的布局效果,將數(shù)據(jù)集分為六個(gè)類(lèi)別進(jìn)行數(shù)據(jù)響應(yīng)時(shí)間對(duì)比,分別是:大氣化學(xué)、海洋氣象、走航皮溫、海表溫鹽、海洋營(yíng)養(yǎng)鹽和海水葉綠素。從圖7中可以發(fā)現(xiàn),對(duì)于大氣化學(xué)類(lèi)別,響應(yīng)時(shí)間相差不大,基本保持一致。但是,對(duì)于海洋氣象、走航皮溫、海表溫鹽、海洋營(yíng)養(yǎng)鹽和海水葉綠素,Random 方 法 的 響 應(yīng) 時(shí) 間 最 長(zhǎng),IRM 和DRM 的 響應(yīng)時(shí)間相近,而MRM 具有明顯的優(yōu)勢(shì),較IRM 和DRM,MRM 布局策略能夠較快速地響應(yīng)監(jiān)測(cè)任務(wù),具備高效數(shù)據(jù)布局的特點(diǎn)。原因在于:海洋監(jiān)測(cè)數(shù)據(jù)不同于一般數(shù)據(jù),有其自身的特點(diǎn),Random方法忽略了數(shù)據(jù)之間的關(guān)聯(lián)性。由此可見(jiàn),面對(duì)真實(shí)的海洋大數(shù)據(jù),本文方法在布局時(shí)具備較強(qiáng)的泛化能力和高可擴(kuò)展性。
Figure 6 Comparison chart of running time圖6 運(yùn)行時(shí)間對(duì)比圖
Figure 7 Comparison chart of data’s response time for different categories of marine data圖7 不同類(lèi)型的海洋數(shù)據(jù)響應(yīng)時(shí)間對(duì)比圖
因此,對(duì)于海洋監(jiān)測(cè)大數(shù)據(jù)的布局,當(dāng)用戶(hù)需要快速運(yùn)行算法時(shí),可采用快速布局策略IRM;當(dāng)數(shù)據(jù)存儲(chǔ)容量充足時(shí),可考慮快速布局策略IRM和高效布局策略MRM。而數(shù)據(jù)容量有限時(shí),由于IRM 得到的子數(shù)據(jù)集容量較大,無(wú)法很好地滿(mǎn)足數(shù)據(jù)中心的容量限制,可使用高效布局策略MRM。
大數(shù)據(jù)技術(shù)的發(fā)展為海洋信息化開(kāi)辟了新的研究途徑與產(chǎn)業(yè)化的新思路。本文提出了一種云計(jì)算環(huán)境下基于監(jiān)測(cè)數(shù)據(jù)關(guān)聯(lián)度的海洋大數(shù)據(jù)布局策略,取得了較滿(mǎn)意的實(shí)驗(yàn)結(jié)果。本文主要貢獻(xiàn)有:
(1)針對(duì)海洋監(jiān)測(cè)大數(shù)據(jù)具有海量、異構(gòu)、強(qiáng)數(shù)據(jù)關(guān)聯(lián)的特點(diǎn),以及在監(jiān)測(cè)過(guò)程中,監(jiān)測(cè)數(shù)據(jù)呈分散性的情況,采用云環(huán)境下的分布式存儲(chǔ)模式對(duì)海洋監(jiān)測(cè)大數(shù)據(jù)進(jìn)行布局,充分利用云計(jì)算超大規(guī)模、高可擴(kuò)展性等特點(diǎn)滿(mǎn)足海洋監(jiān)測(cè)大數(shù)據(jù)的存儲(chǔ)管理要求。
(2)綜合考慮了監(jiān)測(cè)任務(wù)、監(jiān)測(cè)點(diǎn)和監(jiān)測(cè)數(shù)據(jù)之間的關(guān)聯(lián)度,從海洋監(jiān)測(cè)點(diǎn)間的關(guān)聯(lián)度、監(jiān)測(cè)數(shù)據(jù)間的關(guān)聯(lián)度和監(jiān)測(cè)數(shù)據(jù)全局關(guān)聯(lián)度三個(gè)角度對(duì)海洋監(jiān)測(cè)大數(shù)據(jù)進(jìn)行布局,在數(shù)據(jù)中心存儲(chǔ)均衡的情況下,很大程度上降低了用戶(hù)訪問(wèn)海洋監(jiān)測(cè)大數(shù)據(jù)的響應(yīng)時(shí)間。
然而,在布局過(guò)程中數(shù)據(jù)副本的延時(shí)響應(yīng)問(wèn)題呈現(xiàn)逐步上升的趨勢(shì),下一步工作將進(jìn)一步探索云計(jì)算環(huán)境下布局海洋監(jiān)測(cè)大數(shù)據(jù)時(shí)的數(shù)據(jù)副本布局技術(shù)。
[1] Petes L,Diamond J,F(xiàn)isher B,et al.Ocean management challenges,adaptation approaches,and opportunities in a changing climate[M]∥Oceans and Marine Resources in a Changing Climate.Washington:Island Press/Center for Resource Economics,2013:140-155.
[2] Park K,Lee D H,Woo Y,et al.Reliability and performance enhancement technique for SSD array storage system using RAID mechanism[C]∥Proc of the 9th International Symposium on Communications and Information Technology,2009:140-145.
[3] Caron S,Giroire F,Mazauric D,et al.P2Pstorage systems:Study of different placement policies[J].Peer-to-Peer Networking and Applications,2014,7(4):427-443.
[4] Herlihy D R,Matula S P,Andreasen C.Swath mapping data management within the national iceanic and atmospheric administration[J].The International Hydrographic Review,2015,65(2):1.
[5] Kameda H,Li J,Kim C,et al.Optimal load balancing in distributed computer systems[M].Incorporated:Springer Publishing Company,2011.
[6] Song Jie,Li Tian-tian,Yan Zhen-xing,et al.Load-balanced data layout approach in data-intensive computing[J].Journal of Beijing University of Posts and Telecommunications,2013,36(4):76-80.(in Chinese)
[7] Zhang Tian-tian,Cui Li-zhen.A data placement strategy based on relaxation and reconstruction for scientific workflow applications[J].Journal of Computer Research and Development,2013,50(suppl):71-76.(in Chinese)
[8] Chen Tao,Xiao Nong,Liu Fang,et al.Clustering-based and consistent Hashing-aware data placement algorithm [J].Journal of Software,2010,21(12):3175-3185.(in Chinese)
[9] Liu Jing-yu,Zheng Jun,Li Yuan-zhang,et al.Hybrid SRAID:An energy-efficient data layout for sequential data storage[J].Journal of Computer Research and Development,2013,50(1):37-48.(in Chinese)
[10] Yao W,Lu L.A selection algorithm of service providers for optimized data placement in multi-cloud storage environment[M]∥Intelligent Computation in Big Data Era.Berlin:Springer Berlin Heidelberg,2015:81-92.
[11] Calder B,Wang J,Ogus A,et al.Windows azure storage:A highly available cloud storage service with strong consistency[C]∥Proc of the 23rd ACM Symposium on Operating Systems Principles,2011:143-157.
[12] Maia G,Guidoni D L,Viana A C,et al.A distributed data storage protocol for heterogeneous wireless sensor networks with mobile sinks[J].Ad Hoc Networks,2013,11(5):1588-1602.
[13] Yan Lin,Xing Jing,Huo Zhi-gang,et al.A survey on storage architectures and core algorithms for big data management on new storages[J].Computer Engineering & Science,2013,35(5):20-27.(in Chinese)
[14] Wang Yi-jie,Sun Wei-dong,Zhong Song,et al.Key technologies of distributed storage for cloud computing[J].Journal of Software,2012,23(4):962-986.(in Chinese)
[15] Zheng Pai,Cui Li-zhen,Wang Hai-yang,et al.A data placement strategy for data-intensive applications in cloud[J].Chinese Journal of Computers,2010,33(8):1472-1480.(in Chinese)
[16] Ma Fei.Data placement strategy research for scientific workflow in hybrid cloud computing[D].Hefei:Anhui University,2014.(in Chinese)
[17] Zhang Peng,Wang Gui-ling,Xu Xue-h(huán)ui.A data placement approach for workflow in cloud[J].Journal of Computer Research and Development,2013,50(3):636-647.(in Chinese)
[18] Xie Peng-fei,Sui Wei-na,Tao Guan-feng,et al.Cloud computing in the marine environment monitoring[J].Marine Environmental Science,2013,32(4):576-580.(in Chinese)
[19] Majeti D,Barik R,Zhao J,et al.Compiler-driven data layout transformation for heterogeneous platforms[C]∥Proc of Euro-Par 2013:Parallel Processing Workshops,2014:188-197.
[20] Wildani A,Miller E L,Adams I F,et al.PERSES:Data layout for low impact failures[C]∥Proc of 2014IEEE 22nd International Symposium on Modelling,Analysis &Simulation of Computer and Telecommunication Systems (MASCOTS),2014:71-80.
[21] Zhao Wei,Zhuo Wei,Li Zhan-bo,et al.A novel data exchange architecture based on cloud computing[J].Computer Engineering &Science,2013,35(8):15-19.(in Chinese)
[22] Wei L,Zhu H,Cao Z,et al.Security and privacy for storage and computation in cloud computing[J].Information Sciences,2014,258(10):371-386.
[23] Heath M A,Coker K T,Viraraghavan P.Data storage device overlapping host data transfer for a write command with inter-command delay:U.S.Patent 8,631,188[P].2014-01-14.
[24] Liu C,Chen J,Yang L T,et al.Authorized public auditing of dynamic big data storage on cloud with efficient verifiable fine-grained updates[J].IEEE Transactions on Parallel and Distributed Systems,2014,25(9):2234-2244.
[25] Jenkins J,Zou X,Tang H,et al.RADAR:Runtime asymmetric data-access driven scientific data replication[C]∥Proc of the 28th International Supercomputing Conference,ISG’14,2014:296-313.
[26] Yang K,Jia X.An efficient and secure dynamic auditing protocol for data storage in cloud computing[J].IEEE Transactions on Parallel and Distributed Systems,2013,24(9):1717-1726.
[27] Barsoum A F,Hasan A.Enabling dynamic data and indirect mutual trust for cloud computing storage systems[J].IEEE Transactions on Parallel and Distributed Systems,2013,24(12):2375-2385.
[28] Anjos J C S,Carrera I,Kolberg W,et al.MRA++:Scheduling and data placement on MapReduce for heterogeneous environments[J].Future Generation Computer Systems,2015,42:22-35.
[29] McCormick Jr W T,Schweitzer P J,White T W.Problem decomposition and data reorganization by a clustering technique[J].Operations Research,1972,20(5):993-1009.
[30] Song H,Yin Y,Sun X H,et al.A segment-level adaptive data layout scheme for improved load balance in parallel file systems[C]∥Proc of the 2011 11th IEEE/ACM International Symposium on Cluster,Cloud and Grid Computing,2011:414-423.
[31] Sun X,Shi L,Luo Y,et al.Histogram-based normalization technique on human brain magnetic resonance images from different acquisitions[J].Biomedical Engineering Online,2015,14(1):73.
附中文參考文獻(xiàn):
[6] 宋杰,李甜甜,閆振興,等.數(shù)據(jù)密集型計(jì)算中負(fù)載均衡的數(shù)據(jù)布局方法[J].北京郵電大學(xué)學(xué)報(bào),2013,36(4):76-80.
[7] 張?zhí)鹛?,崔立?基于釋放和重構(gòu)的科學(xué)工作流數(shù)據(jù)布局策略[J].計(jì)算機(jī)研究與發(fā)展,2013,50(suppl):71-76.
[8] 陳濤,肖儂,劉芳,等.基于聚類(lèi)和一致Hash 的數(shù)據(jù)布局算法[J].軟件學(xué)報(bào),2010,21(12):3175-3185.
[9] 劉靖宇,鄭軍,李元章,等.混合S-RAID:一種適于連續(xù)數(shù)據(jù)存儲(chǔ)的節(jié)能數(shù)據(jù)布局[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):37-48.
[13] 嚴(yán)林,邢晶,霍志剛,等.面向海量數(shù)據(jù)存儲(chǔ)的Erasure-Code分布式文件系統(tǒng)I/O 優(yōu)化方法[J].計(jì)算機(jī)工程與科學(xué),2013,35(5):20-27.
[14] 王意潔,孫偉東,周松,等.云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J].軟件學(xué)報(bào),2012,23(4):962-986.
[15] 鄭湃,崔立真,王海洋,等.云計(jì)算環(huán)境下面向數(shù)據(jù)密集型應(yīng)用的數(shù)據(jù)布局策略與方法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1472-1480.
[16] 馬飛.混合云環(huán)境下科學(xué)工作流數(shù)據(jù)布局研究[D].合肥:安徽大學(xué),2014.
[17] 張鵬,王桂玲,徐學(xué)輝.云計(jì)算環(huán)境下適于工作流的數(shù)據(jù)布局方法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(3):636-647.
[18] 解鵬飛,隋偉娜,陶冠峰,等.云計(jì)算與海洋環(huán)境監(jiān)測(cè)[J].海洋環(huán)境科學(xué),2013,32(4):576-580.
[21] 趙偉,卓偉,李占波,等 基于云計(jì)算的一種新的數(shù)據(jù)交換架構(gòu)[J].計(jì)算機(jī)工程與科學(xué),2013,35(8):15-19.