鄒華
摘 要: 針對(duì)云計(jì)算環(huán)境下大數(shù)據(jù)分布不合理,導(dǎo)致運(yùn)行效率差的問題,提出基于模糊聚類分析的云計(jì)算環(huán)境下大數(shù)據(jù)分布規(guī)律的結(jié)構(gòu)優(yōu)化方法,首先對(duì)特征的觀測(cè)值進(jìn)行規(guī)格化處理,保證每個(gè)特征值的取值均處于[0,1]范圍內(nèi)。其次獲得在[0,1]范圍內(nèi)的相似系數(shù)描述數(shù)據(jù)間的相似度,通過相似矩陣獲得云計(jì)算環(huán)境下大數(shù)據(jù)集上的模糊五階相似矩陣。引入最短距離法,將其和相似矩陣融合,共同實(shí)現(xiàn)數(shù)據(jù)聚類,完成大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)的優(yōu)化設(shè)計(jì)。仿真實(shí)驗(yàn)結(jié)果表明,所提方法使得數(shù)據(jù)分布更合理,而且運(yùn)行效率和穩(wěn)定性均較高。
關(guān)鍵詞: 云計(jì)算; 大數(shù)據(jù); 分布規(guī)律; 相似矩陣
中圖分類號(hào): TN911?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)08?0018?03
Optimization design for structure of big data distribution regularity
in cloud computing environment
ZOU Hua
(Information Engineering College, TongRen University, Tongren 554300, China)
Abstract: Aiming at the poor operating efficiency caused by the unreasonable distribution of big data in cloud computing environment, a structure optimization method of big data distribution regularities in cloud computing environment, which based on the fuzzy cluster analysis, is proposed. Firstly, a normalization treatment for the observed values of the features is performed to ensure that the values are all controlled in the range of [0,1]. And then the similarity factor in the range of [0,1] is acquired to describe the similarity between the data, and the fuzzy five?order similar matrix on big data set in cloud computing environment is obtained according to the similar matrix. The single linkage method is used to integrate with the similarity matrix to achieve data clustering, and realize the optimization design of large data distribution structure. The simulation results show that this method not only can make the data distribution reasonable, but also has advantages of high operating efficiency and high stability.
Keywords: cloud computing; big data; distribution law; similar matrix
隨著計(jì)算機(jī)科技技術(shù)的逐漸發(fā)展,所涉及的數(shù)據(jù)量越來越大,人們對(duì)云計(jì)算環(huán)境安全性的要求也越來越高[1?2]。如何在不增加成本的情況下,提高整個(gè)系統(tǒng)的安全性和數(shù)據(jù)分布的合理性已成為相關(guān)學(xué)者研究的重點(diǎn)課題,受到了越來越廣泛的關(guān)注[3?5]。目前,研究云計(jì)算環(huán)境下大數(shù)據(jù)分布規(guī)律的結(jié)構(gòu)優(yōu)化設(shè)計(jì)方法有很多,主要包括模糊聚類方法、詳細(xì)度量方法和最小二乘法等,相關(guān)研究也取得了一定的成果。其中,文獻(xiàn)[6]提出基于誤差和曲線分析的云計(jì)算環(huán)境下大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)優(yōu)化設(shè)計(jì)方法,通過誤差分析法和實(shí)測(cè)數(shù)據(jù)直方圖進(jìn)行比較實(shí)現(xiàn)結(jié)構(gòu)優(yōu)化,但該方法存在實(shí)踐過程復(fù)雜的弊端。文獻(xiàn)[7]提出基于非線性最小二乘法的云計(jì)算環(huán)境下大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)優(yōu)化設(shè)計(jì)方法,通過非線性最小二乘擬合法,獲取數(shù)據(jù)的統(tǒng)計(jì)分布規(guī)律,但該方法的計(jì)算結(jié)果精度低,同時(shí)受外界環(huán)境的干擾較大。文獻(xiàn)[8]提出基于線性整數(shù)規(guī)劃的云計(jì)算環(huán)境下大數(shù)據(jù)分布規(guī)律的結(jié)構(gòu)優(yōu)化設(shè)計(jì)方法,通過線性整數(shù)規(guī)劃對(duì)大數(shù)據(jù)的分布規(guī)律進(jìn)行優(yōu)化,但該方法僅限于數(shù)據(jù)無冗余的情況。
1 基于模糊聚類分析的云數(shù)據(jù)分布規(guī)律結(jié)構(gòu)
優(yōu)化設(shè)計(jì)方法
1.1 構(gòu)建[X]上的模糊關(guān)系
在抽取數(shù)據(jù)特征的基礎(chǔ)上,建立其在[X]上的模糊關(guān)系,為大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)優(yōu)化設(shè)計(jì)提供基礎(chǔ)依據(jù)。將相似系數(shù)構(gòu)成的[n]階矩陣稱作相似系數(shù)矩陣,通過該矩陣即可描述[X]上的模糊相似關(guān)系。對(duì)該矩陣的等價(jià)閉包或等價(jià)類進(jìn)行計(jì)算,即可建立待處理數(shù)據(jù)[X]的模糊關(guān)系。依據(jù)本文研究問題的特征環(huán)境,為了獲取相似系數(shù),需使相似系數(shù)滿足自反、對(duì)稱的條件,選擇貼近度法對(duì)相似系數(shù)進(jìn)行計(jì)算。兩個(gè)模糊向量之間接近程度的體現(xiàn)即為貼近度,其滿足自反、對(duì)稱的條件,因此,可通過貼近度對(duì)相似系數(shù)進(jìn)行描述。將[X]中的元素[Xi]和[Xj]看作是各自特征的模糊向量,用貼近度對(duì)相似系數(shù)[rij]進(jìn)行描述,再采用絕對(duì)值減數(shù)法,取當(dāng)[σ]接近海明距離時(shí)的貼近度,[rij]的表達(dá)式為:
[rij=1-cdpXi,Xjα] (1)
式中:[c],[α]用于描述常數(shù);[p]用于描述不同距離的代碼系數(shù)。取論域[X=x1,x2,…,x5],對(duì)其進(jìn)行規(guī)格化處理,取[c=0.1],然后通過式(2)對(duì)相似系數(shù)進(jìn)行計(jì)算,獲取模糊五階相似矩陣:
[R=rij= 1 0.1 0.8 0.5 0.30.1 1 0.1 0.2 0.40.8 0.1 1 0.3 0.10.5 0.2 0.3 1 0.60.3 0.4 0.1 0.6 1] (2)
獲得數(shù)據(jù)特征在[X]上的模糊關(guān)系表達(dá)式后,需要對(duì)模糊五階相似矩陣進(jìn)行劃分,為大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)優(yōu)化設(shè)計(jì)提供依據(jù)。
1.2 大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)優(yōu)化設(shè)計(jì)
在對(duì)其進(jìn)行優(yōu)化設(shè)計(jì)之前,需要用最短距離法對(duì)類和類之間的距離進(jìn)行計(jì)算,也就是用[dij]([i,j=1,2,…,n])描述樣本[i]與[j]之間的距離,則有:
[dij=k=1pxik-xjk] (3)
如果用[G1,G2,…]描述類,則第[k]類[Gk]和第[r]類[Gr]之間的距離為:
[Dkr=mindij:i∈Gk,j∈Gr] (4)
在獲得最短距離的情況下,采用最短距離對(duì)云計(jì)算環(huán)境下大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)進(jìn)行優(yōu)化設(shè)計(jì),其詳細(xì)過程如下:
(1) 假設(shè)樣本之間的距離為[dij]([i,j=1,2,…,n]),依據(jù)[dij]獲取距離矩陣[D0]。由于開始時(shí)所有樣本均自成一類,所以[Dkr=dkr];
(2) 找出[D0]中的最小元素[Gk]與[Gr],將[Gk]與[Gr]合并成一個(gè)新類[Gp=Gk,Gr];
(3) 對(duì)新類與其他類的距離進(jìn)行計(jì)算,假設(shè)類[Gp]和[Gq]之間的距離為:
[Dpq=mindij:i∈Gp,j∈Gq =minmindij:i∈Gk,j∈Gq,mindij:i∈Gr,j∈Gq =minDkq,Drq]
將[D0]中的第[k]行和第[r]行、第[k]列和第[r]列,通過式(5)合并為一個(gè)新行新列,獲取的新矩陣用[D1]進(jìn)行描述;
(4) 對(duì)[D1]重復(fù)上述對(duì)[D0]的兩個(gè)步驟以獲取[D2],以此類推,直至剩下[k]類為止。
若某一步中最小元素多于一個(gè),則和上述最小元素相應(yīng)的類可以同時(shí)合并。
通過上述分析對(duì)云計(jì)算環(huán)境下大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)進(jìn)行優(yōu)化設(shè)計(jì),決定哪些數(shù)據(jù)需進(jìn)行調(diào)整,哪些數(shù)據(jù)需進(jìn)行轉(zhuǎn)移,使云計(jì)算環(huán)境下大數(shù)據(jù)的分布通過不斷地動(dòng)態(tài)調(diào)整,能始終處于最佳位置。
2 仿真實(shí)驗(yàn)分析
為了驗(yàn)證本文提出的基于模糊聚類的云計(jì)算環(huán)境下大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)優(yōu)化設(shè)計(jì)方法的有效性,需要進(jìn)行相關(guān)的實(shí)驗(yàn)分析。兩種方法分別進(jìn)行10次實(shí)驗(yàn),取其平均訪問代價(jià)作為結(jié)果。在對(duì)兩種方法進(jìn)行評(píng)價(jià)的過程中,本文將相對(duì)訪問成本作為衡量的標(biāo)準(zhǔn),相對(duì)訪問成本可描述成實(shí)際訪問成本與基本訪問成本的商,其和云計(jì)算環(huán)境下的拓?fù)浣Y(jié)構(gòu)無關(guān)。
隨著代理存儲(chǔ)容量的增加,采用本文方法和最小二乘法進(jìn)行大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)優(yōu)化設(shè)計(jì)后的相對(duì)訪問成本比較結(jié)果,如圖1所示。圖1(a)和圖l(b)分別描述的是總預(yù)算,是全部候選代理費(fèi)用的10%和20%的情況。
分析圖1可以看出,隨著存儲(chǔ)容量的逐漸升高,本文方法的相對(duì)成本一直低于最小二乘法,當(dāng)總預(yù)算從全部候選代理費(fèi)用的10%增長(zhǎng)至20%時(shí),本文方法和最小二乘法的相對(duì)成本均在一定程度上有所增加,但本文方法的增加幅度明顯低于最小二乘法,說明本文方法的性能優(yōu)于最小二乘法,驗(yàn)證了本文方法的有效性。
在各代理容量一定的情況下,云計(jì)算環(huán)境下預(yù)算費(fèi)用逐漸增加時(shí),本文方法和最小二乘方法相對(duì)成本的變化趨勢(shì),如圖2所示。圖2(a)描述的是代理容量大小是全部對(duì)象的50%的情況,圖2(b)描述的是代理容量大小是全部對(duì)象的70%的情況。
分析圖2可以看出,本文方法的性能明顯優(yōu)于最小二乘方法,在各代理容量或總預(yù)算較低時(shí),本文方法的相對(duì)成本均低于最小二乘方法,當(dāng)代理容量大小從50%到70%時(shí),本文方法的相對(duì)成本基本沒有發(fā)生改變,說明本文方法基本不受代理容量的影響,驗(yàn)證了本文方法的有效性。
3 結(jié) 論
本文提出基于模糊聚類分析的云計(jì)算環(huán)境下大數(shù)據(jù)分布規(guī)律的結(jié)構(gòu)優(yōu)化方法,對(duì)特征的觀測(cè)值進(jìn)行規(guī)格化處理,保證每個(gè)特征值的取值均處于[0,1]范圍內(nèi),使數(shù)據(jù)特征只含有相對(duì)意。用[0,1]范圍內(nèi)的相似系數(shù)描述數(shù)據(jù)間的相似度,通過相似矩陣描述云計(jì)算環(huán)境下大數(shù)據(jù)集上的模糊相似關(guān)系。采用貼進(jìn)度法運(yùn)算相似矩陣的等價(jià)閉包或等價(jià)類。引入最短距離法,將其和相似矩陣融合,共同實(shí)現(xiàn)數(shù)據(jù)聚類,完成大數(shù)據(jù)分布規(guī)律結(jié)構(gòu)的優(yōu)化設(shè)計(jì),使云計(jì)算環(huán)境下大數(shù)據(jù)的分布,通過不斷地動(dòng)態(tài)調(diào)整,可始終處于最佳位置。仿真實(shí)驗(yàn)結(jié)果表明,所提方法不僅相對(duì)成本較低,而且運(yùn)行效率和穩(wěn)定性均較高。
參考文獻(xiàn)
[1] 周本海.淺談云計(jì)算環(huán)境下大數(shù)據(jù)對(duì)電子商務(wù)的影響[J].經(jīng)濟(jì)研究導(dǎo)刊,2015(7):201?202.
[2] 王嘉,陳超.云計(jì)算環(huán)境下大規(guī)模數(shù)據(jù)處理的研究[J].中國(guó)電子商務(wù),2013(9):42.
[3] 徐敏,徐勇.基于單一屬性分布的數(shù)據(jù)質(zhì)量評(píng)估模型[J].統(tǒng)計(jì)與決策,2013(11):4?8.
[4] 申倩,許美玉,姜春茂.云計(jì)算環(huán)境下任務(wù)調(diào)度研究綜述[J].智能計(jì)算機(jī)與應(yīng)用,2014,4(6):75?77.
[5] 張千,梁鴻,郉永山.云計(jì)算環(huán)境下基于模糊聚類的并行調(diào)度策略研究[J].計(jì)算機(jī)科學(xué),2014,41(8):75?80.
[6] 陳鵬,劉爽,左莉,等.基于數(shù)據(jù)分布規(guī)律的分段組合支持向量機(jī)研究[J].微電子學(xué)與計(jì)算機(jī),2015,32(3):94?99.
[7] 李鵬飛,趙勇,張頂立,等.基于現(xiàn)場(chǎng)實(shí)測(cè)數(shù)據(jù)統(tǒng)計(jì)的隧道圍巖壓力分布規(guī)律研究[J].巖石力學(xué)與工程學(xué)報(bào),2013(7):1392?1399.
[8] 溫創(chuàng)新,邱一凡,孫軍.基于大數(shù)據(jù)和泊松分布的配件預(yù)測(cè)模型分析與建模[J].計(jì)算機(jī)與數(shù)字工程,2014,42(8):1412?1414.