試論基于模糊聚類算法的資源整合

2012-04-29 00:44:03程志偉

電腦知識與技術(shù) 2012年33期

關(guān)鍵詞：模糊聚類

程志偉

摘要：為解決云計算環(huán)境中硬件資源整合問題，分析了云中互聯(lián)資源的屬性，提出一種改進模糊聚類算法。該算法放寬規(guī)約條件，考慮到矩陣中數(shù)據(jù)點的關(guān)系無法比較，定義加權(quán)因子并構(gòu)建新的目標函數(shù)，先隨機選取硬件作為初始聚類中心，然后不斷計算隸屬度確定聚類中心，重復(fù)迭代改進目標函數(shù)優(yōu)化數(shù)據(jù)集的劃分，最后獲取屬性相似的邏輯資源池。實驗結(jié)果表明改進算法收斂速度較快，得到的聚類結(jié)果較好，適合云環(huán)境中具有相似屬性的資源整合。

關(guān)鍵詞：資源屬性；加權(quán)因子；目標函數(shù)；模糊聚類；評價函數(shù)

中圖分類號：TP301文獻標識碼：A文章編號：1009-3044（2012）33-8006-04

1概述

隨著計算機軟硬件技術(shù)的不斷發(fā)展，新的計算模式相繼涌現(xiàn)，IBM公司于2007年底宣布了云計算計劃[1]，云計算開始被業(yè)界關(guān)注。云計算是一種全新的模式，它可以將相對集中互聯(lián)的大規(guī)模資源進行整合并以服務(wù)的形式提供給用戶，既方便了用戶，又提高了資源的利用率。但對于硬件服務(wù)提供商來說，為了滿足用戶的需求，保證服務(wù)的質(zhì)量，在云計算環(huán)境中應(yīng)投入多少資源來應(yīng)對可能出項的短暫峰值成為一個亟待解決的問題，因為從經(jīng)濟學的觀點來看，如果需求沒有較大的增長而不斷加大硬件資源的投入，純利潤會降低，甚至變成負值。因此行之有效的方法是將互聯(lián)的空閑硬件資源進行整合，組成更大的邏輯資源池并以租賃的方式對外提供，硬件服務(wù)商僅需支付少量的費用租賃應(yīng)對短暫的峰值，實現(xiàn)商家和用戶的利益雙贏。關(guān)于云計算環(huán)境中集群資源模糊聚類劃分的問題，國內(nèi)處于起步階段，出現(xiàn)了一些研究成果：文獻[2]和文獻[3]通過引進誤差容忍向量和資源需求向量機制來獲得邏輯資源池，文獻[3]對集群中的節(jié)點進行了規(guī)范化和量化，二者均沒有考慮到資源的商業(yè)特性，同時傳統(tǒng)模糊聚類算法對噪聲數(shù)據(jù)敏感，收斂速度慢。針對以上問題，該文充分考慮資源運行成本屬性，改進聚類算法，放寬了規(guī)約條件同時提出了新的目標函數(shù)，并構(gòu)建數(shù)據(jù)集，通過仿真實驗和評價函數(shù)來驗證算法的可行性。

2基于改進模糊聚類算法的硬件資源整合

2.1資源描述

云環(huán)境中硬件資源有多重屬性，該文僅從以下五方面來考慮，任一資源HVi的資源屬性可描述為：

HVi=｛CPU，Memeory，BandWidth，Cost，GeLoc｝

其中，CPU表示運行速度，用Ghz來衡量；Memeory表示內(nèi)存大小，用容量來衡量；BandWidth表示網(wǎng)絡(luò)帶寬，用Mbps.s-1來度量；Cost表示每秒運行資源的成本，用￥.s-1；GeLoc表示資源所在的地理位置，我們可以采用地區(qū)號來表示。

2.2聚類中心的選取

資源有其固有的地理位置，硬件服務(wù)商如需租賃資源，考慮到運行成本、速度等因素，應(yīng)選擇本地區(qū)或周圍地區(qū)的邏輯資源池。在此引入變量r，若GeLoc值相同，則r=0，認定是本地區(qū)的邏輯資源池；若0

本研究的聚類個數(shù)c由租賃者指定，任選本地區(qū)或周圍地區(qū)的c個硬件資源構(gòu)成的初始聚類中心為｛ω1，ω2…，ωc｝。

2.3數(shù)據(jù)矩陣與目標函數(shù)

2.3.1構(gòu)建數(shù)據(jù)矩陣

設(shè)互聯(lián)的硬件資源數(shù)目為n，集合X={X1，X2，…，Xn}表示，其中每個資源Xi有m個屬性，用向量Xi=（xi1，xi2，…，xim）表示，則得到的數(shù)據(jù)空間為：

2.3.2目標函數(shù)的改進

在公式（1）中，[uij]為隸屬度，表示數(shù)據(jù)點與類中心的關(guān)系；公式（2）為約束條件，要求每個數(shù)據(jù)點xj與c個聚類中心的總和為1。正式由于這個條件的限制，使得聚類中心不能獨立，對噪聲數(shù)據(jù)比較敏感，因此對隸屬度函數(shù)的約束條件（2）修改為：

數(shù)據(jù)與聚類中心的關(guān)系由[uij]表示，但相對于同一聚類中心，不同數(shù)據(jù)點的關(guān)系無法描述，如圖1所示。

圖中A，B，C為三個數(shù)據(jù)點，x，y，z為聚類中心。點C對三個聚類中心的隸屬度分別為0.2，0.5，0.3，經(jīng)比較可知點C屬于類中心y的可能性較大。但對于類中心y來說，數(shù)據(jù)點A，B，C的關(guān)系無法比較，因此，提出一個加權(quán)因子。

定義1加權(quán)因子Mij，表示相對于同一聚類中心ci各數(shù)據(jù)點的歸屬程度，其公式如下：

隸屬度為：

2.3.3算法描述

集合X={X1，X2，…，Xn}為需要整合的硬件資源，輸入聚類個數(shù)c和最大迭代次數(shù)k，誤差ε，參數(shù)m=2，執(zhí)行下列步驟：

Step1確定初始聚類中心｛ω1，ω2…，ωc｝，并令k=1；

Step2根據(jù)公式（8）計算隸屬度；

Step3根據(jù)公式（7）更新聚類中心；

Step4計算誤差[e=i=1c||ci（k）-ci（k-1）||2]，若e<ε，則輸出劃分的矩陣和聚類中心ω，否則轉(zhuǎn)向step2，重復(fù)執(zhí)行step2～step4；

基于加權(quán)因子的模糊聚類算法，不僅考慮了數(shù)據(jù)點對各聚類中心的距離，還考慮了相對同一類中心各數(shù)據(jù)點的關(guān)系，有效地克服了基于歐式距離的算法特點。

3實驗仿真及結(jié)果分析

3.1實驗數(shù)據(jù)與結(jié)果

為驗證算法的有效性，故構(gòu)建100臺計算機且滿足條件r，每臺機器的屬性如表1（僅列出20臺機器）所示：

表中數(shù)據(jù)均為原始數(shù)據(jù)，若直接用于聚類處理，恐影響聚類結(jié)果，故需對數(shù)據(jù)進行預(yù)處理。數(shù)據(jù)的預(yù)處理分兩步：一是對GeLoc進行數(shù)值化，我們可以按各地市區(qū)號的升序排，排好后從0開始賦值實現(xiàn)數(shù)字化。二是標準化，除GeLoc外把其余四個屬性數(shù)值按下列公式[5]規(guī)劃到區(qū)間[0，1]上：

數(shù)據(jù)標準化之后，應(yīng)用改進的聚類算法進行分類，結(jié)果見圖2所示；采用經(jīng)典的C-均值算法分類見圖3所示：

對比兩圖可發(fā)現(xiàn)圖2中的數(shù)據(jù)點更集中，并經(jīng)常有數(shù)據(jù)點與類中心重合的現(xiàn)象，類與類之間的界限也很明顯，出現(xiàn)此現(xiàn)象主要是因為加權(quán)因子Mij，Mij-1類似于一個放大鏡，它將所有的距離進行放大，但尺度不同；距離近的點放大的尺度小，而距離遠的點放大的尺度要大一些，于是導(dǎo)致兩極分化，距離近的數(shù)據(jù)點變得更近，距離遠的點也就變得更遠，使得聚類效果更好。

3.2評價標準

從圖中我們可以直觀地看出改進聚類算法的效果，但聚類算法還須通過評價函數(shù)進一步來驗證。聚類結(jié)果的評價一般采用兩種方式[6]，內(nèi)部評價和外部評價，該文采用內(nèi)部評價函數(shù)ESSE來作為評價標準，見公式（11）。

表2中改進聚類算法的均方誤差ESSE值偏小，更好地反映出改進聚類算法在聚攏效果上的高效性和穩(wěn)定性。

4結(jié)束語

云環(huán)境下的資源種類繁多、功能各異，通過該文提出的基于加權(quán)因子的改進模糊聚類算法可以獲得若干個邏輯池，而每個邏輯池中的資源屬性特征相近，適合運行同一類計算任務(wù)，使用成本為資源池中每個資源的Cost總和，提高了資源的利用率。實驗結(jié)果表明，改進算法加快了收斂速度，降低了算法的時間復(fù)雜度，得到較好的聚類劃分。但算法中參數(shù)m只能根據(jù)經(jīng)驗給出，聚類數(shù)目c只能通過反復(fù)試驗得出，缺乏理論支持，需進一步研究改進。

參考文獻：

[1]SimsK.IBMintroducesready-to-usecloudcomputingcollaborationservicesgetclientsstartedwithcloudcomputing.2007.http：//www-03.ibm.com/press/us/en/pressrelease/22613.wss

[2]劉伯成，陳慶奎.云計算中的集群資源模糊聚類劃分模型[J].計算機科學，2011，38（s1）.

[3]那麗春.集群資源模糊聚類劃分模型[J].計算機工程，2012，38（6）.

[4]JamesCBezdek.PatternRecognitionwithFuzzyObjectiveFunctionAlgorithms[M].NewYork：Plenum，1981：128-132.

[5]陳健美，宋順林，陸虎，等.改進模糊聚類算法及其在入侵檢測中的應(yīng)用[J].東南大學學報，2007，37（4）.

[6]LiuYuan-chao，WangXiao-long，XuZhi-ming，etal.Asurveyofdocumentclustering[J].JournalofChineseInformationProcessing，2006.

[7]王飛，張德賢，韓金淑，等.蟻群優(yōu)化與模糊聚類結(jié)合的文本聚類研究[J].計算機工程與應(yīng)用，2010，46（32）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

試論基于模糊聚類算法的資源整合