薛永軍++崔榮靖
摘 要
基于云計(jì)算中服務(wù)器虛擬化技術(shù)的重要意義,提出在應(yīng)用虛擬化技術(shù)的物理服務(wù)器在內(nèi)存、CPU、IO上使用的特性,通過(guò)企業(yè)計(jì)算資源池運(yùn)行數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、梳理,然后分析得出了物理服務(wù)器在使用虛擬化技術(shù)后硬件配置比例。服務(wù)器虛擬化通過(guò)服務(wù)器虛擬化完成計(jì)算資源池建設(shè),為了使得物理服務(wù)器的使用率得到最大化,必須有針對(duì)各企業(yè)實(shí)際情況的物理服務(wù)器池化合理物理硬件配置比例。
【關(guān)鍵詞】虛擬化技術(shù) 計(jì)算資源池 硬件配置
計(jì)算資源池建設(shè)需要具有通過(guò)虛擬軟件的功能,對(duì)服務(wù)器當(dāng)中的各項(xiàng)資源實(shí)施抽象化,將傳統(tǒng)意義上和服務(wù)器及其設(shè)備完成綁定的各類(lèi)資源轉(zhuǎn)變成能進(jìn)行統(tǒng)一管理的邏輯性資源。都是在現(xiàn)有的物理服務(wù)器基礎(chǔ)進(jìn)行資源轉(zhuǎn)化,而現(xiàn)有物理服務(wù)器的硬件配置比例基本沒(méi)有參照硬件池化的實(shí)際情況,必然出現(xiàn)物理服務(wù)器某一硬件資源使用率飽和時(shí),另一類(lèi)硬件資源池卻處于低使用率的現(xiàn)象,造成資源浪費(fèi),違反了虛擬化技術(shù)產(chǎn)生初衷。
1 硬件資源配置比研究范圍
硬件資源配置比例研究?jī)H限于池化服務(wù)器的內(nèi)存、CPU、以太網(wǎng)IO、存儲(chǔ)網(wǎng)絡(luò)IO。
2 硬件資源配置比算法
對(duì)現(xiàn)有計(jì)算資源池的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)的相關(guān)實(shí)際值、置備值、使用率等運(yùn)行數(shù)據(jù)進(jìn)行收集、匯總。數(shù)據(jù)收集方法:以一個(gè)季度為一個(gè)周期,每個(gè)月收集14次,分別為每月的1、5、10、15、20、25、30的上午11:00,下午的15:00,收集2個(gè)周期,對(duì)28次數(shù)據(jù)進(jìn)行多次平均,按CPU,內(nèi)存,網(wǎng)卡及HBA卡進(jìn)行統(tǒng)計(jì)。如表1所示。
從統(tǒng)計(jì)數(shù)據(jù)中就可以發(fā)現(xiàn)現(xiàn)有計(jì)算資源池中,出現(xiàn)了嚴(yán)重的資源浪費(fèi),大量的CPU資源處于極低使用率情況,同時(shí)不同的內(nèi)存、CPU使用率使用著相同的以太網(wǎng)絡(luò)帶寬和存儲(chǔ)網(wǎng)絡(luò)帶寬,明顯是配置不合理;從采購(gòu)角度來(lái)看,就是因?yàn)闆](méi)有計(jì)算資源池物理服務(wù)器配比算法做為標(biāo)準(zhǔn)來(lái)指導(dǎo)物理服務(wù)器的采購(gòu)。
下面采用大數(shù)據(jù)算法 Support vector machines進(jìn)行數(shù)據(jù)分析,從面對(duì)計(jì)算資源池物理服務(wù)器配比算法進(jìn)行研究。
支持向量機(jī)屬于一般化線(xiàn)性分類(lèi)器。也可以認(rèn)為是提克洛夫規(guī)范化(Tikhonov Regularization)方法的一個(gè)特例。這族分類(lèi)器的特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū)。因此支持向量機(jī)也被稱(chēng)為最大邊緣區(qū)分類(lèi)器。在統(tǒng)計(jì)計(jì)算中,最大期望(EM)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計(jì)的算法,其中概率模型依賴(lài)于無(wú)法觀(guān)測(cè)的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的數(shù)據(jù)集聚(Data Clustering)領(lǐng)域。最大期望算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計(jì)算,第一步是計(jì)算期望(E),也就是將隱藏變量象能夠觀(guān)測(cè)到的一樣包含在內(nèi)從而計(jì)算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期望值從而計(jì)算參數(shù)的最大似然估計(jì)。M 步上找到的參數(shù)然后用于另外一個(gè) E 步計(jì)算,這個(gè)過(guò)程不斷交替進(jìn)行。
在學(xué)習(xí)這種方法時(shí),首先要弄清楚這種方法考慮問(wèn)題的特點(diǎn),這就要從線(xiàn)性可分的最簡(jiǎn)單情況討論起,在沒(méi)有弄懂其原理之前,不要急于學(xué)習(xí)線(xiàn)性不可分等較復(fù)雜的情況,支持向量機(jī)在設(shè)計(jì)時(shí),需要用到條件極值問(wèn)題的求解,因此需用拉格朗日乘子理論,但對(duì)多 數(shù)人來(lái)說(shuō),以前學(xué)到的或常用的是約束條件為等式表示的方式,但在此要用到以不等式作為必須滿(mǎn)足的條件,此時(shí)只要了解拉格朗日理論的有關(guān)結(jié)論就行。
支持向量機(jī)將向量映射到一個(gè)更高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開(kāi)數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面。分隔超平 面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類(lèi)器的總誤差越小。一個(gè)極好的指南是C.J.C Burges的《模式識(shí)別支持向量機(jī)指南》。van der Walt 和 Barnard 將支持向量機(jī)和其他分類(lèi)器進(jìn)行了比較。
有很多個(gè)分類(lèi)器(超平面)可以把數(shù)據(jù)分開(kāi),但是只有一個(gè)能夠達(dá)到最大分割。先進(jìn)行問(wèn)題定義,如圖1所示。
設(shè)樣本屬于兩個(gè)類(lèi),用該樣本計(jì)算svm得到的最大間隔超平面。在超平面上的樣本點(diǎn)也稱(chēng)為支持向量。
考慮以下形式的樣本點(diǎn)
{(x1,c1),(x2,c2),...,(xn,cn)}
由于我們要求最大間隔,因此我們需要知道支持向量以及(與最佳超平面)平行的并且離支持向量最近的超平面。我們可以看到這些平行超平面可以由方程族:
w·x-b=1,w·x-b=-1.
如果這些訓(xùn)練數(shù)據(jù)是線(xiàn)性可分的,那就可以找到這樣兩個(gè)超平面,在它們之間沒(méi)有任何樣本點(diǎn)并且這兩個(gè)超平面之間的距離也最大.通過(guò)幾何不難得到這兩個(gè)超平面之間的距離是 2/| w |,因此我們需要最小化 | w |。同時(shí)為了使得樣本數(shù)據(jù)點(diǎn)都在超平面的間隔區(qū)以外,我們需要保證對(duì)于所有的 i 滿(mǎn)足其中的一個(gè)條件:
w·xi-b≥1 or w·xi-b≤-1.
這兩個(gè)式子可以寫(xiě)作:
ci(w·xi-b) ≥1,1≤i≤n. (1)
套用算法,C代表使用率,W、X分別代表內(nèi)存和CPU和核數(shù),B代表IO帶寬,可以得出1G內(nèi)存至少需要40M的IO帶寬。
3 結(jié)束語(yǔ)
技術(shù)的關(guān)鍵點(diǎn)是不斷的抽取計(jì)算資源池中虛擬機(jī)及物理機(jī)運(yùn)行數(shù)據(jù),并根據(jù)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)特性進(jìn)行資源評(píng)估、統(tǒng)計(jì)、分析等CPU、內(nèi)存、磁盤(pán)、網(wǎng)絡(luò)關(guān)系性在;創(chuàng)新點(diǎn)是根據(jù)實(shí)際資源使用情況,以實(shí)際數(shù)據(jù)為基礎(chǔ)在業(yè)內(nèi)首次根據(jù)計(jì)算資源池提出服務(wù)器配置標(biāo)準(zhǔn)??梢越鉀Q:
(1)計(jì)算資源池服務(wù)器配置不統(tǒng)一;
(2)計(jì)算資源池服務(wù)器資源浪費(fèi);
(3)解決物理服務(wù)器采購(gòu)時(shí)無(wú)標(biāo)準(zhǔn)、無(wú)預(yù)見(jiàn)性。
參考文獻(xiàn)
[1]李剛健.基于虛擬化技術(shù)的云計(jì)算平臺(tái)架構(gòu)研究[J].吉林建筑工程學(xué)院學(xué)報(bào),2011(01):79-81.
[2]李雙權(quán),王燕偉.云計(jì)算中服務(wù)器虛擬化技術(shù)探討[J].郵電設(shè)計(jì)技術(shù),2011(10):27-33.
作者單位
云南電網(wǎng)有限公司信息中心 云南省昆明市 650217