国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

三支決策視角下的云平臺負(fù)載預(yù)測研究

2020-07-13 04:33姜春茂李志聰
關(guān)鍵詞:代價(jià)誤差決策

楊 陽,姜春茂,李志聰

(哈爾濱師范大學(xué) 計(jì)算機(jī)科與信息工程學(xué)院,哈爾濱 150025)

1 引 言

在云計(jì)算技術(shù)迅速發(fā)展的大背景下,云平臺已然成為各大企業(yè)和運(yùn)營服務(wù)提供商的戰(zhàn)略性平臺,它提供了一個(gè)高度可擴(kuò)展和按需處理的服務(wù).然而,由于大量的用戶動(dòng)態(tài)的訪問云環(huán)境,云服務(wù)提供商需要及時(shí)分配資源,這使得靜態(tài)的分配物理資源存在諸多問題.根據(jù)負(fù)載需求進(jìn)行云資源分配時(shí),存在按照過多分配會(huì)導(dǎo)致資源利用率降低,過少分配會(huì)導(dǎo)致違反SLA協(xié)議的現(xiàn)象[1].因此,云計(jì)算中的負(fù)載預(yù)測是資源管理優(yōu)化的重要組成部分,能預(yù)測到未來一段時(shí)間的資源使用情況,可以有效地管理資源,實(shí)現(xiàn)資源利用最大化.預(yù)測技術(shù)由來已久,隨著云計(jì)算的快速發(fā)展,如何進(jìn)行虛擬資源的有效管理成為一個(gè)關(guān)鍵問題,將預(yù)測技術(shù)融入到云資源管理中勢在必行,引起了眾多專家學(xué)者對此進(jìn)行研究,也涌現(xiàn)出諸多研究成果.Calheiros Rn等人提出一個(gè)基于自回歸移動(dòng)平均模型(ARIMA)的云負(fù)載預(yù)測模型[2],該模型是廣泛使用的一種時(shí)間序列預(yù)測模型,但它不能有效地捕獲時(shí)間序列數(shù)據(jù)中的非線性模式.Gupta S利用深層雙向BLSTM神經(jīng)網(wǎng)絡(luò)對云資源使用情況進(jìn)行預(yù)測,它能夠?qū)W習(xí)長期依賴,記住長時(shí)間段的信息,被明確用來解決長期負(fù)載預(yù)測問題[3].Sheng D提出一種基于貝葉斯模型的預(yù)測方法來預(yù)測長期時(shí)間區(qū)間內(nèi)以及未來連續(xù)時(shí)間區(qū)間內(nèi)的平均負(fù)載,但它僅僅能預(yù)測平均負(fù)載,而無法捕獲負(fù)載波動(dòng)[4].Duy等人使用反饋人工神經(jīng)網(wǎng)絡(luò)預(yù)測節(jié)點(diǎn)負(fù)載,其基于自回歸模型的ANN模型具有較強(qiáng)的非線性泛化特性,可捕獲到輸入值與輸出值間潛在的關(guān)聯(lián)關(guān)系,但卻不能很好地預(yù)測節(jié)點(diǎn)的固定時(shí)間間隔的長期負(fù)載[5].Yang等人基于進(jìn)化算法(EA-GMDH)與相空間重構(gòu)模型(PSR),提出了一種新的預(yù)測模型,它與ANN模型一樣,不能很好地利用長期的歷史數(shù)據(jù),從而限制了其進(jìn)行多步預(yù)測的能力[6].基于此,本文提出了基于三支決策的云資源負(fù)載預(yù)測模型,來有效地解決傳統(tǒng)預(yù)測模型無法兼顧平緩期和抖動(dòng)期的負(fù)載預(yù)測問題.

三支決策理論[7]是加拿大學(xué)者姚一豫教授為了對決策粗糙集中三個(gè)域提供一種合理的語義解釋,提出的一種符合人類認(rèn)知的信息處理模式和有效的復(fù)雜問題求解策略.根據(jù)粗糙集中一對閾值α和β將整個(gè)論域劃分到三個(gè)不同區(qū)域:正域、負(fù)域和邊界域,三支決策給出了一種語言規(guī)則解釋,將這三個(gè)域分別表示接受、拒絕和延遲決策(不承諾).它的基本思想是以“三”作為思考,是一種蘊(yùn)含一分為三,三分而治的認(rèn)知模型.云計(jì)算系統(tǒng)的組成要素中存在著眾多的三支要素,如按照作業(yè)的時(shí)間可以分為長、中、短;針對虛擬機(jī)則涉及到合并、遷移、關(guān)閉的三種操作;針對主機(jī)則涉及到激活、休眠、關(guān)機(jī)三種狀態(tài).借鑒三支決策基本思想,本文將三支決策引入云資源負(fù)載需求預(yù)測研究中,提出基于三支決策的云資源負(fù)載預(yù)測模型.

大量實(shí)際的云平臺歷史運(yùn)行數(shù)據(jù)顯示,云數(shù)據(jù)中心的負(fù)載呈現(xiàn)準(zhǔn)周期效應(yīng).根據(jù)分析負(fù)載特征變化,本文借鑒三支決策的基本思想,通過引入中間域延遲決策的方法,使得整個(gè)論域劃分成三個(gè)兩兩不相交部分.使得具有充分把握接受或者拒絕的對象集合直接判定為正域或負(fù)域,分別記為負(fù)載平緩期和負(fù)載抖動(dòng)期,而信息相對不確定的對象集合則作為延遲決策區(qū)域等待進(jìn)一步區(qū)分,記為負(fù)載波動(dòng)期.而三個(gè)階段的劃分則根據(jù)相鄰點(diǎn)均方根誤差的計(jì)算.本文實(shí)驗(yàn)采用真實(shí)的云平臺歷史數(shù)據(jù)Google cluster trace,實(shí)驗(yàn)結(jié)果顯示,相比于ARIMA,NN算法,DMASVR-3WD模型有著更小的違約率(SLA)和更高的準(zhǔn)確率.

本文組織及結(jié)構(gòu)如下:第二節(jié)綜述了三支決策模型以及在兩種時(shí)期下的預(yù)測模型.第三節(jié)提出基于三支決策的云資源負(fù)載預(yù)測模型(DMASVR-3WD)和基于代價(jià)評估的閾值確定方法.第四節(jié)給出實(shí)驗(yàn)分析結(jié)果.最后得出相關(guān)研究結(jié)論.

2 相關(guān)工作

2.1 三支決策模型

三支決策是一種符合人類認(rèn)知的三分而治模型,通過一對閾值(α,β)可以將一個(gè)全集U劃分為3個(gè)獨(dú)立的區(qū)域.傳統(tǒng)的二支決策往往只考慮接受和拒絕兩種選項(xiàng),但是在實(shí)際情況中,由于信息的不確定性或者不完整性,常常無法直接作出判斷.此時(shí),人類往往會(huì)自發(fā)的運(yùn)用一種三支策略,將僅包含接受和拒絕二支決策理論拓展為,包含接受、拒絕和不承諾的三支決策理論.通過將整體區(qū)域一分為三,然后根據(jù)不同部將復(fù)雜問題分的特點(diǎn)有針對性的施加不同的策略,即將復(fù)雜問題利用分治策略轉(zhuǎn)化為簡單問題,在此基礎(chǔ)上,姚一豫教授提出三支決策理論的基本框架,如圖1所示.

三分而治是一種符合人類認(rèn)知的問題處理策略,是一種有效的決策和信息處理模式,其廣泛應(yīng)用吸引了大批專家學(xué)者對此展開研究,產(chǎn)生了眾多的研究成果,并成功應(yīng)用于多個(gè)學(xué)科領(lǐng)域.胡寶清教授在總結(jié)幾類具有代表性的三支決策模型的基礎(chǔ)上,提出三支決策空間問題[8];姚景濤教授提出了三支博弈論[9,10];祁建軍、魏玲等人提出三支概念分析理論[11-13];劉盾、梁德翠等人提出了三支決策的時(shí)空性以及三支決策的直覺模糊集理論[14,15];于洪教授提出了三支聚類[16,17];姜春茂教授提出了一種基于移動(dòng)的三支決策模型有效度量方法[18,19].目前,三支決策理論也應(yīng)用到云計(jì)算系統(tǒng)研究中.Jiang等人采用三支聚類算法,解決了負(fù)載敏感的云任務(wù)調(diào)度問題[20].云計(jì)算系統(tǒng)中存在眾多的三支要素,在云資源預(yù)測中,也常常出現(xiàn)這種三支的情況,為實(shí)現(xiàn)精準(zhǔn)有效的預(yù)測,對負(fù)載特征進(jìn)行分析,可以將其分為負(fù)載平緩期、負(fù)載抖動(dòng)期和負(fù)載波動(dòng)期.從三支決策的角度來思考,即接受、拒絕和延遲決策.用戶資源需求在某些階段不能直接確定其屬于負(fù)載抖動(dòng)期或是負(fù)載平緩期,這時(shí)將資源需求情況強(qiáng)行二劃分,在往下的預(yù)測過程中,可能會(huì)造成更大的違約代價(jià).此時(shí)本文將這些不確定對象放入邊界域,通過進(jìn)一步的信息處理再進(jìn)行決策更顯得合理.

圖1 三支決策模型

本文基于三支決策的思想,來進(jìn)行云資源負(fù)載預(yù)測的三支劃分:正域(POS)、邊界域(BND)和負(fù)域(NEG),分別表示云資源需求確定屬于負(fù)載平緩期的,不確定是否屬于負(fù)載平緩期(或負(fù)載抖動(dòng)期),確定不屬于負(fù)載平緩期的(即確定是負(fù)載抖動(dòng)期).

2.2 負(fù)載平緩期預(yù)測模型

二次移動(dòng)平均模型(Double Moving Average,DMA)[21]是一種常見并且有效地時(shí)間序列分析方法.對于訓(xùn)練樣本集合:{(xi,yi)},i=1,2,…,n.其中xi表示輸入數(shù)據(jù),yi表示輸出數(shù)據(jù).假設(shè)xt,xt-1,…,xt-(w-1)為某時(shí)刻t的長度為w的資源需求歷史數(shù)據(jù)序列,如圖2所示.

圖2 滑動(dòng)窗模型

即從時(shí)刻t-(w-1)到t的滑動(dòng)窗包含的數(shù)據(jù)為[xt-(w-1),xt-(w-2),…,xt],因此定義t時(shí)刻對資源需求值的一次移動(dòng)平均值為:

(1)

(2)

在t+T時(shí)刻的資源需求預(yù)測值yt+T,由時(shí)刻t的資源需求值at和T時(shí)間間隔內(nèi)增量bt決定,即:

yt+T=at+bt·T

(3)

因此基于二次移動(dòng)平均法,對t時(shí)刻歷史資源需求序列進(jìn)行分析,可以得到在t+T時(shí)刻的資源需求預(yù)測值:

(4)

不難發(fā)現(xiàn),DMA模型更加適用于相對平穩(wěn),線性的時(shí)間序列預(yù)測,難以應(yīng)對具有突發(fā)性變化的預(yù)測.

2.3 負(fù)載抖動(dòng)期預(yù)測模型

支持向量回歸算法(Support Vector Regression,SVR)[22]是在支持向量機(jī)算法(SVM)[23]的基礎(chǔ)上,引入了ε不敏感損失函數(shù),通過使用支持向量機(jī)擬合曲線,實(shí)現(xiàn)回歸分析,從而將支持向量機(jī)從分類推廣到了回歸中.ε-不敏感損失函數(shù)可以保證誤差函數(shù)有一定的界限,實(shí)現(xiàn)更強(qiáng)的魯棒性.

根據(jù)風(fēng)險(xiǎn)最小化原則,對于訓(xùn)練樣本集合:{(xi,yi)},i=1,2,…,n.其中xi表示輸入數(shù)據(jù),yi表示輸出數(shù)據(jù).給出SVR模型如下形式化定義:

f(x)=ωξ(x)+b

(5)

其中,f(·)表示預(yù)測值,ξ(·)表示非線性映射函數(shù)將輸入數(shù)據(jù)映射到高維特征空間,x表示輸入數(shù)據(jù)集合,ω表示權(quán)值,b表示偏置值.

為了實(shí)現(xiàn)更好的數(shù)據(jù)擬合效果,可以引入懲罰系數(shù)C,將該問題轉(zhuǎn)化為如下優(yōu)化問題:

(6)

約束條件為:

(7)

為了保證SVR算法的輸入輸出數(shù)據(jù)集之間的整體誤差最小,權(quán)值向量ω表示為:

(8)

SVR通過將數(shù)據(jù)從低維空間映射到高維空間,在核空間里進(jìn)行線性學(xué)習(xí),從而實(shí)現(xiàn)回歸擬合分析.引入核函數(shù),得到如下回歸函數(shù):

(9)

其中,K(xi·xj)表示核函數(shù).

核函數(shù)是SVR模型的關(guān)鍵所在,常見的核函數(shù)多項(xiàng)式核函數(shù)、有線性核函數(shù)以及徑向基(RBF)核函數(shù)等,本文將RBF核函數(shù)引入SVR模型中,其形式化如下:

K(xi,xj)=exp(-γ‖xi-xj‖2),γ>0

(10)

不難發(fā)現(xiàn),相比較一些傳統(tǒng)的線性預(yù)測方法,SVR模型更加適用于非線性、非穩(wěn)定的時(shí)間序列的預(yù)測,在對具有突發(fā)性變化的負(fù)載預(yù)測具有很好的效果.

3 基于三支決策的云資源負(fù)載預(yù)測模型

在本節(jié)中,基于云負(fù)載特征變化,提出一種云資源需求狀態(tài)三分的預(yù)測模型—基于三支決策的云資源負(fù)載預(yù)測模型(DMASVR-3WD),并給出了一種基于代價(jià)評估的閾值確定方法.

3.1 云計(jì)算資源預(yù)測系統(tǒng)

云計(jì)算資源預(yù)測系統(tǒng)架構(gòu)圖如圖3所示,圖中VM為虛擬機(jī).該系統(tǒng)結(jié)構(gòu)圖從宏觀的角度給出了一個(gè)基于三支決策的云資源預(yù)測系統(tǒng)所需要具備的功能及大致流程.

圖3 云計(jì)算資源預(yù)測系統(tǒng)架構(gòu)圖

對云平臺的歷史數(shù)據(jù)中的用戶請求進(jìn)行分析,包括數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)屬性和數(shù)據(jù)量等,在系統(tǒng)數(shù)據(jù)預(yù)處理模塊中,直接篩除無關(guān)數(shù)據(jù)及屬性,并將有用的原始數(shù)據(jù)進(jìn)行規(guī)范化.

為了實(shí)現(xiàn)精準(zhǔn)有效的預(yù)測,根據(jù)數(shù)據(jù)特征進(jìn)行模型的選擇和訓(xùn)練,我們引入相鄰值之間的均方根誤差(Root Mean Squared Error,RMSE),設(shè)定閾(α,β)值進(jìn)行對比,對平穩(wěn)期、波動(dòng)期和抖動(dòng)期的三種情況進(jìn)行分析,給出區(qū)分不同情況的三支方法準(zhǔn)則.對于用戶資源需求劃分的三個(gè)區(qū)域,我們僅采用兩種預(yù)測模型來進(jìn)行預(yù)測,對于負(fù)載平緩期往往采用適用于平穩(wěn)的,具有線性趨勢的時(shí)間序列預(yù)測模型,而對于負(fù)載抖動(dòng)期本文采用短期預(yù)測模型來更好的擬合.而對于中間不確定域即負(fù)載波動(dòng)期,本文給出一個(gè)評價(jià)標(biāo)準(zhǔn),采用代價(jià)評估的三支決策邊界域處理模型來進(jìn)行再劃分.使用最終預(yù)測結(jié)果來規(guī)劃容量.

3.2 基于代價(jià)評估的三支劃分

基于三支決策的云資源負(fù)載預(yù)測模型,構(gòu)建狀態(tài)空間Ω={X,XC}分別表示在云資源環(huán)境中的負(fù)載特征,X表示負(fù)載平緩期預(yù)測模型,XC表示負(fù)載抖動(dòng)期預(yù)測模型,樣本經(jīng)過訓(xùn)練后劃分到三個(gè)域,正域(POS)、邊界域(BND)和負(fù)域(NEG).給出決策方案為D={aP,aB,aN},分別表示判定負(fù)載狀態(tài)后的三種決策方案,平緩期立即處理,波動(dòng)期延遲決策再處理,抖動(dòng)期立即處理.鑒于此,針對不同狀態(tài)下的決策動(dòng)作,設(shè)立如下決策代價(jià)表,如表1所示.

表1中λij(i=P,B,N,j=P,N)表示對象屬于X和XC狀態(tài)下采取的不同行動(dòng)aP、aB、aN的損失值,即代價(jià).P(X|[x])表示等價(jià)類中一個(gè)對象屬于集合X的條件概率.對于一個(gè)對象,采取不同的決策動(dòng)作時(shí),會(huì)帶來不同的代價(jià),因此,不同的決策動(dòng)作帶來的期望損失如下:

R(aP|[x])=λPPP(X|[x])+λPNP(XC|[x])R(aB|[x])=λBPP(X|[x])+λBNP(XC|[x])R(aN|[x])=λNPP(X|[x])+λNNP(XC|[x])

(11)

表1 負(fù)載預(yù)測代價(jià)函數(shù)

依據(jù)貝葉斯最小風(fēng)險(xiǎn)準(zhǔn)則,最佳方案為期望損失最小的決策方案,有如下規(guī)則:

(P)如果R(aP|[x])≤R(aB|[x])且R(aP|[x])≤R(aN|[x])成立,則判定x∈POS(X)(平緩期預(yù)測模型);

(B)如果R(aB|[x])≤R(aP|[x])且R(aB|[x])≤R(aN|[x])成立,則判定x∈BND(X)(波動(dòng)期延遲決策);

(N)如果R(aN|[x])≤R(aP|[x])且R(aN|[x])≤R(aB|[x])成立,則判定x∈NEG(X)(抖動(dòng)期預(yù)測模型);

考慮到對于含有兩種狀態(tài)的決策系統(tǒng),記P(X|[x])=P,則P(XC|[x])=1-P,上述規(guī)則只與概率P(X|[x])和相關(guān)的總代價(jià)有關(guān).考慮到在[x]?X時(shí),將x判定為平緩期的代價(jià)要小于將其判定為波動(dòng)期的代價(jià),進(jìn)一步小于將其判定為抖動(dòng)期的代價(jià).在[x]?XC時(shí),將x判定為抖動(dòng)期的代價(jià)要小于將其判定為波動(dòng)期的代價(jià),進(jìn)一步小于將其判定為抖動(dòng)期的代價(jià).可以得到λPP≤λBP<λNP,λNN≤λBN<λPN.

依據(jù)三支決策模型的決策準(zhǔn)則,規(guī)則(P)、(B)和(N)可簡化為:

(P1)當(dāng)P(X|[x])≥α?xí)r,x∈POS(X),則采用平緩期預(yù)測模型;

(B1)當(dāng)β

(N1)當(dāng)β≥P(X|[x])時(shí),x∈NEG(X),則采用抖動(dòng)期預(yù)測模型;

其中α和β分別為:

(12)

3.3 代價(jià)評估的三支決策邊界域處理模型

(13)

算法1.基于代價(jià)評估的邊界域處理模型算法

輸入:

Ti:中間域樣本數(shù)據(jù)BND(X)={x1,x2,…,xs}

輸出:

平緩期POS(X)和抖動(dòng)期NEG(X)

Step 1.

從BND(X)中任取一樣本xb,根據(jù)公式(13)計(jì)算出樣本被劃分到平緩期和抖動(dòng)期的損失Cost(aP|[xb])和Cost(aN|[xb])

Step 2.

xb∈NEG(X)

else

xb∈POS(X)

Step 3.

if(xb∈POS(X))then

POS(X)=POS(X)∪xb

BND(X)=BND(X)-xb

if(xb∈NEG(X))then

NEG(X)=NEG(X)∪xb

BND(X)=BND(X)-xb.

Step 4.

若邊界域中所有樣本都被成功劃分到平緩期和抖動(dòng)期,即邊界域?yàn)榭?,則結(jié)束.否則,轉(zhuǎn)Step 1,知道所有邊界域樣本被劃分成功.

3.4 DMASVR-3WD預(yù)測模型

借助三支決策的基本思想,分析Google trace中真實(shí)云負(fù)載數(shù)據(jù),將對象劃分為正域(POS)、邊界域(BND)和負(fù)域(NEG),提出了一種基于三支決策的云資源需求預(yù)測模型(DMASVR-3WD),其系統(tǒng)架構(gòu),如圖4所示.

圖4 三支預(yù)測模型系統(tǒng)架構(gòu)

對于平緩期和抖動(dòng)期,直接借助2.2節(jié)和2.3節(jié)提到的兩種基本預(yù)測模型進(jìn)行負(fù)載預(yù)測處理,基于平緩期的特點(diǎn),本文采用二次移動(dòng)平均法(DMA)進(jìn)行資源負(fù)載的預(yù)測.基于抖動(dòng)期的特點(diǎn),本文采用支持向量回歸模型(SVR)進(jìn)行資源負(fù)載的預(yù)測.如果將固定因素影響的樣本點(diǎn)看作是平緩期,那么受到隨機(jī)因素影響的即偏離原始樣本集的樣本點(diǎn),偏離原始樣本集趨越大說明負(fù)載的變化越明顯,即表現(xiàn)為負(fù)載的抖動(dòng)期.本文針對抖動(dòng)期和平緩期的負(fù)載特點(diǎn),使用均方根誤差(RMSE)來劃分負(fù)載平緩期,抖動(dòng)期和波動(dòng)期,由此本文提出了DMASVR-3WD算法.

DMASVR-3WD預(yù)測模型提出的目的是為了實(shí)現(xiàn)更加精準(zhǔn)的云資源負(fù)載預(yù)測,提高資源利用率以降低成本.我們引入均方根誤差RMSE標(biāo)準(zhǔn)來計(jì)算代價(jià).負(fù)載預(yù)測代價(jià)計(jì)算方法為:

(14)

當(dāng)對真實(shí)的云資源負(fù)載數(shù)據(jù)進(jìn)行預(yù)測分析時(shí),根據(jù)負(fù)載特征劃分三部分,其預(yù)測準(zhǔn)確率也同樣包括三部分,其中R1、R2和R3分別表示負(fù)載特征平緩時(shí)平緩期預(yù)測模型,波動(dòng)期延遲決策和抖動(dòng)期預(yù)測模型的代價(jià).

(15)

(16)

(17)

(18)

基于上述討論,我們給出DMASVR-3WD模型的具體算法如下:

算法2.DMASVR-3WD預(yù)測模型

輸入:

Ti:歷史cup請求量數(shù)據(jù)集時(shí)間序列

X={xi,xi-1,…,xi-(w-1)}

輸出:

P:cup請求量的預(yù)測值

//計(jì)算相鄰值之間的均方根誤差

fori=w;i

//m為時(shí)間序列的長度

//w為DMA窗口的大小

Mi+1=DoubleMA(w,xi,xi-1,…,xi-w+1)

//DMA根據(jù)最近w個(gè)輸入值預(yù)測線性分量Mi+1

fori=w+1;i

Ri=Ti-Mi

//Ri為時(shí)間序列的非線性分量

fori=w+1;i

(C,K,s)=SVRtrain(Ri,Ri+1)

//Ri表示輸入數(shù)據(jù),Ri+1表示輸出數(shù)據(jù),訓(xùn)練SVR模型

//C表示懲罰系數(shù),K表示核函數(shù),s表示損失函數(shù)參數(shù)

Nm+1=SVRpredict(c,g,p,Nm)

P=Mm+1;

P=Rm+1;

else

P=Rm+1

else

P=Mm+1

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

本文實(shí)驗(yàn)操作系統(tǒng)為64位CentOS 7,內(nèi)存為8GB,硬盤容量為50GB.在此操作系統(tǒng)上利用Java,在IDEA開發(fā)平臺上進(jìn)行評估實(shí)驗(yàn).

圖5 數(shù)據(jù)預(yù)處理示意圖

實(shí)驗(yàn)數(shù)據(jù)來自于Google cluster trace,其中的數(shù)據(jù)表task_usage記錄了近29天各個(gè)時(shí)間節(jié)點(diǎn)的主機(jī)CPU,內(nèi)存,磁盤等資源使用信息,本文的目的是預(yù)測CPU的使用情況,因此選取了表中某幾天的CPU使用狀態(tài)信息,以30分鐘為單位,對表中CPU使用量進(jìn)行統(tǒng)計(jì),并將其定義為一個(gè)批量數(shù)據(jù)集(Batch),基于此,再把每3個(gè)連續(xù)的Batch劃分為一個(gè)滑動(dòng)窗口(Window),其移動(dòng)間隔為一個(gè)Batch的長度,如圖5所示.

4.2 評價(jià)指標(biāo)

為了評價(jià)預(yù)測系統(tǒng)的性能,實(shí)驗(yàn)采用合格率,準(zhǔn)確率與SLA違約率三個(gè)評價(jià)指標(biāo).對于所選取的指標(biāo)含義及選取依據(jù)解釋如下:

1)合格率(QR)

由于在實(shí)際集群環(huán)境中進(jìn)行資源分配,很難達(dá)到資源需求和資源供應(yīng)完全一致,為了提高用戶服務(wù)質(zhì)量,獲取更多的分配資源,本文引入合格率作為其中評價(jià)指標(biāo),用來表示負(fù)載預(yù)測值大于實(shí)際值的樣本比例.

(19)

2)準(zhǔn)確率

若提供商僅僅為保證較高的服務(wù)質(zhì)量,保持較高的合格率,將會(huì)導(dǎo)致預(yù)測值常常大于實(shí)際值的情況,即存在資源分配過度,使用率低和能耗較高的問題.由此為避免大量資源閑置的情況出現(xiàn),本文引入檢驗(yàn)動(dòng)態(tài)資源需求預(yù)測偏差的指標(biāo),預(yù)測值與實(shí)際值的均方誤差(RMSE)指標(biāo)和平均絕對百分比誤差(MAPE):

(20)

(21)

3)SLA違約率(SLA)

在實(shí)際的集群環(huán)境中,云計(jì)算平臺資源需求存在高度動(dòng)態(tài)性,處于抖動(dòng)期的負(fù)載,資源需求短時(shí)間內(nèi)增長幅度大,容易出現(xiàn)實(shí)際值大于預(yù)測值的情況,導(dǎo)致作業(yè)資源短缺,服務(wù)質(zhì)量下降的問題,由此本文引入了SLA違約率指標(biāo),其表示為預(yù)測值小于實(shí)際值的樣本點(diǎn)所占比例:

(22)

4.3 預(yù)測效果對比與分析

實(shí)驗(yàn)截取了Google cluster trace某幾天的數(shù)據(jù),并進(jìn)行上述的預(yù)處理工作,得到多個(gè)聚合的windows數(shù)據(jù)集,再將windows中的多個(gè)batch數(shù)據(jù)作為模型輸入,得出預(yù)測值與實(shí)際值的對比結(jié)果,本節(jié)分別評估了自移動(dòng)積分滑動(dòng)平均(ARIMA)、神經(jīng)網(wǎng)絡(luò)(NN)和DMASVR-3WD算法三種預(yù)測模型對于實(shí)際CPU使用的預(yù)測效果,評估指標(biāo)分別為合格率,均方誤差,平均絕對百分比誤差與SLA違約率.三種預(yù)測模型的預(yù)測結(jié)果對比如圖6所示.

4.3.1 自回歸積分滑動(dòng)平均(ARIMA)

從圖6中可以觀察到,ARIMA對平緩期的CPU使用量具有較好的預(yù)測效果,但在CPU資源使用的抖動(dòng)期間,ARIMA模型的預(yù)測效果并不穩(wěn)定,有明顯的滯后性,8-22區(qū)間中滯后性明顯.且多處預(yù)測值低于實(shí)際值,特別是在9~12區(qū)間和13~15區(qū)間中,明顯觀察到預(yù)測值低于實(shí)際值.滯后性明顯使得無法準(zhǔn)確了解CPU的資源使用情況,容易導(dǎo)致資源短缺,進(jìn)而影響集群的服務(wù)質(zhì)量.

4.3.2 神經(jīng)網(wǎng)絡(luò)(NN)

從圖6的觀察中得到,NN對平緩期的CPU使用有著更為理想的預(yù)測效果,但算法本身容易陷入局部最優(yōu)解,因此對抖動(dòng)期的CPU使用的預(yù)測略顯不足,難以適應(yīng)突增的資源使用變化,如8~20區(qū)間的預(yù)測曲線平緩,與實(shí)際值的預(yù)測差距較大,CPU資源使用的預(yù)測不足,致使其既不能保證很高的服務(wù)質(zhì)量,也存在資源短缺現(xiàn)象發(fā)生.

圖6 三種模型預(yù)測結(jié)果對比圖

4.3.3 DMASVR-3WD算法

基于同樣的數(shù)據(jù)集,本文提出的DMASVR-3WD模型相較于ARIMA與NN算法,DMASVR-3WD算法在CPU使用的平緩期與抖動(dòng)期的表現(xiàn)都較為穩(wěn)定,特別是對抖動(dòng)期的預(yù)測,如12~17區(qū)間的預(yù)測效果,能較好地?cái)M合實(shí)際CPU使用的曲線,且多數(shù)節(jié)點(diǎn)的預(yù)測僅僅稍大于實(shí)際的CPU使用量,如17-21區(qū)間的預(yù)測效果,這樣可在保證較高的服務(wù)質(zhì)量的同時(shí),也能減少資源閑置的現(xiàn)象發(fā)生.

基于上述實(shí)驗(yàn),計(jì)算得出的有關(guān)ARIMA,NN與DMASVR-3WD預(yù)測模型的評價(jià)指標(biāo)結(jié)果,如表2所示.

表2 模型預(yù)測評價(jià)指標(biāo)對比

Table 2 Model prediction evaluation index comparison

QRMSEMAPESLAARIMA0.6000.0331.1340.400NN0.5000.0491.0970.500DMASVR-3WD0.6670.0140.3930.333

從表2中可以看出,NN算法有較小的合格率和較大的違約率,即在時(shí)間節(jié)點(diǎn)上多數(shù)的預(yù)測值小于真實(shí)值,并且有著較大的均方誤差和平均絕對百分比誤差,即預(yù)測準(zhǔn)確度低,這些將使得用戶作業(yè)無法獲取資源進(jìn)而處于等待狀態(tài),延長了作業(yè)時(shí)間,進(jìn)而影響了集群的使用效率.相較于NN算法,ARIMA算法有著更好的合格率和違約率,但是由于其無法適應(yīng)突增負(fù)載狀況,使得該模型有著較高的均方誤差和極大的平均絕對百分比誤差.同時(shí),我們觀察DMASVR-3WD算法,有理想的QR和更少的違約率,同時(shí)預(yù)測結(jié)果MAPE的標(biāo)準(zhǔn)差僅為0.393,遠(yuǎn)低于其他預(yù)測算法,體現(xiàn)了該算法具有良好的穩(wěn)定性.也因?yàn)樵撍惴芎芎玫臄M合負(fù)載抖動(dòng)期和平緩期的真實(shí)CPU使用量,因此,有著低的MSE,相比較于其他兩種算法,DMASVR-3WD模型明顯提高了預(yù)測精度.

為了檢驗(yàn)DMASVR-3WD的泛化能力,從Google cluster trace的task_usage即任務(wù)資源使用表中選取三張負(fù)載數(shù)據(jù)表采樣數(shù)據(jù)進(jìn)行對比預(yù)測,預(yù)測結(jié)果如圖7所示,評價(jià)指標(biāo)對比結(jié)果如表3所示.

圖7 不同數(shù)據(jù)集的預(yù)測結(jié)果

表3 不同數(shù)據(jù)集模型預(yù)測評價(jià)指標(biāo)對比

從表3和圖7可知,DWASVR-3WD在不同時(shí)期的云計(jì)算資源負(fù)載預(yù)測中均能取得較高的精度和較低的違約率,雖然在task_usage_494的CPU資源請求量波動(dòng)較大,但是仍然取得了較高的預(yù)測精度,這充分表明了該預(yù)測方法具有較好的穩(wěn)定性和泛化能力.

5 結(jié) 論

為了提高云計(jì)算資源負(fù)載預(yù)測的準(zhǔn)確度,保證服務(wù)質(zhì)量,提出了一種基于三支決策的云平臺負(fù)載預(yù)測模型(DMASVR-3WD).在分析了用戶資源需求的負(fù)載特征后,引入基本預(yù)測模型對平緩期和抖動(dòng)期進(jìn)行處理,分析并且計(jì)算出代價(jià)閾值,依據(jù)期望損失代價(jià)最小化的原則對波動(dòng)期進(jìn)行劃分處理.使用合格率,RMSE,MAPE和違約率四種評價(jià)指標(biāo),評估本文提出的負(fù)載預(yù)測模型和現(xiàn)有的負(fù)載預(yù)測模型在真實(shí)Google cluster trace數(shù)據(jù)中的預(yù)測效果.實(shí)驗(yàn)表明,DMASVR-3WD算法能夠有效地降低預(yù)測誤差,同時(shí)在平緩期和抖動(dòng)期都起到很好的預(yù)測效果,并且有著較低的違約率.

猜你喜歡
代價(jià)誤差決策
北斗導(dǎo)航種蘿卜百米誤差僅2厘米
決策大數(shù)據(jù)
決策大數(shù)據(jù)
決策大數(shù)據(jù)
隧道橫向貫通誤差估算與應(yīng)用
隧道橫向貫通誤差估算與應(yīng)用
諸葛亮隆中決策
愛的代價(jià)
幸災(zāi)樂禍的代價(jià)
代價(jià)
乌兰县| 宁都县| 象州县| 平阳县| 高平市| 罗江县| 仙居县| 弥勒县| 连江县| 赤水市| 丰台区| 治县。| 昭觉县| 咸阳市| SHOW| 永修县| 固始县| 福清市| 绍兴县| 称多县| 曲水县| 宣恩县| 郸城县| 石台县| 大埔区| 沙田区| 新龙县| 方城县| 车险| 西峡县| 延庆县| 厦门市| 康马县| 浮山县| 滨州市| 岐山县| 城市| 女性| 浪卡子县| 洛川县| 贡山|