萬成威,王 霞,王 猛
(北京航天飛行控制中心,北京 100094)
虛擬化云計算平臺可實現不同云租戶相對獨立地共享底層基礎資源,在有效滿足多樣化應用需求的同時,實現了底層服務器的CPU、內存、硬盤等資源的高效利用、靈活分配以及統(tǒng)一管理[1-2]。因此,虛擬化云平臺已日漸成為各類業(yè)務系統(tǒng)運行的基礎支撐環(huán)境[3]。為實現物理資源被多個虛擬機調用,無論軟件模擬虛擬化,還是硬件輔助虛擬化,均需虛擬機監(jiān)控器的參與,實現物理設備與上層多個虛擬機之間的抽象與適配。虛擬機操作系統(tǒng)管理和訪問的系統(tǒng)資源,如虛擬CPU、虛擬內存、虛擬IO等,只有在虛擬CPU被調度至物理CPU時,虛擬機操作系統(tǒng)中的各個進程才可以運行[4]。因此,虛擬CPU調度算法直接影響著虛擬機的性能。虛擬CPU調度包含虛擬機之間的CPU調度和虛擬機內部CPU調度。這些虛擬CPU調度算法中,準確的CPU資源預測是保證算法有效性的重要前提。從系統(tǒng)層面看,云服務器提供商需盡可能根據虛擬機承載的業(yè)務需求動態(tài)分配或遷移虛擬機,以避免分配過多的資源形成浪費,或者因分配資源不足而影響業(yè)務運行[5-8];從虛擬機操作系統(tǒng)本身看,大量的虛擬機同時運行著計算密集型業(yè)務和IO密集型業(yè)務,兩類業(yè)務的資源分配策略直接影響著虛擬機操作系統(tǒng)的綜合服務性能[4,9]。因此,準確的資源需求預測是保證云平臺資源調度算法有效性的重要前提,其中CPU資源預測是云平臺各類資源中的核心指標。已有研究表明,在大時間尺度上,大型分布式系統(tǒng)中的CPU負載具有明顯的自相關性、周期性等[9],故通過長期的云平臺負載數據積累,使用各種數據挖掘算法,可以準確地預測云平臺CPU資源的變化特性,對云平臺資源的整體規(guī)劃有著重要意義。然而,在小時間尺度上,各服務器或虛擬機的負載變化仍具有較強的隨機性,這也為云平臺虛擬機實時遷移或虛擬CPU資源實時分配帶來了挑戰(zhàn)。尤其在虛擬機操作系統(tǒng)環(huán)境下,可用CPU資源相對有限,且操作系統(tǒng)CPU調度具有很強的實時性,這就要求CPU預測及調度算法盡可能簡單,且占用較小的計算、存儲等資源。
考慮到虛擬機操作系統(tǒng)應用場景多樣性所引入的隨機性,本文以適用虛擬機操作系統(tǒng)環(huán)境的CPU預測方法為研究對象,詳細評估了各種虛擬CPU資源預測算法的準確性以及算法性能隨各關鍵參數的變化情況,為虛擬機操作系統(tǒng)的CPU資源調度策略設計與實現提供了研究基礎。
大型云平臺可以部署專用的云平臺管理系統(tǒng),采用負載的CPU負載預測算法,并根據定義的效益最大化原則,調整云平臺資源的分配策略[10]。然而,對虛擬機操作系統(tǒng)而言,CPU負載預測算法需盡可能簡單、高效,占用盡可能少的計算、存儲等資源,不會引入較大的性能損耗和預測時延,便于實現CPU資源的快速、準確調整。本文選取了五種常見的時間序列預測算法,以CPU負載數據為研究對象,詳細比較其在CPU負載預測方面的應用性能。
本文采用CloudSim[11]平臺中resource/workload/20110420目錄下的CPU負載數據作為研究對象,該CPU負載為PlanetLab平臺上虛擬機真實的CPU負載測試數據集,可作為不同研究場景下的基準測試數據集。該目錄下共包含1 054個CPU負載樣本序列。本文采取無監(jiān)督機器學習算法支持向量機(Support Vector Machine,SVM)將上述樣本分為三類(高CPU負載序列78個,低CPU負載序列639個,混合型負載序列337個),以考察不同時間序列預測算法性能與不同CPU負載類型之間的關系。
本文主要研究適用于虛擬機操作系統(tǒng)CPU調度的負載預測算法,算法需計算量小、占用存儲空間小。為此,本文主要考察簡單時間序列預測算法的性能,包括移動平均法[12]、加權平均法[13]、一次指數平滑法[14]、二次指數平滑法[14]、差分指數平滑法[15]等。
令各CPU負載樣本為時間序列X1,X2,…,XT,對于下列各算法進行時間序列預測。
(1)平均移動法
給定移動項數N,時間序列預測值為
(1)
(2)加權平均移動法
給定移動項數N及權重系數w1,w2,…,wN,時間序列預測值為
(2)
w1+w2+…+wN=1。
(3)
(3)一次指數平滑法
給定加權系數α(0<α<1),時間序列預測值
(4)
(4)二次指數平滑法
針對一次指數平滑法的預測結果進一步指數平滑,得到的結果作為時間序列預測值,具體如下:
(5)
(6)
(7)
(8)
(9)
(5)差分指數平滑法
對一階差分值進行指數平滑,將得到的結果作為時間序列預測值,具體如下:
ΔXt=Xt-Xt-1,
(10)
(11)
(12)
為準確評估上述各算法的預測性能,定義預測標準誤差如下:
(13)
標準誤差值越小,算法預測性能越優(yōu)。
將上述各時間序列預測算法應用于1.1節(jié)所述各CPU負載序列,完成CPU負載預測性能評估。因CPU負載變化復雜,具有較大的隨機性,且不同時間序列預測算法的參數差異,均會導致標準誤差的計算結果發(fā)生變化,為此,定義各時間序列預測誤差均值如下:
(14)
式中:Si為相同參數設置時N個不同CPU時間序列的預測標準誤差。
不同算法條件下,三類CPU負載序列預測性能結果如圖1所示。
(a)平均移動法
由圖1可見,三類CPU負載序列的平均誤差具有明顯的差異,隨CPU負載升高而依次增大。受CPU負載的隨機性變化影響,在高CPU負載條件下,各算法預測的絕對誤差也相對較大,從而產生更大的平均預測誤差。
平均移動法、加權平均移動法等主要受移動項數影響,本文分別考察了兩者平均預測誤差隨移動項數的變化情況,分別如圖1(a)、(b)、(c)所示,其中加權平均移動法還受權重系數影響,一般而言,距當前時刻越近,與當前CPU負載的相關性越強,應賦予更高的權重。為簡化處理,本文分別采用指數遞減和線性遞減方式確定權重系數。指數遞減方式下,當前時刻前的N個時刻,負載權重依次為2N-1/(2N-1),2N-2/(2N-1),…,1/(2N-1);線性遞減方式下,當前時刻前的N個時刻,負載權重依次為[1+2(N-1)]/N2,[1+2(N-2)]/N2,…,1??梢钥吹?,隨移動項數逐漸增大,平均移動算法和加權平均移動算法的平均預測誤差均顯著下降;隨后,除低CPU負載序列外,其他序列的預測性能均存在不同程度的性能下降。另外,對于加權平均移動法而言,權重系數線性遞減方式整體性能明顯優(yōu)于指數遞減方式,僅在移動項數小于4時指數遞減方式性能更優(yōu),但在移動項數為12時上述各種CPU負載類型及權重模式下,平均預測誤差均可到達最小值。
一次指數平滑法、二次指數平滑法、差分指數平滑法等預測性能主要受加權系數α及預測序列初值影響。本文采用實際CPU負載作為各指數平滑法的預測序列初值,在此條件下詳細考察其平均預測誤差隨加權系數的變化關系,如圖1(d)、(e)、(f)所示。一次指數平滑法中,三類CPU負載序列的平均預測誤差均隨加權系數先遞減,在加權系數為0.1時,平均預測誤差達到最小,隨后平均預測誤差逐漸升高,甚至高于前期誤差高值;而二次指數平滑法和差分指數平滑法中,三類CPU負載的平均預測誤差均隨加權系數增加而逐漸增大,且增大的速率明顯大于一次指數平滑法。這是因為二次指數平滑法和差分指數平滑法主要為適應線性時間序列而進行了修正處理,但實際CPU負載序列仍具有較大的隨機動態(tài)變化,從而產生較大的預測誤差。
綜上各CPU負載預測算法性能評估結果可以看到,平均移動法、線性遞減加權平均移動法、一次指數平滑法具有較好的CPU負載預測性能。為此,本文進一步采用最優(yōu)的參數設置,詳細比較了這三種算法的預測誤差,結果如圖2所示。
圖2 最優(yōu)設置下的預測誤差
可以看到,最優(yōu)參數設置條件下,三類算法的預測誤差基本相同,整體上,一次指數平滑算法性能最優(yōu),平均移動法次之,加權平均移動法誤差最大。平均移動法是一種特殊的加權平均移動法,相當于所有權重系數完全相同,形成了類似最佳接收機的效果,但仍存在某些特殊情況,如圖2低CPU負載中的第11個序列(見圖3)、高CPU負載中的第49個序列(見圖4)。圖3中整個序列中基本保持低負載,僅存在幾個連續(xù)的高CPU樣本;圖4中高CPU負載序列垂直變化為低CPU負載序列。在上述情況下,加權平均移動法性能反而最優(yōu),而平均移動法、一次指數平滑法等由于滯后作用影響,并不能較好地適應這種迅速變化,導致預測性能較差。
圖3 低CPU負載序列樣本
圖4 高CPU負載序列樣本
一次指數平滑法計算簡單,需要存儲的狀態(tài)參數及歷史負載信息較少,且預測效果好,被廣泛應用于時間序列預測領域。實際上,一次指數平滑法是對全部歷史信息的加權平均,加權系數分別為α、α(1-α)、α(1-α)2……為適應CPU負載快速變化的情況,本文基于反饋控制思想對一次指數平滑法進行了改進,即當t時刻的CPU負載預測值與實際值Xt之間的差值滿足
(15)
時對一次平滑法參數進行調整??紤]正常業(yè)務運行時,均會引起CPU負載升高,而一次指數平滑法得到的預測序列為CPU負載的加權平均,故當CPU負載預測值與實際值滿足上述條件時,進一步降低加權系數α,以避免預測序列劇烈波動,且與實際負載序列滯后,形成更大的預測誤差。本文進行上述改進后,采用三類CPU負載序列進行了驗證,結果如圖5所示??梢钥吹剑贑PU負載預測值與實際值p大于0.5時,調整權重系數α至0.05,可明顯降低CPU負載、混合CPU負載的預測誤差,而且改進后的一次指數平滑法的預測誤差隨權重系數增加上升得更為緩慢。
圖5 改進的一次指數平滑法效果
準確的虛擬機操作系統(tǒng)CPU負載預測是實現虛擬化平臺資源高效利用的基礎。虛擬機操作系統(tǒng)環(huán)境下,可用的計算資源、存儲空間等較為有限,CPU負載預測算法應盡可能簡單、高效。本文基于實際的CPU負載數據,以常用的時間序列分析方法作為研究對象,詳細評估了各方法在虛擬CPU負載預測領域的應用性能,結果表明,平均移動法、線性遞減加權平均移動法、一次指數平滑法計算方法簡單,所用存儲空間極小,且具有較好的CPU負載預測性能。在此基礎上,結合反饋控制思想,對一次指數平滑法進行了改進,進一步提高了其CPU負載預測性能。
后續(xù)工作主要包含以下兩個方面:一是針對改進的一次指數平滑法,進一步詳細評估不同條件下參數p對算法性能的影響;二是將上述方法在各虛擬化平臺中實現,并在實際過程中檢驗其應用性能。