蔣堃, 陳永紅, 田暉, 王田, 蔡奕僑
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)
監(jiān)控與預(yù)測(cè)的云資源優(yōu)化配置
蔣堃, 陳永紅, 田暉, 王田, 蔡奕僑
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)
針對(duì)云環(huán)境下虛擬機(jī)資源在多數(shù)時(shí)間中處于閑置狀態(tài)導(dǎo)致云資源利用率低的問題,設(shè)計(jì)一種云資源監(jiān)控系統(tǒng),并在云監(jiān)控基礎(chǔ)上提出一種基于自回歸積分滑動(dòng)平均(ARIMA)模型的動(dòng)態(tài)負(fù)載預(yù)測(cè)與資源配置的方法.該方法利用虛擬機(jī)負(fù)載與配置的關(guān)系,通過預(yù)測(cè)負(fù)載情況,提前啟動(dòng)或者掛起虛擬機(jī),提高云資源的利用率.研究結(jié)合OpenStack云環(huán)境提供的虛擬機(jī),實(shí)現(xiàn)其下的云資源監(jiān)控,預(yù)測(cè)和彈性分配功能.結(jié)果表明:該系統(tǒng)能準(zhǔn)確預(yù)測(cè)虛擬機(jī)的需求量,所制定的資源彈性分配策略能夠提高云資源的利用率,進(jìn)一步節(jié)約成本. 關(guān)鍵詞: 云計(jì)算; 負(fù)載預(yù)測(cè); 自回歸積分滑動(dòng)平均模型; 彈性計(jì)算; 云監(jiān)控
隨著云計(jì)算技術(shù)的成熟,云時(shí)代已經(jīng)到來.伴隨著云服務(wù)的大規(guī)模部署與應(yīng)用,云數(shù)據(jù)中心中資源利用率低,導(dǎo)致的高能耗問題逐漸凸顯[1].要解決云資源彈性優(yōu)化配置的問題需要分為3步:首先,需要有效的云資源監(jiān)控系統(tǒng);然后,根據(jù)資源和負(fù)載監(jiān)控?cái)?shù)據(jù),通過預(yù)測(cè)模型對(duì)負(fù)載進(jìn)行預(yù)測(cè);最后,根據(jù)對(duì)負(fù)載的預(yù)測(cè),定制云資源動(dòng)態(tài)配置策略,從而實(shí)現(xiàn)云資源彈性優(yōu)化配置,其中,云資源的負(fù)載預(yù)測(cè)和資源彈性配置是整個(gè)流程中需要解決的難點(diǎn).Nilabja等[2]提出基于模式匹配方法對(duì)資源需求量進(jìn)行預(yù)測(cè);Xu等[3]提出基于AR(autoregressive)預(yù)測(cè)模型的方法對(duì)CPU使用率進(jìn)行預(yù)測(cè);Mdtoukir等[4]提出基于神經(jīng)網(wǎng)絡(luò)模型的方法對(duì)資源利用率進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)值對(duì)資源進(jìn)行調(diào)整;Li等[5]提出基于貝葉斯網(wǎng)絡(luò)的資源預(yù)測(cè)方法,進(jìn)行秒級(jí)的資源使用率預(yù)測(cè);Gong等[6]提出基于統(tǒng)計(jì)學(xué)習(xí)方法對(duì)應(yīng)用負(fù)載預(yù)測(cè)的方法,通過預(yù)測(cè)的資源需求量,提前進(jìn)行資源分配.文獻(xiàn)[2,4-5]所采用的預(yù)測(cè)方法時(shí)間復(fù)雜度過高,會(huì)影響系統(tǒng)性能,使預(yù)測(cè)過程本身成為主要的系統(tǒng)資源開銷;文獻(xiàn)[3]采用基于AR模型的預(yù)測(cè)方法,忽視了負(fù)載的周期性變化規(guī)律.本文引入基于自回歸積分滑動(dòng)平均模型(autoregressive integrated moving average model,ARIMA)的預(yù)測(cè)方法進(jìn)行負(fù)載預(yù)測(cè).
1.1 云監(jiān)控動(dòng)機(jī)
云監(jiān)控是一個(gè)對(duì)于云服務(wù)提供方(云服務(wù)方)和云服務(wù)用戶方(云用戶方)同樣重要的服務(wù).對(duì)云計(jì)算和它的服務(wù)水平協(xié)議(SLA)進(jìn)行持續(xù)的監(jiān)控,可以為服務(wù)方和用戶方提供許多關(guān)鍵信息,對(duì)云環(huán)境構(gòu)建云監(jiān)控系統(tǒng)有很多原因[7],最重要的原因包括:1) 容量和資源管理;2) 服務(wù)水平協(xié)議管理;3) 性能管理;4) 故障恢復(fù);5) 安全管理.
1.2 云監(jiān)控系統(tǒng)的架構(gòu)
云監(jiān)控系統(tǒng)架構(gòu)分為3層:基礎(chǔ)設(shè)施層、匯聚層和視圖層.基礎(chǔ)設(shè)施層包含了OpenStack運(yùn)行所必須的物理設(shè)備和虛擬設(shè)備,其為OpenStack運(yùn)行的基礎(chǔ),同時(shí)也是被監(jiān)控的對(duì)象.主要監(jiān)控對(duì)象包括:服務(wù)器、核心交換機(jī)、KVM虛擬機(jī)、Xen虛擬機(jī)等.匯聚層的功能是收集和匯總監(jiān)控?cái)?shù)據(jù),將數(shù)據(jù)傳遞給視圖層用于展示和告警.其主要的組件包括:物理機(jī)監(jiān)控agent、虛擬機(jī)監(jiān)控agent和群集數(shù)據(jù)匯總節(jié)點(diǎn).視圖層的功能是為用戶展示系統(tǒng)運(yùn)行狀況,并根據(jù)預(yù)定義的告警閾值發(fā)送故障信息.告警機(jī)制主要依賴于Nagios Core[8]實(shí)現(xiàn),運(yùn)行情況的可視化展示依賴于RRD(round robin database)工具.
1.3 模型的部署
一方面云監(jiān)控系統(tǒng)的部署使用多臺(tái)獨(dú)立的監(jiān)控服務(wù)器構(gòu)成監(jiān)控群集;另一方面,在OpenStack私有云中將一定數(shù)量的物理服務(wù)器分成一個(gè)群集.各群集中的每臺(tái)物理服務(wù)器上面運(yùn)行物理機(jī)監(jiān)控agent,一個(gè)群集中的所有的物理機(jī)監(jiān)控agent,把獲取的監(jiān)控?cái)?shù)據(jù)統(tǒng)一發(fā)送到本群集對(duì)應(yīng)的群集數(shù)據(jù)匯聚節(jié)點(diǎn).各群集的群集數(shù)據(jù)匯聚節(jié)點(diǎn)負(fù)責(zé)收集它所在群集的監(jiān)控?cái)?shù)據(jù),統(tǒng)一匯總后發(fā)送到監(jiān)控服務(wù)器群集,歷史監(jiān)控?cái)?shù)據(jù)存儲(chǔ)于后臺(tái)數(shù)據(jù)庫(kù),虛擬機(jī)也按照一定數(shù)量劃分為一個(gè)群集.云用戶方和云實(shí)時(shí)查看監(jiān)控?cái)?shù)據(jù)獲取報(bào)警信息.
2.1 ARIMA模型
ARIMA模型提供了一種對(duì)時(shí)間序列數(shù)據(jù)做預(yù)測(cè)的方法,模型記作ARIMA(p,d,q).ARIMA模型是AR模型、MA模型和ARMA模型[9]的組合.ARIMA(p,d,q)模型[10]的表達(dá)式為
(1)
式(1)中: εt為零均值隨機(jī)干擾序列;xt為負(fù)載序列;d=(1-B)d表示時(shí)間序列的d階差分;Φ(B)=1-φ1B-…-φpBp表示ARMA(p,q)模型的自回歸系數(shù)多項(xiàng)式;Θ(B)=1-θ1B-…-θqBq表示平穩(wěn)可逆ARMA(p,q)模型的移動(dòng)平滑系數(shù)多項(xiàng)式.
2.2 分布式預(yù)測(cè)模型
云環(huán)境中運(yùn)行了大量的Web服務(wù)器,它們每小時(shí)產(chǎn)生的訪問日志的數(shù)量巨大.為了加速訪問日志處理和負(fù)載預(yù)測(cè)過程,采用Hadoop群集存儲(chǔ)和處理Web訪問日志,設(shè)計(jì)了一種分布式預(yù)測(cè)模型.分布式預(yù)測(cè)流程如圖1所示.
圖1 分布式預(yù)測(cè)流程圖Fig.1 Distributed forecast flowchart
每臺(tái)Web Server都在本地存儲(chǔ)了一份自身的Web訪問日志.通過crontab定時(shí)任務(wù)程序,定時(shí)將Web日志文件拷貝到HDFS分布式文件系統(tǒng)中.Map-Reduce群集運(yùn)行于多臺(tái)服務(wù)器上,利用分布式并行計(jì)算的高效性,通過讀取HDFS分布式文件系統(tǒng)中存儲(chǔ)的日志文件,提升計(jì)算訪問負(fù)載的時(shí)間序列數(shù)據(jù)的效率.
2.3 預(yù)測(cè)與資源優(yōu)化配置
在云環(huán)境中的應(yīng)用負(fù)載,Web服務(wù)有顯著的時(shí)域波動(dòng)特征,所以采用季節(jié)性的ARIMA模型,可以預(yù)測(cè)負(fù)載.算法中:C為負(fù)載周期,24 h;n為用于預(yù)測(cè)的樣本周期數(shù);T為預(yù)測(cè)的時(shí)間片;Lmax為單臺(tái)虛擬機(jī)的最大負(fù)載量;α為額外分配的資源比例.其算法主要流程如下:
1) 從歷史監(jiān)控?cái)?shù)據(jù)中取出最近的C·n個(gè)數(shù)據(jù)作為輸入樣本序列W;
3) 根據(jù)預(yù)測(cè)負(fù)載進(jìn)行資源分配:計(jì)算下一個(gè)時(shí)間片T+1時(shí)的預(yù)估資源需求S(T+1)=(1+α)Lw/Lmax;若S(T+1)>S(T),則通過云控制器自動(dòng)啟動(dòng)ΔS個(gè)虛擬機(jī);若S(T+1)
4) 通過云監(jiān)控系統(tǒng)獲取當(dāng)前實(shí)際的負(fù)載數(shù)據(jù)并存入歷史數(shù)據(jù)中,轉(zhuǎn)至流程1).
3.1 實(shí)驗(yàn)平臺(tái)
實(shí)驗(yàn)環(huán)境,如圖 2所示.實(shí)驗(yàn)環(huán)境中:6臺(tái)HP DL388 Gen8服務(wù)器分別擔(dān)任了OpenStack云環(huán)境中6個(gè)不同角色的節(jié)點(diǎn),Controller是控制節(jié)點(diǎn);Network是網(wǎng)絡(luò)節(jié)點(diǎn);Compute0是計(jì)算節(jié)點(diǎn)0;Compute1是計(jì)算節(jié)點(diǎn)1;NTP-server是時(shí)間同步服務(wù)器;monitor-server是監(jiān)控服務(wù)器.實(shí)驗(yàn)環(huán)境劃分了2個(gè)網(wǎng)段:一個(gè)是192.168.11.0/24網(wǎng)段,它運(yùn)行TCP/IP協(xié)議,6臺(tái)物理服務(wù)節(jié)點(diǎn)通過三層交換機(jī)互聯(lián),并且通過路由器接入Internet;另外一個(gè)是10.0.0.0/24網(wǎng)段,它運(yùn)行GRE tunnel,是OpenStack云系統(tǒng)中的各組件互相通信的私有網(wǎng)絡(luò).
3.2 數(shù)據(jù)獲取
在實(shí)驗(yàn)平臺(tái)中運(yùn)行多臺(tái)虛擬機(jī),如圖3所示.圖3中:1臺(tái)作為Nginx負(fù)載均衡器;1臺(tái)作為MySQL數(shù)據(jù)庫(kù)服務(wù)器;n臺(tái)作為運(yùn)行PHP Web服務(wù)器;另運(yùn)行m臺(tái)虛擬機(jī)模擬用戶,作為客戶端產(chǎn)生負(fù)載壓力.根據(jù)文獻(xiàn)[1]和實(shí)際云環(huán)境(如Amazon 云的服務(wù)計(jì)費(fèi)方式以小時(shí)為單位),采用每小時(shí)的訪問量作為監(jiān)控系統(tǒng)采樣和預(yù)測(cè)的頻率.通過云監(jiān)控系統(tǒng)獲取得到2014年9月17日-2014年9月21日的該網(wǎng)站每小時(shí)的下載訪問量.
圖2 實(shí)驗(yàn)環(huán)境 圖3 負(fù)載數(shù)據(jù)獲取平臺(tái)Fig.2 Experimental environment Fig.3 Load data acquisition platform
3.3 數(shù)據(jù)建模與預(yù)測(cè)
負(fù)載預(yù)測(cè)方法下,實(shí)驗(yàn)過程中選取了不同階段的數(shù)據(jù)在Holt-Winters乘法模型[12]和基于ARIMA季節(jié)性模型的預(yù)測(cè)結(jié)果.鑒于篇幅限制,這里只選取有代表性的部分預(yù)測(cè)實(shí)驗(yàn)結(jié)果進(jìn)行說明,根據(jù)參數(shù)估計(jì)和模型定階過程得出適用的模型為ARIMA(1,1,1),其擬合公式為
(2)
使用矩估計(jì)方法對(duì)位置參數(shù)進(jìn)行估計(jì),求得參數(shù)為
(3)
預(yù)測(cè)結(jié)果,如圖4所示.由圖4可知:基于ARIMA季節(jié)性模型的預(yù)測(cè)結(jié)果比Holt-Winters乘法模型預(yù)測(cè)結(jié)果更接近實(shí)際負(fù)載.
圖4 預(yù)測(cè)值與實(shí)際監(jiān)控值對(duì)比Fig.4 Comparison of predictive values and monitoring values
預(yù)測(cè)結(jié)果對(duì)比,如表1所示.表1中:max(AE)為最大絕對(duì)誤差;min(AE)為最小絕對(duì)誤差;MAE為平均絕對(duì)誤差;MRE為平均相對(duì)誤差,即
(4)
MSE為預(yù)測(cè)均方差,即
(5)
由表1可知:基于ARIMA季節(jié)模型的預(yù)測(cè)結(jié)果明顯優(yōu)于Holt-Winters乘法模型;從平均絕對(duì)誤差來看,基于ARIMA季節(jié)模型預(yù)測(cè)的平均絕對(duì)誤差約為Holt-Winters乘法模型的1/6;從平均相對(duì)誤差來看,基于ARIMA季節(jié)模型為14%,比Holt-Winters乘法模型提高將近16倍,并且基于ARIMA季節(jié)模型預(yù)測(cè)誤差的均方差也較小,最大絕對(duì)誤差和最小絕對(duì)誤差也明顯小于Holt-Winters乘法模型.
表1 預(yù)測(cè)結(jié)果對(duì)比Tab.1 Comparison of predicted results
3.4 資源需求分析與優(yōu)化配置
云環(huán)境中的虛擬機(jī)的硬件配置直接決定其最大負(fù)載的處理能力.vCPU、內(nèi)存的數(shù)量和虛擬機(jī)負(fù)載量成正比關(guān)系為
(6)
式(6)中:P(vCPU)和P(mem)分別表示vCPU和內(nèi)存的配置數(shù)量;T(Load)表示在該vCPU或內(nèi)存配置下虛擬機(jī)所能承受的負(fù)載量,對(duì)虛擬機(jī)負(fù)載量的預(yù)測(cè)值可以作為虛擬機(jī)資源配置的依據(jù).
表2 虛擬機(jī)價(jià)格模型Tab.2 VM's price model
云平臺(tái)中3種類型的虛擬機(jī)的配置、費(fèi)用和負(fù)載量,如表2所示.其費(fèi)用標(biāo)準(zhǔn)參考AWS的EC2定價(jià)規(guī)則,各配置下的負(fù)載量由實(shí)驗(yàn)平臺(tái)實(shí)際測(cè)試獲得.為優(yōu)化虛擬機(jī)資源配置,假定以每日最小的經(jīng)濟(jì)成本為目標(biāo).提出虛擬機(jī)資源優(yōu)化配置函數(shù)為
(7)
式(7)中:NS為Small類型虛擬機(jī)所需數(shù)量;NM為Medium類型虛擬機(jī)所需數(shù)量;NL為L(zhǎng)arge類型虛擬機(jī)所需數(shù)量;Lf為預(yù)測(cè)的負(fù)載值,t為虛擬機(jī)租用時(shí)長(zhǎng)(h).
由式(7)資源優(yōu)化配置函數(shù),得到21日每小時(shí)的虛擬機(jī)資源彈性配置策略.其中,0:00-11:59和12:00-23:59的虛擬機(jī)資源彈性配置策略,分別如圖5,6所示.圖5,6中:S表示配置為Small的1臺(tái)虛擬機(jī);折線表示每小時(shí)的預(yù)測(cè)負(fù)載量.根據(jù)資源配置策略,21日虛擬機(jī)租用成本為7.41 美元.如果不引入彈性資源配置策略,為滿足最大負(fù)載量下網(wǎng)站訪問的可用性,需要租用5臺(tái)配置Small的虛擬機(jī)24 h,租用成本為15.6 美元.經(jīng)計(jì)算可知,采用彈性資源配置策略,可以在保證服務(wù)質(zhì)量前提下21日節(jié)約52.5%的經(jīng)濟(jì)成本.
圖5 0:00-11:59虛擬機(jī)資源彈性配置策略Fig.5 VM′s resource elastic allocation strategy from 0:00 to 11:59
圖6 12:00-23:59虛擬機(jī)資源彈性配置策略Fig.6 VM′s resource elastic allocation strategy from 12:00 to 23:59
研究OpenStack云環(huán)境下基于監(jiān)控與預(yù)測(cè)的虛擬機(jī)資源彈性配置策略,包括云監(jiān)控模塊、虛擬機(jī)負(fù)載預(yù)測(cè)模塊和虛擬機(jī)資源彈性配置模塊.其中:基于OpenStack的云監(jiān)控模塊能夠?qū)崟r(shí)監(jiān)控云環(huán)境中虛擬機(jī)負(fù)載情況.提出了云環(huán)境中虛擬機(jī)負(fù)載的預(yù)測(cè)與資源彈性配置模型、算法.實(shí)驗(yàn)結(jié)果表明:基于監(jiān)控和預(yù)測(cè)的云環(huán)境中虛擬機(jī)資源彈性配置方法,能夠提高云資源利用率,降低成本.
有待進(jìn)一步深入的研究工作如下:1) 進(jìn)一步優(yōu)化云資源負(fù)載預(yù)測(cè)模型,提高預(yù)測(cè)精度;2) 將云監(jiān)控與資源預(yù)測(cè)、彈性配置模塊整合,實(shí)現(xiàn)虛擬機(jī)資源的自動(dòng)化部署與管理,使得研究?jī)?nèi)容應(yīng)用到實(shí)際的生產(chǎn)環(huán)境中.
[1] 葉可江,吳朝暉,姜曉紅,等.虛擬化云計(jì)算平臺(tái)的能耗管理[J].計(jì)算機(jī)學(xué)報(bào),2012,35(6):1262-1285.
[2] ROY N,ABHISHEK D,ANIRUDDHA G.Efficient autoscaling in the cloud using predictive models for workload forecasting[C]∥International Conference on In Cloud Computing.Washington D C:IEEE Press,2011:500-507.
[3] XU Wei,XIAO Yunzhu,SHARAD S,etal.Predictive control for dynamic resource allocation in enterprise data centers[C]∥Network Operations and Management Symposium.Busan:IEEE Press,2006:115-126.
[4] IMAM M,SHEIKH F M,RAHMAN R M,etal.Neural network and regression based processor load prediction for efficient scaling of grid and cloud resources[C]∥14th International Conference on Computer and Information Technology.Dhaka:IEEE Press,2011:333-338.
[5] LI Jian,KAI Shuang,SEN Su,etal.Reducing operational costs through consolidation with resource prediction in the cloud[C]∥12th IEEE/ACM International Symposium on Cloud and Grid Computing.Ottawa:IEEE Press,2012:793-798.
[6] GONG Zhenhuan,GU Xiaohui.Predictive elastic resource scaling for cloud systems[C]∥International Conference onIn Network and Service Management.Paris:IEEE Press,2010:9-16.
[7] GIUSEPPE A,BOTTA A,de DONATO W,etal.Cloud Monitoring: Definitions, issues and future directions[C]∥2012 IEEE 1st International Conference on In Cloud Networking.Paris:IEEE Press,2012:63-67.
[8] JOSEPHSEN D.Nagios: Building enterprise-grade monitoring infrastructures for systems and networks[M].Upper Saddle River:Prentice Hall Press,2013:15-22.
[9] GEORGE E P B,GWILYM M,JENKINS G C,etal.Time series analysis: Forecasting and control[M].Hoboken:John Wiley and Sons,2013:35-40.
[10] CALHEIROS R,MASOUMI E,RANJAN R,etal.Workload prediction using ARIMA model and its impact on cloud applications QoS[J].IEEE Transactions on Cloud Computing,2014,3(4):1-11.
[11] JAMES G.Numerical distribution functions for unit root and cointegration tests[J].Journal of Applied Econometrics,1996,11(6):601-618.
[12] 王燕.應(yīng)用時(shí)間序列分析[M].北京:中國(guó)人民大學(xué)出版社,2008:164-169.
(責(zé)任編輯: 陳志賢 英文審校: 吳逢鐵)
Cloud Resource Optimization Configuration Based on Cloud Monitoring and Prediction
JIANG Kun, CHEN Yonghong, TIAN Hui,WANG Tian, CAI Yiqiao
(College of Computer Science and Technology, Huaqiao University, Xiamen 361021, China)
In order to solve the problem under the cloud of virtual machine resources are idle most of the time, resulting in a cloud resource utilization is low, we designs a cloud resource monitoring system in this paper. And a dynamic load forecasting and resource allocation method is proposed based on cloud monitoring and a autoregressive integrated moving average (ARIMA) model . This method makes use of the relationship between the load and the virtual machine′s virtual hardware configuration by predicting loads and pre-starting or suspending a virtual machine to improve the utilization of cloud resources. Our studies realize monitoring, forecasting cloud resources and elastic cloud resources allocation based on the virtual machines in the OpenStack cloud environment. Finally, the result shows that: the system can accurately predict the demand for virtual machines and elastic cloud resources allocation policies can imporve the utilization of cloud resources and drive cost savings.
cloud computing; workload prediction; autoregressive integrated moving average model; elastic calculation; cloud monitoring
10.11830/ISSN.1000-5013.201704024
2014-12-30
陳永紅(1974-),男,教授,博士,主要從事計(jì)算機(jī)網(wǎng)絡(luò)和信息安全的研究.E-mail:djandcyh@163.com.
國(guó)家自然科學(xué)基金面上資助項(xiàng)目(61370007); 福建省自然科學(xué)基金面上資助項(xiàng)目(2013J01241); 華僑大學(xué)國(guó)家自然科學(xué)基金培育項(xiàng)目(JB-ZR1131); 華僑大學(xué)高層次人才科研啟動(dòng)項(xiàng)目(10Y0199)
TP 391.4
A
1000-5013(2017)04-0573-06