王恩旭,王曉紅,張 坤,張冬雯
(河北科技大學(xué) 信息科學(xué)與工程學(xué)院,石家莊 050018)
近年來(lái),隨著云計(jì)算的興起和信息技術(shù)的快速發(fā)展,云計(jì)算[1]的應(yīng)用逐漸進(jìn)入人們的視野。但隨著用戶量的不斷增加,越來(lái)越多的云計(jì)算數(shù)據(jù)中心存在能源消耗過(guò)高的問(wèn)題,因此降低服務(wù)器集群的能耗成為云計(jì)算技術(shù)發(fā)展的重要研究方向[2]。CPU和內(nèi)存等資源的消耗是服務(wù)器的主要能耗來(lái)源,分析CPU 和內(nèi)存等資源的負(fù)載模式和特點(diǎn)對(duì)于提高資源利用率和降低能耗具有重要意義[3]。服務(wù)器資源分配不均勻,會(huì)造成數(shù)據(jù)中心服務(wù)器資源的浪費(fèi),是服務(wù)器集群能耗過(guò)大的主要因素之一。目前解決數(shù)據(jù)中心資源利用率不平橫問(wèn)題已經(jīng)成為云計(jì)算發(fā)展的挑戰(zhàn)[4]。提高服務(wù)器資源的利用率和合理的資源分配可以有效地緩解資源浪費(fèi)和能耗高的問(wèn)題。如果可以對(duì)數(shù)據(jù)中心資源使用量做出預(yù)測(cè),就可提前對(duì)資源進(jìn)行分配和管理,即可有效地提高服務(wù)器資源的利用率和降低數(shù)據(jù)中心能耗[5]。
負(fù)載預(yù)測(cè)[6]是關(guān)于集群資源管理的關(guān)鍵技術(shù),在服務(wù)器正常運(yùn)行的前提下,每隔一定時(shí)間對(duì)各臺(tái)服務(wù)器進(jìn)行CPU 和內(nèi)存等資源信息的數(shù)據(jù)采集,通過(guò)對(duì)云數(shù)據(jù)中心所采集的歷史數(shù)據(jù)進(jìn)行分析,掌握負(fù)載數(shù)據(jù)的走勢(shì)和變化規(guī)律,從而進(jìn)行下一個(gè)周期負(fù)載值的預(yù)測(cè)。通過(guò)負(fù)載預(yù)測(cè)可以合理地分配云數(shù)據(jù)中心的資源,達(dá)到提高資源利用率和降低能耗的效果[7]。因此,針對(duì)于降低數(shù)據(jù)中心的能耗和提高服務(wù)器的資源利用率,負(fù)載預(yù)測(cè)技術(shù)具有很高的研究?jī)r(jià)值。
云計(jì)算資源的負(fù)載預(yù)測(cè)是一個(gè)典型的時(shí)間序列預(yù)測(cè)問(wèn)題,建立準(zhǔn)確的時(shí)序預(yù)測(cè)模型是負(fù)載預(yù)測(cè)研究工作的重點(diǎn)?;谏疃葘W(xué)習(xí)的長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)是當(dāng)前比較流行的時(shí)序預(yù)測(cè)模型,但對(duì)于云計(jì)算服務(wù)器各個(gè)特征的時(shí)序數(shù)據(jù),每個(gè)特征和每個(gè)時(shí)間節(jié)點(diǎn)信息對(duì)于預(yù)測(cè)結(jié)果的影響可能各不相同。LSTM 網(wǎng)絡(luò)將所有信息以相同的重視程度進(jìn)行預(yù)測(cè),并無(wú)法區(qū)分每個(gè)特征和時(shí)間節(jié)點(diǎn)的重要程度。而且,當(dāng)前很多對(duì)負(fù)載預(yù)測(cè)的研究大多只針對(duì)服務(wù)器某個(gè)特征的時(shí)序情況進(jìn)行預(yù)測(cè),單一特征無(wú)法全面地反映當(dāng)前服務(wù)器的負(fù)載情況。
針對(duì)于以上問(wèn)題,本文基于負(fù)載預(yù)測(cè)模型引入雙重注意力機(jī)制的思想,搭建雙重注意力機(jī)制網(wǎng)絡(luò)模型,自適應(yīng)地提高網(wǎng)絡(luò)對(duì)各階段時(shí)序信息的注意程度,動(dòng)態(tài)挖掘服務(wù)器各特征之間的潛在相關(guān)性,并且使用CRITIC 客觀賦權(quán)法對(duì)CPU 利用率和內(nèi)存利用率等特征進(jìn)行加權(quán)求和,以確定服務(wù)器獲得負(fù)載值的時(shí)序數(shù)據(jù)。通過(guò)對(duì)服務(wù)器負(fù)載值進(jìn)行預(yù)測(cè),以更加全面準(zhǔn)確地體現(xiàn)服務(wù)器下一時(shí)刻的負(fù)載狀態(tài)。
云計(jì)算資源的負(fù)載預(yù)測(cè)是一個(gè)典型的時(shí)序預(yù)測(cè)問(wèn)題,利用歷史負(fù)載數(shù)據(jù)建立時(shí)序預(yù)測(cè)模型,對(duì)未來(lái)的趨勢(shì)與走向進(jìn)行分析和預(yù)測(cè)。本文將目前流行的負(fù)載預(yù)測(cè)研究分為基于機(jī)器學(xué)習(xí)的預(yù)測(cè)方法和基于神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法兩大類。
基于機(jī)器學(xué)習(xí)的負(fù)載預(yù)測(cè)方法可變參數(shù)較少更容易把握最優(yōu)參數(shù),在訓(xùn)練數(shù)據(jù)集較少時(shí)更具有優(yōu)勢(shì)。由于云計(jì)算環(huán)境的動(dòng)態(tài)性和復(fù)雜性,文獻(xiàn)[8]提出一種基于支持向量回歸的多步提前CPU 負(fù)載預(yù)測(cè)方法,并且結(jié)合卡爾曼平滑技術(shù)進(jìn)一步減小預(yù)測(cè)誤差。為捕捉到復(fù)雜的非線性特征,文獻(xiàn)[9]提出一種改進(jìn)的線性回歸方法來(lái)預(yù)測(cè)主機(jī)的CPU 使用率,但前提是主機(jī)負(fù)載變化趨勢(shì)在短期內(nèi)必須為線性的。文獻(xiàn)[10]提出一種將小波分解和ARIMA 相結(jié)合的混合方法進(jìn)行時(shí)序預(yù)測(cè),通過(guò)SavitzkyGolay 濾波進(jìn)行平滑,再根據(jù)小波分解將平滑的時(shí)間序列分解為多個(gè)分量,分別針對(duì)趨勢(shì)和分量的統(tǒng)計(jì)特征建立ARIMA 模型,但這種方法對(duì)數(shù)據(jù)的穩(wěn)定性有更高的要求。文獻(xiàn)[11]提出一種基于二次指數(shù)平滑的Stacking 集成預(yù)測(cè)模型對(duì)彈性云服務(wù)器進(jìn)行預(yù)測(cè),但是該模型需要進(jìn)行多次構(gòu)造,并且實(shí)現(xiàn)復(fù)雜。為了提高模型精度,文獻(xiàn)[12]提出將負(fù)載信息分解為線性部分和非線性部分的思想,并將ARIMA 模型和CART 模型相結(jié)合進(jìn)行預(yù)測(cè),使得模型的最終預(yù)測(cè)值比傳統(tǒng)模型預(yù)測(cè)值更加精確。
基于神經(jīng)網(wǎng)絡(luò)的負(fù)載預(yù)測(cè)方法對(duì)預(yù)測(cè)非線性和噪聲水平高的數(shù)據(jù)更具有優(yōu)勢(shì),更適用于數(shù)據(jù)集較為龐大的數(shù)據(jù)。針對(duì)云資源時(shí)間序列的負(fù)載預(yù)測(cè)問(wèn)題,文獻(xiàn)[13]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)預(yù)測(cè)云主機(jī)CPU 利用率,證明了RNN 優(yōu)于傳統(tǒng)方法,但是使用結(jié)果表面隨著預(yù)測(cè)的步長(zhǎng)增加,網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性會(huì)逐漸下降。文獻(xiàn)[14]嘗試使用LSTM 對(duì)云服務(wù)器的負(fù)載進(jìn)行預(yù)測(cè),并使用RMSE、MSE 和MAE 3 個(gè)指標(biāo)對(duì)預(yù)測(cè)精度進(jìn)行衡量,獲得了較好的效果,確定了LSTM 模型用于負(fù)載預(yù)測(cè)的可行性。文獻(xiàn)[15]提出基于概率預(yù)測(cè)和改進(jìn)的多層LSTM 的云資源預(yù)測(cè)模型,為了減少模型的過(guò)擬合現(xiàn)象,通過(guò)改進(jìn)似然函數(shù)隨機(jī)丟棄中間輸出,取得了不錯(cuò)的效果。文獻(xiàn)[16]提出一種基于遺傳算法的神經(jīng)網(wǎng)絡(luò)負(fù)載預(yù)測(cè)方法,有效提高了網(wǎng)絡(luò)模型的收斂速度和預(yù)測(cè)精度。文獻(xiàn)[17]提出一種基于ARIMA 和LSTM 的組合預(yù)測(cè)模型對(duì)云平臺(tái)資源進(jìn)行預(yù)測(cè),并利用CRITIC 將兩個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)組合。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于單一的預(yù)測(cè)模型,但存在梯度消失的問(wèn)題。文獻(xiàn)[18]針對(duì)主機(jī)負(fù)載中復(fù)雜的噪聲變化,提出一種由一維卷積神經(jīng)網(wǎng)絡(luò)和LSTM 組成的混合預(yù)測(cè)方法,用于在多個(gè)連續(xù)時(shí)間步預(yù)測(cè)云服務(wù)器上的CPU 利用率,有效緩解了噪聲對(duì)負(fù)載預(yù)測(cè)影響。文獻(xiàn)[19]提出一種基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器-解碼器的多步在線預(yù)測(cè)模型,該模型可以對(duì)主機(jī)的負(fù)載進(jìn)行多步預(yù)測(cè),且具有一定的穩(wěn)定性,但其只考慮了服務(wù)器CPU 利用率這一個(gè)維度的信息,并沒(méi)有考慮如內(nèi)存或網(wǎng)絡(luò)等其他維度信息。文獻(xiàn)[20]將殘差連接與LSTM 網(wǎng)絡(luò)相結(jié)合,提出一種新的CPU 負(fù)載預(yù)測(cè)模型,并且使用阿里巴巴Cluster-trace-v2018 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),說(shuō)明了殘差連接和注意力機(jī)制網(wǎng)絡(luò)相結(jié)合的有效性。文獻(xiàn)[21]通過(guò)綜合考慮預(yù)測(cè)精度和預(yù)測(cè)時(shí)間兩方面因素,提出一種基于GRU 與LSTM 的組合預(yù)測(cè)模型,結(jié)合LSTM 預(yù)測(cè)精度高與門控循環(huán)單元(Gate Recurrent Unit,GRU)預(yù)測(cè)時(shí)間短的優(yōu)點(diǎn),對(duì)云計(jì)算資源負(fù)載進(jìn)行高效預(yù)測(cè),但在多個(gè)特征維度和時(shí)間序列內(nèi)在關(guān)聯(lián)性的捕獲上并不敏感。文獻(xiàn)[22]提出一種基于iForest-BiLSTM-Attention 的負(fù)載預(yù)測(cè)方法,該方法結(jié)合注意力機(jī)制與雙向長(zhǎng)短期記憶網(wǎng)絡(luò),計(jì)算隱層狀態(tài)和注意力權(quán)值,對(duì)負(fù)載數(shù)據(jù)進(jìn)行預(yù)測(cè),但未考慮到特征維度信息對(duì)預(yù)測(cè)的影響,只是單一維度對(duì)注意力權(quán)重進(jìn)行加權(quán)。文獻(xiàn)[23]設(shè)計(jì)并實(shí)現(xiàn)一個(gè)基于注意力的GRU 負(fù)載預(yù)測(cè)模型,并與沒(méi)有注意力機(jī)制的GRU 進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了注意力機(jī)制可以有效提高預(yù)測(cè)的準(zhǔn)確度,但該模型只考慮了時(shí)序注意力,對(duì)特征注意力權(quán)重的捕獲并不敏感。
針對(duì)大多研究對(duì)特征維度和時(shí)間序列內(nèi)在關(guān)聯(lián)性的捕獲不敏感問(wèn)題,本文在負(fù)載預(yù)測(cè)中引入了雙重注意力機(jī)制的思路,加強(qiáng)了各階段時(shí)序信息和各特征之間的潛在相關(guān)性,評(píng)估出各時(shí)序信息和特征信息的重要程度。雙重注意力機(jī)制網(wǎng)絡(luò)模型可以動(dòng)態(tài)地捕獲時(shí)序信息和特征信息的權(quán)重關(guān)系,不僅提高了單步和多步預(yù)測(cè)的精確度,同時(shí)也提高了預(yù)測(cè)結(jié)果的穩(wěn)定性。
本文提出使用客觀賦權(quán)法求得服務(wù)器CPU 使用率、內(nèi)存使用率和磁盤I/O 等特征的權(quán)重,進(jìn)而計(jì)算出服務(wù)器負(fù)載值的時(shí)序數(shù)據(jù)。受CRITIC 方法的啟發(fā)[24],針對(duì)對(duì)比度的考量,標(biāo)準(zhǔn)差可以反映各項(xiàng)特征的變異程度;相關(guān)系數(shù)可以體現(xiàn)出各項(xiàng)特征的沖突性,如果兩個(gè)特征之間具有較強(qiáng)的正相關(guān),說(shuō)明兩個(gè)特征沖突性較低;如果具有較強(qiáng)的負(fù)相關(guān),則說(shuō)明兩個(gè)特征沖突性較高。通過(guò)負(fù)載值的數(shù)據(jù)可以有效了解當(dāng)前各個(gè)云計(jì)算數(shù)據(jù)中心服務(wù)器的負(fù)載情況,進(jìn)而預(yù)測(cè)出下一個(gè)時(shí)間單位的負(fù)載情況,并提前進(jìn)行相應(yīng)的操作和處理,達(dá)到合理分配數(shù)據(jù)中心資源的效果,同時(shí)可以有效提高資源利用率和降低能耗。
假設(shè)數(shù)據(jù)中心中n個(gè)主機(jī)收集到的特征數(shù)據(jù)分別為X={X1,X2,…,Xi,…,Xn},其中,Xi為第i臺(tái)服務(wù)器特征向量集合Xi={C1,C2,…,Cj,…,Cm},Xi定期從服務(wù)器收集特征信息,如CPU 使用率、內(nèi)存使用率、磁盤I/O 使用率等信息。其中每個(gè)Cj均具有T個(gè)歷史數(shù)據(jù),用于預(yù)測(cè)T+1 時(shí)刻的數(shù)據(jù),即Cj={cj,1,cj,2,…,cj,t,…,cj,T}。求取負(fù)載值權(quán)重方法如下:
其中:Ij為信息量,表示第j個(gè)特征對(duì)服務(wù)器的負(fù)載影響程度;σj表示第j個(gè)特征的標(biāo)準(zhǔn)差;rkj表示第k個(gè)特征與第j個(gè)特征之間的相關(guān)系數(shù)。Ij值越大,第j個(gè)特征對(duì)服務(wù)器負(fù)載的影響程度就越大,該特征重要性也就越大。因此,第j個(gè)特征的客觀權(quán)重ωj的計(jì)算公式如下:
通過(guò)ωj數(shù)據(jù)即可求取數(shù)據(jù)中心每臺(tái)服務(wù)器負(fù)載值的時(shí)序數(shù)據(jù)。負(fù)載值時(shí)序數(shù)據(jù)計(jì)算公式如下:
其中:L為數(shù)據(jù)中心某臺(tái)服務(wù)器負(fù)載值時(shí)間序列數(shù)據(jù)。每個(gè)L具有T個(gè)歷史數(shù)據(jù),即L={l1,l2,…,lt,…,lT},lt為服務(wù)器某一時(shí)刻的負(fù)載值,通過(guò)負(fù)載值的時(shí)序數(shù)據(jù)即可預(yù)測(cè)T+1 時(shí)刻的負(fù)載值。
注意力機(jī)制的本質(zhì)是對(duì)數(shù)據(jù)加入相應(yīng)的權(quán)重,提高某些數(shù)據(jù)信息在訓(xùn)練過(guò)程中的重要性,LSTM神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中忽略了時(shí)序數(shù)據(jù)每個(gè)時(shí)間節(jié)點(diǎn)的重要性和每個(gè)特征的重要性,只是對(duì)信息進(jìn)行了無(wú)差別的壓縮。注意力機(jī)制可以自適應(yīng)地給數(shù)據(jù)分配注意力權(quán)重,突出重要信息對(duì)預(yù)測(cè)結(jié)果的影響。本文將雙重注意力機(jī)制的思想運(yùn)用于負(fù)載預(yù)測(cè)中,使數(shù)據(jù)在訓(xùn)練過(guò)程中自適應(yīng)地對(duì)重要信息增加權(quán)重,提高了負(fù)載預(yù)測(cè)網(wǎng)絡(luò)單步預(yù)測(cè)和多步預(yù)測(cè)的準(zhǔn)確性。雙重注意力機(jī)制網(wǎng)絡(luò)模型如圖1所示。
模型訓(xùn)練集數(shù)據(jù)首先進(jìn)入特征注意力機(jī)制模塊,自適應(yīng)地計(jì)算出每個(gè)特征對(duì)應(yīng)的權(quán)值,并將特征權(quán)值與原始數(shù)據(jù)融合。再將加權(quán)后的數(shù)據(jù)傳入LSTM 中進(jìn)行學(xué)習(xí),隨后傳入到時(shí)序注意力機(jī)制模塊,以自適應(yīng)的方式獲取LSTM 網(wǎng)絡(luò)層輸出數(shù)據(jù)的時(shí)間權(quán)重,數(shù)據(jù)在時(shí)間維度上進(jìn)行加權(quán),提高了網(wǎng)絡(luò)對(duì)每個(gè)時(shí)間步的關(guān)注程度。最后將時(shí)序注意力機(jī)制的輸出使用Flatten 函數(shù)進(jìn)行數(shù)據(jù)降維,得到[d1,d2,…,dk×T]輸入到全連接層。y1、y2和y3分別為多步預(yù)測(cè)數(shù)據(jù)結(jié)果。
2.2.1 特征注意力機(jī)制
特征注意力機(jī)制的目的是輸入數(shù)據(jù)在進(jìn)入LSTM 神經(jīng)網(wǎng)絡(luò)之前,將模型的輸入特征自適應(yīng)地動(dòng)態(tài)分配注意力權(quán)重,挖掘某些特征對(duì)預(yù)測(cè)結(jié)果的重要性。通過(guò)特征注意力機(jī)制的方式使模型增大重要特征的訓(xùn)練權(quán)重,從而減小甚至忽略對(duì)預(yù)測(cè)結(jié)果影響小的特征重視程度。傳統(tǒng)的相關(guān)性分析法會(huì)導(dǎo)致特征關(guān)聯(lián)信息丟失,而特征注意力機(jī)制可以有效緩解特征關(guān)聯(lián)信息丟失問(wèn)題。特征注意力機(jī)制網(wǎng)絡(luò)模型如圖2 所示。
圖2 特征注意力機(jī)制網(wǎng)絡(luò)模型Fig.2 Network model of characteristic attention mechanism
如圖2 特征注意力機(jī)制部分所示,以第T個(gè)時(shí)間步為例,將單時(shí)間步的m個(gè)特征CT={c1,T,c2,T,…,cm,T}輸入到由m個(gè)神經(jīng)元組成的單層神經(jīng)網(wǎng)絡(luò)計(jì)算得出特征注意力機(jī)制的權(quán)重向量αT:
本文通過(guò)自適應(yīng)的方式獲取時(shí)序數(shù)據(jù)的特征屬性,將各項(xiàng)特征的權(quán)重系數(shù)與輸入數(shù)據(jù)相融合,以提升重要特征對(duì)訓(xùn)練模型的影響,提高了預(yù)測(cè)模型的準(zhǔn)確性。
2.2.2 時(shí)序注意力機(jī)制
時(shí)序注意力機(jī)制將接收到的LSTM 隱藏層時(shí)序歷史數(shù)據(jù)信息自適應(yīng)地分配權(quán)重,以區(qū)分不同時(shí)刻對(duì)預(yù)測(cè)結(jié)果的影響。同時(shí),時(shí)序注意力機(jī)制提取各歷史數(shù)據(jù)時(shí)刻的信息,提高了網(wǎng)絡(luò)對(duì)于多步預(yù)測(cè)的準(zhǔn)確性。時(shí)序注意力機(jī)制網(wǎng)絡(luò)模型如圖3所示。
圖3 時(shí)序注意力機(jī)制網(wǎng)絡(luò)模型Fig.3 Network model of temporal attention mechanism
以第k個(gè)神經(jīng)元的輸出為例,時(shí)序注意力機(jī)制的輸入為L(zhǎng)STM 網(wǎng)絡(luò)隱藏層狀態(tài)再由k個(gè)神經(jīng)元組成的單層神經(jīng)網(wǎng)絡(luò)計(jì)算得出時(shí)序注意力機(jī)制的權(quán)重向量βT:
在獲取到數(shù)據(jù)矩陣h′=[h′1,h′2,…,h′k]后,輸入到全連接層中。
為了量化負(fù)載值預(yù)測(cè)的準(zhǔn)確性,本文提出的負(fù)載預(yù)測(cè)模型在進(jìn)行測(cè)試時(shí)使用以下評(píng)價(jià)指標(biāo):MAE、平均絕對(duì)值百分比誤差(Mean Absolute Percentage Error,MAPE)、MSE、均方根誤差(Root Mean Square Error,RMSE)和決定系數(shù)(R2)。其中,MAPE 的值越高說(shuō)明預(yù)測(cè)準(zhǔn)確度越精確,其他指標(biāo)反之。
其中:n為測(cè)試集的總個(gè)數(shù)為測(cè)試集的預(yù)測(cè)值;yi為測(cè)試集的實(shí)際值;yˉ為測(cè)試集的平均值。
為了驗(yàn)證本文提出的雙重注意力機(jī)制負(fù)載預(yù)測(cè)網(wǎng)絡(luò)的效果,使用阿里巴巴2018 年公開(kāi)的數(shù)據(jù)集Cluster-trace-v2018[25]對(duì)網(wǎng)絡(luò)行實(shí)驗(yàn)。Clustertrace-v2018 記錄了8 天4 000 多臺(tái)服務(wù)器各個(gè)特征的歷史數(shù)據(jù),其中包括CPU 使用率、內(nèi)存使用率、網(wǎng)絡(luò)帶寬的輸入輸出和磁盤使用率,采集頻率約為每次10 s。本文使用其中一臺(tái)服務(wù)器8 天的歷史數(shù)據(jù),為保證時(shí)序數(shù)據(jù)的連續(xù)性,對(duì)不連續(xù)的時(shí)間數(shù)據(jù)進(jìn)行裁剪,最后網(wǎng)絡(luò)的實(shí)驗(yàn)數(shù)據(jù)裁剪為42 000 條。其中,取前60%作為實(shí)驗(yàn)的訓(xùn)練集,取20%的作為實(shí)驗(yàn)的驗(yàn)證集,取后20%作為實(shí)驗(yàn)的測(cè)試集。數(shù)據(jù)集時(shí)序數(shù)據(jù)如圖4 所示。
將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理可以提高網(wǎng)絡(luò)的擬合速度,同時(shí)能夠提高網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性。本文采用z-score(zero-mean normalization)標(biāo)準(zhǔn)化方法對(duì)服務(wù)器各項(xiàng)特征進(jìn)行處理,如式(12)所示:
其中:xt為各項(xiàng)特征在t時(shí)刻的值為t時(shí)刻的數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)果;μ為實(shí)驗(yàn)數(shù)據(jù)所有時(shí)刻的均值;σ為數(shù)據(jù)所有時(shí)刻的標(biāo)準(zhǔn)差。
將數(shù)據(jù)集的歷史數(shù)據(jù)使用CRITIC 客觀求權(quán)法求取服務(wù)器各項(xiàng)特征的權(quán)重,獲得服務(wù)器各個(gè)時(shí)刻負(fù)載值的歷史數(shù)據(jù)。求得各項(xiàng)特征的信息量如表1所示。
表1 各項(xiàng)特征的信息量Table 1 Information amount of each characteristics
特征變異性為標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)差越大則體現(xiàn)出該特征的變異性越高,權(quán)重就會(huì)越大。特征沖突性為相關(guān)系數(shù),特征之間相關(guān)性越強(qiáng)則沖突性較低,權(quán)重越小。通過(guò)求得標(biāo)準(zhǔn)差和相關(guān)系數(shù),確定特征的信息量,進(jìn)而確定各項(xiàng)特征的權(quán)重。各項(xiàng)特征權(quán)重如圖5 所示。
相比于其他特征,CPU 使用率的權(quán)重更大,同時(shí)說(shuō)明CPU 使用率的波動(dòng)對(duì)服務(wù)器的負(fù)載有著更大的影響。網(wǎng)絡(luò)的輸入輸出只占有5%和4.9%,相比其他特征對(duì)服務(wù)器負(fù)載影響較小。通過(guò)求得的特征權(quán)重計(jì)算出服務(wù)器的負(fù)載值,輸入到網(wǎng)絡(luò)中進(jìn)行預(yù)測(cè)。
3.4.1 實(shí)驗(yàn)過(guò)程
本文使用雙重注意力機(jī)制網(wǎng)絡(luò)對(duì)服務(wù)器未來(lái)時(shí)刻進(jìn)行預(yù)測(cè)。首先獲取數(shù)據(jù)集總服務(wù)器每個(gè)時(shí)刻的特征歷史數(shù)據(jù),之后對(duì)數(shù)據(jù)集數(shù)據(jù)進(jìn)行裁剪,裁剪的目的是保證時(shí)序數(shù)據(jù)的連續(xù)性。將裁剪好的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,通過(guò)各個(gè)特征加權(quán)計(jì)算出服務(wù)器的負(fù)載值,然后將各個(gè)特征連同負(fù)載值輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。當(dāng)網(wǎng)絡(luò)訓(xùn)練完成后,使用測(cè)試集數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行評(píng)價(jià),評(píng)估網(wǎng)絡(luò)負(fù)載預(yù)測(cè)的準(zhǔn)確性。最后通過(guò)一段時(shí)間的歷史數(shù)據(jù)來(lái)預(yù)測(cè)下一時(shí)刻或多個(gè)時(shí)刻的服務(wù)器負(fù)載值。
3.4.2 實(shí)驗(yàn)環(huán)境
本文使用Python3.7 版本進(jìn)行實(shí)驗(yàn),軟硬件實(shí)驗(yàn)環(huán)境如表2 所示。
表2 實(shí)驗(yàn)環(huán)境Table 2 Experimental environment
3.4.3 網(wǎng)絡(luò)預(yù)測(cè)結(jié)果
本文提出的雙重注意力機(jī)制網(wǎng)絡(luò)預(yù)測(cè)模型為多步預(yù)測(cè)網(wǎng)絡(luò),本文截取測(cè)試集數(shù)據(jù)5 000 個(gè)時(shí)間單位的多步預(yù)測(cè)結(jié)果和真實(shí)值的比較。由于選擇預(yù)測(cè)的時(shí)間節(jié)點(diǎn)過(guò)長(zhǎng)會(huì)與真實(shí)值偏差過(guò)大,本文分別選取未來(lái)第1 個(gè)、第4 個(gè)和第10 個(gè)時(shí)間節(jié)點(diǎn)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,如圖6 所示。其中,圖6(a)~圖6(c)分別表示預(yù)測(cè)未來(lái)第1 個(gè)、第4 個(gè)和第10 個(gè)時(shí)間節(jié)點(diǎn)的真實(shí)值與預(yù)測(cè)值對(duì)比,可以看出本文的網(wǎng)絡(luò)模型對(duì)于單步或多步預(yù)測(cè)的真實(shí)值與預(yù)測(cè)值吻合度較高。
圖6 真實(shí)值和預(yù)測(cè)值對(duì)比Fig.6 Comparison of real value and predicted value
在網(wǎng)絡(luò)訓(xùn)練結(jié)束后,獲取自適應(yīng)訓(xùn)練得到的特征注意力機(jī)制權(quán)重和時(shí)序注意力機(jī)制權(quán)重,如圖7所示。圖7(a)為特征注意力機(jī)制各個(gè)特征自適應(yīng)得出的訓(xùn)練權(quán)重,可以看出CPU 使用率、網(wǎng)絡(luò)的輸入和磁盤I/O 對(duì)預(yù)測(cè)結(jié)果影響相對(duì)較小,網(wǎng)絡(luò)輸出和服務(wù)器負(fù)載值對(duì)預(yù)測(cè)結(jié)果影響較大。說(shuō)明特征注意力機(jī)制在訓(xùn)練過(guò)程中自適應(yīng)地降低了網(wǎng)絡(luò)輸入和磁盤I/O 這兩個(gè)特征的重要程度,有效地提高了網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性。圖7(b)為時(shí)序注意力機(jī)制各個(gè)步長(zhǎng)的權(quán)重,通過(guò)網(wǎng)絡(luò)自適應(yīng)獲取到時(shí)間步長(zhǎng)權(quán)重可以看出,距離預(yù)測(cè)結(jié)果越近的時(shí)間步對(duì)于預(yù)測(cè)結(jié)果的準(zhǔn)確性影響越大,反之相對(duì)較遠(yuǎn)的時(shí)間步對(duì)結(jié)果的影響偏小。時(shí)序注意力機(jī)制通過(guò)加大后幾步時(shí)間步的權(quán)重,從而提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。
3.4.4 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文所提出的雙重注意力機(jī)制負(fù)載預(yù)測(cè)模型(DA-LSTM)單步預(yù)測(cè)和多步預(yù)測(cè)的精確度,使用雙重注意力機(jī)制網(wǎng)絡(luò)與LSTM 網(wǎng)絡(luò)、RNN 網(wǎng)絡(luò)、GRU 網(wǎng)絡(luò)以及單一的加入時(shí)序注意力機(jī)制(TALSTM)或特征注意力機(jī)制(CA-LSTM)網(wǎng)絡(luò)分別進(jìn)行對(duì)比,以MAE、MSE、R2和MAPE 評(píng)價(jià)指標(biāo)作為衡量標(biāo)準(zhǔn),結(jié)果如表3 所示。
表3 模型評(píng)價(jià)標(biāo)準(zhǔn)Table 3 Model evaluation criteria
從表3 可以看出,針對(duì)服務(wù)器的負(fù)載預(yù)測(cè)問(wèn)題,引入了注意力機(jī)制后的TA-LSTM 和CA-LSTM 模型,均具有比傳統(tǒng)預(yù)測(cè)模型RNN、LSTM 和GRU 較好的預(yù)測(cè)效果。進(jìn)而說(shuō)明,通過(guò)時(shí)序注意力機(jī)制的時(shí)間權(quán)重提取和特征注意力機(jī)制對(duì)各項(xiàng)特征的權(quán)重提取可以有效地對(duì)數(shù)據(jù)的時(shí)序信息和特征信息進(jìn)行挖掘,提升負(fù)載預(yù)測(cè)的準(zhǔn)確性。本文提出的雙重注意力機(jī)制網(wǎng)絡(luò)在單步預(yù)測(cè)中相較于LSTM 網(wǎng)絡(luò),MAE 和MES 分別下降了9.2%和16.8%。對(duì)于多步預(yù)測(cè),其相較于LSTM 網(wǎng)絡(luò)在預(yù)測(cè)第4 步和預(yù)測(cè)第10 步的MSE 分別下降了13.3%和9.8%,提升效果明顯。綜上所述,針對(duì)服務(wù)器的負(fù)載預(yù)測(cè)問(wèn)題,加入特征注意力機(jī)制和時(shí)序注意力機(jī)制可以有效提升網(wǎng)絡(luò)單步預(yù)測(cè)和多步預(yù)測(cè)的準(zhǔn)確性。
本文將雙重注意力機(jī)制網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,通過(guò)對(duì)比模型預(yù)測(cè)負(fù)載值與真實(shí)值的偏離程度,可以得到各個(gè)網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性,如圖8 所示。由圖8 可以看出,本文提出的雙重注意力機(jī)制網(wǎng)絡(luò)模型相較于LSTM、GRU 和RNN 等單一的預(yù)測(cè)模型,雙重注意力機(jī)制網(wǎng)絡(luò)預(yù)測(cè)結(jié)果更接近于真實(shí)值。與單一加入時(shí)序注意力機(jī)制或特征注意力機(jī)制相比,雙重注意力機(jī)制在預(yù)測(cè)結(jié)果與真實(shí)值的偏差范圍更加穩(wěn)定。
圖8 各模型的預(yù)測(cè)結(jié)果Fig.8 Prediction results of each models
同時(shí)本文還分別與文獻(xiàn)[21]提出的GRU-LSTM組合模型、文獻(xiàn)[22]提出的BiLSTM-Attention 注意力機(jī)制模型和文獻(xiàn)[23]提出的GRU-Attention 注意力機(jī)制模型進(jìn)行了對(duì)比實(shí)驗(yàn),預(yù)測(cè)結(jié)果與真實(shí)值的對(duì)比如圖9 所示,模型預(yù)測(cè)的評(píng)價(jià)指標(biāo)如表4 所示。
表4 各模型評(píng)價(jià)標(biāo)準(zhǔn)對(duì)比Table 4 Comparison evaluation criteria of each models
圖9 各模型預(yù)測(cè)結(jié)果對(duì)比Fig.9 Comparison of prediction results of each models
從 圖9 和 表4 可以看出,GRU-LSTM 組合模型為提高模型的訓(xùn)練速度,在LSTM 的基礎(chǔ)上與GRU 進(jìn)行組合,BiLSTM-Attention 將注意力機(jī)制融合到BiLSTM 中,增強(qiáng)了時(shí)序數(shù)據(jù)的訓(xùn)練權(quán)重,GRU-Attention 組合模型將GRU 與注意力機(jī)制融合,得到了較好的效果。但以上模型均沒(méi)有考慮特征權(quán)重對(duì)模型預(yù)測(cè)的影響,本文提出的雙重注意力機(jī)制模型在訓(xùn)練時(shí)自適應(yīng)地對(duì)時(shí)序信息和特征信息進(jìn)行捕獲,預(yù)測(cè)結(jié)果更接近于真實(shí)值。與其他3 個(gè)組合模型相比,本文模型MEA 分別降低了6.5%、5.0%和8.6%,MSE 分別降低了13.2%、9.9%和15.9%,充分說(shuō)明本文模型具有更好的準(zhǔn)確性。
針對(duì)服務(wù)器單一特征無(wú)法準(zhǔn)確體現(xiàn)服務(wù)器的負(fù)載情況,本文提出使用客觀賦權(quán)法對(duì)CPU 利用率和內(nèi)存利用率等特征進(jìn)行加權(quán)求和計(jì)算出服務(wù)器當(dāng)前的負(fù)載值。通過(guò)對(duì)負(fù)載值的預(yù)測(cè)可以更加有效地了解服務(wù)器下一時(shí)刻的負(fù)載情況,通過(guò)引入特征注意力機(jī)制和時(shí)序注意力機(jī)制,提高網(wǎng)絡(luò)對(duì)負(fù)載信息的時(shí)序信息和特征信息的重視程度。實(shí)驗(yàn)結(jié)果表明,本文所提出的雙重注意力機(jī)制網(wǎng)絡(luò)能夠有效地提高網(wǎng)絡(luò)單步預(yù)測(cè)和多步預(yù)測(cè)的準(zhǔn)確性。但由于本文模型引入了注意力機(jī)制,增加了網(wǎng)絡(luò)的訓(xùn)練時(shí)間,減緩了模型的擬合速度,下一步將對(duì)模型的結(jié)構(gòu)進(jìn)行優(yōu)化,以達(dá)到減少訓(xùn)練時(shí)間、提高網(wǎng)絡(luò)模型訓(xùn)練速度的目的。另外,可以尋找模型的最優(yōu)參數(shù),提高網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性。