国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向回填優(yōu)化的作業(yè)時(shí)長(zhǎng)預(yù)測(cè)

2019-01-24 09:29吳桂寶張文帥廖莎莎王琦琦
關(guān)鍵詞:分類器準(zhǔn)確率預(yù)測(cè)

吳桂寶,沈 瑜,張文帥,廖莎莎,王琦琦,李 京,

1(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230026)2(中國(guó)科學(xué)技術(shù)大學(xué) 超級(jí)計(jì)算中心,合肥 230026)

1 前 言

高性能計(jì)算目前在教育、工業(yè)設(shè)計(jì)等領(lǐng)域的應(yīng)用需求越來(lái)越廣,這種趨勢(shì)在未來(lái)的應(yīng)用越來(lái)越明顯.它已發(fā)展成科學(xué)與工程技術(shù)問(wèn)題研究的一種嶄新的手段.在科研領(lǐng)域,各學(xué)科研究工作與日俱增的高強(qiáng)度的計(jì)算需求促使各超算中心更新或擴(kuò)展設(shè)備來(lái)提高平臺(tái)的服務(wù)能力,以致對(duì)硬件設(shè)備的投資越來(lái)越大.如何保證預(yù)設(shè)服務(wù)水平協(xié)議(SLA)[1],提高資源利用率,降低運(yùn)行成本是超算中心亟待解決的主要問(wèn)題之一.

在超級(jí)計(jì)算系統(tǒng)上,采用回填策略代替先到先服務(wù)策略是提高資源利用的一種有效手段,它主要思想是在盡量不延誤某些作業(yè)執(zhí)行下把隊(duì)列后面某些作業(yè)提前調(diào)度,分配閑置資源.作業(yè)選擇及回填時(shí)機(jī)決策是核心.目前已有很多與回填相關(guān)的研究[2,3],甚至主流調(diào)度系統(tǒng)(如LSF)都內(nèi)置了回填算法.回填算法是否有效依賴對(duì)作業(yè)時(shí)長(zhǎng)的可靠預(yù)計(jì),而在實(shí)際系統(tǒng)中,用戶往往不能提供準(zhǔn)確的估計(jì),或者為了保證作業(yè)的進(jìn)行,而提供遠(yuǎn)遠(yuǎn)超過(guò)作業(yè)實(shí)際運(yùn)行時(shí)長(zhǎng)的預(yù)期運(yùn)行時(shí)長(zhǎng).這使得不能在生產(chǎn)系統(tǒng)中直接使用用戶提供的作業(yè)預(yù)期運(yùn)行時(shí)長(zhǎng)數(shù)據(jù),而需要采用更有效的方法對(duì)作業(yè)時(shí)長(zhǎng)進(jìn)行有效的預(yù)測(cè).

現(xiàn)已有很多工作嘗試采用各種策略去建模預(yù)測(cè)網(wǎng)格計(jì)算、高性能集群中作業(yè)的執(zhí)行時(shí)長(zhǎng).文獻(xiàn)[4,5]提出了以代碼靜態(tài)分析為基礎(chǔ)的程序預(yù)測(cè)方法,文獻(xiàn)[6]提出基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)作業(yè)腳本建模預(yù)測(cè)時(shí)間,但很多情況無(wú)法獲得作業(yè)源碼以及作業(yè)腳本,故本文主要探討黑盒模式下的作業(yè)運(yùn)行時(shí)長(zhǎng)預(yù)測(cè)方法.文獻(xiàn)[7]提出一種基于MPI通信日志循環(huán)收縮的并行作業(yè)性能預(yù)測(cè)方法,這種方法只適合通信骨架比較固定,CPU結(jié)點(diǎn)計(jì)算比較穩(wěn)定的并行作業(yè),并且無(wú)法在作業(yè)執(zhí)行之前對(duì)其進(jìn)行預(yù)測(cè).文獻(xiàn)[8,9]都基于K-最近鄰算法進(jìn)行時(shí)長(zhǎng)預(yù)測(cè),這種方法依賴于足量歷史數(shù)據(jù),且距離函數(shù)定義的合理性沒(méi)有一個(gè)統(tǒng)一標(biāo)準(zhǔn),很難有一個(gè)很好地預(yù)測(cè)效果.文獻(xiàn)[10,11]提出一種使用“相似模板”的方法,根據(jù)任務(wù)特征對(duì)作業(yè)進(jìn)行歸類來(lái)對(duì)作業(yè)進(jìn)行預(yù)測(cè).文獻(xiàn)[12]根據(jù)用戶提交任務(wù)的行為模式來(lái)對(duì)用戶聚類,針對(duì)用戶所屬的類中任務(wù)使用指數(shù)平滑預(yù)測(cè).文獻(xiàn)[13]和文獻(xiàn)[14]分別使用最簡(jiǎn)單的滑動(dòng)均值及Last2均值來(lái)預(yù)測(cè).文獻(xiàn)[15,16]作業(yè)性能預(yù)測(cè)都是基于一種預(yù)測(cè)多策略諸如Last2均值等最基礎(chǔ)的策略來(lái)協(xié)同預(yù)測(cè)的模型,類似于組合預(yù)測(cè)方案,每個(gè)作業(yè)由一個(gè)決策模塊來(lái)決定其由哪一個(gè)單策略模型來(lái)預(yù)測(cè).這些方法只考慮了作業(yè)時(shí)長(zhǎng)歷史序列,易于實(shí)現(xiàn),但對(duì)于不規(guī)律作業(yè)序列來(lái)說(shuō)無(wú)法獲得有效的預(yù)測(cè)精度,文獻(xiàn)[17]提出使用L2規(guī)范化的多項(xiàng)式模型來(lái)擬合,但依賴歷史時(shí)長(zhǎng)序列.文獻(xiàn)[18]使用PQR產(chǎn)生一顆二叉樹(shù),該二叉樹(shù)的每個(gè)節(jié)點(diǎn)都是基于基本的機(jī)器學(xué)習(xí)及統(tǒng)計(jì)學(xué)方法,但是其研究的作業(yè)時(shí)長(zhǎng)與說(shuō)選屬性有一類比較明確的關(guān)系,不適應(yīng)難解釋規(guī)律性弱的VASP作業(yè).以上所述的方法基本都是基于比較泛化的日志信息來(lái)對(duì)作業(yè)時(shí)長(zhǎng)進(jìn)行預(yù)測(cè),如隊(duì)列、用戶名、工作目錄、計(jì)算規(guī)模等,這類方法對(duì)于規(guī)律性差的作業(yè)不能很好適應(yīng).故本文針對(duì)VASP特有作業(yè)特征建立預(yù)測(cè)模型,不依賴于歷史作業(yè)序列波動(dòng)性.

本文提出兩種新的預(yù)測(cè)模型.其一是基于貝葉斯的二次預(yù)測(cè)模型(IRPA),以隨機(jī)森林回歸(RFR)、支持向量回歸(SVR)以及貝葉斯嶺回歸(BRR)三個(gè)預(yù)測(cè)子模型為基石,針對(duì)VASP作業(yè)的配置參數(shù)來(lái)抽取特征,并對(duì)預(yù)測(cè)結(jié)果進(jìn)行二次學(xué)習(xí);其二是基于徑向基神經(jīng)網(wǎng)絡(luò)(RBF)以及貝葉斯分類器的混合預(yù)測(cè)模型(BRBF).在實(shí)際系統(tǒng)收集中的作業(yè)樣本的測(cè)試表明,我們提出的兩種方法比傳統(tǒng)的機(jī)器學(xué)習(xí)方法預(yù)測(cè)準(zhǔn)確度和可靠性都有明顯的優(yōu)勢(shì).

2 研究對(duì)象與方法

我們以中國(guó)科學(xué)技術(shù)大學(xué)超級(jí)計(jì)算中心的“曙光TC4600百萬(wàn)億次超級(jí)計(jì)算系統(tǒng)”(以下簡(jiǎn)稱“TC4600集群”)上,從2017年3月到2017年11月實(shí)際運(yùn)行的VASP作業(yè)為對(duì)象,研究VASP作業(yè)時(shí)間預(yù)測(cè)的方法.

2.1 數(shù)據(jù)預(yù)處理

TC4600集群上作業(yè)類型比較多,機(jī)時(shí)占比信息如圖 1所示.數(shù)據(jù)表明,VASP作業(yè)機(jī)時(shí)占比已達(dá)一半,另外VASP作業(yè)占比數(shù)據(jù)統(tǒng)計(jì)也將近40%.故本文選擇對(duì)VASP作業(yè)建立預(yù)測(cè)模型來(lái)對(duì)其執(zhí)行時(shí)長(zhǎng)進(jìn)行預(yù)測(cè),為后期資源的調(diào)度優(yōu)化奠定基礎(chǔ).

圖1 TC4600系統(tǒng)上應(yīng)用機(jī)時(shí)分布Fig.1 Distribution of time used by application on TC4600

我們首先抽取VASP的作業(yè)特征.作業(yè)特征取自工作目錄下INCAR、POSCAR、POTCAR和KPOINTS四個(gè)文件,作業(yè)使用的CPU核心數(shù)和運(yùn)行時(shí)間從作業(yè)日志中獲取.

所抽取的作業(yè)特征屬性集如表 1 所示.

表1 針對(duì)VASP作業(yè)抽取的特征屬性
Table 1 Feature attributes extracted for VASP jobs

屬性說(shuō)明CORE-NUM作業(yè)使用的CPU核心數(shù)EXETIME作業(yè)使用的時(shí)間(Walltime)KPOINTSK點(diǎn)個(gè)數(shù)VOLUME系統(tǒng)體積PREC計(jì)算精度控制NELMIN電子自洽迭代最小步數(shù)EDIFF自洽迭代收斂標(biāo)準(zhǔn)EDIFFG原子弛豫收斂標(biāo)準(zhǔn)ICHARGE初始電荷密度構(gòu)造方法ENCUT平面波切斷動(dòng)能ISYM體系對(duì)稱性LREAL投影計(jì)算在實(shí)空間還是倒空間NELM電子自洽迭代最大步數(shù)NBANDS能帶數(shù)量ISPIN是否進(jìn)行自旋極化計(jì)算ISTART是否為續(xù)算

每個(gè)屬性的具體含義以及缺失的默認(rèn)值的計(jì)算方式可以參考VASP官方手冊(cè).

我們所選的數(shù)據(jù)集將所有ISTART值為1的作業(yè)排除在外,因?yàn)榇祟愖鳂I(yè)是重新調(diào)度從斷點(diǎn)處執(zhí)行的,這種情況下在沒(méi)有額外信息時(shí)是無(wú)法預(yù)測(cè)的.

為了進(jìn)行模型的建立,需要下面幾個(gè)步驟將作業(yè)的信息轉(zhuǎn)變?yōu)閿?shù)值向量:

1)將參數(shù)數(shù)值化.對(duì)于IRPA模型,離散值屬性將值one-hot編碼成01向量,整個(gè)向量長(zhǎng)度為屬性可取值的個(gè)數(shù),向量每個(gè)位置對(duì)應(yīng)該屬性一個(gè)可取的值.對(duì)于BRBF模型,離散值屬性將值數(shù)字化,一個(gè)數(shù)字代表一個(gè)類型值.

2)將ECUT 值三次方,而后將所有連續(xù)屬性值歸一化.

3)EXETIME值取以10為底的log值,作為目標(biāo)值.

2.2 數(shù)據(jù)特征分析

在我們考察的16700多個(gè)作業(yè)中,對(duì)作業(yè)時(shí)長(zhǎng)按照每半小時(shí)進(jìn)行分類,各類占比如表 2所示.

表2 作業(yè)運(yùn)行時(shí)長(zhǎng)分布
Table 2 Distribution of jobs runtime

時(shí)間范圍/分鐘作業(yè)占比0~300.55730~600.09660~900.04990~1200.033>1200.265

由于VASP作業(yè)的難預(yù)測(cè)性,我們很難用平均相對(duì)誤差等傳統(tǒng)的時(shí)間預(yù)測(cè)標(biāo)準(zhǔn)來(lái)評(píng)價(jià)模型預(yù)測(cè)的有效性,故這里我們使用準(zhǔn)確率(ACC)和召回率(REC)來(lái)衡量預(yù)測(cè)模型對(duì)于作業(yè)時(shí)間長(zhǎng)度進(jìn)行分類的性能.ACC其定義如公式(1)所示,T表示一段時(shí)間范圍(如30~60分鐘),Spre(T)表示預(yù)測(cè)時(shí)間落在在T這個(gè)范圍的作業(yè)集合,Strue(T)表示真實(shí)執(zhí)行時(shí)間在T范圍的作業(yè)集合.

(1)

召回率(REC)其定義如公式(2)所示,各標(biāo)識(shí)含義同上.

(2)

通過(guò)分析VASP作業(yè)數(shù)據(jù)特征,首先采用比較合適的傳統(tǒng)的機(jī)器學(xué)習(xí)模型RFR、SVR以及BRR來(lái)對(duì)作業(yè)時(shí)長(zhǎng)的分類進(jìn)行預(yù)測(cè).同時(shí)采用文獻(xiàn)[19]中基于parzen窗采樣進(jìn)行概率密度估計(jì)的純統(tǒng)計(jì)的方法(PDR)作為一個(gè)對(duì)比實(shí)驗(yàn)的基準(zhǔn)方法.RFR模型是對(duì)決策樹(shù)和回歸樹(shù)的擴(kuò)展[20],用于預(yù)測(cè)連續(xù)的目標(biāo)值,SVR在文獻(xiàn)[21]被用來(lái)預(yù)測(cè)旅行時(shí)間,BRR是對(duì)傳統(tǒng)嶺回歸模型的拓展[22],這些方法都很適合時(shí)間預(yù)測(cè)的回歸問(wèn)題.

各模型預(yù)測(cè)的準(zhǔn)確率和召回率如表 3和表 4所示.可看出:三種傳統(tǒng)的機(jī)器學(xué)習(xí)方法在短時(shí)間作業(yè)上預(yù)測(cè)準(zhǔn)確率和召回率都比較好,相對(duì)于PDR有更好的預(yù)測(cè)效果;再者,對(duì)于不同的情況,不同的方法互有優(yōu)劣:RFR對(duì)于真實(shí)時(shí)長(zhǎng)在30分鐘之內(nèi)的任務(wù)預(yù)測(cè)效果更好,SVR對(duì)于30~60分鐘的作業(yè)預(yù)測(cè)比其他兩個(gè)模型更精準(zhǔn),而B(niǎo)RR對(duì)于150~180分鐘的作業(yè)的預(yù)測(cè)性能在三個(gè)模型中是最優(yōu)的.

表3 各模型不同時(shí)間范圍作業(yè)的預(yù)測(cè)ACC指標(biāo)對(duì)比
Table 3 Comparison of ACC criterion of different models for jobs in different time range

時(shí)間范圍/分鐘RFRBRRSVRPDR<300.8970.8870.8920.81730~600.2070.0990.5780.09360~900.0770.0340.0520.00090~1200.1540.0000.0000.006120~1500.0480.000.0000.032150~1800.0000.0530.0000.000

結(jié)合表 2的作業(yè)按執(zhí)行時(shí)長(zhǎng)的分布情況來(lái)看,在實(shí)際的回填策略中,其實(shí)我們對(duì)作業(yè)時(shí)長(zhǎng)的預(yù)測(cè)沒(méi)必要在過(guò)小的時(shí)間粒度下有很高的準(zhǔn)確性,也沒(méi)必要在每個(gè)時(shí)間范圍都要求預(yù)測(cè)準(zhǔn)確,這對(duì)于VASP來(lái)說(shuō)很難實(shí)現(xiàn)的.因此,在下面的討論中,僅分別以1小時(shí)和2小時(shí)為分界線對(duì)作業(yè)預(yù)測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)分析.因?yàn)槿绻覀兡軌蜉^為準(zhǔn)確的判斷出短時(shí)間的作業(yè),那么就可以用它們填補(bǔ)系統(tǒng)在等待大規(guī)模作業(yè)運(yùn)行時(shí)的空閑時(shí)段,對(duì)于回填優(yōu)化具有重要意義.

表4 各模型不同時(shí)間范圍作業(yè)的預(yù)測(cè)REC指標(biāo)對(duì)比
Table 4 Comparison of REC criterion of different models for jobs in different time ranges

時(shí)間范圍/分鐘RFRBRRSVRPDR<300.9840.9740.9670.47730~600.0360.0270.1110.26460~900.0530.2110.6840.00090~1200.1250.0000.0000.063120~1500.0210.0000.0000.064150~1800.0000.1000.0000.000

3 優(yōu)化模型

由于VASP作業(yè)訓(xùn)練樣本的特征空間的局部性,靜態(tài)的預(yù)測(cè)模型無(wú)法一直正常工作,所以需要周期性訓(xùn)練來(lái)學(xué)習(xí)獲取新特征空間特性以適應(yīng)后續(xù)作業(yè),整個(gè)VASP作業(yè)預(yù)測(cè)系統(tǒng)結(jié)構(gòu)圖如圖2所示.

圖2 VASP作業(yè)預(yù)測(cè)系統(tǒng)結(jié)構(gòu)Fig.2 Runtime prediction system structure for VASP tasks

VASP配置參數(shù)值多為離散值,代表作業(yè)的一個(gè)計(jì)算標(biāo)準(zhǔn).對(duì)于數(shù)值連續(xù)的屬性,這些值大小與作業(yè)運(yùn)行時(shí)長(zhǎng)也并沒(méi)有一類非常明確的函數(shù)關(guān)系,單一且基礎(chǔ)的預(yù)測(cè)模型以及普通的回歸分析可能無(wú)法帶來(lái)更好的預(yù)測(cè)性能.

3.1 IRPA模型

鑒于上述情況和實(shí)際測(cè)試的結(jié)果,我們?cè)谌齻€(gè)比較適用的預(yù)測(cè)模型RFR、SVR和BRR的基礎(chǔ)上,提出基于BAYES分類的二次預(yù)測(cè)模型IRPA.

IRPA結(jié)構(gòu)如圖3所示,子模型為RFR、SVR和BRR,上層模型為BAYES分類器,BAYES是一種以概率為基礎(chǔ)的方法[23],可以用來(lái)綜合各子模型優(yōu)勢(shì).

訓(xùn)練模型時(shí)首先訓(xùn)練各個(gè)子模型,對(duì)于每個(gè)待預(yù)測(cè)作業(yè),將子模型預(yù)測(cè)值與該作業(yè)的真實(shí)值進(jìn)行對(duì)比,可以得到一系列四元組如公式(3)所示.

[pv1,pv2,pv3,label]

(3)

其中,pv分別為各子模型預(yù)測(cè)值,label對(duì)應(yīng)預(yù)測(cè)值與真實(shí)值誤差最小的子模型.針對(duì)系列四元組再訓(xùn)練一個(gè)BAYES分類器,label為目標(biāo)變量.

整個(gè)模型建立好之后,對(duì)于一個(gè)新作業(yè)的到來(lái),先通過(guò)預(yù)處理獲取作業(yè)特征向量作為模型輸入,子模型的預(yù)測(cè)結(jié)果作為RF分類器的輸入,分類器輸出一個(gè)對(duì)應(yīng)每個(gè)標(biāo)簽的概率向量如公式(4)所示.

[pb1,pb2,pb3]

(4)

最后根據(jù)公式(5)計(jì)算出最終的預(yù)測(cè)值PV.

(5)

圖3 IRPA預(yù)測(cè)模型結(jié)構(gòu)Fig.3 Structure of prediction model IRPA

公式(5)中各變量和式(3)和式(4)描述的變量相同.

3.2 BRBF模型

鑒于VASP作業(yè)運(yùn)行時(shí)長(zhǎng)與特征很難有一個(gè)定性的函數(shù)關(guān)系來(lái)做擬合回歸,而徑向基神經(jīng)網(wǎng)絡(luò)(下面統(tǒng)稱RBF模型)是通過(guò)徑向基函數(shù)(RBF)來(lái)做非線性變換[24,25],訓(xùn)練時(shí)利用樣本內(nèi)插值的方式來(lái)擬合任何未知的函數(shù)(包括非線性函數(shù)),這就是RBF的優(yōu)勢(shì)及魅力所在.

故BRBF就是基于RBF模型的,其模型如圖4所示,分類是以ISPIN,ISYM,LREAL以及PREC四個(gè)離散屬性值作為key來(lái)分類,若存在key對(duì)應(yīng)的RBF子模型,則使用該子模型來(lái)對(duì)作業(yè)特征x進(jìn)行預(yù)測(cè).否則,使用BAYES和RBF相結(jié)合的泛模型來(lái)進(jìn)行時(shí)間預(yù)測(cè).

圖4 BRBF預(yù)測(cè)模型結(jié)構(gòu)Fig.4 Structure of prediction model BRBF

泛模型是指針對(duì)整個(gè)訓(xùn)練數(shù)據(jù)集訓(xùn)練的RBF模型,本文根據(jù)作業(yè)時(shí)長(zhǎng)分布劃分為56個(gè)時(shí)間段,泛模型是把一個(gè)貝葉斯分類器在每個(gè)時(shí)間段的概率輸出作為RBF模型的數(shù)據(jù)源.BAYES分類器對(duì)于n維特征x判定為類yi的概率如公式(6)及公式(7)所示.

(6)

(7)

而對(duì)于x中值連續(xù)的屬性xk來(lái)說(shuō),其條件概率如公式(8)及公式(9)所示.

P(xk|yi)=g(xk,μyi,δyi)

(8)

(9)

輸出結(jié)果為一個(gè)分類(時(shí)間范圍)概率向量X,如式(10)所示,最后該X向量是作為一個(gè)RBF網(wǎng)絡(luò)的輸入,以預(yù)測(cè)最終的執(zhí)行時(shí)間.

X=[P(y1|x),P(y2|x),…,P(ym|x)]

(10)

整個(gè)BRBF模型的訓(xùn)練如步驟如下所示:

1)針對(duì)整個(gè)訓(xùn)練集Atrain預(yù)處理作業(yè)特征,根據(jù)每個(gè)作業(yè)key來(lái)分類.

2)對(duì)于同一個(gè)key作業(yè)數(shù)>3000的作業(yè)集B的數(shù)據(jù),只取連續(xù)值屬性并進(jìn)行歸一化處理,針對(duì)該數(shù)據(jù)集B訓(xùn)練子RBF網(wǎng)絡(luò),RBF網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示.

圖5 RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of RBF neural network

3)針對(duì)所有訓(xùn)練數(shù)據(jù)集Atrain按作業(yè)ID排序,前60%作業(yè)執(zhí)行時(shí)間離散為類別(時(shí)間范圍),訓(xùn)練一個(gè)BAYES分類器.

4)后40%作業(yè)作為BAYES分類器測(cè)試集產(chǎn)生概率向量集X,以此來(lái)規(guī)范RBF輸入.

5)將X作為RBF輸入,log(time)作為目標(biāo)值,訓(xùn)練一個(gè)總RBF模型.

RBF可以處理傳統(tǒng)方法難于解析的規(guī)律性,具有非常良好的泛化能力,在很多領(lǐng)域諸如多分類,故障檢測(cè)以及回歸分析等得到成功應(yīng)用[26,27].

為了防止RBF網(wǎng)絡(luò)過(guò)擬合,我們對(duì)RBF訓(xùn)練數(shù)據(jù)集聚m(文中m值為56)個(gè)類,對(duì)于類p都有一個(gè)由均值向量μp以及一個(gè)偏擴(kuò)展常數(shù)δp確定的徑向基,預(yù)測(cè)輸出函數(shù)如公式(11)及公式(12)所示.

(11)

(12)

由于帶中心化的RBF的等式組行數(shù)遠(yuǎn)大于列數(shù),即訓(xùn)練樣本數(shù)p遠(yuǎn)大于徑向基個(gè)數(shù)m,如公式(13)所示.

(13)

再者預(yù)測(cè)模型周期性訓(xùn)練時(shí)要求訓(xùn)練速度盡可能快,所以通過(guò)計(jì)算Ф的偽逆Ф+來(lái)計(jì)算W權(quán)值,計(jì)算見(jiàn)公式(14)和公式(15)所示.

W=Φ+Y

(14)

Φ+=(ΦTΦ)-1ΦT

(15)

4 實(shí)驗(yàn)結(jié)果與分析

整個(gè)實(shí)驗(yàn)所用的數(shù)據(jù)集A為TC4600平臺(tái)上采集的16700多個(gè)VASP作業(yè),該實(shí)驗(yàn)面向真實(shí)生產(chǎn)環(huán)境,A按作業(yè)ID排序(時(shí)間先后).將A劃分兩部分,前80%作為模型訓(xùn)練集Atrain,后20%作為模型的測(cè)試集Atest.對(duì)于IRPA模型,Atrain的前60%作業(yè)作為各子模型的訓(xùn)練集,后40%作為它們的測(cè)試集,之后,基于測(cè)試集的預(yù)測(cè)結(jié)果與其對(duì)應(yīng)的真實(shí)值構(gòu)建如式(1)所示的四元組,作為下一層BAYES分類器的訓(xùn)練數(shù)據(jù)集.總之,Atrain用來(lái)訓(xùn)練整個(gè)模型,Atest用于測(cè)試IRPA以及BRBF兩個(gè)模型的預(yù)測(cè)性能.

為了說(shuō)明我們所提出模型的優(yōu)越性,我們使用一些基準(zhǔn)預(yù)測(cè)模型作為IRPA以及BRBF模型的實(shí)驗(yàn)對(duì)照組.圖 6是按照一小時(shí)為界限的分類預(yù)測(cè)情況,五種方法分別是傳統(tǒng)的三種機(jī)器學(xué)習(xí)方法RFR、SVR、BBR和我們?cè)O(shè)計(jì)的兩種預(yù)測(cè)新方法IRPA、BRBF.每種方法左側(cè)的空白柱狀圖表示準(zhǔn)確率,即預(yù)測(cè)出來(lái)的短時(shí)作業(yè)有多大的幾率真實(shí)運(yùn)行時(shí)間小于1小時(shí).右側(cè)斜線柱狀圖表示召回率,即對(duì)于所有小于1小時(shí)的短時(shí)間作業(yè),預(yù)測(cè)出來(lái)也是短時(shí)間作業(yè)的有多大的比例.

圖6 按1小時(shí)劃分的預(yù)測(cè)結(jié)果比較(16700個(gè)樣本)Fig.6 Comparison of prediction for 1-hour division (16700 samples)

一般來(lái)說(shuō),準(zhǔn)確率和召回率很難同時(shí)提高:如果想提高準(zhǔn)確率,那么就要對(duì)判定條件要求更為嚴(yán)格,會(huì)造成處于臨界點(diǎn)附近的作業(yè)更傾向于被否定,從而造成召回率降低;而如果想提高召回率,那么就要對(duì)判定條件要求更寬容,同樣會(huì)降低準(zhǔn)確率.

從圖 6中可以看出,同時(shí)考慮準(zhǔn)確率和召回率,我們的兩種新方法IRPA和BRBF比傳統(tǒng)方法RFR、SVR和BRR都要好,它們的準(zhǔn)確率高于其它方法.而且BRBF模型在REC值比肩IRPA模型的情況下具有最高的預(yù)測(cè)準(zhǔn)確率.

圖7是按2小時(shí)為短時(shí)間作業(yè)和長(zhǎng)時(shí)間作業(yè)的分界點(diǎn)測(cè)試的結(jié)果.這里傳統(tǒng)方法召回率更好,但準(zhǔn)確率下降,尤其是SVR,準(zhǔn)確率顯著下降.而我們的新方法,在召回率有所提高的基礎(chǔ)上,有效的避免了準(zhǔn)確率的下降,顯示出更好的穩(wěn)健性.

而且,就目前生產(chǎn)系統(tǒng)上VASP作業(yè)時(shí)長(zhǎng)分布,很大一部分都是短作業(yè),所以資源預(yù)留時(shí)作業(yè)隊(duì)列中一般不乏短時(shí)長(zhǎng)作業(yè),所以此類情況下預(yù)測(cè)的準(zhǔn)確率往往更加重要.其次,為了說(shuō)明模型的有效性,我們把每個(gè)方法預(yù)測(cè)時(shí)長(zhǎng)小于1小時(shí)的作業(yè)按絕對(duì)誤差升序排序,取前90%算平均相對(duì)誤差(MRE),這樣做是為了排除某些未考慮因素而導(dǎo)致的MRE異常偏高,再者面向回填的預(yù)測(cè)只關(guān)注預(yù)測(cè)較準(zhǔn)確的90%已意義重大.MRE結(jié)果如表5所示,可以看到BRBF的MRE是最低的,其次是IRPA,BRBF就MRE比IRPA提升約12.3%,該兩個(gè)模型就MRE來(lái)說(shuō)相對(duì)其他幾個(gè)子模型有明顯的優(yōu)勢(shì).

圖7 按2小時(shí)劃分的預(yù)測(cè)結(jié)果比較(16700個(gè)樣本)Fig.7 Comparison of prediction for 2-hour division (16700 samples)

表5 各模型預(yù)測(cè)1小時(shí)內(nèi)作業(yè)前90%的平均相對(duì)誤差
Table 5 Mean relative error for the first 90% of VASP jobs which predicted within 1-hour

模型MRERFR0.268SVR0.372BRR0.532IRPA0.203BRBF0.178

上面的任務(wù)測(cè)試集中,超過(guò)90%的任務(wù)時(shí)長(zhǎng)都小于1個(gè)小時(shí),導(dǎo)致測(cè)試結(jié)果差別不太大——即使按照90%比例完全隨機(jī)選擇,也會(huì)有接近90%的概率猜中小于1小時(shí)的短時(shí)長(zhǎng)作業(yè).我們選擇了另外一段時(shí)間5600多個(gè)VASP作業(yè)數(shù)據(jù)進(jìn)行測(cè)試.整個(gè)VASP實(shí)驗(yàn)數(shù)據(jù)集的測(cè)試集中,約68%的作業(yè)時(shí)長(zhǎng)在1小時(shí)內(nèi),接近75%的作業(yè)執(zhí)行時(shí)間在2小時(shí)內(nèi).由于作業(yè)數(shù)據(jù)集過(guò)小,而B(niǎo)RBF訓(xùn)練依賴于較大的樣本數(shù),因此只能測(cè)試IRPA與其他基準(zhǔn)方法.為了進(jìn)一步說(shuō)明我們工作的有效性,我們?cè)黾恿宋墨I(xiàn)[12]的方法UBCETE作為對(duì)照組,按照1小時(shí)和2小時(shí)分類的預(yù)測(cè)結(jié)果如圖8和圖9所示.可以看出:首先IRPA在兩個(gè)分類情況下都具有最高的準(zhǔn)確率,尤其是相對(duì)于真實(shí)占比來(lái)說(shuō)優(yōu)勢(shì)很大,盡管在召回率上稍差,但對(duì)于為回填算法提供小作業(yè)的預(yù)測(cè)來(lái)說(shuō),準(zhǔn)確率更重要;其次,SVR在1小時(shí)分類的情況下,召回率嚴(yán)重下降,而IRPA模型則在兩種分類的情況下都有穩(wěn)定的性能;最后,UBCETE方法的預(yù)測(cè)準(zhǔn)確率整體來(lái)說(shuō)較低,相比其他基本方法沒(méi)有任何優(yōu)勢(shì).這很大程度是由于用戶行為的不規(guī)律性以及VASP作業(yè)內(nèi)部的復(fù)雜性.

圖8 按1小時(shí)劃分的預(yù)測(cè)結(jié)果比較(5600個(gè)樣本)Fig.8 Comparison of prediction for 1-hour division(5600 samples)

圖9 按2小時(shí)劃分的預(yù)測(cè)結(jié)果比較(5600個(gè)樣本)Fig.9 Comparison of prediction for 2-hour division(5600 samples)

5 結(jié) 語(yǔ)

傳統(tǒng)的作業(yè)時(shí)間預(yù)測(cè)方法往往適應(yīng)的是內(nèi)部計(jì)算模式比較簡(jiǎn)單穩(wěn)定或者作業(yè)序列具有較強(qiáng)規(guī)律性的情況,但是由于VASP作業(yè)本身的復(fù)雜性及不確定性,這些方法無(wú)法簡(jiǎn)單根據(jù)調(diào)度系統(tǒng)日志信息以及作業(yè)歷史序列來(lái)對(duì)VASP作業(yè)執(zhí)行時(shí)間進(jìn)行預(yù)測(cè).故我們通過(guò)解析VASP輸入文件,并且結(jié)合資源需求特征提出了二次預(yù)測(cè)模型IRPA和基于神經(jīng)網(wǎng)絡(luò)的混合模型BRBF.IRPA通過(guò)BAYES來(lái)綜合各個(gè)子模型的優(yōu)勢(shì)來(lái)達(dá)到更好的預(yù)測(cè)準(zhǔn)確率,并且通過(guò)概率權(quán)重使得預(yù)測(cè)更加穩(wěn)定.BRBF通過(guò)特定特征分類后訓(xùn)練子RBF網(wǎng)絡(luò),并且利用BAYES輸出概率規(guī)范泛模型中RBF的輸入,以此來(lái)獲得對(duì)預(yù)測(cè)性能的優(yōu)化.

鑒于這些模型的準(zhǔn)確性依賴于訓(xùn)練集樣本在特征空間的分布,因此未來(lái)的工作一方面是將嘗試將這些模型由靜態(tài)訓(xùn)練拓展成增量式訓(xùn)練,以此達(dá)到動(dòng)態(tài)學(xué)習(xí)的目的.另一方面我們將使預(yù)測(cè)模型與回填調(diào)度相結(jié)合,通過(guò)分析資源的優(yōu)化效率來(lái)顯式評(píng)估這些預(yù)測(cè)模型的價(jià)值.

猜你喜歡
分類器準(zhǔn)確率預(yù)測(cè)
無(wú)可預(yù)測(cè)
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2—2期中考試預(yù)測(cè)卷(A卷)
學(xué)貫中西(6):闡述ML分類器的工作流程
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
基于樸素Bayes組合的簡(jiǎn)易集成分類器①
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
微山县| 田东县| 洛南县| 渝中区| 定南县| 怀安县| 蓝山县| 伊通| 政和县| 澜沧| 阿拉善右旗| 湟源县| 七台河市| 全州县| 鄯善县| 顺昌县| 大石桥市| 丰城市| 绍兴市| 永泰县| 阳春市| 虹口区| 秦安县| 滦平县| 万山特区| 凤凰县| 泽州县| 渝中区| 多伦县| 佛冈县| 托克逊县| 萍乡市| 民乐县| 调兵山市| 双牌县| 中宁县| 利辛县| 武陟县| 北川| 潼南县| 和平县|