国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

應(yīng)用感知的算力優(yōu)化調(diào)度方法

2022-10-27 14:52寇大治韋建文唐小勇
關(guān)鍵詞:計算中心計算環(huán)境鏡像

寇大治,韋建文,唐小勇

1.上海超級計算中心,上海 201203

2.上海交通大學(xué),高性能計算中心,上海 200240

3.長沙理工大學(xué),計算機與通信工程學(xué)院,湖南 長沙 410114

引言

近年來,隨著我國高性能計算應(yīng)用的發(fā)展,應(yīng)用領(lǐng)域和計算需求逐步增加,由應(yīng)用領(lǐng)域的計算需求產(chǎn)生的無效調(diào)度問題日益顯著,如計算故障、計算資源排隊、計算過程的波動、計算資源的預(yù)留與回填不暢等一系列問題,已經(jīng)影響到了用戶作業(yè)的正常運行。隨著用戶對高性能計算應(yīng)用服務(wù)水平的要求越來越高,從應(yīng)用的角度出發(fā),基于應(yīng)用的調(diào)度方法還有優(yōu)化提升的空間。例如:準確可靠的作業(yè)運行時間預(yù)測技術(shù)不僅能夠為作業(yè)調(diào)度技術(shù)提供保障,為調(diào)度模型的優(yōu)化提供基礎(chǔ),還將為用戶提供更可靠的作業(yè)提交信息。這些優(yōu)化都能很大程度上提高國家高性能計算環(huán)境的穩(wěn)定性,從而有效增加用戶的滿意度以及國家高性能計算環(huán)境對用戶的吸引力,緩解高性能計算需求的壓力[1-5]。

高性能計算應(yīng)用往往需要大規(guī)模和長時間的計算才能完成,總體來看應(yīng)用軟件總是基于特定的力場、泛函或理論,以及這些力場、泛函或理論的排列組合再經(jīng)過前后處理開發(fā)完成的。計算的體系各有不同,計算的規(guī)模有大有小,當這些計算體系和規(guī)模確定之后,通過特定力場、泛函或理論的計算及過程就有可能可控并可預(yù)測。為了對國家高性能計算環(huán)境的建設(shè)起到支撐,本文將基于對應(yīng)用的數(shù)據(jù)及參數(shù)分析,探索建立作業(yè)運行時間與參數(shù)及數(shù)據(jù)相關(guān)的優(yōu)化調(diào)度模型。模型的建立將圍繞應(yīng)用的實際運行情況進行分析,提取應(yīng)用作業(yè)的特征或參數(shù)并輔以并行計算所需的系統(tǒng)指標或參數(shù),綜合各方面的信息建立優(yōu)化調(diào)度模型。同時本文還將選取典型應(yīng)用例進行研究,依照本文建立起來的優(yōu)化調(diào)度模型,提取應(yīng)用計算體系特征并做評估和測算。在應(yīng)用的基礎(chǔ)上建立基于異構(gòu)的超大規(guī)模計算資源協(xié)同調(diào)度原型系統(tǒng),該原型系統(tǒng)將針對多中心的高性能超級計算機系統(tǒng)、中小型服務(wù)器設(shè)備、集群以及普通計算節(jié)點的計算能力、存儲和網(wǎng)絡(luò)通信能力進行建模,針對應(yīng)用特征,研發(fā)和實現(xiàn)基于大規(guī)模異構(gòu)計算資源的任務(wù)調(diào)度算法。對接入的異構(gòu)計算資源進行統(tǒng)一調(diào)度和管理,實現(xiàn)面向計算任務(wù)需求的資源按需分配。相關(guān)工作以期對全局資源優(yōu)化調(diào)度方法產(chǎn)生指導(dǎo)作用。

1 超算歷史作業(yè)信息數(shù)據(jù)庫

本文建立了超算系統(tǒng)應(yīng)用作業(yè)歷史數(shù)據(jù)庫,收集了上海超級計算中心、國家超算無錫中心、甘肅省計算中心、上海交通大學(xué)高性能計算中心和中國科學(xué)技術(shù)大學(xué)超級計算中心的應(yīng)用作業(yè)歷史數(shù)據(jù)。根據(jù)“并行作業(yè)負載資料庫(Parallel Workloads Archive,PWA)”整理為SWF 格式,形成的歷史數(shù)據(jù)庫將其命名為“中國超算任務(wù)負載資料庫”(Chinese Supercomputers Workloads Archive,CSWA),經(jīng)過數(shù)據(jù)脫敏之后公開發(fā)布在https://git.lug.ustc.edu.cn/yshen/CSWA 上。

其中PWA 所使用的SWF 為開放的任務(wù)記錄格式,其中將可能涉及用戶隱私的敏感信息用數(shù)字代替,保護了用戶的信息安全。該資料庫積累了從1993 年以來38 個系統(tǒng)的數(shù)據(jù),為業(yè)界廣泛使用,近年來相關(guān)文獻每年有2,000 余篇,在超級計算任務(wù)調(diào)度等研究工作中起到了重要的作用。但該資料庫中數(shù)據(jù)較老,最新數(shù)據(jù)為2015 年捷克MetaCentrum 系統(tǒng)的數(shù)據(jù),且其中沒有來自中國的超算系統(tǒng)的數(shù)據(jù),故以本文工作整理的數(shù)據(jù)為基礎(chǔ),建立了我國自己的超算任務(wù)負載資料庫,這項工作將會為超算研究提供更新更全的基礎(chǔ)數(shù)據(jù)。

目前超算運行數(shù)據(jù)資料庫收集有667 萬條數(shù)據(jù),其中上海超級計算中心為魔方II 超級計算系統(tǒng)上2017 到2019 年度的149.2 萬條歷史運行數(shù)據(jù);國家超算無錫中心為神威太湖之光高效能計算系統(tǒng)和商用輔助計算系統(tǒng)上2017 和2020 年度的58.1 萬條歷史運行數(shù)據(jù);甘肅省計算中心為曙光5000 高性能計算集群系統(tǒng)上2019 到2020 年度的2.3 萬條歷史運行數(shù)據(jù);上海交通大學(xué)高性能計算中心為高性能計算集群型 π 異構(gòu)高性能計算系統(tǒng)上2017 到2019 年度的190.5 萬條歷史運行數(shù)據(jù);中國科學(xué)技術(shù)大學(xué)超級計算中心為曙光TC4600 百萬億次超級計算系統(tǒng)上2014 到2021 年度的267 萬條歷史運行數(shù)據(jù)。

2 典型應(yīng)用的運行時間預(yù)測

針對高斯是化學(xué)計算軟件的特點,讀取輸入文件,提取特征,建立輸入?yún)?shù)與運行時間之間的模型,在預(yù)測中引入新的特征描述分子體系——庫倫矩陣,提供了對分子體系坐標原點無關(guān)、編號起始原子無關(guān)、旋轉(zhuǎn)無關(guān)的描述方法,能夠一定程度提升預(yù)測準確度[6-7]。庫倫矩陣是一個n 階對稱方陣(n 為分子體系中的原子個數(shù)),使用原子兩兩之間的關(guān)系來刻畫整個分子結(jié)構(gòu),具有與原點位置無關(guān)、旋轉(zhuǎn)不變等優(yōu)良特性??紤]到庫倫矩陣的維度不一致,我們將其f 范數(shù)抽象出來作為一個特征。矩陣元素定義如下:

由于高斯作業(yè)的運行時間差異,模型預(yù)測結(jié)果與真實值之間的絕對誤差均值不能很好地反映模型預(yù)測的準確性,我們使用平均相對誤差率Pr來評價模型。設(shè)Ttrue為作業(yè)真實運行時間,Tpred為模型預(yù)測時間,取一個很小的值?,Pr定義如下:

采用深度人工神經(jīng)網(wǎng)絡(luò)(DNN)和梯度提升(XGBoot)兩種機器學(xué)習(xí)算法,對模型進行訓(xùn)練,進行運行時間的預(yù)測。在運行時間預(yù)測方面,我們的模型對短作業(yè)(一小時以內(nèi))的預(yù)測精度有著非常好的效果。圖1 給出了DNN 模型在測試集上的預(yù)測結(jié)果與真實值比對,藍色部分為真實值,黃色部分為預(yù)測值,整體契合度較高,誤差集中在小部分樣本上。圖2 給出了XGBOOST 模型預(yù)測得到的結(jié)果與真實值結(jié)果對比,與DNN 得到的結(jié)果相似,整體比較契合。圖3 給出了采用庫倫矩陣的作用。

圖1 DNN 模型在測試集上的預(yù)測結(jié)果與真實值比對Fig.1 DNN predicted values compared with true values

圖2 XGBOOST 模型預(yù)測得到的結(jié)果與真實值結(jié)果對比Fig.2 XGBOOST predicted values compared with true values

圖3 庫倫矩陣在預(yù)測中的作用Fig.3 Coulomb matrix in prediction

通過機器學(xué)習(xí)的方法,我們對Gaussian 作業(yè)運行時間的預(yù)測有比較準確的效果,其中DNN 的準確率達到了85%,XGBOOST 的準確率達到了83%。通過遷移模型的方法,我們的模型在上海超級計算中心平臺上同樣取得了較好的效果。在輸入文件提取方面,我們實現(xiàn)了用戶層面無感知的讀取工作和用戶層面無感知的預(yù)測流程,即用戶只需提供Gaussian 作業(yè)的輸入文件便可以得到預(yù)估的作業(yè)完成時間。該功能已經(jīng)集成到國家高性能計算環(huán)境中實際運行使用,圖4 是該功能在實際應(yīng)用中的界面展示,作業(yè)提交到cngrid 上的界面和提交后的界面,在提交之后作業(yè)列表中可以看到預(yù)測時間。

圖4 國家高性能計算環(huán)境中的預(yù)測功能界面Fig.4 Prediction in national high performance computing environment

3 多中心間任務(wù)遷移機制的研究

Dockers 可運行于Linux 和Windows 環(huán)境,用于創(chuàng)建、管理和編排容器。從Dockers 1.12.0版本開始,Docker swarm 已經(jīng)包含在Docker Engine 中,并且內(nèi)置了相關(guān)服務(wù)工具。在實驗環(huán)境的兩臺節(jié)點上,選擇其中一臺節(jié)點作為Leader,另外一臺作為worker。Docker+swarm 可以簡單實現(xiàn)服務(wù)的容器部署。要實現(xiàn)HPC 應(yīng)用的跨節(jié)點運行,支持多節(jié)點的MPI 環(huán)境,需要使用Docker 的覆蓋網(wǎng)絡(luò)(overlay network),同時配置NFS 服務(wù)器,啟動服務(wù)時將NFS 目錄掛載到所有節(jié)點上,這樣才能保證MPI 的運行目錄一致。拉取官方已有的openmpi 鏡像,根據(jù)實驗環(huán)境修改模板文件,包括了覆蓋網(wǎng)絡(luò)的名稱、NFS 服務(wù)器地址和目錄,需要啟動的節(jié)點數(shù)目等,根據(jù)實際情況進行配置,確定服務(wù)啟動。運行MPI 程序可以登錄任意一個節(jié)點運行。雖然可以使用Docker 來實現(xiàn)HPC 應(yīng)用的運行,但由于集群中多用調(diào)度管理器來進行資源的分配和管理,采用的是cgroups 針對每個作業(yè)配置資源,而Docker 鏡像的啟動是由Docker daemon 去執(zhí)行的,這樣資源的限制也就失效。而且Docker daemon 為root 用戶啟動,不安全。

Singularity 是一個輕量的容器系統(tǒng),它可以無縫地和現(xiàn)有的環(huán)境結(jié)合,為應(yīng)用提供一個“運行時環(huán)境”,相比Dockers,它沒有Daemon 進程和網(wǎng)絡(luò)虛擬化技術(shù)。相比Docker 具有獨特的優(yōu)勢:(1)更加輕松的環(huán)境打包遷移:借助于singularity 沙盒方式構(gòu)建鏡像,可以做到類似在虛擬機上安裝部署應(yīng)用一樣的使用場景。在應(yīng)用構(gòu)建時所產(chǎn)生的文件或所依賴的環(huán)境都以鏡像文件方式存儲,不需要單獨打包或?qū)?,直接拷貝走鏡像即可。(2)可以和現(xiàn)有系統(tǒng)無縫整合:系統(tǒng)用戶權(quán)限、網(wǎng)絡(luò)等直接繼承宿主機(host)配置,并且無需進入到某個鏡像后再執(zhí)行命令,可以直接在外部調(diào)用鏡像內(nèi)的執(zhí)行,類似于本地安裝的指令。將singularity 和集群調(diào)度系統(tǒng)slurm 結(jié)合,可以實現(xiàn)通過slurm 來調(diào)度管理容器資源,并實現(xiàn)與全機集群系統(tǒng)的無縫整合,如交大集群中就采用了這種方式,用戶可以根據(jù)自身的情況選擇采用物理機上運行應(yīng)用,也可以通過singularity實現(xiàn)應(yīng)用的容器化運行,全機整體進行調(diào)度。在兩臺節(jié)點上部署slurm 和singularity,采用一個MPI 程序進行測試。自定義singularity definition file,構(gòu)建sif 鏡像,可以單機也可以通過srun 提交腳本來運行。

通過對容器技術(shù)開展的研究、測試和部署,實現(xiàn)了跨集群或平臺的高性能計算應(yīng)用的容器方式遷移。容器化作業(yè)遷移流程如圖5 所示,利用國家高性能計算環(huán)境中中國科學(xué)院計算機網(wǎng)絡(luò)信息中心和上海交通大學(xué)已封裝完成的鏡像,實現(xiàn)在不同超算的容器平臺間的應(yīng)用遷移。其中中國科學(xué)院計算機網(wǎng)絡(luò)信息中心提供了已封裝鏡像倉庫https://sin.cngrid.org,上面已封裝完成包括基礎(chǔ)鏡像在內(nèi)的20 多個鏡像,在進行遷移測試時,選擇其中的三個鏡像lammps、gromacs 和namd 分別在上海交通大學(xué)Pi 集群和上海超級計算中心的實驗集群兩個singularity 平臺進行。

圖5 容器化作業(yè)遷移流程Fig.5 The process of containerized job migration

4 應(yīng)用感知的調(diào)度方法

基于國家高性能計算服務(wù)環(huán)境周期查詢計算節(jié)點隊列資源信息,并將計算資源信息轉(zhuǎn)化為作業(yè)調(diào)度信息,獲取滿足作業(yè)運行所需資源隊列,實現(xiàn)作業(yè)到計算節(jié)點隊列的直接調(diào)度與運行,系統(tǒng)周期查詢節(jié)點資源,只有資源滿足作業(yè)運行要求時[8-13],系統(tǒng)才把作業(yè)調(diào)度到相應(yīng)網(wǎng)格節(jié)點上,其流程如圖6所示。

圖6 應(yīng)用感知調(diào)度方法流程Fig.6 The process of application-aware based scheduling method

目前,利用超級計算中心的計算資源進行高性能計算研究已經(jīng)在國內(nèi)得到了極大的普及。然而,目前大部分超級計算中心針對任務(wù)的調(diào)度策略都存在一些不可忽略的問題:第一,由于任務(wù)調(diào)度的不充分性,導(dǎo)致作業(yè)的排隊時間過長,造成調(diào)度效率低下;第二,由于各地對使用超級計算中心的定價不一樣,導(dǎo)致需要大規(guī)模處理器進行計算的作業(yè)需要花費更高的價格完成計算,從而大大增加了成本;第三,由于該調(diào)度策略未使用有效的負載均衡策略,任務(wù)在可以提供計算的多個隊列中不能被高效地調(diào)度到空閑隊列上進行計算,導(dǎo)致負載較輕的隊列處于空閑狀態(tài),負載較重的隊列處于滿負荷狀態(tài),從而造成嚴重的負載不均衡狀況,進而形成了較為嚴重的調(diào)度性能瓶頸。針對以上缺陷或改進需求,我們研發(fā)了一種用于超級計算中心的并行任務(wù)調(diào)度方法和系統(tǒng),其目的在于解決現(xiàn)有超級計算中心所使用的調(diào)度策略由于任務(wù)調(diào)度的不充分性,導(dǎo)致的作業(yè)的排隊時間過長、調(diào)度效率低下的技術(shù)問題,以及由于各地對使用超級計算中心的定價不一樣,導(dǎo)致需要大規(guī)模處理器進行計算的作業(yè)需要花費更高的價格完成計算,從而大大增加了成本的技術(shù)問題,以及由于未使用有效的負載均衡策略,造成嚴重的負載不均衡狀況,進而形成了較為嚴重的調(diào)度性能瓶頸的技術(shù)問題。研究的基本思路在于,采用基于超級計算中心處理器使用價格最低的任務(wù)優(yōu)先進行調(diào)度的計算方法做出最終的任務(wù)到處理器的映射決策,該計算方法將解析的所有數(shù)據(jù)分別進行存儲,對每一個待調(diào)度的作業(yè)計算作業(yè)到隊列上的使用價格,得到的若干個二元組數(shù)據(jù)進行排序,獲取使用價格最小的數(shù)據(jù)執(zhí)行優(yōu)先調(diào)度,將它調(diào)度到對應(yīng)的隊列上之后周期性地更新資源信息,以確保剩下的作業(yè)調(diào)度時每一個隊列的資源數(shù)據(jù)的確定性。通過了上述方案的執(zhí)行,實現(xiàn)了更高的性能和更好的負載均衡效果,降低了開銷。

圖7 應(yīng)用感知調(diào)度方法流程Fig.7 The process of application-aware based scheduling method

研究實現(xiàn)了基于應(yīng)用的作業(yè)調(diào)度算法。第一、主要依據(jù)環(huán)境特征對異構(gòu)計算資源實現(xiàn)標準化,依據(jù)高性能應(yīng)用的多樣性提出作業(yè)調(diào)度屬性特性和作業(yè)可調(diào)度約束條件,以實現(xiàn)時間優(yōu)先的全局資源優(yōu)化(Application-aware Time First Strategy,ATFS)。第二、針對服務(wù)環(huán)境計算節(jié)點隊列負載的非均衡性和時間二維序列性,提出基于長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM的節(jié)點負載預(yù)測方法,實現(xiàn)資源利用率優(yōu)先的網(wǎng)格作業(yè)調(diào)度策略(Application-aware Workload First Strategy,AWFS)。第三、實現(xiàn)應(yīng)用感知的計算成本優(yōu)先作業(yè)調(diào)度算法(Application-aware Cost First Strategy,ACFS)。建立環(huán)境感知的作業(yè)直接調(diào)度體系,對網(wǎng)格環(huán)境中的節(jié)點,調(diào)度系統(tǒng)周期性查詢節(jié)點狀態(tài),應(yīng)用調(diào)度策略,當節(jié)點資源滿足作業(yè)運行時即直接把作業(yè)調(diào)度到該節(jié)點上。

經(jīng)過測試,分別在時間優(yōu)先、資源優(yōu)先和成本優(yōu)先三種條件下,分別使用三種調(diào)度算法以及與原有的調(diào)度算法進行對照,圖8 給出了不同策略調(diào)度后的結(jié)果與現(xiàn)有調(diào)度策略的比較圖,可以看到在時間優(yōu)先考慮時ATFS 優(yōu)于原有調(diào)度策略11.03%,優(yōu)于AWFS65.87%,優(yōu)于ACFS0.38%。

圖8 三種調(diào)度策略與現(xiàn)有調(diào)度策略的比較圖Fig.8 Comparison of three scheduling strategies and the existing scheduling strategy

從實驗結(jié)果看到本文開發(fā)的三種調(diào)度算法無論在何種外在約束條件下均優(yōu)于原有的調(diào)度算法,且在相對應(yīng)的約束條件下都表現(xiàn)出了相應(yīng)的優(yōu)勢。

5 結(jié)論與展望

本文收集了國家高性能計算環(huán)境中部分超級計算機系統(tǒng)的歷史任務(wù)數(shù)據(jù),研究了典型應(yīng)用的特征,基于對應(yīng)用的數(shù)據(jù)及參數(shù)的分析,建立了作業(yè)運行時間與參數(shù)及數(shù)據(jù)相關(guān)的預(yù)測模型,研究了多中心作業(yè)調(diào)度遷移方法。作為國家高性能計算環(huán)境中核心軟件層的計算資源調(diào)度模塊,研究了為國家高性能計算環(huán)境提供基于作業(yè)類型-算法映射優(yōu)化的自適應(yīng)調(diào)度方法,包括對應(yīng)用感知負載均衡調(diào)度算法的研究?;诒疚难芯康南到y(tǒng)已經(jīng)開發(fā)完成并整合到國家高性能計算環(huán)境中,實際測試運行情況良好。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

猜你喜歡
計算中心計算環(huán)境鏡像
云計算環(huán)境下船舶無線通信網(wǎng)絡(luò)入侵檢測方法
中國—東盟人工智能計算中心正式發(fā)布
云計算環(huán)境下網(wǎng)絡(luò)安全等級保護的實現(xiàn)途徑
面向反應(yīng)堆設(shè)計的高性能計算中心建設(shè)及應(yīng)用
騰訊云首個5G邊緣計算中心正式對外開放
鏡像
云計算環(huán)境下的信息安全風(fēng)險評估
鏡像
大數(shù)據(jù)云計算環(huán)境下的數(shù)據(jù)安全
鏡像
鲁山县| 武胜县| 东光县| 郧西县| 仙游县| 拜泉县| 类乌齐县| 繁昌县| 万全县| 广州市| 嘉荫县| 沁源县| 祁阳县| 哈巴河县| 鹤壁市| 宜君县| 南昌市| 钦州市| 河曲县| 胶南市| 浏阳市| 延津县| 分宜县| 涡阳县| 临澧县| 望城县| 鸡东县| 隆林| 奎屯市| 称多县| 万安县| 达拉特旗| 嘉义市| 临安市| 赞皇县| 盐源县| 松桃| 松江区| 佛山市| 古丈县| 正阳县|