余茂琴,魏家植,王 強(qiáng),汪喆遠(yuǎn)
(中電萊斯信息系統(tǒng)有限公司,江蘇南京 210000)
云計(jì)算作為新基建中的關(guān)鍵技術(shù),在未來數(shù)字化經(jīng)濟(jì)中發(fā)揮著重要作用,因此,云數(shù)據(jù)中心在當(dāng)下信息社會中的重要性不言而喻[1]。隨著云計(jì)算數(shù)據(jù)中心規(guī)模的不斷擴(kuò)張,面對海量的用戶工作負(fù)載請求,云計(jì)算數(shù)據(jù)中心資源的分配和調(diào)度問題在學(xué)術(shù)界和工業(yè)界都得到了廣泛深入的研究和實(shí)踐。
不同于以往直接為用戶提供計(jì)算機(jī)基礎(chǔ)設(shè)施,云計(jì)算本質(zhì)上一種新的商業(yè)服務(wù)交付方式,提供的是虛擬服務(wù)。依托云計(jì)算數(shù)據(jù)中心,通過低成本的X86 服務(wù)器大規(guī)模集成以獲取巨大算力,聚焦于應(yīng)用程序和底層服務(wù)協(xié)議深度結(jié)合,以獲取良好兼容性,配置多個(gè)冗余備用服務(wù)器,保障其可靠性,實(shí)現(xiàn)低成本高效率對大規(guī)模數(shù)據(jù)處理和存儲的要求[2]。在云計(jì)算中資源配置是該技術(shù)的重要一環(huán),直接關(guān)系到運(yùn)營成本以及用戶的實(shí)際體驗(yàn),但資源調(diào)度是一個(gè)NP-hard 問題,目前尚未有一個(gè)較為完善的解決方案,尤其在大規(guī)模計(jì)算中,無法在有效時(shí)間內(nèi)獲取最優(yōu)解[3],亟待進(jìn)一步優(yōu)化資源調(diào)度算法。
本文對云計(jì)算在數(shù)據(jù)中心的作用和主要特點(diǎn)進(jìn)行概述,分析資源配置對云計(jì)算的能力支撐,總結(jié)了國內(nèi)外對云計(jì)算資源配置的各類策略,如傳統(tǒng)調(diào)度算法、智能調(diào)度算法等。隨著5G 建設(shè)展開,云計(jì)算的基礎(chǔ)設(shè)施規(guī)模不斷增大,云計(jì)算移動端潛在用戶巨大,通過云計(jì)算的合理資源配置,不僅能降低物理設(shè)備能耗,也能提高對用戶任務(wù)的響應(yīng)速度,給云計(jì)算提供商和用戶帶來巨大的收益。
(1)資源多樣性
資源的多樣性是云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)中資源的一個(gè)顯著特征。云計(jì)算數(shù)據(jù)中心資源池中包括:CPU、GPU、內(nèi)存、儲存、網(wǎng)絡(luò)帶寬等各種資源,不同類型資源的配比組成也完全不同,需要根據(jù)任務(wù)側(cè)重點(diǎn)進(jìn)行個(gè)性化配置。依托規(guī)模龐大、種類齊全的云計(jì)算資源,云計(jì)算服務(wù)商為用戶提供定制方案,滿足用戶對各類資源的需求。
(2)用戶需求異構(gòu)性
用戶需求異構(gòu)性主要體現(xiàn)在資源需求和服務(wù)類型不同。用戶對服務(wù)質(zhì)量要求的側(cè)重點(diǎn)不同,同一用戶下子用戶的需求也不盡相同。云服務(wù)的提供商和用戶簽訂服務(wù)水平協(xié)議(SLA),量化了云服務(wù)質(zhì)量,描述所需的計(jì)算能力的預(yù)期保障用戶服務(wù)質(zhì)量,根據(jù)用戶的付費(fèi)情況、需求側(cè)重,提供不同等級的服務(wù)。此外,用戶的請求時(shí)刻變化,云計(jì)算數(shù)據(jù)中心需要細(xì)分各用戶的請求,為用戶提供基本的資源保障。
(3)高可靠性與高可擴(kuò)展性
為了保障云服務(wù)的可靠性,云服務(wù)商采用副本策略,為用戶數(shù)據(jù)提供數(shù)據(jù)備份。另外,云計(jì)算系統(tǒng)的資源可以擴(kuò)展開發(fā),擴(kuò)展的規(guī)模能夠根據(jù)用戶的應(yīng)用來動態(tài)調(diào)節(jié)。因此對于用戶來說,他們可以隨時(shí)根據(jù)需要購買任意規(guī)模的云計(jì)算資源和服務(wù)。
(4)成本低廉且計(jì)費(fèi)靈活
云計(jì)算系統(tǒng)以大規(guī)模的廉價(jià)服務(wù)器集群為基礎(chǔ),使用常見的普通千兆以太網(wǎng)大大降低了云計(jì)算系統(tǒng)的成本,使得云計(jì)算系統(tǒng)有相當(dāng)強(qiáng)的價(jià)格優(yōu)勢。除此以外,成熟的虛擬化技術(shù)把各類資源整理結(jié)合到一起,統(tǒng)一管理規(guī)范,云計(jì)算系統(tǒng)也就可以實(shí)現(xiàn)對系統(tǒng)資源使用情況的自動化控制和系統(tǒng)優(yōu)化配置,用戶端即可享受到更加靈活透明的服務(wù)。
綜上,云計(jì)算系統(tǒng)的規(guī)模龐大,資源結(jié)構(gòu)不同的設(shè)備數(shù)目大,用戶的使用群體比較廣泛,各自請求的任務(wù)大不相同。因此,系統(tǒng)時(shí)刻都要處理各類海量數(shù)據(jù)。在這種應(yīng)用條件下,資源的分配管理,以更少的資源成本服務(wù)更多的用戶,提高云計(jì)算資源利用率,是云計(jì)算系統(tǒng)資源調(diào)度策略的技術(shù)攻堅(jiān)和研究方向。
云計(jì)算總體架構(gòu)包括四層,分別為物理層、資源層、管理層、服務(wù)層,如圖1 所示。物理層主要包括計(jì)算機(jī)、存儲資源、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫,為云計(jì)算提供硬件支撐;資源層包括計(jì)算資源池、存儲資源池、網(wǎng)絡(luò)資源池、數(shù)據(jù)資源池,利用虛擬化技術(shù),將分散、異構(gòu)、海量的資源優(yōu)化整合,形成一定規(guī)模的計(jì)算能力;管理層負(fù)責(zé)用戶管理、任務(wù)管理、資源管理,安全管理包括身份認(rèn)證、訪問授權(quán)、綜合防護(hù)、安全審計(jì);服務(wù)層包括服務(wù)接口、服務(wù)注冊、服務(wù)查找、服務(wù)訪問等,這一層直接與用戶對接,將用戶需求錄入,并通過管理層分配對應(yīng)的計(jì)算資源[4]。
圖1 云計(jì)算總體架構(gòu)
如圖2 所示,云計(jì)算資源調(diào)度體系架構(gòu)主要包括用戶、中間管理、數(shù)據(jù)中心資源池。在云計(jì)算資源調(diào)度體系中,用戶根據(jù)自身需求向云服務(wù)商發(fā)送任務(wù)請求和資源申請,云服務(wù)商據(jù)調(diào)度任務(wù)的緊迫程度以及自身的預(yù)算情況,設(shè)置相應(yīng)資源分配優(yōu)先級,并將任務(wù)請求劃分成多個(gè)子任務(wù),多個(gè)任務(wù)之間可以相互獨(dú)立,也可互相依賴。數(shù)據(jù)中心資源池是云計(jì)算環(huán)境的資源提供者,根據(jù)用戶請求分配相應(yīng)的資源。中間管理是連接用戶和云計(jì)算資源池的樞紐,對任務(wù)隊(duì)列進(jìn)行劃分和作業(yè)部署,完成計(jì)算資源的分配。此外,研發(fā)人員也可在中間管理層通過對其進(jìn)行擴(kuò)展來開發(fā)不同的云計(jì)算資源調(diào)度策略。
圖2 資源分配架構(gòu)圖
云數(shù)據(jù)運(yùn)行中常伴隨這樣的情況:新節(jié)點(diǎn)不斷加入到云中,舊節(jié)點(diǎn)不斷從云中刪除,這種動態(tài)變化使得系統(tǒng)中數(shù)據(jù)的不均衡性大大增加,導(dǎo)致云資源浪費(fèi),繼而減小了云數(shù)據(jù)中心的效率。數(shù)據(jù)顯示,云計(jì)算的服務(wù)器利用率不高,平均利用率在百分之十左右。因此必須設(shè)計(jì)合理的云資源分配算法來解決云數(shù)據(jù)中心的服務(wù)器負(fù)載不均衡問題,提高云數(shù)據(jù)系統(tǒng)的利用效率,采用一種什么樣的調(diào)度策略來實(shí)現(xiàn)負(fù)載均衡分布、避免流量擁擠、加快響應(yīng)速度、提高執(zhí)行效率、降低能耗,它是云計(jì)算中亟待解決的問題之一。
(1)資源調(diào)度能夠提升硬件的處理能力、減少硬件的投入。隨著云計(jì)算技術(shù)不斷成熟,其用戶數(shù)量和用戶需求快速增長,相應(yīng)的計(jì)算資源、存儲資源等各類資源也需要進(jìn)行增配。通過不斷增加設(shè)備,帶來的成本負(fù)擔(dān)過大,因此有必要對現(xiàn)有的硬件設(shè)備進(jìn)行高效利用。
(2)資源調(diào)度技術(shù)提高了數(shù)據(jù)的響應(yīng)速度。資源調(diào)度技術(shù)的運(yùn)用,能夠進(jìn)行合理的資源調(diào)度及利用,根據(jù)用戶請求類型內(nèi)容,合理配置釋放資源池內(nèi)資源,加速任務(wù)處理效率,能夠?yàn)橛脩籼峁└觾?yōu)質(zhì)的服務(wù)。
(3)資源調(diào)度技術(shù)增強(qiáng)了云計(jì)算可靠性,提高了云計(jì)算的可用性??煽啃栽谠朴?jì)算的運(yùn)用中一直是一個(gè)至關(guān)重要的因素,云計(jì)算數(shù)據(jù)中心建立在眾多廉價(jià)服務(wù)器上,不可避免地會發(fā)生某個(gè)服務(wù)器故障,此時(shí)可采用云計(jì)算的資源調(diào)度技術(shù),將故障服務(wù)器中的任務(wù)和數(shù)據(jù)遷移到別的服務(wù)器中,保障用戶的正常操作。
云計(jì)算資源調(diào)度策略可以分為非智能傳統(tǒng)資源調(diào)度策略和智能化啟發(fā)式資源調(diào)度策略。非智能傳統(tǒng)資源調(diào)度策略,通常采用設(shè)定好的調(diào)度策略對資源進(jìn)行簡單劃分,沒有考慮各服務(wù)器的實(shí)際負(fù)載狀況。此類型資源調(diào)度算法較為簡單,易實(shí)現(xiàn)、開銷小。然而,由于負(fù)載分配時(shí)未考慮各節(jié)點(diǎn)的負(fù)載情況,分配方案不一定滿足負(fù)載均衡的要求,嚴(yán)重時(shí)甚至?xí)?dǎo)致負(fù)載不均衡。啟發(fā)式資源調(diào)度策略,考慮了各節(jié)點(diǎn)的真實(shí)負(fù)載情況,因此任務(wù)的分配更合理,但由于要實(shí)時(shí)計(jì)算節(jié)點(diǎn)的負(fù)載,增加了服務(wù)器額外的計(jì)算負(fù)擔(dān),算法復(fù)雜度比較高。
(1)Min-Min 資源調(diào)度法是一種復(fù)雜程度較低的非智能傳統(tǒng)資源調(diào)度策略,其運(yùn)用廣泛,計(jì)算效率較高。該算法的核心思想是在每次用戶發(fā)出任務(wù)請求時(shí),篩選出任務(wù)集中程度最低的任務(wù),將任務(wù)交給計(jì)算性能最高的服務(wù)器上,以獲取最佳的用戶體驗(yàn)。這種方法在任務(wù)隊(duì)列較少時(shí),能夠較高效地完成計(jì)算服務(wù),但是任務(wù)會大量集中在計(jì)算性能最高的服務(wù)器上,而其他服務(wù)器卻處于相對空閑的狀態(tài),造成資源的浪費(fèi)。文獻(xiàn)[5]對Min-Min 算法進(jìn)行了改進(jìn),將集中程度最大任務(wù)和集中程度最小任務(wù)進(jìn)行組合,減輕負(fù)載不平衡的問題;文獻(xiàn)[6]采用二次調(diào)度策略,檢測處理任務(wù)量大的服務(wù)器,將任務(wù)進(jìn)行二次分配,減輕Min-Min 策略中計(jì)算性能最強(qiáng)的服務(wù)器負(fù)擔(dān)。
(2)輪詢算法(RR)是常用的默認(rèn)調(diào)度算法,對各物理服務(wù)器進(jìn)行循環(huán)依次請求。該算法的一個(gè)重要前提是它需要后端服務(wù)器硬件性能配置完全一致,且對業(yè)務(wù)無特殊要求。若各節(jié)點(diǎn)配置不同,該算法易導(dǎo)致配置低的服務(wù)器承擔(dān)過量任務(wù),而配置高的服務(wù)器出現(xiàn)浪費(fèi),造成各節(jié)點(diǎn)負(fù)載不均衡。
(3)加權(quán)輪詢算法(WRR)相比于輪詢算法,充分考慮了各節(jié)點(diǎn)硬件性能處理水平不平均的問題。該算法綜合考慮各物理服務(wù)器性能,確定輪詢概率和權(quán)重,任務(wù)按照權(quán)重比例進(jìn)行分配[7]。因此,處理能力越強(qiáng)的節(jié)點(diǎn),會優(yōu)先分配任務(wù)。然而,該算法對權(quán)值設(shè)置依賴較高,若權(quán)值設(shè)置不合理,仍會導(dǎo)致性能低的節(jié)點(diǎn)被分配較多的任務(wù)。
(4)粒子群算法(PSO)是一種智能化啟發(fā)式資源調(diào)度策略[8]。在資源調(diào)度中,用戶請求的數(shù)量決定PSO維度,資源服務(wù)器和用戶請求決定粒子的位置??紤]到用戶請求計(jì)算成本和數(shù)據(jù)傳輸成本,該算法首先計(jì)算所有總成本并映射到工作流應(yīng)用程序。之后,考慮用戶請求之間的關(guān)系并分配可調(diào)度的用戶請求給資源服務(wù)器。用戶請求完成后,更新就緒任務(wù)列表,然后根據(jù)當(dāng)前網(wǎng)絡(luò)負(fù)載的狀態(tài),更新資源服務(wù)器之間平均通信代價(jià),并重新粒子群映射[9]。當(dāng)資源服務(wù)器不可用時(shí),遠(yuǎn)程資源管理系統(tǒng)不會分配用戶請求給該服務(wù)器。通過重新計(jì)算的粒子群映射,再將用戶請求重新分配給可用的資源服務(wù)器,重復(fù)以上步驟,直到所有的用戶請求被調(diào)度完成。
(5)遺傳算法(GA)具有全局尋優(yōu)能力和較強(qiáng)的適應(yīng)性,該算法將每一個(gè)分配方案都進(jìn)行編碼,然后將其分配到各個(gè)計(jì)算設(shè)備上運(yùn)行,根據(jù)運(yùn)行時(shí)間求得適應(yīng)度函數(shù),再選擇較優(yōu)的個(gè)體遺傳到下一代[10]。文獻(xiàn)[11]提出雙目標(biāo)調(diào)度方案,染色體中的單個(gè)基因表示用戶請求,一個(gè)有效序列基因的有效染色體表示資源服務(wù)器。首先采用雙向用戶請求優(yōu)先級獲得較好的初始種群,然后通過縮小任務(wù)總執(zhí)行時(shí)間和均衡資源服務(wù)器的負(fù)載得到當(dāng)前最好的解決方案,最后通過種群個(gè)體的遺傳操作、交叉操作和變異操作不斷更新種群,最終找到范圍內(nèi)的最優(yōu)解。
(6)模擬退火算法(SA)來源于固體退火原理,通過設(shè)置冷卻進(jìn)度表,賦予搜索過程時(shí)變且最終趨于零的概率突跳性[12],有效避免了算法陷入局部極小,并能最終趨于全局最優(yōu)。由于該算法在迭代時(shí),是由當(dāng)前新解經(jīng)過簡單的變換即可產(chǎn)生新解,目標(biāo)函數(shù)差僅由變換部分產(chǎn)生,因此計(jì)算較快,有效地減小了時(shí)間和成本,降低了用戶請求的執(zhí)行時(shí)間-代價(jià)及不同用戶請求間的數(shù)據(jù)傳輸時(shí)間-代價(jià)[13]。
本文針對云計(jì)算系統(tǒng)的特點(diǎn),分析了云計(jì)算技術(shù)框架,總結(jié)了云計(jì)算中資源調(diào)度的必要性,給出目前相對成熟的資源調(diào)度方法。盡管現(xiàn)階段已衍生出多種資源調(diào)度算法,但虛擬機(jī)的遷移依然不可避免,相關(guān)研究依然需要進(jìn)一步研究。相關(guān)的智能算法還存在容易陷入局部最優(yōu)的問題,后續(xù)研究需要進(jìn)一步增強(qiáng)數(shù)據(jù)隨機(jī)搜索能力,保障資源調(diào)度的合理路徑。此外,現(xiàn)階段的資源調(diào)度算法,大多以最短調(diào)度時(shí)間為目標(biāo),沒有考慮到資源間的通信成本和資源調(diào)度成本,并且算法基本都以用戶請求彼此獨(dú)立為研究前提,忽略用戶請求間的聯(lián)系,后續(xù)研究應(yīng)將這些因素納入資源調(diào)度的考量因素,提升資源調(diào)度效率,降低調(diào)度成本。