公誠(chéng)管理咨詢有限公司 陳欲科
在互聯(lián)網(wǎng)發(fā)展的過(guò)程中,云計(jì)算可以實(shí)現(xiàn)通過(guò)網(wǎng)絡(luò)將軟硬件資源和信息整合共享,按照要求把不同的信息提供給不同計(jì)算機(jī)的終端和其他設(shè)備。提供設(shè)備的時(shí)候,要用到數(shù)據(jù)中心作為云計(jì)算的支撐設(shè)施,所以數(shù)據(jù)中心的資源分配和調(diào)度問(wèn)題是非常重要的,相關(guān)人員需要對(duì)其進(jìn)行深入研究。本篇文章將對(duì)云計(jì)算數(shù)據(jù)中心進(jìn)行結(jié)構(gòu)和特征的詳細(xì)介紹,通過(guò)研究負(fù)載均衡對(duì)云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)資源分配的問(wèn)題,解決數(shù)據(jù)中心資源分配和調(diào)度的問(wèn)題。
云計(jì)算服務(wù)的基礎(chǔ)是數(shù)據(jù)中心,云計(jì)算的特點(diǎn)是低成本和高效率。人們可以使用它對(duì)數(shù)據(jù)進(jìn)行大規(guī)模的處理和儲(chǔ)存,云計(jì)算數(shù)據(jù)中心隨著互聯(lián)網(wǎng)時(shí)代的不斷發(fā)展和進(jìn)步,規(guī)模也不得不繼續(xù)擴(kuò)張,云數(shù)據(jù)中心的資源分配和調(diào)度問(wèn)題受到了多方面的重視和關(guān)注,面對(duì)大量的工作和用戶,負(fù)載過(guò)多,必須要盡快解決資源的分配和調(diào)度問(wèn)題。不僅在學(xué)術(shù)界,在工業(yè)界希望能夠深入的研究這個(gè)問(wèn)題。
網(wǎng)絡(luò)交換機(jī)、機(jī)架、冷卻系統(tǒng)、主機(jī)四個(gè)部分構(gòu)成一個(gè)云計(jì)算數(shù)據(jù)中心,這是十分典型的組成結(jié)構(gòu)。
云計(jì)算數(shù)據(jù)中心具有差異性,才能準(zhǔn)確精準(zhǔn)地為客戶提供服務(wù),以數(shù)據(jù)多樣性的特點(diǎn),這也是云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)的顯著特征。從大的方面來(lái)說(shuō),一般可以將網(wǎng)絡(luò)資源分為兩類,一類是通信資源,另一類是計(jì)算資源。Hadoop,YARN和Mesos等等都是在數(shù)據(jù)中心中廣泛使用的主流大數(shù)據(jù)框架,可以支持多種資源的調(diào)度與分配。這也就是說(shuō),云計(jì)算數(shù)據(jù)中心可以提供很多計(jì)算或者資源的類型,例如CPU、GPU,內(nèi)存、存儲(chǔ)、鏈路帶寬等,通常來(lái)說(shuō),不同種類資源,使用的數(shù)量也不一樣。
相關(guān)學(xué)者在Facebook上對(duì)一個(gè)2000節(jié)點(diǎn)的集群進(jìn)行調(diào)查,研究多資源分配的必要性,在一個(gè)月內(nèi)對(duì)資源的使用情況做出記錄,并依據(jù)記錄的數(shù)據(jù)繪制圖,這充分證明了多資源分配的必要性。圓圈的大小與圓圈內(nèi)區(qū)域中的任務(wù)數(shù)量呈對(duì)數(shù)關(guān)系,相對(duì)應(yīng)被用戶任務(wù)消耗的內(nèi)存和CPU資源由圖中的圓圈代表。大數(shù)據(jù)中心的任務(wù),尤其是reduce,需要消耗很多CPU資源和內(nèi)存。
在入侵檢測(cè)時(shí)會(huì)消耗更多CPU的資源。也就是說(shuō),在NFV環(huán)境中,不同的中間設(shè)備處理不同的資源,消耗的功能也不同,所以要根據(jù)要求來(lái)處理數(shù)據(jù)流,同時(shí)根據(jù)需求讓一個(gè)中間設(shè)備做出調(diào)度的決策,協(xié)調(diào)多種資源。在處理小型數(shù)據(jù)包的時(shí)候與處理大型數(shù)據(jù)包時(shí)的消耗是不同的,第一種情況瓶頸資源是內(nèi)存帶寬,而第二種則是鏈路帶寬。隨著信息時(shí)代的不斷發(fā)展,中間設(shè)備的異構(gòu)化也越來(lái)越受到人們的重視。
圖1 四種在Click中執(zhí)行的功能模塊的歸一化的資源使用率
相關(guān)學(xué)者測(cè)量了在Click中執(zhí)行的四種主要網(wǎng)絡(luò)功能應(yīng)用的資源痕跡。這四種網(wǎng)絡(luò)功能分別為:基礎(chǔ)轉(zhuǎn)發(fā)功能(basicforwarding,流量監(jiān)控功能(flowmonitoring,冗余消除功能(redundancyelimination)以及IP安全加密功能(IPSecencryption)。這次的研究證明了在NFV中進(jìn)行多資源流調(diào)度的必要性,這四種網(wǎng)絡(luò)功能資源占用情況在圖1明確體現(xiàn)了。每種網(wǎng)絡(luò)功能的最大資源消耗歸一化為1。從圖中可以看到:主要消耗鏈路帶寬的是基礎(chǔ)轉(zhuǎn)發(fā)功能與流量監(jiān)測(cè)功能,而占用更多的內(nèi)存空間卻是冗余消除功能,同時(shí)主要占用CPU資源的是IP安全加密功能。
云計(jì)算數(shù)據(jù)中心的客戶很多,不僅有大型小型的公司,還有很多的組織、機(jī)構(gòu)和私人用戶,在這些單位的內(nèi)部還有許多不同的部門(mén)和團(tuán)體。這就要求云計(jì)算數(shù)據(jù)中心的工作負(fù)載必須要有明顯的分層級(jí)結(jié)構(gòu),這樣,在用戶想云計(jì)算中心發(fā)送請(qǐng)求鏈接時(shí),云計(jì)算數(shù)據(jù)中心會(huì)根據(jù)用戶提供不同的服務(wù)。
多租戶(multi-tenant)環(huán)境也是云計(jì)算數(shù)據(jù)中心經(jīng)常會(huì)涉及到的環(huán)境,每個(gè)租戶都是一個(gè)反復(fù)的數(shù)據(jù)流,然而各個(gè)租戶中間又存在著資源競(jìng)爭(zhēng)的關(guān)系。搜索引擎是時(shí)延敏感型的應(yīng)用,而視頻應(yīng)用和批處理應(yīng)用卻是吞吐量敏感型的。由于每個(gè)租戶使用的應(yīng)用軟件不同,云計(jì)算數(shù)據(jù)中心使用的中間設(shè)備也必須要采用分層的結(jié)構(gòu)才能滿足用戶的需求。
用戶的需求是各種各樣的,有時(shí)候不只是不同用戶間需要的服務(wù)不一樣,就連同一個(gè)用戶的不同部門(mén)之間需要的服務(wù)都不一樣,這就是用戶的異構(gòu)性。為了優(yōu)化處理性能,對(duì)用戶提供針對(duì)性的服務(wù),云數(shù)據(jù)處理中心可以對(duì)世界各地不同的用戶發(fā)出的請(qǐng)求進(jìn)行處理,向不同的用戶提供不同的服務(wù),由于愿意投入的預(yù)算不同,這些用戶得到的體驗(yàn)和服務(wù)也大不相同。
用戶的資源需要分配隔離,這就需要用到云計(jì)算數(shù)據(jù)中心的調(diào)度器,針對(duì)不同用戶的需求進(jìn)行處理,保證每個(gè)用戶的基本資源,這就要求不管其他的用戶中是否有人面對(duì)著占用的服務(wù)器服務(wù)中斷的問(wèn)題,都要保證每一個(gè)用戶都能夠獲得屬于自己的資源分配,保證資源隔離和資源保障,這樣公平的資源分配方案是保證每個(gè)用戶相應(yīng)資源的基本方法。
數(shù)據(jù)中心的部分工作負(fù)載是被約束的,只能被部署在某些服務(wù)器上,所以用戶的請(qǐng)求是具有放置約束(placementconstraints)的。Google的數(shù)據(jù)報(bào)告顯示,50%以上的工作都在Google服務(wù)器上只能在哪些服務(wù)器上運(yùn)行的限制,這個(gè)限制是非常明確和嚴(yán)格的,這就導(dǎo)致了服務(wù)只能在這個(gè)局限里進(jìn)行。這就是說(shuō)CUPA的流量只能穿過(guò)GPUs的服務(wù)器,但是DNS的服務(wù)卻只能部署在擁有IP地址的服務(wù)器上。
在HPC和網(wǎng)絡(luò)這樣的傳統(tǒng)網(wǎng)絡(luò)環(huán)境中,經(jīng)常會(huì)采用離線(offline)的方式對(duì)資源進(jìn)行調(diào)度分配。在此之中,用戶的資源請(qǐng)求需要占用某些服務(wù)器,并且持續(xù)的時(shí)間很長(zhǎng),這就稱為用戶資源請(qǐng)求的粗粒度(coarse-grained),提前通知調(diào)度器執(zhí)行時(shí)間的上限,這樣就可以保證調(diào)度器可以為每一個(gè)用戶進(jìn)行相應(yīng)的資源調(diào)配。
在云計(jì)算數(shù)據(jù)中心里,對(duì)調(diào)度器的要求很高,一般來(lái)說(shuō),調(diào)度器需要對(duì)資源合理的進(jìn)行分配,并且做出合理科學(xué)的調(diào)度決策,同時(shí),這些工作是需要在線進(jìn)行(online)的,這個(gè)代表著在用戶進(jìn)行請(qǐng)求或者是離開(kāi)時(shí)都要迅速的反應(yīng),對(duì)用戶的需求進(jìn)行合理的調(diào)度調(diào)配。MapReduce和Dryad會(huì)將用戶的資源請(qǐng)求分割成一個(gè)接著一個(gè)的細(xì)粒度(fine-grained)的任務(wù)。作為數(shù)據(jù)密集型的計(jì)算環(huán)境,HadoopFairScheduler和Mesos是經(jīng)常使用的數(shù)據(jù)中心調(diào)度器,在成千上萬(wàn)個(gè)用戶不斷的到達(dá)和離開(kāi)中進(jìn)行在線決策。一段時(shí)間內(nèi),每個(gè)任務(wù)都會(huì)占用一定的服務(wù)器資源,同時(shí)無(wú)法確定占用的時(shí)長(zhǎng)。所以在分配和調(diào)度數(shù)據(jù)中心的資源時(shí),數(shù)據(jù)中心調(diào)度器需要根據(jù)實(shí)際情況進(jìn)行迅速的決策,保證算法的復(fù)雜性和可實(shí)施性。
負(fù)載均衡器可以均衡資源問(wèn)題。經(jīng)常使用的負(fù)載均衡技術(shù)有很多種,包括硬件負(fù)載均衡、軟件負(fù)載均衡和本地負(fù)載均衡。硬件均衡器是在服務(wù)器集群間安裝的,使用效果得到了顯著提高,但是成本也隨之增加了。一般的軟件均衡器是在服務(wù)器上安裝的,這樣的均衡器成本低,但是十分簡(jiǎn)單,使用的效果也不好。本地負(fù)載均衡是把外部用戶的請(qǐng)求平均到許多個(gè)服務(wù)器,中和服務(wù)器可以解決單個(gè)服務(wù)器的單點(diǎn)問(wèn)題。使用負(fù)載均衡技術(shù)可以綜合服務(wù)器的資源分配,是因?yàn)橛脩舻氖褂脮r(shí)間和占用資源的大小都是不確定的,具有異構(gòu)性,所以會(huì)造成服務(wù)器過(guò)閑或者是過(guò)重的問(wèn)題。
投票算法俗稱“多選一”,資源分配的負(fù)載均衡與投票算法類似,本質(zhì)是從多個(gè)資源中選擇一個(gè)資源進(jìn)行分配。投票算法需要滿足幾個(gè)基本原則。多個(gè)備選資源在本質(zhì)上平等,就算不同的權(quán)重,各資源之間也沒(méi)有根本區(qū)別,都是平等的按照不同的權(quán)重進(jìn)行選擇。初期準(zhǔn)備過(guò)程中,多準(zhǔn)備備選資源,再?gòu)闹羞x擇最優(yōu)資源。傳統(tǒng)的投票算法在搜索過(guò)程中易陷入局部最優(yōu),所以需要大量準(zhǔn)備備選資源。為了實(shí)現(xiàn)資源分配的負(fù)載均衡,本文對(duì)傳統(tǒng)的投票算法進(jìn)行了改進(jìn)。
組內(nèi)討論和組間討論組成了傳統(tǒng)投票法,每個(gè)資源數(shù)量占資源總數(shù)的比例不同。資源類中隨機(jī)選擇一個(gè)資源個(gè)體,對(duì)這個(gè)資源個(gè)體加入一個(gè)隨機(jī)的擾動(dòng),就能形成一個(gè)新的資源個(gè)體,這就是資源的更新。
結(jié)語(yǔ):總的來(lái)說(shuō),用戶使用時(shí)長(zhǎng)的不確定性和占用資源情況的不確定性,導(dǎo)致數(shù)據(jù)中心需要用調(diào)度器進(jìn)行統(tǒng)一的決策和處理。由于用戶請(qǐng)求的多樣性,云計(jì)算的消耗是很多的,它需要消耗大量的資源進(jìn)行查找,保證云計(jì)算數(shù)據(jù)中心的公平問(wèn)題,也就保證了云計(jì)算數(shù)據(jù)中心的運(yùn)行效果。要解決這個(gè)問(wèn)題,要發(fā)展調(diào)度器的決策性,讓它在短時(shí)間內(nèi)迅速作出正確的決策。