He Jin,Wu Shengbo,Ding Ding(.Beijing Telecom Planning&Designing Institute Co.,Ltd.,Beijing 00048,China;.Beijing University of Posts and Telecommunications,Beijing 00876,China)
隨著科技的日新月異,電子終端及互聯(lián)網(wǎng)已成為人們生活、工作、娛樂(lè)不可或缺的工具,但同時(shí)終端的差異性、復(fù)雜性、安全性、可用性也給企業(yè)管理帶來(lái)了巨大挑戰(zhàn)。
對(duì)于運(yùn)營(yíng)商而言,目前在用終端以管理知識(shí)型與生產(chǎn)任務(wù)型2類(lèi)為主。其中管理知識(shí)型終端以辦公、代維終端為主,擁有個(gè)性化桌面環(huán)境,應(yīng)用豐富,有外網(wǎng)訪問(wèn)需求。目前這類(lèi)終端已實(shí)現(xiàn)入域管理,支持統(tǒng)一安全防護(hù)、統(tǒng)一補(bǔ)丁升級(jí)、統(tǒng)一訪問(wèn)權(quán)限,滿足可管可控的要求,硬件配置普遍能滿足個(gè)性化桌面要求。但對(duì)于應(yīng)用單一、專(zhuān)業(yè)性強(qiáng),無(wú)個(gè)性化應(yīng)用需求,以營(yíng)業(yè)廳、客服中心為代表的生產(chǎn)任務(wù)型終端的管理則面臨很大的挑戰(zhàn)。管理方面:終端管理不可達(dá),無(wú)法監(jiān)控各終端運(yùn)行狀態(tài),無(wú)法形成完整的終端資產(chǎn)管理;安全方面:終端存在各種安全隱患,包括信息泄露、病毒及惡意軟件攻擊;運(yùn)維方面:終端維護(hù)復(fù)雜、成本高,需逐一進(jìn)行設(shè)備、系統(tǒng)及應(yīng)用的安裝、調(diào)試,軟硬件頻繁升級(jí);能耗環(huán)保方面:終端能耗大、噪聲大,無(wú)法滿足節(jié)能減排、綠色環(huán)保要求。
桌面云解決方案正是為解決運(yùn)營(yíng)商終端管理的種種困擾而產(chǎn)生的。桌面云實(shí)際上為一種云計(jì)算IaaS,它將數(shù)據(jù)中心的計(jì)算能力以虛擬桌面的形式交付給用戶,即將傳統(tǒng)模式下用戶側(cè)的操作系統(tǒng)、應(yīng)用程序和用戶數(shù)據(jù)解耦后轉(zhuǎn)移到數(shù)據(jù)中心進(jìn)行運(yùn)行和保存。用戶側(cè)終端僅需保留基本的通信與圖像處理能力,用戶鑒權(quán)認(rèn)證后即可通過(guò)優(yōu)化的網(wǎng)絡(luò)協(xié)議訪問(wèn)數(shù)據(jù)中心云端服務(wù)器和應(yīng)用程序以獲得與傳統(tǒng)模式無(wú)差異的服務(wù)體驗(yàn)。方案整體架構(gòu)如圖1所示。
桌面云是一種以服務(wù)器為中心的計(jì)算模式,借鑒了傳統(tǒng)的瘦客戶機(jī)管理方法,主要提供2項(xiàng)服務(wù):一是在數(shù)據(jù)中心對(duì)用戶的所有桌面環(huán)境或部分應(yīng)用進(jìn)行統(tǒng)一管理;二是當(dāng)用戶使用虛擬桌面及應(yīng)用時(shí),與使用正常的PC終端沒(méi)有任何體驗(yàn)上的缺失。有效兼顧了對(duì)用戶桌面的“控制”和“自由”。桌面云是對(duì)個(gè)人電腦的虛擬化,而不是簡(jiǎn)單的主機(jī)時(shí)代的回歸。
通過(guò)桌面云的引入,可有效“分離”企業(yè)IT系統(tǒng)用戶的物理終端和邏輯桌面 (含應(yīng)用程序和用戶數(shù)據(jù)),便于集中部署與工作相關(guān)的邏輯桌面環(huán)境,達(dá)到統(tǒng)一管控、安全可靠、綠色環(huán)保、降低TCO、改善使用與維護(hù)體驗(yàn)等目的。
對(duì)于營(yíng)業(yè)廳類(lèi)的生產(chǎn)任務(wù)型場(chǎng)景,桌面云引入之后,業(yè)務(wù)的受理模式發(fā)生了根本的改變。傳統(tǒng)模式下,業(yè)務(wù)的受理為用戶終端與后臺(tái)CRM等業(yè)務(wù)系統(tǒng)的交互過(guò)程。桌面云化之后,用戶終端與后臺(tái)業(yè)務(wù)系統(tǒng)之間增加一個(gè)桌面云層。所有用戶請(qǐng)求均需通過(guò)桌面云平臺(tái)方能到達(dá)后臺(tái)業(yè)務(wù)系統(tǒng)。
傳統(tǒng)模式下,終端管理者并不關(guān)注用戶終端的高可靠性,營(yíng)業(yè)廳中單終端故障并不會(huì)中斷整個(gè)業(yè)務(wù)受理過(guò)程。此模式下,業(yè)務(wù)連續(xù)性主要取決于后臺(tái)業(yè)務(wù)系統(tǒng)的可靠性,只有后臺(tái)業(yè)務(wù)系統(tǒng)發(fā)生故障宕機(jī)才會(huì)造成大范圍業(yè)務(wù)癱瘓。但在桌面云模式下,用戶操作系統(tǒng)、應(yīng)用程序、數(shù)據(jù)均已移到數(shù)據(jù)中心,相應(yīng)終端的故障責(zé)任同步集中。從用戶體驗(yàn)看,傳統(tǒng)模式下終端故障責(zé)任歸屬于終端所有者。云化后,桌面是作為一種服務(wù)提供給用戶,受傳統(tǒng)觀念影響,用戶自然地認(rèn)為服務(wù)中斷責(zé)任應(yīng)歸屬于服務(wù)提供者。同時(shí),對(duì)于一種應(yīng)用服務(wù),用戶很難接受它與傳統(tǒng)終端同一級(jí)別的故障率。更重要的是,在新的架構(gòu)中,桌面云平臺(tái)是用戶訪問(wèn)后臺(tái)業(yè)務(wù)系統(tǒng)的必經(jīng)路徑。一旦桌面云平臺(tái)因故障宕機(jī),相當(dāng)于切斷了用戶與后臺(tái)業(yè)務(wù)系統(tǒng)間的交互通道,這等同于后臺(tái)業(yè)務(wù)系統(tǒng)宕機(jī),同樣會(huì)造成大規(guī)模業(yè)務(wù)中斷。因此,不能將桌面云當(dāng)做簡(jiǎn)單的應(yīng)用系統(tǒng),它的可靠性級(jí)別甚至應(yīng)等同于后臺(tái)業(yè)務(wù)系統(tǒng),但同時(shí)桌面云采用了虛擬化、云計(jì)算等創(chuàng)新技術(shù),傳統(tǒng)業(yè)務(wù)系統(tǒng)可靠性保障策略并不足以支撐相應(yīng)新增需求,本文正是在這種背景下,試圖建立一套適用于保障應(yīng)用了虛擬化等云技術(shù)的創(chuàng)新類(lèi)系統(tǒng)業(yè)務(wù)連續(xù)性的高可靠性策略。
桌面云的可靠性是指在虛擬資源管理和調(diào)度的過(guò)程中,資源執(zhí)行任務(wù)的能力所表現(xiàn)出來(lái)的持久性和穩(wěn)定性,主要包括資源的可用性、資源完成任務(wù)的時(shí)限性、資源的連續(xù)穩(wěn)定性。對(duì)于桌面云主要考慮從數(shù)據(jù)、系統(tǒng)、業(yè)務(wù)3個(gè)方面提高它的可靠性。
數(shù)據(jù)的高可用包括業(yè)務(wù)數(shù)據(jù)及系統(tǒng)數(shù)據(jù) (系統(tǒng)軟件、應(yīng)用軟件、配置等)。數(shù)據(jù)保存在共享存儲(chǔ)上,它的高可用策略相對(duì)比較成熟。不同數(shù)據(jù)的可用性需求存在差異,因此將桌面云涉及到的數(shù)據(jù)劃分為3個(gè)級(jí)別,即相關(guān)配置數(shù)據(jù),操作系統(tǒng)、應(yīng)用程序的鏡像文件與用戶個(gè)性化profile數(shù)據(jù),用戶個(gè)人數(shù)據(jù),針對(duì)不同級(jí)別數(shù)據(jù)采用不同級(jí)別的RAID技術(shù)。
圖1 桌面云整體架構(gòu)
系統(tǒng)的高可用指沒(méi)有直接影響整體架構(gòu)問(wèn)題的單點(diǎn)故障,包括虛機(jī)層面和物理機(jī)層面。平臺(tái)門(mén)戶等管理服務(wù)器負(fù)責(zé)桌面云用戶的接入與虛擬資源的調(diào)度,是整個(gè)系統(tǒng)的核心,因此它的可靠性要求最高,采用Cluster結(jié)構(gòu),即2臺(tái)或多臺(tái)主機(jī)共用同一部分資源,當(dāng)1臺(tái)主機(jī)發(fā)生故障,另外幾臺(tái)或1臺(tái)主機(jī)接替該主機(jī)的工作,這部分資源對(duì)用戶是透明的。對(duì)于桌面資源采用虛擬桌面資源池的方式提升它們的可用性。根據(jù)虛擬化基礎(chǔ)架構(gòu)服務(wù)器的硬件資源配置計(jì)算虛擬桌面支撐能力,按照N+n配置,實(shí)現(xiàn)冗余,一旦某一臺(tái)在線宿主服務(wù)器發(fā)生故障或需離線維護(hù),則將其上承載的虛擬桌面遷移至其他節(jié)點(diǎn)上。同時(shí)在虛擬機(jī)層面,系統(tǒng)自動(dòng)將虛擬機(jī)的元數(shù)據(jù)備份至共享存儲(chǔ),并通過(guò)domain 0實(shí)時(shí)監(jiān)控虛擬機(jī)運(yùn)轉(zhuǎn)情況,一旦確定某個(gè)虛擬機(jī)發(fā)生故障,可將虛擬機(jī)的活動(dòng)內(nèi)存和精確的執(zhí)行狀態(tài)通過(guò)高速網(wǎng)絡(luò)迅速傳輸至集群內(nèi)另一節(jié)點(diǎn)并新建虛擬機(jī)以恢復(fù)用戶服務(wù)狀態(tài)。系統(tǒng)的高可用方案和數(shù)據(jù)高可用方案密切相關(guān),數(shù)據(jù)的高可用是它的基礎(chǔ)。圖2示出的是虛擬機(jī)動(dòng)態(tài)遷移。
圖2 虛擬機(jī)動(dòng)態(tài)遷移
業(yè)務(wù)的高可用主要目標(biāo)是保證業(yè)務(wù)的連續(xù)性,它是一種預(yù)防性機(jī)制,以數(shù)據(jù)中心為關(guān)注核心,確保相關(guān)關(guān)鍵職能在任何環(huán)境下都能持續(xù)發(fā)揮作用。因桌面云數(shù)據(jù)中心接近后臺(tái)業(yè)務(wù)系統(tǒng)可靠性的定位,需通過(guò)容災(zāi)備份提升其可靠性。采用雙中心對(duì)關(guān)鍵業(yè)務(wù)進(jìn)行容災(zāi),在每個(gè)數(shù)據(jù)中心按40%關(guān)鍵業(yè)務(wù)容量配置,對(duì)于營(yíng)業(yè)廳桌面采用主備用+負(fù)荷的方式,分別部署在數(shù)據(jù)中心1和數(shù)據(jù)中心2,即每個(gè)數(shù)據(jù)中心既包括關(guān)鍵業(yè)務(wù)的主用桌面,又包括備用桌面,當(dāng)用戶桌面一個(gè)數(shù)據(jù)中心故障時(shí),另外一個(gè)數(shù)據(jù)中心的備用桌面將承載失效業(yè)務(wù)。統(tǒng)一的管理節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)中心的選擇,從而使得用戶可以接入到不同數(shù)據(jù)中心桌面;管理節(jié)點(diǎn)將根據(jù)數(shù)據(jù)中心的運(yùn)行狀態(tài)以及用戶所在的地址位置執(zhí)行選擇策略,從而實(shí)現(xiàn)用戶接入桌面的自動(dòng)負(fù)載均衡和容災(zāi)切換。具體過(guò)程如下:用戶接入終端上設(shè)定默認(rèn)的桌面業(yè)務(wù)入口域名地址,管理節(jié)點(diǎn)負(fù)責(zé)該地址的域名解析,正常情況下該地址將被解析至該用戶主用數(shù)據(jù)中心入口地址,使得用戶訪問(wèn)請(qǐng)求路由至其主用桌面;當(dāng)檢測(cè)到主用站點(diǎn)故障后,對(duì)于用戶的后續(xù)DNS請(qǐng)求,將被解析為用戶備用桌面所在的入口地址,用戶即可以使用備用數(shù)據(jù)中心桌面繼續(xù)承載業(yè)務(wù);在故障恢復(fù)后管理節(jié)點(diǎn)重新將DNS請(qǐng)求解析為主用站點(diǎn)地址,從而恢復(fù)用戶對(duì)于原主用桌面的使用。
上述優(yōu)化策略目標(biāo)為盡可能提升桌面云服務(wù)的可靠性,但可靠性提升的代價(jià)是更高的資源耗費(fèi),實(shí)際應(yīng)用中更多的是尋找可靠性與資源耗費(fèi)的一個(gè)平衡點(diǎn)。因此,本文建立了一個(gè)資源可靠性評(píng)價(jià)模型,試圖借助此模型實(shí)現(xiàn)基于可靠性的資源分級(jí),以便為不同需求用戶提供差異化服務(wù)。
資源包含靜態(tài)與動(dòng)態(tài)兩大類(lèi)屬性。其中靜態(tài)屬性指資源池每個(gè)計(jì)算節(jié)點(diǎn)固有的計(jì)算能力、存儲(chǔ)能力、通信能力等。動(dòng)態(tài)屬性指資源在調(diào)度過(guò)程中的動(dòng)態(tài)特征,主要指資源的固有能力在調(diào)度過(guò)程中展現(xiàn)出來(lái)的波動(dòng)變化規(guī)律。按照屬性性質(zhì),將其分為剛性參數(shù)與彈性參數(shù)兩類(lèi)。剛性參數(shù)是用戶明確要求必須滿足的需求,在桌面云中主要包含數(shù)據(jù)可靠性級(jí)別、系統(tǒng)可靠性級(jí)別、業(yè)務(wù)可靠性級(jí)別3個(gè)參數(shù)。彈性參數(shù)主要指優(yōu)化調(diào)度、提升用戶體驗(yàn)等相關(guān)的參數(shù),在桌面云中主要包括操作響應(yīng)時(shí)限與衡量計(jì)算節(jié)點(diǎn)本身的故障歷史情況兩個(gè)參數(shù)。
資源可靠性模型由五元組Availability表示,Availability=(D、S、B、T、H)。其中 D 表示數(shù)據(jù)可靠性級(jí)別,在營(yíng)業(yè)廳場(chǎng)景中,包含普通營(yíng)業(yè)員、VIP營(yíng)業(yè)員、營(yíng)業(yè)廳廳長(zhǎng)3類(lèi)用戶角色,其中廳長(zhǎng)的數(shù)據(jù)可靠性要求最高,普通營(yíng)業(yè)員相對(duì)較低,因此D的取值包括0、1、2,分別對(duì)應(yīng) RAID0、RAID1、RAID2 3 個(gè)級(jí)別;S 表示系統(tǒng)可靠性級(jí)別,按資源池的冗余程度劃分為3個(gè)級(jí)別,即分別對(duì)應(yīng)N+1、N+2、N+3;B表示業(yè)務(wù)可靠性,按是否提供容災(zāi)服務(wù)劃分為2個(gè)級(jí)別。以上3個(gè)參數(shù)為剛性參數(shù),即資源調(diào)度時(shí)分配給用戶虛擬資源的參數(shù)必須與用戶的需求相匹配。同一資源池中這3個(gè)參數(shù)相同。
T表示用戶操作響應(yīng)時(shí)限,忙時(shí)Ts1≤15 s,非忙時(shí)Ts0≤3 s。T的取值由當(dāng)前節(jié)點(diǎn)響應(yīng)時(shí)延與標(biāo)準(zhǔn)時(shí)延差值確定。針對(duì)一個(gè)資源池內(nèi)各個(gè)計(jì)算節(jié)點(diǎn)的操作響應(yīng)時(shí)限 Ti=(T1,T2,···,Tn,Ts1,Ts0), 可以取到的最大值為T(mén)i,max,最小值為 Ti,min,當(dāng)前值為 Ti,cur,則歸一化可表示為
則用戶操作響應(yīng)時(shí)限為
H表示計(jì)算節(jié)點(diǎn)本身故障的歷史情況,由當(dāng)前計(jì)算節(jié)點(diǎn)的故障次數(shù)決定。但顯然歷史故障與計(jì)算節(jié)點(diǎn)自身可靠性情況相關(guān)程度越來(lái)越差,同時(shí)計(jì)算節(jié)點(diǎn)可靠程度與故障性質(zhì)密切相關(guān)。因此Hm取值由故障Fi、故障發(fā)生時(shí)間TFi、故障性質(zhì)共同決定。
其中μ表示不同故障性質(zhì)對(duì)應(yīng)的權(quán)值,按故障影響范圍進(jìn)行賦值,即故障僅影響單個(gè)用戶時(shí),μ=1;故障影響一個(gè)計(jì)算資源池內(nèi)大部分用戶時(shí),μ=4;故障影響一個(gè)數(shù)據(jù)中心接入的大部分用戶時(shí),μ=10。針對(duì)一個(gè)資源池內(nèi)各個(gè)計(jì)算節(jié)點(diǎn)的故障歷史情況Hm=(H1,H2,···,Hn)取值,則歸一化可表示為
資源可靠性評(píng)價(jià)模型由剛性參數(shù)組成的三元組A=(D、S、B)與由彈性參數(shù)組成的向量 B=(TN,HN)構(gòu)成。
資源調(diào)度的目的是將合適的資源交付給用戶,是一個(gè)根據(jù)用戶需求將資源池中相匹配的虛擬資源分配給用戶的過(guò)程。在桌面云體系下,根據(jù)用戶角色定義不同可靠性需求,即根據(jù)用戶身份對(duì)三元組A=(D、S、B)與向量 B=(TN,HN)進(jìn)行賦值。
整個(gè)資源調(diào)度過(guò)程由資源請(qǐng)求、資源探測(cè)、資源調(diào)用3個(gè)步驟構(gòu)成。用戶注冊(cè)到管理節(jié)點(diǎn),即將自己的角色及資源可靠性需求交付給管理節(jié)點(diǎn),完成資源請(qǐng)求過(guò)程。管理節(jié)點(diǎn)接收到用戶請(qǐng)求之后,對(duì)現(xiàn)有資源進(jìn)行探測(cè),根據(jù)上文的資源可靠性評(píng)價(jià)模型得到各個(gè)計(jì)算節(jié)點(diǎn)資源可靠性標(biāo)識(shí),完成資源探測(cè)。之后進(jìn)入資源調(diào)用階段:首先根據(jù)用戶的剛性需求,為用戶定位資源池范圍,即根據(jù)三元組A=(D、S、B)的值找到匹配用戶需求的資源池。之后根據(jù)用戶的彈性需求,定位用戶需求的最佳適配資源,并交付給用戶。上文中分別用向量Bres與向量Buser來(lái)代表用戶需求與資源可靠性,即分別成為它們的特征向量。如果兩者的特征向量相似,則資源可靠性與用戶需求相匹配,通過(guò)余弦定理找到與用戶需求特征向量夾角最小的資源特征向量,即余弦值越大,兩特征向量夾角越小,即資源匹配程度越好。
桌面云是桌面計(jì)算環(huán)境的一次深度變革,尤其對(duì)運(yùn)營(yíng)商這種終端規(guī)模龐大的企業(yè)而言意義重大。通過(guò)桌面云實(shí)現(xiàn)對(duì)終端的集中統(tǒng)一管理,有效提升對(duì)營(yíng)業(yè)廳等生產(chǎn)任務(wù)類(lèi)需強(qiáng)管控終端的管理水平,但隨著終端的集中,終端可靠性要求同步增加。本文提出一種針對(duì)桌面虛擬資源可靠性的評(píng)價(jià)模型,并基于此模型實(shí)現(xiàn)了一種面向最優(yōu)可靠性適配的資源調(diào)度算法,有效提升了虛擬桌面服務(wù)的可靠性,促進(jìn)傳統(tǒng)終端加速向桌面云過(guò)渡。
[1]孟江濤,盧顯良.虛擬機(jī)監(jiān)控器Xen的可靠性優(yōu)化 [J].計(jì)算機(jī)應(yīng)用,2010(9).
[2]歐攀.基于資源可靠性的網(wǎng)格資源調(diào)度研究[D].重慶:西南大學(xué),2007.
[3]蘭雨晴,申騫,劉銘.云計(jì)算環(huán)境中在線遷移技術(shù)研究[J].電信科學(xué),2010,26(9).
[4]肖斐.虛擬化云計(jì)算中資源管理的研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2010.
[5]董耀祖.基于x86架構(gòu)的系統(tǒng)虛擬機(jī)技術(shù)與應(yīng)用[D].上海:上海交通大學(xué),2006.