王 斌,陳 琳,侯翔宇,李偉民,盛津芳
WANG Bin,CHEN Lin,HOU Xiangyu,LI Weimin,SHENG Jinfang
中南大學(xué) 信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410083
School of Information Science and Engineering,Central South University,Changsha 410083,China
近年來(lái),云計(jì)算作為網(wǎng)絡(luò)計(jì)算模式的典型代表,使計(jì)算由軟硬件為中心轉(zhuǎn)變?yōu)槊嫦蚍?wù)的模式,能夠根據(jù)終端用戶(hù)的需求把服務(wù)端的存儲(chǔ)和計(jì)算資源傳輸?shù)娇蛻?hù)端[1]。透明計(jì)算是云計(jì)算的一個(gè)特例,是一種以用戶(hù)為中心的新型服務(wù)模式,旨在為用戶(hù)提供無(wú)處不在的透明服務(wù)。
透明服務(wù)平臺(tái)作為透明計(jì)算服務(wù)端的核心,負(fù)責(zé)統(tǒng)一存儲(chǔ)并管理多個(gè)用戶(hù)的資源,包括操作系統(tǒng)、應(yīng)用程序和用戶(hù)數(shù)據(jù)[2-3]。同時(shí)還要快速高效、安全和可靠地處理各用戶(hù)發(fā)送的資源訪問(wèn)請(qǐng)求,以保證用戶(hù)的服務(wù)體驗(yàn)質(zhì)量。透明服務(wù)平臺(tái)采用基于虛擬磁盤(pán)的方案來(lái)實(shí)現(xiàn),在終端用戶(hù)看來(lái),服務(wù)端存儲(chǔ)的是終端的虛擬磁盤(pán)數(shù)據(jù),終端對(duì)虛擬磁盤(pán)的訪問(wèn)請(qǐng)求最終被重定向到服務(wù)平臺(tái)[4]。針對(duì)透明服務(wù)端如何提高用戶(hù)的虛擬磁盤(pán)數(shù)據(jù)訪問(wèn)效率和安全可靠性,文獻(xiàn)[5]設(shè)計(jì)了一個(gè)局域網(wǎng)中高效可靠的塊級(jí)存儲(chǔ)訪問(wèn)協(xié)議NSAP(Network Storage Access Protocol)。文獻(xiàn)[6]分析驗(yàn)證了基于虛擬磁盤(pán)的透明計(jì)算系統(tǒng)性能瓶頸在于服務(wù)端,而cache的命中率又是服務(wù)端性能表現(xiàn)最關(guān)鍵的因素,最后在服務(wù)端和客戶(hù)端制定了緩存分配策略。文獻(xiàn)[7]提出了一個(gè)評(píng)估透明計(jì)算多級(jí)高速緩存層次結(jié)構(gòu)以及整個(gè)透明計(jì)算系統(tǒng)的行為和性能的模擬框架TranSim。通過(guò)使用TranSim,系統(tǒng)設(shè)計(jì)者可以方便快捷地評(píng)估緩存策略的有效性和系統(tǒng)性能。
如上所述,目前關(guān)于透明計(jì)算服務(wù)端性能優(yōu)化和安全可靠性保障的研究側(cè)重于自身的存儲(chǔ)架構(gòu)、調(diào)度策略和訪問(wèn)協(xié)議,但沒(méi)有研究工作從透明計(jì)算需求的源頭:用戶(hù)以及用戶(hù)訪問(wèn)行為的特征來(lái)分析和預(yù)測(cè)其對(duì)透明服務(wù)平臺(tái)的影響。如文獻(xiàn)[8]提出了基于關(guān)注關(guān)系和用戶(hù)行為的物品推薦算法。文獻(xiàn)[9]通過(guò)記錄學(xué)生學(xué)習(xí)操作行為,并結(jié)合傳感器數(shù)據(jù),提出一種場(chǎng)景感知分類(lèi)算法。文獻(xiàn)[10]結(jié)合訪存敏感和用戶(hù)行為敏感的MPSoC應(yīng)用映射技術(shù),提出一種混合的動(dòng)態(tài)映射策略。文獻(xiàn)[11]分析了多臺(tái)終端加載相同操作系統(tǒng)過(guò)程中數(shù)據(jù)的訪問(wèn)信息,發(fā)現(xiàn)用戶(hù)行為具有集中和相似的特征。因此,本文在構(gòu)建基于多層虛擬磁盤(pán)存儲(chǔ)模型的透明服務(wù)平臺(tái)基礎(chǔ)上,首先對(duì)大量用戶(hù)訪問(wèn)服務(wù)平臺(tái)數(shù)據(jù)塊的行為進(jìn)行統(tǒng)計(jì)分析,并利用信息熵策略挖掘出被頻繁集中訪問(wèn)塊的時(shí)序特征。然后利用三次指數(shù)平滑方法預(yù)測(cè)未來(lái)一段時(shí)間用戶(hù)對(duì)這些塊的訪問(wèn)行為。最終結(jié)果可以為服務(wù)平臺(tái)制定更高效的緩存策略提供有效的依據(jù),進(jìn)而幫助透明服務(wù)端提高服務(wù)性能和體驗(yàn)質(zhì)量。
透明服務(wù)平臺(tái)位于透明計(jì)算服務(wù)端,它為用戶(hù)屏蔽了硬件平臺(tái)和操作系統(tǒng)的異構(gòu)性,統(tǒng)一集中管理系統(tǒng)資源,并轉(zhuǎn)化為服務(wù)提供給用戶(hù)。因此,透明計(jì)算用戶(hù)自主可控地按需使用服務(wù)的過(guò)程本質(zhì)是對(duì)透明服務(wù)平臺(tái)數(shù)據(jù)訪問(wèn)的行為。透明服務(wù)平臺(tái)的架構(gòu)和原理決定了用戶(hù)數(shù)據(jù)訪問(wèn)的機(jī)制,是用戶(hù)行為分析的基礎(chǔ)。
透明服務(wù)平臺(tái)存儲(chǔ)了所有透明終端用戶(hù)的虛擬磁盤(pán)數(shù)據(jù),但透明計(jì)算需要面對(duì)大量異構(gòu)的終端用戶(hù),如果數(shù)據(jù)共享程度不高,會(huì)導(dǎo)致大量的數(shù)據(jù)冗余。為此,本文所構(gòu)建的透明服務(wù)平臺(tái)中,實(shí)現(xiàn)了一個(gè)多層樹(shù)狀虛擬磁盤(pán)存儲(chǔ)模型,如圖1所示。虛擬磁盤(pán)中數(shù)據(jù)資源按資源共享程度及性質(zhì)劃分成3類(lèi):系統(tǒng)資源、應(yīng)用群組資源和用戶(hù)個(gè)性化資源。系統(tǒng)資源主要指操作系統(tǒng)以及相關(guān)數(shù)據(jù),該類(lèi)資源共享程度最高,能被所有用戶(hù)共享,所構(gòu)成的鏡像稱(chēng)為系統(tǒng)虛擬磁盤(pán)鏡像(System Virtual Disk Image,S_VDI)。應(yīng)用群組資源主要指各種相關(guān)的應(yīng)用軟件數(shù)據(jù)組成的集合,具有相同的應(yīng)用屬性的應(yīng)用軟件通常歸為一個(gè)群組。該類(lèi)資源只能被同一群組下的用戶(hù)共享,所構(gòu)成的鏡像稱(chēng)為群組虛擬磁盤(pán)鏡像(Group Virtual Disk Image,G_VDI)。用戶(hù)個(gè)性化資源主要指用戶(hù)的私有數(shù)據(jù)資源,一般包括用戶(hù)私有文件或者操作系統(tǒng)、應(yīng)用軟件的個(gè)性化配置信息,該資源僅用戶(hù)自身才能訪問(wèn),所構(gòu)成的鏡像稱(chēng)為用戶(hù)虛擬磁盤(pán)鏡像(User Virtual Disk Image,U_VDI)。
在面對(duì)多終端用戶(hù)對(duì)共享層資源同時(shí)進(jìn)行訪問(wèn)時(shí),采用寫(xiě)時(shí)重定向(Redirect on Writing,ROW)機(jī)制來(lái)進(jìn)行控制。具體做法是:將系統(tǒng)虛擬磁盤(pán)鏡像S_VDI和群組虛擬磁盤(pán)鏡像G_VDI以只讀的方式存儲(chǔ)于服務(wù)端,共享給多個(gè)終端用戶(hù);采用ROW機(jī)制將終端用戶(hù)對(duì)共享的虛擬磁盤(pán)鏡像S_VDI和G_VDI的改寫(xiě)塊保存于與用戶(hù)對(duì)應(yīng)的用戶(hù)虛擬磁盤(pán)鏡像U_VDI中,并采用Bitmap[12]來(lái)標(biāo)記各個(gè)改寫(xiě)塊的位置,從而實(shí)現(xiàn)了多個(gè)終端用戶(hù)對(duì)共享數(shù)據(jù)的共同讀寫(xiě)。在圖1中,當(dāng)用戶(hù)i請(qǐng)求第7和8號(hào)數(shù)據(jù)塊時(shí),由于用戶(hù)對(duì)應(yīng)的U_VDI中存儲(chǔ)了數(shù)據(jù)塊7的改寫(xiě)塊,對(duì)7號(hào)塊的數(shù)據(jù)訪問(wèn)讀請(qǐng)求被定位到用戶(hù)對(duì)應(yīng)的U_VDI,而數(shù)據(jù)塊8在U_VDI和G_VDI的位圖中都沒(méi)有改寫(xiě)標(biāo)記,因此其請(qǐng)求定位到了S_VDI,最后將所有讀取到的數(shù)據(jù)塊重新排序組合后返回給終端用戶(hù)。
圖1 透明服務(wù)平臺(tái)虛擬磁盤(pán)存儲(chǔ)模型及訪問(wèn)機(jī)制
需要注意的是,如果在有相關(guān)緩存機(jī)制的情況下,用戶(hù)對(duì)服務(wù)平臺(tái)的數(shù)據(jù)訪問(wèn)首先會(huì)被定向到緩存池。而本文所研究的用戶(hù)行為是在沒(méi)有緩存機(jī)制的情況下進(jìn)行的,目的正是為了更好地挖掘和預(yù)測(cè)用戶(hù)行為特征,為緩存策略提供依據(jù)。整個(gè)存儲(chǔ)模型和數(shù)據(jù)訪問(wèn)機(jī)制對(duì)用戶(hù)是透明的,用戶(hù)所獨(dú)占的一個(gè)既包括操作系統(tǒng),又涵蓋應(yīng)用軟件、個(gè)人私有數(shù)據(jù)的“本地磁盤(pán)”實(shí)際上在服務(wù)端被劃分成多個(gè)部分,S_VDI和G_VDI是多用戶(hù)共享,僅U_VDI為每個(gè)用戶(hù)獨(dú)享的私有數(shù)據(jù)。
由上述描述可以看出,透明服務(wù)平臺(tái)的虛擬磁盤(pán)模型具有多層次、高共享和低冗余的特點(diǎn),因此,其用戶(hù)數(shù)據(jù)訪問(wèn)行為模型也會(huì)不同于其他虛擬磁盤(pán)存儲(chǔ)模型。另一方面,透明計(jì)算是強(qiáng)調(diào)以用戶(hù)為中心的網(wǎng)絡(luò)計(jì)算服務(wù)模式,面對(duì)大量的異構(gòu)終端用戶(hù),并且用戶(hù)的所有資源均存儲(chǔ)在服務(wù)端,用戶(hù)在獲取服務(wù)時(shí)會(huì)帶來(lái)大量的與服務(wù)端的數(shù)據(jù)交互行為。因此,分析和預(yù)測(cè)透明計(jì)算用戶(hù)行為特征具有重要的現(xiàn)實(shí)意義。
透明計(jì)算客戶(hù)端是一個(gè)僅需保留必要的計(jì)算和輸入/輸出硬件的設(shè)備,本地不存儲(chǔ)任何操作系統(tǒng)和應(yīng)用軟件,通過(guò)網(wǎng)絡(luò)按需從服務(wù)平臺(tái)將其以數(shù)據(jù)塊的形式加載到客戶(hù)端設(shè)備上流式執(zhí)行。給定時(shí)間內(nèi),用戶(hù)對(duì)服務(wù)平臺(tái)的數(shù)據(jù)訪問(wèn)請(qǐng)求作為一次用戶(hù)訪問(wèn)行為,用戶(hù)訪問(wèn)行為用塊的集合來(lái)表示。本文出現(xiàn)的“用戶(hù)”是指全體用戶(hù)的集合?;诖?,給出下面相關(guān)概念。
定義1設(shè)某特定時(shí)間段Tα內(nèi)被訪問(wèn)的數(shù)據(jù)塊集合為,若時(shí)間點(diǎn)Tm∈Tα,所有用戶(hù)在Tm時(shí)刻對(duì)數(shù)據(jù)塊Bi的訪問(wèn)次數(shù)為count(Bi,Tm) ,那么數(shù)據(jù)塊Bi在Tα?xí)r間區(qū)間內(nèi)被用戶(hù)訪問(wèn)的頻數(shù)為:
通過(guò)式(1),得出在Tα?xí)r間區(qū)間內(nèi)不同數(shù)據(jù)塊被訪問(wèn)的頻數(shù)集合F={FB1,FB2,…,FBn}。記數(shù)據(jù)塊Bi在Tα?xí)r間區(qū)間內(nèi)被訪問(wèn)的概率為P(Bi),那么:
對(duì)不同數(shù)據(jù)塊在Tα?xí)r間區(qū)間內(nèi)計(jì)算訪問(wèn)概率,得出概率集合P={P(B1),P(B2),…,P(Bn)} 。
香農(nóng)提出的信息熵概念,反映了信源整體的統(tǒng)計(jì)特性,是對(duì)總體的平均不確定性的度量。
用戶(hù)的行為表現(xiàn)為:對(duì)透明服務(wù)平臺(tái)上不同數(shù)據(jù)塊的訪問(wèn)。對(duì)這一信源進(jìn)行熵運(yùn)算,可以從宏觀上量化用戶(hù)的操作行為特征[13]。根據(jù)信息熵的相關(guān)概念與公式,結(jié)合3.1節(jié)的概率集合P,得出其概率空間表示為:
基于信息熵本身的概念,能夠得到如下的推論。
推論1H(B)越大,用戶(hù)對(duì)數(shù)據(jù)塊的訪問(wèn)越平均,即在該區(qū)間內(nèi),用戶(hù)行為越分散。反之,H(B)越小,用戶(hù)對(duì)數(shù)據(jù)塊的訪問(wèn)越集中,即在該區(qū)間內(nèi),用戶(hù)行為越集中,則越能體現(xiàn)出用戶(hù)行為偏向和特征。
證明 以各數(shù)據(jù)塊被訪問(wèn)的頻數(shù)集合{FB1,FB2,…,FBn}為離散信源,依據(jù)最大離散熵定理和信息熵的極值性,有即當(dāng)信源出現(xiàn)的可能性相等時(shí),信源的熵達(dá)到最大。由此可得,H(B)越大,用戶(hù)對(duì)數(shù)據(jù)塊的訪問(wèn)行為越分散;H(B)越小,說(shuō)明用戶(hù)行為越集中。
推論2H(B)=0具有兩種不同的含義。第一種表示在該區(qū)間內(nèi)用戶(hù)只對(duì)某一數(shù)據(jù)塊進(jìn)行操作,即對(duì)該數(shù)據(jù)塊的需求為100%;第二種表示在該區(qū)間內(nèi)用戶(hù)對(duì)所有的數(shù)據(jù)塊都沒(méi)有進(jìn)行操作,即所有客戶(hù)端都沒(méi)有被使用。
證明 由信息量的非負(fù)性可知,當(dāng)H(B)=0時(shí),對(duì)于任意數(shù)據(jù)塊Bi,有如下推導(dǎo):
P(Bi)=0或lbP(Bi)=0?P(Bi)=0或P(Bi)=1
那么,由信息熵的確定性可知,P(Bi)=0即為用戶(hù)只對(duì)數(shù)據(jù)塊Bi進(jìn)行操作;P(Bi)=1即為用戶(hù)對(duì)所有的數(shù)據(jù)塊都沒(méi)有進(jìn)行操作。
在多臺(tái)透明服務(wù)終端設(shè)備相繼啟動(dòng)時(shí),記錄該時(shí)間段內(nèi)對(duì)數(shù)據(jù)塊的訪問(wèn)信息,計(jì)算對(duì)各個(gè)數(shù)據(jù)塊的訪問(wèn)次數(shù),訪問(wèn)分布的情況如圖2所示。
圖2 多臺(tái)透明服務(wù)終端啟動(dòng)時(shí)數(shù)據(jù)塊訪問(wèn)分布
這些數(shù)據(jù)塊即為系統(tǒng)共享資源存儲(chǔ)層中操作系統(tǒng)啟動(dòng)時(shí)需要加載的對(duì)象。在這段時(shí)間內(nèi),68.591%的訪問(wèn)集中在了17.8%的數(shù)據(jù)塊上,呈現(xiàn)為長(zhǎng)尾分布。因此利用信息熵量化用戶(hù)行為并挖掘行為時(shí)序特征是可行的。
用戶(hù)在不同的時(shí)刻對(duì)資源有不同的需求,式(3)計(jì)算出來(lái)的熵值反映了一段時(shí)間內(nèi)用戶(hù)宏觀上的行為特征。本文根據(jù)熵值判斷用戶(hù)當(dāng)前行為屬于集中式還是分散式的特征,因此需要對(duì)用戶(hù)行為熵集合中的熵值進(jìn)行處理。
(1)根據(jù)熵值初步地把用戶(hù)訪問(wèn)行為分成分散式和集中式兩類(lèi)。記錄下熵值所對(duì)應(yīng)的時(shí)間T,用二元組HT<H,T>來(lái)表示不同時(shí)間段的熵值。用戶(hù)行為熵集合HTS={HT1,HT2,…,HTn},為HT按時(shí)間推進(jìn)的有序集合。選取HTS中熵值最大的點(diǎn)HTj和最小的非零點(diǎn)HTk。借鑒數(shù)據(jù)挖掘中的K最近鄰算法,將HTj和HTk作為種子結(jié)點(diǎn),并且遍歷HTS集合,得到兩個(gè)以HTj和HTk為中心的有序的類(lèi)集合HTjS和HTkS,集合中元素順序?yàn)镠T下標(biāo)的升序排列。
(2)分別對(duì)有序集合HTjS和HTkS進(jìn)行處理,獲得用戶(hù)行為集中或分散的連續(xù)時(shí)間段。若其中HT下標(biāo)為連續(xù)的,將這些連續(xù)的點(diǎn)歸為一個(gè)小集合;若HT下標(biāo)出現(xiàn)斷點(diǎn),則從該點(diǎn)開(kāi)始,使之與后面下標(biāo)連續(xù)的點(diǎn)歸為一個(gè)新的小集合。將獲得的所有小集合按時(shí)序生成特征軌跡,至此便完成了對(duì)HTS中熵值的特征歸類(lèi)。
算法1特征歸類(lèi)算法
輸入:HTS //用戶(hù)行為熵集合
輸出:Collections //表示用戶(hù)行為分散或集中的連續(xù)時(shí)間段集合
1.提取HTS中的最大、最小熵值
pick the max and min H in HTS
2.根據(jù)信息熵對(duì)用戶(hù)訪問(wèn)行為分類(lèi)
i←0
for eachHTinHTS
If|HTi.H-Hmax|>|HTi.H-Hmin|then
addHTiintoHTSmini←i+1
else
addHTiintoHTSmax
i←i+1
3.對(duì)表示訪問(wèn)行為集中的集合按時(shí)間連續(xù)性進(jìn)行劃分
i←0
for eachHTinHSmin
pickHTj(HTjis the next one ofHTi)
ifj=i+1then
addHTiandHTjinto one Collection
i←i+1
else
addHTiandHTjinto different Collection
i←i+1
4.對(duì)表示訪問(wèn)行為分散的集合按時(shí)間連續(xù)性進(jìn)行劃分
do like step 3 inHSmax
5.return Collections
設(shè)算法1返回的集合群體為S1,S2,…,Sn,以時(shí)序排列。有這樣的特點(diǎn):(1)同一集合中的熵值是等價(jià)的,即使其數(shù)值不同,但是含義相同,表示用戶(hù)在此時(shí)間段內(nèi)的行為是分散的或集中的。(2)兩個(gè)相鄰的集合Si與Si+1,一個(gè)處于“峰”,一個(gè)處于“谷”,處于“峰”的熵值代表該時(shí)間段內(nèi)用戶(hù)的操作為分散式,而處于“谷”的熵值代表操作為集中式。
用戶(hù)對(duì)不同應(yīng)用的操作和對(duì)不同文件的讀取請(qǐng)求,通過(guò)對(duì)服務(wù)端數(shù)據(jù)塊的訪問(wèn)來(lái)實(shí)現(xiàn)。本文根據(jù)3.3節(jié)描述的行為特征歸類(lèi),選取在一段時(shí)間內(nèi)呈現(xiàn)出被集中訪問(wèn)的數(shù)據(jù)塊作為預(yù)測(cè)的對(duì)象。若數(shù)據(jù)塊在近期訪問(wèn)次數(shù)較多,并且預(yù)測(cè)出在短時(shí)間內(nèi)仍然保持著較高的訪問(wèn)量,說(shuō)明用戶(hù)短時(shí)間內(nèi)的操作仍然集中在某些應(yīng)用和文件上。根據(jù)預(yù)測(cè)結(jié)果可以?xún)?yōu)化服務(wù)端緩存替換策略,縮短客戶(hù)端的響應(yīng)時(shí)間。
指數(shù)平滑法[14]是基于時(shí)間序列進(jìn)行預(yù)測(cè)的重要方法。它認(rèn)為時(shí)間序列的態(tài)勢(shì)具有穩(wěn)定性或規(guī)則性,最近的過(guò)去態(tài)勢(shì),在某種程度上會(huì)持續(xù)到未來(lái)。指數(shù)平滑法兼容了全期平均和移動(dòng)平均所長(zhǎng),不舍棄過(guò)去的數(shù)據(jù),但是僅給予逐漸減弱的影響程度,適用于中短期趨勢(shì)[15]。用戶(hù)的訪問(wèn)行為具有時(shí)序性,且本文涉及到的預(yù)測(cè)是對(duì)短時(shí)間內(nèi)仍保持較高訪問(wèn)量的數(shù)據(jù)塊訪問(wèn)次數(shù)的預(yù)測(cè),因此選用指數(shù)平滑法作為預(yù)測(cè)模型。
指數(shù)平滑預(yù)測(cè)方法有多種模型:
(1)一次指數(shù)平滑值
(2)二次指數(shù)平滑值
(3)三次指數(shù)平滑值
其中,α為平滑系數(shù);yt為t時(shí)刻的觀測(cè)值;為一次、二次、三次指數(shù)平滑值。一次指數(shù)平滑法只適合于具有水平發(fā)展趨勢(shì)的時(shí)間序列分析;二次指數(shù)平滑法是對(duì)一次指數(shù)平滑的再平滑,能夠修正滯后偏差,但也只適合于對(duì)具有線(xiàn)性特征的模型進(jìn)行預(yù)測(cè)[16];三次指數(shù)平滑法是唯一的非線(xiàn)性平滑法,尤其適用于時(shí)間序列上呈二次曲線(xiàn)趨勢(shì)的預(yù)測(cè)[17]。
隨機(jī)抽取透明計(jì)算服務(wù)端的某數(shù)據(jù)塊,圖3為其一個(gè)小時(shí)內(nèi)被訪問(wèn)的次數(shù),可知數(shù)據(jù)塊訪問(wèn)次數(shù)在時(shí)序上呈現(xiàn)出非線(xiàn)性的變化特征,因此三次指數(shù)平滑法更符合數(shù)據(jù)塊訪問(wèn)量的變化趨勢(shì),本文采用三次指數(shù)平滑法進(jìn)行預(yù)測(cè)。
圖3 數(shù)據(jù)塊在各周期的訪問(wèn)量
三次指數(shù)平滑法的預(yù)測(cè)模型為:
其中,?t+T表示t時(shí)刻之后T個(gè)周期的預(yù)測(cè)值。3個(gè)預(yù)測(cè)參數(shù)at、bt、ct由一次、二次、三次指數(shù)平滑值通過(guò)下式計(jì)算得出:
為了驗(yàn)證信息熵與三次指數(shù)對(duì)用戶(hù)行為預(yù)測(cè)的有效性和準(zhǔn)確性,本文采用透明服務(wù)平臺(tái)進(jìn)行實(shí)驗(yàn)。該系統(tǒng)包括一個(gè)透明服務(wù)器、30臺(tái)瘦終端、5臺(tái)移動(dòng)終端。透明服務(wù)器采用三層存儲(chǔ)模式,分別存儲(chǔ)操作系統(tǒng)、組群、用戶(hù)的數(shù)據(jù);瘦終端和移動(dòng)終端沒(méi)有硬盤(pán)和操作系統(tǒng),只有運(yùn)算功能和基本的緩存,分別以有線(xiàn)和無(wú)線(xiàn)的形式連接網(wǎng)絡(luò)。實(shí)驗(yàn)中35名用戶(hù)使用Win7和CentOS6.5兩種操作系統(tǒng)各自自由操作90 min。每個(gè)終端并行使用多種應(yīng)用,根據(jù)統(tǒng)計(jì)分析,平均每隔5 min用戶(hù)使用的應(yīng)用和訪問(wèn)的文件極大概率會(huì)產(chǎn)生變化。因此,透明服務(wù)器將監(jiān)控到的數(shù)據(jù)塊的訪問(wèn)以5 min為一個(gè)時(shí)間周期進(jìn)行統(tǒng)計(jì),將90 min分為18個(gè)時(shí)間段。
根據(jù)使用Win7和CentOS6.5下的兩次實(shí)驗(yàn)結(jié)果,在35個(gè)用戶(hù)90 min的自由操作中,平均請(qǐng)求數(shù)據(jù)塊1253萬(wàn)次,每個(gè)時(shí)間段訪問(wèn)到的不同數(shù)據(jù)塊約32000到48000個(gè)。使用式(3)計(jì)算各個(gè)時(shí)間段內(nèi)的信息熵,取前10個(gè)周期結(jié)果如圖4所示。
圖4 信息熵時(shí)序圖
由圖4可以看出,兩條信息熵曲線(xiàn)在時(shí)序上有比較明顯的波動(dòng),信息熵的數(shù)據(jù)反映了所有用戶(hù)的操作行為特點(diǎn)。熵值較高的時(shí)間段表示用戶(hù)使用的應(yīng)用和讀取的文件比較分散;熵值較低的時(shí)間段表示用戶(hù)使用的應(yīng)用和讀取的文件比較集中,即用戶(hù)的行為更加集中。兩條曲線(xiàn)中熵值最低的時(shí)間段均為最早的幾個(gè)周期,數(shù)據(jù)塊的訪問(wèn)最為集中。經(jīng)過(guò)分析,這段時(shí)間內(nèi),終端大多為啟動(dòng)階段,主要從透明服務(wù)平臺(tái)三層存儲(chǔ)的系統(tǒng)虛擬磁盤(pán)層中訪問(wèn)和加載操作系統(tǒng)資源,這一層數(shù)據(jù)共享程度最高,因此訪問(wèn)最為集中。后續(xù)時(shí)間周期中,用戶(hù)自由操作,主要從群組虛擬磁盤(pán)層和用戶(hù)虛擬磁盤(pán)層中按需訪問(wèn)數(shù)據(jù)塊,同時(shí)也會(huì)從系統(tǒng)虛擬磁盤(pán)層中加載少量用來(lái)支持應(yīng)用運(yùn)行的數(shù)據(jù)塊,因此后續(xù)時(shí)間周期的信息熵整體上大于初始時(shí)間段。
信息熵量化了用戶(hù)的行為,為了對(duì)每個(gè)時(shí)間段內(nèi)用戶(hù)行為分類(lèi),對(duì)得到的熵值做特征歸類(lèi)處理,結(jié)果如圖5所示。
圖5 信息熵特征歸類(lèi)處理
圖5顯示了圖4中兩條曲線(xiàn)特征歸類(lèi)后的結(jié)果,將反映用戶(hù)同一行為特征的點(diǎn)歸于一類(lèi)。由圖可知,用戶(hù)在使用CentOS6.5操作系統(tǒng)時(shí),在1、2、3、7、8、10這幾個(gè)時(shí)間周期內(nèi),用戶(hù)使用的應(yīng)用或訪問(wèn)的文件較為相似,行為較為集中;在其余時(shí)間段內(nèi)行為較為分散。同理可找到使用Win7系統(tǒng)時(shí),用戶(hù)行為集中和分散的時(shí)間段。
根據(jù)圖5得到的結(jié)果,選取兩條曲線(xiàn)中熵值較低的時(shí)間段內(nèi)包含的數(shù)據(jù)塊。根據(jù)統(tǒng)計(jì),CentOS6.5和Win7兩次實(shí)驗(yàn)中,用戶(hù)行為集中的時(shí)間段內(nèi)訪問(wèn)的不同數(shù)據(jù)塊個(gè)數(shù)分別為4257塊和3962塊,占整個(gè)實(shí)驗(yàn)訪問(wèn)過(guò)的所有數(shù)據(jù)塊的15.8%和12.3%。
本文使用三次指數(shù)平滑法對(duì)數(shù)據(jù)塊的訪問(wèn)數(shù)量進(jìn)行預(yù)測(cè),使用式(4)進(jìn)行計(jì)算。其中平滑系數(shù)α是三次指數(shù)平滑法擬合效果的關(guān)鍵,如果數(shù)據(jù)波動(dòng)較大,α值應(yīng)取大一些,可以增加近期數(shù)據(jù)對(duì)預(yù)測(cè)結(jié)果的影響。如果數(shù)據(jù)波動(dòng)平穩(wěn),α值應(yīng)取小一些。本文在確定α值時(shí)采用試算法,即取多個(gè)α值進(jìn)行擬合實(shí)驗(yàn)并加以比較。實(shí)驗(yàn)α取值范圍為[0.1,0.7],取值步長(zhǎng)為0.05,選取Win7、CentOS6.5實(shí)驗(yàn)中待預(yù)測(cè)的數(shù)據(jù)塊各1000個(gè),比較不同α下預(yù)測(cè)的均方誤差MSE,選擇誤差最小的α值。擬合實(shí)驗(yàn)結(jié)果如圖6所示,實(shí)驗(yàn)選取0.35作為α的值。
圖6 α擬合實(shí)驗(yàn)
本實(shí)驗(yàn)通過(guò)比較預(yù)測(cè)值和觀測(cè)值的誤差衡量預(yù)測(cè)算法的準(zhǔn)確度。隨機(jī)選取一個(gè)數(shù)據(jù)塊,偏移量為1033808,從第5個(gè)周期開(kāi)始,使用式(4),取T=1。根據(jù)當(dāng)前的觀測(cè)值不斷預(yù)測(cè)下一個(gè)周期該數(shù)據(jù)塊的訪問(wèn)次數(shù)。結(jié)果如表1所示。
表1 單個(gè)數(shù)據(jù)塊6~18周期預(yù)測(cè)情況
根據(jù)前10個(gè)周期的觀測(cè)值,對(duì)兩次實(shí)驗(yàn)中的4257個(gè)數(shù)據(jù)塊和3962個(gè)數(shù)據(jù)塊進(jìn)行第11個(gè)周期的訪問(wèn)預(yù)測(cè),使用式(4),同樣取T=1。以作為準(zhǔn)確率的衡量指標(biāo)。其中St代表t時(shí)刻的預(yù)測(cè)值,Yt代表t時(shí)刻的觀測(cè)值,E的取值越小代表越精確。預(yù)測(cè)結(jié)果精確度分布如圖7所示。
圖7 預(yù)測(cè)結(jié)果精確度分布
在誤差低于0.1,0.1~0.2,0.2~0.3以及高于0.3的范圍內(nèi),數(shù)據(jù)塊所占比例分別為:CentOS,65%、18%、10%、6%;Win7,62%、21%、8%、9%。
在上述兩個(gè)實(shí)驗(yàn)中,使用三次指數(shù)平滑預(yù)測(cè)算法預(yù)測(cè)一個(gè)周期后的數(shù)據(jù)塊訪問(wèn)次數(shù)。表1證明了此算法可以在時(shí)序上根據(jù)觀測(cè)值不斷修正預(yù)測(cè)結(jié)果,迅速減小預(yù)測(cè)誤差;圖7證明了此算法可以對(duì)下一個(gè)周期數(shù)據(jù)塊的訪問(wèn)次數(shù)給予較為精準(zhǔn)的預(yù)測(cè)。
4.3節(jié)證明了三次指數(shù)平滑算法在單周期預(yù)測(cè)精確度較高,但僅僅能預(yù)測(cè)一個(gè)周期是不夠的。為了驗(yàn)證此算法在多少周期內(nèi)預(yù)測(cè)結(jié)果可接受,以前10個(gè)周期作為觀測(cè)值,對(duì)所有數(shù)據(jù)塊進(jìn)行第11~18周期的預(yù)測(cè)。使用式(4),T分別取1~8,并以平均誤差作為衡量指標(biāo),實(shí)驗(yàn)結(jié)果如圖8所示。
圖8 中短周期預(yù)測(cè)精確度測(cè)試
上述實(shí)驗(yàn)表明,在預(yù)測(cè)1~3個(gè)周期時(shí),平均誤差分別為0.07、0.12、0.19,從第4個(gè)周期開(kāi)始,誤差急劇增加。由此得出結(jié)論,使用三次指數(shù)平滑預(yù)測(cè)法可以對(duì)數(shù)據(jù)塊在3個(gè)周期內(nèi)給予較為準(zhǔn)確的預(yù)測(cè)。
本文在透明計(jì)算背景下,根據(jù)透明服務(wù)平臺(tái)三層虛擬磁盤(pán)存儲(chǔ)的特點(diǎn),基于信息熵和三次指數(shù)平滑對(duì)透明計(jì)算用戶(hù)行為特征進(jìn)行分析和預(yù)測(cè)。此方法基于信息熵策略從宏觀上分析用戶(hù)行為需求,進(jìn)而挖掘出被頻繁集中訪問(wèn)的數(shù)據(jù)塊的時(shí)序特征。在此基礎(chǔ)上利用三次指數(shù)平滑算法預(yù)測(cè)將來(lái)一段時(shí)間內(nèi)這些塊的訪問(wèn)頻率。實(shí)驗(yàn)表明,此方法能夠較為準(zhǔn)確地發(fā)現(xiàn)集中訪問(wèn)的數(shù)據(jù)塊,并對(duì)這些數(shù)據(jù)塊給予較為精確的預(yù)測(cè),從而達(dá)到對(duì)用戶(hù)行為分析和預(yù)測(cè)的目的。預(yù)測(cè)結(jié)果為制定更高效的緩存策略提供有效的依據(jù),從而提高透明計(jì)算服務(wù)質(zhì)量與性能。