戴加偉,白光偉,沈 航,王仲暉
(南京工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211816)
云游戲[1]指將電腦游戲運(yùn)行在云服務(wù)器上,通過強(qiáng)大的計算能力對游戲畫面進(jìn)行渲染、捕獲和壓縮后發(fā)送給低計算能力的瘦客戶端,而用戶在瘦客戶端通過網(wǎng)絡(luò)與游戲交互.瘦客戶端是輕量級的,只負(fù)責(zé)解碼和顯示游戲畫面,可以移植到資源受限的平臺,如移動設(shè)備和電視機(jī)頂盒等.用戶可以在任何地方任何時間體驗(yàn)最新的電腦游戲,游戲開發(fā)者也可以根據(jù)云游戲系統(tǒng)特定的硬件配置來優(yōu)化他們的游戲.
雖然云游戲以一種全新的方式向用戶提供更高品質(zhì)的游戲體驗(yàn),但是如何在保證用戶體驗(yàn)的情況下控制硬件成本仍然是一個棘手的問題.例如OnLive為優(yōu)化用戶體驗(yàn)陷入財政困難.如果使用低端硬件會導(dǎo)致不愉快的用戶體驗(yàn),這可能會促使用戶放棄云游戲,但是使用高端硬件,按照以往一個用戶必須對應(yīng)一臺實(shí)體服務(wù)器的方式,會產(chǎn)生高額的硬件成本.此外,不同的游戲類型有不同的硬件要求,如果不按照游戲的需求合理分配服務(wù)器的資源,可能會導(dǎo)致資源的不足或浪費(fèi).例如按照3D射擊游戲設(shè)置的硬件配置,在運(yùn)行2D休閑游戲時就會性能過剩.
虛擬化是整合云游戲系統(tǒng)資源,降低硬件成本的關(guān)鍵[2,3].它允許多個云游戲共享物理服務(wù)器資源,同時保持隔離和保證性能.目前CPU、網(wǎng)絡(luò)接口和存儲的虛擬化已經(jīng)相當(dāng)成熟,但是GPU設(shè)備由于結(jié)構(gòu)和技術(shù)文檔未對外公開,而且每次更新都伴隨著巨大的結(jié)構(gòu)變化,因此GPU虛擬化的實(shí)施尤為困難.文獻(xiàn)[4,5]指出GPU虛擬化將導(dǎo)致不佳的游戲體驗(yàn),例如低幀速率、高響應(yīng)延遲和低畫面質(zhì)量.然而,過去的幾年里,GPU虛擬化技術(shù)得到了極大的改善,可以更加高效的實(shí)現(xiàn)虛擬機(jī)對GPU資源的共享.為此,本文使用最新的GPU虛擬化技術(shù)和開源的云游戲平臺搭建原型系統(tǒng).該系統(tǒng)將云游戲運(yùn)行在虛擬機(jī)中,實(shí)現(xiàn)服務(wù)器資源的共享.在此基礎(chǔ)上,提出性能評價指標(biāo)和測量方法,并有針對性的進(jìn)行大量實(shí)驗(yàn),分析云游戲在GPU虛擬化環(huán)境下的性能.
基于上述原型系統(tǒng),本文試圖回答:最新的GPU虛擬化技術(shù)能否支持GPU密集型的云游戲在虛擬機(jī)中流暢運(yùn)行?實(shí)驗(yàn)結(jié)果表明:最新的GPU虛擬化技術(shù)可以給虛擬機(jī)提供較高的圖形加速性能,在保證云游戲用戶體驗(yàn)的同時實(shí)現(xiàn)GPU資源共享和公平分配.另外實(shí)驗(yàn)還發(fā)現(xiàn),使用GPU進(jìn)行硬件編碼可以提高游戲視頻編碼效率.
本文的結(jié)構(gòu)安排為:第2節(jié)提出問題;第3節(jié)設(shè)計原型系統(tǒng);第4節(jié)提出性能指標(biāo)與測量方法;第5節(jié)設(shè)計實(shí)驗(yàn)并分析結(jié)果;第6節(jié)總結(jié)全文.
將云游戲系統(tǒng)直接運(yùn)行在物理服務(wù)器上,一臺服務(wù)器只服務(wù)一個用戶的方式給云游戲提供商帶來巨大的經(jīng)濟(jì)負(fù)擔(dān).為了優(yōu)化服務(wù)器資源分配,可以將云游戲運(yùn)行在虛擬機(jī)中,使一臺服務(wù)器能同時運(yùn)行更多的云游戲?qū)嵗?但是,虛擬機(jī)的圖形處理能力不足以支持一些GPU密集型的游戲流暢運(yùn)行,限制了云游戲在虛擬化環(huán)境中的實(shí)施.CPU處理圖形的效率低下,而GPU擅長處理大型矩陣型數(shù)據(jù)的整體計算,其圖形處理性能可達(dá)CPU的數(shù)十倍.在虛擬機(jī)中使用GPU結(jié)合CPU進(jìn)行圖形計算,可以大幅提高圖形處理性能[6-7].
針對上述問題,文獻(xiàn)[8]實(shí)現(xiàn)了一種PCI直通的虛擬機(jī)圖形加速技術(shù),不經(jīng)虛擬機(jī)管理系統(tǒng)(Virtual Machine Monitor,VMM)[9],直接將GPU分配給一臺虛擬機(jī),該虛擬機(jī)將獲得GPU的全部性能.但是此方法禁止了其他虛擬機(jī)對GPU的訪問,違背了虛擬化資源共享與動態(tài)分配的設(shè)計初衷.文獻(xiàn)[10]使用API重定向的方法實(shí)現(xiàn)虛擬機(jī)對物理GPU的共享,通過虛擬的顯卡驅(qū)動欺騙應(yīng)用程序的API來調(diào)用GPU.但是這種方式需要消耗大量的額外資源來做驅(qū)動的模擬仿真、API的攔截、傳遞等多種復(fù)雜的軟件計算過程,效率較低.
作為首個實(shí)現(xiàn)直接共享GPU的方案,vGPU[11]通過安裝在虛擬機(jī)上的圖形驅(qū)動能夠直接訪問切片后的GPU資源.這種方式能發(fā)揮出物理GPU的更多性能,從而實(shí)現(xiàn)虛擬機(jī)更高的圖形處理能力和擴(kuò)展能力.此外,GamingAnywhere[12]作為第一個開源的云游戲平臺,擁有高擴(kuò)展性、可移植性和可重構(gòu)性,并且在低網(wǎng)絡(luò)帶寬下實(shí)現(xiàn)了低延遲和高畫質(zhì).
多個虛擬機(jī)共享GPU后的圖形處理性能決定了云游戲能否在虛擬化環(huán)境中實(shí)施.為此,本文使用vGPU和GamingAnywhere搭建一個云游戲原型系統(tǒng),分析在云游戲系統(tǒng)中使用vGPU實(shí)現(xiàn)GPU共享的可行性
本節(jié)設(shè)計GPU虛擬化環(huán)境下的云游戲原型系統(tǒng),用于對多個云游戲共享GPU后的性能進(jìn)行測試評估.首先分析云游戲的系統(tǒng)架構(gòu)和交互流程,然后設(shè)計并搭建原型系統(tǒng),實(shí)現(xiàn)GPU資源共享.
云游戲系統(tǒng)架構(gòu)由門戶服務(wù)器、游戲服務(wù)器和客戶端三部分組成.如圖1所示,門戶服務(wù)器負(fù)責(zé)用戶登錄,并根據(jù)用戶選擇的游戲查找合適的游戲服務(wù)器,控制該服務(wù)器啟動虛擬機(jī),再將虛擬機(jī)的地址告知客戶端.用戶與虛擬機(jī)建立連接后,就可以通過網(wǎng)絡(luò)與運(yùn)行在遠(yuǎn)程服務(wù)器上的游戲進(jìn)行交互.
圖1 云游戲系統(tǒng)架構(gòu)Fig.1 Architectures of cloud gaming
客戶端與游戲服務(wù)器之間的交互流程如圖2所示.游戲服務(wù)器負(fù)責(zé)處理收到的輸入事件,并轉(zhuǎn)化為游戲動作,再將捕獲的游戲畫面編碼后以視頻流的形式發(fā)送給客戶端.客戶端負(fù)責(zé)實(shí)時顯示收到的游戲畫面,并將用戶的輸入如鍵盤、鼠標(biāo)的動作發(fā)送到游戲服務(wù)器.通過這種方式,可以將游戲的圖形渲染卸載到云端處理,客戶端只需要處理簡單的2D視頻圖像顯示,極大的減小了客戶端的負(fù)載.
圖2 云游戲交互流程Fig.2 Interactive of cloud gaming
門戶服務(wù)器對云游戲的性能沒有直接的影響,為了簡化實(shí)驗(yàn)流程,原型系統(tǒng)只考慮游戲服務(wù)器和客戶端之間的交互.如圖3所示,原型系統(tǒng)包括兩臺服務(wù)器、一臺路由器和多臺客戶端.兩臺服務(wù)器采用完全一致的硬件配置,都是Intel Core E3 1231 v3處理器和NVIDIA GRID K2顯卡.路由器安裝并運(yùn)行dummynet[13],用以調(diào)節(jié)延遲、丟包率和網(wǎng)絡(luò)帶寬模擬真實(shí)的網(wǎng)絡(luò)環(huán)境.此外,桌面虛擬化平臺采用XenDesktop,安裝Windows7操作系統(tǒng).云游戲系統(tǒng)采用開源的GamingAnywhere,一臺服務(wù)器在虛擬機(jī)中運(yùn)行云游戲,另一臺服務(wù)器將云游戲直接運(yùn)行在物理機(jī)上.
原型系統(tǒng)使用vGPU在云游戲中實(shí)現(xiàn)GPU資源共享,具體實(shí)現(xiàn)方法如圖3所示.在云游戲服務(wù)器上安裝XenServer虛擬化平臺,并將云游戲運(yùn)行在虛擬機(jī)中.根據(jù)游戲的性能需求,將物理GPU分片成多個vGPU設(shè)備,再直接分配給虛擬機(jī).通過運(yùn)行在Hypervisor管理域(Dom0)的vGPU管理程序,云游戲可以像使用本地的GPU一樣快速訪問vGPU,共享同一個物理GPU的計算資源.
圖3 原型系統(tǒng)部署Fig.3 Deployment ofprototype system
畫面質(zhì)量和響應(yīng)延遲是影響云游戲用戶體驗(yàn)的關(guān)鍵性能指標(biāo).所以,實(shí)驗(yàn)將從這兩方面比較系統(tǒng)在GPU虛擬化環(huán)境中與在物理環(huán)境中的性能差異.
視頻流的質(zhì)量直接影響游戲體驗(yàn),這里使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity,SSIM)[14]兩個指標(biāo)來評價畫面質(zhì)量.PSNR基于對應(yīng)像素點(diǎn)間的誤差評價圖像質(zhì)量.SSIM用于度量結(jié)構(gòu)相似性,也是一種全參考的圖像質(zhì)量評價指標(biāo),它分別從亮度、對比度、結(jié)構(gòu)三方面度量圖像相似性.
響應(yīng)延遲[15](RD)是用戶提交操作命令到相應(yīng)的游戲畫面出現(xiàn)在屏幕上的時間,它是決定云游戲用戶體驗(yàn)的主要因素.這里將響應(yīng)延遲分為3部分:
1)處理延遲(PD):服務(wù)器接收和處理一個用戶的命令并將相應(yīng)的幀進(jìn)行編碼和傳輸所需的時間.
2)播放延遲(OD):客戶端接收、解碼和渲染一幀所需的時間.
3)網(wǎng)絡(luò)延遲(ND):服務(wù)器和客戶端之間進(jìn)行一輪數(shù)據(jù)交互所需的時間,也被稱為往返時間(RTT).
圖4表示一個游戲指令響應(yīng)的過程.按鍵事件在t0時刻產(chǎn)生,發(fā)送給服務(wù)器端處理.服務(wù)器在t1時刻接收事件,處理完成后,在t2時刻將編碼幀發(fā)送給客戶端.客戶端在t3時刻接收到幀,在t4時刻觀察到游戲畫面改變.
當(dāng)測量出t4的值,就可以得到RD=t4-t0.t4的測量過程如下:
1)發(fā)送按鍵事件到服務(wù)器端,并記錄時刻為t0.
2)游戲畫面一直在刷新,通過檢測特定區(qū)域的像素值,可以確定游戲畫面是否發(fā)生改變.
3)當(dāng)檢測到像素值改變時,說明按鍵事件已經(jīng)被服務(wù)器端處理,并返回處理后的畫面到客戶端,記錄這個時刻為t4.
t3是游戲畫面從服務(wù)器傳遞到客戶端的時刻.如果在t3時刻之前阻塞數(shù)據(jù)的傳入,游戲畫面在取消阻塞之前都不會改變.如果傳入的數(shù)據(jù)在t3時刻之后被阻塞,游戲畫面仍會改變,但沒有后續(xù)的畫面更新.為了方便數(shù)據(jù)的攔截,這里使用windows的hook機(jī)制,攔截客戶端對recvfrom()函數(shù)的調(diào)用.這個函數(shù)在嘗試從UDP/IP 堆棧中檢索UDP數(shù)據(jù)報時會被調(diào)用.
當(dāng)測量出t3的值,就可以得到PD=t3-t0-ND,OD=t4-t3.ND的值可以通過發(fā)送一個探測數(shù)據(jù)包來測量,例如ICMP協(xié)議.t3的測量過程如下:
1)發(fā)送一個按鍵事件到服務(wù)器端,并記錄這個時刻為t0.這里假設(shè)播放延遲OD小于100ms,在RD-100ms和RD+50ms之間取一個隨機(jī)數(shù)記作tblock.
2)如果游戲畫面改變的時刻小于tblock,記錄這個時間為tchange,并結(jié)束程序.否則,在tblock之后的一秒內(nèi)攔截對recvfrom()函數(shù)的調(diào)用.
3)取消對recvfrom()函數(shù)的攔截,當(dāng)游戲畫面改變時,記錄這個時間為tchange.
圖4 響應(yīng)延遲分解Fig.4 Decomposition of response delay
如果tchange>tblock+1s,則表示阻塞成功,并得出t3>tblock,就把tblock加入集合tblock_succeeded.否則,如果tchange vGPU實(shí)現(xiàn)了虛擬機(jī)對GPU的共享,一臺服務(wù)器可以同時運(yùn)行多個云游戲?qū)嵗?顯著的提高了GPU資源的利用效率.但是共享GPU可能會影響云游戲的用戶體驗(yàn),為了驗(yàn)證該方案的可行性,本節(jié)設(shè)計實(shí)驗(yàn)測試vGPU的圖形加速性能,分析虛擬機(jī)數(shù)量對vGPU圖形加速性能的影響,并在完整的云游戲平臺中進(jìn)行端到端的測試,分別從延遲和畫質(zhì)兩方面分析使用vGPU技術(shù)共享GPU對用戶體驗(yàn)的影響. 本實(shí)驗(yàn)對vGPU的圖形加速性能進(jìn)行測試,并通過對比vSGA分析vGPU的性能提升.實(shí)驗(yàn)在一臺服務(wù)器上使用vSGA技術(shù),在另一臺服務(wù)器上使用vGPU技術(shù),實(shí)現(xiàn)GPU共享.采用Heaven Benchmark和REDsdk Turbine Benchmark兩款測試工具分別測試兩個平臺上虛擬機(jī)的圖形處理能力. Heaven Benchmark的測試結(jié)果如圖5所示.vSGA平臺上的測試畫面的幀率在0~5幀之間波動.物理GPU的平均利用率只有20%,而且非常不穩(wěn)定,在圖像無法渲染的時候,甚至降低到了1%.而vGPU平臺上的測試畫面的幀率一直保持在25幀以上,物理GPU的利用率也高于50%,且利用率曲線相對平滑,狀態(tài)穩(wěn)定.REDsdk Turbine Benchmark每個測試項(xiàng)目的得分如表1所示.最后的總分vSGA平臺只得到了73分,而vGPU平臺是2647分.兩者之間測試畫面的播放效果也基本反映了這些測試數(shù)值的差距,vGPU平臺的圖像流暢,vSGA平臺的幀率太低,圖像顯示不全. 圖5 幀率和GPU利用率對比Fig.5 Comparison of frame rate and GPU utilization ratio 實(shí)時畫面高質(zhì)量畫面動態(tài)封閉空間混合射線追蹤總分vSGA218191225673vGPU31382463631310062647 從這些測試情況可以看出,vSGA的虛擬顯卡驅(qū)動程序效率低下,對物理GPU的處理能力利用不足,而vGPU對顯卡的利用率更高,能發(fā)揮出顯卡的大部分性能,相較vSGA在幀率上有了10倍的提升. 本實(shí)驗(yàn)在XenServer平臺上量化分析虛擬機(jī)數(shù)量對vGPU圖形加速性能的影響.實(shí)驗(yàn)通過配置K2顯卡的GPU虛擬模式為vgpu8(即將一個顯卡核心分片成8個虛擬GPU),逐步添加更多的虛擬機(jī)(從1至8),分別測試在不同環(huán)境下四種游戲運(yùn)行時的FPS. 測試結(jié)果如圖6所示,結(jié)果表明Limbo和Barman沒有觸及顯卡的性能瓶頸,所以隨著虛擬機(jī)數(shù)量的增加FPS沒有改變,而FEAR和DOW在虛擬機(jī)數(shù)量從4增加到6時,FPS分別下降了15和18,這表明分配給虛擬機(jī)的圖形計算能力并不是穩(wěn)定不變的,會受到虛擬機(jī)數(shù)量的影響,vGPU在所有的虛擬機(jī)之間動態(tài)的分配圖形處理資源.另外,我們發(fā)現(xiàn)當(dāng)虛擬機(jī)數(shù)量只有一臺時,所有游戲的FPS都不超過58,這表明在vGPU技術(shù)中使用了基于FPS感知的GPU調(diào)度算法,使得虛擬機(jī)共享GPU時都能公平的獲得資源. 在云游戲中,游戲服務(wù)器捕獲游戲的畫面,編碼后發(fā)送給客戶端,傳輸?shù)挠螒蛞曨l的數(shù)據(jù)量直接影響了在帶寬受限情況下的用戶體驗(yàn).本實(shí)驗(yàn)在路由器上測量服務(wù)器端與客戶端之間網(wǎng)絡(luò)負(fù)載,分析使用vGPU進(jìn)行硬件編碼對數(shù)據(jù)傳輸量的影響. 圖7反映了使用CPU編碼和vGPU編碼的網(wǎng)絡(luò)負(fù)載情況,使用CPU編碼時每秒傳輸?shù)臄?shù)據(jù)量在5~7Mbytes,使用vGPU編碼時每秒傳輸?shù)臄?shù)據(jù)量在3.5Mbytes以下,這是因?yàn)関GPU使用了硬件編碼,擁有更高的編碼效率,編碼同一個游戲畫面產(chǎn)生的視頻流數(shù)據(jù)量較小,對云游戲的帶寬要求更小.同時,使用硬件編碼將大量運(yùn)算工作轉(zhuǎn)移到GPU,可以降低CPU的使用率. 圖6 不同虛擬機(jī)數(shù)量時游戲的FPSFig.6 FPS with various numbers of VMs 本實(shí)驗(yàn)從畫面質(zhì)量和響應(yīng)延遲兩方面分析vGPU對云游戲用戶體驗(yàn)的影響.實(shí)驗(yàn)分別在兩臺硬件配置相同的服務(wù)器上進(jìn)行,一臺服務(wù)器直接運(yùn)行云游戲,一臺服務(wù)器使用vGPU技術(shù),在虛擬機(jī)中運(yùn)行云游戲.我們選擇三種游戲分別進(jìn)行測試,用同一臺客戶端分別連接兩個服務(wù)器獲取游戲畫面. 圖7 云游戲網(wǎng)絡(luò)負(fù)載Fig.7 Network load of cloud gaming 1)vGPU對云游戲畫面質(zhì)量的影響 實(shí)驗(yàn)將兩個不同環(huán)境下的云游戲回傳的游戲畫面錄制為YUV格式的視頻文件,從每一個視頻上截取相同的長度為40s的視頻,計算出多組PSNR和SSIM數(shù)據(jù),求取平均值,評估vGPU對云游戲畫面質(zhì)量的影響. 圖8 游戲畫面的PSNRFig.8 PSNRofgamescreen圖9 游戲畫面的SSIMFig.9 SSIMofgamescreen 圖8和圖9反映了不同環(huán)境下云游戲系統(tǒng)的PSNR和SSIM的值.觀察這些數(shù)據(jù)可知,在真實(shí)物理環(huán)境下的畫面質(zhì)量比GPU虛擬環(huán)境下更好,PSNR和SSIM平均高了2dB和0.03.其次,從圖8可以發(fā)現(xiàn)Batman的處理延遲最低,FEAR和DOW的處理延遲相對較高,而圖10也反應(yīng)了Batman的畫面質(zhì)量更高,FEAR和DOW的畫面質(zhì)量則相對較低,這表明游戲畫面越復(fù)雜,經(jīng)過云游戲系統(tǒng)處理后畫面質(zhì)量下降的越多.實(shí)驗(yàn)結(jié)果表明了GPU虛擬化技術(shù)導(dǎo)致的云游戲系統(tǒng)畫面質(zhì)量下降的幅度不大,大致與游戲畫面復(fù)雜度不同導(dǎo)致的畫面質(zhì)量下降幅度相當(dāng),不會明顯的影響游戲體驗(yàn). 2)vGPU對云游戲響應(yīng)延遲的影響 實(shí)驗(yàn)在兩個不同環(huán)境下的云游戲中觸發(fā)按鍵事件,通過觀察游戲畫面的改變測算出處理延遲和播放延遲,評估GPU虛擬化環(huán)境對響應(yīng)延遲的影響. 圖10 云游戲響應(yīng)延遲Fig.10 Response delay of cloud gaming 圖10反映了不同環(huán)境下云游戲系統(tǒng)平均的播放延遲和處理延遲.觀察這些數(shù)據(jù)可知:播放延遲很小,最高只有21ms,且對于不同游戲延遲波動不大.這表明,解碼器在解碼視頻時有較高且穩(wěn)定的解碼效率,受視頻內(nèi)容的影響不大.使用vGPU后,云游戲播放延遲沒有增加,處理延遲比物理環(huán)境中平均提高了15ms.這表明vGPU會影響GPU的處理效率,增加少量的處理延遲.研究[16]表明,不同類別的游戲可以容忍的延遲程度不同,例如,對延遲最敏感的第一人稱射擊游戲要求延遲不能超過100毫秒.GamingAnywhere云游戲系統(tǒng)結(jié)合Citrix vGPU虛擬化技術(shù),仍能將響應(yīng)延遲控制在100ms以內(nèi),基本滿足云游戲嚴(yán)格的延遲要求. 本文使用vGPU和GamingAnywhere搭建原型系統(tǒng),將云游戲運(yùn)行在虛擬化環(huán)境中,通過GPU共享的方式,一臺服務(wù)器可以并發(fā)運(yùn)行多個云游戲?qū)嵗?在此基礎(chǔ)上,設(shè)計并進(jìn)行了大量實(shí)驗(yàn),以分析GPU虛擬化對云游戲性能的影響.實(shí)驗(yàn)結(jié)果表明:使用vGPU技術(shù)共享GPU資源后,云游戲的響應(yīng)延遲和畫面質(zhì)量略有下降,但基本滿足云游戲的需求;在多個虛擬機(jī)中并發(fā)運(yùn)行云游戲時能公平的分配到GPU資源;使用GPU對游戲畫面進(jìn)行硬件編碼可以提高編碼效率,降低CPU負(fù)載和網(wǎng)絡(luò)負(fù)載.我們的工作可以作為設(shè)計基于GPU虛擬化的云游戲系統(tǒng)的重要依據(jù). [1] Mishra D,El Zarki M,Erbad A,et al.Clouds+ games:a multifaceted approach[J].IEEE Internet Computing,2014,18(3):20-27. [2] Hong H J,Chen D Y,Huang C Y,et al.Placing virtual machines to optimize cloud gaming experience[J].IEEE Transactions on Cloud Computing,2015,3(1):42-53. [3] Wu D,Xue Z,He J.iCloudAccess:cost-effective streaming of video games from the cloud with low latency[J].IEEE Transactions on Circuits and Systems for Video Technology,2014,24(8):1405-1416. [4] Shea R,Liu J.On GPU pass-through performance for cloud gaming:experiments and analysis[C].Proceedings of IEEE 12th Annual Workshop on Network and Systems Support for Games(NetGames),2013:1-6. [5] Dowty M,Sugerman J.GPU virtualization on VMware′s hosted I/O architecture[J].ACM SIGOPS Operating Systems Review,2009,43(3):73-82. [6] Lee S,Kim H,Park D,et al.CPU-GPU hybrid computing for feature extraction from video stream[J].IEICE Electronics Express,2014,11(22):1-8. [7] Scott S.The evolution of GPU accelerated computing[C].Proceedings of IEEE SC Companion:High Performance Computing,Networking Storage and Analysis,2012:1636-1672. [8] Yang C T,Wang H Y,Ou W S,et al.On implementation of GPU virtualization using PCI pass-through[C].Proceedings of IEEE 4th International Conference on Cloud Computing Technology and Science(CloudCom),2012:711-716. [9] Li T,Narayana V K,El-Araby E,et al.GPU resource sharing and virtualization on high performance computing systems[C].Proceedings of IEEE International Conference on Parallel Processing,2011:733-742. [10] Duato J,Igual F D,Mayo R,et al.An efficient implementation of GPU virtualization in high performance clusters[C].Proceedings of European Conference on Parallel Processing,Springer Berlin Heidelberg,2009:385-394. [11] Li J,Li C,Chen G,et al.vGPU:a real time GPU emulator:U.S,us8711159[P].2014-4-29. [12] Huang C Y,Hsu C H,Chang Y C,et al.Gaming anywhere:an open cloud gaming system[C].Proceedings of the 4th ACM multimedia systems conference,2013:36-47. [13] Carbone M,Rizzo L.Dummy net revisited[J].ACM SIGCOMM Computer Communication Review,2010,40(2):12-20. [14] Hore A,Ziou D.Image quality metrics:PSNR vs.SSIM[C].Proceedings of IEEE International Conference on Pattern Recognition(icpr),2010:2366-2369. [15] Dick M,Wellnitz O,Wolf L.Analysis of factors affecting players′ performance and perception in multiplayer games[C].Proceedings of ACM SIGCOMM Workshop on Network and System support for games,2005:1-7. [16] Zander S,Leeder I,Armitage G.Achieving fairness in multiplayer network games through automated latency balancing[C].Proceedings of ACM SIGCHI International Conference on Advances in Computer Entertainment Technology,2005:117-124.5 實(shí)驗(yàn)設(shè)計和性能分析
5.1 vGPU的圖形加速性能
5.2 虛擬機(jī)數(shù)量對圖形加速性能的影響
5.3 vGPU對云游戲網(wǎng)絡(luò)負(fù)載的影響
5.4 vGPU對云游戲用戶體驗(yàn)的影響
6 結(jié)束語