劉亞男
(安徽工商職業(yè)學院 管理學院,安徽 合肥 231131)
隨著視頻處理技術的發(fā)展,立體視頻開始成為虛擬現(xiàn)實和增強顯示應用廠商的關注焦點[1-2]。立體視頻能夠捕獲三維的空間和對象,并能夠描述物體在六個自由度上的運動,從而使觀看者可以自由更改空間位置和方向。但是,由于移動終端設備的計算能力有限,無法滿足渲染立體視頻的算力需求。為了提高渲染效率,降低客戶端處理的成本,可以將渲染任務從移動終端遷移至具備強大服務器的云計算平臺上。因此,本研究提出了一種基于云計算的立體視頻流處理框架,并設計了物體運動的預測模型來提高框架的渲染精度。
基于云計算的立體視頻流處理框架的系統(tǒng)架構的簡化版本如圖1所示。
服務器端由兩個主要部分組成:一個立體視頻播放器和一個跨平臺的云渲染庫。
立體視頻播放器在Unity中實現(xiàn),并播放一個MP4文件,該文件具有一個包含壓縮紋理數(shù)據(jù)的視頻軌道和一個包含體積對象的壓縮網(wǎng)格數(shù)據(jù)的網(wǎng)格軌道。在開始播放立體視頻之前,播放器會注冊所有必需的對象。例如,客戶端可以控制那些已注冊渲染視圖的虛擬攝像機和體積對象。初始化后,立體視頻播放器可以開始播放MP4文件。在播放期間,兩個軌道都被信號分離并饋入相應的解碼器(用于紋理軌跡的視頻解碼器和用于網(wǎng)格軌跡的網(wǎng)格解碼器)。解碼后,每個網(wǎng)格與相應的紋理同步并渲染到場景中。場景的渲染視圖由Unity中的RenderTexture表示,該對象傳遞到我們的云渲染庫中以進行進一步處理。在渲染場景時,播放器會同時向云渲染庫詢問先前在初始化階段中注冊的相關對象的最新位置。
我們創(chuàng)建了一個用C ++編寫的跨平臺云渲染庫(如圖2所示),該庫可以集成到各種應用程序中。該庫利用多媒體框架的實時通信插件在服務器和客戶端之間進行低延遲的視頻流傳輸,該視頻流已集成到媒體管道中。此外,該庫提供了一些接口,用于注冊渲染場景的對象并在渲染場景時檢索這些對象的最新客戶端控制的轉換。
在云渲染庫中,網(wǎng)頁套接字服務器用于在客戶端和服務器之間交換信令數(shù)據(jù),信令數(shù)據(jù)包括會話描述協(xié)議、交互式連接建立以及用于場景描述的特定于應用程序的元數(shù)據(jù)。此外,網(wǎng)頁套接字連接也可用于發(fā)送控制數(shù)據(jù)。
多媒體框架模塊包含媒體處理管道,該管道處理渲染的紋理并將其壓縮為視頻流,然后使用實時通信插件將其發(fā)送到客戶端??刂破髂K代表應用程序邏輯,并根據(jù)應用程序狀態(tài)控制其它模塊。
預測引擎實現(xiàn)了基于回歸的預測方法,并提供了使用其它可能方法的接口?;谙惹皬目蛻舳私邮盏降妮斎牒退鶎崿F(xiàn)的算法,模塊相應地更新注冊對象的位置,以使渲染的場景與給定LAT之后對象的預測位置相對應。
在流會話開始之前,客戶端建立與服務器的網(wǎng)頁套接字連接,并要求服務器發(fā)送渲染場景的描述。服務器以對象和參數(shù)的列表作為響應,稍后允許客戶端更新??蛻舳耸盏綀鼍懊枋龊?,將復制場景并啟動與服務器的實時通信連接。服務器和客戶端通過已建立的網(wǎng)頁套接字連接發(fā)送會話描述協(xié)議和交互式連接建立數(shù)據(jù)來開始實時通信協(xié)商過程。最后,建立連接,并且客戶端開始接收與立體視頻的當前視圖相對應的視頻流。同時,客戶端可以使用網(wǎng)頁套接字連接和實時連接將控制數(shù)據(jù)發(fā)送到服務器,以修改場景的屬性。我們用JavaScript實現(xiàn)了網(wǎng)頁播放器,并實現(xiàn)了混合現(xiàn)實頭戴式顯示器的本地應用程序。
媒體管道的輸入是渲染紋理。由于渲染紋理是RGB格式,但是視頻編碼器需要的輸入格式為YUV(Y、U和V分別代表明亮度、色度和濃度),因此使用視頻轉換元素將RGB紋理轉換為I420格式。轉換后,紋理將被傳遞到編碼器。編碼器延遲是整個延遲的重要因素,因此需要仔細評估不同編碼器的編碼性能并選擇合適的編碼器。對紋理進行編碼后,將得到的視頻比特流打包為實時傳輸協(xié)議數(shù)據(jù)包,進行加密并使用實時通信發(fā)送給客戶端。
延遲的計算如式(1)所示:
T=Tserver+Tnetwork+Tclient
(1)
其中,Tserver、Tnetwork和Tclient的定義如式(2)(3)(4)所示:
Tserver=Trend+Tenc
(2)
Tnetwork=Tup+Tdown+Ttrans
(3)
Tclient=Tdec+Tdisp
(4)
其中,Trend是服務器根據(jù)實際用戶姿勢從立體數(shù)據(jù)渲染視圖生成新幀的時間,Tenc是壓縮幀的時間,取決于編碼器類型和圖片分辨率,Tnetwork是網(wǎng)絡往返時間,它由傳播延遲(Tup和Tdown)和傳輸延遲Ttrans組成。Tup是服務器從客戶端檢索傳感器數(shù)據(jù)的時間,Tdown是服務器將壓縮幀發(fā)送到客戶端的時間。Tdec是在客戶端設備上解碼壓縮幀的時間,通常比Tenc小得多,因為視頻解碼本質(zhì)上比視頻編碼要快。而且,終端設備通常具有硬件加速的視頻解碼器,可進一步減少解碼延遲。Tdisp是顯示延遲,主要取決于顯示的刷新率。對于60Hz的典型刷新率,Tdisp的平均值約為8毫秒,最壞情況約為17毫秒。
使用測試數(shù)據(jù)集來測試不同編碼器的編碼速度[3]。所使用的編碼器包括了NVENC、x264、x265和Intel SVT-HEVC。測試是在服務器上進行的,服務器的操作系統(tǒng)是Ubuntu 21.04 Hirsute Hippo,中央處理器是英特爾至強Gold 6328H 處理器(22 M高速緩存,2.80 GHz)。
在測試結果中(圖3),觀察到NVENC的H.264和HEVC編碼器都比x264和x265編碼器要快(均使用超快速預設和零延遲調(diào)整)。NVENC能夠在我們的測試數(shù)據(jù)集中對1080 p和4 K視頻進行編碼,編碼速度分別高達800 fps和200 fps。還觀察到,對于某些序列,HEVC編碼比H.264編碼要快,這種差異是由于HEVC的GPU實現(xiàn)效率更高引起的。
在實驗中測試的所有低延遲預設都關閉了B幀以減少延遲。盡管如此,我們觀察到NVENC在PSNR方面獲得的圖像質(zhì)量與其他經(jīng)過測試的編碼器(使用低延遲預設)相當。根據(jù)分析的結果,決定在系統(tǒng)中使用NVENC H.264(高性能預設)。
設計了一個框架來測量系統(tǒng)的延遲。在云端的實例上運行服務器應用程序,而客戶端應用程序在網(wǎng)頁瀏覽器中運行,該瀏覽器通過WiFi連接到互聯(lián)網(wǎng)。實現(xiàn)了一個服務器端控制臺應用程序,該應用程序根據(jù)從客戶端接收的控制數(shù)據(jù)發(fā)送預定義的紋理,而這些紋理由具有不同顏色的簡單垂直條組成。
在客戶端,實現(xiàn)了一個基于網(wǎng)頁的應用程序,該應用程序連接到服務器應用程序并將接收到的視頻流呈現(xiàn)到屏幕上。由于客戶端知道這些紋理的外觀,因此它可以評估傳入的視頻流并確定何時在屏幕上呈現(xiàn)所請求的紋理??蛻舳藨贸绦驅1發(fā)送到服務器后,它將立即啟動計時器,并在每個網(wǎng)頁瀏覽器窗口重繪事件時檢查屏幕中的F1。重繪事件與顯示器的刷新率匹配,一旦檢測到紋理F1,客戶端就停止計時器并計算延遲T。
建立連接后,用戶可以通過定義獨立測量的數(shù)量來開始會話。將每個視頻幀的大小設置為512×512像素。使用配置有超快預設和零延遲調(diào)整的x264對數(shù)據(jù)流進行編碼流,編碼速度約為80 fps。設置客戶端執(zhí)行100次延遲測量,并計算平均、最小和最大的M2P延遲。結果表明,TM2P在41 毫秒和63毫秒之間波動,并且測得的平均延遲為58毫秒。
減輕基于云的渲染系統(tǒng)中增加的延遲的一項重要技術是預測用戶的未來姿勢。將設計用于運動預測的統(tǒng)計預測模型,并使用真實的用戶軌跡評估其性能。
實驗采用的運動軌跡數(shù)據(jù)集是從混合現(xiàn)實頭戴式顯示器收集的,該數(shù)據(jù)集記錄了用戶在6DoF空間中的移動軌跡。由于從混合現(xiàn)實頭戴式顯示器獲得的原始傳感器數(shù)據(jù)在60 Hz下不均勻采樣,因此對數(shù)據(jù)進行插值以獲得時間上等距的采樣。使用線性插值對位置數(shù)據(jù)進行上采樣,使用旋轉的球面線性插值對旋轉數(shù)據(jù)進行上采樣[4]。最后,獲得了采樣率為200 Hz的均勻采樣數(shù)據(jù)集。
使用簡單的自回歸模型根據(jù)其過去值的時間序列來預測將來的用戶姿勢。AutoReg模型使用變量的過去值的線性組合來預測其未來值[5]。
滯后階ρ的AutoReg模型可以寫成式(5):
yt=c+φ1yt-1+φ2yt-2+…+φρyρ-1+εt
(5)
其中yt是時間t的時間序列y的真值;εt是白噪聲;φi是模型的系數(shù)。這種具有ρ滯后值的模型稱為AP(ρ)模型。一些統(tǒng)計庫可以使用統(tǒng)計測試自動確定滯后值。
將收集到的一條軌跡中的x和qx值用作訓練數(shù)據(jù),并分別使用Python庫statsmodels[6]創(chuàng)建了兩個自回歸模型,分別用于平移和旋轉分量。我們的模型具有32個樣本的滯后階數(shù),即它考慮了過去160 毫秒的歷史窗口,并使用式(5)預測了下一個樣本。通常,不僅需要預測下一個樣本,而且還需要預測將來要獲得給定前視時間的多個樣本。因此,通過將剛剛預測的樣本添加到歷史窗口并進行迭代式(5)來重復預測步驟,直到獲得與所需前視時間相對應的未來樣本。
使用經(jīng)過訓練的模型來預測用戶的平移(x,y,z)和旋轉運動(qx,qy,qz,qw)??梢詮膫鞲衅鳙@取旋轉四元組,并且可以使用插值等技術進行平滑插值,因此可以對四元數(shù)域中的旋轉進行預測。預測后,將預測的四元組轉換為歐拉角,即章動角、旋進角和自轉角,并在歐拉角域中評估預測精度,因為它們更適合于根據(jù)角度距離理解渲染偏移。
我們評估了預測對顯示給用戶的渲染圖像準確性的影響。將預測的用戶姿態(tài)與從傳感器獲得的真實用戶姿態(tài)進行了比較。評估了一個基線情況作為基準,在該情況下,呈現(xiàn)的姿勢落后于實際的用戶姿勢一個T延遲的延遲,即不執(zhí)行任何預測。
對于每條用戶軌跡,評估了在不同前視時間T'時間下的預測算法。在每個實驗中,假定延遲等于預測時間,即T'=T,以便預測模型嘗試預測在將渲染圖像顯示給用戶時用戶將達的姿勢。通過計算真實值和預測值之間的平均絕對誤差來評估結果。
圖4呈現(xiàn)了本預測方法與基線方法的平均渲染誤差對比的結果。觀察到,本預測方法能夠減少位置和旋轉分量的平均渲染誤差。
本研究提出了一個基于云計算的立體視頻處理框架,該框架將渲染操作遷移到具有強大算力的云端服務器上,以此達到減輕客戶端渲染負載的目的。為了改善延遲對框架的影響,設計了一種在六個自由度上預測立體視頻中物體運動軌跡的方法。實驗結果表明,該預測模型減少了由云端進行渲染而增加的延遲所導致的渲染錯誤。在未來的工作中,將對本框架進行全面的測試,并通過主觀測試來分析延遲對用戶體驗的影響,并設計具有高效率的預測模型。