李 鵬,黎 軍,楊明祎,胡偉濤
(1. 西安電子科技大學,西安 710071; 2. 中國空間技術研究院西安分院,西安 710000)
360°全景視頻作為虛擬現(xiàn)實(virtual reality,VR)技術的重要組成部分,能夠為觀看者提供更為豐富的場景信息和身臨其境的沉浸感,在包括航空航天、軍事、醫(yī)療、教育、交通運輸和娛樂等多個領域受到了越來越廣泛的關注[1-2]。隨著新的全景視頻采集設備和顯示設備的不斷涌現(xiàn),高效的傳輸技術[3-4]和視頻編碼技術[5-7]的不斷發(fā)展,為設計和實現(xiàn)面向“空-地”交互的全景視頻傳輸系統(tǒng)奠定了技術基礎。
目前,廣泛使用的360°全景視頻傳輸系統(tǒng)由服務器、客戶端以及連接服務器和客戶端的傳輸鏈路三部分組成。其中,服務器負責將全景相機采集的視頻數(shù)據(jù)編碼為適合于流媒體傳輸?shù)囊曨l碼流,客戶端根據(jù)當前傳輸鏈路的狀態(tài)、自身的處理能力及緩存情況,向服務器端請求下載對應的視頻碼流。獲取所請求的碼流后,客戶端對其進行解碼和渲染,并送入頭盔式顯示器(helmet-mounted displays,HMD)或球面屏幕進行顯示,供終端用戶觀看。傳輸鏈路則負責為服務器和客戶端提供數(shù)據(jù)和控制指令的傳輸通道。
360°全景視頻傳輸系統(tǒng)常用的傳輸方法包括全景傳輸方法和視口自適應傳輸方法[8]。全景傳輸方法是指服務器將全景視頻編碼為單一碼率的視頻流發(fā)送至客戶端,用戶切換視口時視頻體驗質量不受影響,但受碼率限制用戶視口內(nèi)的視頻質量較差,傳輸帶寬的利用率低;視口自適應傳輸方法是指客戶端根據(jù)用戶當前視口的位置向服務器請求碼流,服務器采用不同碼率對視口內(nèi)外區(qū)域進行編碼,并將對應的碼流發(fā)送至客戶端供解碼和顯示。此方法提高了傳輸帶寬的利用率,但當用戶切換視口時,如果服務器端發(fā)送的視頻碼流不能及時響應用戶視口的變化,就會對終端用戶的視頻體驗質量造成嚴重影響。
本文對360°全景視頻傳輸系統(tǒng)的視口自適應傳輸方法進行分析,針對用戶視口發(fā)生變化時系統(tǒng)不能及時響應的問題,提出了一種低時延的全景視頻傳輸方法。在本方法中,服務器將全景視頻數(shù)據(jù)編碼為低質量的基本層、高質量的增強層以及用于用戶視口切換的隨機接入幀間預測幀(random access inter-prediction frame, RAPF)3種碼流,利用3者的不同組合來減小用戶視口切換時延。相比于已有方法,使用所提出方法實現(xiàn)360°全景視頻傳輸,可以顯著減小用戶視口切換時延,同時提高傳輸帶寬的利用率,從而為實現(xiàn)高體驗質量的全景視頻傳輸系統(tǒng)提供了一種可行方法。
360°全景視頻傳輸系統(tǒng)對全景相機采集的球面視頻數(shù)據(jù)進行處理,將其編碼為適合傳輸?shù)囊曨l碼流傳送至客戶端,客戶端對接收到的碼流進行解碼和渲染后,送入HMD顯示設備中供用戶觀看。考慮到用戶在HMD中的視口僅覆蓋全景視頻對應球面中的局部區(qū)域,為了提高傳輸帶寬的利用率,360°全景視頻傳輸系統(tǒng)中廣泛使用了視口自適應的傳輸方法。圖1給出了使用視口自適應傳輸方法的360°全景視頻系統(tǒng)的原理框圖。
圖1 視口自適應地360°全景視頻傳輸系統(tǒng)原理Fig.1 The 360° panoramic video transmission system with adaptive viewport
如圖1所示,在服務器端,全景視頻采集設備獲取的球面視頻被映射成與視頻編碼器相適配的矩形視頻,然后將其編碼為低質量的基本層和高質量的增強層。其中基本層使用較大的量化參數(shù)(quantization parameter,QP)對矩形視頻進行編碼,得到低質量的全景視頻碼流;而增強層是通過將矩形視頻劃分成若干個空域上相互不重疊的拼接塊(Tile),然后將每個Tile在時域上劃分成固定時長的視頻段(Segment),使用較小的QP對每個Tile劃分成的Segment進行編碼,得到高質量的視頻碼流;將基本層和增強層按照一定的格式封裝后保存在服務器端,同時生成對應碼流信息的媒體表示描述(media presentation description, MPD)文件,通過傳輸鏈路發(fā)送至客戶端。客戶端在接收到MPD文件后,根據(jù)當前用戶視口的位置和客戶端的資源情況,向服務器請求基本層碼流和覆蓋用戶視口區(qū)域Tile對應的增強層碼流。在接收到所請求的碼流后對其進行解碼,將解碼結果拼接成用戶視口內(nèi)呈現(xiàn)高質量視頻,用戶視口外呈現(xiàn)低質量視頻的全景視頻,送入HMD供用戶觀看。
已有的視口自適應傳輸方法中,增強層碼流的作用是保證用戶視口內(nèi)呈現(xiàn)高質量的視頻內(nèi)容,而基本層碼流的作用是當用戶切換視口進入前一時刻的不可見區(qū)域時,避免在新視口內(nèi)沒有呈現(xiàn)任何視頻內(nèi)容,導致用戶視頻體驗質量的急劇下降。
在對增強層對應的各個Tile編碼的過程中,視頻編碼器將每個Segment編碼為一個圖像組(group of picture, GOP),每個GOP由1個幀內(nèi)預測幀(intra-prediction frame, I幀)和后續(xù)N-1個幀間預測幀(inter-prediction frame, P幀)組成。I幀可以獨立解碼,而P幀的解碼依賴于同一GOP內(nèi)的I幀。當用戶在觀看全景視頻過程中切換視口時,客戶端將根據(jù)切換后的視口位置向服務器端請求覆蓋新視口位置Tile對應的增強層碼流。然而,由于GOP中P幀的解碼依賴于I幀,因此用戶視口的切換只能發(fā)生在GOP的邊界,即只能使用位于每個GOP起始位置的I幀作為視頻碼流的隨機接入點。
對于用戶而言,其在每個GOP內(nèi)進行視口切換的時刻選擇是等概率的,采用現(xiàn)有的視口自適應傳輸方法,用戶從開始切換視口至視口內(nèi)呈現(xiàn)出高質量視頻內(nèi)容的平均時延,至少需要1個GOP時長的一半,即N/2幀時長。在該時間段內(nèi),基本層對應的低質量視頻內(nèi)容將暴露在用戶的視口區(qū)域內(nèi),嚴重影響用戶的視頻體驗質量。圖2給出了采用視口自適應傳輸方法實現(xiàn)全景視頻傳輸時,用戶視口內(nèi)視頻內(nèi)容的變化情況。如圖2所示,當用戶從圖2(b)中紅色框所示的視口切換至圖2(c)紅色框所示的視口時,期望看到的視頻內(nèi)容如圖2(c)所示,但由于視口切換時延的存在,用戶在切換過程中視口內(nèi)實際呈現(xiàn)的內(nèi)容如圖2(d)所示,即用戶視口內(nèi)部分區(qū)域被基本層對應的低質量視頻內(nèi)容所覆蓋。
圖2 視口自適應傳輸方法的固有缺陷Fig.2 The disadvantage of the viewport adaptive transmission method
為了解決現(xiàn)有視口自適應傳輸方法中視口切換時延過長對用戶視頻體驗質量的影響,宋佳潤等[9]提出了一種被稱為FFS-360DASH的低時延全景視頻傳輸方法,其基本思想是在服務器端編碼增強層時,為GOP中每個P幀額外編碼一個I幀的副本作為碼流中的隨機接入點。當用戶切換視口時,將對應位置的I幀副本發(fā)送至解碼端進行解碼和顯示,同時用作新視口對應GOP中后續(xù)P幀解碼的參考幀。理論上,F(xiàn)FS-360DASH傳輸方法可以將用戶視口切換時延減小至1幀時長。然而,一方面在編碼I幀時只能利用空域的局部相關性來較少冗余,其編碼效率較低;另一方面,相對于P幀,I幀的數(shù)據(jù)量較大,給定傳輸帶寬條件下傳輸I幀的時長要遠大于P幀,因而FFS-360DASH方法在降低視口切換時延的同時,又增大了碼流的傳輸時延,而傳輸時延同樣會對用戶的視頻體驗質量造成影響。
因此,如何在降低視口切換時延對終端用戶視頻體驗質量影響的同時,盡可能地提高服務器端的編碼效率,對于提升360°全景視頻傳輸系統(tǒng)的性能,具有重要的研究意義。
在采用視口自適應傳輸方法的360°全景視頻系統(tǒng)中,當用戶切換視口時,低質量的視頻內(nèi)容暴露在用戶視口內(nèi),導致用戶視頻體驗質量的急劇下降。造成這一問題的根本原因在于,增強層碼流中的P幀不能獨立解碼,客戶端只能等待接收到下一個GOP中的I幀,才能夠實現(xiàn)視頻碼流的隨機接入,進而完成用戶視口的切換。對于用戶而言,這意味著存在較長的視口切換時延。若采用FFS-360DASH傳輸方法,當監(jiān)測到用戶切換視口時,客戶端向服務器端請求P幀對應的I幀副本,可以實現(xiàn)視頻碼流的隨機接入,顯著降低視口切換時延。然而,相對于P幀,I幀編碼時只能利用空域上局部相關性來減小冗余,因而其編碼效率受限,在減小視口切換時延的同時,又會引入較大的傳輸時延,同樣會降低用戶的視頻體驗質量。
針對上述問題,為了保證終端用戶的視頻體驗質量,本文提出了一種低時延的全景視頻傳輸方法,其基本思想是在視口自適應傳輸方法的基礎上,為增強層碼流GOP中每個P幀額外編碼一個RAPF,利用RAPF作為用戶視口切換時的隨機接入點,顯著降低視口切換時延。同時,在編碼RAPF的過程中,利用了基本層重建圖像與增強層重建圖像之間的時域相關性,可以顯著的提升RAPF的編碼效率,從而減少視頻碼流的傳輸時延。
具體而言,所提出的低時延全景視頻傳輸方法的實現(xiàn)過程如下:
1)在服務器端采用與視口自適應傳輸方法相同的方式,將原始的全景視頻編碼為基本層碼流和增強層碼流;同時,以基本層碼流編碼時生成的本地重建圖像的上采樣作為參考,對增強層碼流編碼過程中生成的各個Tile的重建圖像進行預測編碼,得到RAPF碼流。
2)根據(jù)基本層碼流、增強層碼流以及RAPF碼流的編碼參數(shù)及其在服務器的保存位置,生成對應的MPD文件。
3)客戶端根據(jù)用戶需求,向服務器請求獲取MPD文件,并根據(jù)當前用戶的視口位置及可用的傳輸帶寬,向服務器請求基本層碼流和覆蓋視口區(qū)域Tile對應的增強層碼流,并對其進行解碼和渲染,送入HMD顯示設備進行播放。
4)當客戶端監(jiān)測到用戶切換視口時,客戶端向服務器請求基本層碼流和覆蓋新視口區(qū)域Tile對應的RAPF碼流,對基本層碼流解碼,獲得當前幀的重建圖像,并以該重建圖像的上采樣作為參考,對RAPF碼流解碼,獲得覆蓋視口區(qū)域Tile對應的重建圖像,對當前幀的重建圖像和覆蓋視口區(qū)域Tile的重建圖像進行渲染之后,送入HMD顯示設備播放。
5)客戶端向服務器端請求后續(xù)的基本層碼流以及覆蓋新視口區(qū)域Tile對應的增強層碼流,其中基本層碼流的解碼參考前一幀的重建圖像,而增強層碼流的解碼參考RAPF碼流的重建圖像,完成視口的切換。
重復上述過程,直至完成全景視頻數(shù)據(jù)的傳輸,或者客戶端終止請求全景視頻數(shù)據(jù)。
圖3給出了使用本文所提出的低時延全景視頻傳輸方法進行視口切換的示例。當用戶從視口1切換至視口2時,客戶端根據(jù)視口2的位置向服務器請求并獲取對應于切換時刻的RAPF碼流,對其解碼后獲得該時刻視口2中對應的視頻內(nèi)容。同時,客戶端向服務器端請求覆蓋視口2區(qū)域增強層碼流的后續(xù)P幀,例如圖3中視口2中的P2幀,此時P2幀將以RAPF的解碼結果作為參考幀進行解碼,后續(xù)的P3幀將以P2幀的解碼結果作為參考幀進行解碼,以此類推,直至客戶端向服務器端請求視口2對應的下一個GOP。依照該方法,客戶端能夠在用戶視口切換后立即在新視口內(nèi)獲得高質量的視頻內(nèi)容,而不需要等待至下一個GOP中的隨機接入點。
圖3 低時延全景視頻傳輸方法視口切換過程Fig.3 Viewport switching process of low delay panoramic video transmission method
為了測試和驗證本文提出的低時延全景視頻傳輸方法的性能,構建了一個360°全景視頻傳輸系統(tǒng),包含服務器、客戶端以及連接兩者的傳輸鏈路。其中,服務器的處理器為英特爾酷睿i7-10700(主頻2.9 GHz),內(nèi)存為32 GB。使用Nginx庫[10]完成服務器軟件功能的構建以及傳輸鏈路帶寬的設定。基于H.265/HEVC視頻編碼標準[11]的參考軟件x265,實現(xiàn)對全景視頻的編碼,生成符合H.265/HEVC標準的視頻碼流??蛻舳说奶幚砥骱蛢?nèi)存配置與服務器相同,并額外安裝了一塊英偉達公司的GTX1080 Ti顯卡(顯存8 GB)用于實現(xiàn)解碼后全景視頻的渲染??蛻舳藢邮盏降囊曨l碼流進行解碼,經(jīng)OpenGL庫渲染后,送入HTC Vive Pro頭顯設備呈現(xiàn)給終端用戶??蛻舳撕头掌鞫送ㄟ^網(wǎng)線連接,使用HTTP/2協(xié)議進行數(shù)據(jù)的請求和交互。
將客戶端向服務器端發(fā)送用戶視口切換信息的時刻,到用戶的HMD顯示設備中視口內(nèi)開始呈現(xiàn)高質量視頻內(nèi)容的時刻之間的時間間隔,定義為視口切換時延[12]。視口切換時延涵蓋了服務器獲取用戶切換視口信息所需傳輸時延,以及客戶端獲取對應的視頻碼流的傳輸時間?;谏鲜鋈耙曨l傳輸系統(tǒng),通過仿真實驗對比了視口自適應傳輸方法、FFS-360DASH傳輸方法以及本文所提出的低時延全景視頻傳輸方法的視口切換時延。仿真實驗的仿真數(shù)據(jù)設定如下:
依照國際標準組織ITU-T推薦的360°全景視頻測試條件[13],選取了4個分辨為8K(8 192×4 096像素)的360°全景視頻序列,分別命名為Kite-Flite、Gaslamp、Harbor和Trolley,經(jīng)等量矩形投影(equirectangular projection,ERP)映射后的視頻截圖如圖4所示:
圖4 仿真使用的4個全景視頻序列Fig.4 Shortcut of four panoramic video sequences used in simulation
上述4個360°全景視頻序列是標準測試條件中指定的具有最高分辨率的測試序列,每個序列持續(xù)時間10 s,包含300幀圖像。這4個測試序列具有不同的空間復雜度和時間復雜度,能夠代表目前主流的360°全景視頻業(yè)務[12]。
以Kite-Flite全景視頻序列為例,仿真實驗的具體步驟如下:
1)在服務器端,生成視口自適應傳輸方法的視頻碼流和MPD文件。設GOP大小為30幀,采用IPPP預測結構。設定基本層目標碼率為3 Mbps,對原始全景視頻序列編碼,得到基本層碼流。同時,將原始全景視頻在空域上劃分為72個Tile(水平方向12個,垂直方向6個),為每個Tile設定三種目標碼率,分別為1.2 Mbps、1 Mbps以及0.8 Mbps,分別對應3種不同質量的增強層,對所劃分的各個Tile編碼,得到增強層碼流;將基本層和增強層的碼流保存在服務器端,并生成與之對應的MPD文件。
2)在服務器端,生成FFS-360DASH傳輸方法的視頻碼流和MPD文件。其基本層和增強層視頻碼流的生成與視口自適應方法相同。采用全I幀的預測模式,對所劃分的每個Tile進行編碼,設定量化參數(shù)QP分別為20,22和24,得到對應3種不同質量的用于隨機接入的I幀碼流。將基本層、增強層以及用于隨機接入的I幀碼流保存在服務器端,生成與之對應的MPD文件。
3)在服務器端,生成本文所提出的低時延全景視頻傳輸方法所需的視頻碼流和MPD文件。其基本層和增強層視頻碼流的生成與視口自適應方法相同。對基本層碼流的本地解碼圖像進行4倍上采樣,得到參考圖像;對增強層的碼流進行解碼,得到各個Tile的本地解碼圖像;以參考圖像作為參考,設定量化參數(shù)QP分別為20,22和24,對各個Tile的本地解碼圖像進行預測編碼,得到對應3種不同質量的用于隨機接入的RAPF碼流。將基本層、增強層以及RAPF碼流保存在服務器端,生成與之對應的MPD文件。
4)在服務器端調用Nginx庫,將用于全景視頻傳輸業(yè)務的傳輸帶寬設定為30 Mbps。
5)客戶端向服務器發(fā)送GET請求,申請對應視口自適應傳輸方法的MPD文件,并根據(jù)當前的可用帶寬,向服務器端請求對應基本層和增強層的視頻碼流,經(jīng)解碼和渲染后送入HMD顯示設備進行播放;設定每個GOP中,用戶的視口切換每間隔5幀發(fā)生一次,即在一個GOP中的第5幀、第10幀、第15幀、第20幀和第25幀時用戶切換視口;記錄用戶5次視口切換時的切換時延,計算其均值作為當前GOP的視口切換時延;將所有GOP的視口切換時延的均值作為該視頻序列在視口自適應傳輸方法下的視口切換時延。
6)客戶端向服務器發(fā)送GET請求,申請對應FFS-360DASH傳輸方法的MPD文件,并根據(jù)當前可用帶寬,向服務器端請求對應基本層和增強層的視頻碼流,經(jīng)解碼和渲染后送入HMD顯示設備進行播放;設用戶切換視口的時刻與步驟5)中相同,當客戶端監(jiān)測到用戶切換視口時,向服務器端請求基本層碼流和用于隨機接入的I幀碼流,經(jīng)解碼和渲染后送入HMD顯示設備進行播放;按照與步驟5)中相同的方式,記錄該視頻序列在FFS-360DASH傳輸方法下的視口切換時延。
7)客戶端向服務器發(fā)送GET請求,申請對應低時延全景視頻傳輸方法的MPD文件,并根據(jù)當前可用帶寬,向服務器端請求對應的基本層和增強層的視頻碼流,經(jīng)解碼和渲染后送入HMD顯示設備進行播放;設用戶切換視口的時刻與步驟5)中相同,當客戶端監(jiān)測到用戶切換視口時,向服務器端請求基本層碼流和用于隨機接入的RAPF碼流,經(jīng)解碼和渲染后送入HMD顯示設備進行播放;按照與步驟5)中相同的方法,記錄該視頻序列在低時延全景視頻傳輸方法下的視口切換時延。
8)在服務器端調用Nginx庫,將用于全景視頻傳輸業(yè)務的傳輸帶寬設定為60 Mbps;然后重復步驟5)~步驟7),得到高傳輸帶寬條件下,不同傳輸方法視口切換時延的仿真結果。
針對4個測試序列,所比較的3種方法在30 Mbps和60 Mbps可用傳輸帶寬設定條件下的視口切換時延的仿真結果,如表1和表2所列。
表1 30 Mbps傳輸帶寬下的視口切換時延的仿真結果對比
表2 60 Mbps傳輸帶寬下的視口切換時延的仿真結果對比
由表1和表2所示的仿真結果可知,對于視口自適應傳輸方法,當用戶切換視口時,由于編碼過程中所使用的IPPP預測結構限定,客戶端在請求到新視口對應的P幀時,無法使用同一GOP中先前的I幀或P幀的重建圖像作為參考進行解碼,進而使得客戶端只能使用下一個GOP中起始位置的I幀實現(xiàn)隨機接入,完成用戶視口切換。即使增大服務器與客戶端之間的傳輸帶寬,該方法對于不同序列的視口切換時延仍保持不變。
對于FFS-360DASH傳輸方法,當用戶切換視口時,客戶端可以向服務器直接請求基本層以及用于隨機接入的I幀碼流,I幀碼流可以實現(xiàn)獨立解碼,不需要參考先前幀的重建圖像,因而FFS-360DASH傳輸方法相比于視口自適應傳輸方法的視口切換時延有顯著減小。
對于本文所提出的低時延全景視頻傳輸方法,當用戶切換視口時,其使用能夠獨立解碼的RAPF碼流實現(xiàn)隨機接入,相比于視口自適應傳輸方法,本文方法也可以顯著減小視口切換時延;在生成RAPF碼流的過程中,利用了基本層碼流重建圖像和增強層碼流重建圖像之間的時域相關性來減少冗余信息,相比于FFS-360DASH傳輸方法中編碼I幀時,只能使用增強層重建圖像自身的空域相關性來減少冗余,本文方法可以進一步地提升壓縮率,因而可以獲得更小的視口切換時延。
為了減小視頻序列內(nèi)容對仿真實驗統(tǒng)計結果的影響,依照表1和表2中的仿真結果,分別計算了視口自適應傳輸方法、FFS-360DASH傳輸方法以及本文所提出的低時延全景視頻傳輸方法針對所仿真4個全景視頻序列的視口切換時延的統(tǒng)計平均,如圖5所示。由圖5可知,在高傳輸帶寬條件下,相比于已有的方法,本文所提出的低時延全景視頻傳輸方法平均可以將視口切換時延降低至70.54 ms,以幀率為30幀/s計,約2.4幀時長。這一結果一方面可以歸功于在服務器提供RAPF碼流作為隨機接入點,實現(xiàn)新視口碼流的快速接入;另一方面可以歸功于在編碼RAPF碼流過程中,充分利用了基本層重建圖像與增強層重建圖像之間的時域相關性,提高了RAPF碼流的編碼效率,在相同傳輸帶寬的條件下,傳輸RAPF碼流所需的時間要少于傳輸I幀碼流所需的時間。
圖5 視口切換時延的仿真結果Fig.5 Simulation results of viewport switching delay
為了進一步量化本文所提方法對終端用戶視頻體驗質量的影響和對傳輸帶寬的影響,通過仿真實驗,對比了采用FFS-360DASH傳輸方法和所提出的方法實現(xiàn)用戶視口切換時,用戶視口內(nèi)的視頻質量差異,同時對比了服務器端視頻碼流的碼率的變化情況。具體的仿真實驗設定如下:
依照ITU-T推薦的360°全景視頻測試條件,選擇圖4所示的4個8K分辨率的全景視頻序列。基于所構建的360°全景視頻傳輸系統(tǒng),分別使用本文所提出的方法和FFS-360DASH方法對全景視頻序列進行編碼,統(tǒng)計服務器端視頻碼流的碼率變化;當發(fā)生視口切換時,客戶端向服務器端請求用于隨機接入的碼流,對其解碼后,計算覆蓋視口區(qū)域內(nèi)的重建圖像相對于原始視頻圖像的峰值信噪比(peak signal to noise ratio,PSNR),用于評估采用上述兩種方法時用戶視口內(nèi)視頻質量的差異[12]。
以Kite-Flite全景視頻序列為例,仿真實驗的具體步驟如下:
1)在服務器端,生成FFS-360DASH傳輸方法的視頻碼流和MPD文件。設GOP大小為30幀,采用IPPP預測結構。設定基本層QP為36,對原始視頻序列編碼,得到基本層的碼流文件。將原始視頻在空域上劃分為72個Tile,設定增強層QP為22,對各個Tile編碼,得到增強層的碼流;采用全I幀的預測模式,設定QP分別為20,22和24,對上述每個Tile編碼,得到3種不同質量的隨機接入I幀碼流。將基本層、增強層和I幀碼流保存在服務器端,生成與之對應的MPD文件;記錄不同QP條件下,所有Tile對應的I幀碼流的碼率。
2)在服務器端,生成本文所提出傳輸方法的視頻碼流和MPD文件?;緦哟a流和增強層視頻碼流的生成方式,與FFS-360DASH傳輸方法相同。對基本層碼流的本地解碼圖像進行4倍上采樣,得到參考圖像;對增強層的碼流解碼,得到各個Tile的本地解碼圖像;以參考圖像作為參考,設定量化參數(shù)QP分別為20,22和24,對各個Tile的本地解碼圖像進行預測編碼,得到對應3種不同質量的隨機接入RAPF碼流。將基本層、增強層以及RAPF碼流保存在服務器端,生成與之對應的MPD文件;記錄不同QP條件下,所有Tile對應的RAPF碼流的碼率。
3)在服務器端調用Nginx庫,將用于全景視頻傳輸業(yè)務的傳輸帶寬設定為60 Mbps。
4)客戶端向服務器發(fā)送GET請求,申請對應FFS-360DASH傳輸方法的MPD文件,并根據(jù)MPD文件向服務器端請求基本層和增強層的視頻碼流,經(jīng)解碼和渲染后送入HMD顯示設備播放;設定用戶在每個GOP中的第5幀、第10幀、第15幀、第20幀和第25幀時切換視口,當客戶端監(jiān)測到用戶切換視口時,除基本層之外,客戶端分別向服務器請求QP為20、22和24的I幀碼流,計算解碼后視口內(nèi)視頻圖像相對于原始視頻的PSNR,作為采用FFS-360DASH傳輸方法在該時刻進行視口切換后的視頻質量測度,按照與統(tǒng)計視口切換時延相同的方式,統(tǒng)計該視頻序列在FFS-360DASH傳輸方法下的PSNR。
5)客戶端向服務器發(fā)送GET請求,申請對應低時延全景視頻傳輸方法的MPD文件,并根據(jù)MPD文件向服務器端請求基本層和增強層的視頻碼流,經(jīng)解碼和渲染后送入HMD顯示設備進行播放;設定用戶的視口切換時刻與步驟4)中相同,當客戶端監(jiān)測到用戶切換視口時,除基本層碼流之外,客戶端分別向服務器請求QP為20、22和24的RAPF碼流,計算解碼后視口內(nèi)視頻圖像相對于原始視頻的PSNR,作為采用本文方法在該時刻進行視口切換后的視頻質量測度;按照與步驟4)中相同的方法,統(tǒng)計該視頻序列在本文所提方法下的PSNR。
針對4個測試序列,所比較的兩種方法在所設定條件下的PSNR和碼率的仿真結果,如表3和表4所列。
表3 FFS-360DASH方法的視頻質量和碼率
表4 低時延全景視頻傳輸方法的視頻質量和碼率
將使用FFS-360DASH傳輸方法時,統(tǒng)計得到的視頻序列在視口切換后的PSNR記為PSNRFFS,將對應用于隨機接入的I幀碼流的碼率記為RbFFS;將使用本文所提出的低時延全景視頻傳輸方法時,統(tǒng)計得到的視頻序列在視口切換后的PNSR記為PSNRlow,將對應的用于隨機接入的RAPF碼流的碼率記為Rblow。令ΔPSNR表示在相同QP條件下,PSNRFFS和PSNRlow之間差值的針對所仿真的4個全景視頻序列的統(tǒng)計平均,即:
(1)
ΔPSNR的大小反映了采用本文所提出的傳輸方法取代FFS-360DASH傳輸方法時,用戶在切換視口后視口內(nèi)的視頻質量變化程度[12]。令ΔRb表示在相同QP條件下,RbFFS和Rblow之間的差值與RbFFS之比針對所仿真的4個全景視頻序列的統(tǒng)計平均,即:
(2)
ΔRb的大小反映了采用本文所提出的傳輸方法取代FFS-360DASH傳輸方法時,用于隨機接入的碼流的碼率變化程度[12]。ΔPSNR和ΔRb的統(tǒng)計結果如表5所列。
表5 不同方法的視頻質量和編碼效率比較
由表5中的仿真統(tǒng)計結果可知,相對于FFS-360DASH傳輸方法,使用本文所提出的低時延的全景視頻傳輸方法所獲得ΔPSNR均小于0.1 dB,即使用所對比的兩種方法時,視口切換后用戶視口區(qū)域內(nèi)的視頻質量基本保持不變;同時,統(tǒng)計所得ΔRb平均值為-20.23%,這意味著本文所提方法中使用的RAPF碼流作為視口切換的隨機接入點,相比于FFS-360DASH傳輸方法中使用I幀碼流作為隨機接入點,在獲得相近的用戶視頻體驗質量時,可以顯著的減小用于隨機接入碼流的碼率,從而可以在保證終端用戶體驗的同時,顯著的減少所需的傳輸帶寬。
本文提出了一種低時延的360°全景視頻傳輸方法,利用所設計和實現(xiàn)的隨機接入P幀,可以顯著降低視口切換時延對用戶視頻體驗質量的影響,提升傳輸帶寬的利用率。仿真結果表明,與現(xiàn)有方法相比,本文所提出的低時延全景視頻傳輸方法可以將視口切換時延平均減少至2.4幀時長,同時將用于視口切換過程中隨機接入的視頻碼流的碼率平均減少20.23%,從而為實現(xiàn)實時的360°全景視頻傳輸系統(tǒng)奠定基礎。所提出方法具有理論簡單,易于實現(xiàn)的特點,可以為設計和實現(xiàn)面向“空-地”交互的全景視頻傳輸系統(tǒng)提供技術參考。