虛擬現(xiàn)實(shí)視頻傳輸架構(gòu)和關(guān)鍵技術(shù)

2017-12-21 19:20郭宗明班怡璇謝瀾

中興通訊技術(shù) 2017年6期

郭宗明　班怡璇　謝瀾

虛擬現(xiàn)實(shí)（VR）視頻，又稱全景視頻或360°視頻，以其充分的沉浸性、真實(shí)性、制作簡(jiǎn)單性等特點(diǎn)正受到人們的廣泛關(guān)注。它通過全景攝像機(jī)記錄三自由度或六自由度的自然圖像，降低了VR內(nèi)容制作的門檻，提供現(xiàn)有普通視頻所不能達(dá)到的真實(shí)感。近幾年，隨著VR設(shè)備、網(wǎng)絡(luò)和終端技術(shù)的成熟，VR視頻正越來越多地用于影視、游戲、醫(yī)療、教育等應(yīng)用中。據(jù)思科的統(tǒng)計(jì)報(bào)告顯示[1]：VR應(yīng)用在2016年的平均月流量達(dá)到13.3 PB，預(yù)計(jì)到2021年達(dá)到140 PB，年增長(zhǎng)率達(dá)到60%。如此廣泛的VR視頻給人們的生活和工作帶來了新體驗(yàn)，大量的網(wǎng)絡(luò)基礎(chǔ)設(shè)施和智能穿戴設(shè)備也推動(dòng)了VR視頻應(yīng)用的發(fā)展。

然而，高質(zhì)量的VR視頻服務(wù)仍面臨若干挑戰(zhàn)。其中，網(wǎng)絡(luò)傳輸是一個(gè)關(guān)鍵性問題。VR視頻對(duì)網(wǎng)絡(luò)帶寬有較高的消耗，例如：一個(gè)分辨率為2 K×1 K的虛擬現(xiàn)實(shí)視頻經(jīng)過壓縮編碼，需要4 Mbit/s的數(shù)據(jù)量；若分辨率達(dá)到4 K×2 K，則數(shù)據(jù)量將會(huì)上漲至20 Mbit/s，至少需要25 Mbit/s的網(wǎng)絡(luò)帶寬才可以承載[2]?，F(xiàn)有互聯(lián)網(wǎng)帶寬難以滿足如此高碼率虛擬現(xiàn)實(shí)視頻的流暢播放，進(jìn)而嚴(yán)重影響其應(yīng)用。

為了解決VR視頻的傳輸瓶頸，工業(yè)界和學(xué)術(shù)界提出了眾多解決方案。早期，Google、YouTube采用可兼容現(xiàn)有視頻編解碼器的全景傳輸模式，但存在碼率高、視頻變形等問題。2015年，F(xiàn)acebook提出了視點(diǎn)自適應(yīng)傳輸和金字塔映射模式，可根據(jù)用戶視點(diǎn)區(qū)域傳輸視頻內(nèi)容，減少總體碼率。2016年，三星、高通等公司提出了多種非均勻映射方式，動(dòng)態(tài)圖像專家組（MPEG）也專門成立一個(gè)I-AHG沉浸式視頻專題組，制訂全景視頻文件格式、映射、傳輸標(biāo)準(zhǔn)。在中國(guó)，數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組（AVS）標(biāo)準(zhǔn)化組織也于2016年開始制訂AVS虛擬視頻編碼和系統(tǒng)標(biāo)準(zhǔn)，中興通訊、北京大學(xué)、上海交通大學(xué)等單位相繼提出多種映射和傳輸方案。

文中，我們將詳細(xì)介紹VR視頻傳輸?shù)陌l(fā)展現(xiàn)狀和關(guān)鍵技術(shù)，重點(diǎn)從傳輸框架、全景傳輸、自適應(yīng)傳輸?shù)确矫嬲归_。

1 虛擬現(xiàn)實(shí)視頻傳輸框架

完整的虛擬現(xiàn)實(shí)視頻傳輸架構(gòu)包括5個(gè)部分：全景采集、拼接、映射、編碼、傳輸，如圖1所示。

（1）全景采集。VR視頻是由多攝像頭組合成的全景相機(jī)拍攝而成。利用全景攝像機(jī)采集自然圖像，可以極大簡(jiǎn)化虛擬現(xiàn)實(shí)內(nèi)容的制作。近幾年，全景相機(jī)硬件技術(shù)得到飛速發(fā)展。從早期由多個(gè)普通攝像頭合成的全景相機(jī)，發(fā)展到各種專用相機(jī)，例如：Facebook Surround 360、三星Gear 360等?？梢蕴峁囊曨l采集到拼接等一系列功能，方便虛擬現(xiàn)實(shí)視頻的創(chuàng)作。

（2）視頻拼接。視頻拼接是全景視頻采集的后處理過程，它將若干個(gè)攝像頭的視頻合成一路全景視頻，形成一個(gè)完整的虛擬現(xiàn)實(shí)視頻提供給用戶。目前已經(jīng)有多種商業(yè)化或開源的視頻拼接軟件，例如：Video Stitch、Facebook Surround 360 SDK、Nuke等。

（3）映射過程。為了便于存儲(chǔ)和壓縮編碼，球面視頻內(nèi)容需要被幾何映射到平面。映射影響了VR視頻編碼前的像素量，在一定程度上也決定了視頻內(nèi)容所包含的信息量。映射過程與傳輸緊密相關(guān)，分為兩類：均勻映射和非均勻映射。均勻映射保留全部全景視頻信息；非均勻映射僅在部分區(qū)域保留完整信息，其他區(qū)域保留部分信息，并用較少像素表示。

（4）視頻編碼。VR視頻使用壓縮編碼減少視頻中的冗余信息。為了兼容現(xiàn)有編碼器和播放設(shè)備，目前虛擬現(xiàn)實(shí)視頻主要采用H.264，高效視頻編碼（HEVC）等編碼標(biāo)準(zhǔn)。

（5）網(wǎng)絡(luò)傳輸。VR視頻需要通過互聯(lián)網(wǎng)分發(fā)給用戶，網(wǎng)絡(luò)傳輸是目前最大的挑戰(zhàn)。為了提供清晰、流暢的虛擬現(xiàn)實(shí)視頻體驗(yàn)，映射和傳輸方法起到了關(guān)鍵性作用。傳輸方法主要分為兩類：

·全景傳輸方法。將360°全景視頻以同等質(zhì)量、完整的發(fā)送給用戶?？梢员ＷC映射內(nèi)容完整保留了原始球面的所有內(nèi)容，保留信息量最大；但由于播放設(shè)備和視角的限制，在某一時(shí)刻，用戶只關(guān)心視角范圍內(nèi)的部分內(nèi)容，全景傳輸方法勢(shì)必會(huì)造成巨大的資源浪費(fèi)。

·視點(diǎn)自適應(yīng)傳輸方法。顧名思義，指的是客戶端可根據(jù)用戶視點(diǎn)，動(dòng)態(tài)傳輸視角范圍內(nèi)的視頻，避免了資源浪費(fèi)。然而，若用戶當(dāng)前視點(diǎn)與下載視頻的視點(diǎn)不符，會(huì)出現(xiàn)黑屏或視頻質(zhì)量降低等問題。

在虛擬現(xiàn)實(shí)視頻傳輸框架中，映射與傳輸方式緊密相關(guān)。其中，全景傳輸對(duì)應(yīng)均勻映射，完整的映射和傳輸360°視頻；視點(diǎn)自適應(yīng)傳輸對(duì)應(yīng)非均勻映射和分塊傳輸，按用戶視角映射和傳輸局部視頻。

下面將詳細(xì)介紹這兩種虛擬視頻傳輸方式，以及各自優(yōu)缺點(diǎn)。

2 全景傳輸

全景傳輸方法是將球面視頻均勻的映射到平面上，按照矩形布局編碼和傳輸完整的360°視頻內(nèi)容。全景傳輸可直接使用現(xiàn)有編碼器和傳輸方式，因?yàn)槠浜?jiǎn)單和通用而成為當(dāng)下虛擬現(xiàn)實(shí)視頻使用最廣泛的傳輸方法。

均勻映射是全景傳輸?shù)闹饕成浞绞?，決定了編碼效率和帶寬消耗。代表性的均勻映射方法有矩形映射（ERP）、立方體映射（CMP）、八面體映射等，如圖2所示。

ERP方法是使用最多的虛擬現(xiàn)實(shí)視頻映射方法，這種方法在球的緯度上按照赤道的采樣頻率對(duì)內(nèi)容進(jìn)行采樣并用平面進(jìn)行表示，生成的虛擬現(xiàn)實(shí)視頻的寬高比為2：1。但ERP方法在南北兩極存在著嚴(yán)重的過采樣現(xiàn)象，使得整體的冗余像素增加。

立方體映射是將球面內(nèi)容投影到外接的一個(gè)立方體的6個(gè)面上，并將6個(gè)面拼接重組成一個(gè)完整的虛擬現(xiàn)實(shí)視頻。

除此之外，更多的多面體被應(yīng)用于VR視頻的映射方法中，例如：正八面體（OHP）、正二十面體（ISP）等。理論上，使用面數(shù)越多的正多面體，可以使得映射后的數(shù)據(jù)量越小。但是，這些正多面體都需要通過“再拼接”形成矩形平面。拼接過程導(dǎo)致內(nèi)容上的不連續(xù)現(xiàn)象，在一定程度上也會(huì)影響編碼效率。endprint

表1總結(jié)了目前主要的均勻映射方式的優(yōu)缺點(diǎn)。其中，像素比例代表映射后面積和原始球面的比例關(guān)系，是影響視頻編碼碼率的一個(gè)因素。

3 視點(diǎn)自適應(yīng)傳輸

視點(diǎn)自適應(yīng)傳輸技術(shù)是一種根據(jù)用戶視點(diǎn)，按需下載視頻內(nèi)容的方法。如圖3所示，對(duì)于用戶視角內(nèi)的內(nèi)容可以選擇下載高質(zhì)量的版本，對(duì)于視角外的部分可下載低質(zhì)量的版本，或者不進(jìn)行下載。

視點(diǎn)自適應(yīng)傳輸可有效減少虛擬現(xiàn)實(shí)視頻的帶寬浪費(fèi)問題。在相同帶寬條件下，它可分配更多帶寬給視角區(qū)域，從而提高用戶視窗內(nèi)視頻的質(zhì)量，增強(qiáng)用戶的觀看體驗(yàn)。

按照傳輸內(nèi)容的構(gòu)成形式，視點(diǎn)自適應(yīng)方法可以分為兩類：非均勻映射和分塊傳輸。

（1）非均勻映射[3]。傳輸一個(gè)質(zhì)量不均勻的360°全景視頻，用戶視點(diǎn)范圍內(nèi)是高分辨率，其他區(qū)域是低分辨率，從而減少整體碼率。

（2）分塊傳輸[4]。將全景視頻從空間上分為不同視頻塊，根據(jù)視點(diǎn)范圍傳輸部分視頻塊。

兩種的主要差別為：非均勻映射需傳輸360°的全景視頻，可防止頭部快速運(yùn)動(dòng)導(dǎo)致的黑場(chǎng)；分塊方法可傳輸局部或全部視頻內(nèi)容，靈活性高。

視點(diǎn)預(yù)測(cè)是視點(diǎn)自適應(yīng)傳輸?shù)牧硪粋€(gè)重要技術(shù)。VR視頻要求顯示延遲低于20 ms[5]。同時(shí)，由于存在網(wǎng)絡(luò)傳輸延遲，在頭部快速運(yùn)動(dòng)時(shí)，要避免視野范圍內(nèi)出現(xiàn)黑場(chǎng)，必須對(duì)視點(diǎn)區(qū)域進(jìn)行預(yù)測(cè)和預(yù)取。因此視點(diǎn)預(yù)測(cè)的準(zhǔn)確度極大影響虛擬現(xiàn)實(shí)視頻的傳輸質(zhì)量。

下面將詳細(xì)介紹視點(diǎn)自適應(yīng)的非均勻映射、分塊傳輸和視點(diǎn)預(yù)測(cè)等關(guān)鍵技術(shù)。

3.1 非均勻映射傳輸技術(shù)

非均勻映射傳輸技術(shù)是一種通過將原始球面視頻進(jìn)行非均勻映射處理后進(jìn)行傳輸?shù)募夹g(shù)。其在對(duì)球面內(nèi)容進(jìn)行采樣時(shí)，令球面上的像素點(diǎn)有不同的權(quán)重，使得關(guān)鍵視頻內(nèi)容得到保留，而不重要的區(qū)域被下采，僅保留少部分關(guān)鍵信息，如圖4所示。其優(yōu)點(diǎn)是在保證關(guān)鍵區(qū)域質(zhì)量的同時(shí)，從整體上降低視頻的大小，極大地減輕了網(wǎng)絡(luò)傳輸和客戶端解碼的壓力。

目前已有多種非均勻映射傳輸方式，例如：Facebook提出的多分辨率立方體、金字塔映射、偏移立方體等，高通提出的階段金字塔等。它們共同目標(biāo)是：在保持視點(diǎn)區(qū)域質(zhì)量的前提下，降低整體分辨率，但不同映射方式存在變形、失真或邊界等問題，對(duì)編碼效率有不同影響。

Facebook最早提出了一種多分辨率立方體映射方法，它是通過將立方體映射方式進(jìn)行變換后得到的。保持正前面和與其相鄰的上、下、左、右4個(gè)面的一半分辨率不變，對(duì)這4個(gè)面剩下的一半和后面的視頻內(nèi)容進(jìn)行下采樣，最終重新組合成一個(gè)二維平面視頻幀，如圖5所示。這種方法的缺陷是在上、下、左、右面的中間部位由于采樣率突變，存在明顯的邊界，影響用戶的觀看體驗(yàn)。

除Facebook外，高通曾提出一種截?cái)嗟慕鹱炙成浞椒╗6]，并被MPEG OMAF標(biāo)準(zhǔn)采納。這種方法與Facebook的金字塔映射方法類似，只不過非關(guān)注區(qū)域投影至四棱臺(tái)的頂部，而不是投影為一個(gè)像素點(diǎn)，如圖6所示。這種方法相較于金字塔方法，在一定程度上消除了由于映射造成的斜邊效應(yīng)，在內(nèi)容表示上更加連續(xù)，有利于視頻編碼。

為了支持非均勻映射傳輸，需要針對(duì)每一個(gè)主視點(diǎn)都預(yù)先生成不同的視頻版本。一旦用戶發(fā)起請(qǐng)求，就立即將對(duì)應(yīng)視點(diǎn)的版本提取出來進(jìn)行傳輸，在保證視頻質(zhì)量的同時(shí)減少了網(wǎng)絡(luò)流量。

3.2 分塊傳輸技術(shù)

分塊傳輸技術(shù)是另一種視點(diǎn)自適應(yīng)傳輸方式。它將全景視頻按照空間劃分為若干個(gè)子視頻塊，客戶端可以根據(jù)網(wǎng)絡(luò)狀況和用戶頭部運(yùn)動(dòng)有針對(duì)性的向服務(wù)器端請(qǐng)求視頻片段，具體過程如圖7所示。

與非均勻映射傳輸方式不同，分塊傳輸僅傳一部分內(nèi)容，進(jìn)一步減少了傳輸數(shù)據(jù)量。它可以自由地選擇各個(gè)分塊的質(zhì)量，增加了傳輸?shù)撵`活性。同時(shí)，最新的HEVC編碼標(biāo)準(zhǔn)支持tile方式編碼，可用一個(gè)編解碼器對(duì)整個(gè)視頻流進(jìn)行編解碼，大大減少了客戶端的解碼復(fù)雜度。所以，分塊傳輸是目前最實(shí)用的全景視頻傳輸技術(shù)之一。

分塊傳輸可有多種切分方式，例如：六面幾何式[7]、18格矩形分割方式[8]、12格矩形分割方式[8]等。不同的切分方式將會(huì)影響編碼效率、傳輸塊數(shù)量和邊界失真等。

圖8以18格和12格矩形分割方式為示例。18格劃分是將水平方向按照60°間隔分成6列，垂直方向按照45°-90°-45°方式分3行，共計(jì)18個(gè)視頻塊。12格劃分是水平方向按照90°間隔分成四列，垂直方向同上。

值得注意的是：在全景視頻傳輸過程中，切分粒度越小，視頻塊的組合就越貼近用戶視角，浪費(fèi)的視頻內(nèi)容也就越少，也即自適應(yīng)傳輸技術(shù)就越靈活。但是，一味減小視頻塊大小并不會(huì)使視頻數(shù)據(jù)量有持續(xù)顯著性下降。這是由于在切分后像素之間的相關(guān)性被破壞，使得切分后編碼數(shù)據(jù)量之和略大于切分前的數(shù)據(jù)量，即便是在高壓縮率的HEVC標(biāo)準(zhǔn)下，18格劃分方式都會(huì)招致5.82%的壓縮損失[8]，在極端條件下，浪費(fèi)的視頻內(nèi)容大小甚至不足以抵消分塊帶來的損失。所以，如何決定分塊大小也是一個(gè)值得關(guān)注的問題。

3.3 視點(diǎn)預(yù)測(cè)方法

視點(diǎn)預(yù)測(cè)是視點(diǎn)自適應(yīng)傳輸?shù)年P(guān)鍵技術(shù)之一。由于網(wǎng)絡(luò)傳輸存在延遲，為保證視點(diǎn)自適應(yīng)播放的連續(xù)性，減少頭部運(yùn)動(dòng)帶來的卡頓甚至黑屏，如何準(zhǔn)確預(yù)測(cè)視角位置是一個(gè)較大的挑戰(zhàn)。

例如：線性預(yù)測(cè)方法中[9]，預(yù)測(cè)用戶未來1 s的頭部位置時(shí)，準(zhǔn)確率可達(dá)到90%以上，而將預(yù)測(cè)時(shí)間延長(zhǎng)至3 s時(shí)，準(zhǔn)確率會(huì)大幅降至70%。一旦預(yù)測(cè)錯(cuò)誤，由于本地緩存中缺少相應(yīng)視角的視頻片段，會(huì)導(dǎo)致用戶視窗中出現(xiàn)黑窗，極大地影響用戶的觀看體驗(yàn)。

目前視點(diǎn)預(yù)測(cè)方式主要分為兩類：運(yùn)動(dòng)預(yù)測(cè)和內(nèi)容分析方法。運(yùn)動(dòng)預(yù)測(cè)是根據(jù)用戶的歷史瀏覽行為，預(yù)測(cè)未來視角位置，包括均值算法[9]、線性回歸[9]、概率統(tǒng)計(jì)[10]、運(yùn)動(dòng)估計(jì)[11]、行為學(xué)習(xí)[11]等方法。endprint

其中，線性回歸算法尤為重要，它是一種利用數(shù)理統(tǒng)計(jì)中的回歸分析來預(yù)測(cè)下一時(shí)刻用戶位置的算法。具體來說，它先將用戶在滑動(dòng)窗口內(nèi)不同時(shí)刻的運(yùn)動(dòng)狀況進(jìn)行記錄，再通過記錄下的頭部數(shù)據(jù)來訓(xùn)練回歸模型，得到回歸曲線，預(yù)測(cè)下一時(shí)刻觀看概率最大位置，如圖9所示。

另外一類是內(nèi)容分析方法。它是一種是基于視頻中各個(gè)對(duì)象的顯著性特征來進(jìn)行預(yù)測(cè)。顯著性特征代表著物體吸引用戶的程度，顯著性越強(qiáng)，表示用戶越關(guān)注，同時(shí)也代表用戶觀看概率越高，顯著性越弱，則代表觀看概率越低。目前，學(xué)術(shù)界主要是通過機(jī)器學(xué)習(xí)的方法得到視頻的顯著性特征[12]，再進(jìn)行預(yù)測(cè)。另外一種內(nèi)容分析方法[13]是同時(shí)基于內(nèi)容以及用戶位置進(jìn)行預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)。其中，視頻內(nèi)容包括顯著性特征和運(yùn)動(dòng)特征。它需要在視頻上架前對(duì)視頻內(nèi)容和測(cè)試頭部數(shù)據(jù)集進(jìn)行訓(xùn)練，學(xué)習(xí)出用戶最可能出現(xiàn)的行為模式，進(jìn)而在用戶實(shí)際觀看時(shí)根據(jù)學(xué)習(xí)結(jié)果預(yù)測(cè)下一時(shí)刻用戶頭部位置。

4 結(jié)束語(yǔ)

VR視頻正得到越來越廣泛的應(yīng)用，但由于帶寬消耗巨大，傳輸瓶頸已成為它面臨的重大挑戰(zhàn)之一。文章中，我們系統(tǒng)地介紹了VR視頻傳輸框架，以及關(guān)鍵技術(shù)的發(fā)展現(xiàn)狀，詳細(xì)比較各種技術(shù)的優(yōu)缺點(diǎn)，總結(jié)VR視頻傳輸?shù)陌l(fā)展方向。隨著VR視頻傳輸技術(shù)的發(fā)展，在有限帶寬上傳輸高質(zhì)量VR視頻將成為現(xiàn)實(shí)。

參考文獻(xiàn)

[1] Cisco Visual Networking Index： Globe Mobile Data Traffic Forecast Update[R]. Technical report， 2017

[2] Internet Connection Speed Recommendations[EB/OL]. [2017-10-12].https：//help.netflix.com/en/node/306

[3] XU Z M， XIE L， ZHANG X G， et al. Optimal Viewport Adaptive Streaming for 360-Degree Videos[C]// IEEE International Conference on Multimedia&Expo（ICME2017）. USA：IEEE， 2017. DOI：10.1109/ICC.2017.7996611

[4] BAN Y X， XIE L， ZHANG X G， et al. An Optimal Spatial-Temporal Smoothness Approach for Tile-Based 360-Degree Video Streaming[C]//IEEE Conference on Visual Communications and Image Processing （VCIP）. USA：IEEE， 2017

[5] YAO R， HEATH T， DAVIES A， et al. Oculus VR Best Practices Guide[EB/OL]. （2014-03-17）[2017-10-11].http：//brianschrank.com/vrgames/resources/OculusBestPractices.pdf

[6] VR/360 Video Truncated Square Pyramid Geometry for OMAF： ISO/IEC JTC1/SC29/WG11/M[S]. US： MPEG， 2016

[7] HOSSEINI， MOHAMMAD， and SWAMINATHAN V. Adaptive 360 VR Video Streaming： Divide and Conquer[C]//2016 IEEE International Symposium on Multimedia （ISM）.USA：IEEE， 2016

[8] ZARE A， AMINLOU A， HANNUKSELA M， and GABBOUJ M. HEVC-Compliant Tile-Based Streaming of Panoramic Video for Virtual Reality Applications[C]// the ACM International Conference on Multimedia（ACM MM）. USA：ACM，2016

[9] QIAN F， JI L， HAN B， et al. Optimizing 360 Video Delivery over Cellular Networks[C]// 5th ACM Workshop on All Things Cellular， 2016. USA：ACM， 2016：1-6. DOI： 10.1145/2980055.2980056

[10] XIE L， XU Z， ZHANG X， et al. 360ProbDASH： Improving QoE of 360 Video Streaming using Tile-based HTTP Adaptive Streaming[C]//ACM International Conference on Multimedia（ACM MM）. USA： ACM， 2017

[11] BATTLE L， CHANG R， and STONEBRAKER M. Dynamic Prefetching of Data Tiles for Interactive Visualization[C]//the ACM International Conference on Management of Data， 2016

[12] LO W-C， FAN C L， LEE J， HUANG C Y， et al. 360° Video Viewing Dataset in Head-Mounted Virtual Reality[C]// 8th ACM on Multimedia Systems Conference. USA：ACM， 2017

[13] FAN C L， LEE J， LO W-C， et al. Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality[C]//the 27th Workshop on Network and Operating Systems Support for Digital Audio and Video. USA：ACM， 2017：67-72. DOI： 10.1145/3083165.3083180endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

虛擬現(xiàn)實(shí)視頻傳輸架構(gòu)和關(guān)鍵技術(shù)