郭宗明 班怡璇 謝瀾
虛擬現(xiàn)實(shí)(VR)視頻,又稱全景視頻或360°視頻,以其充分的沉浸性、真實(shí)性、制作簡(jiǎn)單性等特點(diǎn)正受到人們的廣泛關(guān)注。它通過全景攝像機(jī)記錄三自由度或六自由度的自然圖像,降低了VR內(nèi)容制作的門檻,提供現(xiàn)有普通視頻所不能達(dá)到的真實(shí)感。近幾年,隨著VR設(shè)備、網(wǎng)絡(luò)和終端技術(shù)的成熟,VR視頻正越來越多地用于影視、游戲、醫(yī)療、教育等應(yīng)用中。據(jù)思科的統(tǒng)計(jì)報(bào)告顯示[1]:VR應(yīng)用在2016年的平均月流量達(dá)到13.3 PB,預(yù)計(jì)到2021年達(dá)到140 PB,年增長(zhǎng)率達(dá)到60%。如此廣泛的VR視頻給人們的生活和工作帶來了新體驗(yàn),大量的網(wǎng)絡(luò)基礎(chǔ)設(shè)施和智能穿戴設(shè)備也推動(dòng)了VR視頻應(yīng)用的發(fā)展。
然而,高質(zhì)量的VR視頻服務(wù)仍面臨若干挑戰(zhàn)。其中,網(wǎng)絡(luò)傳輸是一個(gè)關(guān)鍵性問題。VR視頻對(duì)網(wǎng)絡(luò)帶寬有較高的消耗,例如:一個(gè)分辨率為2 K×1 K的虛擬現(xiàn)實(shí)視頻經(jīng)過壓縮編碼,需要4 Mbit/s的數(shù)據(jù)量;若分辨率達(dá)到4 K×2 K,則數(shù)據(jù)量將會(huì)上漲至20 Mbit/s,至少需要25 Mbit/s的網(wǎng)絡(luò)帶寬才可以承載[2]?,F(xiàn)有互聯(lián)網(wǎng)帶寬難以滿足如此高碼率虛擬現(xiàn)實(shí)視頻的流暢播放,進(jìn)而嚴(yán)重影響其應(yīng)用。
為了解決VR視頻的傳輸瓶頸,工業(yè)界和學(xué)術(shù)界提出了眾多解決方案。早期,Google、YouTube采用可兼容現(xiàn)有視頻編解碼器的全景傳輸模式,但存在碼率高、視頻變形等問題。2015年,F(xiàn)acebook提出了視點(diǎn)自適應(yīng)傳輸和金字塔映射模式,可根據(jù)用戶視點(diǎn)區(qū)域傳輸視頻內(nèi)容,減少總體碼率。2016年,三星、高通等公司提出了多種非均勻映射方式,動(dòng)態(tài)圖像專家組(MPEG)也專門成立一個(gè)I-AHG沉浸式視頻專題組,制訂全景視頻文件格式、映射、傳輸標(biāo)準(zhǔn)。在中國(guó),數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組(AVS)標(biāo)準(zhǔn)化組織也于2016年開始制訂AVS虛擬視頻編碼和系統(tǒng)標(biāo)準(zhǔn),中興通訊、北京大學(xué)、上海交通大學(xué)等單位相繼提出多種映射和傳輸方案。
文中,我們將詳細(xì)介紹VR視頻傳輸?shù)陌l(fā)展現(xiàn)狀和關(guān)鍵技術(shù),重點(diǎn)從傳輸框架、全景傳輸、自適應(yīng)傳輸?shù)确矫嬲归_。
1 虛擬現(xiàn)實(shí)視頻傳輸框架
完整的虛擬現(xiàn)實(shí)視頻傳輸架構(gòu)包括5個(gè)部分:全景采集、拼接、映射、編碼、傳輸,如圖1所示。
(1)全景采集。VR視頻是由多攝像頭組合成的全景相機(jī)拍攝而成。利用全景攝像機(jī)采集自然圖像,可以極大簡(jiǎn)化虛擬現(xiàn)實(shí)內(nèi)容的制作。近幾年,全景相機(jī)硬件技術(shù)得到飛速發(fā)展。從早期由多個(gè)普通攝像頭合成的全景相機(jī),發(fā)展到各種專用相機(jī),例如:Facebook Surround 360、三星Gear 360等??梢蕴峁囊曨l采集到拼接等一系列功能,方便虛擬現(xiàn)實(shí)視頻的創(chuàng)作。
(2)視頻拼接。視頻拼接是全景視頻采集的后處理過程,它將若干個(gè)攝像頭的視頻合成一路全景視頻,形成一個(gè)完整的虛擬現(xiàn)實(shí)視頻提供給用戶。目前已經(jīng)有多種商業(yè)化或開源的視頻拼接軟件,例如:Video Stitch、Facebook Surround 360 SDK、Nuke等。
(3)映射過程。為了便于存儲(chǔ)和壓縮編碼,球面視頻內(nèi)容需要被幾何映射到平面。映射影響了VR視頻編碼前的像素量,在一定程度上也決定了視頻內(nèi)容所包含的信息量。映射過程與傳輸緊密相關(guān),分為兩類:均勻映射和非均勻映射。均勻映射保留全部全景視頻信息;非均勻映射僅在部分區(qū)域保留完整信息,其他區(qū)域保留部分信息,并用較少像素表示。
(4)視頻編碼。VR視頻使用壓縮編碼減少視頻中的冗余信息。為了兼容現(xiàn)有編碼器和播放設(shè)備,目前虛擬現(xiàn)實(shí)視頻主要采用H.264,高效視頻編碼(HEVC)等編碼標(biāo)準(zhǔn)。
(5)網(wǎng)絡(luò)傳輸。VR視頻需要通過互聯(lián)網(wǎng)分發(fā)給用戶,網(wǎng)絡(luò)傳輸是目前最大的挑戰(zhàn)。為了提供清晰、流暢的虛擬現(xiàn)實(shí)視頻體驗(yàn),映射和傳輸方法起到了關(guān)鍵性作用。傳輸方法主要分為兩類:
·全景傳輸方法。將360°全景視頻以同等質(zhì)量、完整的發(fā)送給用戶??梢员WC映射內(nèi)容完整保留了原始球面的所有內(nèi)容,保留信息量最大;但由于播放設(shè)備和視角的限制,在某一時(shí)刻,用戶只關(guān)心視角范圍內(nèi)的部分內(nèi)容,全景傳輸方法勢(shì)必會(huì)造成巨大的資源浪費(fèi)。
·視點(diǎn)自適應(yīng)傳輸方法。顧名思義,指的是客戶端可根據(jù)用戶視點(diǎn),動(dòng)態(tài)傳輸視角范圍內(nèi)的視頻,避免了資源浪費(fèi)。然而,若用戶當(dāng)前視點(diǎn)與下載視頻的視點(diǎn)不符,會(huì)出現(xiàn)黑屏或視頻質(zhì)量降低等問題。
在虛擬現(xiàn)實(shí)視頻傳輸框架中,映射與傳輸方式緊密相關(guān)。其中,全景傳輸對(duì)應(yīng)均勻映射,完整的映射和傳輸360°視頻;視點(diǎn)自適應(yīng)傳輸對(duì)應(yīng)非均勻映射和分塊傳輸,按用戶視角映射和傳輸局部視頻。
下面將詳細(xì)介紹這兩種虛擬視頻傳輸方式,以及各自優(yōu)缺點(diǎn)。
2 全景傳輸
全景傳輸方法是將球面視頻均勻的映射到平面上,按照矩形布局編碼和傳輸完整的360°視頻內(nèi)容。全景傳輸可直接使用現(xiàn)有編碼器和傳輸方式,因?yàn)槠浜?jiǎn)單和通用而成為當(dāng)下虛擬現(xiàn)實(shí)視頻使用最廣泛的傳輸方法。
均勻映射是全景傳輸?shù)闹饕成浞绞?,決定了編碼效率和帶寬消耗。代表性的均勻映射方法有矩形映射(ERP)、立方體映射(CMP)、八面體映射等,如圖2所示。
ERP方法是使用最多的虛擬現(xiàn)實(shí)視頻映射方法,這種方法在球的緯度上按照赤道的采樣頻率對(duì)內(nèi)容進(jìn)行采樣并用平面進(jìn)行表示,生成的虛擬現(xiàn)實(shí)視頻的寬高比為2:1。但ERP方法在南北兩極存在著嚴(yán)重的過采樣現(xiàn)象,使得整體的冗余像素增加。
立方體映射是將球面內(nèi)容投影到外接的一個(gè)立方體的6個(gè)面上,并將6個(gè)面拼接重組成一個(gè)完整的虛擬現(xiàn)實(shí)視頻。
除此之外,更多的多面體被應(yīng)用于VR視頻的映射方法中,例如:正八面體(OHP)、正二十面體(ISP)等。理論上,使用面數(shù)越多的正多面體,可以使得映射后的數(shù)據(jù)量越小。但是,這些正多面體都需要通過“再拼接”形成矩形平面。拼接過程導(dǎo)致內(nèi)容上的不連續(xù)現(xiàn)象,在一定程度上也會(huì)影響編碼效率。endprint
表1總結(jié)了目前主要的均勻映射方式的優(yōu)缺點(diǎn)。其中,像素比例代表映射后面積和原始球面的比例關(guān)系,是影響視頻編碼碼率的一個(gè)因素。
3 視點(diǎn)自適應(yīng)傳輸
視點(diǎn)自適應(yīng)傳輸技術(shù)是一種根據(jù)用戶視點(diǎn),按需下載視頻內(nèi)容的方法。如圖3所示,對(duì)于用戶視角內(nèi)的內(nèi)容可以選擇下載高質(zhì)量的版本,對(duì)于視角外的部分可下載低質(zhì)量的版本,或者不進(jìn)行下載。
視點(diǎn)自適應(yīng)傳輸可有效減少虛擬現(xiàn)實(shí)視頻的帶寬浪費(fèi)問題。在相同帶寬條件下,它可分配更多帶寬給視角區(qū)域,從而提高用戶視窗內(nèi)視頻的質(zhì)量,增強(qiáng)用戶的觀看體驗(yàn)。
按照傳輸內(nèi)容的構(gòu)成形式,視點(diǎn)自適應(yīng)方法可以分為兩類:非均勻映射和分塊傳輸。
(1)非均勻映射[3]。傳輸一個(gè)質(zhì)量不均勻的360°全景視頻,用戶視點(diǎn)范圍內(nèi)是高分辨率,其他區(qū)域是低分辨率,從而減少整體碼率。
(2)分塊傳輸[4]。將全景視頻從空間上分為不同視頻塊,根據(jù)視點(diǎn)范圍傳輸部分視頻塊。
兩種的主要差別為:非均勻映射需傳輸360°的全景視頻,可防止頭部快速運(yùn)動(dòng)導(dǎo)致的黑場(chǎng);分塊方法可傳輸局部或全部視頻內(nèi)容,靈活性高。
視點(diǎn)預(yù)測(cè)是視點(diǎn)自適應(yīng)傳輸?shù)牧硪粋€(gè)重要技術(shù)。VR視頻要求顯示延遲低于20 ms[5]。同時(shí),由于存在網(wǎng)絡(luò)傳輸延遲,在頭部快速運(yùn)動(dòng)時(shí),要避免視野范圍內(nèi)出現(xiàn)黑場(chǎng),必須對(duì)視點(diǎn)區(qū)域進(jìn)行預(yù)測(cè)和預(yù)取。因此視點(diǎn)預(yù)測(cè)的準(zhǔn)確度極大影響虛擬現(xiàn)實(shí)視頻的傳輸質(zhì)量。
下面將詳細(xì)介紹視點(diǎn)自適應(yīng)的非均勻映射、分塊傳輸和視點(diǎn)預(yù)測(cè)等關(guān)鍵技術(shù)。
3.1 非均勻映射傳輸技術(shù)
非均勻映射傳輸技術(shù)是一種通過將原始球面視頻進(jìn)行非均勻映射處理后進(jìn)行傳輸?shù)募夹g(shù)。其在對(duì)球面內(nèi)容進(jìn)行采樣時(shí),令球面上的像素點(diǎn)有不同的權(quán)重,使得關(guān)鍵視頻內(nèi)容得到保留,而不重要的區(qū)域被下采,僅保留少部分關(guān)鍵信息,如圖4所示。其優(yōu)點(diǎn)是在保證關(guān)鍵區(qū)域質(zhì)量的同時(shí),從整體上降低視頻的大小,極大地減輕了網(wǎng)絡(luò)傳輸和客戶端解碼的壓力。
目前已有多種非均勻映射傳輸方式,例如:Facebook提出的多分辨率立方體、金字塔映射、偏移立方體等,高通提出的階段金字塔等。它們共同目標(biāo)是:在保持視點(diǎn)區(qū)域質(zhì)量的前提下,降低整體分辨率,但不同映射方式存在變形、失真或邊界等問題,對(duì)編碼效率有不同影響。
Facebook最早提出了一種多分辨率立方體映射方法,它是通過將立方體映射方式進(jìn)行變換后得到的。保持正前面和與其相鄰的上、下、左、右4個(gè)面的一半分辨率不變,對(duì)這4個(gè)面剩下的一半和后面的視頻內(nèi)容進(jìn)行下采樣,最終重新組合成一個(gè)二維平面視頻幀,如圖5所示。這種方法的缺陷是在上、下、左、右面的中間部位由于采樣率突變,存在明顯的邊界,影響用戶的觀看體驗(yàn)。
除Facebook外,高通曾提出一種截?cái)嗟慕鹱炙成浞椒╗6],并被MPEG OMAF標(biāo)準(zhǔn)采納。這種方法與Facebook的金字塔映射方法類似,只不過非關(guān)注區(qū)域投影至四棱臺(tái)的頂部,而不是投影為一個(gè)像素點(diǎn),如圖6所示。這種方法相較于金字塔方法,在一定程度上消除了由于映射造成的斜邊效應(yīng),在內(nèi)容表示上更加連續(xù),有利于視頻編碼。
為了支持非均勻映射傳輸,需要針對(duì)每一個(gè)主視點(diǎn)都預(yù)先生成不同的視頻版本。一旦用戶發(fā)起請(qǐng)求,就立即將對(duì)應(yīng)視點(diǎn)的版本提取出來進(jìn)行傳輸,在保證視頻質(zhì)量的同時(shí)減少了網(wǎng)絡(luò)流量。
3.2 分塊傳輸技術(shù)
分塊傳輸技術(shù)是另一種視點(diǎn)自適應(yīng)傳輸方式。它將全景視頻按照空間劃分為若干個(gè)子視頻塊,客戶端可以根據(jù)網(wǎng)絡(luò)狀況和用戶頭部運(yùn)動(dòng)有針對(duì)性的向服務(wù)器端請(qǐng)求視頻片段,具體過程如圖7所示。
與非均勻映射傳輸方式不同,分塊傳輸僅傳一部分內(nèi)容,進(jìn)一步減少了傳輸數(shù)據(jù)量。它可以自由地選擇各個(gè)分塊的質(zhì)量,增加了傳輸?shù)撵`活性。同時(shí),最新的HEVC編碼標(biāo)準(zhǔn)支持tile方式編碼,可用一個(gè)編解碼器對(duì)整個(gè)視頻流進(jìn)行編解碼,大大減少了客戶端的解碼復(fù)雜度。所以,分塊傳輸是目前最實(shí)用的全景視頻傳輸技術(shù)之一。
分塊傳輸可有多種切分方式,例如:六面幾何式[7]、18格矩形分割方式[8]、12格矩形分割方式[8]等。不同的切分方式將會(huì)影響編碼效率、傳輸塊數(shù)量和邊界失真等。
圖8以18格和12格矩形分割方式為示例。18格劃分是將水平方向按照60°間隔分成6列,垂直方向按照45°-90°-45°方式分3行,共計(jì)18個(gè)視頻塊。12格劃分是水平方向按照90°間隔分成四列,垂直方向同上。
值得注意的是:在全景視頻傳輸過程中,切分粒度越小,視頻塊的組合就越貼近用戶視角,浪費(fèi)的視頻內(nèi)容也就越少,也即自適應(yīng)傳輸技術(shù)就越靈活。但是,一味減小視頻塊大小并不會(huì)使視頻數(shù)據(jù)量有持續(xù)顯著性下降。這是由于在切分后像素之間的相關(guān)性被破壞,使得切分后編碼數(shù)據(jù)量之和略大于切分前的數(shù)據(jù)量,即便是在高壓縮率的HEVC標(biāo)準(zhǔn)下,18格劃分方式都會(huì)招致5.82%的壓縮損失[8],在極端條件下,浪費(fèi)的視頻內(nèi)容大小甚至不足以抵消分塊帶來的損失。所以,如何決定分塊大小也是一個(gè)值得關(guān)注的問題。
3.3 視點(diǎn)預(yù)測(cè)方法
視點(diǎn)預(yù)測(cè)是視點(diǎn)自適應(yīng)傳輸?shù)年P(guān)鍵技術(shù)之一。由于網(wǎng)絡(luò)傳輸存在延遲,為保證視點(diǎn)自適應(yīng)播放的連續(xù)性,減少頭部運(yùn)動(dòng)帶來的卡頓甚至黑屏,如何準(zhǔn)確預(yù)測(cè)視角位置是一個(gè)較大的挑戰(zhàn)。
例如:線性預(yù)測(cè)方法中[9],預(yù)測(cè)用戶未來1 s的頭部位置時(shí),準(zhǔn)確率可達(dá)到90%以上,而將預(yù)測(cè)時(shí)間延長(zhǎng)至3 s時(shí),準(zhǔn)確率會(huì)大幅降至70%。一旦預(yù)測(cè)錯(cuò)誤,由于本地緩存中缺少相應(yīng)視角的視頻片段,會(huì)導(dǎo)致用戶視窗中出現(xiàn)黑窗,極大地影響用戶的觀看體驗(yàn)。
目前視點(diǎn)預(yù)測(cè)方式主要分為兩類:運(yùn)動(dòng)預(yù)測(cè)和內(nèi)容分析方法。運(yùn)動(dòng)預(yù)測(cè)是根據(jù)用戶的歷史瀏覽行為,預(yù)測(cè)未來視角位置,包括均值算法[9]、線性回歸[9]、概率統(tǒng)計(jì)[10]、運(yùn)動(dòng)估計(jì)[11]、行為學(xué)習(xí)[11]等方法。endprint
其中,線性回歸算法尤為重要,它是一種利用數(shù)理統(tǒng)計(jì)中的回歸分析來預(yù)測(cè)下一時(shí)刻用戶位置的算法。具體來說,它先將用戶在滑動(dòng)窗口內(nèi)不同時(shí)刻的運(yùn)動(dòng)狀況進(jìn)行記錄,再通過記錄下的頭部數(shù)據(jù)來訓(xùn)練回歸模型,得到回歸曲線,預(yù)測(cè)下一時(shí)刻觀看概率最大位置,如圖9所示。
另外一類是內(nèi)容分析方法。它是一種是基于視頻中各個(gè)對(duì)象的顯著性特征來進(jìn)行預(yù)測(cè)。顯著性特征代表著物體吸引用戶的程度,顯著性越強(qiáng),表示用戶越關(guān)注,同時(shí)也代表用戶觀看概率越高,顯著性越弱,則代表觀看概率越低。目前,學(xué)術(shù)界主要是通過機(jī)器學(xué)習(xí)的方法得到視頻的顯著性特征[12],再進(jìn)行預(yù)測(cè)。另外一種內(nèi)容分析方法[13]是同時(shí)基于內(nèi)容以及用戶位置進(jìn)行預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)。其中,視頻內(nèi)容包括顯著性特征和運(yùn)動(dòng)特征。它需要在視頻上架前對(duì)視頻內(nèi)容和測(cè)試頭部數(shù)據(jù)集進(jìn)行訓(xùn)練,學(xué)習(xí)出用戶最可能出現(xiàn)的行為模式,進(jìn)而在用戶實(shí)際觀看時(shí)根據(jù)學(xué)習(xí)結(jié)果預(yù)測(cè)下一時(shí)刻用戶頭部位置。
4 結(jié)束語(yǔ)
VR視頻正得到越來越廣泛的應(yīng)用,但由于帶寬消耗巨大,傳輸瓶頸已成為它面臨的重大挑戰(zhàn)之一。文章中,我們系統(tǒng)地介紹了VR視頻傳輸框架,以及關(guān)鍵技術(shù)的發(fā)展現(xiàn)狀,詳細(xì)比較各種技術(shù)的優(yōu)缺點(diǎn),總結(jié)VR視頻傳輸?shù)陌l(fā)展方向。隨著VR視頻傳輸技術(shù)的發(fā)展,在有限帶寬上傳輸高質(zhì)量VR視頻將成為現(xiàn)實(shí)。
參考文獻(xiàn)
[1] Cisco Visual Networking Index: Globe Mobile Data Traffic Forecast Update[R]. Technical report, 2017
[2] Internet Connection Speed Recommendations[EB/OL]. [2017-10-12].https://help.netflix.com/en/node/306
[3] XU Z M, XIE L, ZHANG X G, et al. Optimal Viewport Adaptive Streaming for 360-Degree Videos[C]// IEEE International Conference on Multimedia&Expo(ICME2017). USA:IEEE, 2017. DOI:10.1109/ICC.2017.7996611
[4] BAN Y X, XIE L, ZHANG X G, et al. An Optimal Spatial-Temporal Smoothness Approach for Tile-Based 360-Degree Video Streaming[C]//IEEE Conference on Visual Communications and Image Processing (VCIP). USA:IEEE, 2017
[5] YAO R, HEATH T, DAVIES A, et al. Oculus VR Best Practices Guide[EB/OL]. (2014-03-17)[2017-10-11].http://brianschrank.com/vrgames/resources/OculusBestPractices.pdf
[6] VR/360 Video Truncated Square Pyramid Geometry for OMAF: ISO/IEC JTC1/SC29/WG11/M[S]. US: MPEG, 2016
[7] HOSSEINI, MOHAMMAD, and SWAMINATHAN V. Adaptive 360 VR Video Streaming: Divide and Conquer[C]//2016 IEEE International Symposium on Multimedia (ISM).USA:IEEE, 2016
[8] ZARE A, AMINLOU A, HANNUKSELA M, and GABBOUJ M. HEVC-Compliant Tile-Based Streaming of Panoramic Video for Virtual Reality Applications[C]// the ACM International Conference on Multimedia(ACM MM). USA:ACM,2016
[9] QIAN F, JI L, HAN B, et al. Optimizing 360 Video Delivery over Cellular Networks[C]// 5th ACM Workshop on All Things Cellular, 2016. USA:ACM, 2016:1-6. DOI: 10.1145/2980055.2980056
[10] XIE L, XU Z, ZHANG X, et al. 360ProbDASH: Improving QoE of 360 Video Streaming using Tile-based HTTP Adaptive Streaming[C]//ACM International Conference on Multimedia(ACM MM). USA: ACM, 2017
[11] BATTLE L, CHANG R, and STONEBRAKER M. Dynamic Prefetching of Data Tiles for Interactive Visualization[C]//the ACM International Conference on Management of Data, 2016
[12] LO W-C, FAN C L, LEE J, HUANG C Y, et al. 360° Video Viewing Dataset in Head-Mounted Virtual Reality[C]// 8th ACM on Multimedia Systems Conference. USA:ACM, 2017
[13] FAN C L, LEE J, LO W-C, et al. Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality[C]//the 27th Workshop on Network and Operating Systems Support for Digital Audio and Video. USA:ACM, 2017:67-72. DOI: 10.1145/3083165.3083180endprint