尹芹 呂達(dá)
摘要:提出虛擬現(xiàn)實(shí)(VR)面臨的2種技術(shù)發(fā)展挑戰(zhàn):高帶寬、低時(shí)延。圍繞VR的發(fā)展,中興通訊創(chuàng)新性地提出端到端VR系統(tǒng)方案的技術(shù)理念,研發(fā)出一系列創(chuàng)新技術(shù)用于實(shí)現(xiàn)VR業(yè)務(wù),例如:低碼高清技術(shù)、基于視野(FOV)的自適應(yīng)傳輸技術(shù)、VR電子節(jié)目指南(EPG)、VR機(jī)頂盒、VR播放器,并基于網(wǎng)絡(luò)功能虛擬化(NFV)技術(shù)構(gòu)建出云化VR網(wǎng)絡(luò)架構(gòu)。這些技術(shù)和方案進(jìn)一步地促進(jìn)了VR的發(fā)展。
低碼高清;FOV;基于FOV的自適應(yīng)傳輸
In this paper, two kinds of technical development challenges faced by virtual reality (VR) are proposed: high bandwidth and low delay. Focusing on the development of VR, ZTE innovatively proposed the technical concept of an end-to-end VR system solution. A series of innovative technologies were developed to implement VR services, such as low-code high-definition technology and angle of view (FOV)-based adaptation transmission technology, VR electronic program guide (EPG), VR set-top box, VR player, and cloud-based VR network architecture based on network function virtualization (NFV) technology. These technologies and solutions further promote the development of VR.
low-code high-definition; FOV; FOV-based adaptive transmission
1 VR的概念
1.1 VR的作用
1965年,虛擬現(xiàn)實(shí)(VR)的概念被首次提出。2016年,Oculus、HTC VIVE、PS VR等各種VR硬件層出不窮地面世,該年也被稱(chēng)為VR元年。受限于制作精良、吸引用戶(hù)眼球并可持續(xù)使用的VR內(nèi)容,受限于帶寬以及更高清分辨率的顯示技術(shù),VR仍然處在爆發(fā)前夜。
VR可用于視頻直播、視頻點(diǎn)播、視頻游戲,以及垂直行業(yè)的多個(gè)應(yīng)用場(chǎng)景,拉近人與人、人與物之間的距離,帶給用戶(hù)沉浸、互動(dòng)的感受。
2017年,中興通訊推出端到端的VR直播解決方案,并成功應(yīng)用于南藝520直播。
1.2 VR的挑戰(zhàn)
(1)帶寬挑戰(zhàn)。運(yùn)營(yíng)商開(kāi)展VR視頻業(yè)務(wù)之后,對(duì)帶寬的需求約為300 Mbit/s~1.2 Gbit/s,最高可能將會(huì)超過(guò)1 Gbit/s,因此千兆帶寬及至5G網(wǎng)絡(luò)將會(huì)給用戶(hù)帶來(lái)更佳服務(wù)體驗(yàn),內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)也將為運(yùn)營(yíng)商節(jié)約更多帶寬消耗。
(2)時(shí)延和丟包挑戰(zhàn)。VR要求運(yùn)動(dòng)到圖像的最大時(shí)延在20 ms,運(yùn)動(dòng)到聲音的最大時(shí)延在20 ms,并要求音視頻保持同步。
(3)完美拼接。通常需要在一組攝像機(jī)設(shè)備上進(jìn)行采集,然后再進(jìn)行拼接處理,將來(lái)自不同攝像機(jī)的視圖合并到一個(gè)視圖中。為保障完美的VR體驗(yàn),不應(yīng)引入任何拼接錯(cuò)誤,不應(yīng)看到任何拼接線。
1.3 VR的演進(jìn)過(guò)程
動(dòng)態(tài)圖像專(zhuān)家組(MPEG)、第3代合作伙伴項(xiàng)目(3GPP)、數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)(AVS)、中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)(CCSA)等多個(gè)全球標(biāo)準(zhǔn)組織正在積極推進(jìn)和制訂VR相關(guān)標(biāo)準(zhǔn)。其中,MPEG國(guó)際標(biāo)準(zhǔn)組在2015年10月啟動(dòng)全向媒體應(yīng)用格式(OMAF)項(xiàng)目,主要針對(duì)360視頻以及對(duì)應(yīng)的音頻,研究相應(yīng)的文件封裝格式,以及在基于HTTP的動(dòng)態(tài)自適應(yīng)流(DASH)方式下的傳輸,同時(shí)還包括編碼的配置、視點(diǎn)的投射等。MPEG OMAF之后,MPEG標(biāo)準(zhǔn)組織認(rèn)為有必要成立MPEG-I,并包含OMAF。MPEG-I標(biāo)準(zhǔn)的工作時(shí)間軸如圖1所示。
MPEG-I的標(biāo)準(zhǔn)制定,又分為3個(gè)階段[1]:階段1a、階段1b、階段2,具體如表1所示。
階段1a(3自由度):在特定觀察位置,當(dāng)頭部左右旋轉(zhuǎn)、俯仰旋轉(zhuǎn)、搖擺旋轉(zhuǎn)時(shí),VR頭顯能正確顯示相應(yīng)VR內(nèi)容,需要VR內(nèi)容、VR采集和VR顯示設(shè)備的支持。
階段2(全向6自由度):在特定觀察位置,當(dāng)頭部左右旋轉(zhuǎn)、俯仰旋轉(zhuǎn)、搖擺旋轉(zhuǎn),以及一定范圍內(nèi)向前后、左右、上下3個(gè)方向平移時(shí),VR頭顯能正確顯示相應(yīng)VR內(nèi)容,需要VR內(nèi)容、VR采集和VR顯示設(shè)備的支持。
階段2(6自由度):典型的使用案例是用戶(hù)自由穿過(guò)頭戴式顯示器(HMD)上顯示的3D 360 VR內(nèi)容(物理地或通過(guò)專(zhuān)用的用戶(hù)輸入裝置)。
1.4 VR端到端架構(gòu)
3GPP定義的VR視頻架構(gòu)[2]由采集、球面拼接(可選)、投影(可選)、封包(可選)、編碼、封裝、傳輸、解封裝、解碼、渲染、顯示各環(huán)節(jié)組成,如圖2所示。
各細(xì)分環(huán)節(jié)的詳細(xì)描述,參見(jiàn)如下各章節(jié)。
1.4.1 采集
取決于采集系統(tǒng)的功能,VR內(nèi)容以不同的格式表示,例如:全景圖或球體。許多系統(tǒng)采集覆蓋整個(gè)360°×180°球體的球形視頻。通常需要配置多個(gè)相機(jī)來(lái)采集這樣的內(nèi)容。配置的各種相機(jī)可用于記錄2D和3D內(nèi)容。采集環(huán)節(jié)可以使用立體相機(jī)組、魚(yú)眼、廣角鏡頭、相機(jī)陣列、光場(chǎng)相機(jī)陣列,產(chǎn)生立體效果或光場(chǎng)渲染效果的VR內(nèi)容。
(1)立體效果
(a)分片立體效果:立體相機(jī)組采集3D內(nèi)容,并以相對(duì)較小的重疊排列成星形配置;但這樣的照相機(jī)系統(tǒng)一方面可能會(huì)有視差錯(cuò)誤,另一方面基于鏡像的系統(tǒng)可以使用減少視差錯(cuò)誤的相機(jī)組采集3D圖像。
(b)極度重疊的立體效果:立體內(nèi)容由魚(yú)眼或廣角鏡頭、相機(jī)陣列采集的重疊圖像創(chuàng)建。在處理過(guò)程中,每個(gè)圖像傳感器分成左右2部分,并拼接成左右全景圖。
(2)光場(chǎng)渲染
(a)基于深度的光場(chǎng)渲染:是創(chuàng)建3D內(nèi)容的有前途的方法;但是,光場(chǎng)渲染需要密集的相機(jī)陣列。
(b)使用基于深度的渲染來(lái)生成中間相機(jī)視圖:這是現(xiàn)有方法,可以減少所需相機(jī)的數(shù)量;但該方法需要非常精確的深度圖和復(fù)雜的基于深度的處理流程,增加了所需算力。
1.4.2 球面拼接
球面拼接分為3種:基于鏡像的系統(tǒng)直接拼接、深度感知的拼接(分片立體效果,極度重疊的立體效果)、深度使能的光場(chǎng)渲染。
1.4.3 投影
最常用的VR投影方法包括2種:經(jīng)緯度展開(kāi)投影(ERP)、立方體投影(CMP)。
(1)ERP:水平、垂直坐標(biāo)分別對(duì)應(yīng)經(jīng)度、緯度,不變換、不縮放。該方法的特點(diǎn)是:赤道上的像素拉伸最小(或一點(diǎn)都沒(méi)有拉伸),而越向兩極拉伸越嚴(yán)重,因此失真越嚴(yán)重。這就產(chǎn)生了大量冗余信息,不適合使用高效視頻編碼(HEVC即H.265)對(duì)其進(jìn)行壓縮。
(2)CMP:將球面全景圖像映射到了立方體的6個(gè)面上,中間的4個(gè)面為前后左右的圖像,上下3個(gè)面為頂部和底部的圖像,每個(gè)面都有90°×90°的視野(FOV)。在立方體投影中,直線保持筆直,便于對(duì)圖像進(jìn)行處理,相比于圓柱映射,失真要小很多。好處在于:減少了兩極的冗余,減少了數(shù)據(jù)量;立方體投影中直線保持筆直,沒(méi)有發(fā)生彎曲失真(這對(duì)于視頻編碼來(lái)說(shuō)十分重要,因?yàn)檫\(yùn)動(dòng)矢量是直線);立方體投影對(duì)像素進(jìn)行了分配,兩極和側(cè)面都是一樣的;立方體投影的映射更加簡(jiǎn)單,只要將每一個(gè)面貼到對(duì)應(yīng)的立方體面上即可。
投影方法除了以上這2種以外,根據(jù)用于渲染的幾何類(lèi)型,還有一些其他投影類(lèi)型,如:球、壓扁的球、圓柱體、柏拉圖固體(正多面體)、立方體(6面)、八面體(8面)、二十面體(20面)、截?cái)嗟慕鹱炙?、分段球體、直接魚(yú)眼(用于視頻監(jiān)測(cè)控制等)。
1.4.4 區(qū)域映射(封裝)
在投影之后,所獲得的二維矩形圖像可被分割成可重新排列以產(chǎn)生“封裝”幀的區(qū)域。從投影幀產(chǎn)生封裝幀的操作(表示為“封裝”或“區(qū)域映射”)可能包括平移、縮放、旋轉(zhuǎn)、填充、仿射變換等。執(zhí)行區(qū)域映射的原因包括:提高編碼效率或依賴(lài)視點(diǎn)的流管理(詳見(jiàn)多流方法)。
區(qū)域映射是可選過(guò)程,如果未使用區(qū)域映射,則封裝的VR幀與投影幀相同。
1.4.5 編碼&解碼
目前的360視頻服務(wù)提供了非常有限的用戶(hù)體驗(yàn),因?yàn)橛脩?hù)視點(diǎn)的分辨率、視覺(jué)質(zhì)量與傳統(tǒng)視頻服務(wù)差不多。需要多倍于現(xiàn)有超高清(UHD)分辨率的分辨率,才能以足夠清晰的分辨率覆蓋完整的360°環(huán)境。這對(duì)現(xiàn)有已建立的視頻處理流程鏈、現(xiàn)有的終端設(shè)備都構(gòu)成了重大挑戰(zhàn)。360視頻傳輸主要考慮3種解決方案:?jiǎn)瘟鞣绞健⒍嗔鞣绞?、分片式流方法?/p>
1.4.6 文件/DASH封裝/解封裝
如果DASH用于傳送360視頻,則可能需要額外的信令,例如:投影和映射格式可能需要在媒體呈現(xiàn)描述(MPD)信令上體現(xiàn),以便用戶(hù)可以請(qǐng)求合適的不同碼率、不同碼率的碼流,然后根據(jù)考慮的解決方案類(lèi)型(單流、多流、分片式流)執(zhí)行不同的文件/DASH封裝。
接收器可以根據(jù)當(dāng)前的視點(diǎn)位置、設(shè)備能力(例如:視頻解碼器能力),選擇僅解封裝所接收的視頻流的子集。
2 VR行業(yè)應(yīng)用
為解決用戶(hù)體驗(yàn)、VR成本等問(wèn)題,Cloud VR通過(guò)云端渲染為VR發(fā)展提供更佳的解決方案。
Cloud VR場(chǎng)景[3]發(fā)展分為近、中、遠(yuǎn)期3個(gè)階段,Cloud VR巨幕影院、Cloud VR直播、Cloud VR 360視頻、Cloud VR游戲4個(gè)場(chǎng)景處于近期階段;Cloud VR教育、醫(yī)療、營(yíng)銷(xiāo)、大空間競(jìng)技、健身、音樂(lè)、K歌場(chǎng)景處于中期階段;Cloud VR旅游、社交、購(gòu)物、軍事、工程、房地產(chǎn)等場(chǎng)景處于遠(yuǎn)期階段。十七大場(chǎng)景的商業(yè)潛力空間巨大,但離不開(kāi)運(yùn)營(yíng)商的牽頭。電信運(yùn)營(yíng)商具備規(guī)模發(fā)展Cloud VR業(yè)務(wù)的必需條件,通過(guò)大管道、平臺(tái)基礎(chǔ)、用戶(hù)、接入光纖資源等優(yōu)勢(shì)吸引優(yōu)質(zhì)的VR服務(wù)提供商、終端廠商、內(nèi)容商等加入生態(tài)鏈,不僅可以贏得VR行業(yè)浪潮的商業(yè)先機(jī),還可以帶動(dòng)整個(gè)VR產(chǎn)業(yè)的發(fā)展。運(yùn)營(yíng)商可以先發(fā)展Cloud VR 2C市場(chǎng),再聚合行業(yè)應(yīng)用,擴(kuò)展到2B市場(chǎng)。
3 中興通訊VR技術(shù)創(chuàng)新
3.1 低碼高清技術(shù)創(chuàng)新
中興通訊創(chuàng)新地提出低碼高清、低碼超高清技術(shù),對(duì)H.264和H.265核心算法提出了5個(gè)方面的改進(jìn),在保證主觀質(zhì)量的情況下編碼碼率降為原來(lái)的40%左右,為高清和4K超高清視頻業(yè)務(wù)的發(fā)展掃清了接入帶寬方面的障礙,具體包括:
·提出幀級(jí)碼率控制方法,有效控制瞬時(shí)碼率過(guò)高;
·提出基于宏塊距離的空間濾波方法,提高圖像質(zhì)量;
·提出恰可察覺(jué)失真(JND)和人類(lèi)視覺(jué)的感興趣區(qū)域(ROI)相結(jié)合的分級(jí)量化編碼方法,對(duì)在相同或降低碼率的情況下,大幅提升視頻編碼的主觀質(zhì)量;
·提出色度分量策略性編碼方法,有效提升視頻壓縮效率,且視頻主觀質(zhì)量不會(huì)有明顯下降;
·提出非ROI宏塊采用變換域JND進(jìn)行預(yù)測(cè)殘差自適應(yīng)調(diào)整編碼方法,從而既保證了編碼的主觀質(zhì)量,又降低了編碼碼率。
低碼高清、低碼超高清算法是一種復(fù)雜的綜合算法,經(jīng)過(guò)不同片源的綜合評(píng)測(cè),成為有效的圖像算法,既可以應(yīng)用在H.264的框架下,也可以融合在H.265編碼標(biāo)準(zhǔn)下。
3.2 基于視點(diǎn)FOV自適應(yīng)傳輸技術(shù)
創(chuàng)新
中興通訊融合CDN支持基于視點(diǎn)FOV自適應(yīng)傳輸技術(shù)。
該技術(shù)的原理為:人眼視野范圍內(nèi)不同區(qū)域的敏感度不同,35°范圍外不敏感;而FOV顯示模式可以針對(duì)不同區(qū)域給予不同分辨率的圖像。當(dāng)視點(diǎn)發(fā)生變動(dòng)時(shí)及時(shí)切換到對(duì)應(yīng)的內(nèi)容頻道。
中興通訊融合CDN能支持對(duì)各種自適應(yīng)碼率格式,擴(kuò)展偏航角、俯仰角、主視場(chǎng)的水平視角,主視場(chǎng)的垂直視角等信息,根據(jù)用戶(hù)頭部運(yùn)動(dòng),傳輸用戶(hù)感興趣的、基于視點(diǎn)的內(nèi)容,有效降低帶寬,縮短時(shí)延。
3.3 多場(chǎng)景的VR視頻播放技術(shù)創(chuàng)新
(1)機(jī)頂盒+頭盔
機(jī)頂盒作為計(jì)算中心,提供圖形計(jì)算、渲染等能力;頭顯提供VR呈現(xiàn),具備九軸傳感器,提供位置等信息給機(jī)頂盒;機(jī)頂盒和頭顯之間通過(guò)高清晰多媒體接口線(HDMI)和USB連接,HDMI傳輸VR視頻,USB傳輸傳感器信號(hào)。
(2)手機(jī)+頭盔
手機(jī)作為計(jì)算中心,提供圖形計(jì)算、渲染等能力;手機(jī)屏幕提供VR呈現(xiàn),提供位置、角度等信息給手機(jī);通過(guò)VR眼鏡的自帶觸控板或遙控器,便捷用戶(hù)操作。中興通訊提供VR頁(yè)面、VR EPG能力、VR播放器能力支持VR點(diǎn)播業(yè)務(wù)。
(3)裸眼收看VR業(yè)務(wù)
手機(jī)作為計(jì)算中心,提供圖形計(jì)算、渲染等能力;手機(jī)屏幕提供VR呈現(xiàn),提供位置、角度等信息給手機(jī);通過(guò)VR眼鏡的自帶的觸控板或遙控器,便捷用戶(hù)操作。
4 結(jié)束語(yǔ)
VR的發(fā)展過(guò)程是視頻領(lǐng)域的一個(gè)技術(shù)創(chuàng)新的過(guò)程,中興通訊創(chuàng)新地提出端到端的VR架構(gòu)理念,形成了FOV視點(diǎn)自適應(yīng)傳輸、低碼高清、VR EPG、VR機(jī)頂盒、VR播放器等一批新技術(shù)并成功應(yīng)用在VR系統(tǒng)中,從而推動(dòng)VR的全面發(fā)展。
參考文獻(xiàn)
[1] MPEG.MPEG-I Part 1 Technical Report on Architectures for Immersive Media[S].2017
[2] 3GPP.Virtual Reality (VR) Media Services over 3GPP: 3GPP TR26.918[S].2018
[3] 中國(guó)信息通信研究院. “Cloud VR+”場(chǎng)景白皮書(shū)[R].2018