王悅名 王榮剛 高文
虛擬現(xiàn)實(VR)是一種計算機仿真技術(shù),它使用頭戴式設(shè)備(有時與物理空間或多投影環(huán)境相結(jié)合)產(chǎn)生逼真的圖像、聲音和其他感覺,給用戶提供沉浸式的體驗。沉浸視頻(或球面視頻,全景視頻)是通過全景攝像機在同一時刻捕獲360°范圍內(nèi)的視頻來獲得,在觀看過程中,觀看者能看到全方位的視頻,感受到身臨其境的感覺。然而現(xiàn)有的編碼和存儲技術(shù)不支持球形視頻的處理,因此球形全景視頻需要投影到二維平面上進(jìn)行存儲和編碼。
將球面全景視頻映射到二維平面上方法多種多樣[1],其中最常見的投影方法是球面投影技術(shù)(ERP)[2],但是ERP技術(shù)在高緯度區(qū)域存在很嚴(yán)重的過采樣,因此會浪費很多傳輸帶塊。隨后,等面積圓柱投影(與ERP類似,但其通過降低兩極在緯度方向的采樣密度是球面總體的采樣密度一致)[2]、立方體投影(通過透視投影的方法,將球面投影到立方體平面上)[3]、自適應(yīng)條帶投影(將ERP格式的全景圖像根據(jù)緯度分割成多個條帶,然后根據(jù)圖像內(nèi)容以及條帶的緯度來進(jìn)行自適應(yīng)的下采樣)[4]、條帶分割投影(將球面視頻根據(jù)緯度分割成多個環(huán)帶,兩極投影為平面,中間的環(huán)帶投影為矩形)[5]等投影方案被紛紛提出。這些投影方法可以減少全景視頻的傳輸帶寬,但是由于全景視頻需要提供360°的視頻內(nèi)容,因此全景視頻的傳輸帶寬和播放復(fù)雜度仍然比傳統(tǒng)視頻大得多。此外,隨著虛擬現(xiàn)實技術(shù)的視頻采集設(shè)備的發(fā)展,全景視頻的分辨率也提高到8K甚至更高。為了解決上述問題,IEEE 1857.9沉浸視頻內(nèi)容編碼工作組于2015年12月5日成立,該工作組致力于制訂高效的沉浸視頻投影和編碼方法。
IEEE1857.9工作組致力于推動用于壓縮、解壓縮和重建沉浸式視覺內(nèi)容的高效編碼工具的標(biāo)準(zhǔn)化。該標(biāo)準(zhǔn)針對的應(yīng)用場景和服務(wù)對象包括但不限于VR,例如:基于無人機的VR、增強現(xiàn)實、全景視頻和其他視頻/音頻驅(qū)動的服務(wù),以及諸如沉浸式視頻流、廣播、存儲和通信之類的應(yīng)用。最近,IEEE 1857.9沉浸視頻內(nèi)容編碼工作組擬定的標(biāo)準(zhǔn)草案即將定稿。本文對IEEE1857.9工作組采納或研究的投影技術(shù)進(jìn)行了綜述。
1 全景投影技術(shù)
在眾多的投影方法中,ERP投影是最常用的投影格式,但是其編碼效率卻非常低。為了提高VR視頻的編碼效率,IEEE1857.9工作組研發(fā)了一系列針對VR視頻的高效投影格式,并且在標(biāo)準(zhǔn)中采納了其中的部分投影格式。
1.1 ERP投影
最常見的全景視頻的投影格式是ERP投影[2]。ERP投影根據(jù)等間隔的經(jīng)度和緯度將球面投影到二維平面上,如圖1所示。
ERP在VR視頻中使用很廣泛,但是ERP存在很多問題,比如這種投影方式會造成兩極區(qū)域的過采樣和失真,導(dǎo)致使用ERP投影得到的平面視頻的編碼效率很低。
1.2 多面體投影
多面體投影[6]通常通過透視投影將球面投影到外切多面體上。在IEEE1857.9工作組會議中,多種多面體投影模型被提出,包括:立方體投影、八面體投影、二十面體投影。
多面體的面越多,越接近球面,采樣密度也就越均勻,多面體投影的多種投影模型如表1所示。
1.3 雙極方形投影
分析發(fā)現(xiàn)ERP投影格式在兩極區(qū)域存在較嚴(yán)重的過采樣,而在中間區(qū)域采樣密度比較均勻(但不完全均勻),針對以上特點,設(shè)計出了一種雙極方形的投影格式[7]。如圖2所示,雙極方形投影將球面根據(jù)緯度(南北緯45°)劃分為3個區(qū)域,根據(jù)等間距的經(jīng)度和緯度將球的區(qū)域II投影到二維平面上(投影方法與ERP相同),并將區(qū)域I和區(qū)域III投影到由多個同心方形環(huán)組成的矩形平面中。
1.4 雙環(huán)帶投影
雙環(huán)帶投影[8]通過北緯30°和南緯30°的兩條緯線將球面分成3部分。中間區(qū)域是一個環(huán)形區(qū)域,稱為“環(huán)區(qū)域”;另外的兩部分分別是頂區(qū)域和底區(qū)域。然后,雙環(huán)帶投影進(jìn)一步將環(huán)區(qū)域分成6個均勻的子區(qū)域,將頂和底區(qū)域分別分成4個子區(qū)域,球面的區(qū)域劃分如圖3所示。雙環(huán)帶投影進(jìn)一步將這14個子區(qū)域投影為平面上的14個方向平面,并進(jìn)一步將14個方向平面拼接成一個矩形平面。
2 非對稱投影技術(shù)
在具有一對多信道和反饋信道(如直播廣播系統(tǒng)、視頻點播系統(tǒng)等)的應(yīng)用場景中,動態(tài)流切換技術(shù)能在很大程度上減少傳輸帶寬和播放的復(fù)雜度。在動態(tài)流切換技術(shù)中,全景視頻由覆蓋整個全景視頻的多個主視點不同的非對稱投影序列表示。根據(jù)人觀看VR視頻時頭部轉(zhuǎn)動的方向,每一時刻只傳輸一個主視點與當(dāng)前頭部朝向最接近的非對稱投影序列的碼流。下一時刻,如果觀看者頭部的轉(zhuǎn)動幅度超過現(xiàn)有的主視點范圍,服務(wù)端將傳輸對應(yīng)主視點區(qū)域的非對稱投影序列的碼流到客戶端。通常,全景視頻的非對稱投影格式的主視點區(qū)域的采樣密度較高,而非主視點區(qū)域的采樣密度很低,并且整個非對稱投影格式的全景視頻的分辨率低于全分辨率的全景視頻。IEEE1857.9工作組設(shè)計了幾種非對稱投影格式,有效地降低了傳輸帶寬和播放復(fù)雜度。
2.1 非對稱圓形投影
非對稱圓形投影(ASC)[9] 根據(jù)每個區(qū)域與主視點中心的角度將VR視頻的球面劃分成3個區(qū)域。如下圖所示,C是主視點的中心,區(qū)域I是主視點區(qū)域,區(qū)域I與主視點中心之間的角度小于[Z1],區(qū)域II是非主視點區(qū)域,區(qū)域和主視點中心之間的角度從[Z1]到[Z2],區(qū)域III也是非主視點區(qū)域,區(qū)域和主視點中心之間的角度大于[Z2]。ASC將圖4 a)球面上的區(qū)域I、區(qū)域II和區(qū)域III分別投影到圖4 b)中的二維平面上的區(qū)域I(半徑為0~ρ1)、區(qū)域II(半徑為ρ1~ρ2)和區(qū)域III(半徑為ρ3~0)。
ASC在主視點區(qū)域使用等積投影,以確保主視點的采樣密度高且均勻;在非主要視點區(qū)域,采樣密度隨著區(qū)域與主視點中心角度的增加而減小。另外,主視點區(qū)域的大小是可變的,[Z1]、[Z2]和ρ1可以根據(jù)應(yīng)用場景、網(wǎng)絡(luò)狀況或其他因素自定義,因此ASC投影具有很高的靈活性。endprint
2.2 等角金字塔投影
等角金字塔投影(EAP)[10]首先通過透視投影將球面投影到金字塔,然后將金字塔投影到二維平面。圖5 a)是主視點中心為D時,通過透視投影將球面投影到金字塔的示意圖。金字塔的底面對應(yīng)于主視點區(qū)域(主視點區(qū)域的角度為θ),而金字塔的側(cè)面對應(yīng)于非主視點區(qū)域。圖5 b)是展開后金字塔的示意圖。圖5 c)是通過將金字塔投影到二維平面的示意圖。
金字塔底面對應(yīng)主視點區(qū)域,EAP對金字塔的主視點區(qū)域使用等角投影;金字塔側(cè)面對應(yīng)非主視點區(qū)域,使用采樣密度按梯度下降的方式投影,離主視點越遠(yuǎn),采樣密度越低。
2.3 非對稱投影的自適應(yīng)濾波方法
在非對稱投影中,由于非主視點區(qū)域的采樣密度較低,該區(qū)域產(chǎn)生鋸齒現(xiàn)象。為了消除非主視點區(qū)域的鋸齒現(xiàn)象,提出了一種用于非對稱投影的自適應(yīng)濾波方法[11]。該方法將非主視點區(qū)域劃分為多個子區(qū)域,并對不同的子區(qū)域使用不同強度的濾波器進(jìn)行濾波。
如圖6所示,對于EAP,自適應(yīng)濾波方法將非主視點區(qū)域劃分為4個子區(qū)域 (A、B、C、D),分別對子區(qū)域A、B、C和D分別進(jìn)行強濾波、中等強度濾波、弱濾波和無濾波。自適應(yīng)濾波可以消除鋸齒效應(yīng),降低碼率。
3 不同映射格式編碼效率
的測試
為了評估不同投影格式的編碼效率,IEEE1857.9工作組進(jìn)行了一系列的測試。
IEEE1857.9工作組使用LETIN VR[12]提供的測試序列集,其中包含8個分辨率為4 096×2 048的ERP格式的VR視頻序列,4個分辨率為8 192×4 096的ERP格式的VR視頻序列。測試序列的長度為300幀,其幀率為30 f/s。
實驗流程如圖7所述。將分辨率更高的ERP格式的原始序列作為參考基準(zhǔn),然后使用不同的投影格式將原始序列投影到不同的平面格式。本實驗使用RD-VR16.1編碼和解碼不同投影格式生成的序列。最后,計算解碼后的序列和原始序列之間的球面峰值信噪比(S-PSNR)值。
在實驗中,將ERP格式作為實驗基準(zhǔn)。實驗結(jié)果如表2所示,立方體投影、八面體投影、二十面體投影、雙極方形投影和雙環(huán)帶投影的增益分別為:3.76%、2.93%、8.39%、11.56% 和8.61%。
對非對稱投影格式的測試流程如圖8所示,使用RD-VR16.1(RA的默認(rèn)配置)對ERP格式的序列進(jìn)行編碼和解碼,然后計算解碼序列與原始序列之間的加窗S-PSNR。
非對稱投影的實驗過程如圖9所示:首先將ERP格式的序列分別投影為ASC和EAP格式;然后,使用RD-VR16.1(RA的默認(rèn)配置)對ASC和EAP格式的序列進(jìn)行編碼和解碼;最后,計算解碼序列與原始序列之間的加窗S-PSNR。實驗參數(shù)的設(shè)置如下:ASC的分辨率為1 448×1 448,Z 1、Z 2和ρ1分別設(shè)置為45°、90°和512。EAP分辨率為2 048×1 024,θ為45°。
實驗結(jié)果如表3所示。由于ASC的主視點區(qū)域是圓形的,因此添加了使用循環(huán)窗口計算加窗S-PSNR的一組數(shù)據(jù)。實驗結(jié)果表明:ASC和EAP能在主視點區(qū)域?qū)崿F(xiàn)超過50%的增益,并且EAP的BD-rate增益比ASC高出4%~10%,這主要是由于ASC存在被浪費的區(qū)域。但是ASC中的所有參數(shù)(Z 1、Z 2和θ)都是可調(diào)的,因此ASC比EAP更靈活。例如:當(dāng)主視點區(qū)域設(shè)置為120°時,ASC可以實現(xiàn)比EAP更好的性能。另外,自適應(yīng)濾波可以在EAP的基礎(chǔ)上進(jìn)一步將碼率降低約11%,并且消除非主視點區(qū)域的鋸齒現(xiàn)象。
4 結(jié)束語
IEEE1857.9工作組致力于標(biāo)準(zhǔn)化用于壓縮、解壓縮和重建沉浸式視覺內(nèi)容的高效編碼工具。該工作組已經(jīng)設(shè)計了一系列針對VR視頻的投影格式。被采納的全景視頻投影格式最多能節(jié)省30%的碼率。此外,工作組為動態(tài)流切換應(yīng)用設(shè)計了各種投影格式和自適應(yīng)濾波方法,實現(xiàn)了70%的編碼性能的增益。未來IEEE 1857.9工作組還將繼續(xù)致力于沉浸式視覺內(nèi)容的高效編碼工具的研究,尋求新的高效的映射格式,此外還將在3D沉浸式視覺內(nèi)容的映射和編碼工具上投入更多的研究。
參考文獻(xiàn)
[1] ZORIN D, BARR A H. Correction of Geometric Perceptual Distortions in Pictures[C]// Conference on Computer Graphics and Interactive Techniques. USA: ACM, 1995:257-264. DOI:10.1145/218380.218449
[2] SMOLIC A, MCCUTCHEN D. 3DAV Exploration of Video-Based Rendering Technology in MPEG[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2004, 14(3):348-356. DOI: 10.1109/TCSVT.2004.823395
[3] NG K T, CHAN S C, SHUM H Y. Data Compression and Transmission Aspects of Panoramic Videos[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2005, 15(1):82-95. DOI: 10.1109/TCSVT.2004.839989
[4] YU M, LAKSHMAN H, GIROD B. Content Adaptive Representations of Omnidirectional Videos for Cinematic Virtual Reality[C]// The 3rd International Workshop on Immersive Media Experiences. USA:ACM, 2015:1-6. DOI: 10.1145/2814347.2814348endprint
[5] LI J, WEN Z, LI S, et al. Novel Tile Segmentation Scheme for Omnidirectional Video[C]// IEEE International Conference on Image Processing. USA: IEEE, 2016:370-374.
[6] CHOIK P, VLADYSLAVZ, CHOIM, et al.On 2D Representation Format of Panoramic Video: IEEE1857.9-04-M1027[S].Guiyang:IEEE,2016:6
[7] WANG Y M, WANG R G, WANG Z Y, et al. A New Panoramic Video Projection Scheme: IEEE1857.9-04-M1028[S].Guiyang:IEEE,2016:6
[8] LIN C, GU X, WU C J, et al.A New Projection Method of Omnidirectional Video: IEEE1857.9-04-M1025[S].Guiyang: IEEE,2016:6
[9] WANG Y M, WANG R G, WANG Z Y, et al.A New Asymmetric Projection Scheme Based on ROI: IEEE1857.9_M1060/AVSVR_M1060[S]. Haikou: IEEE, 2016:12
[10] WANG Y M, WANG R G, WANG P, et al. Improved Pyramid Projection: IEEE1857.9_M1107/AVSVR_M1107[S]. Dalian: IEEE, 2017:8
[11] SHENG X J, WU Y X, YIN H B, et al. An Improved Pyramid Projection Based on Adaptive Filtering: IEEE1857.9_M1111/AVSVR_M1111[S]. Dalian: IEEE, 2017:8
[12] CHEN J, ZHANG J.Projection CE: Summary Report:IEEE1857.9_M1072/AVSVR_M1072[S]. Haikou: IEEE, 2016:12endprint