王旭,劉瓊,彭宗舉,侯軍輝,元輝,趙鐵松,秦熠,吳科君,劉文予,楊鈾*
1.深圳大學計算機與軟件學院,深圳 518060;2.華中科技大學電子信息與通信學院,武漢 430074;3.重慶理工大學電氣與電子工程學院,重慶 400054;4.香港城市大學計算機科學系,香港;5.山東大學控制科學與工程學院,濟南 250061;6.福州大學物理與信息工程學院,福州 350300;7.華為技術(shù)有限公司,上海 201206;8.南洋理工大學電氣與電子工程學院信息科學與系統(tǒng)研究中心,新加坡 639798,新加坡
6自由度(six degrees of freedom,6DoF)視頻具體表現(xiàn)為在觀看視頻過程中,用戶站在原地時頭部與視頻內(nèi)容之間的x、y、z3 個自由度的交互和用戶位姿發(fā)生移動時與內(nèi)容之間的另外x、y、z3 個自由度的交互(Boyce 等,2021)。6DoF 視頻有多視點視頻、多視點+深度視頻、光場視頻、焦棧圖像和點云序列等多種數(shù)據(jù)表示方式(Wien 等,2019)。用戶可以通過體感、視線、手勢、觸控和按鍵等交互方式來選取任意方向和位置的觀看視角。視頻系統(tǒng)在獲得用戶交互參數(shù)后,通過虛擬視點繪制技術(shù)完成視角平滑切換,在沉浸式體驗上更加出色。6DoF 視頻體現(xiàn)了用戶與視頻內(nèi)容的高度交互性,全面打破了人們被動接受視頻內(nèi)容的傳統(tǒng)模式,能夠?qū)崿F(xiàn)千人千面的視覺體驗,是當前多媒體通信、計算機視覺、人機交互和計算顯示等多個學科領(lǐng)域的交叉與前沿。一方面,6DoF 視頻通過計算重構(gòu)的方式向用戶提供包括視角、光照、焦距和視場范圍等多個視聽維度的交互與變化,使千里之外的用戶有身臨其境之感,這與元宇宙所具有的感知、計算、重構(gòu)、協(xié)同和交互等技術(shù)特征高度重合。因此,6DoF 視頻所涵蓋的技術(shù)體系可用做實現(xiàn)元宇宙的替代技術(shù)框架。另一方面,6DoF 視頻從采集、處理、編碼、傳輸、顯示、交互和計算等方面改變了數(shù)字媒體端到端全鏈條的生產(chǎn)制作模式,給內(nèi)容提供商、運營商、設(shè)備商和用戶帶來巨大的改變,因此也受到國防訓練、數(shù)字媒體和數(shù)字教育的高度關(guān)注。
本文將圍繞6DoF視頻內(nèi)容的生產(chǎn)、分發(fā)與呈現(xiàn)中存在的關(guān)鍵問題(如圖1 所示),從內(nèi)容采集與預處理、編碼壓縮與傳輸優(yōu)化以及交互與呈現(xiàn)等方面闡述國內(nèi)外研究進展,并圍繞該領(lǐng)域當下挑戰(zhàn)及未來趨勢開展討論。
圖1 6DoF視頻系統(tǒng)中的關(guān)鍵問題Fig.1 Key problems in 6DoF video systems
6DoF視頻以3維場景為觀察對象,以3維時空分布的點云、圖像等為數(shù)據(jù)表達,可用模型f(x,y,z,θ,φ,λ,t)刻畫,包含空間(x,y,z)、角度(θ,φ)、光譜(λ)和時間(t)等。如何獲取3 維場景的視覺信息是6DoF視頻采集與生成需要實現(xiàn)的任務與目標。相機一直以來作為獲取視覺信息的主要工具,將分布在3 維時空(x,y,z,t)中的光降維到2 維時空(x,y,t)上形成圖像或視頻?;谙鄼C的視覺獲取無法得到深度z,因此如何通過相機來實現(xiàn)3 維場景的視覺信息獲取,長期以來是一個挑戰(zhàn)性的難題。從技術(shù)演進的角度,3維場景的視覺信息獲取可分為多視點聯(lián)合采集、多視點與深度聯(lián)合采集這兩個方向和階段。
雖然單相機的視覺獲取只能得到平面圖像,但是仿照人眼的雙目視覺系統(tǒng),只要能夠利用2 個及以上的相機進行多視點同步采集,就能夠在得到的多視點圖像基礎(chǔ)上進行立體匹配,從而得到深度z的信息(Marr 和Poggio,1976)。為此,科研人員以6DoF 視頻為目標,研制出了不同類型的多視點視頻采集系統(tǒng)。如圖2 所示,以影視內(nèi)容制作為目標,工程技術(shù)人員于1999 年首次搭建了由上百臺相機共同構(gòu)成的多視點聯(lián)合采集系統(tǒng)。該系統(tǒng)在幾何排布上具有線性環(huán)繞的特點,并形成了著名的“子彈時間”影視效果(Stankiewicz 等,2018)。觀眾可通過這種方式在屏幕上直接得到立體的觀感。通過該多視點聯(lián)合采集系統(tǒng)所形成的交互式媒體內(nèi)容具有非常震撼的視覺效果,但同時也有明顯的缺陷,如不能拍動態(tài)的視頻、幾何排布復雜不利于后期視覺計算以及成本高昂難以商業(yè)推廣等。因此,降低相機數(shù)量,簡化幾何排布方式,研發(fā)多相機標定方法成為多視點聯(lián)合采集面臨的關(guān)鍵需求。
圖2 影視制作中的多視點視頻采集系統(tǒng)Fig.2 Multi-viewpoint video capturing system in film and television production
為了解決上述問題,研究者提出了幾種典型的幾何排布模式,如圖3 所示。圖3(a)所示的平行模式以直線分布、光軸平行的方式進行排布,視點之間的圖像原則上不存在垂直偏移,在交互過程中體現(xiàn)為水平移動。稀疏的(間距20 cm 及以上)平行模式是MPEG(motion picture expert group)中典型的多視點視頻數(shù)據(jù)表達形式(Merkle等,2007),而稠密的平行模式則可較為方便地構(gòu)成光線空間(ray space)(Tanimoto,2012),從而實現(xiàn)平移之外的縱向交互。圖3(b)所示的發(fā)散模式是所有相機的光軸后延線共圓心,從形式上不局限于水平共心,也可以是球面發(fā)散的共心方式。這種模式可較方便地形成全景視頻用于3 自由度交互,并在許多商業(yè)應用中取得了成功。圖3(c)所示的匯聚模式在排布模式上是平行模式的簡單變化,在直線分布的基礎(chǔ)上將光軸匯聚到一個點上,視點之間的圖像原則上不存在垂直偏移,在交互過程中體現(xiàn)為具有弧度的水平移動。然而,在實際操作中匯聚模式有許多問題,如匯聚點的確定、相機間的幾何標定問題等,導致大部分的匯聚模式最后退化到圖2 的模式,即交互只在真實相機之間做切換,較少通過視覺計算的方式去繪制虛擬視點。圖3(d)所示的圍繞模式不局限于平面,也可以進一步拓展成半球體、圓球體的布置形式。與匯聚模式類似,同樣面臨著匯聚點確定、相機間幾何標定的難題,而且難度更大,因為每一個相機一定會有另外一個相機與之完全相對,無法通過構(gòu)建兩個視點之間公共特征點的匹配關(guān)系以完成幾何標定所需的有關(guān)參數(shù)。華中科技大學團隊突破了這一限制,通過視點傳遞的方式克服了環(huán)繞相機陣列(Abedi 等,2018)以及球面相機陣列(An 等,2020)的幾何標定問題,為后續(xù)720°交互奠定了基礎(chǔ)。圖3(e)所示的平面模式在幾何分布上是平行模式的簡單擴充,但是在實際應用中產(chǎn)生了許多變型,并逐步演化成光場采集系統(tǒng),催生了許多交互式媒體之外的新型應用(Levoy和Hanrahan,1996)和億像素采集系統(tǒng)(Brady等,2012)。
圖3 幾種典型的多視點視頻采集系統(tǒng)的幾何排布方式Fig.3 Geometric arrangement of typical multi-viewpoint video capturing systems((a)parallel setting;(b)diverging setting;(c)converging setting;(d)surrounding setting;(e)planar setting)
典型的多視點聯(lián)合采集需通過后期計算的方式得到深度,如果能夠直接得到深度信息,則可以大幅提升采集效率。然而,直接獲得場景的深度信息并不是一件容易的事情,進而在獲取深度信息的基礎(chǔ)之上是否能夠多視點獲取,又是另外一個難題。
直接獲取場景深度信息的方式大體分為被動式和主動式兩個技術(shù)方向。被動式探測以雙目立體匹配為代表(Zhang,2012)。主動式探測方法以結(jié)構(gòu)光技術(shù)為代表,并根據(jù)光源的不同又分為點掃描(Franca 等,2005)、線掃描(Scharstein 和Szeliski,2002)和面結(jié)構(gòu)光(Van der Jeught 和Dirckx,2016)。點掃描和面掃描中激光器發(fā)出點狀或條狀光束,進而通過旋轉(zhuǎn)或平移,實現(xiàn)完整的3 維測量。面結(jié)構(gòu)光方法投射2 維編碼圖案,無需移動投影設(shè)備即可重建目標表面,具有更高的效率(蘇顯渝 等,2014)。此外,面結(jié)構(gòu)光中投影圖案通常與編碼技術(shù)進行結(jié)合,提取塊級/像素級/亞像素級的碼字用于視差匹配,以獲得更高的精度和效率。面結(jié)構(gòu)光的編碼通常包括空域編碼、時域編碼和相位編碼,通過多個編碼對場景進行多次掃描來獲得目標場景的深度。上述模式都是通過掃描的方式才能得到場景的深度信息,因此不適宜動態(tài)場景的深度獲取。采用點—面結(jié)合技術(shù)的Kinect 深度傳感器克服了這個難題(Lilienblum 和Al-Hamadi,2015),雖然深度圖的質(zhì)量、圖像分辨率、時間分辨率和探測距離等基本參數(shù)還有很大的提升空間,但是該設(shè)備的出現(xiàn)首次將場景的深度感知從靜態(tài)提升至了動態(tài),給產(chǎn)業(yè)界和學術(shù)界同時帶來一輪新的研究熱潮。后來出現(xiàn)了基于光調(diào)制的ToF(time of flight)技術(shù)及相關(guān)設(shè)備,包括ToF相機和激光雷達(laser radar,LiDAR)等,大幅度提升了探測距離,但是在深度圖質(zhì)量、圖像分辨率和時間分辨率等參數(shù)上也都與Kinect一樣面臨相同的問題。
將多個深度傳感器與多個彩色相機相互配合對場景進行視覺采集,則形成了多視點與深度聯(lián)合采集方案。在這些方案中,幾何排布上可以借鑒多視點聯(lián)合采集方案。多視點與深度聯(lián)合采集的關(guān)鍵難點在于多深度采集中所出現(xiàn)的視點間干擾、彩色視頻與深度視頻時間分辨率不匹配以及空間分辨率差距過大等問題。多深度相機之間的干擾來自其成像原理本身,如不同視角的Kinect 會使用相似甚至相同的點—面結(jié)構(gòu)光,不同視角的ToF 相機對同一波長的光進行相同的調(diào)制,這些都會導致解碼失敗。為了解決這個問題,華中科技大學團隊從機理層面進行了探索,針對多種原理的深度傳感器分別設(shè)計了包括M-序列等方法在內(nèi)的多深度相機聯(lián)合采集方案,較好地解決了上述難題(Yan 等,2014;Li 等,2015;Xiang 等,2015)。此外,還進一步針對深度視頻與彩色視頻時間分辨率不匹配的問題,以及由此導致的深度圖運動模糊問題,提出了時域上采樣法(Yang 等,2012)和時域校正法(Yang 等,2015c;Gao等,2015)等多種方法,為運動場景的立體感知提供了豐富的工具集。
如前所述,動態(tài)場景的深度圖或點云數(shù)據(jù)往往具有空間分辨率低、時間分辨率低、畫面噪聲多等問題。為了保證下游任務的精度,需要進行預處理。從處理技術(shù)上來分,主要包括深度圖預處理和點云數(shù)據(jù)預處理兩個類型。
1.3.1 深度圖預處理
深度信息不直接用于人眼觀測,而是作為輔助信息幫助參考視點圖像映射到正確的虛擬視點上。深度圖像上的失真會傳播至虛擬視點圖像,造成主客觀質(zhì)量的下降。因此,在虛擬視點內(nèi)容生成前,需通過深度預處理技術(shù)盡可能獲得最接近場景實際距離的深度圖像。Ibrahim 等人(2020a)較詳細地對深度圖預處理技術(shù)工作進行了系統(tǒng)性的梳理??傮w而言,深度圖、點云的去噪與圖像去噪技術(shù)是同步發(fā)展的,但同時也有自身的一些特點。典型的圖像濾波器,如多邊濾波器(Choudhury 和Tumblin,2005)、流型濾波器(Gastal 和Oliveiray,2012)和非區(qū)域均值(Buades 等,2005)等都可以直接作用于深度圖的去噪,但這些濾波器都只能解決以像素為單位的深度圖噪聲。一旦噪聲區(qū)域過大,如Kinect 深度傳感器的噪聲多以成片區(qū)域深度值缺失為特點,則傳統(tǒng)的濾波器都會失效(Xie 等,2015)。為了解決這個問題,Kopf 等人(2007)提出了聯(lián)合雙邊濾波方法。該方法是對雙邊濾波的改進,引入了參考圖像為指導,能夠較好地處理大面積深度值缺失的難題,但同時也引入了彩色圖中的邊緣和紋理信息,給去噪后的深度圖帶來了偽紋理。Liu 等人(2017)利用對齊彩色圖像特征來引導深度圖像修復,通過彩色信息引導權(quán)重并結(jié)合雙邊插值方法來進行深度圖空洞修復。Wang 等人(2015)提出一種面向Kinect 深度圖像恢復的三邊約束稀疏表示方法,在懲罰項上考慮了參考塊與目標塊間的強度相似度和空間距離的約束,在數(shù)據(jù)保真度項下考慮了目標塊質(zhì)心像素的位置約束,通過對紋理圖像的特征學習,預測出深度圖像空洞恢復的最優(yōu)解。為了有效克服偽紋理的問題,Ibrahim 等人(2020b)引入條件隨機場方法以抑制在彩色圖引導過程中的紋理干擾問題。隨著深度學習技術(shù)的發(fā)展,人們也開始探索單一深度圖(張洪彬 等,2016)、彩色與深度圖聯(lián)合(Zhu等,2017)的濾波方案,總體上遵循了彩色圖濾波的基本架構(gòu),包括特征提取、圖像重建等模塊?;谏疃葘W習框架的深度圖濾波雖然能夠取得較好的去噪效果,但是目前仍面臨物體邊緣濾波模糊的難題。
多視點聯(lián)合濾波也是一個值得關(guān)注的課題。如果將每一個視點的深度圖單獨處理,勢必會導致視點間深度不穩(wěn)定的問題,為此需要將多個視點聯(lián)合在一起考慮。華中科技大學團隊He等人(2020b)提出了跨視點跨模態(tài)的聯(lián)合濾波框架,建立了視點之間的映射模型與關(guān)聯(lián)方式,能夠較好地克服多種類型的噪聲在不同視點間的蔓延。針對平面相機陣列,Mieloch 等人(2021)考慮到紋理信息的使用會在深度修正中引入誤差,僅用多個視點的深度信息對所選視點的信息進行交叉驗證,通過多次迭代,增強了多個深度圖像的視點間一致性,且可以自由設(shè)置需要修正的視點位置和數(shù)目。
1.3.2 點云預處理
深度相機和激光雷達傳感器產(chǎn)生的原始點云通常是稀疏、不均勻和充滿噪聲的,需要進行去噪或補全?,F(xiàn)有的點云補全的方法大致分為基于幾何或?qū)R的方法和基于表示學習的方法兩類。
基于幾何或?qū)R的方法包括基于幾何的方法和基于對齊的方法。基于幾何的方法通過先前的幾何假設(shè),直接從觀察到的形狀部分預測不可見的形狀部分(Hu 等,2019)。更具體地,一些方法通過生成平滑插值來局部填充表面孔。例如拉普拉斯平滑(Nealen 等,2006)和泊松表面重建(Kazhdan 和Hoppe,2013),這些方法直接從觀察區(qū)域推斷缺失數(shù)據(jù)并顯示出令人印象深刻的結(jié)果,但是需要為特定類型的模型預定義幾何規(guī)則,并且僅適用于不完整程度較小的模型?;趯R的方法在形狀數(shù)據(jù)庫中檢索與目標對象相似的相同模型,然后將輸入與模型對齊,隨后對缺失區(qū)域進行補全。目標對象包括整個模型(Pauly 等,2005)或其中的一部分(Kim等,2013)。除此以外,還有一些方法使用變形后的合成模型(Rock 等,2015)或非3D 幾何圖元,例如平面(Yin 等,2014)和二次曲面(Chauve 等,2010)代替數(shù)據(jù)庫中的3D 形狀。這些方法在3D 模型的類型上具有較強的泛化性,但在推理優(yōu)化和數(shù)據(jù)庫構(gòu)建過程中成本高,且對噪聲敏感。
基于表示學習的方法是一種點云補全的方法。Dai等人(2017)提出了基于3D體素的編碼器—解碼器架構(gòu)3D-EPN(3D-encoder-predictor)。盡管基于3D 體素化的表示學習方法可以直接擴展使用定義在2D規(guī)則網(wǎng)格上的神經(jīng)層或算子,但精細對象的重建需要消耗大量顯存和算力。隨著基于點表示學習的PointNet(Qi 等,2017a)和PointNet++(Qi 等,2017b)等模型的出現(xiàn),人們提出了TopNet(Tchapmi等,2019)、PCN(point cloud net)(Yuan 等,2018)和SA-Net(shuffle attention net)(Wen 等,2020a)等基于點編碼器—解碼器框架的點云修復模型。該類模型首先通過編碼器從不完整的點云中提取全局特征,再利用解碼器根據(jù)提取的特征推斷完整的點云。
現(xiàn)有基于表示學習的點云補全任務的相關(guān)研究主要分為兩類。1)基于先進的深度學習框架。為了提高點云生成的完整形狀的真實性和一致性,人們提出了基于對抗生成網(wǎng)絡的RL-GAN-Net(reinforcement learning generative adversarial network)(Sarmad等,2019)、基于變分自動編碼器的VRCNet(variational relational point completion network)(Pan 等,2021)和基于注意力機制的PoinTr(Yu 等,2021)、SnowflakeNet(Xiang 等,2021)、PCTMA-Net(point cloud transformer with morphing atlas-based point generation network)(Lin 等,2021)、MSTr(Liu 等,2022)等模型,這些模型能更好地挖掘3D形狀的全局和局部幾何結(jié)構(gòu),從而更有利于補全點云中的不完整部分。2)基于任務特性的算子。為了保留更多的精細特征信息,SoftPool++(Wang 等,2022a)設(shè)計了softpool算子替代PointNet中的最大池化算子。Wu等人(2021)提出基于密度感知的倒角距離,以改善原有損失函數(shù)對點云局部密度不敏感或精細結(jié)構(gòu)保護不足等缺陷。
考慮實際應用需求,漸進式點云補全任務也開始得到關(guān)注,人們提出了CRN(cascaded refinement network)(Wang 等,2022b)、PF-Net(point fractal network)(Huang 等,2020b)、PMP-Net++(point cloud completion by transformer-enhanced multi-step point moving paths)(Wen 等,2023)等模型,以實現(xiàn)3D 點云的漸進細化??傮w而言,基于學習的點云補全方法在性能提升上效果顯著,但在模型泛化上仍有很大的提升空間。如何結(jié)合幾何先驗以提升模型的泛化性是一個潛在的研究方向。
6DoF 視頻有多視點視頻、多視點+深度視頻、光場圖像、焦棧圖像和點云序列等多種數(shù)據(jù)表示方式,本節(jié)根據(jù)各種數(shù)據(jù)表示方式的特點,對6DoF視頻壓縮與傳輸?shù)难芯窟M展展開介紹。
自從1988 年CCITT(Consultative Committee International for Telegraph and Telephone)制定了視頻編碼標準H.261 后,視頻編碼技術(shù)的應用越來越廣泛,并涌現(xiàn)出大量的視頻編碼標準,包括H.264/AVC(Wiegand 等,2003)、H.265/HEVC(high efficiency video coding)(Ohm 等,2012)和H.266/VVC(versatile video coding)(Bross 等,2021)。最簡單的多視點視頻編碼MVC(multi-view video coding)方案是獨立地對各個視點進行編碼,但是這樣不能充分去除視點間冗余,于是產(chǎn)生了時域—視點域結(jié)合的編碼壓縮方案研究。
1)多視點視頻擴展國際編碼標準。MPEG-2 標準中已采用了多視點視頻配置來編碼立體或者多視點視頻信號。由于壓縮標準的局限性、顯示技術(shù)和硬件處理能力的限制,MPEG-2 的多視點擴展沒有得到實際應用。2005 年,MPEG 組織在H.264/AVC的基礎(chǔ)上提出了MVC 擴展標準(Vetro 等,2011),并形成了聯(lián)合多媒體模型(joint multiview model,JMVM)。該模型集成了視點間亮度補償、自適應參考幀濾波、MotionSkip 模式以及視點合成預測等基于宏塊的編碼工具。類似于H.264/AVC 的MVC,JCT-3V在H.265/HEVC的基礎(chǔ)上提出了擴展編碼標準MV-HEVC(multi-view HEVC)(Tech 等,2016)。我國從1996 年開始參加MPEG 專家組的工作,不斷有提案被接受,在視頻壓縮的技術(shù)成果逐漸具備了國際競爭力。2002 年6 月,我國成立了數(shù)字音視頻編解碼技術(shù)標準工作組AVS(audio-video standard),目標是制定一個擁有自主知識產(chǎn)權(quán)的音視頻編碼標準。至今,其版本已經(jīng)發(fā)展到AVS3。基于國際編碼標準,國內(nèi)學者在MVC 快速算法、率失真控制和基于深度學習的多視點編碼等方面進行了深入研究,取得了極大的進展。
除了高效的壓縮編碼標準之外,精心設(shè)計的預測編碼結(jié)構(gòu)能充分利用多視點視頻信號中的時空相關(guān)性和視點間的相關(guān)性。目前,MVC 中廣泛采用的分層B 幀編碼結(jié)構(gòu)(hierarchical B pictures,HBP)結(jié)合運動估計和視差估計,獲得了較高的壓縮效率和優(yōu)秀的率失真性能。
2)面向編碼的多視點視頻預處理。利用多視點視頻擴展編碼標準壓縮多視點視頻信號時,能在編碼標準框架下同時消除時空冗余和視點間冗余。然而,多視點視頻信號往往存在幾何偏差和顏色偏差,影響了編碼壓縮效率。因此,多視點視頻信號的預處理也能提升壓縮性能。Doutre 和Nasiopoulos(2009)對多視點視頻信號進行顏色校正,提升了視點之間顏色一致性和MVC 的視點間預測性能。Fezza 等人(2014)提出了基于視點間對應區(qū)域直方圖匹配方法的多視點顏色校正算法,以提升壓縮性能。福州大學團隊Niu 等人(2020)針對多視點視頻信號中存在的全局、局部和時間顏色差異,提出了由粗到細的多階段顏色校正算法。
3)多視點視頻快速編碼。由于各種編碼標準集成了多種復雜技術(shù),且多視點視頻巨大的數(shù)據(jù)量也會帶來巨大的時間開銷。因此,多視點彩色視頻編碼的計算復雜度問題長期以來都是難題。針對各種編碼標準和多視點擴展編碼標準,學者們廣泛地開展了快速編碼算法研究。典型的手段包括減少搜索點數(shù)(Cernigliaro 等,2009)、利用MVC 的編碼模式的時空相關(guān)性和視點相關(guān)性減少當前編碼宏塊的搜索數(shù)量(Zeng 等,2011)以及基于像素級與圖像組級的并行搜索算法(Jiang和Nooshabadi,2016)等。
國內(nèi)學者也提出了若干快速編碼算法。Li等人(2008)通過減小搜索范圍和參考幀數(shù)目來提高MVC速度。在MVC快速宏塊模式選擇方面,Shen等人(2010)利用相鄰視點的宏塊模式輔助當前視點的宏塊模式選擇,提高編碼速度。Ding 等人(2008)通過共享視點間編碼信息(例如率失真代價、編碼模式和運動矢量)來降低MVC 的運動估計的計算復雜度。MVC 中,大量宏塊的最優(yōu)模式為DIRECT/SKIP模式。根據(jù)此特性,Zhang 等人(2013b)提出了Direct 模式的提前判斷方法,從而避免所有宏塊模式的搜索過程。Yeh 等人(2014)利用已編碼視點的最大和最小率失真代價形成閾值條件,用于提前終止當前編碼視點的每個宏塊編碼模式選擇過程。Pan 等人(2015)提出了一種Direct 模式的快速模式?jīng)Q策算法,并利用MVC 特性,設(shè)計了運動和視差估計的提前終止算法。Li 等人(2016b)利用宏塊模式的一致性和率失真代價的相關(guān)性,提出了Direct 模式的判定方法。
4)MVC 的碼率控制。碼率控制旨在提高網(wǎng)絡帶寬利用率和視頻重建質(zhì)量。與單視點視頻編碼的碼率控制不同,MVC 的碼率控制需要考慮視點級的碼率分配。Vizzotto 等人(2013)在幀級和宏塊級實現(xiàn)了一種分層MVC 比特控制方法,該方法充分利用了當前幀和以編碼相鄰幀比特分布的相關(guān)性。Yuan 等人(2015)提出了視點間編碼依賴關(guān)系模型,認為視點間的依賴關(guān)系主要由編碼器的跳躍(SKIP)模式導致,并據(jù)此提出了理論上最優(yōu)的多視點視頻碼率分配與控制算法。
5)基于深度學習的MVC。Lei 等人(2022)提出了基于視差感知參考幀生成網(wǎng)絡(disparity-aware reference frame generation network,DAG-Net)生成深度虛擬參考幀。該網(wǎng)絡包含多級感受野模塊、視差感知對齊模塊和融合重建模塊,能轉(zhuǎn)換不同視點之間的視差關(guān)系,生成更可靠的參考幀。這些參考幀插入到3D-HEVC 的參考幀列表中,能提升MVC 的編碼效率。Peng 等人(2022)提出了基于多域相關(guān)學習和劃分約束網(wǎng)絡的深度環(huán)路濾波方法。其中,多域相關(guān)學習模塊充分利用多視點的時間和視點相關(guān)性來恢復失真視頻的高頻信息,分割約束重建模塊通過設(shè)計分割損失減少壓縮偽影。
多視點彩色加深度(multiview video plus depth,MVD)是一種典型的場景表示方式,MVD 信號包括多視點視頻信號和對應的深度視頻信號。多視點視頻信號是利用相機陣列對在同一場景從不同位置采集得到,而對應深度視頻可采用深度相機獲取或者利用軟件估計得到。與傳統(tǒng)的視頻信號相比,MVD的數(shù)據(jù)量隨著相機數(shù)目的增加而成倍增加。
1)多視點+深度視頻國際編碼標準。為了編碼MVD 信號,JCT-3V 基于HEVC 提出了3D-HEVC 的擴展編碼標準(Tech 等,2016),該標準能充分利用深度視頻的特性和視點之間的相關(guān)性,提升MVD 信號的編碼性能。針對沉浸式視頻的最新編碼壓縮標準為ISO/IEC MIV(MPEG immersive video),該標準定義了比特流格式和解碼過程。沉浸式視頻參考軟件TMIV(test model for immersive video)包括編碼器、解碼器和渲染器等,并提供了測試用例、測試條件、質(zhì)量評估方法和實驗性能結(jié)果等。在TMIV 中,多個紋理和幾何視圖使用傳統(tǒng)的2D 視頻編解碼器編碼為補丁的圖集,同時優(yōu)化比特率、像素率和質(zhì)量。
2)多視點+深度視頻快速編碼。在基于H.265/HEVC 及多視點視頻擴展標準方面,學者們提出了基于MV-HEVC和3D-HEVC標準的多視點深度視頻快速編碼算法(張洪彬 等,2016)。由于深度視頻編碼深度視頻信息反映3D場景的幾何信息,最簡單的方法是對深度視頻下采樣,降低編碼復雜度和降低碼率,代價為丟失場景信息,導致繪制失真。Tohidypour等人(2016)利用已編碼信息,結(jié)合在線學習的方法,調(diào)節(jié)3D-HEVC 編碼中非基礎(chǔ)視點彩色視頻的運動搜索范圍和降低模式搜索的復雜度。Chung 等人(2016)提出了新的幀內(nèi)/幀間預測和快速四叉樹劃分方案,既提高了3D-HEVC 的深度視頻的壓縮率,又提高了壓縮速度。Zhang 等人(2018)針對3DHEVC 中深度視頻編碼模式引入的額外編碼復雜度,提出了兩種深度視頻的幀內(nèi)模式?jīng)Q策方法。Xu等人(2021)基于MV-HEVC 編碼平臺,提出了復雜度分配和調(diào)節(jié),實現(xiàn)了MVC 的編碼復雜度優(yōu)化,已適應于不同的視頻應用系統(tǒng)。在多視點深度視頻方面,Lei 等人(2015)利用MVD 視頻信號中的視點相關(guān)性、彩色和深度視頻的相關(guān)性,提出了多視點深度視頻快速編碼算法。Peng 等人(2016)和黃超等人(2018)基于3D-HEVC 提出了聯(lián)合預處理和快速編碼系列算法,增強了MVD 信號中深度視頻的時間不一致性,提高了壓縮效率和編碼速度。
3)多視點+深度視頻編碼碼率控制。與MVC 的碼率控制僅需要考慮視點級的碼率分配不同,MVD編碼進一步需要考慮彩色與深度視頻之間的碼率分配。Yuan 等人(2011,2014)最早確定了虛擬視點失真和多視點紋理和深度視頻的編碼失真之間的解析關(guān)系,進而將多視點+深度視頻編碼碼率控制問題建模為拉格朗日優(yōu)化問題,并求得理論上的最優(yōu)解。Chung 等人(2014)提出一種基于新型視點綜合失真模型的比特分配算法,在紋理和深度數(shù)據(jù)之間優(yōu)化分配有限的比特預算,以最大化合成的虛擬視圖和編碼的真實視圖的質(zhì)量。Klimaszewski 等人(2014)提出一種新的多視點深度視頻壓縮質(zhì)量控制方法,建立了深度和紋理量化參數(shù)計算的數(shù)學模型。De Abreu 等人(2015)提出一種在相關(guān)約束條件下有效選擇預測結(jié)構(gòu)及其相關(guān)紋理和深度量化參數(shù)的算法,具有較優(yōu)的壓縮效率和較低的計算復雜度,為交互式媒體應用提供了一種有效的編碼解決方案。Fiengo 等人(2016)利用最新的對凸優(yōu)化工具,提出了幀級比特最優(yōu)速率分配的算法,其碼率控制性能超越標準MV-HEVC。Domański 等人(2021)提出一種可用于比特率控制的視頻編碼器模型,該模型適用于MVD 編碼,從AVC 的模型中,可以快速推導出HEVC 和VVC 的模型。Paul(2018)提出一種基于3 維幀參考結(jié)構(gòu)來提高交互和降低計算時間,增加一個參考幀來提高遮擋區(qū)域的率失真性能,采用視覺注意的比特分配以提供更好的視頻感知質(zhì)量。Liu 等人(2011)提出一種MVD 的視點、彩色/深度級和幀級的聯(lián)合碼率控制算法,利用預編碼及數(shù)理統(tǒng)計分析方法實現(xiàn)視點級、彩色/深度級的比特分配。Zhang等人(2013a)提出了基于視點合成失真模型的多視點深度視頻編碼的區(qū)域位分配和率失真優(yōu)化算法,測試序列的編碼效率得到顯著提高。Li 等人(2021b)提出了一種基于視圖間依賴性和時空相關(guān)性新的多視圖紋理視頻編碼位分配方法,建立了一個基于視圖間依賴關(guān)系的聯(lián)合多視圖率失真模型。該方法在率失真性能方面優(yōu)于其他最先進的算法。
4)基于深度學習的深度視頻編碼。相比于彩色視頻,深度視頻具有更加平滑的內(nèi)容和更大的空域冗余,可以以更小的分辨率進行編碼,以提高編碼效率。針對深度視頻編碼,Li 等人(2022)提出了基于深度上采樣的多分辨率預測框架,該框架對于不同復雜度的深度塊,使用最優(yōu)的分辨率進行編碼,以提高深度視頻編碼效率。
光場圖像壓縮的目的在于去除子視點圖像內(nèi)部冗余以及子視點圖像間冗余。傳統(tǒng)2D 圖像編碼中成熟的幀內(nèi)壓縮技術(shù)可以直接應用于光場圖像壓縮去除子視點圖像內(nèi)部冗余。因此,光場圖像壓縮的相關(guān)研究主要致力于去除視點間冗余(Liu 等,2019)。光場圖像的各子視點圖像由于視差變化具有不規(guī)則變化的顯著特點,根據(jù)建模方法,現(xiàn)有的光場圖像壓縮研究大體可分為基于偽視頻序列的方法、基于優(yōu)化的方法和基于視點重建的方法3類。
1)基于偽視頻序列的方法。光場圖像壓縮的關(guān)鍵在于如何充分利用子視點圖像間的相關(guān)性。相鄰的子視點圖像之間存在著極大比例的重復場景,且由于視差引起的場景變化平緩,與傳統(tǒng)視頻中前后幀中的場景變化較為相似。自然而然地,早期的光場圖像壓縮引入了傳統(tǒng)2D視頻編碼的框架,將光場圖像中的子視點圖按照一定的掃描順序重組為偽視頻序列,將視點間冗余轉(zhuǎn)化為偽視頻序列的幀間冗余,直接利用成熟的視頻壓縮標準中的幀間預測技術(shù)去除視點間冗余。因此,此類研究方案的重點在于如何構(gòu)建合理的子視點排列順序以及預測結(jié)構(gòu),從而在偽視頻序列的幀間編碼過程中盡量減少編碼視點與參考視點間的殘差信息,增加壓縮效率。針對掃描順序,國內(nèi)一些早期的工作(Dai 等,2015)中提出了橫向、縱向、之字形和環(huán)形的掃描方案,且均取得了一定的性能提升。而在此類工作中,影響力較大的是由中國科學技術(shù)大學Li 等人(2017)提出的2 維層級編碼框架。在此框架中,首先將所有視點圖劃分為4 個象限,再在每個象限中按固定位置劃分為4 個編碼層次,沿用傳統(tǒng)視頻編碼中多層次編碼的框架,即在編碼過程中首先使用高保真編碼方案壓縮低層次視點圖,并且在高層次視點圖壓縮時作為參考視點。此外,在選取參考視點圖的過程中,通過衡量與不同參考視點間的距離確定最佳的參考視點,進一步提升壓縮效率。此工作為較早提出的完整的光場編碼框架,經(jīng)常被后續(xù)研究引用作為評價標準。此外,Liu等人(2016)將傳統(tǒng)視頻編碼中的可伸縮編碼思想應用到光場壓縮中,提出了一個包括3層分辨率和質(zhì)量可伸縮的光場編碼框架。
基于偽視頻序列的壓縮方法致力于將視點間的相關(guān)性轉(zhuǎn)換為時域相關(guān)性,從而得以利用視頻編碼技術(shù)中的幀間預測技術(shù)去除偽視頻序列的時域冗余。然而,傳統(tǒng)視頻編碼的幀間預測技術(shù)中,只考慮了前后幀場景間的平移運動,用表征上下、左右位移的2 維的運動向量表示。而光場圖像中各個子視點圖像場景間更多的是由于視角變化引起的不規(guī)則運動,這與傳統(tǒng)視頻存在本質(zhì)上的差異。所以,由于缺少針對光場圖像特性的適應性優(yōu)化,基于偽視頻序列的光場編碼方案難以取得最優(yōu)的壓縮性能。
2)基于優(yōu)化的方法。在基于偽視頻序列壓縮方案的基礎(chǔ)上,一部分研究者致力于研究子視點間場景不規(guī)則運動的模型,優(yōu)化原有光場編碼框架中的部分模塊,以期進一步提升編碼效率。這些研究包括基于單應性變化矩陣、圖變換等優(yōu)化方案。Chang等人(2006)針對視點間物體的不規(guī)則變化,首先利用傳統(tǒng)的圖像分割方法獲取物體形狀,繼而提出了一種視差補償算法來估計相鄰子視點圖中該物體的形狀變化,據(jù)此提升預測效率。此外,此工作也在光場編碼基礎(chǔ)框架上提出了改進方案,即使用聚類算法對子視點圖像進行排序,根據(jù)聚類結(jié)果調(diào)整偽視頻幀的排序。Jiang 等人(2017)提出了基于單應性變化矩陣的光場圖像編碼框架優(yōu)化方案。具體的,該方法利用單應性或者多應性變化矩陣將所有子視點圖統(tǒng)一映射到一個或者多個深度面上,繼而在此基礎(chǔ)上求取光場圖像的低秩表示。最后,通過單應性矩陣參數(shù)與低秩矩陣的聯(lián)合優(yōu)化,以實現(xiàn)光場低秩表示數(shù)據(jù)的壓縮。Dib 等人(2020)基于超射線表示的視差模型提出了一個局部低秩逼近方法。超射線由與所有子視點圖像都相關(guān)的超像素點構(gòu)建,通過施加形狀與大小的約束,使得超射線得以表達復雜的場景變換,繼而通過參數(shù)化的視差模型描述每條超射線表示幀內(nèi)的視差局部變化。此模型的最佳參數(shù)將通過交替搜索估計的方法確定。
由于圖信號也能較好地描述圖像中物體的不規(guī)則運動,部分研究者進而將圖變換應用于光場壓縮的視點間預測模塊?;趫D變換的優(yōu)化框架最早由Su 等人(2017)提出,該方法依據(jù)深度信息將所有像素分類并構(gòu)建圖表示,并在此基礎(chǔ)上對子視點圖間場景的不規(guī)則變化進行預測。然而此方案依賴于深度信息,并且基于圖變換的運動預測大幅增加了整體模型的復雜度。針對于此,Rizkallah 等人(2021)提出了一個局部圖變換的方法,通過圖規(guī)約技術(shù)以及譜聚類來減少圖的維度,從而控制算法的整體復雜度,并提出了不同規(guī)約方案下重建子視點圖的率失真準則模型,以實現(xiàn)在特定復雜度限制下尋找最優(yōu)圖構(gòu)建的目的。
在光場圖像壓縮乃至傳統(tǒng)視頻壓縮領(lǐng)域中,如何描述鄰近視點或幀間場景間的不規(guī)則運動是一個長久以來懸而未決的難題。類似于圖變化或者單應性變化矩陣等基于人工設(shè)計函數(shù)的優(yōu)化方案受限于其預測的準確率,對整體編碼性能提升較為有限,且極大地增加了整體編碼框架的復雜度,給實際應用帶來了挑戰(zhàn)。
3)基于視角重建的方法。相比于傳統(tǒng)使用手工設(shè)計函數(shù)描述復雜運動的優(yōu)化方案,直接使用智能圖像生成技術(shù)以重建鄰近視點圖的方案更為簡潔、高效。深度神經(jīng)網(wǎng)絡中的先驗知識顯著減少了重建光場圖像所需要傳遞的信息,大幅提升了光場圖像壓縮框架的效率,因此成為當前光場壓縮研究的重要方向。
該類方法首先在所有待壓縮的子視角圖中選取數(shù)幅作為關(guān)鍵視角(Chen 等,2018),壓縮并傳送至解碼端。然后,在編碼非關(guān)鍵子視角圖時,將重建后的關(guān)鍵視角圖作為輸入,利用圖像生成網(wǎng)絡合成非關(guān)鍵視角圖。最后,合成的非關(guān)鍵視角圖與原圖之間的殘差將被壓縮并傳送至解碼端。如香港城市大學Hou等人(2019)使用基于深度學習的角度超分辨率模型用于預測非關(guān)鍵視角圖。北京大學Jia 等人(2019)使用對抗生成模型來學習子視角圖像結(jié)構(gòu)中的角度以及空間變化,從而得以實現(xiàn)更準確的預測非關(guān)鍵視角幀的預測。針對低碼率條件下的光場壓縮,Ahmad 等人(2020)提出了基于剪切小波變換的非關(guān)鍵視角預測方法。Bakir 等人(2021)提出了一種自適應的非關(guān)鍵視點丟棄的策略,并在解碼端對生成的非關(guān)鍵幀進行圖像增強后處理,以進一步提升整體壓縮效率。
焦棧圖像是光場圖像的降維,其壓縮是一個全新的課題。相比于傳統(tǒng)2D圖像的固定視點、固定對焦的采樣模式,焦棧圖像需要在某一時刻對不同深度的場景進行稠密采集,以獲取完整的場景圖像數(shù)據(jù)。焦棧圖像序列與普通視頻具有不同的成像特性和冗余模型,普通視頻幀之間的冗余模型通過運動矢量來刻畫,而焦棧圖像序列則通過焦深來刻畫,因此現(xiàn)有編碼框架不適用于焦棧圖像壓縮的目標。
焦棧圖像編碼方法可分為兩類,即基于靜態(tài)圖像的編碼和基于視頻的編碼。在基于靜態(tài)圖像的編碼方法中,Sakamoto 等人(2012a)將焦棧圖像序列劃分為尺寸為8 的3D 像素塊,然后對每個3D 像素塊進行3D-DCT(3D discrete cosine transform)變換和線性量化,并按照頻率從低到高的順序排列為1D(one dimension)信號,最后利用霍夫曼編碼方法將信號寫入碼流完成編碼。為了抑制圖像退化噪聲,Sakamoto等人(2012b)進一步利用3D離散小波變換對焦棧圖像進行處理,相比于基于3D離散余弦變換的方法,有效抑制了編碼產(chǎn)生的塊效應失真。Khire 等人(2012)提出的方法采用差分脈沖編碼調(diào)制和相鄰圖像的信息來估計冗余度,獲得了比JPEG 和JPEG2000更高的壓縮效率。
基于視頻的編碼方法考慮了序列各幀之間的相關(guān)性,通過運動搜索進行幀間預測,相比于基于靜態(tài)圖像的編碼方法可獲得更高的壓縮性能。如van Duong 等人(2019)面向光場重聚焦應用,將焦棧圖像排列為視頻序列,直接使用HEVC 編碼器進行壓縮。然而,這顯然不能挖掘圖像間的焦深冗余。為此,Wu 等人(2020b,2022)分別提出了基于高斯1D維納濾波的塊模式單向/雙向焦深預測,以及分層焦深預測的方法,較早地開展了焦深冗余模型的構(gòu)建。該類型相比于直接利用視頻編碼的方案,壓縮性能上有了極大提升。然而,需要強調(diào)的是,焦棧圖像壓縮的研究剛剛起步,尚有許多未知的問題需要探索和研究。
3D 點云是具有法線、顏色和強度等屬性的無序3D 點集。大規(guī)模3D 點云數(shù)據(jù)的高效編碼壓縮技術(shù)具有廣泛的市場應用前景?,F(xiàn)有研究主要可分為傳統(tǒng)壓縮方法和智能壓縮方法兩類。
1)傳統(tǒng)壓縮方法。為了實現(xiàn)點云數(shù)據(jù)的高效壓縮,工業(yè)界和學術(shù)界提出了多種解決方案(Mekuria等,2017)。點云壓縮方法是通過八叉樹等表示方法將點云進行預處理,主要思路有3種。第1種是通過映射,將3 維點云轉(zhuǎn)換成2 維圖像后,采用傳統(tǒng)的圖像或者視頻編碼工具進行編碼操作;第2 種是首先直接將數(shù)據(jù)矢量線性變換為合適的連續(xù)值表示,獨立地量化其元素,然后再使用多種無損的熵編碼對得到的離散表示進行熵編碼操作;第3 種是將八叉樹空間索引信息直接進行編碼。根據(jù)組織機構(gòu)不同,主要可分為運動圖像專家組(MPEG)提出的點云壓縮(point cloud compression,PCC)標準、音視頻標準組(audio video coding standards workgroup,AVS)提出的點云壓縮參考模型(point cloud reference model,PCRM)和谷歌公司研發(fā)的“Draco”編碼軟件3類。
2017年MPEG啟動了關(guān)于點云壓縮的技術(shù)征集提案,此后一直在評估和提升點云壓縮技術(shù)的性能。根據(jù)點云壓縮的不同應用場景,MPEG劃分了3類點云數(shù)據(jù),并針對3 類點云開發(fā)了3 種不同的編碼模型,分別是用于自動駕駛的動態(tài)獲取點云的模型(LiDAR point cloud compression,L-PCC)、針對用于表示靜止對象和固定場景的靜態(tài)點云模型(surface point cloud compression,S-PCC)和針對用于沉浸式多媒體通信的動態(tài)點云的模型(video-based point cloud compression,V-PCC)。其中,動態(tài)獲取點云指點云獲取設(shè)備一直處于運動狀態(tài),獲取的點云場景也處在實時變化之中;靜態(tài)點云指被掃描物體與點云獲取設(shè)備均處于靜止狀態(tài);動態(tài)點云指被掃描物體是運動的,但是點云獲取設(shè)備處于靜止狀態(tài)。由于L-PCC 和S-PCC 的編碼框架相似,2018 年1 月MPEG對現(xiàn)有的L-PCC和S-PCC進行整合,推出了全新的測試模型(geometry-based point cloud compression,G-PCC)。2022 年MPEG 公布了第1 代點云壓縮國際標準V-PCC(ISO/IEC 23090-5)和G-PCC(ISO/IEC 23090-9)(Schwarz等,2019)。其中,V-PCC適用于點分布相對均勻且稠密的點云,G-PCC 適用于點分布相對稀疏的點云。G-PCC 的幾何信息編碼部分主要是通過坐標變換和體素化(Schnabel 和Klein,2006)的方法進行位置量化與重復點移除,然后通過八叉樹構(gòu)建將3 維空間劃分為層次化結(jié)構(gòu),將每個點編碼為它所屬的子結(jié)構(gòu)的索引,最后通過熵編碼生成幾何比特流信息。屬性信息部分則是通過預測變換、提升變換(Liu 等,2020)和區(qū)域自適應分層變換(region-adaptive hierarchical transform,RAHT)(de Queiroz 和Chou,2016)等進行冗余消除。V-PCC 則通過將輸入點云分解為塊集合,這些塊可以通過簡單的正交投影獨立地映射到常規(guī)的2D 網(wǎng)格,再通過諸如HEVC 和VVC 等傳統(tǒng)2 維視頻編碼器來處理紋理信息及附加元數(shù)據(jù)。
為了保障我國數(shù)字媒體相關(guān)產(chǎn)業(yè)的安全發(fā)展,AVS也成立了點云工作組,并在2019年12月發(fā)布了國內(nèi)第1 個點云壓縮編碼參考模型PCRM(point cloud reference model)。PCRM 的核心編碼思想與G-PCC 類似,同樣是依據(jù)點云的幾何結(jié)構(gòu)直接編碼。PCRM 的幾何編碼主要是通過多叉樹結(jié)構(gòu)對點云劃分,利用節(jié)點之間的關(guān)系和占位信息對點云編碼。PCRM 的屬性編碼有兩種方案,一種是直接預測編碼;另一種是基于變換的編碼,即對點云的屬性信息進行離散余弦變換。
Draco 架構(gòu)是谷歌媒體團隊提出的開源3D 數(shù)據(jù)壓縮解決方案,使用k-維樹等多種空間數(shù)據(jù)索引方法對屬性和幾何信息進行量化、預測壓縮以及熵編碼以達到高效壓縮目的。
2)智能壓縮方法。隨著深度學習的發(fā)展及其在數(shù)據(jù)編碼領(lǐng)域的應用,研究人員提出了基于深度學習的端到端點云編碼方法。2021年MPEG也開展了基于深度學習的點云編碼(artificial intelligencepoint cloud compression,AI-PCC)技術(shù)探索,并提出標準測試流程?;谏疃葘W習的端到端點云編碼方法主要涉及基于體素表示、基于點表示和深度熵模型3種方式。
基于體素表示的方法是將點云轉(zhuǎn)換為體素化的網(wǎng)格表示,再對體素進行編碼與壓縮。Quach 等人(2019,2020)和Wang 等人(2021b)受基于學習的圖像壓縮方法的啟發(fā),使用基于3D 卷積的自編碼器,在體素上提取潛在表示作為點云的幾何編碼并在體素上執(zhí)行二分類任務以重建點云幾何信息。由于點云的稀疏性,點云占據(jù)的體素只占全部空間的小部分,體素網(wǎng)格中的大部分空間保持空白,導致存儲和計算的浪費。為了克服這一缺陷,南京大學Wang等人(2021a)利用稀疏體素代替稠密體素,并通過Minkowski 稀疏卷積來降低內(nèi)存要求以提升編碼性能。
基于點表示的方法直接使用神經(jīng)網(wǎng)絡處理點云,而不需要額外的體素化。浙江大學Huang 等人(2019)直接使用自編碼器用于點云幾何壓縮。深圳大學Wen 等人(2020b)提出了一種用于大規(guī)模點云的自適應八叉樹劃分模塊,并使用動態(tài)圖卷積神經(jīng)網(wǎng)絡作為點云自編碼器的核心骨干網(wǎng)絡。為了獲得更好的率失真性能,Wiesmann 等人(2021)使用核點卷積,南京大學Gao 等人(2021)使用神經(jīng)圖采樣來充分利用點的局部相關(guān)性。
深度熵模型將點云構(gòu)建成八叉樹形式,并在八叉樹上應用神經(jīng)網(wǎng)絡估計概率熵模型。Huang 等人(2020a)使用簡單多層感知機,根據(jù)在八叉樹上收集到的上下文信息來進行熵估計。Biswas 等人(2020)考慮點云序列間的上下文,并將該上下文信息引入到神經(jīng)網(wǎng)絡估計的熵模型中,以提升點云序列編碼與壓縮的性能。北京大學Fu 等人(2022)基于注意力機制,充分利用長距離的上下文信息,以進一步提升編碼與壓縮性能。為了避免過多的上下文信息所引入的額外編解碼復雜度,南京大學Wang 等人(2022a)提出了輕量級SparsePCGC(sparse point cloud grid compression)模型,該模型已參與了最新的MPEG AI-PCC 的基線評測。目前,使用深度學習技術(shù)進行點云屬性壓縮的工作較少,是一個有待于進一步探索的領(lǐng)域。目前代表性的方法是由中山大學Fang 等人(2022)提出的3DAC(three dimensional attribute coding)算法,該方法首先將帶有屬性的點云構(gòu)建為RAHT 樹,并使用神經(jīng)網(wǎng)絡為RAHT 樹構(gòu)建上下文熵模型,以消除統(tǒng)計冗余。此外,Tang 等人(2018,2020)提出基于隱函數(shù)表示的自編碼器結(jié)構(gòu),以實現(xiàn)3D/4D點云數(shù)據(jù)的高效壓縮。
6DoF 視頻的典型應用是擴展現(xiàn)實(extended reality,XR)(Hu 等,2020)。XR 業(yè)務的典型特征是高數(shù)據(jù)速率和嚴格的時延預算,因此被歸類在5.5G愿景中的eMBB(enhanced mobile broadband)和URLLC(ultra reliable low latency communication)業(yè)務之間。早在2016 年,3GPP(3rd generation partnership project)已開展支撐XR 業(yè)務的標準化工作,其中服務和系統(tǒng)工作組定義了高速率和低延遲XR 應用程序。2018 年,多媒體編解碼器、系統(tǒng)和服務工作組繼續(xù)開展這項工作,報告了相關(guān)流量特征。與此同時,系統(tǒng)架構(gòu)和服務工作組標準化了新的5G服務質(zhì)量標識符,以支持包括XR 在內(nèi)的交互式服務。各種XR 應用程序和服務都有其用戶設(shè)置、流量和服務質(zhì)量指標,3GPP SA4 為XR 業(yè)務確定了20 多個XR 用例,對無線解決方案的性能評估提出了挑戰(zhàn)。在此基礎(chǔ)上,3GPP 建議將XR 用例分為3 個基本類別,即虛擬現(xiàn)實(virtual reality,VR)、增強現(xiàn)實(augmented reality,AR)和云游戲(cloud game,CG)。對于無線傳輸來說,XR業(yè)務的兩個關(guān)鍵性能指標是容量和功耗。在方案對比之前,所有參會組織為容量和延遲約束定義了以用戶為中心的聯(lián)合度量方式,即滿足用戶數(shù)。由于XR 業(yè)務對時延敏感,因此延遲接收到的數(shù)據(jù)包與丟失的數(shù)據(jù)包是等同的,這些超時接收到的數(shù)據(jù)包將被統(tǒng)計到誤包率中。
目前較為主流的VR 服務模式是基于視場角的數(shù)據(jù)流(viewport-dependent streaming,VDS)。VDS是一種自適應流方案,使用網(wǎng)絡狀態(tài)和用戶姿勢信息來調(diào)整3D視頻的比特率(Yaqoob等,2020)。具體而言,就是基于用戶的位置和方向?qū)⑷耙曨l在3D空間上劃分為獨立的子圖像,流服務器通過存儲不同質(zhì)量(即視頻分辨率、壓縮和幀率)的子圖像提供多種表示,由用戶動作來觸發(fā)新視頻內(nèi)容的傳輸。下載視場(field of view,F(xiàn)OV)中的所有子圖后,用戶的XR終端設(shè)備將進行渲染,然后進行顯示。VDS的使用意味著VR 服務伴隨著上行頻繁更新的動作、控制信號,會帶來高速的下行傳輸速率。對于XR CG,控制信號包括手持控制器輸入和3DoF/6DoF 運動樣本,即旋轉(zhuǎn)數(shù)據(jù)(“滾動”、“俯仰”和“偏航”)以及用戶設(shè)備的3D 空間位移數(shù)據(jù)。相關(guān)研究工作主要包括基于用戶視口軌跡的預測方案和基于混合方法的預測方案兩類。
1)基于用戶視口軌跡的預測方案。Nasrabadi等人(2020)提出了一種基于聚類的視口預測方法,該方法結(jié)合當前用戶的視口變化軌跡和以前觀看者的視口軌跡。算法每隔一定的時間將以前的用戶基于他們的視口模式進行聚類,并決定當前用戶所屬類別,從而利用該類中的視口變化模式預測當前用戶的未來視口。Feng 等人(2020)提出的LiveDeep方法采用了一種混合方法來解決VR 直播流媒體的訓練數(shù)據(jù)不足的問題,并基于卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)模型分析視頻內(nèi)容,通過長短時記憶循環(huán)神經(jīng)網(wǎng)絡對用戶感知軌跡進行預測,以消除單一模型造成的不準確性。類似地,Xu等人(2018)為了避免頭部運動預測錯誤,提出了一種概率視口預測模型,該模型利用了用戶方向的概率分布。Yuan 等人(2020)采用高斯模型估計用戶未來運動視角,并采用Zipf 模型估計不同視角的優(yōu)先級,進而保障用戶觀看視角的時間—空間質(zhì)量一致性。Hou 等人(2021)提出了基于長短時記憶循環(huán)神經(jīng)網(wǎng)絡的視口預測模型。該模型使用過去的頭部運動來預測用戶注視點的位置,實現(xiàn)了最優(yōu)段預取方法。
Fan 等人(2020)提出利用傳感器和內(nèi)容特性來預測未來幀中每個Tile 的觀看概率。為了提高預測性能,提出了幾種新的增強方法,包括生成虛擬視口、考慮未來內(nèi)容、降低特征采樣率以及使用更大的數(shù)據(jù)集進行訓練。Chen 等人(2021)提出了一種用戶感知的視口預測算法Sparkle。該方法首先進行測量研究,分析真實的用戶行為,觀察到視圖方向存在急劇波動,用戶姿勢對用戶的視口移動有顯著影響。此外,跨用戶的相似性在不同的視頻類型中是不同的?;诖?,該方法進一步設(shè)計了基于用戶感知的視口預測算法,通過模擬用戶在分片地圖上的視口運動,并根據(jù)用戶的軌跡和其他類似用戶在過去時間窗口的行為來確定用戶將如何改變視口角度。
2)基于混合方法的預測方案。該類方法在視口預測時除了考慮用戶的頭部跟蹤歷史數(shù)據(jù),還結(jié)合了其他能反映視頻內(nèi)容特性的數(shù)據(jù)。Nguyen 等人(2018)將全景顯著性檢測模型與頭部跟蹤歷史數(shù)據(jù)相結(jié)合,以實現(xiàn)頭部運動預測的精細化預測。Ban等人(2018)利用360°視頻自適應流媒體中的跨用戶行為信息進行視口預測,試圖同時考慮用戶的個性化信息和跨用戶行為信息來預測未來的視口。與以往基于圖像像素級信息的視口預測方法不同,Wu等人(2020a)提出了基于語義內(nèi)容和偏好的視口預測方法,從嵌入的觀看歷史中提取用戶的語義偏好作為空間注意,以此幫助網(wǎng)絡找到未來視頻中感興趣的區(qū)域。類似地,F(xiàn)eng 等人(2021b)提出的LiveROI(live region of interest)視口預測方案采用實時動作識別方案來理解視頻內(nèi)容,并根據(jù)用戶軌跡動態(tài)更新用戶偏好模型,在不需要歷史用戶或視頻數(shù)據(jù)的情況下有效預測視口。實時視口預測機制LiveObj(live object)通過對視頻中的對象進行語義檢測并跟蹤,再通過強化學習算法實時推斷,從而實現(xiàn)用戶的視口預測。Zhang 等人(2021b)將頭部運動預測任務建模為稀疏有向圖學習問題。在最新的研究中,Maniotis 和Thomos(2022)將VR 視頻在邊緣緩存網(wǎng)絡中的內(nèi)容放置看做馬爾可夫決策過程,然后利用深度強化學習算法確定最優(yōu)緩存放置。Kan 等人(2022)提出了一種名為RAPT360(rate adaptive with prediction and trilling 360)的策略,通過擬合不同預測長度下基于拉普拉斯分布的預測誤差概率密度函數(shù),以提高視口預測方法的準確性。提出的視口感知自適應平鋪方案可根據(jù)視口的2 維投影的形狀和位置分配3種類型的平鋪粒度。
當前,6DoF 視頻傳輸優(yōu)化的研究重心已逐漸從全景視頻碼流轉(zhuǎn)向點云碼流。隨著數(shù)據(jù)量的顯著增大,6DoF 視頻傳輸優(yōu)化不僅需要考慮視口的自適應預測,還要在編碼壓縮時考慮到碼流容錯和糾錯能力。此外,為了應對移動終端算力不足的限制,還需要考慮邊緣服務器的動態(tài)配置與卸載。
6DoF 視頻允許用戶自由選擇觀看視角,這就需要給用戶提供大量可供自由選擇的視點內(nèi)容。然而,對任意視角進行視覺內(nèi)容的采集需要記錄的數(shù)據(jù)量非常大,給采集、存儲和傳輸過程造成很大的負擔。因此,在實際的場景環(huán)境中,通常采集場景中有限的視點信息,并借助已有視點信息,依靠虛擬視點繪制技術(shù)繪制出未采集的視點(即虛擬視點)畫面,以供用戶自由切換。
現(xiàn)有的虛擬視點圖像繪制技術(shù)研究正向6DoF方向發(fā)展(Jin 等,2022)。虛擬視點技術(shù)的相關(guān)研究與應用大部分還停留在水平基線繪制階段??紤]到平移自由度是沉浸式視頻系統(tǒng)中向用戶提供運動視差的關(guān)鍵,MPEG 開展了關(guān)于平移自由度的探索實驗。其中,基于4 參考視點的虛擬視點視覺內(nèi)容繪制算法可以在用戶切換觀看視點時提供更多的平移自由度,成為近年來的研究熱點。繪制算法存在影響用戶感知的偽影、背景滲透等繪制失真,且3 維映射環(huán)節(jié)存在計算冗余導致繪制速度較慢,同時參考視點的數(shù)量增長進一步增加了3 維映射環(huán)節(jié)的時間消耗,所以繪制技術(shù)還存在改進的空間。以下將從解碼后濾波增強和虛擬視點合成兩個角度展開討論。
3.1.1 深度圖濾波
由于深度圖紋理較少,通常會在編碼端以高壓縮比進行編碼,從而使得解碼端的深度圖質(zhì)量較低,這給虛擬視點繪制帶來挑戰(zhàn)。Yang 等人(2015a)提出了直接利用編碼參數(shù)(如運動矢量、塊模式等)來進行深度圖濾波的方法。Yuan 等人(2012)證明3D視頻編碼誤差服從平穩(wěn)白噪聲的分布規(guī)律,并據(jù)此首次提出了基于維納濾波的深度圖濾波和虛擬視圖濾波方法。Yang 和Zheng(2019)提出了一種新型局部雙邊濾波器,為不太可能受到噪聲影響的像素賦予了更高的權(quán)重,但沒有徹底解決邊緣輪廓中的不連續(xù)性問題。Yang等人(2019)和He等人(2020a)提出了一種跨視點的多邊濾波方法,最終提升了虛擬視點繪制質(zhì)量。He 等人(2020b)針對有損編碼造成的深度失真提出了一種跨視點優(yōu)化濾波方法,該方法設(shè)計了一個互信息度量來模擬跨視點質(zhì)量一致性的約束,其中包括數(shù)據(jù)精度和空間平滑性,可以恰當?shù)靥幚韺ο筮吘壣系恼疋徍湾e位偽影。
3.1.2 點云上采樣
點云上采樣任務的目標是對低分辨率稀疏點云進行上采樣,生成一個密集、完整且均勻的點云,并需要保持目標物體的形狀?,F(xiàn)有的點云上采樣的方法大致可以分為基于優(yōu)化和基于深度學習兩大類。
1)基于優(yōu)化方法的模型。該類型方法一般依賴于幾何先驗知識或者一些額外的場景屬性。為了上采樣稀疏點集,Alexa等人(2003)提出在局部切線空間的Voronoi 圖頂點處插入點。Lipman 等人(2007)引入了局部最優(yōu)投影算子來重新采樣點并基于L1范數(shù)重建曲面。Huang 等人(2009)設(shè)計了一種帶迭代正態(tài)估計的加權(quán)策略,以整合具有噪聲、異常值和非均勻性的點集。Huang 等人(2013)提出邊緣感知的點集重采樣方法,以實現(xiàn)漸進式點集上采樣。Wu等人(2015)通過引入新的點集表示方法,以改善孔洞和缺失區(qū)域的填充質(zhì)量。由于上述方法在建模時依賴于目標點云的先驗假設(shè),僅適用于光滑平面,對含有大量噪聲的稀疏點云上采樣效果有限。
2)基于數(shù)據(jù)驅(qū)動的模型。Yu 等人(2018b)首次提出了基于數(shù)據(jù)驅(qū)動的點云上采樣模型PU-Net(point cloud upsampling network)。相比基于優(yōu)化方法的模型,PU-Net 顯著提升了點云上采樣的性能。為了充分利用點云中的全局與局部幾何結(jié)構(gòu),ECNet(edge-aware point set consolidation network)(Yu等,2018a)實現(xiàn)了邊緣感知點云上采樣,進一步提高了表面重建質(zhì)量。為了處理大規(guī)模點集,Wang等人(2019)提出的MPU 模型在訓練集生成時,將上采樣目標物體分割成小尺度的片元。
根據(jù)模型改進的手段不同,現(xiàn)有的研究工作主要可分為4 類。1)基于先進的神經(jīng)網(wǎng)絡架構(gòu)。如PU-GAN(point cloud upsampling adversarial network)(Li等,2019a)通過利用生成對抗網(wǎng)絡學習合成潛伏空間中均勻分布的點。PU-GCN(Qian等,2021)基于圖卷積網(wǎng)絡來高效提取點云局部結(jié)構(gòu)信息。PUTransformer(Qiu 等,2022)借助多頭自注意力機制和位置編碼,以增強模型的表示學習能力。PUFAGAN(Liu 等,2022)通過分析點云的頻域信息,進一步增強模型的表達和學習能力。2)基于幾何先驗的模型設(shè)計。如PUGeo-Net(geometry-centric network for 3D point cloud upsampling)(Qian等,2020)不僅利用點云的坐標信息,還使用了點云的法向量信息來顯式學習目標物體的局部幾何表示。深圳大學Zhang等人(2021a)提出了基于可微渲染的點云上采樣網(wǎng)絡,通過最小化含有重建損失和渲染損失的復合損失函數(shù)來生成高質(zhì)量的稠密點云。Dis-PU(point cloud upsampling via disentangled refinement)(Li等,2021a)首先生成一個能覆蓋物體表面的稠密點云,然后再通過微調(diào)點的位置來保證點云的分布均勻性。3)任意倍數(shù)上采樣策略。Meta-PU(meta point cloud upsampling)(Ye 等,2022)采用元學習的方式動態(tài)調(diào)節(jié)上采樣模塊的權(quán)重,從而使得模型訓練一次就可以支持不同倍率上采樣需求。在線性近似理論的基礎(chǔ)上,Qian 等人(2021)自適應地學習插值權(quán)重以及高階近似誤差。Mao 等人(2022)在歸一化流約束下的特征空間中構(gòu)建可學習的插值過程。Zhao 等人(2022)選擇多個靠近物體隱式表面的體素化的點云中心作為種子點,再將種子點密集且均勻地投射到物體的隱式表面,最后通過最遠點采樣,實現(xiàn)任意倍率的點云上采樣任務。4)自監(jiān)督學習策略。為了提升模型的泛化性。SPU-Net(selfsupervised point cloud upsampling)(Liu 等,2022)將自監(jiān)督學習應用在點云上采樣任務中??傮w而言,現(xiàn)有基于學習的方法依賴于數(shù)據(jù)集特性,在實際應用時的泛化性能仍有很大提升空間。未來結(jié)合優(yōu)化和數(shù)據(jù)驅(qū)動方法,提升點云上采樣任務的性能是一個很有潛力的研究方向。
按照繪制機理不同,虛擬視點合成方法可根據(jù)6DoF 視頻內(nèi)容劃分為基于模型的繪制(model based rendering,MBR)和基于圖像的繪制(image based rendering,IBR)兩類。MBR是利用3維網(wǎng)格或者點云數(shù)據(jù)建立3 維立體模型,從而重建出趨于真實的場景(Chen 等,2019)。其中,在基于網(wǎng)格的表示方式中,通過基于三角形的方式來表示場景中的對象,對于靜態(tài)場景可以較好地通過數(shù)十、數(shù)百或者數(shù)千幅輸入圖像的匹配特征進行劃分,獲得明確的3D 模型。然而,由于網(wǎng)格的不規(guī)則性和低細節(jié),從重建的場景中生成動態(tài)的新對象是一項困難的任務。MBR 方法適用于簡單場景,復雜場景中數(shù)據(jù)量會隨著場景復雜度的增加而急劇增長,不適用于追求強烈交互感的沉浸式場景。IBR 方法是使用獲取的圖像的顏色值來恢復場景的外觀,目前有兩種方式,即基于光場圖像的繪制方法和基于深度圖像的繪制方法(depth image-based rendering,DIBR)(Bonatto 等,2021)。與DIBR 技術(shù)相比,基于光場圖像的繪制由于光場數(shù)據(jù)中含有大量不易壓縮的高頻信息,實際采集、存儲、傳輸以及終端內(nèi)容生成的任務都更重,而且產(chǎn)生重影、偽影等失真的概率也更大。DIBR 使用的數(shù)據(jù)更簡單,易于處理,技術(shù)復雜度低,對設(shè)備要求不高,可以生成更具真實感的視覺內(nèi)容。隨著深度估計算法和多視點視覺內(nèi)容獲取技術(shù)的長足進步,DIBR 技術(shù)已成為實現(xiàn)6DoF 視頻的基礎(chǔ)技術(shù)。基于神經(jīng)輻射場的視點合成方法得到了廣泛關(guān)注(Xu 等,2021)。本部分將重點介紹基于深度圖像的虛擬視點繪制技術(shù)和基于神經(jīng)輻射場的視點合成技術(shù)。
3.2.1 基于深度圖像的虛擬視點繪制
DIBR 技術(shù)包括3 維映射(3D-Warping)、視點融合和空洞填補3 個環(huán)節(jié),考慮到深度圖的質(zhì)量對繪制虛擬視點質(zhì)量也具有重要意義,因此圍繞DIBR技術(shù)的研究可劃分為3D-Warping 優(yōu)化與加速、視點融合優(yōu)化和空洞填補優(yōu)化。
1)3D-Warping 優(yōu)化與加速。3D-Warping 是DIBR 的核心環(huán)節(jié),這一環(huán)節(jié)對虛擬視點生成的質(zhì)量和速度有重要影響。Nonaka 等人(2018)提出了利用圖形處理器并行編程的實時虛擬視點視覺內(nèi)容繪制方法,大幅降低了繪制一幀圖像所需的時間。但這類方法對用戶使用的硬件配置提出了較高的要求,另一方面,在算法層面上不去除冗余,仍會占用一定的開銷。
針對由3D-Warping 環(huán)節(jié)所引起的繪制質(zhì)量不佳問題,Ni 等人(2009)提出了一種針對匯聚相機陣列的啟發(fā)式融合插值算法,融合插值過程中考慮了深度、映射像素位置和視點位置,然而難以自適應地確定合適尺寸的窗口。Fachada 等人(2018)提出一種支持寬基線場景的視點繪制方法,參考視點圖像被劃分為以像素中心為頂點的三角形,在映射圖像中重新形成的三角形中的像素通過三線性插值進行填充,提高了切向曲面的繪制質(zhì)量。
針對由3D-Warping 環(huán)節(jié)所引起的繪制速度過慢問題,國內(nèi)研究者提出利用專用的現(xiàn)場可編程邏輯門陣列設(shè)備(Li 等,2008)和超大規(guī)模集成電路設(shè)備(黃超 等,2018)來解決。為了從算法層面提升繪制速度,Jin 等人(2016)提出了區(qū)域級的映射方法,根據(jù)區(qū)域的不同特征將區(qū)域分類,僅對包含重要信息的區(qū)域進行映射操作,避免計算中的冗余信息,大幅減少了映射時間,但由于不同區(qū)域利用的是來自不同視點的信息,生成的圖像中存在明顯的區(qū)域邊界。在提升繪制質(zhì)量方面,F(xiàn)u 等人(2017)提出一種基于變換域的用于多視點混合分辨率圖像的超分辨率方法,并基于目標低分辨率視點和輔助高分辨率視點之間相關(guān)性的最優(yōu)權(quán)重分配算法,可以為低分辨率幀的視點圖像提供更多細節(jié)信息。Nie 等人(2017)針對寬基線街道圖像提出了一種新穎的單應性限制映射公式,該公式通過利用映射網(wǎng)格的一階連續(xù)性來增強相鄰超像素間單應性傳播的平滑度,可以消除重疊、拉伸等小偽影。
2)視點融合優(yōu)化。不同的融合策略會影響虛擬視點繪制圖像絕大部分區(qū)域的內(nèi)容。Vijayanagar 等人(2013)根據(jù)1 維鄰域中非空洞像素的數(shù)量來優(yōu)化左右參考視點映射圖像的融合權(quán)重,但該方法僅能改善空洞附近的失真。Lee 等人(2016)利用邊緣信息提取出深度圖的不可靠區(qū)域,根據(jù)顏色相似性、深度可靠性和深度值進行視點融合,減少了偽影和模糊。Wegner 等人(2016)采用Z-Buffer 技術(shù)對深度差區(qū)域進行視點融合,但該方法需要準確的深度圖。Ceulemans 等人(2018)提出了一種針對寬基線相機陣列的多視點繪制框架,首先對深度圖進行預處理以避免不可靠的信息在整個幀中傳播,并且利用加權(quán)顏色混合結(jié)合直方圖匹配確保了參考攝像機的顏色直方圖之間的平滑過渡。Sharma 和Ragavan(2019)利用幾何信息得到紋理匹配概率,自適應地融合參考視點的紋理和深度信息。de Oliveira 等人(2021)采用快速分層超像素算法來計算視差和顏色相似性,增強了圖像中結(jié)構(gòu)的一致性。
針對平面相機陣列,Chang 和Hang 等人(2017)提出了一種改進的多參考視點融合算法,選擇距離最接近的參考視點作為主導參考視點,并根據(jù)其他輔助參考視點的深度和顏色信息修復深度邊緣區(qū)域中的錯誤像素。但由于視點切換過程中主導參考視點會發(fā)生變化,用戶自由巡航時易產(chǎn)生不連續(xù)感和出畫感。Kim 等人(2021)通過直方圖匹配去除了由于圖像對比度不一致而導致的誤差,解決了圖像之間差異較大時出現(xiàn)的失真。Qiao等人(2019)采用多項式擬合方法進行視點亮度校正,提升了虛擬視點融合準確度。
3)空洞填補優(yōu)化。由于遮擋、采樣精度不夠高、計算中的舍入誤差以及視野的局限性等原因,融合后的虛擬視點圖像中存在部分缺失信息的區(qū)域需要填補以協(xié)調(diào)圖像的整體視覺效果??斩刺钛a是利用DIBR 過程進行虛擬視點繪制的困難挑戰(zhàn)之一,根據(jù)參考信息來源可以分為基于圖像修復的方法、基于時域的方法和基于空域的方法。
Criminisi 等人(2004)提出的修復方法可以在不引入模糊偽影的情況下填充較大的空洞。該方法通過復制來自虛擬視點圖像非空洞區(qū)域的最佳匹配塊來填充空洞,但是有時會錯誤地采用前景紋理來填充孔洞。因此,基于鄰域信息傳播的算法會在空洞附近產(chǎn)生模糊偽影。Kim和Ro(2017)提出了一種具有時空一致性和雙目對稱性的可靠標簽傳播方法,將相鄰視圖和前一幀中使用的可靠標簽傳播到要填充的目標圖像,可以避免前景用于空洞填充的發(fā)生。Kanchana 等人(2022)基于深度學習的方法進行空洞填補,結(jié)合時間先驗和歸一化深度圖來預測填充向量,可以提高繪制視點的時空一致性。
實際上,當視點切換時,捕捉時域上的信息更難,所以一些研究者提出了基于空域信息的空洞填補方法。Yao 等人(2014)利用時域信息來輔助空洞填補。首先利用紋理和深度信息的時間相關(guān)性來生成背景參考圖像,然后將其用于填充與場景的動態(tài)部分關(guān)聯(lián)的孔洞;而對于靜態(tài)部分,則使用傳統(tǒng)的修補方法。該方法可以避免部分區(qū)域的閃爍效應,但是會產(chǎn)生時延現(xiàn)象。Luo 等人(2018)提出一種基于快速馬爾可夫隨機場的空洞填補方法,將圖像修復作為能量優(yōu)化問題并通過循環(huán)置信傳播來解決,而且利用深度信息來阻止前景紋理錯誤填充。Lie 等人(2018)提出一種建立背景子畫面模型填充空洞的方法,通過將視頻的空間和時間信息逐步整合到統(tǒng)一的背景子模型中,從而利用真實的背景信息來恢復空洞,但其需要每一幀模型的更新維護和額外的過程,會導致時間復雜度增加。Rahaman 和Paul 等人(2018)采用高斯混合模型(Gaussian mixed model,GMM)方法來分離背景和前景像素,并通過對相應的GMM 模型和映射圖像像素亮度的自適應加權(quán)平均來恢復映射過程中引入的缺失像素,但其學習率需預先訓練得到且無法改變,魯棒性較差。Thatte和Girod(2019)通過挖掘空洞區(qū)域的特性,設(shè)計出一種統(tǒng)計模型來預測視點切換而導致虛擬視點圖像中丟失數(shù)據(jù)的可能性,但只能用于單自由度視點切換的情況。Zhu 和Gao(2019)針對GMM 對于往復運動的局限性,提出了一種改進方法,使用深度信息來調(diào)整GMM 的學習率,提高了辨別前景像素和背景像素的準確性。Luo 等人(2020)提出了一種包括前景提取、運動補償、背景重構(gòu)和空洞填補4 個模塊的空洞填充框架,可使用或擴展現(xiàn)有的大部分背景重建方法和圖像修復方法作為該框架的模塊。
現(xiàn)有的空洞填補算法存在一定的局限,且不可避免地會引入邊緣模糊,無法完全恢復出空洞中的真實信息。基于四參考視點的DIBR 算法通過引入更多參考視點的方式顯著減少了空洞區(qū)域,尤其是消除了位于視野邊界的空洞,僅剩余部分公共小塊空洞,提升了虛擬視點圖像的主客觀質(zhì)量。
3.2.2 基于神經(jīng)輻射場的視點合成
Mildenhall 等人(2020)提出了基于神經(jīng)輻射場的視點合成方法NeRF(nueral radiance field),該算法使用全連接(非卷積)深度網(wǎng)絡表示場景,其輸入是單個連續(xù)5D 坐標(3 維空間位置和觀察方向),輸出是可支持任意視角查看的3 維體素場景。算法通過沿相機光線查詢5D坐標來合成視圖,并使用經(jīng)典的體渲染技術(shù)將輸出顏色和密度投影到圖像中。因為體積渲染是自然可微的,所以優(yōu)化表示所需的唯一輸入是一組具有已知相機姿勢的圖像。該算法描述了如何有效地優(yōu)化神經(jīng)輻射場以渲染具有復雜幾何和外觀的場景的逼真的新穎視圖,并展示了優(yōu)于先前神經(jīng)渲染和視點合成工作的結(jié)果。在此基礎(chǔ)上,Barron 等人(2021)提出了Mip-NeRF 的解決方案,擴展了NeRF 以連續(xù)值的比例表示場景。通過有效地渲染抗鋸齒圓錐截頭體而不是射線,Mip-NeRF減少了鋸齒偽影并顯著提高了NeRF表示精細細節(jié)的能力。針對全景視頻輸入,Barron 等人(2022)提出了解決采樣和混疊問題的NeRF 變體Mip-NeRF360,使用非線性場景參數(shù)化、在線蒸餾和基于失真的正則化器來克服無界場景帶來的模糊或低分辨率的渲染問題。Wang 等人(2021c)提出了一種雙向陰影渲染方法來實時渲染全景視頻中真實和虛擬對象之間的陰影。Hong 等人(2022)將神經(jīng)輻射場與人體頭部的參數(shù)表示相結(jié)合,提出了基于NeRF 的參數(shù)化頭部模型HeadNeRF,可以在GPU(graphics processing unit)上實時渲染高保真頭部圖像,并支持直接控制生成圖像的渲染姿勢和各種語義屬性。總體而言,基于神經(jīng)輻射場的視點合成方法已得到產(chǎn)業(yè)界和學界的廣泛關(guān)注,隨著模型訓練速度的大幅提升和漸進式渲染技術(shù)的廣泛研究,將具有非常大的應用潛力。
6DoF 視頻技術(shù)的發(fā)展將為未來元宇宙時代的到來奠定基礎(chǔ),并且將呈現(xiàn)多維度的發(fā)展,包括感官豐富程度的提升、分辨率和碼率的提升、時延和可靠性需求的提升以及與現(xiàn)實的交互程度的提升。從這些維度出發(fā),對6DoF 視頻技術(shù)的內(nèi)容采集與預處理、壓縮與傳輸以及交互與顯示提出了更高的要求與挑戰(zhàn)。
1)6DoF 內(nèi)容采集與預處理。內(nèi)容采集的難度以及后期制作技術(shù)的復雜程度直接影響了6DoF 視頻內(nèi)容制作的難度,因此長期以來是限制6DoF視頻發(fā)展的主要原因。從發(fā)展需求來看,未來的研發(fā)方向包括兩個方面:(1)輕量化和低成本的視頻采集系統(tǒng)。例如,手持彩色3 維掃描儀、手持多視點采集系統(tǒng)等裝備已經(jīng)開始具有這些特點,但是距離實際應用還有較長的演進路線;(2)高效、智能的視頻內(nèi)容處理技術(shù)。當前技術(shù)在幾何標定、深度圖去噪等方面已經(jīng)有較好的積累,但適用范圍還比較有限,亟需適應面更廣、處理流程更智能的技術(shù)。
2)6DoF 視頻壓縮與傳輸。該方向的研究熱點主要集中于高效點云壓縮和數(shù)據(jù)傳輸策略。一方面,現(xiàn)有的點云壓縮算法仍存在數(shù)據(jù)分布刻畫難、場景先驗利用少和計算復雜度高等挑戰(zhàn)?;? 維場景智能分析的大規(guī)模3D點云壓縮研究,可以實現(xiàn)非結(jié)構(gòu)化點云數(shù)據(jù)的場景—目標—要素多目標層次化表示,然后根據(jù)應用場景類型和目標特性做針對性壓縮,以改善重建點云中存在的細節(jié)丟失和全局形變等問題,進而實現(xiàn)高效的點云數(shù)據(jù)編碼壓縮,是潛在的發(fā)展趨勢。另一方面,相對于傳統(tǒng)視頻流式傳輸場景,點云視頻特有的傳輸方式對資源調(diào)度優(yōu)化引入了新的挑戰(zhàn)。例如,在碼流傳輸過程中需要考慮預測視口大小與點云質(zhì)量等指標之間的平衡。將強化學習在傳統(tǒng)視頻流式傳輸場景中的應用遷移到點云視頻流式傳輸場景中,并針對新場景進行適應性的改進與優(yōu)化,是一個有潛力的研發(fā)方向。
3)6DoF 視頻交互與顯示。未來云渲染架構(gòu)下,大量的視點合成和渲染計算工作都位于云端服務器上完成,可以有效降低終端的計算負載和功耗,同時也使終端的佩戴重量盡可能降低。同時,借助終端的異步時間扭曲技術(shù),實時視頻的端到端時延要求可放松至70 ms,實現(xiàn)無眩暈感的沉浸式視頻體驗。如何對端、管、云三者高效協(xié)同,將是未來6DoF視頻交互與顯示的重要技術(shù)方向。
致 謝本文由中國圖象圖形學學會圖像視頻通信專業(yè)委員會組織撰寫,該專委會鏈接為http://www.csig.org.cn/detail/2383。