邢 丹,趙海武,滕國偉
(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
全景視頻是一種包括水平360°、垂直180°全方位視角的全向性視頻[1]。高分辨率、多視角的特點使其具有龐大的信息量,而采用傳統(tǒng)視頻編碼標(biāo)準(zhǔn)如HEVC、AVS3 也無法直接對全景視頻進行編碼處理。因此,研究如何從球面視頻映射為平面視頻,是目前研究全景視頻壓縮的必要過程。
現(xiàn)有的球面映射方法很多,主要分為主視點型和對稱型兩大類。主視點型映射認為視頻中某一方向內(nèi)容的重要性最高(即主視點),其他方向內(nèi)容重要性逐漸降低。因此,針對主視點使用更高的采樣密度,而其他視點則采用較低的采樣密度,如金字塔(Pyramid)映射和偏移立方體(Offset Cube Map)映射。對稱型映射認為視頻中各個方向內(nèi)容的重要性一致,力爭用均勻的采樣密度對各個方向進行采樣。其中,經(jīng)緯圖映射(Equi-Rectangular Projection,ERP)是使用最廣泛的對稱型映射方法。目前,大多數(shù)可用的全景視頻內(nèi)容都采用ERP 方法存儲。
除ERP 外,對稱型映射方法還包括基于正多面體的映射和基于球面等面積展開圖的映射方法。六面體映射(Cubic Mapping Projection,CMP)是正多面體映射的典型方法。人們在CMP 的基礎(chǔ)上提出了多種多面體映射方法,如正八面體映射(OctaHedral Mapping Projection,OHP)、正二十面體映射(IcoSahedral Mapping Projection,ISP)以及混合等角度六面體映射(Hybrid Equi-Angular Cubemap,HEC)[2]等。基于球面等面積展開圖的映射典型方法主要有條形映射(Tile Mapping-Projection,TP)[3]和八角形映射(OctaGonal Mapping,OGM)[4]。
在對稱型映射中,采樣密度的均勻性是一個需要考慮的重要因素。如果采樣密度不均勻,物體在映射后會發(fā)生變形,影響后續(xù)的各種處理,同時會造成數(shù)據(jù)冗余。因為對稱型映射假設(shè)各個方向內(nèi)容的重要性是相同的,所以整個視頻的清晰度取決于采樣密度最低區(qū)域的清晰度,而采樣密度較高的區(qū)域會形成數(shù)據(jù)冗余。
本文基于現(xiàn)有球面等面積展開圖映射方法,提出一種新的全景視頻映射方法——最小變形度映射方 法(Minimum Deformation Projection,MDP),可以有效提高采樣密度均勻性,降低球面視頻映射為平面矩形視頻過程中的內(nèi)容變形程度。
采樣密度是指球面上某局部單位面積內(nèi)的采樣點數(shù),是球面位置的函數(shù)。例如:ERP 映射,赤道附近的采樣密度最低,隨著緯度的升高,它的采樣密度逐漸增大,兩極附近的采樣密度最大[5];CMP 映射,六面體每個面的中心處采樣密度最低,六面體頂點對應(yīng)的球面點處采樣密度最高[6]。
變形度即經(jīng)過映射后物體的變形程度,是一個直觀的概念,也是一個宏觀的概念。文獻[7]提出了變形度的概念,并給出了計算映射后圖像變形度的公式。
球面等面積展開圖是將球面以某條經(jīng)線為基準(zhǔn)做等面積展開,如圖1 所示。圖1 中每個水平位置的寬度與對應(yīng)的緯度成余弦關(guān)系。由于圖1 的面積與球面面積相等,因此當(dāng)采樣點在圖1 中均勻分布(成正交陣列分布且行列之間的距離相等)時,采樣點在球面上也均勻分布。
圖1 球面等面積展開圖
文獻[7]以圖1 為基礎(chǔ)定義變形度。假設(shè)某種映射方法用圖2 近似圖1,采樣點在圖2 中也是均勻分布且行列之間的距離與圖1 相等,則采樣后物體在垂直方向沒有變形,只在水平方向存在變形(被拉伸或壓縮)。
圖2 OGM 八角形示意圖
用d(x)表示第x 行的變形度,m(x)表示圖2在第x 行的邊界方程,l(x)表示圖1 在第x 行的邊界方程,則總的變形度是所有行的變形度之和。需要尋找一個d(x)與m(x)和l(x)的函數(shù)關(guān)系,當(dāng)m(x)=l(x)時,d(x)=0。當(dāng)m(x)和l(x)之間的差距增大時,d(x)增大。文獻[7]采用式(1)計算變形度:
顯然,滿足上述條件的函數(shù)關(guān)系有很多,結(jié)合現(xiàn)有球面等面積展開圖映射方法和式(1),提出一種新的變形度計算方法,基于新的變形度計算方法得到一種新的最小變形度映射方法,即最小變形度映射方法(MDP)。
研究基于球面等面積展開圖映射方法需要綜合多個指標(biāo)考慮。例如,除了變形度,還要考慮采樣后像素重排列的問題。
一般將球面全景視頻變換為平面矩形視頻,需要先將球面映射為某種形狀的平面圖形,然后基于平面圖形設(shè)計采樣方案確定每個采樣點對應(yīng)的球面區(qū)域,最終在球面上進行像素點采樣。采樣后的像素點需要進一步排列為矩陣,以便使用現(xiàn)有的壓縮編碼方法進行編碼??梢灾庇^地把這一過程理解成將映射后的平面圖形進一步變形為矩形。在這一過程中,除了變形度,還要考慮盡量保持采樣點之間的相關(guān)性,減少人工邊界的長度。所謂人工邊界,是指排列后形成的某些相鄰像素在球面上并不相鄰的現(xiàn)象。實驗表明,經(jīng)過有損壓縮編解碼后,人工邊界兩側(cè)的像素失真相對較大,回放時對應(yīng)人工邊界處會出現(xiàn)比較明顯的痕跡[8]。大部分映射方法都存在人工邊界。在已知的各種映射方法中,只有ERP 沒有人工邊界。因此,往往不能同時做到采樣均勻和排列無人工邊界。在設(shè)計映射方案時,必須同時考慮變形度與像素排列。
按照圖1 采樣無法得到矩形視頻,因此需要對其做近似。常用的近似圖形有三角形、梯形及矩形。由于球面等面積展開圖垂直方向反映緯度的變化,因此可以通過劃分緯度分割球面等面積展開圖。
考慮到后續(xù)像素重排列的復(fù)雜度,設(shè)計映射方案如下。如圖3 所示,緯度范圍為[-90°,90°],余弦曲線在0°緯度處的傾斜程度最大,為完全垂直。越接近90°或-90°處,傾斜程度越小。按照傾斜程度,可以將球面從北極到南極依次均勻分割為6 個區(qū)域,記為S0、S1、S2、S3、S4、S5,對應(yīng) 的緯度范圍分別 為[60°,90°]、[30°,60°]、[0°,30°]、[0°,-30°]、[-30°,-60°]、[-60°,-90°]。將傾斜程度較大的S2、S3近似為矩形,傾斜程度適中的S1、S4近似為等腰梯形,傾斜程度較小的S0、S5近似為等腰三角形。其中,三角形、矩形、梯形等高,梯形的底角為45°,三角形底邊和矩形長可變,梯形的下底與矩形的長保持相等。因此,在近似過程中只有兩個變量。以多邊形中心為原點建立平面直角坐標(biāo)系,其中x 軸方向表示寬,y軸方向表示緯度,單位長度為π/2。
圖3 多邊形直角坐標(biāo)系示意圖
以第一象限為分析區(qū)域,設(shè)球面等面積展開圖的邊界為X0(y):
設(shè)第一象限內(nèi)三角形底邊長為a,矩形長為b,可得多邊形的邊界方程Xn(y)為:
式中,a、b 均可變。為尋找變形度最小的多邊形,需要使用變形度計,定量求解最優(yōu)a、b 值。
在緯度范圍[-90°,90°]內(nèi),不同緯度對應(yīng)的像素數(shù)量不同。在計算變形度時,應(yīng)針對不同緯度的像素數(shù)量分配不同的權(quán)重。因此,本文提出一種新的變形度計算公式,即在式(1)的基礎(chǔ)上乘以l(x):
將球面等面積展開圖邊界方程X0(y)和多邊形邊界方程Xn(y)代入式(4),可得基于本映射方案的最小變形度計算公式:
由圖像的對稱性可直接以第一象限為例,在第一象限區(qū)域內(nèi),兩邊界之間總的變形程度可以理解為y 在區(qū)域(0,1)內(nèi)變形度的積分,表示為:
使變形度取最小值的(a,b)就是最優(yōu)解。經(jīng)過計算,可得最優(yōu)解為(1.023 58,1.911 54)??紤]到像素重排列,將a 近似為1,這樣等腰三角形底邊為其高的6 倍。將近似解代入Xn(y),可以確定多邊形的邊界,由此在球面等面積展開圖上的采樣可轉(zhuǎn)換為在多邊形上采樣。
在映射方案中,多邊形被分成6 個部分。為方便計算,假設(shè)兩極之間共有30n 行采樣點,其中n代表正整數(shù)行采樣點。n 的數(shù)值由實際映射過程中目標(biāo)多邊形分辨率大小確定,采樣過程如下。
在豎直方向分區(qū),用等間隔的水平線將多邊形等分為30n個條帶,從上到下每個條帶標(biāo)號依次為0,1,…,30n-1。
在水平方向分區(qū),用等間隔的經(jīng)線映射線(即經(jīng)線映射到每個條帶中形成的線)將第i 個條帶等分為Ti份,每份區(qū)域內(nèi)對應(yīng)著一個采樣點。矩形區(qū)域S2內(nèi)的采樣由矩形長度b 確定:
由對稱性可得Ti的采樣總公式為:
為對比MDP 采樣密度方面的性能,選擇性能較好的TILES、OGM 以及傳統(tǒng)的ERP 進行對比。
單位球面兩極之間可等分為30n 個條帶,每個條帶可近似為一個圓環(huán)。若進行均勻采樣,采樣密度保持不變,即單位面積內(nèi)采樣點數(shù)相同。不同的采樣方法會對單位球面進行變形,即存在降采樣和過采樣。已知在第i 個圓環(huán)中心處的緯度為θi,圓環(huán)面積為:
水平方向的采樣密度表示為:
ERP 的采樣密度為:
MDP 的采樣密度為:
TILES 映射的采樣密度為:
OGM 的采樣密度為:
圖4 展示了當(dāng)n=10 時ERP、TILES、OGM 及MDP 的采樣密度曲線。其中,橫坐標(biāo)為i,表示第i個分割的圓環(huán);縱坐標(biāo)為采樣密度,表示單位面積內(nèi)的采樣點數(shù)。
由圖4 可知,MDP 的采樣密度曲線比較平坦,說明在各緯度處的采樣密度更均勻。在兩極附近的高緯度處,ERP 采樣密度變化劇烈,TILES 的采樣密度多段變化且兩極采樣密度很高,OGM 不如本映射方式采樣均勻??梢姡琈DP 不但在中低緯度處的采樣密度較為均勻,而且有效解決了兩極數(shù)據(jù)變形程度較大的問題。
在像素重排列過程中,為了盡量減少人工邊界數(shù)量,設(shè)計拼接方法如圖5 所示。由于S2、S3是矩形,因此不需要重新排列。而三角形和梯形部分S0、S1、S4、S5需要進行切割處理,并按照盡量保持拼接處圖像內(nèi)容連貫性原則,將采樣點重新排列。其中,對梯形S1和S4,由于映射方案中設(shè)計梯形底角為45°,梯形腰斜率為1,因此梯形中每行像素的數(shù)量為等差數(shù)列,公差為2。又因為梯形兩腰處的圖像內(nèi)容是連續(xù)的,故將圖5 中梯形左邊A 部分逆時針旋轉(zhuǎn)90°并移動至梯形右邊拼接后,并不會產(chǎn)生拼接邊界,保證了梯形內(nèi)內(nèi)容的連續(xù)性。下梯形C 同理。
圖4 采樣密度曲線圖
圖5 拼接過程示意圖
對三角形S0和S5,每行像素數(shù)也成等差數(shù)列,且三角形底邊為三角形高的6 倍,因此公差為6。
為了方便分析三角形重排列和拼接過程,假設(shè)三角形中像素的行數(shù)為5 行。以三角形S0為例,由于公差為6,可以將三角形點陣分為6 個部分,從左到右依次標(biāo)記為1、2、3、4、5、6,如圖6(a)所示;通過移動,將各個部分的點平移排列為6 個直角三角形,如圖6(b)所示;通過移動和旋轉(zhuǎn),將6 個三角形拼成L 型的圖形,如圖6(c)所示。這6 個三角形內(nèi)部保持內(nèi)容連貫性,其數(shù)字的旋轉(zhuǎn)方向代表了對應(yīng)三角形的旋轉(zhuǎn)方向。
映射方案中,三角形、梯形及矩形等高,都為5行。將梯形重排列后,S1、S2、S3、S4組成一個長57、寬20,分別在左上角和左下角缺失一個正方形(邊長為5)的矩形。在三角形S0移動旋轉(zhuǎn)過程中,標(biāo)記為1、2 的像素可以拼接成一個5×5 的正方形。標(biāo)記為3、4、5、6 的像素同理。因此,恰好可將像素1、2部分填補到上述矩形缺失位置。而像素3、4、5、6 部分的高是上述矩形的一半,可以與移動旋轉(zhuǎn)后的S5相關(guān)部分拼接為完整的矩形。
但在此過程中,由于三角形S0、S5與梯形S1、S4和矩形S2、S3內(nèi)容原本并不相連,因此會存在人工邊界。從映射后矩形視頻中一幀的圖像可以明顯觀察到這些人工邊界,如圖7 所示。
圖6 三角形排列示意圖
圖7 映射后矩形視頻中的一幀圖像
為了驗證提出的分段最小變形度映射方法,采用x265 編碼器對4 個4K(3 840×1 920) 測試序列和6 個8K(8 192×4 096)測試序列進行編碼[9]。選擇medium 模式,可以在編碼效率和編碼速度之間保持較好的平衡。
評價壓縮性能需要有效的客觀質(zhì)量評價方法。由于映射時采樣密度不均勻,傳統(tǒng)的PSNR 并不適用于全景視頻。實驗中,使用SPSNR[10]和WSPSNR 對全景視頻客觀質(zhì)量進行評價。測試實驗步驟如下。
(1)在全景視頻映射參考平臺VRM 2.0 上集成映射方法,并用不同的映射方法在經(jīng)緯圖上采集適量的像素點,得到不同映射格式的視頻。目前,用來測試的全景視頻序列都以經(jīng)緯圖格式存儲。參照測試規(guī)范,為消除經(jīng)緯圖格式對實驗的影響,基于經(jīng)緯圖的測試,像素數(shù)應(yīng)當(dāng)盡量接近經(jīng)緯圖像素數(shù)量的1/2 或1/4。因此,對4K 分辨率的序列進行約0.56 倍數(shù)據(jù)量的下采樣映射,對8K 分辨率的序列進行約0.25 倍數(shù)據(jù)量的下采樣映射。
(2)用x265 編碼器對映射后的視頻進行編碼,取QP=22、27、32、37 這4 個量化參數(shù),并計算這4 個QP 點對應(yīng)的重建視頻客觀質(zhì)量,然后統(tǒng)計比特失真率(Bit Distortion Rate,BD-Rate)。其中,客觀質(zhì)量用SPSNR 和WS-PSNR 來代替PSNR,以衡量球面上像素點的失真程度。由于ERP 是最常用的映射算法,因此將其作為基準(zhǔn)算法與MDP 算法進行比較。此外,一起比較的算法還有CMP 算法和性能較好的OGM 算法。為對比兩種變形度計算公式性能,增加使用式(1)計算MDP 采樣方案變形度的實驗(即MDP[10])。實驗中,用于和本文方法進行比較的CMP 采用2×3 的像素排列模式。映射和反映射時,使用的插值算法為蘭索斯插值算法。實驗結(jié)果如表1 和表2 所示。
表1 SPSNR 下不同映射方法的比特失真率性能對比(對照方案為ERP)
表2 WS-PSNR 下不同映射方法的比特失真率性能對比(對照方案為ERP)
由表1 和表2 可知,以SPSNR 來衡量失真時,相較ERP,MDP 平均節(jié)省了14.47%的碼率,比OGM 和CMP 分別多節(jié)省了2.78%和5.94%的碼率;以WS-PSNR 來衡量失真時,MDP 比ERP 平均節(jié)省了14.17%的碼率,比OGM 和CMP 分別多節(jié)省了2.8%和5.99%的碼率。
序列Skateboard Trick 和Train 相較ERP 性能略有下降。觀察視頻發(fā)現(xiàn),其內(nèi)容在南極附近存在模糊情況。但是,對比CMP 和OGM,MDP 方法所帶來性能的降低仍為最少。兩種變形度公式比較而言,新的變形度公式在SPSNR 和WS-PSNR 分別節(jié)省了1.56%和1.39%的碼率,性能更優(yōu)。
以序列DrivingInCountry 為例,分別畫出其SPSNR 和WS-PSNR 的RD 曲線,如圖8(a)和圖8(b)所示。可見,在序列DrivingInCountry 的客觀質(zhì)量相同的情況下,MDP 方法所需碼率最低??傮w來說,MDP 的壓縮性能不僅比傳統(tǒng)的ERP 和CMP好,也優(yōu)于新興的OGM。
圖8 序列DrivingInCountry 的RD 曲線圖
針對現(xiàn)有映射方法中存在的內(nèi)容變形和采樣不均勻等問題,提出最小變形度方法MDP。該方法結(jié)合像素重排列復(fù)雜度和可實現(xiàn)性設(shè)計相應(yīng)的映射方案,實現(xiàn)了對球面等面積展開圖的合理劃分,同時提出新的變形度計算公式來尋找最優(yōu)多邊形映射形狀,提升了采樣均勻性。將映射得到的多邊形重新排列成緊湊的矩形視頻,證明了映射方案的合理性,可以較好地保持像素間的相鄰關(guān)系,利于后續(xù)編碼的進行。
實驗結(jié)果表明,在SPSNR 和WS-PSNR 的評價標(biāo)準(zhǔn)下,該方法與傳統(tǒng)的經(jīng)緯圖映射方法相比,在BD-Rate方面平均能得到14.47%和14.17%的增益,在個別視頻序列上最多能得到32.61%和33.04%的增益。此外,MDP 的平均性能優(yōu)于現(xiàn)在的CMP和OGM,是一種切實有效的全景視頻映射方法。后續(xù)工作中,將進一步研究如何有效去除在重排列中帶來的人工邊界。