朱蓉蓉+方勇
摘 要: 信源與邊信息之間的相關建模和參數(shù)估計一直是分布式視頻編碼的關鍵環(huán)節(jié)。在分布式視頻編碼中,相關噪聲分布是非平穩(wěn)的,會隨著場景序列而動態(tài)變化,如何準確地預測和追蹤相關參數(shù)十分重要。為了充分發(fā)揮分布式信源編碼的優(yōu)勢,提出一種基于滑窗的自適應相關估計方法。該方法將滑窗的思想嵌入到基于LDPCA碼的Slepian?Wolf解碼器中,結合邊信息和碼流在線估計圖像信源之間的相關參數(shù),且能夠自適應地選擇是否進行重估,進而優(yōu)化聯(lián)合比特面置信傳播迭代譯碼。實驗結果表明,以先進的分布式視頻編碼方案DISCOVER作為基準,使用所提方法的方案在保持較低編碼復雜度的情況下提高系統(tǒng)的率失真性能。
關鍵詞: 分布式視頻編碼; 相關估計; 置信傳播算法; 聯(lián)合比特面解碼; LDPCA碼; 分布式信源編碼
中圖分類號: TN941.2?34; TP911.2 文獻標識碼: A 文章編號: 1004?373X(2018)06?0028?06
Abstract: The correlation modeling and parameter estimation for signal sources and side information are key processes in distributed video coding (DVC). In DVC, correlation noise distribution is unstable and changes dynamically with the scene sequence, so it is important to accurately predict and track correlation parameters. To give full play to the advantage of distributed source coding (DSC), an adaptive correlation estimation method based on sliding?window is proposed in this paper. In the method, the sliding?window idea is embedded in the Slepian?Wolf decoder based on LDPCA code. The method can adaptively select whether re?estimation should be executed in combination with correlation parameters of side information and bit stream online estimation image source, so as to optimize joint bit?plane belief propagation (JBBP) iterative decoding. The experimental results show that, taking the advanced DVC scheme DISCOVER as the criterion, the scheme using the proposed method can improve rate?distortion performance of the system while maintaining low coding complexity.
Keywords: DVC; correlation estimation; belief propagation algorithm; joint bit?plane decoding; LDPCA code; DSC
0 引 言
分布式視頻編碼(Distributed video coding,DVC)是分布式信源編碼(Distributed source coding,DSC)最早也是最先進的應用[1]。近年出現(xiàn)的許多新興應用,如無線傳感器網(wǎng)絡,電話視頻會議、便攜式視頻攝像機等這些應用的編碼設備比較簡單,計算能力和存儲空間有限,而處于中央服務器的解碼設備擁有較多資源可以進行復雜計算,傳統(tǒng)的視頻編碼標準不能滿足上述需求。而DVC恰好能解決這類問題,與傳統(tǒng)的視頻編碼方案相反,可以將復雜度從編碼端轉移到解碼端[2]。
Wyner?Ziv編碼是Slepian?Wolf問題[3]的有損形式,解決了僅解碼端可以訪問邊信息的情況下有損信源編碼率失真問題[4]。WZ編碼通常是由一個量化器和基于信道碼的非對稱Slepian?Wolf(SW)編碼器組成[5]。由于在DVC中視頻場景是動態(tài)且不可預測變化的,相關噪聲分布也會因此而變化,所以WZ編碼存在信源統(tǒng)計特性未知的問題。通常大多數(shù)分布式視頻編碼設計是通過相關噪聲(信源與邊信息之間的殘差)建模為高斯或拉普拉斯隨機過程來簡化問題,并利用訓練序列或已解碼數(shù)據(jù)來估計分布參數(shù)[6?8]。場景的非平穩(wěn)性也可通過及時更改相關模型并向SW解碼器提供不同初始估計來解決。但是,相關噪聲模型如果選擇錯誤就會降低編碼效率和導致較低的率失真性能[9]。而且一旦SW解碼開始,相關統(tǒng)計特性就是固定的,解碼器并不能實時追蹤相關性的變化,從而不能準確進行迭代譯碼。因此,對相關噪聲統(tǒng)計特性進行自適應追蹤預測是非常有必要的。
在標準置信傳播算法上引入滑窗(Sliding?Window)的機制,也就是滑窗置信度傳播算法(Sliding?Window Belief Propagation,SWBP),最早是用來解決基于LDPC碼的非平穩(wěn)二進制信源的無損壓縮問題[10]。隨后滑窗思想又被推廣到非平穩(wěn)相關多元信源的非對稱SW編碼[11]。本文在此基礎上,將滑窗的思想應用到分布式視頻壓縮中,提出一種基于滑窗的自適應相關估計方法。該方法在變換域上帶有反饋信道的DVC框架[12]中采用累積LDPC(LDPC Accumulate,LDPCA)碼[13]進行編碼并控制比特面碼率,使用簡化后的聯(lián)合比特面置信傳播算法(Joint Bit?plane Belief Propagation,JBBP)[14]進行迭代譯碼,重點是利用滑窗的思想在SW解碼器中結合邊信息和碼流對促發(fā)聯(lián)合比特面置信傳播迭代的相關參數(shù)進行自適應追蹤估計,改善置信傳播迭代過程,進而優(yōu)化分布式視頻編碼系統(tǒng)的率失真性能。endprint
1 分布式視頻編碼框架
為了便于分析所提方法的優(yōu)勢,本文將先進的DVC框架DISCOVER[12]作為基準,框架簡圖如圖1所示。
正如文獻[1,6]所示,編碼器首先將所有的幀分為關鍵幀和WZ幀。關鍵幀采用傳統(tǒng)幀內(nèi)編解碼方法,如H.264AVC;對于WZ幀,先對其進行[4×4]的離散余弦變換(Discrete Cosine Transform,DCT),然后將整幀的變換系數(shù)分組為16個系數(shù)帶[b∈1,16]。按照DISCOVER中的量化級數(shù)分別對每個系數(shù)帶進行量化。采用LDPCA碼對來自每個子帶的量化系數(shù)所組成的所有比特面進行編碼并自適應調(diào)整碼率。在解碼端,采用運動補償幀插值[12,15]來生成邊信息,通過本文提出的方法估計相關參數(shù)并進行聯(lián)合比特面迭代解碼,最后有效地重建出WZ幀。
2 基于滑窗的自適應相關估計方法
本文所提的基于滑窗的自適應相關估計算法是嵌入到SW解碼器中的。首先,對信源和邊信息進行相關建模,在解碼端利用LDCA碼對信源(像素或DVC中的變換系數(shù))進行編碼,在解碼端采用基于滑窗的自適應相關估計方法進行參數(shù)估計。該參數(shù)促發(fā)聯(lián)合比特面置信傳播算法(JBBP)進行迭代,在迭代解碼過程中自適應選擇對參數(shù)的重估,直至參數(shù)得到精確估計,與此同時也就恢復出了信源。
2.1 相關建模和編碼
2.1.1 相關建模
設置[Xn,Yn?pXn,Ynxn,yn]兩個相關隨機過程。其中[Xn]表示信源,[Yn]表示邊信息。兩者之間的相關可建模為[Xn=Yn+Zn]。其中[xn,yn∈0:M],[Zn]是一個有[n]個獨立隨機變量的拉普拉斯隨機過程。給定[Yi=yi],則[Zi]的范圍為[-yi,M-yi],因此[Zi]依賴于[Yi],[Zi]的概率分布模型為截取離散拉普拉斯分布(Truncated Discrete Laplace,TDL),則[Zi]的概率分布函數(shù)為:
[pZi|Yixi-yiyi∝ 12σ2iexp-2σ2ixi-yi] (1)
對于拉普拉斯分布,已知[σ2i≠VarZi],但[σ2i]可以控制[pZiYixi-yiyi]隨著[xi-yi]的增長而下降,因此稱[σ2i]為[Zi]局部名義方差,而定義[Zn]的全局名義方差為[σ2?1ni=0n-1σ2i]。如果解碼端已知邊信息[Yn],則對[Xn]進行編碼的最低可達碼率為:
[Rmin? 1nHXnYn = 1nHZnYn=1ni=0n-1HZiYi = 1ni=0n-1yi=0M-1pYiyiHZiYi=yi] (2)
[HZiYi=yi=-a=-yiM-1-yifxi-yiyi,σ2ilog2 fxi-yiyi,σ2i] (3)
式中,[fxi-yiyi,σ2i]采用拉普拉斯分布形式。
2.1.2 編 碼
設[xn∈0,Mn]是[Xn]的一個實現(xiàn),對[xn]的編碼需要兩個步驟:第一,[xn]的每個符號(像素或DVC中的變換系數(shù))二進制化,即[q=log2 M]比特。然后[nq]個比特形成一個向量[bnq∈Βnq],其中子向量[biq+qiq?biq,…,biq+q-1]對應于[xi],[biq]表示最低有效位(Least Significant Bit,LSB),[biq+q-1]表示最高有效位(Most Significant Bit,MSB),即[xi=k=0q-1biq+k2k]。第二,在編碼端用[bnq]去乘以一個[m×nq]的校驗矩陣[H],得到校驗子[sm=Hbnq],故編碼碼率(bit/s)為[R=mn]。
2.2 聯(lián)合比特面置信傳播算法譯碼
為了更好利用比特平面之間的相關性,在編碼端采用一個二進制LDPC碼對表示一個像素的所有比特進行編碼,因而在解碼端使用聯(lián)合比特面置信傳播算法(JBBP)進行解碼。該算法最初是Varodayan等人提出來的,是一種期望最大化的算法,利用前后幀的比特相關性在像素域LDPC碼解碼器中進行無監(jiān)督向量學習運動估計[14]。
2.2.1 譯碼初始化
如圖2所示,JBBP算法的因子圖包含3種節(jié)點;符號節(jié)點(用橢圓表示),變量節(jié)點(用圓形表示)和校驗節(jié)點(用正方形表示)。在使用JBBP算法譯碼前,解碼器還需通過下面兩個步驟進行初始化:
1) 符號節(jié)點初始化:通過相關模型和參數(shù)計算符號節(jié)點的本征概率分布函數(shù)(Probability Mass Function,PMF);
2) 變量節(jié)點初始化:通過對應的符號節(jié)點的本征概率分布函數(shù)來計算每個變量節(jié)點的偏概率,也稱為置信消息。
2.2.2 算法步驟
從校驗信息[sm]中恢復信源來恢復[bnq],進而也就恢復出信源[xn]。每次迭代包括2個步驟:變量節(jié)點和校驗節(jié)點之間的標準BP算法;符號節(jié)點和變量節(jié)點之間的BP算法。
變量節(jié)點?校驗節(jié)點之間的BP算法本包含3個步驟:計算變量節(jié)點到校驗節(jié)點的置信消息;計算校驗節(jié)點到變量節(jié)點的置信消息;計算變量節(jié)點來自校驗節(jié)點的總的置信消息。
符號節(jié)點?變量節(jié)點之間的BP算法也有3個步驟:計算符號節(jié)點外來概率分布函數(shù);計算符號節(jié)點總的概率分布函數(shù);計算變量節(jié)點總的置信消息。
每次迭代的最后會進行收斂測試:設[bnq]為[bnq]的估值,獲得節(jié)點變量總的置信消息后,解碼器作硬判決譯碼。如果[Hbnq= sm],解碼器停止迭代并輸出[bnq]進而恢復[xn],否則,需要運行更多迭代次數(shù)。
2.3 基于滑窗的自適應估計
符號節(jié)點的本征概率分布函數(shù)是由具體的相關模型和參數(shù)所確定的,而變量節(jié)點所要傳遞的置信消息又是由符號節(jié)點的本征概率分布函數(shù)所計算,因置信消息是促發(fā)JBBP算法的初始條件,所以相關參數(shù)[σ2i]需要傳遞到符號節(jié)點才能促發(fā)聯(lián)合比特面置信傳播迭代譯碼。在進行JBBP算法之前,使用[σ2](全局名義方差[σ2]的粗略估計值)對符號節(jié)點初始化,也就是計算符號節(jié)點的本征概率分布函數(shù)。在每次JBBP迭代后,解碼器會重估每個符號節(jié)點的局部方差。隨著解碼迭代的運行,相關參數(shù)[σ2i]的估計會越來越準確,同時也就會恢復了信源[Xn]?;八枷氲年P鍵是假定信源與邊信息的相關性在每個合適大小窗口中可以近似看作是平穩(wěn)的。因此,每個符號節(jié)點的局部方差就可以通過其領域節(jié)點的總概率分布函數(shù)來估計。
2.3.1 算法描述
每個信源符號與其相對應的邊信息符號的期望平方歐氏距離(Expected Squared Euclidean Distance, ESED)計算如下:
[di = i=0M-1λixixi-yi2] (4)
式中,[λixi ]為該符號節(jié)點的總概率分布函數(shù),由該符號節(jié)點的本征概率分布函數(shù)(依賴于具體相關模型,此處為拉普拉斯模型)和置信傳播所傳遞的外來概率分布函數(shù)計算得到。在大小為[w]的領域內(nèi),每個符號節(jié)點的局部名義方差可由式(4)中的期望平方歐氏距離來估計。設[i :j?i, …, j],[Ni?max0, i-u:mini+u, n-1],其中,[u=w2],則:
[σ2iu = i′∈Ni \ idi′Ni-1] (5)
式中,[?]表示設置基數(shù)。為了避免陷入死循環(huán),[di]自身的置信排除在外。最后,優(yōu)化后的[σ2iu]可以促發(fā)下一次聯(lián)合比特面置信迭代。
在計算[σ2iu]時,需要計算[w-1]項和,時間復雜度會隨窗口大小[w]線性增長,但是通過滑窗技術就能加速計算。設
[?i ? i′∈Nidi′] (6)
則[σ2iu = ?i-diNi-1]。一旦[?0]已知,[?i]就能由式(7)計算:
[?i = ?i-1+di+u, ?i∈1,u+1?i-1+di+u-di-u-1, ?i∈u+1,n-u ?i-1-di-u-1, ?i∈n-u,n] (7)
式中,[i∈1 , n。]
2.3.2 窗口大小選擇
由第2.3.1節(jié)分析可知,窗口大小[w]對滑窗置信傳播算法至關重要,合適的窗口不僅能實時地追蹤信源,還能抑制[σ2i]的波動。相關估計的目的是降低編碼碼率,所以最優(yōu)窗口應使得碼率最小。已知半窗口[u],先由式(5)估計局部名義方差[σ2iu],根據(jù)實際相關模型計算出[fxiyi, σ2iu](本文相關模型為拉普拉斯分布),最后碼率可根據(jù)式(8)由半窗口[u]進行預測:
[Ru∝-1ni=0n-1i=0M-1λixi In fxi-yiyi, σ2iu] (8)
求最優(yōu)半窗口可轉化為:
[u*=argminuRu] (9)
上述求最優(yōu)窗口的方法稱為最小期望碼率(Minimum Expected Rate,MER)算法。在搜索最有窗口時,沒必要搜索所有的整數(shù)[1, n-12],因為窗口太小時,[Ru]變化劇烈而窗口太大時則趨于平滑。因此,算法從[12,22,…, n-122]中搜索最優(yōu)半窗口[u]。
2.3.3 自適應重估
每次JBBP迭代后,沒必要重新進行相關估計,因為相鄰兩次迭代通常產(chǎn)生相似的結果,尤其是在解碼的初始階段。因此所提自適應方法會決定相鄰置信迭代之間是否需要進行相關估計。令[dit]是第t次JBBP迭代后的符號節(jié)點與其相關邊信息的ESEDs。假設最后一次相關估計是在第[t′]次JBBP迭代啟動的。那么,[dit]與[dit′]之間的變化情況可以用相關系數(shù)來衡量,即:[ρ? i=0n-1ditdit′i=0n-1di2t?i=0n-1di2t′] (10)
可以定義閾值[ρth]來控制是否進行相關參數(shù)重估:僅當[ρρth]時,才進行相關估計,否則將跳過這一環(huán)節(jié)。
3 實驗結果
為了驗證在視頻序列中WZ幀之間所提相關估計方法的性能,本文選用4種不同運動類型的標準視頻序列Hall Monitor,F(xiàn)oreman,Coastguard和Soccer進行測試,以QCIF格式和15 Hz幀頻率進行編碼,共149幀。幀組(Group of Pictures,GOP)長度為2,奇數(shù)幀是關鍵幀,采用傳統(tǒng)視頻編碼標準H.264/AVC進行幀內(nèi)編碼和幀內(nèi)重構;關鍵幀之間的偶數(shù)幀為WZ幀,采用LDPCA碼進行編碼并進行控制比特碼率。在解碼端,采用運動補償幀插值來生成邊信息,并利用邊信息和碼流通過所提方法進行參數(shù)估計,使用聯(lián)合比特面置信傳播算法進行解碼。本文實驗只針對視頻序列的亮度分量進行,計算SW編碼器的平均誤碼率(Bit?error Rate)和重建后的WZ幀的峰值信噪比(Peak Signal?to?Noise Ratio,PSNR)。實驗以沒有使用本文方法的DVC框架DISCOVER作為基準,將其與本文所提系統(tǒng)進行對比。實驗中,所使用的相關噪聲分布為拉普拉斯分布,其相關參數(shù)[σ2i]的初始估值設置為全局名義方差[σ],閾值[ρth=0.996]。endprint
首先,使用Bj?ntegaard三角度量(Bj?ntegaard delta metric,BJM)[16]來說明PSNR和比特率在兩條率失真曲線上的平均差異。本文所用的基于滑窗的置信度傳播解碼相對于DISCOVER框架中的在線估計[6]解碼(基準)的BJM測量值如表1所示,仿真中所使用的測試序列和量化矩陣Q1,Q3,Q5和DISCOVER視頻編碼中的一樣。結果顯示所提方法在比特率保存方面優(yōu)于基準編碼器。
其次,對比4種不同運動類型的視頻幀在使用基于滑窗的自適應相關估計方法的DVC框架下和基準DVC框架DISCOVER下的率失真性能,結果如圖3所示。從圖3的率失真性能對比曲線來看,相對于基準的框架DISCOVER,所提方法提高了系統(tǒng)的率失真性能,因為該方法更好利用了比特之間的相關性,可以自適應地估計相關參數(shù)并優(yōu)化迭代譯碼過程。
最后,對比兩個框架解碼時間,也就是說明本算法的復雜度。如表2所示,僅對兩個視頻序列Foreman, Soccer的WZ幀在使用三種不同的量化矩陣的情況下進行解碼執(zhí)行時間測試。仿真是在具有4 GB內(nèi)存的英特爾 i7 980 CPU上進行。從表2中可以看出,本文方法的解碼執(zhí)行時間比基準框架解碼時間長,算法的復雜度相對較高。
4 結 論
本文對DVC提出一種基于滑窗的自適應相關估計方法。該方法是嵌入到SW編碼器中,根據(jù)碼流和邊信息動態(tài)追蹤預測相關參數(shù);在精確估計參數(shù)的同時,可以自適應選擇是否進行重估,避免不必要的開銷。并且該方法容易實現(xiàn)與現(xiàn)有的大多數(shù)DVC框架的集成,因為只需要替換框架中的SW編碼器即可。通過對四種不同運動程度的標準視頻序列進行仿真,與基準DVC框架DISCOVER進行對比,實驗結果說明,所提方法有助于系統(tǒng)率失真性能的提高。
參考文獻
[1] AARON A, ZHANG R, GIROD B. Wyner?Ziv coding of motion video [C]// Proceedings of 36th Asilomar Conference on Signals, Systems and Computers. Pacific Grove: IEEE, 2002: 240?244.
[2] PURI R, RAMCHANDRAN K. PRISM: a new robust video coding architecture based on distributed compression principles [C]// Proceedings of 40th Allerton Conference on Communication, Control and Computing. [S.l.: s.n.], 2002, 6: 379?381.
[3] WYNER A, ZIV J. The rate?distortion function for source coding with side information at the decoder [J]. IEEE transactions on information theory, 1976, 22(1): 1?10.
[4] SLEPIAN D, WOLF J K. Noiseless coding of correlated information sources [J]. IEEE transactions on information theory, 1973, 19(4): 471?480.
[5] 方勇,宋娟,霍迎秋,等.分布式信源編碼:基礎與前沿[M].北京:國防工業(yè)出版社,2015:6?7.
FANF Y, SONG J, HUO Y Q, et al. Distributed source coding: foundation and advanced technology [M]. Beijing: National Defense Industry Press, 2015: 6?7.
[6] BRITES C, PEREIRA F. CorrelationT noise modeling for efficient pixel and transform domain Wyner?Ziv video coding [J]. IEEE transactions on circuits and systems for video technology, 2008, 18(9): 1177?1190.
[7] FAN X, AU O C, CHEUNG N M. Adaptive correlation estimation for general Wyner?Ziv video coding [C]// Proceedings of IEEE International Conference on Image Processing. Cairo: IEEE, 2009: 1397?1400.
[8] WOLF A, MATTH? M, FETTWEIS G. Improved source correlation estimation in wireless sensor networks [C]// Proceedings of IEEE International Conference on Communication Workshop. London: IEEE, 2015: 2121?2126.
[9] TAHERI Y M, AHMAD M O, SWAMY M N S. A study on compression rate bounds in distributed video coding based on correlation noise models [C]// Proceedings of IEEE International Symposium on Circuits and Systems. Montreal: IEEE, 2016: 2691?2694.endprint
[10] FANG Y. LDPC?based lossless compression of nonstationary binary sources using sliding?window belief propagation [J]. IEEE transactions on communications, 2012, 60(11): 3161?3166.
[11] FANG Y. Asymmetric Slepian?Wolf coding of nonstationarily?correlated M?ary sources with sliding?window belief propagation [J]. IEEE transactions on communications, 2013, 61(12): 5114?5124.
[12] ARTIGAS X, ASCENSO J, DALAI M, et al. The DISCOVER codec: architecture, techniques and evaluation [C]// Proceedings of Picture Coding Symposium. Lisbon: EURASIP, 2007: 1103?1120.
[13] VARODAYAN D, AARON A, GIROD B. Rate?adaptive distributed source coding using low?density parity?check codes [C]// Proceedings of 39th Asilomar Conference on Signals, Systems and Computers. Pacific Grove: IEEE, 2005: 1203?1207.
[14] VARODAYAN D, CHEN D, FLIERL M, et al. Wyner?Ziv coding of video with unsupervised motion vector learning [J]. Signal processing: image communication, 2008, 23(5): 369?378.
[15] ASCENSO J, BRITES C, PEREIRA F. Content adaptive Wyner?Ziv video coding driven by motion activity [C]// Proceedings of IEEE International Conference on Image Processing. Atlanta: IEEE, 2006: 605?608.
[16] BJ?NTEGAARD G. Calculation of average PSNR differences between RD?curves [C]// Proceedings of ITU?T VCEG. Austin: [s.n.], 2001: 2?4.endprint