朱向軍,馮志林,王 潔,鮑衛(wèi)兵
(浙江工業(yè)大學之江學院,浙江 杭州 310024)
以塊運動估計和變換編碼為核心的視頻壓縮技術(如MPEG及H.26x等標準)因編碼器復雜度高且抗誤碼能力差等缺陷,很難適用于移動視頻電話、無線低功耗視頻監(jiān)控及無線視頻傳感網(wǎng)絡等新興應用場合。最近提出的壓縮傳感(Compressive Sensing,CS)[1-2]理論,對稀疏信號(或可壓縮圖像)以遠低于奈奎斯特頻率的速度進行投影觀測,將傳感和壓縮合并為一個環(huán)節(jié),在解碼端采用適當?shù)南∈柚貥嬎惴◤挠^測向量中重建出原始信號,顯著降低了信號采集中的采樣頻率、功耗和數(shù)據(jù)存儲量?;趬嚎s傳感原理,Duarte等[3]發(fā)明了單像素攝像機,驗證了低像素攝像機也能拍攝高質(zhì)量圖像。壓縮傳感技術在編碼端通過簡單的隨機觀測來壓縮采樣信號,且全局觀測對信道誤碼魯棒性強,非常適合分布式編碼應用[4]。
Gan等[5]提出了一種壓縮圖像傳感方法,用置亂塊哈達瑪矩陣投影觀測整幀圖像,選擇離散小波變換為稀疏變換,采用凸優(yōu)化算法重構原圖像。結合分布式視頻編碼框架和CS理論的分布式壓縮視頻傳感方法[5-9],為解決低復雜度視頻編碼問題提供了新的思路。將視頻序列分為關鍵幀和CS幀,對關鍵幀獨立編碼/解碼或觀測/重建;對CS幀直接投影觀測實現(xiàn)低復雜度編碼,在解碼端利用幀間相關性重建CS幀,與CS幀獨立重建相比,圖像質(zhì)量有了顯著提高。提高此類算法性能的關鍵是在解碼端充分利用幀間相關性或稀疏性,Kang等[6]將幀率提升工具生成的邊信息作為稀疏重構的初始值,Prades-Nebot[7]和Do[8]等由重建關鍵幀的相鄰塊生成局部冗余字典以及Chen等[9]訓練生成全局冗余字典作為塊稀疏變換基。
筆者提出了利用運動補償預測(Motion Compensated Prediction,MCP)進行殘差稀疏重構的分布式壓縮視頻傳感算法(CVS_MCP),主要特點是:1)編碼端采用“關鍵幀-多個CS幀-關鍵幀……”的分組壓縮傳感方式,對整幀圖像投影觀測;2)在解碼端,利用已重建的關鍵幀和CS幀進行重疊塊運動估計,獲得稠密運動矢量場,生成運動補償預測幀;3)利用原始幀的觀測向量與預測幀的觀測向量之差,對預測殘差稀疏重構。
給定長度為N的一維離散信號列向量x,可以用一個N×N的稀疏變換基Ψ表示為x=Ψα,其中,α是系數(shù)向量。如果α中只有K(K?N)個非零的系數(shù),稱x是K-稀疏的。壓縮傳感[1-2]理論表明,對未知K-稀疏信號x,利用M×N(K≤M?N)的隨機觀測矩陣Φ進行線性投影觀測,得到長度為M的線性觀測向量(x的壓縮表示):y===,其中,Θ稱為傳感矩陣。當滿足約束等距性條件且觀測數(shù)M≥c(Klg(N/K))(c是與重建精度有關的常數(shù))時,運用稀疏重構算法按式(1)求解滿足y=Θα的最稀疏解^α,可穩(wěn)定精確的重建原始信號=,
CVS_MCP算法的結構如圖1所示,首先將視頻序列分為由一幀關鍵幀和后續(xù)多幀CS幀構成的若干圖像組(Group of Pictures,GOP)。在編碼端,順序獨立壓縮傳感單幀圖像,采用計算快速且通用性好的置亂塊哈達瑪矩陣[5]全局觀測整幀,得到觀測向量y,關鍵幀記為yK。在解碼端,以逆離散小波變換(IDWT)為稀疏變換基Ψ,采用SpaRSA[10]稀疏重構算法獨立重建關鍵幀得到;對CS幀按如下步驟重建:將重建關鍵幀插值生成預測幀pI,稀疏重構預測殘差,得到初始重建幀,然后結合重建關鍵幀,通過運動補償預測生成CS幀的預測幀pM,再次進行預測殘差稀疏重構得到最終的重建圖像。
圖1 CVS_MCP算法結構框圖
所提算法對CS幀整幀全局觀測,避免了分塊壓縮傳感[7-9]方法面臨的塊效應以及觀測數(shù)分配等問題(例如需要解碼端反饋觀測數(shù)的分配信息[9])。也不同于Do等[8]的分塊和整幀觀測結合的方法,面臨如何分配兩類觀測數(shù)的問題;并且 Prades-Nebot[7]和 Do[8]等算法中關鍵幀采用H.264幀內(nèi)編碼方法,復雜度較高,與單像素攝像機[3]也不兼容。所提算法對關鍵幀和CS幀采用相同的編碼結構,與單像素攝像機完全兼容。
算法選用性能較好且運算快速的重疊塊運動補償方法(OBMC)[11]生成預測幀pM,但與編碼端運動估計不同,解碼端的運動估計中原始幀無法獲得,先通過插值重建關鍵幀生成預測幀pI,然后稀疏重構預測殘差生成初始重建幀作為運動估計中的目標幀,保證了目標幀具有與重建關鍵幀近似的信噪比。解碼端不需要編碼傳輸運動矢量,采用更為稠密的運動矢量場可以提高運動補償預測的準確性。所以,算法采用了重疊塊運動估計,選擇16×16塊,重疊步長設定為4像素,以絕對差之和作為塊匹配準則。算法支持前向運動補償預測(Forward MCP,F(xiàn)MCP)和雙向運動補償預測(Bidirectional MCP,BMCP)兩種方式,前者僅由前一關鍵幀運動補償預測,后者還使用后一關鍵幀,預測幀為前后兩幀運動補償預測的簡單平均。與FMCP相比,BMCP殘差較小,但需先重建下一圖像組中的關鍵幀才能重建當前CS幀,增大了解碼延時。
按Chen等[9]文章的測試條件,設定圖像組內(nèi)幀數(shù)GOP=2,在不同觀測率MR下,對典型測試序列News.qcif,F(xiàn)oreman.qcif(176×144)以及 Football.cif(352×240)(運動程度和復雜度依次由低到高)的前51幀的Y分量壓縮傳感。分配給CS幀較少的觀測數(shù),圖像組內(nèi)的觀測率分配為:關鍵幀 MR_K=min(0.9 ×MR ×GOP,0.6),CS幀MR_CS=(MR×GOP-MR_K)/(GOP-1)。采用前向運動補償和雙向運動補償兩種方式(CVS_FMCP和CVS_BMCP),稀疏重構算法SpaRSA[10]的參數(shù)為默認設置。
比較所提算法與全局冗余字典(Global-Dict)[9]、局部冗余字典(Local-Dict)[7-8]及基準 CS(Baseline CS)[5]等3種算法的平均重建質(zhì)量(指標為峰值信噪比PSNR),結果見表1。在MR≥0.2時,CVS_BMCP算法比其他3種算法的重建質(zhì)量都有不同程度的提高,對運動復雜度低的News序列,PSNR提高約0.9~4.1 dB,對運動復雜度中等或較高的序列,PSNR提高0.15~2.6 dB。但在MR=0.1時,由于關鍵幀的觀測率低于0.2,關鍵幀重建質(zhì)量比較差,嚴重影響了CS幀的運動補償預測準確性,所以CVS_BMCP算法的重建質(zhì)量低于Global-Dict算法(在GOP較大時所提算法性能更好,詳見下一段的測試結果),但仍然比其他兩種算法的PSNR高出4 dB以上。而CVS_FMCP算法比CVS_BMCP算法的重建質(zhì)量低0.3~1.5 dB,在MR≤0.2時性能也比Global-Dict略差,但與其他兩種算法相比PSNR提高了3 dB以上。
表1 不同序列的重建質(zhì)量
在不同圖像組GOP設定下,測試CVS_BMCP算法的性能,對PETS序列(無線視頻監(jiān)控或無線視頻傳感網(wǎng)絡應用)的測試結果如圖2所示。低觀測率下(MR≤0.25),當GOP逐漸增大時,圖像重建質(zhì)量有明顯改善,PETS序列的PSNR提高了3.5~9.0 dB,主要是因為分配給關鍵幀更高的觀測率,其重建質(zhì)量獲得了大幅提高,預測殘差也更稀疏,CS幀的重建質(zhì)量也有相應提高。圖3給出了重建的PETS序列第9幀,與基準CS算法相比,采用CVS_BMCP算法(GOP=6)重建幀的PSNR提高了11.4 dB,主觀視覺質(zhì)量也有顯著提升。值得指出,對PETS序列,在MR=0.1,GOP=6時,重建幀PSNR達到了32 dB,所提算法更加適合低觀測率下的背景靜止的無線視頻監(jiān)控類應用。
圖2 不同GOP時PETS序列的重建質(zhì)量
圖3 PETS序列第9幀重建CS幀(MR=0.15)
依據(jù)運動補償預測殘差比原始圖像更稀疏這一特點,提出了一種分布式視頻壓縮傳感算法。仿真測試表明,在相同觀測率下,通過將觀測數(shù)優(yōu)先分配給關鍵幀,提高了關鍵幀的重建質(zhì)量以及運動補償預測幀的準確性,對預測殘差稀疏重構則提高了CS幀重建質(zhì)量,非常適合攝像機靜止的無線低功耗視頻監(jiān)控與無線視頻傳感網(wǎng)絡類應用。后續(xù)需深入研究的幾個問題是:在極低觀測率下尚需進一步提高算法性能;還需解決觀測值的量化、熵編碼以及碼率控制等問題,以提高編碼效率;開發(fā)更加快速實用的稀疏重構算法。
[1]DONOHO D L.Compressed sensing[J].IEEE Trans.Information Theory,2006,52(4):1289-1306.
[2]BARANIUK R G.Compressive sensing[J].IEEE Signal Processing Magazine,2007,24(4):118-124.
[3]DUARTE M F,DAVENPORT M A,TAKHAR D,et al.Single-pixel imaging via compressive sampling[J].IEEE Signal Processing Magazine,2008,25(2):83-91.
[4]李樹濤,魏丹.壓縮傳感綜述[J].自動化學報,2009,35(11):1369-1377.
[5]GAN L,DO T T,TRAN T D.Fast compressive imaging using scrambled block hadamard ensemble[EB/OL]. [2011-10-12].http://dsp.rice.edu/sites/dsp.rice.edu/files/cs/scrambled_blk_WHT.pdf.
[6]KANG L W,LU C S.Distributed compressive video sensing[C]//Proc.of IEEE International Conference on Acoustics,Speech,and Signal Processing 2009.Taipei:IEEE Press,2009:1169-1172.
[7]PRADES-NEBOT J,MA Y,HUANG T.Distributed video coding using compressive sampling[C]//IEEE Picture Coding Symposium,2009.Chicago:IEEE Press,2009:1-4.
[8]DO T T,CHEN Y,NGUYEN D T,et al.Distributed compressed video sensing[EB/OL].[2011-10-12].http://thanglong.ece.jhu.edu/Tran/Pub/DISCOS_ICIP2009.pdf.
[9]CHEN H W,KANG L W,LU C S.Dynamic measurement rate allocation for distributed compressive video sensing[EB/OL].[2011-10-11].http://vcip2010.ustc.edu.cn/BPC/Special/Dynamic%20measurement%20rate%20allocation% 20for% 20distributed% 20compressive% 20video%20sensing.pdf.
[10]WRIGHT S J,NOWAK R D,F(xiàn)IGUEIREDO M A T.Sparse reconstruction by separable approximation[J].IEEE Trans.Signal Processing,2009,57(8):2479-2493.
[11]ORCHARD M T,SULLIVAN G J.Overlapped block motion compensation:an estimation-theoretic approach[J].IEEE Trans.Image Processing,1994,3(5):693-699.