楊森林,萬國賓
(1.西安文理學院 陜西省表面工程與再制造重點實驗室, 陜西 西安 710065;2.西北工業(yè)大學 電子與信息學院, 陜西 西安 710072)
在未來無線多媒體視頻傳感器網(wǎng)絡系統(tǒng)中,將大量采用低成本和低復雜度的視頻傳感器。當這種低功耗設備大規(guī)模部署時,常規(guī)的H.26x預測視頻編碼在這種視頻傳感器編碼應用中就會遇到嚴峻挑戰(zhàn)[1],傳統(tǒng)預測不適合低功耗無線視頻傳感器編碼。Candes和Romberg提出的壓縮感知(CS)理論[2],突破了傳統(tǒng)的奈奎斯特-香農(nóng)采樣定理的限制,能夠實現(xiàn)信號的壓縮采樣,并通過優(yōu)化算法對原始信號精確重構。視頻壓縮采集所需計算能力小、功耗低和帶寬窄,在接收節(jié)點完成視頻信息重構,非常適合于移動視頻、無線多媒體網(wǎng)絡等應用場合。根據(jù)CS理論,實現(xiàn)流媒體系統(tǒng)視頻的有效壓縮和精確重建需要對視頻信號進行有效的稀疏表示和壓縮測量。在視頻壓縮研究中,通常采用離散余弦變換(DCT)或離散小波變換(DWT)對視頻幀進行稀疏表示[3]。通常,由于全局壓縮采樣觀測矩陣所需的存儲需求大、重構計算復雜度高,一般對視頻進行分塊壓縮感知[4-5]。同時,將視頻劃分為由關鍵幀和WZ幀構成的圖像組(GOP)序列依次進行壓縮采樣和重構。然而,對采樣率低的WZ幀,常規(guī)單幀重構算法重構質量較差。
為改善逐幀重構的質量,研究人員針對視頻序列的時間相關性進行了探索。首先,Larson等采用基于幀間相關性的三維CS重構方法[6],把一組MRI視頻幀作為一個3D數(shù)據(jù)體進行重構。3D重構增加了數(shù)據(jù)維度,加劇了計算復雜度和內存需求。Vaswani和Lu采用了已知的稀疏模式,對當前視頻幀采用最小二乘或卡爾曼濾波進行基于殘量預測的L1范數(shù)求解[7],也稱為修正的CS(Mod CS)。其次,基于視頻幀間的運動變化信息,Mun和Fowler將傳統(tǒng)視頻編碼端的運動矢量信息引入到重構過程[8],提出采用兩幀之間運動殘量信息的CS重構方法。進而,基于高質量的參考幀進行運動估計與補償,Chen等采用k-t空間的焦點欠定系統(tǒng)求解策略(k-t FOCUSS)[9-10],并用于動態(tài)MRI壓縮重構,該算法通過高質量關鍵幀與非關鍵幀的殘量進行雙向運動補償預測進行壓縮重構,但k-t FOCUSS方法通常假設視頻場景的運動變化是緩慢的。此外,Fowler等提出了基于稀疏變換域的多尺度壓縮感知策略[11],對不同尺度采用多尺度非均勻采樣。然而,實際應用中在變換域中多尺度非均勻壓縮采樣的硬件實現(xiàn)還比較困難。這些基于視頻相關性預測對于緩慢變化的視頻在一定程度上能提高壓縮重構質量,但是,對于一般視頻場景應用和硬件實現(xiàn)受限,同時計算復雜度也較高,因此,還需要開展進一步研究。
本質上,常規(guī)的一維或二維信號的壓縮感知方法研究主要采用非自適應的線性映射策略,事先假設這些信號具有固定不變的稀疏特點,并用同樣的正交基和測量算子進行固定采樣率的壓縮觀測。然而,實際場景的視頻幀信號往往是非平穩(wěn)的,其場景稀疏性也是隨場景內容變化的。其實,在壓縮感知理論前提下,要求被測量信號具有很好的稀疏特性,這是有少量觀測數(shù)據(jù)精確重構原始信號的先決條件,在很大程度上影響壓縮觀測過程所需的觀測次數(shù)[12]。如果原始信號的稀疏特性變弱,就必須進行更多數(shù)目的壓縮觀測數(shù)據(jù)才可能完成高精度的信號重建,否則會嚴重影響信號的重構質量。顯然,基于實踐經(jīng)驗設定的非自適應壓縮感知如果用于視頻圖像的壓縮感知,將會嚴重影響視頻幀的重構質量,降低了視頻的觀看體驗效果。相關人員已開展了一些自適應壓縮感知的探索。例如,立足于構造最優(yōu)化測量算子的貝葉斯壓縮感知[13],從理論上說能夠獲得最優(yōu)化測量矩陣并實現(xiàn)自適應壓縮感知。然而,貝葉斯壓縮感知方法需用迭代過程優(yōu)化測量感知算子,該過程復雜耗時、不適用于海量視頻信號的實時感知。進而,一些文獻采用統(tǒng)計模型實現(xiàn)信號稀疏度的自適應逼近,包括基于拉普拉斯先驗模型、高斯混合模型、局部隱馬爾可夫決策驅動模型以及自回歸模型等稀疏性的逼近方法[14-17]。其實,這些視頻信號稀疏性的逼近模型是否合理還需要進一步深入研究,給出可靠分析和論證。此外,還有文獻變采樣率的分塊壓縮觀測策略,通過對同一場景不同區(qū)域使用非均勻分采樣率來提高感知性能[18],但在實際場景中,難于對同一視頻場景的不同區(qū)域采用非均勻采樣率,因為會影響視頻實時感知性能。本文在視頻分塊壓縮感知基礎上,給出了基于視頻幀稀疏度近似測量的自適應壓縮感知,并充分挖掘視頻序列的結構相關性和時間冗余性,來提高視頻GOP序列的重構質量。
對于任意一幅以列向量方式表示的視頻圖像f∈RN×1,假設采用正交基函數(shù)ψ∈RN×N能實現(xiàn)視頻f的K稀疏表示,并用矩陣運算表示為f=ψμ,其中,μ∈RN×1,為視頻f的稀疏投影系數(shù),它可以用其中K?N個非零元素進行近似逼近。根據(jù)壓縮感知理論,對任何K稀疏視頻幀圖像f,都能夠利用M=O(KlogN)個非自適應線性投影系數(shù)g=Φf實現(xiàn)精確重建,其中,g∈RM×1,為任意K稀疏視頻f的壓縮觀測值,Φ∈RM×N(M?N)為測量矩陣。通常情況下,這個非自適應線性投影變換是一個病態(tài)反問題,對應無窮多個解。要精確重建視頻幀圖像f,測量算子Φ和稀疏表示基函數(shù)ψ對應的傳感矩陣Ω=Φψ必須滿足2K階約束等距性(RIP)條件[2],即Ω的2K列線性無關。如果不對視頻幀進行分塊處理,則屬于全局壓縮采樣的方式,其所需的存儲空間大、重建過程對應的計算復雜度非常高。
為降低視頻幀壓縮觀測過程中存在的計算復雜度和減小存儲器需求的問題,采用分塊壓縮感知(BCS)實現(xiàn)壓縮采樣。對于輸入的任意一幀視頻圖像,將其劃分為I個圖像塊,設每個子塊包括B×B個像素,將這些圖像子塊矢量化排列和表示后,并用觀測矩陣對所有矢量化表示結果進行壓縮采樣。令fk表示視頻幀中第k個子塊所對應的矢量表示形式,則該視頻子塊所對應的壓縮觀測結果為[4]
gk=ΦBfk,k=1,2,…,K。
(1)
對視頻幀的壓縮觀測而言,要完成高效的壓縮測量與高質量重建,必須選取合適的觀測矩陣ΦB。對于任意一幀視頻,測量矩陣的選擇應該綜合考慮運算復雜度、存儲空間需求、重構質量和硬件實現(xiàn)便利性等因素[19]。然而,大部分的測量算子在這些方面并不同時具備較好的性能。例如,伯努利矩陣和隨機高斯矩陣作為觀測算子時,具備很強的通用性能,并且能夠基于較少數(shù)目的壓縮采樣結果完成原始信號的精確重建。然而,伯努利矩陣或隨機高斯矩陣是非結構化矩陣,這些矩陣元素對應的存儲空間需求大,重構復雜度高、重構速度慢。當然,有時也采用局部Fourier矩陣進行壓縮觀測,因為局部Fourier矩陣對應重構速度快,壓縮觀測的硬件系統(tǒng)實現(xiàn)復雜度低。但是,局部Fourier算子對應的通用性較差,元素所需的存儲空間要求大。另外,某些二值稀疏矩陣也可用于壓縮采樣,而且具有較低的重構計算復雜度。但這些測量算子一般只與特定稀疏表示基函數(shù)線性無關,通用性較差。
結構化隨機矩陣也能用于壓縮觀測,而且具有綜合較優(yōu)的性能。首先,結構化隨機矩陣與所有的正交矩陣和大部分的稀疏信號都線性無關,具備很好的通用性能。同時,結構化隨機矩陣作為測量矩陣時,能通過很少數(shù)目的壓縮觀測值高精度地和快速地重構原始信號。另外,結構化隨機矩陣還能有效地分解為多個塊對角矩陣或結構化子矩陣的乘積表示,便于視頻序列的分塊壓縮采樣以及濾波處理。目前,已經(jīng)開發(fā)出了一些基于分塊壓縮采樣的CMOS壓縮成像集成圖像傳感器芯片。采用結構化隨機矩陣,BCS將每個高分辨率的視頻幀轉化為數(shù)據(jù)點數(shù)很少的壓縮觀測結果,實現(xiàn)數(shù)據(jù)降維和壓縮的目的。
對于壓縮感知而言,重構是一個關鍵的環(huán)節(jié),重構視頻圖像的質量或精確度是選擇重構方法的關鍵考慮因素之一。與此同時,重構算法的計算復雜度是重構策略選擇的另一個關鍵考慮因素。對于重構方法,文獻中給出較多的策略,諸如線性規(guī)劃、全變分法、貪婪算法、梯度投影稀疏重構和閾值投影法等[20-22]。在這些方法中,線性規(guī)劃和最小全變分法對應的重構過程計算復雜度高,即重構速度慢。梯度投影稀疏重構和貪婪算法的計算復雜度低、重構速度快,但經(jīng)過相同迭代次數(shù)后重構視頻幀質量較差。迭代閾值投影法相對比較折中,具備較低的計算復雜度,同時也具有較好的重建精度。為此,本文選擇迭代閾值投影實現(xiàn)視頻圖像重構[23]。假設在第n步的迭代重構值為f(n),采用的閾值迭代函數(shù)為
(2)
(3)
χ(·)是迭代過程采用的閾值濾波處理函數(shù),在迭代過程,對于第n次迭代重構結果f(n),采用閾值濾波變換處理,一般使用軟閾值處理方法,即
(4)
其中:η為軟閾值濾波所采用的閾值,并可采通用閾值方法對閾值η進行估算。文中引入閾值濾波處理函數(shù)χ(·)是為了消除視頻幀分塊壓縮感知所導致的塊效應問題。在空間域,還可使用3×3像素的局部維納濾波進行平滑處理,以進一步消除分塊效應,更好地提高重構質量。
對任意一幀視頻圖像的BCS壓縮觀測結果fi(i=1,2,…,I),閾值投影重構的步驟為:
初始化:輸入壓縮觀測值fi(i=1,2,…,I)、測量算子ΦB、變換算子Θ、閾值參數(shù)η以及迭代誤差閾值ε,然后,進入第1)步開始迭代;
2)對f(n-1)結果進行3×3模板的維納濾波處理,結果記為f(n);
常規(guī)圖像信號的壓縮感知方法研究主要采用非自適應的線性映射策略,并事先假設這些信號具有固定不變的稀疏特點,并用同樣的正交基和測量算子進行固定采樣率的壓縮觀測。然而,實際場景的視頻幀信號往往是非平穩(wěn)的,其場景稀疏性也是隨場景內容變化的。常規(guī)的非自適應壓縮采樣直接影響了視頻幀的重構精度。如果能定量估算視頻幀的稀疏性,就能避免盲目地選擇壓縮觀測次數(shù)的問題,改善視頻壓縮重構的質量。
為有效改善視頻幀的壓縮測量并提高重構性能,確定較優(yōu)的壓縮觀測數(shù)目,就必須定量近似計算視頻幀的稀疏性。為此,將視頻圖像先進行二維稀疏變換,再對稀疏變換系數(shù)進行處理,完成稀疏性的估算。比如,可以采用二維離散余弦變換(2D-DCT),其實,2D-DCT也是視頻有損壓縮編碼的關鍵技術。對任一視頻幀f的2D-DCT為
(5)
其中,i,j為空間域坐標,u和v為變換域坐標,系數(shù)
(6)
顯然,2D-DCT是一種實數(shù)變換,分析基函數(shù)為二維余弦函數(shù),廣泛用于圖像和視頻的有損壓縮編碼,以及加水印信息隱藏算法。大部分圖像的2D-DCT系數(shù)具有很好的稀疏特性。2D-DCT變換后的能量集中于較少的大系數(shù)上,而大部分系數(shù)接近于零或等于零。為了近似定量估計視頻場景的稀疏特性,必須統(tǒng)計2D-DCT系數(shù)中占優(yōu)勢能量的較大系數(shù)占比。據(jù)此,給出一種近似的稀疏性估計方法:
1)用灰度變換方法將視頻幀轉換為灰度圖,并計算2D-DCT變換;
2)將2D-DCT系數(shù)按絕對值遞減的方式排序,并進行能量歸一化處理;
3)確定優(yōu)勢能量閾值參數(shù)0?α<1;
4)統(tǒng)計遞減排序后的2D-DCT系數(shù),優(yōu)勢能量為α所需的較大系數(shù)的占比。
圖1(a)給出了PIG視頻其中一幀,含有768×1024個像素,圖1(b)為2D-DCT系數(shù)。圖2為按照降序排列的50 000個較大的2D-DCT系數(shù)。設定能量閾值為0.99,最大的有效能量點數(shù)為13 005個,其中,總像素為786 432。該視頻幀的稀疏度估算結果為0.095。實際應用中,為有效地近似估算稀疏性,需要選擇一個合適的參數(shù)α,而不同參數(shù)α對應不同的稀疏度K。通常參數(shù)α在0.95至1之間選擇??紤]到壓縮測量過程中觀測次數(shù)M?N,結合M=O(KlogN)得
(7)
根據(jù)上文,K為視頻圖像的稀疏度參數(shù),若K不滿足式(7),則稀疏度近似結果不合理,或者參數(shù)α選擇不當。一方面,稀疏變換基函數(shù)選取不恰當,則二維變換系數(shù)的稀疏性能欠佳;另一方面,參數(shù)α選取欠佳,使觀測次數(shù)M不合適,導致重構精度差或觀測數(shù)目過多。
(a)視頻幀 (b)DCT 2系數(shù)圖1 PIG視頻幀和其2D-DCT系數(shù)Fig.1 One frame of PIG and its coefficients of 2D-DCT transform
圖2 降序排列后50 000個較大的2D-DCT系數(shù)Fig.2 The 50 000 larger 2D-DCT coefficients in descending order
按上述所提到壓縮采樣率選擇方法,用16×16的像素進行分塊壓縮采樣。為便于分析與對比,采樣率分別選擇了0.05, 0.10和0.15三種情況進行壓縮感知,并用ITP方法對圖1(a)進行重構,重構結果分別如圖3所示,PSNR分別為27.5 dB,37.6 dB,和40.9 dB,SSIM分別為0.67,0.98,和0.99。實驗結果表明,對這3種壓縮采樣率,重構后視頻幀的PSNR和SSIM總體上隨采樣率的升高而變好。為了獲到較好的視頻重構精度,壓縮采樣率可設置為稀疏度估計結果的2~2.5倍。在此范圍內,壓縮采樣率的變化雖然達到1.5倍,但實驗結果表明重構視頻對應的PSNR提高有限、且為非線性。同時,在滿足稀疏性限定的最低采樣率下,都能給出較好的重構結果,采樣率越高圖像重構質量越好。
圖3 壓縮采樣率為0.05, 0.1, 0.15時的重構結果Fig.3 Reconstructed frames with subrate of 0.05, 0.1, and 0.15
(8)
(9)
(10)
(ΦBHi)Tgi,
(11)
對于正則化參數(shù)λ,需要選擇合適的值。實際應用中可以通過比較分析選擇不同范圍λ得到的預測結果,從中優(yōu)選最合適的參數(shù)λ。
對幀內所有圖像分塊,通過結構相關性的預測,就能在一定程度上提高重構視頻的質量。
(12)
(13)
同樣,利用參考幀和新的近似估計f′,又能進行更加準確的運動估計和運動補償。
對一個GOP序列來說,設其有N個幀(N為偶數(shù)),第一個幀為關鍵幀,而其余N-1幀為WZ幀。對于關鍵幀用較高的壓縮采樣率,幀重構質量較高;而WZ幀則用較低的采樣率,重構的質量較低??紤]以相鄰的兩個關鍵幀為起始幀,構成N+1幀視頻序列,假設該序列已完成單幀壓縮重構和結構預測,則可按如下順序進行GOP運動補償。
1) 順序補償:對第2幀到第N/2幀,以其前一幀作為參考幀,按順序依次進行運動補償;
2) 逆序補償:對第N幀到第(N/2)+2幀,以其后一幀為參考幀,按順序依次完成運動補償;
3) 雙向補償:對第(N/2)+1幀,以其前一幀與后一幀做為參考幀,分別進行運動補償,然后用這兩種運動補償?shù)钠骄底鳛檫\動補償結果。
在結構預測的基礎上,按照以上方式可完成所有GOP序列的運動估計與運動補償,進一步提高GOP序列的重構質量??傊?結合單幀壓縮重構、結構預測和運動補償?shù)囊曨lGOP處理流程如圖4所示
圖4 視頻GOP序列處理流程示意圖Fig.4 Processing flow for GOP sequence in the video
通常,運動估計和運動補償計算復雜,比較耗時。在實際應用中,除采用高效率的實現(xiàn)算法外,還可以將處理算法并行實現(xiàn)。比如,為了提高運行效率,GOP各幀的單幀重構過程可并行實現(xiàn),幀內結構預測也能并行實現(xiàn)。此外,運動補償過程中的順序補償和逆序補償兩個過程之間也可并行實現(xiàn)。
對于文中給出的算法,用視頻測試序列Susie進行測試。該視頻序列每一幀尺寸大小為352×240,GOP大小為4,利用BCS算法對該序列進行了分塊壓縮采樣,其中,關鍵幀采樣率為0.7,WZ幀采樣率為0.1。本實驗所設計算法均在Matlab 7.1環(huán)境下編寫調試,并在2.80 GHz CPU和4GB內存的單核PC機上運行。
對于GOP中每一幀視頻,BCS壓縮采樣所用分塊尺寸B為16,因為當分塊尺寸為16時,塊重構時間較小、同時重構精度也較好。對于該視頻GOP序列,按照圖4所示的方法流程,首先進行單幀壓縮重構,再進行幀內結構預測,最后進行運動估計和運動補償。圖5給出了GOP中第4幀的原始圖像、單幀壓縮重構、結構預測和運動補償重構結果。在各處理步驟中,GOP序列中每幀重構的峰值信噪比(PSNR)變化趨勢如圖6所示。
從視覺上分析,單幀壓縮重構圖像噪聲較大、質量較差,在結構預測之后重構質量有了較小改善,而運動估計和補償后的視頻重構效果得到了較大的提升。對于關鍵幀而言,由于采樣率高,重構精度也較高(39.55dB),在結構預測后PSNR提高為40.88 dB。對于WZ幀來說,由于采樣率很低,所以,圖5(b)所示的單幀壓縮重構質量較差,PSNR為29.04 dB;圖5(c)所示的結構預測小幅度地提高了重構質量,PSNR變?yōu)?9.95 dB;圖5(d)所示的運動補償較大幅度地提高了圖像重構質量,PSNR增至36.76 dB。通過結構補償,WZ幀的PSNR提高了1~1.5 dB,而運動補償后,WZ幀的PSNR提高了6 dB左右。
圖5 對Susie視頻GOP序列第4幀的重構結果Fig.5 Reconstruction of the 4th frame of the GOP sequence in Susie video
圖6 Susie視頻GOP序列的重構PSNRFig.6 PSNRs of reconstructed GOP sequence in Susie video
另外, 還采用其他多種標準視頻測試序列進行了測試, 表1給出了對5種不同標準視頻序列的關鍵幀恢復的PSNR, 表2給出了對WZ幀重構的PSNR。 表1表明,通過幀內的結構預測, 關鍵幀的重構質量有(1~5 dB)不同程度的改善。 表2表明,通過幀內的結構預測,WZ幀的重構質量有(1~2 dB)不同程度的改善,在運動補償處理后,WZ幀的重構質量進一步提高,為3~7 dB。
不同視頻序列仿真結果表明,在視頻GOP序列的壓縮采樣與重構處理中,由于采樣率低,單幀重構的WZ幀PSNR低,通過結構預測和運動補償,有效地提高了WZ幀的重構質量。同時,結構補償也能改善關鍵幀的重構質量。
表1 關鍵幀的重構PSNRsTab.1 PSNRs of reconstructed key-frames dB
表2 WZ幀的重構PSNRsTab.2 PSNRs of reconstructed WZ frames dB
此外,當視頻的關鍵幀采用較高壓縮采樣率(0.7),非關鍵幀采用0.1~0.5之間5種不同的壓縮采樣率時,采用不同方法進行重構,對10次重構過程中的平均PSNR值進行了對比。對于Foreman視頻,圖7給出了采用6種不同方法的重構PSNR值。圖7中,采用的6種方法包括了三維分塊重構(3D)、修正的壓縮感知重構(Mod CS)、多尺度壓縮重構(MS)3種不涉及運動補償?shù)闹貥嫹椒?以及基于兩幀之間運動補償?shù)闹貥?MC),k-t Focuss焦點欠定求解方法,和本文給出的基于結構補償和運動補償?shù)亩囝A測重構。結果表明,在不同壓縮采樣率情況下,本文所提方法重構結果對應的PSNR最高,其次是基于運動補償?shù)姆謮K壓縮重構,修正的壓縮感知重構精度最低,其余3種方法重構效果居中。
圖7 Foreman視頻GOP序列的重構PSNRsFig.7 PSNRs of reconstructed GOP sequence in Foreman video
提出了基于自適應壓縮感知的視頻GOP序列重構與質量改善策略。在視頻GOP序列中,由于采樣率低,單幀重構的WZ幀質量較差。所提視頻自適應壓縮感知方法相對于傳統(tǒng)方法有效減少了采樣個數(shù)、存儲空間與傳輸帶寬。幀內結構預測和運動補償通過視頻GOP序列的幀內和幀間相關性預測和補償,提高視頻重構質量。對不同視頻序列,結構預測能將單幀重構視頻的PSNR提高1~2 dB,而運動補償進一步將重構視頻的PSNR提高3~7 dB。文中所提方法利用視頻幀內和幀間的相關信息進行預測補償,有效地提高了視頻GOP序列的重構質量。然而,該重構策略在實現(xiàn)過程中需要雙向迭代重構,迭代步數(shù)較多時,其計算復雜度會增加,重構所需耗費的時間也會增加,是本文方法的不足之處,建議在提高重構過程中適當減少GOP序列雙向預測的迭代次數(shù)。在今后的研究工作中,將開展基于深度學習的視頻GOP序列的、智能感知與編解碼研究,對不同視頻序列都能實現(xiàn)快速高精度重構,以進一步改進視頻GOP序列重構性能。