陳 燦,周 超,張登銀
(南京郵電大學(xué)物聯(lián)網(wǎng)學(xué)院,江蘇 南京 210003)
壓縮感知(Compressive Sensing,CS)[1-2]理論提出利用測(cè)量矩陣對(duì)信號(hào)進(jìn)行采樣和壓縮,并通過(guò)重構(gòu)算法恢復(fù)原始信號(hào)。這種強(qiáng)大的信號(hào)采集和處理方式,使其適用于諸如視頻監(jiān)控[3]等資源受限的應(yīng)用場(chǎng)景。在過(guò)去的十多年中,CS 已被成功應(yīng)用于視頻圖像信號(hào)處理,其中最流行的一種應(yīng)用就是分布式視頻壓縮感知框架(Distributed Compressive Video Sensing,DCVS)[4-5]。由于DCVS 整合了CS 和分布式視頻編碼(Distributed Video Coding,DVC)[6]的特點(diǎn),十分適用于資源受限的應(yīng)用場(chǎng)景,得到了學(xué)者的廣泛關(guān)注。值得注意的是,由于存儲(chǔ)空間的限制,在實(shí)際應(yīng)用中往往采用基于塊的CS 采樣方式[7],而不是直接對(duì)幀進(jìn)行CS 采樣。
受啟發(fā)于運(yùn)動(dòng)估計(jì)(Motion Estimation,ME)和運(yùn)動(dòng)補(bǔ)償(Motion Compensation,MC),文獻(xiàn)[5]提出多假設(shè)(Multi-Hypothesis,MH)預(yù)測(cè)算法,通過(guò)線性組合圖像塊來(lái)生成當(dāng)前目標(biāo)圖像塊的預(yù)測(cè)。文獻(xiàn)[8]提出MH-BCS-SPL 算法,該算法結(jié)合了MH 預(yù)測(cè)和殘差重構(gòu)[9],能夠獲得不錯(cuò)的重構(gòu)質(zhì)量,因此衍生出一批相關(guān)算法[10-13]。文獻(xiàn)[14]提出一種重加權(quán)的殘差稀疏模型,該模型首先利用視頻幀的空間相關(guān)性進(jìn)行初始重構(gòu),再利用視頻幀之間的時(shí)間相關(guān)性進(jìn)一步提高重構(gòu)質(zhì)量。這些基于分析模型的重構(gòu)算法盡管能夠獲得不錯(cuò)的重構(gòu)質(zhì)量,但是計(jì)算復(fù)雜度高,無(wú)法滿足實(shí)時(shí)應(yīng)用的要求。
近年來(lái),深度學(xué)習(xí)技術(shù)在諸如目標(biāo)檢測(cè)、語(yǔ)義分割等機(jī)器視覺(jué)領(lǐng)域展現(xiàn)出巨大的潛力,已被成功應(yīng)用于CS 領(lǐng)域[15],并被逐步引入分布式視頻壓縮感知重構(gòu)中。文獻(xiàn)[16]提出一種名為CSVideoNet 的重構(gòu)網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),能夠有效進(jìn)行視頻幀重構(gòu)。文獻(xiàn)[17]提出一種基于LSTM 的多幀質(zhì)量增強(qiáng)方法,該方法通過(guò)使用相鄰高質(zhì)量視頻幀來(lái)提高低質(zhì)量視頻幀的質(zhì)量。文獻(xiàn)[18]提出一種基于CNN的聯(lián)合采樣重構(gòu)網(wǎng)絡(luò),聯(lián)合學(xué)習(xí)編碼和解碼,充分利用了幀間相關(guān)性和幀內(nèi)相關(guān)性。
盡管基于深度學(xué)習(xí)的重構(gòu)方法具備較高的重構(gòu)效率和重構(gòu)質(zhì)量,能夠滿足實(shí)時(shí)應(yīng)用的要求,但是現(xiàn)有基于深度學(xué)習(xí)的重構(gòu)方法忽略了幀的紋理特征,限制了重構(gòu)性能。由于同圖像組中的視頻幀具有較高的相似性,因此可以選擇重構(gòu)幀作為相鄰重構(gòu)幀紋理特征的參考。為了解決這個(gè)問(wèn)題,本文提出一種基于紋理特征的分布式視頻壓縮感知自適應(yīng)重構(gòu)網(wǎng)絡(luò),命名為T(mén)F-DCVSNet。具體來(lái)說(shuō),TF-DCVSNet利用已重構(gòu)相鄰幀的紋理特征,激活當(dāng)前重構(gòu)幀的重構(gòu)網(wǎng)絡(luò)模塊,進(jìn)行自適應(yīng)重構(gòu)。大量實(shí)驗(yàn)驗(yàn)證了TF-DCVSNet 的有效性。
本文章節(jié)安排如下:在第1 節(jié),介紹了相關(guān)背景知識(shí);在第2 節(jié),對(duì)所提方法進(jìn)行具體闡述;在第3節(jié),對(duì)所提方法進(jìn)行性能驗(yàn)證和分析;在第4 節(jié)中,對(duì)本文進(jìn)行總結(jié)與展望。
CS 理論指出,我們可以利用測(cè)量矩陣Φ∈Rm×n,以Sub-Nyquist 速率對(duì)信號(hào)x∈Rn×1進(jìn)行采樣:
式中:y∈Rm×1為測(cè)量向量,m/n為采樣率。在基于塊的CS 中,n=B2(B為分塊大小)。由于m?n,因此CS 重構(gòu)為ill-posed 問(wèn)題,傳統(tǒng)方法通過(guò)求解明確的分析模型來(lái)進(jìn)行信號(hào)的重構(gòu):
式中:λ為非負(fù)的權(quán)重常數(shù),S(x)表示信號(hào)先驗(yàn),例如稀疏先驗(yàn)[19]和低秩先驗(yàn)[20]。區(qū)別于基于分析模型的重構(gòu)方法,基于深度學(xué)習(xí)的重構(gòu)方法將重構(gòu)建模為一個(gè)帶參數(shù)的網(wǎng)絡(luò)F(y;θ),基于包含M個(gè)數(shù)據(jù)的訓(xùn)練集,通過(guò)優(yōu)化損失函數(shù)優(yōu)化θ,實(shí)現(xiàn)信號(hào)的重構(gòu):
研究者將DVC 和CS 進(jìn)行結(jié)合,提出了DCVS。如圖1 所示,該DCVS 框架首先把視頻幀序列劃分為多個(gè)圖像組,圖像組(Group Of Picture,GOP)內(nèi)的首個(gè)視頻幀被劃分為關(guān)鍵幀xK,其余視頻幀被劃分為非關(guān)鍵幀xNK(也被稱(chēng)為Wyner-Ziv 幀)。在編碼端,對(duì)關(guān)鍵幀和非關(guān)鍵幀分別以高采樣率和低采樣率,進(jìn)行獨(dú)立的CS 采樣。在解碼端,首先對(duì)關(guān)鍵幀的測(cè)量向量yK進(jìn)行獨(dú)立的CS 重構(gòu),獲得重構(gòu)后的關(guān)鍵幀x″K。然后利用x″K輔助非關(guān)鍵幀的測(cè)量值yNK進(jìn)行聯(lián)合重構(gòu),獲得重構(gòu)后的非關(guān)鍵幀x″NK。
圖1 DCVS 框架
現(xiàn)有基于深度學(xué)習(xí)的重構(gòu)方法忽略了幀的紋理特征,限制了重構(gòu)性能。為了進(jìn)一步提高重構(gòu)質(zhì)量,提出一種基于紋理特征的分布式視頻壓縮感知自適應(yīng)重構(gòu)網(wǎng)絡(luò),命名為T(mén)F-DCVSNet。
TF-DCVSNet 網(wǎng)絡(luò)框架如圖2 所示,包括初始重構(gòu)模塊和自適應(yīng)重構(gòu)模塊。基于同圖像組中的視頻幀具有較高的相似性,因此在重構(gòu)時(shí)可以選擇相鄰重構(gòu)的結(jié)果作為當(dāng)前幀的紋理特征的參考。所提方法首先在非關(guān)鍵幀的重構(gòu)中,選擇關(guān)鍵幀的中間重構(gòu)結(jié)果作為非關(guān)鍵幀紋理特征的參考,進(jìn)行非關(guān)鍵幀的自適應(yīng)重構(gòu),獲得;然后將作為關(guān)鍵幀紋理特征的參考,進(jìn)行關(guān)鍵幀的自適應(yīng)重構(gòu),獲得。
圖2 TF-DCVSNet 框架
①初始重構(gòu)模塊
初始重構(gòu)模塊如圖3(以非關(guān)鍵幀的初始重構(gòu)為例)所示,由1 個(gè)卷積層(卷積核數(shù)量:B×B,卷積核大小:1×1,步長(zhǎng):1,填充:valid)和1 個(gè)變形層組成。首先利用卷積層對(duì)y進(jìn)行卷積運(yùn)算,然后利用變形層將卷積層輸出張量變形為目標(biāo)重構(gòu)維度。
圖3 初始重構(gòu)模塊架構(gòu)
②自適應(yīng)重構(gòu)模塊
自適應(yīng)重構(gòu)模塊如圖4(以非關(guān)鍵幀的自適應(yīng)重構(gòu)為例)所示,由1 個(gè)門(mén)模塊和k個(gè)加權(quán)殘差模塊組成。首先輸入門(mén)模塊得到激活向量,激活向量自適應(yīng)激活加權(quán)殘差模塊,對(duì)進(jìn)行自適應(yīng)重構(gòu)。
圖4 自適應(yīng)重構(gòu)模塊框架
門(mén)模塊由5 個(gè)卷積層(卷積核數(shù)量:32,卷積核大小:3×3,步長(zhǎng):1,填充:same),1 個(gè)平均池化層(池化核大小:2×2)、1 個(gè)全連接層(神經(jīng)元數(shù)量:k)、1 個(gè)Softmax 層和1 個(gè)過(guò)濾層構(gòu)成。在過(guò)濾層(GL)根據(jù)設(shè)置的閾值1/4k,對(duì)輸入張量t進(jìn)行過(guò)濾,最終獲得激活向量p():
加權(quán)殘差模塊由2 個(gè)卷積層組成。首先,利用1 個(gè)卷積層(卷積核數(shù)量:32,卷積核大小:3×3,步長(zhǎng):1,填充:same)對(duì)輸入進(jìn)行特征提取,獲得特征圖;其次,利用1 個(gè)卷積層(卷積核數(shù)量:1,卷積核大小:3×3,步長(zhǎng):1,填充:same)進(jìn)行增強(qiáng)重構(gòu),獲得增強(qiáng)重構(gòu)結(jié)果;然后,將增強(qiáng)重構(gòu)結(jié)果的數(shù)值與激活向量中對(duì)應(yīng)的數(shù)值進(jìn)行點(diǎn)乘運(yùn)算;最后,與這個(gè)加權(quán)殘差子網(wǎng)的輸入進(jìn)行相加,獲得這個(gè)加權(quán)殘差子網(wǎng)的最終輸出。
如圖5 所示,針對(duì)所提網(wǎng)絡(luò)框架,本文采用一種基于四階段的訓(xùn)練策略。當(dāng)前階段將之前階段訓(xùn)練的參數(shù)作為初始化參數(shù)進(jìn)行訓(xùn)練。為使得公式更加簡(jiǎn)潔明了,下列公式皆為基于數(shù)據(jù)集的求和,省略了求和的上下標(biāo)。
圖5 基于四階段的訓(xùn)練策策略
在訓(xùn)練階段一中,通過(guò)優(yōu)化式(5)和式(6),分別對(duì)關(guān)鍵幀和非關(guān)鍵幀的初始重構(gòu)模塊進(jìn)行訓(xùn)練:
在訓(xùn)練階段二中,通過(guò)優(yōu)化式(7),對(duì)非關(guān)鍵幀的初始重構(gòu)模塊和自適應(yīng)重構(gòu)模型進(jìn)行訓(xùn)練:
在訓(xùn)練階段三中,通過(guò)優(yōu)化式(8),對(duì)關(guān)鍵幀的初始重構(gòu)模塊和自適應(yīng)重構(gòu)模型進(jìn)行訓(xùn)練:
在訓(xùn)練階段四中,通過(guò)優(yōu)化式(9),對(duì)整體網(wǎng)絡(luò)進(jìn)行訓(xùn)練:
由于沒(méi)有專(zhuān)門(mén)針對(duì)分布式視頻壓縮感知的標(biāo)準(zhǔn)數(shù)據(jù)集,本文采用UCF-101 數(shù)據(jù)集[21]進(jìn)行訓(xùn)練和測(cè)試。由于GPU 顯存的限制,圖像組大小設(shè)置為4,每個(gè)視頻幀裁取中心區(qū)域(分辨率:160×160)組成數(shù)據(jù)集。將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集(80%),驗(yàn)證集(10%)和測(cè)試集(10%)。其他參數(shù)設(shè)置如表1所示。采用所有視頻幀的平均PSNR 和平均SSIM作為衡量重構(gòu)質(zhì)量的客觀標(biāo)準(zhǔn)。
表1 實(shí)驗(yàn)參數(shù)設(shè)置
為驗(yàn)證所提方法的有效性,將TF-DCVSNet 與以下三種主流的算法和網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn):MHBCS-SPL[8],F(xiàn)IR[22]和ReconNet[23]。表2 展示了不同方法在測(cè)試集上的重構(gòu)質(zhì)量對(duì)比。以0.04 采樣率的情況為例,相比于FIR,MH-BCS-SPL 和Recon-Net,TF-DCVSNet 在PSNR 上獲得了4.26 dB,3.14 dB和8.6 dB 的提升,并在SSIM 上獲得了0.136 1,0.094 3和0.301 4。圖6 展示了不同方法的重構(gòu)主觀質(zhì)量對(duì)比,不難觀察到,在低采樣率的情況下,ReconNet 由于獨(dú)立地重構(gòu)每個(gè)圖像塊,忽略了塊之間的聯(lián)系,并且未充分利用視頻時(shí)空相關(guān)性,具有明顯的塊效應(yīng),重構(gòu)性能不太理想;MH-BCS-SPL 利用了視頻時(shí)空相關(guān)性,塊效應(yīng)有一定的改善;FIR 盡管借助深度學(xué)習(xí)技術(shù),消除了塊效應(yīng),但是并未充分利用視頻時(shí)空相關(guān)性,重構(gòu)質(zhì)量仍有進(jìn)一步的提升空間;TF-DCVSNet 展現(xiàn)出優(yōu)越的性能,其原因在于TF-DCVSNet 充分利用了紋理特征信息,能夠進(jìn)行自適應(yīng)的重構(gòu)。
表2 重構(gòu)質(zhì)量對(duì)比
本文針對(duì)現(xiàn)有基于深度學(xué)習(xí)的重構(gòu)方法忽略了幀的紋理特征、重構(gòu)性能受限的問(wèn)題,提出一種名為T(mén)F-DCVSNet 的基于紋理特征的分布式視頻壓縮感知自適應(yīng)重構(gòu)網(wǎng)絡(luò),利用已重構(gòu)相鄰幀的紋理特征,激活當(dāng)前重構(gòu)幀的重構(gòu)網(wǎng)絡(luò)模塊,進(jìn)行自適應(yīng)重構(gòu)。大量實(shí)驗(yàn)驗(yàn)證了TF-DCVSNet 的有效性。今后的研究將圍繞如何提高網(wǎng)絡(luò)的重構(gòu)效率進(jìn)行開(kāi)展。