嚴宏海 卜方玲 徐新
摘要:針對傳統(tǒng)正則化超分辨率(SR)重建模型中,正則化參數(shù)選擇過大會使重建結(jié)果模糊,導(dǎo)致邊緣和紋理等細節(jié)丟失,選擇過小模型去噪能力又不足的問題,提出一種基于結(jié)構(gòu)張量的雙正則化參數(shù)的視頻超分辨率重建算法。首先,利用局部結(jié)構(gòu)張量對圖像進行平滑區(qū)域和邊緣的檢測;然后,利用差異曲率對全變分(TV)進行先驗信息加權(quán);最后,對平滑區(qū)域和邊緣采用不同的正則化參數(shù)進行超分辨率重建。實驗數(shù)據(jù)顯示提出的算法將峰值信噪比(PSNR)提高了0.033~0.11dB,具有較好的重建效果。實驗結(jié)果表明:該算法能夠有效地提升低分辨率(LR)視頻幀重建效果,可應(yīng)用于低分辨率視頻增強、車牌識別和視頻監(jiān)控中感興趣目標增強等方面。
關(guān)鍵詞:
超分辨率;幀序列;結(jié)構(gòu)張量;雙正則化參數(shù);全變分加權(quán)
中圖分類號: TP301.6; TP391.413 文獻標志碼:A
0引言
超分辨率(Super Resolution, SR)是利用一幀或多幀退化的低分辨率(Low Resolution, LR)圖像,通過相應(yīng)算法進行重建、融合形成一幅高分辨率(High Resolution, HR)圖像的技術(shù),在醫(yī)學(xué)、遙感、刑事偵查、軍事等領(lǐng)域有著廣泛應(yīng)用[1],尤其是在視頻監(jiān)控中。視頻監(jiān)控中常常會出現(xiàn)因攝像頭分辨率低、攝像頭距離目標較遠、帶寬不足等原因?qū)е庐嬅嬷懈信d趣目標模糊不清,如車牌難以辨識、人臉不清晰等,因此,隨著智能安防、智慧城市的發(fā)展,近幾年來,視頻超分辨率成為圖像處理領(lǐng)域的研究熱點。
視頻超分辨率是由LR幀序列重建形成HR幀序列的技術(shù)。超分辨率技術(shù)可以分為基于插值的、基于重建的和基于學(xué)習(xí)的三種。其中基于重建的正則化法是SR的研究重點。由于超分辨率重建問題是一個病態(tài)反演問題,重建的結(jié)果不確定,而將引入先驗信息約束項的正則化法用于SR重建,可以得到確定的唯一解[2],因此,一些基于正則化的SR重建方法相繼被提出,常用的正則化法有Tikhonov[3]、全變分(Total Variation, TV)[4]、雙邊濾波全變分(Bilateral Total Variation, BTV)[5]、空域信息加權(quán)的全變分(Spatial Weight Total Variation, SWTV)[6]、自適應(yīng)全變分[7-9]等。Tikhonov正則化法可以增強重建圖像的平滑度,但丟失了LR圖像的細節(jié)信息,導(dǎo)致重建圖像邊緣模糊;TV正則化法引入先驗信息約束項,可以在抑制噪聲的同時,很好地保持邊緣和細節(jié)信息,但當正則化參數(shù)過大時,在平滑區(qū)域降噪的同時易形成階梯效應(yīng)[10];BTV正則化能更好地保持邊緣細節(jié),但未能考慮圖像的局部平滑信息,且自適應(yīng)能力有限;SWTV算法則提出利用圖像空域的先驗信息對全變分進行加權(quán),該方法在平滑區(qū)域給予全變分較大的權(quán)重,在邊緣區(qū)域(包括紋理細節(jié)部分)給予全變分較小的權(quán)重,以此達到全局正則化參數(shù)在平滑區(qū)域和邊緣區(qū)域起到不同的控制作用,但其正則化參數(shù)仍為全局參數(shù),不能很好地平衡降噪和保持細節(jié)。本文提出一種改進的全變分正則化視頻SR重建算法,首先利用局部結(jié)構(gòu)張量對圖像進行平滑區(qū)域和邊緣的檢測,同時引入比梯度信息更有效的差異曲率[11]進行正則化項加權(quán);然后利用兩個不同的正則化參數(shù)控制平滑區(qū)域和邊緣的正則化項;最后利用最速下降法迭代求解重建后的HR幀。實驗結(jié)果表明本文算法具有較好的重建效果,在抑制噪聲的同時能夠較好地保持細節(jié)信息。
1全變分正則化SR模型
超分辨率重建是個典型的反演問題,在由已知的LR幀獲取HR幀時,LR幀可以看作是HR幀經(jīng)過圖1的觀測模型退化而來,即LR幀是由HR幀經(jīng)過幾何運動、模糊、降采樣和附加噪聲產(chǎn)生的。這一過程可用式(1)來表示:
yk=DkBkFkxk+nk(1)
其中:yk表示LR幀序列的第k幀;Dk、Bk、Fk和nk分別表示降采樣矩陣、模糊矩陣、幾何運動矩陣和噪聲。由式(1)反演求得的解是不確定的,而將引入先驗信息約束項的正則化法用于SR重建,可以得到穩(wěn)定解。TV正則化是一種有效的先驗?zāi)P?,常用來解決病態(tài)反演問題,可以用于去噪、去模糊、邊緣增強等[3]。假設(shè)LR幀是由同一設(shè)備獲得,則Dk相同,Bk也相同。由LR幀序列估計HR幀序列的正則化模型可以表示為:
其中:t表示幀序列的時間索引;t表示最終的HR圖像;xt表示當前的HR圖像,k∈(t-N/2,t+N/2),t時刻的HR幀,由(t-N/2,t+N/2)內(nèi)的N幀LR幀反演重建求得。式(2)中∑t+N/2k=t-N/2‖yk-DBFkxt‖22為數(shù)據(jù)保真度項,描述當前所求的HR圖像與原始HR圖像的誤差;φ(xt)為正則化項,表示先驗信息模型,對于HR幀,當正則化項為TV時,得到:
其中:Δux、Δuy分別表示圖像的梯度信息,即一階差分;Ω表示圖像區(qū)域;xt表示重建過程中當前的HR幀。λ是正則化參數(shù),用于平衡數(shù)據(jù)保真度項和正則化項,圖2說明了λ的作用,在平滑區(qū)域,可以通過較大的λ抑制噪聲;在紋理及邊緣部分,可以通過較小的λ保持細節(jié)信息;但單一的λ難以平衡去噪和保留細節(jié)。圖2(b)框2內(nèi)比圖2(c)中框2內(nèi)細節(jié)豐富;但圖2(b)右上角的框1較模糊、噪聲較大,而圖2(c)框1內(nèi)則較平滑,去噪效果好,且當噪聲和模糊較大時,雖然可以通過選取較大的λ來抑制噪聲;但λ過大時在平滑區(qū)域易形成“階梯效應(yīng)”,因此研究圖像的結(jié)構(gòu)信息,根據(jù)不同的結(jié)構(gòu)選擇不同的λ非常重要。
2基于結(jié)構(gòu)張量的雙參數(shù)正則化
2.1結(jié)構(gòu)張量
在基于正則化的SR重建中,對當前的HR圖像采用單一的全局正則化參數(shù)未能充分利用圖像的結(jié)構(gòu)信息,而結(jié)構(gòu)張量作為一種圖像局部描述符,包含鄰域內(nèi)信號改變的大小和方向等信息,利用像素點結(jié)構(gòu)張量[12]的“特征值—特征向量”可以區(qū)分圖像的平滑、邊緣和角點區(qū)域,因此本文首先利用結(jié)構(gòu)張量對SR重建的初始值(也即由LR序列插值得到的初始HR幀)進行結(jié)構(gòu)分析,提取出平滑部分和邊緣部分(角點主要是保持細節(jié)劃分在此部分),進而用兩個不同的正則化參數(shù)分別作用于平滑和邊緣部分,這樣既能保證在平滑區(qū)域利用較大的參數(shù)進行降噪,又能在邊緣部分利用較小的參數(shù)保持細節(jié)信息。
2.2全變分加權(quán)系數(shù)
全變分是基于圖像的梯度信息的,在噪聲及模糊比較大時,一階差分難以有效地區(qū)分邊緣和斜坡,而選擇一個良好的、能夠充分表達圖像空域信息的指標,在正則化中是非常重要的,這個空間信息指標應(yīng)能較好地檢測邊緣信息。而由文獻[11]提出的差異曲率(difference curvature)被證明是一種能夠有效區(qū)分并表達平滑、邊緣和斜坡的指標,所以本文將其用于TV正則化加權(quán)。
2.3雙參數(shù)正則化視頻超分辨率算法
2.2節(jié)中基于差異曲率改進的全變分,在全局正則化參數(shù)的情況下,可以較好地平衡重建過程中抑制噪聲和保持邊緣細節(jié)的問題;但單一的正則化參數(shù)自適應(yīng)能力仍然有限,因此本文提出一種雙參數(shù)的HR視頻幀序列重建模型。
t=arg min{∑t+N/2k=t-N/2‖yk-DBFkxt‖22+λxφ(xt)}(13)
對于圖像中不同部分正則化,參數(shù)如式(14):
λx=λP,平滑區(qū)域 λE,邊緣和角點 (14)
其中:λP、λE分別表示平滑區(qū)域和邊緣區(qū)域的正則化參數(shù);φ(xt)表示結(jié)合差異曲率的全變分。在式(13)中,HR幀在重建過程中,對于平滑區(qū)域,主要目的是降噪,λP可以選擇較大的值;且對2.2節(jié)中引入差異曲率的式(8)和(9)分析可知,對于平滑區(qū)域的像素點,在水平和垂直方向的變化基本一致,所以Ci較小,接近于0,所以Wi接近于1,上述結(jié)合差異曲率的全變分具有傳統(tǒng)TV平滑區(qū)域降噪的功能。對于邊緣和紋理細節(jié)等高頻分量,主要目的是保持其細節(jié)信息,所以λE可以選擇小的值;而對于邊緣和紋理部分,由于像素值(灰度值)在一個方向變化較大,另一個方向變化較小,所以Ci較大,相應(yīng)地Wi較小甚至接近于0,相當于對于邊緣區(qū)域的正則化項數(shù)值給予較小的權(quán)重,可以更好地保持細節(jié)信息。所以,采用雙參數(shù)正則化并引入差異曲率的正則化項可以更好地平衡傳統(tǒng)TV去噪和保持細節(jié)的問題,因此本文提出的重建模型具有如下特點:
1)利用結(jié)構(gòu)張量分析圖像結(jié)構(gòu),對平滑區(qū)域采用較大的正則化參數(shù),對非平滑區(qū)域采用較小的正則化參數(shù),利用不同的正則化參數(shù)對圖像不同區(qū)域進行重建;同時起到去噪和保留細節(jié)的作用。
2)結(jié)合差異曲率,在1)的基礎(chǔ)上對平滑區(qū)域和非平滑區(qū)域給予大小不同的權(quán)重,較好地平衡了重建過程中降噪和保留細節(jié)。
由于式(13)的最小泛函求解問題是一個非線性問題,且D、Bk、Fk的轉(zhuǎn)置及求解數(shù)據(jù)保真度項和正則化項梯度函數(shù)中計算量極大,所以本文采用最速下降法按照式(15)的模型迭代求解式(13),逐步逼近最小化最優(yōu)化解,當?shù)鷹l件滿足式(16)或達到預(yù)設(shè)的最大迭代次數(shù)時,當前的結(jié)果即是所重建的HR幀:
xn+1t=xnt-β(G1(t)+λxG2(t))(15)
其中:xn+1t、xnt分別表示幀時間索引為t時,第n+1次和第n次的重建的HR圖像;G1 (t) = FTk BTDT(DBFk t-yk )表示數(shù)據(jù)保真度項對圖像x的梯度;FTK、BT和DT分別表示Fk、B和D的逆操作即逆幾何運動、去模糊和上采樣矩陣。λx如式(14)所示;G2(t)=Xuu(X2v+eps此處的變量是否應(yīng)該為ε?若不是,是否需要在正文中對“eps”變量進行說明?請明確?;貜?fù):式16中的 eps在此處表示一個很小的接近于0的變量,避免分母出現(xiàn)0的情況。不是ε。)-2XuXvXuv+Xvv(Xu+eps)(X2u+X2v+eps)3/2表示正則化項對圖像x的梯度。
迭代終止條件為:
‖xn+1t-xnt‖2/‖xnt‖2<ε(16)
本文算法步驟如下:
1)提取視頻幀,確定重建每一幀HR圖像所需的LR幀數(shù)N,設(shè)置最大迭代次數(shù)和迭代終止條件ε。
2)選取低分辨率的參考幀,通過LucasKanade光流法[13]對N幀LR幀進行配準,求得其他N-1幀相對于參考幀的運動參數(shù),構(gòu)建運動矩陣F。
3)利用結(jié)構(gòu)張量檢測平滑區(qū)和邊緣,求解數(shù)據(jù)保真度項的梯度函數(shù)G1(t)和正則化項的梯度函數(shù)G2(t),選擇合適的正則化參數(shù)λP和λE,按照式(15)迭代求解。
4)如果迭代終止條件滿足式(16)或迭代次數(shù)達到預(yù)設(shè)的最大迭代次數(shù),則當前的xt即為最終的重建結(jié)果,轉(zhuǎn)到步驟5;否則轉(zhuǎn)到步驟3)。
5)輸出HR幀。
3實驗與分析
為了驗證本文提出的基于局部結(jié)構(gòu)張量的雙正則化參數(shù)超分辨算法的有效性,分別進行仿真實驗和實際視頻幀序列的實驗,并與Tikhonov、TV、BTV、SWTV四種算法對比。實驗平臺為:Windows 7系統(tǒng)、Matlab 2010a、C++和Matlab混合編程。實驗數(shù)據(jù)分為兩部分,仿真數(shù)據(jù)為Lena灰度圖和cameraman灰度圖。Lena圖大小為256×256,格式為bmp;cameraman圖大小為256×256,格式為tif。實際視頻數(shù)據(jù)來源于Multidimensional Signal Processing (MDSP) Research Group of UCSC (http://users.soe.ucsc.edu/milanfar/software/srdatasets.html)的text視頻(大小為57×49,共30幀)和武漢大學(xué)無線傳感器網(wǎng)絡(luò)實驗室的監(jiān)控視頻集成平臺(http://wsnlwhu.sinaapp.com/)的一段監(jiān)控視頻(時間為20150929,大小為1920×1080,幀率為25frame/s,共50幀)。設(shè)置最大迭代次數(shù)為30次,式(12)中的收斂條件ε設(shè)為10-6。在仿真實驗中選用常用的峰值信噪比(Peak SignaltoNoise Ratio,PSNR)[14]、結(jié)構(gòu)相似性指數(shù)(Structural Similarity Index,SSIM)[15]和特征相似性指數(shù)(Feature Similarity Index,F(xiàn)SIM)[16]用于評價指標,PSNR越大表示重建的圖像與原始HR圖像越接近。SSIM和FSIM在(0,1)區(qū)間,用于衡量兩幅圖像的相似度,越大表示兩幅圖像越相似。實際視頻幀序列的評價主要依據(jù)視覺效果和細節(jié)信息。
3.1仿真實驗
按照第1章中的視頻幀序列觀測模型,對已知的高分辨率Lena圖和cameraman圖進行降質(zhì)處理。對其進行不同參數(shù)的平移、模糊(使用5×5高斯模糊,方差為1,模擬點擴散函數(shù)),在水平和垂直方向降采樣,降采樣因子為2,得到四個LR序列,再加上一系列零均值的高斯白噪聲,噪聲標準差分別為8,11.4,14,16和18。
對于Lena圖和cameraman圖,Tikhonov正則化、TV正則化、BTV、SWTV和本文算法得到的PSNR、SSIM和FSIM曲線分別如圖3~53、圖6~84所示。由圖3~53和圖6~84可知,在同一噪聲水平下,本文算法相比其他4種算法具有更高的PSNR、SSIM和FSIM,與文獻[6]的SWTV相比,本文算法的PSNR提高了約0.033~0.11dB。雖然隨著噪聲標準差的加大,各種算法重建后的HR圖像的3種指標都下降,但是本文算法的3種指標依然比其他4種算法高。與SWTV算法利用單一的全局正則化參數(shù)相比,本文利用結(jié)構(gòu)張量對圖像進行結(jié)構(gòu)分析,對平滑區(qū)域和邊緣采用兩個不同的正則化參數(shù),一個較大的參數(shù)控制平滑區(qū)域,主要用于去噪;一個較小的參數(shù)控制邊緣部分的正則化項,主要用于細節(jié)保持,更能平衡抑制噪聲和保留細節(jié)信息。噪聲標準差為18(歸一化方差為0.005)時,Lena圖和cameraman圖的各種SR算法的重建效果如圖9~105~6所示,從圖95和圖106也可以看出本文算法在視覺上比其他4種算法效果要好。
3.2實際視頻幀序列
在實際視頻的實驗中,由于攝像設(shè)備的點擴散函數(shù)未知,假設(shè)攝像頭的點擴散函數(shù)為模板大小5×5、方差為1的高斯模糊核。由圖117的text視頻重建結(jié)果可知:雖然圖117(c)BTV看起來較亮,細節(jié)信息保留較多,但字母周圍明顯仍然存在較大噪聲,去噪能力不足;而圖117(f)中字母清晰可見,字母周圍較為平滑,在保留細節(jié)的同時,抑制了大部分噪聲,且比圖117(e)更清晰。綜合來看,本文算法較好地平衡了抑制噪聲和保留細節(jié)。
由于圖128中三個感興趣目標在第5幀中所處位置和距離攝像頭(攝像頭距地面約8m,目標3距離攝像頭最遠,水平距離約35m)的距離不同,所以3個目標的重建結(jié)果,視覺效果上并不一致。由圖139和圖1410可知,本文算法對目標1和目標2的重建結(jié)果較為清晰,車牌和車標細節(jié)信息保留較多。雖然圖1511中本文算法和其他4種算法重建結(jié)果都不能清晰地辨別車牌,原因是與攝像頭的距離甚遠,車牌部分像素較少,但從車牌前兩個字母“W”和“F”上看,本文算法視覺效果依然較好,因為本文較好地利用了圖像的結(jié)構(gòu)信息,且采用兩個大小不同的正則化參數(shù),在重建的過程中對圖像不同區(qū)域起到了不同的作用,較好地統(tǒng)一了去噪和保留細節(jié)。因為全變分、結(jié)構(gòu)張量描述的是圖像的一階梯度信息,差異曲率描述的是圖像的二階梯度信息,所以本文算法在每次迭代求解過程中先利用結(jié)構(gòu)張量進行圖像檢測,再利用差異曲率對全變分進行加權(quán),使得耗時相對于傳統(tǒng)的基于全變分(TV)的正則化超分辨率算法有所增加。
4結(jié)語
在分析全變分模型的基礎(chǔ)上,利用結(jié)構(gòu)張量對圖像進行結(jié)構(gòu)分離,提取平滑和邊緣區(qū)域,本文提出一種雙正則化參數(shù)的視頻超分辨率重建算法。一個較大的正則化參數(shù)控制平滑區(qū)域的正則化項,主要用于去噪;一個較小的正則化參數(shù)控制邊緣部分的正則化項,主要用于保留細節(jié)信息。同時利用差異曲率對全變分進行先驗信息加權(quán),進一步地平衡了去噪和保留細節(jié)的問題。實驗結(jié)果表明,本文算法比Tikhonov、TV、BTV和SWTV重建效果好。引入結(jié)構(gòu)張量和差異曲率使得本文算法的耗時相對于傳統(tǒng)的基于全變分(TV)的正則化超分辨率算法有所增加,如何提高計算效率以及自適應(yīng)選取參數(shù),將是下一步的研究重點。
參考文獻:
[1]
PARK S C, PARK M K, KANG M G. Superresolution image reconstruction: a technical overview [J]. IEEE Signal Processing Magazine, 2003, 20(4): 21-36.
[2]
BLOMGREN P, CHAN T F, MULET P, et al. Total variation image restoration: numerical methods and extensions [C]// Proceedings of IEEE 1997 International Conference on Image Processing. Piscataway, NJ: IEEE, 1997, 3: 384-387.
[3]
ELAD M, FEUER A. Restoration of a single superresolution image from several blurred, noisy, and undersampled measured images [J]. IEEE Transactions on Image Processing, 1997, 6(12): 1646-1658.
[4]
CHAN T F, OSHER S, SHEN J. The digital TV filter and nonlinear denoising [J]. IEEE Transactions on Image Processing, 2001, 10(2): 231-241.
[5]
FARSIU S, ROBINSON M D, ELAD M, et al. Fast and robust multiframe super resolution [J]. IEEE Transactions on Image Processing, 2004, 13(10): 1327-1344.
[6]
YUAN Q, ZHANG L, SHEN H. Multiframe superresolution employing a spatially weighted total variation model [J]. IEEE Transactions on Circuits & Systems for Video Technology, 2012, 22(3): 379-392.
[7]
SONG H, QING L, WU Y, et al. Adaptive regularizationbased spacetime superresolution reconstruction [J]. Signal Processing: Image Communication, 2013, 28(7): 763-778.
[8]
BERTACCINI D, CHAN R H, MORIGI S, et al. An adaptive norm algorithm for image restoration [C]// SSVM11: Proceedings of the Third International Conference on Scale Space and Variational Methods in Computer Vision, LNCS 6667. Berlin: Springer, 2011: 194-205.
[9]
ZHANG X, XIONG R, MA S, et al. Video superresolution with registrationreliability regulation and adaptive total variation [J]. Journal of Visual Communication and Image Representation, 2015, 30: 181-190.(無期號)
[10]
LI X, HU Y, GAO X, et al. A multiframe image superresolution method [J]. Signal Processing, 2010, 90(2): 405-414.
[11]
QIANG C, MONTESINOS P, QUAN S S, et al. Adaptive total variation denoising based on difference curvature [J]. Image & Vision Computing, 2010, 28(3): 298-306.
[12]
BROX T, WEICKERT J, BURGETH B, et al. Nonlinear structure tensors [J]. Image & Vision Computing, 2006, 24(1): 41-55.
[13]
BOUGUET J Y. Pyramidal implementation of the Lucas Kanade feature tracker description of the algorithm [EB/OL]. [20151210]. http://robots.stanford.edu/cs223b04/algo_tracking.pdf.
[14]
HUYNHTHU Q, GHANBARI M. Scope of validity of PSNR in image/video quality assessment [J]. Electronics Letters, 2008, 44(13): 800-801.
[15]
WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[16]
LIN Z, LEI Z, XUANQIN M, et al. FSIM: a feature similarity index for image quality assessment [J]. IEEE Transactions on Image Processing, 2011, 20(8): 2378-2386.