国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析視頻編解碼增強(qiáng)技術(shù)

2018-02-25 08:29:12周迪徐愛華
中國公共安全 2018年12期
關(guān)鍵詞:分辨率編碼顯著性

□ 文 /周迪 徐愛華

視頻編解碼是視頻圖像處理技術(shù)的基本內(nèi)容之一。經(jīng)過多年發(fā)展,視頻圖像分辨率從最初的D1標(biāo)清圖像,到目前主流的1080P,向4K高清、8K超清時代前進(jìn)。圖像清晰度提升的同時,其巨大的數(shù)據(jù)量也給視頻傳輸帶寬和后端存儲空間帶來了巨大的壓力,用戶需要投入更多的設(shè)備和資金。因此,編解碼技術(shù)的改進(jìn)無疑成為了圖像處理技術(shù)發(fā)展的焦點。

視頻編碼技術(shù)介紹

視頻編碼通過特定的壓縮技術(shù)將某個視頻格式的大文件轉(zhuǎn)換成另一種視頻格式的小文件。視頻數(shù)據(jù)包括信息和冗余數(shù)據(jù)。信息是有用的基本數(shù)據(jù),而冗余數(shù)據(jù)有許多種,如空間冗余、時間冗余、視覺冗余、編碼冗余等。視頻壓縮編碼的實質(zhì)是減少圖像中的冗余,主要相關(guān)技術(shù)包括預(yù)測編碼、變換編碼、量化和熵編碼技術(shù)。

預(yù)測編碼

所謂預(yù)測就是利用已知信息猜測未知信息,預(yù)測編碼的思路就是編碼實際值與預(yù)測值之間的差別??紤]到圖像的特點,預(yù)測通常是以塊為單位進(jìn)行,按照約定的規(guī)則將圖像分割成規(guī)則大小的塊,按照約定的順序?qū)Ω鱾€塊進(jìn)行預(yù)測編碼。

預(yù)測編碼一般分為幀間預(yù)測編碼和幀內(nèi)預(yù)測編碼。幀間預(yù)測編碼利用視頻時間冗余,即基于塊的運動估計和運動補(bǔ)償,利用之前編碼過的圖像來預(yù)測現(xiàn)在要編碼的圖像;幀內(nèi)預(yù)測編碼則利用了視頻的空間冗余,即利用當(dāng)前塊的相鄰像素直接對每個像素做預(yù)測。視頻的時間冗余一般大于空間冗余,所以幀間預(yù)測的壓縮率會大于幀內(nèi)預(yù)測。

變換編碼

變換編碼指對信號的樣本值進(jìn)行某種形式的函數(shù)變換,從一種空間變換到另一種空間,然后根據(jù)信號在另一個空間域的特征對信號進(jìn)行編碼壓縮。例如時域與頻域的變換。

空域中,視頻信號的幅度隨著時間周期性地變換,每個幅度出現(xiàn)的概率較為均勻,很難進(jìn)行壓縮。頻域中的圖片,低頻頻譜的幅度分布均勻,高頻頻譜的幅度通常是大比例的低幅度和稀少的高幅度,分布不均勻。由此,可對視頻的低頻分量和高頻分量分別處理,獲得高效壓縮。圖像頻率反映了像素灰度在空間中變化的情況,是灰度在平面空間上的梯度。一般來說,圖像的低頻部分描述了圖像的整體形狀,圖像的高頻部分描述了圖像的細(xì)節(jié)。常見的變換編碼算法有K-L變換、離散余弦變換(DCT)、離散傅里葉變換、小波變換等。

量化編碼

量化編碼分為標(biāo)量量化和矢量量化。標(biāo)量量化是最基本的有損編碼,通過將信源映射成碼字表中的碼字來達(dá)到壓縮目的;標(biāo)量量化又分為均勻量化、非均勻量化和自適應(yīng)量化。矢量量化是一次量化多個樣本點的量化方法,即將輸入數(shù)據(jù)幾個一組地分成許多組,成組的進(jìn)行量化編碼。

熵編碼

熵編碼即編碼過程中按熵原理不丟失任何信息的編碼。信息熵為信源的平均信息量(不確定性的度量)。常見的熵編碼有:香農(nóng)(Shannon)編碼、哈夫曼(Huffman)編碼和算術(shù)編碼(arithmetic coding)。在視頻編碼中,熵編碼把一系列用來表示視頻序列的元素符號轉(zhuǎn)變?yōu)橐粋€用來傳輸或是存儲的壓縮碼流。

當(dāng)前主流視頻編解碼標(biāo)準(zhǔn)有:MJPEG、MPEG-4、H.264、SVAC、H.265。

基于人眼視覺關(guān)注點的感興趣區(qū)域編碼

視頻畫面中,有些區(qū)域不會被特別關(guān)注,例如天空、墻壁、草地等。對整個區(qū)域進(jìn)行視頻編碼并傳輸,會給網(wǎng)絡(luò)帶寬和視頻存儲帶來巨大壓力。ROI(Region of Interest)感興趣區(qū)域編碼可以通過智能或人工的選擇畫面中感興趣的區(qū)域,重點進(jìn)行高質(zhì)量甚至無損地編碼,而對其他區(qū)域降低其碼率和圖像質(zhì)量,進(jìn)行標(biāo)準(zhǔn)清晰度的視頻壓縮,甚至不傳輸該部分區(qū)域的視頻,從而達(dá)到節(jié)省網(wǎng)絡(luò)帶寬的占用和視頻的存儲空間。目前,ROI智能視頻編碼技術(shù)包括:固定區(qū)域和動態(tài)跟蹤兩類。

固定區(qū)域智能編碼

用戶可以用鼠標(biāo)在監(jiān)控畫面中選擇多個ROI感興趣區(qū)域進(jìn)行智能編碼。如在H.265網(wǎng)絡(luò)攝像機(jī)中設(shè)置若干個ROI感興趣區(qū)域,ROI編碼率可調(diào)。

動態(tài)跟蹤智能編碼

智能網(wǎng)絡(luò)攝像機(jī)支持臉部等目標(biāo)識別,通過動態(tài)跟蹤目標(biāo),對該動態(tài)ROI區(qū)域進(jìn)行重點編碼。很多情況下,感興趣區(qū)域就是人眼所關(guān)注的區(qū)域。人眼具有從一張圖像中快速定位顯著性區(qū)域,并過濾掉次要的信息,提取有用信息并傳輸給大腦進(jìn)行處理的能力機(jī)制,這一機(jī)制被稱為人眼視覺注意機(jī)制。

人類的視覺系統(tǒng)對周圍環(huán)境的感知機(jī)制分為兩種:一是自底向上的視覺注意機(jī)制,這種機(jī)制受視覺刺激,與任務(wù)無關(guān);二是自頂向下的視覺注意機(jī)制,這種機(jī)制受意識驅(qū)動,與任務(wù)相關(guān) 。人眼視覺注意機(jī)制的研究方向包括圖像顯著性區(qū)域檢測和目標(biāo)檢測等 ,其中圖像的顯著性區(qū)域檢測就是模擬實現(xiàn)上述兩種視覺注意機(jī)制。圖像的顯著性區(qū)域檢測包括圖像壓縮 、圖像分割 、圖像檢索等圖像處理任務(wù)。

圖像顯著性區(qū)域檢測方法大多依據(jù)自底向上的人眼視覺注意機(jī)制,該機(jī)制主要受到圖像的低級對比特征的刺激作用產(chǎn)生。簡而言之,如果圖像中某一位置在亮度和色彩等方面與其周圍區(qū)域存在較大的差別,則這一區(qū)域最有可能引起人眼的視覺注意 。根據(jù)這一事實,傳統(tǒng)顯著性檢測模型采用各種數(shù)學(xué)建模方法建立數(shù)學(xué)模型,對圖像的所在位置與其周圍區(qū)域進(jìn)行數(shù)據(jù)對比計算,將各種對比結(jié)果數(shù)據(jù)(差異性)進(jìn)行整合處理,得到最終的顯著圖。

這些年自頂向下的注意機(jī)制成為了研究熱點,該機(jī)制是受到圖像中的語義特征對人的意識驅(qū)動作用產(chǎn)生。圖像中的文字、人臉、動植物等富含語義信息的目標(biāo)通常會引起人們的視覺注意,這些語義目標(biāo)便是自頂向下的視覺注意機(jī)制的具體體現(xiàn)。近些年,先進(jìn)的圖像顯著性區(qū)域檢測模型開始模擬實現(xiàn)自頂向下的人眼視覺注意模型,使用各種高級特征用于顯著性區(qū)域檢測,例如在其檢測模型中加入了人臉、文本、動物和汽車等目標(biāo)的高級特征。然而圖像中的這些富含語義的目標(biāo)特征提取和識別是一個復(fù)雜而困難的問題,目前基于自頂向下的視覺注意機(jī)制的檢測模型大多是簡單地加入某類目標(biāo)識別的具體特定的知識特征,用于識別特定的目標(biāo)從而輔助圖像的顯著性區(qū)域的檢測,未能充分實現(xiàn)統(tǒng)一的自頂向下的視覺注意機(jī)制。

近些年,深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)模型在大規(guī)模的圖像分類等圖像處理任務(wù)中展現(xiàn)出了很好的效果。隨著深度學(xué)習(xí)相關(guān)理論和實踐的不斷發(fā)展,開始有學(xué)者和研究人員將深度學(xué)習(xí)方法引入圖像顯著性區(qū)域問題的研究。例如利用3 層的稀疏編碼器以無監(jiān)督的學(xué)習(xí)方式從圖像中提取更高的特征用于圖像的顯著性區(qū)域檢測;或采用一組通過k-means 算法訓(xùn)練學(xué)習(xí)到的卷積濾波器提取低級和中級特征,之后利用中央-周邊差值方法計算局部對比度。

雖然深度神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出了很好的效果和優(yōu)秀的潛力,依舊不算完善。例如上述的兩種方法,前者只關(guān)注了高級頂層特征的提取而忽略了低級特征,而后者則忽略了高級特征。

視頻解碼與圖像超分辨率重建

為追求低碼率,視頻編碼會盡力壓縮視頻,從而導(dǎo)致圖像細(xì)節(jié)信息的丟失。基于有損視頻編碼文件而解碼后的視頻圖像自然就存在圖像的損傷。為了修復(fù)這類損傷,甚至為了追求更好的圖像效果,產(chǎn)生了圖像超分辨率重建技術(shù)。圖像分辨率是一組用于評估圖像中蘊含細(xì)節(jié)信息豐富程度的性能參數(shù),包括時間分辨率、空間分辨率及色階分辨率等,體現(xiàn)了成像系統(tǒng)實際所能反映物體細(xì)節(jié)信息的能力。高分辨率圖像通常包含了更大的像素密度、更豐富的紋理細(xì)節(jié)及更高的可信賴度。

編碼后的實時視頻或歷史視頻,相對原始場景,其圖像通常會帶來各類損傷。受采集設(shè)備與環(huán)境、網(wǎng)絡(luò)傳輸介質(zhì)與帶寬、圖像退化模型本身等諸多因素的約束,通常無法直接得到具有邊緣銳化、無成塊模糊的理想高分辨率圖像。利用圖像超分辨率重建技術(shù),我們可以依據(jù)數(shù)字圖像處理、計算機(jī)視覺等領(lǐng)域的相關(guān)知識,借由特定的算法和處理流程,從給定的低分辨率圖像中復(fù)原出高分辨率的圖像。

圖像超分辨率重建在國計民生的多個領(lǐng)域均具有重要的應(yīng)用意義。在視頻監(jiān)控、電視會議等需要進(jìn)行廣域視頻傳輸?shù)膱龊?,傳輸前對視頻圖像進(jìn)行有損壓縮,接收端解碼后再通過超分辨率重建技術(shù)復(fù)原出原始圖像序列,從而極大地減少傳輸?shù)膸捫枨蠛痛鎯Φ目臻g需求。在醫(yī)學(xué)圖像、遙感成像、公共安全、消費電子等領(lǐng)域,改造圖像采集設(shè)備成本高昂,超分辨率重建技術(shù)可以在不增加圖像視頻采集成本的基礎(chǔ)上復(fù)原出的清晰的影像,有助于提升醫(yī)學(xué)診斷、遙感探測、目標(biāo)識別、觀賞體驗的效果。

視頻圖像的成像過程受到很多退化因素的影響,其中最主要的三個因素是:運動變換,通常由運動、平移等因素造成;模糊作用,通常由環(huán)境或成像系統(tǒng)本身引起;降采樣,通常由成像系統(tǒng)的分辨率決定。此外,還有加性噪聲,通常來自于成像環(huán)境或成像過程。衡量重建算法的優(yōu)劣通常基于重建后圖像的評估。重建圖像的評價方式分為兩大類:主觀評價和客觀評價。主觀評價以人為評價主體,對圖像的視覺效果做出主觀和定性的評估;為保證一定的統(tǒng)計意義,需要選擇足夠多的評價主體,并保證評價主體中未受訓(xùn)練的普通人和受過訓(xùn)練的專業(yè)人員數(shù)量大致均衡。客觀評價通常采用峰值信噪比(Peak signal-to-noise ratio ,PSNR)和結(jié)構(gòu)相似性(Structural Similarity, SSIM)兩種圖像質(zhì)量評估指標(biāo);PSRN通過比較兩幅圖像對應(yīng)像素點的灰度值差異來評估圖像的好壞,SSIM則從亮度、對比度和結(jié)構(gòu)三個方面評估兩幅圖像的相似性。

根據(jù)分類準(zhǔn)則的不同,圖像超分辨率重建技術(shù)可以劃分為不同的類別。從輸入的低分辨率圖像數(shù)量看,可分為單幀圖像的超分辨率重建和多幀圖像(視頻)的超分辨率重建;從變換空間角度看,可分為頻域超分辨率重建、時域超分辨率重建、色階超分辨率重建等;從重建算法角度看,可分為基于插值的重建、基于重構(gòu)的重建和基于學(xué)習(xí)的超分辨率重建。

基于插值的超分辨率重建

基于插值的方法對超分辨率圖像的估計可視作利用已知像素信息為未知像素信息進(jìn)行的擬合過程,通常由一個預(yù)定義的變換函數(shù)或者插值核完成?;诓逯档姆椒ㄓ嬎愫唵?、易于理解,但也存在著明顯的缺陷:首先,它假設(shè)像素灰度值的變化是一個連續(xù)的、平滑的過程,實際上該假設(shè)并不完全成立;其次,重建過程僅根據(jù)一個事先定義的轉(zhuǎn)換函數(shù)計算超分辨率圖像,不考慮圖像的降質(zhì)退化模型,會導(dǎo)致復(fù)原出的圖像出現(xiàn)模糊、鋸齒等現(xiàn)象。

基于重構(gòu)的超分辨率重建

基于重構(gòu)的方法從圖像的降質(zhì)退化模型出發(fā),假定高分辨率圖像經(jīng)過了適當(dāng)?shù)倪\動變換、模糊及噪聲才得到低分辨率圖像,通過提取低分辨率圖像中的關(guān)鍵信息,并結(jié)合對未知的超分辨率圖像的先驗知識來約束超分辨率圖像的生成。

基于機(jī)器學(xué)習(xí)的超分辨率重建

基于學(xué)習(xí)的方法利用大量的訓(xùn)練數(shù)據(jù),從中學(xué)習(xí)低分辨率圖像和高分辨率圖像之間某種對應(yīng)關(guān)系,然后根據(jù)學(xué)習(xí)到的映射關(guān)系來預(yù)測低分辨率圖像所對應(yīng)的高分辨率圖像,從而實現(xiàn)圖像的超分辨率重建過程。最重要的方法是深度學(xué)習(xí)。

深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)中最主要的一個算法,其旨在通過多層非線性變換,提取數(shù)據(jù)的高層抽象特征,學(xué)習(xí)數(shù)據(jù)潛在的分布規(guī)律,從而對新數(shù)據(jù)做出合理的判斷或者預(yù)測?;谏疃葘W(xué)習(xí)的圖像超分辨率技術(shù)的重建流程包括以下幾個主要步驟:

特征提?。菏紫葘斎氲牡头直媛蕡D像進(jìn)行去噪、上采樣等預(yù)處理,然后將處理后的圖像送入神經(jīng)網(wǎng)絡(luò),擬合圖像中的非線性特征,提取代表圖像細(xì)節(jié)的高頻信息;

設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)及損失函數(shù):組合卷積神經(jīng)網(wǎng)絡(luò)及多個殘差塊,搭建網(wǎng)絡(luò)模型,并根據(jù)先驗知識設(shè)計損失函數(shù);

訓(xùn)練模型:確定優(yōu)化器及學(xué)習(xí)參數(shù),使用反向傳播算法更新網(wǎng)絡(luò)參數(shù),通過最小化損失函數(shù)提升模型的學(xué)習(xí)能力;

驗證模型:根據(jù)訓(xùn)練后的模型在驗證集上的表現(xiàn),對現(xiàn)有網(wǎng)絡(luò)模型做出評估,并據(jù)此對模型做出相應(yīng)的調(diào)整。

深度學(xué)習(xí)在圖像超分辨率重建領(lǐng)域展現(xiàn)出了巨大的潛力,極大地推動了該領(lǐng)域的蓬勃發(fā)展。但距離重建出既保留原始圖像各種細(xì)節(jié)信息、又符合人的主觀評價的高分辨率圖像的目標(biāo),仍有很長的路要走。主要存在著以下幾個問題:

深度學(xué)習(xí)需要海量訓(xùn)練數(shù)據(jù)、高計算性能的處理器以及過深的網(wǎng)絡(luò)容易導(dǎo)致過擬合等問題。

深度學(xué)習(xí)預(yù)先假定測試樣本與訓(xùn)練樣本來自同一分布,但現(xiàn)實中二者的分布并不一定相同,甚至可能沒有相交的部分。

盡管當(dāng)前基于深度學(xué)習(xí)的重建技術(shù)使得重建圖像在主觀評價指標(biāo)上取得了優(yōu)異的成績,但重建后的圖像通常過于平滑,丟失了高頻細(xì)節(jié)信息。

結(jié)束語

基于人眼視覺關(guān)注點的感興趣區(qū)域編碼和圖像超分辨率重建兩大技術(shù)可以大幅降低視頻傳輸所需的帶寬和視頻存儲所需的空間,同時保證優(yōu)秀的圖像質(zhì)量和良好的觀看效果。但是,如何精準(zhǔn)地識別關(guān)注目標(biāo),以及精確地還原圖像原始信息,依舊有很長一段路要走。這中間,深度學(xué)習(xí)扮演了關(guān)鍵的角色,我們期待不斷完善的學(xué)習(xí)機(jī)制和神經(jīng)網(wǎng)絡(luò)的出現(xiàn)。

猜你喜歡
分辨率編碼顯著性
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
《全元詩》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應(yīng)用
電子制作(2019年22期)2020-01-14 03:16:24
EM算法的參數(shù)分辨率
基于顯著性權(quán)重融合的圖像拼接算法
電子制作(2019年24期)2019-02-23 13:22:26
Genome and healthcare
基于視覺顯著性的視頻差錯掩蓋算法
原生VS最大那些混淆視聽的“分辨率”概念
基于深度特征學(xué)習(xí)的圖像超分辨率重建
一種基于顯著性邊緣的運動模糊圖像復(fù)原方法
垣曲县| 大方县| 巴中市| 图片| 普定县| 来凤县| 登封市| 杭锦后旗| 浪卡子县| 全南县| 宽城| 阜新市| 吴堡县| 象山县| 临洮县| 五家渠市| 龙江县| 山东| 白水县| 礼泉县| 陆良县| 彰化市| 张掖市| 安康市| 赤壁市| 门源| 邵阳县| 梅河口市| 南宫市| 绵阳市| 界首市| 砚山县| 濮阳县| 宝坻区| 珠海市| 涞水县| 嘉鱼县| 安宁市| 太保市| 临洮县| 望谟县|