国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

視覺感知編碼方法綜述

2013-03-26 03:23:58趙志軍
電視技術(shù) 2013年3期
關(guān)鍵詞:編碼方法宏塊感興趣

張 倩,張 遠,趙志軍

(中國傳媒大學信息工程學院,北京 100024)

視覺感知編碼方法綜述

張 倩,張 遠,趙志軍

(中國傳媒大學信息工程學院,北京 100024)

本文給出了視覺感知編碼方法的綜述。首先介紹了人類視覺系統(tǒng)(HVS)的特性,然后根據(jù)視覺感知編碼方法所利用的視覺特性不同將其分為三類,并分別介紹了各類方法的研究現(xiàn)狀。最后展望了視覺感知編碼的應(yīng)用前景和發(fā)展方向。

視頻編碼;視覺感知;HVS

隨著寬帶網(wǎng)絡(luò)和高清晰顯示器的發(fā)展,人們對視頻畫面的質(zhì)量有了更高的期望,這也給視頻編碼技術(shù)帶來了新的要求和挑戰(zhàn)。如何在計算復雜度受限的情況下,得到最優(yōu)的率失真性能是視頻編碼設(shè)計的核心問題。傳統(tǒng)的視頻編碼算法主要采用幀內(nèi)預測、幀間預測和熵編碼等技術(shù)來消除視頻中的冗余信息以達到改善視頻編碼率失真性能的目的。然而,傳統(tǒng)的視頻編碼算法并沒有充分考慮人類視覺系統(tǒng)(HVS)的特性。因此,如何有效地利用視覺感知原理,優(yōu)化現(xiàn)有的編碼算法具有重要的理論意義和應(yīng)用價值。

本文主要結(jié)合國內(nèi)外研究現(xiàn)狀,對視覺感知編碼方法進行總結(jié)。

1 人類視覺系統(tǒng)(HVS)

人類視覺系統(tǒng)由眼球、神經(jīng)系統(tǒng)及大腦的視覺中樞三部分構(gòu)成。當人們注視視頻場景時,入射光首先由瞳孔和水晶體調(diào)節(jié)、聚焦,使景物在視網(wǎng)膜上成像,然后由視網(wǎng)膜上的神經(jīng)元將光信號轉(zhuǎn)化成神經(jīng)信號并發(fā)送到視皮層,經(jīng)過視皮層以及腦部其它相關(guān)區(qū)域的進一步處理后,形成對視頻場景的感知。

近幾年來,在視覺生理學、心理學的指導下,通過對人眼的某些視覺現(xiàn)象的觀察和研究,人們發(fā)現(xiàn)了HVS的很多特性。在視覺感知編碼中,一般應(yīng)用到的HVS特性主要有:對比敏感度、掩蔽效應(yīng)、中央凹特性、運動感知、視覺注意等[1-2]。

1)對比敏感度

對比敏感度(Contrast Sensitivity)是HVS最為基本的視覺特性,它包括空間對比敏感度和時間對比敏感度??臻g對比敏感度是指HVS對空間視頻信號的敏感程度,定義為觀察者能夠覺察到的測試激勵信號的最小對比度值的倒數(shù)。時間對比敏感度是指HVS對信號運動頻率的敏感程度。通常用對比敏感度函數(shù) (Contrast Sensitivity Function,CSF)來描述HVS對不同空間、時間頻率的視頻信號的敏感程度。

2)掩蔽效應(yīng)

視覺掩蔽效應(yīng)(Visual Masking Effect)是HVS較為重要的特性之一。它是指當另外一個視覺信號存在時,HVS會降低對目標視覺信號的敏感度,特別是當掩蔽信號與原始信號的頻率和方向相同時,掩蔽效應(yīng)最強。譬如,相對于低頻的圖像區(qū)域,高頻的圖像區(qū)域?qū)σ曈X信號失真具有更強的掩蔽能力。

3)中央凹特性

在視網(wǎng)膜的中央凹(Fovea)上分布著密度極高的光感受器,并且其密度會隨著離心率(Eccentricity)的增大而快速下降。因此,當人在注視視頻場景中的某一點時,對于離注視點較近的區(qū)域,HVS感知的空間頻率分辨率較高,而對于離注視點較遠的區(qū)域,HVS感知的空間頻率分辨率較低。

4)運動感知

HVS另外一個較為重要的視覺特性是運動感知。運動感知分為低級階段和高級階段。在視覺感知的低級階段,HVS主要對局部視覺特征進行處理,如運動的速度、方向;在運動感知的高級階段,HVS會對生物運動產(chǎn)生感知響應(yīng),譬如人的臉部和手部運動。

5)視覺注意

當注視視頻場景時,人會快速地將注意力集中在感興趣的視頻內(nèi)容或者對象上,這種現(xiàn)象稱為HVS的視覺注意(Visual Attention)。視覺注意有兩種工作方式:一種是由外部激勵驅(qū)動的自底向上(Bottom-up)的處理過程,這種工作方式屬于低級視覺研究范疇;一種是由任務(wù)驅(qū)動的自上而下(Top-down)的處理過程,這種工作方式屬于高級視覺研究范疇。

2 視覺感知編碼方法

視覺感知編碼的目的是利用已知的HVS特性,最大限度消除人眼無法感知的信息,用更少的比特資源提供視覺感知質(zhì)量更理想的視頻圖像。為此,研究人員提出了大量的視覺感知編碼方法。根據(jù)編碼方法所利用的HVS特性不同,把視覺感知編碼方法歸納為3類:基于視覺敏感度的編碼方法、基于視覺注意的編碼方法和混合的編碼方法?;谝曈X敏感度的編碼方法主要利用人眼敏感度的有限性消除視覺冗余;基于視覺注意的編碼方法主要利用人眼對視頻畫面上不同內(nèi)容或?qū)ο笞⒁獬潭炔煌奶匦?,對視頻內(nèi)容進行自適應(yīng)編碼;還有部分編碼方法是以上兩種編碼方法的綜合,把這類編碼方法叫做混合的編碼方法。

2.1 基于視覺敏感度的編碼方法

人眼的視覺敏感度是有限的,并且HVS對不同視頻信號的失真也有不同的敏感程度。這就為消除視覺冗余提供了可能。目前,基于視覺敏感度的編碼方法主要有3類:基于JND模型的編碼方法、基于SSIM的編碼方法和基于頻域加權(quán)量化的編碼方法。

2.1.1 基于JND模型的編碼方法

JND(Just Noticeable Distortion)指人眼能夠覺察到的最小失真,它表征了人眼對視頻信號的敏感程度。JND閾值會受到視頻信號的背景亮度、頻率、運動、紋理信息等因素的影響。通過JND模型調(diào)節(jié)量化參數(shù)和比特分配可以達到消除視覺冗余的目的?,F(xiàn)有的JND模型主要分為兩類:一類是作用于像素域的JND模型;一類是作用于變換域(如DCT域、小波域)的JND模型。文獻[3]提出的JND模型綜合考慮了空域JND門限和時域JND門限,其中空域JND門限主要考慮背景亮度的自適應(yīng)性和紋理的掩蔽效應(yīng),時域JND門限則通過估計幀間的平均亮度差異得到。文獻[4]在文獻[3]的基礎(chǔ)上提出了非線性掩蔽效應(yīng)相加模型(Non-linear Additivity Model for Masking,NAMM)的概念,構(gòu)建了一個更加符合HVS特性的JND模型。它綜合考慮了多種掩蔽效應(yīng)同時作用的情況以及色度信息的掩蔽效應(yīng),基于人眼對邊界的失真更為敏感的特性,該模型區(qū)分了邊界區(qū)域和非邊界區(qū)域,以避免因過高的估計邊界區(qū)域上的掩蔽效應(yīng)而導致主觀質(zhì)量下降。實驗表明,將上述JND模型移植到運動搜索算法中可以提高運動搜索算法的效率,采用該模型對運動補償后、DCT變換前的殘差數(shù)據(jù)進行預濾波,可以提高視頻的主觀質(zhì)量。

雖然像素域的JND模型可以給出原始視頻圖像一個非常直觀的JND圖,但是它不能包含描述HVS對不同頻率敏感程度的對比敏感度函數(shù)(CSF),所以不能夠精確地模擬HVS的特性。因此,變換域的JND模型成為當前的研究熱點。文獻[5]提出了一種作用在DCT域上的JND模型。該模型通過整合時—空域?qū)Ρ让舾卸群瘮?shù)、眼動機制、亮度自適應(yīng)性和掩蔽效應(yīng),估計出一個更加符合HVS特性的JND門限值。然而,文獻[5]在估計JND門限值時只考慮了運動矢量的大小,而忽略了運動矢量的方向也會影響JND門限值的事實。文獻[6]在文獻[5]的基礎(chǔ)上做出了改進:通過引入非線性校正得到一個更加精確的亮度自適應(yīng)性函數(shù);由人眼對平滑區(qū)域和邊界的失真較為敏感的特性,將宏塊分為3類,并通過掩蔽效應(yīng)因子調(diào)節(jié)各類掩蔽效應(yīng)的大小;在傳統(tǒng)的時域CSF上考慮了視網(wǎng)膜運動補償特性和運動的方向。

2.1.2 基于SSIM的編碼方法

SSIM(Structural Similarity)是一種新的圖像質(zhì)量評價方法[7],該方法把對結(jié)構(gòu)信息的度量作為圖像感知質(zhì)量的近似。由于HVS的主要功能是從視野中提取結(jié)構(gòu)信息,所以,與PSNR相比,SSIM的評價結(jié)果更符合人的主觀感受。因此,可以用SSIM替換傳統(tǒng)的圖像質(zhì)量評價方法優(yōu)化編碼算法。文獻[8]提出了一種基于SSIM的運動估計算法,該算法在運動搜索時使用SSIM來尋找參考幀中的匹配塊。相比傳統(tǒng)的算法,該算法確定的數(shù)據(jù)塊與當前塊的匹配程度更高。文獻[9]提出了一種基于SSIM的率失真優(yōu)化算法。該算法在率失真優(yōu)化過程中應(yīng)用SSIM來衡量重建塊的失真程度,據(jù)此得到更優(yōu)的編碼模式。由于該算法在運動搜索時仍然使用SAD來確定匹配塊,所以并未引入過多的計算復雜度,但同時也限制了該算法在無顯著運動和運動劇烈兩種情況下的率失真優(yōu)化增益;另外,采用靜態(tài)的拉格朗日因子使該算法缺乏一定的內(nèi)容自適應(yīng)性。文獻[10-11]均提出了基于SSIM的自適應(yīng)率失真優(yōu)化算法。文獻[10]通過已編碼幀的率失真模型來估計當前編碼幀的拉格朗日因子。文獻[11]將塊分為平滑和非平滑兩類,并計算一幀中不需編碼系數(shù)的概率,由此根據(jù)輸入視頻序列的特性自適應(yīng)確定拉格朗日因子。為了更加合理的分配比特資源,文獻[12]將SSIM應(yīng)用到碼率分配和碼率控制過程中。實驗表明該算法在降低碼率的同時保存了更多的圖像結(jié)構(gòu)信息,提高了視頻的主觀質(zhì)量。文獻[13]使用DCT域的SSIM系數(shù)來對DCT系數(shù)進行標準化,使之符合視覺感受的一致性,并基于這種標準化方法定義了一個新的率失真模型進行模式選擇。由于標準化因子是由預測宏塊得到的,因此量化矩陣可以根據(jù)視頻內(nèi)容的特性自適應(yīng)的調(diào)整,同時并沒有消耗額外的比特資源。實驗表明,和H.264編碼算法相比,該算法在節(jié)省比特資源的同時也保證了視頻的主觀質(zhì)量。

2.1.3 基于頻域加權(quán)量化的編碼方法

基于頻域加權(quán)量化的編碼方法主要根據(jù)人眼對不同特性的編碼單元敏感度不同的特點,將編碼單元分為不同類型,比如紋理復雜類、平滑類、邊界類等,不同的編碼單元適用不同的量化權(quán)重。這樣,在保證視頻主觀質(zhì)量的同時降低了非敏感區(qū)域的碼率。文獻[14]根據(jù)宏塊的特性將其分為6類,并且由不同的權(quán)重因子調(diào)整基本單元(BU)層碼率分配的估計值進而調(diào)整量化步長。在H.264/AVC編碼模式選擇時,細節(jié)豐富的區(qū)域通常采取較小的宏塊分割,而平滑的區(qū)域通常采取較大的宏塊分割。文獻[15]基于這點提出了一種宏塊級自適應(yīng)頻域加權(quán)量化的方法,該方法根據(jù)周圍宏塊的分割模式將當前編碼宏塊分為3類,并分別采用不同的頻域加權(quán)量化方案,不僅使編碼結(jié)果更加符合人眼的視覺特性同時也沒有因為引入頻率權(quán)重因子而消耗更多的比特資源。但是,該方法采用的量化矩陣是預先設(shè)定的,不能根據(jù)輸入的視頻內(nèi)容進行調(diào)整。所以,這種方法缺乏一定的內(nèi)容自適應(yīng)性。

2.2 基于視覺注意的編碼方法

根據(jù)是否考慮HVS的中央凹特性,基于視覺注意的編碼方法可以分為兩類:基于感興趣區(qū)域的編碼方法和基于感興趣區(qū)域和中央凹特性聯(lián)合的編碼方法。

2.2.1 基于感興趣區(qū)域的編碼方法

基于感興趣區(qū)域(Region-of-Interest,RoI)的編碼方法的基本思想是:在視頻編碼前,對輸入的視頻場景進行視覺感知分析確定感興趣區(qū)域。在編碼過程中,通過調(diào)整編碼參數(shù)來分別控制感興趣區(qū)域和非感興趣區(qū)域的失真程度,進而改善感興趣區(qū)域的編碼質(zhì)量。

在基于感興趣區(qū)域編碼的過程中,編碼器依據(jù)視頻場景中不同圖像區(qū)域的感興趣程度來分配比特資源和計算資源。因此,對輸入的視頻序列,如何確定感興趣區(qū)域是一個關(guān)鍵的問題。經(jīng)典的可計算視覺注意模型是通過一種或整合多種視頻特征得到視頻畫面的顯著性圖(Saliency Map)進而確定感興趣區(qū)域。視頻特征主要包括以下幾種類型:1)空間域視頻特征,比如膚色、亮度;2)時間域視頻特征,比如運動;3)綜合考慮空間域和時間域的視頻特征,這種方法更符合HVS的感知原理。

人臉是最常見也是最容易引起觀看者注意的特征之一。適當?shù)靥岣咭曨l中臉部的編碼質(zhì)量能有效地改善視頻整體的主觀質(zhì)量。文獻[16]首先確定了膚色的判定閾值,并通過此閾值來識別人臉的區(qū)域。然后對非感興趣區(qū)域進行低通濾波以減少背景的高頻成分,最后通過控制宏塊級量化參數(shù)來控制不同區(qū)域的編碼質(zhì)量。文獻[17]在文獻[16]的基礎(chǔ)上將人臉以及人臉周圍的宏塊設(shè)定為感興趣區(qū)域以避免臉部周圍視覺感受的下降。在對視頻內(nèi)容進行編碼時,該算法在宏塊級使用一種線性QP值預測的方法來控制不同區(qū)域的編碼質(zhì)量。文獻[18]由膚色和紋理信息得到顯著性圖,并據(jù)此確定感興趣區(qū)域。然后在感興趣區(qū)域與非感興趣區(qū)域適用不同的量化參數(shù)、運動搜索范圍、參考幀數(shù)目。實驗結(jié)果表明,該方法可以降低計算復雜度并且保證視頻的主觀質(zhì)量。由于這類方法沒有考慮視頻內(nèi)容的時域特性,所以有一定的局限性。

由于人眼更傾向于關(guān)注視頻場景中運動的物體,因此人對運動物體的失真比靜態(tài)物體更加敏感。文獻[19]根據(jù)運動矢量場得到運動顯著性圖,并由運動顯著性圖調(diào)節(jié)比特資源的分配。首先,作者根據(jù)不同模式的塊的運動矢量場得到各自的運動顯著性圖并將其融合為一個整體的運動顯著性圖,然后由運動顯著性圖調(diào)整幀級和宏塊級的碼率分配。這樣,更多的比特資源可以分配給運動信息顯著的幀和宏塊,進而提高視頻的主觀質(zhì)量。

由于視頻場景中的時域和空域的視覺信息都會對HVS的感知結(jié)果造成影響,近年來,基于時空域視覺特征融合的感興趣區(qū)域編碼方法越來越受到視頻處理領(lǐng)域研究人員的關(guān)注。文獻[20]提出了一種應(yīng)用于實時視頻通話的感興趣區(qū)域編碼方法。該方法由膚色和幀間差異快速地得到顯著性圖,當顯著性圖確定以后,更多的比特資源和計算資源可以分配到感興趣區(qū)域中。所以,很多編碼參數(shù)可以自適應(yīng)地調(diào)整,比如:量化參數(shù)、宏塊可選的編碼模式、參考幀數(shù)目、運動搜索的范圍、運動估計的精度。這樣,在降低了編碼復雜度的同時,保證了視頻的主觀質(zhì)量。文獻[21]考慮亮度、色度、紋理、膚色、運動矢量因素來構(gòu)造顯著性圖,再通過一定的門限值判定得到感興趣區(qū)域。然后將目標碼率分別分配給感興趣區(qū)域和非感興趣區(qū)域,不同區(qū)域的宏塊由所分配的碼率得到一個初始的QP值。然后,為了提高整體的視頻主觀質(zhì)量,根據(jù)一定的限制條件調(diào)整初始QP值確定該宏塊的QP值并進行編碼。文獻[22]將紋理特征圖和運動特征圖融合得到顯著性圖,由于構(gòu)造運動特征圖時考慮了全局的運動信息,該顯著性圖可以較好的應(yīng)用于有攝像機運動的視頻內(nèi)容中。然后,由顯著性圖得出不同宏塊的視覺重要權(quán)重,并相應(yīng)地采用不同的DCT系數(shù)抑制矩陣。在抑制過程中,根據(jù)宏塊視覺重要程度的不同,宏塊的高頻系數(shù)也不同程度的裁減掉。這樣,節(jié)省了非感興趣區(qū)域的比特消耗,進而將更多的比特資源分配到感興趣區(qū)域,提高主觀的視頻質(zhì)量。

2.2.2 基于感興趣區(qū)域和中央凹特性聯(lián)合的編碼方法

由HVS中央凹特性可知,相對于注視點中心區(qū)域,HVS對離注視點較遠的圖像區(qū)域的細節(jié)分辨能力較低,因此應(yīng)當適當提高注視點中心區(qū)域的編碼質(zhì)量。將中央凹特性集成到基于感興趣區(qū)域的編碼方法中可以更好地消除視覺冗余并且提高視頻的主觀感受。文獻[23]提出了一種類似具有中央凹特性的濾波器的來減小視頻圖像在空間上的分辨率,并應(yīng)用濾波后的圖像優(yōu)化視頻編碼時的碼率控制技術(shù)。文獻[24]考慮顏色、方向、灰度、運動等因素構(gòu)造了一個自下而上的顯著性模型來確定視頻圖像中存在的注意焦點,然后以注意焦點為中心,通過模擬中央凹的空間分辨率變化規(guī)律,對視頻內(nèi)容進行低通濾波,最后對濾波后的視頻進行編碼。這樣在注意焦點上保留更多圖像細節(jié)的同時減少了背景圖像的高頻成分,提高了編碼效率。文獻[25]提出了一種自動選取注意焦點的可伸縮視覺感知編碼方法,該方法可以根據(jù)視頻場景自動地確定多個注意焦點,并根據(jù)視頻的內(nèi)容和網(wǎng)絡(luò)帶寬的情況進行可伸縮編碼。該方法還應(yīng)用了一種自適應(yīng)的幀預測算法,該算法能夠有效地減少幀間預測時的誤差積累,減小預測誤差,提高視頻壓縮算法的性能。

基于感興趣區(qū)域和中央凹特性聯(lián)合的編碼方法雖然能夠提供更好的主觀視頻感受,但是自動選取注意焦點和視覺注意力模型的計算復雜度很高,而編碼的性能又主要依賴于以上二者的精確程度。所以,該方法很難應(yīng)用于實時的視頻通信場合中。

2.3 混合的編碼方法

混合的編碼方法是基于視覺敏感度的編碼方法和基于視覺注意的編碼方法的綜合,其編碼結(jié)果能夠進一步提高視頻的主觀質(zhì)量。比如文獻[26]提出了一種包含視覺敏感性、視覺注意和中央凹特性的FJND(Foveated Just-Noticeable-Distortion)模型。由中央凹特性可知,隨著離心率的增大,HVS對圖像細節(jié)分辨能力將逐漸下降,所以JND門限也應(yīng)相應(yīng)提高。該FJND模型能夠更好地消除全局的視覺冗余。實驗表明,將其應(yīng)用在H.264/AVC視頻編碼框架上可以明顯提高視頻的主觀質(zhì)量,并降低碼率。類似的還有文獻[27-28]。文獻[29-30]提出了一種基于視覺失真敏感度的比特分配算法。由于人眼對運動的物體和結(jié)構(gòu)性紋理較為敏感,此算法綜合考慮了視頻內(nèi)容的運動注意特性和紋理信息,得到視覺失真敏感值并根據(jù)此值調(diào)整宏塊級的量化步長。通過對視覺敏感度的分析可以把較少的比特分配到人眼對失真不敏感的區(qū)域,以達到節(jié)省比特的目的。文獻[31]利用膚色檢測算法,確定感興趣區(qū)域,并結(jié)合亮度和紋理信息對失真的掩蔽效應(yīng),確定不同區(qū)域的量化步長。這樣可以自適應(yīng)的為視頻內(nèi)容的前景和背景分配比特資源。但是由于該方法忽視了時域上的視覺特征,而且只能應(yīng)用在視頻電話場合,因此使用范圍較窄。文獻[32]綜合了視覺注意力模型、眼動機制、視覺敏感度模型和掩蔽效應(yīng)模型得到一個時空域失真掩蔽度量值。該模型通過運動的強度和方向確定感興趣區(qū)域,然后對于非感興趣區(qū)域的宏塊,由空間頻率和塊的運動速度篩選出人眼不敏感的DCT系數(shù),通過上述系數(shù)的掩蔽門限得到該宏塊的時空域失真掩蔽度量值并由此值調(diào)整宏塊的量化參數(shù)。文獻[33]提出了一種更加符合人眼特性的率失真優(yōu)化算法。首先,該算法根據(jù)SSIM衡量重建塊的失真程度,這與人對失真的主觀感受更加相符。然后,通過DCT系數(shù)的標準差來確定拉格朗日因子,由于DCT系數(shù)的標準差能在一定程度上反映輸入視頻序列的特性,所以該方法具有一定的內(nèi)容自適應(yīng)性。最后,利用人眼對不同視頻區(qū)域失真程度注意度不同的特點,利用視頻畫面的顯著性圖來確定宏塊的顯著性系數(shù),并由顯著性系數(shù)調(diào)整計算率失真代價時的失真權(quán)重。實驗表明,該方法能節(jié)省相當?shù)谋忍刭Y源,同時能提高感興趣區(qū)域的主觀視頻質(zhì)量。

混合的編碼方法能夠更好地模擬HVS的特性,較大程度地壓縮視覺冗余。但是如何降低計算復雜度是混合編碼方法面臨的一大難題。

3 結(jié)束語

本文介紹了人類視覺系統(tǒng)的特性,并總結(jié)了視覺感知編碼方法的研究現(xiàn)狀。分別詳細介紹了基于視覺敏感度的編碼方法、基于視覺注意的編碼方法和混合的編碼方法,并闡述了各類方法的優(yōu)點和局限性。

隨著視覺感知模型的發(fā)展和3D視頻、計算機圖形學以及高動態(tài)光照渲染視頻等應(yīng)用的普及,視覺感知編碼技術(shù)的應(yīng)用領(lǐng)域日益擴大。并且,由于人們對多媒體娛樂等視頻應(yīng)用的期望越來越高,給多媒體服務(wù)帶了新的需求和挑戰(zhàn),如何應(yīng)用視覺感知原理改善用戶體驗也是視覺感知編碼的一項重大任務(wù)之一。

雖然研究人員在視覺感知編碼領(lǐng)域已經(jīng)取得了很大的成就,但是很多研究工作還有待完善。目前,視覺感知編碼可從以下幾個方面展開研究:1)更深入地探索人類視覺系統(tǒng)的特性;2)提高視覺感知編碼的編碼性能,進一步壓縮視覺冗余;3)降低視覺感知編碼的計算復雜度;4)隨著3D技術(shù)的日益成熟,如何將視覺感知編碼技術(shù)融入3D技術(shù)也是一個很大的挑戰(zhàn)。更多跨學科的研究工作有望在視覺感知編碼領(lǐng)域?qū)崿F(xiàn)新的突破。

:

[1]WINKLER S.Digital video quality:vision models and metrics[M].New York:John Wiley&Sons,2005.

[2]鄭雅羽.基于視覺感知的H.264感興趣區(qū)域編碼研究[D].杭州:浙江大學,2008.

[3]CHOU C H,CHEN C W.A perceptually optimized 3-D subband codec for video communication over wireless channels[J].IEEE Trans.Circuits and Systems for Video Technology,1996,6(2):143-156.

[4]YANG X K,LIN W,LU Z K,et al.Just noticeable distortion model and its applications in video coding[J].Signal Process:Image Commun ication,2005(20):662-680.

[5]JIA Y,LIN W,KASSIM A A.Estimating just-noticeable distortion for video[J].IEEE Trans.Circuits And Systems for Video Technology,2006,16(7):820-829.

[6]WEI Z,NGAN K N.Spatio-temporal just noticeable distortion profile for grey scale image/video in DCT domain[J].IEEE Trans.Circuits and Systems for Video Technology,2009,19(3):337-346.

[7]WANG Z,BOVIK A C,SHEIKH H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans.Image Prosess,2004,13(4):600-612.

[8]MAI Z Y,YANG C L,KUANG K Z,et al.A novel motion estimation method based on structural similarity for H.264 inter prediction[C]//Proc.2006 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP 2006).Toulouse,F(xiàn)rance:IEEE Press,2006:913-916.

[9]YANG C,LEUNG R,PO L,et al.An SSIM-optimal H.264/AVC inter frame encoder[C]//Proc.ICIS.Shanghai:[s.n.],2009:291-295.

[10]HUANG Y,OU T,SU P,et al.Perceptual rate-distortion optimization using structural similarity index as quality metric[J].IEEE Trans.Circuits and Systems for Video Technology,2010(20):1614-1624.

[11]WANG S,MA S,GAO W.SSIM based perceptual distortion rate optimization coding[C]//Proc.VCIP .Huangshan:[s.n.],2010:1-10.

[12]OU T,HUANG Y,CHEN H.A perceptual-based approach to bit allocation for H.264 encoder[C]//Proc.VCIP.Huangshan:[s.n.],2010:7741.

[13]WANG S Q,REHMAN A,WANG Z,et al.SSIM-Inspired divisive normalization for perceptual video coding[C]//Proc.International Conference on Image Processing,2011.[S.l.]:IEEE Press,2011:1657-1660.

[14]MINOO K,NGUYEN T Q.Perceptual video coding with H.264[C]//Proc.39th Asilomar Conference on Signals,Systems,and Computers.Pacific Grove,CA:[s.n.],2005:741-745.

[15]CHEN J,ZHENG J,HE Y.Macroblock-level adaptive frequency weighting for perceptual video coding[J].IEEE Trans.Consumer Electronics,2007,53(2):775-781.

[16]CHEN M J,CHI M C,Hsu C T,et al.ROI video coding based on H.263+with robust skin-color detection technique[J].IEEE Trans.Consumer Electronics,2003,49(3):724-730.

[17]CHI M C,JHU J A,CHEN M J,et al.H.263+region-of-interest video coding with efficient skin-color extraction[C]//Proc.Consumer Electronics,2006.[S.l.]:IEEE Press,2006:381-382.

[18]WANG Minghui,ZHANG Tianruo,LIU Chen.Region-of-Interest based H.264 encoding parameter allocation for low power video communication[C]//Proc.Signal Processing & Its Applications.Kuala Lumpur:IEEE Press,2009:233-237.

[19]LIU Zhi,YAN Hongbo,SHEN Liquan,et al.A motion attention model based rate control algorithm for H.264/AVC[C]//Proc.Computer and Information Science.Shanghai:[s.n.],2009:568-573.

[20]LIU Yang,LI Zhengguo,SOH Y C .Region-of-Interest based resource allocation for conversational video vommunication of H.264/AVC[J].Circuits and Systems for Video,2008,18(1):134-139.

[21]CHIANG J C,HSIEH C S,CHANG G,et al.Region-of-interest based rate control scheme with flexible quality on demand[C]//Proc.Multimedia and Expo(ICME),2010.[S.l.]:IEEE Press,2010:238-242.

[22]ZHENG Yayu,F(xiàn)ENG Jie,MA Hanjie,et al.H.264 ROI coding based on visual perception[C]//Proc.Visual Information Engineering.Xi'an,China:[s.n.],2008:829-834.

[23]LEE S,PATTICHIS M S,BOVIK A C.Foveated video compression with optimal rate control[J].IEEE Trans.Image Process.,2001,10(7):977-992.

[24]ITTI L.Automatic foveation for video compression using a neurobiological model of visual attention[J].IEEE Trans.Image Proces.,2004,13(10):1304-1318.

[25]WANG Z,LU L,BOVIK A C.Foveation scalable video coding with automatic fixation selection[J].IEEE Trans.Image Process.,2003,12(2):243-254.

[26]CHEN Z,GUILLEMOT C.Perception-oriented video coding based on foveated JND Model[C]//Proc.Picture Coding Symposium,2009.Chicago:IEEE Press,2009:1-4.

[27]CHEN Z,GUILLEMOT C.Perceptually-Friendly H.264/AVC Video Coding[C]//Proc.Image Processing(ICIP),2009.Cairo:IEEE Press,2009:3417-3420.

[28]CHEN Z,GUILLEMOT C.Perceptually-friendly H.264/AVC video coding based on foveated just-noticeable-distortion model[J].IEEE Trans.Circuits and Systems for Video Technology,2010,20(6):806-819.

[29]TANG C W,CHEN C H,YU Y H,et al.Visual sensitivity guided bit allocation for video coding[J].IEEE Trans.Multimedia,2006,8(1):11-18.

[30]SUN C,WANG H J,KIM T H,et al.Perceptually adaptive Lagrange multiplier for rate-distortion optimization in H.264[C]//Proc.Future Generation Communication and Networking(FGCN 2007).Jeju:IEEE Press,2007:459-463.

[31]YANG X,LIN W,LU Z,et al.Rate control for videophone using local perceptual cues[J].IEEE Trans.Circuits System Video Technology,2005,15(4):496 –507.

[32]TANG C W.Spatiotemporal visual considerations for video coding[J].IEEE Trans.Multimedia,2007,9(2):231-238.

[33]WANG X,SU L,HUANG Q M,et al.Visual perception based lagrangian rate distortion optimization for video cxoding[C]//Proc.Image Processing(ICIP),2011.Brussels:IEEE Press,2011:1653-1656.

Overview of Perceptual Video Coding

ZHANG Qian,ZHANG Yuan,ZHAO Zhijun

(Information Engineering School,Communication University of China,Beijing 100024,China)

This paper reviews the methods of perceptual video coding.First,the physiological characteristics of HVS are introduced.Then,the development status of various methods of perceptual video coding is reviewed.Finally,future directions and challenges related to perceptual video coding are briefly discussed.

video coding;perception;HVS

TN919.81

A

【本文獻信息】張倩,張遠,趙志軍.視覺感知編碼方法綜述[J].電視技術(shù),2013,37(3).

國家自然科學基金項目(61001177)

張 倩(1988— ),女,碩士生,主研視頻編碼;

張 遠(1973— ),女,教授,主研視頻處理與通信;

趙志軍(1970— ),女,副教授,主研數(shù)字電視技術(shù)。

責任編輯:魏雨博

2012-07-29

猜你喜歡
編碼方法宏塊感興趣
更 正
含能材料(2021年1期)2021-01-10 08:34:34
可變摩擦力觸感移動終端的漢語盲文編碼設(shè)計
毫米波大規(guī)模MIMO系統(tǒng)中低復雜度混合預編碼方法
電信科學(2016年9期)2016-06-15 20:27:30
這樣的智能廚房臺面,你會感興趣嗎?
基于選擇特征宏塊的快速視頻穩(wěn)像
一種新的星載InSAR直接地理編碼方法
夢斷交易會
興趣英語(2013年9期)2013-11-28 05:49:22
淺析公路工程物資的分類及編碼方法
基于宏塊合并的H.264模式選擇算法
一種適合硬件實現(xiàn)的低復雜度MAD預測算法
建平县| 锦屏县| 根河市| 镇宁| 永登县| 蓝山县| 天镇县| 齐河县| 腾冲县| 凤台县| 曲松县| 安远县| 邛崃市| 阜平县| 郧西县| 青河县| 怀宁县| 郴州市| 邻水| 定西市| 海晏县| 水富县| 南召县| 深州市| 易门县| 遵义市| 翁源县| 五常市| 阿拉善左旗| 西乌珠穆沁旗| 乌拉特中旗| 吴旗县| 临沂市| 双牌县| 周至县| 安徽省| 会宁县| 大宁县| 土默特右旗| 方正县| 镇原县|